Transformer là gì?
Kiến trúc neural network được giới thiệu năm 2017, là nền tảng đứng sau mọi LLM hiện nay (GPT, Claude, Gemini).
Transformer là kiến trúc neural network được giới thiệu trong paper “Attention Is All You Need” (Google, 2017). Đây là nền tảng đứng sau mọi LLM hiện nay — GPT, Claude, Gemini, Llama đều là Transformer biến thể.
Vì sao Transformer cách mạng?
Trước Transformer, LLM dùng RNN/LSTM xử lý chuỗi tuần tự (token này đợi token trước xong mới chạy). Vấn đề:
- Chậm khi train (không parallelize được)
- Quên context xa
- Khó scale lên dữ liệu lớn
Transformer giải quyết bằng attention mechanism: mỗi token nhìn vào TOÀN BỘ các token khác cùng lúc và tự quyết định “tôi cần chú ý vào ai”.
→ Train song song được trên GPU → scale lên hàng trăm tỷ parameter trong thời gian chấp nhận được.
Attention là gì?
Cho câu: "The cat sat on the mat because it was tired". Khi xử lý từ "it", attention cho phép model học cách nhìn về "cat" (chứ không phải "mat") để hiểu "it" chỉ con mèo.
Cụ thể: mỗi token tạo ra 3 vector — Query, Key, Value (Q, K, V). Attention score = Q · K. Token nào có score cao thì Value của nó được “chú ý” nhiều hơn.
Cấu trúc đơn giản
Input tokens
↓
[Embedding + Positional Encoding]
↓
[Multi-Head Self-Attention] ← phần "cách mạng"
↓
[Feed-Forward Network]
↓
... lặp lại N lần (12, 24, 96, ...)
↓
Output token
GPT-4 ước tính có ~120 lớp Transformer xếp chồng.
Transformer biến thể
- Encoder-only (BERT): hiểu văn bản, không sinh
- Decoder-only (GPT, Claude, Llama): sinh văn bản — kiến trúc của hầu hết LLM hiện đại
- Encoder-Decoder (T5, original Transformer): dịch máy, summarization
Ngoài LLM, Transformer còn ở đâu?
- Vision Transformer (ViT): xử lý ảnh
- AlphaFold: dự đoán cấu trúc protein
- Whisper: speech-to-text
- Stable Diffusion: phần text-encoder
→ Transformer đã trở thành “kiến trúc đa năng” của deep learning hiện đại.
Đọc thêm
- Paper gốc: “Attention Is All You Need” — Vaswani et al., 2017
- Liên quan: LLM, Deep Learning