mo-hinh Nâng cao

Transformer là gì?

Kiến trúc neural network được giới thiệu năm 2017, là nền tảng đứng sau mọi LLM hiện nay (GPT, Claude, Gemini).

Cập nhật: 2 tháng 5, 2026 · 2 phút đọc

Transformer là kiến trúc neural network được giới thiệu trong paper “Attention Is All You Need” (Google, 2017). Đây là nền tảng đứng sau mọi LLM hiện nay — GPT, Claude, Gemini, Llama đều là Transformer biến thể.

Vì sao Transformer cách mạng?

Trước Transformer, LLM dùng RNN/LSTM xử lý chuỗi tuần tự (token này đợi token trước xong mới chạy). Vấn đề:

Chậm khi train (không parallelize được)
Quên context xa
Khó scale lên dữ liệu lớn

Transformer giải quyết bằng attention mechanism: mỗi token nhìn vào TOÀN BỘ các token khác cùng lúc và tự quyết định “tôi cần chú ý vào ai”.

→ Train song song được trên GPU → scale lên hàng trăm tỷ parameter trong thời gian chấp nhận được.

Attention là gì?

Cho câu: "The cat sat on the mat because it was tired". Khi xử lý từ "it", attention cho phép model học cách nhìn về "cat" (chứ không phải "mat") để hiểu "it" chỉ con mèo.

Cụ thể: mỗi token tạo ra 3 vector — Query, Key, Value (Q, K, V). Attention score = Q · K. Token nào có score cao thì Value của nó được “chú ý” nhiều hơn.

Cấu trúc đơn giản

Input tokens
    ↓
[Embedding + Positional Encoding]
    ↓
[Multi-Head Self-Attention] ← phần "cách mạng"
    ↓
[Feed-Forward Network]
    ↓
... lặp lại N lần (12, 24, 96, ...)
    ↓
Output token

GPT-4 ước tính có ~120 lớp Transformer xếp chồng.

Transformer biến thể

Encoder-only (BERT): hiểu văn bản, không sinh
Decoder-only (GPT, Claude, Llama): sinh văn bản — kiến trúc của hầu hết LLM hiện đại
Encoder-Decoder (T5, original Transformer): dịch máy, summarization

Ngoài LLM, Transformer còn ở đâu?

Vision Transformer (ViT): xử lý ảnh
AlphaFold: dự đoán cấu trúc protein
Whisper: speech-to-text
Stable Diffusion: phần text-encoder

→ Transformer đã trở thành “kiến trúc đa năng” của deep learning hiện đại.

Đọc thêm

Paper gốc: “Attention Is All You Need” — Vaswani et al., 2017
Liên quan: LLM, Deep Learning

Thẻ

#transformer#deep-learning#attention