Apa itu Transformer?
Arsitektur neural network yang diperkenalkan tahun 2017, fondasi di balik semua LLM modern (GPT, Claude, Gemini).
Transformer adalah arsitektur neural network yang diperkenalkan dalam paper “Attention Is All You Need” (Google, 2017). Ini adalah fondasi di balik semua LLM modern — GPT, Claude, Gemini, Llama semuanya merupakan varian Transformer.
Mengapa Transformer revolusioner?
Sebelum Transformer, LLM menggunakan RNN/LSTM untuk memproses sekuens secara berurutan (token ini menunggu token sebelumnya selesai baru jalan). Masalahnya:
- Lambat saat training (tidak bisa di-parallelize)
- Lupa context yang jauh
- Sulit di-scale ke data besar
Transformer menyelesaikannya dengan attention mechanism: setiap token melihat SEMUA token lain sekaligus dan memutuskan sendiri “saya perlu memperhatikan siapa”.
→ Bisa di-train paralel di GPU → bisa di-scale hingga ratusan miliar parameter dalam waktu yang masuk akal.
Apa itu Attention?
Untuk kalimat: "The cat sat on the mat because it was tired". Saat memproses kata "it", attention memungkinkan model belajar untuk melihat ke "cat" (bukan "mat") untuk memahami bahwa "it" merujuk ke kucing.
Spesifiknya: setiap token menghasilkan 3 vector — Query, Key, Value (Q, K, V). Skor attention = Q · K. Token dengan skor tinggi maka Value-nya akan “diperhatikan” lebih banyak.
Struktur sederhana
Input tokens
↓
[Embedding + Positional Encoding]
↓
[Multi-Head Self-Attention] ← bagian "revolusioner"
↓
[Feed-Forward Network]
↓
... diulang N kali (12, 24, 96, ...)
↓
Output token
GPT-4 diperkirakan punya ~120 layer Transformer ditumpuk.
Varian Transformer
- Encoder-only (BERT): memahami teks, tidak menghasilkan
- Decoder-only (GPT, Claude, Llama): menghasilkan teks — arsitektur dari hampir semua LLM modern
- Encoder-Decoder (T5, Transformer asli): mesin penerjemah, summarization
Selain LLM, di mana lagi Transformer dipakai?
- Vision Transformer (ViT): memproses gambar
- AlphaFold: memprediksi struktur protein
- Whisper: speech-to-text
- Stable Diffusion: bagian text-encoder
→ Transformer telah menjadi “arsitektur serba guna” dari deep learning modern.
Bacaan tambahan
- Paper asli: “Attention Is All You Need” — Vaswani et al., 2017
- Terkait: LLM, Deep Learning