mo-hinh Lanjutan

Apa itu Transformer?

Arsitektur neural network yang diperkenalkan tahun 2017, fondasi di balik semua LLM modern (GPT, Claude, Gemini).

Diperbarui: 5 Mei 2026 · 2 min read

Transformer adalah arsitektur neural network yang diperkenalkan dalam paper “Attention Is All You Need” (Google, 2017). Ini adalah fondasi di balik semua LLM modern — GPT, Claude, Gemini, Llama semuanya merupakan varian Transformer.

Mengapa Transformer revolusioner?

Sebelum Transformer, LLM menggunakan RNN/LSTM untuk memproses sekuens secara berurutan (token ini menunggu token sebelumnya selesai baru jalan). Masalahnya:

Lambat saat training (tidak bisa di-parallelize)
Lupa context yang jauh
Sulit di-scale ke data besar

Transformer menyelesaikannya dengan attention mechanism: setiap token melihat SEMUA token lain sekaligus dan memutuskan sendiri “saya perlu memperhatikan siapa”.

→ Bisa di-train paralel di GPU → bisa di-scale hingga ratusan miliar parameter dalam waktu yang masuk akal.

Apa itu Attention?

Untuk kalimat: "The cat sat on the mat because it was tired". Saat memproses kata "it", attention memungkinkan model belajar untuk melihat ke "cat" (bukan "mat") untuk memahami bahwa "it" merujuk ke kucing.

Spesifiknya: setiap token menghasilkan 3 vector — Query, Key, Value (Q, K, V). Skor attention = Q · K. Token dengan skor tinggi maka Value-nya akan “diperhatikan” lebih banyak.

Struktur sederhana

Input tokens
    ↓
[Embedding + Positional Encoding]
    ↓
[Multi-Head Self-Attention] ← bagian "revolusioner"
    ↓
[Feed-Forward Network]
    ↓
... diulang N kali (12, 24, 96, ...)
    ↓
Output token

GPT-4 diperkirakan punya ~120 layer Transformer ditumpuk.

Varian Transformer

Encoder-only (BERT): memahami teks, tidak menghasilkan
Decoder-only (GPT, Claude, Llama): menghasilkan teks — arsitektur dari hampir semua LLM modern
Encoder-Decoder (T5, Transformer asli): mesin penerjemah, summarization

Selain LLM, di mana lagi Transformer dipakai?

Vision Transformer (ViT): memproses gambar
AlphaFold: memprediksi struktur protein
Whisper: speech-to-text
Stable Diffusion: bagian text-encoder

→ Transformer telah menjadi “arsitektur serba guna” dari deep learning modern.

Bacaan tambahan

Paper asli: “Attention Is All You Need” — Vaswani et al., 2017
Terkait: LLM, Deep Learning

Tag

#transformer#deep-learning#attention