Apa itu Token (di LLM)?
Unit terkecil yang diproses LLM — bukan kata, tapi fragmen. Token menentukan biaya API dan batas konteks.
Token adalah unit terkecil yang diproses LLM. Token BUKAN sama dengan kata — ia adalah fragmen kata, terkadang seluruh kata pendek, terkadang sebagian kata.
Contoh
"Tokenization is fun!" → 5 token:
["Token", "ization", " is", " fun", "!"]
Untuk bahasa non-Inggris dengan diakritik atau aksara non-Latin (Indonesia, Vietnam, Thailand, Mandarin, Arab), ide yang sama membutuhkan lebih banyak token — sering 1,5-3× lebih banyak daripada Inggris dengan makna setara.
Mengapa token penting
1. Mendorong biaya
Sebagian besar API LLM dihargai per token:
- Claude Sonnet: ~$3 / 1 juta token input, $15 / 1 juta output
- GPT-4o: ~$2,5 / 1 juta input, $10 / 1 juta output
Prompt 1000 kata kira-kira 1300 token. Biaya cepat menumpuk pada banyak panggilan.
2. Membatasi context window
Setiap model memiliki maksimum token per panggilan (input + output digabungkan):
- GPT-4o: 128k token (~96k kata Inggris)
- Claude 4.7: 200k - 1 juta token
- Gemini 2.5: 2 juta token
Melebihi batas → permintaan gagal. Anda perlu RAG atau peringkasan.
3. Menentukan kecepatan
Lebih banyak token → respons lebih lambat. Streaming mengembalikan satu token sekaligus.
Cara menghitung token
- OpenAI: tiktoken (https://platform.openai.com/tokenizer)
- Anthropic: API
count_tokens - Aturan cepat: 1 token ≈ 0,75 kata Inggris
Cara menghemat token
- Pangkas kalimat berbusa di prompt
- Gunakan prompt caching jika tersedia
- Minta singkat (“Balas maksimal 3 kalimat”)
- Gunakan model lebih kecil untuk tugas sederhana (Claude Haiku alih-alih Sonnet)