ky-thuat Pemula

Apa itu Context Window?

Jumlah teks maksimum yang bisa 'diingat' LLM dalam satu kali pemrosesan. Menentukan seberapa banyak informasi yang bisa Anda masukkan ke prompt.

Diperbarui: 5 Mei 2026 · 1 min read

Context Window (jendela konteks) adalah jumlah maksimum token yang bisa diproses LLM dalam satu panggilan — termasuk prompt Anda dan jawaban model.

Perbandingan model (2026)

Model	Context Window	Setara dengan
GPT-3.5	16k	~30 halaman A4
GPT-4o	128k	~250 halaman
Claude 4.7 Sonnet	200k - 1M	400 - 2000 halaman
Gemini 2.5 Pro	2M	~4000 halaman (satu buku tebal)
Llama 3.3	128k	~250 halaman

Mengapa context window penting?

Keuntungan saat context besar

Memasukkan seluruh dokumen ke prompt tanpa perlu RAG yang rumit
Percakapan panjang (ChatGPT mengingat chat sebulan terakhir)
Menganalisis seluruh codebase atau buku dalam satu panggilan

Kekurangan

Mahal — dihitung per token. Memasukkan satu buku = bayar mahal
Lambat — semakin panjang context, semakin lama model menjawab
Encer — model bisa melewatkan informasi di tengah context yang panjang (efek “lost in the middle”)
Reliabilitas rumit — RAG tetap dianjurkan saat dokumen sangat besar

Aturan praktis

Situasi	Solusi
< 50 halaman dokumen	Masukkan langsung ke prompt
50 - 500 halaman	Pertimbangkan context besar (Claude 1M, Gemini 2M)
> 500 halaman	Pakai RAG, jangan brute force
Percakapan panjang	Pakai prompt caching agar hemat

Tips memanfaatkan context window

Letakkan pertanyaan/instruksi PENTING di AWAL dan AKHIR — agar tidak encer
Susun prompt yang jelas dengan XML tag (Claude) atau heading markdown
Gunakan prompt cache jika menggunakan kembali context yang sama (hemat biaya hingga 90%)

Terkait

Token
RAG — saat context tidak cukup

Tag

#context#llm#token