ky-thuat Cơ bản
Context Window là gì?
Lượng văn bản tối đa mà LLM có thể 'nhớ' trong 1 lần xử lý. Quyết định bạn có thể đưa bao nhiêu thông tin vào prompt.
Cập nhật: 2 tháng 5, 2026 · 2 phút đọc
Context Window (cửa sổ ngữ cảnh) là số token tối đa mà LLM có thể xử lý trong một lần gọi — bao gồm cả prompt của bạn lẫn câu trả lời của model.
So sánh các model (2026)
| Model | Context Window | Tương đương |
|---|---|---|
| GPT-3.5 | 16k | ~30 trang A4 |
| GPT-4o | 128k | ~250 trang |
| Claude 4.7 Sonnet | 200k - 1M | 400 - 2000 trang |
| Gemini 2.5 Pro | 2M | ~4000 trang (cả cuốn sách dày) |
| Llama 3.3 | 128k | ~250 trang |
Tại sao context window quan trọng?
Ưu điểm khi context lớn
- Đưa cả tài liệu vào prompt mà không cần RAG phức tạp
- Cuộc hội thoại dài (ChatGPT nhớ cả tháng chat trước)
- Phân tích cả codebase, cả cuốn sách trong 1 lần
Nhược điểm
- Đắt — tính tiền theo token. Đưa cả sách vào = trả nhiều
- Chậm — context càng dài, model trả lời càng lâu
- Loãng — model có thể bỏ sót thông tin ở giữa context dài (hiệu ứng “lost in the middle”)
- Phức tạp về độ tin cậy — vẫn nên dùng RAG khi tài liệu khổng lồ
Quy tắc thực dụng
| Tình huống | Giải pháp |
|---|---|
| < 50 trang tài liệu | Đưa thẳng vào prompt |
| 50 - 500 trang | Cân nhắc context lớn (Claude 1M, Gemini 2M) |
| > 500 trang | Dùng RAG, không nên brute force |
| Hội thoại dài | Dùng prompt caching để tiết kiệm |
Mẹo tận dụng context window
- Đặt câu hỏi/instruction QUAN TRỌNG ở ĐẦU và CUỐI — tránh bị loãng
- Cấu trúc prompt rõ ràng với XML tag (Claude) hoặc markdown heading
- Dùng prompt cache nếu reuse cùng context nhiều lần (giảm 90% chi phí)
Liên quan
Thẻ
#context#llm#token