S Sổ Tay AI
ky-thuat Cơ bản

Context Window là gì?

Lượng văn bản tối đa mà LLM có thể 'nhớ' trong 1 lần xử lý. Quyết định bạn có thể đưa bao nhiêu thông tin vào prompt.

Cập nhật: 2 tháng 5, 2026 · 2 phút đọc

Context Window (cửa sổ ngữ cảnh) là số token tối đa mà LLM có thể xử lý trong một lần gọi — bao gồm cả prompt của bạn lẫn câu trả lời của model.

So sánh các model (2026)

ModelContext WindowTương đương
GPT-3.516k~30 trang A4
GPT-4o128k~250 trang
Claude 4.7 Sonnet200k - 1M400 - 2000 trang
Gemini 2.5 Pro2M~4000 trang (cả cuốn sách dày)
Llama 3.3128k~250 trang

Tại sao context window quan trọng?

Ưu điểm khi context lớn

  • Đưa cả tài liệu vào prompt mà không cần RAG phức tạp
  • Cuộc hội thoại dài (ChatGPT nhớ cả tháng chat trước)
  • Phân tích cả codebase, cả cuốn sách trong 1 lần

Nhược điểm

  • Đắt — tính tiền theo token. Đưa cả sách vào = trả nhiều
  • Chậm — context càng dài, model trả lời càng lâu
  • Loãng — model có thể bỏ sót thông tin ở giữa context dài (hiệu ứng “lost in the middle”)
  • Phức tạp về độ tin cậy — vẫn nên dùng RAG khi tài liệu khổng lồ

Quy tắc thực dụng

Tình huốngGiải pháp
< 50 trang tài liệuĐưa thẳng vào prompt
50 - 500 trangCân nhắc context lớn (Claude 1M, Gemini 2M)
> 500 trangDùng RAG, không nên brute force
Hội thoại dàiDùng prompt caching để tiết kiệm

Mẹo tận dụng context window

  • Đặt câu hỏi/instruction QUAN TRỌNG ở ĐẦU và CUỐI — tránh bị loãng
  • Cấu trúc prompt rõ ràng với XML tag (Claude) hoặc markdown heading
  • Dùng prompt cache nếu reuse cùng context nhiều lần (giảm 90% chi phí)

Liên quan

  • Token
  • RAG — khi context không đủ
Thẻ
#context#llm#token