ky-thuat Cơ bản

Context Window là gì?

Lượng văn bản tối đa mà LLM có thể 'nhớ' trong 1 lần xử lý. Quyết định bạn có thể đưa bao nhiêu thông tin vào prompt.

Cập nhật: 2 tháng 5, 2026 · 2 phút đọc

Context Window (cửa sổ ngữ cảnh) là số token tối đa mà LLM có thể xử lý trong một lần gọi — bao gồm cả prompt của bạn lẫn câu trả lời của model.

So sánh các model (2026)

Đắt — tính tiền theo token. Đưa cả sách vào = trả nhiều
Chậm — context càng dài, model trả lời càng lâu
Loãng — model có thể bỏ sót thông tin ở giữa context dài (hiệu ứng “lost in the middle”)
Phức tạp về độ tin cậy — vẫn nên dùng RAG khi tài liệu khổng lồ

Tình huống	Giải pháp
< 50 trang tài liệu	Đưa thẳng vào prompt
50 - 500 trang	Cân nhắc context lớn (Claude 1M, Gemini 2M)
> 500 trang	Dùng RAG, không nên brute force
Hội thoại dài	Dùng prompt caching để tiết kiệm

Thẻ

#context#llm#token