ky-thuat Trung cấp
RAG (Retrieval-Augmented Generation) là gì?
Kỹ thuật cho AI tra cứu tài liệu của bạn trước khi trả lời, giúp giảm bịa và trả lời sát thực tế.
Cập nhật: 2 tháng 5, 2026 · 1 phút đọc
RAG (Retrieval-Augmented Generation — Sinh có hỗ trợ truy xuất) là kỹ thuật cho phép AI tra cứu một kho tài liệu trước khi trả lời câu hỏi.
Cách hoạt động
- Bạn có một kho tài liệu (PDF, web, database…)
- Hệ thống chuyển từng đoạn thành embedding (vector số)
- Khi user hỏi, câu hỏi cũng chuyển thành embedding
- Tìm các đoạn gần nhất với câu hỏi
- Đưa các đoạn đó vào prompt cùng câu hỏi → AI trả lời dựa trên đó
Vì sao cần RAG?
- LLM được train tới một mốc thời gian → không biết thông tin mới
- LLM hay bịa khi không biết → RAG buộc nó dựa vào nguồn cụ thể
- Bạn không thể đưa cả terabyte tài liệu vào prompt → RAG chỉ lấy phần liên quan
Ví dụ
Một ngân hàng làm chatbot trả lời thắc mắc khách hàng. Họ KHÔNG fine-tune LLM (đắt, chậm) — họ dùng RAG: khi khách hỏi “lãi suất tiết kiệm 6 tháng?”, hệ thống tra cứu file biểu phí mới nhất, đưa cho LLM, LLM trả lời với số liệu chính xác.
Khi nào dùng
- Có kho tài liệu nội bộ cần AI tra cứu
- Cần trả lời cập nhật theo dữ liệu mới
- Cần giảm hallucination
Khi nào KHÔNG dùng
- Câu hỏi không cần kiến thức ngoài (vd: “viết email xin nghỉ”)
- Tài liệu nhỏ (< 100 trang) → đưa thẳng vào context window
Thẻ
#rag#llm#vector-db