ky-thuat Trung cấp

RAG (Retrieval-Augmented Generation) là gì?

Kỹ thuật cho AI tra cứu tài liệu của bạn trước khi trả lời, giúp giảm bịa và trả lời sát thực tế.

Cập nhật: 2 tháng 5, 2026 · 1 phút đọc

RAG (Retrieval-Augmented Generation — Sinh có hỗ trợ truy xuất) là kỹ thuật cho phép AI tra cứu một kho tài liệu trước khi trả lời câu hỏi.

Cách hoạt động

Bạn có một kho tài liệu (PDF, web, database…)
Hệ thống chuyển từng đoạn thành embedding (vector số)
Khi user hỏi, câu hỏi cũng chuyển thành embedding
Tìm các đoạn gần nhất với câu hỏi
Đưa các đoạn đó vào prompt cùng câu hỏi → AI trả lời dựa trên đó

Vì sao cần RAG?

LLM được train tới một mốc thời gian → không biết thông tin mới
LLM hay bịa khi không biết → RAG buộc nó dựa vào nguồn cụ thể
Bạn không thể đưa cả terabyte tài liệu vào prompt → RAG chỉ lấy phần liên quan

Ví dụ

Một ngân hàng làm chatbot trả lời thắc mắc khách hàng. Họ KHÔNG fine-tune LLM (đắt, chậm) — họ dùng RAG: khi khách hỏi “lãi suất tiết kiệm 6 tháng?”, hệ thống tra cứu file biểu phí mới nhất, đưa cho LLM, LLM trả lời với số liệu chính xác.

Khi nào dùng

Có kho tài liệu nội bộ cần AI tra cứu
Cần trả lời cập nhật theo dữ liệu mới
Cần giảm hallucination

Khi nào KHÔNG dùng

Câu hỏi không cần kiến thức ngoài (vd: “viết email xin nghỉ”)
Tài liệu nhỏ (< 100 trang) → đưa thẳng vào context window

Thẻ

#rag#llm#vector-db