S Sổ Tay AI
ky-thuat Trung cấp

RAG (Retrieval-Augmented Generation) là gì?

Kỹ thuật cho AI tra cứu tài liệu của bạn trước khi trả lời, giúp giảm bịa và trả lời sát thực tế.

Cập nhật: 2 tháng 5, 2026 · 1 phút đọc

RAG (Retrieval-Augmented Generation — Sinh có hỗ trợ truy xuất) là kỹ thuật cho phép AI tra cứu một kho tài liệu trước khi trả lời câu hỏi.

Cách hoạt động

  1. Bạn có một kho tài liệu (PDF, web, database…)
  2. Hệ thống chuyển từng đoạn thành embedding (vector số)
  3. Khi user hỏi, câu hỏi cũng chuyển thành embedding
  4. Tìm các đoạn gần nhất với câu hỏi
  5. Đưa các đoạn đó vào prompt cùng câu hỏi → AI trả lời dựa trên đó

Vì sao cần RAG?

  • LLM được train tới một mốc thời gian → không biết thông tin mới
  • LLM hay bịa khi không biết → RAG buộc nó dựa vào nguồn cụ thể
  • Bạn không thể đưa cả terabyte tài liệu vào prompt → RAG chỉ lấy phần liên quan

Ví dụ

Một ngân hàng làm chatbot trả lời thắc mắc khách hàng. Họ KHÔNG fine-tune LLM (đắt, chậm) — họ dùng RAG: khi khách hỏi “lãi suất tiết kiệm 6 tháng?”, hệ thống tra cứu file biểu phí mới nhất, đưa cho LLM, LLM trả lời với số liệu chính xác.

Khi nào dùng

  • Có kho tài liệu nội bộ cần AI tra cứu
  • Cần trả lời cập nhật theo dữ liệu mới
  • Cần giảm hallucination

Khi nào KHÔNG dùng

  • Câu hỏi không cần kiến thức ngoài (vd: “viết email xin nghỉ”)
  • Tài liệu nhỏ (< 100 trang) → đưa thẳng vào context window
Thẻ
#rag#llm#vector-db