Sổ Tay AI
ky-thuat Nâng cao

RLHF là gì?

Reinforcement Learning from Human Feedback — kỹ thuật dùng phản hồi của con người để dạy LLM trả lời 'đúng ý' hơn.

Cập nhật: 2 tháng 5, 2026 · 2 phút đọc

RLHF (Reinforcement Learning from Human Feedback — Học tăng cường từ phản hồi con người) là kỹ thuật huấn luyện dùng đánh giá của con người để dạy LLM trả lời theo cách “đúng ý” hơn — hữu ích, an toàn, lịch sự.

Vì sao cần RLHF?

LLM thô (sau pre-training) biết tiếng Anh tốt, nhưng:

  • Trả lời cộc lốc, không cấu trúc
  • Không từ chối yêu cầu nguy hiểm (vd: “cách làm bom”)
  • Hay lan man, không tập trung

RLHF dạy LLM thành “trợ lý hữu ích” như ChatGPT/Claude.

Quy trình 3 bước

Bước 1: Pre-training

Train LLM trên hàng trăm tỷ từ → biết ngôn ngữ + kiến thức.

Bước 2: Supervised Fine-Tuning (SFT)

Cho LLM xem các cặp (câu hỏi → câu trả lời mẫu chất lượng cao) do người viết. → Học cách cấu trúc câu trả lời.

Bước 3: RLHF

  1. Cho LLM sinh nhiều câu trả lời cho cùng 1 prompt
  2. Người đánh giá chọn câu nào tốt hơn
  3. Train một Reward Model học cách chấm điểm như con người
  4. Dùng RL (PPO algorithm) để tinh chỉnh LLM tối đa hóa điểm reward

Ví dụ

Prompt: “Giải thích blockchain cho người 5 tuổi”

LLM thô: “Blockchain is a distributed ledger technology utilizing cryptographic hash functions…”

LLM sau RLHF: “Tưởng tượng một quyển sổ ghi chép chung của cả lớp. Ai cũng giữ một bản y hệt…”

Hạn chế

  • Tốn người: cần hàng nghìn người đánh giá → đắt
  • Bias: nhân viên đánh giá ở nước nào, bias văn hóa nước đó
  • Reward hacking: LLM học cách lừa reward model thay vì làm tốt thật
  • Sycophancy (xu nịnh): LLM học rằng đồng ý với user → điểm cao → trở nên thiếu trung thực

Biến thể mới

  • DPO (Direct Preference Optimization): bỏ reward model, học trực tiếp từ preference → đơn giản hơn, hiệu quả tương đương
  • RLAIF (RL from AI Feedback): dùng AI khác để đánh giá thay người → rẻ hơn nhưng có thể đẩy bias

Ai dùng RLHF?

  • OpenAI, Anthropic, Google: tất cả flagship model đều RLHF
  • Các startup ít khi tự RLHF từ đầu — tốn quá. Họ fine-tune trên model đã RLHF có sẵn.

Liên quan

Thẻ
#rlhf#training#alignment