RLHF là gì?
Reinforcement Learning from Human Feedback — kỹ thuật dùng phản hồi của con người để dạy LLM trả lời 'đúng ý' hơn.
RLHF (Reinforcement Learning from Human Feedback — Học tăng cường từ phản hồi con người) là kỹ thuật huấn luyện dùng đánh giá của con người để dạy LLM trả lời theo cách “đúng ý” hơn — hữu ích, an toàn, lịch sự.
Vì sao cần RLHF?
LLM thô (sau pre-training) biết tiếng Anh tốt, nhưng:
- Trả lời cộc lốc, không cấu trúc
- Không từ chối yêu cầu nguy hiểm (vd: “cách làm bom”)
- Hay lan man, không tập trung
RLHF dạy LLM thành “trợ lý hữu ích” như ChatGPT/Claude.
Quy trình 3 bước
Bước 1: Pre-training
Train LLM trên hàng trăm tỷ từ → biết ngôn ngữ + kiến thức.
Bước 2: Supervised Fine-Tuning (SFT)
Cho LLM xem các cặp (câu hỏi → câu trả lời mẫu chất lượng cao) do người viết.
→ Học cách cấu trúc câu trả lời.
Bước 3: RLHF
- Cho LLM sinh nhiều câu trả lời cho cùng 1 prompt
- Người đánh giá chọn câu nào tốt hơn
- Train một Reward Model học cách chấm điểm như con người
- Dùng RL (PPO algorithm) để tinh chỉnh LLM tối đa hóa điểm reward
Ví dụ
Prompt: “Giải thích blockchain cho người 5 tuổi”
LLM thô: “Blockchain is a distributed ledger technology utilizing cryptographic hash functions…”
LLM sau RLHF: “Tưởng tượng một quyển sổ ghi chép chung của cả lớp. Ai cũng giữ một bản y hệt…”
Hạn chế
- Tốn người: cần hàng nghìn người đánh giá → đắt
- Bias: nhân viên đánh giá ở nước nào, bias văn hóa nước đó
- Reward hacking: LLM học cách lừa reward model thay vì làm tốt thật
- Sycophancy (xu nịnh): LLM học rằng đồng ý với user → điểm cao → trở nên thiếu trung thực
Biến thể mới
- DPO (Direct Preference Optimization): bỏ reward model, học trực tiếp từ preference → đơn giản hơn, hiệu quả tương đương
- RLAIF (RL from AI Feedback): dùng AI khác để đánh giá thay người → rẻ hơn nhưng có thể đẩy bias
Ai dùng RLHF?
- OpenAI, Anthropic, Google: tất cả flagship model đều RLHF
- Các startup ít khi tự RLHF từ đầu — tốn quá. Họ fine-tune trên model đã RLHF có sẵn.