RLHF là gì?

Reinforcement Learning from Human Feedback — kỹ thuật dùng phản hồi của con người để dạy LLM trả lời 'đúng ý' hơn.

Updated: May 2, 2026 · 2 min read

RLHF (Reinforcement Learning from Human Feedback — Học tăng cường từ phản hồi con người) là kỹ thuật huấn luyện dùng đánh giá của con người để dạy LLM trả lời theo cách “đúng ý” hơn — hữu ích, an toàn, lịch sự.

Vì sao cần RLHF?

LLM thô (sau pre-training) biết tiếng Anh tốt, nhưng:

Trả lời cộc lốc, không cấu trúc
Không từ chối yêu cầu nguy hiểm (vd: “cách làm bom”)
Hay lan man, không tập trung

RLHF dạy LLM thành “trợ lý hữu ích” như ChatGPT/Claude.

Quy trình 3 bước

Bước 1: Pre-training

Train LLM trên hàng trăm tỷ từ → biết ngôn ngữ + kiến thức.

Bước 2: Supervised Fine-Tuning (SFT)

Cho LLM xem các cặp (câu hỏi → câu trả lời mẫu chất lượng cao) do người viết. → Học cách cấu trúc câu trả lời.

Bước 3: RLHF

Cho LLM sinh nhiều câu trả lời cho cùng 1 prompt
Người đánh giá chọn câu nào tốt hơn
Train một Reward Model học cách chấm điểm như con người
Dùng RL (PPO algorithm) để tinh chỉnh LLM tối đa hóa điểm reward

Ví dụ

Prompt: “Giải thích blockchain cho người 5 tuổi”

LLM thô: “Blockchain is a distributed ledger technology utilizing cryptographic hash functions…”

LLM sau RLHF: “Tưởng tượng một quyển sổ ghi chép chung của cả lớp. Ai cũng giữ một bản y hệt…”

Hạn chế

Tốn người: cần hàng nghìn người đánh giá → đắt
Bias: nhân viên đánh giá ở nước nào, bias văn hóa nước đó
Reward hacking: LLM học cách lừa reward model thay vì làm tốt thật
Sycophancy (xu nịnh): LLM học rằng đồng ý với user → điểm cao → trở nên thiếu trung thực

Biến thể mới

DPO (Direct Preference Optimization): bỏ reward model, học trực tiếp từ preference → đơn giản hơn, hiệu quả tương đương
RLAIF (RL from AI Feedback): dùng AI khác để đánh giá thay người → rẻ hơn nhưng có thể đẩy bias

Ai dùng RLHF?

OpenAI, Anthropic, Google: tất cả flagship model đều RLHF
Các startup ít khi tự RLHF từ đầu — tốn quá. Họ fine-tune trên model đã RLHF có sẵn.