Apa itu RLHF?
Reinforcement Learning from Human Feedback — teknik menggunakan umpan balik manusia untuk mengajari LLM menjawab dengan lebih 'sesuai keinginan'.
RLHF (Reinforcement Learning from Human Feedback — Pembelajaran Penguatan dari Umpan Balik Manusia) adalah teknik training yang menggunakan penilaian manusia untuk mengajari LLM menjawab dengan cara yang lebih “sesuai keinginan” — bermanfaat, aman, dan sopan.
Mengapa butuh RLHF?
LLM mentah (setelah pre-training) sudah paham bahasa Inggris dengan baik, tapi:
- Menjawab dengan singkat dan tidak terstruktur
- Tidak menolak permintaan berbahaya (mis: “cara membuat bom”)
- Sering bertele-tele, tidak fokus
RLHF mengubah LLM menjadi “asisten yang membantu” seperti ChatGPT/Claude.
Proses 3 langkah
Langkah 1: Pre-training
Train LLM pada ratusan miliar kata → memahami bahasa + pengetahuan.
Langkah 2: Supervised Fine-Tuning (SFT)
LLM diberi pasangan (pertanyaan → contoh jawaban berkualitas tinggi) yang ditulis manusia.
→ Belajar cara menyusun jawaban.
Langkah 3: RLHF
- LLM menghasilkan beberapa jawaban untuk prompt yang sama
- Penilai manusia memilih mana jawaban yang lebih baik
- Train sebuah Reward Model untuk belajar memberi nilai seperti manusia
- Gunakan RL (algoritma PPO) untuk menyesuaikan LLM agar memaksimalkan skor reward
Contoh
Prompt: “Jelaskan blockchain untuk anak 5 tahun”
LLM mentah: “Blockchain is a distributed ledger technology utilizing cryptographic hash functions…”
LLM setelah RLHF: “Bayangkan sebuah buku catatan bersama untuk seluruh kelas. Setiap orang menyimpan salinan yang persis sama…”
Keterbatasan
- Boros tenaga manusia: butuh ribuan penilai → mahal
- Bias: penilai berasal dari negara mana, bias budaya negara itu juga
- Reward hacking: LLM belajar mengelabui reward model alih-alih benar-benar jadi baik
- Sycophancy (menjilat): LLM belajar bahwa setuju dengan user → skor tinggi → menjadi tidak jujur
Varian baru
- DPO (Direct Preference Optimization): tanpa reward model, langsung belajar dari preference → lebih sederhana, efektivitas serupa
- RLAIF (RL from AI Feedback): menggunakan AI lain untuk menilai alih-alih manusia → lebih murah tapi bisa memperkuat bias
Siapa yang pakai RLHF?
- OpenAI, Anthropic, Google: semua flagship model menggunakan RLHF
- Startup jarang melakukan RLHF dari nol — terlalu mahal. Mereka fine-tune di atas model yang sudah RLHF.