ky-thuat Lanjutan

Apa itu RLHF?

Reinforcement Learning from Human Feedback — teknik menggunakan umpan balik manusia untuk mengajari LLM menjawab dengan lebih 'sesuai keinginan'.

Diperbarui: 5 Mei 2026 · 2 min read

RLHF (Reinforcement Learning from Human Feedback — Pembelajaran Penguatan dari Umpan Balik Manusia) adalah teknik training yang menggunakan penilaian manusia untuk mengajari LLM menjawab dengan cara yang lebih “sesuai keinginan” — bermanfaat, aman, dan sopan.

Mengapa butuh RLHF?

LLM mentah (setelah pre-training) sudah paham bahasa Inggris dengan baik, tapi:

Menjawab dengan singkat dan tidak terstruktur
Tidak menolak permintaan berbahaya (mis: “cara membuat bom”)
Sering bertele-tele, tidak fokus

RLHF mengubah LLM menjadi “asisten yang membantu” seperti ChatGPT/Claude.

Proses 3 langkah

Langkah 1: Pre-training

Train LLM pada ratusan miliar kata → memahami bahasa + pengetahuan.

Langkah 2: Supervised Fine-Tuning (SFT)

LLM diberi pasangan (pertanyaan → contoh jawaban berkualitas tinggi) yang ditulis manusia. → Belajar cara menyusun jawaban.

Langkah 3: RLHF

LLM menghasilkan beberapa jawaban untuk prompt yang sama
Penilai manusia memilih mana jawaban yang lebih baik
Train sebuah Reward Model untuk belajar memberi nilai seperti manusia
Gunakan RL (algoritma PPO) untuk menyesuaikan LLM agar memaksimalkan skor reward

Contoh

Prompt: “Jelaskan blockchain untuk anak 5 tahun”

LLM mentah: “Blockchain is a distributed ledger technology utilizing cryptographic hash functions…”

LLM setelah RLHF: “Bayangkan sebuah buku catatan bersama untuk seluruh kelas. Setiap orang menyimpan salinan yang persis sama…”

Keterbatasan

Boros tenaga manusia: butuh ribuan penilai → mahal
Bias: penilai berasal dari negara mana, bias budaya negara itu juga
Reward hacking: LLM belajar mengelabui reward model alih-alih benar-benar jadi baik
Sycophancy (menjilat): LLM belajar bahwa setuju dengan user → skor tinggi → menjadi tidak jujur

Varian baru

DPO (Direct Preference Optimization): tanpa reward model, langsung belajar dari preference → lebih sederhana, efektivitas serupa
RLAIF (RL from AI Feedback): menggunakan AI lain untuk menilai alih-alih manusia → lebih murah tapi bisa memperkuat bias

Siapa yang pakai RLHF?

OpenAI, Anthropic, Google: semua flagship model menggunakan RLHF
Startup jarang melakukan RLHF dari nol — terlalu mahal. Mereka fine-tune di atas model yang sudah RLHF.

Terkait

Tag

#rlhf#training#alignment