Sổ Tay AI
ky-thuat Lanjutan

Apa itu RLHF?

Reinforcement Learning from Human Feedback — teknik menggunakan umpan balik manusia untuk mengajari LLM menjawab dengan lebih 'sesuai keinginan'.

Diperbarui: 5 Mei 2026 · 2 min read

RLHF (Reinforcement Learning from Human Feedback — Pembelajaran Penguatan dari Umpan Balik Manusia) adalah teknik training yang menggunakan penilaian manusia untuk mengajari LLM menjawab dengan cara yang lebih “sesuai keinginan” — bermanfaat, aman, dan sopan.

Mengapa butuh RLHF?

LLM mentah (setelah pre-training) sudah paham bahasa Inggris dengan baik, tapi:

  • Menjawab dengan singkat dan tidak terstruktur
  • Tidak menolak permintaan berbahaya (mis: “cara membuat bom”)
  • Sering bertele-tele, tidak fokus

RLHF mengubah LLM menjadi “asisten yang membantu” seperti ChatGPT/Claude.

Proses 3 langkah

Langkah 1: Pre-training

Train LLM pada ratusan miliar kata → memahami bahasa + pengetahuan.

Langkah 2: Supervised Fine-Tuning (SFT)

LLM diberi pasangan (pertanyaan → contoh jawaban berkualitas tinggi) yang ditulis manusia. → Belajar cara menyusun jawaban.

Langkah 3: RLHF

  1. LLM menghasilkan beberapa jawaban untuk prompt yang sama
  2. Penilai manusia memilih mana jawaban yang lebih baik
  3. Train sebuah Reward Model untuk belajar memberi nilai seperti manusia
  4. Gunakan RL (algoritma PPO) untuk menyesuaikan LLM agar memaksimalkan skor reward

Contoh

Prompt: “Jelaskan blockchain untuk anak 5 tahun”

LLM mentah: “Blockchain is a distributed ledger technology utilizing cryptographic hash functions…”

LLM setelah RLHF: “Bayangkan sebuah buku catatan bersama untuk seluruh kelas. Setiap orang menyimpan salinan yang persis sama…”

Keterbatasan

  • Boros tenaga manusia: butuh ribuan penilai → mahal
  • Bias: penilai berasal dari negara mana, bias budaya negara itu juga
  • Reward hacking: LLM belajar mengelabui reward model alih-alih benar-benar jadi baik
  • Sycophancy (menjilat): LLM belajar bahwa setuju dengan user → skor tinggi → menjadi tidak jujur

Varian baru

  • DPO (Direct Preference Optimization): tanpa reward model, langsung belajar dari preference → lebih sederhana, efektivitas serupa
  • RLAIF (RL from AI Feedback): menggunakan AI lain untuk menilai alih-alih manusia → lebih murah tapi bisa memperkuat bias

Siapa yang pakai RLHF?

  • OpenAI, Anthropic, Google: semua flagship model menggunakan RLHF
  • Startup jarang melakukan RLHF dari nol — terlalu mahal. Mereka fine-tune di atas model yang sudah RLHF.

Terkait

Tag
#rlhf#training#alignment