Apa itu Training (Pelatihan AI)?
Proses mengajari model AI dengan menunjukkan jutaan/miliaran contoh dan menyesuaikan parameter internalnya.
Training adalah proses mengajari model AI menarik pola dari data — model diberi jutaan/miliaran contoh, setiap kali menebak salah maka parameter internalnya disesuaikan sedikit, diulang sampai sebagian besar tebakannya benar.
3 tahap Training sebuah LLM
1. Pre-training
Model membaca RIBUAN MILIAR token (hampir seluruh web berkualitas + buku + kode).
- Tujuan: menebak token berikutnya
- Paling mahal: berbulan-bulan × ribuan GPU = $10-100M
- Hasil: model “tahu bahasa” dan “punya pengetahuan umum” tapi belum berguna
2. Supervised Fine-Tuning (SFT)
Model diberi pasangan (prompt → contoh jawaban) berkualitas tinggi.
- Tujuan: mengajari model menjawab dalam gaya “asisten”
- Data: puluhan - ratusan ribu pasangan yang ditulis manusia
- Biaya: $100k-$1M
3. RLHF (atau DPO)
Penyempurnaan tambahan dengan umpan balik manusia tentang jawaban mana yang lebih baik.
- Tujuan: mengajari model menjawab “sesuai keinginan” — bermanfaat, aman, tidak menjilat
- Lihat RLHF untuk detail
Parameter
Selama training, model belajar dengan menyesuaikan “bobot” (weights) — yaitu parameter.
- GPT-2: 1,5 miliar parameter
- GPT-4: ~1,7 triliun
- Llama 3.3 70B: 70 miliar
Semakin banyak parameter → semakin “pintar”, tapi makin boros memori dan compute.
Training menghabiskan apa?
Sumber daya
- GPU/TPU cluster: ribuan-puluhan ribu chip
- Data: TB - PB teks
- Listrik: training GPT-4 diperkirakan ~50GWh (≈ konsumsi 5000 rumah selama 1 tahun)
- Uang: $10M - $1B+ untuk frontier model
Waktu
- Pre-training: 2-6 bulan
- Fine-tuning: 1-4 minggu
- RLHF: 2-8 minggu
→ Inilah mengapa hanya beberapa perusahaan (OpenAI, Anthropic, Google, Meta, xAI) yang mampu training frontier model.
Apakah Anda perlu Training sendiri?
99% kasus TIDAK PERLU. Alasannya:
- Terlalu mahal
- Butuh expertise mendalam
- Sebagian besar use case bisa diselesaikan dengan prompting + RAG
- Saat butuh kustomisasi → fine-tune model yang sudah ada (lihat Fine-tuning)
Hanya train dari nol jika:
- Anda lab besar dengan budget memadai
- Butuh model khusus untuk industri/bahasa spesifik yang belum ada
- Butuh kepemilikan mutlak atas model (mis: militer)
Terkait
- Inference — menjalankan model yang sudah di-train
- Fine-tuning
- GPU