Apa itu Inference (Inferensi AI)?
Proses menjalankan model AI yang sudah di-training untuk merespons user — menentukan biaya dan kecepatan saat AI dibawa ke produk.
Inference (inferensi) adalah proses MENGGUNAKAN model yang sudah di-training — Anda mengirim input, model mengembalikan output. Setiap kali ChatGPT menjawab pertanyaan Anda → itu satu kali Inference.
Inference vs Training
| Training | Inference | |
|---|---|---|
| Kapan | Sekali (atau berkala) | Setiap request user |
| Biaya | $10M-$1B (model besar) | $0.001-$1 / request |
| Resource | Banyak GPU paling kuat | Lebih sedikit GPU tapi harus di-scale |
| Dioptimasi untuk | Throughput | Latency + cost |
Mengapa Inference penting bagi bisnis?
Training dilakukan sekali, tetapi Inference berjalan SELAMANYA untuk setiap user di setiap request. Kalau dijumlahkan = 80%+ dari total biaya AI sebuah produk production.
Contoh: aplikasi chatbot dengan 10k user, masing-masing 10 message/hari, setiap message ~$0.01 → $1000/hari = $30k/bulan hanya untuk Inference.
Faktor yang memengaruhi cost & latency
1. Ukuran model
- Claude Opus (besar): akurasi tinggi, mahal, lambat
- Claude Haiku (kecil): cepat, murah, kadang sudah cukup → Pilih model TERKECIL yang masih cukup untuk task — aturan emas menekan biaya.
2. Jumlah token input/output
- Setiap token dikenakan biaya
- Output 4-5× lebih mahal daripada input di sebagian besar API → Pangkas prompt yang berlebih, minta jawaban yang ringkas
3. Batching
Kirim banyak request sekaligus (batch API) biasanya lebih murah daripada satu per satu.
- Anthropic Batch API: hemat 50%
- OpenAI Batch API: hemat 50%
4. Caching
Cache prompt yang tetap supaya tidak bayar berulang.
- Anthropic prompt caching: hemat hingga 90% untuk bagian yang di-cache
5. Streaming
User menerima Token pertama dalam < 1 detik alih-alih menunggu 10 detik untuk seluruh respons. Total cost tidak berubah tetapi UX jauh lebih baik.
Inference self-host vs API
Pakai API (OpenAI, Anthropic, Google)
✅ Tidak perlu pusing soal hardware, scaling, ops ✅ Akses ke model paling kuat setiap saat ❌ Vendor lock-in ❌ Bisa jadi lebih mahal di skala besar ❌ Privasi: data lewat pihak ketiga
Self-host (Llama, Mistral, Qwen open source)
✅ Privasi mutlak ✅ Bisa lebih murah di skala besar ✅ Kustomisasi penuh ❌ Butuh ops team yang paham GPU, vLLM, CUDA ❌ Model open source masih lebih lemah dibanding frontier closed ❌ Perlu investasi hardware
→ Aturan praktis: < 1M request/bulan → API. > 100M request/bulan → pertimbangkan self-host. Di antaranya tergantung kebutuhan.
Tools self-host populer
- vLLM — engine Inference tercepat (Berkeley)
- TGI (Text Generation Inference) — dari HuggingFace
- Ollama — jalankan LLM lokal untuk developer/personal
- LM Studio — UI bagi yang tidak akrab dengan CLI
- MLX — dioptimasi untuk Apple Silicon