ky-thuat Menengah

Apa itu Inference (Inferensi AI)?

Proses menjalankan model AI yang sudah di-training untuk merespons user — menentukan biaya dan kecepatan saat AI dibawa ke produk.

Diperbarui: 5 Mei 2026 · 2 min read

Inference (inferensi) adalah proses MENGGUNAKAN model yang sudah di-training — Anda mengirim input, model mengembalikan output. Setiap kali ChatGPT menjawab pertanyaan Anda → itu satu kali Inference.

Inference vs Training

	Training	Inference
Kapan	Sekali (atau berkala)	Setiap request user
Biaya	$10M-$1B (model besar)	$0.001-$1 / request
Resource	Banyak GPU paling kuat	Lebih sedikit GPU tapi harus di-scale
Dioptimasi untuk	Throughput	Latency + cost

Mengapa Inference penting bagi bisnis?

Training dilakukan sekali, tetapi Inference berjalan SELAMANYA untuk setiap user di setiap request. Kalau dijumlahkan = 80%+ dari total biaya AI sebuah produk production.

Contoh: aplikasi chatbot dengan 10k user, masing-masing 10 message/hari, setiap message ~$0.01 → $1000/hari = $30k/bulan hanya untuk Inference.

Faktor yang memengaruhi cost & latency

1. Ukuran model

Claude Opus (besar): akurasi tinggi, mahal, lambat
Claude Haiku (kecil): cepat, murah, kadang sudah cukup → Pilih model TERKECIL yang masih cukup untuk task — aturan emas menekan biaya.

2. Jumlah token input/output

Setiap token dikenakan biaya
Output 4-5× lebih mahal daripada input di sebagian besar API → Pangkas prompt yang berlebih, minta jawaban yang ringkas

3. Batching

Kirim banyak request sekaligus (batch API) biasanya lebih murah daripada satu per satu.

Anthropic Batch API: hemat 50%
OpenAI Batch API: hemat 50%

4. Caching

Cache prompt yang tetap supaya tidak bayar berulang.

Anthropic prompt caching: hemat hingga 90% untuk bagian yang di-cache

5. Streaming

User menerima Token pertama dalam < 1 detik alih-alih menunggu 10 detik untuk seluruh respons. Total cost tidak berubah tetapi UX jauh lebih baik.

Inference self-host vs API

Pakai API (OpenAI, Anthropic, Google)

✅ Tidak perlu pusing soal hardware, scaling, ops ✅ Akses ke model paling kuat setiap saat ❌ Vendor lock-in ❌ Bisa jadi lebih mahal di skala besar ❌ Privasi: data lewat pihak ketiga

Self-host (Llama, Mistral, Qwen open source)

✅ Privasi mutlak ✅ Bisa lebih murah di skala besar ✅ Kustomisasi penuh ❌ Butuh ops team yang paham GPU, vLLM, CUDA ❌ Model open source masih lebih lemah dibanding frontier closed ❌ Perlu investasi hardware

→ Aturan praktis: < 1M request/bulan → API. > 100M request/bulan → pertimbangkan self-host. Di antaranya tergantung kebutuhan.

Tools self-host populer

vLLM — engine Inference tercepat (Berkeley)
TGI (Text Generation Inference) — dari HuggingFace
Ollama — jalankan LLM lokal untuk developer/personal
LM Studio — UI bagi yang tidak akrab dengan CLI
MLX — dioptimasi untuk Apple Silicon

Terkait

Tag

#inference#llm#production