Sổ Tay AI
ky-thuat Menengah

Apa itu Inference (Inferensi AI)?

Proses menjalankan model AI yang sudah di-training untuk merespons user — menentukan biaya dan kecepatan saat AI dibawa ke produk.

Diperbarui: 5 Mei 2026 · 2 min read

Inference (inferensi) adalah proses MENGGUNAKAN model yang sudah di-training — Anda mengirim input, model mengembalikan output. Setiap kali ChatGPT menjawab pertanyaan Anda → itu satu kali Inference.

Inference vs Training

TrainingInference
KapanSekali (atau berkala)Setiap request user
Biaya$10M-$1B (model besar)$0.001-$1 / request
ResourceBanyak GPU paling kuatLebih sedikit GPU tapi harus di-scale
Dioptimasi untukThroughputLatency + cost

Mengapa Inference penting bagi bisnis?

Training dilakukan sekali, tetapi Inference berjalan SELAMANYA untuk setiap user di setiap request. Kalau dijumlahkan = 80%+ dari total biaya AI sebuah produk production.

Contoh: aplikasi chatbot dengan 10k user, masing-masing 10 message/hari, setiap message ~$0.01 → $1000/hari = $30k/bulan hanya untuk Inference.

Faktor yang memengaruhi cost & latency

1. Ukuran model

  • Claude Opus (besar): akurasi tinggi, mahal, lambat
  • Claude Haiku (kecil): cepat, murah, kadang sudah cukup → Pilih model TERKECIL yang masih cukup untuk task — aturan emas menekan biaya.

2. Jumlah token input/output

  • Setiap token dikenakan biaya
  • Output 4-5× lebih mahal daripada input di sebagian besar API → Pangkas prompt yang berlebih, minta jawaban yang ringkas

3. Batching

Kirim banyak request sekaligus (batch API) biasanya lebih murah daripada satu per satu.

  • Anthropic Batch API: hemat 50%
  • OpenAI Batch API: hemat 50%

4. Caching

Cache prompt yang tetap supaya tidak bayar berulang.

  • Anthropic prompt caching: hemat hingga 90% untuk bagian yang di-cache

5. Streaming

User menerima Token pertama dalam < 1 detik alih-alih menunggu 10 detik untuk seluruh respons. Total cost tidak berubah tetapi UX jauh lebih baik.

Inference self-host vs API

Pakai API (OpenAI, Anthropic, Google)

✅ Tidak perlu pusing soal hardware, scaling, ops ✅ Akses ke model paling kuat setiap saat ❌ Vendor lock-in ❌ Bisa jadi lebih mahal di skala besar ❌ Privasi: data lewat pihak ketiga

Self-host (Llama, Mistral, Qwen open source)

✅ Privasi mutlak ✅ Bisa lebih murah di skala besar ✅ Kustomisasi penuh ❌ Butuh ops team yang paham GPU, vLLM, CUDA ❌ Model open source masih lebih lemah dibanding frontier closed ❌ Perlu investasi hardware

→ Aturan praktis: < 1M request/bulan → API. > 100M request/bulan → pertimbangkan self-host. Di antaranya tergantung kebutuhan.

Tools self-host populer

  • vLLM — engine Inference tercepat (Berkeley)
  • TGI (Text Generation Inference) — dari HuggingFace
  • Ollama — jalankan LLM lokal untuk developer/personal
  • LM Studio — UI bagi yang tidak akrab dengan CLI
  • MLX — dioptimasi untuk Apple Silicon

Terkait

Tag
#inference#llm#production