Inference (Suy luận AI) là gì?
Quá trình chạy mô hình AI đã train để trả lời user — quyết định chi phí và tốc độ khi đưa AI vào sản phẩm.
Inference (suy luận) là quá trình DÙNG mô hình đã train — bạn gửi input, model trả output. Mỗi lần ChatGPT trả lời câu hỏi của bạn → đó là một lần inference.
Inference vs Training
| Training | Inference | |
|---|---|---|
| Khi nào | Một lần (hoặc theo chu kỳ) | Mỗi request user |
| Chi phí | $10M-$1B (model lớn) | $0.001-$1 / request |
| Tài nguyên | Nhiều GPU mạnh nhất | Ít GPU hơn nhưng phải scale |
| Tối ưu cho | Throughput | Latency + cost |
Vì sao inference quan trọng cho doanh nghiệp?
Train một lần xong, nhưng inference chạy MÃI MÃI cho mỗi user mỗi request. Cộng dồn = 80%+ tổng chi phí AI của một sản phẩm production.
Ví dụ: app chatbot có 10k user, mỗi user 10 message/ngày, mỗi message ~$0.01 → $1000/ngày = $30k/tháng chỉ riêng inference.
Các yếu tố ảnh hưởng cost & latency
1. Kích thước model
- Claude Opus (lớn): chính xác cao, đắt, chậm
- Claude Haiku (nhỏ): nhanh, rẻ, đôi khi đủ tốt → Chọn model NHỎ NHẤT đủ giải task — quy tắc vàng giảm chi phí.
2. Số token input/output
- Mỗi token đều tốn tiền
- Output đắt gấp 4-5× input ở hầu hết API → Cắt prompt thừa, yêu cầu trả ngắn
3. Batching
Gửi nhiều request cùng lúc (batch API) thường rẻ hơn từng request lẻ.
- Anthropic Batch API: giảm 50%
- OpenAI Batch API: giảm 50%
4. Caching
Cache prompt cố định để không trả tiền lặp lại.
- Anthropic prompt caching: giảm tới 90% cho cached portion
5. Streaming
User nhận token đầu tiên trong < 1s thay vì đợi 10s cho cả response. Total cost không đổi nhưng UX tốt hơn nhiều.
Inference tự host vs API
Dùng API (OpenAI, Anthropic, Google)
✅ Không lo hardware, scaling, ops ✅ Truy cập model mạnh nhất luôn ❌ Vendor lock-in ❌ Có thể đắt hơn ở scale lớn ❌ Privacy: data đi qua bên thứ ba
Tự host (Llama, Mistral, Qwen open source)
✅ Privacy tuyệt đối ✅ Có thể rẻ hơn ở scale lớn ✅ Custom hoàn toàn ❌ Cần ops team biết về GPU, vLLM, CUDA ❌ Model open source vẫn yếu hơn frontier closed ❌ Cần đầu tư hardware
→ Quy tắc: < 1M request/tháng → API. > 100M request/tháng → cân nhắc tự host. Ở giữa thì tùy.
Tools tự host phổ biến
- vLLM — engine inference nhanh nhất (Berkeley)
- TGI (Text Generation Inference) — của HuggingFace
- Ollama — chạy LLM local cho dev/personal
- LM Studio — UI cho người không quen CLI
- MLX — tối ưu cho Apple Silicon