ky-thuat Trung cấp

Inference (Suy luận AI) là gì?

Quá trình chạy mô hình AI đã train để trả lời user — quyết định chi phí và tốc độ khi đưa AI vào sản phẩm.

Cập nhật: 2 tháng 5, 2026 · 2 phút đọc

Inference (suy luận) là quá trình DÙNG mô hình đã train — bạn gửi input, model trả output. Mỗi lần ChatGPT trả lời câu hỏi của bạn → đó là một lần inference.

Inference vs Training

	Training	Inference
Khi nào	Một lần (hoặc theo chu kỳ)	Mỗi request user
Chi phí	$10M-$1B (model lớn)	$0.001-$1 / request
Tài nguyên	Nhiều GPU mạnh nhất	Ít GPU hơn nhưng phải scale
Tối ưu cho	Throughput	Latency + cost

Vì sao inference quan trọng cho doanh nghiệp?

Train một lần xong, nhưng inference chạy MÃI MÃI cho mỗi user mỗi request. Cộng dồn = 80%+ tổng chi phí AI của một sản phẩm production.

Ví dụ: app chatbot có 10k user, mỗi user 10 message/ngày, mỗi message ~$0.01 → $1000/ngày = $30k/tháng chỉ riêng inference.

Các yếu tố ảnh hưởng cost & latency

1. Kích thước model

Claude Opus (lớn): chính xác cao, đắt, chậm
Claude Haiku (nhỏ): nhanh, rẻ, đôi khi đủ tốt → Chọn model NHỎ NHẤT đủ giải task — quy tắc vàng giảm chi phí.

2. Số token input/output

Mỗi token đều tốn tiền
Output đắt gấp 4-5× input ở hầu hết API → Cắt prompt thừa, yêu cầu trả ngắn

3. Batching

Gửi nhiều request cùng lúc (batch API) thường rẻ hơn từng request lẻ.

Anthropic Batch API: giảm 50%
OpenAI Batch API: giảm 50%

4. Caching

Cache prompt cố định để không trả tiền lặp lại.

Anthropic prompt caching: giảm tới 90% cho cached portion

5. Streaming

User nhận token đầu tiên trong < 1s thay vì đợi 10s cho cả response. Total cost không đổi nhưng UX tốt hơn nhiều.

Inference tự host vs API

Dùng API (OpenAI, Anthropic, Google)

✅ Không lo hardware, scaling, ops ✅ Truy cập model mạnh nhất luôn ❌ Vendor lock-in ❌ Có thể đắt hơn ở scale lớn ❌ Privacy: data đi qua bên thứ ba

Tự host (Llama, Mistral, Qwen open source)

✅ Privacy tuyệt đối ✅ Có thể rẻ hơn ở scale lớn ✅ Custom hoàn toàn ❌ Cần ops team biết về GPU, vLLM, CUDA ❌ Model open source vẫn yếu hơn frontier closed ❌ Cần đầu tư hardware

→ Quy tắc: < 1M request/tháng → API. > 100M request/tháng → cân nhắc tự host. Ở giữa thì tùy.

Tools tự host phổ biến

vLLM — engine inference nhanh nhất (Berkeley)
TGI (Text Generation Inference) — của HuggingFace
Ollama — chạy LLM local cho dev/personal
LM Studio — UI cho người không quen CLI
MLX — tối ưu cho Apple Silicon

Liên quan

Thẻ

#inference#llm#production