So sánh Model AI 2026
So sánh GPT-5, Claude 4.7, Gemini 2.5, Llama 4, DeepSeek — context window, giá input/output, modality (text/vision/audio), thinking mode. Bảng cập nhật 2026-05.
| Model | Context | Output | Input $/1M | Output $/1M | Modality |
|---|---|---|---|---|---|
| Claude Opus 4.7 Anthropic⚡ thinking | 1M | 64K | $15 | $75 | 📝 👁 |
| Claude Sonnet 4.6 Anthropic⚡ thinking | 1M | 64K | $3 | $15 | 📝 👁 |
| Claude Haiku 4.5 Anthropic | 200K | 8K | $0.8 | $4 | 📝 👁 |
| GPT-5 OpenAI⚡ thinking | 400K | 16K | $5 | $20 | 📝 👁 🎙 |
| GPT-4o OpenAI | 128K | 16K | $2.5 | $10 | 📝 👁 🎙 |
| GPT-4o mini OpenAI | 128K | 16K | $0.15 | $0.6 | 📝 👁 |
| o3 OpenAI⚡ thinking | 200K | 100K | $10 | $40 | 📝 👁 |
| Gemini 2.5 Pro Google⚡ thinking | 2M | 64K | $1.25 | $10 | 📝 👁 🎙 🎥 |
| Gemini 2.5 Flash Google | 1M | 64K | $0.3 | $2.5 | 📝 👁 🎙 🎥 |
| Llama 3.3 70B Meta | 128K | 8K | $0.6 | $0.8 | 📝 |
| Llama 4 Maverick Meta | 256K | 8K | $0.27 | $0.85 | 📝 👁 |
| DeepSeek V3 DeepSeek | 128K | 8K | $0.27 | $1.1 | 📝 |
| DeepSeek R1 DeepSeek⚡ thinking | 128K | 32K | $0.55 | $2.19 | 📝 |
| Grok 3 xAI | 256K | 8K | $3 | $15 | 📝 👁 |
| Mistral Large 2 Mistral | 128K | 8K | $2 | $6 | 📝 |
| Qwen 2.5 72B Alibaba | 128K | 8K | $0.4 | $1.2 | 📝 👁 |
📝 = text · 👁 = vision · 🎙 = audio · 🎥 = video
Cách chọn model
- Bài toán đơn giản, throughput cao (phân loại, extract, chatbot FAQ): chọn model rẻ nhất — Haiku 4.5, GPT-4o mini, Gemini Flash, DeepSeek V3.
- Coding & reasoning phức tạp: Claude Opus 4.7 hoặc o3 (có thinking mode).
- Document dài (sách, codebase): Gemini 2.5 Pro (2M context) hoặc Claude (1M context).
- Multimodal native (audio + video): Gemini 2.5 — duy nhất xử lý cả 4 modality.
- Self-host / on-prem: Llama 4, DeepSeek (open weights, có thể chạy local).
- Tuân thủ EU/GDPR: Mistral (host EU).
Output đắt hơn input bao nhiêu lần?
Tỷ lệ output/input thường 4-5×. Nghĩa là nếu prompt 1000 token + response 1000 token, chi phí response chiếm ~80%. Mẹo tiết kiệm: yêu cầu model trả lời ngắn gọn (respond in <100 words).
Lưu ý về giá
Giá trong bảng là list price chính thức tính USD/1M token. Thực tế:
- Volume discount tự động (Tier 4-5 OpenAI, Enterprise Anthropic).
- Cache pricing rẻ hơn 50-90% nếu reuse prompt.
- Batch API rẻ 50% (delay tới 24h).
- Self-host Llama/DeepSeek qua DeepInfra/Together/Fireworks có thể rẻ hơn nữa.
Liên quan
- Đếm Token — biết trước số token mới estimate được giá
- Tính chi phí API theo tháng
- Đánh giá chi tiết từng model
Công cụ liên quan
Xem tất cả công cụ →Đếm Token
Đếm token chính xác cho ChatGPT, Claude, Gemini, Llama. Tính chi phí input ngay.
Tính chi phí API
Estimate chi phí gọi API LLM theo tháng/năm. So sánh model nào tiết kiệm nhất.
Prompt Builder
Soạn prompt chuẩn 7 quy tắc. 6 template sẵn cho blog, email, code review...
MỚIMarkdown Preview
Render markdown realtime — paste output từ ChatGPT/Claude xem ngay. Hỗ trợ GFM, bảng, code.