Token (LLM) là gì?
Đơn vị nhỏ nhất mà LLM xử lý — không phải là từ, mà là mảnh ghép của từ. Tokens quyết định giá API và giới hạn context.
Token là đơn vị nhỏ nhất mà LLM xử lý. Một token KHÔNG bằng một từ — nó là một “mảnh” của từ, đôi khi là cả từ ngắn, đôi khi là một phần.
Ví dụ
Câu tiếng Anh: "Tokenization is fun!" → 5 tokens:
["Token", "ization", " is", " fun", "!"]
Câu tiếng Việt: "Trí tuệ nhân tạo" → ~7-9 tokens (tùy tokenizer):
["Tr", "í", " tuệ", " nhân", " t", "ạ", "o"]
Lưu ý: tiếng Việt thường tốn token gấp 1.5-2 lần tiếng Anh cùng nghĩa, vì có dấu và tokenizer ưu tiên tiếng Anh.
Vì sao token quan trọng?
1. Quyết định giá
Hầu hết API LLM tính tiền theo token:
- Claude Sonnet: ~$3 / 1M input tokens, $15 / 1M output
- GPT-4o: ~$2.5 / 1M input, $10 / 1M output
Nếu prompt dài 1000 từ tiếng Việt ≈ 2000 tokens → cộng dồn đắt khi gọi nhiều.
2. Giới hạn Context Window
Mỗi model có giới hạn token tối đa trong 1 lần gọi:
- GPT-4o: 128k tokens (~96k từ tiếng Anh)
- Claude 4.7: 200k - 1M tokens
- Gemini 2.5: 2M tokens
Vượt giới hạn → request fail. Cần RAG hoặc tóm tắt trước.
3. Quyết định tốc độ
Nhiều token → mô hình chạy lâu hơn. Streaming output trả từng token một.
Cách đếm token
- OpenAI: dùng tiktoken (https://platform.openai.com/tokenizer)
- Anthropic: dùng API
count_tokens - Quy tắc nhẩm nhanh: 1 token ≈ 0.75 từ tiếng Anh, ≈ 0.5 từ tiếng Việt
Cách tiết kiệm token
- Viết prompt ngắn gọn, bỏ chữ thừa
- Dùng prompt caching nếu có
- Yêu cầu model trả ngắn (
Trả lời tối đa 3 câu) - Dùng model nhỏ hơn cho việc đơn giản (Claude Haiku thay vì Sonnet)