Sổ Tay AI
ky-thuat Cơ bản

Token (LLM) là gì?

Đơn vị nhỏ nhất mà LLM xử lý — không phải là từ, mà là mảnh ghép của từ. Tokens quyết định giá API và giới hạn context.

Cập nhật: 2 tháng 5, 2026 · 2 phút đọc

Token là đơn vị nhỏ nhất mà LLM xử lý. Một token KHÔNG bằng một từ — nó là một “mảnh” của từ, đôi khi là cả từ ngắn, đôi khi là một phần.

Ví dụ

Câu tiếng Anh: "Tokenization is fun!" → 5 tokens:

["Token", "ization", " is", " fun", "!"]

Câu tiếng Việt: "Trí tuệ nhân tạo" → ~7-9 tokens (tùy tokenizer):

["Tr", "í", " tuệ", " nhân", " t", "ạ", "o"]

Lưu ý: tiếng Việt thường tốn token gấp 1.5-2 lần tiếng Anh cùng nghĩa, vì có dấu và tokenizer ưu tiên tiếng Anh.

Vì sao token quan trọng?

1. Quyết định giá

Hầu hết API LLM tính tiền theo token:

  • Claude Sonnet: ~$3 / 1M input tokens, $15 / 1M output
  • GPT-4o: ~$2.5 / 1M input, $10 / 1M output

Nếu prompt dài 1000 từ tiếng Việt ≈ 2000 tokens → cộng dồn đắt khi gọi nhiều.

2. Giới hạn Context Window

Mỗi model có giới hạn token tối đa trong 1 lần gọi:

  • GPT-4o: 128k tokens (~96k từ tiếng Anh)
  • Claude 4.7: 200k - 1M tokens
  • Gemini 2.5: 2M tokens

Vượt giới hạn → request fail. Cần RAG hoặc tóm tắt trước.

3. Quyết định tốc độ

Nhiều token → mô hình chạy lâu hơn. Streaming output trả từng token một.

Cách đếm token

  • OpenAI: dùng tiktoken (https://platform.openai.com/tokenizer)
  • Anthropic: dùng API count_tokens
  • Quy tắc nhẩm nhanh: 1 token ≈ 0.75 từ tiếng Anh, ≈ 0.5 từ tiếng Việt

Cách tiết kiệm token

  • Viết prompt ngắn gọn, bỏ chữ thừa
  • Dùng prompt caching nếu có
  • Yêu cầu model trả ngắn (Trả lời tối đa 3 câu)
  • Dùng model nhỏ hơn cho việc đơn giản (Claude Haiku thay vì Sonnet)

Liên quan

Thẻ
#token#llm#co-ban