Embedding là gì?
Cách biểu diễn văn bản, ảnh hay bất cứ thứ gì thành vector số để máy tính hiểu được ý nghĩa.
Embedding là cách chuyển một thứ gì đó (văn bản, ảnh, audio) thành một mảng số (vector) sao cho các thứ “giống nhau về ý nghĩa” có vector gần nhau.
Ví dụ trực quan
Embed các từ thành vector 3 chiều (thực tế là 1536 chiều):
"chó" → [0.8, 0.2, 0.1]
"mèo" → [0.7, 0.3, 0.2] ← gần "chó" (đều là thú cưng)
"xe hơi" → [0.1, 0.9, 0.5] ← xa "chó" (chủ đề khác)
Khoảng cách giữa 2 vector ≈ độ khác biệt về ý nghĩa.
Embedding dùng để làm gì?
1. RAG (Retrieval-Augmented Generation)
Bạn có 1000 trang tài liệu. Khi user hỏi, bạn không thể đưa hết vào prompt.
- Embed từng đoạn → lưu vào vector database
- Embed câu hỏi → tìm các đoạn có vector gần nhất
- Đưa các đoạn đó vào prompt → LLM trả lời chính xác
Đây là kỹ thuật cốt lõi của RAG.
2. Semantic Search
Search truyền thống match từ khóa. Search bằng embedding match ý nghĩa:
- Tìm “cách giảm cân” → cũng ra bài “phương pháp tan mỡ”
3. Phân loại / Gom cụm
Embed mọi feedback khách hàng → gom các vector gần nhau → tìm ra các chủ đề than phiền chung.
4. Recommendation
Sản phẩm có vector gần các sản phẩm user đã mua → gợi ý.
Các model embedding phổ biến (2026)
| Provider | Model | Số chiều | Giá / 1M tokens |
|---|---|---|---|
| OpenAI | text-embedding-3-large | 3072 | $0.13 |
| OpenAI | text-embedding-3-small | 1536 | $0.02 |
| Voyage AI | voyage-3 | 1024 | $0.06 |
| Cohere | embed-v3 | 1024 | $0.10 |
| Open source | bge-m3 | 1024 | Free (tự host) |
Multi-modal embedding
Model như CLIP có thể embed cả ảnh và text vào CÙNG một không gian vector → cho phép search ảnh bằng text:
- Query “chó vàng đang chạy trên bãi biển” → tìm trong 1 triệu ảnh