co-ban Cơ bản
NLP (Xử lý Ngôn ngữ Tự nhiên) là gì?
Nhánh AI giúp máy đọc, hiểu, sinh ngôn ngữ con người — từ Google Translate đến ChatGPT đều là NLP.
Cập nhật: 2 tháng 5, 2026 · 2 phút đọc
NLP (Natural Language Processing — Xử lý Ngôn ngữ Tự nhiên) là nhánh AI tập trung vào việc giúp máy tính đọc, hiểu, sinh và tương tác bằng ngôn ngữ con người.
NLP làm được gì?
Hiểu (Understanding — NLU)
- Phân loại text (spam? sentiment? topic?)
- Named Entity Recognition (tìm tên người, địa điểm, công ty)
- Question Answering
- Summarization
Sinh (Generation — NLG)
- Viết bài, email, code (LLM)
- Dịch máy
- Caption ảnh
- Text-to-Speech
Cầu nối
- Speech-to-Text (Whisper)
- OCR (đọc chữ trong ảnh)
Lịch sử ngắn
| Giai đoạn | Đặc điểm | Ví dụ |
|---|---|---|
| 1960-1990 | Rule-based | ELIZA chatbot, dịch máy thủ công |
| 1990-2010 | Statistical NLP | Google Translate đời đầu |
| 2010-2017 | Word embeddings (Word2Vec, GloVe), RNN/LSTM | Translate cải thiện đáng kể |
| 2017-nay | Transformer | BERT, GPT, Claude |
Bùng nổ năm 2017 với paper “Attention Is All You Need” — kiến trúc Transformer thay đổi mọi thứ.
NLP và LLM khác nhau thế nào?
- NLP là cả LĨNH VỰC bao gồm mọi cách máy xử lý ngôn ngữ
- LLM là một LOẠI MODEL trong NLP — phổ biến nhất hiện nay
LLM hiện đại “ăn trọn” hầu hết task NLP truyền thống:
- Sentiment analysis? → Hỏi LLM “tích cực hay tiêu cực?”
- NER? → “Liệt kê tên người trong đoạn này”
- Translation? → “Dịch sang X”
→ Nhiều task NLP cổ điển giờ chỉ cần prompt LLM, không cần model riêng.
NLP cho tiếng Việt
Tiếng Việt có những đặc thù khó:
- Phân từ (word segmentation): “học sinh” là 1 từ hay 2? — máy phải biết
- Dấu thanh: “ma/má/mà/mả/mã/mạ” hoàn toàn khác nghĩa
- Tokenization: tốn token gấp 1.5-2× tiếng Anh
Tài nguyên tiếng Việt:
- VnCoreNLP — toolkit kinh điển
- PhoBERT — BERT pretrain trên tiếng Việt
- Vinai/PhoGPT — LLM Việt
- Llama 3.x, Claude, GPT-5: hỗ trợ tiếng Việt khá tốt mặc dù không phải native
Ứng dụng NLP phổ biến ở Việt Nam
- Chatbot CSKH ngân hàng, bảo hiểm
- Phân tích cảm xúc mạng xã hội
- OCR căn cước, hợp đồng, hóa đơn
- Tự động phân loại email
- Tìm kiếm semantic trong nội bộ
Liên quan
Thẻ
#nlp#language