Sổ Tay AI
co-ban Cơ bản

NLP (Xử lý Ngôn ngữ Tự nhiên) là gì?

Nhánh AI giúp máy đọc, hiểu, sinh ngôn ngữ con người — từ Google Translate đến ChatGPT đều là NLP.

Cập nhật: 2 tháng 5, 2026 · 2 phút đọc

NLP (Natural Language Processing — Xử lý Ngôn ngữ Tự nhiên) là nhánh AI tập trung vào việc giúp máy tính đọc, hiểu, sinh và tương tác bằng ngôn ngữ con người.

NLP làm được gì?

Hiểu (Understanding — NLU)

  • Phân loại text (spam? sentiment? topic?)
  • Named Entity Recognition (tìm tên người, địa điểm, công ty)
  • Question Answering
  • Summarization

Sinh (Generation — NLG)

  • Viết bài, email, code (LLM)
  • Dịch máy
  • Caption ảnh
  • Text-to-Speech

Cầu nối

  • Speech-to-Text (Whisper)
  • OCR (đọc chữ trong ảnh)

Lịch sử ngắn

Giai đoạnĐặc điểmVí dụ
1960-1990Rule-basedELIZA chatbot, dịch máy thủ công
1990-2010Statistical NLPGoogle Translate đời đầu
2010-2017Word embeddings (Word2Vec, GloVe), RNN/LSTMTranslate cải thiện đáng kể
2017-nayTransformerBERT, GPT, Claude

Bùng nổ năm 2017 với paper “Attention Is All You Need” — kiến trúc Transformer thay đổi mọi thứ.

NLP và LLM khác nhau thế nào?

  • NLP là cả LĨNH VỰC bao gồm mọi cách máy xử lý ngôn ngữ
  • LLM là một LOẠI MODEL trong NLP — phổ biến nhất hiện nay

LLM hiện đại “ăn trọn” hầu hết task NLP truyền thống:

  • Sentiment analysis? → Hỏi LLM “tích cực hay tiêu cực?”
  • NER? → “Liệt kê tên người trong đoạn này”
  • Translation? → “Dịch sang X”

→ Nhiều task NLP cổ điển giờ chỉ cần prompt LLM, không cần model riêng.

NLP cho tiếng Việt

Tiếng Việt có những đặc thù khó:

  • Phân từ (word segmentation): “học sinh” là 1 từ hay 2? — máy phải biết
  • Dấu thanh: “ma/má/mà/mả/mã/mạ” hoàn toàn khác nghĩa
  • Tokenization: tốn token gấp 1.5-2× tiếng Anh

Tài nguyên tiếng Việt:

  • VnCoreNLP — toolkit kinh điển
  • PhoBERT — BERT pretrain trên tiếng Việt
  • Vinai/PhoGPT — LLM Việt
  • Llama 3.x, Claude, GPT-5: hỗ trợ tiếng Việt khá tốt mặc dù không phải native

Ứng dụng NLP phổ biến ở Việt Nam

  • Chatbot CSKH ngân hàng, bảo hiểm
  • Phân tích cảm xúc mạng xã hội
  • OCR căn cước, hợp đồng, hóa đơn
  • Tự động phân loại email
  • Tìm kiếm semantic trong nội bộ

Liên quan

Thẻ
#nlp#language