mo-hinh Cơ bản

LLM (Large Language Model) là gì?

Mô hình ngôn ngữ lớn — loại AI có thể hiểu và sinh văn bản như con người. ChatGPT, Claude, Gemini đều là LLM.

Cập nhật: 2 tháng 5, 2026 · 2 phút đọc

LLM (Large Language Model — mô hình ngôn ngữ lớn) là loại AI được huấn luyện trên lượng văn bản khổng lồ (hàng trăm tỷ trang web, sách, code) để có thể hiểu và sinh văn bản tự nhiên. ChatGPT, Claude, Gemini, Llama đều là LLM.

Vì sao gọi là “Large”?

“Large” ám chỉ số lượng parameters (tham số) — thường tính bằng tỷ:

Model	Parameters	Năm
GPT-2	1.5B	2019
GPT-3	175B	2020
GPT-4	~1700B (ước tính)	2023
Claude 4.7	không công bố	2026

Càng nhiều tham số thì mô hình càng “thông minh” — nhưng cũng tốn bộ nhớ và điện hơn.

LLM hoạt động thế nào (đơn giản)

LLM về bản chất là một hàm dự đoán: cho một chuỗi từ → đoán từ tiếp theo có khả năng cao nhất.

Input:  "Hôm nay trời rất"
Output: "đẹp" (xác suất cao), "nóng", "mát", ...

Lặp lại quá trình này → tạo ra cả đoạn văn dài. Nghe đơn giản nhưng khi scale lên hàng nghìn tỷ tham số + dữ liệu cực lớn, kết quả nhìn như có “tư duy”.

LLM làm được gì?

Trả lời câu hỏi
Viết bài, tóm tắt, dịch
Sinh và sửa code
Phân tích văn bản, tài liệu
Đóng vai (chatbot)
Suy luận từng bước (Chain of Thought)

LLM KHÔNG làm được gì (giới hạn)

Không biết sự kiện sau ngày training cutoff — trừ khi nối với web search
Có thể bịa thông tin (hallucination)
Không thực sự “hiểu” — chỉ dự đoán xác suất
Không có ý thức, cảm xúc, ý chí

Liên quan

Token — đơn vị LLM xử lý
Context Window — bộ nhớ ngắn hạn
Hallucination — khi LLM bịa

Thẻ

#llm#co-ban