Sổ Tay AI
mo-hinh Trung cấp

Foundation Model là gì?

Mô hình AI lớn được train trên dữ liệu rộng, đa dụng — làm nền tảng để fine-tune cho nhiều task khác nhau.

Cập nhật: 2 tháng 5, 2026 · 2 phút đọc

Foundation Model (mô hình nền tảng) là mô hình AI lớn được train trên dữ liệu RỘNG và ĐA DẠNG, làm “nền móng” để fine-tune hoặc adapt cho nhiều use case khác nhau — thay vì train riêng từ đầu cho mỗi việc.

Khái niệm do Stanford CRFM định nghĩa năm 2021. Mọi LLM lớn (GPT, Claude, Gemini, Llama) đều là foundation model.

Trước vs Sau foundation model

Trước (cũ): mỗi task → train riêng một model nhỏ

  • Spam detection: train model A
  • Sentiment analysis: train model B
  • Translation: train model C
  • → Tốn data, compute, expertise cho từng task

Sau (foundation model): train 1 model khổng lồ trên text chung → adapt cho mọi task

  • Spam? Prompt: “Đây là spam? Trả lời yes/no”
  • Sentiment? Prompt: “Cảm xúc trong câu này?”
  • Translation? Prompt: “Dịch sang tiếng Việt”
  • → 1 model giải nghìn task

Đặc điểm chung

  1. Scale: tỷ - nghìn tỷ parameter
  2. Data đa dạng: web, sách, code, ảnh, video
  3. Pre-training tự giám sát (self-supervised) — không cần labeled data
  4. Emergent abilities: khi đủ lớn, xuất hiện khả năng không được train trực tiếp (vd: làm toán, suy luận)
  5. Transferable: dùng cho task chưa từng thấy bằng prompting

Các foundation model nổi bật (2026)

Text (LLM)

  • GPT-5 / GPT-5 Pro (OpenAI)
  • Claude 4.7 Sonnet / Opus 4.5 (Anthropic)
  • Gemini 2.5 Pro / 3 Ultra (Google)
  • Llama 4 (Meta — open source)
  • Qwen 3 (Alibaba — open source)
  • DeepSeek V4 (China — open source)

Multimodal

  • GPT-5o (text + image + audio + video)
  • Gemini 2.5 (native multimodal)
  • Claude 4.7 (text + image)

Image

  • DALL-E 4, Imagen 4, Midjourney v7, FLUX.1

Video

  • Sora, Veo 3, Kling 2

Audio / Speech

  • Whisper (Open AI), GPT-4o voice, ElevenLabs models

Code

  • Codex (legacy), Claude Code-tuned, DeepSeek-Coder

Closed vs Open foundation model

Closed (GPT, Claude, Gemini)Open (Llama, Qwen, DeepSeek)
Truy cậpAPI onlyTải về tự host
Mạnh nhất🥇🥈 (cách 6-12 tháng)
PrivacyData đi qua providerTự kiểm soát
Custom sâuHạn chếToàn quyền
Chi phíPer tokenHardware + ops

→ Sản phẩm consumer thường dùng closed (mạnh nhất). Enterprise nhạy cảm privacy, scale lớn → cân nhắc open.

Ý nghĩa với người dùng

Bạn hiếm khi cần “build foundation model”. Cách dùng thực tế:

  1. Prompting: cách rẻ, nhanh nhất
  2. RAG: thêm kiến thức riêng vào prompt
  3. Fine-tuning trên foundation model có sẵn (vd: fine-tune Llama cho domain)
  4. Train từ đầu: chỉ khi bạn là big lab

Liên quan

Thẻ
#foundation-model#llm