Sổ Tay AI
ky-thuat Trung cấp

Multimodal (Đa phương thức) là gì?

AI có thể xử lý nhiều kiểu dữ liệu cùng lúc: văn bản, ảnh, audio, video — không chỉ text như LLM cũ.

Cập nhật: 2 tháng 5, 2026 · 2 phút đọc

Multimodal AI là loại AI có thể xử lý NHIỀU loại dữ liệu (modality) cùng lúc — text, ảnh, audio, video, file PDF — thay vì chỉ một loại duy nhất.

Ví dụ thực tế

Bạn có thể:

  • Chụp ảnh bảng cử nhân tiếng Anh → Claude/GPT-4o đọc và dịch
  • Gửi PDF báo cáo tài chính 50 trang → AI tóm tắt
  • Vẽ wireframe trên giấy → AI sinh code HTML
  • Quay video bug app → AI giải thích lỗi
  • Nói chuyện với AI bằng giọng (ChatGPT Voice, Gemini Live)

Các model multimodal phổ biến (2026)

ModelModality hỗ trợ
GPT-4oText + ảnh + audio (input/output)
Claude 4.7Text + ảnh + PDF
Gemini 2.5Text + ảnh + audio + video native
Llama 4Text + ảnh

Gemini đặc biệt mạnh ở video: bạn có thể đưa cả file video 30 phút, hỏi “tóm tắt”.

Cách multimodal hoạt động (đơn giản)

Ý tưởng: chuyển mọi modality thành cùng một dạng vector (embedding) để model xử lý chung:

[Ảnh]  → Vision Encoder  → vector
[Audio] → Audio Encoder  → vector   } → Transformer → output
[Text]  → Text Embedding → vector

Model học cách map giữa các modality (ảnh nào tương ứng với text nào) trong giai đoạn training trên dataset chứa cặp (ảnh + caption).

Use case nổi bật

Cá nhân

  • OCR + dịch tài liệu
  • Tóm tắt video YouTube
  • Hỏi đáp về ảnh chụp

Doanh nghiệp

  • Customer support: gửi ảnh sản phẩm lỗi → AI chẩn đoán
  • Y tế: AI đọc X-ray + hồ sơ bệnh án văn bản
  • Bảo hiểm: AI xử lý claim từ ảnh tai nạn + form khai báo
  • Giáo dục: AI giảng bài bằng cả slide + voice + text

Hạn chế

  • Cost cao hơn text-only (input ảnh/audio tốn nhiều token)
  • Hallucination vẫn xảy ra với nội dung phi văn bản
  • Privacy: gửi ảnh chứa thông tin nhạy cảm cần cẩn trọng

Liên quan

Thẻ
#multimodal#llm#vision