Sổ Tay AI
ky-thuat Menengah

Apa itu Multimodal?

AI yang mampu memproses berbagai jenis data sekaligus: teks, gambar, audio, video — bukan hanya teks seperti LLM lama.

Diperbarui: 5 Mei 2026 · 2 min read

Multimodal AI adalah jenis AI yang mampu memproses BANYAK jenis data (modality) sekaligus — teks, gambar, audio, video, file PDF — bukan hanya satu jenis saja.

Contoh nyata

Anda bisa:

  • Memotret papan tulis berbahasa Inggris → Claude/GPT-4o membacanya dan menerjemahkan
  • Mengirim PDF laporan keuangan 50 halaman → AI merangkumnya
  • Menggambar wireframe di kertas → AI menghasilkan kode HTML
  • Merekam video bug aplikasi → AI menjelaskan errornya
  • Berbicara dengan AI lewat suara (ChatGPT Voice, Gemini Live)

Model multimodal populer (2026)

ModelModality yang didukung
GPT-4oTeks + gambar + audio (input/output)
Claude 4.7Teks + gambar + PDF
Gemini 2.5Teks + gambar + audio + video native
Llama 4Teks + gambar

Gemini sangat kuat di video: Anda bisa mengunggah file video 30 menit dan bertanya “rangkum”.

Cara kerja multimodal (sederhana)

Idenya: konversi semua modality menjadi format yang sama yaitu vector (embedding) sehingga model bisa memprosesnya bersama:

[Gambar] → Vision Encoder  → vector
[Audio]  → Audio Encoder   → vector   } → Transformer → output
[Teks]   → Text Embedding  → vector

Model belajar memetakan antar modality (gambar mana sesuai dengan teks mana) selama fase training di dataset yang berisi pasangan (gambar + caption).

Use case yang menonjol

Personal

  • OCR + terjemahan dokumen
  • Rangkum video YouTube
  • Tanya jawab tentang foto

Bisnis

  • Customer support: kirim foto produk rusak → AI mendiagnosis
  • Medis: AI membaca X-ray + rekam medis tertulis
  • Asuransi: AI memproses klaim dari foto kecelakaan + form pelaporan
  • Edukasi: AI mengajar dengan slide + suara + teks sekaligus

Keterbatasan

  • Cost lebih tinggi daripada text-only (input gambar/audio menghabiskan banyak token)
  • Hallucination masih terjadi pada konten non-teks
  • Privacy: mengirim gambar berisi informasi sensitif harus dilakukan dengan hati-hati

Terkait

Tag
#multimodal#llm#vision