Sổ Tay AI
mo-hinh Menengah

Apa itu Foundation Model?

Model AI besar yang dilatih dengan data luas dan serbaguna — menjadi fondasi untuk fine-tuning ke berbagai task berbeda.

Diperbarui: 5 Mei 2026 · 2 min read

Foundation Model (model fondasi) adalah model AI besar yang dilatih dengan data yang LUAS dan BERAGAM, berfungsi sebagai “pondasi” untuk Fine-tuning atau adaptasi ke berbagai use case yang berbeda — alih-alih dilatih dari awal untuk setiap pekerjaan.

Konsep ini didefinisikan oleh Stanford CRFM pada tahun 2021. Semua LLM besar (GPT, Claude, Gemini, Llama) adalah Foundation Model.

Sebelum vs Sesudah era Foundation Model

Sebelum (cara lama): setiap task → latih satu model kecil terpisah

  • Deteksi spam: latih model A
  • Analisis sentimen: latih model B
  • Penerjemahan: latih model C
  • → Boros data, compute, dan keahlian untuk setiap task

Sesudah (Foundation Model): latih 1 model raksasa dengan teks umum → adaptasi ke semua task

  • Spam? Prompt: “Ini spam? Jawab yes/no”
  • Sentimen? Prompt: “Apa emosi dalam kalimat ini?”
  • Translation? Prompt: “Terjemahkan ke bahasa Indonesia”
  • → 1 model menyelesaikan ribuan task

Karakteristik umum

  1. Skala: miliaran hingga triliunan parameter
  2. Data beragam: web, buku, code, gambar, video
  3. Pre-training self-supervised — tidak perlu data berlabel
  4. Emergent abilities: ketika cukup besar, muncul kemampuan yang tidak dilatih secara langsung (mis. menghitung matematika, melakukan reasoning)
  5. Transferable: bisa dipakai untuk task yang belum pernah dilihat lewat prompting

Foundation Model populer (2026)

Text (LLM)

  • GPT-5 / GPT-5 Pro (OpenAI)
  • Claude 4.7 Sonnet / Opus 4.5 (Anthropic)
  • Gemini 2.5 Pro / 3 Ultra (Google)
  • Llama 4 (Meta — open source)
  • Qwen 3 (Alibaba — open source)
  • DeepSeek V4 (China — open source)

Multimodal

  • GPT-5o (text + image + audio + video)
  • Gemini 2.5 (native multimodal)
  • Claude 4.7 (text + image)

Image

  • DALL-E 4, Imagen 4, Midjourney v7, FLUX.1

Video

  • Sora, Veo 3, Kling 2

Audio / Speech

  • Whisper (OpenAI), GPT-4o voice, ElevenLabs models

Code

  • Codex (legacy), Claude Code-tuned, DeepSeek-Coder

Closed vs Open Foundation Model

Closed (GPT, Claude, Gemini)Open (Llama, Qwen, DeepSeek)
AksesAPI sajaDownload dan self-host
Yang terkuat🥇🥈 (selisih 6-12 bulan)
PrivasiData lewat providerAnda yang kontrol
Kustomisasi mendalamTerbatasBebas penuh
BiayaPer tokenHardware + ops

→ Produk consumer biasanya pakai closed (paling kuat). Enterprise yang sensitif soal privasi, atau skala besar → pertimbangkan open.

Apa artinya bagi pengguna

Anda jarang perlu “membangun Foundation Model”. Cara penggunaan praktis:

  1. Prompting: cara termurah dan tercepat
  2. RAG: tambahkan pengetahuan privat ke prompt
  3. Fine-tuning di atas Foundation Model yang sudah ada (mis. fine-tune Llama untuk domain tertentu)
  4. Latih dari nol: hanya kalau Anda lab besar

Terkait

Tag
#foundation-model#llm