Apa itu Foundation Model?
Model AI besar yang dilatih dengan data luas dan serbaguna — menjadi fondasi untuk fine-tuning ke berbagai task berbeda.
Foundation Model (model fondasi) adalah model AI besar yang dilatih dengan data yang LUAS dan BERAGAM, berfungsi sebagai “pondasi” untuk Fine-tuning atau adaptasi ke berbagai use case yang berbeda — alih-alih dilatih dari awal untuk setiap pekerjaan.
Konsep ini didefinisikan oleh Stanford CRFM pada tahun 2021. Semua LLM besar (GPT, Claude, Gemini, Llama) adalah Foundation Model.
Sebelum vs Sesudah era Foundation Model
Sebelum (cara lama): setiap task → latih satu model kecil terpisah
- Deteksi spam: latih model A
- Analisis sentimen: latih model B
- Penerjemahan: latih model C
- → Boros data, compute, dan keahlian untuk setiap task
Sesudah (Foundation Model): latih 1 model raksasa dengan teks umum → adaptasi ke semua task
- Spam? Prompt: “Ini spam? Jawab yes/no”
- Sentimen? Prompt: “Apa emosi dalam kalimat ini?”
- Translation? Prompt: “Terjemahkan ke bahasa Indonesia”
- → 1 model menyelesaikan ribuan task
Karakteristik umum
- Skala: miliaran hingga triliunan parameter
- Data beragam: web, buku, code, gambar, video
- Pre-training self-supervised — tidak perlu data berlabel
- Emergent abilities: ketika cukup besar, muncul kemampuan yang tidak dilatih secara langsung (mis. menghitung matematika, melakukan reasoning)
- Transferable: bisa dipakai untuk task yang belum pernah dilihat lewat prompting
Foundation Model populer (2026)
Text (LLM)
- GPT-5 / GPT-5 Pro (OpenAI)
- Claude 4.7 Sonnet / Opus 4.5 (Anthropic)
- Gemini 2.5 Pro / 3 Ultra (Google)
- Llama 4 (Meta — open source)
- Qwen 3 (Alibaba — open source)
- DeepSeek V4 (China — open source)
Multimodal
- GPT-5o (text + image + audio + video)
- Gemini 2.5 (native multimodal)
- Claude 4.7 (text + image)
Image
- DALL-E 4, Imagen 4, Midjourney v7, FLUX.1
Video
- Sora, Veo 3, Kling 2
Audio / Speech
- Whisper (OpenAI), GPT-4o voice, ElevenLabs models
Code
- Codex (legacy), Claude Code-tuned, DeepSeek-Coder
Closed vs Open Foundation Model
| Closed (GPT, Claude, Gemini) | Open (Llama, Qwen, DeepSeek) | |
|---|---|---|
| Akses | API saja | Download dan self-host |
| Yang terkuat | 🥇 | 🥈 (selisih 6-12 bulan) |
| Privasi | Data lewat provider | Anda yang kontrol |
| Kustomisasi mendalam | Terbatas | Bebas penuh |
| Biaya | Per token | Hardware + ops |
→ Produk consumer biasanya pakai closed (paling kuat). Enterprise yang sensitif soal privasi, atau skala besar → pertimbangkan open.
Apa artinya bagi pengguna
Anda jarang perlu “membangun Foundation Model”. Cara penggunaan praktis:
- Prompting: cara termurah dan tercepat
- RAG: tambahkan pengetahuan privat ke prompt
- Fine-tuning di atas Foundation Model yang sudah ada (mis. fine-tune Llama untuk domain tertentu)
- Latih dari nol: hanya kalau Anda lab besar