Apa itu Diffusion Model?
Jenis model AI yang membuat gambar dengan cara menghilangkan noise secara bertahap — fondasi di balik Midjourney, Stable Diffusion, dan DALL-E.
Diffusion Model (model difusi) adalah jenis neural network yang membuat gambar (dan baru-baru ini juga video) dengan cara dimulai dari gambar yang sepenuhnya berisi noise, lalu secara bertahap menghilangkan noise tersebut menjadi gambar yang bermakna. Inilah arsitektur di balik Midjourney, Stable Diffusion, DALL-E, FLUX.
Intuisi
Bayangkan proses kebalikan:
- Ambil gambar kucing
- Tambahkan sedikit noise → gambar agak kabur
- Tambah lagi → makin kabur
- Ulangi 1000 kali → gambar tinggal noise murni (seperti TV kehilangan sinyal)
Diffusion model belajar melakukan kebalikan dari proses ini: dari noise murni → langkah demi langkah menghilangkan noise → kembali menjadi gambar kucing.
Saat membuat gambar baru: mulai dengan noise acak + sebuah text prompt → model perlahan-lahan membersihkan noise menjadi gambar yang sesuai dengan prompt.
Mengapa arsitektur ini efektif?
- Stable: lebih mudah dilatih dibanding GAN (pesaing terdahulu)
- Kualitas tinggi: detail bagus, sedikit artifact
- Beragam: dengan prompt yang sama, noise awal yang berbeda → gambar yang berbeda
- Conditioning: mudah diarahkan dengan teks, gambar referensi, depth map…
Diffusion model populer (2026)
| Model | Closed/Open | Keunggulan |
|---|---|---|
| Midjourney v7 | Closed (web/Discord) | Estetika terbaik di kelasnya |
| Stable Diffusion 3.5 | Open source | Komunitas modding raksasa |
| FLUX.1 Pro | Closed/Open variants | Foto-realistis, sangat patuh prompt |
| DALL-E 4 | Closed (OpenAI) | Terintegrasi ChatGPT, paham prompt kompleks |
| Imagen 4 | Closed (Google) | Tersedia di Gemini |
| Ideogram 3 | Closed | Andal pada teks dalam gambar |
Diffusion untuk video
Prinsip yang sama, diperluas ke dimensi temporal:
- Sora (OpenAI) — klip 60 detik
- Veo 3 (Google) — kualitas sinematik
- Kling 2 (Tiongkok) — konsistensi karakter bagus
- Runway Gen-4 — kontrol bagus untuk creator profesional
Video generation memakan compute 100-1000× lebih banyak dari gambar statis → masih mahal dan lambat.
Diffusion vs LLM — bedanya generate gambar dan generate teks
| LLM (text gen) | Diffusion (image gen) | |
|---|---|---|
| Output | Token berurutan | Gambar utuh setelah N langkah |
| Kecepatan | 30-100 token/detik | 1-10 detik/gambar |
| Conditioning | Text prompt | Text prompt + gambar ref + ControlNet |
| Edit per bagian | Sulit | Mudah (inpainting, outpainting) |
Kapan TIDAK pakai diffusion?
- Butuh teks dalam gambar yang akurat → masih sulit (sudah jauh membaik tetapi belum sempurna)
- Butuh render model 3D → pakai tool 3D AI khusus (Meshy, Tripo)
- Butuh aset yang SAMA di banyak gambar (konsistensi karakter) → masih sulit dikontrol secara penuh