Sổ Tay AI
mo-hinh Menengah

Apa itu Diffusion Model?

Jenis model AI yang membuat gambar dengan cara menghilangkan noise secara bertahap — fondasi di balik Midjourney, Stable Diffusion, dan DALL-E.

Diperbarui: 5 Mei 2026 · 2 min read

Diffusion Model (model difusi) adalah jenis neural network yang membuat gambar (dan baru-baru ini juga video) dengan cara dimulai dari gambar yang sepenuhnya berisi noise, lalu secara bertahap menghilangkan noise tersebut menjadi gambar yang bermakna. Inilah arsitektur di balik Midjourney, Stable Diffusion, DALL-E, FLUX.

Intuisi

Bayangkan proses kebalikan:

  1. Ambil gambar kucing
  2. Tambahkan sedikit noise → gambar agak kabur
  3. Tambah lagi → makin kabur
  4. Ulangi 1000 kali → gambar tinggal noise murni (seperti TV kehilangan sinyal)

Diffusion model belajar melakukan kebalikan dari proses ini: dari noise murni → langkah demi langkah menghilangkan noise → kembali menjadi gambar kucing.

Saat membuat gambar baru: mulai dengan noise acak + sebuah text prompt → model perlahan-lahan membersihkan noise menjadi gambar yang sesuai dengan prompt.

Mengapa arsitektur ini efektif?

  • Stable: lebih mudah dilatih dibanding GAN (pesaing terdahulu)
  • Kualitas tinggi: detail bagus, sedikit artifact
  • Beragam: dengan prompt yang sama, noise awal yang berbeda → gambar yang berbeda
  • Conditioning: mudah diarahkan dengan teks, gambar referensi, depth map…

Diffusion model populer (2026)

ModelClosed/OpenKeunggulan
Midjourney v7Closed (web/Discord)Estetika terbaik di kelasnya
Stable Diffusion 3.5Open sourceKomunitas modding raksasa
FLUX.1 ProClosed/Open variantsFoto-realistis, sangat patuh prompt
DALL-E 4Closed (OpenAI)Terintegrasi ChatGPT, paham prompt kompleks
Imagen 4Closed (Google)Tersedia di Gemini
Ideogram 3ClosedAndal pada teks dalam gambar

Diffusion untuk video

Prinsip yang sama, diperluas ke dimensi temporal:

  • Sora (OpenAI) — klip 60 detik
  • Veo 3 (Google) — kualitas sinematik
  • Kling 2 (Tiongkok) — konsistensi karakter bagus
  • Runway Gen-4 — kontrol bagus untuk creator profesional

Video generation memakan compute 100-1000× lebih banyak dari gambar statis → masih mahal dan lambat.

Diffusion vs LLM — bedanya generate gambar dan generate teks

LLM (text gen)Diffusion (image gen)
OutputToken berurutanGambar utuh setelah N langkah
Kecepatan30-100 token/detik1-10 detik/gambar
ConditioningText promptText prompt + gambar ref + ControlNet
Edit per bagianSulitMudah (inpainting, outpainting)

Kapan TIDAK pakai diffusion?

  • Butuh teks dalam gambar yang akurat → masih sulit (sudah jauh membaik tetapi belum sempurna)
  • Butuh render model 3D → pakai tool 3D AI khusus (Meshy, Tripo)
  • Butuh aset yang SAMA di banyak gambar (konsistensi karakter) → masih sulit dikontrol secara penuh

Terkait

Tag
#diffusion#image-gen#generative-ai