mo-hinh Menengah

Apa itu Diffusion Model?

Jenis model AI yang membuat gambar dengan cara menghilangkan noise secara bertahap — fondasi di balik Midjourney, Stable Diffusion, dan DALL-E.

Diperbarui: 5 Mei 2026 · 2 min read

Diffusion Model (model difusi) adalah jenis neural network yang membuat gambar (dan baru-baru ini juga video) dengan cara dimulai dari gambar yang sepenuhnya berisi noise, lalu secara bertahap menghilangkan noise tersebut menjadi gambar yang bermakna. Inilah arsitektur di balik Midjourney, Stable Diffusion, DALL-E, FLUX.

Intuisi

Bayangkan proses kebalikan:

Ambil gambar kucing
Tambahkan sedikit noise → gambar agak kabur
Tambah lagi → makin kabur
Ulangi 1000 kali → gambar tinggal noise murni (seperti TV kehilangan sinyal)

Diffusion model belajar melakukan kebalikan dari proses ini: dari noise murni → langkah demi langkah menghilangkan noise → kembali menjadi gambar kucing.

Saat membuat gambar baru: mulai dengan noise acak + sebuah text prompt → model perlahan-lahan membersihkan noise menjadi gambar yang sesuai dengan prompt.

Mengapa arsitektur ini efektif?

Stable: lebih mudah dilatih dibanding GAN (pesaing terdahulu)
Kualitas tinggi: detail bagus, sedikit artifact
Beragam: dengan prompt yang sama, noise awal yang berbeda → gambar yang berbeda
Conditioning: mudah diarahkan dengan teks, gambar referensi, depth map…

Diffusion model populer (2026)

Model	Closed/Open	Keunggulan
Midjourney v7	Closed (web/Discord)	Estetika terbaik di kelasnya
Stable Diffusion 3.5	Open source	Komunitas modding raksasa
FLUX.1 Pro	Closed/Open variants	Foto-realistis, sangat patuh prompt
DALL-E 4	Closed (OpenAI)	Terintegrasi ChatGPT, paham prompt kompleks
Imagen 4	Closed (Google)	Tersedia di Gemini
Ideogram 3	Closed	Andal pada teks dalam gambar

Diffusion untuk video

Prinsip yang sama, diperluas ke dimensi temporal:

Sora (OpenAI) — klip 60 detik
Veo 3 (Google) — kualitas sinematik
Kling 2 (Tiongkok) — konsistensi karakter bagus
Runway Gen-4 — kontrol bagus untuk creator profesional

Video generation memakan compute 100-1000× lebih banyak dari gambar statis → masih mahal dan lambat.

Diffusion vs LLM — bedanya generate gambar dan generate teks

	LLM (text gen)	Diffusion (image gen)
Output	Token berurutan	Gambar utuh setelah N langkah
Kecepatan	30-100 token/detik	1-10 detik/gambar
Conditioning	Text prompt	Text prompt + gambar ref + ControlNet
Edit per bagian	Sulit	Mudah (inpainting, outpainting)

Kapan TIDAK pakai diffusion?

Butuh teks dalam gambar yang akurat → masih sulit (sudah jauh membaik tetapi belum sempurna)
Butuh render model 3D → pakai tool 3D AI khusus (Meshy, Tripo)
Butuh aset yang SAMA di banyak gambar (konsistensi karakter) → masih sulit dikontrol secara penuh

Terkait

Tag

#diffusion#image-gen#generative-ai