mo-hinh Trung cấp

Diffusion Model là gì?

Loại mô hình AI sinh ảnh bằng cách dần khử nhiễu — đứng sau Midjourney, Stable Diffusion, DALL-E.

Cập nhật: 2 tháng 5, 2026 · 2 phút đọc

Diffusion Model (mô hình khuếch tán) là loại neural network sinh ảnh (và gần đây cả video) bằng cách bắt đầu từ một ảnh nhiễu hoàn toàn, rồi khử nhiễu dần dần thành ảnh có ý nghĩa. Đây là kiến trúc đứng sau Midjourney, Stable Diffusion, DALL-E, FLUX.

Trực giác

Hãy tưởng tượng quá trình ngược:

Lấy ảnh con mèo
Thêm nhiễu nhẹ → ảnh hơi mờ
Thêm tiếp → mờ hơn
Lặp 1000 lần → ảnh chỉ còn nhiễu thuần (như TV mất tín hiệu)

Diffusion model học cách làm ngược lại quy trình này: từ nhiễu thuần → từng bước khử nhiễu → ra lại ảnh con mèo.

Khi sinh ảnh mới: bắt đầu với nhiễu ngẫu nhiên + một text prompt → model dần khử thành ảnh khớp với prompt.

Vì sao kiến trúc này hiệu quả?

Stable: dễ train hơn GAN (đối thủ trước đây)
Chất lượng cao: chi tiết tốt, ít artifact
Đa dạng: cùng prompt, mỗi nhiễu khởi đầu khác → ra ảnh khác
Conditioning: dễ guide bằng text, ảnh tham khảo, depth map…

Các model diffusion phổ biến (2026)

Model	Closed/Open	Nổi bật
Midjourney v7	Closed (web/Discord)	Aesthetic best-in-class
Stable Diffusion 3.5	Open source	Cộng đồng modding khổng lồ
FLUX.1 Pro	Closed/Open variants	Photo-realistic, prompt adherence cực tốt
DALL-E 4	Closed (OpenAI)	Tích hợp ChatGPT, hiểu prompt phức tạp
Imagen 4	Closed (Google)	Trong Gemini
Ideogram 3	Closed	Mạnh ở chữ trong ảnh

Diffusion cho video

Cùng nguyên lý, scale lên temporal dimension:

Sora (OpenAI) — clip 60s
Veo 3 (Google) — chất lượng cinematic
Kling 2 (China) — character consistency tốt
Runway Gen-4 — control tốt cho creator chuyên nghiệp

Video gen tốn compute gấp 100-1000× ảnh tĩnh → vẫn đắt và chậm.

Diffusion vs LLM — gen ảnh khác gen text thế nào?

	LLM (text gen)	Diffusion (image gen)
Output	Token tuần tự	Ảnh hoàn chỉnh sau N step
Tốc độ	30-100 token/giây	1-10 giây/ảnh
Conditioning	Text prompt	Text prompt + ảnh ref + ControlNet
Edit từng phần	Khó	Dễ (inpainting, outpainting)

Khi nào KHÔNG dùng diffusion?

Cần ảnh có chữ chính xác → vẫn khó (cải thiện nhiều nhưng chưa hoàn hảo)
Cần render 3D model → dùng tool 3D AI riêng (Meshy, Tripo)
Cần asset giống NHAU qua nhiều ảnh (character consistency) → khó kiểm soát hoàn toàn

Liên quan

Thẻ

#diffusion#image-gen#generative-ai