Sổ Tay AI
mo-hinh Trung cấp

Diffusion Model là gì?

Loại mô hình AI sinh ảnh bằng cách dần khử nhiễu — đứng sau Midjourney, Stable Diffusion, DALL-E.

Cập nhật: 2 tháng 5, 2026 · 2 phút đọc

Diffusion Model (mô hình khuếch tán) là loại neural network sinh ảnh (và gần đây cả video) bằng cách bắt đầu từ một ảnh nhiễu hoàn toàn, rồi khử nhiễu dần dần thành ảnh có ý nghĩa. Đây là kiến trúc đứng sau Midjourney, Stable Diffusion, DALL-E, FLUX.

Trực giác

Hãy tưởng tượng quá trình ngược:

  1. Lấy ảnh con mèo
  2. Thêm nhiễu nhẹ → ảnh hơi mờ
  3. Thêm tiếp → mờ hơn
  4. Lặp 1000 lần → ảnh chỉ còn nhiễu thuần (như TV mất tín hiệu)

Diffusion model học cách làm ngược lại quy trình này: từ nhiễu thuần → từng bước khử nhiễu → ra lại ảnh con mèo.

Khi sinh ảnh mới: bắt đầu với nhiễu ngẫu nhiên + một text prompt → model dần khử thành ảnh khớp với prompt.

Vì sao kiến trúc này hiệu quả?

  • Stable: dễ train hơn GAN (đối thủ trước đây)
  • Chất lượng cao: chi tiết tốt, ít artifact
  • Đa dạng: cùng prompt, mỗi nhiễu khởi đầu khác → ra ảnh khác
  • Conditioning: dễ guide bằng text, ảnh tham khảo, depth map…

Các model diffusion phổ biến (2026)

ModelClosed/OpenNổi bật
Midjourney v7Closed (web/Discord)Aesthetic best-in-class
Stable Diffusion 3.5Open sourceCộng đồng modding khổng lồ
FLUX.1 ProClosed/Open variantsPhoto-realistic, prompt adherence cực tốt
DALL-E 4Closed (OpenAI)Tích hợp ChatGPT, hiểu prompt phức tạp
Imagen 4Closed (Google)Trong Gemini
Ideogram 3ClosedMạnh ở chữ trong ảnh

Diffusion cho video

Cùng nguyên lý, scale lên temporal dimension:

  • Sora (OpenAI) — clip 60s
  • Veo 3 (Google) — chất lượng cinematic
  • Kling 2 (China) — character consistency tốt
  • Runway Gen-4 — control tốt cho creator chuyên nghiệp

Video gen tốn compute gấp 100-1000× ảnh tĩnh → vẫn đắt và chậm.

Diffusion vs LLM — gen ảnh khác gen text thế nào?

LLM (text gen)Diffusion (image gen)
OutputToken tuần tựẢnh hoàn chỉnh sau N step
Tốc độ30-100 token/giây1-10 giây/ảnh
ConditioningText promptText prompt + ảnh ref + ControlNet
Edit từng phầnKhóDễ (inpainting, outpainting)

Khi nào KHÔNG dùng diffusion?

  • Cần ảnh có chữ chính xác → vẫn khó (cải thiện nhiều nhưng chưa hoàn hảo)
  • Cần render 3D model → dùng tool 3D AI riêng (Meshy, Tripo)
  • Cần asset giống NHAU qua nhiều ảnh (character consistency) → khó kiểm soát hoàn toàn

Liên quan

Thẻ
#diffusion#image-gen#generative-ai