mo-hinh Trung cấp
Diffusion Model là gì?
Loại mô hình AI sinh ảnh bằng cách dần khử nhiễu — đứng sau Midjourney, Stable Diffusion, DALL-E.
Cập nhật: 2 tháng 5, 2026 · 2 phút đọc
Diffusion Model (mô hình khuếch tán) là loại neural network sinh ảnh (và gần đây cả video) bằng cách bắt đầu từ một ảnh nhiễu hoàn toàn, rồi khử nhiễu dần dần thành ảnh có ý nghĩa. Đây là kiến trúc đứng sau Midjourney, Stable Diffusion, DALL-E, FLUX.
Trực giác
Hãy tưởng tượng quá trình ngược:
- Lấy ảnh con mèo
- Thêm nhiễu nhẹ → ảnh hơi mờ
- Thêm tiếp → mờ hơn
- Lặp 1000 lần → ảnh chỉ còn nhiễu thuần (như TV mất tín hiệu)
Diffusion model học cách làm ngược lại quy trình này: từ nhiễu thuần → từng bước khử nhiễu → ra lại ảnh con mèo.
Khi sinh ảnh mới: bắt đầu với nhiễu ngẫu nhiên + một text prompt → model dần khử thành ảnh khớp với prompt.
Vì sao kiến trúc này hiệu quả?
- Stable: dễ train hơn GAN (đối thủ trước đây)
- Chất lượng cao: chi tiết tốt, ít artifact
- Đa dạng: cùng prompt, mỗi nhiễu khởi đầu khác → ra ảnh khác
- Conditioning: dễ guide bằng text, ảnh tham khảo, depth map…
Các model diffusion phổ biến (2026)
| Model | Closed/Open | Nổi bật |
|---|---|---|
| Midjourney v7 | Closed (web/Discord) | Aesthetic best-in-class |
| Stable Diffusion 3.5 | Open source | Cộng đồng modding khổng lồ |
| FLUX.1 Pro | Closed/Open variants | Photo-realistic, prompt adherence cực tốt |
| DALL-E 4 | Closed (OpenAI) | Tích hợp ChatGPT, hiểu prompt phức tạp |
| Imagen 4 | Closed (Google) | Trong Gemini |
| Ideogram 3 | Closed | Mạnh ở chữ trong ảnh |
Diffusion cho video
Cùng nguyên lý, scale lên temporal dimension:
- Sora (OpenAI) — clip 60s
- Veo 3 (Google) — chất lượng cinematic
- Kling 2 (China) — character consistency tốt
- Runway Gen-4 — control tốt cho creator chuyên nghiệp
Video gen tốn compute gấp 100-1000× ảnh tĩnh → vẫn đắt và chậm.
Diffusion vs LLM — gen ảnh khác gen text thế nào?
| LLM (text gen) | Diffusion (image gen) | |
|---|---|---|
| Output | Token tuần tự | Ảnh hoàn chỉnh sau N step |
| Tốc độ | 30-100 token/giây | 1-10 giây/ảnh |
| Conditioning | Text prompt | Text prompt + ảnh ref + ControlNet |
| Edit từng phần | Khó | Dễ (inpainting, outpainting) |
Khi nào KHÔNG dùng diffusion?
- Cần ảnh có chữ chính xác → vẫn khó (cải thiện nhiều nhưng chưa hoàn hảo)
- Cần render 3D model → dùng tool 3D AI riêng (Meshy, Tripo)
- Cần asset giống NHAU qua nhiều ảnh (character consistency) → khó kiểm soát hoàn toàn
Liên quan
Thẻ
#diffusion#image-gen#generative-ai