co-ban Cơ bản
Computer Vision là gì?
Lĩnh vực AI giúp máy 'nhìn' và hiểu nội dung ảnh, video — từ nhận diện khuôn mặt đến xe tự lái.
Cập nhật: 2 tháng 5, 2026 · 2 phút đọc
Computer Vision (Thị giác máy tính) là nhánh AI giúp máy “nhìn” và hiểu nội dung trong ảnh, video — phân biệt vật thể, đếm số lượng, đọc chữ, phát hiện chuyển động, sinh ảnh mới.
Computer Vision làm được gì
Cổ điển (đã production rộng)
- Nhận diện khuôn mặt (Face ID, camera CCTV)
- OCR (đọc CMND, hóa đơn, biển số xe)
- Object detection (xe tự lái phát hiện người đi bộ)
- Image classification (Google Photos tự gắn tag)
- Pose estimation (game, fitness app)
- Medical imaging (đọc X-ray, MRI)
Mới (2023-26)
- Image generation (Midjourney, Stable Diffusion)
- Video generation (Sora, Veo)
- Visual Question Answering (gửi ảnh + câu hỏi cho GPT-4o/Claude)
- 3D reconstruction từ ảnh 2D
- Visual agents (Computer Use điều khiển GUI)
Kiến trúc model phổ biến
| Loại | Dùng cho | Ví dụ |
|---|---|---|
| CNN (Convolutional) | Phân loại, detection cổ điển | ResNet, EfficientNet, YOLO |
| Vision Transformer (ViT) | SOTA hiện đại cho mọi task | ViT, Swin |
| Diffusion | Sinh ảnh | Stable Diffusion, FLUX |
| CLIP | Cầu text-image | OpenAI CLIP |
| SAM | Segment ảnh | Meta SAM 2 |
Ứng dụng thực tế ở VN
Doanh nghiệp
- eKYC (xác minh khách hàng): chụp CCCD + selfie → ngân hàng/ví điện tử verify trong vài giây
- Camera AI an ninh: phát hiện xâm nhập, đếm khách hàng
- Logistics: đọc biển số xe ra/vào kho, đếm hàng
- Y tế: AI phụ chẩn đoán X-ray phổi, mắt
Cá nhân
- Google Photos / iCloud Photos tự gán nhãn
- Snapchat / Instagram filter
- Zalo nhận diện bạn bè trong ảnh
Phân biệt Computer Vision với Image Generation
- Computer Vision (cổ điển): HIỂU ảnh có sẵn
- Image Generation: TẠO ảnh mới
- Multimodal LLM: cả 2 — vừa hiểu vừa sinh, vừa kết hợp với text
→ Trong 2026, ranh giới mờ dần. GPT-4o vừa “thấy” được ảnh, vừa “vẽ” ra ảnh.
Tools / Frameworks phổ biến
Production
- OpenCV — thư viện cổ điển, mọi ngôn ngữ
- YOLO v10/v11 — object detection nhanh, dễ deploy
- Mediapipe (Google) — face, pose, hands realtime
- Roboflow — platform end-to-end cho team CV
LLM-based
- GPT-4o, Claude 4.7, Gemini 2.5 — gọi API gửi ảnh, hỏi tự nhiên
- Llama 4 Vision — open source
Khi nào dùng LLM vs CV cổ điển?
| Tình huống | Nên dùng |
|---|---|
| Realtime, edge device | YOLO / Mediapipe (nhanh, chạy offline) |
| Task chuẩn (face, OCR) | Library chuyên (FaceNet, Tesseract) |
| Task phức tạp, mơ hồ | LLM multimodal |
| Production cần deterministic | CV cổ điển |
| Prototype nhanh | LLM |
Liên quan
Thẻ
#computer-vision#vision