co-ban Cơ bản

Computer Vision là gì?

Lĩnh vực AI giúp máy 'nhìn' và hiểu nội dung ảnh, video — từ nhận diện khuôn mặt đến xe tự lái.

Cập nhật: 2 tháng 5, 2026 · 2 phút đọc

Computer Vision (Thị giác máy tính) là nhánh AI giúp máy “nhìn” và hiểu nội dung trong ảnh, video — phân biệt vật thể, đếm số lượng, đọc chữ, phát hiện chuyển động, sinh ảnh mới.

Computer Vision làm được gì

Cổ điển (đã production rộng)

Nhận diện khuôn mặt (Face ID, camera CCTV)
OCR (đọc CMND, hóa đơn, biển số xe)
Object detection (xe tự lái phát hiện người đi bộ)
Image classification (Google Photos tự gắn tag)
Pose estimation (game, fitness app)
Medical imaging (đọc X-ray, MRI)

Mới (2023-26)

Image generation (Midjourney, Stable Diffusion)
Video generation (Sora, Veo)
Visual Question Answering (gửi ảnh + câu hỏi cho GPT-4o/Claude)
3D reconstruction từ ảnh 2D
Visual agents (Computer Use điều khiển GUI)

Kiến trúc model phổ biến

Loại	Dùng cho	Ví dụ
CNN (Convolutional)	Phân loại, detection cổ điển	ResNet, EfficientNet, YOLO
Vision Transformer (ViT)	SOTA hiện đại cho mọi task	ViT, Swin
Diffusion	Sinh ảnh	Stable Diffusion, FLUX
CLIP	Cầu text-image	OpenAI CLIP
SAM	Segment ảnh	Meta SAM 2

Ứng dụng thực tế ở VN

Doanh nghiệp

eKYC (xác minh khách hàng): chụp CCCD + selfie → ngân hàng/ví điện tử verify trong vài giây
Camera AI an ninh: phát hiện xâm nhập, đếm khách hàng
Logistics: đọc biển số xe ra/vào kho, đếm hàng
Y tế: AI phụ chẩn đoán X-ray phổi, mắt

Cá nhân

Google Photos / iCloud Photos tự gán nhãn
Snapchat / Instagram filter
Zalo nhận diện bạn bè trong ảnh

Phân biệt Computer Vision với Image Generation

Computer Vision (cổ điển): HIỂU ảnh có sẵn
Image Generation: TẠO ảnh mới
Multimodal LLM: cả 2 — vừa hiểu vừa sinh, vừa kết hợp với text

→ Trong 2026, ranh giới mờ dần. GPT-4o vừa “thấy” được ảnh, vừa “vẽ” ra ảnh.

Tools / Frameworks phổ biến

Production

OpenCV — thư viện cổ điển, mọi ngôn ngữ
YOLO v10/v11 — object detection nhanh, dễ deploy
Mediapipe (Google) — face, pose, hands realtime
Roboflow — platform end-to-end cho team CV

LLM-based

GPT-4o, Claude 4.7, Gemini 2.5 — gọi API gửi ảnh, hỏi tự nhiên
Llama 4 Vision — open source

Khi nào dùng LLM vs CV cổ điển?

Tình huống	Nên dùng
Realtime, edge device	YOLO / Mediapipe (nhanh, chạy offline)
Task chuẩn (face, OCR)	Library chuyên (FaceNet, Tesseract)
Task phức tạp, mơ hồ	LLM multimodal
Production cần deterministic	CV cổ điển
Prototype nhanh	LLM

Liên quan

Thẻ

#computer-vision#vision