Sổ Tay AI
co-ban Cơ bản

Computer Vision là gì?

Lĩnh vực AI giúp máy 'nhìn' và hiểu nội dung ảnh, video — từ nhận diện khuôn mặt đến xe tự lái.

Cập nhật: 2 tháng 5, 2026 · 2 phút đọc

Computer Vision (Thị giác máy tính) là nhánh AI giúp máy “nhìn” và hiểu nội dung trong ảnh, video — phân biệt vật thể, đếm số lượng, đọc chữ, phát hiện chuyển động, sinh ảnh mới.

Computer Vision làm được gì

Cổ điển (đã production rộng)

  • Nhận diện khuôn mặt (Face ID, camera CCTV)
  • OCR (đọc CMND, hóa đơn, biển số xe)
  • Object detection (xe tự lái phát hiện người đi bộ)
  • Image classification (Google Photos tự gắn tag)
  • Pose estimation (game, fitness app)
  • Medical imaging (đọc X-ray, MRI)

Mới (2023-26)

  • Image generation (Midjourney, Stable Diffusion)
  • Video generation (Sora, Veo)
  • Visual Question Answering (gửi ảnh + câu hỏi cho GPT-4o/Claude)
  • 3D reconstruction từ ảnh 2D
  • Visual agents (Computer Use điều khiển GUI)

Kiến trúc model phổ biến

LoạiDùng choVí dụ
CNN (Convolutional)Phân loại, detection cổ điểnResNet, EfficientNet, YOLO
Vision Transformer (ViT)SOTA hiện đại cho mọi taskViT, Swin
DiffusionSinh ảnhStable Diffusion, FLUX
CLIPCầu text-imageOpenAI CLIP
SAMSegment ảnhMeta SAM 2

Ứng dụng thực tế ở VN

Doanh nghiệp

  • eKYC (xác minh khách hàng): chụp CCCD + selfie → ngân hàng/ví điện tử verify trong vài giây
  • Camera AI an ninh: phát hiện xâm nhập, đếm khách hàng
  • Logistics: đọc biển số xe ra/vào kho, đếm hàng
  • Y tế: AI phụ chẩn đoán X-ray phổi, mắt

Cá nhân

  • Google Photos / iCloud Photos tự gán nhãn
  • Snapchat / Instagram filter
  • Zalo nhận diện bạn bè trong ảnh

Phân biệt Computer Vision với Image Generation

  • Computer Vision (cổ điển): HIỂU ảnh có sẵn
  • Image Generation: TẠO ảnh mới
  • Multimodal LLM: cả 2 — vừa hiểu vừa sinh, vừa kết hợp với text

→ Trong 2026, ranh giới mờ dần. GPT-4o vừa “thấy” được ảnh, vừa “vẽ” ra ảnh.

Tools / Frameworks phổ biến

Production

  • OpenCV — thư viện cổ điển, mọi ngôn ngữ
  • YOLO v10/v11 — object detection nhanh, dễ deploy
  • Mediapipe (Google) — face, pose, hands realtime
  • Roboflow — platform end-to-end cho team CV

LLM-based

  • GPT-4o, Claude 4.7, Gemini 2.5 — gọi API gửi ảnh, hỏi tự nhiên
  • Llama 4 Vision — open source

Khi nào dùng LLM vs CV cổ điển?

Tình huốngNên dùng
Realtime, edge deviceYOLO / Mediapipe (nhanh, chạy offline)
Task chuẩn (face, OCR)Library chuyên (FaceNet, Tesseract)
Task phức tạp, mơ hồLLM multimodal
Production cần deterministicCV cổ điển
Prototype nhanhLLM

Liên quan

Thẻ
#computer-vision#vision