Sổ Tay AI
co-ban Pemula

Apa itu Computer Vision?

Bidang AI yang membantu mesin 'melihat' dan memahami isi gambar serta video — dari pengenalan wajah hingga mobil otonom.

Diperbarui: 5 Mei 2026 · 2 min read

Computer Vision (Visi Komputer) adalah cabang AI yang membantu mesin “melihat” dan memahami isi gambar maupun video — membedakan objek, menghitung jumlah, membaca teks, mendeteksi gerakan, hingga membuat gambar baru.

Apa yang bisa dilakukan Computer Vision

Klasik (sudah luas dipakai produksi)

  • Pengenalan wajah (Face ID, kamera CCTV)
  • OCR (membaca KTP, struk, plat nomor)
  • Object detection (mobil otonom mendeteksi pejalan kaki)
  • Image classification (Google Photos memberi tag otomatis)
  • Pose estimation (game, aplikasi fitness)
  • Medical imaging (membaca X-ray, MRI)

Baru (2023-26)

  • Image generation (Midjourney, Stable Diffusion)
  • Video generation (Sora, Veo)
  • Visual Question Answering (mengirim gambar + pertanyaan ke GPT-4o/Claude)
  • 3D reconstruction dari gambar 2D
  • Visual agents (Computer Use mengontrol GUI)

Arsitektur model populer

TipeUntukContoh
CNN (Convolutional)Klasifikasi, detection klasikResNet, EfficientNet, YOLO
Vision Transformer (ViT)SOTA modern untuk segala taskViT, Swin
DiffusionPembuatan gambarStable Diffusion, FLUX
CLIPJembatan text-imageOpenAI CLIP
SAMSegmentasi gambarMeta SAM 2

Aplikasi nyata di Indonesia

Bisnis

  • eKYC (verifikasi nasabah): foto KTP + selfie → bank/dompet digital memverifikasi dalam beberapa detik
  • Kamera AI untuk keamanan: mendeteksi penyusup, menghitung pengunjung
  • Logistik: membaca plat nomor kendaraan keluar/masuk gudang, menghitung barang
  • Kesehatan: AI membantu diagnosa X-ray paru, mata

Personal

  • Google Photos / iCloud Photos memberi label otomatis
  • Filter Snapchat / Instagram
  • Aplikasi messaging mengenali teman di foto

Membedakan Computer Vision dengan Image Generation

  • Computer Vision (klasik): MEMAHAMI gambar yang sudah ada
  • Image Generation: MEMBUAT gambar baru
  • Multimodal LLM: keduanya — memahami sekaligus membuat, dan menggabungkan dengan teks

→ Pada 2026, garis batas semakin kabur. GPT-4o bisa “melihat” sekaligus “menggambar”.

Tools / Frameworks populer

Production

  • OpenCV — pustaka klasik, mendukung semua bahasa pemrograman
  • YOLO v10/v11 — object detection cepat, mudah deploy
  • Mediapipe (Google) — face, pose, hands realtime
  • Roboflow — platform end-to-end untuk tim CV

Berbasis LLM

  • GPT-4o, Claude 4.7, Gemini 2.5 — panggil API kirim gambar, tanya secara natural
  • Llama 4 Vision — open source

Kapan pakai LLM vs CV klasik?

SituasiSebaiknya pakai
Realtime, edge deviceYOLO / Mediapipe (cepat, jalan offline)
Task standar (face, OCR)Library khusus (FaceNet, Tesseract)
Task kompleks dan ambiguLLM multimodal
Production yang harus deterministicCV klasik
Prototipe cepatLLM

Terkait

Tag
#computer-vision#vision#dasar