co-ban Pemula

Apa itu Computer Vision?

Bidang AI yang membantu mesin 'melihat' dan memahami isi gambar serta video — dari pengenalan wajah hingga mobil otonom.

Diperbarui: 5 Mei 2026 · 2 min read

Computer Vision (Visi Komputer) adalah cabang AI yang membantu mesin “melihat” dan memahami isi gambar maupun video — membedakan objek, menghitung jumlah, membaca teks, mendeteksi gerakan, hingga membuat gambar baru.

Apa yang bisa dilakukan Computer Vision

Klasik (sudah luas dipakai produksi)

Pengenalan wajah (Face ID, kamera CCTV)
OCR (membaca KTP, struk, plat nomor)
Object detection (mobil otonom mendeteksi pejalan kaki)
Image classification (Google Photos memberi tag otomatis)
Pose estimation (game, aplikasi fitness)
Medical imaging (membaca X-ray, MRI)

Baru (2023-26)

Image generation (Midjourney, Stable Diffusion)
Video generation (Sora, Veo)
Visual Question Answering (mengirim gambar + pertanyaan ke GPT-4o/Claude)
3D reconstruction dari gambar 2D
Visual agents (Computer Use mengontrol GUI)

Arsitektur model populer

Tipe	Untuk	Contoh
CNN (Convolutional)	Klasifikasi, detection klasik	ResNet, EfficientNet, YOLO
Vision Transformer (ViT)	SOTA modern untuk segala task	ViT, Swin
Diffusion	Pembuatan gambar	Stable Diffusion, FLUX
CLIP	Jembatan text-image	OpenAI CLIP
SAM	Segmentasi gambar	Meta SAM 2

Aplikasi nyata di Indonesia

Bisnis

eKYC (verifikasi nasabah): foto KTP + selfie → bank/dompet digital memverifikasi dalam beberapa detik
Kamera AI untuk keamanan: mendeteksi penyusup, menghitung pengunjung
Logistik: membaca plat nomor kendaraan keluar/masuk gudang, menghitung barang
Kesehatan: AI membantu diagnosa X-ray paru, mata

Personal

Google Photos / iCloud Photos memberi label otomatis
Filter Snapchat / Instagram
Aplikasi messaging mengenali teman di foto

Membedakan Computer Vision dengan Image Generation

Computer Vision (klasik): MEMAHAMI gambar yang sudah ada
Image Generation: MEMBUAT gambar baru
Multimodal LLM: keduanya — memahami sekaligus membuat, dan menggabungkan dengan teks

→ Pada 2026, garis batas semakin kabur. GPT-4o bisa “melihat” sekaligus “menggambar”.

Tools / Frameworks populer

Production

OpenCV — pustaka klasik, mendukung semua bahasa pemrograman
YOLO v10/v11 — object detection cepat, mudah deploy
Mediapipe (Google) — face, pose, hands realtime
Roboflow — platform end-to-end untuk tim CV

Berbasis LLM

GPT-4o, Claude 4.7, Gemini 2.5 — panggil API kirim gambar, tanya secara natural
Llama 4 Vision — open source

Kapan pakai LLM vs CV klasik?

Situasi	Sebaiknya pakai
Realtime, edge device	YOLO / Mediapipe (cepat, jalan offline)
Task standar (face, OCR)	Library khusus (FaceNet, Tesseract)
Task kompleks dan ambigu	LLM multimodal
Production yang harus deterministic	CV klasik
Prototipe cepat	LLM

Terkait

Tag

#computer-vision#vision#dasar