co-ban Pemula
Apa itu Computer Vision?
Bidang AI yang membantu mesin 'melihat' dan memahami isi gambar serta video — dari pengenalan wajah hingga mobil otonom.
Diperbarui: 5 Mei 2026 · 2 min read
Computer Vision (Visi Komputer) adalah cabang AI yang membantu mesin “melihat” dan memahami isi gambar maupun video — membedakan objek, menghitung jumlah, membaca teks, mendeteksi gerakan, hingga membuat gambar baru.
Apa yang bisa dilakukan Computer Vision
Klasik (sudah luas dipakai produksi)
- Pengenalan wajah (Face ID, kamera CCTV)
- OCR (membaca KTP, struk, plat nomor)
- Object detection (mobil otonom mendeteksi pejalan kaki)
- Image classification (Google Photos memberi tag otomatis)
- Pose estimation (game, aplikasi fitness)
- Medical imaging (membaca X-ray, MRI)
Baru (2023-26)
- Image generation (Midjourney, Stable Diffusion)
- Video generation (Sora, Veo)
- Visual Question Answering (mengirim gambar + pertanyaan ke GPT-4o/Claude)
- 3D reconstruction dari gambar 2D
- Visual agents (Computer Use mengontrol GUI)
Arsitektur model populer
| Tipe | Untuk | Contoh |
|---|---|---|
| CNN (Convolutional) | Klasifikasi, detection klasik | ResNet, EfficientNet, YOLO |
| Vision Transformer (ViT) | SOTA modern untuk segala task | ViT, Swin |
| Diffusion | Pembuatan gambar | Stable Diffusion, FLUX |
| CLIP | Jembatan text-image | OpenAI CLIP |
| SAM | Segmentasi gambar | Meta SAM 2 |
Aplikasi nyata di Indonesia
Bisnis
- eKYC (verifikasi nasabah): foto KTP + selfie → bank/dompet digital memverifikasi dalam beberapa detik
- Kamera AI untuk keamanan: mendeteksi penyusup, menghitung pengunjung
- Logistik: membaca plat nomor kendaraan keluar/masuk gudang, menghitung barang
- Kesehatan: AI membantu diagnosa X-ray paru, mata
Personal
- Google Photos / iCloud Photos memberi label otomatis
- Filter Snapchat / Instagram
- Aplikasi messaging mengenali teman di foto
Membedakan Computer Vision dengan Image Generation
- Computer Vision (klasik): MEMAHAMI gambar yang sudah ada
- Image Generation: MEMBUAT gambar baru
- Multimodal LLM: keduanya — memahami sekaligus membuat, dan menggabungkan dengan teks
→ Pada 2026, garis batas semakin kabur. GPT-4o bisa “melihat” sekaligus “menggambar”.
Tools / Frameworks populer
Production
- OpenCV — pustaka klasik, mendukung semua bahasa pemrograman
- YOLO v10/v11 — object detection cepat, mudah deploy
- Mediapipe (Google) — face, pose, hands realtime
- Roboflow — platform end-to-end untuk tim CV
Berbasis LLM
- GPT-4o, Claude 4.7, Gemini 2.5 — panggil API kirim gambar, tanya secara natural
- Llama 4 Vision — open source
Kapan pakai LLM vs CV klasik?
| Situasi | Sebaiknya pakai |
|---|---|
| Realtime, edge device | YOLO / Mediapipe (cepat, jalan offline) |
| Task standar (face, OCR) | Library khusus (FaceNet, Tesseract) |
| Task kompleks dan ambigu | LLM multimodal |
| Production yang harus deterministic | CV klasik |
| Prototipe cepat | LLM |
Terkait
Tag
#computer-vision#vision#dasar