Apa itu Quantization?
Teknik mengurangi presisi numerik dalam model AI agar berjalan lebih cepat dan hemat RAM — dengan sedikit pengorbanan akurasi.
Quantization adalah teknik mengurangi presisi (precision) angka dalam model AI — dari float 32-bit menjadi 16, 8, atau bahkan 4-bit — agar model menjadi lebih kecil, berjalan lebih cepat, dan menghemat RAM/GPU, dengan pengorbanan 1-3% akurasi.
Mengapa Quantization penting?
Llama 3.3 70B dalam float32: ~280GB → butuh GPU H200 (>$30k).
Model yang sama dalam 4-bit (Q4): 40GB → bisa dijalankan di RTX 4090 ($1.6k) atau Mac M-series 64GB.
Quantization membuat model besar bisa berjalan di hardware biasa — sangat penting untuk LLM open source yang di-host sendiri.
Level Quantization yang umum
| Bit | Nama | Pengurangan ukuran | Hilang akurasi |
|---|---|---|---|
| 32 | FP32 | 1× (asli) | 0% |
| 16 | FP16 / BF16 | 2× | ~0% |
| 8 | INT8 | 4× | < 1% |
| 4 | Q4_K_M, NF4 | 8× | 1-3% |
| 2 | Q2 | 16× | 5-15% (berisiko) |
| 1 | BitNet | 32× | masih dalam riset |
→ “Sweet spot” saat ini: Q4 (terutama format Q4_K_M dari llama.cpp).
Cara kerja Quantization (sederhana)
Setiap parameter dalam model adalah angka real (mis: 0.0327891).
Float32 menyimpan seluruh 32 bit → presisi tinggi, boros memori.
Quantize ke int8: hanya menyimpan 256 level nilai (-128 sampai 127). 0.0327891 dibulatkan ke level terdekat.
Saat inference: dequantize sementara untuk perhitungan → hasil mendekati float32 tapi jauh lebih cepat.
Quantization vs Distillation
| Quantization | Distillation | |
|---|---|---|
| Cara | Mengurangi presisi | Train model kecil belajar dari model besar |
| Effort | Beberapa jam | Beberapa hari-minggu |
| Penurunan kualitas | 1-3% | 5-15% (tergantung rasio) |
| Kapan dipakai | Inference lebih cepat | Butuh model KECIL + cepat |
Kedua teknik saling melengkapi, sering digunakan bersama.
Tools populer
Untuk LLM self-host
- llama.cpp — quantize ke Q4/Q5/Q8, format GGUF
- bitsandbytes — quantize untuk HuggingFace
- GPTQ, AWQ — metode quantization-aware, akurasi lebih baik
- MLX — dioptimalkan untuk Apple Silicon
Workflow umum
# Download model asli 70B, quantize Q4
ollama pull llama3.3:70b-instruct-q4_K_M
# Atau download GGUF dari HuggingFace TheBloke
Kapan TIDAK perlu Quantization
- Model sudah kecil (< 7B): tanpa quantize pun bisa jalan di GPU biasa
- Butuh akurasi mutlak (mis: medis): minimal pertahankan FP16
- Sedang fine-tune: train di presisi lebih tinggi, quantize setelahnya