Sổ Tay AI
ky-thuat Lanjutan

Apa itu Quantization?

Teknik mengurangi presisi numerik dalam model AI agar berjalan lebih cepat dan hemat RAM — dengan sedikit pengorbanan akurasi.

Diperbarui: 5 Mei 2026 · 2 min read

Quantization adalah teknik mengurangi presisi (precision) angka dalam model AI — dari float 32-bit menjadi 16, 8, atau bahkan 4-bit — agar model menjadi lebih kecil, berjalan lebih cepat, dan menghemat RAM/GPU, dengan pengorbanan 1-3% akurasi.

Mengapa Quantization penting?

Llama 3.3 70B dalam float32: ~280GB → butuh GPU H200 (>$30k).

Model yang sama dalam 4-bit (Q4): 40GB → bisa dijalankan di RTX 4090 ($1.6k) atau Mac M-series 64GB.

Quantization membuat model besar bisa berjalan di hardware biasa — sangat penting untuk LLM open source yang di-host sendiri.

Level Quantization yang umum

BitNamaPengurangan ukuranHilang akurasi
32FP321× (asli)0%
16FP16 / BF16~0%
8INT8< 1%
4Q4_K_M, NF41-3%
2Q216×5-15% (berisiko)
1BitNet32×masih dalam riset

→ “Sweet spot” saat ini: Q4 (terutama format Q4_K_M dari llama.cpp).

Cara kerja Quantization (sederhana)

Setiap parameter dalam model adalah angka real (mis: 0.0327891).

Float32 menyimpan seluruh 32 bit → presisi tinggi, boros memori.

Quantize ke int8: hanya menyimpan 256 level nilai (-128 sampai 127). 0.0327891 dibulatkan ke level terdekat.

Saat inference: dequantize sementara untuk perhitungan → hasil mendekati float32 tapi jauh lebih cepat.

Quantization vs Distillation

QuantizationDistillation
CaraMengurangi presisiTrain model kecil belajar dari model besar
EffortBeberapa jamBeberapa hari-minggu
Penurunan kualitas1-3%5-15% (tergantung rasio)
Kapan dipakaiInference lebih cepatButuh model KECIL + cepat

Kedua teknik saling melengkapi, sering digunakan bersama.

Tools populer

Untuk LLM self-host

  • llama.cpp — quantize ke Q4/Q5/Q8, format GGUF
  • bitsandbytes — quantize untuk HuggingFace
  • GPTQ, AWQ — metode quantization-aware, akurasi lebih baik
  • MLX — dioptimalkan untuk Apple Silicon

Workflow umum

# Download model asli 70B, quantize Q4
ollama pull llama3.3:70b-instruct-q4_K_M
# Atau download GGUF dari HuggingFace TheBloke

Kapan TIDAK perlu Quantization

  • Model sudah kecil (< 7B): tanpa quantize pun bisa jalan di GPU biasa
  • Butuh akurasi mutlak (mis: medis): minimal pertahankan FP16
  • Sedang fine-tune: train di presisi lebih tinggi, quantize setelahnya

Terkait

Tag
#quantization#optimization#inference