ky-thuat Lanjutan

Apa itu Quantization?

Teknik mengurangi presisi numerik dalam model AI agar berjalan lebih cepat dan hemat RAM — dengan sedikit pengorbanan akurasi.

Diperbarui: 5 Mei 2026 · 2 min read

Quantization adalah teknik mengurangi presisi (precision) angka dalam model AI — dari float 32-bit menjadi 16, 8, atau bahkan 4-bit — agar model menjadi lebih kecil, berjalan lebih cepat, dan menghemat RAM/GPU, dengan pengorbanan 1-3% akurasi.

Mengapa Quantization penting?

Llama 3.3 70B dalam float32: ~280GB → butuh GPU H200 (>$30k).

Model yang sama dalam 4-bit (Q4): ~~40GB → bisa dijalankan di RTX 4090 (~~$1.6k) atau Mac M-series 64GB.

Quantization membuat model besar bisa berjalan di hardware biasa — sangat penting untuk LLM open source yang di-host sendiri.

Level Quantization yang umum

Bit	Nama	Pengurangan ukuran	Hilang akurasi
32	FP32	1× (asli)	0%
16	FP16 / BF16	2×	~0%
8	INT8	4×	< 1%
4	Q4_K_M, NF4	8×	1-3%
2	Q2	16×	5-15% (berisiko)
1	BitNet	32×	masih dalam riset

→ “Sweet spot” saat ini: Q4 (terutama format Q4_K_M dari llama.cpp).

Cara kerja Quantization (sederhana)

Setiap parameter dalam model adalah angka real (mis: 0.0327891).

Float32 menyimpan seluruh 32 bit → presisi tinggi, boros memori.

Quantize ke int8: hanya menyimpan 256 level nilai (-128 sampai 127). 0.0327891 dibulatkan ke level terdekat.

Saat inference: dequantize sementara untuk perhitungan → hasil mendekati float32 tapi jauh lebih cepat.

Quantization vs Distillation

	Quantization	Distillation
Cara	Mengurangi presisi	Train model kecil belajar dari model besar
Effort	Beberapa jam	Beberapa hari-minggu
Penurunan kualitas	1-3%	5-15% (tergantung rasio)
Kapan dipakai	Inference lebih cepat	Butuh model KECIL + cepat

Kedua teknik saling melengkapi, sering digunakan bersama.

Tools populer

Untuk LLM self-host

llama.cpp — quantize ke Q4/Q5/Q8, format GGUF
bitsandbytes — quantize untuk HuggingFace
GPTQ, AWQ — metode quantization-aware, akurasi lebih baik
MLX — dioptimalkan untuk Apple Silicon

Workflow umum

# Download model asli 70B, quantize Q4
ollama pull llama3.3:70b-instruct-q4_K_M
# Atau download GGUF dari HuggingFace TheBloke

Kapan TIDAK perlu Quantization

Model sudah kecil (< 7B): tanpa quantize pun bisa jalan di GPU biasa
Butuh akurasi mutlak (mis: medis): minimal pertahankan FP16
Sedang fine-tune: train di presisi lebih tinggi, quantize setelahnya

Terkait

Inference
LoRA — teknik fine-tune ringan
GPU

Tag

#quantization#optimization#inference