
Kwantisatie is de techniek van het verlagen van de numerieke precisie van de gewichten en activaties van een model — typisch van 16-bit of 32-bit floating point naar 8-bit of 4-bit integers — om de modelomvang te verkleinen, geheugenvereisten te verminderen en inferentiesnelheid te verbeteren. Een 70B-parametermodel opgeslagen in 16-bit precisie vereist ongeveer 140GB GPU-geheugen; gekwantiseerd naar 4-bit past het in ruwweg 35GB, waardoor het draaibaar wordt op consumentenhardware die eerder onvoldoende was. Kwantisatie ruilt kleine hoeveelheden modelkwaliteit voor dramatische verbeteringen in efficiëntie, en moderne kwantisatiemethoden (GPTQ, AWQ, GGUF) bereiken dit met minimaal kwaliteitsverlies — vaak minder dan 2% degradatie op standaardbenchmarks.
Waarom het belangrijk is
Kwantisatie is de primaire technologie die het mogelijk maakt om grote taalmodellen te draaien op betaalbare hardware. Zonder kwantisatie vereist het inzetten van een 70B-model meerdere enterprise-grade GPU's die tienduizenden euro's kosten. Met 4-bit kwantisatie draait hetzelfde model op een enkele GPU die een fractie van die prijs kost. Dit heeft verstrekkende gevolgen: het maakt lokale LLM-inzet mogelijk voor dataprivacy (geen API-aanroepen die de organisatie verlaten), verlaagt inferentiekosten voor gehoste inzet met 2-4×, en maakt het haalbaar voor onderzoekers en kleine bedrijven om met grote modellen te experimenteren. De combinatie van LoRA voor efficiënte training en kwantisatie voor efficiënte inferentie heeft een praktisch pad gecreëerd voor organisaties om aangepaste LLM's te fine-tunen en in te zetten met bescheiden hardwarebudgetten.
Hoe het werkt
Kwantisatie mapt het continue bereik van floating-point gewichtswaarden naar een kleinere set discrete integerwaarden. Bij 4-bit kwantisatie wordt elk gewicht weergegeven door slechts één van 16 mogelijke waarden (vergeleken met 65.536 voor 16-bit). Het kwantisatieproces bepaalt de optimale mapping die het verschil minimaliseert tussen originele en gekwantiseerde outputs. Post-training kwantisatie (PTQ) converteert een getraind model zonder extra training — methoden zoals GPTQ analyseren kalibratiedata om optimale kwantisatieparameters per laag te vinden. Kwantisatie-bewuste training (QAT) incorporeert kwantisatie tijdens het trainingsproces zelf, waardoor het model kan compenseren voor precisieverlies. Mixed precision houdt kritieke lagen (typisch de eerste en laatste lagen) in hogere precisie terwijl het gros van het model wordt gekwantiseerd. Inferentiesnelheid verbetert doordat integeroperaties sneller zijn dan floating-pointoperaties, en kleinere gewichten minder geheugenbandbreedte vereisen — vaak de werkelijke bottleneck bij LLM-inferentie.
Voorbeeld
Een zorgstartup moet een medisch LLM on-premises draaien vanwege regelgevingscompliance — patiëntgegevens mogen hun netwerk niet verlaten. Het beste open-source medische model heeft 70B parameters en vereist 140GB in 16-bit — ver buiten het bereik van hun twee A100 40GB-GPU's. Kwantisering naar 4-bit met GPTQ reduceert de geheugenvoetafdruk naar 35GB, wat comfortabel past op een enkele GPU met ruimte voor de KV-cache. Ze benchmarken het gekwantiseerde model tegen de full-precision versie op hun medische Q&A-testsuite: de nauwkeurigheid daalt van 89,2% naar 87,8% — een reductie van 1,4% die hun medische toetsingscommissie acceptabel acht gezien de enorme kostenbesparingen. Het gekwantiseerde model verwerkt ook tokens 40% sneller dankzij verminderde geheugenbandbreedte-eisen, wat de responstijd voor de klinische beslissingsondersteuningsinterface verbetert. Totale hardwarekosten: twee ordes van grootte minder dan wat full-precision inzet zou vereisen.