
Modeldistillatie (ook wel kennisdistillatie genoemd) is een trainingstechniek waarbij een kleiner "student"-model wordt getraind om het gedrag en de capaciteiten van een groter "teacher"-model te repliceren door te leren van de outputdistributies van de teacher in plaats van alleen van ruwe trainingsdata. In plaats van de student direct op gelabelde data te trainen, gebruikt distillatie het teacher-model om "zachte doelen" te genereren — kansverdelingen over alle mogelijke outputs — die rijkere informatie coderen dan simpele correct/incorrect labels. De student leert niet alleen wat het juiste antwoord is, maar ook hoe zeker de teacher ervan is en welke alternatieve antwoorden plausibel zijn. Deze aanpak produceert doorgaans een studentmodel dat 90-95% van de kwaliteit van de teacher behoudt bij 10-20% van de omvang, wat dramatische reducties in inferentiekosten en latentie mogelijk maakt.
Waarom het belangrijk is
Modeldistillatie is de sleuteltechniek om frontier AI-capaciteiten economisch haalbaar te maken op productieschaal. Het draaien van een frontier-model met 200 miljard parameters kost 10-30× meer per verzoek dan een model met 7-13 miljard parameters. Voor applicaties met hoog volume — klantenservice, documentverwerking, contentmoderatie — maakt dit kostenverschil frontier-modellen financieel onhaalbaar zelfs wanneer ze de beste kwaliteit leveren. Distillatie overbrugt deze kloof: je gebruikt het frontier-model als teacher om een kleiner model te trainen dat bijna frontier-kwaliteit bereikt op jouw specifieke domein tegen een fractie van de doorlopende kosten. De economie is overtuigend — distillatietraining kost een eenmalige investering, waarna elk verzoek voor de levensduur van de applicatie draait tegen de lagere kosten van het kleinere model. Bedrijven rapporteren routinematig 70-80% reducties in inferentiekosten per verzoek met minder dan 5% degradatie in taakprestaties.
Hoe het werkt
Distillatie verloopt in fasen. Eerst verwerkt het teacher-model een grote set invoer en produceert verzachte kansverdelingen (met een verhoogde temperature-parameter die de onzekerheidspatronen van de teacher onthult). Vervolgens wordt het studentmodel getraind om deze zachte distributies te evenaren in plaats van alleen de uiteindelijke antwoorden — dit is het kernidee dat distillatie onderscheidt van simpele fine-tuning. De zachte doelen dragen informatie over relaties tussen mogelijke antwoorden: wanneer een teacher 60% waarschijnlijkheid toekent aan antwoord A, 25% aan antwoord B, en slechts 1% aan antwoord C, leert de student dat A en B gerelateerde valide antwoorden zijn terwijl C definitief onjuist is. Dit genuanceerde signaal stelt de student in staat beter te generaliseren dan wanneer deze alleen binaire correct/incorrect labels had gezien. Moderne LLM-distillatie combineert deze aanpak vaak met supervised fine-tuning op taakspecifieke data en reinforcement learning from AI feedback (RLAIF), waardoor compacte modellen ontstaan die ver boven hun gewichtsklasse presteren voor specifieke domeinen.
Voorbeeld
Een logistiek bedrijf verwerkt dagelijks 50.000 verzendgerelateerde klantvragen met een frontier API-model à €0,015 per verzoek — €750 per dag, €22.500 per maand. Ze distilleren een 7B-parametermodel door het frontier-model 200.000 historische vragen te laten verwerken, waarbij antwoorden met zachte kansverdelingen worden gegenereerd. Het studentmodel traint 3 dagen op 8 GPU's (eenmalige kosten: ongeveer €2.000). Na distillatie verwerkt de student 94% van de vraagtypen op dezelfde kwaliteit als de teacher, terwijl het draait op 2 GPU's à €0,002 per verzoek. Ze implementeren een routeringslaag die de 6% complexe randgevallen doorstuurt naar het frontier-model. Nieuwe maandelijkse kosten: €3.450 voor het gedistilleerde model plus €900 voor doorgestuurde frontier-verzoeken — totaal €4.350 versus de eerdere €22.500. De distillatie-investering verdient zich in de eerste week terug.