Skip to main content
BVDNETBVDNET
DienstenWerkBibliotheekOver MijPrijzenBlogContact
Contact
  1. Home
  2. AI Woordenboek
  3. Modellen & Architectuur
  4. Wat Is Modeldistillatie?
brainModellen & Architectuur
Intermediate

Wat Is Modeldistillatie?

Een kleiner 'student'-model trainen om de capaciteiten van een groter 'teacher'-model te repliceren tegen een fractie van de kosten en latentie

Ook bekend als:
Knowledge Distillation
Kennisdistillatie
Teacher-Student Training
What Is Model Distillation? How Knowledge Transfer Makes AI Smaller & Faster

Modeldistillatie (ook wel kennisdistillatie genoemd) is een trainingstechniek waarbij een kleiner "student"-model wordt getraind om het gedrag en de capaciteiten van een groter "teacher"-model te repliceren door te leren van de outputdistributies van de teacher in plaats van alleen van ruwe trainingsdata. In plaats van de student direct op gelabelde data te trainen, gebruikt distillatie het teacher-model om "zachte doelen" te genereren — kansverdelingen over alle mogelijke outputs — die rijkere informatie coderen dan simpele correct/incorrect labels. De student leert niet alleen wat het juiste antwoord is, maar ook hoe zeker de teacher ervan is en welke alternatieve antwoorden plausibel zijn. Deze aanpak produceert doorgaans een studentmodel dat 90-95% van de kwaliteit van de teacher behoudt bij 10-20% van de omvang, wat dramatische reducties in inferentiekosten en latentie mogelijk maakt.

Waarom het belangrijk is

Modeldistillatie is de sleuteltechniek om frontier AI-capaciteiten economisch haalbaar te maken op productieschaal. Het draaien van een frontier-model met 200 miljard parameters kost 10-30× meer per verzoek dan een model met 7-13 miljard parameters. Voor applicaties met hoog volume — klantenservice, documentverwerking, contentmoderatie — maakt dit kostenverschil frontier-modellen financieel onhaalbaar zelfs wanneer ze de beste kwaliteit leveren. Distillatie overbrugt deze kloof: je gebruikt het frontier-model als teacher om een kleiner model te trainen dat bijna frontier-kwaliteit bereikt op jouw specifieke domein tegen een fractie van de doorlopende kosten. De economie is overtuigend — distillatietraining kost een eenmalige investering, waarna elk verzoek voor de levensduur van de applicatie draait tegen de lagere kosten van het kleinere model. Bedrijven rapporteren routinematig 70-80% reducties in inferentiekosten per verzoek met minder dan 5% degradatie in taakprestaties.

Hoe het werkt

Distillatie verloopt in fasen. Eerst verwerkt het teacher-model een grote set invoer en produceert verzachte kansverdelingen (met een verhoogde temperature-parameter die de onzekerheidspatronen van de teacher onthult). Vervolgens wordt het studentmodel getraind om deze zachte distributies te evenaren in plaats van alleen de uiteindelijke antwoorden — dit is het kernidee dat distillatie onderscheidt van simpele fine-tuning. De zachte doelen dragen informatie over relaties tussen mogelijke antwoorden: wanneer een teacher 60% waarschijnlijkheid toekent aan antwoord A, 25% aan antwoord B, en slechts 1% aan antwoord C, leert de student dat A en B gerelateerde valide antwoorden zijn terwijl C definitief onjuist is. Dit genuanceerde signaal stelt de student in staat beter te generaliseren dan wanneer deze alleen binaire correct/incorrect labels had gezien. Moderne LLM-distillatie combineert deze aanpak vaak met supervised fine-tuning op taakspecifieke data en reinforcement learning from AI feedback (RLAIF), waardoor compacte modellen ontstaan die ver boven hun gewichtsklasse presteren voor specifieke domeinen.

Voorbeeld

Een logistiek bedrijf verwerkt dagelijks 50.000 verzendgerelateerde klantvragen met een frontier API-model à €0,015 per verzoek — €750 per dag, €22.500 per maand. Ze distilleren een 7B-parametermodel door het frontier-model 200.000 historische vragen te laten verwerken, waarbij antwoorden met zachte kansverdelingen worden gegenereerd. Het studentmodel traint 3 dagen op 8 GPU's (eenmalige kosten: ongeveer €2.000). Na distillatie verwerkt de student 94% van de vraagtypen op dezelfde kwaliteit als de teacher, terwijl het draait op 2 GPU's à €0,002 per verzoek. Ze implementeren een routeringslaag die de 6% complexe randgevallen doorstuurt naar het frontier-model. Nieuwe maandelijkse kosten: €3.450 voor het gedistilleerde model plus €900 voor doorgestuurde frontier-verzoeken — totaal €4.350 versus de eerdere €22.500. De distillatie-investering verdient zich in de eerste week terug.

Bronnen

  1. Hinton et al. — Distilling the Knowledge in a Neural Network
    arXiv
  2. Sanh et al. — DistilBERT: Smaller, Faster, Cheaper
    arXiv
  3. Wikipedia

Hulp nodig bij het implementeren van AI?

Ik help je dit concept toe te passen in je bedrijf.

Neem contact op

Gerelateerde Concepten

Fine-tuning
Een voorgetraind LLM verder trainen op domeinspecifieke data om het gedrag te specialiseren
LoRA (Low-Rank Adaptation)
Een efficiënte fine-tuningmethode die alleen kleine adapterlagen traint in plaats van het volledige model
Kwantisatie
Het verlagen van de precisie van modelgewichten van 16/32-bit naar 8/4-bit om de omvang te verkleinen en inferentie te versnellen
RAG (Retrieval-Augmented Generation)
Een techniek die LLM's combineert met het ophalen van externe kennis om nauwkeurigheid te verbeteren en hallucinaties te verminderen

AI-advies

Hulp nodig bij het begrijpen of implementeren van dit concept?

Praat met een expert
Vorige

Model Context Protocol (MCP)

Volgende

Multi-Tenancy in AI

BVDNETBVDNET

Webontwikkeling en AI-automatisering. Goed gedaan.

Bedrijf

  • Over Mij
  • Contact
  • FAQ

Resources

  • Diensten
  • Werk
  • Bibliotheek
  • Blog
  • Prijzen

Connect

  • LinkedIn
  • GitHub
  • Twitter / X
  • Email

© 2026 BVDNET. Alle rechten voorbehouden.

Privacybeleid•Algemene Voorwaarden•Cookiebeleid