
Inferentie is het proces van het draaien van een getraind Large Language Model om output te genereren vanuit een gegeven invoer. Elke keer dat je een prompt naar een LLM stuurt en een antwoord ontvangt, is dat een inferentie-operatie. Inferentie is fundamenteel verschillend van training: training creëert het model door te leren van data (een eenmalig, duur proces), terwijl inferentie het afgewerkte model gebruikt om voorspellingen te doen (een per-verzoek, relatief goedkoop proces). Voor de meeste organisaties die met LLM's werken is inferentie de enige fase waarmee ze in aanraking komen — hetzij via API-aanroepen naar gehoste modellen of door open-source modellen op eigen infrastructuur te draaien. Alle discussies over LLM-kosten, latentie en doorvoer draaien om inferentieprestaties.
Waarom het belangrijk is
Inferentie is waar alle LLM-economie zich afspeelt. Wanneer een bedrijf een LLM-API gebruikt, is elk verzoek een inferentie-operatie met meetbare kosten in verwerkte tokens, benodigde tijd en verbruikte compute. Het begrijpen van inferentie-economie — invoer- vs. outputtoken-prijzen, latentievereisten (tijd tot eerste token, tijd tot voltooiing) en doorvoerlimieten (verzoeken per minuut) — is essentieel voor het plannen van elke AI-implementatie. Het onderscheid tussen training en inferentie verduidelijkt ook belangrijke beperkingen: je kunt een LLM geen nieuwe feiten bijbrengen door alleen inferentie (prompting werkt de modelgewichten niet bij), en de inferentiekwaliteit wordt begrensd door wat het model tijdens training heeft geleerd. Dit inzicht stuurt architectuurbeslissingen zoals of je een model moet fine-tunen, RAG moet implementeren voor kennisupdates, of simpelweg prompts moet verbeteren.
Hoe het werkt
Tijdens inferentie verwerkt het LLM de invoertokens door zijn neurale-netwerklagen om outputtokens één voor één te genereren. De invoer passeert de aandachtslagen en feed-forward-netwerken van het model, wat een kansverdeling produceert over het gehele vocabulaire voor het volgende token. Het systeem selecteert een token uit deze verdeling (beïnvloed door temperatuur en andere parameters), voegt het toe aan de sequentie en herhaalt. Deze autoregressieve lus gaat door totdat het model een stoptoken produceert of de maximale outputlengte bereikt. Inferentiesnelheid wordt gemeten in tokens per seconde en wordt beïnvloed door modelgrootte, hardware (GPU's/TPU's), batchverwerking en optimalisaties zoals KV-caching (hergebruik van aandachtsberekeningen van vorige tokens) en kwantisatie (verlaging van numerieke precisie voor snellere berekening).
Voorbeeld
Een mediabedrijf draait een contentmanagement-pipeline die 5.000 artikelen per dag verwerkt. Elk artikel vereist drie inferentie-aanroepen: één voor samenvatting (gemiddeld 800 invoer + 200 outputtokens), één voor categorisering (400 invoer + 50 outputtokens), en één voor SEO-metadata-generatie (600 invoer + 150 outputtokens). Dat is in totaal 11 miljoen tokens per dag aan inferentie. Door hun inferentie-pipeline te profileren ontdekken ze dat de categoriseringstaak (die slechts 50 outputtokens gebruikt) efficiënt draait op een kleiner, goedkoper model, terwijl samenvatting profiteert van de kwaliteit van een frontier-model. Het splitsen van inferentie over twee modellagen — goedkoop model voor classificatie, premium model voor generatie — verlaagt de dagelijkse kosten met 45% met behoud van kwaliteit waar het er het meeste toe doet.