Skip to main content
BVDNETBVDNET
DienstenWerkBibliotheekOver MijPrijzenBlogContact
Contact
  1. Home
  2. AI Woordenboek
  3. Kernconcepten
  4. Wat Is AI-inferentie?
book-openKernconcepten
Beginner

Wat Is AI-inferentie?

Het proces van het draaien van een getraind LLM om output te genereren vanuit input

Ook bekend als:
Inference
Model Inference
AI Inference
Inference

Inferentie is het proces van het draaien van een getraind Large Language Model om output te genereren vanuit een gegeven invoer. Elke keer dat je een prompt naar een LLM stuurt en een antwoord ontvangt, is dat een inferentie-operatie. Inferentie is fundamenteel verschillend van training: training creëert het model door te leren van data (een eenmalig, duur proces), terwijl inferentie het afgewerkte model gebruikt om voorspellingen te doen (een per-verzoek, relatief goedkoop proces). Voor de meeste organisaties die met LLM's werken is inferentie de enige fase waarmee ze in aanraking komen — hetzij via API-aanroepen naar gehoste modellen of door open-source modellen op eigen infrastructuur te draaien. Alle discussies over LLM-kosten, latentie en doorvoer draaien om inferentieprestaties.

Waarom het belangrijk is

Inferentie is waar alle LLM-economie zich afspeelt. Wanneer een bedrijf een LLM-API gebruikt, is elk verzoek een inferentie-operatie met meetbare kosten in verwerkte tokens, benodigde tijd en verbruikte compute. Het begrijpen van inferentie-economie — invoer- vs. outputtoken-prijzen, latentievereisten (tijd tot eerste token, tijd tot voltooiing) en doorvoerlimieten (verzoeken per minuut) — is essentieel voor het plannen van elke AI-implementatie. Het onderscheid tussen training en inferentie verduidelijkt ook belangrijke beperkingen: je kunt een LLM geen nieuwe feiten bijbrengen door alleen inferentie (prompting werkt de modelgewichten niet bij), en de inferentiekwaliteit wordt begrensd door wat het model tijdens training heeft geleerd. Dit inzicht stuurt architectuurbeslissingen zoals of je een model moet fine-tunen, RAG moet implementeren voor kennisupdates, of simpelweg prompts moet verbeteren.

Hoe het werkt

Tijdens inferentie verwerkt het LLM de invoertokens door zijn neurale-netwerklagen om outputtokens één voor één te genereren. De invoer passeert de aandachtslagen en feed-forward-netwerken van het model, wat een kansverdeling produceert over het gehele vocabulaire voor het volgende token. Het systeem selecteert een token uit deze verdeling (beïnvloed door temperatuur en andere parameters), voegt het toe aan de sequentie en herhaalt. Deze autoregressieve lus gaat door totdat het model een stoptoken produceert of de maximale outputlengte bereikt. Inferentiesnelheid wordt gemeten in tokens per seconde en wordt beïnvloed door modelgrootte, hardware (GPU's/TPU's), batchverwerking en optimalisaties zoals KV-caching (hergebruik van aandachtsberekeningen van vorige tokens) en kwantisatie (verlaging van numerieke precisie voor snellere berekening).

Voorbeeld

Een mediabedrijf draait een contentmanagement-pipeline die 5.000 artikelen per dag verwerkt. Elk artikel vereist drie inferentie-aanroepen: één voor samenvatting (gemiddeld 800 invoer + 200 outputtokens), één voor categorisering (400 invoer + 50 outputtokens), en één voor SEO-metadata-generatie (600 invoer + 150 outputtokens). Dat is in totaal 11 miljoen tokens per dag aan inferentie. Door hun inferentie-pipeline te profileren ontdekken ze dat de categoriseringstaak (die slechts 50 outputtokens gebruikt) efficiënt draait op een kleiner, goedkoper model, terwijl samenvatting profiteert van de kwaliteit van een frontier-model. Het splitsen van inferentie over twee modellagen — goedkoop model voor classificatie, premium model voor generatie — verlaagt de dagelijkse kosten met 45% met behoud van kwaliteit waar het er het meeste toe doet.

Bronnen

  1. vLLM — High-Throughput LLM Inference Engine
    Web
  2. Hugging Face — LLM Inference Tutorial
    Web
  3. Leviathan et al. — Speculative Decoding
    arXiv
  4. Wikipedia

Hulp nodig bij het implementeren van AI?

Ik help je dit concept toe te passen in je bedrijf.

Neem contact op

Gerelateerde Concepten

Token in AI
De kleinste eenheid tekst die een LLM verwerkt — ongeveer 4 tekens of 0,75 woorden
Tokeneconomie
De prijs- en kostenstructuur van LLM-gebruik op basis van tokenverbruik
Large Language Model (LLM)
Een neuraal netwerk getraind op enorme hoeveelheden tekst om mensachtige taal te begrijpen en genereren
Kwantisatie
Het verlagen van de precisie van modelgewichten van 16/32-bit naar 8/4-bit om de omvang te verkleinen en inferentie te versnellen
Temperature in AI
Een parameter die de willekeurigheid van LLM-output regelt — lagere waarden produceren consistente resultaten, hogere waarden verhogen creativiteit
Prompt Caching
Het opslaan en hergebruiken van verwerkte promptprefixen op LLM-servers om kosten tot 90% te verlagen en latentie met 3× te verminderen

AI-advies

Hulp nodig bij het begrijpen of implementeren van dit concept?

Praat met een expert
Vorige

In-Context Learning (ICL)

Volgende

Instructiehiërarchie voor AI-veiligheid

BVDNETBVDNET

Webontwikkeling en AI-automatisering. Goed gedaan.

Bedrijf

  • Over Mij
  • Contact
  • FAQ

Resources

  • Diensten
  • Werk
  • Bibliotheek
  • Blog
  • Prijzen

Connect

  • LinkedIn
  • GitHub
  • Twitter / X
  • Email

© 2026 BVDNET. Alle rechten voorbehouden.

Privacybeleid•Algemene Voorwaarden•Cookiebeleid