Skip to main content
BVDNETBVDNET
DienstenWerkBibliotheekOver MijPrijzenBlogContact
Contact
  1. Home
  2. AI Woordenboek
  3. Industrie & Business
  4. Wat Is Prompt Caching?
buildingIndustrie & Business
Intermediate

Wat Is Prompt Caching?

Het opslaan en hergebruiken van verwerkte promptprefixen op LLM-servers om kosten tot 90% te verlagen en latentie met 3× te verminderen

Ook bekend als:
Context Caching
Prefix Caching
Cache-optimalisatie
What Is Prompt Caching? How Prefix Caching Cuts LLM Latency & Cost

Prompt caching is een optimalisatietechniek waarbij de verwerkte representatie van een promptprefix — zoals een systeemprompt, kennisbank of set few-shot voorbeelden — wordt opgeslagen op de servers van de LLM-provider en hergebruikt bij opvolgende verzoeken, waardoor zowel kosten als latentie drastisch dalen. Het eerste verzoek dat de cache aanmaakt betaalt een kleine schrijfpremie (doorgaans 1,25× de normale tokenkosten), maar alle volgende verzoeken die dezelfde prefix delen lezen uit de cache tegen een korting van 90% (0,1× de normale kosten). Voor AI-applicaties met hoog volume waarbij dezelfde systeemprompt en context bij elk verzoek worden meegestuurd, kan prompt caching de API-kosten met meer dan 80% per jaar verlagen en tegelijkertijd de responslatentie met een factor drie verminderen, aangezien de gecachete tokens niet opnieuw hoeven te worden verwerkt.

Waarom het belangrijk is

Prompt caching is mogelijk de optimalisatie met de hoogste ROI die beschikbaar is voor productie-LLM-applicaties. Stel je een klantenservicechatbot voor die een systeemprompt van 8.000 tokens, een kennisbank van 10.000 tokens en slechts 500 tokens unieke gebruikersinvoer meestuurt bij elk verzoek. Zonder caching worden de volledige 18.500 tokens elke keer verwerkt. Met caching worden de 18.000 stabiele tokens eenmaal verwerkt en vervolgens uit de cache gelezen tegen 10% van de kosten bij elk volgend verzoek. Bij 1.000 verzoeken per dag vertaalt dit zich naar jaarlijkse besparingen van meer dan €20.000 — door een implementatie van twee uur die simpelweg caching-headers toevoegt aan API-aanroepen. Het break-evenpunt ligt bij slechts 1,4 verzoeken met dezelfde prefix, wat betekent dat caching zich vrijwel onmiddellijk terugverdient. Voor elke applicatie die meer dan een handvol verzoeken per dag doet met een stabiele systeemprompt, is het niet gebruiken van prompt caching geld laten liggen.

Hoe het werkt

Wanneer een LLM-provider een verzoek ontvangt met caching ingeschakeld, berekent en slaat deze de interne key-value (KV) representaties op van de cachebare prefix — de computationeel dure tussenresultaten die de transformer produceert bij het verwerken van die tokens. Bij volgende verzoeken met dezelfde prefix detecteert de provider de cachehit, slaat de dure berekening voor het gecachete deel over, en verwerkt alleen de nieuwe, niet-gecachete tokens. De cache verloopt doorgaans na 5 minuten inactiviteit, wat betekent dat perioden met weinig verkeer een "cold start" cachewritekost met zich meebrengen wanneer het verkeer hervat. Implementatie is eenvoudig: je markeert stabiele promptsecties (systeemprompt, kennisbank, voorbeelden) met een cache control-header, en de API regelt de rest. Meerlaagse cachingstrategieën scheiden content op updatefrequentie — volledig statische richtlijnen in één gecachet blok, semi-statische productcatalogi in een ander, en dynamische per-gebruiker context volledig buiten de cache.

Voorbeeld

Een SaaS-platform draait een AI-documentanalysetool die door klanten geüploade contracten verwerkt. Elk verzoek bevat: een systeemprompt van 6.000 tokens met analyse-instructies, een juridische referentiebibliotheek van 12.000 tokens, en het variabele klantdocument (gemiddeld 3.000 tokens). Zonder caching is hun maandelijkse API-rekening bij 5.000 analyses per dag €32.000. Ze implementeren tweelaags prompt caching: de systeemprompt en juridische bibliotheek (18.000 tokens) worden als cachebaar gemarkeerd. Het eerste verzoek elke ochtend betaalt 1,25× voor de cachewrite. De overige 4.999 verzoeken lezen die 18.000 tokens tegen 0,1× kosten, en betalen alleen de volledige prijs voor de 3.000 variabele documenttokens. De maandelijkse kosten dalen naar €7.200 — een reductie van 77%. Ze voegen elke 4 minuten tijdens kantooruren een keep-alive ping toe om cacheverlopen tijdens korte verkeerspauzes te voorkomen, wat €80 per maand extra kost maar de sporadische cold-start latentiepieken elimineert die hun gebruikers hadden opgemerkt.

Bronnen

  1. Anthropic — Prompt Caching Documentation
  2. OpenAI — Prompt Caching Guide

Hulp nodig bij het implementeren van AI?

Ik help je dit concept toe te passen in je bedrijf.

Neem contact op

Gerelateerde Concepten

Token in AI
De kleinste eenheid tekst die een LLM verwerkt — ongeveer 4 tekens of 0,75 woorden
Tokeneconomie
De prijs- en kostenstructuur van LLM-gebruik op basis van tokenverbruik
Contextvenster
Het maximale aantal tokens dat een LLM in één verzoek kan verwerken
AI-observability
Het monitoren, loggen en analyseren van AI-systeemprestaties in productie — kwaliteitsregressies, kostenanomalieën en storingen opvangen vóór ze gebruikers raken

AI-advies

Hulp nodig bij het begrijpen of implementeren van dit concept?

Praat met een expert
Vorige

Prompt

Volgende

Prompt Chaining

BVDNETBVDNET

Webontwikkeling en AI-automatisering. Goed gedaan.

Bedrijf

  • Over Mij
  • Contact
  • FAQ

Resources

  • Diensten
  • Werk
  • Bibliotheek
  • Blog
  • Prijzen

Connect

  • LinkedIn
  • GitHub
  • Twitter / X
  • Email

© 2026 BVDNET. Alle rechten voorbehouden.

Privacybeleid•Algemene Voorwaarden•Cookiebeleid