
Contextcompressie verwijst naar technieken die het effectieve token-aantal van informatie voor taalmodellen verminderen met behoud van semantische betekenis. Nu contextvensters uitbreiden tot 1M+ tokens (Claude Opus 4.6, GPT-5.4), wordt efficiënt contextbeheer cruciaal voor zowel kosten als prestaties. Benaderingen omvatten twee-lagen geschiedeniscompressie (gebruikt door de Lumen browser-agent om lange browsesessies te onderhouden zonder degradatie), semantische caching, attention-gebaseerde samenvattingen, en gestructureerde staterepresentaties die uitgebreide conversatiegeschiedenis vervangen door compacte state-objecten. Contextcompressie is vooral belangrijk voor agentic workflows waar multi-stap taakuitvoering zelfs miljoenen-token contextvensters snel kan uitputten door geaccumuleerde tool call/response-paren.
Waarom het belangrijk is
Zelfs met miljoenen-token contextvensters is onbeheerde contextgroei een praktische bottleneck voor AI-agents. Elke tool-aanroep voegt zowel het verzoek als het volledige antwoord toe aan de conversatiegeschiedenis. Een browser-automatiseringsagent die pagina-inhoud accumuleert, een code-analyseagent die bestand na bestand leest, of een onderzoeksagent die documenten uit meerdere bronnen verzamelt, kan zijn contextvenster in tientallen stappen uitputten. Voorbij harde limieten degradeert de prestatie naarmate de context groeit — modellen verliezen focus op relevante informatie begraven in lange histories. Kosten schalen lineair met tokentellingen, waardoor ongecomprimeerde agentic workflows op schaal onbetaalbaar worden. Contextcompressie is de engineeringdiscipline die duurzame multi-stap agentoperatie economisch en technisch levensvatbaar maakt.

Hoe het werkt
Er bestaan meerdere complementaire technieken. Twee-lagen geschiedeniscompressie, zoals gebruikt door de Lumen browser-agent, verdeelt context in een korte-termijn werkgeheugen (recente acties en observaties) en een lange-termijn gecomprimeerde samenvatting (belangrijke bevindingen en beslissingen uit eerdere stappen). Semantische caching slaat veelgebruikte informatie op zodat deze niet opnieuw opgehaald of verwerkt hoeft te worden. Attention-gebaseerde samenvatting gebruikt het model zelf om uitgebreide tooloutputs te destilleren tot essentiële informatie vóór toevoeging aan de context. Gestructureerde staterepresentaties vervangen vrije-vorm conversatiegeschiedenis door compacte JSON state-objecten die de huidige situatie vastleggen zonder het volledige verhaal. Deze technieken kunnen gecombineerd worden — bijvoorbeeld door oudere geschiedenis te comprimeren terwijl recente stappen letterlijk behouden blijven.
Voorbeeld
Een browser-automatiseringsagent op een 50-staps onderzoekstaak demonstreert het effect. Zonder compressie zou geaccumuleerde pagina-inhoud, navigatiegeschiedenis en geëxtraheerde data de 2 miljoen tokens overschrijden bij stap 30 — ruim voorbij elk contextvenster. Met twee-lagen compressie onderhoudt de agent een compacte samenvatting van belangrijke bevindingen uit stappen 1-25 (ongeveer 2.000 tokens) terwijl het volledige detail van de laatste 5 stappen behouden blijft (ongeveer 50.000 tokens). Dit houdt de actieve context onder 200K tokens terwijl alle informatie voor de huidige stap bewaard blijft. De onderzoekskwaliteit blijft hoog omdat de gecomprimeerde samenvatting de essentiële feiten en relaties vastlegt, terwijl recente context het detail biedt voor directe beslissingen.