
Het aandachtsmechanisme is de wiskundige kern van transformer-modellen die elk token in staat stelt dynamisch de relevantie van elk ander token te beoordelen, waardoor het model context kan begrijpen, ambiguïteit kan oplossen en langetermijnafhankelijkheden kan vastleggen. Geïntroduceerd in het paper "Attention Is All You Need" uit 2017, verving aandacht de sequentiële verwerking van eerdere architecturen (RNN's, LSTM's) door parallelle berekening over gehele sequenties, waardoor de schaal van moderne LLM's mogelijk werd. In de kern beantwoordt aandacht de vraag: "Hoeveel aandacht moet dit token besteden aan elk ander token in de sequentie?" Het antwoord komt van een geleerde gelijkenisfunctie die aandachtsscores produceert — een gewogen combinatie van waarden van alle tokens, waarbij gewichten contextuele relevantie weerspiegelen.
Waarom het belangrijk is
Het aandachtsmechanisme is de doorbraak die Large Language Models mogelijk maakte. Vóór aandacht verwerkten neurale netwerken sequenties één element tegelijk, waarbij alle voorgaande context door een enkele vector met vaste grootte moest — wat informatie verloor bij langere sequenties. Aandacht stelt elk token in staat direct aandacht te besteden aan elk ander token, ongeacht de afstand, waardoor modellen kunnen begrijpen dat "het" in alinea vier verwijst naar het "bedrijf" dat in alinea één werd genoemd. Deze mogelijkheid schaalt met de grootte van het contextvenster: een contextvenster van 200K tokens werkt precies omdat aandacht twee willekeurige tokens over die gehele reikwijdte kan verbinden. Het begrijpen van aandacht verklaart ook belangrijke praktische beperkingen: aandacht heeft O(n²) computationele complexiteit in sequentielengte, wat betekent dat verdubbeling van het contextvenster de rekenkosten verviervoudigt. Dit verklaart waarom langere prompts onevenredig meer kosten, en waarom technieken zoals sparse attention en promptoptimalisatie aanzienlijke economische waarde hebben.
Hoe het werkt
Aandacht gebruikt drie geleerde lineaire transformaties om de representatie van elk token om te zetten in een Query (Q)-, Key (K)- en Value (V)-vector. De aandachtsscore tussen twee willekeurige tokens wordt berekend als het inproduct van de query van het ene token met de key van het andere, geschaald met de vierkantswortel van de keydimensie: Attention(Q,K,V) = softmax(QK^T/√d)V. Dit produceert aandachtsgewichten — een kansverdeling die aangeeft hoeveel elk token de bijgewerkte representatie van het huidige token moet beïnvloeden. In de praktijk gebruiken transformers multi-head attention: in plaats van één enkele aandachtsfunctie te berekenen, draaien ze meerdere aandachtsoperaties parallel (doorgaans 8-96 heads), die elk leren te focussen op verschillende soorten relaties — de ene head vangt syntactische afhankelijkheden, een andere semantische gelijkenis, een andere coreferentie. De outputs van alle heads worden samengevoegd en lineair geprojecteerd tot de uiteindelijke representatie. Moderne LLM's gebruiken ook causale (gemaskeerde) aandacht in hun decoderlagen, waardoor tokens niet kunnen attenderen op toekomstige posities tijdens generatie.
Voorbeeld
Wanneer een taalmodel de zin "De bank keurde de lening goed omdat het bedrijf sterke financiën had" verwerkt, stelt het aandachtsmechanisme "bank" in staat om sterk te attenderen op "lening," "goedgekeurd," en "financiën" — waardoor wordt opgehelderd dat dit een financiële instelling is, geen rivieroever. Tegelijkertijd attendeert "het bedrijf" sterk op "financiën" en "bank," waardoor de semantische relatie wordt vastgelegd. Verschillende heads vangen verschillende aspecten: de ene volgt onderwerp-werkwoordcongruentie ("bank keurde goed"), een andere coreferentie ("bedrijf…sterke financiën"), een derde de causale relatie ("omdat"). Een bedrijf dat een LLM met 128K-tokencontext inzet voor technische handleidingen profiteert direct van aandacht om een probleemoplossingsstap op pagina 50 te verbinden met een definitie op pagina 3 — onmogelijk met pre-attention architecturen. Ze dragen echter ook de O(n²) kosten: een document van 100K tokens vereist 10 miljard berekeningen per laag, wat verklaart waarom long-context inferentie duurder is.