
De transformer is de neurale-netwerkarchitectuur die ten grondslag ligt aan elk modern Large Language Model. Geïntroduceerd in het paper "Attention Is All You Need" uit 2017, verving de transformer eerdere sequentiële architecturen (RNN's, LSTM's) door een parallel aandachtsmechanisme dat alle tokens in een sequentie gelijktijdig kan verwerken terwijl het leert welke tokens het meest relevant zijn voor elkaar. Deze doorbraak maakte training op veel grotere datasets en langere sequenties mogelijk, wat leidde tot GPT, Claude, Llama en elk ander modern LLM. Het begrijpen van de transformer-architectuur verklaart zowel de mogelijkheden als de fundamentele kostenstructuur van LLM's — waarom langere prompts kwadratisch meer kosten, waarom contextvensters limieten hebben, en waarom deze modellen zo effectief zijn in het begrijpen van taal.
Waarom het belangrijk is
De transformer-architectuur bepaalt de prestatiekenmerken van elk LLM dat je gebruikt. De kwadratische aandachtskosten (2× de tokens verwerken vereist 4× de berekening) verklaren direct waarom API-prijzen schalen met tokenaantallen en waarom contextbeheer kritiek is. De parallelle verwerkingscapaciteit van de architectuur is wat het mogelijk maakt modellen te trainen op biljoenen tokens — iets dat eeuwen zou duren met sequentiële architecturen. Voor practitioners biedt het begrijpen van transformers intuïtie over modelgedrag: waarom LLM's uitblinken in taken die contextueel begrip vereisen (elk token let op elk ander token), waarom ze moeite hebben met lange wiskundige berekeningen (aandacht wordt verdund over zeer lange sequenties), en waarom prompt engineering werkt (het model gebruikt aandacht om de meest relevante instructies in je prompt te vinden).
Hoe het werkt
Een transformer verwerkt invoer door gestapelde lagen, elk bestaande uit twee hoofdcomponenten: een multi-head aandachtsmechanisme en een feed-forward neuraal netwerk. In de aandachtsstap berekent elk token een relevantiescore met elk ander token (self-attention), waardoor het model kan begrijpen dat in "De bank keurde de lening goed" het woord "bank" sterk geassocieerd is met "keurde goed" en "lening" (financiële context) in plaats van met "rivier" of "oever." Meerdere aandachtskoppen draaien parallel, elk lert verschillende soorten relaties — syntactische structuur, semantische betekenis, positionele patronen. Het feed-forward-netwerk transformeert vervolgens de aandachts-outputs. Residuele verbindingen en laagnormalisatie stabiliseren de training over tientallen tot honderden lagen. Voor tekstgeneratie zorgt een causaal masker ervoor dat het model alleen naar voorgaande tokens kijkt, wat voorkomt dat het 'vooruit kijkt' — het model genereert strikt van links naar rechts, één token per keer.
Voorbeeld
Beschouw hoe een transformer een vertaalprompt verwerkt: "Vertaal naar het Nederlands: The bank by the river was steep." Het aandachtsmechanisme lost eerst de ambiguïteit van "bank" op — aandachtskoppen merken sterke verbindingen op tussen "bank," "river" en "steep," en identificeren dit correct als een rivieroever in plaats van een financiële instelling. Andere koppen volgen de instructie om te vertalen en behouden bewustzijn over de gehele sequentie. De feed-forward-lagen coderen de transformatie van Engelse naar Nederlandse taalpatronen. Het model genereert "De oever bij de rivier was steil" — en kiest correct "oever" (rivieroever) in plaats van "bank" (financiële bank). Deze contextuele disambiguatie over de volledige invoer, parallel verwerkt in plaats van woord-voor-woord, is het bepalende voordeel van de transformer ten opzichte van alle eerdere architecturen.