Modellen & Architectuur
9 concepten

Kwantisatie
Het verlagen van de precisie van modelgewichten van 16/32-bit naar 8/4-bit om de omvang te verkleinen en inferentie te versnellen

LoRA (Low-Rank Adaptation)
Een efficiënte fine-tuningmethode die alleen kleine adapterlagen traint in plaats van het volledige model

Modeldistillatie
Een kleiner 'student'-model trainen om de capaciteiten van een groter 'teacher'-model te repliceren tegen een fractie van de kosten en latentie

Perplexity in NLP
De standaardmetriek voor het evalueren van taalmodelkwaliteit — meet hoe goed een model tekst voorspelt, waarbij lagere waarden betere taalbegrip aangeven

RAG (Retrieval-Augmented Generation)
Een techniek die LLM's combineert met het ophalen van externe kennis om nauwkeurigheid te verbeteren en hallucinaties te verminderen

RLHF (Reinforcement Learning from Human Feedback)
Een trainingstechniek die menselijke voorkeursbeoordelingen gebruikt om LLM-gedrag af te stemmen op menselijke waarden

KV-cache
Een geheugenoptimalisatie die eerder berekende key-value-paren opslaat in transformer-attentielagen — voorkomt redundante berekeningen en versnelt generatie 3-5×

Transformer
De neurale-netwerkarchitectuur die aan alle moderne LLM's ten grondslag ligt, met aandachtsmechanismen om tekst te verwerken

Attention-mechanisme
Het wiskundige mechanisme dat transformers in staat stelt dynamisch te focussen op de meest relevante delen van de invoer bij het verwerken van elk token