Modellen & Architectuur

9 concepten

Kwantisatie

Het verlagen van de precisie van modelgewichten van 16/32-bit naar 8/4-bit om de omvang te verkleinen en inferentie te versnellen

Intermediate

Modellen & Architectuur

LoRA (Low-Rank Adaptation)

Een efficiënte fine-tuningmethode die alleen kleine adapterlagen traint in plaats van het volledige model

What Is Model Distillation? How Knowledge Transfer Makes AI Smaller & Faster

Intermediate

Modellen & Architectuur

Modeldistillatie

Een kleiner 'student'-model trainen om de capaciteiten van een groter 'teacher'-model te repliceren tegen een fractie van de kosten en latentie

What Is Perplexity in NLP? The Key Metric for Language Model Evaluation

Intermediate

Modellen & Architectuur

Perplexity in NLP

De standaardmetriek voor het evalueren van taalmodelkwaliteit — meet hoe goed een model tekst voorspelt, waarbij lagere waarden betere taalbegrip aangeven

Intermediate

Modellen & Architectuur

RAG (Retrieval-Augmented Generation)

Een techniek die LLM's combineert met het ophalen van externe kennis om nauwkeurigheid te verbeteren en hallucinaties te verminderen

RLHF (Reinforcement Learning from Human Feedback)

Advanced

Modellen & Architectuur

RLHF (Reinforcement Learning from Human Feedback)

Een trainingstechniek die menselijke voorkeursbeoordelingen gebruikt om LLM-gedrag af te stemmen op menselijke waarden

What Is the KV Cache? How Key-Value Caching Accelerates LLM Inference

Advanced

Modellen & Architectuur

KV-cache

Een geheugenoptimalisatie die eerder berekende key-value-paren opslaat in transformer-attentielagen — voorkomt redundante berekeningen en versnelt generatie 3-5×

Intermediate

Modellen & Architectuur

Transformer

De neurale-netwerkarchitectuur die aan alle moderne LLM's ten grondslag ligt, met aandachtsmechanismen om tekst te verwerken

What Is the Attention Mechanism? Self-Attention & Multi-Head Attention Explained

Advanced

Modellen & Architectuur

Attention-mechanisme

Het wiskundige mechanisme dat transformers in staat stelt dynamisch te focussen op de meest relevante delen van de invoer bij het verwerken van elk token