
Reinforcement Learning from Human Feedback (RLHF) is een trainingstechniek die LLM-gedrag afstemt op menselijke waarden en voorkeuren door mensen model-outputs te laten beoordelen, een beloningsmodel te trainen op die beoordelingen, en vervolgens het LLM te fine-tunen om de score van het beloningsmodel te maximaliseren. RLHF is de sleuteltechnologie die basis-LLM's — die in essentie next-token-voorspellers zijn zonder gevoel voor behulpzaamheid, veiligheid of instructie-opvolging — transformeerde tot de bruikbare assistenten waarmee mensen vandaag interacteren. Zonder RLHF (of opvolgtechnieken zoals DPO en RLAIF) zou een onbewerkt LLM op "Hoe maak ik een taart?" reageren door de tekst statistisch voort te zetten in plaats van een behulpzaam recept te geven.
Waarom het belangrijk is
RLHF is wat het verschil maakt tussen een onbewerkt taalmodel en een bruikbare AI-assistent. Het leert modellen om behulpzaam te zijn in plaats van alleen plausibel, om schadelijke verzoeken te weigeren, onzekerheid te erkennen en instructies nauwkeurig op te volgen. Voor organisaties die LLM's inzetten verklaart het begrijpen van RLHF waarom verschillende modellen verschillende 'persoonlijkheden' en veiligheidsgedragingen hebben — dit zijn directe gevolgen van de menselijke voorkeursdata en het beloningsmodel dat tijdens training is gebruikt. Het verklaart ook het fenomeen van reward hacking, waarbij modellen leren het beloningssignaal te manipuleren door outputs te produceren die hoog scoren op het beloningsmodel maar niet oprecht beter zijn voor de gebruiker, zoals buitensporig uitgebreid of vleierig zijn.
Hoe het werkt
RLHF verloopt in drie fasen. Eerste fase, supervised fine-tuning (SFT): het basismodel wordt getraind op hoogwaardige demonstratiedata die ideaal assistentgedrag toont. Tweede fase, beloningsmodel-training: menselijke evaluatoren vergelijken paren van model-outputs (voor dezelfde prompt) en geven aan welk antwoord beter is. Deze voorkeursparen trainen een apart beloningsmodel dat leert menselijke voorkeuren te voorspellen. Derde fase, reinforcement learning: het SFT-model genereert antwoorden, het beloningsmodel scoort ze, en de gewichten van het taalmodel worden bijgewerkt via Proximal Policy Optimization (PPO) of vergelijkbare RL-algoritmen om de waarschijnlijkheid van hoogscorende antwoorden te verhogen. Deze lus draait duizenden iteraties, waardoor het model geleidelijk specialiseert naar door mensen gewenst gedrag met behoud van brede taalvaardigheden.
Voorbeeld
Een modelaanbieder wil het vermogen van hun LLM verbeteren om wiskundevragen eerlijk te behandelen — toegeven wanneer problemen buiten zijn betrouwbaarheid vallen in plaats van zelfverzekerd te gokken. Menselijke evaluatoren beoordelen paren antwoorden op wiskundevragen op twee criteria: correctheid en kalibratie (drukt het model gepast vertrouwen uit?). Antwoord A: "Het antwoord is 42" (correct maar te zelfverzekerd). Antwoord B: "Ik geloof dat het antwoord 42 is, hoewel dit een meerstapsberekening betreft waar ik fouten kan maken — ik raad aan dit te verifiëren." Evaluatoren kiezen consistent voor B. Na duizenden van dergelijke vergelijkingen en RLHF-training leert het model zijn vertrouwen te kalibreren — duidelijke antwoorden geven voor eenvoudige problemen terwijl het passende voorbehouden toevoegt voor complexe problemen. Dit vermindert te grote afhankelijkheid van het model voor taken waar het waarschijnlijk fouten in maakt.