
Retrieval-Augmented Generation (RAG) is een architectuurpatroon dat LLM-antwoorden verbetert door eerst relevante documenten op te halen uit een externe kennisbank en deze vervolgens in de context van het model op te nemen bij het genereren van een antwoord. In plaats van alleen te vertrouwen op kennis die tijdens training is opgeslagen (die verouderd of onvolledig kan zijn), doorzoekt een RAG-systeem een gecureerd documentcorpus — bedrijfsdocumentatie, productdatabases, onderzoekspapers of andere gestructureerde kennis — en voert de meest relevante passages aan het LLM naast de vraag van de gebruiker. Dit grondt het antwoord van het model in daadwerkelijk bronmateriaal, waardoor hallucinaties drastisch worden verminderd en antwoorden mogelijk worden op basis van informatie waarop het model nooit is getraind.
Waarom het belangrijk is
RAG lost de twee grootste problemen op met onbewerkte LLM-implementatie: hallucinatie en verouderde kennis. De trainingsdata van een LLM heeft een einddatum, en het heeft geen toegang tot bedrijfseigen kennis van de organisatie. RAG overbrugt beide lacunes door het model een 'onderzoeksstap' te geven voordat het antwoord geeft — je daadwerkelijke documentatie raadplegen in plaats van te vertrouwen op herinneringen uit de trainingsperiode. Organisaties die RAG implementeren rapporteren nauwkeurigheidsverbeteringen van 60-70% (raw LLM) naar 90-95% (RAG-versterkt) voor kennisintensieve taken. RAG is ook aanzienlijk goedkoper dan fine-tuning voor kennisinjectie — het bijwerken van het documentcorpus is direct en gratis, terwijl het hertrainen van een model duizenden kost en dagen duurt. Om deze redenen is RAG de standaardarchitectuur geworden voor enterprise AI-assistenten, klantenservicebots en interne kennissystemen.
Hoe het werkt
Een RAG-pipeline werkt in drie fasen. Eerste fase, indexering: documenten worden opgesplitst in chunks (paragrafen of secties), elke chunk wordt omgezet naar een embedding-vector met een embedding-model, en deze vectoren worden opgeslagen in een vectordatabase. Tweede fase, ophalen: wanneer een gebruiker een vraag stelt, wordt diens query ook omgezet naar een embedding, en de vectordatabase vindt de meest vergelijkbare documentchunks via similarity search. Derde fase, generatie: de opgehaalde chunks worden in de prompt van het LLM ingevoegd als context, en het model genereert een antwoord dat gebaseerd is op die specifieke informatie. Geavanceerde RAG-implementaties voegen herranking toe (opgehaalde documenten scoren op relevantie), hybride zoeken (combinatie van semantisch en trefwoordzoeken), querytransformatie (de vraag van de gebruiker herformuleren voor beter ophalen), en citaattracking (responselaims koppelen aan brondocumenten).
Voorbeeld
Een SaaS-bedrijf zet een AI-supportagent in voor hun platform met 2.000 pagina's documentatie, 500 kennisbankartikelen en 50 troubleshootinggidsen. Zonder RAG beantwoordt het LLM vragen op basis van zijn algemene trainingsdata — het kent softwaresupportpatronen maar niet het specifieke product. Het hallucineert functienamen, verzint configuratiestappen en verwijst naar verouderde workflows. Met RAG triggert elke klantenvraag een semantische zoekopdracht over het documentatiecorpus: "Hoe configureer ik SSO met Okta?" haalt drie relevante secties uit de setupgids op. Het LLM genereert zijn antwoord met die specifieke secties als context en produceert nauwkeurige, productspecifieke instructies met links naar de brondocumentatie. Het oplossingspercentage verbetert van 40% naar 78%, en het systeem handelt de 22% die het niet kan oplossen elegant af door te escaleren met de opgehaalde context bijgevoegd voor de menselijke agent.