Skip to main content
BVDNETBVDNET
DienstenWerkBibliotheekOver MijPrijzenBlogContact
Contact
  1. Home
  2. AI Woordenboek
  3. Modellen & Architectuur
  4. Wat Is LoRA (Low-Rank Adaptation)?
brainModellen & Architectuur
Intermediate

Wat Is LoRA (Low-Rank Adaptation)?

Een efficiënte fine-tuningmethode die alleen kleine adapterlagen traint in plaats van het volledige model

Ook bekend als:
Low-Rank Adaptation
LoRA Fine-tuning
QLoRA
LoRA (Low-Rank Adaptation)

LoRA (Low-Rank Adaptation) is een parameter-efficiënte fine-tuningtechniek die kleine adaptermatrices traint naast een bevroren basismodel in plaats van alle modelgewichten bij te werken. Een typisch LLM heeft miljarden parameters, waardoor volledige fine-tuning onbetaalbaar duur is en enorm veel GPU-geheugen vereist. LoRA voegt kleine rang-gedecomposeerde matrices in (vaak slechts 0,1-1% van het oorspronkelijke parameteraantal) in de aandachtslagen van het model. Alleen deze adaptergewichten worden getraind, terwijl het basismodel ongewijzigd blijft. Tijdens inferentie worden de adaptergewichten samengevoegd met het basismodel tegen verwaarloosbare kosten. LoRA is de standaardbenadering geworden voor modelaanpassing omdat het fine-tuningkosten met 10-100× verlaagt terwijl het kwaliteit bereikt die vergelijkbaar is met volledige fine-tuning.

Waarom het belangrijk is

LoRA heeft modelaanpassing gedemocratiseerd. Vóór LoRA vereiste het fine-tunen van een 70B-parametermodel meerdere high-end GPU's en tienduizenden dollars aan compute. Met LoRA kan hetzelfde model in uren worden gefinetuned op een enkele GPU voor minder dan €100. Dit verschoof fine-tuning van een vermogen voorbehouden aan goed gefinancierde AI-labs naar iets dat elk developmentteam kan doen. LoRA maakt ook een krachtig operationeel model mogelijk: één basismodel met meerdere LoRA-adapters voor verschillende taken of klanten — juridische analyse, medische Q&A, code-review — elk onafhankelijk getraind en tijdens serving gewisseld. Deze vermenigvuldigde aanpassingsmogelijkheid komt zonder vermenigvuldigde infrastructuurkosten, aangezien alleen de kleine adaptergewichten (typisch 10-100MB) per variant hoeven te worden opgeslagen en geladen.

Hoe het werkt

LoRA werkt door gewichtsupdates te decomposeren in laagrangmatrices. In plaats van een volledige gewichtsmatrix W bij te werken (dimensies d×d, potentieel miljoenen parameters), traint LoRA twee kleine matrices A (d×r) en B (r×d), waarbij r (de rang) veel kleiner is dan d — typisch 4, 8 of 16. De effectieve gewichtsupdate is het product AB, dat dezelfde dimensies heeft als W maar wordt geparametriseerd door veel minder waarden. Tijdens training worden alleen A en B bijgewerkt terwijl W bevroren blijft. Tijdens inferentie wordt de update AB simpelweg opgeteld bij W, wat de uiteindelijke gewichten oplevert zonder extra inferentiekosten. De rang r bepaalt de afweging tussen adaptercapaciteit en efficiëntie — hogere rangen maken complexere aanpassingen mogelijk maar gebruiken meer geheugen. QLoRA breidt dit verder uit door het basismodel tot 4-bit-precisie te kwantiseren tijdens training, waardoor de geheugenvereisten zodanig dalen dat een 65B-parametermodel kan worden gefinetuned op een enkele consumentenGPU.

Voorbeeld

Een adviesbureau bedient vijf verticale markten (gezondheidszorg, financiën, juridisch, manufacturing, retail) en wil een gespecialiseerde AI-schrijfassistent voor elk. Volledige fine-tuning van hun gekozen 70B-model zou vijf afzonderlijke kopieën vereisen — 700GB aan modelgewichten en vijf dure trainingsrondes. Met LoRA trainen ze vijf adapters (rang 16, ongeveer 80MB elk) op branchespecifieke schrijfvoorbeelden. Totale extra opslag: 400MB. Elke adapter traint in 4 uur op een enkele A100-GPU. Tijdens serving blijft het basismodel in het geheugen geladen terwijl adapters per verzoek gewisseld worden op basis van de branche van de klant — geen model herladen nodig. Het bureau levert vijf gespecialiseerde schrijfassistenten voor de infrastructuurkosten van één, en wanneer het basismodel wordt bijgewerkt naar een nieuwe versie, trainen ze simpelweg de lichtgewicht adapters opnieuw in plaats van vijf volledige fine-tuningruns te herhalen.

Bronnen

  1. Hu et al. — LoRA: Low-Rank Adaptation of Large Language Models
    arXiv
  2. Hugging Face PEFT — LoRA Conceptual Guide
    Web
  3. Wikipedia

Hulp nodig bij het implementeren van AI?

Ik help je dit concept toe te passen in je bedrijf.

Neem contact op

Gerelateerde Concepten

Fine-tuning
Een voorgetraind LLM verder trainen op domeinspecifieke data om het gedrag te specialiseren
RLHF (Reinforcement Learning from Human Feedback)
Een trainingstechniek die menselijke voorkeursbeoordelingen gebruikt om LLM-gedrag af te stemmen op menselijke waarden
Kwantisatie
Het verlagen van de precisie van modelgewichten van 16/32-bit naar 8/4-bit om de omvang te verkleinen en inferentie te versnellen
Modeldistillatie
Een kleiner 'student'-model trainen om de capaciteiten van een groter 'teacher'-model te repliceren tegen een fractie van de kosten en latentie

AI-advies

Hulp nodig bij het begrijpen of implementeren van dit concept?

Praat met een expert
Vorige

Large Language Model (LLM)

Volgende

Model Context Protocol (MCP)

BVDNETBVDNET

Webontwikkeling en AI-automatisering. Goed gedaan.

Bedrijf

  • Over Mij
  • Contact
  • FAQ

Resources

  • Diensten
  • Werk
  • Bibliotheek
  • Blog
  • Prijzen

Connect

  • LinkedIn
  • GitHub
  • Twitter / X
  • Email

© 2026 BVDNET. Alle rechten voorbehouden.

Privacybeleid•Algemene Voorwaarden•Cookiebeleid