Wat Is LoRA (Low-Rank Adaptation)?

LoRA (Low-Rank Adaptation) is een parameter-efficiënte fine-tuningtechniek die kleine adaptermatrices traint naast een bevroren basismodel in plaats van alle modelgewichten bij te werken. Een typisch LLM heeft miljarden parameters, waardoor volledige fine-tuning onbetaalbaar duur is en enorm veel GPU-geheugen vereist. LoRA voegt kleine rang-gedecomposeerde matrices in (vaak slechts 0,1-1% van het oorspronkelijke parameteraantal) in de aandachtslagen van het model. Alleen deze adaptergewichten worden getraind, terwijl het basismodel ongewijzigd blijft. Tijdens inferentie worden de adaptergewichten samengevoegd met het basismodel tegen verwaarloosbare kosten. LoRA is de standaardbenadering geworden voor modelaanpassing omdat het fine-tuningkosten met 10-100× verlaagt terwijl het kwaliteit bereikt die vergelijkbaar is met volledige fine-tuning.

Waarom het belangrijk is

LoRA heeft modelaanpassing gedemocratiseerd. Vóór LoRA vereiste het fine-tunen van een 70B-parametermodel meerdere high-end GPU's en tienduizenden dollars aan compute. Met LoRA kan hetzelfde model in uren worden gefinetuned op een enkele GPU voor minder dan €100. Dit verschoof fine-tuning van een vermogen voorbehouden aan goed gefinancierde AI-labs naar iets dat elk developmentteam kan doen. LoRA maakt ook een krachtig operationeel model mogelijk: één basismodel met meerdere LoRA-adapters voor verschillende taken of klanten — juridische analyse, medische Q&A, code-review — elk onafhankelijk getraind en tijdens serving gewisseld. Deze vermenigvuldigde aanpassingsmogelijkheid komt zonder vermenigvuldigde infrastructuurkosten, aangezien alleen de kleine adaptergewichten (typisch 10-100MB) per variant hoeven te worden opgeslagen en geladen.

Hoe het werkt

LoRA werkt door gewichtsupdates te decomposeren in laagrangmatrices. In plaats van een volledige gewichtsmatrix W bij te werken (dimensies d×d, potentieel miljoenen parameters), traint LoRA twee kleine matrices A (d×r) en B (r×d), waarbij r (de rang) veel kleiner is dan d — typisch 4, 8 of 16. De effectieve gewichtsupdate is het product AB, dat dezelfde dimensies heeft als W maar wordt geparametriseerd door veel minder waarden. Tijdens training worden alleen A en B bijgewerkt terwijl W bevroren blijft. Tijdens inferentie wordt de update AB simpelweg opgeteld bij W, wat de uiteindelijke gewichten oplevert zonder extra inferentiekosten. De rang r bepaalt de afweging tussen adaptercapaciteit en efficiëntie — hogere rangen maken complexere aanpassingen mogelijk maar gebruiken meer geheugen. QLoRA breidt dit verder uit door het basismodel tot 4-bit-precisie te kwantiseren tijdens training, waardoor de geheugenvereisten zodanig dalen dat een 65B-parametermodel kan worden gefinetuned op een enkele consumentenGPU.

Voorbeeld

Een adviesbureau bedient vijf verticale markten (gezondheidszorg, financiën, juridisch, manufacturing, retail) en wil een gespecialiseerde AI-schrijfassistent voor elk. Volledige fine-tuning van hun gekozen 70B-model zou vijf afzonderlijke kopieën vereisen — 700GB aan modelgewichten en vijf dure trainingsrondes. Met LoRA trainen ze vijf adapters (rang 16, ongeveer 80MB elk) op branchespecifieke schrijfvoorbeelden. Totale extra opslag: 400MB. Elke adapter traint in 4 uur op een enkele A100-GPU. Tijdens serving blijft het basismodel in het geheugen geladen terwijl adapters per verzoek gewisseld worden op basis van de branche van de klant — geen model herladen nodig. Het bureau levert vijf gespecialiseerde schrijfassistenten voor de infrastructuurkosten van één, en wanneer het basismodel wordt bijgewerkt naar een nieuwe versie, trainen ze simpelweg de lichtgewicht adapters opnieuw in plaats van vijf volledige fine-tuningruns te herhalen.

Waarom het belangrijk is

Hoe het werkt

Voorbeeld

Wat Is LoRA (Low-Rank Adaptation)?

Waarom het belangrijk is

Hoe het werkt

Voorbeeld

Bronnen

Wat Is LoRA (Low-Rank Adaptation)?

Waarom het belangrijk is

Hoe het werkt

Voorbeeld

Bronnen