Wat Zijn Schalingswetten voor LLM's? Hoe Modelgrootte, Data & Compute Samenwerken

Schalingswetten zijn empirische relaties die beschrijven hoe LLM-prestaties verbeteren als een voorspelbare functie van drie variabelen: modelgrootte (aantal parameters), trainingsdata (aantal tokens) en compute (aantal floating-pointbewerkingen). Eerst rigoureus gekarakteriseerd in papers van OpenAI (Kaplan et al., 2020) en DeepMind (Hoffmann et al., 2022, het "Chinchilla"-paper), onthulden schalingswetten dat het verlies van taalmodellen machtswetcurves volgt — prestaties verbeteren soepel en voorspelbaar wanneer een van de drie schaalachsen toeneemt, zonder teken van afvlakking bij huidige schaalgroottes. De Chinchilla-bevinding toonde bovendien aan dat veel eerdere modellen ondergetraind waren relatief aan hun grootte: voor een gegeven computebudget bestaat er een optimale balans tussen modelgrootte en trainingsdata, van ongeveer 20 tokens per parameter. Schalingswetten transformeerden AI-ontwikkeling van trial-and-error-experimentatie naar een kwantitatieve ingenieurdiscipline waar capaciteit betrouwbaar kan worden voorspeld voordat miljarden aan training worden besteed.

Waarom het belangrijk is

Schalingswetten vormen de basis van strategische AI-investeringsbeslissingen ter waarde van honderden miljoenen euro's. Ze stellen organisaties in staat met redelijke nauwkeurigheid te voorspellen welke capaciteiten een model zal hebben op een bepaalde schaal, hoeveel training zal kosten, en of het opschalen voldoende verbetering oplevert om de investering te rechtvaardigen. Zonder schalingswetten zou elke nieuwe modelgeneratie een gok zijn. Met schalingswetten kunnen frontier-labs projecteren dat een 10× toename in compute een specifieke verbetering in benchmarkprestaties oplevert, meerjarige trainingsroadmaps plannen, en businesscases maken voor GPU-clusters van miljarden euro's. Voor organisaties die AI gebruiken in plaats van frontier-modellen te bouwen, verklaren schalingswetten waarom grotere modellen meer kosten maar oprecht betere resultaten leveren (niet alleen marketingclaims), helpen voorspellen wanneer kleinere modellen "goed genoeg" zullen zijn voor specifieke taken, en informeren bouw-versus-koop beslissingen. Schalingswetten voorspellen ook emergence — het fenomeen waarbij capaciteiten zoals chain-of-thought redeneren en few-shot leren plotseling verschijnen op specifieke schaalgroottes in plaats van geleidelijk te verbeteren.

Hoe het werkt

Schalingswetten drukken de relatie uit tussen verlies (een maat voor modelfout) en de drie schaalvariabelen als machtswetten: L(N) ∝ N^(-α), waarbij N de geschaalde variabele is en α een empirisch bepaalde exponent. Voor taalmodelparameters geldt α ≈ 0,076; voor trainingstokens α ≈ 0,095; voor compute α ≈ 0,050. Deze exponenten betekenen dat elke 10× toename in parameters het verlies met ongeveer 16% verlaagt, elke 10× toename in data het verlies met ongeveer 20% verlaagt, en verbeteringen uit alle drie de bronnen bij benadering optelbaar zijn. Het Chinchilla-inzicht formaliseerde compute-optimale training: gegeven een vast computebudget C, wijst de optimale strategie het budget zodanig toe dat modelgrootte N en trainingsdata D proportioneel groeien, met de optimale verhouding van ongeveer 20 tokens per parameter. Dit verklaarde waarom een 70B-model getraind op 1,4 biljoen tokens (Chinchilla) beter presteerde dan een 280B-model getraind op slechts 300 miljard tokens (Gopher) ondanks vergelijkbaar computegebruik. Moderne trainingsruns gebruiken schalingswetten om eerst kleinschalige experimenten te draaien, de machtswetcurves te fitten, en te extrapoleren om de prestaties van volledige modellen te voorspellen — voordat honderden miljoenen euro's aan compute worden gecommitteerd.

Voorbeeld

Een bedrijf kiest tussen het licentiëren van een 70B-parameter API-model en een 7B-parametermodel dat ze zelf kunnen hosten. Schalingswetten voorspellen dat het 10× parameterverschil ongeveer 16% lager verlies oplevert bij het grotere model — wat zich vertaalt naar meetbaar betere kwaliteit bij complexe redeneertaken maar marginale verschillen bij eenvoudige classificatie. Ze voeren een gestructureerde evaluatie uit: op hun kerngebruikscases (klant-e-mailclassificatie, FAQ-antwoord en documentsamenvatting) presteert het 70B-model respectievelijk 2%, 8% en 15% beter dan het 7B-model. Schalingswetten voorspelden dit patroon — de verbetering groeit met taakcomplexiteit. Voor e-mailclassificatie (eenvoudige taak) is het 7B-model à €0,001 per verzoek kostenoptimaal. Voor documentsamenvatting (complexe taak) rechtvaardigt het 15% kwaliteitsvoordeel van het 70B-model de kosten van €0,01 per verzoek gezien de bedrijfswaarde van nauwkeurige samenvattingen. Ze implementeren modelroutering op basis van taakcomplexiteit als selector, en bereiken 92% van frontier-kwaliteit tegen 35% van frontier-kosten — een beslissingsstructuur mogelijk gemaakt door de voorspelbaarheid die schalingswetten bieden.

Waarom het belangrijk is

Hoe het werkt

Voorbeeld

Wat Zijn Schalingswetten voor LLM's?

Waarom het belangrijk is

Hoe het werkt

Voorbeeld

Bronnen

Wat Zijn Schalingswetten voor LLM's?

Waarom het belangrijk is

Hoe het werkt

Voorbeeld

Bronnen