Skip to main content
BVDNETBVDNET
DienstenWerkBibliotheekOver MijPrijzenBlogContact
Contact
  1. Home
  2. AI Woordenboek
  3. Industrie & Business
  4. Wat Is Multi-Tenancy in AI?
buildingIndustrie & Business
Intermediate

Wat Is Multi-Tenancy in AI?

Het bedienen van meerdere geïsoleerde klanten vanuit één LLM-deployment — verlaagt per-klantkosten met 40-60% met behoud van strikte datascheiding

Ook bekend als:
Multi-tenant Architecture
Gedeelde Infrastructuur
Tenant Isolation
What Is Multi-Tenancy in AI? Shared Infrastructure for LLM Deployments

Multi-tenancy is een architectuurpatroon waarbij een enkele LLM-deployment — inclusief het model, inferentie-infrastructuur en ondersteunende diensten — meerdere geïsoleerde klanten (tenants) gelijktijdig bedient. Elke tenant opereert alsof ze een eigen systeem hebben: hun data is gescheiden, hun configuraties zijn onafhankelijk, en hun gebruik wordt individueel gemeten. Ze delen echter de onderliggende rekenresources, wat de kosten per klant drastisch verlaagt (doorgaans 40-60% lager dan dedicated deployments). Multi-tenancy is de standaardarchitectuur voor AI-SaaS-platforms, enterprise AI-functies voor meerdere bedrijfsonderdelen, en elke LLM-dienst op schaal. De primaire engineeringuitdaging is het handhaven van strikte dataisolatie bij het efficiënt delen van resources.

Waarom het belangrijk is

LLM-inferentie is duur — een enkele GPU geschikt voor een 70B-parametermodel kost €2-4 per uur, en de meeste klanten kunnen individueel geen dedicated infrastructuur rechtvaardigen. Multi-tenancy lost dit economische probleem op door vraag te bundelen: wanneer Klant A inactief is, bedient hun GPU-capaciteit de verzoeken van Klant B, wat 70-90% resourcebenutting bereikt versus 20-40% bij single-tenant deployments. Voor AI-platformproviders maakt multi-tenancy concurrerende per-verzoekprijzen mogelijk die LLM-capaciteiten toegankelijk maken voor kleinere organisaties. Voor enterprises bedienen interne multi-tenant platforms marketing, juridisch, HR en engineering vanuit gedeelde infrastructuur zonder dat elke afdeling een eigen GPU-cluster financiert. De kritieke beperking is isolatie: een datalek tussen tenants — waarbij bedrijfseigen informatie van een klant verschijnt in de LLM-respons van een andere klant — is een desastreus beveiligingsincident. Multi-tenancy vereist daarom rigoureuze architecturale beveiligingen op elke laag: aparte embeddingopslagen, tenantgescoopt contextophalen, authenticatie op verzoeksniveau en outputfiltering.

Hoe het werkt

Multi-tenant LLM-architecturen implementeren isolatie op meerdere lagen. Op de verzoeklaag draagt elke API-aanroep een tenant-identifier die wordt geverifieerd tegen een authenticatiesysteem — geen verzoek wordt verwerkt zonder bevestigde tenantcontext. Op de datalaag worden documenten, embeddings, conversatiegeschiedenis en fine-tuningdata van elke tenant opgeslagen in geïsoleerde partities — aparte databases, aparte schema's binnen een gedeelde database of versleutelde tenantspecifieke namespaces. Op de inferentielaag wordt tenantcontext (systeemprompts, RAG-documenten, configuratie) per verzoek geïnjecteerd, zodat het model alleen informatie van de huidige tenant benadert. Op de outputlaag verifiëren monitoringsystemen dat antwoorden geen cross-tenant datalekken bevatten. Resourcemanagement omvat per-tenant rate limits (voorkomt dat één tenant gedeelde GPU's monopoliseert), prioriteitswachtrijen (waarborgt SLA-naleving voor premiumtenants) en gebruiksmetering (tokens, verzoeken en compute per tenant bijhouden voor facturering). Geavanceerde implementaties gebruiken promptcaching per tenant — wanneer systeemprompt en RAG-context van een tenant vaak hergebruikt worden, blijft de KV-cache behouden tussen verzoeken, wat latentie en kosten verlaagt.

Voorbeeld

Een legal-tech startup bouwt een AI-contractanalyseplatform voor 200 advocatenkantoren. Elk kantoor uploadt eigen contracten, precedenten en draaiboeken die strikt geïsoleerd moeten blijven. De single-tenant aanpak zou 200 aparte deployments vereisen à €800 per maand (€160.000 totaal). Hun multi-tenant architectuur bedient alle 200 kantoren vanuit 12 gedeelde GPU-instanties voor €12.000 per maand totaal — een kostenverlaging van 92%. Isolatie wordt afgedwongen op vier lagen: tenantgescoopte vectordatabases (documenten van elk kantoor in een aparte Qdrant-collectie), verzoekauthenticatie (elke API-aanroep gevalideerd tegen tenant-API-keys), systeempromptinjectie (aangepaste analyseregels van elk kantoor per verzoek geladen), en outputmonitoring (een geautomatiseerde classifier controleert dat geen respons documentinhoud van een andere tenant bevat). Tenantbewuste promptcaching slaat veelgebruikte context van elk kantoor op, wat gemiddelde latentie verlaagt van 3,2 seconden naar 1,4 seconden voor herhaalde querypatronen. Wanneer één kantoor een ongebruikelijk grote batchanalyse draait (50.000 contracten), waarborgt de rate limiter dat hun piek de responstijden van andere kantoren niet verslechtert voorbij de 4-seconden SLA. Maandelijkse kosten per kantoor bedragen gemiddeld €60 — een fractie van dedicated infrastructuur, waardoor enterprise AI-contractanalyse toegankelijk wordt voor kantoren van elke omvang.

Bronnen

  1. Nvidia — TensorRT-LLM: Multi-Tenant Inference Optimization
    arXiv
  2. Microsoft Azure — Architecting Multi-Tenant Solutions
  3. Wikipedia

Hulp nodig bij het implementeren van AI?

Ik help je dit concept toe te passen in je bedrijf.

Neem contact op

Gerelateerde Concepten

Prompt Caching
Het opslaan en hergebruiken van verwerkte promptprefixen op LLM-servers om kosten tot 90% te verlagen en latentie met 3× te verminderen
Tokeneconomie
De prijs- en kostenstructuur van LLM-gebruik op basis van tokenverbruik
AI-inferentie
Het proces van het draaien van een getraind LLM om output te genereren vanuit input

AI-advies

Hulp nodig bij het begrijpen of implementeren van dit concept?

Praat met een expert
Vorige

Modeldistillatie

Volgende

Neuraal Netwerk

BVDNETBVDNET

Webontwikkeling en AI-automatisering. Goed gedaan.

Bedrijf

  • Over Mij
  • Contact
  • FAQ

Resources

  • Diensten
  • Werk
  • Bibliotheek
  • Blog
  • Prijzen

Connect

  • LinkedIn
  • GitHub
  • Twitter / X
  • Email

© 2026 BVDNET. Alle rechten voorbehouden.

Privacybeleid•Algemene Voorwaarden•Cookiebeleid