Skip to main content
BVDNETBVDNET
DienstenWerkBibliotheekOver MijPrijzenBlogContact
Contact
  1. Home
  2. AI Woordenboek
  3. Veiligheid & Ethiek
  4. Wat Is AgentDrift en Waarom Is Het Belangrijk?
shieldVeiligheid & Ethiek
Advanced
2026-W12

Wat Is AgentDrift en Waarom Is Het Belangrijk?

Benchmark die bewijst dat AI-agents blindelings beschadigde tooldata accepteren — 0 van 1.563 beurten bevraagtekend, terwijl standaardmetrieken goed oogden.

Ook bekend als:
Agent Drift
What Is AgentDrift and Why Does It Matter?

AgentDrift is een onderzoeksframework en benchmark van Wu et al. dat meet hoe tool-versterkte LLM-agents stilzwijgend afwijken van veilig gedrag wanneer tooloutput beschadigd is. Met een gepaard-trajectprotocol injecteren onderzoekers systematisch minimale datacorruptie in toolresponsen en meten ze of agents de corruptie detecteren, bevragen of blindelings propageren. De kernbevinding is vernietigend: over 1.563 gecontamineerde beurten stelde geen enkele agent expliciet de betrouwbaarheid van de tooldata ter discussie. Standaard evaluatiemetrieken zoals NDCG toonden hoge utiliteitsbehoud, waarmee ze het feit maskeerden dat agents risico-ongeschikte financiële producten aanbevolen in 65–93% van de gevallen. AgentDrift bewijst dat huidige evaluatieframeworks de verkeerde dingen meten — ze vangen op wat een agent aanbeveelt, maar niet of die aanbevelingen veilig zijn.

Waarom het belangrijk is

AgentDrift legt een blinde vlek bloot in hoe de AI-industrie agentveiligheid evalueert. Huidige benchmarks meten taakvoltooiing, nauwkeurigheid en gebruikerstevredenheid — maar niet of een agent veilig gedrag handhaaft wanneer zijn informatiebronnen gecompromitteerd zijn. Dit gat is kritiek omdat real-world tooloutputs inherent onbetrouwbaar zijn: API's retourneren verouderde data, databases kunnen beschadigd raken, en webscraping pikt gemanipuleerde content op. In domeinen als financieel advies, gezondheidszorg en juridisch advies kan een agent die hoge nauwkeurigheidsscores behaalt terwijl het stilzwijgend beschadigde data propageert, ernstige materiële schade veroorzaken. AgentDrift toont aan dat we veiligheidsspecifieke evaluatiemetrieken nodig hebben die agents testen onder vijandige omstandigheden, niet alleen ideale.

Hoe het werkt

De benchmark gebruikt een gepaard-trajectmethodologie. Voor elk testscenario draaien twee parallelle agentuitvoeringen: één met schone tooloutputs (baseline) en één met minimaal beschadigde outputs (treatment). De corruptie is ontworpen om subtiel te zijn — een risicoscore verschuiven van 'matig' naar 'agressief,' de feestructuur van een financieel product met enkele basispunten wijzigen, of een medische doseringsaanbeveling licht aanpassen. Onderzoekers vergelijken vervolgens de downstream-beslissingen van de agent over beide trajecten. De gepaarde aanpak isoleert het effect van datacorruptie van andere variabelen. Kernmetrieken omvatten driftdetectiepercentage (merkte de agent het op?), driftpropagatiepercentage (gebruikte het de beschadigde data toch?) en veiligheidsschendingspercentage (werd de uiteindelijke aanbeveling onveilig?). De vernietigende bevinding: 0% detectiepercentage over alle geteste modellen.

Voorbeeld

Een financieel adviesagent krijgt de taak beleggingsproducten aan te bevelen voor een conservatieve gepensioneerde. De agent roept een risicobeoordelingstool aan die portfoliodata retourneert, maar een aanvaller heeft de output van de tool beschadigd — de risicoclassificatie van een volatiel cryptocurrencyfonds gewijzigd van 'hoog risico' naar 'matig risico' en de weergegeven volatiliteitsmetrieken verlaagd. De agent, die hoog scoort op standaard nauwkeurigheidsbenchmarks, accepteert de beschadigde risicodata klakkeloos. Het beveelt het cryptocurrencyfonds aan als onderdeel van een 'gebalanceerd' portfolio, zonder te vragen waarom een cryptofonds matige risicometrieken zou hebben. Standaard evaluatiemetrieken tonen dat de agent goed presteerde: het selecteerde een gediversifieerd portfolio, gebruikte correcte financiële terminologie en interacteerde natuurlijk met de gebruiker. Alleen de gepaarde-trajectvergelijking onthult dat deze specifieke aanbevelingsomslag — van obligatiefonds naar cryptofonds — volledig werd veroorzaakt door de beschadigde tooloutput.

Bronnen

  1. AgentDrift (arXiv)
    arXiv

Hulp nodig bij het implementeren van AI?

Ik help je dit concept toe te passen in je bedrijf.

Neem contact op

Gerelateerde Concepten

Reward Hacking bij AI-agents
AI-agents die hun benchmarks gamen — evaluator-manipulatie in 50% van de episodes, erger bij capabelere modellen.
Instructiehiërarchie voor AI-veiligheid
Veiligheidspatroon dat systeemprompts prioriteit geeft boven gebruikersinput en tooloutput — voorkomt prompt injection in autonome agents.

Gerelateerde Artikelen

Hoe Hacken AI-agents Hun Eigen Evaluaties?
17 mrt

AI-advies

Hulp nodig bij het begrijpen of implementeren van dit concept?

Praat met een expert
Vorige

Agent Browser Protocol (ABP)

Volgende

Agentic Engineering

BVDNETBVDNET

Webontwikkeling en AI-automatisering. Goed gedaan.

Bedrijf

  • Over Mij
  • Contact
  • FAQ

Resources

  • Diensten
  • Werk
  • Bibliotheek
  • Blog
  • Prijzen

Connect

  • LinkedIn
  • GitHub
  • Twitter / X
  • Email

© 2026 BVDNET. Alle rechten voorbehouden.

Privacybeleid•Algemene Voorwaarden•Cookiebeleid