Strategy
AI-geletterdheidsweek: accountants de agent leren wantrouwen
Een senior partner van een accountantskantoor met 25 mensen mailde bijna een btw-antwoord dat overtuigend fout was. De agent verzon een tarief. Wij draaiden een week.

De bijna-verstuurde mail
Op een dinsdag in maart stuurde een senior partner van het kantoor ons een conceptmail door die hij bijna naar een logistieke klant had verstuurd. De klant had een vraag gesteld over btw bij een ABC-transactie binnen de EU. De agent had geantwoord met 21%, een nette uitleg van drie alinea's en een zelfverzekerde zin over de verleggingsregeling die niet klopte. De partner ving de fout op omdat de factuur van de klant uit het vorige kwartaal nog openstond op zijn tweede scherm en de cijfers niet bij elkaar pasten.
Het was de derde bijna-misser in zes weken. Het kantoor had in januari een interne agent uitgerold voor fiscaal onderzoek. In maart leunden de partners er stilletjes op voor werk dat richting de klant ging. De managing partner belde ons niet om de agent eruit te halen. Hij belde om het team te leren waar ze die agent niet meer moesten vertrouwen.
Waarom vertrouwen kalibreren beter werkt dan training
De meeste AI-trainingen binnen zakelijke dienstverleners lezen als een demo van de leverancier. Ze leren mensen hoe ze moeten prompten, samenvatten, opstellen. Ze leren ze niet waar de agent faalt en hoe je dat falen voelt aankomen.
Het team had zo'n training al gehad. Ze wisten hoe ze de agent om een memo moesten vragen. Wat ze niet wisten, was hoe je het verschil leest tussen een zelfverzekerd antwoord dat klopt en een zelfverzekerd antwoord dat niet klopt. Op het scherm zien die twee er identiek uit.
Dit is hetzelfde patroon dat docenten die met AI-tools werken in hun groepen beginnen te signaleren. Studenten worden vlot, zelfverzekerd en fout, zonder intern alarmbelletje dat zegt dat er iets niet klopt. De vaardigheid die de tools je niet leren, is precies degene die je het hardst nodig hebt: kalibreren hoeveel gewicht je aan een enkel antwoord geeft.
Prompten is de makkelijke helft van AI-geletterdheid. De moeilijke helft is weten wanneer het antwoord op je scherm het soort is waar je kantoor zich geen fout in kan veroorloven.
Wie er in de zaal zat
We stonden voor de week begon op drie dingen. Elke partner zat in elke sessie, inclusief degene die zei dat hij het niet nodig had. De leverancier van de agent was niet uitgenodigd, want de taak van de leverancier is laten zien wat het kan, en onze taak die week was laten zien waar het breekt. En de IT-lead van het kantoor zat in de zaal in plaats van stand-by, omdat de meeste beleidsbeslissingen die we uiteindelijk namen over toegang en routering gingen, niet over prompts.
Tweeëntwintig van de vijfentwintig medewerkers zaten in de live-sessies. De andere drie zaten op klantwerk dat niet kon schuiven. We namen de zaal op en maakten de opnames terugkijkbaar op 1,5x, met een vijfvragentest aan het eind, zodat wie achterliep er actief mee bezig moest zijn en het niet op een achtergrondtab kon laten lopen.
Dag 1: De scheuren laten zien
We begonnen de week met een vertrouwensaudit. Elk teamlid bracht drie echte vragen mee die ze de afgelopen maand aan de agent hadden gesteld. Die draaiden we opnieuw, voor de hele zaal. Bij elk antwoord stelden we twee vragen op rij: hoe zelfverzekerd leest dit, en hoe zelfverzekerd voelen wij ons?
Bij twaalf van de achttien vragen die we die ochtend draaiden, las het antwoord van de agent zelfverzekerder dan het team het zelf voelde. Bij drie was het antwoord fout en had op het moment zelf niemand het opgemerkt. Eén van die drie ging over de drempel van de kleineondernemersregeling, die de agent had meegenomen uit een bron uit 2023 terwijl de regeling intussen was verschoven. Een andere ging over het verlaagde tarief op e-books versus papier, waar de agent een nette uitleg gaf die de formaatneutrale regel van een paar jaar geleden negeerde.
De zaal werd stil. Niet omdat de agent slecht was, maar omdat die antwoorden al gebruikt waren.
Dag 2: Een gedeelde taal voor vertrouwen
Op woensdag hadden we een werkend vocabulaire. Het team was het eens over drie categorieën voor elke output van de agent die een tarief, een drempel of een deadline raakte:
- Groen: een herformulering van een regel uit de eigen interne kennisbank van het kantoor, met een bronvermelding die uitkomt op een actuele pagina van de Belastingdienst of een gepubliceerd fiscaal artikel. Gaat de deur uit zoals geschreven.
- Geel: een antwoord dat goed klinkt maar niets controleerbaars citeert, of een blogpost citeert, of een bron citeert die ouder is dan 18 maanden. Een mens leidt het tarief of de regel opnieuw af tegen de pagina van de Belastingdienst voordat het het kantoor verlaat.
- Rood: alles rond grensoverschrijdende btw, recente tariefwijzigingen, of een drempel die dicht tegen een bekende grens aan ligt. De agent stelt de structuur van de memo op. Een senior vult de cijfers in vanuit een primaire bron.
De categorieën zijn met opzet simpel. Het doel was niet een perfecte taxonomie bouwen. Het doel was juniors een zin geven die ze in een drukke week hardop konden uitspreken, zonder het gevoel dat ze de partner die het antwoord had doorgestuurd in twijfel trokken.
Dag 3: Het lab voor de randgevallen
Donderdagochtend draaiden we wat wij de valtest noemden. We hadden de week ervoor met drie van de senior fiscalisten van het kantoor doorgenomen waar zij de agent hadden zien uitglijden. Ze gaven ons dertig randgeval-prompts: ABC-transacties binnen de EU, MOSS-drempels, btw-verlegging op intracommunautaire diensten, het nultarief op zonnepanelen, fooien in de horeca, de nieuwe regel voor e-publicaties, het tijdstip van het belastbaar feit bij vastgoed, en een handvol hoeken van de kleineondernemersregeling.
We draaiden alle dertig door de agent van het kantoor, in de zaal, samen met het team. Eenentwintig kwamen terug met minstens één feitelijke fout. Negen daarvan waren het soort fout dat zonder vervolgvraag aan een klant zou zijn voorgelegd, omdat de bewoording zelfverzekerd was en de structuur professioneel.
Het ergste enkelvoudige antwoord ging over plaats van dienst bij een evenement in België waarvan de deelnemers werden gefactureerd vanuit een Nederlandse entiteit. De agent paste zelfverzekerd de algemene B2B-regel toe en produceerde een nette memo. De werkelijke regel voor toegang tot evenementen is de plaats waar het evenement fysiek plaatsvindt, wat de btw-behandeling volledig had veranderd. Het antwoord van de agent citeerde geen enkele bron. Niemand in het team had er ook om gevraagd.
De oefening deed twee dingen tegelijk. Ze kalibreerde het team op de onderdelen van fiscaal werk waar de agent onbetrouwbaar op was. En ze gaf iedereen in de zaal een persoonlijk moment van "dat had ik verstuurd". Dat moment telt zwaarder dan welk beleidsdocument ook.
De antwoorden die ons misleidden, waren niet de antwoorden die onzeker klonken. Het waren die het meest klonken als een van ons.
Senior fiscalist, debrief dag 3
Dag 4: De workflow opnieuw tekenen
Vrijdagochtend tekenden we de workflow van het team opnieuw op een whiteboard. De vraag die we steeds bleven stellen, was niet "moet de agent dit doen", maar "wat is het slechtste wat er gebeurt als de agent dit doet en het fout heeft, en vangt iemand het op voordat het de deur uitgaat".
Drie soorten werk verdwenen volledig van de agent:
- Een tarief of drempel naar een klant noemen zonder primaire bronlink van een Nederlands overheidsdomein.
- Een vraag beantwoorden waar in de afgelopen 24 maanden een fiscale regelwijziging op zat.
- Alles rond grensoverschrijdende btw, waar de trainingsdata van de agent EU-regimes door elkaar haalde die niet hetzelfde waren.
Wat op de agent bleef: de structuur van memo's opstellen die het team zelf invulde, lange klantmails samenvatten, eigen teksten van het team herschrijven naar taal die een klant kan lezen, en eerste concepten van vergadernotulen produceren uit transcripten. Geen van die taken produceert een feitelijke claim die de agent zelf heeft verzonnen. Ze geven allemaal een vorm aan tekst die het kantoor al vertrouwde.
Dit is waar het recente werk van Anthropic over het inkaderen van Claude binnen producten overeenkomt met onze ervaring op de werkvloer. Inkaderen gaat niet over of het model iets kan. Het gaat erover dat je per oppervlak besluit waar het model de bron van waarheid mag zijn. Bij een accountantskantoor is het antwoord voor btw-tarieven "nooit, als beleid". Voor de structuur van een concept is het "altijd, als standaard".
Dag 5: De spelregels
We sloten de week af met een document van één pagina. Geen beleid, een kaart. Het team prikte hem naast het scherm. Drie regels.
- Cijfers gaan nooit op de automatische piloot. Elk tarief, drempel, deadline of percentage uit de agent staat op geel totdat een mens het tegen een primaire bron heeft gecheckt. Geen uitzonderingen voor senior staf.
- Zelfverzekerd taalgebruik is een signaal voor een check. Als de agent zegt "altijd", "nooit", "in alle gevallen", of "het tarief is", lees dat als vlag, niet als feit. Die zinnen markeerden negen van de tien slechtste antwoorden die we die week vonden.
- Geen bron, niet versturen. Als wat naar de klant gaat een claim bevat zonder link, gaat het terug in de wachtrij. De link moet daadwerkelijk werken. Het team controleert er steekproefsgewijs één op de vijf.
De duurste foutmodus is niet dat de agent het fout heeft. Het is een junior die aanneemt dat de partner al heeft gecheckt, en een partner die aanneemt dat de junior dat al heeft gedaan. Maak die controlestap expliciet, schrijf hem op, en zet er een naam onder.
Zes weken later
We gingen terug eind april. De kaart met regels hing bij de meeste bureaus nog. De drie categorieën hadden het overleefd. De valtest was inmiddels onderdeel van de maandelijkse interne review van het kantoor: een wisselende senior draait vijf verse randgevallen door de agent en deelt het slechtste antwoord met het team. Geen schaamte, alleen kalibratie.
Twee dingen bleven niet hangen. De vertrouwensaudit kwam niet terug als formele wekelijkse oefening. Mensen deden hem in hun hoofd, wat waarschijnlijk prima is. En een van de partners was antwoorden van de agent als "startconcept" met een voorbehoud naar klanten gaan doorsturen, iets wat we juist hadden afgeraden. Oude gewoontes.
De metric die de managing partner het meest waard was, was simpeler dan dit alles. In de zes weken na de week bereikten nul agent-fouten een klant. In de zes weken ervoor waren dat er drie.
Die metric onderschat wat die drie hadden gekost. Bij één van de drie zou er een te hoog geclaimde voorbelastingpositie zijn ontstaan die een controle van de Belastingdienst later had opgemerkt, met het kantoor dat de uitleg mocht doen. De andere twee zouden minimaal een factuurcorrectie hebben opgeleverd, en een klantgesprek dat geen van beide partijen wilde voeren. Geen ervan was catastrofaal. Allemaal hadden ze het kantoor professionele tijd gekost en een stille knauw in het vertrouwen van de klant dat het kantoor leest voor het verstuurt.
Wat we anders zouden doen
Als we dit opnieuw zouden draaien, zouden we de week inkorten tot vier dagen en de vijfde gebruiken om de eigen pagina van het kantoor te schrijven over "waar de agent bekend slecht in is". Dat probeerden we in de marges te doen en het kwam niet af. Die pagina moet eigenaar zijn van één senior met agendatijd ervoor, niet bij commissie worden gebouwd.
Toen we deze vertrouwens-kalibratieweek voor dit kantoor draaiden, kwamen we steeds tegen dezelfde knoop aan: de zelfverzekerde toon van de agent was het probleem, niet de feitelijke accuratesse. We hebben dat opgelost door het team een vocabulaire te geven dat ze hardop konden uitspreken, het soort werk dat tussen een uitrol van een AI-agent en een echte organisatieverandering in zit.
Het kleinste wat je vandaag kunt doen: pak drie antwoorden waar je team de afgelopen maand op heeft gehandeld vanuit jullie agent, draai ze opnieuw, en vraag de zaal of de zelfverzekerdheid op het scherm overeenkwam met de zelfverzekerdheid in de zaal. Als zelfs één antwoord die test niet doorstaat, heb je je lesplan voor de week al.
Kern
Prompten is de makkelijke helft van AI-geletterdheid. De moeilijke helft is kalibreren hoeveel gewicht je aan één antwoord geeft, vooral als het het meest klinkt als een van je eigen mensen.
FAQ
Moet je de AI-agent eruit halen om een AI-geletterdheidsweek te draaien?
Nee. Het doel is niet de agent eruit halen. Het doel is het team accuraat krijgen over waar de agent onbetrouwbaar is, zodat ze hem blijven gebruiken waar hij echt helpt en stoppen waar hij ze geld kost.
Hoe lang moet een AI-geletterdheidsweek zijn?
Vijf dagen werkte voor een kantoor van 25 mensen. Voor een team onder de tien is drie dagen genoeg, als je de vertrouwensaudit en de valtest in één gecombineerde sessie samentrekt en de partners voor allebei in de zaal houdt.
Wie moet de valtest draaien?
Een senior beoefenaar van binnen het kantoor, niet de leverancier van de AI en niet een externe trainer. De randgevallen moeten uit echt, recent klantwerk komen, anders gelooft het team de uitkomst in de zaal niet.
Wat is de grootste fout die kantoren maken met interne agents?
Prompten behandelen als de vaardigheid die telt. De vaardigheid die telt is vertrouwen kalibreren: weten wanneer een antwoord dat goed klinkt, het soort is waar je kantoor zich geen fout in kan veroorloven.