Tooling
Shadow AI op een advocatenkantoor: drie bots, één NDA
Een Antwerps advocatenkantoor van 47 mensen bouwde achttien maanden lang elf eigen contract-review bots. De dag dat er drie live met elkaar oneens waren, klapte de partner alle laptops dicht.

Een senior partner bij een Antwerps advocatenkantoor van 47 mensen staat op een dinsdagochtend aan het hoofd van een eikenhouten vergadertafel. Tegenover hem zit de general counsel van een Belgische scheepvaartgroep, en een dikke stapel NDA's die vrijdag rond moeten zijn. De partner heeft drie associates in de kamer. Ieder van hen heeft de afgelopen achttien maanden stilletjes z'n eigen contract-review tool gebouwd, bovenop een chat-LLM en een spreadsheet. Dit is shadow AI die de deal van een betalende klant binnenwandelt, en de partner weet het nog niet. Hij vraagt elke associate om zorgen bij clausule 12.4 van de hoofd-NDA te markeren. Hij krijgt drie verschillende antwoorden, allemaal met evenveel overtuiging gebracht, op het hoofdscherm in de kamer, voor de neus van de klant.
Dit is een echt telefoontje dat we de week erna kregen. We lopen door wat we aantroffen, wat we veranderden, en wat we elk kantoor vertellen dat ongemerkt in dezelfde vorm is gegroeid.
Hoe een huisindustrie echt ontstaat
Niemand op het kantoor is gaan zitten om te besluiten een intern AI-programma op te zetten. Er was geen stuurgroep, geen budgetregel, geen inkoopmemo. Shadow AI wordt nooit goedgekeurd. Het stapelt zich op, zoals huisindustrieën altijd ontstaan, één gefrustreerde specialist tegelijk.
Het begon met Anouk, een junior bij M&A. Ze zat tot haar nek in NDA-redlines en ontdekte dat een chat-assistent een NDA van veertien clausules in ongeveer negentig seconden kon omzetten in een lijst afwijkingen van het standaardtemplate van het kantoor. Ze bouwde een Google Sheet met twee kolommen: "plak NDA hier" en "plak flags hier". Ze gebruikte 'm op ongeveer veertig deals voordat ze hem op een vrijdagmiddagborrel noemde.
Drie maanden later draaide Jeroen bij tax z'n eigen versie. Die van hem verschilde op drie punten: hij gebruikte een langere system prompt, hij had de interne redlining-gids van het kantoor als context geladen, en hij had de spreadsheet gekoppeld aan een Python-script op z'n laptop dat hij startte via een desktop-snelkoppeling in de vorm van een mini-rechtershamer. Pieter, bij arbeidsrecht, had een derde versie, eigenlijk een Slack-bot in een privékanaal waar alleen hij en twee paralegals bij konden.
Tegen de tijd dat de meeting in Antwerpen plaatsvond, draaiden er elf van die dingen op het kantoor. Acht draaiden op Claude. Twee op een concurrent. Eén was afgedwaald naar een gratis tier van iets dat de IT-afdeling nooit had goedgekeurd. Geen enkele deelde een system prompt. Geen enkele deelde een redlining-standaard. Geen enkele logde z'n output.
Dat is de vorm: een kantoor vol zorgvuldige, intelligente mensen, ieder voor zich aan het optimaliseren, samen onbewust een parallelle infrastructuur aan het bouwen zonder contracten tussen de onderdelen.
De drie tegenstrijdige flags
De clausule waarop de meeting strandde was een vrij normale uitzondering voor residuele kennis. Er stond, samengevat, dat informatie die door personeel van de ontvangende partij uit het hoofd werd onthouden geen schending zou opleveren. Drie associates draaiden hun drie bots. Anouks bot markeerde 'm als "niet-standaard en waarschijnlijk een concessie aan de tegenpartij". Jeroens bot markeerde 'm als "gangbaar voor scheepvaart en binnenvaart, aanbeveling: accepteren". Pieters bot markeerde 'm als "ambigu, escaleer naar partner voor ondertekening".
Geen van die antwoorden is op zichzelf fout. Het eerste is het huisstandpunt van M&A uit 2024. Het tweede is het standpunt van de tax-praktijk, die een redlining-standaard had geërfd van een vroegere lead partner die scheepvaartdeals deed. Het derde is het standpunt van de arbeidsrechtpraktijk, die standaard escaleert zodra een clausule aan onthouden werknemerskennis raakt.
De bots hallucineerden niet. Ze deden precies waarvoor ze gebouwd waren. Het probleem is dat elke bot was gebouwd door iemand die er redelijkerwijs van uitging dat het standpunt van z'n eigen praktijk het standpunt van het hele kantoor was, en dat het kantoor nooit had opgeschreven welke versie klopte.
Wanneer drie interne AI-tools drie verschillende antwoorden geven, ligt het bijna nooit aan het model. Het probleem is dat drie mensen binnen het pand drie verschillende meningen hadden, en je het pas merkte toen de bots ze hardop uitspraken.
Wat er sneuvelde in de klantmeeting
De partner deed op dat moment het enige dat hij kon. Hij klapte alle drie de laptops dicht, verontschuldigde zich voor "een tooling-probleem", markeerde de clausule handmatig op basis van z'n eigen herinnering aan de standaard, en ging verder. De general counsel was er beleefd over. Ze vroeg ook, op weg naar buiten, of het kantoor "een visie had op hoe het AI gebruikte". Die vraag, in die toon, op weg de deur uit, is het geluid van een vaste klant die op proef wordt gezet.
Binnen een week had het kantoor een CIO die nog nooit eerder managed AI-infrastructuur had ingekocht, drie associates die zich persoonlijk verantwoordelijk voelden voor het schaamrood op de wangen van de partner, en een managing partner die een memo van één pagina wilde waarin werd uitgelegd hoe dit had kunnen gebeuren.
Het eerlijke antwoord past in drie regels. Elf mensen bouwden privé-tools. Niemand was eigenaar van de gedeelde laag. De eerste keer dat die gedeelde laag dragend was, in een klantmeeting, brak ze.
Waarom shadow AI verbieden niet werkt
De verkeerde reflex, en degene waar kantoren als eerste naar grijpen, is een beleidsmemo uitsturen die niet-goedgekeurd AI-gebruik verbiedt en één goedgekeurde tool van één leverancier uitrollen. We hebben dat twee kantoren zien proberen. In beide gevallen ging de huisindustrie simpelweg verder onder de radar. Associates hielden hun privé-spreadsheets en stopten met ze op de borrel te noemen.
De reden is simpel. Anouks tool werkte. Hij scheelde haar drie uur per NDA. Tegen haar zeggen dat ze ermee moet stoppen, zonder iets neer te zetten dat haar óók drie uur per NDA scheelt, is geen beleid. Dat is een productiviteitsbelasting.
De juridische blootstelling rond shadow AI is bovendien niet langer theoretisch. Rechtbanken en toezichthouders in heel Europa beginnen tools die met overtuiging in jouw naam praten te behandelen alsof ze als jou praten, en voor een advocatenkantoor dat klanten adviseert is dat een risicocategorie die ingeprijsd moet worden. De faalmodi sluiten netjes aan op de patronen die zijn beschreven in de OWASP Top 10 voor LLM-toepassingen, met name de categorieën overreliance en excessive agency. De oplossing is niet om de tools het zwijgen op te leggen. De oplossing is ervoor zorgen dat ze het standpunt van het kantoor uitspreken, niet dat van elf verschillende praktijkgebieden.
Hoe een gedeelde interne laag er echt uitziet
Als een kantoor ons vraagt hoe ze shadow AI moeten opruimen, tekenen we elke keer dezelfde plaat. Hij bestaat uit vier delen, en de volgorde doet ertoe.
Eén canonieke kennislaag
Voor je ook maar één bot aanraakt, schrijf je het huisstandpunt van het kantoor op. Niet alles, alleen de stukken waar de bots de mist mee in gaan. Voor het Antwerpse kantoor was dat een redlining-standaard, drieëntachtig clausules lang, in helder Nederlands, geaccordeerd door de vier praktijkhoofden. Wij hielpen ze bij het opstellen. Het kostte zes weken. Het is veruit het belangrijkste document in de hele migratie.
Dit is het document dat de bots lezen. Niet de system prompt. Niet het model. Het document. Modellen worden tot in de eeuwigheid twee keer per jaar vervangen. Het document is het ding dat moet kloppen.
Eén inference-pad
Elf privé-API-sleutels worden één gedeelde service. De tool van elke associate roept hetzelfde endpoint aan, met dezelfde retrieval-laag die uit dezelfde redlining-standaard trekt, met dezelfde logging. De associates mogen hun eigen interfaces erbovenop blijven bouwen. Ze mogen niet hun eigen brein eronder bouwen.
# What every associate's tool calls now
curl https://internal.firm.local/review \
-H "Authorization: Bearer $FIRM_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"document": "",
"practice": "ma",
"client_id": "shipping-group-be",
"reviewer": "anouk"
}'
Het endpoint geeft de flags terug, de clausule-verwijzingen, de versie van de redlining-standaard die gebruikt is, en een log-id. Als twee associates het oneens zijn, lost het log-id het meningsverschil in vijf minuten op, niet in drie weken.
Eén audit trail
Elke call wordt gelogd met de input, de output, de modelversie, de prompt-versie, de retrieval-snapshot en de mens die hem startte. Dit is niet-onderhandelbaar voor een gereguleerd beroep, en het sluit nauw aan op wat raamwerken zoals het NIST AI Risk Management Framework verwachten zodra AI binnenin beslissingen zit die ertoe doen. Het is ook niet-onderhandelbaar voor het volgende ongemakkelijke telefoontje: je wil de vraag "welke versie van de standaard heeft de bot gelezen op de dag van de meeting" binnen seconden kunnen beantwoorden.
Eén ontsnappingsklep
Associates mogen het met de bot oneens zijn, het wordt zelfs verwacht. De interface heeft een knop "ik wijk hier af" die hun redenering vastlegt en die terugkoppelt naar de review-queue van de standaard. Het document van drieëntachtig clausules is niet bevroren. Het is een levend stuk dat groeit zodra een echte advocaat tegenwerping levert op wat de bot zei.
De vaakst voorkomende fout die we zien is dat kantoren het inference-pad bouwen voordat ze de canonieke kennislaag opschrijven. Je eindigt met één bot die één consistent antwoord geeft, dat ook consistent fout is. Schrijf eerst het document.
Wat dit het kantoor ongeveer kostte
De eerlijke boekhouding: zes weken senior-associate-tijd om de standaard op te stellen (ongeveer 180 uur, verdeeld over vier praktijkhoofden). Vier weken engineering om het inference-pad en de audit trail neer te zetten. Twee dagen om de elf bestaande tools te migreren, waarvan de eigenaars oprecht in hun nopjes waren dat ze hun privé-API-sleutels konden weggooien en konden stoppen met betalen via hun persoonlijke kaarten.
Wat dit allemaal terugverdient zijn niet de bespaarde engineeringsuren. Het is de volgende keer dat een clausule in een klantmeeting opduikt en drie associates drie interfaces openen en hetzelfde antwoord krijgen. De general counsel vroeg het kantoor niet om met AI te stoppen. Ze vroeg of het kantoor een visie had op hoe het AI gebruikte. De gedeelde laag is wat het kantoor in staat stelt om ja te zeggen.
Het patroon is niet uniek voor advocatuur
Shadow AI ziet er in elke branche waar we binnenwandelden hetzelfde uit: een Rotterdams logistiek bedrijf met zes zelfgebouwde route-planning bots en vier antwoorden, een Lissabons reclamebureau waar iedereen een persoonlijke prompt-bibliotheek had en drie ervan elkaar tegenspraken op tone of voice, een Duitse B2B SaaS waar sales engineers elk hun eigen offerte-assistent hadden gebouwd en er minstens één voorsteltekst lekte naar een gratis tier. De namen veranderen. De vorm niet.
Ben je founder of operations lead en weet je niet zeker of je een huisindustrie hebt, dan is de test twee vragen. Eén: vraag drie willekeurige mensen in je bedrijf dezelfde taak met hun AI-tools uit te voeren en vergelijk de antwoorden. Twee: vraag je finance-team hoeveel AI-abonnementen er op persoonlijke declaraties staan. Geeft vraag één je drie verschillende antwoorden en geeft vraag twee een getal boven de vier, dan ben je al een advocatenkantoor in mei 2026. Je hebt de meeting alleen nog niet gehad.
Wat je vandaag kunt doen
Toen we de gedeelde review-laag bouwden voor het Antwerpse kantoor, was wat ons het meest verraste hoe weinig van het werk engineering was. Het was met vier praktijkhoofden in een kamer zitten en ze laten opschrijven wat ze daadwerkelijk geloofden. Dat is het deel van elke AI-agent-bouw dat bepaalt of de output overeind blijft in een klantmeeting.
Open een leeg document. Noem het "huisstandpunt, v0.1". Schrijf de vijf vragen op die je team het vaakst krijgt, en het antwoord dat je meest senior persoon zou geven. Ga dan op zoek naar de drie privé-tools waarvan je al weet dat ze bestaan, en vraag wie ze bouwde of de tool afgelopen dinsdag datzelfde antwoord zou hebben gegeven. Welk gat er ook opduikt, dat is je startpunt.
Kern
Als drie interne AI-tools het oneens zijn, ligt het niet aan het model. Je kantoor heeft drie ongedocumenteerde meningen en heeft het nu pas door.
FAQ
Wat is "shadow AI" en waarom doet het ertoe in gereguleerde branches?
Shadow AI is niet-goedgekeurde AI-tooling die bottom-up door individuele medewerkers wordt gebouwd, zonder governance, audit of gedeelde kennisbank. In gereguleerd werk betekent het dat antwoorden richting klanten kunnen afdrijven van wat je kantoor daadwerkelijk vindt.
Moeten we persoonlijke AI-tools dan gewoon verbieden in ons bedrijf?
Verboden zonder vervanging duwen het gebruik ondergronds. Het patroon dat wel werkt is privé-tools vervangen door een gedeelde laag die sneller is dan wat mensen privé bouwden, en vervolgens auditen wat je kantoor daadwerkelijk vindt over de terugkerende vragen.
Wat is de minimale versie van een gedeelde interne AI-laag?
Eén canoniek document met je huisstandpunt op de vijf vaakst terugkerende vragen, één gedeeld API-endpoint dat eruit leest, en één audit log. Modellen en interfaces mogen variëren. Het document en de log niet.
Hoe lang duurt het opruimen van interne AI-wildgroei?
Voor een kantoor van ongeveer vijftig mensen: zes weken om het canonieke kennisdocument met de praktijkhoofden op te stellen, vier weken om het gedeelde inference-pad en de audit trail te bouwen, twee dagen om de bestaande privé-tools eroverheen te zetten.