AI agents
Contract-review agents: wat de Stanford-uitkomst miste
Stanford meldt dat een language model hoger scoort dan hoogleraren rechten op juridische analyse. Loop een MKB-kantoor binnen na negenen en de echte bottleneck zit ergens heel anders.

Het is 21:40 op een dinsdag in een kantoor met vier partners boven een boekwinkel aan de Oudegracht. De jongste advocaat-stagiair heeft achttien NDA's voor zich liggen, allemaal varianten van hetzelfde template van één Amerikaanse tegenpartij, en ze loopt elk contract met het blote oog na tegen de huisregels van het kantoor. De senior partner ging om zes uur weg. De Stanford RegLab-uitkomst die deze week de voorpagina van Hacker News haalde, zegt dat een frontier model nu hoger scoort dan hoogleraren rechten op juridische analyse. Zij heeft het niet gelezen. Ze zit op NDA zeven.
Contract-review agents draaien stilletjes op servers bij een klein maar groeiend aantal middelgrote advocatenkantoren in Nederland en België. Toen de Stanford-uitkomst woensdagochtend binnenkwam, ging het gesprek binnen die kantoren niet over 'hebben we nog wel advocaten nodig'. Het ging over: doet dit ding nu de saaie acht tienden van ons weekwerk, of staan we nog steeds waar we vorig kwartaal stonden?
Wat de Stanford-studie eigenlijk mat
De kop die de wereld rondging was 'AI verslaat hoogleraren rechten'. Wat er gemeten werd, is een set juridische analyse-prompts, beoordeeld door andere experts. Het is een test van redeneren op netjes geformuleerde vragen, geen test van werken binnen een kantoor. Dat onderscheid telt, omdat de meeste waarde die een klein advocatenkantoor uit agents kan halen, buiten die benchmark valt.
Een aparte studie van dezelfde Stanford-groep vorig jaar testte commerciële juridische AI-tools op vragen zoals advocaten ze stellen, en vond hallucinaties bij ongeveer één op de zes. Hetzelfde lab. Twee verschillende invalshoeken. Allebei serieus te nemen, geen van beide is een vrijbrief.
Het werk dat een MKB-kantoor op een dinsdag doet
Loop om 09:30 door het kantoor en noteer elke taak die een contract raakt. Bij de kantoren die we van dichtbij hebben gezien, ziet de lijst er zo uit:
- Een binnenkomende NDA lezen, vergelijken met het huis-template, de verschillen markeren.
- Controleren of het aansprakelijkheidsplafond overeenkomt met wat de partner vorige week vrijdag per mail afsprak.
- Alle arbeidsovereenkomsten uit 2024 ophalen die een concurrentiebeding bevatten, en de exemplaren markeren die langer lopen dan twaalf maanden.
- Artikel 14.3 van een Nederlands SaaS-contract vertalen voor een Duitse dochter.
- Bevestigen dat het rechtskeuze-artikel in dit concept het Nederlandse is dat de partner wilde, niet het Engelse dat de tegenpartij erin probeerde te duwen.
Geen van die taken vraagt om het redeneerwerk van een hoogleraar. Wat ze wél vragen, is snel, zorgvuldig, controleerbaar vergelijkingswerk. Een systeem dat het huis-template kent en kan uitleggen welke regel is veranderd en waarom.
Waar contract-review agents hun geld waard zijn
De agents die het contact met een werkend kantoor overleven, proberen geen junior partner te zijn. Ze doen drie dingen goed.
Eén: redline-triage. De agent leest een binnenkomend contract, zoekt de bijbehorende huis-clausules op, en levert één document met een gekleurde diff en een korte notitie naast elke wijziging die uitlegt wat er verschoof en welke kant het risico op ging. Een senior associate leest vervolgens dertig pagina's notities in plaats van tweehonderd pagina's contract.
Twee: portfolio-search. Het kantoor heeft vijftien jaar aan overeenkomsten op een SharePoint die niemand kan doorzoeken. Een retrieval pipeline die clausule-grenzen respecteert (in plaats van naïef te chunken op vaste token-aantallen) laat een associate vragen 'elke dienstverleningsovereenkomst met een aansprakelijkheidsplafond onder €500k sinds 2022', en in zeven seconden ligt er een lijst.
Drie: intake-routing. Een nieuwe mail van een cliënt, met een PDF eraan. De agent classificeert het bericht, haalt de partijen en de datums eruit, opent een dossier in het zaakbeheerssysteem en zet de ontvangstbevestiging klaar. Niemand typt een onderwerpregel.
De Stanford-benchmark meet redeneren. De uren die een klein kantoor terug wil, zitten in vergelijken, zoeken en routeren. Bouw voor die tweede lijst en de eerste doet er niet meer toe.
Waar de agent nooit komt
Drie soorten werk waar elk kantoor met een draaiende contract-review agent dat we hebben bekeken een harde grens trekt: het opstellen van nieuwe clausules, advies over procesvoeringsstrategie, en alles wat naar een rechter of toezichthouder gaat zonder dat de naam van een partner eronder staat. De agent stelt voor; een mens tekent. Nergens in een verstandig product zit een auto-approve-knop.
De Stanford-uitkomst verandert die grens niet. Een hogere benchmark-score verlaagt de beroepsaansprakelijkheidsvraag niet, en de Nederlandse Verordening op de advocatuur eist nog steeds dat een advocaat verantwoordelijk is voor het advies. De agent is een snelle paralegal die nooit slaapt. Hij is niet de advocaat.
De bottleneck bij kleine kantoren
Magic Circle-kantoren kunnen een research-team betalen dat elke nieuwe modelrelease evalueert. Een kantoor met zes partners in Eindhoven kan dat niet. Wat zo'n kantoor wél kan, met een gerichte agent op een schone workflow, is de acht uur per week terugkopen die de jongste twee stagiairs nu kwijt zijn aan NDA-vergelijking en clausules zoeken. Dat is geen 'tien keer sneller'-verhaal. Het is grofweg het verschil tussen op dinsdag doorwerken tot tien uur en om zes uur naar huis gaan.
De Stanford-uitkomst is interessant omdat hij wijst op een plafond dat blijft stijgen. Het werk binnen deze kantoren is interessant omdat de vloer (de saaie, herhaalbare, vergelijkings-zware uren) vandaag al aanpakbaar is, met de modellen die vorig jaar al uitkwamen, mits je de workflow er zorgvuldig omheen bouwt.
Een kleine audit voor maandagochtend
Toen we vorig jaar de contract-review pipeline bouwden voor een Nederlands kantoor met meerdere vestigingen, stonden de huis-templates in drie Word-versies verspreid over twee SharePoints en wist niemand welke de canonieke was. We hebben dat opgelost met een eenmalig consolidatie-script en een wekelijks diff-rapport, voordat er één AI-agent bij een document in de buurt kwam.
Open een leeg document. Vraag een week lang elke fee-earner in het kantoor om de contract-taken te loggen die hij of zij als vergelijken zou omschrijven, niet als oordelen. Tel de uren aan het eind van de week op. Komt het getal boven de tien, dan verdient een agent zichzelf terug vóór het kwartaal om is. Zit het onder de drie, koop dan niets.
Kern
De Stanford-benchmark meet juridisch redeneren onder lab-condities. Het werk dat zich bij MKB-kantoren terugverdient, is snel en controleerbaar vergelijkingswerk.
FAQ
Betekent de Stanford-uitkomst dat AI advocaten kan vervangen?
Nee. De studie mat geïsoleerde redeneer-taken, niet de gereguleerde beroepsuitoefening. Advocaten blijven verantwoordelijk voor het advies. Agents pakken het vergelijkings- en zoekwerk eromheen op.
Wat doet een contract-review agent dagelijks in de praktijk?
Redline-triage op binnenkomende contracten tegen jouw huis-templates, snelle retrieval over het historische archief, en intake-routing voor nieuwe cliëntmail. Het opstellen van nieuwe clausules blijft bij mensen liggen.
Hoe lang duurt de inrichting bij een typisch MKB-kantoor?
Twee tot zes weken. Het meeste daarvan zit in het consolideren van de huis-templates en het indexeren van het historische archief. De agent zelf is het laatste stuk van het traject, niet het eerste.
En hallucinaties op juridische vragen?
Reëel risico. We laten de agent alleen retrieval doen over de eigen documenten van het kantoor en dwingen elke suggestie om een bron-clausule te citeren. De mens die tekent, controleert het werk voordat het de deur uitgaat.