Strategy

AI-agent uitrollen: hou het oordeel van je team scherp

Een collegezaal van Berkeley CS is je operations-team niet. Maar de waarschuwing is dezelfde. Rol een agent verkeerd uit en je scherpste mensen worden bot.

Jacob Molkenboer· Oprichter · A Brand New Company· 9 apr 2024· 6 min

Koperen passer, leren notitieboek, cederen potlood, groen lint, rode lakzegel op ivoorpapier bij raam.

Een dinsdagochtend bij een logistiek bedrijf met twaalf mensen in Rotterdam. De operations-lead zit naast haar nieuwste medewerker en bekijkt twaalf klantmails die een agent 's nachts heeft opgesteld. De lead keurt er acht goed. De nieuwe medewerker zou er twaalf hebben goedgekeurd. Dat verschil is waar het om draait.

Dat verschil is ook waar het verhaal over de Berkeley CS-cijfers van deze week echt over gaat. Het aantal onvoldoendes liep mee met het AI-gebruik. Wiskundigen sloegen eerder dit jaar parallel alarm. Je kunt de methodologie betwisten, maar de onderliggende observatie is lastig te ontwijken. Zodra een tool een acceptabel antwoord oplevert, stoppen mensen met het opbouwen van het oordeel dat acceptabel van juist onderscheidt. Dezelfde vorm zie je terug in de Stanford HAI AI Index: gebruikscurves die ruim voorlopen op de vaardigheidscurves die ze zouden moeten optillen.

Waarom dit een MKB-probleem is, geen collegezaalprobleem

In een Berkeley-vak komen de kosten van een student die op AI leunt twee jaar later boven water, in een baan die hij wel of niet krijgt. Vertraagd en diffuus. In een operations-team van twaalf zie je het binnen drie weken. Een klant vraagt iets wat de agent niet heeft opgepikt. De collega die het had moeten zien, ziet het niet, omdat hij sinds dag negen niet meer goed leest. Nu is de klant geïrriteerd en zit je operations-lead het op zaterdag op te lossen.

Waar je dus voor traint, is niet "hoe gebruik je de agent". Het is hoe je scherper blijft dan de agent op de onderdelen die ertoe doen. De opdracht is klein, en dat is precies de bedoeling.

De uitrol van vier weken die wij in de praktijk draaien

Als wij een agent in een klein team plaatsen, duurt de uitrol vier weken. Niet omdat vier weken magisch is, maar omdat het genoeg is om twee volledige cycli van het werk te zien, plus twee cycli van hoe het team erop reageert.

Week één is read-only. De agent draait op de achtergrond, stelt alles op, verstuurt niets. Het team bekijkt de drafts aan het eind van de dag. Wij verzamelen elke override en lezen ze vrijdag samen door. Het gaat nog niet om de agent. Het gaat erom in beeld te krijgen hoe het oordeel van het team er nu echt uitziet, voordat het stomp wordt. Zo hebben we een ijkpunt om mee te vergelijken.

Week twee is one-eye-on. De agent levert drafts in een staging-queue. Een teamlid keurt elke draft goed of schrijft hem opnieuw voordat hij de deur uit gaat. We meten approval rate, override rate en tijd per item. De getallen zelf zijn minder interessant dan hoe ze zich tussen maandag en vrijdag bewegen. Een vlakke override rate is het waarschuwingssignaal, niet een hoge.

Week drie is gekoppeld. De helft van het team werkt met de agent. De helft werkt zonder. Halverwege de week wisselen we. Doel is om beide modes in het spiergeheugen te houden. Een team dat alleen nog met de agent werkt, verliest het vermogen om zonder te werken, en de dag dat de agent stuk gaat (en dat gebeurt) merk je dat op de harde manier.

Week vier is solo onder toezicht. De agent verstuurt direct. Het team beoordeelt een steekproef. Die steekproef stellen wij bewust samen rond de edge cases waar de agent in week één en twee mee worstelde. De collega die beoordeelt weet welke slice gesampled is, en dat scherpt zijn aandacht.

Wat wij meten om te weten of het oordeel intact is

Een uitrol die er op bespaarde tijd goed uitziet, kan een sluipend verval in het team verbergen. Wij volgen wekelijks een handvol dingen.

Override-diepte, niet alleen override rate. Een team dat één keer per week een ja in een nee verandert en de rest stempelt, vervalt sneller dan een team met een vaste 20% herschrijfratio.
De time-on-task curve. Daalt die elke week, dan kan dat efficiëntie betekenen. Het kan ook betekenen dat het team minder leest. We pakken willekeurig vijf items en vragen de beoordelaar hardop uit te leggen waarom hij beslist zoals hij beslist. Lukt dat niet, dan vertragen we.
Recovery drills. Eén keer per kwartaal gaat de agent een dag uit de lucht. Bewust. Een team dat dan stilvalt, is een team dat te zwaar op de agent leunt.

Dezelfde logica zie je terug in Anthropic's onderzoek naar hoe ze Claude inperken binnen hun producten. Inperking is niet alleen een security-houding. Het is een training-houding. Jij beslist waar de agent zelfstandig mag handelen, en op precies die plek wordt het oordeel van je team óf geoefend óf in de kast gezet.

Kern

Het Berkeley-verhaal is geen argument tegen agents. Het is een argument tegen het uitrollen zonder plan voor wat ze ondertussen eroderen terwijl ze je tijd besparen.

Het signaal dat in het Uber-getal zit

Een ander verhaal uit dezelfde week is een blik waard. Uber zou de interne AI-uitgaven per engineer hebben gemaximeerd op zo'n $1.500 per maand, en het werd vooral gelezen als een marktsignaal voor de prijsstelling van AI-tools. Er zit een tweede signaal in dat voor MKB-leiders meer betekent. Uber is groot genoeg om een streep te zetten waar de marginale AI-dollar geen marginaal oordeel meer oplevert. De meeste MKB's stellen die vraag nog niet. Die zitten nog in de "meer agent, beter"-fase.

Bij twaalf mensen is de echte limiet niet het budget. Het is het aantal oordeel-uren dat je team beschikbaar heeft om het werk dat de agent levert te overzien. Als je agent vierhonderd e-mails per dag verwerkt en je team zes oordeel-uren heeft om daarover te verdelen, draai je een loterij, geen workflow.

De wekelijkse review die je aan het team overdraagt

Dit is de structuur die we achterlaten zodat teams hem zelf kunnen draaien als wij van het project af zijn. Veertig minuten op een vrijdag. Trek tien willekeurige stuks uit de agent-output van die week. Voor elk stuk vertelt de collega die het verstuurd zou hebben hardop wat hij had aangepast en waarom. Schrijf de antwoorden in een gedeeld document. Eén keer per maand lees je dat document van begin tot eind en zoek je patronen van "dat had ik niet opgemerkt". Dat zijn je trainingsonderwerpen voor de maand erna. Eén keer per kwartaal draai je de recovery drill. Agent een dag uit. Kijk wat er stuk gaat.

Meer is het niet. Geen dashboard, geen Notion-template, geen consultant. Een team dat dit een kwartaal lang draait, weet meer over zijn eigen oordeel dan de meeste bedrijven die vandaag met agents werken.

De kleinste stap die je deze week kunt zetten

Heb je al een agent draaien en een team van minder dan dertig, doe dit dan vrijdag. Pak de agent-output van de afgelopen week. Kies er tien willekeurig uit. Ga zitten met de collega die elk stuk verstuurd zou hebben en vraag wat hij had aangepast. Schrijf de antwoorden op. Lees ze maandag terug. Dat ene uur is de goedkoopste trainingsdata die je dit kwartaal verzamelt en het eerlijkste signaal dat je hebt over de vraag of de agent je team scherper maakt of botter.

Toen wij eerder dit jaar de AI-agents voor inboxtriage bouwden voor een Nederlands logistiek MKB, liepen we precies hier tegenaan. De override rate van het team vlakte af in week drie en we hadden de uitrol bijna afgerond. De tien-item-audit op vrijdag bracht het verval boven water voordat het een klant raakte. Die veertig minuten per week zijn het deel van het werk dat wij nu weigeren over te slaan.

Kern

Het Berkeley-cijferverhaal is geen argument tegen agents. Het is een argument tegen het uitrollen zonder plan voor wat ze ondertussen eroderen terwijl ze je tijd besparen.

FAQ

Hoe weet je of een agent het oordeel van je team aan het uithollen is?

Let op override-diepte, niet alleen op override rate. Volg de time-on-task curve. Draai één keer per kwartaal een geplande agent-uitval. Een vlakke override rate die drie weken stand houdt, is het waarschuwingssignaal.

Hoe lang moet agent-onboarding duren voor een klein team?

Vier weken. Week één read-only, de agent stelt alleen op. Week twee one-eye-on, met approval in staging. Week drie gekoppeld: de helft van het team met de agent, de andere helft zonder. Week vier solo onder toezicht, met bewuste sampling van edge cases.

Wat is de kleinste gewoonte die het oordeel van het team beschermt?

Pak op vrijdag tien willekeurige agent-outputs. Ga zitten met de collega die elk stuk verstuurd zou hebben. Vraag wat hij had aangepast. Lees de antwoorden op maandag terug. Veertig minuten per week, geen tools nodig.

ai agentsstrategyoperationsworkflowprocess automation

Iets bouwen?

Start een project