AI agents

AI-agent guardrails: vier regels die je juniors beschermen

Berkeley-cijfers informatica zakken nu studenten huiswerk uitbesteden aan AI. Dezelfde dynamiek leeft in elk ops-team. Vier guardrails houden je juniors scherp.

Jacob Molkenboer· Oprichter · A Brand New Company· 5 jun 2026· 6 min

Houten telefooncentrale met messing hendels en één groen patchsnoer op ivoorpapier, diepe schaduwen, lege rechterkant.

Een ops-analist van 22 begint in maart bij je team. In juni heeft ze 1.800 klanttickets afgehandeld, allemaal eerst gedraft door een AI-agent. Zo'n 92% keurt ze goed met één klik. Vraag haar dezelfde mail te schrijven zonder de agent erbij en ze loopt vast. Niet omdat ze slordig is. Omdat ze die spier nooit heeft opgebouwd.

Dat is het Berkeley-probleem, vertaald naar een backoffice.

Docenten informatica aan UC Berkeley melden dat het aantal onvoldoendes stijgt in vakken die jarenlang stabiele cijferverdelingen hadden, samen met een zichtbare achteruitgang in basale rekenvaardigheden. Het patroon sluit aan bij bredere bevindingen over het effect van AI op de skill-ontwikkeling van beginners, die de Stanford HAI AI Index de afgelopen twee jaar bijhoudt.

Een ops-team van 30 mensen loopt tegen dezelfde dynamiek aan in jaar twee van elke agent-uitrol. Senioren gebruiken de agent als versterker. Junioren gebruiken hem als vervanging voor wat ze hadden moeten leren. Het werk komt nog steeds af. De bench sterft stilletjes uit.

We hebben dit jaar veertien agents naar productie gebracht en die drift van dichtbij zien gebeuren. Hieronder de vier guardrails die we nu in elke agent inbouwen voordat een junior aan de queue komt. Geen van alle vertraagt de agent merkbaar. Allemaal houden ze de mensen eromheen scherper.

Toon de redenering, niet alleen de output

De standaard agent-UI is een draft en een Goedkeuren-knop. Dat is de slechtst denkbare vorm voor iemand die leert. Er valt niets te lezen, niets om het mee oneens te zijn, niets om je eigen te maken.

Onze agents zetten een klein blok boven elke draft. Drie regels. Waarom hij het account van deze klant koos, welke regel afging, wat hij overwoog en afkeurde. In de queue-UI ziet dat er zo uit:

{
  "rationale": "Customer is on Pro plan, churned 14d ago, last ticket was a billing dispute (resolved).",
  "rule_fired": "win_back_template_v3",
  "rejected": ["generic_apology", "discount_offer_20pct"],
  "confidence": 0.71
}

Een senior werpt een blik en gaat door. In de view van een junior wordt de rationale verplicht uitgeklapt voordat de Goedkeuren-knop actief wordt. Die ene vertraging (zo'n 800ms gedwongen aandacht) maakt van goedkeuring een controle in plaats van een klik.

Forceer een confidence-drempel die escaleert

Elke agent die we opleveren hangt een getal tussen 0 en 1 aan zijn beslissingen. Onder de 0,6 schrijft hij helemaal geen draft. Hij schrijft een samenvatting van één regel over wat hij zag en routeert door naar een menselijke queue, met het originele artefact eraan vast.

Klinkt vanzelfsprekend. Het is niet wat de meeste off-the-shelf agents doen. De meeste schrijven bij elke input zelfverzekerd een draft, omdat het onderliggende model vloeiende output produceert ongeacht of het er iets nuttigs over te zeggen heeft. Vloeiendheid verbergt twijfel.

De ondergrens op 0,6 zetten heeft een tweede effect waar we niet op rekenden. De geweigerde cases zijn de enige items waar junioren vanaf nul mee aan de slag moeten. In die overdrachten zit het echte leren. We meten elke twee weken het gat tussen agent-confidence en senior-oordeel, en uit dat gat komt de volgende trainingssessie.

Kernpunt

De cases die je agent weigert aan te raken vormen het curriculum voor je junior medewerkers. Bouw die weigering bewust in.

Log afwijkende keuzes als eersteklas data

Elke approval-queue die we bouwen heeft twee knoppen. Goedkeuren en Override. Override is geen "afwijzen en herschrijven". Het is een gestructureerd formulier: wat de agent voorstelde, wat de mens in plaats daarvan deed, waarom in één zin.

Klinkt als bureaucratie. In de praktijk kost het zo'n 12 seconden en levert het de waardevolste trainingscorpus op die je team ooit zal bezitten. Na drie maanden kun je vragen beantwoorden als "waar blijft de agent fout zitten bij Poolse klanten" of "welke template overrulet onze meest ervaren collega 40% van de tijd, en waardoor vervangt ze die". Dat signaal krijg je niet uit goedkeuringspercentages alleen.

Het tweede-orde-effect is wat hier telt. Een junior die een agent overrulet zet expliciet haar eigen oordeel in plaats van mee te buigen. Het formulier is met opzet kort. Het invullen zelf is het leren.

Anthropic heeft nuttige notities gepubliceerd over hoe ze hun eigen modellen begrenzen in al hun producten. De vorm rijmt: log het gedrag van het model, log de correctie van de mens, behandel de delta als het belangrijkste signaal in het systeem. Hun responsible scaling policy is elk kwartaal een leesbeurt waard als je agents op enige schaal draait.

Oefendagen zonder agent

Deze vindt niemand leuk. Eén dag per kwartaal staat de agent uit. De queue draait met de hand. Nieuw werk, echte klanten, geen draft.

Het kost throughput. Weten we. Het argument ervoor is simpel. De vaardigheid om een klantreactie vanaf nul te schrijven, of een factuur te reconciliëren zonder hulp, is bederfelijk. Gebruik je hem negen maanden niet, dan is hij weg, en je merkt het pas als de agent een middag plat ligt en je team bevriest.

We plannen de oefendagen op de eerste woensdag van elk kwartaal. Klanten horen niets (reactietijden blijven binnen SLA omdat we maximaal één oefendag aanhouden). Senioren werken in duo's met junioren. De junioren doen het werk. Halve dag debrief aan het eind. De agent gaat de volgende ochtend weer aan.

De eerste keer gaat altijd trager dan mensen verwachten. Bij de derde keer is het team sneller dan ze hadden voorspeld, en daalt de override-ratio van de agent in de maand erna met ongeveer 8 tot 12 procentpunten (onze meting, drie klanten, n=3, geen onderzoek). De vaardigheid zat er nog. Hij had alleen een aanleiding nodig om weer boven te komen.

Let op

Oefendagen werken alleen als senioren niet stiekem de agent onder hun bureau heropenen. Sluit de API-toegang voor die dag af bij de gateway, niet in de UI.

De kleinste versie

Heb je vandaag één agent in productie draaien en heb je hier nog niets van gedaan, doe dan dit eerst: zet het rationale-blok aan en eis dat de junior-queue het uitklapt vóór goedkeuring. Een halve dag werk, en binnen twee weken verandert het hoe je team de agent gebruikt.

Toen we vorig jaar de AI-agent voor klantreacties bouwden voor een Rotterdamse logistieke klant, was het override-formulier het patroon dat hen het meest opleverde. Na drie maanden hadden ze een scherper beeld van waar het oordeel van hun ervaren collega het model versloeg dan welke andere feature ze ook maten. Die data ging vervolgens terug in de training van de agent en in het inwerken van hun volgende twee aanwervingen.

Open een van je live agents. Zoek de goedkeuren-knop. Vraag jezelf af of de persoon die erop klikt het antwoord ook zonder de draft op het scherm zou kunnen opbouwen. Is het antwoord nee, dan zit er een Berkeley-probleem in de wachtkamer.

Kern

De cases die je agent weigert af te handelen vormen het curriculum voor je junior medewerkers. Bouw die weigering met opzet in.

FAQ

Vertraagt het rationale-blok onze senioren niet?

Ja, ongeveer een seconde per item. Senioren kunnen het standaard inklappen. De vergrendelde uitklap is alleen voor junioren, die de gedwongen leesbeurt nodig hebben terwijl ze het werk nog leren.

Wat als onze agent-leverancier geen confidence-scores beschikbaar stelt?

De meeste doen dat wel, onder een andere naam (logprobs, score, certainty). Doet de jouwe het echt niet, scoor de input dan tegen een eigen klein regellaagje en gate van daaruit.

Hoe weten we dat de guardrails werken?

Houd de override-ratio per dienstjaar bij. Als junioren na zes maanden op dezelfde casemix de helft zo vaak overrulen als senioren, leert de agent ze meebuigen, geen oordeel. Hercalibreren.

Eén oefendag per kwartaal voelt als veel. Kan het minder?

Probeer dan een halve dag per maand. Het doel is de ongesteunde spier in het werkgeheugen houden, geen heldhaftig aantal halen. Welke frequentie je ook kiest, houd 'm vol.

ai agentsautomationoperationsworkflowbusinessstrategy

Iets bouwen?

Start een project