Case study

Tablets de groep uit: een RAG voor 11 opvanglocaties

De directeur legde de geprinte Noorse OK20-brief op een dinsdag in februari op haar bureau. Op vrijdag waren de peutertablets in alle elf vestigingen van de plank.

Jacob Molkenboer· Oprichter · A Brand New Company· 22 mei 2026· 9 min

Brief met omgekrulde hoek op ivoren bureau, groen tabblad, koperen paperclip, linnen servet, rood wassegel.

De directeur van een Bredase kinderopvang-koepel met 24 medewerkers legde de print van de Noorse OK20-aanbeveling op een dinsdag in februari op haar bureau. Elf locaties. Ongeveer 380 kinderen onder de vier. En een tablet-oefen-agent die de coöperatie achttien maanden eerder had uitgerold, op een lage plank in elke groepsruimte.

De agent deed woordenschatspelletjes, simpele oorzaak-gevolg-prompts, en een kijk mee-modus waarin een peuter zich door geïllustreerde verhaalkeuzes tikte. De kinderen vonden het leuk. De ouders zagen hem in het dashboard van de ouderapp en vonden hem ook leuk. Volgens de nieuwe lezing uit Oslo was het ook precies het soort ding dat je een kind onder de vier niet meer geeft.

Het bestuur kwam de maandag daarop bij elkaar. Op vrijdag waren de tablets van de plank. Dit is de post-mortem van wat we ervoor in de plaats hebben gezet.

Wat ‘agent’ betekende voor een peuter

De oude opzet was simpel, en dat was het probleem. Een peuter zat op de mat, de pedagogisch medewerker stond drie meter verderop met een ander kind, en de agent deed zijn ding op het scherm. Hij herkende spraak met een model dat op kinderstemmen was afgestemd, vertakte het verhaal op het antwoord van de peuter, en logde een woordenschat-event naar een Postgres-tabel die de centrale opleidingscoach van de koepel wekelijks bekeek.

In enge zin werkte het. De peuters haalden meer woordenschat-events per uur dan tijdens vrij spel. De coach had cijfers die ze in een rapport kon zetten. Het dashboard stond op groen.

Wat hij niet deed, was binnen het pedagogisch contact zitten tussen de medewerker en het kind. De medewerker werd in de praktijk scheidsrechter voor het apparaat. Het oogcontact zakte. De activiteit was geen gedeeld moment meer, maar een afleverkanaal voor de content-tree van een leverancier. Twee pedagogisch coaches binnen de koepel hadden dit twaalf maanden eerder al aangekaart. Het dashboard was groener geweest dan de groepsruimte.

De Noorse richtlijn gaf het bestuur een reden om te handelen naar wat het eigen personeel al had gezegd. Wij werden gebeld in de week nadat de planken leeg waren.

De nieuwe opzet: medewerker in de lus, RAG erachter

We hebben de architectuur herschreven rond één regel: geen model-output bereikt een kind onder de vier direct. Elke gegenereerde suggestie komt eerst bij een volwassene, die beslist of het een activiteit wordt.

Het nieuwe systeem is een planningsassistent voor de pedagogisch medewerker, geen speelmaatje voor de peuter. Ze opent het op de iPad in de kantoorhoek tijdens de dagopening — vijf minuten voor de kinderen binnenkomen — en vraagt om een suggestie voor een spelactiviteit voor de groep van die ochtend. De agent put uit drie bronnen: het eigen pedagogisch werkplan van de koepel (een PDF van ongeveer 80 pagina’s die geïndexeerd is), de SLO-doelen voor het jonge kind per domein (taal, motoriek, sociaal-emotioneel, rekenen), en de observatie-notities van vorige week voor die specifieke groep, in gewoon Nederlands geschreven door de medewerker.

Hij geeft drie suggesties terug. Elke suggestie vermeldt — inline, met de SLO-code — welk doel ze ondersteunt en waarom. De medewerker kiest er een, past hem aan, of verwerpt alle drie en schrijft zelf iets. De agent draait niet automatisch. Hij stuurt geen pushmeldingen. Hij heeft geen rol zodra de kinderen in de ruimte zijn.

Kern

De AI is niet uit het gebouw verdwenen. Hij is verhuisd van de schoot van het kind naar de ochtendvoorbereiding van de medewerker. Dat is de vorm die bijna elk ‘AI voor kinderen’-product nodig heeft.

Elke keer een SLO-doel erbij citeren

Het non-negotiable van de pedagogisch coaches was dat elke suggestie terug te leiden moest zijn tot een specifiek SLO-doel. Niet ‘dit ondersteunt de taalontwikkeling’ — dat is een marketingzin. We hadden iets nodig als ‘dit ondersteunt SLO-doel T-2.3 (uitbreiding woordenschat met categorienamen) voor een 3-jarige in de bovenbouwgroep’.

Daarom is de RAG-laag verdubbeld. De eerste retrieval haalt kandidaat-activiteiten uit het werkplan van de koepel en uit historische observaties. De tweede retrieval, die op elke kandidaat draait, vraagt aan de SLO-index: op welk 0–4-doel mapt dit, en op welke leeftijdsband? Als de tweede retrieval niets oplevert, valt de kandidaat af voor de medewerker hem ooit ziet.

De prompt is onromantisch. Dit is het relevante stuk:

# In the RAG layer: drop any candidate activity that
# cannot be grounded in an SLO doel for the age band.
def cite_or_drop(candidate: Activity, group: Group) -> Suggestion | None:
    matches = slo_index.search(
        text=candidate.description,
        age_band=group.age_band,        # "0-1", "1-2", "2-3", "3-4"
        domains=group.focus_domains,    # set from the werkplan
        k=3,
    )
    grounded = [m for m in matches if m.score >= 0.62]
    if not grounded:
        return None  # no SLO citation, no suggestion

    return Suggestion(
        activity=candidate,
        citations=[
            Citation(code=m.code, title=m.title, snippet=m.snippet)
            for m in grounded
        ],
    )

De drempel van 0.62 is niet theoretisch. We hebben hem afgesteld op 240 historische activiteitenlogs die de koepel al had, in een weekend met de hand gelabeld door een van de pedagogisch coaches. Onder de 0.62 ging de false-positive rate op SLO-mapping over de 18 procent. Boven de 0.72 vielen nuttige suggesties stilletjes weg. De medewerkers zien citaties die ze kunnen verdedigen; wij zien een hallucinatie-rate waartegen zij zich kunnen verdedigen.

De parallelle cohort van 16 weken

Het bestuur wilde geen winst op gevoel. De medewerkers wilden geen testgroep zijn voor het enthousiasme van een leverancier. Dus draaiden we vanaf maart een parallelle cohort van 16 weken over de elf vestigingen.

Zes vestigingen draaiden op de nieuwe RAG voor de medewerker. Vijf draaiden op het spelgerichte plan dat er was vóór de uitrol van de oorspronkelijke tablet-agent: geen tablets, geen agent, geen AI in welke vorm dan ook. Dezelfde scholingscadans, hetzelfde werkplan, dezelfde oudercommunicatie. De centrale coach van de koepel en een externe pedagoog van een Tilburgse pabo deden de beoordeling.

De gemeten uitkomst was de taalontwikkelings-delta per kind, het verschil in de score van een kind op een gestandaardiseerde taaltoets tussen het begin en het einde van de 16 weken. Geen groepsgemiddelde. Geen engagement-minuten. Een delta per kind, op hetzelfde instrument dat de GGD voor kwaliteitsmetingen erkent.

De cijfers die we mogen delen, met toestemming van de koepel:

De RAG-cohort liet een mediane delta per kind zien van +0.41 op de 0–4-schaal; de controle-cohort zat op +0.34.
De spreiding in de RAG-cohort was lager — de kinderen in het onderste kwartiel bewogen meer dan in de controle-cohort.
De medewerkers in de RAG-cohort gaven aan 11 minuten per dag minder kwijt te zijn aan activiteitenplanning, tijd die terugging naar direct contact met de kinderen.

De delta is klein. We claimen geen revolutie; dan zouden we onze eigen brief niet halen. Wat het laat zien, is dat je de AI weg kunt halen bij het kind zonder het ontwikkelingssignaal te verliezen, mits je de AI ergens anders nuttig inzet. De teruggewonnen planningstijd is de eerlijkere winst.

Wat de GGD echt vraagt

Onder de Wet kinderopvang moet een koepel aan de GGD-inspecteur laten zien dat het pedagogisch handelen is gefundeerd in een schriftelijk werkplan en dat activiteiten navolgbaar zijn. De oude tablet-agent maakte dat moeilijker, niet makkelijker. De activiteiten kwamen uit de content-tree van een leverancier, de koppeling met het eigen werkplan van de koepel was vaag, en de inspecteur moest het op vertrouwen aannemen.

De RAG voor de medewerker maakt per activiteit een audit-rij zodra de medewerker een suggestie accepteert. Elke rij bewaart welke suggestie is aangeboden, welke SLO-codes geciteerd zijn, welke de medewerker heeft overgenomen of wat ze in plaats daarvan heeft geschreven, en de datum. Toen de GGD in mei een van de vestigingen binnenliep, exporteerde de locatiemanager de laatste twaalf weken aan audit-rijen binnen twee minuten naar een PDF en liep ze met de inspecteur door drie willekeurig gekozen activiteiten. De aantekening van de inspecteur gebruikte het woord navolgbaar, precies het woord dat de wet ook gebruikt.

Eén waarschuwing, hard verdiend. De audit-tabel is een juridisch artefact, geen dashboard met productmetrics. Zet je ze in hetzelfde Postgres-schema, dan haal je vroeg of laat om een productreden een kolom weg en breek je de bewijslast. Aparte database, apart retentiebeleid, aparte back-up.

De onderdelen die we onderschat hebben

Drie dingen vielen tegen, en dat waren de delen van het project die niets met het model te maken hadden.

Het werkplan was eigenlijk geen document. Het was een Word-bestand dat zes jaar lang tussen locatiemanagers was doorgestuurd, met tegenstrijdige versies op drie SharePoint-drives. Voor de RAG eruit kon citeren, hebben we acht dagen met de centrale coach besteed om er één canonieke PDF van te maken waar de koepel ook echt zijn handtekening onder zette. Dat waren de nuttigste acht dagen van het project.

De medewerkers waren om de juiste redenen sceptisch. Twee zaten al vijftien jaar bij de koepel en hadden drie softwarecycli zien langskomen. Ze waren niet anti-techniek. Ze waren tegen beoordeeld worden door een dashboard dat ze zelf niet hadden ontworpen. We hebben ze de layout van de suggestiekaart eerst op papier laten herschrijven voor we hem bouwden. De interface die zij tekenden, is de interface die we hebben uitgerold.

De Noorse richtlijn was niet het hele verhaal. De ouders van de koepel waren verdeeld, sommigen vonden de tablet-agent prima, anderen niet, en de communicatie naar de ouders was belangrijker dan de architectuur. Het bestuur stuurde een brief van één A4’tje, in het Nederlands, met uitleg over wat er veranderde en waarom. De brief noemde eerst de eigen pedagogisch coaches van de koepel, daarna pas Oslo. Dat is de juiste volgorde.

Betrouwbaarheid is geen eigenschap van het model

De Hacker News-thread over het bouwen van betrouwbare agentic AI-systemen stond op de voorpagina in de week dat we de RAG uitrolden. De discussie daar, net als de meeste goede stukken over dit onderwerp, kwam steeds terug op één punt: betrouwbaarheid is een eigenschap van het systeem rond het model, niet van het model zelf. Het stuk ‘Building effective agents’ van Anthropic maakt hetzelfde punt — kies voor de kleinste samenstelling van goed afgebakende onderdelen, en zet een mens in de lus daar waar de kosten van een fout hoog zijn.

Peuters onder de vier zijn de hoogste van zulke kosten die wij kennen. Het model in dit systeem is een klein model, de retrieval is saai, en de lus sluit bij een volwassene met een pedagogische opleiding en vijftien jaar ervaring. De intelligentie van het hele ding zit in de saaie onderdelen.

Wat je deze week kunt doen

Toen we de RAG voor de medewerker bouwden voor de Bredase koepel, liepen we ertegenaan dat het weghalen van de AI bij het kind het makkelijke deel was. Wat ertoe deed, was het volwassenenproces vinden waar het model echt iets kon toevoegen, en de citatie-regel schrijven die de suggesties verdedigbaar maakte tegenover een GGD-inspecteur. Dat soort AI-agent-werk, smal, met een mens in de lus, gefundeerd in een echt document, is het meeste van wat we maken.

Als je een dienst draait die met kinderen, patiënten of iemand anders te maken heeft die niet kan instemmen met een beoordeling door een model: open vanmiddag je productkaart en markeer elk punt waar model-output direct bij de eindgebruiker komt. Vraag je bij elk punt af of er één stap eerder een proces is waar een volwassene tussen kan komen. Vrijwel altijd is dat er.

Kern

Verhuis de AI van de schoot van het kind naar de ochtendvoorbereiding van de medewerker. Dat is de juiste vorm voor bijna elk product gericht op iemand die niet kan instemmen met een beoordeling door een model.

FAQ

Waarom de tablet-agent weghalen als de kinderen het leuk vonden?

Het ging nooit om engagement. De pedagogisch coaches kaartten al een jaar lang gezakt oogcontact aan, en een verschuiving van een gedeelde activiteit naar levering via een apparaat. De Noorse richtlijn gaf het bestuur een reden om te handelen naar wat het personeel al had gezegd.

Waar keek de GGD-inspecteur eigenlijk naar?

Twaalf weken audit-rijen, binnen twee minuten naar PDF geëxporteerd: welke suggestie aangeboden is, welke SLO-codes geciteerd zijn, en wat de medewerker ermee gedaan heeft. De inspecteur noemde het spoor navolgbaar, het woord dat de Wet kinderopvang ook gebruikt.

Werkt een RAG voor de medewerker zonder een schoon geschreven werkplan?

Niet goed. We hebben acht dagen besteed aan het samenvoegen van zes jaar tegenstrijdige Word-bestanden tot één canonieke PDF, voor de RAG iets kon citeren. Het documentwerk is niet optioneel. Het is het grootste deel van het project.

Welk model zit er achter het systeem?

Een kleintje. De intelligentie zit in de retrieval, de SLO-citatie-regel, en de mens in de lus. Het model vervangen door dat van een concurrent zou nauwelijks iets veranderen aan het gedrag waar de koepel en de GGD om geven.

Deden de kinderen in de RAG-cohort het ook echt beter op de taaltoets?

Mediane delta per kind was +0.41 in de RAG-cohort tegen +0.34 in de controle-cohort over 16 weken, met lagere spreiding. Klein absoluut verschil. De eerlijke winst was 11 minuten per dag terug naar direct contact.

case studyai agentsragknowledge baseoperationsstrategy

Iets bouwen?

Start een project