Strategy
On-premise AI: waarom Nederlandse advocaten OpenAI mijden
Een Nederlandse advocaat kan geen cliëntdossier naar ChatGPT uploaden. AVG, NOvA-regels en Schrems II zorgen daarvoor. Hier is de on-prem stack die wij wel uitrollen, en wat die echt kost.

De partner van een Amsterdams kantoor met 40 advocaten opende op een dinsdagochtend het privacybeleid van OpenAI. Hij las het data-processing addendum twee keer, scrolde naar de sub-processor lijst en sloot het tabblad. De volgende mail die hij stuurde was naar ons: "Kunnen we iets lokaal draaien? Zelfde idee, onze hardware, geen Amerikaanse backend."
Dat gesprek hebben we het afgelopen jaar vijf keer gevoerd. De kantoren verschillen in grootte, de praktijkgebieden verschillen, maar het antwoord op "waarom niet gewoon ChatGPT Enterprise" heeft altijd dezelfde vorm. Het is geen paranoia. Het zijn de AVG, de NOvA-regels en Schrems II die hun werk doen.
De beperking, in gewone taal
Een Nederlandse advocaat die een vertrouwelijke zaak behandelt zit onder drie overlappende verplichtingen. De Algemene Verordening Gegevensbescherming (de Europese GDPR, lokaal geïmplementeerd) beperkt waar persoonsgegevens verwerkt mogen worden. De Nederlandse Orde van Advocaten legt een beroepsgeheim op, de professionele vertrouwelijkheid die elke contractuele disclaimer van een leverancier overleeft. En sinds Schrems II in 2020 vereist het doorgeven van persoonsgegevens aan Amerikaanse verwerkers aanvullende maatregelen, die in de meeste lezingen niet door encryptie tijdens transport alleen vervuld kunnen worden wanneer de verwerker onder FISA 702 valt.
OpenAI verwerkt data in de VS. Anthropic ook. Google ook, wanneer je Vertex in de meeste configuraties gebruikt. De Autoriteit Persoonsgegevens is hier explicieter over geweest dan de meeste nationale toezichthouders: een advocatenkantoor kan geen getuigenverhoor uploaden. Het kan geen contract uploaden dat nog in onderhandeling is. Het kan geen in de VS gehoste assistent gebruiken om een dossier samen te vatten waarin een natuurlijke persoon met naam voorkomt. De impactradius is de hele kernworkflow.
Wat on-premise in 2026 echt betekent
De term doet veel werk. Wij gebruiken hem voor drie concrete uitrolvormen, in aflopende volgorde van hoe vaak we ze leveren.
De eerste is een dedicated EU-instance. Het model draait op een machine in Falkenstein of Helsinki, bij Hetzner of Scaleway. Geen Amerikaanse sub-processor in het request-pad. Data verlaat het kantoor, maar blijft in de EU op hardware die het kantoor huurt. Wij tekenen een DPA. Het kantoor slaapt.
De tweede is een colocated rack. Echt on-prem. Het kantoor heeft al een serverruimte omdat ze een Citrix-farm draaiend hielden door drie IT-directeuren heen. Wij zetten er twee bakken bij met H100's of, vaker, met L40S-kaarten omdat het model in 48GB past en het budget niet oneindig is. Het model draait in het gebouw. Het model belt niet naar huis.
De derde is air-gapped. Geen internet. Een werkstation, een model op lokale SSD, en een chatinterface die op het intranet van het kantoor draait. Dit hebben we twee keer gebouwd. Beide keren voor zaken waarbij staatsveiligheid in het geding was. Dat is een ander product dan de andere twee, en we prijzen het ook zo.
De modelstack
We kiezen geen OpenAI-compatible modellen omdat compatibiliteit met OpenAI het doel is. We kiezen ze omdat vLLM dat protocol spreekt en onze orkestratiecode zich niet hoeft te bekommeren om welke weights geladen zijn. In de praktijk is de shortlist voor Nederlands juridisch werk kort.
Mistral Large 2 staat bovenaan voor elke taak die Nederlandstalig redeneren raakt. Getraind door een Frans bedrijf, gaat goed om met Nederlandse jurisprudentiecitaten zonder zich te verslikken in de afkortingen, en de licentie staat commercieel gebruik toe onder Mistrals voorwaarden. Mistral zit, handig genoeg, ook in de EU.
Llama 3.3 70B is het werkpaard voor Engelstalige samenvattingen en gestructureerde extractie. Open weights, draait op één 8xL40S-bak met acceptabele latency, en de licentie is permissief genoeg voor commerciële inzet onder 700 miljoen MAU.
Qwen 2.5 72B is de outsider. Sterk op long-context taken, zwak op Nederlandse uitdrukkingen, maar we hebben hem ingezet in RAG-pipelines waar de retrieval het zware werk doet en het model alleen maar een goede lezer hoeft te zijn.
Voor embeddings gebruiken we standaard BGE-M3. Leest Nederlands en Engels prima, draait op CPU met acceptabele throughput voor nachtelijke indexeringsjobs, en de licentie is MIT.
# Minimal vLLM serve config we ship for a 70B model on 4xL40S
model: meta-llama/Llama-3.3-70B-Instruct
tensor-parallel-size: 4
max-model-len: 32768
gpu-memory-utilization: 0.92
dtype: bfloat16
served-model-name: firm-llm
port: 8000
Dat is de hele serving-laag. De rest van het werk zit in retrieval, evaluatie, en de saaie onderdelen van een dienst draaiend houden.
De afwegingen die niemand in de keynote noemt
De benchmarks die in de pers verschijnen, testen bijna altijd de frontier-API-modellen. GPT-4o, Claude Opus, Gemini Ultra. Een Nederlands kantoor mag die niet draaien. De relevante vraag is dus niet "kan AI een senior associate verslaan" maar "kan het model dat wij wél mogen draaien het alternatief verslaan, namelijk helemaal geen AI gebruiken".
Het eerlijke antwoord: ja, maar de kloof is kleiner dan de keynote suggereert. Llama 3.3 70B op een goed afgestelde RAG-pipeline komt in de buurt van GPT-4o op extractie en samenvatting, blijft duidelijk achter op complex multi-hop redeneren, en verslaat niets op creatief schrijven. We vertellen partners dit in de eerste meeting. Degenen die met ons in gesprek blijven, zijn de partners die om extractie en samenvatting verlegen zaten.
Een "EU-hosted" badge van een Amerikaanse leverancier is niet hetzelfde als EU-soevereiniteit. Als de moedermaatschappij onder de Amerikaanse CLOUD Act valt, is de data opvraagbaar ongeacht waar de server staat. Lees de juridische structuur, niet de marketingpagina.
De tweede afweging is operationeel. Een managed API is één factuur van één leverancier en een statuspagina. Een zelf gehoste stack is GPU-drivers, vLLM-upgrades, modelwissels wanneer er een nieuwe release verschijnt, en de onvermijdelijke dinsdagochtend waarop de IT-manager van het kantoor belt omdat nvidia-smi ERR teruggeeft. Wij bakken monitoring en een runbook in elke oplevering, en we krijgen alsnog dat telefoontje.
De derde is kosten. Mensen gaan ervan uit dat on-prem goedkoper is. Aan de kleine kant is dat niet zo. Onder ruwweg twee miljoen tokens per dag over alle gebruikers verslaat de API de rack puur economisch. Daarboven wint de rack. Daaronder betaalt het kantoor voor soevereiniteit, niet voor besparing, en wij zorgen dat ze dat weten voor ze tekenen.
De audit van vijf minuten
Als jij de technologie bij een kantoor draait en je je afvraagt of iets hiervan op jou van toepassing is, hier is de test. Open je lijst met AI-leveranciers. Zoek per leverancier de sub-processor-pagina. Noteer de jurisdictie. Open dan een representatief dossier in je DMS en vraag jezelf af of je dat dossier comfortabel naar een collega in die jurisdictie zou mailen. Is het antwoord nee, dan past die AI-leverancier niet bij die workload. Dat is de hele audit. Hij kost vijf minuten en vertelt je alles.
Toen we vorig jaar de eerste on-prem agent bouwden voor een middelgrote Nederlandse procespraktijk, was waar we tegenaan liepen niet het model, niet de GPU's, en niet de RAG-pipeline. Het was het documentmanagementsysteem van het kantoor, dat draaide op een Drupal 7-backend die niemand sinds 2017 had aangeraakt. We hebben uiteindelijk de AI-agent gebouwd én stilletjes een legacy-migratie gedaan in dezelfde opdracht. Zo lopen deze projecten meestal.
Kern
On-prem AI voor Nederlandse advocatenkantoren is geen paranoia-belasting. Het zijn de AVG, het NOvA-beroepsgeheim en Schrems II die hun werk doen. Bouw daarnaar.
FAQ
Mag een Nederlands advocatenkantoor ChatGPT gebruiken voor cliëntwerk?
Niet voor persoonsgegevens die onder de AVG en het NOvA-beroepsgeheim vallen. Het Schrems II-arrest maakt Amerikaanse verwerking van vertrouwelijke cliëntdata moeilijk te rechtvaardigen zonder aanvullende maatregelen die de meeste kantoren niet kunnen treffen.
Wat betekent on-premise voor een AI-uitrol in 2026?
Drie varianten: een dedicated EU-cloudinstance, een colocated rack in de eigen serverruimte van het kantoor, of een volledig air-gapped werkstation. De juiste keuze hangt af van de zaken die behandeld worden, niet van het budget.
Is zelf gehoste AI goedkoper dan de OpenAI-API?
Onder ruwweg twee miljoen tokens per dag voor het hele kantoor wint de API op kosten. Daarboven wint de rack. Kantoren draaien on-prem voor soevereiniteit en vertrouwelijkheid, niet voor besparing.
Welk open model gaat het beste om met Nederlandse juridische taal?
Mistral Large 2 loopt voorop op Nederlandse jurisprudentiecitaten en idiomen. Llama 3.3 70B is sterker voor Engelstalige samenvattingen. Beide draaien netjes onder vLLM op EU-GPU-infrastructuur.