Mobile apps

Gemini achter Siri: waarom jouw mobile agent stack klopt

Apple knoopt Gemini aan Siri. Voor Nederlandse SaaS-founders die mobile agents shippen in 2026 is het nieuws minder groot dan het lijkt. Twee on-device aannames blijven staan.

Jacob Molkenboer· Oprichter · A Brand New Company· 10 dec 2024· 6 min

Ivoorkleurig papier met klein pakje in linnentouw, gevouwen limegroene kaart en koperen weeggewicht in zijlicht.

De keynote-paniek

Dinsdagavond, 19:00 in Amsterdam. Een founder uit Utrecht waar we mee werken kijkt de WWDC-keynote op een tweede monitor terwijl hij een release afmaakt. Apple rolt de nieuwe Siri-architectuur uit, noemt Gemini als het brein achter het zware werk, en binnen negentig seconden krijgen we een berichtje: "gooien we het on-device model nu weg? Routen we alles via Apple Intelligence?"

Het antwoord was nee op dinsdag. Het is nog steeds nee vanochtend. Dat Apple Gemini achter Siri zet, gaat over de marges van Apple, niet over jouw roadmap.

Wat er echt verandert

Haal de keynote-framing eraf en de veranderingen zijn beperkt. Siri geeft open redeneerwerk nu door aan Gemini wanneer de on-device dispatcher besluit dat de request te groot is voor het lokale model. Het on-device model zelf, dat sinds iOS 18 stilletjes intents classificeert, zit er nog steeds. De Apple Intelligence-documentatie beschrijft nog steeds hetzelfde patroon: lokaal afhandelen waar het kan, escaleren naar Private Cloud Compute waar nodig, en nu ook escaleren naar een derde partij voor de long tail.

Drie dingen daarover:

Die derde-partij-tak is Apples winst, niet die van jou. Je hebt geen nieuwe API gekregen.
Je bent er ook geen kwijtgeraakt. Het App Intents-framework, de Core ML-pipeline en het kleine on-device model dat je meeshipt in je binary zijn onveranderd.
Wat Gemini via Siri te zien krijgt, valt onder de contracten van Apple, niet die van jou. Je kunt het niet gebruiken als vervanging voor je eigen modelpad.

Als je het type mobile app bouwt dat wij voor klanten bouwen (een facturatietool, een field-service dispatcher, een Nederlandstalige planningsassistent), verandert dit niets aan het werk.

Aanname één: het latency-budget in de trein op 4G

De eerste aanname die nog steeds staat: acties die instant moeten voelen kunnen niet wachten op een round trip.

Een echt voorbeeld. Een van onze klanten heeft een mobile app waarmee boekhouders bonnen categoriseren door hun telefoon tegen een papieren kassabon te houden. De hele flow moet klaar zijn binnen ongeveer 400 milliseconden, anders verliest de gebruiker het moment en tikt 'ie het handmatig in. Dat budget verdeelt zich ongeveer zo:

camera frame grab        80 ms
image preprocessing      40 ms
OCR (Vision framework)  120 ms
intent classification    60 ms
category prediction      60 ms
UI commit                40 ms
                       -----
total                  400 ms

Geen van die stappen heeft ruimte voor een Gemini round trip. Een best-case call van een iPhone op een Nederlands 4G-cell naar een Gemini-endpoint in België duurt 180 tot 350 ms voordat het model begint te genereren. In de Intercity tussen Amsterdam en Eindhoven, met handover-gaten en af en toe een tunnel, zit dat getal eerder rond de 800 ms. Tel daar de latency van het model zelf bij op en je zit op 1,2 seconde, drie keer het budget, voordat er één token terugkomt.

Vorig jaar was het zo. Vandaag is het zo. In 2027 is het nog steeds zo. Apples zet richting Gemini verandert de lichtsnelheid niet, en de forensen van onze klanten zitten nog steeds in de Intercity.

Onthouden

Als een feature moet voelen als een knopdruk, draait 'ie op het device. Geen enkele keynote verandert dat.

Aanname twee: data residency onder de AVG

De tweede aanname: alles wat persoonsgegevens of commercieel gevoelige inhoud raakt heeft een pad nodig dat je end-to-end zelf in handen hebt.

Twee dingen hebben dat de afgelopen twaalf maanden strakker getrokken. Ten eerste gelden de transparantie- en risicoclassificatie-regels van de EU AI Act nu voor aanbieders en gebruikers van general-purpose AI-systemen, inclusief elk LLM-endpoint dat jouw app aanroept. Het AI Act-overzicht van de Europese Commissie schrijft de verplichtingen voor gebruikers uit, en die verdwijnen niet omdat jouw verkeer langs Apple liep. Ten tweede zijn Nederlandse toezichthouders in stilte expliciet geweest tegen onze klanten in gereguleerde sectoren: klanttekst routeren via een Amerikaans gehost model kan voor sommige workloads, en voor andere niet, en je moet die grens op een diagram kunnen tekenen voor de auditor.

Wanneer Apple nu een deel van Siri's redeneerwerk doorgeeft aan Gemini, wordt het datapad: gebruikersapparaat, Apple, Google. Apple zegt dat Private Cloud Compute end-to-end versleuteld is en dat queries naar derden geanonimiseerd zijn. Prima voor de gebruiker die Siri vraagt wat het weer in Groningen doet. Niet prima wanneer de klant van jouw B2B-app een clausule uit een contract inspreekt in een spraakveld en ervan uitgaat dat alleen jouw servers dat zien.

Dus de aanname blijft staan: als jouw app facturen, patiëntcontext, personeelsdossiers of iets anders verwerkt waar een Nederlandse Functionaris Gegevensbescherming alarm op slaat, is het on-device pad geen fallback. Het is de default, en je escaleert pas naar je eigen EU-gehoste model wanneer het lokale model het werk niet af krijgt.

De stack die we vandaag nog steeds zouden shippen

De stack waarop we deze week een nieuwe mobile agent zouden zetten, is dezelfde die we in maart hadden uitgerold:

On-device intent classifier in Core ML, getraind op jouw domein. Veertig tot negentig milliseconden, geen netwerk.
On-device small language model (we kiezen meestal een 3B of 4B gequantiseerd model via MLX of llama.cpp op iOS, afhankelijk van de device-tier) voor kort generatief werk: een bon samenvatten, een antwoordregel opstellen, een formulierveld vullen.
EU-gehost cloud-model (een mix van Mistral in Parijs en self-hosted Llama-varianten voor klanten in gereguleerde sectoren) voor elke taak die het on-device model afwijst.
Apple Intelligence als optionele versneller voor algemene queries die niet van jou zijn. Nooit als enig pad.

De dispatcher tussen die lagen is een klein Swift-classje dat er ongeveer zo uitziet:

enum Route { case onDevice, euCloud, appleIntelligence }

func route(for request: AgentRequest) -> Route {
    if request.containsPII || request.isRegulated {
        return request.fitsOnDevice ? .onDevice : .euCloud
    }
    if request.latencyBudgetMs < 500 {
        return .onDevice
    }
    if request.isGeneralKnowledge && user.optedIntoAppleIntelligence {
        return .appleIntelligence
    }
    return .euCloud
}

Die dispatcher is het enige dat verschoof door het Gemini-nieuws. We hebben één branch toegevoegd. Het on-device pad bleef waar het zat.

Waarschuwing

Als je in de verleiding komt om je on-device werk te schrappen omdat Apple Intelligence goed genoeg klinkt, vraag je FG dan of die het datapad voor contractteksten op één A4'tje kan tekenen. Is het antwoord nee, dan kun je dat opheffen niet shippen.

De vijf-minuten audit

Toen we vorig kwartaal de on-device agent bouwden voor een Nederlandse facturatieklant, liepen we steeds tegen de verleiding aan om het cloud-model 'nog één' edge case te laten afhandelen tot het on-device pad nog maar een restje was. We losten het op door de dispatcher op een whiteboard te tekenen voordat we één regel code schreven, en we doen die oefening nu voor elke AI-agent die we in een mobile app zetten.

Wil je de audit vandaag doen: open je app, lijst elke plek op waar een gebruiker een instant actie verwacht, en zet een rode stip op elke plek die nu wacht op een netwerk-call. Die stippen zijn je on-device werk, ongeacht wat er achter Siri draait.

Kern

Dat Apple Gemini achter Siri zet is Apples winst, niet jouw roadmap. Het on-device pad blijft bestaan omdat latency en de AVG niet bewegen.

FAQ

Vervangt Apple's Gemini-Siri het model dat ik in mijn eigen app meeship?

Nee. De Gemini-integratie verandert alleen wat Siri zelf kan voor algemene queries. Jouw in-app agent-stack, inclusief het on-device model en je eigen cloud-pad, blijft onaangeroerd en nog steeds jouw verantwoordelijkheid.

Kan ik Apple Intelligence als mijn enige LLM-pad gebruiken?

Voor consumenten-apps zonder gereguleerde data: ja. Voor Nederlandse B2B-apps die facturen, contracten of klant-PII verwerken: nee. Je hebt nog steeds een EU-gehost pad nodig dat je end-to-end beheert.

Wat is een realistisch on-device latency-budget voor een instant actie in 2026?

Reken op 300 tot 500 milliseconden end-to-end. Daarmee valt elke cloud round trip op forenzen-mobiel weg, dus on-device intent classification blijft verplicht voor alles wat moet voelen als een knopdruk.

Welk on-device model kiezen jullie meestal op iOS?

Een 3B of 4B gequantiseerd model dat draait via MLX of llama.cpp op de device-tier die de klantbasis daadwerkelijk gebruikt. We schalen het terug voor oudere iPhones en escaleren pas naar de cloud wanneer het lokale model het werk niet af krijgt.

ai agentsmobile appsarchitecturestrategyintegrations

Iets bouwen?

Start een project