Mobile apps

Apple's on-device AI: de stille winst voor kleine app-teams

Apple's goedkopere on-device AI weegt voor kleine Nederlandse app-bouwers zwaarder dan de Gemini-Siri kop. De drie Core AI haken die we nu inbouwen.

Jacob Molkenboer· Oprichter · A Brand New Company· 10 jun 2026· 6 min

Antieke koperen weegschaal op ivoren bureauvloei met klein pakketje, linnen touw, rode lakzegel en groene briefkaart.

Een dispatcher in Pernis staart naar een scherm dat veertien containerbewegingen van de nachtdienst zou moeten tonen. Het toont er zes. De andere acht staan als spraakmemo's op de telefoon van een chauffeur, half Nederlands, half Sranan Tongo, allemaal onder het gebrom van diesel. De founder die haar app bouwde belde ons de ochtend erna om 9:30. Ze wilde weten of we 'iets met AI' konden doen met die clips zonder €1.800 per maand kwijt te zijn aan cloud-transcriptie en een vector database waar niemand om vroeg.

Door die call zagen we waarom de Gemini-Siri kop van vorige week het echte verhaal miste, voor het soort app-teams waarvoor wij bouwen.

De kop die iedereen las

Apple bevestigde dat Google's Gemini als Siri-fallback mag draaien op moeilijkere prompts. Redelijk nieuws, maar irrelevant voor de meeste Nederlandse mobile teams onder de €5M omzet. Hun gebruikers vragen Siri niet om een vakantie te plannen. Het interessante deel van dezelfde aankondiging stond drie slides verderop: Apple opende zijn on-device foundation model voor third-party apps. Gratis op het moment van gebruik. Geen afrekening per token. Geen minimum spend. Geen data die het toestel verlaat.

Dat is het deel dat onze offerte-spreadsheet verandert.

Wat on-device een kleine founder oplevert

De kleine teams waarmee we werken falen zelden omdat hun model niet slim genoeg is. Ze falen omdat de cloud-rekening een abonnement van €19 per maand in een verliespost verandert. We hebben het in achttien maanden drie keer zien gebeuren. Een team levert een 'slimme inbox' feature op, het verkeer schiet omhoog, de LLM-factuur valt binnen, de founder zet de feature uit, de App Store reviews kelderen.

On-device inferentie doorbreekt die cyclus. Het model staat al op de telefoon van de gebruiker. Je betaalt er niet voor. Latency is lokaal. En als de Duitse rechtbanken doorgaan op de lijn van vorige week, waarin rechters oordeelden dat het platform dat een onjuist AI-antwoord serveert daarvoor aansprakelijk is, dan is de vraag waar je inferentie plaatsvindt geen technisch detail meer, maar een juridische. Een model dat op het toestel van de klant draaide, op data die zij bezitten, is in een rechtszaal een heel ander dossier dan een prompt die je naar de GPU van iemand anders stuurde.

Drie Core AI haken in een Rotterdamse logistieke app

De app van de Pernisse dispatcher is degene die we nu herbouwen. Hij draait op een vloot iPhone 14 en 15 toestellen die de chauffeurs toch al bij zich dragen, dus de ondergrens voor Apple's Foundation Models framework hebben we al binnen. Dit gaat erin.

Spraakmemo naar containerbeweging

De chauffeur neemt een korte clip op als de scanner een beweging niet pakt. De telefoon transcribeert het lokaal met Speech en geeft de tekst aan het on-device model met een getypt schema. De output is een rij in het bewegingen-log, zonder round trip.

import FoundationModels

@Generable
struct ContainerMove {
    @Guide(description: "ISO 6346 container id, 4 letters + 7 digits")
    let containerID: String
    @Guide(description: "loaded, unloaded, moved, damaged")
    let action: String
    @Guide(description: "Bay or stack reference, e.g. B14-03")
    let location: String
}

let session = LanguageModelSession(
    instructions: "Extract one container move from a driver's voice memo. Dutch or English."
)

let move = try await session.respond(
    to: transcript,
    generating: ContainerMove.self
).content

De eerste pass had 89% van de bewegingen goed op een sample van 230 echte memo's. De missers waren bijna allemaal achtergrondruis die de container-ID vertroebelde. Een tweede prompt die het model vraagt om IDs met lage confidence te markeren voor menselijke review, bracht dat naar 97% bruikbaar.

Vrachtbrief-foto naar regels

Chauffeurs fotograferen de vrachtbrief bij ophaal. Vision doet de OCR, daarna normaliseert het on-device model het resultaat naar HS-codes en gewichten tegen een kleine lookup die de app al meedraagt. De hele pipeline draait terwijl de truck nog op het laadperron staat. Geen connectiviteit nodig, wat scheelt op de zuidelijke terminals waar 4G naar één streepje zakt.

Inbox-samenvatting voor de dispatcher

De dispatcher ontvangt zo'n 180 berichten per dienst via mail, WhatsApp en het in-app kanaal. Het model groepeert ze per containerreferentie, haalt de drie naar boven die schade of vertraging noemen, en schrijft per cluster één zin. Drie minuten besparing per cluster. De dispatcher waarmee we het testten ging van de inbox overslaan naar 'm twee keer per dienst leegmaken.

De afwegingen die nog steken

Dit is geen gratis maaltijd.

Het on-device model is klein. Het beantwoordt geen open vragen over internationaal scheepvaartrecht en moet dat ook niet proberen. Toen we het als open chatbot testten, hallucineerde het zelfverzekerd over tariefcodes. Het juiste mentale model is 'snelle gestructureerde extractor en samenvatter', niet 'expert in je broekzak'.

Oudere iPhones vallen af. Het framework heeft een A17 Pro of M-series chip nodig, in de praktijk dus iPhone 15 Pro en hoger plus de meeste iPads van de laatste twee jaar. Voor een B2B-vloot is dat prima, want je beheert de hardware. Voor een consumer app heb je een cloud fallback nodig voor de oudere helft van je install base, en op het moment dat je die fallback hebt, heb je ook alle kosten- en privacyvragen die het on-device pad juist wilde omzeilen. Kies eerst je publiek.

Let op

Het Foundation Models framework is iOS 26 only. Alles wat je vóór september oplevert moet de feature achter een availability check zetten, en je hebt een nette fallback nodig voor de lange staart aan gebruikers die nooit updaten.

Waar we op wedden

De interessante toekomst is niet Siri die met Gemini praat. Het zijn de duizend kleine apps die eindelijk een gestructureerde-extractie of samenvatting-feature kunnen toevoegen zonder terugkerende cloud-kosten per gebruiker. Vorig jaar kostte die feature op schaal €4 tot €11 per actieve gebruiker per maand, en de meeste founders schrapten 'm. Dit jaar kost het nul, en de drempel voor 'AI-feature past in het budget' zakt naar 'je hebt een iPhone 15 gebruiker'.

Toen we dit in de app van de Rotterdamse dispatcher inbouwden, was de modelkwaliteit niet wat ons verraste. Wel hoeveel van het omliggende systeem eenvoudiger werd. Geen proxy server. Geen rate-limit afhandeling. Geen prompt-injection threat model voor berichten die naar een third-party API gaan. Als je dit kwartaal AI-agents aan het scopen bent voor een mobile app, begin dan met de vraag wat het on-device model nu al kan, en grijp pas naar de cloud waar het echt niet kan.

Audit van vijf minuten die je vandaag kunt doen: open de geplande AI-features van je app en label elke feature als 'gestructureerde extractie', 'samenvatting', 'open generatie' of 'redeneren over privédata'. De eerste twee en de laatste horen nu op het toestel. Alleen de derde heeft de cloud nog nodig, en waarschijnlijk minder vaak dan je denkt.

Kern

Voor de meeste apps onder €5M omzet is on-device inferentie de juiste default. Grijp pas naar de cloud waar het device-model het echt niet kan leveren.

FAQ

Wat is het Foundation Models framework van Apple?

Een Swift API waarmee third-party apps Apple's on-device large language model direct aanroepen, met getypte output via @Generable, geen netwerk-call en geen afrekening per token.

Welke iPhones kunnen on-device AI-features draaien?

Apple Intelligence en het Foundation Models framework vereisen een A17 Pro chip of nieuwer. In de praktijk betekent dat iPhone 15 Pro en later, plus de meeste iPads vanaf 2024.

Moet een kleine app überhaupt nog cloud-LLMs gebruiken?

Ja, voor open generatie en redeneren over grote privé-corpora is het device-model te klein. Gebruik de cloud waar het zijn kosten echt waard is, on-device voor de rest.

Is on-device inferentie echt gratis?

Apple rekent niet af per token. Je betaalt nog wel voor ontwikkeltijd, het toestel zelf en eventuele cloud fallback voor oudere hardware, maar de marginale kost per inferentie is nul.

mobile appsai agentsarchitecturestrategyintegrationsoperations

Iets bouwen?

Start een project