Voice agents

Voice agent stack kiezen: Retell, ElevenLabs of LiveKit

Een bureau-eigenaar in Maastricht stuurt om middernacht een Loom door. De voice agent werkt in Standaardnederlands, maar struikelt over Limburgs. Dit is ons scorebord.

Jacob Molkenboer· Oprichter · A Brand New Company· 16 jun 2026· 9 min

Zwarte bakelieten telefoonhoorn op ivoorleren onderlegger, lichtgroen lint, gevouwen memo, zacht zijlicht.

Het is een dinsdagavond in mei. Een bureau-eigenaar in Maastricht stuurt ons een Loom-video door. Haar voice-agent-demo, gebouwd op een managed platform tijdens een hackathon-weekend, werkt prima als ze Standaardnederlands praat. De klant (een tegel- en badkamerketen met winkels in Sittard, Heerlen en Roermond) heeft het net getest in hun eigen accent. Elke vierde uitspraak komt terug als een transcriptie van iets dat de klant niet heeft gezegd. De partner deck van het bureau beloofde "natuurlijk Nederlands gesprek". De inkoopmanager bij de tegelketen wil vrijdag een terugbelafspraak.

Dit is het moment waarop wij erbij gehaald worden. De vraag die we krijgen is altijd een variant van: moeten we Retell, ElevenLabs Conversational of zelfbouw kiezen? Het eerlijke antwoord is dat geen van die drie standaard fout is. De juiste keuze hangt af van drie getallen die we vragen voordat we ook maar iets anders bespreken.

De drie getallen die de stack kiezen

We beginnen niet met een vendor-vergelijking. We beginnen met drie randvoorwaarden uit de business zelf.

Eerst: het wekelijkse belvolume. Onder de 200 calls per week maakt de keuze nauwelijks uit. Boven de 5.000 verandert de rekensom. Het interessante bereik ligt tussen 800 en 3.000, waar de meeste Nederlandse bureaus onder de €10M en hun klanten zitten. Voor het bureau uit Maastricht praten we over 1.400 calls per week, gemiddelde gespreksduur 2 minuten 40, piek op woensdagmiddag.

Twee: het accent. Er zit een echt verschil tussen "Nederlands" en wat mensen daadwerkelijk spreken in Limburg of West-Vlaanderen. Whisper-large-v3, de open-weights baseline van OpenAI, doet Standaardnederlands goed. Op Limburgs en West-Vlaams zakt het nog steeds, maar minder dan de meeste managed platforms. Managed platforms verbergen welke STT ze draaien, en de meeste leunen standaard op een Nederlands model getraind op Polderlands media.

Drie: wie krijgt de call om 03:00 als er iets stuk gaat. KPN herroutet 088-verkeer tijdens onderhoudsvensters ongeveer twee keer per kwartaal. Voxbone (nu BICS) en Belgacom hebben hun eigen vensters. Als de SIP-trunk opnieuw onderhandelt en de agent stopt met opnemen, moet er iemand aan jouw kant zijn die weet dat hij eerst naar de trunk kijkt voordat hij de LLM de schuld geeft.

Zodra je die drie getallen hebt, kiest de stack zichzelf zo'n beetje.

Kosten per minuut bij 1.400 calls per week

Laten we de rekensom hardop doen. 1.400 calls × 2,67 minuten gemiddeld × 4,33 weken is ongeveer 16.200 minuten per maand. Rond af op 16k voor je hoofd.

De gepubliceerde prijs van Retell zit op dit moment rond $0,07 per minuut voor de basisagent (hun TTS + STT + LLM-passthrough), plus de onderliggende LLM-kosten. Met GPT-4o-mini erbovenop kom je all-in ongeveer op $0,10 tot $0,13 per minuut. Bij 16k minuten is dat $1.600 tot $2.100 per maand, vóór SIP-trunk en nummerhuur.

ElevenLabs Conversational AI zit in dezelfde band, $0,08 tot $0,15 per minuut afhankelijk van tier en voice-clone-gebruik. Goedkoper als je voor een hoger Business-plan tekent.

Self-hosted op LiveKit Agents + Whisper-large-v3 (via Groq of je eigen GPU) + Cartesia Sonic voor TTS + Claude of 4o-mini als brein: de marginale kostprijs per minuut is grofweg $0,03 tot $0,05 als je STT, TTS, LLM en LiveKit Cloud meerekent. Maar je hebt vaste engineering-kosten: twee weken bouwen, en daarna een paar uur per maand van iemand die een SIP-log kan lezen.

De eerlijke tabel ziet er zo uit.

Stack                              €/min   16k min/mnd  Eng. kosten
Retell + GPT-4o-mini               €0,10   €1.600       ~1 dag setup
ElevenLabs Conversational          €0,12   €1.900       ~1 dag setup
LiveKit + Whisper-v3 + Cartesia    €0,04   €640         ~2 weken bouwen,
                                                        ~€600/mnd SIP-retainer

Het omslagpunt in onze ervaring ligt rond de 12.000 minuten per maand. Daaronder is de engineering-tijd die je bespaart met Retell of ElevenLabs meer waard dan de opslag per minuut. Boven de 15.000 minuten verdient de zelfgebouwde stack de engineer terug die hij vereist.

De klant in Maastricht zit op 16k. We zitten dik in het bereik waar elk antwoord verdedigbaar is. Kosten zijn niet het doorslaggevende getal.

Barge-in op een Limburgs accent

Barge-in is het moment waarop de klant de agent onderbreekt. Het is dé feature die een voice agent die menselijk voelt scheidt van een voice agent die voelt als een IVR met extra stappen.

Drie dingen moeten kloppen voor barge-in:

Voice activity detection moet afgaan op de eerste lettergreep van de klant, niet op de derde.
De TTS moet middenin een zin afbreekbaar zijn met lage latency.
De STT moet de onderbreking opvangen terwijl de agent nog praat.

Hier doet het accent ertoe. VAD voor Standaardnederlands is goed afgesteld. Limburgs heeft andere prosodie: langere klinkers, een zachtere "g", andere klemtoon op woorden met meerdere lettergrepen. Op een generieke VAD getraind op Polderlands corpora gaat barge-in laat af of helemaal niet. De klant zegt "ja maar" en de agent praat nog 1,5 seconde door. Bij call drie van een testsessie heeft de inkoopmanager al besloten dat het ding nog niet klaar is.

Retell gebruikt Deepgram Nova als STT onder de motorkap (laatst dat we keken) en hun eigen VAD-laag. Het Nederlandse model van Deepgram is acceptabel op Standaardnederlands en zwakker op regionale accenten. ElevenLabs gebruikt hun eigen ASR en leunt vergelijkbaar richting Polderlands.

Whisper-large-v3 heeft merkbaar betere recall op Limburgs en West-Vlaams in onze interne tests, omdat de trainingsdata meer Belgisch-Nederlandse varianten bevat. De vangst: Whisper streaming is lastiger. Je hebt of het gehoste Whisper-streaming-endpoint van Groq nodig, of self-hosted faster-whisper met chunked decoding, en je moet je eigen VAD meenemen. Silero v5 werkt prima voor Nederlandse varianten zodra je de drempel naar ongeveer 0,35 brengt.

Voor de klant in Maastricht hebben we een blinde A/B gedraaid: 40 opgenomen testgesprekken, de helft in Standaardnederlands, de helft in Limburgs. Whisper-large-v3 ving de onderbreking binnen mediaan 350ms. Retell ving het binnen 700ms op Standaardnederlands, maar 1100ms op Limburgs. Voorbij 800ms stort de klantbeleving in.

Dat is het getal dat de stack heeft beslist. Niet de kosten. Niet het vendor-logo.

De SIP-vraag om 03:00

De derde randvoorwaarde is de saaie. Het is ook degene die meer voice-agent-projecten om zeep helpt dan wat dan ook.

De 088-nummerroutering van KPN loopt over SIP via hun IMS-core. Als KPN een onderhoudsvenster doet (meestal dinsdag of woensdag tussen 02:00 en 05:00), herrouten ze het verkeer soms naar een andere SBC. Als de trunk-provider van je agent zijn peering strak heeft staan, krijg je een korte reINVITE-storm en een paar minuten gefaalde calls. Als hij losser staat, krijg je een stille storing waarbij calls verbinden, maar audio één kant op gaat.

Dit gebeurt echt. We hebben de logs.

Met Retell of ElevenLabs is je escalatiepad een supportticket. Beide hebben statuspagina's. Geen van beide heeft een Nederlandstalige on-call engineer die om 03:00 weet wat een 088-nummer is.

Met self-hosted LiveKit en een SIP-trunk-provider die je zelf kiest (Twilio, Voxbone, of een Nederlandse reseller zoals Voys) is je team de eigenaar van de bedrading. Je kunt in de SIP-gateway SSH'en, sngrep draaien, de reINVITE zien, en het of fixen of uitzitten met een kant-en-klaar antwoord voor als de klant woensdagochtend belt.

De juiste vraag is niet "wie is betrouwbaarder", want alle drie zijn ongeveer even betrouwbaar in steady state. De juiste vraag is: als er om 03:00 iets stuk gaat, wil je dan een supportticket of een terminal?

Let op

Als niemand in je team een SIP-trace kan lezen, kies dan niet de self-hosted stack. De besparing per minuut verdampt de eerste keer dat je een declarabele dag kwijt bent aan een one-way-audio-bug.

Het scorebord dat we de klant overhandigen

Voor het bureau in Maastricht stuurden we de partner uiteindelijk één A4'tje dat er ongeveer zo uitzag. Je kunt de structuur kopiëren voor je eigen beslissingen.

Vraag                                                   Weging   Score 1-5
Zit je boven 12k bel-minuten per maand?                 3        _
Is 20% of meer van de calls in een regionaal NL accent? 4        _
Heb je een in-house of retained SIP-dev?                4        _
Doet de agent betalingen of gevoelige PII?              3        _
Moet je binnen twee weken live?                         2        _

Gewogen totaal >40:   self-hosted LiveKit wint waarschijnlijk
Gewogen totaal 25-40: Retell of ElevenLabs met een scherpe prompt
Gewogen totaal <25:   managed platform, besteed de tijd aan evals

Het bureau scoorde 5 op de SIP-vraag (ze hebben een freelance ops-dev op retainer), 4 op de accent-vraag (echte Limburgse klantenbasis) en 3 op de volume-vraag (1.400 per week, groeiend). De rekensom wees naar de self-hosted stack. Dus dat hebben we gebouwd.

We zijn er geen fanatici over. Voor een andere klant (een Rotterdamse logistieke dispatcher, 600 calls per week, alleen Standaardnederlands, geen eigen engineering) hebben we in negen dagen op Retell uitgerold en er nooit meer naar omgekeken.

Wat we kozen, en waarom dat niet de kop is

Vorige week haalde een HN-draad de voorpagina over de "homegrown" LLM van Rio de Janeiro, die uiteindelijk een merge bleek van twee bestaande modellen. De reacties waren de gebruikelijke mix van teleurstelling en schouderophalen. Het deel dat de comments meestal mistten: bijna elke "we hebben het zelf gebouwd"-claim in voice AI is ook een merge. Whisper van de één, TTS van de ander, een LLM van een derde, aan elkaar geplakt met LiveKit of Pipecat. De eerlijke framing richting klanten is niet "we hebben dit from scratch gebouwd". Het is "we hebben deze vier componenten bewust gekozen, en dit is wat elk je oplevert".

Die framing zegt je ook wanneer je het niet zelf moet doen. Als je een klant niet kunt uitleggen wat elk component doet en waarom je het hebt gekozen, ship dan op Retell of ElevenLabs en stop de engineering-tijd in de prompt, de function calls en de eval-set. De voice agent die wint is die met de beste evals, niet die met de meest exotische infra.

Voor de tegelketen kwamen we uit op LiveKit Cloud + Whisper-large-v3 op Groq + Cartesia Sonic Nederlandse stem + Claude als brein + een Voys SIP-trunk. De totale kosten per minuut landden op €0,041. Mediane barge-in-latency op Limburgs: 380ms. Toen KPN drie weken na livegang een onderhoudsvenster draaide, zag onze on-call (een freelance SIP-engineer in Eindhoven, retainer €600 per maand) de reINVITE in sngrep binnen zes minuten na de page en alarmeerde de carrier. De calls liepen weer voordat de ochtendstandup begon.

Toen we die voice-agent-stack bouwden met het bureau uit Maastricht voor hun tegelketen-klant, was het zwaarste deel niet de stem. Het was uitvogelen dat de eval-set veertig minuten opgenomen calls per winkel nodig had, niet alleen één locatie, omdat het dialect meer verschilt tussen Sittard en Heerlen dan we hadden ingeschat. Dat is het echte werk: de juiste componenten kiezen voor een echte business met echte klanten in echte accenten. Het vendor-logo is de laatste beslissing, niet de eerste.

De audit van vijf minuten die je vandaag kunt doen

Pak de laatste vijftig calls die je team heeft afgehandeld. Luister er tien terug. Tel hoe vaak de klant onderbreekt. Tel hoe vaak de klant iets anders dan Standaardnederlands spreekt. Vermenigvuldig de gemiddelde belminuten met je weekvolume. Nu heb je de drie getallen. Welke stack je ook kiest, kies hem op basis van die getallen, niet op basis van de vendor-demo.

Kern

Het kiezen van een voice-agent-stack draait om drie getallen: minuten per week, regionaal accent, en wie om 3 uur 's nachts de SIP-trace leest. Het vendor-logo is de laatste beslissing, niet de eerste.

FAQ

Wat kost een Nederlandse voice agent per minuut?

Bij 1.400 calls per week landen managed platforms zoals Retell of ElevenLabs op €0,09 tot €0,13 per minuut all-in. Een self-hosted stack met LiveKit + Whisper + Cartesia landt op €0,03 tot €0,05, plus engineering-tijd.

Kan Whisper-large-v3 overweg met Vlaams of Limburgs?

Beter dan de Nederlandse STT in de meeste managed voice-platforms. Whisper-large-v3 herkent Belgisch-Nederlands en Limburgs merkbaar nauwkeuriger dan modellen die op Polderlands zijn getraind, al heeft het nog steeds baat bij een eigen eval-set per regio.

Wie lost SIP-trunk-problemen op als KPN het 088-nummer herroutet?

Bij een managed provider open je een supportticket. Met self-hosted LiveKit en je eigen SIP-trunk lees jij (of een SIP-engineer op retainer) de trace zelf in sngrep. De juiste keuze hangt af van of je iemand hebt die dat kan.

Wat is barge-in en waarom is het belangrijk voor voice agents?

Barge-in is wanneer de klant de agent middenin een zin onderbreekt. Als de agent niet binnen ongeveer 500ms stopt met praten, voelt het gesprek kapot. Het is dé feature die een goede voice agent scheidt van een opgepoetste IVR.

Wanneer moet je géén eigen voice-stack bouwen?

Wanneer niemand in het team een SIP-trace kan lezen, wanneer het maandvolume onder de 12.000 minuten ligt, of wanneer je een klant niet kunt uitleggen wat elk component in de stack doet en waarom je het hebt gekozen.

voice agentsai agentsarchitecturetoolingstrategy

Iets bouwen?

Start een project