E-commerce

E-commerce search: Algolia, Typesense of pgvector kiezen

Hoe wij Algolia, Typesense en een self-hosted pgvector-hybride scoren wanneer een Nederlands e-commerce merk onder €25M omzet productzoek nodig heeft die echt converteert.

Jacob Molkenboer· Oprichter · A Brand New Company· 11 jun 2026· 6 min

Drie pakjes met linnen touw, messing weegschaal, groene kaart en rode lakzegel op ivoor papier.

Dinsdagmiddag. De catalogusbeheerder van een Rotterdams modemerk typt "wijnrode jurk maat 38" in het staging zoekvak en krijgt nul hits. De catalogus telt 47 wijnrode jurken in maat 38. De search index weet niet dat "wijnrode" een Nederlandse samenstelling is van "wijn" en "rood", splitst "maat 38" niet, en behandelt de hele query als één letterlijk token.

Deze post is het rekenblad dat wij openen als een merk onder €25M ons vraagt welke van drie search-stacks ze moeten uitrollen: Algolia, Typesense, of een self-hosted Postgres-setup die full-text search combineert met pgvector voor semantische recall. We scoren op drie assen die echt verkeer overleven: relevantie-winst op de 200 slechtste queries van de catalogusbeheerder, wie de synoniemenlijst beheert zodra die voorbij de 800 entries groeit, en of de search request nog binnen een Nederlands 3G-venster afgerond is als een Galaxy A04 in de IC naar Utrecht zit.

De drie opties op het eerste gezicht

Algolia is de hosted SaaS die de meeste teams al kennen. Je shipt een JSON-index, je betaalt per search en per record, en je krijgt een afgesteld ranking-algoritme uit de doos. Typesense is de open-source uitdager die draait als een Go-binary die je zelf kunt deployen of inkopen als Typesense Cloud. De pgvector-route is degene die je zelf bouwt: Postgres voor de catalogus, tsvector voor keyword search, pgvector voor embeddings, en een hybride scorer die de twee mengt.

Geen van deze is standaard het juiste antwoord. De keuze hangt af van de teamomvang van het merk, hoe vaak de catalogus verandert, en waarvandaan hun klanten daadwerkelijk shoppen.

Het scoreblad

We scoren elke optie van 1 tot 5 op zes dimensies, en wegen de drie zwaarder die het merk ons heeft verteld het belangrijkst te vinden. De dimensies zijn relevantie-winst, synoniemenbeheer, p95-latency op 3G, kosten bij verwacht queryvolume, operationele complexiteit, en data residency. Een perfecte score is 30. Alles onder de 18 zakt voor de audit en we adviseren dan niks.

Dimensie                  Gewicht  Algolia  Typesense  PG hybride
Relevantie-winst (200q)   25%      5        4          3
Synoniemenbeheer          15%      3        4          5
p95-latency op 3G         20%      4        4          3
Kosten bij 200k qry/mnd   15%      2        4          5
Operationele complexiteit 15%      5        3          2
Data residency (EU)       10%      3        4          5

Die cijfers zijn de mediaan van de laatste acht audits die we hebben uitgevoerd. Ze verschuiven per merk. Een juwelier met 6.000 SKU's en één parttime merchandiser scoort anders dan een industriële onderdelencatalogus met 180.000 SKU's en een toegewijd data-team.

Relevantie-winst op de 200 slechtste queries

De eerlijke meting ziet er zo uit. Trek de interne search logs van de laatste 90 dagen van het merk. Sorteer op nul-resultaat queries en queries waar één klik tot een bounce leidt. Pak de 200 slechtste. Geef ze aan een junior merchandiser en vraag of ze per query aanvinken wat de juiste top-drie resultaten zouden moeten zijn. Dat is je ground truth set.

Draai vervolgens elke search-stack tegen diezelfde 200 queries en meet nDCG@3 tegen de ground truth. We hebben Algolia nog nooit onder de 0,78 zien scoren op een Nederlandse catalogus zodra het synoniemenboek op orde is. Typesense landt rond 0,72 met standaardconfiguratie en op 0,81 zodra je Nederlandse stemming en een gecureerd synonyms-bestand toevoegt. De pgvector-hybride scoort 0,69 koud en klimt naar 0,83 zodra je de keyword-vs-embedding mix tunet, maar die klim kost ongeveer twee engineer-weken en een gelabelde trainingsset.

Kort gezegd

Bij cold-start wint Algolia op relevantie. Aan het plafond, mits je het werk erin steekt, wint de pgvector-hybride. Typesense brengt je tot binnen 5% van beide opties, zonder de rekening of de engineering-kosten.

Wie beheert de synoniemenlijst

Dit is de dimensie die de meeste vendor-decks overslaan. Een Nederlands modemerk verzamelt in het eerste jaar 600 tot 1.200 synoniemenregels. "Wijnrood" mapt naar "bordeaux" en "donkerrood". "Sneakers" mapt naar "gympen" en "schoenen sport". "Maat 38" mapt naar "EU 38" en "UK 5.5". Wie deze lijst beheert, beheert de search.

Bij Algolia zit het synoniemen-dashboard in de admin UI. De catalogusbeheerder kan zonder deploy aanpassingen doen. Goed voor snelheid, broos voor change tracking, en het exportformaat is proprietary. Bij Typesense leven synoniemen in een JSON-bestand dat je in git commit. Goed voor change tracking, slecht als je catalogusbeheerder niet in git werkt. Bij de pgvector-route zijn synoniemen rijen in een Postgres-tabel die je tijdens de query leest. Je bouwt de bewerk-UI zelf, wat betekent dat je ook de workflow zelf in handen hebt.

Het juiste antwoord hier is degene die het merk daadwerkelijk kan onderhouden. We hebben Typesense in productie zien sneuvelen bij een merk waarvan de merchandiser weigerde git te leren, en pgvector zien falen bij een merk dat nooit een admin-UI heeft gebouwd, waardoor de synoniementabel verouderde en de search-kwaliteit in stilte afnam.

Conversie op 3G

De dekkingskaart van KPN zegt dat 5G overal is. De catalogusbeheerder die de site test in de IC van Amsterdam naar Groningen weet wel beter. Echt Nederlands mobiel verkeer valt nog steeds terug op HSPA+ en traag 4G in delen van de Randstad, heel Zeeland, en het grootste deel van het noorden. Als je search request er 1,4 seconde over doet op p95 via getrottlede 3G, verlies je de checkout in de trein.

De CDN-edge van Algolia in Frankfurt levert ons een p95 van 180ms tot 240ms naar een Galaxy A04 die op "slow 3G" staat in Chrome DevTools. Typesense Cloud op de EU-node landt op 220ms tot 290ms. Een self-hosted pgvector-setup op de eigen VPS van het merk in Amsterdam, achter een Cloudflare cache, landt op 280ms tot 380ms koud en 90ms warm. De pgvector-optie is de snelste als het resultaat gecached is, en de traagste als dat niet zo is.

Wat dit betekent voor conversie: bij één klant maten we een lift van 6,1% in add-to-cart toen we de p95 van de search response van 520ms naar 210ms terugbrachten. De oorzaak was niet de search-kwaliteit. Het was dat het toetsenbord niet bevroor terwijl de gebruiker typte.

Data residency en de bewaarvraag

Eén draad die we nu in elke audit oppakken: waar gaat de querytekst heen, en wie houdt een kopie. Interne zoekqueries lekken intentie die de productdetailpagina nooit prijsgeeft. Een shopper die zoekt op "valpartij hulpmiddel" vertelt je iets wat een klik in de categorieboom niet doet. De EU-regio van Algolia houdt queries in Frankfurt en Parijs en is AVG-conform op processorvoorwaarden, maar de stream met search-analytics wordt op de infrastructuur van Algolia gelogd. Typesense self-hosted laat niets buiten de VPC van het merk. De pgvector-route is volledig on-premise als je dat wilt.

Dit weegt het zwaarst voor merken in gereguleerde goederen, alles met een leeftijdsgrens, of B2B-catalogi waar de zoekopdracht zelf de inkoopintentie verraadt. Voor een algemeen modemerk meestal niet. Scoor dienovereenkomstig.

Wanneer elke optie wint

Algolia wint als het merk een klein team heeft, een stabiele catalogus onder de 50.000 SKU's, en het geld om zonder met de ogen te knipperen €600 tot €2.400 per maand te betalen. Het dashboard draait zichzelf, de relevantie is sterk uit de doos, en de catalogusbeheerder past synoniemen aan bij de koffie.

Typesense wint als het merk één engineer heeft die Docker kan draaien, een catalogusbeheerder die een git-workflow accepteert, en een catalogus tussen de 20.000 en 300.000 SKU's. Het is de optie die lineair schaalt met hosting-kosten in plaats van met queryvolume.

De pgvector-hybride wint als het merk Postgres al op schaal draait, minstens één search-nieuwsgierige backend-engineer in huis heeft, en een catalogus met rijke attribuutdata waar de embeddings van kunnen leren. Het plafond ligt het hoogst. De aanloop ernaartoe duurt het langst.

Toen wij de product-discovery search agent bouwden voor een Nederlands woonaccessoiremerk, was de synoniementabel binnen vier maanden verouderd. Uiteindelijk leverden we een kleine admin-UI bovenop de Postgres synoniementabel, zodat de merchandiser hem kon bewerken vanuit hetzelfde dashboard dat ze al gebruikte voor voorraad. De migratie naar pgvector was het makkelijke deel.

Het kleinste wat je vandaag kunt doen

Open de interne search-analytics van je shop. Sorteer queries op nul-resultaat-ratio over de laatste 30 dagen. Lees de top 50 hardop voor. Als er meer dan tien spelvarianten, samenstellingen of synoniemen tussen zitten die de index niet kent, heb je een synoniemenprobleem voordat je een vendor-probleem hebt. Los dat eerst op en het kan zomaar zijn dat je helemaal niet hoeft te migreren.

Kern

Cold-start wint Algolia op relevantie. Aan het plafond wint pgvector. Typesense brengt je tot binnen 5% van beide, zonder de rekening of de engineering-kosten.

FAQ

Waarom niet gewoon standaard voor Algolia kiezen bij elk merk?

De kosten schalen met queryvolume, niet met catalogusgrootte. Voorbij de 200k zoekopdrachten per maand komen de maandelijkse rekeningen boven de €2k uit. Merken onder €25M omzet kunnen dat geld meestal vinden, of nuttiger engineering-uren.

Verslaat de pgvector-hybride Algolia echt op relevantie?

Pas na twee engineer-weken tunen van de keyword-vs-embedding mix en het labelen van een ground truth set. Cold-start wint Algolia. Op het plafond na tuning wint pgvector. De meeste merken bereiken dat plafond nooit.

Kan een niet-technische catalogusbeheerder Typesense-synoniemen bewerken?

Niet rechtstreeks. Synoniemen leven in een JSON-bestand dat je in git commit. Als je merchandiser niet in git werkt, moet je er een admin-UI bovenop bouwen, en dat veegt het kostenvoordeel ten opzichte van Algolia weg.

Hoeveel verschuift search latency de conversie eigenlijk?

Bij één klant bracht het terugbrengen van search p95 van 520ms naar 210ms op getrottlede 3G de add-to-cart 6,1% omhoog. De oorzaak was niet relevantie. Het was dat het toetsenbord niet bevroor terwijl gebruikers typten.

Is EU data residency een echte zorg voor een Nederlandse shop?

Voor algemene fashion of retail zelden. Voor gereguleerde goederen, B2B-inkoopcatalogi of leeftijdsgebonden producten wel. Self-hosted Typesense of pgvector houdt queries binnen je eigen VPC.

e-commercearchitecturetoolingintegrationsstrategy

Iets bouwen?

Start een project