Diensten
- - Conversieoptimalisatie (CRO)Begeleiding van je experimenteerprogramma, van idee tot analyse. Meer experimenten, betere conversies en onderbouwde beslissingen.
  - Verbeter je experimenteerprogrammaMaak experimenteren structureel onderdeel van je organisatie. Wij helpen teams om te groeien met advies, ondersteuning en training.
  - Product experimentationOntwikkel producten die écht werken. Valideer aannames en maak onderbouwde keuzes.
- - Kwalitatief onderzoekBegrijp drempels, motivaties en gedrag van je gebruikers en ontdek de grootste optimalisatiekansen.
  - AutomatiseringenVersnel je optimalisatieproces met automatiseringen. Minder handmatig werk, meer tijd voor inzicht en strategie.
  - Process MiningOntdek verborgen paden, knelpunten en kansen om de online ervaring te verbeteren, onderbouwd met data.
- Bekijk alle diensten
Trainingen
- - Training Conversie SpecialistWil je alles leren over conversie-optimalisatie? In deze training leer je testen, analyseren en optimaliseren als een pro. Van kennis van A/B-testen tot psychologie en UX.
  - Training ConsumentenpsychologieOm de conversie te verbeteren van je website, webshop of product is het essentieel om de drijfveren van je klanten te begrijpen. Tijdens de cursus consumentenpsychologie leer je vijf optimalisatie strategieën om je CRO-programma naar een hoger niveau te tillen.
  - Training Data analyse voor CROPraktische training waarin je leert data te analyseren, valideren en overtuigend te presenteren binnen CRO.
- - Incompany TrainingenOp maat gemaakte trainingen voor teams die willen groeien in experimenteren, validatie en conversie-optimalisatie.
- Bekijk alle opleidingen
Klanten en Resultaten
- - Hoe Bidfood met process mining blinde vlekken in klantgedrag ontdekteWeten hoe klanten écht door je platform bewegen? Bidfood ontdekte het via process mining en verbeterde gericht hun blinde vlekken.
  - Een succesvol experimenteerprogramma volgens DPG MediaHoe DPG Media met een sterk team, slimme tools en training bouwt aan een volwassen experimentatiecultuur.
  - Hoe AW Lab de eerste stap zette naar een validatie-gedreven cultuur
- - CRO bij Beter BedWat leer je van 10 jaar CRO bij Beter Bed? Inzichten, valkuilen én hoe ze hun testcultuur stevig verankerden.
  - Hoe NS een succesvolle CRO-strategie opbouwt met Online DialogueLees hoe een grote organisatie als NS de basis legt voor een succesvolle validatiecultuur. En in één jaar groeide van 27 naar 145 testen.
  - Learning-by-doing: 4 jaar samenwerken aan het CRO-programma van VodafoneZiggoHoe VodafoneZiggo in 4 jaar groeide van testen op onderbuik naar een stevig CRO-programma met 20 teams en een Center of Excellence.
- Bekijk alle klantcases
Blogs
CRO toolkit
Over ons
- - TeamGedreven specialisten die leren door te experimenteren
  - EventsKennis delen en elkaar inspireren. We brengen vakgenoten samen om te leren en te groeien.
  - Partners Online DialogueTools van onze partners die helpen om gedrag en data te vertalen naar impact.
- - Neem contact opGeïnteresseerd in onze aanpak of een samenwerking? We gaan graag met je in gesprek.
  - Schrijf je in voor de nieuwsbriefBlijf op de hoogte van het laatste nieuws over CRO en experimenteren!
  - VacaturesKom werken bij hét bureau voor datagedreven optimalisatie.

We zoeken nieuwe collega’s! Bekijk onze openstaande vacatures.

Zo kun je experimenten nog beter valideren

Reinier Koolmees

Data Analist

12-06-2020 - minuten leestijd

Kun jij eigenlijk wel blind varen op die ene metric van een A/B-test? En kan een organisatie wel overeind blijven door eens niet naar bepaalde business metrics te kijken?

In het algemeen kun je stellen dat organisaties een sterke behoefte hebben aan metrics. Zonder de juiste meetinstrumenten zijn ze redelijk stuurloos. “Missen is gissen” zeggen ze wel eens. Dat geldt zeker voor commerciële bedrijven. Het bepalen van de juiste key metrics blijkt daar niet altijd eenvoudig en dat geldt zeker voor het krijgen van een interne consensus daarover. Key metrics kunnen uiteindelijk door en voor een organisatie zijn “opgelegd” maar kunnen ook in het leven zijn geroepen om specifieke prestaties van een team of product te meten.

Hoe zit dat precies met online experimenten zoals A/B-testen? Welke metrics spelen een belangrijke rol bij het valideren van een hypothese? En hoe kun je die metrics dan weer valideren?

‘De onzichtbare metric’

Metrics brengen structuur, zorgen voor focus en helpen je bij het nemen van de juiste beslissingen. Daarmee dragen ze bij aan verandering en geven ze een positieve bijdrage aan de strategie en richting van een organisatie. Zeker wanneer je in jouw organisatie datagedreven werkt, en experimenten gebruikt om ideeën te valideren, zijn metrics onmisbaar om succes of verlies aan te tonen.

Maar zelfs wanneer metrics van een A/B-test niet overtuigend in het groen of rood schieten, en er dus geen significant effect aangetoond kan worden (als er überhaupt al een effect aanwezig is), dan blijft een metric toch wel een fijne strohalm waar je je aan vast kunt klampen. Zeker als de hypothese van een experiment gericht is op het beïnvloeden van die metric.

Maar is dat terecht? Geeft zo’n metric je te allen tijde wel het juiste of volledige beeld?

Mogelijk niet altijd.

Met het valideren van een nieuw idee kan toch onbedoeld iets in het experiment zijn geslopen wat je van te voren niet had voorzien of kon vermoeden. De variant kan bijvoorbeeld een andere (voor jou nog onzichtbare) metric negatief hebben beïnvloed en daarmee tegelijkertijd ook jouw belangrijkste metric.

Het gelijk blijven van bijvoorbeeld het aantal bezoekers met een order zou tegelijkertijd een toename van de gemiddelde orderwaarde (AOV) kunnen betekenen. Dit soort effecten kunnen we misschien nog wel verklaren (toeval, outliers, etc.) of enigszins onderbouwen. Maar er zijn altijd testresultaten die je verder wilt onderzoeken omdat ze veel lastiger te duiden zijn.

Een niet-significant resultaat hoeft bijvoorbeeld niet altijd te betekenen dat je een slecht idee had. Slechte ideeën bestaan sowieso niet want deze kunnen weer leiden tot de juiste ideeën. “Sometimes you win. Sometimes you learn.”

Het punt dat ik hier wil maken is dat een negatieve of niet-significante uitslag ook een andere onderliggende oorzaak zou kunnen hebben gehad dan alleen de invloed van de metric waarvoor je aan het optimaliseren was.

Wat als de testpagina minder goed presteert door een langere laadtijd? Wat als complexere code niet goed wordt uitgevoerd in een bepaald type- of versie browser? En wat als er meer terugkerend bezoek in de test variant komt door een verkeerd ingerichte online campagne? Het zijn slechts voorbeelden van factoren die impact kunnen hebben op het resultaat. Tja, maar wat doe je dan?

‘Slow down experiments’

Product teams in organisaties zijn vaak bezig om nieuwe features voor de website of app te ontwikkelen. Dit wordt veelal gedaan met als doel om key metrics positief te beïnvloeden. De organisatie hamert bijvoorbeeld op meer orders. Of misschien is meer engagement wel wat men nastreeft. De kans bestaat in ieder geval dat men hierdoor uit het oog verliest dat nieuwe features ongemerkt meer kunnen beïnvloeden dan alleen de belangrijkste metrics die dienen voor succes. Of het kan averechts werken.

Het introduceren van wijzigingen (een nieuwe feature, nieuwe code, etc.) hoeft niet meteen een betere ervaring en ook een betere conversie te betekenen. Wij weten als optimizers als geen ander dat je alles eerst moet valideren. We weten ook al jaren dat techniek en snelheid (of liever gezegd: traagheid) op alle fronten conversie killers zijn. Er bestaan zelfs krachtige manieren om dit te testen in de vorm van slow down experiments.

Amazon heeft dit ooit gedaan en toonde met zo’n experiment aan dat een bewust ingebouwde vertraging van slechts 100 milliseconden resulteerde in een 1% verkoopdaling. Dat gaat bij Amazon om veel geld. Heel veel geld.

Dit is het bewijs dat ook niet-zichtbare elementen (zoals bijv. een pagetimeload-metric) impact kunnen hebben op key metrics en dus ook op de gehele business!

Goals & drivers en guardrails

Wanneer je al flink aan het experimenteren bent, werk je waarschijnlijk al veel met goal- en driver metrics. Ik zet ze hieronder nog even op een rijtje om het verschil in metrics, en de relatie tot elkaar aan te geven.

Goal metrics

Goal metrics zijn succes metrics en gaan over hoofddoelen (goals). Ze zijn doorgaans gekoppeld aan het mission statement van een organisatie en gaan over zaken die men écht belangrijk vindt. Het bekendste voorbeeld van een goal metric (ook wel key metric genoemd) is de order- of transactie metric.

Driver metrics

Driver metrics geven indicaties dat we ons in de juiste richting aan het bewegen zijn om onze doelen te behalen. Ze dragen daarom direct bij aan de goal metrics en gaan veelal over ‘user engagement’ en ‘user retention’ en dergelijke. Voorbeelden van driver metrics zijn de net promoter score (NPS) en het aandeel terugkerende bezoekers of nieuwe registraties op de website.

Hoe kun je er voor zorgen dat bovenstaande metrics betrouwbaar zijn? Guardrail metrics kunnen je hierbij helpen.

Guardrail metrics

Guardrail metrics hebben als hoofddoel je ondersteuning te bieden. Ze zorgen voor de betrouwbaarheid van het resultaat van de goal metric en waarschuwen als iets niet goed is. Ze dragen overigens niet bij aan de businesswaarde zoals een goal metric dat wel doet.

Door hun ‘gevoelige aard’ hebben guardrail metrics een lagere statistische variantie waardoor ze sneller voor significantie zorgen. Hierdoor zijn fouten sneller aan te tonen. Voorbeelden van guardrail metrics zijn SRM (Sample Ratio Mismatch), of metrics die bijvoorbeeld latency of pagina laadtijd monitoren.

Guardrail metrics zijn cruciaal maar worden nog niet altijd omarmd door organisaties die aan het experimenteren zijn, terwijl ze wel direct impact hebben op goal- en driver metrics. Het gebruik van guardrail metrics hoort overigens wel bij een bepaalde mate van volwassenheid binnen een CRO-team of CRO-programma.

De grote techbedrijven, die het experimenteren tot kunst verheven hebben, hanteren soms wel tientallen tot honderden guardrail metrics per online experiment. Dan blijkt ineens dat wijzigingen in specifieke gevallen een onverwachte impact op de business kunnen hebben.

Overall Evaluation Criteria

Wat zou het toch fantastisch zijn als we alles wat we doen kunnen vatten in één metric. Eén enkele metric die alle andere metrics overbodig maakt? Helaas is dat niet mogelijk. Een cockpit van een vliegtuig of een dashboard van een auto heeft tenslotte ook meerdere meetinstrumenten nodig. Het is onverantwoord om te vliegen, varen of rijden op slechts één metric.

Toch bestaat er een methode die je kunt toepassen om het succes van een online experiment beter te valideren dan door alleen maar naar een goal- of key metric te kijken. Dit kun je doen door verschillende metrics samen te brengen in één metric.

In ons vakgebied wordt dit een OEC ofwel de Overall Evaluation Criteria van een experiment genoemd. Meerdere metrics worden betrokken en meegewogen in het resultaat van een A/B-test. Het eindoordeel op dit resultaat is hierdoor beter onderbouwd en geeft extra zekerheid voor implementatie.

In een OEC zijn doorgaans één of meerdere key metrics samengebracht als één KPI en deze zijn aangevuld met enkele guardrail metrics. Het grote verschil tussen een OEC en een guardrail is dat een OEC wél bijdraagt aan de businesswaarde (lifetime value) van een organisatie.

Online Dialogue heeft voor één van de grootste e-commerce bedrijven van Nederland aan een OEC gewerkt. Ondermeer mijn collega Anouk Erens was daar nauw bij betrokken.

Anouk: “Voor een grote e-commerce speler hebben we meegeholpen om de OEC te bepalen. Welke metrics horen er in deze OEC en zijn ze allemaal belangrijk? Op welke manier kun je deze betrouwbaar meten? En welke relatie bestaat er met de andere key metrics? Het opstellen van een OEC is een proces waarin veel afstemming plaatsvindt tussen verschillende afdelingen. Je vangt als het ware je hele bedrijfsdoel onder één overkoepelende metric, dan moet deze metric wel goed doordacht zijn.”

Een OEC opstellen

Het is echt van belang om intern bij je organisatie de belangrijkste metric(s) onder de aandacht te blijven brengen. Dat je dan tegelijkertijd een extra mate van betrouwbaarheid kunt garanderen, is nog eens heel mooi meegenomen. Echt niet iedereen in een organisatie is hier al mee bekend. Weten is meten! Ja ja, je leest het goed. Soms moet je echt even omdenken…

Daarnaast straalt dit ook af op jouw werk. Daar kan een organisatie alleen maar blij om zijn, toch? Daarom denk ik dat iedereen het bestaan van een goed ingerichte OEC uiteindelijk alleen maar kan toejuichen. Of dat nou het COE is of misschien wel de CEO. Iedereen profiteert!

Reinier Koolmees

Data Analist

Dagelijks is Reinier als analist bij Online Dialogue bezig met datagedreven conversie optimalisatie en het vertalen van data naar inzichten. Online Dialogue is al 10 jaar een toonaangevend CRO-bureau, waar mensen, kwaliteit en kennisoverdracht centraal staan. Wij helpen onze opdrachtgevers betere en betrouwbaardere beslissingen te nemen aan de hand van data en psychologie.

Deze blogs vind je vast ook interessant

5 maart 2026

Why experimentation is becoming an operating model for smart organizations

A conversation with Valentin Radu, founder of Omniconvert, on experimentation as an operating model, AI and sustainable digital growth. Read more

Maud Vermeulen

24 november 2025

Worden we slimmer of juist dommer door AI? De inzichten van Klöpping, Scherder en Online Dialogue

Reflectie op Klöpping × Scherder door Simon Buil (Data-analist bij Online Dialogue)

Simon Buil

18 november 2025

Eventverslag: Dialogue Donderdag #49: The Learning Era, Data Trends & Experimenteren binnen Product

Afgelopen donderdag vond de 49e editie van Dialogue Donderdag (DiDo) plaats. DiDo is hét kennisevent voor professionals in conversieoptimalisatie, productontwikkeling en datagedreven werken.

Maud Vermeulen