Zo kun je experimenten nog beter valideren

Kun jij eigenlijk wel blind varen op die ene metric van een A/B-test? En kan een organisatie wel overeind blijven door eens niet naar bepaalde business metrics te kijken? 

In het algemeen kun je stellen dat organisaties een sterke behoefte hebben aan metrics. Zonder de juiste meetinstrumenten zijn ze redelijk stuurloos. “Missen is gissen” zeggen ze wel eens. Dat geldt zeker voor commerciële bedrijven. Het bepalen van de juiste key metrics blijkt daar niet altijd eenvoudig en dat geldt zeker voor het krijgen van een interne consensus daarover. Key metrics kunnen uiteindelijk door en voor een organisatie zijn “opgelegd” maar kunnen ook in het leven zijn geroepen om specifieke prestaties van een team of product te meten.

Hoe zit dat precies met online experimenten zoals A/B-testen? Welke metrics spelen een belangrijke rol bij het valideren van een hypothese? En hoe kun je die metrics dan weer valideren?

‘De onzichtbare metric’

Metrics brengen structuur, zorgen voor focus en helpen je bij het nemen  van de juiste beslissingen. Daarmee dragen ze bij aan verandering en geven ze een positieve bijdrage aan de strategie en richting van een organisatie. Zeker wanneer je in jouw organisatie datagedreven werkt, en experimenten gebruikt om ideeën te valideren, zijn metrics onmisbaar om succes of verlies aan te tonen. 

Maar zelfs wanneer metrics van een A/B-test niet overtuigend in het groen of rood schieten,  en er dus geen significant effect aangetoond kan worden (als er überhaupt al een effect aanwezig is), dan blijft een metric toch wel een fijne strohalm waar je je aan vast kunt klampen. Zeker als de hypothese van een experiment gericht is op het beïnvloeden van die metric. 

Maar is dat terecht? Geeft zo’n metric je te allen tijde wel het juiste of volledige beeld? 

Mogelijk niet altijd.

Met het valideren van een nieuw idee kan toch onbedoeld iets in het experiment zijn geslopen wat je van te voren niet had voorzien of kon vermoeden. De variant kan bijvoorbeeld een andere (voor jou nog onzichtbare) metric negatief hebben beïnvloed en daarmee tegelijkertijd ook jouw belangrijkste metric.

Het gelijk blijven van bijvoorbeeld het aantal bezoekers met een order zou tegelijkertijd een toename van de gemiddelde orderwaarde (AOV) kunnen betekenen. Dit soort effecten kunnen we misschien nog wel verklaren (toeval, outliers, etc.) of enigszins onderbouwen. Maar er zijn altijd testresultaten die je verder wilt onderzoeken omdat ze veel lastiger te duiden zijn.

Een niet-significant resultaat hoeft bijvoorbeeld niet altijd te betekenen dat je een slecht idee had. Slechte ideeën bestaan sowieso niet want deze kunnen weer leiden tot de juiste ideeën. “Sometimes you win. Sometimes you learn.”

Het punt dat ik hier wil maken is dat een negatieve of niet-significante uitslag ook een andere onderliggende oorzaak zou kunnen hebben gehad dan alleen de invloed van de metric waarvoor je aan het optimaliseren was. 

Wat als de testpagina minder goed presteert door een langere laadtijd? Wat als complexere code niet goed wordt uitgevoerd in een bepaald type- of versie browser? En wat als er meer terugkerend bezoek in de test variant komt door een verkeerd ingerichte online campagne? Het zijn slechts voorbeelden van factoren die impact kunnen hebben op het resultaat. Tja, maar wat doe je dan? 

‘Slow down experiments’

Product teams in organisaties zijn vaak bezig om nieuwe features voor de website of app te ontwikkelen. Dit wordt veelal gedaan met als doel om key metrics positief te beïnvloeden. De organisatie hamert bijvoorbeeld op meer orders. Of misschien is meer engagement wel wat men nastreeft. De kans bestaat in ieder geval dat men hierdoor uit het oog verliest dat nieuwe features ongemerkt meer kunnen beïnvloeden dan alleen de belangrijkste metrics die dienen voor succes. Of het kan averechts werken.

Het introduceren van wijzigingen (een nieuwe feature, nieuwe code, etc.) hoeft niet meteen een betere ervaring en ook een betere conversie te betekenen. Wij weten als optimizers als geen ander dat je alles eerst moet valideren. We weten ook al jaren dat techniek en snelheid (of liever gezegd: traagheid) op alle fronten conversie killers zijn. Er bestaan zelfs krachtige manieren om dit te testen in de vorm van slow down experiments

Amazon heeft dit ooit gedaan en toonde met zo’n experiment aan dat een bewust ingebouwde vertraging van slechts 100 milliseconden resulteerde in een 1% verkoopdaling. Dat gaat bij Amazon om veel geld. Heel veel geld.

Dit is het bewijs dat ook niet-zichtbare elementen (zoals bijv. een pagetimeload-metric) impact kunnen hebben op key metrics en dus ook op de gehele business!

Goals & drivers en guardrails

Wanneer je al flink aan het experimenteren bent, werk je waarschijnlijk al veel met goal- en driver metrics. Ik zet ze hieronder nog even op een rijtje om het verschil in metrics, en de relatie tot elkaar aan te geven.

Goal metrics

Goal metrics zijn succes metrics en gaan over hoofddoelen (goals). Ze zijn doorgaans gekoppeld aan het mission statement van een organisatie en gaan over zaken die men écht belangrijk vindt. Het bekendste voorbeeld van een goal metric (ook wel key metric genoemd) is de order- of transactie metric.

Driver metrics

Driver metrics geven indicaties dat we ons in de juiste richting aan het bewegen zijn om onze doelen te behalen. Ze dragen daarom direct bij aan de goal metrics en gaan veelal over ‘user engagement’ en ‘user retention’ en dergelijke. Voorbeelden van driver metrics zijn de net promoter score (NPS) en het aandeel terugkerende bezoekers of nieuwe registraties op de website.

Hoe kun je er voor zorgen dat bovenstaande metrics betrouwbaar zijn? Guardrail metrics kunnen je hierbij helpen.

Guardrail metrics

Guardrail metrics hebben als hoofddoel je ondersteuning te bieden. Ze zorgen voor de betrouwbaarheid van het resultaat van de goal metric en waarschuwen als iets niet goed is. Ze dragen overigens niet bij aan de businesswaarde zoals een goal metric dat wel doet. 

Door hun ‘gevoelige aard’ hebben guardrail metrics een lagere statistische variantie waardoor ze sneller voor significantie zorgen. Hierdoor zijn fouten sneller aan te tonen. Voorbeelden van guardrail metrics zijn SRM (Sample Ratio Mismatch), of metrics die bijvoorbeeld latency of pagina laadtijd monitoren. 

Guardrail metrics zijn cruciaal maar worden nog niet altijd omarmd door organisaties die aan het experimenteren zijn, terwijl ze wel direct impact hebben op goal- en driver metrics. Het gebruik van guardrail metrics hoort overigens wel bij een bepaalde mate van volwassenheid binnen een CRO-team of CRO-programma.

De grote techbedrijven, die het experimenteren tot kunst verheven hebben, hanteren soms wel tientallen tot honderden guardrail metrics per online experiment. Dan blijkt ineens dat wijzigingen in specifieke gevallen een onverwachte impact op de business kunnen hebben. 

Overall Evaluation Criteria

Wat zou het toch fantastisch zijn als we alles wat we doen kunnen vatten in één metric. Eén enkele metric die alle andere metrics overbodig maakt? Helaas is dat niet mogelijk. Een cockpit van een vliegtuig of een dashboard van een auto heeft tenslotte ook meerdere meetinstrumenten nodig. Het is onverantwoord om te vliegen, varen of rijden op slechts één metric.

Toch bestaat er een methode die je kunt toepassen om het succes van een online experiment beter te valideren dan door alleen maar naar een goal- of key metric te kijken. Dit kun je doen door verschillende metrics samen te brengen in één metric.

In ons vakgebied wordt dit een OEC ofwel de Overall Evaluation Criteria van een experiment genoemd. Meerdere metrics worden betrokken en meegewogen in het resultaat van een A/B-test. Het eindoordeel op dit resultaat is hierdoor beter onderbouwd en geeft extra zekerheid voor implementatie. 

In een OEC zijn doorgaans één of meerdere key metrics samengebracht als één KPI en deze zijn aangevuld met enkele guardrail metrics. Het grote verschil tussen een OEC en een guardrail is dat een OEC wél bijdraagt aan de businesswaarde (lifetime value) van een organisatie.

Online Dialogue heeft voor één van de grootste e-commerce bedrijven van Nederland aan een OEC gewerkt. Ondermeer mijn collega Anouk Erens was daar nauw bij betrokken. 

Anouk: “Voor een grote e-commerce speler hebben we meegeholpen om de OEC te bepalen. Welke metrics horen er in deze OEC en zijn ze allemaal belangrijk? Op welke manier kun je deze betrouwbaar meten? En welke relatie bestaat er met de andere key metrics? Het opstellen van een OEC is een proces waarin veel afstemming plaatsvindt tussen verschillende afdelingen. Je vangt als het ware je hele bedrijfsdoel onder één overkoepelende metric, dan moet deze metric wel goed doordacht zijn.”

Een OEC opstellen

Het is echt van belang om intern bij je organisatie de belangrijkste metric(s) onder de aandacht te blijven brengen. Dat je dan tegelijkertijd een extra mate van betrouwbaarheid kunt garanderen, is nog eens heel mooi meegenomen. Echt niet iedereen in een organisatie is hier al mee bekend. Weten is meten! Ja ja, je leest het goed. Soms moet je echt even omdenken…

Daarnaast straalt dit ook af op jouw werk. Daar kan een organisatie alleen maar blij om zijn, toch? Daarom denk ik dat iedereen het bestaan van een goed ingerichte OEC uiteindelijk alleen maar kan toejuichen. Of dat nou het COE is of misschien wel de CEO. Iedereen profiteert!

Reinier Koolmees - data insight expert

Dagelijks is Reinier als analist bij Online Dialogue bezig met datagedreven conversie optimalisatie en het vertalen van data naar inzichten. Online Dialogue is al 10 jaar een toonaangevend CRO-bureau, waar mensen, kwaliteit en kennisoverdracht centraal staan. Wij helpen onze opdrachtgevers betere en betrouwbaardere beslissingen te nemen aan de hand van data en psychologie.