Experimenteren met lage aantallen

Kunnen we ook leren van weinig verkeer?

Wanneer we de Conversie Specialist-training geven, zien we het vaak terug: CRO-specialisten van (kleinere) webshops die compleet ontmoedigd raken wanneer blijkt dat het verkeer op hun website niet voldoende is om volgens de standaard criteria te gaan A/B-testen. Dit gaat vaak gepaard met een verdrietige uitroep: ‘Maar wat moet ik nu doen?’. Niet getreurd! Ook wanneer je iets minder verkeer hebt of lagere conversie aantallen is het nog steeds de moeite waard om eerst te leren over je bezoekers voordat je zomaar veranderingen aan je website doorvoert. Hiervoor heb je verschillende methodes die ik in deze blog zal toelichten.

Kwantitatieve en kwalitatieve data combineren.

Bij Online Dialogue werken we altijd datagedreven, ook als er weinig verkeer is. We gebruiken daarbij de ‘Hierarchy of Evidence’. In deze piramide worden de verschillende vormen van experimenteren en gebruikersonderzoek gerangschikt naar bewijslast. Methodieken hoog in de piramide hebben een hoge bewijslast, methodieken lager in de piramide geven minder definitief bewijs. 

Als we kijken naar de Hierarchy of Evidence, staat A/B-testen vrij hoog. Dit betekent dat, door de robuustheid van deze onderzoekstechniek, we een laag risico lopen op het maken van een verkeerd implementatiebesluit. Immers, bij A/B-testen hebben we veel ‘bewijs’ dat iets werkt. 

Echter, dit betekent niet dat methodes die lager in de piramide staan ook minder waard zijn. Wanneer we verschillende methodieken combineren kunnen we vergelijkbaar ‘bewijs’ vinden om over te gaan tot implementatie. 

Het combineren van kwalitatief onderzoek en kwantitatieve inzichten uit de verschillende lagen van de pyramide, is een krachtige manier om te optimaliseren. Bekende voorbeelden hiervan zijn het aanvullen van data – deepdives en funnelanalyses met kwalitatief onderzoek zoals surveys. Maar je kan kwalitatief onderzoek ook uitbreiden met bijvoorbeeld preference testen, 5 second testen of card-sorting onderzoek om de behoeften van je klant nog beter in beeld te brengen.

0/1 testen

Wanneer je MDE’s aan de hoge kant zijn om echt goed te kunnen A/B-testen, kunnen 0/1-testen een goed alternatief zijn. Hierin zet je de variant live voor het volledige verkeer en monitor je nauwgezet. Daarna maak je de vergelijking met een periode waarin control live stond om zo het effect te bepalen.

Omdat er geen random split van je verkeer plaatsvindt (zoals in een A/B-test), zijn er in je analyse wat extra uitdagingen waar je rekening mee moet houden. Zo hebben contextuele factoren een grotere invloed. Denk hierbij aan natuurlijke seasonality zoals vakanties of seizoenen, lopende campagnes, of grote wereldgebeurtenissen (pandemieën bijvoorbeeld). Wanneer een van deze factoren alleen van invloed was ten tijde dat de variant live stond, kan dit invloed hebben op de uitslag van je test. Het is daarom handig om een controleperiode te zoeken die qua seasonality, campagnes etc. vergelijkbaar is met de testperiode van de variant. Hierdoor heb je meer zekerheid dat het verschil dat je ziet in bezoekersgedrag kan worden toegeschreven aan de verandering die je hebt gemaakt met je variant. 

Kiezen voor de juiste controle periode kan op verschillende manieren:

  • Benchmark
      • Bekijk je metrics over een langere periode en neem de gemiddelden, bijvoorbeeld van een half jaar. De meeste invloeden van seasonality en campagnes middelen dan uit.
  • Haasje-over
      • Wissel in een periode van meerdere maanden elke week tussen control en variant. Je kan de test lang laten draaien met beperkte invloeden van seasonality en campagnes. De data van de weken kan je bij elkaar optellen. 
      • Let op! Dit werkt alleen wanneer de klanten op je website een korte buying cycle hebben, anders ziet een groot gedeelte beide varianten. 
  • Jaar op jaar
    • Naast de vergelijking van je controleperiode met de testperiode doe je ook de vergelijking met dezelfde periodes een jaar eerder. Hiermee onderzoek je de natuurlijke verschillen tussen de twee periodes wanneer er geen variant live zou staan en kun je hiervoor corrigeren in je analyse.

… Even tussendoor: we sturen elke drie weken een nieuwsbrief met daarin de laatste blogs, teamupdates en natuurlijk nieuws over het aanbod in onze academy. Klik hier om je in te schrijven.

Significantie om te leren

A/B-testen worden traditioneel ingezet om een implementatiebesluit te maken. We proberen uit te zoeken of er (statistisch) genoeg bewijs is dat de verandering die we aandragen in de variant ook daadwerkelijk een verbetering voor de website zal zijn. Om dit bewijs voldoende te laten zijn, hanteren we allerlei grenswaardes. De test moet voldoende power hebben (vaak 80%), dus hij moet lang genoeg aan hebben gestaan zodat genoeg bezoekers hem hebben gezien. Daarnaast is het pas een winnaar wanneer de statistiek met minimaal 80% (of zelfs 90%) bayesiaanse kans heeft bewezen dat de variant het beter doet. Pas wanneer de uitslag aan al deze waarden voldoet, gaan we over tot implementatie. 

Maar wat als we niet aan deze grenswaardes voldoen? 

Wanneer een test te weinig verkeer heeft om aan de power-norm te voldoen, betekent dit niet dat we niks van een experiment kunnen leren. Een underpowered test geeft een minder betrouwbare testuitslag. We kunnen namelijk kleine effecten minder goed detecteren. Hij zou dus in de pyramide aan de onderkant van het A/B-test vlak uitkomen. Het ‘bewijs’ dat we hebben gevonden is minder, maar niet afwezig. De test kan nog steeds een goede indicatie zijn of we wel of niet in de goede richting aan het testen zijn. Immers, de kans dat een testuitslag positief is, maar de werkelijkheid ernstig negatief, is zeer gering (Gelman & Carlin, 2014). 

Dezelfde redenatie gaat op voor een test met een lagere significantie/bayesiaanse kans. Een testuitslag waarin we met 70% bayesiaanse kans hebben aangetoond dat onze variant effect heeft, is misschien niet genoeg bewijs om over te gaan tot het implementeren van de variant. Desalniettemin, laat de testuitslag wel zien dat we een verandering in bezoekersgedrag teweeg hebben gebracht en in de goede richting aan het testen zijn. 

Net als dat we met de combinatie van kwalitatieve en kwantitatieve inzichten meer ‘bewijs’ verzamelen voor dat iets werkt, kunnen we ook meerdere inzichten uit verschillende testen combineren voor een hogere bewijslast. Het is dus van belang dat we voortborduren op de learnings die we uit alle testen halen, ook als het bewijs van elke individuele test lager is. Met een goede combinatie van inzichten verzamelen we zo alsnog voldoende ‘bewijs’ om iets te implementeren, of kunnen we een variant ontwerpen die uiteindelijk wel aan de gestelde grenswaardes voldoet. 

Conclusie

Gedegen experimenteren kan ook wanneer je website lage aantallen of minder verkeer heeft. Door methodieken te combineren die individueel misschien minder ‘bewijs’ voeren dan een A/B-test (die aan alle gestelde grenswaardes voldoet), kunnen we nog steeds genoeg bewijslast verzamelen om een implementatiebesluit te maken. 

Naomi Smulders - data scientist

Naomi raakt geïnspireerd door data, menselijk gedrag en design. Als data scientist bij Online Dialogue werkt zij precies op dat snijvlak. Het samenwerken met collega’s, die stuk voor stuk experts zijn op het gebied van data, psychologie, UX of conversie strategie, geeft haar de kans om haar achtergrond in de psychologie te integreren met kennis van data science. Zo kunnen we bij Online Dialogue experimenteren om te optimaliseren. Perfect.