Een van de gouden standaarden binnen conversie optimalisatie is het uitvoeren van (A/B-)testen. Experimenteren is de grondslag voor het nemen van datagedreven (design) beslissingen, maar gedegen experimenten uitvoeren kost tijd. En tijd is geld. In dit artikel leggen we daarom uit hoe we onze experimenteer tijd kunnen optimaliseren door sequentieel te testen.
Waarom sequentieel testen?
Voordat we beginnen met een A/B-test berekenen we eerst met een power calculatie de minimale sample size (of duur) die een test moet hebben, voordat we er statische relevante conclusies uit kunnen trekken. In de praktijk betekent dit vaak dat testen minimaal twee tot vier weken live moeten staan voor we de aantallen hebben om een significant verschil te kunnen vinden, als dit al aanwezig is. Maar wat als nu blijkt dat die nieuwe variant die we testen een enorme verliezer is? Door het lang aan laten staan van dit soort testen verliezen we geld. Eveneens, met wachten met het implementeren van een overduidelijke winnaar lopen we inkomsten mis. Zakelijk gezien heb je dus baat bij het minimaliseren van deze verliezen. Sequentieel testen biedt hier een oplossing voor.
Waarom doen we dit niet al gewoon?
Bij sequentieel testen laten we, in principe, de minimale sample size los en evalueren we data zodra deze binnenkomt totdat we een gewenst significantie niveau hebben bereikt, waarna we de test stoppen. Dit brengt een statistisch probleem met zich mee. Wanneer we meerdere statistische testen uitvoeren op dezelfde data, dan verhogen we daarmee de Type I error (false positive rate – α) en de kans dat we een verschil vinden in onze test wat er in werkelijkheid niet is. Om dit te corrigeren zullen we het alpha level van elke tussentijdse test moeten aanpassen zodat de uiteindelijke Type I error rate aan het eind van alle testen acceptabel blijft om een statistisch significant resultaat te kunnen rapporteren. Oftewel, we willen er voor zorgen dat aan het eind van alle testen de p-waarde van alle testen samen nog steeds onder de gestelde grens zit (bijvoorbeeld p<0.05). In de praktijk betekent dit dat de p-waardes aan het begin van de testreeks erg klein zijn. Door dit hogere significantie niveau is het dus lastiger om een statistisch significant verschil te tonen en de test te stoppen. Verschillende statistici zoals Pocock en O’Brien & Fleming, hebben modellen opgezet voor het berekenen van deze tussentijdse significantie niveaus op basis van het aantal (tussentijdse) testen en de gewenste eind p-waarde. Deze kunnen worden ingezet voor het bepalen van de stopregels voor sequentieel testen.
Tips sequentieel testen in de praktijk:
- Plan maar één tussentijdse test per week. Gezien de relatie van het aantal tussentijdse testen en de hoogte van de p-waarde, is het goed om een laag aantal tussentijdse testen te hebben en niet iedere dag je test te evalueren. Daarnaast is het aan te raden om een test een hele week te hebben lopen om zo de effecten van week- of weekenddagen te middelen. Hierbij wordt dus per volle week geëvalueerd of de test kan worden gestopt of niet.
- Bepaal de p-waarde aan de hand van het doel van de stopregel. Om te bepalen wanneer een duidelijk verliezende variant van een test stopgezet moet worden, is over het algemeen een hogere p-waarde acceptabeler dan voor het investeren in het implementeren van een winnende variant. Het kost je immers iedere dag geld als je een overduidelijke verliezer langer aan laat staan dan nodig.
- Evalueer je resource planning. Sequentieel testen vraagt meer flexibiliteit van je team. Door de stopregels hebben testen geen vooraf bekende doorlooptijd meer. Dit kan een uitdaging zijn voor de planning van je experimenten en development. Daarnaast wil je dat het volgende experiment alvast klaar staat voor livegang. Het zou namelijk zonde zijn om deze testcapaciteit onbenut te laten.
Bespaar tijd en geld
Sequentieel testen is dus een valide manier om te kijken of de testduur verkort kan worden. En een kortere testduur betekent dat er meer testen in dezelfde tijd kunnen worden uitgevoerd en je dus sneller leert. Dit is echter alleen een voordeel als het team ook de capaciteit en flexibiliteit heeft om de testfrequentie op te hogen.
Daarnaast blijft eerder stoppen ook een trade-off tussen beslissingssnelheid en datakwaliteit. Wanneer de stopregel succesvol wordt toegepast, zal er minder data worden verzameld ten behoeve van het testen van de gestelde hypothese. In een kleiner sample heeft signaalvervuiling een groter effect; bijvoorbeeld de invloed van een bepaalde kortdurende gebeurtenis in dezelfde week als je dataverzameling. Normaal zou zo’n effect gemiddeld worden over meerdere weken van de dataverzameling. Als gevolg heeft je data een lagere informatiewaarde en kan minder rijk zijn om verdere lessen uit te trekken.
Deze trade-off en de uitdaging van het succesvol implementeren van het proces, maken sequentieel testen een prachtig onderwerp voor een stevige discussie tussen de data analist en business manager. Happy experimenting!