In de CRO-wereld hoor je veel over power berekeningen. Als datascientist bij Online Dialogue krijg ik vaak de vraag van onze klanten: ‘over welke power gaat het?’ En: ‘wanneer doe je deze power berekening?’ Dus ik dacht, ik schrijf er een artikel over. In dit blog leg ik je uit wat power is, hoe je het berekent en waarvoor je het gebruikt.
TL;DR
- A-priori power (MDE) zorgt ervoor dat onze experimenten gevoelig genoeg zijn om een effect te vinden wanneer deze in werkelijkheid aanwezig is.
- A posteriori power calculaties zijn nutteloos door de 1:1 relatie tussen power en p-waarde. Het is dus veel informatiever naar de exacte p-waarde en confidence interval te kijken.
- A-priori power is ook noodzakelijk wanneer we bayesiaanse statistiek toepassen om er zeker van te zijn dat we voldoende bewijslast verzamelen.
Wat is power?
Statistische power is een definitie van de kans dat een test of experiment een effect vindt als deze daadwerkelijk aanwezig is. Bij experimenten doen we de aanname dat onze random steekproef representatief is voor de werkelijkheid. Maar het kan zo zijn dat het resultaat wat je in deze steekproef vind, niet het echte resultaat is; je maakt daarmee een meetfout. Om het risico op zulke meetfouten zoveel mogelijk te beperken passen we statistiek toe. Power berekeningen zijn daarin methodes om de meetfout omtrent Type II errors (False Negatives) te beperken.
Power berekeningen gaan over de gevoeligheid van je experiment voor het detecteren van een werkelijk effect. Hoe hoger deze gevoeligheid, hoe groter de kans dat de test een effect gaat vinden in je steekproef wanneer deze in de werkelijkheid aanwezig is. Met een hoge gevoeligheid verkleinen we de kans dat we een werkelijk effect missen in onze testuitslag (False Negative). Zo garanderen we dat we kunnen kapitaliseren op alle mogelijke verbeteringen.
Het belang van a priori power analysis (oftewel MDE)
Het power niveau, ofwel de gevoeligheid van een experiment, bepalen we voordat we het experiment gaan uitvoeren. In de wetenschap doen we een powerberekening om de grootte van de steekproef (sample size) te bepalen die nodig is om een interessant effect te vinden. In het online experimenteren draaien we deze formule om, we weten namelijk de grootte van de steekproef al (namelijk het aantal bezoekers dat de testpagina bezoekt) en bepalen hiermee wat de grootte van het effect (zoals uplift) is dat we kunnen detecteren. We berekenen dus de Minimal Detectable Effect (MDE) van verschillende weken looptijd en kiezen hieruit de best passende looptijd.
Veel bedrijven hanteren een power level van 80%, dit wordt in de industrie gezien als de beste trade-off tussen de kans op het vinden van winnaars in een zo’n kort mogelijke looptijd. Het hanteren van een zo’n hoog mogelijk power level zorgt ervoor dat we geen effecten missen.
Minimal Effect of Interest (MEI) als alternatief op MDE
In zijn boek en recente blog beschrijft Georgi Georgev dat de MDE eigenlijk een oversimplificatie is van de grondige statistische kunde die nodig is om een goede sample size of looptijd te berekenen voor een experiment. Hij pleit dat we niet alleen moeten kijken naar het te detecteren effect, maar dat er een kosten/baten analyse bij hoort die bepaalt wat het minimale effect is zodat implementatie nuttig en interessant wordt. Hierbij kijken we dus niet alleen naar het minimaal te detecteren effect (MDE) maar naar het minimaal interessante effect (MEI). Kosten/baten analyses worden veelal achteraf gedaan, bijvoorbeeld als we zien dat een winnaar ongeveer 50.000 euro extra omzet zal genereren gaan we pas kritisch kijken naar de kosten van het bouwen, implementeren en onderhouden van de geteste aanpassing. Binnen het MEI framework wordt dit dus al van tevoren bepaald. Lees hier het hele artikel.
De onzin van observed power
Power bereken je dus voordat je de test gaat uitvoeren en is gebaseerd op het gemiddeld aantal bezoekers die de testpagina hebben gezien in de afgelopen periode. Maar wat als het aantal bezoekers in je experiment uiteindelijk minder is dan je verwacht had in je berekening? Kun je deze underpowered test dan wel vertrouwen?
Het korte antwoord is ‘Ja, wanneer je goed naar de p-waarde kijkt.’
Er zijn verschillende manieren om de power te bereken nadat de test is uitgevoerd (post- of observed power). De formules hiervoor zijn nagenoeg gelijk aan de MDE, alleen vul je nu de daadwerkelijke sample size in die je in je test hebt zitten. Echter zijn deze berekeningen niet echt nodig. Dit komt omdat de p-waarde van een test een 1:1 relatie heeft met de power die in de test zit (Hoenig & Heisey, 2001). Oftewel, wanneer de power in je test lager is dan van tevoren berekend (omdat de aantallen tegenvallen), zal de p-waarde van je test hoger zijn. Met het kritisch bekijken van je p-waarde ondervang je al de extra onzekerheid van het gevonden effect. In plaats van het berekenen van de post-power is het dus nuttiger om te kijken naar de p-waarde van de test en het bijbehorende betrouwbaarheidsinterval.
Het belang van power in Bayesian Statistics
Alles hierboven is beschreven vanuit een frequentistische perspectief, waarin we dus met onze statistische toets proberen uit te zoeken of we de nulhypothese kunnen verwerpen of niet. Met de p-waarde berekenen de betrouwbaarheid van onze steekproef. Met bayesiaanse statistiek berekenen we niet of we wel of niet de nulhypothese kunnen verwerpen maar hoe groot de ‘belief’ (kans) is dat onze gestelde hypothese klopt. De bayesiaanse kansberekening geeft dus aan hoeveel bewijslast er is gevonden voor het onderzochte effect. Hoe lager de bewijslast, hoe lager de bayesiaanse kans dat het effect er in werkelijkheid is.
Is power dan ook nodig voor bayesiaanse statistiek?
Soms wordt beargumenteerd dat power analyses niet nodig zijn in bayesiaanse testen, lage power geeft namelijk weinig bewijslast en dus een lage bayesiaanse kans. In de online experimenteer praktijk is dit echter anders. De bayesiaanse statistiek gaat er namelijk vanuit dat je alleen een bewijslast hoeft te vinden voor een verwachting van de uitslag. Voor je gaat experimenteren heb je dus al een ‘prior belief’, in je experiment kijk je of de data je prior belief bevestigd en vorm je je ‘posterior belief’. Als je prior belief en je posterior belief dicht bij elkaar in de buurt liggen heb je een hoge bayesiaanse kans; spreken de verwachting en de data elkaar echter tegen dan wordt je bayesiaanse kans ook lager.
Het probleem hier is dat we in het online experimenteren geen prior belief gebruiken. In veruit de meeste gevallen stellen we een ‘non-informative prior’, ofwel we doen de aanname dat we nog helemaal niks weten over het effect van ons experiment. Hierdoor wordt de bayesiaanse berekening zeer vergelijkbaar aan de frequentistische en is power dus essentieel om er voor te zorgen dat we voldoende bewijslast te verzamelen. Dit is ook gedemonstreerd in dit artikel van David Robinson op varianceexplained.org.
Tot slot
Ik hoop dat ik je nieuwe inzichten heb gegeven in power. Heb je vragen, opmerkingen of andere zaken? Ik hoor ze graag! Even mailen naar: analisten@onlinedialogue.com