De looptijd van een experiment is waarschijnlijk één van de moeilijkere zaken om correct te krijgen. Wanneer je het experiment te kort draait loop je mogelijk het risico op onvoldoende significantie of power en wanneer het te lang draait verspil je onnodige resources, naast andere problemen.
Hoe lang te draaien?
Met de oudere frequentist test benadering, was het van groot belang dat je van tevoren de doorlooptijd van het experiment juist inschatte. Door gebruik te maken van een tool als de A/B test duration calculator kon je zien hoe lang het experiment moest draaien. Deze tools nemen parameters zoals de huidige conversieratio en het aantal bezoekers op de website mee in de berekening.
Minimale doorlooptijd
Indien mogelijk zou je het experiment voor een minimum van 7+1 dagen moeten draaien. Dit betekent een volledige week plus nog een extra dag om zeker te zijn. Door dit zo te doen sluit je mogelijke effecten uit die optreden op bepaalde weekdagen (of weekenddagen). Wanneer je nog zekerder wilt zijn probeer dan 14+1 dagen te kiezen zodat je ook nog specifieke gebeurtenissen in de eerste week uitsluit en een hoger aantal conversies per variaties zult hebben.
Maximale doorlooptijd
Iets om in gedachten te houden is dat het ook mogelijk is om een test te lang te draaien. Niet alleen kan dit zorgen voor onnodig verspilde resources die je testresultaten vervuilen. Zoals uitgelegd door Ton Wesseling, zal tevens ongeveer 10% van je bezoekers hun cookies wissen tijdens een experiment dat twee weken loopt. Wanneer je besluit een experiment te draaien dat zes weken nodig heeft om de vereiste significantie te halen dan betekent dit dat je een aanzienlijk deel van je bezoekers niet juist doormeet.
Bayesiaans testen
De meeste A/B testing tools hebben nu een Bayesiaans statistisch model om de betrouwbaarheid van de resultaten die ze weergeven te evalueren. Deze nieuwere statistische aanpak elimineert grotendeels de noodzaak om de correcte doorlooptijd te schatten voordat je een test gaat draaien. Echter, het kan nog steeds helpen om vantevoren te kijken of je genoeg conversies per variatie zult hebben in het beoogde timeframe. Andere afdelingen gaan er immers mogelijk van uit dat een test op een bepaalde datum is gestart of beëindigd.
Voortijdig stoppen
Experimenten worden vaak voortijdig gestopt omdat de testing tool aangeeft dat deze voldoende significantie hebben bereikt of een hoge betrouwbaarheid hebben. Zoals beschreven door Evan Miller kan niet zorgen voor false positives (ook wel Type I fouten genoemd). Met de nieuwe Bayesiaanse statistische modellen is de beste aanpak om deze fouten te voorkomen dat je zorgt voor tenminste 100 conversies per variatie op het te analyseren doel (hoewel dit aantal bij voorkeur 250+ zal zijn). Met een dergelijk volume is de kans dat je tegen problemen met een te kleine steekproef aanloopt voldoende geminimaliseerd.
Engelse vertaling: How Long to Run an A/B Test?
Hij is de oprichter van ConversionReview. Hij bouwt en optimaliseert inmiddels al 15+ jaar websites, en met veel succes.
Bovenop zijn digitale vaardigheden is Theo tevens een afgestudeerd psycholoog, en frequent spreker op evenementen over de hele wereld.