A/B Test Resulaten Rapporteren Checklist

Resulaten

Dus, je hebt een A/B test opgezet, deze een tijdje laten draaien en ziet een significant verschil in conversie ratios tussen twee van je variaties, en nu?

Verwachtingen managen

Op dit moment is het belangrijk dat je de verwachtingen van de ontvanger van je resultaten goed managed. Zoals beschreven in de ConversionXL blog 5 uncomfortable testing questions zijn de meeste klanten meer dan slechts een klein beetje benieuwd naar de resultaten van je conversie experimenten. Echter, wanneer je er niet in slaagt hen de condities duidelijk te krijgen waaronder dit experiment is gedraaid (en de implicaties die dit heeft voor de resultaten) dan kan dit leiden tot grote verliezen van tijd en geld.

Slecht uitgevoerde testen

Bijvoorbeeld, vorig jaar heeft Qubit geschat dat slecht uitgevoerde A/B testen retailers tot wel $ 13,6 miljard per jaar kosten. Brooks Bell ging zelfs zo ver om een zogenaamde last busted test als KPI voor hun organisatie op te nemen.

A/B test rapporteren checklist

Voordat je gaat overwegen de resultaten van je laatste geslaagde (of gefaalde) A/B test aan je klant of baas te gaan rapporteren, bekijk dan eerst deze checklist. Door te controleren of je alle items af kunt vinken (of in ieder geval de grote meerderheid ervan) zul je de kansen enorm verminderen dat je een winnaar rapporteert die eigenlijk geen winnaar zou zijn wanneer het experiment goed was uitgevoerd.

Looptijd

Alle weekdagen

winnaar Zorg ervoor dat een test op iedere weekdag (maandag - zondag) minimaal één maal heeft gedraaid. Dit dient gedaan te worden om je er van te verzekeren dat eventuele bijzondere effecten die weekend dagen zouden kunnen hebben (bijvoorbeeld hogere conversies in het weekend) op je experiment zichtbaar worden. Wanneer je namelijk je test niet draait op iedere weekdag, zouden je resultaten beïnvloed kunnen worden, wat kan leiden tot incorrecte conclusies.

Wanneer je het zekere voor het onzeker wilt nemen, zorg er dan voor dat je een test minimaal 14 dagen laat draaien om eventuele uitzonderingen van een bepaalde weekdag op je experiment uit te vlakken.

Complete aankoopcyclus

Je bezoekers gaan door een proces voordat ze een aankoop doen op je website. Dit proces wordt een aankoopcyclus genoemd. Hoewel er meerdere manieren zijn om de stappen in een aankoopcyclus te definiëren, omvatten ze meestal: bewustzijn, overweging, intentie en aankoop.

Door je er van te verzekeren dat je test minimaal één volledig aankoopcyclus draait, zul je de effecten van je veranderingen volledig meten. Wanneer je, echter, de test stopzet voordat bezoekers in de ‘intentie’ verder kunnen, geef je ze geen kans om te converteren. Hierdoor kun je niet zien hoe hun gedrag verschilt gebaseerd op de veranderingen die je in de variaties hebt gemaakt.

Niet te lang

Wacht niet net zolang tot je resultaten significant worden. Zoals geschat door Ton Wesseling wist ongeveer 10% van je bezoekers hun testing cookies na ongeveer twee weken. Dit betekent dat deze bezoekers opnieuw in je test geplaatst zullen worden, wat de resultaten mogelijk scheef kan trekken.

Een ander voordeel van je testen niet te lang draaien is dat dit waarschijnlijk leidt tot minder simultaan draaiende testen. Omdat er altijd een kans is dat testen elkaar kunnen beïnvloeden (expert nemen een ‘het zou kunnen’ standpunt hierover in, wordt het geadviseerd het aantal simultaan draaiende testen op dezelfde pagina te minimaliseren. Houd hierbij in gedachten dat de impact van een zogenaamd interactie effect groter is wanneer je een klein aantal bezoekers per test analyseert.

Verkeer

Uitgesloten segmenten

publiek Het is erg belangrijk er voor te zorgen dat de segmenten (of het publiek) dat je in je test bekijkt nauw overeenkomt met dit van al je bezoekers. Bijvoorbeeld, wanneer je mobiele bezoekers uitsluit van je test en een grote winnaar vindt, dan zou dit verschil in theorie volledig ontkracht kunnen worden door eventuele problemen bij mobiele bezoekers wanneer de test live wordt gezet. Deze zelfde logica is ook van toepassing op het uitsluitend van bezoekers die gebruikmaken van bepaalde browsers (zoals Internet Explorer). Zorg ervoor dat de steekproef van bezoekers in je experiment zo representatief mogelijk van je gehele populatie aan bezoekers is.

Verkeer bron/medium mix

Een ander aspect van je verkeer dat je in gedachten dient te houden is de verkeer bronnen/mediums. Wanneer je een experiment draait gedurende een periode wanneer er een scheve verdeling in deze mix is (vergeleken bij een verkeer verdeling die je normaal gesproken hebt) dan kan dit je resultaten beïnvloeden. Bijvoorbeeld, wanneer je een AdWords campagne draait, een grote hoeveelheid affiliate verkeer krijgt, of een viral content hit hebt, dan zul je experiment resultaten laten zien gebaseerd op dat type bezoekers.

Interne IPs

Intern verkeer is meestal irrelevant voor testen en kan de resultaten behoorlijk scheef trekken. Hierom dien je ervoor te zorgen dat er zoveel mogelijk bekende IP adressen uitgesloten worden. Dit omvat de IP adressen van je kantoren (inclusief satelliet kantoren) alsmede de klantenservice en de IP adressen van personen die werken op afstand. Houd er rekening mee dat deze IP adressen uitgesloten dienen te worden zowel in de testing tool en in je web-analyse software om ervoor te zorgen dat de data gesynchroniseerd blijft.

De filters opzetten

ip filter Voor de meeste testing tools omvat dit proces een wijziging in de instellingen die relatief eenvoudig is. Zorg ervoor dat je een label aan de IP adressen koppelt zodat je achteraf nog weet welk IP adres waar bij hoort. Voor Google Analytics bestaat dit proces uit het opzetten van een aangepast filter. De stappen om dit te doen zijn weergegeven in dit Google Help artikel.

Uitverkoop of feestdagen

Wanneer je A/B testen draait tijdens feestdagen dan zullen je bezoekers zich vaak afwijkend gedragen. Hierom zijn de resultaten die je krijgt van deze A/B testen alleen te generaliseren naar een vergelijkbare groep bezoekers. Omdat het gedrag van deze bezoekers vaak radicaal afwijkt van het gemiddelde is het helaas niet geadviseerd om de bevindingen van deze testen te generaliseren naar de rest van het jaar. Om up-to-date date te blijven over feestdagen of eventuele aanbiedingen dien je goed in contact te zijn met de marketingafdeling gedurende het plannen van je A/B testen.

Opzet

Compatibiliteit

apparaten Om te voorkomen dat je resultaten scheefgetrokken worden is het belangrijk dat zowel je origineel als de variaties die je opzet het even goed doen op relevante apparaten en browsers. Houd hierbij in gedachten dat dit niet per se betekent dat de variaties compatibel dienen te zijn met alle apparaten en browsers, maar in het bijzonder met degenen die je bezoekers voornamelijk gebruiken. Je kunt ontdekken welke browsers en apparaten dit zijn door te gaan naar de Google Analytics rapporten ‘Doelgroep > Technologie > Browser & Besturingssysteem’ en ‘Doelgroep > Technologie > Mobiel > Overzicht’.

Doel URLs

Het opzetten van de correcte doel URLs voor een A/B test kan een uitdaging zijn op sommige websites. Echter, wanneer je dit incorrect doet zullen de resultaten van je experiment op zijn minst scheefgetrokken zijn en mogelijk zelf nutteloos. Om er voor te zorgen dat je doelen goed opgezet zijn kan het nuttig zijn om een bezoek te brengen aan zowel je ontwikkelaar als je web-analist. Zijn hebben zeer waarschijnlijk eerder te maken gehad met doel URLs en zullen je de correcte reguliere expressies kunnen verstrekken om je doelen op te zetten.

Laadtijd

pingdom Soms zullen toegevoegde scripts of styling de laadtijd van een variatie vertraging. Gezien de laadtijd een belangrijke factor is in conversie optimalisatie, dien je alle mogelijke moeite te doen om te zorgen dat het origineel en de variatie dezelfde laadtijd hebben. Als het verschil tussen je variaties merkbaar is dan is het geadviseerd om de trage variant te versnellen of de snelle variant te vertragen. Je kunt de laadtijd van een pagina testen met behulp van tools zoals Pingdom of WebPageTest

Interacties

Verzeker jezelf ervan dat je slechts één wijziging per keer test. Bijvoorbeeld als je een test draait die zowel de kleur als de vorm van een CTA knop aanpast, dan [dient deze test opgezet te zijn als een MVT (lees meer over A/B of MVT). Door losse wijzigingen in meerdere A/B testen te draaien kun je vaststellen welke van de wijzigingen het effect veroorzaakt, in plaats van potentieel te kijken naar interacties tussen meerdere wijzigingen.

Statistiek

Genoeg significantie

Statistische significantie bepaalt de kans dat het verschil tussen variaties door pure kans wordt veroorzaakt. Een significantie van 95% betekent daarom dat er een kans van 5% is dat het verschil in conversie ratios tussen twee variaties door kans veroorzaakt wordt, in plaats van door een verschil in gedrag vertoont door je bezoekers. Houdt hierbij in gedachten dat wanneer je probeert te achterhalen of een variant een verliezer is, je gebruik dient te maken van two-tailed significantie testen.

Wijzigingen

Website

Indien één of meer aspecten van je website zijn veranderd dan zou dit van invloed kunnen zijn op de resultaten van je A/B test. Deze aspecten kunnen bijvoorbeeld development releases zijn, promoties of wijzigingen in de gebruikersinterface. Zorg ervoor dat je jezelf up-to-date houdt over deze veranderingen om onverwachte verrassingen te voorkomen wanneer je de resultaten van je A/B test presenteert aan je baas of klant.

Experiment

Slechts een kleine verandering aan de tekst je gebruikt hebt in de variatie. Een minimale aanpassing aan de kleur om deze te laten passen bij je corporate identity? Even een bug fixen die er voor zorgt dat je experiment niet werkt op een bepaalde browser. Al deze wijzigen aan draaiende experiment kunnen de resultaten van je experiment beïnvloeden en dienen daarvoor vermeden te worden.

Verkeer verdeling

Een aanpassing van de verdeling van het verkeer over je varianten is een veelgevraagde aanpassing door klanten en leidinggevenden. Hoewel het aanpassen van de totale hoeveelheid verkeer die wordt verdeeld over je variaties een goede manier kan zijn om het risico van A/B testing te beperken, kan het wijzigen van de onderlinge verdeling je resultaten goed scheeftrekken. Wanneer bijvoorbeeld namelijk je verkeer mix verandert, of het gedrag van je bezoekers wijzigt nadat je de verkeer verdeling hebt aangepast, dan zullen er andere bezoekers door je variaties stromen, wat zorgt voor onjuiste resultaten. Indien je de onderlinge verdeling van het verkeer dat over je variaties gaat wilt aanpassen: stop het experiment, dupliceer het, en zorg dat het nieuwe experiment de nieuwe gewenste verkeer verdeling heeft voordat je het aanzet.

Pauze of downtime

Je wilt niet dat je A/B testen op pauze moeten of dat je een test op enige andere manier tijdelijk op stop moet zetten. Hoewel het risico van pauzeren kleiner is dan wijzigingen in de verkeer verdeling, kun je nog steeds je resultaten aardig overhoop gooien. Dit kleinere risico wordt veroorzaakt door het feit dat er een gelijke hoeveelheid verkeer (niet) stroomt door de verschillende variaties. Echter, in dit geval kunnen er uren of dagen aan data missen, waarin bezoekers zich mogelijk anders gedragen hebben.

Volume

Aantal bezoekers en conversies

lage aantallen Een vuistregel is om minimaal 5.000 bezoekers per variant te hebben en minimaal 100 conversies per variant.

Deze aantallen zijn groot genoeg om uitschieters veroorzaakt door een laag aantal bezoekers teveel invloed te laten hebben op de resultaten. De exacte steekproef grootte is met de opkomst van Bayesiaanse analyses door bijvoorbeeld Smart Stats (VWO) of Stats Engine (Optimizely) niet meer zo relevant als voorheen.

Geverifieerd

Gerepliceerd

Zijn de resultaten van deze A/B test gerepliceerd door een andere A/B test? Mogelijk waren één of meerdere van de factoren die hierboven zijn benoemd niet perfect opgezet, waardoor je een onterechte winnaar hebt. Wanneer je in staat bent om de resultaten te repliceren (wat betekent: een ander tijdsbestek, andere experimenten die er naast draaien, andere bezoekers, etc.) dan zal dit de resultaten veel robuuster maken. Zeker voor testen die een boel kosten om te implementeren, of die anderzijds veel ‘impact hebben’ dien je waakzaam te zijn met het rapporteren van testen voordat deze gerepliceerd zijn.

Hypothese

Weet je zeker dat de resultaten die je rapporteert in lijn zijn met de hypothese die je had opgesteld voordat je de A/B test startte? Indien je van plan bent resultaten te gaan rapporteren die je gevonden hebt, maar niet vooraf had verwacht, dien je mogelijk nog even wat extra controles te draaien.

Nagekeken in Google Analytics

Om eventuele problemen met je testing tool uit te sluiten, wil je mogelijk ook je uitkomsten nog nakijken in Google Analytics. Peep Laja heeft hierover een uitstekend artikel dat je leert hoe je jouw resultaten kunt analyseren in GA.

Conclusie

A/B testen goed opzetten kan uitdagend zijn en vereist dat je een boel verschillende factoren in de gaten houdt. Veel van deze factoren spelen een kritieke rol in de bepaling of een winnend variant daadwerkelijk een winnaar is, of slechts een illusie. Door bovenstaande checklist te gebruiken kun je een meerderheid van de oorzaken uitsluiten die er voor zouden kunnen zorgen dat een gerapporteerde winnaar geen winnaar is, en mogelijk zelfs een verliezer.


Engelse vertaling: A/B Test Results Reporting Checklist


Theo van der Zee

Auteur: Theo van der Zee

Hij is de oprichter van ConversionReview. Hij bouwt en optimaliseert inmiddels al 15+ jaar websites, en met veel succes.

Bovenop zijn digitale vaardigheden is Theo tevens een afgestudeerd psycholoog, en frequent spreker op evenementen over de hele wereld.