Forutsetningen for A/B-testing er enkel:
Sammenlign to (eller flere) forskjellige versjoner av noe for å se hvilken som presterer best, og distribuer deretter vinneren til alle brukere for den mest optimale totalopplevelsen.
Praksisen bak A/B-testing og CRO-team har derfor vært å investere betydelig i å lansere alle slags eksperimenter for å forbedre ulike områder og opplevelser på tvers av nettstedet, native apper, e-post eller andre digitale kanaler, og deretter kontinuerlig optimalisere dem for å drive trinnvis økning i konverteringer og spesifikke KPI-er over tid.
Men med mindre et selskap genererer tonnevis av trafikk og har et enormt digitalt landskap å eksperimentere fra, kan det komme et punkt med avtagende avkastning der resultatet av eksperimenteringen (uansett hvor mange tester eller hvor stort og sofistikert et eksperiment måtte være) når et maksimalt utbytte når det gjelder innspill fra disse teamene.
Dette har i stor grad å gjøre med det faktum at den klassiske tilnærmingen til A/B-testing tilbyr et binært bilde av besøkendes preferanser og ofte ikke klarer å fange opp hele spekteret av faktorer og atferd som definerer hvem de er som individer.
Dessuten gir A/B-tester generaliserte resultater basert på et segments majoritetspreferanser. Og selv om et merke kan oppleve at en bestemt opplevelse gir mer inntekter i gjennomsnitt, ville det å distribuere den til alle brukere være en bjørnetjeneste for en betydelig andel forbrukere med forskjellige preferanser.
La meg illustrere med noen få eksempler:
Hvis min og Warren Buffets nettoformue i gjennomsnitt var 117,3 milliarder dollar, ville det være fornuftig å anbefale de samme produktene til oss?
Sannsynligvis ikke.
Eller hva om en forhandler som tilbyr både herre- og dameprodukter bestemmer seg for å kjøre en klassisk A/B-test på hjemmesiden sin for å identifisere den mest effektive hero-bannervarianten, men siden 70 % av publikummet deres er kvinner, yter kvinnevarianten bedre enn menns.
Denne testen ville antyde at kvinnenes heltebanner skulle brukes på hele befolkningen, men det ville absolutt ikke være den riktige avgjørelsen.
For å si det enkelt:
- Gjennomsnitt er ofte misvisende når de brukes til å sammenligne ulike brukergrupper
- De beste variasjonsendringene for hvert kundesegment og bruker
- Resultatene kan også påvirkes av kontekstuelle faktorer som geografi, vær og mer
Dette betyr selvfølgelig ikke at det ikke finnes tid og sted for å utnytte mer generaliserte resultater. Hvis du for eksempel testet et nytt nettsted eller en ny appdesign, ville det være fornuftig å sikte mot ett konsistent brukergrensesnitt som fungerte best i gjennomsnitt kontra dusinvis, hundrevis eller til og med tusenvis av brukergrensesnittvariasjoner for forskjellige brukere.
Men dagene med trofast en «vinneren tar alt»-tilnærming til sideoppsett, budskap, innhold, anbefalinger, tilbud og andre kreative elementer er over – og det er greit, for det betyr at det ikke lenger vil bli penger igjen på bordet fra tapte personaliseringsmuligheter knyttet til å ikke levere den beste variasjonen til hver enkelt bruker.