A/B-testauksen lähtökohta on yksinkertainen:
Vertaile kahta (tai useampaa) eri versiota jostakin nähdäksesi, kumpi toimii paremmin, ja ota sitten voittaja käyttöön kaikille käyttäjille optimaalisen kokonaiskokemuksen saavuttamiseksi.
A/B-testaus- ja CRO-tiimien käytäntönä on siis ollut investoida merkittävästi kaikenlaisten kokeilujen käynnistämiseen parantaakseen eri osa-alueita ja kokemuksia sivustolla, natiivisovelluksessa, sähköpostissa tai missä tahansa muussa digitaalisessa kanavassa ja optimoida niitä sitten jatkuvasti konversioiden ja tiettyjen KPI-mittareiden asteittaiseksi parantamiseksi ajan myötä.
Ellei yritys kuitenkaan tuota valtavasti liikennettä ja sillä ole valtavaa digitaalista maisemaa kokeilujen tekemiseen, voi tulla piste, jossa tuotot alkavat laskea ja kokeilujen tuotos (riippumatta siitä, kuinka monta testiä tai kuinka suuri ja monimutkainen kokeilu on) saavuttaa maksimituoton näiden tiimien panoksen perusteella.
Tämä liittyy suurelta osin siihen, että klassinen A/B-testaustapa tarjoaa binäärisen kuvan kävijöiden mieltymyksistä eikä useinkaan onnistu kuvaamaan kaikkia tekijöitä ja käyttäytymistä, jotka määrittelevät heidät yksilöinä.
Lisäksi A/B-testit tuottavat yleistettyjä tuloksia segmentin enemmistön mieltymysten perusteella. Ja vaikka brändi saattaa havaita tietyn kokemuksen tuottavan keskimäärin enemmän tuloja, sen tarjoaminen kaikille käyttäjille olisi karhunpalvelus merkittävälle osalle kuluttajia, joilla on erilaiset mieltymykset.
Havainnollistan asiaa muutamalla esimerkillä:
Jos sekä minun että Warren Buffetin nettovarallisuus olisi keskimäärin 117,3 miljardia Yhdysvaltain dollaria, olisiko järkevää suositella meille samoja tuotteita?
Todennäköisesti ei.
Entä jos jälleenmyyjä, joka tarjoilee sekä miesten että naisten tuotteita, päättää suorittaa klassisen A/B-testin kotisivullaan tunnistaakseen parhaiten menestyvän pääbannerivariaation, mutta koska 70 % heidän yleisöstään on naisia, naisten variaatio toimii miesten variaatiota paremmin.
Tämä testi viittaisi siihen, että naisten sankarilippua sovellettaisiin koko väestöön, mutta se ei varmasti olisi oikea päätös.
Yksinkertaisesti sanottuna:
- Keskiarvot ovat usein harhaanjohtavia, kun niitä käytetään eri käyttäjäryhmien vertailuun
- Parhaiten suoriutuva variaatio muuttuu kullekin asiakassegmentille ja käyttäjälle
- Tuloksiin voivat vaikuttaa myös kontekstuaaliset tekijät, kuten maantiede, sää ja muut.
Tämä ei tietenkään tarkoita, etteikö yleisempien tulosten hyödyntämiselle olisi aikaa ja paikkaa. Jos esimerkiksi testaat uutta verkkosivuston tai sovelluksen ulkoasua, olisi järkevää pyrkiä yhteen yhdenmukaiseen käyttöliittymään, joka toimii keskimäärin parhaiten, toisin kuin kymmeniin, satoihin tai jopa tuhansiin käyttöliittymävariaatioihin eri käyttäjille.
Kuitenkin ne ajat, jolloin sivun ulkoasuun, viestittelyyn, sisältöön, suosituksiin, tarjouksiin ja muihin luoviin elementteihin sovellettiin uskollisesti "voittaja vie kaiken" -lähestymistapaa, ovat ohi – eikä se haittaa, koska se tarkoittaa, että rahaa ei enää jää käyttämättä menetettyjen personointimahdollisuuksien vuoksi, jotka liittyvät parhaan mahdollisen variaation toimittamatta jättämiseen jokaiselle yksittäiselle käyttäjälle.