Założenie testów A/B jest proste:
Porównaj dwie (lub więcej) różne wersje czegoś, aby zobaczyć, która działa lepiej, a następnie wdróż zwycięzcę wszystkim użytkownikom, aby uzyskać najbardziej optymalne ogólne wrażenia.
Praktyką zespołów zajmujących się testami A/B i CRO było zatem znaczne inwestowanie w uruchamianie wszelkiego rodzaju eksperymentów w celu ulepszenia różnych obszarów i doświadczeń w witrynie, aplikacji natywnej, e-mailu lub innym kanale cyfrowym, a następnie ciągłe ich optymalizowanie w celu zwiększenia liczby konwersji i określonych wskaźników KPI w miarę upływu czasu.
Jednakże, o ile firma nie generuje ton ruchu i nie ma ogromnego cyfrowego krajobrazu, z którego można eksperymentować, może nadejść punkt malejących zysków, w którym wyniki eksperymentów (bez względu na to, ile testów lub jak duży i wyrafinowany może być eksperyment) osiągają maksymalną wydajność pod względem wkładu tych zespołów.
W dużej mierze ma to związek z faktem, że klasyczne podejście do testów A/B oferuje binarne spojrzenie na preferencje odwiedzających i często nie pozwala uchwycić pełnego zakresu czynników i zachowań, które określają, kim są jako jednostki.
Co więcej, testy A/B dają uogólnione wyniki w oparciu o preferencje większości segmentów. I chociaż marka może uznać, że określone doświadczenie przynosi średnio większe przychody, wdrożenie go dla wszystkich użytkowników byłoby niedźwiedzią przysługą dla znacznej części konsumentów o różnych preferencjach.
Zilustruję to kilkoma przykładami:
Jeśli majątek netto mój i Warrena Buffeta wynosiłby średnio 117,3 mld USD, to czy polecanie nam tych samych produktów miałoby sens?
Prawdopodobnie nie.
Albo jeśli sprzedawca detaliczny, który oferuje zarówno produkty męskie, jak i damskie, zdecyduje się przeprowadzić klasyczny test A / B na swojej stronie głównej, aby zidentyfikować najskuteczniejszą odmianę banera głównego, ale ponieważ 70% ich odbiorców to kobiety, odmiana damska przewyższa męską.
Ten test sugerowałby, że sztandar bohatera kobiet można zastosować do całej populacji, ale z pewnością nie byłaby to właściwa decyzja.
Mówiąc prościej:
- Średnie są często mylące, gdy są używane do porównywania różnych grup użytkowników
- Najskuteczniejsza odmiana zmienia się dla każdego segmentu klientów i użytkowników.
- Na wyniki mogą również wpływać czynniki kontekstowe, takie jak położenie geograficzne, pogoda i inne.
Nie oznacza to oczywiście, że nie ma czasu i miejsca na wykorzystanie bardziej uogólnionych wyników. Na przykład, gdybyś testował nową stronę internetową lub projekt aplikacji, sensowne byłoby dążenie do jednego spójnego interfejsu użytkownika, który działałby najlepiej w porównaniu z dziesiątkami, setkami, a nawet tysiącami odmian interfejsu użytkownika dla różnych użytkowników.
Jednak czasy wiernego przyjmowania podejścia "zwycięzca bierze wszystko" do układu strony, komunikatów, treści, rekomendacji, ofert i innych elementów kreatywnych dobiegły końca - i to dobrze, ponieważ oznacza to, że nie będzie już pieniędzy na stole z powodu utraconych możliwości personalizacji związanych z niedostarczaniem najlepszych wariantów dla każdego użytkownika.