Princip A/B testování je jednoduchý:
Porovnejte dvě (nebo více) různých verzí, abyste zjistili, která z nich funguje lépe, a poté vítěznou verzi nasaďte všem uživatelům, abyste dosáhli co nejoptimálnějšího celkového zážitku.
Praxe A/B testování a CRO týmů proto spočívá ve významných investicích do spouštění nejrůznějších experimentů s cílem zlepšit různé oblasti a zkušenosti na webu, v nativní aplikaci, e-mailu nebo jiném digitálním kanálu a následně je průběžně optimalizovat, aby se postupně zvyšovaly konverze a konkrétní KPI.
Pokud však společnost negeneruje tuny návštěvnosti a nemá k dispozici obrovské digitální prostředí, na kterém může experimentovat, může nastat bod klesající návratnosti, kdy výstupy experimentů (bez ohledu na to, kolik testů nebo jak velký a sofistikovaný experiment může být) dosáhnou maximálního výnosu, pokud jde o vstupy těchto týmů.
To do značné míry souvisí se skutečností, že klasický přístup k A/B testování nabízí binární pohled na preference návštěvníků a často nedokáže zachytit celou škálu faktorů a chování, které určují, kdo jsou návštěvníci jako jednotlivci.
A/B testy navíc přinášejí zobecněné výsledky založené na většinových preferencích segmentu. A i když značka může zjistit, že určitá zkušenost přináší v průměru vyšší příjmy, její nasazení u všech uživatelů by bylo nevýhodné pro značnou část spotřebitelů s odlišnými preferencemi.
Dovolte mi, abych to ilustroval na několika příkladech:
Pokud by čisté jmění mé i Warrena Buffeta činilo v průměru 117,3 miliardy USD, mělo by smysl doporučovat nám stejné produkty?
Pravděpodobně ne.
Nebo co když se maloobchodní prodejce, který nabízí jak pánské, tak dámské produkty, rozhodne provést klasický A/B test na své domovské stránce, aby zjistil nejvýkonnější variantu hrdinského banneru, ale protože 70% jeho publika tvoří ženy, dámská varianta překoná tu pánskou.
Tento test by naznačoval, že se prapor hrdinek vztahuje na celou populaci, ale jistě by to nebylo správné rozhodnutí.
Jednoduše řečeno:
- Průměrné hodnoty jsou často zavádějící, pokud se používají k porovnání různých skupin uživatelů.
- Změny nejvýkonnější varianty pro jednotlivé segmenty zákazníků a uživatelů
- Výsledky mohou být také ovlivněny kontextovými faktory, jako je zeměpisná poloha, počasí a další.
To samozřejmě neznamená, že není čas a místo pro využití obecnějších výsledků. Například při testování nového designu webových stránek nebo aplikací by bylo rozumné usilovat o jedno konzistentní uživatelské rozhraní, které by v průměru fungovalo nejlépe, oproti desítkám, stovkám nebo dokonce tisícům variant uživatelského rozhraní pro různé uživatele.
Doby, kdy se k rozvržení stránky, sdělení, obsahu, doporučení, nabídkám a dalším kreativním prvkům přistupovalo věrně podle principu "vítěz bere vše", jsou však pryč - a to je dobře, protože to znamená, že už nebudou zůstávat na stole peníze z promarněných příležitostí k personalizaci, které souvisejí s tím, že se každému uživateli neposkytne ta nejlepší varianta.