A premissa dos testes A/B é simples:
Compare duas (ou mais) versões diferentes de algo para ver qual tem melhor desempenho e, em seguida, implemente a versão vencedora para todos os usuários, a fim de obter a experiência geral mais otimizada.
A prática das equipes de testes A/B e CRO consiste, portanto, em investir significativamente no lançamento de todos os tipos de experimentos para aprimorar diferentes áreas e experiências em todo o site, aplicativo nativo, e-mail ou qualquer outro canal digital e, em seguida, otimizá-los continuamente para gerar um aumento incremental nas conversões e em KPIs específicos ao longo do tempo.
No entanto, a menos que uma empresa gere toneladas de tráfego e tenha um vasto ambiente digital para experimentar, pode chegar um ponto de retorno decrescente, onde o resultado da experimentação (independentemente da quantidade de testes ou da dimensão e sofisticação de um experimento) atinge um rendimento máximo em termos do investimento dessas equipes.
Isso se deve, em grande parte, ao fato de a abordagem clássica de testes A/B oferecer uma visão binária das preferências dos visitantes e, muitas vezes, não conseguir capturar toda a gama de fatores e comportamentos que definem quem eles são como indivíduos.
Além disso, os testes A/B produzem resultados generalizados com base nas preferências da maioria de um segmento. E embora uma marca possa descobrir que uma experiência específica gera mais receita em média, implementá-la para todos os usuários seria uma injustiça para uma parcela significativa de consumidores com preferências diferentes.
Permita-me ilustrar com alguns exemplos:
Se o patrimônio líquido meu e de Warren Buffett fosse, em média, de US$ 117,3 bilhões, faria sentido recomendar os mesmos produtos para nós dois?
Provavelmente não.
Ou imagine que um varejista que vende produtos tanto para homens quanto para mulheres decida realizar um teste A/B clássico em sua página inicial para identificar a variação de banner principal com melhor desempenho, mas, como 70% de seu público é feminino, a variação feminina supera a masculina.
Este teste sugeriria que a bandeira de heroínas fosse aplicada a toda a população, mas certamente não seria a decisão correta.
Resumindo:
- As médias costumam ser enganosas quando usadas para comparar diferentes grupos de usuários.
- A variação com melhor desempenho muda para cada segmento de clientes e usuário.
- Os resultados também podem ser influenciados por fatores contextuais como geografia, clima e outros.
Isso não significa, é claro, que não haja um momento e um lugar adequados para aproveitar resultados mais generalizados. Por exemplo, se você estivesse testando um novo design de site ou aplicativo, faria sentido buscar uma interface de usuário consistente que funcionasse melhor em média, em vez de dezenas, centenas ou até milhares de variações de interface para diferentes usuários.
No entanto, os dias de adotar fielmente uma abordagem de "tudo ou nada" para o layout de uma página, mensagens, conteúdo, recomendações, ofertas e outros elementos criativos acabaram – e isso é bom, porque significa que não haverá mais dinheiro perdido devido às oportunidades de personalização que se perdem ao não oferecer a melhor versão para cada usuário.