Суть A/B тестирования проста:
Сравните две (или более) разные версии чего-то, чтобы понять, какая работает лучше, а затем разверните победитель для всех пользователей для максимально оптимального общего опыта.
Таким образом, практика A/B-тестирования и работы команд по оптимизации конверсии (CRO) заключается в значительных инвестициях в запуск всевозможных экспериментов для улучшения различных областей и пользовательского опыта на сайте, в мобильном приложении, электронной почте или любом другом цифровом канале, а затем в их постоянной оптимизации для постепенного увеличения конверсий и конкретных KPI с течением времени.
Однако, если компания не генерирует огромный трафик и не имеет огромного цифрового пространства для экспериментов, может наступить момент убывающей отдачи, когда результат экспериментов (независимо от количества тестов или масштаба и сложности эксперимента) достигнет максимального результата по сравнению с вводом этих команд.
Это во многом связано с тем, что классический подход к A/B тестированию предлагает бинарное представление о предпочтениях посетителей и часто не охватывает весь спектр факторов и поведения, определяющих их личность.
Кроме того, A/B тесты дают обобщённые результаты, основанные на предпочтениях большинства сегмента. И хотя бренд может находить определённый опыт для получения в среднем больше дохода, развертывание его для всех пользователей было бы несправедливым по отношению к значительной части потребителей с разными предпочтениями.
Позвольте привести несколько примеров:
Если бы среднее состояние меня и Уоррена Баффета составляло 117,3 миллиарда долларов США, имело бы смысл рекомендовать нам одни и те же продукты?
Скорее всего, нет.
А что, если ритейлер, продающий как мужскую, так и женскую продукцию, решит провести классический A/B-тест на своей главной странице, чтобы определить наиболее эффективный вариант баннера-заставки, но поскольку 70% его аудитории составляют женщины, женский вариант окажется более эффективным, чем мужской?
Этот тест предполагал, что женское знамя героя применяется ко всему населению, но это явно не было бы правильным решением.
Проще говоря:
- Средние значения часто вводят в заблуждение при сравнении различных групп пользователей
- Наиболее эффективная вариация меняется для каждого сегмента клиента и пользователя
- Результаты также могут зависеть от контекстуальных факторов, таких как география, погода и другие
Это, конечно, не означает, что нет времени и места для использования более обобщенных результатов. Например, при тестировании нового дизайна веб-сайта или приложения было бы логично стремиться к одному единому, стабильному пользовательскому интерфейсу, который в среднем работает лучше всего, вместо десятков, сотен или даже тысяч вариантов интерфейса для разных пользователей.
Однако времена верного подхода «победитель получает всё» в макете страницы, сообщениях, контенте, рекомендациях, предложениях и других творческих элементах прошли — и это нормально, потому что больше не останутся деньги на столе из-за упущенных возможностей персонализации, связанных с тем, что не дать наилучшее разнообразие каждому отдельному пользователю.