Le principe des tests A/B est simple :
Comparez deux (ou plus) versions différentes d’un produit pour voir laquelle fonctionne le mieux, puis déployez le gagnant auprès de tous les utilisateurs pour une expérience globale optimale.
La pratique des équipes de test A/B et CRO a donc consisté à investir considérablement dans le lancement de toutes sortes d’expériences pour améliorer différents domaines et expériences sur le site, l’application native, l’e-mail ou tout autre canal numérique, puis à les optimiser en permanence pour générer une augmentation incrémentielle des conversions et des indicateurs clés de performance spécifiques au fil du temps.
Cependant, à moins qu’une entreprise ne génère des tonnes de trafic et ne dispose d’un vaste paysage numérique à partir duquel expérimenter, il peut arriver un point de rendements décroissants où le résultat de l’expérimentation (quel que soit le nombre de tests ou la taille et la sophistication d’une expérience) atteint un rendement maximal en termes de contribution de ces équipes.
Cela est dû en grande partie au fait que l’approche classique des tests A/B offre une vue binaire des préférences des visiteurs et ne parvient souvent pas à capturer l’ensemble des facteurs et des comportements qui définissent qui ils sont en tant qu’individus.
De plus, les tests A/B donnent des résultats généralisés basés sur les préférences majoritaires d’un segment. Et même si une marque peut trouver qu’une expérience particulière génère plus de revenus en moyenne, la déployer auprès de tous les utilisateurs ne rendrait pas service à une partie importante des consommateurs ayant des préférences différentes.
Permettez-moi d’illustrer avec quelques exemples :
Si la valeur nette de Warren Buffet et de moi-même était de 117,3 milliards de dollars américains en moyenne, serait-il logique de nous recommander les mêmes produits ?
Probablement pas.
Ou que diriez-vous si un détaillant qui propose à la fois des produits pour hommes et pour femmes décide d’effectuer un test A/B classique sur sa page d’accueil pour identifier la variante de bannière de héros la plus performante, mais comme 70 % de son public est composé de femmes, la variante féminine surpasse celle des hommes.
Ce test suggérerait que la bannière du héros féminin soit appliquée à l’ensemble de la population, mais ce ne serait certainement pas la bonne décision.
Pour faire simple :
- Les moyennes sont souvent trompeuses lorsqu’elles sont utilisées pour comparer différents groupes d’utilisateurs
- Les modifications de variation les plus performantes pour chaque segment de clientèle et utilisateur
- Les résultats peuvent également être influencés par des facteurs contextuels tels que la géolocalisation, la météo, etc
Cela ne veut pas dire, bien sûr, qu’il n’y a pas de temps et de lieu pour exploiter des résultats plus généralisés. Par exemple, si vous testez un nouveau site Web ou un nouveau design d’application, il serait logique de viser une interface utilisateur cohérente qui fonctionne le mieux en moyenne plutôt que des dizaines, des centaines, voire des milliers de variations d’interface utilisateur pour différents utilisateurs.
Cependant, l’époque où l’on adoptait fidèlement une approche « gagnante rafle tout » pour la mise en page d’une page, la messagerie, le contenu, les recommandations, les offres et d’autres éléments créatifs est révolue – et ce n’est pas grave, car cela signifie qu’il ne restera plus d’argent sur la table à cause des opportunités de personnalisation manquées associées à l’absence de la meilleure variation à chaque utilisateur individuel.