Die Prämisse von A/B-Tests ist einfach:
Vergleichen Sie zwei (oder mehr) verschiedene Versionen von etwas, um zu sehen, welche besser funktioniert, und stellen Sie dann den Gewinner für alle Benutzer bereit, um das optimalste Gesamterlebnis zu erzielen.
Die Praxis von A/B-Test- und CRO-Teams besteht daher darin, erheblich in die Durchführung aller Arten von Experimenten zu investieren, um verschiedene Bereiche und Erfahrungen auf der Website, in der nativen App, per E-Mail oder in jedem anderen digitalen Kanal zu verbessern und diese dann kontinuierlich zu optimieren, um im Laufe der Zeit eine schrittweise Steigerung der Konvertierungen und bestimmter KPIs zu erzielen.
Wenn ein Unternehmen jedoch nicht tonnenweise Traffic generiert und nicht über eine riesige digitale Landschaft verfügt, in der es experimentieren kann, kann es zu einem Punkt kommen, an dem die Rendite abnimmt, an dem die Ergebnisse der Experimente (unabhängig davon, wie viele Tests oder wie groß und anspruchsvoll ein Experiment sein mag) eine maximale Ausbeute in Bezug auf den Input dieser Teams erreichen.
Dies hat vor allem damit zu tun, dass der klassische Ansatz für A/B-Tests eine binäre Sicht auf die Präferenzen der Besucher bietet und oft nicht die gesamte Bandbreite der Faktoren und Verhaltensweisen erfasst, die sie als Individuen definieren.
Darüber hinaus liefern A/B-Tests verallgemeinerte Ergebnisse, die auf den Mehrheitspräferenzen eines Segments basieren. Und während eine Marke im Durchschnitt feststellen kann, dass ein bestimmtes Erlebnis mehr Umsatz bringt, wäre die Bereitstellung für alle Nutzer ein Bärendienst für einen erheblichen Teil der Verbraucher mit unterschiedlichen Präferenzen.
Lassen Sie mich dies anhand einiger Beispiele verdeutlichen:
Wenn das Nettovermögen von mir und Warren Buffet durchschnittlich 117,3 Milliarden US-Dollar betragen würde, wäre es dann sinnvoll, uns die gleichen Produkte zu empfehlen?
Wahrscheinlich nicht.
Oder wie wäre es, wenn ein Einzelhändler, der sowohl Männer- als auch Damenprodukte anbietet, beschließt, einen klassischen A/B-Test auf seiner Homepage durchzuführen, um die leistungsstärkste Hero-Banner-Variante zu identifizieren, aber da 70 % seines Publikums Frauen sind, übertrifft die weibliche Variante die der Männer.
Dieser Test würde darauf hindeuten, dass das Heldenbanner der Frauen auf die gesamte Bevölkerung angewendet wird, aber es wäre sicherlich nicht die richtige Entscheidung.
Um es einfach auszudrücken:
- Durchschnittswerte sind oft irreführend, wenn sie zum Vergleich verschiedener Nutzergruppen herangezogen werden
- Die leistungsstärksten Variantenänderungen für jedes Kundensegment und jeden Benutzer
- Die Ergebnisse können auch durch kontextuelle Faktoren wie Geo, Wetter und mehr beeinflusst werden
Das soll natürlich nicht heißen, dass es nicht einen Zeitpunkt und einen Ort gibt, um allgemeinere Ergebnisse zu nutzen. Wenn Sie beispielsweise ein neues Website- oder App-Design testen, wäre es sinnvoll, eine konsistente Benutzeroberfläche anzustreben, die im Durchschnitt am besten funktioniert, im Gegensatz zu Dutzenden, Hunderten oder sogar Tausenden von UI-Variationen für verschiedene Benutzer.
Die Zeiten, in denen das Layout einer Seite, Messagings, Inhalte, Empfehlungen, Angebote und andere kreative Elemente nach dem Motto "Winner-takes-all" gestaltet wurden, sind jedoch vorbei – und das ist in Ordnung, denn das bedeutet, dass kein Geld mehr auf dem Tisch liegen bleibt, weil die verpassten Personalisierungsmöglichkeiten damit verbunden sind, dass nicht jedem einzelnen Benutzer die beste Variation geboten wird.