Die Prämisse von A/B-Tests ist einfach:
Vergleichen Sie zwei (oder mehr) verschiedene Versionen von etwas, um zu sehen, welche besser funktioniert, und stellen Sie dann den Gewinner für alle Benutzer bereit, um das optimalste Gesamterlebnis zu erzielen.
Die Praxis von A/B-Tests und CRO-Teams bestand daher darin, erheblich in die Einführung aller Arten von Experimenten zu investieren, um verschiedene Bereiche und Erfahrungen auf der Website, in der nativen App, per E-Mail oder über andere digitale Kanäle zu verbessern und sie dann kontinuierlich zu optimieren, um im Laufe der Zeit eine inkrementelle Steigerung der Conversions und spezifischer KPIs zu erzielen.
Wenn ein Unternehmen jedoch nicht tonnenweise Traffic generiert und nicht über eine riesige digitale Landschaft verfügt, in der es experimentieren kann, kann es zu einem Punkt kommen, an dem die Rendite abnimmt, an dem die Ergebnisse der Experimente (unabhängig davon, wie viele Tests oder wie groß und anspruchsvoll ein Experiment sein mag) eine maximale Ausbeute in Bezug auf den Input dieser Teams erreichen.
Dies hat vor allem damit zu tun, dass der klassische Ansatz für A/B-Tests eine binäre Sicht auf die Präferenzen der Besucher bietet und oft nicht die gesamte Bandbreite der Faktoren und Verhaltensweisen erfasst, die sie als Individuen definieren.
Darüber hinaus liefern A/B-Tests verallgemeinerte Ergebnisse, die auf den Mehrheitspräferenzen eines Segments basieren. Und während eine Marke im Durchschnitt feststellen kann, dass ein bestimmtes Erlebnis mehr Umsatz bringt, wäre die Bereitstellung für alle Nutzer ein Bärendienst für einen erheblichen Teil der Verbraucher mit unterschiedlichen Präferenzen.
Lassen Sie mich dies anhand einiger Beispiele verdeutlichen:
Wenn das Nettovermögen von mir und Warren Buffet durchschnittlich 117,3 Milliarden US-Dollar betragen würde, wäre es dann sinnvoll, uns die gleichen Produkte zu empfehlen?
Wahrscheinlich nicht.
Oder wie wäre es, wenn ein Einzelhändler, der sowohl Männer- als auch Damenprodukte anbietet, beschließt, einen klassischen A/B-Test auf seiner Homepage durchzuführen, um die leistungsstärkste Hero-Banner-Variante zu identifizieren, aber da 70 % seines Publikums Frauen sind, übertrifft die weibliche Variante die der Männer.
Dieser Test würde darauf hindeuten, dass das Heldenbanner der Frauen auf die gesamte Bevölkerung angewendet wird, aber es wäre sicherlich nicht die richtige Entscheidung.
Um es einfach auszudrücken:
- Durchschnittswerte sind oft irreführend, wenn sie zum Vergleich verschiedener Nutzergruppen herangezogen werden
- Die leistungsstärksten Variantenänderungen für jedes Kundensegment und jeden Benutzer
- Die Ergebnisse können auch durch Kontextfaktoren wie Geo, Wetter und mehr beeinflusst werden
Das soll natürlich nicht heißen, dass es nicht einen Zeitpunkt und einen Ort gibt, um allgemeinere Ergebnisse zu nutzen. Wenn Sie beispielsweise ein neues Website- oder App-Design testen, wäre es sinnvoll, eine konsistente Benutzeroberfläche anzustreben, die im Durchschnitt am besten funktioniert, im Gegensatz zu Dutzenden, Hunderten oder sogar Tausenden von UI-Variationen für verschiedene Benutzer.
Die Zeiten, in denen man beim Layout einer Seite, bei Nachrichten, Inhalten, Empfehlungen, Angeboten und anderen kreativen Elementen immer nach dem Motto „Der Gewinner bekommt alles“ vorging, sind jedoch vorbei – und das ist auch gut so, denn es bedeutet, dass kein Geld mehr durch verpasste Personalisierungsmöglichkeiten verschenkt wird, weil man nicht jedem einzelnen Benutzer die beste Variante liefert.