top of page
AutorenbildUwe-Michael Sinn

A/B-Tests: So bekommst Du aussagekräftige Ergebnisse!


Liebe Leserin, lieber Leser,


let´s face it: Wenn du das liest, ist es wahrscheinlich Sonntag-Vormittag, die Headline deutet auf ein eher sperriges Thema hin. und wenn ich jetzt mit Formeln komme, steigst du aus diesem Text sofort aus. Also lasse ich es bleiben, versprochen.
Heute sprechen wir darüber, was du tun musst, damit ein A/B-Test aussagekräftig ist.

Was ist ein eigentlich ein A/B-Test? Im Kern geht das so: Du verschickst eine A-Variante eines Mailings an z.B. 5% Deiner Liste, weitere 5% gehen gleichzeitig als B-Variante raus. Der „Gewinner“ wird dann an die restlichen 90% verschickt.
Sollte man A/B-Tests machen? Ja unbedingt, und zwar in jedem einzelnen Mailing. Du kannst alles testen, von der Betreffzeile (häufigster Fall) über die Tonalität, Bilder, Buttonfarbe und Position, …. Einfach alles. Jeder E-Mail-Marketer, der NICHT aktiv testet, lässt bei jedem Versand Geld auf der Straße liegen.
Wann ist ein solcher Test aussagekräftig? Dazu müssen 2 Bedingungen erfüllt sein.

Erstens: Die Stichprobe muss „sauber“ gezogen sein. Man kann nicht einfach z.B. „die ersten 5% nehmen, sondern es muss ein repräsentativer Querschnitt aus dem entsprechenden Verteiler genutzt werden. Diese Sorge musst du dir bei guten E-Mail-Marketing-Systemen nicht machen, die kümmern sich automatisch darum, wir besprechen das hier nicht weiter.

Zweitens: Die Stichprobe muss eine gewisse Größe haben. Und hier wird es schwierig Wir kennen es von der Sonntagsfrage: Dabei werden meist um die 1.000 repräsentativ ausgewählte Bürger befragt. Aber wie viele brauche ich bei E-Mailings?

Nun müssen wir doch ein bisschen Statistik machen, aber es tut nicht weh, versprochen. Die Bestimmung der idealen Stichprobengröße hängt von mehreren Faktoren ab:

1. Die Gesamtgröße der Liste

2.Die Fehlertoleranz: Auch das kennen wir von der Sonntagsfrage. Wenn für eine Partei eine Hochrechnung von z.B. 30% ermittelt wird, dann ist dieser Wert meist mit einer Fehlerquote von +/- 3% zu sehen.

3.Das gewünschte „Konfidenzniveau“. Was versteht man darunter? Ein Konfidenz-Niveau von z.B. 95% bedeutet, dass du mit 95%iger Wahrscheinlichkeit davon ausgehst, dass die Ergebnisse deiner Stichprobe innerhalb eines bestimmten Bereichs (eben der Fehlertoleranz) um den wahren Wert der Gesamtliste liegen.


Angewandt auf E-Mail-Marketing: Wenn die Öffnungsrate der A-Variante bei 22% liegt, dann ist bei einer Fehlertoleranz von +/- 1% es „fast sicher“, dass die Öffnungsrate beim Versand an die Gesamtliste bei 21-23% liegt. Nur in 2,5% der Fälle wird sie bei der Gesamtliste über 23% liegen, oder bei weiteren 2,5% unter 21.
Nun machen wir einen A/B-Test mit der Betreffzeile, schauen uns die Öffnungsrate an, und folgendes kommt raus:

- Ergebnis der A-Variante: 22% (d.h. zu 95% zwischen 21 und 23)
- Ergebnis der B-Variante: 25% (d.h. zu 95% zwischen 24 und 26)

Hier können wir mit an Sicherheit grenzender Wahrscheinlichkeit davon ausgehen, dass die Variante B besser ist. Denn: in nur 2,5% der Fälle liegt der Wert unter 24, die A-Variante nur in 2,5% der Fälle über 23. Die Kombination aus beiden Eintritts-Wahrscheinlichkeiten ist im Promille-Bereich.
Ganz anders sieht es hier aus:
- Ergebnis der A-Variante: 22% (d.h. zu 95% zwischen 21 und 23)
- Ergebnis der B-Variante: 23% (d.h. zu 95% zwischen 22 und 24)
Die Werte liegen verdammt nah beieinander: Mit einer Wahrscheinlichkeit von 50% liegt der Wert von A über 22, und der von B unter 23. Der Test ist kaum aussagekräftig. Was würde helfen? Wir erhöhen die Stichprobengröße, damit senken wir das Fehler-Niveau z.B. von +/- 1% auf +/- 0,5%.
Zusammengefasst: An sich ist es ganz einfach:

- Je größer die Grundgesamtheit (aka Verteilergröße), desto größer die notwendige Stichprobe. Allerdings nimmt das Verhältnis deutlich ab, das Verhältnis von Stichprobengröße zu Gesamtverteiler wird also immer geringer. Bei einer Verteilergröße von 1.000 ist die Stichprobengröße bei 517 (95% Sicherheit, 3% Fehler-Toleranz), bei 10.000 beträgt sie nur noch 965.

- Je geringer die Fehlermarge sein soll, desto größer muss die Stichprobe sein. Die Stichprobengröße von 965 im obigen Beispiel erhöht sich auf 1.936 (2% Fehler) und 4.891 bei 1% Fehlerquote. Das ist wichtig, wenn man bedenkt, dass uns bei A/-Tests meist nicht die Öffnungsrate interessieren sollte, sondern die Klickrate – auf die kommt es in der Regel an, und diese Zahlen sind meist deutlich kleiner. Also sollte auch die Fehlertoleranz viel geringer sein.

Woher habe ich diese Zahlen? Ich habe ja versprochen, nicht mit Formeln zu langweilen. Glücklicherweise gibt es Online Tools, mit denen ich diese Frage beantworten kann, ich nutze dieses:
Meine Empfehlungen zusammengefasst:

- Unter einer Verteilergröße von 1.000 kannst Du A/B-Tests der Sorte „5% A, 5% B, 90% Gewinner“ vergessen. Mach einen 50%-50%-Test und lerne nicht für diesen, sondern den nächsten Versand. Beispiel: „Nutzt es, jemanden in der Betreffzeile mit Namen anzusprechen?“ oder "Funktioniert ein roter oder ein grüner CTA-Button besser?", diese Erkenntnis kannst Du für die Zukunft benutzen.

- Falls Du statt der Öffnungsrate eher die Klickrate vergleichen willst (was in aller Regel mehr Sinn macht!), sollte Dein Verteiler mindestens 10.000 groß sein, und dann kannst Du z.B. „20% A, 20% B, 60% Gewinner“ aussteuern. Ab einer Verteilergröße von 25.000 kommst Du mit einer Aufteilung „A: 10%, B: 10%, Gewinner: 80%) meist gut zurecht.

- Wenn Du eine „schlechte Liste“ hast, also die Öffnungsrate und die Klickrate sehr gering sind (kommt vor allem bei Mietadress-Mailings vor), müssen die Stichproben größer sein.

Übrigens: Im E-Mail-Marketing reicht es aus, ca. 24 Stunden zu warten, um auf valide Ergebnisse zu kommen. Nach 24 Stunden sind 90% der Klicks durch, und die Zahlen stabil. Wenn Du weniger Zeit hast: Bei Versand zu „normalen Zeiten“ (also nicht nachts ….) sind schon nach 2-3 Stunden 50% aller Öffnungen erreicht. Wenn der Verteiler groß genug ist und man die Stichprobe größer machen kann, kann man also schon nach relativ kurzer Zeit mit einem statistisch validen Ergebnis rechnen.
Uff, das war es. Ein Sonntagmorgen mit Statistik. Wenn Du bis hierher gekommen bist, dann habe ich eine Bitte: TEILE diesen Newsletter auf LinkedIn und erwähne in Deinem Post, wie stolz du darauf bist, frühmorgens schon zum Thema „Statistik“ schlauer geworden zu sein. Du wirst ein tief beeindrucktes, neidisches Publikum haben! (und mir damit einen Gefallen tun, weil ich ein paar neue Abonnenten bekomme 😉)

Herzliche Grüße und schönen Sonntag!

Uwe und das Team von Meister Lampe

PS: Der Werbeblock: Montag, 11 Uhr: KI im E-Mail-Marketing. Hier kannst Du dich noch anmelden: https://www.meisterlampe-und-freunde.de/webinar-ki-im-e-mail-marketing
PPS: Die erste Idee für die heutige Headline/Betreff war übrigens: „Basis Statistik-Knowhow“. Aber auch ohne A/B-Test weiss ich ganz sicher, dass die Öffnungsrate dafür extrem gering gewesen wäre. Learning: Manchmal brauchst Du keine Statistik, sondern gesunden Menschenverstand.

Commentaires


bottom of page