Der p-Wert verständlich erklärt
Wer Statistiken liest oder eigene Daten auswertet, stößt schnell auf den p‑Wert. Er entscheidet oft darüber, ob ein Ergebnis als „statistisch signifikant“ gilt. Doch was bedeutet dieser Wert wirklich – und wie interpretiert man ihn korrekt? Dieser Beitrag erklärt den p‑Wert verständlich, räumt mit typischen Missverständnissen auf und zeigt, wie du fundierte Schlüsse aus Hypothesentests ziehst.
Was ist der p‑Wert?
Der p‑Wert ist die Wahrscheinlichkeit, unter der Annahme der Nullhypothese (H0), ein Ergebnis zu beobachten, das mindestens so extrem ist wie das tatsächlich beobachtete. Er bezieht sich also auf die Daten, vorausgesetzt, H0 ist wahr – nicht auf die Wahrscheinlichkeit, dass H0 wahr ist. In einem Hypothesentest definierst du eine Teststatistik (zum Beispiel t‑Wert) und berechnest, wie ungewöhnlich dein Ergebnis im Modell der Nullhypothese wäre. Je kleiner der p‑Wert, desto weniger vereinbar sind die Daten mit H0.
Wichtig ist die Richtung des Tests: einseitig oder zweiseitig. Beim zweiseitigen Test zählt „extrem“ in beide Richtungen, beim einseitigen nur in die vorher festgelegte Richtung.
So interpretierst du ihn richtig
– p < α bedeutet: Das Ergebnis ist im Rahmen des gewählten Signifikanzniveaus (zum Beispiel α = 0,05) statistisch signifikant. Du würdest H0 verwerfen und einen Effekt annehmen.
– p ≥ α bedeutet: Du hast keine ausreichenden Belege gegen H0. Das ist nicht gleichbedeutend mit „kein Effekt“, sondern „kein nachweisbarer Effekt mit diesen Daten“.
Der p‑Wert ist keine Effektgröße. Ein winziger p‑Wert kann auf einen trivial kleinen, aber durch große Stichprobe gut messbaren Unterschied zurückgehen. Um Relevanz zu beurteilen, brauchst du zusätzlich Effektgröße (z. B. Cohen’s d, Odds Ratio) und Konfidenzintervalle. Denke auch an Fehlerarten: α‑Fehler (Irrtumswahrscheinlichkeit, H0 fälschlich verwerfen) und β‑Fehler (H0 fälschlich beibehalten) hängen von Signifikanzniveau, Stichprobengröße und Teststärke ab.
Häufige Missverständnisse und Fallstricke
– Der p‑Wert ist nicht die Wahrscheinlichkeit, dass die Nullhypothese wahr ist.
– „Nicht signifikant“ bedeutet nicht „kein Effekt“. Es kann an zu geringer Power oder hoher Streuung liegen.
– Signifikant heißt nicht automatisch praktisch relevant. Beurteile stets die Effektgröße.
– Multiple Tests erhöhen die α‑Fehler‑Rate. Korrigiere zum Beispiel mit Bonferroni oder kontrolliere die False Discovery Rate.
– p‑Hacking (nachträgliche Hypothesen, selektives Berichten, flexible Auswertung) macht p‑Werte unzuverlässig. Vordefinierte Analysen und Präregistrierung helfen.
Praktisches Beispiel
Angenommen, du testest in einem A/B‑Test zwei Varianten einer Website. H0: beide Varianten haben die gleiche Conversion‑Rate. Du beobachtest eine Differenz von 1,2 Prozentpunkten und erhältst p = 0,03 (zweiseitig). Interpretation: Wenn es in Wahrheit keinen Unterschied gäbe, würdest du so einen oder einen größeren Unterschied in 3 % der Fälle sehen. Das spricht gegen H0 auf dem Signifikanzniveau 0,05. Ob der Effekt wirtschaftlich relevant ist, zeigen Effektgröße und das 95‑%‑Konfidenzintervall (z. B. 0,2 bis 2,2 Prozentpunkte).
Besser berichten: Mehr als nur p
– Gib p‑Wert, Effektgröße und Konfidenzintervall an.
– Lege Signifikanzniveau und Analyseplan vorab fest.
– Plane ausreichende Stichprobengröße (Poweranalyse).
– Reduziere multiple Vergleiche oder korrigiere sie.
– Ergänze, wo sinnvoll, Bayes‑Faktoren oder Likelihood‑Maße für eine evidenzorientierte Aussage.
Fazit: Der p‑Wert ist ein nützliches Werkzeug im Hypothesentest, aber kein Alleinentscheider. Wer ihn korrekt interpretiert und durch Effektgrößen, Konfidenzintervalle und sauberes Studiendesign ergänzt, trifft bessere, belastbare Entscheidungen.
Sie brauchen Unterstützung bei Ihrer statistischen Auswertung? Unsere erfahrenen Statistiker helfen Ihnen – von der Forschungsfrage bis zum fertigen Ergebnisteil. → Statistik auswerten lassen







