Als eine wesentliche Größe bei Hypothesentests ist der P Wert Statistik-Interessierten ein wichtiger Begriff. Er misst die Wahrscheinlichkeit, dass ein in der Stichprobe beobachteter Unterschied zwischen zwei Gruppen zufällig entstanden sein könnte. Ist diese Wahrscheinlichkeit gering, dann ist der beobachtete Unterschied vermutlich statistisch signifikant und eventuell auch auf die Grundgesamtheit übertragbar.

Sollten Sie statistische Beratung oder Unterstützung bei der Erhebung oder Analyse von Daten benötigen, helfen unsere Statistiker Ihnen gerne weiter. Nutzen Sie einfach unser Kontaktformular für eine kostenlose Beratung & ein unverbindliches Angebot – oder rufen Sie uns an.

Lassen Sie uns Ihre Anforderungen wissen & wir erstellen Ihnen innerhalb weniger Stunden ein kostenfreies Angebot.

Jetzt unverbindlich anfragen

Hypothesentests

Eine häufige Aufgabe in der Statistik besteht darin, anhand von Stichprobendaten zu bewerten, ob eine Hypothese wahr ist oder falsch. Nehmen wir beispielsweise die Hypothese H1 „Männer sind größer als Frauen“. Da es unmöglich ist, alle Männer und alle Frauen zu vermessen, wird man stattdessen bei einer Stichprobe von einigen Männern und einigen Frauen die Körpergröße messen. Selbst wenn wir bei unseren Messungen festgestellt haben, dass Männer im Durchschnitt größer sind als der Durchschnitt der Frauen, so gilt dies zunächst nur für unsere Stichprobe. Gilt dies aber auch für die Gesamtbevölkerung? Es könnte sein, dass der von uns gemessene Unterschied zufällig zustande gekommen ist. Mit Hilfe statistischer Methoden berechnet man nun, wie hoch die Wahrscheinlichkeit ist, dass der gemessene Unterschied nicht zufällig entstand.

Der p Wert: Statistik und die Nullhypothese

Es ist immer leichter, eine Hypothese zu verwerfen, als sie zu beweisen. Darum geht man beim Hypothesentest so vor, dass man eine Nullhypothese H0 formuliert, die das Gegenteil von dem besagt, was man belegen will. Die Nullhypothese H0 besagt also das Gegenteil von Hypothese H1. Lautet H1 „Männer sind größer als Frauen“, dann lautet H0 „Männer sind kleiner oder gleich groß wie Frauen“. Lautet H1 jedoch „Männer haben eine andere Körpergröße als Frauen“, wäre H0 „Männer und Frauen sind gleich groß“.

Nun kann es sein, dass die Hypothese H0 wahr ist oder falsch. Je nachdem, ob man die Hypothese als wahr oder falsch annimmt, kann man jeweils einen Fehler machen. Es gibt insgesamt vier Möglichkeiten:

Die Hypothese H0 ist wahr.Die Hypothese H0 ist falsch, also H1 wahr.
Hypothese H0 wird als wahr angenommen.Hypothese H0 wird zu Recht als wahr angenommen. (1- α)Fehler 2. Art (β)
Hypothese H0 wird als falsch angenommen.Fehler 1. Art (α)Hypothese H0 wird zu Recht als falsch angenommen. (1-β)

Die Wahrscheinlichkeit eines Fehlers 1. Art nennt man per Definition α und die Wahrscheinlichkeit eines Fehlers 2. Art β. Die Wahrscheinlichkeit (1-β) wird als statistical power bezeichnet, also die Fähigkeit, die Hypothese H0 zu Recht als falsch zu erkennen. Die Fehlerwahrscheinlichkeiten α und β hängen voneinander ab: Je kleiner man α wählt, also je mehr man vermeiden will, die Hypothese fälschlicherweise abzulehnen, umso größer wird β, also die Wahrscheinlichkeit, die Hypothese fälschlicherweise als wahr anzunehmen. Üblicherweise legt man α zu Beginn einer Untersuchung fest und damit indirekt auch β.

Zumeist wird man in der Stichprobe einen Unterschied zwischen Männern und Frauen finden. Nun stellt sich die Frage, wie groß die Wahrscheinlichkeit ist, dass der beobachtete Unterschied auftritt, obwohl die Nullhypothese H0 gilt. In unserem Fall: Wie hoch ist die Wahrscheinlichkeit, dass in unserer Stichprobe die Männer durchschnittlich größer sind als die Frauen, obwohl es sich in der Gesamtbevölkerung genau umgekehrt verhält? In dieser Konstellation spielt der p-Wert Statistiken bei der Messung der Wahrscheinlichkeiten zu, d.h. dass bei gültiger Nullhypothese H0 trotzdem der gefundene Unterschied gemessen wird oder sogar ein größerer Unterschied. Je kleiner der p-Wert ist, umso unwahrscheinlicher ist es, dass die Nullhypothese H0 stimmt, und umso wahrscheinlicher wird es, dass die Hypothese H1 wahr ist, also der beobachtete Unterschied tatsächlich etwas zu bedeuten hat und die tatsächlichen Größenverhältnisse in der Gesamtbevölkerung wiederspiegelt.

Durch Berechnung des p-Wertes versucht man also testweise, den beobachteten Unterschied durch einen rein zufälligen Effekt zu erklären. Gelingt das nicht, ist der p-Wert also klein genug, dann gilt wohl die Hypothese H1. „Klein genug“ bedeutet, dass p ≤ α ist. Der p-Wert wird auch „empirisches Signifikanzniveau“ genannt, weil er misst, ob der beobachtete Unterschied zwischen zwei Gruppen statistisch signifikant, also bedeutsam ist.

Umgekehrt kann man jedoch aus der Tatsache, dass der p Wert groß ist, nicht schließen, dass die Nullhypothese H0 richtig ist, also beispielsweise die beiden Gruppen gleich sind. Man muss daraus eher schlussfolgern, dass nicht genügend Informationen vorliegen, um über die Hypothese zu entscheiden. Entweder ist der Effekt zu gering, um nachgewiesen zu werden, oder die Stichprobe ist zu klein.

Die Berechnung des p-Wertes

Um den p-Wert zu berechnen, muss man außer den Daten der Stichprobe auch noch einige Informationen über die Gesamtbevölkerung kennen. Diese Informationen hat man natürlich nicht, weil man ja eben nicht die Gesamtbevölkerung vermessen hat, sondern nur eine Stichprobe. Man kann die Kennzahlen der tatsächlichen Größenverteilung also nur schätzen bzw. Annahmen darüber treffen.

Die Berechnung des p-Wertes wird jedoch dadurch vereinfacht, wenn wir laut Nullhypothese annehmen, dass sich die Körpergrößen von Männern und Frauen gleich verteilen, also Mittelwert und Standardabweichung dieser Verteilungen gleich sind.

Betrachtet man den Mittelwert einer gaußverteilten Variablen, wie z.B. die Körpergröße, verwendet man die t-Verteilung (auch Student-Verteilung genannt) zur Berechnung des p-Wertes. Bei zufälligen Ereignissen wie dem Defekt eines Gerätes wird für die Berechnung des p-Wertes die Binomialverteilung verwendet. Für diskrete Variablen, z.B. solche die durch Zählung ermittelt werden wie die Anzahl an Ereignissen innerhalb einer Gruppe, wird die Chi-Quadrat-Verteilung verwendet.

Faustregeln für den p-Wert

Für die Bestätigung der Hypothese H1 ist es gut, wenn der p-Wert möglichst gering ist. Üblicherweise wird ein p-Wert von maximal 5% oder 1% angestrebt. Das heißt, der Unterschied zwischen zwei Gruppen wäre dann mit 1-p = 95% oder mit 99% Wahrscheinlichkeit statistisch signifikant. Der p-Wert hängt vor allem von zwei Faktoren ab, nämlich der Standardabweichung der Verteilung und der Größe der Stichprobe. Beides lässt sich anschaulich gut vorstellen.

Nimmt man beispielsweise die kleinstmögliche Stichprobengröße 1+1, misst also die Körpergrößen von nur einem Mann und einer Frau, dann kann es sehr leicht passieren, dass der Mann kleiner ist als die Frau. Je mehr Personen man jedoch berücksichtigt, umso unwahrscheinlicher wird es, dass die Stichprobe nur kleine Männer und große Frauen enthält. Nähert sich die Größe der Stichprobe sogar der Größe der Gesamtpopulation, dann wird man ohnehin alle Menschen vermessen und vermeidet den Einfluss des Zufalls.

Haben wir eine Gesamtbevölkerung, in der alle Frauen exakt gleich groß sind und ebenfalls alle Männer gleich groß, dann wird ein gemessener Unterschied auch statistisch signifikant sein. Gibt es aber ein breites Spektrum an Körpergrößen sowohl bei den Frauen als auch bei den Männern, dann wird es immer wahrscheinlicher, dass durch eine ungünstige Auswahl der Stichprobe die Frauengruppe im Schnitt größer ist als die Männergruppe und damit wird p groß.

Zum Weiterlesen über p Wert Statistik