Ein Hypothesentest ist ein häufig angewendetes statistisches Verfahren, um anhand von Daten zu prüfen, mit welcher Sicherheit man einen Sachverhalt als richtig oder falsch annehmen kann. So ein Sachverhalt könnte sein: “Bohnen, die mit Dünger X gedüngt wurden, tragen mehr als Bohnen, die mit Dünger Y gedüngt wurden”. Solange dies noch nicht bewiesen ist, gilt dies als eine Hypothese. Oft geht es beim Hypothesentest darum, zwei verschiedene Stichproben miteinander zu vergleichen: zwei Gruppen von Bohnen, Frauen mit Männern, Stadtbewohner mit Landbewohnern, Wähler verschiedener Parteien, Kundengruppen.

Endgültige Gewissheit kann man allerdings mit einem Hypothesentest nicht erlangen, sondern nur ermitteln, mit welcher Wahrscheinlichkeit etwas wahr sein könnte. Ein Hypothesentest ist kein wissenschaftlicher Beweis. Der Vorteil des Hypothesentests besteht darin, dass man auf einfache Weise Zusammenhänge untersuchen kann, ohne die Wirkmechanismen dahinter zu kenn. Wenn man herausfindet, dass Dünger X eine bessere Ernte bewirkt als Dünger Y, muss man nicht verstehen, wie dies zustande gekommen ist. Nur das Ergebnis zählt.

Sollten Sie Unterstützung bei der Erhebung oder Analyse von Daten benötigen, helfen unsere Statistiker Ihnen gerne weiter. Nutzen Sie einfach unser Kontaktformular für eine kostenlose Beratung & ein unverbindliches Angebot – oder rufen Sie uns an.

Lassen Sie uns Ihre Anforderungen wissen & wir erstellen Ihnen innerhalb weniger Stunden ein kostenfreies Angebot.

Jetzt unverbindlich anfragen

Verfahren zum Hypothesentest

Zu unterscheiden ist beim Hypothesentest grundsätzlich zwischen den Messwerten und der dahinter liegenden Wahrscheinlichkeitsverteilung. Die Messwerte sind in unserem Beispiel die Erntemengen der Bohnenpflanzen. Da nicht alle Bohnenpflanzen gleich sind und eventuell auch nicht wirklich exakt dieselbe Wasser-, Nährstoff- und Lichtmenge erhalten haben (insbesondere bei einem Freilandversuch), werden nicht alle Bohnenpflanzen einer Gruppe exakt gleich viel Ernte einbringen. Die Erntemenge pro Pflanze folgt eher einer Wahrscheinlichkeitsverteilung, die um einen Erwartungswert herum verteilt ist. Bei vielen solcher natürlich beeinflusster Variablen kann man eine Gaußverteilung annehmen. Der Dünger bestimmt vermutlich vor allem den Erwartungswert der Erntemenge. Wir können jedoch die Wahrscheinlichkeitsverteilung der Erntemenge nicht kennen, sondern nur eine Stichprobe von mehr oder weniger Pflanzen messen. Wir können nicht einmal sicher sein, ob der Mittelwert der Stichprobe dem Erwartungswert der dahinter liegenden Verteilung entspricht. Noch weniger wissen wir über die Form der Verteilung: Ist es wirklich eine Gaußverteilung? Wie groß ist ihre Standardabweichung? Auch diese müssen mit statistischen Methoden ermittelt werden, oder man macht Annahmen darüber. Die Standardabweichung der Wahrscheinlichkeitsverteilung lässt sich beispielsweise anhand der Streuung der Messwerte abschätzen.

Der Gaußsche Hypothesentest wird am häufigsten eingesetzt. Hierbei werden zwei Stichproben miteinander verglichen hinsichtlich ihrer Mittelwerte: Hat die eine Stichprobe einen größeren, kleinerer oder ähnlichen Mittelwert wie die andere? Können wir darum annehmen, dass die Erwartungswerte der Verteilungen beider Stichproben sich analog verhalten? Die Voraussetzung für den Gaußtest ist, dass die Verteilungen der Wahrscheinlichkeiten unabhängig und gaußverteilt (also normalverteilt) sind.

Auch der t-Test vergleicht die Erwartungswerte zweier Stichproben miteinander, setzt jedoch voraus, dass beide Wahrscheinlichkeitsverteilungen dieselbe Standardabweichung haben. Falls die zu vergleichenden Stichproben nicht unabhängig und gaußverteilt sind, kommen andere Hypothesentests ins Spiel. Der Wilcoxon-Mann-Whitney-Test beispielsweise prüft, ob die Daten zweier Stichproben zur selben Verteilung gehören können, obwohl sie nicht gaußverteilt sind. Für voneinander abhängige Stichproben gibt es unter anderem den Wilcoxon-Vorzeichen-Rang-Test.

Weitere Testverfahren wie der ANOVA-Test und der Kruskal-Wallis-Test können mehr als zwei unabhängige Stichproben miteinander vergleichen, während der Friedman-Test mehrere abhängige Stichproben auswertet.

Man unterscheidet beim Hypothesentest zwischen einem einseitigen und zweiseitigen Test. Beim einseitigen Test wird wie in unserem Beispiel geprüft, ob eine Verteilung einen größeren Erwartungswert hat als die andere. Beim zweiseitigen Test geht es darum zu prüfen, ob man davon ausgehen kann, dass die Erwartungswerte zweier Wahrscheinlichkeitsverteilungen gleich oder verschieden sind.

Vorgehen beim Hypothesentest

Beim Hypothesentest geht man vor wie folgt:

  • Definition der Hypothesen: Da es leichter ist, eine Hypothese zu widerlegen als zu beweisen, formuliert man als Ausgangspunkt das Gegenteil von dem, was man belegen möchte. Die zu prüfende Hypothese wird die Nullhypothese H0 genannt. Diese lautet beispielsweise: “Bohnen, die mit Dünger X gedüngt wurden, tragen weniger als oder gleich viel wie Bohnen, die mit Dünger Y gedüngt wurden”. Dünger X wäre also nicht besser als Dünger Y, sondern höchstens genauso gut. Die Alternativhypothese H1 besagt dann genau das Gegenteil: “Bohnen, die mit Dünger X gedüngt wurden, tragen mehr als Bohnen, die mit Dünger Y gedüngt wurden”. Wenn wir H0 widerlegen, dann haben wir damit die Gültigkeit von H1 untermauert. Und H1 ist das, was wir zeigen möchten.
  • Signifikanzniveau a festlegen: Bevor man die Hypothesen prüft, legt man fest, wie sicher man sich dabei sein möchte. Die Wahrscheinlichkeit a misst die Wahrscheinlichkeit für einen Fehler 1. Art, nämlich dass die Hypothese H0 wahr ist, aber trotzdem verworfen wird. Somit würde H1 fälschlicherweise als wahr angenommen. Dieser Fehler sollte möglichst unwahrscheinlich sein, a also klein. Wählt man allerdings a sehr klein, dann wird man vermutlich die Hypothese H0 verwerfen müssen, selbst wenn sie richtig wäre. Einfach weil die Daten nicht genügend Sicherheit hergeben, um Hypothese H0 anzunehmen. Darum gibt man sich meistens mit a=5% oder 1% zufrieden. Entscheidend ist hier ganz praktisch, welchen Schaden ein Irrtum anrichten könnte.
  • Berechnen der Testgröße: Hypothesentests laufen immer darauf hinaus, dass eine normierte Testgröße berechnet wird. Beispielsweise teilt man die Messwerte durch den Mittelwert, damit für alle denkbaren Messgrößen und Stichproben diese Testgröße vergleichbar ausfällt. Bei einem zweiseitigen Hypothesentest beispielsweise muss, damit a=5% oder kleiner ist, die Testgröße zwischen µ-1,96s und µ+1,96s liegen, wobei µ den Erwartungswert bezeichnet und s die Standardabweichung.
  • Entscheidung über Annahme oder Ablehnung der Hypothesen: Nun kann anhand von Tabellen geprüft werden, ob die Testgröße für diese Stichprobe groß oder klein genug ist, um im Rahmen des vorab definierten Signifikanzniveaus die Nullhypothese H0 zu verwerfen und die Alternativhypothese H1 für wahr zu halten.
  • Interpretation: Abschließend wird diskutiert, was das Ergebnis bedeutet: Welche der Hypothesen wird mit welcher Fehlerwahrscheinlichkeit als wahr angenommen und welche verworfen? Wie ist die statistische Signifikanz dieser Annahme, d.h. wie sicher kann man dabei sein? Auch die Teststärke ß ist interessant. Das ist die Wahrscheinlichkeit für einen Fehler 2. Art, d.h. die Nullhypothese als richtig anzunehmen, obwohl sie falsch ist. Genau genommen wird durch einen Hypothesentest eine Hypothese nicht bewiesen, sondern man kann letztlich nur sagen, dass ihre Gültigkeit anhand der Messwerte nicht widerlegt werden konnte und sie darum als wahr angenommen wird. Einen echten Beweis kann der Hypothesentest nicht liefern, aber doch recht hohe statistische Sicherheiten, besonders wenn die Stichproben groß sind, die Erwartungs- und Mittelwerte beider Gruppen weit auseinander liegen und die Standardabweichungen gering sind.