Über Power, Signifikanzniveau und andere Fehler

Ist mein Ergebnis signifikant? Ist mein p-Wert kleiner als das Signifikanzniveau? Diese oder ähnliche Fragen kreisen um viele statistische Untersuchungen. Oft wird die Signifikanz dabei gleichgesetzt mit bedeutend, herausragend und wichtig. Nicht signifikante Ergebnisse werden als irrelevante Studien abgetan.

Dabei ist die Signifikanz lediglich eine Entscheidungsregel, eine ja/nein Aussage, die nichts über den Informationsgewinn einer Studie aussagt. Wie statistische Ergebnisse richtig zu interpretieren sind, lesen sie in diesem Beitrag.

Folgende Fragen werden in diesem Artikel beantwortet

Warum sind Fehlentscheidungen bei statistischen Tests unvermeidbar?
Was versteht man unter Fehler 1. Art und Fehler 2. Art?
Was hat es mit dem Signifikanzniveau auf sich und was sind signifikante Ergebnisse?
Welche Fehler darf man in der Interpretation des Testergebnisses nicht machen?

Hypothesen auf der Anklagebank: die Idee des statistischen Tests

Für das Verständnis der Idee des statistischen Tests hilft es, sich das Bild einer Gerichtsverhandlung vor Augen zu führen.

Power & Signifikanzniveau: Statistischer Test als Anklagebank — Bei statischen Tests steht Hypothese gegen Hypothese

Vor Gericht muss der Richter oft eine Entscheidung zwischen der Position des Klägers und des Angeklagten finden. Da der Richter bei der Tat nicht dabei war, muss er anhand der Zeugenaussagen und Beweisen entscheiden. Ein statistischer Test funktioniert ganz ähnlich: Es dreht sich alles um eine Entscheidung, ob sich die Beweislage zufällig zugetragen haben könnte. Die wahren Umstände sind unbekannt. Ein Test muss eine Entscheidung basierend auf einer Stichprobe und dem Signifikanzniveau treffen.

Dazu stellt man zunächst Hypothesen auf. In der Alternativhypothese wird formuliert, was zu belegen ist. In der Nullhypothese wird dagegen der „Standard“ Zustand beschrieben, die Situation, die all das umfasst, was man nicht nachweisen will. Ein Beispiel für eine Alternativhypothese wäre also: „Der Wirkstoff lindert die Symptome“ die entsprechende Nullhypothese wäre: „Der Wirkstoff lindert die Symptome nicht“. Im nächsten Schritt muss man ähnlich einem Richter im Gerichtssaal eine Entscheidung finden, welche der beiden Aussagen bzw. Hypothesen weiterhin anzunehmen ist. Und wie vor Gericht gilt auch hier der Grundsatz: „Im Zweifel für den Angeklagten“. Der „Angeklagte“ ist hier die Nullhypothese. Der Statistiker nimmt die Rolle eines Richters ein und entscheidet anhand der Datenlage ob weiterhin von der in der Nullhypothese formulierten Aussage auszugehen ist. Oder sprechen die Daten eindeutig genug dafür, um in Zukunft von der Alternativhypothese H1 auszugehen?

Im Zweifel für den Angeklagten: Fehler 1. Art und Fehler 2. Art

Die gesammelten Daten dienen dabei als „Beweismittel“ zur Entscheidungsfindung. Die Wahrheit dahinter kennt weder der Richter noch der Statistiker. Und so ist es möglich, dass auch Fehlentscheidungen getroffen werden:

Testergebnis: Nullhypothese annehmen

Testergebnis: Nullhypothese ablehnen

Nullhypothese wahr

Korrekt

Fehler 1. Art

α-Fehler

Nullhypothese falsch

Fehler 2. Art

β-Fehler

Korrekt

Von einem Fehler 1. Art oder α-Fehler spricht man dann, wenn im statistischen Test H0 verworfen wird. Die Alternativhypothese wird angenommen, obwohl diese in Wahrheit gar nicht gilt. Beispielsweise, man entscheidet aufgrund der Datenlage, dass ein neuer Wirkstoff die Symptome lindert, obwohl er tatsächlich wirkungslos ist.

Der Fehler 2. Art oder β-Fehler entsteht dadurch, dass das Testergebnis H0 bestätigt wird, obwohl in Wahrheit die Alternativhypothese gilt. Im obigen Beispiel bedeutet dies folgende Testentscheidung: Der Wirkstoff lindert nicht die Symptome, obwohl er tatsächlich wirksam ist.

Die Möglichkeit eines Fehlers ist unvermeidbar und jeder Anwender nimmt dieses Risiko bei Anwendung eines statistischen Tests in Kauf!

Die beiden Fehlertypen Fehler 1. Art und Fehler 2. Art stehen in Zusammenhang. Dies sieht man besonders deutlich, wenn man sich extreme Entscheidungsregeln oder Tests betrachtet: Wenn ein Test bei jeder Datenlage H0 annimmt, kann ein Fehler 1. Art nicht eintreten. Das heisst, die Alternative kann nie angenommen werden, unabhängig davon, was die Daten sagen. Sollte die Alternativhypothese jedoch in Wirklichkeit stimmen, beträgt die Wahrscheinlichkeit für einen Fehler 2. Art 1 (100%).

Der andere Extremfall ist eine Entscheidungsregel, die sich immer für die Alternative entscheidet. Sollte H0 jedoch stimmen, würde man in jeden Fall einen Fehler 1. Art von 100% erhalten.

Beide Extremtests sind aber in der Praxis unbrauchbar: Diese liefern deterministische Ergebnisse fernab der dargebrachten Beweise, den Daten.

Dazu kommt, dass die Entscheidungen in ihren Konsequenzen nicht gleichbedeutend sind:

Lehnt man die Nullhypothese ab, obwohl sie in Wahrheit gilt, sind die Auswirkungen wesentlich bedeutender: Ein Fehler 1. Art vor Gericht ist gleichbedeutend mit der Verurteilung eines Unschuldigen, ein Fehler 2. Art mit der Freilassung eines Verbrechers. Im Zweifel für den Angeklagten lautet ein Grundsatz unseres Rechtswesens. Und diese Grundidee gilt auch für das statistische Testen: Im Zweifel für H0! Der Fehler 1. Art wird durch das Signifikanzniveau unter Kontrolle gehalten! Wenn ein neuer Wirkstoff nicht eindeutig nachweisen kann, dass er deutlich genug die Symptome lindert, kann er sich nicht durchsetzen gegenüber der Standardtherapie.

Jetzt unverbindlich anfragen

Erdrückende Beweislast: das Signifikanzniveau α

Power & Signifikanzniveau: Beweislast — Signifikanzniveau: Reichen die Beweise für eine “Verurteilung”?

Wann sind die Beweise erdrückend genug? Im Gerichtsaal muss die Antwort auf diese Frage der Richter finden, in der Statistik gibt es dafür Kriterien: Die Schranke, ab wann man von eindeutigem Nachweis sprechen kann, erfolgt in der statistischen Testung mithilfe des Signifikanzniveaus.

Vor Durchführung des Tests wird ein Signifikanzniveau festgelegt, meist bei 5%. Das Signifikanzniveau gibt die maximal erlaubte Wahrscheinlichkeit für einen Fehler 1. Art an. Es ist damit eine vorher vereinbarte Schmerzgrenze.

P-Werte unterhalb des Signifikanzniveaus werden als „Beweis“ für die Alternative angesehen. Je kleiner der p-Wert, umso unwahrscheinlicher ist die Nullhypothese. Umgangssprachlich wird das Ergebnis dann als signifikant bezeichnet.

P-Werte geben die Wahrscheinlichkeit an, dass die erhobenen Daten oder in Richtung Alternativhypothese noch extreme Daten vorkommen, unter der Voraussetzung, dass die Nullhypothese gilt.

Die Festlegung des Signifikanzniveaus ist prinzipiell beliebig. Die traditionellen Grenzen von 5% bzw. 1% stammen aus einer Zeit, in der Tests noch manuell mit Stift und Unmengen von Verteilungstabellen berechnet wurden. Die zugehörigen Werte waren gut abzulesen. Heutzutage kann man die p-Werte meist exakt berechnen. Die 5% Festlegung für das Signifikanzniveau ist aber bis heute weit verbreitet.

Der Fehler 2. Art ist indirekt proportional zum Fehler 1. Art: Je höher der eine, desto niedriger der andere Fehler. Neben dem α-Fehler spielen noch weitere Faktoren eine wichtige Rolle für die Höhe des β-Fehlers. Die Zusammenhänge sind in folgender Tabelle zusammengestellt:

Gerichtsszene	Anzahl der Beweise	Fehler, einen Unschuldigen zu verurteilen	Deutlichkeit der Gesetzesübertretung	Unterschiedlichkeit der Beweise
Statistik	Stichprobenumfang	Fehler 1. Art	nachzuweisender Unterschied	Streuung der Daten
Fehler 2. Art

Power & Signifikanzniveau: β-Fehler sinkt — Chance sinkt

Power & Signifikanzniveau: β-Fehler steigt — Chance steigt

Der Fehler 2. Art kann nicht im Studienverlauf berechnet werden, er wird bei der Studienplanung im Rahmen der Fallzahlplanung berücksichtigt. Wenn Sie Unterstützung zum Thema Fallzahlplanung benötigen, können wir Sie gerne mit einer Statistik Beratung unterstützen.

Im Folgenden ist eine Illustration des Zusammenhangs von α, β und dem nachzuweisenden Effekt am Beispiel einer normalverteilten Testgrösse zu sehen.

Power & Signifikanzniveau: Wahrscheinlichkeiten für Normalverteilung — Wahrscheinlichkeit für den Fehler 1. Art (α-Fehler) und Fehler 2. Art (ss-Fehler) bei normalverteilter Testgrösse

Power & Signifikanzniveau: Wahrscheinlichkeit für verringerte Effektgroesse — Verringerung der standardisierten Effektgrösse

Power & Signifikanzniveau: Wahrscheinlichkeit für verringertes alpha — Verringerung des Signifikanzniveaus alpha

Signifikanz, Signifikanzniveau und Co.: Fehler in der Interpretation

Statistische Tests sind immer wieder in der Diskussion. Ein Grund dafür ist häufig die falsche Interpretation eines statistischen Tests.

Eine Falschannahme besteht sicherlich darin, signifikant als bedeutend oder wichtig zu interpretieren. Damit wären nur Studien wichtig, die signifikante Ergebnisse liefern. Das ist aber absolut unrichtig. Der Test liefert lediglich eine Entscheidungshilfe oder ein Kriterium, er sagt nichts über die Wichtigkeit der Fragestellung aus.

Studien mit sehr hoher Fallzahl führen auch bei geringen Effekten zu sehr geringen p-Werten. Kleine und in der Praxis evtl. unbedeutende Unterschiede sind signifikant. Was würden Sie zu einem Justizsystem sagen, bei dem geringfügige Gesetzesübertretungen schon geahndet werden und zu Verurteilungen führen?

Ein signifikanter p-Wert wird häufig so interpretiert, dass die Wahrscheinlichkeit eines Fehlalarms unter 5% liegt. Dies ist falsch. Das kann ein Test nicht aussagen, da der p-Wert unter der Bedingung gebildet wird, dass die Nullhypothese gilt. Ein Umkehrschluss von der Stichprobe auf die zugrunde liegende Gesamtheit, die Realität ist nicht möglich. Es fehlt die Information über die Wahrscheinlichkeit, dass der gesuchte Effekt selbst auftritt.

Eine weitere wichtige Tatsache, die z. T. unbeachtet bleibt, besteht darin, dass bei einem Signifikanzniveau von 5% eine von 20 äquivalent durchgeführten Studien ein signifikantes Ergebnis liefert, obwohl in Wahrheit kein Effekt vorliegt. Meist wird genau die eine signifikante Studie veröffentlicht. Dadurch entsteht ein sogenannter Publikationsbias.

Zusammenfassung

In diesem Artikel haben wir Ihnen einen Einblick in die Konzepte der statistischen Testung gegeben und Fehler 1. Art oder α-Fehler, Fehler 2. Art oder ss-Fehler und die Power eines Tests näher erläutert. Die Fehler sind voneinander abhängig, es wird immer der ss-Fehler durch das Signifikanzniveau α kontrolliert. Den ss-Fehler kann man in der Studienplanung anhand der Fallzahlplanung einbeziehen, in der eigentlichen Testung ist er nicht mehr beeinflussbar. Diese Fehler sind Bestandteile jedes statistischen Tests.

Schwerwiegend sind häufig die Fehler, die bei der Interpretation des Ergebnisses statistischer Tests gemacht werden. Ein statistischer Test kann keine Aussage über die Korrektheit einer Hypothese treffen!

Wenn Sie unsicher bezüglich der Interpretation ihrer Testergebnisse sind, oder wir Ihre Schlussfolgerungen überprüfen sollen, sind wir gerne für Sie da. Bei Fragen oder Problemen rund um statistische Auswertung und Ergebnisdarstellung und allen anderen statistischen Belangen stehen unsere Experten von Novustat Ihnen gerne zur Seite.

Weiterführende Quellen:

[1] Wikipedia Artikel zur statistischen Signifikanz

[2] Artikel über Kontroversen rund um das Signifikanzniveau (Spektrum)

[3] Journal-Artikel: The reporting of statistical significance in scientific journals (Demographic Research)

Name	Borlabs Cookie
Anbieter	Eigentümer dieser Website, Impressum
Zweck	Speichert die Einstellungen der Besucher, die in der Cookie Box von Borlabs Cookie ausgewählt wurden.
Cookie Name	borlabs-cookie
Cookie Laufzeit	1 Jahr

Name	Google Tag Manager
Anbieter	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Zweck	Cookie von Google zur Steuerung der erweiterten Script- und Ereignisbehandlung.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de
Cookie Name	_ga,_gat,_gid
Cookie Laufzeit	2 Jahre

Akzeptieren	Google Analytics
Name	Google Analytics
Anbieter	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Zweck	Cookie von Google für Website-Analysen. Erzeugt statistische Daten darüber, wie der Besucher die Website nutzt.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de
Cookie Name	_ga,_gat,_gid
Cookie Laufzeit	2 Monate

Akzeptieren	Vimeo Statistiken
Name	Vimeo Statistiken
Anbieter	Vimeo.com, Inc.
Zweck	Sammelt Daten über Besuche des Benutzers auf der Website, wie zum Beispiel welche Seiten gelesen wurden.
Datenschutzerklärung	https://vimeo.com/privacy
Host(s)	vimeo.com
Cookie Name	vuid
Cookie Laufzeit	2 Jahre

Akzeptieren	Proven Expert
Name	Proven Expert
Anbieter	Expert Systems AG
Zweck	Sammelt Informationen zum Besucherverhalten auf mehreren Webseiten. Diese Informationen wird auf der Webseite verwendet, um die Relevanz der Werbung zu optimieren.
Datenschutzerklärung	https://www.provenexpert.com/en-us/privacy-policy/
Host(s)	provenexpert.com
Cookie Name	PE_SESSION
Cookie Laufzeit	Session

Gerne beraten wir Sie auch telefonisch & geben Ihnen eine kostenfreie persönliche Auskunft zu Ihrem Projekt.

+49 211 99346512

+41 78 89 11111

+43 720 3035410

Fehler in der Statistik: Über Signifikanzniveau, Power und andere Fehler