SPSS fehlende Werte: Lösungsstrategien für klinische Studien

In diesem Artikel möchten wir Ihnen einen Überblick darüber geben, welche Formen fehlende Daten generell annehmen können, wie sich das Fehlen dieser Daten auf die Auswertung und die Ergebnisse auswirken kann und welche Lösungsstrategien sich letztendlich besonders im Rahmen klinischer Studien anbieten. Liegen für klinische Studien sämtliche Beobachtungen aller Variablen vor, dann können statistische Verfahren direkt eingesetzt werden. Doch dieser Idealfall ist eher die Ausnahme als die Regel. Oftmals hat man im Bereich medizinische Statistik bei der Arbeit mit SPSS fehlende Daten verarbeiten. Durch fehlende Daten kommt es nicht nur zum Informationsverlust. Auch Fehlschlüsse durch Datenmangel oder Verzerrungen können auftreten.

Zunächst werden wir die verschiedenen Arten fehlender Daten benennen und mögliche statistische Auswirkungen erläutern. Zum Schluss werden wir Ihnen dann Lösungsmöglichkeiten für den Umgang mit fehlenden Daten zur Verfügung präsentieren, so verwendet man beispielsweise häufig für die multiple Imputation SPSS.

Medizinische Statistik: Arten fehlender Daten (klinische Studien)

Wie kommt es eigentlich zum Phänomen der fehlenden Daten? Die Gründe hierfür sind vielschichtig und hängen unter anderem von der Erhebungsmethode ab. Wird beispielsweise eine Befragung durchgeführt, können Probanden ihre Antwort auf bestimmte Fragen aus den verschiedensten Gründen verweigern. Bei Experimenten dagegen, wie sie beispielsweise für klinische Studien durchgeführt werden, sind insbesondere Longitudinalstudien problematisch. Patienten, die zu Beginn der Studie noch zur Verfügung standen, könnten diese vor ihrem Ende verlassen. Denn aus ethischen oder persönlichen Gründen ist es den Probanden unter Umständen gestattet, die Studienteilnahme vorzeitig zu beenden. In der Überlebenszeitanalyse nennt man diese Probanden rechtszensiert.

Wir unterscheiden folgende drei Arten fehlender Daten, sortiert nach aufsteigender Problemhaftigkeit:

Missing completely at random (MCAR): Es ist komplett zufällig, welche Probanden zu Non-Respondern werden, also fehlende Daten verursachen. Jeder Patient scheidet mit der gleichen Wahrscheinlichkeit aus der Studie aus. Durch die fehlenden Daten verringert sich die Stichprobengrösse. Statistische Schätzungen sind weiterhin erwartungstreu, aber die Varianz vergrössert sich. Die Güte von statistischen Tests sinkt und damit die Chance einen bestimmten Effekt nachzuweisen.
Missing at random (MAR): Die Wahrscheinlichkeit für fehlende Daten hängt von demographischen Variablen wie Alter und Geschlecht ab. Beispielsweise könnten alte Probanden ihre Teilnahme an einer klinischen Studie vorzeitig abbrechen, weil sie die Behandlung nicht mehr so gut vertragen wie die jungen Probanden. Dies kann zu verzerrten Schätzungen des globalen Effekts führen, wenn die verkleinerte Stichprobe dadurch nicht mehr repräsentativ ist. Innerhalb der Subgruppen der Frauen, Männer, Jungen und Alten bleiben die Ergebnisse aber gültig.
Missing not at random (MNAR): Bei MAR-Daten wird jeder Proband innerhalb einer Subgruppe (z.B. junge Frauen) mit der gleichen Wahrscheinlichkeit zum Non-Responder. Dagegen ist die Non-Response-Wahrscheinlichkeit bei MNAR-Daten von Person zu Person verschieden und steht im Zusammenhang mit dem Krankheitsgrad der betroffenen Probanden. Es ist beispielsweise anzunehmen, dass Probanden, welche die Wirksamkeit ihres Medikaments als gering und die Nebenwirkungen als hoch einschätzen, ihre Medikamente vermutlich absetzen.

Jetzt unverbindlich anfragen

Auswirkungen von MNAR-Daten auf klinische Studien

Wir werden nun die Auswirkungen für das Fehlen von Daten vom Typ MNAR auf die Schätzung des Erwartungswerts normalverteilter Daten illustrieren und dafür ein Beispiel aus der Psychiatrie verwenden.

Ein Arzt interessiert sich für die durchschnittliche Ausprägung der Depression in der Bevölkerung. Hierfür verschickt er Fragebögen an eine repräsentative Stichprobe von Personen. Klinische Studien sind so aufgebaut, dass idealerweise alle Teilnehmer ihren Fragebogen ausfüllen und ihn zurückschicken. Mit Hilfe der Fragebögen kann der Psychiater auf einer Skala angeben, wie stark die Depression der einzelnen Teilnehmer ausgeprägt ist. Der durchschnittliche numerische Wert aller Teilnehmer liefert eine gute Schätzung für den wahren durchschnittlichen Wert in der Bevölkerung. Allerdings ist es oftmals so, dass ein grosser Teil der befragten Personen den Fragebogen nicht ausfüllt und zurückschickt. Dann gilt es, die Ursache für einen Non-Response herauszufinden.

In unserem Beispiel haben wir es vermutlich mit MNAR-Daten zu tun, da die Response-Wahrscheinlichkeit mit der Krankheitsintensität zusammenhängt. Denn bei einer stark ausgeprägten Depression werden die Probanden vermutlich kaum die Energie und Motivation haben, den Fragebogen auszufüllen und abzuschicken. Ist einem dieser Zusammenhang bei der Datenauswertung nicht bewusst, wird man stark verzerrte Ergebnisse erhalten.

In der folgenden Simulationsanalyse wird die Intensität der Depression in der Bevölkerung als standardnormalverteilt vorausgesetzt (höhere Werte stehen für eine schwerwiegendere Krankheit). Die Non-Response-Wahrscheinlichkeit wird in Abhängigkeit der Krankheitsintensität als logistische Funktion \(f \left( x \right) =\frac{1}{1+e^{-x+x_{0}}}\) modelliert. \(f \left( 0 \right)\) ist die Wahrscheinlichkeit für einen Nicht-Response für einen in der Gesamtpopulation durchschnittlich kranken beziehungsweise gesunden Probanden. Hieraus lässt sich der Parameter \(x_{0}\) durch \(x_{0}=ln \left( \frac{1}{f \left( 0 \right) }-1 \right)\) bestimmen. In der folgenden Abbildung wurde der erwartete Anteil Nicht-Responder beispielsweise auf 50% festgelegt, wodurch sich \(x_{0}=0 \) ergibt.

klinische Studien: Non-Response-Wahrscheinlichkeit

Bei einer Fallzahl von \(n\) ergibt sich aus den unabhängig und identisch standardnormalverteilten Messwerten \(X_{1},…,X_{n}\) der Mittelwert \(\frac{1}{n} \sum _{k=1}^{n}X_{k}\) als erwartungstreue Schätzung für den wahren Erwartungswert der Normalverteilung. Da nicht jeder Messwert zur Verfügung steht, muss angegeben werden, wer zum Non-Responder wird. Ist der k-te Proband ein Responder, so erhält die Zufallsvariable \(Y_{k}\) den Wert 1 und ansonsten den Wert 0. \(Y_{1},…,Y_{n}\) sind also unabhängig und identisch verteilt. Wegen der MNAR-Eigenschaft sind \(Y_{k}\) für \(k = 1,…, n\) abhängig von \(X_{k}\) . Genau genommen gilt für die bedingte Verteilung von \(Y_{k}\) gegeben \(X_{k}\) , dass sie die Bernoulli-Verteilung \(Bern\left(1-\frac{1}{1+e^{-X_{k}+x_{0}}}\right)\) aufweist. Durch den Datenverlust verringert sich die effektive Stichprobengrösse auf \(m<n\) und der effektive Schätzer lautet \(\frac{\sum _{k=1}^{n}X_{k}⋅Y_{k} \vee X_{k}}{ \sum _{k=1}^{n}Y_{k} \vee X_{k}}\).

Im Anschluss werden die Auswirkungen der MNAR-fehlenden Daten auf die Verteilungen des Schätzers untersucht (siehe Diagramme unten). Dabei ist nicht nur eine Erhöhung der Varianz durch die geringere effektive Stichprobengrösse ersichtlich. Besonders gravierend ist die starke Verzerrung, die auch bei grösseren Stichproben nicht verschwindet. Schon bei einem relativ kleinen Datenverlust von nur 25% der gesamten Stichprobe ist eine durchschnittliche Verzerrung von 25% der Standardabweichung festzustellen. Natürlich hängt das Ergebnis stark davon ab, wie genau die Non-Response-Wahrscheinlichkeit von der Krankheitsintensität abhängt. In dieser Simulationsanalyse für die medizinische Statistik wurde exemplarisch eine logistische Funktion gewählt. Dieser Zusammenhang ist in der Praxis in der Regel unbekannt.

klinische Studien: Verteilungen der Schätzungen der erwarteten Krankheitsintensität von 20

klinische Studien: Verteilungen der Schätzungen der erwarteten Krankheitsintensität von 40

klinische Studien: Verteilungen der Schätzungen der erwarteten Krankheitsintensität von 60

klinische Studien: Verteilungen der Schätzungen der erwarteten Krankheitsintensität von 80

Betrachten wir die vier obigen Grafiken noch einmal genauer. Wir haben vier unterschiedliche Fallzahlen untersucht, mit 20, 40, 60 und 80 Probanden. Im Idealfall (schwarze Linie) sind alle Daten vorhanden. Zusätzlich haben wir auch einen Datenverlust von im Mittel 25%, 50% und 75% mit der bereits erwähnten logistischen Funktion simuliert. In allen Fällen haben wir den Mittelwert aus den vorhandenen Daten berechnet und damit den Erwartungswert geschätzt. In Wahrheit soll die Ausprägung der Depression in der Bevölkerung standardnormalverteilt sein, also im Mittel 0 bei einer Standardabweichung von 1.

Alle Schätzer sind glockenförmig verteilt. Sie haben sicher schon die leichten Abweichungen von der Glockenverteilung an einigen Stellen bemerkt; durch die MCMC Simulation kommt es an einigen Stellen zu leichten, aber vernachlässigbaren Ungenauigkeiten. Aufgrund der Symmetrie der Glockenverteilungen befinden sich die Erwartungswerte der Verteilungen auf ihren Gipfeln. Es ist gut zu sehen, wie die Erwartungswerte immer weiter nach links wandern, je höher der Anteil fehlender Daten ist. Die Schätzungen werden im Mittel also immer ungenauer; in der Statistik spricht man von der Verzerrung (englisch: bias). Auch die Varianzen der Verteilungen nehmen immer weiter zu, erkennbar an der grösseren Streubreite. Die Verzerrung und die grosse Varianz der Schätzer bei vielen fehlenden Daten sind eindeutige Zeichen für ihre Ungenauigkeit.

Die Varianzen der Schätzer können durch eine grössere Stichprobe reduziert werden (vgl. die vier Grafiken von oben bis unten), aber die Verzerrungen bleiben bestehen. Nur falls alle Daten vorhanden sind (schwarze Linie), ist der Schätzer erwartungstreu.

Lösungsmöglichkeiten

Wie oben dargestellt, können in SPSS fehlende Daten für klinische Studien gravierende statistische Probleme verursachen. Daher zeigen wir Ihnen nun einige Lösungsmöglichkeiten auf, wie Sie dieses Problem beheben können.

Ursachen für fehlende Daten beheben: Die Ideallösung besteht darin, es möglichst gar nicht erst zu fehlenden Daten kommen zu lassen. So sollten Sie so Ihren Fragebogen erstellen, dass die Rücklaufquote möglichst hoch ist. Gut geplante Klinische Studien (medizinische Statistik), sorgen für eine geringere Abbrecherquote. Hierfür ist eine gute Kommunikation zwischen dem Prüfarzt und den Probanden während der gesamten Studiendauer erforderlich.
Multiple Imputation SPSS: Als Amputation bezeichnet man in der Medizin die Abtrennung eines Körperteils vom Körper. Die Imputation in der Statistik stellt in gewisser Weise das Gegenteil dar: Es werden fehlende Daten vervollständigt. Nun sind die wahren Werte der fehlenden Daten natürlich unbekannt und können nur aus den vorhandenen Daten geschätzt werden. Man unterscheidet zwischen der singulären und der multiplen Imputation. Während bei der singulären Imputation für jeden fehlenden Wert nur ein Schätzwert erzeugt wird, werden bei der multiplen Imputation gleich mehrere Schätzwerte erzeugt und diese zu einem Wert gemittelt. Verfahren zur Imputation werden von verschiedener Statistik-Software angeboten. Eine der beliebtesten Anwendungen ist für die multiple Imputation SPSS.

Wir hoffen, dass wir Ihnen mit diesem Artikel die Problematik fehlender Daten in SPSS (klinische Studien) näherbringen konnten und unsere Lösungsvorschläge für diese Problematik Ihnen bei Ihrer eigenen Auswertung behilflich sind, um bessere Resultate zu erzielen und Ihre Forschungsziele zu erreichen. Für weitere Unterstützung in diesem Bereich stehen Ihnen unsere professionellen Statistiker jederzeit zur Verfügung!

Name	Borlabs Cookie
Anbieter	Eigentümer dieser Website, Impressum
Zweck	Speichert die Einstellungen der Besucher, die in der Cookie Box von Borlabs Cookie ausgewählt wurden.
Cookie Name	borlabs-cookie
Cookie Laufzeit	1 Jahr

Name	Google Tag Manager
Anbieter	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Zweck	Cookie von Google zur Steuerung der erweiterten Script- und Ereignisbehandlung.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de
Cookie Name	_ga,_gat,_gid
Cookie Laufzeit	2 Jahre

Akzeptieren	Google Analytics
Name	Google Analytics
Anbieter	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Zweck	Cookie von Google für Website-Analysen. Erzeugt statistische Daten darüber, wie der Besucher die Website nutzt.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de
Cookie Name	_ga,_gat,_gid
Cookie Laufzeit	2 Monate

Akzeptieren	Vimeo Statistiken
Name	Vimeo Statistiken
Anbieter	Vimeo.com, Inc.
Zweck	Sammelt Daten über Besuche des Benutzers auf der Website, wie zum Beispiel welche Seiten gelesen wurden.
Datenschutzerklärung	https://vimeo.com/privacy
Host(s)	vimeo.com
Cookie Name	vuid
Cookie Laufzeit	2 Jahre

Akzeptieren	Proven Expert
Name	Proven Expert
Anbieter	Expert Systems AG
Zweck	Sammelt Informationen zum Besucherverhalten auf mehreren Webseiten. Diese Informationen wird auf der Webseite verwendet, um die Relevanz der Werbung zu optimieren.
Datenschutzerklärung	https://www.provenexpert.com/en-us/privacy-policy/
Host(s)	provenexpert.com
Cookie Name	PE_SESSION
Cookie Laufzeit	Session

Gerne beraten wir Sie auch telefonisch & geben Ihnen eine kostenfreie persönliche Auskunft zu Ihrem Projekt.

+49 211 99346512

+41 78 89 11111

+43 720 3035410

SPSS fehlende Werte behandeln: Lösungswege für klinische Studien

Brauchen Sie Hilfe?

Auswirkungen von MNAR-Daten auf klinische Studien

Lösungsmöglichkeiten

Akzeptieren	Microsoft Bing Ads
Name	Microsoft Bing Ads
Anbieter	Microsoft Corporation
Zweck	Microsoft Bing Ads UET (Universal Event Tracking, Universelle Ereignisnachverfolgung) Tracking-Cookie, der für die zielgerichtete Werbung genutzt wird
Datenschutzerklärung	https://about.ads.microsoft.com/en-us/policies/legal-privacy-and-security
Cookie Name	_uetsid

Akzeptieren	LinkedIn Insight Tag
Name	LinkedIn Insight Tag
Anbieter	LinkedIn Ireland Unlimited Company, Wilton Plaza, Wilton Place, Dublin 2, Irland
Zweck	Cookie von LinkedIn, der zum Erfassen von Nutzerdaten und das Tracking von LinkedIn Ads verwendet wird
Datenschutzerklärung	https://www.linkedin.com/legal/privacy-policy

Akzeptieren	Meta Pixel
Name	Meta Pixel
Anbieter	Meta Platforms Ireland Ltd., 4 Grand Canal Square, Dublin 2, Irland
Zweck	Cookie von Meta, der zum Erfassen von Nutzerdaten und das Tracking von Meta Ads verwendet wird
Datenschutzerklärung	https://www.facebook.com/privacy/policy

Akzeptieren	Twitter
Name	Twitter
Anbieter	Twitter International Company, One Cumberland Place, Fenian Street, Dublin 2, D02 AX07, Ireland
Zweck	Wird verwendet, um Twitter-Inhalte zu entsperren.
Datenschutzerklärung	https://twitter.com/privacy
Host(s)	.twimg.com, .twitter.com
Cookie Name	__widgetsettings, local_storage_support_test
Cookie Laufzeit	Unbegrenzt