Die Wahl der passenden statistischen Methode
10. März 2025
Als Forschende im Gesundheitswesen wissen Sie, wie entscheidend präzise und valide Ergebnisse sind, sei es bei klinischen Studien oder der Analyse von Patientendaten. Doch ebenso wichtig wie die Datenerhebung und -analyse ist die Auswahl der richtigen statistischen Methode, um aus den Daten verwertbare Schlüsse zu ziehen. Stellen Sie sich vor, ein Patient kommt mit einem gebrochenen Bein in die Klinik, und anstelle das Bein zu behandeln, operiert man den Arm. Auch wenn die Operation selbst fehlerfrei verläuft, wird der Patient kaum profitieren – sein eigentliches Problem bleibt ungelöst. Genauso verhält es sich in der Statistik: Selbst wenn eine Analyse korrekt durchgeführt wird, hilft sie der Forschung nicht weiter, wenn eine ungeeignete Methode angewendet wird. Das kann zu falschen oder irreführenden Ergebnissen führen und schlimmstenfalls die gesamte Forschungsarbeit infrage stellen.
Deshalb ist es entscheidend, von Anfang an die passende statistische Methode für Ihre Forschungsfrage zu wählen. In diesem Beitrag werden wir besprechen, wie Sie die richtige Methode auswählen und welche Faktoren dabei berücksichtigt werden sollten, um valide, nachvollziehbare und aussagekräftige Ergebnisse zu erzielen.
1. Gibt es Confounder in Ihrer Forschungsfrage?
Der erste Schritt bei der Wahl der passenden statistischen Methode ist die Frage, ob es in Ihrer Studie sogenannte Confounder gibt. Ein Confounder ist eine Variable, die sowohl die unabhängige Variable (die, die deren Einfluss Sie untersuchen) als auch die abhängige Variable (das Ergebnis, das Sie messen) beeinflussen kann. Wenn Confounder nicht berücksichtigt werden, kann das zu falschen oder irreführenden Ergebnissen führen.
Beispiel für ein Studiendesign mit Confounder: Angenommen, Sie möchten den Einfluss von Kaffeekonsum auf das Risiko für Herz Kreislauf-Erkrankungen untersuchen. Wenn Sie dabei nicht berücksichtigen, dass Menschen, die viel Kaffee trinken, möglicherweise auch häufiger rauchen, wird das Rauchen als Confounder die Ergebnisse verfälschen. In diesem Fall könnten Sie fälschlicherweise annehmen, dass der Kaffeekonsum das Risiko für Herzkrankheiten erhöht, obwohl das Rauchen der wahre Auslöser ist.
Beispiel für ein Studiendesign ohne Confounder: Wenn Sie den Effekt einer neuen Diät auf das Körpergewicht untersuchen und sicherstellen, dass es keine weiteren Faktoren gibt, die diesen Zusammenhang beeinflussen, wie z.B. körperliche Aktivität oder Stoffwechselstörungen, gibt es keinen Confounder. In diesem Fall können Sie sicher sein, dass der Effekt, den Sie messen, tatsächlich auf die Diät zurückzuführen ist.
2. Vergleich von zwei oder mehr Gruppen
Der nächste Schritt bei der Auswahl der richtigen statistischen Methode ist zu klären, ob Sie zwei oder mehr Gruppen miteinander vergleichen möchten.
Vergleich von zwei Gruppen ohne Confounder: Wenn Sie zwei Gruppen vergleichen und keine Confounder vorhanden sind, können Sie auf klassische statistische Tests zurückgreifen. Diese Tests setzen voraus, dass die Gruppen unabhängig voneinander sind und keine Störfaktoren die Ergebnisse beeinflussen. Hier finden Sie eine Mindmap zur Auswahl des richtigen Tests:
Mindmap.
Vergleich von mehreren Gruppen ohne Confounder: Wenn Sie mehrere Gruppen ohne Confounder vergleichen möchten, kommen Methoden wie die ANOVA (Analysis of Variance) oder die MANOVA (Multivariate ANOVA) zum Einsatz, abhängig davon, ob Sie eine oder mehrere abhängige Variablen untersuchen. Wenn die Daten nicht normalverteilt sind, können entsprechende nicht-parametrische Methoden wie der Kruskal-Wallis-Test angewendet werden.
3. Zusammenhang zwischen zwei Variablen ohne Confounder
Wenn Sie keinen Gruppenvergleich durchführen, sondern den Zusammenhang zwischen zwei Variablen messen möchten und keine Confounder vorliegen, können Sie einen Korrelationskoeffizienten berechnen. Dieser gibt an, wie stark und in welche Richtung die beiden Variablen zusammenhängen.
Welche Korrelationskoeffizienten der passende ist hängt vom Messniveau der Variablen ab. Korrelationskoeffizienten können auch mit einem p-Wert versehen werden. Dieser p-Wert zeigt an, ob der gemessene Zusammenhang statistisch signifikant ist oder zufällig aufgetreten sein könnte.
4. Analyse mit Confoundern
Wenn Confounder in Ihrer Forschungsfrage vorhanden sind, müssen Sie spezielle statistische Techniken verwenden, um die Verzerrung durch diese Störvariablen zu minimieren.
Vergleich von zwei Gruppen mit Confoundern: Wenn Sie zwei Gruppen vergleichen und Confounder vorliegen, kann das Propensity Score Matching (PSM) eine sinnvolle Methode sein. Mit PSM werden Gruppen so erstellt, dass die Confounder ausgeglichen werden, indem Proband:innen mit ähnlichen Eigenschaften (basierend auf den Confoundern) in den beiden Gruppen miteinander verglichen werden. Dadurch kann der Effekt der zu untersuchenden Variable isoliert werden.
Untersuchung des Einflusses einer Variable auf eine andere mit Confoundern: Wenn Sie den Einfluss einer Variable auf eine andere untersuchen möchten und Confounder vorliegen, bieten sich verschiedene Regressionsmodelle an, je nach Art der Variablen und der Erfüllung bestimmter Annahmen. Die klassische lineare Regression kann verwendet werden, wenn beide Variablen metrisch sind und die Verteilungen der Daten bestimmten Voraussetzungen entsprechen. Für kategoriale abhängige Variablen könnte hingegen eine logistische Regression sinnvoll sein. In beiden Fällen müssen Sie die Confounder als zusätzliche Prädiktoren in das Modell aufnehmen, um deren Einfluss zu kontrollieren.
Die Auswahl der passenden statistischen Methode ist entscheidend für den Erfolg Ihrer Analyse. Der erste Schritt ist immer zu klären, ob Confounder in Ihrer Forschungsfrage eine Rolle spielen. Confounder sind Störvariablen, die die Ergebnisse verfälschen können, und es ist wichtig, sie frühzeitig zu identifizieren.
Im nächsten Schritt sollten Sie überlegen, ob Sie zwei Gruppen, mehrere Gruppen oder den Einfluss einer Variable auf eine andere untersuchen möchten. Wenn zwei Gruppen verglichen werden, kommen klassische Zwei-Stichprobentests zum Einsatz, bei mehreren Gruppen können Methoden wie die ANOVA verwendet werden. Wenn Sie hingegen den Zusammenhang zwischen zwei Variablen untersuchen wollen, kommen Korrelationskoeffizienten oder Regressionsmodelle ins Spiel.
Schließlich ist es unerlässlich, das Skalenniveau der Variablen zu kennen, die Sie analysieren möchten, da dies die Wahl der Methode beeinflusst. Mit diesen Informationen – ob Confounder vorhanden sind, welche Art von Vergleich oder Zusammenhang Sie untersuchen und welche Skalenniveaus Ihre Variablen haben – können Sie die passende Methode für Ihre Analyse finden und zu belastbaren Ergebnissen kommen.
Antonie Hellwig
Die richtige Auswahl der Variablen
15. Februar 2025
Bei einer Regression wird der Effekt unabhängiger Variablen auf abhängige Variablen modelliert. Eine gezielte Auswahl der unabhängigen Variablen ist dabei ein erster zentraler Schritt, um ein robustes Modell aufzustellen. Oft gibt es in einem Datensatz mehr potenzielle abhängige Variablen, als inhaltlich nützlich – aber wie kann man als ForscherIn eine gute Selektion ausführen?
Und warum ist das wichtig?
Kurzgesagt geht jede Modellierung einen trade-off zwischen Genauigkeit und Einfachheit ein: eine hohe Anzahl unabhängiger Variablen führen zu hoher Komplexität – dafür zu hoher Genauigkeit im Datensatz. Der vorliegende Datensatz kann dann mit hoher Genauigkeit abgebildet werden, ist aber nicht zwingend auf andere Fälle generalisierbar. Wenige abhängige Variablen führen zu einem einfachen Modell, dem es dafür an Genauigkeit fehlen kann. Besonders, wenn relevante Variablen ausgelassen werden.
Wir stellen verschiedene Methoden zur Variablenselektion vor – geordnet nach ihrer Eignung, von weniger bis besonders geeignet.
R-quadrat:
Die gängigsten Modelle schätzen die erklärte Varianz, z.B. mit R-quadrat bei linearen Regressionsmodellen. Dieses Maß ist nicht ohne Nutzen, aber für die Variablenselektion eher ungeeignet. Je mehr Variablen eingeführt werden, desto besser wird normalerweise auch R-quadrat, sodass eine Selektion damit nicht empfohlen werden kann. Wir nennen dieses Maß deshalb auch „gierig“.
Stepwise Selection (Forward/Backward):
Forward oder Backward Selection bezieht sich auf einen Algorithmus, bei welchem zuerst ein „leeres“ Modell (Forward Selection) oder „vollständiges“ Modell (Backward Selection) mit allen Variablenkandidaten aufgestellt wird. Schrittweise werden unabhängige Variablen zugegeben oder entfernt und meistens mittels p-Wert dann selektiert werden. Schritt für Schritt wird immer die Variablen mit dem nächstkleinsten p-Wert hinzugefügt bzw. die mit dem größten -Wert entfernt.
Diese Methode ist aufwändig und nicht immer nützlich: die p-Werte aus den verschiedenen Schritten sind verzerrt, da diese auf den gleichen Daten immer wieder berechnet werden.
Informationskriterien:
Kriterien wie das Akaike- oder Bayes-Information-Criterion (AIC/BIC) nutzen die Modell-likelihood, um die Güte des Modells mit einer Zahl zu beschreiben. Beide enthalten einen Strafterm, der die Güte mit der Anzahl der Variablen abstrafen, denn jede zusätzliche Variable macht ein Modell immer genauer, aber es soll ja keine hohe Anpassung des Modells an die Daten dadurch erlangt werden, dass einfach möglichst viele Variablen aufgenommen werden, sondern dadurch dass besonders passende Variablen ausgewählt wurden. Eine neue Variable ergibt nur dann ein besseres Informationskriterium, wenn diese mehr zum Modell beiträgt als der Strafterm. Diese Methode ist einfach umzusetzen und wenn richtig angewandt eine gute Selektionsmethode.
LASSO-Regression:
„Least Absolute Shrinkage and Selection Operator“ – also LASSO, ist auch eine Methode, die den Beitrag der Variablen abstraft. Anders als die Informationskriterien, werden die Koeffizienten direkt im Modell abgestraft und Variablen mit geringer Erklärungskraft somit auf null geschrumpft. Das Modell kann somit gleichzeitig modellieren und selektieren und kann auch mit korrelierten Variablen umgehen. Diese Methode ist recht komplex, bietet aber eine solide datengetriebene Selektion.
Theorie und Literatur:
Die beste Methode ist -interessanterweise- nicht datengetrieben. Die beste Methode, um gute unabhängige Variablen auszusuchen ist und bleibt die Expertise und das Wissen durch vorige Forschung. Diese Methode kann aufwändig sein und nicht immer existiert bereits Literatur, umgeht aber jegliche Annahmen der bisher genannten Methoden.
Natürlich existieren auch noch andere Methoden. Wir haben hier die wichtigsten Zusammengefasst, die in der medizinischen Forschung üblich sind.
Alessandro Campione
Tipps für die Promotion
5. Februar 2025
Das Thema Doktorarbeit ist eines, mit dem sich die meisten Medizinerinnen und Mediziner früher oder später auseinandersetzen. Eine Promotion kann ein bereicherndes Projekt sein, das eine tolle Möglichkeit bietet, sich intensiv mit einem spannenden Thema zu beschäftigen. Doch in vielen Fällen kommt es auch zu Frustrationen und Überforderung. Um das zu vermeiden oder zumindest zu verringern, haben wir hier ein paar Tipps für euch zusammengestellt.
Das richtige Thema finden
Bereits die Wahl des Themas kann eine Herausforderung sein. Es gibt viele Möglichkeiten, Fehler zu machen, aber auch vieles, was man richtig machen kann. Dennoch solltest du dich nicht zu sehr unter Druck setzen. Am Ende muss eine Entscheidung getroffen werden, und jedes Thema hat Vor- und Nachteile.
Da dich die Thematik über mehrere Jahre begleiten wird, sollte sie dein Interesse wecken. Das erleichtert es, dich nach einem langen Tag noch einmal aufzuraffen und Fachliteratur zu lesen. Allerdings gibt es auch andere wichtige Faktoren: Manchmal ist es sinnvoller, nicht das absolute Herzensthema zu wählen, sondern eines, das dich interessiert, aber auch gut umsetzbar ist. Jedes Forschungsgebiet erscheint zunächst spannend, doch irgendwann wird es Phasen geben, in denen du die Arbeit nicht mehr sehen kannst. Besonders wichtig ist, dass das Thema klar abgegrenzt ist und eine konkrete Forschungsfrage formuliert wurde. Je klarer und überschaubarer der Umfang, desto besser kannst du strukturieren, was in deine Promotion gehört und was nicht. Fehlt dir diese Struktur oder eine klare Forschungsfrage, kann das schnell frustrierend werden und sich negativ auf deine Bewertung auswirken.
Eine gute Betreuung ist Gold wert
Die Qualität der Betreuung ist oft noch entscheidender als das perfekte Thema. Am besten informierst du dich bei anderen Promotionsstudierenden, die bereits weiter sind als du, und fragst nach ihren Erfahrungen:
- Werden Mails und Fragen zeitnah beantwortet?
- Gibt es konstruktives Feedback?
- Ist die Betreuerin oder der Betreuer ansprechbar, wenn Probleme auftauchen, oder sind die Promovierenden auf sich allein gestellt?
Eine engagierte Betreuung kann den Unterschied zwischen einer frustrierenden und einer erfolgreichen Promotion ausmachen.
Ausdauer zahlt sich aus
Auch wenn die Motivation zu Beginn noch hoch ist, wirst du im Laufe der Zeit auf Herausforderungen stoßen. Stell dich darauf ein, dass ein so großes Projekt oft länger dauert als gedacht. Rückschläge und Umwege gehören dazu und bringen dich letztlich ans Ziel. Vergleiche dich nicht zu sehr mit anderen. Deine Kommilitoninnen und Kommilitonen präsentieren ihren Fortschritt möglicherweise beeindruckender, als er in Wirklichkeit ist. Über Schwierigkeiten spricht kaum jemand offen.
Wichtiger ist es, dir ein Netzwerk aus Personen zu suchen, mit denen du dich ehrlich austauschen kannst. Jeder hat seinen individuellen Weg zur Promotion. Es zählt nicht, wie schnell andere sind, sondern dass du dranbleibst und deine Arbeit erfolgreich abschließt.
Antonie Hellwig
Multiple Testing Problem
1. Februar 2025
Wer forscht, testet Hypothesen – ein grundlegendes Prinzip der Wissenschaft. Die frequentistische Statistik zielt darauf ab, den „wahren“ Wert eines Parameters (z. B. den Mittelwert eines Blutmarkers) zu schätzen und diesen mit einem Referenzwert zu vergleichen. Dieser Referenzwert stammt meist aus der Nullhypothese und ist häufig einfach „Null“. Ein statistischer Test gilt als signifikant auf einem festgelegten Alpha-Niveau, wenn die Daten ausreichend Evidenz gegen die Nullhypothese liefern. In diesem Fall wird die Nullhypothese zugunsten der Alternativhypothese verworfen.
Beim Testen mehrerer Hypothesen kann es jedoch zur Alpha-Fehler-Inflation kommen – dem sogenannten „Multiple-Testing-Problem“. Was genau dahintersteckt, erläutern wir im Folgenden
Alpha-level-Inflation:
Die Alpha-level-Inflation beschreibt das Phänomen, dass die Wahrscheinlichkeit für einen falsch positiven Test ansteigt, je mehr Hypothesen getestet werden. Die sogenannte „Family-wise-error-rate“ (FWER) beschreibt eben diese Wahrscheinlichkeit und lässt sich für k Hypothesen mit einem Signifikanzniveau von Alpha mit folgender Formel errechnen:
FWER ≥ 1 - ( 1 - Alpha )^k.
Rechenbeispiel: Für ein Alpha von 0,05 bei 10 getesteten Hypothesen errechnet sich die die Family-wise-error-rate wie folgt: FWER = 1 - ( 1 - 0.05 )^10 = 0,401.
Mit 40,1% Wahrscheinlichkeit ist mindestens eine der signifikanten Hypothesen somit fälschlicherweise Signifikant!
In der Statistik werden drei Arten der Alpha-level-Inflation unterschieden:
Disjunktionsfamilien:
Mehrere Hypothesen zu einem Sachverhalt werden aufgestellt, aber nur eine signifikante Reicht, um einen Zusammenhang zu zeigen.
Beispiel: Es soll gezeigt werden, dass Yoga zu besserer Erholung nach dem Burnout führt, also testet man mehrere Yoga-arten.
Konjunktionsfamilien:
Mehrere Hypothesen zu einem Sachverhalt werden aufgestellt, aber alle müssen signifikant sein, um einen Zusammenhang zu zeigen.
Beispiel: Es soll gezeigt werden, dass ein neues Chemotherapie-regime zur Bekämpfung von Tumoren wirkt, also werden mehrere Aspekte des Regimes auf die Wirksamkeit getestet (Dosis, Dauer, weitere Medikamente, Nebenwirkungen, Wirkung auf den Tumor etc.)
Individuelle Tests:
Es werden mehrere Hypothesen zu verschiedenen Sachverhalten aufgestellt, die keine Familie bilden und strikt getrennt sind. Bsp: Es wird der Zusammenhang zwischen Operationszeit und dem Blutverlust getestet und der Zusammenhang zwischen der Medikation und einem Behandlungserfolg.
Je nach Konstellation kann das multiple Testen mehr oder weniger problematisch sein. In Disjunktionsfamilien lassen sich Hypothesen nicht beliebig oft testen. Doch auch in den anderen Fällen dürfen Forschende nicht wahllos Hypothesen aufstellen, bis die Ergebnisse passen – genau das nennen Statistiker*innen p-Hacking. Warum p-Hacking problematisch ist und wie es vermieden werden kann, erklären wir in einem zukünftigen Blogpost.
Was kann man tun, um das Multiple-Testing-Problem zu vermeiden?
Es gibt viele Optionen: Die einfachste ist die Anzahl der Hypothesen auf die wesentlichen zu beschränken. Außerdem können gemeinsame Tests (z.B. ANOVA, Wald-test etc.) genutzt werden, um viele Hypothesen nur ein Mal zusammen zu testen. Wenn das keine Option ist, kann eine Bonferroni-Korrektur oder auch eine Benjamini-Hochberg-korrektur nach dem Testen vorgenommen werden.
Alessandro Campione
Statistik-Programme im Vergleich
28. Januar 2025
Wer statistische Auswertungen und Berechnungen vornehmen möchte, steht zunächst vor der Frage, mit welchem Programm dies am besten durchgeführt werden kann. Es gibt eine Vielzahl unterschiedlicher Programme auf dem Markt, die jeweils Vor- und Nachteile haben. Die geläufigsten davon möchten wir euch hier vorstellen, um einen besseren Überblick zu schaffen.
SPSS:
SPSS ist eines der meistgenutzten Programme in der Medizin, findet aber auch in anderen empirischen Fachrichtungen Anwendung. SPSS lässt sich auf zwei Arten bedienen:
Coden: Die gewünschten Auswertungen oder Variablentransformationen können als Code in eine Eingabedatei geschrieben werden. Das erleichtert es, in einem längeren Arbeitsprozess bereits durchgeführte Schritte nachzuvollziehen und zu reproduzieren. Um eine Analyse zu wiederholen, muss lediglich der entsprechende Code erneut ausgeführt werden. So entstehen keine Eingabefehler, weil versehentlich unterschiedliche Eingaben getätigt wurden. Besonders bei einer großen Anzahl an Auswertungen, die laufend bearbeitet werden, empfiehlt es sich, die Befehle zu coden, um nicht jedes Mal alle Eingaben erneut vornehmen zu müssen.
Manuelle Eingabe: Wer den Code nicht beherrscht oder sich lieber durchklickt, kann dies mit SPSS ebenfalls tun. Hier können alle Optionen nacheinander ausgewählt werden.
Neben den beiden Arbeitsweisen bietet SPSS einen weiteren Vorteil: Durch die weite Verbreitung gibt es im Internet viele Tutorials, die einzelne Methoden erklären.
Ein großer Nachteil von SPSS ist jedoch, dass es kostenpflichtig ist. Eine Monatslizenz kostet 110 €, eine Jahreslizenz 1.188 €. Ein weiterer Nachteil ist für mich die mangelnde Übersichtlichkeit. Es ist kein Programm, in dem man sich intuitiv schnell zurechtfindet.
Stata:
Dieses Programm ist in der Medizin weniger stark verbreitet, bietet jedoch ähnliche Vor- und Nachteile wie SPSS. Stata wird hauptsächlich in den Wirtschafts- und Sozialwissenschaften genutzt. Das spielt jedoch keine Rolle, denn ob man den Zusammenhang zwischen einem Risikofaktor und einer Krankheit oder zwischen dem Geschlecht und der Wahrscheinlichkeit für Altersarmut berechnen möchte, macht für das Programm keinen Unterschied. Auch in Stata können die gewünschten Analysen und Variablentransformationen entweder per Code oder durch manuelles Klicken erstellt werden.
Ich persönlich finde Stata übersichtlicher und benutzerfreundlicher als SPSS, aber für eine solche Einschätzung ist es sinnvoll, sich die Benutzeroberflächen im Internet anzusehen. So kann man selbst entscheiden, welches Programm einem übersichtlicher erscheint. Stata ist ebenfalls kostenpflichtig, bietet jedoch für Studierende Jahreslizenzen für 94 $ an.
R:
R ist ein Open-Source-Programm, das kostenlos heruntergeladen werden kann. Es ist eine Programmiersprache, und da R ein Open-Source Projekt ist, haben bereits Tausende von Wissenschaftler:innen unzählige Erweiterungen entwickelt, die neue Funktionen ergänzen. Dadurch ist R zu einem leistungsstarken und vielfältigen Statistik-Programm geworden.
Ich selbst bin eine große Anhängerin von R und nutze es in meiner Arbeit als Statistikerin. In R kann ausschließlich Code geschrieben werden, was die gleichen Vorteile wie bei SPSS oder Stata bietet – allerdings mit noch mehr Möglichkeiten für Auswertungen und Anpassungen. Besonders für die Erstellung von Grafiken ist R ein sehr geeignetes Programm. Wer sich jedoch nicht mit Code beschäftigen möchte, ist hier aufgrund der fehlenden Option zur manuellen Eingabe nicht gut aufgehoben.
Prism 10:
Prism 10 ist eine Statistik- und Grafiksoftware, die vor allem in der Biowissenschaft und Medizin genutzt wird. Es ist bekannt für seine benutzerfreundliche Oberfläche und die Möglichkeit, sowohl statistische Analysen als auch ansprechende Grafiken zu erstellen. Die Software unterstützt gängige statistische Verfahren wie t-Tests, ANOVA und Regressionen.
Ein Vorteil von Prism 10 ist, dass es durch die intuitive Benutzeroberfläche die Analyseprozesse vereinfacht. Alle Änderungen werden in Echtzeit aktualisiert, was schnelle Anpassungen ermöglicht. Zudem bietet es viele Vorlagen zur Erstellung von Grafiken. Allerdings ist Prism 10 kostenpflichtig. Eine Jahreslizenz ist vor allem für Studierende etwas günstiger, aber mit 142$ dennoch eine Investition. Für mich persönlich wirkt die Oberfläche weniger übersichtlich als bei anderen Programmen, und es fehlt etwas an Flexibilität im Vergleich zu Open-Source-Alternativen wie R.
Antonie Hellwig