Der P(roblem)-Wert
Ein Beitrag aus der «Neuen Zürcher Zeitung» vom 25. März 2016. Den Original-Text gibt es hier zu lesen.
---
Vor sechs Jahren machte Craig Bennett, Forscher am Psychologiedepartment der Universität Santa Barbara, eine bahnbrechende Entdeckung: Fische reagieren auf menschliche Emotionen!
Er untersuchte, wie sich die Hirnaktivität eines Lachses veränderte, wenn er dem Fisch Bilder von fröhlichen oder traurigen Menschen vorlegte. Und in der Tat: Das Fischhirn zeigte eine signifikant höhere Aktivität, wenn es die Menschenbilder betrachtete, als wenn es im Ruhezustand war.
Der Fisch als intimer Menschenversteher? Diese Entdeckung hatte das Potential, unsere Sicht auf das Innenleben von Fischen grundlegend zu verändern! Wäre da nicht ein klitzekleines Detail gewesen: Der Fisch war zum Zeitpunkt der Untersuchung schon lange tot.
Absurd? Willkommen in der Welt der statistischen Signifikanztests.
Lächerliche Studien – ernstes Problem
Wie abwegig seine Untersuchung war, wusste natürlich auch Bennett. Genau deshalb hatte er sie veröffentlicht. Er wollte damit auf ein weit verbreitetes Übel innerhalb vieler Wissenschaftszweige hinweisen: Den unsachgemässen Umgang mit statistischen Methoden.
Vergangenes Jahr zeigte auch eine Gruppe von Journalisten, wie leicht man mit Statistik die wildesten Zusammenhänge «beweisen» kann. Sie schafften es, Millionen von Menschen weiszumachen, dass Schokolade schlank mache. Tut sie natürlich nicht. Genauso wenig, wie der Verzehr von rohen Tomaten zum Judentum bekehrtoder die Beatles gegen das Altern helfen.
Nur: Wie kommen so aberwitzige Ergebnisse zustande?
Auf der Suche nach der Wahrheit
Viele wissenschaftliche Studien laufen in der Regel nach dem folgenden – hier stark vereinfachten – Muster ab: Die Forschenden stellen sich eine bestimmte Frage, sammeln Daten dazu und beschreiben sie mit Graphen, Diagrammen und verschiedenen statistischen Kennzahlen.
An diesem Punkt jedoch enden die wenigsten Studien, denn die Wissenschafter wollen schliesslich auch eine konkrete Antwort auf ihre Forschungsfrage erhalten. Wer eine Medikamentenstudie durchführt, möchte am Ende wissen: Wirkt das Medikament oder nicht?
Um diese Frage beantworten zu können, greifen die meisten Forschenden zu sogenannten Signifikanztests. Die Auswahl an solchen Tests ist gross und vielfältig und jeder einzelne hat spezifische Vor- und Nachteile. Alle aber dienen dazu, basierend auf den gesammelten Daten eine Entscheidung darüber zu treffen, ob eine bestimmte Forschungsannahme (die Hypothese) abzulehnen ist oder nicht.
Der Signifikanztest
Dazu berechnet der Wissenschafter gewisse statistische Eigenschaften seiner Daten (z.B. den Durchschnitt), um diese danach mit einer bestimmten Grundannahme (der «Nullhypothese») zu vergleichen.
Wichtig dabei: Die Nullhypothese ist jene Annahme, die der Wissenschaftler versucht zu verwerfen. Bei einer Medikamentenstudie wäre das die Aussage: «Das Medikament wirkt nicht». Wenn das Medikament aber entgegen dieser Grundannahme bei sehr vielen Menschen eine Wirkung zeigt, dann ist das ein Hinweis (keine Gewissheit!), dass eine andere Erklärung (eine sogenannte «Alternativhypothese») nötig ist, um die beobachteten Daten plausibel zu erklären.
Die Entscheidung, ob die Nullhypothese verworfen wird, sollte im Idealfall von einer Vielzahl sich ergänzender Faktoren abhängen. Ein verlässlicher und gut durchdachter Versuchsaufbau («Wie und mit welchen Mitteln wurden die Daten erhoben?») ist ebenso wichtig wie der Vergleich mit bisherigen Studien in diesem Forschungsgebiet oder grundlegende theoretische Überlegungen («Was bedeuten meine Resultate überhaupt?»).
Die Wirklichkeit sieht jedoch etwas anders aus: Viele Forschende reduzieren die Entscheidung, ob die Nullhypothese beibehalten oder verworfen werden soll, auf eine einzige Frage: «Wie gross ist der p-Wert?».
Der Problemwert
p-Wert? Ausserhalb der (quantitativen) Wissenschaften wird der Begriff wohl kaum jemandem bekannt sein. Doch Biologen, Psychologen oder Mediziner sollten mittlerweile wissen, dass der p-Wert («p» steht für «probability», also «Wahrscheinlichkeit») seit mehreren Jahren unter Beschuss ist.
Vor Kurzem hat sich sogar die American Statistical Association (ASA), die grösste statistische Fachorganisation der Welt, zu Wort gemeldet: Sie kritisiert den Missbrauch des p-Werts, schlägt mögliche Alternativen vor und ruft zu einem sorgsameren Umgang mit statistischen Methoden auf. Laut der ASA droht die unsachgemässe Verwendung von Signifikanztests das Vertrauen in wissenschaftliche Forschungsergebnisse nachhaltig zu beschädigen.
Doch was ist der p-Wert genau? Die technische Definition lautet so: Der p-Wert gibt die Wahrscheinlichkeit an, unter Annahme der Nullhypothese ein Ergebnis zu erhalten, das mindestens so extrem ist wie die im Experiment beobachteten Resultate. Die ASA beschreibt ihn deshalb als Hinweis darauf, «wie inkompatibel die Daten mit einem bestimmten statistischen Modell sind». Alles klar?
Häufig verwendet, selten verstanden
Wenn es darum geht, den p-Wert zu erklären, scheitern selbst jene Experten, welche sich hauptberuflich mit dem Thema befassen. Diejenige Interpretation, die mir bis anhin am zugänglichsten scheint, stammt vom Statistiker Alex Reinhardt, dessen Website «Statistics Done Wrong» ich alle jenen empfehlen kann, welche eine leicht verständliche Einführung in die Thematik suchen.
Reinhardt beschreibt den p-Wert als eine Art «measure of surprise», also als Massstab dafür, wie überrascht man von einem bestimmten Resultat sein sollte. Jedes Mal, wenn ein Wissenschafter eine Nullhypothese formuliert, trifft er auch eine Annahme darüber, wie seine Daten ausschauen sollten. Wenn seine Experimente nun aber Ergebnisse liefern, die stark von den Annahmen der Nullhypothese abweichen, dann dürfte er davon entsprechend überrascht sein. Der p-Wert kann diese Überraschung ansatzweise in eine Zahl übersetzen. Konkret: Je kleiner der p-Wert, desto grösser die Überraschung. [1]
Wenn ich zehn Mal eine Münze werfe, dann würde ich erwarten, dass ungefähr fünf Mal Kopf und fünf Mal Zahl oben liegt. In anderen Worten: Meine Nullhypothese geht von einer fairen Münze aus, welche Kopf und Zahl mit gleicher Wahrscheinlichkeit zeigt.
Wenn ich nun sechs Mal Kopf erhalte, dann ist das noch keine grosse Überraschung. Der p-Wert ist dementsprechend gross [2] und es gibt keinen Grund für mich, meinen Nullhypothese zu verwerfen. Von zehn Würfen neun Mal Kopf zu erhalten, wäre jedoch eher überraschend und würde zu einem kleinen p-Wert führen [3]. Ich sollte mir die Münze also genauer anschauen und das Experiment wiederholen. Bekomme ich auch in den darauffolgenden Durchgängen viel öfters Kopf als Zahl, dann ist das ein starker Hinweis darauf, dass mit der Münze etwas nicht stimmt.
Fehlinterpretationen stiften Verwirrung
Wenn aber selbst Experten Mühe bekunden, dem p-Wert eine verständliche Bedeutung zuzuordnen, dann ist es kein Wunder, dass unter Nicht-Statistikern grosse Verwirrung herrscht. Sie betrachten den p-Wert wahlweise als Wahrscheinlichkeit, dass die Nullhypothese stimmt; als Abschätzung dafür, wie verlässlich die Ergebnisse sind; als Mass für die wissenschaftliche Bedeutung der Resultate; oder als Kriterium, um wissenschaftliche Studien miteinander zu vergleichen.
Aufgrund all dieser Fehlinterpretationen, ist der p-Wert immer mehr zu einem Richtwert geworden, der «wichtige» von «unwichtigen» Resultaten trennen soll. Ist der p-Wert kleiner als ein bestimmter Schwellenwert, darf die Studie veröffentlicht werden. Ist der p-Wert gross, bleibt sie in der Schublade.
Eine von vielen Kennzahlen
Das ist aus mehreren Gründen problematisch. Erstens liefert uns der p-Wert keinerlei Informationen darüber, ob ein Ergebnis «wahr» bzw. «wichtig» ist. Er ist vielmehr vergleichbar mit dem «Body Mass Index» in der Medizin: Eine nützliche Kennzahl, aber sicherlich keine abschliessende Diagnose. So ist ein Krebspatient nicht plötzlich gesund, nur weil er einen «normalen» BMI hat; genauso wenig bedeutet ein «signifikanter» p-Wert, dass ein Forschungsresultat wissenschaftlich relevant ist.
Zweitens ist es vergleichbar einfach, die vorhandenen Daten so zu bearbeiten, dass der p-Wert möglichst klein wird. «p-hacking» nennt sich das und es wurde auch von Craig Bennett & Co. verwendet, um aus Lachsen emotionale Menschenversteher und aus Schokolade ein Diätprodukt zu machen.
Drittens war der p-Wert gar nie darauf ausgelegt, eine derart beherrschende Rolle bei der Auswertung von Daten einzunehmen. Sein «Erfinder» Ronald A. Fisher, einer der Gründerväter der modernen Statistik, sah ihn lediglich als eine von vielen verschiedenen statistischen Kennzahlen. Der p-Wert sollte zeigen, ob es sich lohnt, ein bestimmtes Resultat genauer zu betrachten – und vor allem: das Experiment zu wiederholen!
Um das Münzbeispiel noch einmal zu bemühen: Wenn ich von zehn Würfen neun Mal Kopf erhalten, dann ist mein p-Wert klein und ich sollte die Münze auf jeden Fall nochmals testen. Ich sollte jedoch nicht gleich an die Öffentlichkeit treten und verkünden, dass die Münze unfair sei. [4]
Statistik: Mehr als Zahlen und Formeln
Um aus einer Studie zuverlässige Schlüsse ziehen zu können, reicht der p-Wert bei Weitem nicht aus – es müssen zahlreiche zusätzliche Voraussetzungen gegeben sein: Der Aufbau der Studie muss stimmen; die gesammelten Rohdaten müssen verlässlich sein und richtig bearbeitet werden; die Auswahl der statistischen Modelle sollte auf nachvollziehbaren wissenschaftlichen Argumenten basieren. Und natürlich sollten Wissenschafter auch zu den richtigen statistischen Tests greifen, um ihre Resultate zu analysieren.
Die meisten Forschenden sind sich aber nicht bewusst, dass Statistik eben nicht nur aus dem Einspeisen von Daten in eine Formel besteht, sondern auch theoretische Überlegungen über die Durchführung der Studie und die Herkunft der Daten umfasst. Ein statistischer Test ist immer auch mit bestimmten theoretischen Annahmen über die erhobenen Daten verbunden. Sind diese Annahmen falsch, ist in der Regel auch der Test nutzlos.
Ein altbekanntes Problem
Das Problem ist nicht neu. Spätestens seit ihrer Begründung zu Beginn des 20. Jahrhunderts hatte die moderne Statistik die Forschung in Natur- und Sozialwissenschaften massgeblich mitbestimmt. Sie lieferte ausgesprochen mächtige Methoden und theoretische Denkansätze, um komplexe wissenschaftliche Fragen zu untersuchen. Die Krux: Während die Methoden der Statistik rasch Eingang fanden in den Alltag von Biologen, Ökonomen oder Medizinern, blieb die Vermittlung des theoretischen Denkrahmens auf der Strecke. Mit dem problematischen Resultat, dass nun Legionen von Wissenschafterinnen und Wissenschaftern täglich statistische Methoden verwenden, ohne sich auch nur ansatzweise mit der zugrundeliegenden statistischen Theorie auszukennen.
Das sorgt dafür, dass statistische Signifikanzkriterien (wie eben der p-Wert), zusehends an die Stelle sorgfältiger wissenschaftlicher Argumentationen treten. Wer seine Forschung in einer wissenschaftlichen Fachzeitschrift veröffentlichen möchte, muss in der Regel zeigen, dass seine Resultate «statistisch signifikant» sind, d.h. dass der p-Wert unter einen bestimmten Schwellenwert fällt – meist unabhängig davon, ob die Resultate auch wissenschaftlich signifikant sind.
Hinzu kommt, dass wissenschaftliche Datensätze immer grösser und komplexer werden. In Verbindung mit der unsachgemässen Verwendung von statistischen Methoden steigt damit das Risiko, dass Zusammenhänge signifikant erscheinen, obwohl sie es gar nicht sind. Dem oben erwähnten «p-Hacking» werden somit Tür und Tor geöffnet.
Ist die Wissenschaft kaputt?
Die damit zusammenhängenden Probleme wurden in den vergangenen Jahren immer wieder thematisiert. Mittlerweile vergeht kaum ein Monat, indem nicht irgendwo in einer Fachzeitschrift ein Artikel über p-Hacking, nicht reproduzierbare Studien oder die «Fehler im System der Wissenschaft» erscheint. Die renommierte Wochenzeitung «The Economist» hievte das Thema vor nicht allzu langer Zeit sogar auf die Titelseite («How Science goes wrong») und gewisse Beobachter fragen sich bereits besorgt, ob die Wissenschaft denn kaputt sei («Is science broken?»).
Natürlich ist die Wissenschaft nicht kaputt – sie ist jedoch komplexer als viele meinen. Dieser Komplexität gilt es auch bei der Diskussion über die bestehenden Missstände Rechnung zu tragen. Eine Debatte über den p-Wert alleine reicht deshalb nicht aus, um die bestehenden Probleme zu lösen. Vielmehr muss ein grundlegendes Verständnis für die richtige Verwendung statistischer Methoden geschaffen werden.
Mehr Statistik für lebendige Experimente
Das weiss auch die ASA. Aus diesem Grund übt sie nicht nur Kritik, sondern liefert auch konkrete Anleitungen, um es besser zu machen. Die Kernbotschaft: Die Berechnung von statistischen Kennzahlen wie dem p-Wert entbindet uns nicht von der Verantwortung, diese Kennzahlen in ihrem jeweiligen wissenschaftlichen Kontext zu betrachten. Anders gesagt: Der p-Wert ist keine Interpretation, er braucht Interpretation!
Damit sich diese Erkenntnis langfristig in den Köpfen der Forschenden festsetzt, müssen sich diese verstärkt mit den theoretischen Grundlagen der von ihnen verwendeten statistischen Methoden auseinandersetzen. Zudem sollte die Statistik stärker in den Forschungsprozess eingebunden werden – und zwar von Anfang an. Ansonsten droht, wovor bereits Ronald Fisher gewarnt hat:
«Einen Statistiker nach Abschluss eines Experiments zu Rate zu ziehen, bedeutet häufig bloss, ihn um eine Post-Mortem-Untersuchung zu bitten. Er kann vielleicht noch sagen, woran das Experiment gestorben ist.»
---
1] Anmerkung an alle Statistiker, die diesen Blog lesen: Ich bin mir bewusst, dass es sich hierbei um eine starke Vereinfachung handelt, die den Feinheiten des p-Werts nur bedingt gerecht wird. Wenn Ihr andere Beschreibungen des p-Werts kennt, die zur Vermittlung an ein breites Publikum geeignet sind, dann freue ich mich über Eure Anmerkungen.
[2] p=0.75, um genau zu sein, wobei 0 der niedrigste und 1 der höchste mögliche Wert ist (da es sich beim p-Wert um eine Wahrscheinlichkeit handelt). Berechnet habe ich den Wert mit einem sogenannten «zweiseitigen Binomialtest».
[3] p=0.021 in diesem Fall
[4] Ich sollte natürlich erst recht nicht behaupten, dass dies auch für alle anderen Münzen auf diesem Planeten gelte. Doch diese Form der unzulässigen Verallgemeinerungen von Forschungsergebnissen ist ein Thema für sich, dessen Behandlung ich auf einen zukünftigen Artikel verschieben werde.