Der folgende Artikel ist in der NZZ am 08.08.2023 erschienen. Den Original-Artikel gibt es hier zu lesen.
---
Mathias Binswanger hält offenbar wenig von der Psychologie. Man könne «den grössten Teil der Forschung in der Psychologie einfach vergessen», schreibt der Ökonom in einem Gastkommentar in der NZZ (26. 7. 23). Zu diesem Fazit kommt er unter anderem, weil in der Psychologie eine sogenannte «Reproduzierbarkeitskrise» herrsche, viele publizierte Ergebnisse also nicht oder nur teilweise bestätigt werden könnten.
Doch die Steine, die Binswanger wirft, drohen sein eigenes Glashaus zu zerschmettern. Denn die Diskussionen über die Reproduzierbarkeit von Forschungsergebnissen betreffen nicht nur die Psychologie, sondern eine Reihe von wissenschaftlichen Disziplinen – darunter auch die Wirtschaftswissenschaften. So wurde jüngst bei 180 ökonomischen Publikationen untersucht, ob sich die Ergebnisse darin reproduzieren liessen. Den Studienautoren gelang das in nur gut 38 Prozent der Fälle.
Die «Reproduzierbarkeitskrise»
Eine Krise der Reproduzierbarkeit wird schon seit längerem beschworen. Vor bald zwanzig Jahren veröffentlichte der Mediziner John Ioannidis einen einflussreichen Artikel mit dem provokativen Titel «Warum die meisten publizierten Forschungsergebnisse falsch sind». Das mag erschreckend klingen, doch Ioannidis hat bloss mittels statistischer Berechnungen daran erinnert, dass ein einzelnes Experiment allein nicht ausreicht, um verlässliche Evidenz zu schaffen.
Denn in den empirischen Wissenschaften werden die meisten Ergebnisse mit statistischen Methoden ausgewertet. Diese können dabei helfen, zu entscheiden, ob das, was man experimentell gemessen hat, mit dem übereinstimmt, was man theoretisch erwarten würde. Doch solche Entscheidungen sind mit einer bestimmten Fehlerwahrscheinlichkeit verbunden, die sich nur reduzieren lässt, wenn man eine wissenschaftliche Hypothese mehrmals und von vielen verschiedenen Seiten genau unter die Lupe nimmt. «Strenges Testen» nennt das die Statistikphilosophin Deborah Mayo.
Ein Jahrzehnt nach Ioannidis’ Artikel folgten die Ergebnisse grossangelegter Reproduzierbarkeitsprojekte, die empirische Evidenz für die theoretische Kritik lieferten: Ob Psychologie, Ökonomie, experimentelle Philosophie, Sozialwissenschaften allgemein, Biomedizin oder Chemie, in zahlreichen Wissenschaften mehrten sich die Zeichen, dass die Ergebnisse in wissenschaftlichen Publikationen nicht so verlässlich waren, wie man sich das gewünscht hätte.
Eine Studie im Bereich der Krebsforschung schaffte es zum Beispiel bloss, knapp die Hälfte der untersuchten Effekte erfolgreich zu replizieren. Gemäss Binswangers Massstäben müsste man das alles pauschal als «Bullshit-Forschung» betiteln.
Dass die Reproduzierbarkeit von Studien scheitert, kann jedoch vielfältige Gründe haben. Das beginnt schon damit, dass sich noch kein klarer Konsens herausgebildet hat, was als «erfolgreich reproduziert» gilt. Reicht es, wenn der verwendete statistische Test zweimal ein signifikantes Ergebnis anzeigt? Muss die Effektgrösse gleich gross sein? Reicht eine Reproduktion durch das gleiche Forschungsteam, oder braucht es mehrere Wiederholungen verschiedener Teams? Je nachdem, welche Kriterien man verwendet, fällt die Rate der erfolgreich reproduzierten Ergebnisse mal höher, mal tiefer aus.
Dennoch gibt es bei gewissen Fragen einen Konsens darüber, welche Voraussetzungen es braucht, um Reproduzierbarkeit zu ermöglichen. Ein wesentliches Problem liegt beispielsweise im fehlenden Zugang zu den Rohdaten, was eine unabhängige Überprüfung erschwert und somit Betrug erleichtert. Auch wenn detaillierte Informationen zum experimentellen Aufbau, zu den technischen Spezifikationen von Geräten oder zur statistischen Auswertung fehlen, lässt sich eine Studie kaum wiederholen. Und schliesslich gibt es eine Reihe von Verzerrungen und Fehlern bei der statistischen Planung und Auswertung von Experimenten, welche die Reproduzierbarkeit erschweren.
Transparenz schaffen
Die Universität Zürich hat deswegen schon vor einigen Jahren das «Center for Reproducible Science» gegründet, um Reproduzierbarkeit fächerübergreifend zu fördern. Ansätze dafür gibt es viele, hier nur drei Vorschläge: Erstens sollten bei der Planung, Durchführung und Auswertung von empirischen Experimenten Statistiker mit einbezogen werden. Zu oft werden diese erst nach Abschluss eines Experiments zu Rate gezogen.
Zweitens sollten wissenschaftliche Studien vor der Durchführung mit einem experimentellen Protokoll registriert werden, mit detaillierten Angaben zum Versuchsziel, zur Methodik und zu den erhofften Erkenntnissen. Warum diese Angaben nicht auch nutzen, um nach Abschluss der Studie die Reproduzierbarkeit zu vereinfachen? So liesse sich auch in regelmässigen Abständen überprüfen, wo allenfalls Verbesserungen vorgenommen werden könnten.
Drittens sollten wissenschaftliche Daten und Software, auf denen die Auswertungen von Studienergebnissen beruhen, frei und offen zugänglich sein. So gäbe es – ob in Psychologie, Ökonomie oder Biomedizin – wohl weniger «Bullshit-Forschung».
Relevante Interessenverbindungen
Ich bin Biostatistiker und Fellow des Center for Reproducible Science an der Universität Zürich. Siehe hier für eine vollständige Liste aller Interessenverbindungen.