Ben A. Williams, PhD, kam durch sein Misstrauen gegenüber randomisierten kontrollierten Studien (RCTs) auf die harte Tour: Er entwickelte eine Art Hirntumor ohne nachgewiesene Behandlung.
Es gab randomisierte Studien mit verschiedenen Ansätzen, aber sie waren alle gescheitert, sagt Williams, emeritierter Psychologieprofessor an der University of California in San Diego. Und obwohl mehrere Medikamente einem kleinen Prozentsatz der Patienten in Phase-II-Studien geholfen hätten, sagt er, kann es schwierig sein, Therapien zu finden, die noch nicht durch Phase-III-Studien überprüft wurden.
„Die Medizin sagte im Grunde, wenn es nicht so gemacht wird, zählt es nicht“, sagt Williams und beschreibt die Schwierigkeiten seiner Ärzte, Zugang zu Therapien zu erhalten, die ihm wahrscheinlich nicht helfen würden, aber könnten. „Das Problem ist die One-Size-fits-all-Mentalität.“
Wie Williams stellen viele andere Psychologen — sowie medizinische Forscher — die Annahme der National Institutes of Health, der Food and Drug Administration und anderer in Frage, dass RCTs der Goldstandard für die klinische Forschung sein sollten. Während die Methodik — bei der die Teilnehmer entweder einer Behandlungs- oder einer Kontrollgruppe zufällig zugewiesen werden – ihre Stärken hat, hat sie auch schwerwiegende Einschränkungen, die oft übersehen oder ignoriert werden.
Da die Studienteilnehmer beispielsweise in der Regel nicht die Gesamtpopulation repräsentieren, gelten die Ergebnisse von RCTs möglicherweise nicht allgemeiner. Und selbst wenn sie es taten, ist es unmöglich, aus einer RCT zu sagen, welche Teilmenge der Teilnehmer tatsächlich von der untersuchten Intervention profitierte.
Diese Kritiker wollen RCTs nicht ganz ablehnen. Vielmehr wollen sie ihre Ergebnisse mit Beweisen aus anderen Methoden wie epidemiologischen Studien, Einzelfallexperimenten, der Verwendung historischer Kontrollen oder einfach nur klinischen Erfahrungen ergänzen.
Stärken und Schwächen
Niemand bestreitet, dass RCTs ihre Stärken haben.
„Randomisierte Studien machen zwei Dinge, die bei anderen Designs sehr selten sind“, sagt William R. Shadish, PhD, Professor für Psychologie an der University of California in Merced. „Sie liefern eine Schätzung des Effekts, die unvoreingenommen und konsistent ist. Obwohl Shadish zögert, RTCs als Goldstandard zu bezeichnen, weil der Ausdruck Perfektion bedeutet, beschreibt er sich selbst als „großen Fan“ der Methodik.
„Wenn Sie eine randomisierte Studie durchführen können“, sagt er, „tun Sie es auf jeden Fall.“
Aber das ist nicht immer möglich. Von Natur aus, sagt er, erlauben einige Fragen keine zufällige Zuordnung der Teilnehmer. Dies könnte zum Beispiel unethisch sein.
Selbst wenn RCTs machbar sind, liefern sie möglicherweise nicht die Antworten, nach denen Forscher suchen.
„Alles, was RCTs tun, ist zu zeigen, dass das, womit Sie es zu tun haben, kein Schlangenöl ist“, sagt Williams. „Sie sagen Ihnen nicht die kritischen Informationen, die Sie benötigen, nämlich welche Patienten von der Behandlung profitieren werden.“
Um die Heterogenität unter den Teilnehmern zu berücksichtigen, erklärt er, müssen RCTs ziemlich groß sein, um statistische Signifikanz zu erreichen. Was Forscher am Ende haben, er sagt, ist die „zentrale Tendenz“ einer sehr großen Anzahl von Menschen — eine Maßnahme, die „für niemanden repräsentativ sein wird, wenn man sie als Individuen betrachtet.“
Gehen Sie über den Kontext einer RCT selbst hinaus, und die Anwendbarkeit der Ergebnisse auf einzelne Patienten wird noch problematischer.
Zum einen sind Teilnehmer an RCTs in der Regel eine „ziemlich verdünnte Population“, die nicht repräsentativ für die reale Bevölkerung ist, auf die eine Intervention schließlich abzielen würde, sagt Steven J. Breckler, PhD, Executive Director der APA Science Directorate.
„Denken Sie an die Menschen, die zu Drogentests erscheinen — Patienten, die wahrscheinlich alles andere versucht haben und verzweifelt nach einer Behandlung suchen“, sagt er und fügt hinzu, dass sie weiter heruntergewonnen werden, wenn Forscher potenzielle Teilnehmer eliminieren mit komorbiden Zuständen und dergleichen. „Werden sich die Ergebnisse dieser Studie auf Sie und mich verallgemeinern? Oder kommen wir aus einer Population von Menschen, die sich niemals für eine Studie angemeldet hätten?“
Experimente, sagt Breckler, beinhalten typischerweise einen Kompromiss zwischen interner Validität – der Fähigkeit, kausale Rückschlüsse auf die Intervention zu ziehen — und externer Validität — der Verallgemeinerbarkeit der Ergebnisse.
„Was die Leute nicht zu erkennen scheinen, ist, dass die perfekte RCT streng auf interne Gültigkeit ausgelegt ist“, sagt er.
RCTs könnten besonders schlecht für psychologische Interventionen im Vergleich zu medizinischen Interventionen geeignet sein, fügt Breckler hinzu. Im Gegensatz zu Medikamenten, die eine einfache biochemische Wirkung haben, die wahrscheinlich nicht von Person zu Person unterschiedlich ist, neigen psychologische Interventionen dazu, mit Faktoren wie Geschlecht, Alter und Bildungsniveau zu interagieren.
Ergänzung von RCTs
Niemand schlägt vor, dass Forscher RCTs aufgeben. Stattdessen fordern sie die Ergänzung von RCTs mit anderen Formen der Evidenz.
„Evidenzbasierte Praxis sollte auf einer sehr breiten, vielfältigen Evidenzbasis beruhen“, sagt Breckler. „RCTs wären eine Quelle, aber es gibt viele andere Quellen.“ Diese Quellen könnten Phase-II-Studiendaten, epidemiologische Daten, qualitative Daten und Berichte aus dem Feld von Klinikern mit einer Intervention umfassen, sagen Breckler und andere.
Williams setzt sich für die Verwendung historischer Kontrollen als zusätzliche Informationsquelle ein.
In dieser Methodik untersuchen die Forscher die Ergebnisse früherer, nicht zufälliger Studien, um eine grobe Basislinie zu ermitteln. Anschließend vergleichen sie die Ergebnisse nachfolgender nicht randomisierter Studien mit diesem Benchmark.
Der Ansatz funktioniert, sagt Williams und fügt hinzu, dass der Prozess es ermöglicht, viele Interventionen schnell hintereinander zu testen. Angesichts der Misserfolge von RCTs für die Glioblastom-Behandlung, zum Beispiel, Forscher wandten sich an die historische Aufzeichnung und fanden heraus, dass nur 15 Prozent der Menschen mit dem Krebs hatte keine Krankheitsprogression sechs Monate nach Beginn der Behandlung.
„Sie fanden heraus, dass Sie, wenn Sie dieses Ding zur Standardbehandlung hinzufügen, diese Zahl auf 25 Prozent erhöhen und zwei Dinge hinzufügen und auf 35 Prozent erhöhen können“, sagt er. „Es ist zweifellos ein grober Vergleich, aber es stellt sich als effektiver Weg heraus, die Forschung durchzuführen.“
Die FDA stimmte zu und genehmigte ein Medikament zur Behandlung von Glioblastomen nicht auf der Grundlage einer RCT, sondern auf mehreren Phase-II-Studien, deren Ergebnisse besser waren als die historische Norm.
Einzelfallexperimente sind eine weitere wichtige Beweisquelle, sagt Alan E. Kazdin, PhD, ehemaliger Präsident der APA und Professor für Psychologie und Kinderpsychiatrie an der Yale University. Im Gegensatz zu RCTs, die viele Probanden und wenige Beobachtungen beinhalten, beinhalten Einzelfalldesigns viele Beobachtungen, aber oft nur wenige Probanden. Anstatt einfach ein Pre- und Postassessment durchzuführen, bewertet der Forscher das Verhalten – eines Individuums, eines Klassenzimmers, sogar einer ganzen Schule — im Laufe der Zeit.
Angenommen, ein Patient hat einen Tic, sagt Kazdin. In einem Einzelfalldesign würde der Forscher den Patienten beobachten und die Anzahl der Tics pro Stunde ermitteln. Der Forscher würde dann eine Intervention durchführen und beobachten, was im Laufe der Zeit passiert.
„Wenn Sie nur eine Beurteilung vor einer Behandlung und eine Beurteilung nach der Behandlung durchführen und die Gruppe, die sie erhalten hat, mit der Gruppe vergleichen, die dies nicht getan hat, verlieren Sie den Reichtum der Veränderung von Tag zu Tag, von Woche zu Woche, von Monat zu Monat“, sagt Kazdin und betont, dass Einzelfalldesigns keine bloßen Fallstudien sind.
Für Kazdin bedeutet übermäßiges Vertrauen in RCTs, dass er alle möglichen wertvollen Informationen verpasst. Denken Sie an das Teleskopprogramm der Nation, sagt er. Das Hubble-Teleskop betrachtet sichtbares Licht. Ein anderes Teleskop betrachtet Röntgenstrahlen. Ein anderer behandelt Gammastrahlen.
„Die Methode, mit der Sie etwas studieren, kann die Ergebnisse beeinflussen, die Sie erhalten“, sagt Kazdin. „Aus diesem Grund möchten Sie immer so viele verschiedene Methoden wie möglich verwenden.“ *
Rebecca A. Clay ist Schriftstellerin in Washington, D.C.