Wenn Expertenkonsens nicht zur Evidenz passt

EvidenzpyramideSowohl bei den letzten Empfehlungen der WPATH (2022) als auch bei der AWMF-Leitlinie für D-A-CH „Geschlechtsinkongruenz und -dysphorie im Kindes- u. Jugendalter – Diagnostik und Behandlung“ (2025) kam es zur gleichen Vorgehensweise: Als evidenzbasierte Leitlinie geplant, wurde daraus schließlich doch lediglich ein konsensbasiertes Papier. Das bedeutet niedrige Aussagesicherheit der Empfehlungen bei hoher Fehleranfälligkeit, s. Evidenzpyramide.

Sallie Baxendale (Professorin für klinische Neuropsychologie am University College London) gibt in einem neuen Beitrag einige Hinweise, warum gar nicht so selten ein Expertenkonsens trotz widersprechender Evidenz lange maßgeblich ist und Praktiken aufrechterhält, die unwirksam, schädlich oder sogar tödlich sein können.

Dem Beitrag vorangestellt ist eine grundsätzliche Erwartung im Gesundheitsbereich, die allgemein anerkannt ist:

„Rather than the absence of any harm, it is the expectation of an overall benefit of a medical treatment that is the foundation of the implicit doctor-patient contract."

Baxendale richtet ihren Blick vor allem auf Bereiche, in denen Behandlungen im Off-Label-Use stattfinden. D. h. ohne die üblichen Zulassungsstudien werden Behandlungen auf andere Zwecke (für die sie nicht zugelassen sind) übertragen und durchgeführt. Gerade die pädiatrische Gender-Medizin sei ein eindrucksvolles Beispiel für die Dynamik, mit der Ärzte Beweise ignorieren und an Behandlungen festhalten, die sich als problematisch erwiesen haben, weil sie den normalen physiologischen Entwicklungsprozess stören.

Was beeinträchtigt die Wahrnehmung der Evidenzbasis?

Anhand einiger Irrtümer aus der Medizingeschichte*) sowie derzeitiger klinischer Kontroversen untersucht Baxendale, wie kognitive Verzerrungen und Gruppendynamik die Wahrnehmung der Evidenzbasis beeinträchtigen können.

„These distortions can perpetuate harmful practices in medicine long after the objective evidence points in a different direction.”

Sog. Gender-Medizin für junge Menschen

Zurzeit haben wir die Situation, dass auf der Basis derselben internationalen Studienlage und vor allem den neueren Meta-Studien unterschiedliche Schlussfolgerungen für die Behandlung bzw. Versorgung genderinkongruenter/-dysphorischer Teenager gezogen werden (vgl. auch Was hilft? Was schadet?)

Deutschland folgt dem Affirmation-Only-Trend und hat jetzt eine rein konsensbasierte Leitlinie, die die bisherige Behandlungsstrategie mit ihren letztlich drastischen medizinischen Maßnahmen (PB, CSH, OPs) festschreibt. Bei deren Erstellung wurde die systematische Recherche der Evidenz zwischen 2017 und 2020 eingestellt. Es wurde kein unabhängiges Institut mit diesen Aufgaben beauftragt, wie beispielsweise das unabhängige IQWIG, dessen Kernaufgaben Evidenz­recherchen und -bewertungen sind. Schließlich ist nur eine S2k-Leitlinie für D-A-CH entstanden, in der alle 72 Empfehlungen per Konsens-Abstimmung, d. h. unterste Evidenzstufe zustande gekommen sind und die als veraltet angesehen werden kann. Eine Analyse der S2k-Leitlinie durch die Society for Evidence Based Medicine veranlasste die SEGM zu der Aussage: Die S2k-Leitlinie ist nicht vertrauenswürdig.

There was no explicit link between the recommendations and the evidence base. None of the over 70 topic-specific recommendations, including the specific recommendations regarding psychotherapy, social transition, puberty blockers, cross-sex hormones, and surgery are linked to a body of evidence that is graded for certainty. Instead, the guidelines make specific treatment recommendations justifying them by findings from individual studies (which were not assessed for risk of bias and frequently presented highly biased findings as a trustworthy basis for recommendations).” (SEGM)

In einigen Ländern wie England, Schweden und Finnland lief es anders. Diese Länder haben sich an der Wissenschaft orientiert, größtenteils eigene systematische Reviews beauftragt, die Evidenz-Ergebnisse, die fast ausschließlich Belege für eine sehr geringe Sicherheit lieferten, bewertet und ihre Empfehlungen damit verknüpft. Das führte beispielsweise im Cass-Review Abschlussbericht zu folgender innovativen Forderung:

11.43 In summary, there is a lack of evidence about alternative approaches for managing gender-related distress, and it is difficult to obtain information about routine clinical practice or pathways of care for children and young people who do not receive medical interventions. An explicit clinical pathway must be developed for non-medical interventions, as well as a research strategy for evaluating their effectiveness.”

Durch den polarisierten Diskurs unter Fachleuten ist die Behandlungssituation für genderdysphorische Jugendliche regional sehr unterschiedlich. Während sich die skandinavischen Länder und England von den WPATH-Empfehlungen abgewendet haben, als Primärtherapie psychosoziale, psychologische und psychiatrische Unterstützung anbieten, die nicht-invasiv ist und die Teenager ganzheitlich in den Blick nimmt, wird in Deutschland weiterhin die gender-affirmative Behandlung (à la WPATH) mit ihren medizinischen Transitionsmaßnahmen (PB, CSH, OPs, ggf. Begleitpsychotherapie) ohne Alternativen präferiert.

Wie kommt es dazu, dass neuere Erkenntnisse ignoriert werden?

Für Behandler scheint es oft schwierig zu sein, ihre persönliche Erfahrung, Einstellung und präferierte Behandlungsansätze zu revidieren. Sie erleben einige PatientInnen während und direkt nach einer medizinischen Transitions-Maßnahme relativ euphorisch, aber sie verfolgen ihre Fälle allerdings nicht systematisch bzw. langfristig. Es ist nicht unüblich, dass Studien, die entgegen den Erwartungen keine positiven Ergebnisse liefern, nicht oder nur auf Druck von anderen Forschern veröffentlicht werden. Einige Beispiele der letzten Jahre:

  • Frühinterventionsstudie in England (Carmichael u. a., 2021)
  • Pubertätsblocker-Studie in den USA (Olson-Kennedy, 2024)
  • die von der WPATH beauftragten systematischen Reviews, die meisten davon brachten nicht die erhofften Ergebnisse und wurden daher nicht veröffentlicht.

Neuere Informationen zur Evidenz, die bisherige Trends infrage stellen, sind für etliche Fachleute schwer zu berücksichtigen. Obwohl die bisherige Praxis und der Kenntnisstand im Widerspruch zu den Erkenntnissen aus systematischen Überprüfungen und Meta-Studien stehen, versuchen sie zunächst einmal, die neueren Informationen zu verharmlosen oder zu diskreditieren. Sie scharen gleich gesinnte Fachleute und Pro-Affirmation-KollegInnen um sich, spezialisieren sich auf konsensbasierte Empfehlungen und werfen ihre Behandlungserfahrung, Autorität sowie Best-Practice-Reports in den Ring. [Die D-A-CH-Leitlinien-Kommission behauptete schließlich sogar fälschlicherweise, dass aufgrund der schwachen Evidenzlage keine evidenzbasierte S3-Leitlinie möglich sei. Eine evidenzbasierte S3-Leitlinie wäre sicher möglich, allerdings müssten die Empfehlungen dem Level der Evidenz entsprechen. Die bisherigen drastischen medizinischen Maßnahmen stehen im Widerspruch zu den international ermittelten Ergebnissen mehrerer systematischer Überprüfungen und Meta-Analysen und wären somit nicht länger vertretbar. Evidenzbasierte Empfehlungen müssten sich wahrscheinlich eher auf vorsichtigere Vorgehensweisen sowie auf die Entwicklung von nicht invasiven Alternativen beziehen. Leider ist es in D-A-CH nicht zu einer S3-Leitlinie gekommen.]

Hinzu kommt, dass die Debatte zur Behandlung von genderdysphorischen Teenagern in einem ideologisch aufgeladenen und polarisierten Umfeld stattfindet.

„Accepting the new evidence also challenges their belief that they are a diligent, caring doctor or a pioneer in their field. If a doctor’s beliefs also have an ideological component and are closely associated with their wider worldview, it is even less likely that their beliefs will change.” (Markierung hinzugefügt)

Qualität von Argumenten

Um mit der Polarisierung und mit Gegenargumenten klarzukommen, referenziert Baxendale nicht nur auf die Evidenzpyramide, sondern auch auf ein weiteres Pyramiden-Modell (v. Paul Graham), das verschiedene Arten von Argumenten auf der Grundlage ihrer Gültigkeit und Konstruktivität in der Debatte kategorisiert. Danach wird unterschieden, ob ein Argument lediglich eine Beschimpfung ist, ein Ad-Hominem-Angriff oder eine Reaktion eines Tonfalls oder ob es sich um einen Widerspruch, ein Gegenargument oder sogar eine Widerlegung handelt. Baxendale hält es für hilfreich, in einem Text farblich zu markieren, um welche Kategorie es sich bei den einzelnen Argumenten handelt, um besser dessen „Qualität“ und Bedeutung insgesamt erkennen zu können.

Baxendale's Schlussfolgerungen

Dem Einfluss von kognitiven Verzerrungen und Gruppendynamik auf die Wahrnehmung der Evidenzbasis für die klinische Versorgung wurde bislang zu wenig Aufmerksamkeit zuteil. Hier müsse angesetzt werden, um die negativen Auswirkungen auf die Patientenversorgung zu verringern, denn:

  • Aus systematischen Überprüfungen abgeleitete Leitlinien stellen die solideste Evidenzbasis für die klinische Praxis dar.
  • Aus klinischem Konsens abgeleitete Leitlinien sind sehr anfällig für kognitive Verzerrungen und Gruppendynamik, insbesondere wenn objektive Wirksamkeitsnachweise begrenzt sind und umfassende klinische Feedback-Mechanismen fehlen.

Baxendale sieht die Fachleute in der kollektiven Verantwortung, Voreingenommenheit in Forschung und Praxis zurückzudrängen und Offenheit für neue Perspektiven zu fördern.

„By prioritizing rigorous evidence and fostering open-minded dialogue that adheres to the Disagreement Pyramid, the medical community can ground patient care in science rather than subjective belief.”

How to be a Better Doctor: Recognizing How Cognitive Biases Shape – and Distort – Clinical Evidence, S. Baxendale, 18.02.2024

Wissenschaftsorientierung

Als leuchtendes Beispiel für Wissenschaftsorientierung und Evidenzrecherche gilt Riittakerttu Kaltiala, finnische Forscherin im Bereich pädiatrischer Gender-Medizin. Relativ schnell, nachdem sie gemerkt hatte, dass bei der Behandlung von genderdysphorischen Teenagern nach dem Niederländischen Modell etwas schiefläuft, hat sie für Finnland Konsequenzen gezogen, die bereits ab 2015 auch international Aufmerksamkeit erregt haben, thefp

Finnland: Akzeptanz statt Chirurgie

Finnland – Priorisierung von Psychotherapie aufgrund nicht schlüssiger Evidenz

Was vertrauenswürdige Leitlinien ausmacht, ist schon lange klar

Bereits 2011 wurden Kriterien für vertrauenswürdige Leitlinien definiert. Prof. Guyatt, einer der Pioniere der EBM, sagte dem British Medicine Journal, dass vertrauenswürdige Leitlinien

„'auf einer systematischen Überprüfung der relevanten Evidenz beruhen', für die es jetzt auch Standards gibt, im Gegensatz zu einer traditionellen narrativen Literaturübersicht, bei der 'eine Gruppe von Experten schreibt, was ihnen gefällt, ohne bestimmte Standards und ohne bestimmte Struktur.'”

Gender dysphoria in young people is rising - and so is professional disagreement, J. Block, BMJ, 23.02.2023

Clinical practice guidelines we can trust, Institute of Medicine u. a., 2011


*)Fehleinschätzungen, die lange Konsens waren und viel Schaden angerichtet haben

Leider gibt es in der Geschichte entschieden zu viele Empfehlungen und Behandlungen, die sich nicht nur als falsch herausgestellt haben, sondern die durch den lange aufrechterhaltenen Expertenkonsens auch zu viele unnötige katastrophale Folgen hatten.

Quecksilber

Die Behandlung mit Quecksilber wurde noch lange eingesetzt, nachdem die Schädlichkeit wie Zahnverlust, neurologische Funktionsstörungen, schweres Organversagen bis zu Koma und Tod bekannt waren.

Plötzlicher Kindstod

Bis in die frühen 1990er Jahre war es Expertenkonsens, Babys zum Schlafen auf den Bauch zu legen, obwohl bereits 1970 bekannt war, dass diese Praxis mit einem erhöhten Risiko für den plötzlichen Kindstod verbunden war. Wäre 1970 ein systematisches Evidenzreview durchgeführt und die Empfehlungen geändert worden, hätten in Europa, den USA und Australien über 50.000 Eltern ihre Babys nicht tot in ihrem Bettchen auffinden müssen. Der schädliche „Expertenkonsens“ war also noch über 2 Jahrzehnte lang wirksam, obwohl die Folgen bekannt waren und eindeutig in eine andere Richtung wiesen.

Medizinfortschritt heute, Skandal morgen?


Mehr …

Evidenz ist nicht gleich Evidenz

'Nennen Sie es nicht evidenzbasiert'

PB und CSH – Systematisches Review aus Schweden

GD-Behandlung U18: Wie kam es zur schwedischen „Selbstkorrektur“?

England setzt Pubertätsblocker für GD-Teenager vollständig aus

S2k-Leitlinie – Welche Reaktionen und Proteste gibt es?