JavaScript Required: This website requires JavaScript for full functionality.
Please enable JavaScript in your browser settings.
AdobeStock_131706509
AdobeStock_131706509_2400x600.jpg

Wenn Expertenkonsens nicht zur Evidenz passt

Sowohl bei den aktuellen Empfehlungen der WPATH (2022) als auch bei der AWMF-S2k-Leitlinie für D-A-CH „Geschlechtsinkongruenz und -dysphorie im Kin­des- u. Jugendalter – Diagnostik und Behandlung“ (2025) kam es zur gleichen Vorgehensweise: Als evidenzbasierte Leitlinie geplant, wurde daraus schließlich doch lediglich ein konsensbasiertes Papier. Das bedeutet niedrige Aussagesicherheit der Empfehlungen von WPATH und S2k bei hoher Fehleranfälligkeit Evidenzpyramide.

Anfang 2026 gab es neue aufschlussreiche Bewertungen bzw. Kommentierungen der beiden Leitlinien.

In unserem Beitrag von vor einem Jahr unter derselben Überschrift „Wenn Expertenkonsens nicht zur Evidenz passt“ hatten wir bereits Sallie Baxendales (Professorin für klinische Neuropsychologie am University College London) interessanten Beitrag vorgestellt, in dem sie erklärt, warum gar nicht so selten ein Expertenkonsens trotz widersprechender Evidenz lange maßgeblich ist und Praktiken aufrechterhält, die unwirksam, schädlich oder sogar tödlich sein können.

How to be a Better Doctor: Recognizing How Cognitive Biases Shape – and Distort – Clinical Evidence, S. Baxendale, 18.02.2024


Unser ursprünglicher Beitrag vom 03.03.2025:

Wenn Expertenkonsens nicht zur Evidenz passt

EvidenzpyramideSowohl bei den letzten Empfehlungen der WPATH (2022) als auch bei der AWMF-Leitlinie für D-A-CH „Geschlechtsinkongruenz und -dysphorie im Kindes- u. Jugendalter – Diagnostik und Behandlung“ (2025) kam es zur gleichen Vorgehensweise: Als evidenzbasierte Leitlinie geplant, wurde daraus schließlich doch lediglich ein konsensbasiertes Papier. Das bedeutet niedrige Aussagesicherheit der Empfehlungen bei hoher Fehleranfälligkeit, s. Evidenzpyramide.

Sallie Baxendale (Professorin für klinische Neuropsychologie am University College London) gibt in einem neuen Beitrag einige Hinweise, warum gar nicht so selten ein Expertenkonsens trotz widersprechender Evidenz lange maßgeblich ist und Praktiken aufrechterhält, die unwirksam, schädlich oder sogar tödlich sein können.

Dem Beitrag vorangestellt ist eine grundsätzliche Erwartung im Gesundheitsbereich, die allgemein anerkannt ist:

„Rather than the absence of any harm, it is the expectation of an overall benefit of a medical treatment that is the foundation of the implicit doctor-patient contract."

Baxendale richtet ihren Blick vor allem auf Bereiche, in denen Behandlungen im Off-Label-Use stattfinden. D. h., ohne die üblichen Zulassungsstudien werden Behandlungen auf andere Zwecke (für die sie nicht zugelassen sind) übertragen und durchgeführt. Gerade die pädiatrische Gender-Medizin sei ein eindrucksvolles Beispiel für die Dynamik, mit der Ärzte Beweise ignorieren und an Behandlungen festhalten, die sich als problematisch erwiesen haben, weil sie den normalen physiologischen Entwicklungsprozess stören.

Was beeinträchtigt die Wahrnehmung der Evidenzbasis?

Anhand einiger Irrtümer aus der Medizingeschichte*) sowie derzeitiger klinischer Kontroversen untersucht Baxendale, wie kognitive Verzerrungen und Gruppendynamik die Wahrnehmung der Evidenzbasis beeinträchtigen können.

„These distortions can perpetuate harmful practices in medicine long after the objective evidence points in a different direction.”

Einige Beispiele für Wahrnehmungsbeeinträchtigung

Die Ankereffekt-Verzerrung

Die Ankereffekt-Verzerrung ist die Fokussierung auf anfängliche Informationen oder die ersten Symptome oder Testergebnisse, auf die Ärzte zu Beginn eines Patientenkontaktes stoßen. Eine „Verankerung” erschwert es, eine anfängliche Diagnose oder einen Behandlungsplan zu ändern.

Bestätigungsfehler (confirmation bias)

Die Tendenz, hauptsächlich solche Informationen zu suchen bzw. sich zu merken, die anfängliche Hypothesen oder Vorurteile bestätigen, während alternative Möglichkeiten weniger Aufmerksamkeit bekommen oder gar übersehen werden.

Die Verfügbarkeitsheuristik

„Die sog. Verfügbarkeitsheuristik ist eine mentale Faustregel, die unbewusst bei Entscheidungen und Urteilen angewendet wird. Sie basiert auf der Annahme, dass Menschen von leicht abrufbaren Erinnerungen auf größere Sachverhalte schließen, selbst wenn die Fakten dagegen sprechen." (wikipedia)

Möglicherweise werden häufiger Erkrankungen diagnostiziert, denen Ärzte häufiger oder erst kürzlich begegnet sind. Dies passiert öfter in hoch spezialisierten Facharztbereichen, in die Menschen auch bereits gezielt überwiesen werden.

Die Selbstüberschätzung

In vielen Berufen, aber auch in der Medizin, finden sich Fachleute, die ihr Wissen, ihre Fähigkeiten oder die Genauigkeit ihrer Prognose tendenziell überschätzen. Es handelt sich insbesondere um Berufsfelder, in denen Unsicherheit als Schwäche gilt.

„In medicine, overconfidence can lead doctors to make decisions without fully considering all the evidence or consulting colleagues or other specialists. This bias can be particularly hazardous in complex cases where thorough investigation and collaboration are necessary.”

Sunk-Cost-Trugschluss

Nach der Diagnosestellung und Behandlungseinleitung kann es zu einer weiteren Verzerrung kommen, die die beteiligten Ärzte, aber auch PatientInnen für die Wirkungen der Behandlung blind macht. Obwohl keine positive Wirkung eintritt, wird eine Behandlung fortgesetzt, weil bereits eine Menge Ressourcen (Zeit, Geld, Aufwand, Schmerz, Leid) investiert wurde.

„The sunk cost fallacy is the tendency to continue a course of action because of the resources already invested, even when continuing is no longer the best option."

Mitläufer-Effekt

Hier geht es um die Tendenz, so zu handeln oder zu denken, weil viele andere es tun. Wenn Verfahren oder Behandlungen verbreitet, populär und akzeptiert sind, scheint kritisches Hinterfragen oft nicht notwendig zu sein.

„For example, a diagnostic test or treatment might become standard practice in a specialty, not because it is evidence based, but because everyone else is using it. As with the other biases, this can perpetuate suboptimal practices and inhibit the adoption of better alternatives."

Autoritätsprinzip

Auch in der Medizin ist es nicht unüblich, Experten und Führungskräften zu vertrauen bzw. das eigene Verhalten dem akzeptierten und üblichen Verhalten in der sozialen Gruppe anzupassen.

Wenn neue Erkenntnisse als gesichert angesehene Überzeugungen infrage stellen, kann es zur „kognitiven Dissonanz“ führen, die speziell für „Koryphäen“ eines bis dahin etablierten Fachbereiches schwer zu bewältigen sind, insbesondere wenn das ihren Experten-Status gefährdet. Neue Beurteilungen oder auch Whistleblowing können

„create a situation where someone is forced to reconcile their beliefs with markedly discordant information. In these circumstances an individual will often work hard to dismiss the evidence of harm in order to maintain psychological equipoise. Reconciling the tension by accepting the evidence has a very personal element in medicine, requiring the physician to recognise that while they thought they were helping their patients, they were actually harming them. For some the inability to change course at this stage becomes a hill they will die on."

Aber auch für Whistleblower, die sich trauen, ihre Beobachtungen, dass etwas falsch läuft, zu äußern, ist die Situation gefährlich. Auch wenn sie recht haben, verlieren erfahrungsgemäß 90 % ihren Arbeitsplatz oder werden degradiert und zu 30 % angeklagt (Lennane, 2012). Der Umgang mit Whistleblowern wirkt zudem hochgradig abschreckend, erkannte Missstände zu thematisieren.
[Ergänzend sei an den Semmelweiß-Effekt erinnert.]

Zuschauereffekt

Das Autoritätsprinzip erzeugt praktisch automatisch den Zuschauereffekt. Fachleute können leicht denken,

„that someone else will intervene or that the issue cannot be as serious as it appears, reasoning that if it were, somebody else would have surely noticed and done something about it."

Sog. Gender-Medizin für junge Menschen

Zurzeit haben wir die Situation, dass auf der Basis derselben internationalen Studienlage und vor allem der neueren Meta-Studien unterschiedliche Schlussfolgerungen für die Behandlung bzw. Versorgung genderinkongruenter/-dysphorischer Teenager gezogen werden (vgl. auch Was hilft? Was schadet?)

Deutschland folgt dem Affirmation-Only-Trend und hat jetzt eine rein konsensbasierte Leitlinie, die die bisherige Behandlungsstrategie mit ihren letztlich drastischen medizinischen Maßnahmen (PB, CSH, OPs) festschreibt. Bei deren Erstellung wurde die systematische Recherche der Evidenz zwischen 2017 und 2020 eingestellt. Es wurde kein unabhängiges Institut mit diesen Aufgaben beauftragt, wie beispielsweise das unabhängige IQWIG, dessen Kernaufgaben Evidenz­recherchen und -bewertungen sind. Schließlich ist nur eine S2k-Leitlinie für D-A-CH entstanden, in der alle 72 Empfehlungen per Konsens-Abstimmung, d. h. unterste Evidenzstufe, zustande gekommen sind und die als veraltet angesehen werden kann. Eine Analyse der S2k-Leitlinie durch die Society for Evidence Based Medicine veranlasste die SEGM zu der Aussage: Die S2k-Leitlinie ist nicht vertrauenswürdig.

There was no explicit link between the recommendations and the evidence base. None of the over 70 topic-specific recommendations, including the specific recommendations regarding psychotherapy, social transition, puberty blockers, cross-sex hormones, and surgery are linked to a body of evidence that is graded for certainty. Instead, the guidelines make specific treatment recommendations justifying them by findings from individual studies (which were not assessed for risk of bias and frequently presented highly biased findings as a trustworthy basis for recommendations).” (SEGM)

In einigen Ländern wie England, Schweden und Finnland lief es anders. Diese Länder haben sich an der Wissenschaft orientiert, größtenteils eigene systematische Reviews beauftragt, die Evidenz-Ergebnisse, die fast ausschließlich Belege für eine sehr geringe Sicherheit lieferten, bewertet und ihre Empfehlungen damit verknüpft. Das führte beispielsweise im Cass-Review Abschlussbericht zu folgender innovativen Forderung:

„11.43 In summary, there is a lack of evidence about alternative approaches for managing gender-related distress, and it is difficult to obtain information about routine clinical practice or pathways of care for children and young people who do not receive medical interventions. An explicit clinical pathway must be developed for non-medical interventions, as well as a research strategy for evaluating their effectiveness.”

Durch den polarisierten Diskurs unter Fachleuten ist die Behandlungssituation für genderdysphorische Jugendliche regional sehr unterschiedlich. Während sich die skandinavischen Länder und England von den WPATH-Empfehlungen abgewendet haben, als Primärtherapie psychosoziale, psychologische und psychiatrische Unterstützung anbieten, die nicht-invasiv ist und die Teenager ganzheitlich in den Blick nimmt, wird in Deutschland weiterhin die gender-affirmative Behandlung (à la WPATH) mit ihren medizinischen Transitionsmaßnahmen (PB, CSH, OPs, ggf. Begleitpsychotherapie) ohne Alternativen präferiert.

Wie kommt es dazu, dass neuere Erkenntnisse ignoriert werden?

Für Behandler scheint es oft schwierig zu sein, ihre persönliche Erfahrung, Einstellung und präferierte Behandlungsansätze zu revidieren. Sie erleben einige PatientInnen während und direkt nach einer medizinischen Transitions-Maßnahme relativ euphorisch, aber sie verfolgen ihre Fälle allerdings nicht systematisch bzw. langfristig. Es ist nicht unüblich, dass Studien, die entgegen den Erwartungen keine positiven Ergebnisse liefern, nicht oder nur auf Druck von anderen Forschern veröffentlicht werden. Einige Beispiele der letzten Jahre:

  • Frühinterventionsstudie in England (Carmichael u. a., 2021)
  • Pubertätsblocker-Studie in den USA (Olson-Kennedy, 2024)
  • die von der WPATH beauftragten systematischen Reviews, die meisten davon brachten nicht die erhofften Ergebnisse und wurden daher nicht veröffentlicht.

Neuere Informationen zur Evidenz, die bisherige Trends infrage stellen, sind für etliche Fachleute schwer zu berücksichtigen. Obwohl die bisherige Praxis und der Kenntnisstand im Widerspruch zu den Erkenntnissen aus systematischen Überprüfungen und Meta-Studien stehen, versuchen sie zunächst einmal, die neueren Informationen zu verharmlosen oder zu diskreditieren. Sie scharen gleichgesinnte Fachleute und Pro-Affirmation-KollegInnen um sich, spezialisieren sich auf konsensbasierte Empfehlungen und werfen ihre Behandlungserfahrung, Autorität sowie Best-Practice-Reports in den Ring. [Die D-A-CH-Leitlinien-Kommission behauptete schließlich sogar fälschlicherweise, dass aufgrund der schwachen Evidenzlage keine evidenzbasierte S3-Leitlinie möglich sei. Eine evidenzbasierte S3-Leitlinie wäre sicher möglich, allerdings müssten die Empfehlungen dem Level der Evidenz entsprechen. Die bisherigen drastischen medizinischen Maßnahmen stehen im Widerspruch zu den international ermittelten Ergebnissen mehrerer systematischer Überprüfungen und Meta-Analysen und wären somit nicht länger vertretbar. Evidenzbasierte Empfehlungen müssten sich wahrscheinlich eher auf vorsichtigere Vorgehensweisen sowie auf die Entwicklung von nicht invasiven Alternativen beziehen. Leider ist es in D-A-CH nicht zu einer S3-Leitlinie gekommen.]

Hinzu kommt, dass die Debatte zur Behandlung von genderdysphorischen Teenagern in einem ideologisch aufgeladenen und polarisierten Umfeld stattfindet.

„Accepting the new evidence also challenges their belief that they are a diligent, caring doctor or a pioneer in their field. If a doctor’s beliefs also have an ideological component and are closely associated with their wider worldview, it is even less likely that their beliefs will change.” (Markierung hinzugefügt)

Qualität von Argumenten

Um mit der Polarisierung und mit Gegenargumenten klarzukommen, referenziert Baxendale nicht nur auf die Evidenzpyramide, sondern auch auf ein weiteres Pyramiden-Modell (v. Paul Graham), das verschiedene Arten von Argumenten auf der Grundlage ihrer Gültigkeit und Konstruktivität in der Debatte kategorisiert. Danach wird unterschieden, ob ein Argument lediglich eine Beschimpfung ist, ein Ad-Hominem-Angriff oder eine Reaktion eines Tonfalls oder ob es sich um einen Widerspruch, ein Gegenargument oder sogar eine Widerlegung handelt. Baxendale hält es für hilfreich, in einem Text farblich zu markieren, um welche Kategorie es sich bei den einzelnen Argumenten handelt, um besser dessen „Qualität“ und Bedeutung insgesamt erkennen zu können.

Baxendale's Schlussfolgerungen

Dem Einfluss von kognitiven Verzerrungen und Gruppendynamik auf die Wahrnehmung der Evidenzbasis für die klinische Versorgung wurde bislang zu wenig Aufmerksamkeit zuteil. Hier müsse angesetzt werden, um die negativen Auswirkungen auf die Patientenversorgung zu verringern, denn:

  • Aus systematischen Überprüfungen abgeleitete Leitlinien stellen die solideste Evidenzbasis für die klinische Praxis dar.
  • Aus klinischem Konsens abgeleitete Leitlinien sind sehr anfällig für kognitive Verzerrungen und Gruppendynamik, insbesondere wenn objektive Wirksamkeitsnachweise begrenzt sind und umfassende klinische Feedback-Mechanismen fehlen.

Baxendale sieht die Fachleute in der kollektiven Verantwortung, Voreingenommenheit in Forschung und Praxis zurückzudrängen und Offenheit für neue Perspektiven zu fördern.

„By prioritizing rigorous evidence and fostering open-minded dialogue that adheres to the Disagreement Pyramid, the medical community can ground patient care in science rather than subjective belief.”

How to be a Better Doctor: Recognizing How Cognitive Biases Shape – and Distort – Clinical Evidence, S. Baxendale, 18.02.2024

Wissenschaftsorientierung

Als leuchtendes Beispiel für Wissenschaftsorientierung und Evidenzrecherche gilt Riittakerttu Kaltiala, finnische Forscherin im Bereich pädiatrischer Gender-Medizin. Relativ schnell, nachdem sie gemerkt hatte, dass bei der Behandlung von genderdysphorischen Teenagern nach dem Niederländischen Modell etwas schiefläuft, hat sie für Finnland Konsequenzen gezogen, die bereits ab 2015 auch international Aufmerksamkeit erregt haben, thefp

Finnland: Akzeptanz statt Chirurgie

Finnland – Priorisierung von Psychotherapie aufgrund nicht schlüssiger Evidenz

Was vertrauenswürdige Leitlinien ausmacht, ist schon lange klar

Bereits 2011 wurden Kriterien für vertrauenswürdige Leitlinien definiert. Prof. Guyatt, einer der Pioniere der EBM, sagte dem British Medicine Journal, dass vertrauenswürdige Leitlinien

„'auf einer systematischen Überprüfung der relevanten Evidenz beruhen', für die es jetzt auch Standards gibt, im Gegensatz zu einer traditionellen narrativen Literaturübersicht, bei der 'eine Gruppe von Experten schreibt, was ihnen gefällt, ohne bestimmte Standards und ohne bestimmte Struktur.'”

Gender dysphoria in young people is rising – and so is professional disagreement, J. Block, BMJ, 23.02.2023

Clinical practice guidelines we can trust, Institute of Medicine u. a., 2011


*)Fehleinschätzungen, die lange Konsens waren und viel Schaden angerichtet haben

Leider gibt es in der Geschichte entschieden zu viele Empfehlungen und Behandlungen, die sich nicht nur als falsch herausgestellt haben, sondern die durch den lange aufrechterhaltenen Expertenkonsens auch zu viele unnötige katastrophale Folgen hatten.

Quecksilber

Die Behandlung mit Quecksilber wurde noch lange eingesetzt, nachdem die Schädlichkeit wie Zahnverlust, neurologische Funktionsstörungen, schweres Organversagen bis zu Koma und Tod bekannt war.

Plötzlicher Kindstod

Bis in die frühen 1990er Jahre war es Expertenkonsens, Babys zum Schlafen auf den Bauch zu legen, obwohl bereits 1970 bekannt war, dass diese Praxis mit einem erhöhten Risiko für den plötzlichen Kindstod verbunden war. Wäre 1970 ein systematisches Evidenzreview durchgeführt und die Empfehlungen geändert worden, hätten in Europa, den USA und Australien über 50.000 Eltern ihre Babys nicht tot in ihrem Bettchen auffinden müssen. Der schädliche „Expertenkonsens“ war also noch über 2 Jahrzehnte lang wirksam, obwohl die Folgen bekannt waren und eindeutig in eine andere Richtung wiesen.

Medizinfortschritt heute, Skandal morgen?


Mehr …

Evidenz ist nicht gleich Evidenz

'Nennen Sie es nicht evidenzbasiert'

PB und CSH – Systematisches Review aus Schweden

GD-Behandlung U18: Wie kam es zur schwedischen „Selbstkorrektur“?

England setzt Pubertätsblocker für GD-Teenager vollständig aus

S2k-Leitlinie – Welche Reaktionen und Proteste gibt es?

 

Was tun?

Eltern eines ROGD-Teens stehen immer vor der Herausforderung, sich entscheiden zu müssen, wie dem leidenden Kind bestmöglich geholfen werden soll.

Logo TransTeens Sorge berechtigt Logo TransTeens Sorge berechtigt