Millionen Menschen nutzen Large Language Models (LLMs) bereits regelmäßig für Gesundheitsfragen. In den USA konsultiert etwa jeder sechste Erwachsene monatlich einen KI-Chatbot zu medizinischen Themen. Auch viele Ärztinnen und Ärzte greifen informell auf LLMs zurück – zur Orientierung, zur Formulierung von Texten oder zur raschen Einordnung medizinischer Informationen. Eine aktuelle randomisierte, präregistrierte Studie aus dem Vereinigten Königreich untersuchte die tatsächliche Zuverlässigkeit in der Interaktion mit medizinischen Laien – und nicht nur die isolierte Leistungsfähigkeit von KI-Systemen
Insgesamt 1.298 erwachsene Teilnehmer bearbeiteten eines von 10 alltagsnahen, von Ärzten entwickelten klinischen Szenarien. Die Aufgabe bestand darin, relevante medizinische Konditionen zu benennen und eine angemessene Handlungsempfehlung auf einer fünfstufigen NHS-Skala zu treffen – von Selbstbehandlung bis Notruf. Drei Gruppen nutzten jeweils eines von 3 LLMs (GPT-4o, Llama 3, Command R+), die Kontrollgruppe verwendete die üblichen Informationsquellen wie Internetsuche. Die Goldstandard-Disposition wurde von 3 Ärzten gemeinsam festgelegt, die Liste relevanter Differenzialdiagnosen von 4 weiteren Ärzten erstellt.
Das Ergebnis fällt ernüchternd aus: Teilnehmer, die mit einem LLM arbeiteten, identifizierten signifikant seltener mindestens eine relevante medizinische Kondition als die Kontrollgruppe (Odds Ratio 1,76 zugunsten der Kontrolle). Bei der Wahl der richtigen Versorgungsstufe ergaben sich keine signifikanten Unterschiede zwischen den Gruppen. Insgesamt lag die Trefferquote für die korrekte Disposition bei lediglich 43 %, deutlich über Zufall (20 %), aber klinisch alles andere als beruhigend.
Das Problem ist das Zusammenspiel zwischen Mensch und System
Besonders bemerkenswert ist die Diskrepanz zwischen isolierter Modellleistung und realer Nutzung. Werden die vollständigen Fallvignetten direkt in die Modelle eingegeben, nennen sie in über 90 % der Fälle mindestens eine relevante Kondition. Auch die Dispositionsgenauigkeit liegt in dieser Konstellation höher als bei den Mensch-Maschine-Teams. Das Problem ist also nicht primär fehlendes Faktenwissen, sondern das Zusammenspiel zwischen Mensch und System.
Die qualitative Analyse der Transkripte offenbart typische Versagensmuster. Nutzer lieferten häufig unvollständige oder unsystematische Informationen; die Modelle wiederum reagierten anfällig auf irrelevante Details und zeigten Inkonsistenzen bei semantisch ähnlichen Eingaben. In einem begleitenden Interview in der NZZ beschreibt Co-Autorin Rebecca Payne, wie ein Modell zunächst korrekt eine tiefe Venenthrombose erwog, sich jedoch durch die beiläufige Erwähnung einer Jogging-Aktivität auf eine harmlose Verstauchung umstimmen ließ. In einem anderen Fall führten minimale Unterschiede in der Beschreibung identischer Kopfschmerzsymptome zu klinisch nicht vertretbar divergierenden Empfehlungen – von Selbstmedikation bis Notruf.
Auch gängige Sicherheitsprüfungen erwiesen sich als unzureichend. Die Modelle erreichten auf einem thematisch gefilterten MedQA-Benchmark überwiegend Werte oberhalb der üblichen Bestehensgrenze von 60 %. Diese hohen Benchmark-Scores korrelierten jedoch nur schwach mit der realen Interaktionsleistung. Simulationen mit LLM-„Patienten“ überschätzten die tatsächliche Performance ebenfalls deutlich und zeigten kaum die Variabilität realer Nutzer.
Die Autoren und Autorinnen formulieren ihre Schlussfolgerung klar: Keines der getesteten Modelle sei derzeit bereit für den Einsatz in der direkten Patientenversorgung. Entscheidend sei nicht nur medizinisches Expertenwissen, sondern die Fähigkeit zur strukturierten Gesprächsführung, zur Priorisierung von „Red-Flag“-Informationen und zur konsistenten Entscheidungslogik unter variablen Eingabebedingungen.
Damit entsteht ein Spannungsfeld: Während regulatorisch und wissenschaftlich Zurückhaltung angemahnt wird, nutzen bereits heute unzählige Patientinnen und Patienten LLMs zur Selbsttriage – und nicht wenige Ärztinnen und Ärzte konsultieren sie im Arbeitsalltag. Die Systeme sind also faktisch im Einsatz, ohne dass ihre Interaktionssicherheit hinreichend validiert ist.
Die Studie liefert daher weniger ein Votum gegen KI in der Medizin als eine präzise Diagnose ihres aktuellen Schwachpunkts: Nicht das medizinische Wissen ist das Hauptproblem, sondern die fragile Schnittstelle zwischen Mensch und Maschine. Wer LLMs künftig als „Front Door“ des Gesundheitssystems etablieren will, muss genau dort ansetzen: bei der Robustheit, Konsistenz und Gesprächsführung unter realen Bedingungen. Bis dahin bleibt ihre Rolle die eines unterstützenden Werkzeugs, nicht die einer verlässlichen digitalen Erstberatung.
Bean AM et al.: Reliability of LLMs as medical assistants for the general public: a randomized preregistered study. Nat Med. 2026 Feb 9 (DOI 10.1038/s41591-025-04074-y).
* Rüschemeyer G: Medizinische Fehldiagnosen mit KI: ‚Es sind die Menschen, die den Prozess kaputtmachen‘. Neue Zürcher Zeitung (NZZ), 10.02.2026 (https://www.nzz.ch/wissenschaft/fehldiagnosen-warum-dr-chatgpt-mit-echten-patienten-scheitert-ld.1923946).