Kommerzielle Large Language Models (LLMs), die für medizinische Beratung eingesetzt werden, lassen sich durch sogenannte Prompt-Injection-Angriffe gezielt manipulieren. Das zeigt eine aktuelle südkoreanische Studie mit standardisierten Patient-KI-Dialogen. Dabei wurden selbst eindeutig kontraindizierte Therapieempfehlungen generiert – unter anderem die Empfehlung von Thalidomid (Contergan) in der Schwangerschaft.
In der Untersuchung wurden mehrere gängige KI-Modelle in typischen Beratungssituationen getestet, darunter Szenarien zu Nahrungsergänzungsmitteln, Opioiden und Schwangerschaftskontraindikationen. Durch gezielte Manipulation der Eingaben konnten die Modelle in der Mehrzahl der Fälle zu medizinisch falschen oder potenziell gefährlichen Empfehlungen verleitet werden.
Besonders problematisch: Auch hoch entwickelte Flagship-Modelle mit erweiterten Sicherheitsmechanismen erwiesen sich als anfällig. In einem realitätsnahen Testszenario ließen sich selbst diese Systeme zu kontraindizierten Empfehlungen bewegen, die teilweise über mehrere Dialogschritte hinweg bestehen blieben.
Die Autoren und Autorinnen sehen die Ursache weniger in einem „fehlenden Wissen“ der Modelle als in ihrer Grundlogik: LLMs sind darauf trainiert, hilfreich und kontextsensitiv zu antworten – und können dabei manipulierte oder gefälschte „Evidenz“ nicht zuverlässig von echter unterscheiden. Aus Sicht der Autorengruppe sind medizinische KI-Chatbots für den unkontrollierten patientenseitigen Einsatz derzeit nicht ausreichend abgesichert. Sie plädieren in ihrer Publikation für verpflichtende Sicherheitstests, technische Schutzmechanismen auf Systemebene sowie Zurückhaltung beim klinischen Einsatz ohne ärztliche Kontrolle.
Lee RW et al.: Vulnerability of Large Language Models to Prompt Injection When Providing Medical Advice. JAMA Netw Open. 2025 Dec 19;8;(12):e2549963 (DOI 10.1001/jamanetworkopen.2025.49963).