Künstliche Intelligenz (KI) gilt als eine der vielversprechendsten Innovationen im Gesundheitswesen. Doch wie lässt sich der tatsächliche Nutzen einer KI-Anwendung im klinischen Alltag bewerten? Für Entscheidungsträger ist diese Frage zentral, um Investitionen gezielt zu steuern und die Versorgungsqualität nachhaltig zu verbessern.
1. Modellgenauigkeit allein reicht nicht aus?
Viele KI-Projekte im Gesundheitswesen berichten vorrangig über die Genauigkeit oder Präzision ihrer Modelle. Diese Kennzahlen sind jedoch nur ein erster Schritt. Sie sagen wenig darüber aus, ob und wie die KI-Lösung tatsächlich die Versorgung für die Bevölkerung verbessert. Modelle können beispielsweise das Risiko einer Wiederaufnahme korrekt vorhersagen, aber ohne eine daraus abgeleitete, wirksame Intervention bleibt der klinische Mehrwert un dökonoimisches Outcome gering.
2. Outcome-Action Pairing: Vom Ergebnis zur Handlung
Ein zentrales Konzept zur Bewertung von KI-Anwendungen ist das sogenannte Outcome-Action Pairing (OAP). Hierbei wird nicht nur das Ergebnis (z. B. eine Risikovorhersage) betrachtet, sondern auch die konkrete Handlung, die daraus abgeleitet werden kann. Nur wenn auf die Vorhersage eine sinnvolle, umsetzbare Intervention folgt, entsteht ein echter Nutzen für Patient:innen, Behandelnde oder das Gesundheitssystem.
Beispiel:
Eine KI prognostiziert das Risiko einer 30-Tage-Wiederaufnahme. Die Handlung könnte sein, gezielt Nachsorge-Termine für Hochrisikopatient:innen zu organisieren. Die Evaluation muss daher beide Aspekte – Vorhersage und Intervention – gemeinsam betrachten.
3. Ein Framework für die Evaluation: Utility, Feasibility, Clinical Impact
Utility
(Nützlichkeit)
Fragen: Für wen ist die KI-Lösung gedacht? Welches Problem wird gelöst? Gibt es eine Intervention, die auf das Modell-Output folgt?
Messgrößen: „Number needed to screen“, „Number needed to treat“, „Number needed to harm“.
Feasibility (Umsetzbarkeit)
Fragen: Sind die notwendigen Daten verfügbar und von ausreichender Qualität? Ist die Implementierung technisch und organisatorisch realisierbar? Gibt es ausreichend Ressourcen und Akzeptanz im Team?
Aspekte: Datenqualität, Kosten, Integration in bestehende Prozesse, Wartbarkeit.
Clinical Impact (Klinischer Nutzen)
Fragen: Verbessert die KI-Lösung tatsächlich die Versorgung? Werden Patient:innen-Outcome, Effizienz oder Sicherheit gesteigert?
Methoden: Klinische Validierung, Entscheidungskurvenanalyse (Decision Curve Analysis), Nutzen-Risiko-Abwägung.
4. Stakeholder und Beneficiaries: Wer profitiert und wer muss eingebunden werden?
Die Entwicklung und Evaluation von KI-Lösungen erfordert die frühzeitige Einbindung aller relevanten Stakeholder – von medizinischen Fachexpert:innen über IT und Pflege bis hin zu Patient:innen und Kostenträgern. Nur so lassen sich Akzeptanz, Umsetzbarkeit und nachhaltiger Nutzen sicherstellen.
5. Praktische Empfehlungen für Entscheidungsträger
- Fragen Sie nach dem Outcome-Action Pairing: Welche konkrete Handlung folgt auf die KI-Vorhersage?
- Bewerten Sie die Umsetzbarkeit: Sind die notwendigen Daten, Ressourcen und Prozesse vorhanden?
- Fordern Sie eine klinische Validierung: Gibt es Evidenz für einen tatsächlichen Versorgungsnutzen?
- Beziehen Sie alle relevanten Stakeholder ein: Akzeptanz und Erfolg hängen maßgeblich von der interdisziplinären Zusammenarbeit ab.
- Denken Sie an die Nachhaltigkeit: Wie wird die Lösung gewartet und weiterentwickelt?
Die Evaluation von KI-Anwendungen im Gesundheitswesen erfordert einen ganzheitlichen Ansatz, der weit über technische Kennzahlen hinausgeht. Nur durch die systematische Betrachtung von Nützlichkeit, Umsetzbarkeit und klinischem Impact können Entscheidungsträger sicherstellen, dass KI-Lösungen echten Mehrwert für Patient:innen und das Gesundheitssystem schaffen.
Quellen:
- Stanford University, „Evaluations of AI Applications in Healthcare“, 2020.
- FDA, „Proposed regulatory framework for modifications to artificial intelligence/machine learning (AI/ML)-based software as a medical device (SaMD)“, 2019.
Disclaimer: Text wurde mit Unterstützung datenbasierter Sprachmodelle generiert. Beitragsbild Frome, United Kingdom, unsplash.com