Home Medizin Ist ChatGPT zuverlässig für CRC-Screening-/Überwachungsberatung?

Ist ChatGPT zuverlässig für CRC-Screening-/Überwachungsberatung?

von NFI Redaktion

OBERSTEN ZEILE:

Laut einer neuen Studie liefert ChatGPT (Version 3.5) relativ schlechte und inkonsistente Antworten auf die Frage nach einer angemessenen Darmkrebsvorsorge (CRC) und -überwachung.

METHODIK:

  • Drei staatlich geprüfte Gastroenterologen mit mehr als 10 Jahren klinischer Erfahrung entwickelten fünf klinische CRC-Screening- und fünf CRC-Überwachungsvignetten (mit Multiple-Choice-Antworten), die in ChatGPT Version 3.5 eingespeist wurden.
  • Die Antworten von ChatGPT wurden über vier separate Sitzungen aufgezeichnet und auf Genauigkeit überprüft, um die Zuverlässigkeit des Tools zu bestimmen.
  • Die durchschnittliche Anzahl richtiger Antworten wurde mit der von 238 Gastroenterologen und Darmchirurgen verglichen, die dieselben Fragen mit und ohne Hilfe einer zuvor validierten mobilen Darmkrebs-Screening-App beantworteten.

ERGEBNISSE:

  • Die durchschnittliche Gesamtleistung von ChatGPT betrug 45 %; Die durchschnittliche Anzahl der richtigen Antworten betrug 2,75 für das Screening und 1,75 für die Überwachung.
  • Die Antworten von ChatGPT waren bei einem Großteil der Fragen inkonsistent; Das Tool gab in den verschiedenen Sitzungen auf vier Fragen eine unterschiedliche Antwort.
  • Die durchschnittliche Anzahl der insgesamt richtigen Antworten von ChatGPT war deutlich niedriger (P < .001) als die von Ärzten mit und ohne mobile App (7,71 bzw. 5,62 richtige Antworten).

IM PRAKTISCHEN EINSATZ:

„Der Einsatz validierter mobiler Apps mit Entscheidungsalgorithmen könnte als zuverlässigere Assistenten dienen, bis große, mit KI entwickelte Sprachmodelle weiter verfeinert werden“, schlussfolgern die Autoren.

QUELLE:

Die Studie mit dem Erstautor Lisandro Pereyra, MD, Abteilung für Gastroenterologie, Hospital Alemán in Buenos Aires, Argentinien, wurde am 7. Februar 2024 online im Zeitschrift für klinische Gastroenterologie veröffentlicht.

EINSCHRÄNKUNGEN:

Die 10 klinischen Vignetten stellten eine relativ kleine Stichprobengröße dar, um die Genauigkeit zu beurteilen. In der Studie wurde nicht die neueste Version von ChatGPT verwendet. Es wurden keine „Feinabstimmungsversuche“ mit der Eingabe verschiedener Eingabeaufforderungen, Anweisungen oder relevanter Daten durchgeführt, die möglicherweise die Leistung des Chatbots verbessern könnten.

OFFENLEGUNG:

Für die Studie gab es keine spezifische Finanzierung. Die Autoren gaben an, dass keine Interessenkonflikte bestehen.

Related Posts

Adblock Detected

Please support us by disabling your AdBlocker extension from your browsers for our website.