AI-taalmodellen nog niet klaar voor onbegeleid klinisch gebruik, blijkt uit onderzoek


Key takeaways

  • De huidige AI-taalmodellen hebben moeite met het genereren van nauwkeurige lijsten met mogelijke diagnoses, hoewel ze wel blijk geven van vaardigheid bij het stellen van definitieve diagnoses.
  • Onderzoekers wijzen op de noodzaak van menselijk toezicht bij het gebruik van deze modellen in klinische omgevingen door hun beperkingen bij de diagnose in een vroeg stadium.
  • AI is volgens deze studie veelbelovend, maar nog niet het complexe redeneringsvermogen en oordeelsvermogen kan evenaren dat nodig is voor veilige en effectieve gezondheidszorg.

Een recent onderzoek, gepubliceerd in JAMA Network Open, onthult dat de huidige AI-taalmodellen nog niet klaar zijn voor gebruik zonder menselijk toezicht in klinische omgevingen. Onderzoekers van Mass General Brigham analyseerden 21 verschillende grote taalmodellen (LLM’s), waaronder geavanceerde versies van Claude, DeepSeek, Gemini, ChatGPT en Grok.

Evaluatiemethodologie

Ze maakten gebruik van een nieuw hulpmiddel, PrIME-LLM genaamd, om het vermogen van de modellen te evalueren in verschillende stadia van klinische redenering: eerste diagnose, het aanvragen van onderzoeken, definitieve diagnose en behandelplanning. De evaluatie omvatte het voorleggen van 29 gestandaardiseerde klinische scenario’s aan de modellen, waarbij geleidelijk informatie werd verstrekt, variërend van basisgegevens van de patiënt tot bevindingen van lichamelijk onderzoek en laboratoriumresultaten.

Hoewel de modellen een hoge nauwkeurigheid vertoonden bij het stellen van de definitieve diagnose, hadden ze aanzienlijke moeite met het genereren van passende differentiële diagnoses – een cruciale stap voor zorgprofessionals om onderscheid te maken tussen aandoeningen met vergelijkbare symptomen. In meer dan 80 procent van de gevallen slaagden de modellen er niet in een adequate lijst met mogelijke diagnoses op te stellen.

Beperkingen bij vroege diagnose

Auteur van de studie Arya Rao licht toe dat deze stapsgewijze evaluatie verder gaat dan het simpelweg behandelen van LLM’s als examenkandidaten en ze in een meer realistische klinische context plaatst. Ze wijst erop dat deze modellen uitblinken in het stellen van definitieve diagnoses wanneer ze volledige informatie krijgen, maar haperen tijdens de beginfase van een casus waarin de gegevens beperkt zijn.

Ondanks verbeteringen in modellen die zijn geoptimaliseerd voor redeneren en tussen verschillende versies, concludeert de studie dat kant-en-klare LLM’s nog steeds niet over de nodige intelligentie beschikken voor een veilige inzet zonder menselijk toezicht. Hoofdauteur Marc Succi stelt dat deze modellen nog niet in staat zijn om het complexe proces van differentiële diagnose te repliceren, wat hij beschouwt als de “kunst van de geneeskunde”.

Menselijk toezicht blijft cruciaal

Susana Manso García, lid van de werkgroep Artificiële Intelligentie en Digitale Gezondheid die niet bij het onderzoek betrokken was, benadrukt het belang van menselijk klinisch oordeel. Volgens haar biedt AI veelbelovende mogelijkheden, maar er mag niet blind op vertrouwd worden voor het nemen van onafhankelijke klinische beslissingen. (fc)

Volg Business AM ook op Google Nieuws

Wil je toegang tot alle artikelen, geniet tijdelijk van onze promo en abonneer je hier!

Meer

Ontvang de Business AM nieuwsbrieven

De wereld verandert snel en voor je het weet, hol je achter de feiten aan. Wees mee met verandering, wees mee met Business AM. Schrijf je in op onze nieuwsbrieven en houd de vinger aan de pols.