ChatGPT-4 Produceert 'Bijna Perfecte' Radiologierapporten voor Alvleesklierkanker

ChatGPT-4 Produceert 'Bijna Perfecte' Radiologierapporten voor Alvleesklierkanker

ChatGPT-4 Produceert 'Bijna Perfecte' Radiologie Rapporten voor Pancreaskanker

Kate Madden Yee

19 jun, 2024

ChatGPT-4 overtreft GPT-3.5 bij het maken van gestructureerde, samengevatte radiologie rapporten voor pancreas ductaal adenocarcinoom (PDAC), aldus onderzoekers.

De resultaten van het onderzoek zijn goed nieuws voor zowel clinici als patiënten, omdat de AI-tool de chirurgische besluitvorming kan verbeteren, merkte een team onder leiding van Rajesh Bhayana, MD, van de Universiteit van Toronto in Canada op in een artikel dat op 18 juni is gepubliceerd in Radiology.

"[We hebben ontdekt dat] GPT-4 bijna perfecte PDAC-synoptische rapporten creëerde uit oorspronkelijke rapporten… [en dat] GPT-4 met chain-of-thought een hoge nauwkeurigheid bereikte in het categoriseren van resectability… [en dat] chirurgen nauwkeuriger en efficiënter waren [wanneer ze AI-gegenereerde rapporten gebruikten]," schreef de groep.

Beeldvorming is essentieel om te bepalen welke pancreastumoren in aanmerking komen voor chirurgie en welke niet, legden Bhayana en collega's uit. Maar in vergelijking met vrije-tekstbeschrijvingen van beeldvormingsrapporten, "verbeteren gestructureerde pancreas-CT-rapporten de communicatie tussen radiologen en chirurgen en verbeteren ze de chirurgische planning en besluitvorming," schreef het team, en voegde eraan toe dat de "adoptie van gestructureerde rapportage door radiologen voor pancreaskanker inconsistent is, en resectability-criteria heterogeen worden toegepast en tumorcategorisatie variabel wordt gerapporteerd."

Om te beoordelen of het gebruik van grote taalmodellen (LLM's) deze inconsistentie zou kunnen verminderen, vergeleken de onderzoekers het vermogen van GPT-3.5 en ChatGPT-4 om automatisch PDAC-rapporten te maken op basis van oorspronkelijke CT-beeldvormingsrapporten. Hun studie omvatte 180 opeenvolgende PDAC-stagerings-CT-rapporten van patiënten die van januari tot december 2018 werden doorverwezen naar het Princess Margaret Cancer Centre in Toronto.

Twee radiologen beoordeelden de PDAC-rapporten en stelden een referentiestandaard op voor 14 belangrijke kenmerken en voor de National Comprehensive Cancer Network (NCCN) resectability categorie. (Belangrijke kenmerken omvatten onder andere tumorlokalisatie, tumorgrootte, pancreasduct, galgangen, celiac arteriën, superieure mesenterium arteriën, gemeenschappelijke lever arterie, aorta, grote aderen, lymfeklieren en metastasen.) De onderzoekers evalueerden vervolgens de prestaties van ChatGPT-3.5 en ChatGPT-4 op recall, precisie en F1-score (wat een gemiddelde van precisie en recall aangeeft, met de beste waarde die gelijk is aan 1 en de slechtste aan 0). Daarnaast beoordeelden hepatopancreatische chirurgen zowel oorspronkelijke als AI-gegenereerde rapporten om de PDAC-resectability te bepalen, waarbij nauwkeurigheid en beoordelingstijd werden vergeleken.

De groep ontdekte dat, in vergelijking met GPT-3.5, GPT-4 gelijke of hogere F1-scores produceerde voor alle 14 geëxtraheerde kenmerken, en voor het categoriseren van resectability overtrof het GPT-3.5 voor elke prompting-strategie (bijv. chain-of-thought, kennis), waarbij chain-of-thought prompting het meest accuraat was. ChatGPT-4 verminderde de tijd die chirurgen aan elk rapport besteedden met 58%.

Het team van Bhayana rapporteerde ook het volgende:

Vergelijking van ChatGPT-3.5 met ChatGPT-4 voor PDAC-radiologie:

Maatstaf ChatGPT-3.5 ChatGPT-4 F1-score, creatie van samenvattende rapporten 0.97 0.99 Precisie, identificeren van tumorlokalisatie 99.4% 100% Chirurg nauwkeurigheid voor het categoriseren van resectability met behulp van AI-rapporten vergeleken met oorspronkelijke rapporten 76% 83%

"Onze studie toont een nuttige toepassing van grote taalmodellen (LLM's) in de behandeling van pancreaskanker die standaardisatie kan verhogen, communicatie kan verbeteren en de efficiëntie en kwaliteit van rapportbeoordeling door chirurgen kan verbeteren," concludeerden de auteurs.

Het onderzoek ondersteunt "het positieve beeld dat AI, met name generatieve AI, een belangrijke facilitator zal zijn om broodnodige verbeteringen in efficiëntie en waarde in de radiologie-workflow te realiseren," schrijft Dr. Paul Chang, van de Universiteit van Chicago School of Medicine, in een commentaar dat de studie begeleidt. Maar er moet nog meer werk worden verricht.

"Een nuchtere realiteit moet worden erkend: er is... [een] kloof tussen veelbelovende haalbaarheid en het bieden van operationele oplossingen," merkte Chang op. "Bijvoorbeeld, hoe kunnen we deze veelbelovende AI-ondersteunde capaciteit het beste integreren in een schaalbare en uitgebreide workflow-orkestratie? Een dergelijke oplossing moet in staat zijn om het juiste downstream-product op een generaliseerbare en contextueel bewuste manier te genereren."

Het volledige onderzoek is hier te vinden.

Sterke Call-to-Action:

Blijf op de hoogte van de nieuwste ontwikkelingen in AI en radiologie! Schrijf je in voor onze nieuwsbrief, laat een reactie achter of bekijk de diensten van AivyPlus.nl om te ontdekken hoe ChatGPT en AI jouw praktijk kunnen transformeren.

Terug naar blog