Large-scale validation of artificial intelligence for breast cancer detection in Danish mammography screening

Bidragets oversatte titel: Storskala-validering af kunstig intelligens til detektion af brystkræft i dansk mammografiscreening

Publikation: AfhandlingPh.d.-afhandling

302 Downloads (Pure)

Abstract

Tidlig opsporing med brystkræftscreening og behandling efter bedste praksis anses som afgørende elementer for at formindske brystkræftrelateret dødelighed og sygelighed hos kvinder. Udbredte kapacitetsudfordringer og mangel på specialiserede radiologer kan imidlertid true den fortsatte robusthed og effektivitet af det organiserede mammografiscreeningsprogram. Kunstig intelligens (AI) løsninger baseret på deep learning teknikken har i de senere år vist store fremskridt inden for medicinsk billeddannelse, særligt med hensyn til påvisning af brystkræft på mammografi. AI-løsninger er blevet foreslået som beslutningsstøtteværktøj eller erstatning af radiologer til granskning af mammografiscreeningsbilleder mhp. at mindske arbejdsbyrden. Der er imidlertid blevet sat spørgsmålstegn ved generaliserbarheden af træfsikkerheden og gennemførligheden ved brug af AI i klinisk screeningspraksis i den virkelige verden grundet metodiske begrænsninger i den eksisterende litteratur, særligt pga. ikkerepræsentative populationer og reference standarder. Derudover er der begrænset evidens for, hvilken betydning den valgte AI-tærskelværdi og placering af AI i screeningsworkflowet har for udfaldet af screening.

Denne ph.d.-afhandling undersøger træfsikkerheden og brugbarheden af to kommercielle AI-løsninger (AI1 og AI2 ) til påvisning af brystkræft i populationsbaseret mammografiscreening, som læses via dobbeltlæsning med tredje granskning. Med udgangspunkt i et stort retrospektivt valideringsstudie blev en studiekohorte af 272.008 på hinanden følgende screeningsmammografier indsamlet fra Region Syddanmark. Både AI1 og AI2 blev valideret som en selvstændig læser (Standalone AI) sammenlignet med de førstelæsende radiologer (første læser), og i et AI-integreret screeningsscenarie hvor AI blev simuleret som første læser (Integrated AI) sammenlignet med kombineret læsning (standard dobbeltlæsning med tredje granskning). De valgte tærskelværdier for AI blev matchet med den gennemsnitlige sensitivitet og specificitet for den første læser, hhv. AIsens og AIspec.

For at undersøge effekten af forskellige placeringer af AI blev tre forskellige simulerede AI-integrerede screeningsscenarier med AI2 evalueret og sammenlignet med kombineret læsning, heriblandt scenariet med AI som første læser (Scenarie 1: Integrated AI2 first), Scenarie 2 med AI som anden læser (Integrated AI2 second) og Scenarie 3 med AI som et triageringsværktøj, som selvstændigt læser lavrisiko og højrisiko screeningsmammografier, mens screeninger med moderat risiko blev læst via den vanlige kombinerede læsning (Integrated AI2 triage). Analyserne for AI1 og AI2 tog udgangspunkt i hhv. stikprøve 1 og stikprøve 2 bestående af 257.671 og 249.402 mammografiscreeninger, alle med op til 24 måneders opfølgning.

Træfsikkerheden for Standalone AI var ikke på niveau med første læser med undtagelse af Standalone AI2 spec. Med AI simuleret som første læser var træfsikkerheden for det AI-integrerede screeningsscenarie med både AI1 og AI2 på niveau med kombineret læsning, da AIspec blev anvendt som tærskelværdi. Selvom dette medfulgte en lille stigning i antal tredje granskninger, nåede den samlede reduktion i antal menneskelige læsninger ca. -49% med et stabilt antal genindkaldelser. I Scenarie 2 havde Integrated AI2 second en statistisk signifikant lavere sensitivitet end kombineret læsning men en lavere genindkaldelsesrate med omtrent den samme reduktion i menneskelige læsninger som Integrated AI2 first (henholdsvis -48,7% og -48,8%). I Scenarie 3 havde Integrated AI2 triage en statistisk signifikant højere sensitivitet og lavere andel tredje granskninger med en reduktion i menneskelige læsninger på -49,7% og en stabil genindkaldelsesrate.

Den samlede konklusion på ph.d.-afhandlingen er, at en AI-løsning med et passende valg af tærskelværdi og placering i screeningsworkflowet potentielt kan erstatte én læser eller delvist erstatte begge læsere i dobbeltlæst mammografiscreening.

De vigtigste begrænsninger i studiet var relaterede til det retrospektive undersøgelsesdesign. Om end omfanget kan være vanskeligt at estimere, så kan referencestandarden potentielt have været påvirket af bias på grund af uens historisk opfølgning afhængigt af udfaldet af læsningen af screeningen samt radiologlæsninger, der var korrelerede med referencestandarden, hvilket forårsager usikkerhed omkring den sande status for hver enkel screening.

I lyset af resultaterne og begrænsningerne i denne ph.d.-afhandling og ud fra et klinisk synspunkt vedrørende anvendeligheden er der behov for stærke kvalitetsevalueringer, herunder prospektive kontrollerede forsøg, forud for storskala-implementering for at sikre, at langsigtede udfald ved brystkræft ikke påvirkes negativt af AI-integreret screening. Valget af en passende AI-tærskelværdi samt placeringen af AI i mammografiscreeningen udgør vigtige aspekter, som forskere og medicinske beslutningstagere skal overveje, når de skal vælge en implementeringsstrategi for AI inden for brystkræftscreening.
Bidragets oversatte titelStorskala-validering af kunstig intelligens til detektion af brystkræft i dansk mammografiscreening
OriginalsprogEngelsk
Bevilgende institution
  • Syddansk Universitet
Vejledere/rådgivere
  • Rasmussen, Benjamin Schnack, Hovedvejleder
  • Graumann, Ole, Vejleder
  • Nielsen, Mads, Vejleder, Ekstern person
Dato for forsvar11. mar. 2024
Udgiver
DOI
StatusUdgivet - 21. feb. 2024

Note vedr. afhandling

Den fulde afhandling kan læses på SDUs bibliotek.

Emneord

  • Kunstig intelligens
  • AI
  • Brystkræft
  • Screening
  • Mammografi

Fingeraftryk

Dyk ned i forskningsemnerne om 'Storskala-validering af kunstig intelligens til detektion af brystkræft i dansk mammografiscreening'. Sammen danner de et unikt fingeraftryk.

Citationsformater