Counteracting Performance Degradation of Artificial Intelligence in Healthcare

Eline Sandvig Andersen*

*Kontaktforfatter

Publikation: AfhandlingPh.d.-afhandling

Abstract

Baggrund og formål:
Modeller baseret på kunstig intelligens (AI) kan med tiden blive dårligere til at løse deres givne opgave. Når man implementerer en AI-model, kan man ikke på forhånd vide, om eller hvornår modellen vil holde op med at virke effektivt. For kliniske AI-modeller kan konsekvenserne af en dårligt fungerende model være store. Der findes mange mulige strategier for at håndtere denne risiko for fejl, men viden omkring konkret implementering af disse strategier inden for sundhedsområdet er fortsat sparsom. Denne afhandlings formål er derfor at undersøge en række specifikke metoder til at detektere eller forebygge at kliniske AI-modeller fejler. 

Studie I:
Formål: Ved hjælp af simulation at evaluere, hvordan forskellige niveauer af input variation påvirker MELD-scoren (model of end-stage liver disease), for derved at kunne sætte rammer for hvilket niveau at variation, som forventes at være foreneligt med stabil ydeevne for modellen.

Metode: Vi indsamlede 6093 på hindanden følgende MELD-scorer fra laboratoriedatabasen. På dette datasæt simulerede vi forskellige niveauer af variation, og kvantificerede ændringer i MELD-scoren, som opstod pga. variationen. Vi simulerede ligeledes det samme på et dataset, som var konstrueret til at være maximalt følsomt for variation.

Resultat: Forplantning af variationen fra input til output igennem modellen var kompleks og afhang af både selve variationen, men også af hvilken underliggende population modellen blev brugt på. Resultaterne spændte fra en andel af prøver som ændredes med ≥ 1 MELD på 0.02 % til 3.26%.

Studie II
Formål: At gennemgå og opsummere metoder til at monitorere kliniske AImodellers ydeevne over tid. 

Metode: Vi udførte et "scoping review" baseret på søgninger i MEDLINE, Embase, Scopus and ProQuest samt grå litteratursøgning. Projektet fulgte relevante vejledninger fra PRISMA og JBI.

Resultat: Vi identificerede 39 kilder, hvoraf hovedparten var narrative oversigtsartikler og simulationsstudier, imens kun én kilde var en officiel guideline. De oftest rapporterede mål for ydeevne var traditionelle medicinske måleparametre så som prædiktive værdier. Nogle kilder rapporterede også om andre måleparametre og metoder, hvoraf nogle var specialdesignet netop til monitorering af kliniske AI-modeller.

Studie III:
Formål: Baseret på en eksisterende model som forudsiger risiko for cancer indenfor 90 dage ud fra blodprøveresultater, var formålet med projektet at undersøge modellens ydeevne i årene efter, den i sin tid blev valideret. Derudover ønskede vi at undersøge om simpel monitorering af input og output ville have advaret om mulige betydende ændringer i data. 

Metode: Vi indsamlede data relateret til 7110 blodprøverekvisitioner foretaget i 2020 til 2023. Modellens ydeevne i perioden blev vurderet ud fra prædiktive værdier, sensitivitet, specificitet og areal under ROC-kurven (AUROC). Vi simulerede monitorering via Shewhart kontrol tabeller af henholdsvis proportionen af valide rekvisitioner (input monitorering) og proportionen af prøver, som blev prædikteret positive (output monitorering).

Resultat: Modellen forblev stabil indtil fjerde kvartal 2023, hvor specificiteten faldt signifikant som følge af ændringer i den bagvedliggende blodprøvepakke. Output monitoreringen gav ingen alarmer, imens input monitoreringen alarmerede umiddelbart efter ændringerne i blodprøvepakken.

Konklusion:
Efterhånden som flere kliniske AI-modeller udvikles og implementeres, vil metoder til at håndtere den iboende risiko fejl blive af tiltagende stor betydning. I denne afhandling viser vi, hvordan der er en kompleks sammenhæng imellem ændringer i input og deraf følgende ændringer i output for selv simple AImodeller. Vi beskriver hvordan input leverandører kan bidrage til stabil AI drift ved at inddrage denne kompleksitet, når kriterier for acceptabel datakvalitet defineres. 
Herudover giver vi et overblik over metoder til at overvåge kliniske AI-modellers ydeevne og påviser en betydelig mangel på retningslinjer for praktisk implementering af denne overvågning, imens vi demonstrerer hvordan selv simpel overvågning i nogle tilfælde kan detektere potentiel problematiske ændringer.
OriginalsprogEngelsk
Bevilgende institution
  • Syddansk Universitet
Vejledere/rådgivere
  • Brandslund, Ivan, Hovedvejleder
  • Lohman Brasen, Claus, Bivejleder
  • Röttger, Richard, Bivejleder
Dato for forsvar30. maj 2024
Udgiver
DOI
StatusUdgivet - 16. maj 2024

Note vedr. afhandling

Afhandlingen kan læses på SDUs bibliotek. 

Fingeraftryk

Dyk ned i forskningsemnerne om 'Counteracting Performance Degradation of Artificial Intelligence in Healthcare'. Sammen danner de et unikt fingeraftryk.

Citationsformater