Siden IBM Watson startet i 2007, har mennesker kontinuerlig arbeidet med utviklingen av medisinsk kunstig intelligens (KI). Et brukbart og kraftig medisinsk KI-system har et enormt potensial til å omforme alle aspekter av moderne medisin, muliggjøre smartere, mer nøyaktig, effektiv og inkluderende behandling, bringe velvære til helsearbeidere og pasienter, og dermed forbedre menneskers helse betraktelig. I løpet av de siste 16 årene, selv om forskere på medisinsk KI har samlet seg innen ulike små felt, har de på dette stadiet ennå ikke vært i stand til å bringe science fiction til virkelighet.
I år, med den revolusjonerende utviklingen av AI-teknologi som ChatGPT, har medisinsk AI gjort store fremskritt på mange områder. Enestående gjennombrudd i medisinsk AIs muligheter: Nature journal har kontinuerlig lansert forskning på medisinske store språkmodeller og medisinske bilder som basismodeller; Google lanserer Med-PaLM og dens etterfølger, og når et ekspertnivå i spørsmålene til amerikanske legeeksamener. Store akademiske tidsskrifter vil fokusere på medisinsk AI: Nature lanserer utsiktene for basismodellen for generell medisinsk AI; Etter en rekke anmeldelser av AI i medisin tidligere i år, publiserte New England Journal of Medicine (NEJM) sin første digitale helseoversikt 30. november, og lanserte den første utgaven av NEJM-undertidsskriftet NEJM AI 12. desember. Landingsbanen for medisinsk AI er ytterligere moden: JAMA-undertidsskriftet publiserte det globale initiativet for deling av medisinske bilder; Det amerikanske mat- og legemiddeltilsynet (FDA) utvikler utkast til retningslinjer for regulering av medisinsk AI.
Nedenfor gjennomgår vi de betydelige fremskrittene som forskere over hele verden har gjort i retning av brukbar medisinsk AI i 2023.
Medisinsk AI grunnleggende modell
Konstruksjonen av medisinsk AI-grunnmodell er utvilsomt årets heteste forskningsfokus. Nature-tidsskriftene har publisert oversiktsartikler om den universelle grunnleggende modellen for helsevesenet og den store språkmodellen for helsevesenet i løpet av året. Medical Image Analysis, det ledende tidsskriftet i bransjen, gjennomgikk og så frem til utfordringene og mulighetene innen grunnleggende modellforskning innen medisinsk bildeanalyse, og foreslo konseptet «stamtavle for grunnleggende modell» for å oppsummere og veilede utviklingen av grunnleggende modellforskning av medisinsk AI. Fremtiden for grunnleggende AI-modeller for helsevesenet blir stadig klarere. Ved å bruke vellykkede eksempler på store språkmodeller som ChatGPT, ved å bruke mer avanserte selvovervåkede forhåndstreningsmetoder og enorm akkumulering av treningsdata, prøver forskere innen medisinsk AI å bygge 1) sykdomsspesifikke basismodeller, 2) generelle basismodeller og 3) multimodale store modeller som integrerer et bredt spekter av moduser med massive parametere og overlegne egenskaper.
Medisinsk datainnsamling AI-modell
I tillegg til de store AI-modellene som spiller en stor rolle i nedstrøms kliniske dataanalyseoppgaver, har teknologien representert av generative AI-modeller også dukket opp i oppstrøms klinisk datainnsamling. Prosessen, hastigheten og kvaliteten på datainnsamlingen kan forbedres betydelig med AI-algoritmer.
Tidligere i år publiserte Nature Biomedical Engineering en studie fra Tyrkias Straits University som fokuserte på bruk av generativ AI for å løse problemet med patologisk bildeassistert diagnose i kliniske applikasjoner. Artefakter i frossent vev under kirurgi er et hinder for rask diagnostisk evaluering. Selv om formalin- og parafininnstøpt (FFPE) vev gir en prøve av høyere kvalitet, er produksjonsprosessen tidkrevende og tar ofte 12–48 timer, noe som gjør den uegnet for bruk i kirurgi. Forskerteamet foreslo derfor en algoritme kalt AI-FFPE, som kan gjøre at vevet i det frosne snittet ser ut som FFPE. Algoritmen korrigerte artefaktene i frosne snitt, forbedret bildekvaliteten og beholdt samtidig de klinisk relevante egenskapene. I klinisk validering forbedrer AI-FFPE-algoritmen patologenes diagnostiske nøyaktighet for tumorsubtyper betydelig, samtidig som den forkorter den kliniske diagnosetiden betraktelig.
Cell Reports Medicine rapporterer et forskningsarbeid utført av et team fra Jilin Universitys tredje kliniske fakultet, Institutt for radiologi, Zhongshan sykehus tilknyttet Fudan University, og Shanghai University of Science and Technology [25]. Denne studien foreslår et generell rammeverk for dyp læring og iterativ rekonstruksjon (Hybrid DL-IR) med høy allsidighet og fleksibilitet, som viser utmerket ytelse for bilderekonstruksjon i rask MR, lavdose-CT og rask PET. Algoritmen kan oppnå MR-skanning av ett organ med flere sekvenser på 100 sekunder, redusere strålingsdosen til bare 10 % av CT-bildet, eliminere støy, og kan rekonstruere små lesjoner fra PET-opptak med 2 til 4 ganger akselerasjon, samtidig som effekten av bevegelsesartefakter reduseres.
Medisinsk AI i samarbeid med helsearbeidere
Den raske utviklingen av medisinsk AI har også ført til at medisinske fagfolk seriøst vurderer og utforsker hvordan man kan samarbeide med AI for å forbedre kliniske prosesser. I juli i år foreslo DeepMind og et tverrinstitusjonelt forskerteam i fellesskap et AI-system kalt Complementary Driven Clinical Workflow Delay (CoDoC). Diagnostikkprosessen diagnostiseres først av et prediktivt AI-system, deretter vurderes det av et annet AI-system basert på det forrige resultatet, og hvis det er tvil, stilles diagnosen til slutt av en kliniker for å forbedre diagnostisk nøyaktighet og balansere effektiviteten. Når det gjelder screening for brystkreft, reduserte CoDoC falske positive rater med 25 % med samme falske negative rate, samtidig som det reduserte klinikernes arbeidsmengde med 66 %, sammenlignet med den nåværende «dobbeltlesningsvoldgiftsprosessen» i Storbritannia. Når det gjelder TB-klassifisering, ble falske positive rater redusert med 5 til 15 prosent med samme falske negative rate sammenlignet med uavhengig AI og kliniske arbeidsflyter.
På samme måte introduserte Annie Y. Ng et al. fra Kheiron Company i London, Storbritannia, ekstra AI-lesere (i samarbeid med menneskelige undersøkere) for å undersøke resultatene på nytt når det ikke fantes tilbakekallingsresultater i dobbeltlesingsvoldgiftsprosessen, noe som forbedret problemet med manglende deteksjon ved tidlig screening for brystkreft, og prosessen hadde nesten ingen falske positiver. En annen studie, ledet av et team ved University of Texas McGovern Medical School og gjennomført ved fire slagsentre, anvendte AI-teknologi basert på computertomografiangiografi (CTA) for å automatisere deteksjonen av store vaskulære okklusive iskemiske hjerneslag (LVO). Klinikere og radiologer mottar sanntidsvarsler på mobiltelefonene sine innen få minutter etter at CT-avbildningen er fullført, og varsler dem om mulig tilstedeværelse av LVO. Denne AI-prosessen forbedrer arbeidsflytene på sykehuset for akutt iskemisk hjerneslag, reduserer tiden fra dør til lyske fra innleggelse til behandling og gir muligheter for vellykket redning. Funnene er publisert i JAMA Neurology.
En AI-helsemodell for universell nytte
2023 vil også innebære mye godt arbeid som bruker medisinsk AI til å finne funksjoner som er usynlige for det menneskelige øyet fra mer tilgjengelige data, noe som muliggjør universell diagnose og tidlig screening i stor skala. I begynnelsen av året publiserte Nature Medicine studier utført av Zhongshan Eye Center ved Sun Yat-sen University og Second Affiliated Hospital ved Fujian Medical University. Ved å bruke smarttelefoner som applikasjonsterminaler brukte de tegneserielignende videobilder for å indusere barns blikk og registrere barns blikkatferd og ansiktstrekk, og analyserte videre unormale modeller ved hjelp av dyp læringsmodeller for å identifisere 16 øyesykdommer, inkludert medfødt grå stær, medfødt ptose og medfødt glaukom, med en gjennomsnittlig screeningsnøyaktighet på mer enn 85 %. Dette gir effektive og enkle å popularisere tekniske midler for storskala tidlig screening av synsnedsettelser hos spedbarn og relaterte øyesykdommer.
Ved årets slutt rapporterte Nature Medicine om arbeid utført av mer enn 10 medisinske og forskningsinstitusjoner rundt om i verden, inkludert Shanghai Institute of Pancreatic Disease og First Affiliated Hospital of Zhejiang University. Forfatteren anvendte kunstig intelligens til screening av bukspyttkjertelkreft hos asymptomatiske personer på fysiske undersøkelsessentre, sykehus osv., for å oppdage lesjonstrekk i vanlige CT-bilder som er vanskelige å oppdage med det blotte øye alene, for å oppnå effektiv og ikke-invasiv tidlig deteksjon av bukspyttkjertelkreft. Ved gjennomgang av data fra mer enn 20 000 pasienter identifiserte modellen også 31 tilfeller av klinisk oversett lesjoner, noe som forbedret de kliniske resultatene betydelig.
Deling av medisinske data
I 2023 har det dukket opp mange flere perfekte datadelingsmekanismer og vellykkede tilfeller rundt om i verden, noe som sikrer samarbeid på tvers av flere sentre og åpenhet om data under forutsetningen om å beskytte datapersonvern og -sikkerhet.
For det første har AI-forskere, ved hjelp av selve AI-teknologien, bidratt til deling av medisinske data. Qi Chang og andre fra Rutgers University i USA publiserte en artikkel i Nature Communications, der de foreslår et føderalt læringsrammeverk, DSL, basert på distribuerte syntetiske, kontradiktoriske nettverk, som bruker generativ AI til å trene de spesifikke genererte dataene fra multisentre, og deretter erstatter de reelle dataene fra multisentrene med de genererte dataene. Sikre AI-opplæring basert på stordata fra flere sentre, samtidig som datapersonvernet beskyttes. Det samme teamet åpner også kildekode for et datasett med genererte patologiske bilder og tilhørende annoteringer. Segmenteringsmodellen som er trent på det genererte datasettet, kan oppnå lignende resultater som de reelle dataene.
Teamet til Dai Qionghai fra Tsinghua University publiserte en artikkel om npj Digital Health, der de foreslo Relay Learning, som bruker stordata fra flere steder for å trene AI-modeller under forutsetningen om lokal datasuverenitet og ingen nettverkstilkobling på tvers av steder. Den balanserer datasikkerhet og personvernhensyn med jakten på AI-ytelse. Det samme teamet utviklet og validerte deretter i fellesskap CAIMEN, et system for diagnose av pan-mediastinale svulster med CT-skanning av brystet basert på føderal læring, i samarbeid med First Affiliated Hospital of Guangzhou Medical University og 24 sykehus over hele landet. Systemet, som kan brukes på 12 vanlige mediastinale svulster, oppnådde 44,9 prosent bedre nøyaktighet når det ble brukt alene enn når det ble brukt av bare menneskelige eksperter, og 19 prosent bedre diagnosenøyaktighet når menneskelige eksperter ble assistert av det.
På den annen side er det flere initiativer i gang for å bygge sikre, globale, storskala medisinske datasett. I november 2023 publiserte Agustina Saenz og andre fra Institutt for biomedisinsk informatikk ved Harvard Medical School et globalt rammeverk for deling av medisinske bildedata kalt Artificial Intelligence Data for All Healthcare (MAIDA) på nett i Lancet Digital Health. De samarbeider med helseorganisasjoner over hele verden for å gi omfattende veiledning om datainnsamling og avidentifikasjon, ved å bruke malen US Federal Demonstration Partner (FDP) for å standardisere datadeling. De planlegger å gradvis gi ut datasett samlet inn i forskjellige regioner og kliniske miljøer rundt om i verden. Det første datasettet forventes å bli utgitt tidlig i 2024, med flere som kommer etter hvert som partnerskapet utvides. Prosjektet er et viktig forsøk på å bygge et globalt, storskala og mangfoldig sett med offentlig tilgjengelige AI-data.
I kjølvannet av forslaget har UK Biobank satt et eksempel. UK Biobank publiserte nye data 30. november fra helgenomsekvenseringen av sine 500 000 deltakere. Databasen, som publiserer den komplette genomsekvensen til hver av de 500 000 britiske frivillige, er den største komplette databasen for det menneskelige genomet i verden. Forskere over hele verden kan be om tilgang til disse avidentifiserte dataene og bruke dem til å undersøke det genetiske grunnlaget for helse og sykdom. Genetiske data har alltid vært svært sensitive for verifisering tidligere, og denne historiske bragden til UK Biobank beviser at det er mulig å bygge en åpen, personvernfri global storskala database. Med denne teknologien og databasen er medisinsk AI bundet til å innlede det neste spranget.
Verifisering og evaluering av medisinsk AI
Sammenlignet med den raske utviklingen av medisinsk AI-teknologi i seg selv, går utviklingen av verifisering og evaluering av medisinsk AI noe treg. Validering og evaluering innen det generelle AI-feltet ignorerer ofte de reelle kravene til AI hos klinikere og pasienter. Tradisjonelle randomiserte kontrollerte kliniske studier er for arbeidskrevende til å matche den raske iterasjonen av AI-verktøy. Å forbedre verifiserings- og evalueringssystemet som er egnet for medisinske AI-verktøy så snart som mulig, er det viktigste for å fremme medisinsk AI for virkelig å ta et sprang fra forskning og utvikling til klinisk landing.
I Googles forskningsartikkel om Med-PaLM, publisert i Nature, publiserte teamet også evalueringsbenchmarken MultiMedQA, som brukes til å vurdere store språkmodellers evne til å tilegne seg klinisk kunnskap. Benchmarken kombinerer seks eksisterende profesjonelle medisinske spørsmål og svar-datasett, som dekker profesjonell medisinsk kunnskap, forskning og andre aspekter, samt et online søkedatabase med medisinske spørsmål, som tar hensyn til online spørsmål og svar mellom lege og pasient, og prøver å trene AI til en kvalifisert lege fra mange aspekter. I tillegg foreslår teamet et rammeverk basert på menneskelig vurdering som tar hensyn til flere dimensjoner av fakta, forståelse, resonnement og mulig skjevhet. Dette er en av de mest representative forskningsinnsatsene for å evaluere AI i helsevesenet som er publisert i år.
Men betyr det faktum at store språkmodeller viser et høyt nivå av koding av klinisk kunnskap at store språkmodeller er kompetente for kliniske oppgaver i den virkelige verden? Akkurat som en medisinstudent som består legeeksamen med perfekt poengsum fortsatt er langt fra å bli en solooverlege, er kanskje ikke evalueringskriteriene som Google foreslår et perfekt svar på temaet medisinsk AI-evaluering for AI-modeller. Allerede i 2021 og 2022 har forskere foreslått rapporteringsretningslinjer som Decid-AI, SPIRIT-AI og INTRPRT, i håp om å veilede tidlig utvikling og validering av medisinsk AI under forutsetning av å vurdere faktorer som klinisk praktisk anvendelighet, sikkerhet, menneskelige faktorer og åpenhet/tolkbarhet. Nylig publiserte tidsskriftet Nature Medicine en studie av forskere fra Oxford University og Stanford University om hvorvidt man skal bruke «ekstern validering» eller «gjentakende lokal validering» for å validere AI-verktøy.
Den objektive naturen til AI-verktøy er også en viktig evalueringsretning som har fått oppmerksomhet i år fra både Science- og NEJM-artikler. AI viser ofte skjevhet fordi den er begrenset til treningsdata. Denne skjevheten kan gjenspeile sosial ulikhet, som videre utvikler seg til algoritmisk diskriminering. National Institutes of Health lanserte nylig Bridge2AI-initiativet, som er anslått å koste 130 millioner dollar, for å bygge mangfoldige datasett (i tråd med målene for MAIDA-initiativet nevnt ovenfor) som kan brukes til å validere objektiviteten til medisinske AI-verktøy. Disse aspektene vurderes ikke av MultiMedQA. Spørsmålet om hvordan man måler og validerer medisinske AI-modeller trenger fortsatt omfattende og dyptgående diskusjon.
I januar publiserte Nature Medicine en kronikk kalt «The Next Generation of Evidence-Based Medicine» av Vivek Subbiah fra University of Texas MD Anderson Cancer Center, som gjennomgikk begrensningene ved kliniske studier som ble avdekket i sammenheng med COVID-19-pandemien og påpekte motsetningen mellom innovasjon og overholdelse av den kliniske forskningsprosessen. Til slutt peker den på en fremtid med omstrukturering av kliniske studier – neste generasjon kliniske studier som bruker kunstig intelligens, det vil si bruk av kunstig intelligens fra et stort antall historiske forskningsdata, data fra den virkelige verden, multimodale kliniske data og data fra bærbare enheter for å finne viktige bevis. Betyr dette at AI-teknologi og kliniske valideringsprosesser for AI kan gjensidig forsterke og utvikle seg samtidig i fremtiden? Dette er det åpne og tankevekkende spørsmålet i 2023.
Regulering av medisinsk AI
Utviklingen av AI-teknologi skaper også utfordringer for reguleringen av AI, og beslutningstakere over hele verden reagerer nøye og nøye. I 2019 publiserte FDA for første gang et forslag til regelverk for programvareendringer for medisinske enheter med kunstig intelligens (diskusjonsutkast), som beskriver den potensielle tilnærmingen til førmarkedsgjennomgang av AI- og maskinlæringsdrevne programvaremodifikasjoner. I 2021 foreslo FDA «Kunstig intelligens/maskinlæringsbasert programvare som en handlingsplan for medisinsk utstyr», som klargjorde fem spesifikke medisinske regulatoriske tiltak for AI. I år publiserte FDA på nytt førmarkedsinnsending for enhetsprogramvarefunksjoner for å gi informasjon om anbefalinger for førmarkedsinnsending for FDAs evaluering av sikkerheten og effekten av enhetsprogramvarefunksjoner, inkludert noen programvarefunksjoner som bruker maskinlæringsmodeller trent gjennom maskinlæringsmetoder. FDAs regulatoriske policy har utviklet seg fra et innledende forslag til praktisk veiledning.
Etter publiseringen av det europeiske helsedataområdet i juli i fjor, har EU nok en gang vedtatt loven om kunstig intelligens (AI). Førstnevnte har som mål å utnytte helsedata best mulig for å tilby helsetjenester av høy kvalitet, redusere ulikheter og støtte data for forebygging, diagnose, behandling, vitenskapelig innovasjon, beslutningstaking og lovgivning, samtidig som det sikres at EU-borgere har større kontroll over sine personlige helsedata. Sistnevnte gjør det klart at det medisinske diagnosesystemet er et AI-system med høy risiko, og det må iverksette målrettet sterkt tilsyn, livssyklustilsyn og tilsyn før evaluering. Det europeiske legemiddelkontoret (EMA) har publisert et utkast til refleksjonsnotat om bruk av AI for å støtte legemiddelutvikling, regulering og bruk, med vekt på å forbedre troverdigheten til AI for å sikre pasientsikkerhet og integriteten til kliniske forskningsresultater. Samlet sett tar EUs regulatoriske tilnærming gradvis form, og de endelige implementeringsdetaljene kan bli mer detaljerte og strenge. I sterk kontrast til EUs strenge regulering, gjør Storbritannias AI-regulatoriske blåkopi det klart at regjeringen planlegger å ha en myk tilnærming og ikke vedta nye lovforslag eller opprette nye regulatorer foreløpig.
I Kina har Medical Device Technical Review Center (NMPA) i National Medical Products Administration tidligere utstedt dokumenter som «Review Points of Deep Learning Assisted Decision Software», «Guiding Principles for the Registration Review of Artificial Intelligence Medical Devices (Draft for Comment)» og «Circular on Guiding Principles for the Classification and Definition of Artificial Intelligence Medical Software Products (nr. 47 i 2021)». I år ble «Sammendrag av de første resultatene av klassifiseringen av medisinsk utstyrsprodukter i 2023» utgitt igjen. Denne dokumentserien gjør definisjonen, klassifiseringen og reguleringen av medisinsk programvare for kunstig intelligens tydeligere og enklere å bruke, og gir tydelig veiledning for produktposisjonering og registreringsstrategier for ulike bedrifter i bransjen. Disse dokumentene gir et rammeverk og ledelsesbeslutninger for den vitenskapelige reguleringen av medisinsk utstyr for kunstig intelligens. Det er verdt å se frem til at agendaen for China Medical Artificial Intelligence Conference, som ble holdt i Hangzhou fra 21. til 23. desember, opprettet et spesielt forum om digital medisinsk styring og utvikling av høy kvalitet på offentlige sykehus, samt et forum for standardisering av industrien innen testing og evaluering av medisinsk utstyr for kunstig intelligens. Da vil tjenestemenn fra National Development and Reform Commission og NMPA delta på møtet og kan gi ut ny informasjon.
Konklusjon
I 2023 har medisinsk AI begynt å integreres i hele den medisinske oppstrøms- og nedstrømsprosessen, som dekker sykehusdatainnsamling, fusjon, analyse, diagnose og behandling, samt screening i lokalsamfunnet, og organisk samarbeid med medisinske/sykdomskontrollarbeidere, noe som viser potensialet til å bringe velvære til menneskers helse. Brukbar medisinsk AI-forskning begynner å demre. I fremtiden avhenger ikke fremgangen til medisinsk AI bare av selve den teknologiske utviklingen, men trenger også fullt samarbeid fra industri, universiteter og medisinsk forskning og støtte fra beslutningstakere og regulatorer. Dette tverrfaglige samarbeidet er nøkkelen til å oppnå AI-integrerte medisinske tjenester, og vil garantert fremme utviklingen av menneskers helse.
Publisert: 30. desember 2023




