sidebanner

nyheter

Den store språkmodellen (LLM) kan skrive overbevisende artikler basert på umiddelbare ord, bestå faglige ferdighetseksamener og skrive pasientvennlig og empatisk informasjon. I tillegg til de velkjente risikoene for fiksjon, skjørhet og unøyaktige fakta i LLM, blir imidlertid andre uløste problemer gradvis i fokus, for eksempel AI-modeller som inneholder potensielt diskriminerende «menneskelige verdier» i sin opprettelse og bruk, og selv om LLM ikke lenger fabrikkerer innhold og eliminerer klart skadelige resultater, kan «LLM-verdier» fortsatt avvike fra menneskelige verdier.

 

Utallige eksempler illustrerer hvordan dataene som brukes til å trene AI-modeller koder individuelle og sosiale verdier, som kan forsterkes i modellen. Disse eksemplene involverer en rekke bruksområder, inkludert automatisk tolkning av røntgenbilder av brystet, klassifisering av hudsykdommer og algoritmisk beslutningstaking angående tildeling av medisinske ressurser. Som nevnt i en fersk artikkel i vårt tidsskrift, kan partiske treningsdata forsterke og avsløre verdiene og skjevhetene som finnes i samfunnet. Tvert imot har forskning også vist at AI kan brukes til å redusere skjevheter. For eksempel anvendte forskere dyp læringsmodeller på røntgenbilder av kneet og oppdaget faktorer som ble oversett av standard alvorlighetsindikatorer (gradert av radiologer) i kneleddet, og dermed reduserte uforklarlige smerteforskjeller mellom svarte og hvite pasienter.

Selv om stadig flere innser skjevheten i AI-modeller, spesielt når det gjelder treningsdata, får mange andre inngangspunkter til menneskelige verdier ikke nok oppmerksomhet i utviklings- og utrullingsprosessen av AI-modeller. Medisinsk AI har nylig oppnådd imponerende resultater, men i stor grad har den ikke eksplisitt vurdert menneskelige verdier og deres samspill med risikovurdering og sannsynlighetsbasert resonnement, og den har heller ikke blitt modellert.

 

For å konkretisere disse abstrakte konseptene, tenk deg at du er en endokrinolog som må foreskrive rekombinant humant veksthormon til en 8 år gammel gutt som er under den 3. persentilen av sin alder. Guttens stimulerte humane veksthormonnivå er under 2 ng/ml (referanseverdi >10 ng/ml, referanseverdi for mange land utenfor USA er >7 ng/ml), og hans genet som koder for humant veksthormon har oppdaget sjeldne inaktiveringsmutasjoner. Vi mener at anvendelsen av humant veksthormonbehandling er åpenbar og udiskutabel i denne kliniske settingen.

Bruken av humant veksthormonbehandling i følgende scenarier kan forårsake kontrovers: en 14 år gammel gutts høyde har alltid vært i den 10. persentilen av hans jevnaldrende, og toppen av humant veksthormon etter stimulering er 8 ng/ml. Det finnes ingen kjente funksjonelle mutasjoner som kan påvirke høyden, og heller ikke andre kjente årsaker til kort vekst, og hans beinalder er 15 år gammel (dvs. ingen utviklingsforsinkelse). Bare en del av kontroversen skyldes forskjeller i terskelverdiene bestemt av eksperter basert på dusinvis av studier angående humant veksthormonnivåer brukt for å diagnostisere isolert veksthormonmangel. Minst like mye kontrovers stammer fra risiko-nytte-forholdet ved bruk av humant veksthormonbehandling fra perspektivet til pasienter, pasientforeldre, helsepersonell, farmasøytiske selskaper og betalere. Pediatriske endokrinologer kan veie de sjeldne bivirkningene av daglige injeksjoner av veksthormon i 2 år opp mot sannsynligheten for ingen eller bare minimal vekst i voksen kroppsstørrelse sammenlignet med nåtiden. Gutter kan tro at selv om høyden deres bare øker med 2 cm, er det verdt å injisere veksthormon, men betaleren og farmasøytisk selskap kan ha forskjellige synspunkter.

 

Vi tar kreatininbasert eGFR som et eksempel, som er en mye brukt nyrefunksjonsindikator for diagnostisering og stadieinndeling av kronisk nyresykdom, fastsettelse av betingelser for nyretransplantasjon eller -donasjon, og bestemmelse av reduksjonskriterier og kontraindikasjoner for mange reseptbelagte legemidler. EGFR er en enkel regresjonsligning som brukes til å estimere den målte glomerulære filtrasjonshastigheten (mGFR), som er en referansestandard, men evalueringsmetoden er relativt tungvint. Denne regresjonsligningen kan ikke betraktes som en AI-modell, men den illustrerer mange prinsipper om menneskelige verdier og sannsynlighetsbasert resonnement.

Det første inngangspunktet for menneskelige verdier som skal legges inn i eGFR, er når man velger data for tilpasning av ligninger. Den opprinnelige køen som ble brukt til å utforme eGFR-formelen, består for det meste av svarte og hvite deltakere, og dens anvendelighet på mange andre etniske grupper er ikke klar. De påfølgende inngangspunktene for menneskelige verdier i denne formelen inkluderer: å velge mGFR-nøyaktighet som det primære målet for å evaluere nyrefunksjon, hva som er et akseptabelt nøyaktighetsnivå, hvordan man måler nøyaktighet, og bruk av eGFR som en terskel for å utløse klinisk beslutningstaking (for eksempel å bestemme betingelser for nyretransplantasjon eller foreskrive medisiner). Til slutt, når innholdet i inngangsmodellen velges, vil menneskelige verdier også legges inn i denne formelen.

Før 2021 foreslår for eksempel retningslinjer å justere kreatininnivåene i eGFR-formelen basert på pasientens alder, kjønn og rase (kun klassifisert som svarte eller ikke-svarte individer). Justeringen basert på rase har som mål å forbedre nøyaktigheten til mGFR-formelen, men i 2020 begynte store sykehus å stille spørsmål ved bruken av rasebasert eGFR, med henvisning til årsaker som å forsinke pasientens kvalifisering for transplantasjon og konkretisere rase som et biologisk konsept. Forskning har vist at utforming av eGFR-modeller med tanke på rase kan ha betydelige og varierende innvirkninger på nøyaktighet og kliniske utfall. Derfor gjenspeiler selektivt fokus på nøyaktighet eller fokus på en del av utfallene verdivurderinger og kan maskere transparent beslutningstaking. Til slutt foreslo den nasjonale arbeidsgruppen en ny formel som ble omarbeidet uten å ta hensyn til rase for å balansere ytelses- og rettferdighetsspørsmål. Dette eksemplet illustrerer at selv en enkel klinisk formel har mange inngangsporter til menneskelige verdier.

Lege med virtuell virkelighet på operasjonsstuen på sykehuset. Kirurg analyserer pasientens hjertetestresultat og menneskelig anatomi på teknologisk digitalt futuristisk virtuelt grensesnitt, digital holografisk, innovativt innen vitenskap og medisinkonsept.

Sammenlignet med kliniske formler med bare et lite antall prediktive indikatorer, kan LLM bestå av milliarder til hundrevis av milliarder parametere (modellvekter) eller mer, noe som gjør den vanskelig å forstå. Grunnen til at vi sier «vanskelig å forstå» er at i de fleste LLM-er kan ikke den nøyaktige måten å fremkalle svar på gjennom spørsmål kartlegges. Antall parametere for GPT-4 er ikke kunngjort ennå; forgjengeren GPT-3 hadde 175 milliarder parametere. Flere parametere betyr ikke nødvendigvis sterkere muligheter, ettersom mindre modeller som inkluderer flere beregningssykluser (som LLaMA-modellserien [Large Language Model Meta AI]) eller modeller som er finjustert basert på menneskelig tilbakemelding, vil prestere bedre enn større modeller. For eksempel, ifølge menneskelige vurderere, yter InstrumentGPT-modellen (en modell med 1,3 milliarder parametere) bedre enn GPT-3 når det gjelder å optimalisere modellutdata.

De spesifikke treningsdetaljene for GPT-4 er ikke offentliggjort ennå, men detaljene for tidligere generasjons modeller, inkludert GPT-3, InstrumentGPT og mange andre LLM-er med åpen kildekode, er offentliggjort. I dag kommer mange AI-modeller med modellkort. Evaluerings- og sikkerhetsdataene for GPT-4 er publisert i et lignende systemkort levert av modellutviklingsselskapet OpenAI. Opprettelsen av LLM kan grovt sett deles inn i to faser: den innledende førtreningsfasen og finjusteringsfasen som tar sikte på å optimalisere modellens utdata. I førtreningsfasen får modellen et stort korpus som inkluderer den originale internettteksten for å trene den til å forutsi det neste ordet. Denne tilsynelatende enkle "automatiske fullføringsprosessen" produserer en kraftig grunnleggende modell, men den kan også føre til skadelig atferd. Menneskelige verdier vil gå inn i førtreningsfasen, inkludert valg av førtreningsdata for GPT-4 og beslutning om å fjerne upassende innhold som pornografisk innhold fra førtreningsdataene. Til tross for disse anstrengelsene kan det hende at den grunnleggende modellen fortsatt verken er nyttig eller i stand til å inneholde skadelige utdata. I neste fase av finjustering vil mange nyttige og ufarlige atferder dukke opp.

I finjusteringsfasen endres ofte språkmodellenes oppførsel dyptgående gjennom veiledet finjustering og forsterkningslæring basert på menneskelig tilbakemelding. I den veiledede finjusteringsfasen vil innleide kontraktørpersonell skrive svareksempler for ledetekster og trene modellen direkte. I forsterkningslæringsfasen, basert på menneskelig tilbakemelding, vil menneskelige evaluatorer sortere modellens utdataresultater som eksempler på input-innhold. Deretter bruker de ovennevnte sammenligningsresultatene for å lære "belønningsmodellen" og forbedre modellen ytterligere gjennom forsterkningslæring. Fantastisk menneskelig involvering på lavt nivå kan finjustere disse store modellene. For eksempel brukte InstrumentGPT-modellen et team på omtrent 40 kontraktørpersonell rekruttert fra crowdsourcing-nettsteder og bestod en screeningtest som hadde som mål å velge en gruppe kommentatorer som er følsomme for preferansene til ulike befolkningsgrupper.

Som disse to ekstreme eksemplene, nemlig den enkle kliniske formelen [eGFR] og den kraftige LLM [GPT-4], viser, spiller menneskelig beslutningstaking og menneskelige verdier en uunnværlig rolle i å forme modellens utfall. Kan disse KI-modellene fange opp deres mangfoldige pasient- og legeverdier? Hvordan kan man offentlig veilede anvendelsen av KI i medisin? Som nevnt nedenfor, kan en ny undersøkelse av medisinsk beslutningsanalyse gi en prinsipiell løsning på disse problemstillingene.

 

Medisinsk beslutningsanalyse er ikke kjent for mange klinikere, men den kan skille mellom sannsynlighetsbasert resonnement (for usikre utfall knyttet til beslutningstaking, for eksempel om man skal administrere humant veksthormon i det kontroversielle kliniske scenariet vist i figur 1) og hensynsfaktorer (for subjektive verdier knyttet til disse utfallene, hvis verdi kvantifiseres som "nytte", for eksempel verdien av en 2 cm økning i mannlig høyde), og gi systematiske løsninger for komplekse medisinske beslutninger. I beslutningsanalyse må klinikere først bestemme alle mulige beslutninger og sannsynligheter knyttet til hvert utfall, og deretter innlemme pasientens (eller andre parts) nytte knyttet til hvert utfall for å velge det mest passende alternativet. Derfor avhenger gyldigheten av beslutningsanalysen av om utfallssettingen er omfattende, samt om målingen av nytte og estimeringen av sannsynlighet er nøyaktig. Ideelt sett bidrar denne tilnærmingen til å sikre at beslutninger er evidensbaserte og i tråd med pasientens preferanser, og dermed reduserer gapet mellom objektive data og personlige verdier. Denne metoden ble introdusert i det medisinske feltet for flere tiår siden og anvendt på individuell pasientbeslutningstaking og vurdering av befolkningens helse, for eksempel å gi anbefalinger for screening for kolorektal kreft til den generelle befolkningen.

 

I medisinsk beslutningsanalyse er det utviklet ulike metoder for å oppnå nytteverdi. De fleste tradisjonelle metodene utleder verdi direkte fra individuelle pasienter. Den enkleste metoden er å bruke en vurderingsskala, der pasienter vurderer sitt preferansenivå for et bestemt utfall på en digital skala (for eksempel en lineær skala fra 1 til 10), med de mest ekstreme helseutfallene (som fullstendig helse og død) plassert i begge ender. Tidsutvekslingsmetoden er en annen vanlig brukt metode. I denne metoden må pasientene ta en beslutning om hvor mye sunn tid de er villige til å bruke i bytte mot en periode med dårlig helse. Standard gamblingmetoden er en annen vanlig brukt metode for å bestemme nytteverdi. I denne metoden blir pasientene spurt hvilket av de to alternativene de foretrekker: enten leve et visst antall år med normal helse med en spesifikk sannsynlighet (p) (t), og bære risikoen for død med en 1-p sannsynlighet; enten sørge for å leve i t år under krysshelseforhold. Spør pasientene flere ganger med forskjellige p-verdier til de ikke viser noen preferanse for noe alternativ, slik at nytteverdien kan beregnes basert på pasientsvar.
I tillegg til metoder som brukes for å avdekke individuelle pasientpreferanser, er det også utviklet metoder for å oppnå nytteverdi for pasientpopulasjonen. Spesielt fokusgruppediskusjoner (som bringer pasienter sammen for å diskutere spesifikke erfaringer) kan bidra til å forstå deres perspektiver. For å effektivt samle gruppenytten, er det foreslått ulike strukturerte gruppediskusjonsteknikker.
I praksis er direkte introduksjon av nytteverdi i den kliniske diagnose- og behandlingsprosessen svært tidkrevende. Som en løsning distribueres spørreskjemaer vanligvis til tilfeldig utvalgte populasjoner for å få nytteverdier på populasjonsnivå. Noen eksempler inkluderer det 5-dimensjonale spørreskjemaet EuroQol, det 6-dimensjonale nyttevekt-kortformularet, Health Nytte Index og det kreftspesifikke europeiske kreftforsknings- og behandlingsorganisasjonens livskvalitetsspørreskjema Core 30.


Publisert: 01.06.2024