Årets Lasker Basic Medical Research Award ble tildelt Demis Hassabis og John Jumper for deres bidrag til utviklingen av det kunstige intelligenssystemet AlphaFold som forutsier den tredimensjonale strukturen til proteiner basert på førsteordenssekvensen av aminosyrer.
Resultatene deres løser et problem som lenge har plaget det vitenskapelige samfunnet og åpner døren for å akselerere forskningen på tvers av det biomedisinske feltet. Proteiner spiller en sentral rolle i sykdomsutvikling: ved Alzheimers sykdom folder og klumper de seg sammen; ved kreft går deres regulatoriske funksjon tapt; ved medfødte metabolske forstyrrelser er de dysfunksjonelle; ved cystisk fibrose havner de i feil rom i cellen. Dette er bare noen få av de mange mekanismene som forårsaker sykdom. Detaljerte proteinstrukturmodeller kan gi atomkonfigurasjoner, drive design eller valg av molekyler med høy affinitet og akselerere legemiddelutvikling.
Proteinstrukturer bestemmes vanligvis ved hjelp av røntgenkrystallografi, kjernemagnetisk resonans og kryoelektronmikroskopi. Disse metodene er dyre og tidkrevende. Dette resulterer i eksisterende 3D-proteinstrukturdatabaser med bare rundt 200 000 strukturelle data, mens DNA-sekvenseringsteknologi har produsert mer enn 8 millioner proteinsekvenser. På 1960-tallet oppdaget Anfinsen et al. at 1D-sekvensen av aminosyrer spontant og repeterbart kan foldes inn i en funksjonell tredimensjonal konformasjon (figur 1A), og at molekylære «chaperoner» kan akselerere og legge til rette for denne prosessen. Disse observasjonene fører til en 60 år lang utfordring innen molekylærbiologi: å forutsi 3D-strukturen til proteiner fra 1D-sekvensen av aminosyrer. Med suksessen til Human Genome Project har vår evne til å oppnå 1D-aminosyresekvenser blitt betraktelig forbedret, og denne utfordringen har blitt enda mer presserende.
Det er vanskelig å forutsi proteinstrukturer av flere grunner. For det første krever alle mulige tredimensjonale posisjoner for hvert atom i hver aminosyre mye utforskning. For det andre utnytter proteiner komplementaritet i sin kjemiske struktur maksimalt for å effektivt konfigurere atomer. Siden proteiner vanligvis har hundrevis av hydrogenbindings-"donorer" (vanligvis oksygen) som bør være nær hydrogenbindings-"akseptoren" (vanligvis nitrogen bundet til hydrogen), kan det være svært vanskelig å finne konformasjoner der nesten hver donor er nær akseptoren. For det tredje finnes det begrensede eksempler for trening av eksperimentelle metoder, så det er nødvendig å forstå de potensielle tredimensjonale interaksjonene mellom aminosyrer basert på 1D-sekvenser ved å bruke informasjon om utviklingen av de relevante proteinene.
Fysikk ble først brukt til å modellere samspillet mellom atomer i søket etter den beste konformasjonen, og en metode ble utviklet for å forutsi strukturen til proteiner. Karplus, Levitt og Warshel ble tildelt Nobelprisen i kjemi i 2013 for sitt arbeid med beregningssimulering av proteiner. Fysikkbaserte metoder er imidlertid beregningsmessig dyre og krever omtrentlig prosessering, så presise tredimensjonale strukturer kan ikke forutsies. En annen "kunnskapsbasert" tilnærming er å bruke databaser med kjente strukturer og sekvenser for å trene modeller gjennom kunstig intelligens og maskinlæring (AI-ML). Hassabis og Jumper anvender elementer fra både fysikk og AI-ML, men innovasjonen og spranget i ytelse til tilnærmingen stammer hovedsakelig fra AI-ML. De to forskerne kombinerte kreativt store offentlige databaser med industrielle dataressurser for å lage AlphaFold.
Hvordan vet vi at de har «løst» den strukturelle prediksjonsgåten? I 1994 ble konkurransen Critical Assessment of Structure Prediction (CASP) etablert, som møtes annethvert år for å spore fremdriften i strukturell prediksjon. Forskerne vil dele 1D-sekvensen til proteinet hvis struktur de nylig har løst, men hvis resultater ennå ikke er publisert. Prediktoren predikerer den tredimensjonale strukturen ved hjelp av denne 1D-sekvensen, og evaluatoren bedømmer uavhengig kvaliteten på de predikerte resultatene ved å sammenligne dem med den tredimensjonale strukturen som er gitt av eksperimentatoren (kun gitt til evaluatoren). CASP gjennomfører ekte blinde vurderinger og registrerer periodiske ytelseshopp knyttet til metodologisk innovasjon. På den 14. CASP-konferansen i 2020 viste AlphaFolds prediksjonsresultater et slikt sprang i ytelse at arrangørene kunngjorde at 3D-strukturprediksjonsproblemet var løst: nøyaktigheten til de fleste prediksjoner var nær den for eksperimentelle målinger.
Den bredere betydningen er at Hassabis og Jumpers arbeid overbevisende demonstrerer hvordan AI-ML kan transformere vitenskapen. Forskningen deres viser at AI-ML kan bygge komplekse vitenskapelige hypoteser fra flere datakilder, at oppmerksomhetsmekanismer (ligner på de i ChatGPT) kan oppdage viktige avhengigheter og korrelasjoner i datakilder, og at AI-ML kan selvbedømme kvaliteten på resultatene. AI-ML handler i hovedsak om å drive med vitenskap.
Publisert: 23. september 2023




