Wu Enhui, Qiao Liang*
Institutt for kjemi, Fudan University, Shanghai 200433, Kina
Mikroorganismer er nært knyttet til menneskers sykdommer og helse. Hvordan man skal forstå sammensetningen av mikrobielle samfunn og deres funksjoner er et stort spørsmål som må studeres snarest. De siste årene har metaproteomikk blitt et viktig teknisk middel for å studere sammensetningen og funksjonen til mikroorganismer. På grunn av kompleksiteten og den høye heterogeniteten til mikrobielle fellesskapsprøver, har imidlertid prøvebehandling, massespektrometridatainnsamling og dataanalyse blitt de tre store utfordringene metaproteomikk står overfor. I metaproteomikkanalyse er det ofte nødvendig å optimalisere forbehandlingen av forskjellige typer prøver og ta i bruk forskjellige mikrobielle separasjons-, anriknings-, ekstraksjons- og lyseringsskjemaer. I likhet med proteomet til en enkelt art, inkluderer massespektrometridatainnsamlingsmodusene i metaproteomikk dataavhengig innsamlingsmodus (DDA) og datauavhengig innsamlingsmodus (DIA). DIA-datainnsamlingsmodusen kan fullstendig samle peptidinformasjonen til prøven og har stort utviklingspotensial. På grunn av kompleksiteten til metaproteomprøver, har imidlertid DIA-dataanalysen blitt et stort problem som hindrer den dype dekningen av metaproteomikk. Når det gjelder dataanalyse, er det viktigste trinnet konstruksjonen av en proteinsekvensdatabase. Databasens størrelse og fullstendighet har ikke bare stor betydning for antall identifiseringer, men påvirker også analysen på arts- og funksjonsnivå. For tiden er gullstandarden for konstruksjon av en metaproteomdatabase en proteinsekvensdatabase basert på metagenomet. Samtidig har den offentlige databasefiltreringsmetoden basert på iterativt søk også vist seg å ha sterk praktisk verdi. Fra perspektivet til spesifikke dataanalysestrategier har peptidsentrerte DIA-dataanalysemetoder okkupert en absolutt mainstream. Med utviklingen av dyp læring og kunstig intelligens, vil det i stor grad fremme nøyaktigheten, dekningen og analysehastigheten til makroproteomisk dataanalyse. Når det gjelder nedstrøms bioinformatikkanalyse, er det de siste årene utviklet en rekke annoteringsverktøy som kan utføre artsannotering på proteinnivå, peptidnivå og gennivå for å oppnå sammensetningen av mikrobielle samfunn. Sammenlignet med andre omics-metoder, er funksjonsanalysen av mikrobielle samfunn et unikt trekk ved makroproteomikk. Makroproteomikk har blitt en viktig del av multi-omics-analyse av mikrobielle samfunn, og har fortsatt et stort utviklingspotensial når det gjelder dekningsdybde, deteksjonssensitivitet og fullstendighet av dataanalyse.
01 Prøve forbehandling
For tiden har metaproteomikkteknologi blitt mye brukt i forskning på menneskelig mikrobiom, jord, mat, hav, aktivt slam og andre felt. Sammenlignet med proteomanalysen av en enkelt art, står prøveforbehandlingen av metaproteom av komplekse prøver overfor flere utfordringer. Den mikrobielle sammensetningen i faktiske prøver er kompleks, det dynamiske omfanget av overflod er stort, celleveggstrukturen til forskjellige typer mikroorganismer er svært forskjellig, og prøvene inneholder ofte en stor mengde vertsproteiner og andre urenheter. Derfor, i analysen av metaproteom, er det ofte nødvendig å optimalisere forskjellige typer prøver og ta i bruk forskjellige mikrobielle separasjons-, anriknings-, ekstraksjons- og lyseringsskjemaer.
Ekstraksjon av mikrobielle metaproteomer fra forskjellige prøver har visse likheter, så vel som noen forskjeller, men for tiden mangler det en enhetlig forbehandlingsprosess for forskjellige typer metaproteomprøver.
02Massespektrometri datainnsamling
Ved hagleproteomanalyse separeres peptidblandingen etter forbehandling først i den kromatografiske kolonnen, og går deretter inn i massespektrometeret for datainnsamling etter ionisering. I likhet med enkeltartsproteomanalyse inkluderer massespektrometridatainnsamlingsmodusene i makroproteomanalyse DDA-modus og DIA-modus.
Med kontinuerlig iterasjon og oppdatering av massespektrometriinstrumenter, brukes massespektrometriinstrumenter med høyere følsomhet og oppløsning på metaproteom, og dekningsdybden til metaproteomanalyse forbedres også kontinuerlig. I lang tid har en serie høyoppløselige massespektrometriinstrumenter ledet av Orbitrap vært mye brukt i metaproteomer.
Tabell 1 i originalteksten viser noen representative studier om metaproteomikk fra 2011 til i dag når det gjelder prøvetype, analysestrategi, massespektrometriinstrument, innsamlingsmetode, analyseprogramvare og antall identifiseringer.
03 Massespektrometridataanalyse
3.1 DDA dataanalysestrategi
3.1.1 Databasesøk
3.1.2de novosekvenseringsstrategi
3.2 DIA dataanalysestrategi
04Artsklassifisering og funksjonell merknad
Sammensetningen av mikrobielle samfunn på ulike taksonomiske nivåer er et av de sentrale forskningsområdene innen mikrobiomforskning. De siste årene har det blitt utviklet en rekke merknadsverktøy for å kommentere arter på proteinnivå, peptidnivå og gennivå for å oppnå sammensetningen av mikrobielle samfunn.
Essensen av funksjonell merknad er å sammenligne målproteinsekvensen med den funksjonelle proteinsekvensdatabasen. Ved å bruke genfunksjonsdatabaser som GO, COG, KEGG, eggNOG, etc., kan forskjellige funksjonelle annotasjonsanalyser utføres på proteiner identifisert av makroproteomer. Annoteringsverktøy inkluderer Blast2GO, DAVID, KOBAS, etc.
05Sammendrag og Outlook
Mikroorganismer spiller en viktig rolle i menneskers helse og sykdom. De siste årene har metaproteomikk blitt et viktig teknisk middel for å studere funksjonen til mikrobielle samfunn. Den analytiske prosessen med metaproteomikk ligner den for enkeltart-proteomikk, men på grunn av kompleksiteten til forskningsobjektet til metaproteomikk, må spesifikke forskningsstrategier tas i bruk i hvert analysetrinn, fra prøveforbehandling, datainnsamling til dataanalyse. For tiden, takket være forbedringen av forbehandlingsmetoder, den kontinuerlige innovasjonen av massespektrometriteknologi og den raske utviklingen av bioinformatikk, har metaproteomikk gjort store fremskritt i identifiseringsdybde og anvendelsesomfang.
I prosessen med forbehandling av makroproteomprøver, må prøvens art vurderes først. Hvordan skille mikroorganismer fra miljøceller og proteiner er en av hovedutfordringene makroproteomer står overfor, og balansen mellom separasjonseffektivitet og mikrobielt tap er et presserende problem som må løses. For det andre må proteinekstraksjonen av mikroorganismer ta hensyn til forskjellene forårsaket av den strukturelle heterogeniteten til forskjellige bakterier. Makroproteomprøver i sporområdet krever også spesifikke forbehandlingsmetoder.
Når det gjelder massespektrometriinstrumenter, har mainstream massespektrometriinstrumenter gjennomgått en overgang fra massespektrometre basert på Orbitrap masseanalysatorer som LTQ-Orbitrap og Q Exactive til massespektrometre basert på ionemobilitet koblet time-of-flight masseanalysatorer som timsTOF Pro . TimsTOF-serien med instrumenter med informasjon om ionemobilitetsdimensjon har høy deteksjonsnøyaktighet, lav deteksjonsgrense og god repeterbarhet. De har gradvis blitt viktige instrumenter innen en rekke forskningsfelt som krever massespektrometrideteksjon, slik som proteomet, metaproteomet og metabolomet til en enkelt art. Det er verdt å merke seg at det dynamiske området av massespektrometriinstrumenter i lang tid har begrenset proteindekningsdybden til metaproteomforskning. I fremtiden kan massespektrometriinstrumenter med et større dynamisk område forbedre følsomheten og nøyaktigheten av proteinidentifikasjon i metaproteomer.
For massespektrometridatainnsamling, selv om DIA-datainnsamlingsmodusen har blitt bredt tatt i bruk i proteomet til en enkelt art, bruker de fleste nåværende makroproteomanalyser fortsatt DDA-datainnsamlingsmodusen. DIA-datainnsamlingsmodusen kan fullt ut skaffe fragmentioninformasjonen til prøven, og sammenlignet med DDA-datainnsamlingsmodusen har den potensialet til å fullt ut skaffe peptidinformasjonen til makroproteomprøven. Imidlertid, på grunn av den høye kompleksiteten til DIA-data, står analysen av DIA-makroproteomdata fortsatt overfor store vanskeligheter. Utviklingen av kunstig intelligens og dyp læring forventes å forbedre nøyaktigheten og fullstendigheten til DIA-dataanalyse.
I dataanalysen av metaproteomikk er et av nøkkeltrinnene konstruksjonen av proteinsekvensdatabasen. For populære forskningsområder som tarmflora kan tarmmikrobielle databaser som IGC og HMP brukes, og gode identifiseringsresultater er oppnådd. For de fleste andre metaproteomiske analyser er den mest effektive databasekonstruksjonsstrategien fortsatt å etablere en prøvespesifikk proteinsekvensdatabase basert på metagenomiske sekvenseringsdata. For mikrobielle samfunnsprøver med høy kompleksitet og stort dynamisk område, er det nødvendig å øke sekvenseringsdybden for å øke identifiseringen av arter med lav overflod, og dermed forbedre dekningen av proteinsekvensdatabasen. Når sekvenseringsdata mangler, kan en iterativ søkemetode brukes for å optimalisere den offentlige databasen. Iterativt søk kan imidlertid påvirke FDR-kvalitetskontrollen, så søkeresultatene må kontrolleres nøye. I tillegg er anvendeligheten av tradisjonelle FDR kvalitetskontrollmodeller i metaproteomikkanalyse fortsatt verdt å utforske. Når det gjelder søkestrategi, kan den hybride spektrale bibliotekstrategien forbedre dekningsdybden til DIA-metaproteomikk. De siste årene har det forutsagte spektralbiblioteket generert basert på dyp læring vist overlegen ytelse i DIA-proteomikk. Imidlertid inneholder metaproteomdatabaser ofte millioner av proteinoppføringer, noe som resulterer i en stor skala av forutsagte spektralbiblioteker, bruker mye dataressurser og resulterer i et stort søkerom. I tillegg varierer likheten mellom proteinsekvenser i metaproteomer sterkt, noe som gjør det vanskelig å sikre nøyaktigheten til prediksjonsmodellen for spektralbiblioteket, så predikerte spektralbiblioteker har ikke blitt mye brukt i metaproteomikk. I tillegg må nye proteininferens- og klassifiseringsannoteringsstrategier utvikles for å gjelde metaproteomikkanalyse av svært sekvenslignende proteiner.
Oppsummert, som en fremvoksende mikrobiomforskningsteknologi, har metaproteomikkteknologi oppnådd betydelige forskningsresultater og har også et stort utviklingspotensial.
Innleggstid: 30. august 2024