Maschinelles Lernen zeigt einen begrenzten Beitrag von Trans

Blog

HeimHeim / Blog / Maschinelles Lernen zeigt einen begrenzten Beitrag von Trans

Sep 19, 2023

Maschinelles Lernen zeigt einen begrenzten Beitrag von Trans

Band Kommunikationsbiologie

Communications Biology Band 6, Artikelnummer: 442 (2023) Diesen Artikel zitieren

1475 Zugriffe

5 Altmetrisch

Details zu den Metriken

Die Präsentation des humanen Leukozytenantigens (HLA) der Klasse II ist für die Kontrolle und Auslösung von T-Zell-Immunantworten von entscheidender Bedeutung. HLA-DQ-Moleküle, von denen angenommen wird, dass sie eine wichtige Rolle bei Autoimmunerkrankungen spielen, sind Heterodimere, die sowohl als cis- als auch als trans-Variante gebildet werden können, je nachdem, ob die α- und β-Ketten auf derselben (cis) oder entgegengesetzten kodiert sind ( trans) Chromosomen. Bisher wurden nur begrenzte Fortschritte bei der Vorhersage der HLA-DQ-Antigenpräsentation erzielt. Darüber hinaus bleibt der Beitrag von trans-only-Varianten (dh Varianten, die in der Population nicht als cis beobachtet werden) zur Gestaltung des HLA-DQ-Immunpeptidoms weitgehend ungeklärt. Hier versuchen wir, diese Probleme anzugehen, indem wir modernste immuninformatische Data-Mining-Modelle mit großen Mengen hochwertiger HLA-DQ-spezifischer Massenspektrometrie-Immunpeptidomics-Daten integrieren. Die Analyse zeigt eine deutlich verbesserte Vorhersagekraft und molekulare Abdeckung für Modelle, die mit diesen neuartigen HLA-DQ-Daten trainiert wurden. Noch wichtiger ist, dass die Untersuchung der Rolle von trans-only HLA-DQ-Varianten einen begrenzten bis keinen Beitrag zum gesamten HLA-DQ-Immunpeptidom zeigt. Zusammenfassend erweitert diese Studie unser Verständnis der HLA-DQ-Spezifitäten und wirft Licht auf die relative Rolle von cis- gegenüber reinen trans-HLA-DQ-Varianten im HLA-Klasse-II-Antigenpräsentationsraum. Die entwickelte Methode NetMHCIIpan-4.2 ist unter https://services.healthtech.dtu.dk/services/NetMHCIIpan-4.2 verfügbar.

Wichtige Moleküle des Histokompatibilitätskomplexes der Klasse II (MHC-Klasse II) werden auf der Oberfläche professioneller Antigen-präsentierender Zellen wie B-Zellen, dendritischen Zellen (DCs) und Monozyten/Makrophagen1 exprimiert. Diese Moleküle, die Fragmente der exogenen Proteine ​​binden und T-Helferzellen präsentieren sollen, sind Heterodimere, die aus α- und β-Ketten bestehen, die zusammen die Peptidbindungsspalte bilden.

Beim Menschen wird HLA (humanes Leukozytenantigen) der Klasse II durch drei verschiedene Loci (HLA-DR, -DQ und -DP) kodiert. Diese HLA-Gene weisen zahlreiche Allelvarianten mit Polymorphismen auf, die hauptsächlich um die Peptidbindungsfurche gruppiert sind, was zu einem breiten Spektrum unterschiedlicher Peptidbindungsspezifitäten führt2. Bei vielen Autoimmunerkrankungen sind HLA-Klasse-II-Gene wichtige genetische Suszeptibilitätsfaktoren1,3, die eine zentrale Rolle bei der Pathogenese dieser Erkrankungen spielen, indem sie CD4+-T-Zellen antigene Peptide präsentieren.

Mehrere Studien haben die Bedeutung von HLA-DR und DQ auf Haplotyp- und Genotypebene bei Patienten mit Typ-1-Diabetes (T1D) untersucht3. Diese genetischen und funktionellen Studien haben gezeigt, dass sowohl HLA-DR- als auch DQ-Allele mit dem Risiko von T1D3,4 verbunden sind. Darüber hinaus weisen die zugehörigen DR-DQ-Haplotypen eine Risikohierarchie auf, die von stark prädisponierend bis stark protektiv reicht4. Interessanterweise wurde kürzlich gezeigt, dass HLA-DR, das im Allgemeinen die primäre Rolle bei Autoimmunerkrankungen spielt, eine wichtige, aber untergeordnete Rolle gegenüber dem HLA-DQ-Locus in T1D5 spielt.

Autoimmunerkrankungen wie T1D und andere Erkrankungen wie Zöliakie, bei denen ein direkter und außergewöhnlich starker Zusammenhang für HLA-DQ festgestellt wurde6, erfordern daher eine gründlichere und systematischere Charakterisierung der Antigenpräsentation durch HLA-DQ-Moleküle, um deren Untersuchung zu ermöglichen Funktion. Obwohl sich das Gebiet rasant weiterentwickelt7, wurden bisher Peptidbindungsmotive nur einer begrenzten Anzahl von HLA-DQ-Molekülen umfassend untersucht8,9,10. Ein Grund dafür ist, dass HLA-DQ-Moleküle experimentell komplexer zu untersuchen sind. Aufgrund der monomorphen Natur der α-Kette in HLA-DR werden die polymorphen Variationen beispielsweise nur von der β-Kette bereitgestellt11. Bei HLA-DQ tragen sowohl α- als auch β-Ketten zu polymorphen Variationen bei. Es gibt jedoch Hinweise darauf, dass aufgrund wichtiger struktureller Anforderungen an die α- und β-Dimerisierungsschnittstelle nicht jede α- und β-Kettenpaarung zu einem stabilen Heterodimer führt11,12. Beispielsweise wurde festgestellt, dass DQA1*01 nur mit den Allelen DQB1*05 und 06 stabile Heterodimere bildet. Ebenso bilden die Allele DQA1*02, 03, 04, 05 und 06 nur mit den Allelen DQB1*02, 03 und 0412,13,14 stabile Heterodimere.

Darüber hinaus ist die Untersuchung der Funktion von HLA-DQ-Allelen eine Herausforderung, da zwischen HLA-DR und HLA-DQ innerhalb der HLA-Klasse-II-Region ein weitreichendes Bindungsungleichgewicht besteht, das es schwierig macht, die Rolle einzelner HLA-DQ-Allele von den assoziierten zu unterscheiden HLA-DR-Moleküle3,11.

Schließlich können einzigartige cis- und trans-kodierte DQ-Moleküle auftreten, bei denen α- und β-Ketten, die sich paaren, um das Heterodimer zu bilden, von denselben (cis) oder entgegengesetzten (trans) Chromosomen kodiert werden, was die Untersuchung dieser Moleküle noch komplizierter macht. Während der Großteil des aktuellen Wissens über HLA-DQ-Moleküle von cis-kodierten Varianten stammt, wurden die Oberflächenexpression und -funktion einer kleinen Anzahl von trans-kodierten DQ-Varianten bestätigt11,15. An dieser Stelle ist es wichtig zu betonen, dass beobachtet wurde, dass diese funktionellen trans-Moleküle ebenso funktionsfähig sind wie die entsprechende cis-kodierte Variante. Daher wird allgemein angenommen, dass sich Allele der DQα- und DQβ-Ketten hauptsächlich in cis- und nicht in trans-Varianten paaren16,17. Im Folgenden bezeichnen wir alle oben erwähnten stabilen DQα- und β-Kettenkombinationen als cis, und der Rest, der alle Kombinationen einschließt, die nicht erkannt oder als cis-kodiert gemeldet wurden, wird als „nur trans“ bezeichnet.

In den letzten Jahren wurden die Informationen zu cis-kodierten HLA-DQ-Varianten stark erweitert, da große Mengen an HLA-Sequenzdaten verfügbar wurden13. Hierbei wird davon ausgegangen, dass alle beobachteten DQ-Haplotypen durch natürliche Selektion in der Lage sind, stabile und funktionelle cis- und trans-kodierte Moleküle zu bilden. Allerdings ist die Rolle trans-only-kodierter Varianten bei der Antigenpräsentation und ihr Beitrag zur Formung und Komplementierung des HLA-DQ-Immunpeptidoms weitgehend ungeklärt.

Angesichts der entscheidenden Rolle der HLA-Klasse-II-Antigenpräsentation bei der Kontrolle und Gestaltung der adaptiven Immunantwort wurden große Anstrengungen in die Entwicklung von Vorhersagemodellen gesteckt, die dieses Ereignis vorhersagen können (Übersicht in Nielsen et al. 202018). Zu den aktuellen hochmodernen Vorhersagemethoden gehört NetMHCIIpan19, eine panspezifische Methode, die die Vorhersage der Antigenpräsentation für jedes HLA-Klasse-II-Molekül mit bekannter Proteinsequenz ermöglicht. Für HLA-DQ- und DP-Heterodimere bedeutet dies, dass Sequenzinformationen sowohl über die α- als auch über die β-Ketten erforderlich sind, um Vorhersagen treffen zu können.

Ursprünglich wurden In-vitro-Peptid-HLA-Bindungsaffinitätstests (BA) verwendet, um Daten zur Charakterisierung der Motive von HLA-Klasse-II-Molekülen2 zu generieren und verschiedene Vorhersagemodelle für maschinelles Lernen zu entwickeln, um die Regeln der Peptid-HLA-Bindung zu identifizieren20,21. Experimentelle Ergebnisse deuten jedoch darauf hin, dass die Bindungsaffinität (BA) ein relativ schwaches Korrelat der Antigenverarbeitung und -präsentation durch HLA-Moleküle ist22. Darüber hinaus haben mehrere Studien gezeigt, dass sich die Leistung der Vorhersagemodelle für die HLA-Klasse-II-Peptidbindung erheblich verbessert, wenn sie mit Immunpeptidomdaten trainiert werden, die durch Flüssigkeitschromatographie in Verbindung mit Massenspektrometrie (LC-MS/MS) erfasst wurden2,20,23,24 . Im Allgemeinen werden in einem HLA-Klasse-II-Immunopeptidom-eluierten Ligandentest (EL) HLA-Moleküle aus lysierten Antigen-präsentierenden Zellen (APCs) unter Verwendung von HLA-spezifischen monoklonalen Antikörpern affinitätsgereinigt. Als nächstes werden die HLA-Moleküle denaturiert und Peptidliganden isoliert und mittels LC-MS/MS25,26 sequenziert. Das Ergebnis eines solchen Tests ist eine Liste von Peptidsequenzen, die auf mindestens eines der von der untersuchten Zelllinie exprimierten HLA-Klasse-II-Moleküle beschränkt sind. EL-Daten haben gegenüber BA-Daten einen großen Vorteil, da sie Signale aus verschiedenen Schritten der HLA-Klasse-II-Antigenpräsentation enthalten, wie z. B. Antigenverdauung, HLA-Beladung von Liganden und Transport zur Zelloberfläche27,28,29.

HLA-Klasse-II-Bindungsvorhersagen werden häufig verwendet, um Epitopkandidaten bei Infektions-, Krebs- und Autoimmunerkrankungen zu identifizieren30. Die meisten Vorhersagealgorithmen für HLA-Klasse II konzentrierten sich aufgrund der großen Datenverfügbarkeit für diese bisher auf HLA-DR-Moleküle. Allerdings erwiesen sich im Kontext von HLA-DQ sowohl die Paarung synthetischer α- und β-Ketten zur Durchführung von Bindungsaffinitätsexperimenten als auch die Generierung großer EL-Datensätze als Herausforderung. Letzteres ist hauptsächlich darauf zurückzuführen, dass HLA-DQ-spezifische Antikörper in groß angelegten MS-Immunpeptidomics-Experimenten nicht eingesetzt werden, was zu einer begrenzten Ausbeute im HLA-DQ-Reinigungsprozess führt.

In den letzten Jahren hat die Proteomik und Peptidanalyse mittels Massenspektrometrie (MS) aufgrund modernster Technologie und erhöhter Empfindlichkeit der Instrumente sowie fortschrittlicher Softwareplattformen und Algorithmen, die die Identifizierung und Quantifizierung von Peptiden unterstützen, enorme Fortschritte gemacht. Diese Fortschritte, zusammen mit der Verwendung eines hochspezifischen HLA-DQ-Antikörpers, haben es uns ermöglicht, in einem einzigen Assay Tausende von Peptiden zu charakterisieren, die auf natürliche Weise die HLA-DQ-Moleküle binden und stabile Peptid-HLA-Komplexe erzeugen, die zum transportiert werden Zelloberfläche, die Immunzellen präsentiert werden soll. Hier haben wir diesen Aufbau angewendet, um aus einer Gruppe homozygoter B-Lymphoblastoid-Zelllinien einen großen Satz von Peptiden zu generieren, die von einer Gruppe von HLA-DQ-Molekülen präsentiert werden, die in der Weltbevölkerung häufig vorkommen. Diese großen Datensätze wurden direkt an bioinformatische Motividentifizierungs- und maschinelle Lernpipelines übermittelt, um die Motive zu definieren und die Regeln aufzudecken, die die Verarbeitung und Präsentation von Peptiden in einem biologischen Kontext regeln. Darüber hinaus ermöglichte uns diese Studie, die Herausforderung der cis- versus trans-Bildung funktioneller HLA-DQ-Heterodimere zu lösen und die Rolle von trans-only-Varianten bei der Gestaltung des HLA-DQ-Immunpeptidoms zu bestimmen. Die umfassenden Einblicke in die Peptidbindungseigenschaften der untersuchten HLA-DQ-Moleküle, die diese Studie liefert, werden ein besseres Verständnis des HLA-DQ-Krankheitszusammenhangs und die Entdeckung neuer therapeutischer Ziele ermöglichen.

Für die Studie wurden Immunpeptidomdaten für 14 verschiedene HLA-DQ-Moleküle aus 16 homozygoten B-Lymphoblastoid-Zelllinien (BLCLs) mittels LC-MS/MS gewonnen. Durch die Verwendung eines DQ-spezifischen Antikörpers während der Affinitätsreinigung konnten wir einen großen Datensatz mit hoher Anreicherung an DQ-Peptidliganden erhalten. Eine Übersicht über die Peptidzahlen, DQ-HLA-Typen und Peptidlängenverteilungen der Zelllinien ist in Abb. 1 dargestellt. Insgesamt enthalten die Daten insgesamt 39.334 Peptidliganden, wobei 14- und 15-mere am häufigsten vorkommen. Nachdem wir die neuartigen Daten mit zufälligen natürlichen Peptiden angereichert hatten, die als negativ zugeordnet wurden (siehe Materialien und Methoden), kombinierten wir sie mit den Daten, die zum Trainieren der NetMHCIIpan-4.1-Vorhersagemethode verwendet wurden, was einen großen Datensatz eluierter HLA-Klasse-II-Liganden ergab. Auf dieser Grundlage haben wir uns vorgenommen, drei wesentliche Probleme im Zusammenhang mit HLA-DQ anzugehen, nämlich (i) die relativ geringe Vorhersagekraft aktueller Vorhersagemodelle für DQ-Moleküle, (ii) den Beitrag von nur trans-kodierten DQ-Varianten zum DQ-Immunpeptidom und (iii) die Gesamtabdeckung des DQ-Spezifitätsraums der aktuellen experimentellen Daten und entwickelten In-silico-Vorhersagemodelle.

Jede Zeile entspricht einem Datensatz einer bestimmten DQ-homozygoten Zelllinie. Linkes Feld: Balkendiagramm der gesamten Peptidzahlen. Die Zahlen auf der linken Seite entsprechen den Zelllinien-IDs. Mittleres Feld: DQ-HLA-Typen der Zelllinien. Rechtes Feld: Peptidlängenverteilungen.

Um die Auswirkung der Integration der neuartigen DQ-Daten auf die Vorhersagekraft zu untersuchen, verwendeten wir den NNAlign_MA-Algorithmus31, eine äußerst leistungsstarke maschinelle Lernmethode zur Entfaltung von MS-Immunpeptidomics-Daten. Es wurden zwei Modelle zur Vorhersage der Präsentation von Peptidantigenen trainiert: eines mit den neuartigen affinitätsgereinigten DQ-Daten (genannt w_Saghar_DQ) und eines zum direkten Vergleich der Auswirkungen der neuartigen Daten ohne (genannt wo_Saghar_DQ). Die Modelle wurden dann mithilfe einer Kreuzvalidierung pro Molekül innerhalb von vier verschiedenen Teilmengen aller HLA-Klasse-II-Moleküle in den Trainingsdaten bewertet. Bei diesen Teilmengen handelt es sich um Nicht-DQ-Moleküle (NotDQ), alle DQ-Moleküle (DQ), in den neuen Daten vorhandene DQ-Moleküle (DQ_Saghar) und in den neuen Daten nicht vorhandene DQ-Moleküle (DQ_NotSaghar).

Abbildung 2 zeigt das Ergebnis dieses Experiments und zeigt, dass die Einbeziehung der neuen DQ-Daten wie erwartet zu einem signifikanten Leistungsgewinn für DQ führte (p = 0,011 für alle Metriken, n = 44 Moleküle, einseitiger Binomialtest ohne Bindungen). Aus diesen Ergebnissen geht jedoch hervor, dass die Leistung von DQ im Vergleich zu Nicht-DQ-Molekülen geringer bleibt. Wir gingen davon aus, dass dies darauf zurückzuführen ist, dass die DQ-Leistung aus einer Mischung der neuen Daten und der älteren NetMHCIIpan-4.1-Trainingsdaten berechnet wurde. Um dies zu demonstrieren, haben wir die Leistung der DQ_Saghar-Moleküle ausschließlich auf die neuartigen Daten beschränkt. Das Ergebnis ist in Abb. 3 dargestellt und zeigt, dass die Leistung von DQ ein Niveau erreicht, das mit der von Nicht-DQ vergleichbar ist, wenn man sich nur auf die neuartigen Daten konzentriert, mit einem signifikanten Gewinn im Hinblick auf den PPV (t = 1,19, S = 0,24 für AUC, t = 0,21, p = 0,83 für AUC 0,1 und t = 2,69, p = 0,009 für PPV, n = 14 DQ-Moleküle und n = 70 Nicht-DQ-Moleküle, zweiseitige t-Tests). Dieses Ergebnis ist wichtig, da es darauf hindeutet, dass die zuvor für DQ gemeldete geringe Leistung zumindest teilweise auf eine geringe Qualität und Quantität der früheren DQ-Daten zurückzuführen ist.

Jeder Punkt ist die Leistungsmetrik für ein einzigartiges HLA-Klasse-II-Molekül. Einzelheiten zu den Leistungsmetriken finden Sie unter Materialien und Methoden. Die Spalten entsprechen vier verschiedenen Teilmengen von HLA-Molekülen, nämlich allen Nicht-HLA-DQ-Molekülen (NotDQ, n = 70), allen DQ-Molekülen (DQ, n = 44) und DQ-Molekülen im neuen Datensatz (DQ_Saghar, n = 14) und DQ-Moleküle, die in den neuen Daten nicht vorhanden sind (DQ_NotSaghar, n = 30). Jedes Boxplot zeigt den Median innerhalb des Interquartilbereichs (IQR) zwischen dem oberen und dem unteren Quartil, wobei die Whisker maximal das 1,5-fache des IQR betragen.

Jeder Punkt ist die Leistungsmetrik für ein HLA-Klasse-II-Molekül. Jedes Boxplot zeigt den Median innerhalb des Interquartilbereichs (IQR) zwischen dem oberen und dem unteren Quartil, wobei die Whisker maximal das 1,5-fache des IQR betragen.

Als nächstes untersuchten wir die Unterschiede bei den HLA-DQ-Molekülen zugeordneten Peptiden zwischen den beiden Methoden in allen Proben. Hier haben wir alle Peptide berücksichtigt, die in mindestens einer der Methoden mit einem Perzentilrang <20 (d. h. als Nicht-Trash) dem DQ zugeordnet wurden23. Insgesamt weisen die beiden Methoden ein hohes Maß an Überlappung bei den dem DQ zugeordneten Peptiden auf (60.959 Annotationen wurden von beiden Modellen gemeinsam genutzt, 9.309 Annotationen waren eindeutig für die trainierte Methode einschließlich der neuartigen Daten und 4.316 eindeutig für die trainierte Methode ohne). Diese erhöhte DQ-Abdeckung für das trainierte Modell, einschließlich der neuartigen Daten, ist überwiegend auf Peptide zurückzuführen, die DR (und in gewissem Maße Müll und DP) von dem ohne die neuartigen Daten trainierten Modell zugewiesen wurden (siehe Ergänzungstabelle 1 für einen Überblick über die Peptidmigrationen). Dies legt nahe, dass zumindest ein Teil der verbesserten Vorhersageleistung des neuen Modells auf eine verbesserte Motiventfaltung zurückzuführen ist.

Um dies weiter zu quantifizieren, zeigen wir den mittleren Konsistenzwert pro HLA-Molekül in den vier Moleküluntergruppen in der ergänzenden Abbildung 1. Kurz gesagt, für jedes Molekül in einer bestimmten Zelllinie wurden aus den vorhergesagten Bindungskernen in der Position positionsspezifische Bewertungsmatrizen erstellt einzelne positive Peptide, und die Konsistenz wurde durch die Korrelation solcher Matrizen für dasselbe Molekül zwischen verschiedenen Zelllinien-Datensätzen quantifiziert (Einzelheiten siehe Materialien und Methoden). Basierend auf dieser Analyse wird eine insgesamt verbesserte Konsistenz für das mit den neuartigen DQ-Daten trainierte Modell beobachtet (p < 0,02 in allen Fällen mit Ausnahme der DQ_NotSaghar-Teilmenge, einseitiger Binomialtest ohne Bindungen). Die Konsistenzanalyse für ein in den neuartigen Daten enthaltenes Beispielmolekül (DQA1*03:01-DQB1*03:02) ist in der ergänzenden Abbildung 2 dargestellt und zeigt, dass die verbesserte Motivkonsistenz in den meisten Fällen durch eine erhöhte Peptidzahl verursacht wird Proben (siehe Ergänzungstabellen 2 und 3).

Darüber hinaus wurden HLA-DQ-Bindungsmotive, die durch Motiventfaltung der neuen MS-Daten erhalten wurden, zusammen mit Sequenzmotiven, die auf vorhergesagten Bindemitteln basieren, in der ergänzenden Abbildung 3 visualisiert. Hier sind die durch Motiventfaltung erhaltenen Logos beim Vergleich in den meisten Fällen sehr ähnlich Die Modelle wurden mit und ohne die neuartigen Daten trainiert. Die vorhergesagten Sequenzlogos, die auf zufälligen natürlichen Peptiden mit der höchsten Punktzahl basieren, weisen jedoch darauf hin, dass das ohne die neuen DQ-Daten trainierte Modell die korrekten Bindungsmotive aller neuen DQ-Moleküle, insbesondere im Hinblick auf die P1-Aminosäurepräferenzen, nicht vollständig erlernen konnte. Um diese Ergebnisse zu quantifizieren, wurden Korrelationen zwischen den entfalteten und vorhergesagten Logos für jede Methode berechnet (ergänzende Abbildung 4). Diese Analyse zeigte eine signifikant höhere Korrelation für die Methode einschließlich der neuen Daten (p = 0,011, n = 16 Logo-Paare, einseitiger Binomialtest ohne Bindungen), was auf eine äußerst konsistente Übereinstimmung zwischen den identifizierten und vorhergesagten Bindungsmotiven hinweist.

Zusammengenommen zeigen diese Beobachtungen, dass die Einbeziehung der neuen HLA-DQ-Daten eine umfassendere Identifizierung von HLA-DQ-Peptidliganden ermöglicht und Peptide, die ansonsten alternativen DR/DP-Molekülen zugeordnet wären, rettet, was zu einer verbesserten Motiventfaltungskonsistenz und einer verbesserten Vorhersagekraft führt.

Die obigen Ergebnisse wurden durch einen Vergleich mit einem Modell ergänzt, das unter Verwendung der neuen Daten mithilfe der Peptidkontextkodierung trainiert wurde. Kurz gesagt bezieht sich Kontextkodierung auf ein Szenario, in dem Informationen aus den Regionen, die das Peptid flankieren, aus der Quellproteinsequenz extrahiert und als zusätzliche Eingabe in das Modell des maschinellen Lernens einbezogen werden. In Übereinstimmung mit dem, was zuvor gezeigt wurde2,27,31, zeigten die Ergebnisse dieses Vergleichs (ergänzende Abbildung 5), dass das trainierte Modell einschließlich Kontext das ohne Kontext trainierte Modell in allen Leistungsmetriken und Datenteilmengen deutlich übertraf (mit der einzigen Ausnahme). die DQ_NotSaghar-Teilmenge). Da der Schwerpunkt des verbleibenden Teils des Manuskripts jedoch auf der Untersuchung der Motiventfaltung und der Rolle der cis- versus trans-only-DQ-α- und β-Kettenpaarung in diesem Zusammenhang liegt, konzentrieren wir uns auf das einfachere Modell, das ohne Kontextinformationen trainiert wird von hier an.

In DQ-heterozygoten Zelllinien können prinzipiell vier mögliche α-β-Kettenpaarungen beobachtet werden. Bei sogenannten cis-Heterodimeren werden die α- und β-Kette auf demselben Chromosom exprimiert und können somit bei der Haplotypsequenzierung beobachtet werden. DQ-Moleküle, die durch Paarung von α- und β-Ketten zwischen Chromosomen entstehen, werden Transheterodimere genannt. Einige α-β-Paarungen wurden nicht als cis-kodiert beobachtet (basierend auf umfangreichen HLA-Haplotyp-Sequenzierungspopulationsstudien) und werden daher hier als „nur trans“-Kombinationen bezeichnet. Um den relativen Beitrag von cis- und trans-only-DQ-Heterodimeren bei der Gestaltung des Immunpeptidoms zu bewerten, untersuchten wir die Verteilung der Peptide, die cis- und trans-only-kodierten DQ-Molekülen zugeordnet sind, über DQ-heterozygote Datensätze für die beiden Modelle. Hier wurden nur Datensätze mit mindestens 100 DQ-annotierten Peptiden ohne Müll in beiden Methoden berücksichtigt (eine Übersicht über die in dieser Analyse verwendeten Datensätze finden Sie in der Ergänzungstabelle 4). Anschließend wurde der Anteil der jedem Molekül zugeordneten DQ-annotierten Peptide für jeden Datensatz berechnet, der dieses Molekül enthält. Schließlich wurde der mittlere Peptidanteil pro Datensatz für jedes DQ-Molekül angegeben und anschließend die Verteilung dieser Mittelwerte für Moleküle über vier Kategorien untersucht. Diese Kategorien sind alle cis-Varianten, cis-SA (cis-Varianten Teil der Single-Allel-DQ-Trainingsdaten), cis-MA (Cis-Varianten Teil der Multi-Allel-DQ-Trainingsdaten) und nur trans-Varianten.

Das Ergebnis dieser Analyse ist in Abb. 4a für die beiden Modelle dargestellt und zeigt, dass bei der Methode, die die neuen Daten berücksichtigt, trans-only-Moleküle durchweg einen kleinen Teil der DQ-Anmerkungen in jeder Zelllinie abdecken. Andererseits leisten die cis-Moleküle im Allgemeinen einen hohen Beitrag, wobei die cis-SA-Moleküle den größten Beitrag leisten. Es wurde jedoch auch festgestellt, dass die cis-MA-Moleküle im Vergleich zu den rein trans-Molekülen im Modell einschließlich der neuen Daten einen deutlich größeren Beitrag leisten (t = 3,07, p = 0,005, n = 18 cis-MA-Moleküle und n = 12 trans). (nur Moleküle, zweiseitiger t-Test). Ähnliche Ergebnisse wurden gefunden, wenn die cis-SA-Kategorie um cis-MA-Moleküle mit derselben Pseudosequenz wie ein cis-SA-Molekül erweitert wurde (ergänzende Abbildung 6). Darüber hinaus wurde für das Modell, das ohne die neuen Daten trainiert wurde, ein insgesamt höherer Beitrag von Nur-Trans-Molekülen zu den DQ-Peptid-Annotationen beobachtet (t = 2,1, p = 0,03, n = 12 Moleküle, gepaarter einseitiger t-Test). Diese Ergebnisse sind bemerkenswert, da sie darauf hinweisen, dass die Motiventfaltung im Modell einschließlich der neuen Daten nicht ausschließlich von den cis-SA-Molekülen abhängt, sondern vielmehr von einer allgemeinen Präferenz für cis-kodierte Varianten im Vergleich zu rein trans-Varianten (siehe Ergänzung). Abb. 7 und 8).

a Peptidzahl-Beitrag von reinen cis- und trans-Molekülen in den Methoden mit (w_Saghar_DQ) und ohne (wo_Saghar_DQ) die neuen Daten. Jeder Punkt zeigt den mittleren Peptidanteil pro Datensatz für ein bestimmtes DQ-Molekül. Für jede Methode werden nur trans-Moleküle in einem Boxplot (n = 12) angezeigt, während cis-Moleküle in drei Kategorien angezeigt werden, nämlich alle cis-Moleküle (Cis–All, n = 29) und cis-Moleküle, die im DQ-SA gefunden werden Trainingsdaten (Cis–SA, n = 11) und cis-Moleküle, die nur in den DQ-MA-Trainingsdaten gefunden werden (Cis–MA, n = 18). Jedes Boxplot zeigt den Median innerhalb des IQR zwischen dem oberen und dem unteren Quartil, wobei die Whiskers maximal das 1,5-fache des IQR betragen. b DQ-Motiv-Entfaltung für den Racle__TIL1-Datensatz. Die Zeilen entsprechen den Methoden, die mit (wSag) bzw. ohne (woSag) der neuen Daten trainiert wurden. Die Peptidzahlen (ausgenommen Müllpeptide) werden in den Logo-Plottiteln in Klammern angezeigt. Nur-trans-Moleküle werden in roten Rahmen hervorgehoben.

Um dies weiter zu untersuchen, ist in Abb. 4b die DQ-Motiv-Entfaltung der beiden Modelle für den Racle__TIL1-Datensatz dargestellt. Hier ordnet das ohne die neuen Daten trainierte Modell einen großen Anteil der Peptide (170 von 425) HLA-DQA1*01:01-DQB1*03:01 zu, einem rein trans-Molekül, von dem bekannt ist, dass es kein stabiles Heterodimer bildet12 ,13. Andererseits werden in dem mit den neuen Daten trainierten Modell fast keine Peptide diesem Molekül zugeordnet (20 von 459). Stattdessen werden die Peptide dem cis-Molekül HLA-DQA1*03:03-DQB1*03:01 zugeordnet. Beachten Sie außerdem, dass bei beiden Modellen ein sehr geringer Anteil der Peptide HLA-DQA1*03:03-DQB1*05:01 zugeordnet wird, einem weiteren reinen Trans-Heterodimer, das als instabil bekannt ist12,13.

Insgesamt zeigen diese Ergebnisse, dass das Modell einschließlich der neuartigen DQ-Daten eine ordnungsgemäße Motiventfaltung mit begrenzter Zuordnung von Peptiden zu rein trans-HLA-DQ-Molekülen ermöglicht. Darüber hinaus deutet der sehr geringe Anteil an Peptiden, die trans-only-Molekülen zugeordnet sind, in Kombination mit dem insgesamt erhöhten HLA-DQ-Peptidvolumen und der Motivkonsistenz des trainierten Modells einschließlich der neuen Daten stark darauf hin, dass trans-only-HLA-DQ-Moleküle auf beschränkt waren Kein Beitrag zum gesamten HLA-DQ-Immunpeptidom. Es ist jedoch wichtig zu betonen, dass die Vorhersagen stark von den SA-Trainingsdaten beeinflusst werden (veranschaulicht durch den dominanten Beitrag der cis-SA-Kategorie). Daher können wir nicht vollständig ausschließen, dass die geringe Anzahl von Anmerkungen zu reinen trans-Heterodimeren durch das Fehlen von SA-Trainingsdaten für diese Moleküle oder eine geringere Sequenzähnlichkeit mit den cis-SA-Molekülen im Vergleich zu den cis-SA-Molekülen beeinflusst wird. MA-Moleküle.

Als wir die Längenverteilung der DQ-Peptidliganden in den neuen Daten mit HLA-DR-beschränkten Peptiden verglichen, die aus demselben Satz von BLCLs23 gereinigt wurden, zeigte sich, dass die DQ-Liganden im Allgemeinen kürzer als die DR-Liganden waren (siehe ergänzende Abbildung). 9). Durch Vergleich der mittleren Peptidlängen pro Molekül für die beiden Loci wurde ein signifikanter Unterschied (t = 2,4, p < 0,03, n = 17 DR-Moleküle und n = 14 DQ-Moleküle, zweiseitiger t-Test) mit DR festgestellt und DQ mit durchschnittlichen Peptidlängenmedianen von 15,41 bzw. 14,93. Diese Analyse zeigt, dass HLA-DQ-Moleküle im Vergleich zu HLA-DR im Allgemeinen kürzere Peptide binden. Darüber hinaus weisen verschiedene HLA-DR-Moleküle im Gegensatz zu HLA-DQ-Allelen, die in ihren Peptidlängenpräferenzen konsistenter sind, subtile Unterschiede in ihren Längenpräferenzen auf23. Beispielsweise zeigen HLA-DR*07:01, 09:01 und 14:01 eine Präferenz für kürzere Peptide (14-mer), während die Mehrheit der DR-Allele der gemeinsamen Längenpräferenz der Klasse II (15-mer) folgen.

Als nächstes wollten wir die Anzahl der DQ-Moleküle beurteilen, die in den Kreuzvalidierungsvorhersagen jedes Modells vorhanden sind, das ordnungsgemäß abgedeckt wurde (d. h. es wurde während des Trainings eine große Anzahl von Peptiden zugewiesen), und daher, wo von den Modellen erwartet wird, dass sie eine genaue Vorhersagekraft erreichen . Die Peptidzahl für ein bestimmtes DQ-Molekül wurde als akkumulierte Summe der Peptide aus jeder Zelllinie geschätzt, die dieses Molekül enthielt (ausgenommen Müllpeptide). Hier wurden nur Peptide, die an DQ-Moleküle in einer bestimmten Zelllinie annotiert waren und mindestens 5 % der Gesamtzahl der DQ-Peptide entsprachen, in die Zählung einbezogen (dies wurde durchgeführt, um die Anhäufung von Rauschen bei geringer Zählung zu vermeiden). Ein bestimmtes DQ-Molekül galt dann als abgedeckt, wenn die summierte Peptidzahl über alle Zelllinien mindestens 100 betrug. Diese Analyse ergab, dass 24 DQ-Moleküle von dem trainierten Modell einschließlich der neuen Daten abgedeckt wurden und 23, wenn diese Daten ausgeschlossen wurden . Es wurde festgestellt, dass keines der 24 DQ-Moleküle, die vom Modell einschließlich der neuen Daten abgedeckt wurden, nur trans-Moleküle waren, wohingegen das Modell ohne die neuen Daten zwei nur trans-DQ-Moleküle abdeckte, nämlich HLA-DQA1*01:01-DQB1*03: 01 (wie zuvor beschrieben) und HLA-DQA1*01:03-DQB1*03:02. Von den verbleibenden 21 Molekülen waren 20 in den Molekülen enthalten, die von dem mit den neuen Daten trainierten Modell abgedeckt wurden.

Angesichts der unterschiedlichen Molekülsätze, die von den beiden Methoden abgedeckt werden, wollten wir die Abdeckung jeder Methode unter Berücksichtigung des gesamten DQ-Spezifitätsraums abschätzen. Daher haben wir für jede der beiden Methoden den Anteil der 154 vorherrschenden DQ-Moleküle untersucht, die einen Abstand von höchstens 0,025 zu einem vom Modell abgedeckten Molekül aufwiesen (diese Gruppe von Molekülen wird hier als „erweiterte Abdeckung“ bezeichnet). Einzelheiten dazu, wie dieser Abstand bestimmt wurde und wie die Liste der vorherrschenden DQ-Moleküle definiert wurde, finden Sie unter Materialien und Methoden. Der Schwellenwert von 0,025 wurde basierend auf der Distanz gewählt, bei der das ohne die neuen Daten trainierte Modell eine optimale Leistung bei Molekülen erreichen konnte, die nicht Teil der DQ-SA-Trainingsdaten der Methode sind (siehe ergänzende Abbildung 10). Beachten Sie außerdem, dass 0,025 ein konservativer Abstandsschwellenwert ist und dass wir davon ausgehen, dass das Modell auch für Moleküle, die über diesen Wert hinausgehen, seine Genauigkeit beibehält32.

Aus dieser Analyse ergab sich ein signifikanter Gewinn an erweiterter Abdeckung (χ2 = 4,73, p < 0,03, n = 154 Moleküle, Chi-Quadrat-Test), wobei das Modell die neuartigen Daten umfasste und 94 von 154 Molekülen abdeckte, während das Modell dies nicht tat Die neuartigen Daten deckten nur 75 von 154 Molekülen ab (siehe Ergänzungstabellen 5 und 6 für eine Liste der abgedeckten und nicht abgedeckten DQ-Moleküle für das trainierte Modell, einschließlich der neuartigen Daten). Beim Vergleich der abgedeckten und nicht abgedeckten Moleküle für die Methode einschließlich der neuartigen Daten hatte die nicht abgedeckte Gruppe deutlich niedrigere weltweite Haplotyp-Häufigkeitsdaten, wie sie von Allelefrequencies.net erhalten wurden (Einzelheiten dazu, wie diese Häufigkeiten ermittelt wurden, finden Sie unter Material und Methoden). im Vergleich zur abgedeckten Gruppe (durchschnittliche Häufigkeiten für die beiden Gruppen betrugen 0,0134 und 0,0025, t = 2,69, p = 0,0083, n = 94 abgedeckte Moleküle und n = 60 nicht abgedeckte Moleküle, zweiseitiger Student-T-Test). Diese Ergebnisse legen nahe, dass die nicht abgedeckten DQ-Moleküle aus Sicht der Bevölkerungsabdeckung von begrenzter Bedeutung sind.

Zur Visualisierung der Abdeckung des DQ-Raums wurde ein Spezifitätsbaum erstellt. Hier haben wir die Liste der 154 vorherrschenden HLA-DQ-Moleküle als Ausgangspunkt verwendet. Diese Liste wurde zunächst auf einen Satz von 61 Molekülen mit einzigartigen Spezifitäten reduziert (Einzelheiten siehe Methoden), die in die anschließende Analyse einbezogen wurden. Als nächstes wurde mithilfe der MHCCluster-Methode33 ein Spezifitätsbaum erstellt, der die 61 DQ-Moleküle abdeckt. Kurz gesagt: Die MHCCluster-Methode schätzt die Ähnlichkeit zwischen zwei MHC-Molekülen anhand der Korrelation zwischen vorhergesagten Bindungswerten für eine große Menge zufälliger natürlicher Peptide. Abbildung 5 zeigt den resultierenden Spezifitätsbaum zusammen mit den vorhergesagten Bindungsmotiven für die 14 neuen DQ-Moleküle. Der Baum weist eine breite Abdeckung des DQ-Raums auf, da alle neuen Moleküle mehr oder weniger gleichmäßig über die verschiedenen Zweige des Baums verteilt sind und alle Zweige von einem oder mehreren DQ-Molekülen in geringem Abstand zu den von ihm abgedeckten DQ-Molekülen bedeckt sind Trainingsdaten. Darüber hinaus wurden einige Untercluster nicht abgedeckter Moleküle beobachtet (hervorgehoben durch Motive in roten Rahmen), die nahezu eins zu eins mit den nicht abgedeckten Clustern in einem phylogenetischen Baum der DQ-Pseudosequenzen übereinstimmten (siehe Ergänzende Abbildung 11).

Der Baum basiert auf 61 DQ-Molekülen, einschließlich der 14 Moleküle, die in den neuen Daten beschrieben werden. Orange Moleküle werden von der Methode einschließlich der neuen Daten mit mindestens 100 Peptiden abgedeckt, und blaue Moleküle liegen in einem Abstand von 0,025 von einem orangefarbenen Molekül. Schwarze Moleküle sind nicht abgedeckt (dh sie haben eine Peptidzahl von <100 und einen Abstand von >0,025 zu einem orangefarbenen Molekül). Logos in schwarzen Rahmen entsprechen orangefarbenen Molekülen. Logos in roten Rahmen entsprechen Molekülen aus Zweigen mit Clustern nicht bedeckter (schwarzer) Moleküle. Der Spezifitätsbaum wurde aus den paarweisen Ähnlichkeiten zwischen den Vorhersagewerten für die DQ-Moleküle für einen Satz von 100.000 zufälligen natürlichen 13-17mer-Peptiden berechnet. Für die obersten 1 % der Bindungskerne mit der höchsten Punktzahl für diese 100.000 Peptide wurden Logos erstellt.

Das hier entwickelte Modell einschließlich der neuartigen DQ-Immunpeptidomdaten wird unter https://services.healthtech.dtu.dk/services/NetMHCIIpan-4.2 öffentlich zugänglich gemacht. Die Methode ermöglicht die Vorhersage der HLA-Antigenpräsentation für alle HLA-DQ-Moleküle, und die Vorhersage kann mit oder ohne Kontextkodierung erfolgen.

Als letzte Demonstration der Leistungsfähigkeit unserer Methode zur Motiventfaltung für DQ haben wir unsere Methode mit MixMHC2pred-2.0 verglichen, einem weiteren HLA-Klasse-II-Prädiktor, der kürzlich veröffentlicht wurde7. Die Benchmark-Daten stammen von Marcu et al.34 und bestehen aus eluierten Ligandendaten von 15 Spenderproben, die mit zufälligen negativen Peptiden angereichert wurden (weitere Einzelheiten zu den Benchmark-Daten finden Sie unter Materialien und Methoden und eine Übersicht finden Sie in der Ergänzungstabelle 7). der verwendeten Proben).

Wir haben zunächst die Leistung der beiden Methoden bewertet, ohne Peptidkontextinformationen einzubeziehen. Abbildung 6a zeigt diese Leistung pro Stichprobe für die gesamten Daten. Dies zeigt, dass unsere Methode MixMHC2pred-2.0 für den unabhängigen Datensatz in allen drei Metriken deutlich übertrifft (p < 0,02 in allen Metriken, n = 15 Stichproben, einseitiger Binomialtest ohne Bindungen). . Darüber hinaus zeigt Abb. 6b die Leistung pro Probe, die auf die Vereinigung von Peptiden beschränkt ist, die mit beiden Methoden in Richtung DQ annotiert wurden, und zeigt erneut einen signifikanten Leistungsgewinn zugunsten von NetMHCIIpan-4.2 (p <0,005 in allen Metriken, n = 15 Proben, eine). -gebundener Binomialtest ohne Bindungen). Die Wiederholung des Benchmarks einschließlich der Peptidkontextkodierung führte auch dazu, dass unsere Methode MixMHC2pred-2.0 deutlich übertraf (p < 0,005 in allen Metriken für die gesamten Daten und p = 3·10−5 in allen Metriken für die Vereinigung von DQ-annotierten Peptiden, n = 15 Stichproben, einseitige Binomialtests ohne Bindungen (siehe ergänzende Abbildung 12)). Es ist zu beachten, dass beide Methoden einen großen Anteil an Trash-Peptiden mit Perzentilrängen >20 in den Daten identifizierten (~21 % bzw. ~32 % für NetMHCIIpan-4.2 und MixMHC2pred). Dies deutet auf eine allgemein schlechte Datenqualität hin, was zu einer wesentlich geringeren Leistung führt als bei unserer Kreuzvalidierung. Die Leistung dieser Daten ist daher kein echter Indikator für die Vorhersagekraft der einzelnen Methoden. Der Gesamtleistungsgewinn unserer Methode im Vergleich zu MixMHC2pred-2.0 lässt jedoch darauf schließen, dass NetMHCIIpan-4.2 bei der Motiventfaltung und Identifizierung von DQ-Liganden leistungsfähiger ist.

Bei beiden Methoden wurden Vorhersagen ohne Peptidkontextkodierung getroffen. Jeder Punkt ist die Leistungsmetrik für eine bestimmte Stichprobe. Jedes Boxplot (in allen Fällen n = 15 Stichproben) zeigt den Median innerhalb des IQR zwischen dem oberen und dem unteren Quartil, wobei die Whiskers höchstens das 1,5-fache des IQR betragen. a Leistung pro Probe, berechnet auf Grundlage der gesamten Daten. b Leistung pro Probe, berechnet anhand der Vereinigung von DQ-annotierten Peptiden zwischen den beiden Methoden.

Bei der Untersuchung der Motiventfaltung unserer Methode an den DQ-heterozygoten Proben stellten wir fest, dass die Nur-Trans-Moleküle erneut nur einen begrenzten bis gar keinen Beitrag leisteten (siehe ergänzende Abbildung 13a). In Bezug auf die beobachteten cis-Varianten, die in den DQ-SA- oder DQ-MA-Trainingsdaten gefunden wurden (cis-SA bzw. cis-MA), hatten die cis-SA-Moleküle den größten Beitrag, wobei cis-MA einen deutlich größeren Beitrag leistete als die trans-only-Varianten (t = 4,64, p = 0,0002, n = 12 cis-MA-Moleküle und n = 7 trans-only-Moleküle, zweiseitiger t-Test). Ähnliche Ergebnisse wurden gefunden, wenn cis-MA-Moleküle mit derselben Pseudosequenz wie ein cis-SA-Molekül berücksichtigt wurden (ergänzende Abbildung 13b). Dieses Ergebnis steht im Gegensatz zu dem, was für MixMHC2pred beobachtet wurde, wo über die verschiedenen Molekülklassen hinweg ein nahezu gleicher Beitrag beobachtet wurde. Die ergänzenden Abbildungen 13c, d zeigen die DQ-Motiv-Entfaltung für die heterozygoten Proben von Marcu et al. 202134 nach unserer Methode bzw. MixMHC2pred. Diese Motiventfaltungen spiegeln insgesamt die oben beschriebenen Ergebnisse wider, wobei NetMHCIIpan-4.2 eine sehr begrenzte Anzahl von Peptiden nur trans-Varianten zuordnet und MixMHC2pred-2.0 einen nahezu gleichmäßigen Beitrag zu allen DQ-Molekülen leistet.

In dieser Arbeit haben wir gezeigt, wie eine rationale Datengenerierung in Kombination mit einem verfeinerten immuninformatischen Data Mining die Leistung von Vorhersagen zur HLA-Klasse-II-Antigenpräsentation steigern und dazu beitragen kann, die Leistungslücke zwischen HLA-DR und HLA-DQ zu schließen.

Wir haben hochwertige MS-Immunpeptidomics-Daten aus einer Reihe von 16 homozygoten HLA-DQ-Zelllinien generiert, die insgesamt 14 häufige HLA-DQ-Moleküle in verschiedenen Populationen weltweit abdecken. Die Verwendung eines hauseigenen HLA-DQ-spezifischen Antikörpers ermöglichte die Identifizierung von MS-Immunpeptidomik-Datensätzen mit einem im DQ-Kontext beispiellosen Umfang, wobei in jeder Zelllinie durchschnittlich 2600 einzigartige Peptide identifiziert wurden. Durch die Integration dieser großen Datenmenge mit früheren Daten aus der Entwicklung von NetMHCIIpan-4.1 konnten wir die Vorhersageleistung der HLA-DQ-Antigenpräsentation auf ein Niveau steigern, das mit dem von HLA-DR vergleichbar ist. Die Untersuchung der Genauigkeit der Motiventfaltung der beiden mit und ohne die neuen Daten trainierten Methoden zeigte eine insgesamt verbesserte Motivkonsistenz über alle HLA-Moleküle hinweg. Diese Beobachtung zeigt, wie die Integration der neuen HLA-DQ-Daten zu einer insgesamt verbesserten HLA-Restriktionszuordnung der einzelnen MS-HLA-Peptide führt, was zu genaueren Motivcharakterisierungen über alle drei HLA-Klasse-II-Loci hinweg führt. Es wurde gezeigt, dass die Hauptursache für diese Verbesserung ein erhöhtes Volumen der Peptidzuordnung zu HLA-DQ-Molekülen während der Motiventfaltung ist. Dies führte zu einer verbesserten Motivgenauigkeit sowohl für HLA-DQ aufgrund des größeren Peptidvolumens als auch für Nicht-HLA-DQ-Moleküle durch die Entfernung von Peptiden, die fälschlicherweise als DQ zugeordnet wurden und durch das Modell ohne die neuen DQ-Daten eingeschränkt wurden.

Als Nächstes befassten wir uns mit der Frage der cis- versus trans-only-HLA-DQ-α- und -β-Kettenkombinationen und zeigten, dass im Gegensatz zur Methode ohne die neuartigen Daten das trainierte Modell mit den neuartigen Daten fast ausschließlich die DQ-Motiv-Entfaltung durchführte unter Verwendung bekannter HLA-DQ-cis-Varianten. Ein besonderes Beispiel hierfür war das HLA-DQ-Molekül DQA1*01:01-DQB1*03:01, dem in dem ohne die neuen Daten trainierten Modell eine große Anzahl von Peptiden zugeordnet wurde. Bei Einbeziehung der neuen Daten war die Peptidzuordnung zu diesem Molekül jedoch fast vollständig erschöpft. Dieses Ergebnis, kombiniert mit dem insgesamt erhöhten HLA-DQ-Peptidvolumen und der Motivkonsistenz des trainierten Modells, einschließlich der neuen Daten, legt den Schluss nahe, dass nur trans-HLA-DQ-α- und -β-Kombinationen einen minimalen bis gar keinen Beitrag zum gesamten HLA-DQ-Immunpeptidom leisten. Dieser Befund ist bemerkenswert, da die hier definierte Definition der reinen cis- und trans-Dimerisierung genau den zuvor vorgeschlagenen Regeln für die Bildung stabiler/instabiler HLA-DQ-Heterodimere folgt. Insbesondere weisen die Regeln darauf hin, dass strukturelle Einschränkungen die Dimerisierung von DQA1*01 mit den DQB1*02-, 03- und 04-Allelen nicht begünstigen, was zu deren ineffizientem Zusammenbau, mangelnder Stabilität und Oberflächenexpression und damit zum Funktionsverlust führt12,14. Diese Ergebnisse zeigen somit, wie solche Regeln mithilfe maßgeschneiderter Data-Mining-Methoden und rational definierter Datensätze direkt aus MS-Immunpeptidom-Daten gelernt werden können. Dies legt nahe, dass ähnliche Analysetypen auf HLA-DP ausgeweitet werden sollten, um unser Verständnis von cis- und trans-α- und β-Kettenpaarung.

Da in den SA-Trainingsdaten nur cis-DQ-Varianten vertreten sind, können wir nicht vollständig ausschließen, dass die geringe Anzahl an Anmerkungen zu rein trans-Molekülen durch eine Verzerrung der Trainingsdaten verursacht wird. Diese potenzielle Verzerrung wird auch durch die Tatsache veranschaulicht, dass unsere Methode bei Proben, die mehrere cis-DQ-Moleküle enthielten, konsistent weniger Peptide für cis-Varianten annotierte, die nicht von den DQ-SA-Trainingsdaten abgedeckt wurden. Vor diesem Hintergrund wäre es von großem Wert, SA-Datensätze für zusätzliche DQ-Moleküle zu generieren, die derzeit nur durch cis-MA-Daten abgedeckt werden, um den wahren Unterschied in den Peptidpräferenzen und Präsentationshierarchien für diese Varianten aufzudecken. Darüber hinaus war der unabhängige MA-Datensatz, der zum Benchmarking mit MixMHC2pred verwendet wurde, sehr verrauscht und lieferte daher nicht die beste Darstellung der Vorhersagekraft jeder Methode. Daher sind zusätzliche hochwertige DQ-MA-Datensätze erforderlich, um die Vorhersagekraft der verschiedenen Methoden weiter zu validieren und zu vergleichen und um zu beurteilen, welcher Methodenansatz für den Umgang mit Nur-Trans-Varianten besser ist.

Beachten Sie, dass die Definition von cis- und trans-only-HLA-DQ-α- und β-Kettenkombinationen, die in dieser Arbeit angewendet wird, von den aktuell verfügbaren Haplotypdaten und der Annahme abhängt, dass alle beobachteten Haplotyp-α- und β-Kombinationen paaren und cis bilden können. Varianten und alle anderen Kombinationen, die nicht als solche cis-Varianten beobachtet werden, sind nur trans. Das Volumen der aktuellen Daten, die diese Kategorien definieren, ist begrenzt und für genauere Analysen sind größere Stichproben erforderlich, insbesondere für heterogenere Gruppen und Haplotypen mit geringer Häufigkeit13.

Abschließend haben wir gezeigt, wie die Abdeckung von HLA-DQ-Molekülen durch die mit den neuartigen Daten trainierten Modelle erheblich erhöht wurde, und dies durch die Konstruktion eines HLA-DQ-Baums veranschaulicht, der die Abdeckung aller Zweige zeigt. Dies legt nahe, dass das aktuelle Modell alle HLA-DQ-Bindungsspezifitäten abdeckt (wenn man bedenkt, dass nur trans-HLA-DQ-Moleküle nur einen begrenzten oder gar keinen Beitrag zum gesamten HLA-DQ-Immunpeptidom leisten).

Insgesamt hat diese Arbeit gezeigt, wie eine sorgfältige Datengenerierung mithilfe eines DQ-spezifischen Antikörpers und Affinitätsreinigung in Kombination mit verfeinertem Data Mining und Motiventfaltung dazu eingesetzt werden kann, die Leistungslücke bei der Vorhersage der Peptidbindung zwischen HLA-DR und HLA-DQ zu schließen. Trotz des hier gezeigten großen Leistungszuwachses bleibt die Genauigkeit für HLA-DQ unter der für DR beobachteten Genauigkeit. Wir zeigen, dass dies zu einem sehr großen Teil auf die allgemein geringere Quantität und Qualität der Liganden zurückzuführen ist, die in früheren DQ-Immunpräzipitationsstudien erhalten wurden, bei denen DQ- (und DP-)Daten am häufigsten mit einem Pan-HLA-Klasse-II-Antikörper erhalten wurden (nach dem ersten). Erschöpfung für HLA-DR29). Wenn wir uns ausschließlich auf die neuartigen Daten konzentrieren, die in dieser Studie generiert wurden, stellen wir fest, dass sowohl die Quantität als auch die Qualität der erhaltenen DQ-Liganden mit denen für HLA-DR vergleichbar sind, was dazu führt, dass die Vorhersageleistung für den zugehörigen Datensatz zwischen beiden gleich ist. Dieses Ergebnis hat große Auswirkungen und legt nahe, dass die Modellierung von DQ eine Aufgabe von gleicher Komplexität wie die von HLA-DR ist und dass die derzeit geringere Leistung von DQ im Vergleich zu DR auf die geringe Quantität und Qualität der Daten zurückzuführen ist. Eine Situation, die durch die Generierung qualitativ hochwertiger und umfangreicher Daten gelöst werden kann, wie in dieser Studie beschrieben.

Zusammenfassend lässt sich sagen, dass ein wichtiges Ergebnis unserer Arbeit neben dem Nachweis einer insgesamt verbesserten Vorhersageleistung und Abdeckung von HLA-DQ-Molekülen ein verbessertes Verständnis des relativen Beitrags von cis- im Vergleich zu nur trans-gepaarten Molekülen zum gesamten HLA-DQ-Immunpeptidom ist Letztere spielen bei der Ergänzung des Spezifitätsraums nur eine sehr begrenzte Rolle. Wir glauben, dass diese Ergebnisse eine Grundlage für weitere Forschungen bilden werden, die die molekulare Rolle von HLA-DQ beim Ausbruch der zellulären Immunität bei Autoimmun- und Infektionskrankheiten definieren.

Homozygote B-Lymphoblastoid-Zelllinien (BLCL) wurden von der Zell- und DNA-Bank der International Histocompatibility Working Group (IHWG) im Fred Hutchinson Cancer Research Center, Seattle, WA (http://www.ihwg.org) bezogen. Für die Studie wurde eine Gruppe von 16 Zelllinien ausgewählt, die die hochfrequenten HLA-DQ-Allele exprimieren (Ergänzungsdaten 1). Um eine intakte Verarbeitungs- und Präsentationsmaschinerie der Klasse II zu gewährleisten und sicherzustellen, dass die gesamte HLA-DQ-Expression dem physiologischen Niveau entspricht, wurde auf die Verwendung manipulierter Zellen verzichtet.

Die Zellen wurden in hochdichten Kulturen in Rollerflaschen in komplettem RPMI-Medium (Gibco), ergänzt mit 15 % fötalem Rinderserum (FBS; Gibco/Invitrogen Corp) und 1 % 100 mM Natriumpyruvat (Gibco), gezüchtet. Die Zellen wurden aus der Suspension geerntet, mit PBS gewaschen und 10 Minuten lang bei 4 °C zentrifugiert. Die Zellpellets wurden sofort in LN2 eingefroren und bis zur Weiterverarbeitung bei –80 °C gelagert23. Alle Zelllinien wurden unmittelbar nach Erhalt und Wachstum in unserem Labor einer hochauflösenden HLA-Typisierung (HLA-A, -B, -C, DRB1, 4, 5, DP und DQ) zur Authentifizierung vor der groß angelegten Kultur unterzogen und Datenerfassung. Der anti-humane HLA-DQ-spezifische monoklonale Antikörper wurde hausintern aus einer Hybridomzelllinie (Klon SPVL3) hergestellt und zur Affinitätsreinigung des gesamten HLA-DQ aus den BLCLs verwendet.

HLA-DQ-Moleküle wurden durch Affinitätschromatographie unter Verwendung des spezifischen Anti-Human-HLA-DQ-Antikörpers (Klon SPVL3) aus den Zellen gereinigt. Immunaffinitätssäulen wurden durch Kopplung von 2 mg des gereinigten Antikörpers an 1 ml Matrix (CNBr-aktivierte Sepharose 4 Fast Flow, Amersham Pharmacia Biotech, Orsay, Frankreich)23 erzeugt. Gefrorene Zellpellets wurden mit der Retsch Mixer Mill MM400 pulverisiert, in Lysepuffer resuspendiert, der aus Tris pH 8,0 (50 mM), Igepal, 0,5 %, NaCl (150 mM) und einem vollständigen Proteaseinhibitor-Cocktail (Roche, Mannheim, Deutschland) bestand, und bei inkubiert 1 Stunde bei 4 °C auf einem Rotationsschüttler. Die Lysate wurden in einer Optima XPN-80-Ultrazentrifuge (Beckman Coulter, IN, USA) 90 Minuten lang bei 4 ° C (200.000 xg) zentrifugiert. Geklärte Überstände wurden unter Verwendung eines 0,45-µm-Filters filtriert und über Nacht bei 4 °C auf Immunaffinitätssäulen geladen. Die Säulen wurden nacheinander mit 10 cv Waschpuffern bei pH 8,026 gewaschen und mit 0,2 N Essigsäure eluiert. Das HLA wurde denaturiert und die Peptide durch Zugabe von Eisessig (bis zu 10 %) und Erhitzen (76 °C für 10 Minuten) isoliert. Die Mischung aus Peptiden und HLA-DQ wurde einer Umkehrphasen-Hochleistungsflüssigkeitschromatographie (RP-HPLC) unterzogen.

RP-HPLC wurde verwendet, um die Komplexität der aus der Affinitätssäule eluierten Peptidmischung zu reduzieren. Zunächst wurde das Eluat unter Vakuum mit einem CentriVap-Konzentrator (Labconco, Kansas City, Missouri, USA) getrocknet. Der feste Rückstand wurde in 10 % Essigsäure gelöst und über eine 150 mm lange Gemini C18-Säule, Porengröße 110 Å, Partikelgröße 5 µm (Phenomenex, Torrance, Kalifornien, USA) unter Verwendung eines Paradigm MG4-Instruments (Michrom BioResources, Auburn) fraktioniert , Kalifornien, USA). Ein Acetonitril (ACN)-Gradient wurde bei pH 2 unter Verwendung eines Zwei-Lösungsmittel-Systems durchgeführt. Lösungsmittel A enthielt 2 % ACN in Wasser und Lösungsmittel B enthielt 5 % Wasser in ACN. Sowohl Lösungsmittel A als auch Lösungsmittel B enthielten 0,1 % Trifluoressigsäure (TFA). Die Säule wurde mit 2 % Lösungsmittel B voräquilibriert. Die Probe wurde in einem Zeitraum von 18 Minuten unter Verwendung eines Lösungsmittelsystems, das aus 2 % Lösungsmittel B bestand, mit einer Flussrate von 120 µl/min auf die Säule geladen. Dann wurde ein Zwei-Segment-Gradient mit einer Flussrate von 160 µl/min durchgeführt: 4 bis 40 % Lösungsmittel B für 40 Minuten, gefolgt von 40 bis 80 % Lösungsmittel B für 8 Minuten23. Die Fraktionen wurden in 2-Minuten-Intervallen mit einem Gilson FC 203B-Fraktionssammler (Gilson, Middleton, Wisconsin, USA) gesammelt und das Ultraviolettabsorptionsprofil (UV) des Eluats bei einer Wellenlänge von 215 nm aufgezeichnet.

Peptidhaltige HPLC-Fraktionen wurden getrocknet und in einem Lösungsmittel bestehend aus 10 % Essigsäure, 2 % ACN und iRT-Peptiden (Biognosys, Schlieren, Schweiz) als interne Standards resuspendiert. Die Fraktionen wurden einzeln auf eine nanoskalige RP-HPLC Eksigent nanoLC 415 (AB Sciex, Framingham, Massachusetts, USA) aufgetragen, einschließlich einer 5 mm langen Chrom XP C18-Fangsäule mit 350 µm Innendurchmesser und 3 µm großen Partikeln und 120 Å Poren eine 15 cm lange ChromXP C18-Trennsäule (75 µm Innendurchmesser), gepackt mit dem gleichen Medium (AB Sciex, Framingham, Massachusetts, USA). Ein ACN-Gradient wurde bei pH 2,5 unter Verwendung eines Systems mit zwei Lösungsmitteln durchgeführt. Lösungsmittel A war 0,1 % Ameisensäure in Wasser und Lösungsmittel B war 0,1 % Ameisensäure in 95 % ACN in Wasser. Die Säule wurde mit 2 % Lösungsmittel B voräquilibriert. Die Proben wurden mit einer Flussrate von 5 μl/min auf die Fallensäule geladen und mit 300 nl/min und zwei linearen Gradienten durch die Trennsäule geleitet: 10 bis 40 % B für 70 Minuten , gefolgt von 40 bis 80 % B für 7 Minuten.

Der Säulenausfluss wurde unter Verwendung der Nanospray III-Ionenquelle eines AB Sciex TripleTOF 5600 Vierfach-Flugzeit-Massenspektrometers (AB Sciex, Framingham, MA, USA) ionisiert, wobei die Quellenspannung auf 2400 V eingestellt war. Informationsabhängige Analyse (IDA ) von Peptidionen wurde basierend auf einem Vermessungsscan im TOF-MS-Positivionenmodus über einen Bereich von 300 bis 1250 m/z für 0,25 s erfasst. Nach jedem Vermessungsscan wurden bis zu 22 Ionen mit einem Ladungszustand von 2–5 und einer Intensität von mindestens 200 Zählimpulsen pro Sekunde einer kollisionsinduzierten Dissoziation (CID) für die Tandem-MS-Analyse (MS/MS) über einen Zeitraum von maximal 100 Jahren unterzogen 3,3 s. Die Auswahl eines bestimmten Ions m/z war nach drei ersten MS/MS-Experimenten 30 s lang ausgeschlossen. Dynamische Kollisionsenergie wurde genutzt, um die Kollisionsspannung basierend auf der Ionengröße und -ladung automatisch anzupassen23. Zur Datenvisualisierung wurde die PeakView-Software Version 1.2.0.3 (AB Sciex, Framingham, MA, USA) verwendet.

Peptidsequenzen wurden mit der Software PEAKS Studio 10.5 (Bioinformatics Solutions, Waterloo, Kanada) bei einer Vorläufer-Massenfehlertoleranz von 30 ppm und einer Fragment-Massenfehlertoleranz von 0,02 Da identifiziert. Als Referenz für die Datenbanksuche wurde eine Datenbank bestehend aus SwissProt Homo sapiens (Taxon-Identifikator 9606) und iRT-Peptidsequenzen verwendet. Variable posttranslationale Modifikationen (PTM), einschließlich Acetylierung, Desamidierung, Pyroglutamatbildung, Oxidation, Natriumaddukte, Phosphorylierung und Cysteinylierung, wurden in die Datenbanksuche einbezogen. Identifizierte Peptide wurden mit einer Falscherkennungsrate (FDR) von 1 % unter Verwendung des PEAKS-Deoy-Fusion-Algorithmus weiter gefiltert.

Die Immunpeptidomdaten bestehen aus MS-eluierten Liganden- (EL) und Bindungsaffinitätsdaten (BA) des früheren NetMHCIIpan-4.1 in Kombination mit den EL-Daten, die speziell für diese Studie generiert wurden (siehe oben). Der neuartige MS-Immunpeptidom-Datensatz umfasst 14 verschiedene HLA-DQ-Moleküle, die aus 16 homozygoten BLCLs gewonnen wurden. Diese Daten wurden gefiltert, um potenzielle HLA-Klasse-I-Binder und andere co-immunpräzipitierte Kontaminanten auszuschließen, was zu einer Liste von Peptiden der Länge 12–2123 führte.

Die EL-Daten wurden auf das menschliche Referenzquellenproteom abgebildet, um den Kontext des Quellproteins zu definieren. Peptide ohne identische Referenzübereinstimmung wurden ausgeschlossen, was dazu führte, dass etwa 4 % der Peptide verworfen wurden. Schließlich wurden die EL-Daten pro Proben-ID mit zufälligen natürlichen Peptiden angereichert, die als negativ zugeordnet wurden. Diese Anreicherung erfolgte durch gleichmäßige Probenahme von Peptiden mit einer Länge von 12 bis 21 Aminosäuren in einer Menge, die dem Fünffachen der Anzahl der Peptide mit der häufigsten Länge in den positiven Daten für die gegebene Probe entsprach.

Unser endgültiger neuartiger Datensatz besteht aus 39.334 positiven und 369.313 negativen Peptiden, die 14 einzigartige HLA-DQ-Moleküle abdecken. Die positiven Peptide dieses Datensatzes sind in den Zusatzdaten 2 verfügbar. Durch die Zusammenführung der neuen EL-Daten mit den früheren NetMHCIIpan-4.1-Daten (erweitert um Peptide mit einer Länge von 12 Aminosäuren) bestehen die vollständigen EL-Daten aus 480.845 positiven und 4.910.165 negativen Datenpunkten aus 177 Proben/Zelllinien, und die BA-Daten bestehen aus 129.110 Datenpunkten.

Die Daten wurden zur kreuzvalidierten Methodenschulung und -auswertung unter Verwendung des Common-Motif-Ansatzes35 in fünf Teilmengen unterteilt, wobei EL- und BA-Daten zusammengeführt wurden, um sicherzustellen, dass Peptide mit einer identischen Überlappung von 9 oder mehr aufeinanderfolgenden Aminosäuren in derselben Teilmenge platziert wurden.

Die Modelle wurden mit dem NNAlign_MA-Framework für maschinelles Lernen31 auf ähnliche Weise wie für NetMHCIIpan-4.02 trainiert. Das heißt, das vollständige Modell besteht aus einem Ensemble von 100 neuronalen Netzen zweier unterschiedlicher Architekturen, beide mit einer verborgenen Schicht und entweder 40 oder 60 verborgenen Neuronen, mit 10 zufälligen Gewichtsinitialisierungen für jede der 5 Kreuzvalidierungsfalten (2 Architekturen, 10 Samen und 5 Falten). Alle Modelle wurden mithilfe von Backpropagation mit stochastischem Gradientenabstieg über 300 Epochen ohne vorzeitiges Stoppen und einer konstanten Lernrate von 0,05 trainiert. Für einen Einbrennzeitraum von 20 Epochen wurden nur Einzelalleldaten (SA) in das Training einbezogen. Nachfolgende Trainingszyklen umfassten Multi-Allel-Daten (MA). Es wurden zwei Hauptmodelle trainiert, eines mit den ursprünglichen NetMHCIIpan-4.1-Daten und eines mit den neuartigen HLA-DQ-Daten. Darüber hinaus wurde ein zusätzliches Modell mit den neuen Daten mithilfe der Peptidkontextkodierung trainiert. Hier wurde der Kontext sowohl am N- als auch am C-Terminus des Peptids als drei Reste des Quellproteins definiert, die das Peptid flankieren, zusammen mit drei Startresten des Peptids, die alle zu einer 12-mer-Aminosäuresequenz verkettet sind. Weitere Einzelheiten finden Sie bei Barra et al. 201827.

Bei MA-Datensätzen basiert die HLA-Annotation für jedes Peptid darauf, welches der in der jeweiligen Zelllinie exprimierten HLA-Moleküle den höchsten Vorhersagewert erhalten hat. Um die Unterschiede zwischen den Vorhersage-Score-Verteilungen der HLAs auszugleichen, wurden perzentilnormalisierte Vorhersage-Scores für jedes Molekül generiert, indem die Vorhersage-Scores mit einer Verteilung von Vorhersage-Scores zufälliger natürlicher Peptide verglichen wurden. Wenn beispielsweise ein Peptidligand einen Perzentilrangwert von 1 erhält, bedeutet dies, dass 1 % der zufälligen Peptide einen höheren Vorhersagewert hatten als der Peptidligand für das gegebene HLA19,36.

Die Leistung wurde anhand der verketteten Kreuzvalidierungs-Testsatzvorhersagen anhand von drei separaten Metriken bewertet, nämlich AUC (Fläche unter der ROC-Kurve), AUC 0,1 (Fläche unter der ROC-Kurve integriert bis zu einer Falsch-Positiv-Rate von 10 %) und positiver Vorhersagewert (PPV). Jede Metrik wurde pro HLA aus den „rohen“ Vorhersagewerten nach der HLA-Annotation berechnet. Darüber hinaus wurde der PPV als Anteil der wirklich positiven Ergebnisse in den Top-N-Vorhersagen berechnet, wobei N die Anzahl der Liganden ist, die einem bestimmten HLA-Molekül zugeordnet sind. Für die Leistungsbewertung pro HLA wurden nur HLA-Moleküle mit mindestens 10 positiven Peptiden in beiden Modellen in die Leistungsbewertung einbezogen, um ein gewisses Maß an Sicherheit bei den berechneten Leistungsmetriken zu gewährleisten.

Um den Einfluss der neuartigen DQ-Daten auf die Motiventfaltung von NNAlign_MA zu bewerten, wurde eine Konsistenzkorrelationsmatrixanalyse durchgeführt2. Um zu vermeiden, dass potenziell durch MS co-immunpräzipitierte kontaminierende Peptide diese Analyse verzerren, wurde die Vereinigung der identifizierten Müllpeptide (dh positive Peptide mit einem Perzentilrang >20 in einem der beiden Modelle) entfernt. Als nächstes wurde für jedes Molekül in jeder Zelllinie eine positionsspezifische Bewertungsmatrix (PSSM) basierend auf den vorhergesagten Peptidbindungskernen erstellt. Hier waren mindestens 20 positive Peptide erforderlich, damit ein PSSM generiert werden konnte. Anschließend wurde für jedes Zelllinienpaar, das ein bestimmtes Molekül teilt, der Pearson-Korrelationskoeffizient (PCC) zwischen den PSSMs des Moleküls berechnet. Der mittlere Konsistenzwert für ein bestimmtes Molekül wurde dann als durchschnittlicher PCC für jedes einzelne Zelllinienpaar (ohne Selbstkorrelationen) angegeben. Diese Metrik gibt somit an, wie konsistent die identifizierten Bindungsmotive über verschiedene Datensätze hinweg für jedes HLA-Klasse-II-Molekül sind.

Der Abstand zwischen zwei HLA-Klasse-II-Molekülen wurde aus dem Pseudoabstand der beiden Moleküle geschätzt, d. h

wobei s(X, Y) die summierte BLOSUM 50-Ähnlichkeit zwischen den Pseudosequenzen der Moleküle X und Y37 ist. Hier wurde jede Pseudosequenz aus einem Satz von 34 polymorphen Resten innerhalb der HLA-Sequenz definiert, die zu einer kontinuierlichen Sequenz verkettet sind, von denen 15 bzw. 19 Reste von der α- bzw. β-Kette stammen32.

Eine Liste der HLA-DQ-α- und -β-Ketten, die vorherrschende stabile HLA-DQ-Heterodimere bilden, wurde erstellt, indem zunächst Listen von DQA1- und DQB1-Allelen mit annotierten weltweiten Allelfrequenzen erhalten wurden. Dies erfolgte durch Abfrage der Datenbank allelefrequencies.net38 nach hochauflösenden Allelen in Populationen mit einer Größe von 100 und mehr. Als nächstes wurden die weltweiten Allelhäufigkeiten als gewichtete Durchschnittswerte der Populationsgröße ermittelt, wobei die maximale Populationsgröße auf 1000 begrenzt wurde. Schließlich wurde eine Liste der vorherrschenden HLA-DQ-Moleküle erstellt, indem alle α- und β-Kombinationen gemäß den in Tabelle 1 aufgeführten Einschränkungen gepaart wurden, wobei nur Moleküle einbezogen wurden mit einer kombinierten Allelfrequenz >0,00005. Daraus entstand eine Liste von 154 HLA-DQ-Molekülen.

Die weltweiten HLA-DQ-Haplotyp-Häufigkeiten wurden geschätzt, indem die Datenbank allelefrequencies.net38 nach hochauflösenden DQ-Haplotypen in Populationen mit einer Größe von 100 und mehr abgefragt wurde, wobei der Durchschnitt über die Population wie oben für HLA-DQ-Häufigkeiten beschrieben wurde.

Ein HLA-DQ-Spezifitätsbaum wurde erstellt, indem zunächst die Liste der 154 vorherrschenden HLA-DQ-Moleküle auf den Satz eindeutiger Pseudosequenzen unter den Molekülen reduziert wurde. Anschließend wurde jede einzelne Pseudosequenz einem repräsentativen HLA-DQ-Molekülnamen zugeordnet. Standardmäßig wurde nach Möglichkeit ein DQ-Molekül in der Liste der von den Trainingsdaten abgedeckten Moleküle zur Darstellung einer Pseudosequenz verwendet. Darüber hinaus wurden alle 14 DQ-Moleküle in den neuen Daten verwendet, um ihre gegebenen Pseudosequenzen darzustellen. In anderen Fällen mehrerer Optionen für eine bestimmte Pseudosequenz wurde das im Hinblick auf die globale Allelhäufigkeit am häufigsten vorkommende DQ-Molekül ausgewählt. Der Spezifitätsbaum wurde dann mit der MHCCluster-Methode33 berechnet und mit dem Iroki phylogenetic Tree Viewer39 visualisiert.

Ein ähnlicher Baum wurde basierend auf der Clusterung der DQ-Pseudosequenzen erstellt. Dieser Baum wurde mit ClustalW-2.140 unter Verwendung seiner phylogenetischen Baumfunktion berechnet und erneut mit dem Iroki Tree Viewer39 visualisiert.

Für unseren Benchmark gegen MixMHC2pred-2.07 wurde ein unabhängiger Datensatz von Marcu et al.34 übernommen, der aus eluierten Ligandendaten von 15 Spenderproben besteht (aufgelistet in der Ergänzungstabelle 7). Diese Daten wurden auf die gleiche Weise wie die Trainingsdaten verarbeitet, dh Peptide wurden auf das menschliche Proteom abgebildet, um den Kontext zu definieren, und anschließend mit zufälligen negativen Peptiden angereichert. Um Verzerrungen zu reduzieren, wurden Peptide, die in den EL-Trainingsdaten unserer Methode vorhanden waren, nicht in den Benchmark einbezogen. Dies ergab insgesamt 163.933 positive und 2.900.818 negative Peptide, die 66 einzigartige HLA-Klasse-II-Moleküle abdeckten.

Vorhersagen zu den Benchmark-Daten wurden sowohl mit als auch ohne Peptidkontextkodierung gemacht. Bei Peptiden, die sich in der Nähe des Anfangs oder Endes des Quellproteins befinden, wurden fehlende Kontextreste in MixMHC2pred-2.0 bzw. unserer Methode durch „-“ und „A“ dargestellt. Darüber hinaus basierte sowohl in unserer Methode als auch in MixMHC2pred die HLA-Annotation für jedes Peptid auf dem niedrigsten Perzentilrangwert, der von der angegebenen Methode für die HLA-Moleküle in der angegebenen Probe gemeldet wurde.

Die Leistung wurde pro Probe anhand von AUC, AUC 0,1 und PPV bewertet. Für unsere Methode haben wir die Leistungswerte auf die gleiche Weise wie bei der Kreuzvalidierung unter Verwendung der „rohen“ Vorhersagewerte berechnet, während für MixMHC2pred-2.0 die Leistung anhand der gemeldeten Perzentilrangwerte berechnet wurde.

Datenvisualisierungen in den Manuskriptabbildungen wurden in Python 3.8 unter Verwendung der Matplotlib-Bibliothek (Version 3.5.1) und der Seaborn-Bibliothek (Version 0.12.0) erstellt. Sequenzlogos wurden mit Seq2Logo-2.041 erstellt.

Statistische Analysen wurden in Python 3.8 unter Verwendung der Scipy-Bibliothek (Version 1.9.1) durchgeführt. Für jeden statistischen Test basierte die Probengröße auf der Anzahl der in den Daten vorhandenen Proben oder HLA-Moleküle. Darüber hinaus wurde in jedem Test ein Standardsignifikanzniveau von 0,05 verwendet. Für die Leistungsbewertungen wurden die statistischen Tests hauptsächlich mit einseitigen Binomialtests unter Ausschluss von Unentschieden durchgeführt. Die alternative Hypothese bei diesen Tests lautet daher, dass die mit den neuen Daten trainierte Methode bei einer bestimmten Probe oder einem bestimmten HLA-Molekül mit größerer Wahrscheinlichkeit eine bessere Leistung erbringt als die andere Methode.

Die Reproduzierbarkeit unserer experimentellen und rechnerischen Ergebnisse wurde durch sehr detaillierte Beschreibungen der experimentellen Designs und die Bereitstellung aller relevanten Datensätze sichergestellt (siehe „Datenverfügbarkeit“). Für die experimentelle Datengenerierung verwendeten wir zwei Sätze verschiedener homozygoter BLCLs, die dasselbe HLA-DQ-Allel teilen, um die Reproduzierbarkeit der für diese Allele erhaltenen Motive zu bestätigen (721.221 und IHW09004 teilten sich das DQA1*01:01-DQB1*05:01-Allel und). IHW09072 und IHW9100 teilten sich das Allel DQA1*04:01-DQB1*04:02.

Weitere Informationen zum Forschungsdesign finden Sie in der mit diesem Artikel verlinkten Nature Portfolio Reporting Summary.

Die Massenspektrometrie-Proteomikdaten wurden über das PRIDE42-Partnerrepository mit der Datensatzkennung PXD040860 und 10.6019/PXD040860 beim ProteomeXchange-Konsortium hinterlegt. Die HLA-Typisierung für die 16 in der Studie verwendeten BLCLs ist in den Zusatzdaten 1 enthalten. Die für diese Studie generierten neuartigen Immunopeptidomics-Daten sind in den Zusatzdaten 2 verfügbar. Die zur Generierung der Hauptzahlen verwendeten numerischen Quelldaten sind in den Zusatzdaten 3 enthalten. Das Training Der in der Studie verwendete Datensatz kann vom NetMHCIIpan-4.2-Webserver auf der Seite „Trainingsdatensätze“ heruntergeladen werden, verfügbar unter https://services.healthtech.dtu.dk/services/NetMHCIIpan-4.2/.

Rocha, N. & Neefjes, J. MHC-Klasse-II-Moleküle auf dem Weg zur erfolgreichen Antigenpräsentation. EMBO J. 27, 1–5 (2008).

Artikel CAS PubMed Google Scholar

Reynisson, B. et al. Verbesserte Vorhersage der MHC II-Antigenpräsentation durch Integration und Motiventfaltung von massenspektrometrischen MHC-eluierten Ligandendaten. J. Proteome Res. 19, 2304–2315 (2020).

Artikel CAS PubMed Google Scholar

Arango, MT et al. HLA-DRB1, das berüchtigte Gen im Mosaik der Autoimmunität. Immunol. Res. 65, 82–98 (2017).

Artikel CAS PubMed Google Scholar

Erlich, H. et al. HLA-DR-DQ-Haplotypen und -Genotypen sowie Typ-1-Diabetes-Risikoanalyse der Familien des Typ-1-Diabetes-Genetik-Konsortiums. Diabetes 57, 1084–1092 (2008).

Artikel CAS PubMed Google Scholar

Hu, X. et al. Additive und Interaktionseffekte an drei Aminosäurepositionen in HLA-DQ- und HLA-DR-Molekülen erhöhen das Risiko für Typ-1-Diabetes. Nat. Genet 47, 898–905 (2015).

Artikel CAS PubMed PubMed Central Google Scholar

Stepniak, D. et al. Die groß angelegte Charakterisierung natürlicher Liganden erklärt die einzigartigen glutenbindenden Eigenschaften von HLA-DQ2. J. Immunol. 180, 3268–3278 (2008).

Artikel CAS PubMed Google Scholar

Racle, J. et al. Vorhersagen des maschinellen Lernens zu MHC-II-Spezifitäten offenbaren alternative Bindungsmodi von Klasse-II-Epitopen. bioRxiv https://doi.org/10.1101/2022.06.26.497561 (2022).

Bergseng, E. et al. Verschiedene Bindungsmotive der Zöliakie-assoziierten HLA-Moleküle DQ2.5, DQ2.2 und DQ7.5, aufgedeckt durch relative quantitative Proteomik endogener Peptidrepertoires. Immunogenetics 67, 73–84 (2014).

Artikel PubMed PubMed Central Google Scholar

Sidney, J. et al. Divergente Motive, aber überlappende Bindungsrepertoires von sechs HLA-DQ-Molekülen, die in der weltweiten menschlichen Bevölkerung häufig vorkommen. J. Immunol. 185, 4189–4198 (2010).

Artikel CAS PubMed Google Scholar

Vartdal, F. et al. Das Peptidbindungsmotiv des krankheitsassoziierten HLA-DQ-Moleküls (α 1* 0501, β 1* 0201). EUR. J. Immunol. 26, 2764–2772 (1996).

Artikel CAS PubMed Google Scholar

Tollefsen, S. et al. Strukturelle und funktionelle Studien des transkodierten HLA-DQ2.3-Proteinmoleküls (DQA1*03:01/DQB1*02:01). J. Biol. Chem. 287, 13611–13619 (2012).

Artikel CAS PubMed PubMed Central Google Scholar

Kwok, WW, Kovats, S., Thurtle, P. & Nepom, GT HLA-DQ-Allelpolymorphismen schränken Muster der Klasse-II-Heterodimerbildung ein. J. Immunol. 150, 2263–2272 (1993).

Artikel CAS PubMed Google Scholar

Creary, LE et al. Hochauflösende HLA-Allel- und Haplotyp-Häufigkeiten in mehreren nicht verwandten Populationen, bestimmt durch Next-Generation-Sequenzierung: Gemeinsamer Bericht des 17. Internationalen HLA- und Immunogenetik-Workshops. Summen. Immunol. 82, 505–522 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Petersdorf, EW et al. HLA-DQ-Heterodimere bei der hämatopoetischen Zelltransplantation. Blut 139, 3009–3017 (2022).

Artikel CAS PubMed Google Scholar

Lundin, KE et al. T-Lymphozyten-Erkennung eines Zöliakie-assoziierten cis- oder transkodierten HLA-DQ-Alpha/Beta-Heterodimers. J. Immunol. 145, 136–139 (1990).

Artikel CAS PubMed Google Scholar

Kwok, WW & Nepom, GT Strukturelle und funktionelle Einschränkungen bei HLA-Klasse-II-Dimeren, die an der Anfälligkeit für insulinabhängigen Diabetes mellitus beteiligt sind. Baillieres-Klinik. Endokrinol. Metab. 5, 375–393 (1991).

Artikel CAS PubMed Google Scholar

McFarland, BJ & Beeson, C. Bindungsinteraktionen zwischen Peptiden und Proteinen des Klasse-II-Major-Histokompatibilitätskomplexes. Med Res. Rev. 22, 168–203 (2002).

Artikel CAS PubMed Google Scholar

Nielsen, M., Andreatta, M., Peters, B. & Buus, S. Immuninformatik: Vorhersage der Peptid-MHC-Bindung. Annu Rev. Biomed. Datenwissenschaft. 3, 191–215 (2020).

Artikel Google Scholar

Reynisson, B., Alvarez, B., Paul, S., Peters, B. & Nielsen, M. NetMHCpan-4.1 und NetMHCIIpan-4.0: verbesserte Vorhersagen der MHC-Antigenpräsentation durch gleichzeitige Motiventfaltung und Integration von MS-MHC-eluierten Ligandendaten . Nukleinsäuren Res. 48, W449–W454 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Gfeller, D. & Bassani-Sternberg, M. Vorhersage der Antigenpräsentation – Was können wir aus einer Million Peptiden lernen? Frontimmunol. 9, 1716 (2018).

Artikel PubMed PubMed Central Google Scholar

Nielsen, M., Lund, O., Buus, S. & Lundegaard, C. MHC-Klasse-II-Epitop-Vorhersagealgorithmen. Immunologie 130, 319–328.

Artikel CAS PubMed PubMed Central Google Scholar

Bassani-Sternberg, M. et al. Direkte Identifizierung klinisch relevanter Neoepitope, die auf nativem menschlichem Melanomgewebe präsentiert werden, mittels Massenspektrometrie. Nat. Komm. 7, 13404 (2016).

Artikel CAS PubMed PubMed Central Google Scholar

Kaabinejadian, S. et al. Die genaue MHC-Motiv-Entfaltung der Immunpeptidomikdaten zeigt einen signifikanten Beitrag von DRB3, 4 und 5 zum gesamten DR-Immunpeptidom. Frontimmunol. 13, 835454 (2022).

Artikel CAS PubMed PubMed Central Google Scholar

Alvarez, B., Barra, C., Nielsen, M. & Andreatta, M. Computerwerkzeuge zur Identifizierung und Interpretation von Sequenzmotiven in Immunpeptidomen. Proteomics 18, 1700252 (2018).

Artikel Google Scholar

Caron, E. et al. Analyse von Immunpeptidomen des Haupthistokompatibilitätskomplexes (MHC) mittels Massenspektrometrie. Mol. Zelle. Proteom. 14, 3105–3117 (2015).

Artikel CAS Google Scholar

Purcell, AW, Ramarathinam, SH & Ternette, N. Massenspektrometrie-basierte Identifizierung von MHC-gebundenen Peptiden für die Immunpeptidomik. Nat. Protokoll. 14, 1687–1707 (2019).

Artikel CAS PubMed Google Scholar

Barra, C. et al. Spuren der Antigenverarbeitung verbessern die Vorhersage natürlicher MHC-Klasse-II-Liganden. Genome Med 10, 84 (2018).

Artikel CAS PubMed PubMed Central Google Scholar

Paul, S. et al. Bestimmung eines prädiktiven Spaltungsmotivs für eluierte Haupthistokompatibilitätskomplex-Klasse-II-Liganden. Vorderseite. Immunol. 9, 1795 (2018).

Artikel PubMed PubMed Central Google Scholar

Racle, J. et al. Robuste Vorhersage von HLA-Klasse-II-Epitopen durch tiefe Motiventfaltung von Immunpeptidomen. Nat. Biotechnologie. 37, 1283–1286 (2019).

Artikel CAS PubMed Google Scholar

Wang, P. et al. Peptidbindungsvorhersagen für HLA DR-, DP- und DQ-Moleküle. BMC Bioinforma. 11, 568 (2010).

Artikel Google Scholar

Alvarez, B. et al. NNAlign_MA; MHC-Peptidom-Entfaltung für eine genaue Charakterisierung des MHC-Bindungsmotivs und verbesserte Vorhersagen von T-Zell-Epitopen. Mol. Zelle. Proteom. 18, 2459–2477 (2019).

Artikel CAS Google Scholar

Karosiene, E. et al. NetMHCIIpan-3.0, eine gängige panspezifische MHC-Klasse-II-Vorhersagemethode, die alle drei humanen MHC-Klasse-II-Isotypen HLA-DR, HLA-DP und HLA-DQ umfasst. Immunogenetics 65, 711–724 (2013).

Artikel CAS PubMed Google Scholar

Thomsen, MCF, Lundegaard, C., Buus, S., Lund, O. & Nielsen, M. MHCcluster, eine Methode zur funktionellen Clusterbildung von MHC-Molekülen. Immunogenetik 65, 655–665.

Artikel CAS PubMed PubMed Central Google Scholar

Marcu, A. et al. HLA-Ligandenatlas: eine nützliche Referenz von HLA-präsentierten Peptiden zur Verbesserung der T-Zell-basierten Krebsimmuntherapie. J. Immunother. Krebs 9, e002071 (2021).

Artikel PubMed PubMed Central Google Scholar

Nielsen, M., Lundegaard, C. & Lund, O. Vorhersage der MHC-Klasse-II-Bindungsaffinität mit SMM-align, einer neuartigen Stabilisierungsmatrix-Ausrichtungsmethode. BMC Bioinforma. 8, 238 (2007).

Artikel Google Scholar

Nielsen, M. & Andreatta, M. NetMHCpan-3.0; Verbesserte Vorhersage der Bindung an MHC-Klasse-I-Moleküle durch Integration von Informationen aus mehreren Rezeptor- und Peptidlängendatensätzen. Genommed. 8, 33 (2016).

Artikel PubMed PubMed Central Google Scholar

Hoof, I. et al. NetMHCpan, eine Methode zur MHC-Klasse-I-Bindungsvorhersage über den Menschen hinaus. Immunogenetics 61, 1–13 (2009).

Artikel CAS PubMed Google Scholar

Gonzalez-Galarza, FF, Christmas, S., Middleton, D. & Jones, AR Allelfrequenznetz: eine Datenbank und ein Online-Repository für Immungenhäufigkeiten in weltweiten Populationen. Nukleinsäuren Res. 39, D913–D919 (2011).

Artikel CAS PubMed Google Scholar

Moore, RM, Harrison, AO, McAllister, SM & Polson, SW & Eric Wommack, K. Iroki: Automatische Anpassung und Visualisierung phylogenetischer Bäume. PeerJ 8, e8584 (2020).

Artikel PubMed PubMed Central Google Scholar

Larkin, MA et al. Clustal W und Clustal X Version 2.0. Bioinformatik 23, 2947–2948 (2007).

Artikel CAS PubMed Google Scholar

Thomsen, MCF & Nielsen, M. Seq2Logo: eine Methode zur Konstruktion und Visualisierung von Aminosäurebindungsmotiven und Sequenzprofilen einschließlich Sequenzgewichtung, Pseudozählungen und zweiseitiger Darstellung der Aminosäureanreicherung und -verarmung. Nukleinsäuren Res. 40, W281–W287 (2012).

Artikel CAS PubMed PubMed Central Google Scholar

Perez-Riverol, Y. et al. Die PRIDE-Datenbank und zugehörige Tools und Ressourcen im Jahr 2019: Verbesserung der Unterstützung für Quantifizierungsdaten. Nukleinsäuren Res. 47, D442–D450 (2019).

Artikel CAS PubMed Google Scholar

Referenzen herunterladen

Die in dieser Veröffentlichung berichteten Forschungsergebnisse wurden vom National Institute of Allergy and Infectious Diseases (NIAID) unter der Fördernummer 75N93019C00001 unterstützt. Wir möchten Dr. Rico Buchli (Pure Protein, LLC) herzlich für die Bereitstellung der SPVL3-Affinitätssäulen für diese Studie danken. Wir danken außerdem Steven Cate (University of Oklahoma Health Sciences Center) und Sean Osborn (Pure MHC, LLC) für die HLA-Typisierung der BLCLs und sehr hilfreiche Diskussionen.

Diese Autoren haben gleichermaßen beigetragen: Jonas Birkelund Nilsson, Saghar Kaabinejadian.

Abteilung für Gesundheitstechnologie, Technische Universität Dänemark, DK-2800, Lyngby, Dänemark

Jonas Birkelund Nilsson, Carolina Barra und Morten Nielsen

Pure MHC, LLC, Oklahoma City, OK, USA

Saghar Kaabinejadian

Abteilung für Mikrobiologie und Immunologie, University of Oklahoma Health Sciences Center, Oklahoma City, OK, USA

Saghar Kaabinejadian, Hooman Yari und William Hildebrand

Zentrum für Infektionskrankheiten und Impfstoffforschung, La Jolla Institute for Immunology, La Jolla, CA, 92037, Kalifornien, USA

Björn Peters

Abteilung für Pathologie und Labormedizin, Tulane University School of Medicine, New Orleans, LA, 70112, USA

Loren Gragert

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

SK und MN haben die Studie entworfen. Die in der Studie verwendeten experimentellen Daten wurden von SK generiert, mit Beiträgen von HY und WHJBN, und MN generierte die Berechnungsergebnisse und Zahlen. BP, CB und LG trugen zur Methodik der cis- und trans-only DQ-Analyse bei und lieferten wissenschaftliches Feedback. Das Manuskript wurde von JBN, SK und MN verfasst, mit Beiträgen aller Autoren. Alle Autoren haben die endgültige Fassung des Papiers gelesen und genehmigt.

Korrespondenz mit Morten Nielsen.

SK ist Mitarbeiter bei Pure MHC, LLC. Die übrigen Autoren erklären keine konkurrierenden Interessen.

Communications Biology dankt Shanfeng Zhu, David Gfeller und den anderen, anonymen Gutachtern für ihren Beitrag zum Peer-Review dieser Arbeit. Hauptredakteur: Zhijuan Qiu.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht durch gesetzliche Vorschriften zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Nilsson, JB, Kaabinejadian, S., Yari, H. et al. Maschinelles Lernen zeigt einen begrenzten Beitrag von nur trans-kodierten Varianten zum HLA-DQ-Immunpeptidom. Commun Biol 6, 442 (2023). https://doi.org/10.1038/s42003-023-04749-7

Zitat herunterladen

Eingegangen: 01. Oktober 2022

Angenommen: 23. März 2023

Veröffentlicht: 21. April 2023

DOI: https://doi.org/10.1038/s42003-023-04749-7

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.