Ein skalierbares, spärliches neuronales Netzwerk-Framework für die Annotation seltener Zelltypen einzelner Zellen

NEUESTE NACHRICHTEN

Mar 06, 2023

Xiaomi bringt das MIJIA Smart Fragrance Machine Set mit einer 16-Millionen-Füllung auf den Markt

Mar 08, 2023

Globale Marktgröße und Prognose für automatische Etikettiermaschinen

Mar 10, 2023

Weltweiter Markt für Etikettiergeräte im Wert von 4,9 Milliarden US-Dollar bis 2031, angetrieben durch wachsende Nachfrage nach automatisierten Lösungen.

Mar 12, 2023

Fallstudie: HERMA-Etikettenapplikatoren für Rundläufer-Etikettiermaschinen von Gernep

Mar 14, 2023

Ein skalierbares, spärliches neuronales Netzwerk-Framework für die Annotation seltener Zelltypen einzelner Zellen

SENDEN SIE IHRE ANFRAGE

EINREICHEN

Mar 14, 2023

Ein skalierbares, spärliches neuronales Netzwerk-Framework für die Annotation seltener Zelltypen einzelner Zellen

Band Kommunikationsbiologie

Communications Biology Band 6, Artikelnummer: 545 (2023) Diesen Artikel zitieren

1312 Zugriffe

15 Altmetrisch

Details zu den Metriken

Automatische Zelltyp-Annotationsmethoden werden aufgrund ihrer schnellen und präzisen Vorteile zunehmend in der Analyse der Einzelzell-RNA-Sequenzierung (scRNA-seq) eingesetzt. Aktuelle Methoden berücksichtigen jedoch oft nicht das Ungleichgewicht von scRNA-seq-Datensätzen und ignorieren Informationen von kleineren Populationen, was zu erheblichen Fehlern bei der biologischen Analyse führt. Hier stellen wir scBalance vor, ein integriertes Framework für spärliche neuronale Netzwerke, das adaptive Gewichtsabtast- und Dropout-Techniken für automatische Annotationsaufgaben integriert. Anhand von 20 scRNA-seq-Datensätzen mit unterschiedlichen Maßstäben und Ungleichgewichtsgraden zeigen wir, dass scBalance aktuelle Methoden sowohl bei Annotationsaufgaben innerhalb als auch zwischen Datensätzen übertrifft. Darüber hinaus zeigt scBalance eine beeindruckende Skalierbarkeit bei der Identifizierung seltener Zelltypen in Datensätzen auf Millionenebene, wie in der bronchoalveolären Zelllandschaft gezeigt. scBalance ist außerdem deutlich schneller als häufig verwendete Tools und verfügt über ein benutzerfreundliches Format, was es zu einem überlegenen Tool für die scRNA-seq-Analyse auf der Python-basierten Plattform macht.

Seit der ersten Etablierung der Einzelzell-RNA-Sequenzierung (scRNA-seq) durch Tang et al. Im Jahr 20091 erfreute sich diese Technologie bei Wissenschaftlern in verschiedenen biologischen Forschungsbereichen rasch großer Beliebtheit. Im Vergleich zur herkömmlichen Massen-RNA-Sequenzierung, bei der nur das durchschnittliche Genexpressionsniveau der Proben gemessen wird, bietet scRNA-seq eine leistungsstarke Methode zur Profilierung von Transkriptomen auf zellspezifischer Ebene. Daher könnte es die Analyse einzelner Zellen ermöglichen und einen aussagekräftigeren Einblick in die Zellheterogenität geben. Die Entwicklung der scRNA-seq-Technologie wurde in mehreren Bereichen der biologischen Forschung weit verbreitet eingesetzt, beispielsweise in der Krebsforschung2,3, der COVID-Analyse4,5, der entwicklungsbiologischen Forschung6 usw. In diesen Studien ist die Aufdeckung und Identifizierung von Zellpopulationen eine der wichtigsten Aufgaben.

Typischerweise umfasst die Annotation von Zelltypen zwei Schritte: (1) Gruppieren von Zellen in verschiedene Untergruppen und (2) manuelles Markieren jeder Gruppe mit einem bestimmten Typ basierend auf den zuvor bekannten Markergenen. Es wurde eine Reihe unbeaufsichtigter Algorithmen für maschinelles Lernen entwickelt, darunter klassische, auf maschinellem Lernen basierende Methoden wie Seurat7 und Scanpy8 sowie neu veröffentlichte, auf Deep Learning basierende Methoden wie scDHA9 und CLEAR10. Allerdings können diese Methoden zeitaufwändig und belastend sein. Für diejenigen, die nicht allzu viel über die Markergene wissen, könnte dieser Ansatz weitaus mehr Zeit kosten als erwartet. Im Gegensatz dazu leiden automatische Annotationsmethoden für Zelltypen nicht unter dem manuellen Beschriftungsprozess. Im Gegensatz zu den unbeaufsichtigten Methoden basieren die automatischen Tools zur Identifizierung von Zelltypen hauptsächlich auf der Grundlage überwachter Lernrahmen. Dank ihrer schnellen und präzisen Funktionen werden sie zu den vorherrschenden Werkzeugen zur Identifizierung von Zelltypen in Einzelzellexperimenten. Mit dem beispiellosen Boom des gut annotierten scRNA-seq-Atlas und der raschen Förderung des Human Cell Atlas-Projekts11,12 stehen Auto-Annotation-Tools vor einer breiteren Perspektive als je zuvor. Bisher wurden 32 Auto-Annotation-Tools entwickelt und veröffentlicht13. SingleCellNet14 verwendet beispielsweise einen Random-Forest-Klassifikator, um die plattform- und artübergreifenden Annotationsaufgaben zu lösen. ACTINN15 implementiert ein einfaches künstliches neuronales Netzwerk, um den Batch-Effekt zu überwinden.

Obwohl in den letzten Jahren zahlreiche Tools entwickelt wurden, scheitern die meisten davon oft daran, die gesamte Population zu identifizieren, da seltene Zelltypen vorhanden sind. Aus Sicht der Zellzusammensetzung sind scRNA-seq-Datensätze immer unausgewogen und weisen häufige Zelltypen und seltene Zelltypen auf. Die seltene Population ist ein kleiner Anteil der Zellen im Einzelzellendatensatz. Beispielsweise nimmt die dendritische Zelle normalerweise 1–5 % der mononukleären Zellen des peripheren Blutes (PBMCs) ein, insbesondere in großen Datensätzen16,17. Wenn wir ein Tool zur automatischen Annotation trainieren, ist der Klassifikator durchweg nicht in der Lage, deren Informationen zu lernen, sodass es schwierig ist, diese Zelltypen im Abfragedatensatz zu identifizieren. Diese seltenen Populationen können jedoch von entscheidender Bedeutung sein, insbesondere in der Krankheitsforschung18. Kürzlich haben einige Clustererkennungsmethoden diesen Punkt bemerkt19,20, aber nur wenige Klassifizierungsmethoden konzentrierten sich auf das Ungleichgewicht der Zellpopulation. Mittlerweile stellen wir auch fest, dass die bestehenden Methoden zwei weitere Hauptmängel aufweisen. (1) Mangelnde Skalierbarkeit. Aktuelle scRNA-seq-Experimentierplattformen ermöglichen Untersuchungen von Zellen auf Millionenebene21,22. Bemerkenswert ist, dass einer der neuesten COVID-PBMC-Atlas 1,5 Millionen Zellen erreicht hat17. Daher führt die Einschränkung der Rechengeschwindigkeit dazu, dass Auto-Annotation-Pakete für den Millionen-Ebenen-Datensatz schlecht skalierbar sind. Darüber hinaus stellen umfangreiche Referenzdatensätze das Erlernen seltener Zelltypen beim Klassifikatortraining vor größere Herausforderungen, was dazu führt, dass aktuelle Software die Identifizierung kleinerer Gruppen erschwert. In einem kürzlich veröffentlichten Artikel wurde die Trainingsskala auf 600 K-Zellen angehoben23, allerdings meldet kein veröffentlichtes Tool erfolgreich eine Skalierbarkeit auf dem Millionen-Ebenen-Zellatlas. (2) Die Kompatibilität der vorhandenen Tools ist nicht so gut wie erwartet. Unter den vorhandenen Python-basierten Tools sind die meisten Tools wie ACTINN15, scPretrain24, scCapNet25 und MarkerCount26 skriptbasiert. Da es sich bei Seurat und Scanpy um Pakete handelt, die von einem Standard-Software-Repository (z. B. PyPI) heruntergeladen werden können, stellt die Ausführung eines externen Python-Skripts auf dem Server eine zusätzliche Belastung für den Benutzer dar. Darüber hinaus werden einige der Tools nicht mehr gewartet oder sind nicht nutzbar. All diese Herausforderungen zusammen machen ein neues Annotationstool erforderlich, das über eine ausgewogene Fähigkeit verfügt, Haupt- und Nebenzelltypen auf skalierbare Weise zu kennzeichnen.

Hier stellen wir scBalance vor, ein spärliches neuronales Netzwerk-Framework, das seltene Zelltypen in scRNA-seq-Datensätzen aller Maßstäbe automatisch kennzeichnen kann. scBalance nutzt die Kombination aus Gewichtsabtastung und einem spärlichen neuronalen Netzwerk, wodurch kleinere (seltene) Zelltypen informativer sind, ohne die Annotationseffizienz der häufigen (großen) Zellpopulationen zu beeinträchtigen. Wir haben scBalance anhand realer Datensätze mit unterschiedlichem Grad an Ungleichgewicht und Skalierung der Zellpopulation sowohl bei Annotationsaufgaben innerhalb als auch zwischen Datensätzen bewertet und seine Leistung mit beliebten veröffentlichten Tools wie Scmap-cell27, Scmap-cluster27, SingleCellNet14, SingleR28, scVI29 verglichen. scPred30 und MARS31. Jede Methode stellt einen herkömmlichen Algorithmus für maschinelles Lernen dar, z. B. Scmap-Cell basiert auf KNN, SingleCellNet basiert auf Random Forest und scVI und MARS sind Deep-Learning-basierte Methoden. Unter anderem hat unsere Methode diese Tools bei der Identifizierung seltener Zelltypen durchweg übertroffen und gleichzeitig eine hohe Genauigkeit bei der Annotation wichtiger Zelltypen beibehalten. Darüber hinaus zeigte scBalance schnelle und stabile Rechengeschwindigkeiten, die andere Ansätze bei allen Datensatzgrößen übertrafen. Darüber hinaus wurde scBalance erfolgreich auf einem veröffentlichten COVID-Immunzellatlas17 (1,5 Millionen Zellen) trainiert und weitere Kommentierungen und Entdeckungen neuer Zelltypen im veröffentlichten scRNA-seq-Datensatz der bronchoalveolären Lavageflüssigkeit (BALF)32 durchgeführt. Erfreulicherweise identifizierte unsere Methode mehr seltene Zelltypen als die ursprüngliche Analyse. Unsere benutzerfreundliche Anwendung ist mit Scanpy und Anndata kompatibel und kann einfach von PyPI heruntergeladen und als externe API von Scanpy verwendet werden (https://github.com/yuqcheng/scBalance).

scBalance bietet ein integratives Deep-Learning-Framework, um eine genaue und schnelle Annotation von Zelltypen, insbesondere bei seltenen Zelltypen, auf skalierbare Weise durchzuführen (Abb. 1). Die Struktur von scBalance besteht aus zwei Teilen: einer Gewichtsprobentechnik, die sich an unausgeglichene scRNA-seq-Datensätze anpasst, und einem spärlichen neuronalen Netzwerk, das Zelltypen effizient annotiert.

a Die Methode basiert auf dem überwachten Lernrahmen, der ein Datensatzausgleichsmodul und ein neuronales Dropout-Netzwerkmodul enthält. Schritt 1 oben: Mit unserer adaptiven gewichteten Stichprobe wählt scBalance automatisch das Gewicht für jeden Zelltyp im Referenzdatensatz und erstellt den Trainingsstapel. Unten: Benutzer können eine externe Datensatzausgleichsmethode wie scSynO wählen, anstatt unsere interne Ausgleichsmethode zu verwenden. In diesem Fall wird nur der Klassifikator verwendet. Schritt 2: Während des Trainings lernt scBalance iterativ Mini-Batches von einem dreischichtigen neuronalen Netzwerk, bis der Kreuzentropieverlust konvergiert. b Dropout-Einstellung in verschiedenen Stufen. In der Trainingsphase deaktiviert scBalance nach dem Zufallsprinzip Neuronen im Netzwerk. Die Dropout-Schicht ist binär mit einer Rate von 0,5. Alle ausgefallenen Einheiten werden in der Testphase wieder verbunden. Die Vorhersage wird von einem vollständig verbundenen neuronalen Netzwerk verarbeitet. c Die Auswertung der Bilanzierungsmethoden zeigt, dass unsere Stichprobenmethode einfache Oversampling- und Downsampling-Methoden sowie die SMOTE-Methode übertrifft. Der p-Wert stammt aus einem Signifikanztest von scBalance und SMOTE (n = 5 für jedes Boxplot). d Vergleich der Laufzeiten verschiedener Probenahmetechniken.

Erstens verwenden wir im Gegensatz zu allen vorhandenen Tools eine speziell entwickelte Gewichtsstichprobentechnik, um den unausgeglichenen scRNA-seq-Datensatz adaptiv zu verarbeiten. Im Gegensatz zu bestehenden Methoden, die synthetische Techniken verwenden33,34, integriert unsere Methode die Ausgleichstechnik in Trainingschargen, sodass keine neuen Punkte generiert werden, wodurch Speicherplatz gespart und das Training beschleunigt werden kann. Dieses Design ist besonders nützlich für Datensätze im Atlasmaßstab, bei denen die Generierung neuer Datensatzpunkte unpraktisch ist. Um in scBalance so viele Informationen wie möglich zu behalten und enorme Trainingszeitkosten zu vermeiden, nehmen wir in jedem Trainingsstapel zufällig eine Überabtastung der seltenen Populationen (Minderheitsklassen) und eine Unterabtastung der häufigen Zelltypen (Mehrheitsklassen) vor (Abb . 1a, Schritt 1). Der Sampling-Prozess erfolgt mit Ersetzung, und das Sampling-Verhältnis ist für verschiedene Referenzdatensätze adaptiv, definiert als die Zelltypanteile der wahren Beschriftung, die vom Referenzsatz bereitgestellt wird. Dies minimiert die Überanpassung beim Oversampling und sorgt so für eine vielversprechende Leistung der Generalisierungsfähigkeit von scBalance. Angesichts der enormen überlappenden Ausdrucksinformationen in den gemeinsamen Populationen ermöglicht die Unterabtastung der Hauptklasse scBalance, eine relativ kleine Trainingsgröße mit einer Fülle an Trainingsinformationen zu verwenden. Durch die Nutzung dieses Designs erzielt scBalance eine außergewöhnliche Leistung beim Erlernen von Merkmalen seltener Zelltypen und behält eine starke Fähigkeit bei der Klassifizierung aller wichtigen Zelltypen bei, wodurch auch die allgemeine Annotationsgenauigkeit verbessert wird. Um die Leistung unserer internen Stichprobenmethode zu belegen, haben wir sie mit gängigen Ausgleichstechniken wie einfachem Oversampling und Downsampling sowie der Synthetic Minority Oversampling Technique (SMOTE) verglichen. Die Ergebnisse zeigen, dass unsere interne Ausgleichsmethode die Klassifizierungsgenauigkeit im Vergleich zu einfachem Over- und Downsampling verbessert und auch die synthetische Methode SMOTE übertrifft (Abb. 1c und ergänzende Abb. 1). Insbesondere bietet unsere Methode eine schnellere und platzsparendere Auswuchtlösung im Vergleich zu normalerweise verwendeten Auswuchtmethoden (Abb. 1d und ergänzende Abb. 2a, b und ergänzende Daten 1). Da unsere Methode mit dem Trainingsprozess gekoppelt ist, müssen keine neuen Datenpunkte generiert werden, was Zeit und Speicherplatz spart. Darüber hinaus bietet scBalance auch eine Schnittstelle für Benutzer, die bestimmte kleinere Zelltypen detaillierter untersuchen möchten. Es ermöglicht die Verarbeitung von Datensätzen mit externen Stichprobenmethoden wie scSynO34. In diesem Fall wird nur der scBalance-Klassifikator verwendet.

Darüber hinaus stellen wir fest, dass der Referenzdatensatz und der Vorhersagedatensatz von verschiedenen Sequenzierungsplattformen und -protokollen wie der 10X-Plattform und der Smart-seq-Plattform generiert werden können, was natürlich zu unterschiedlichen Störungen wie Aussetzern bei der Generkennung und zufälligen Sequenzierungsfehlern führt35. Um dieses Problem anzugehen, betrachtet scBalance zufälliges Rauschen als eine Art Überanpassungsereignis und implementiert die dropout36-Technik, um dieses Problem zu mildern. Aufgrund ihrer hervorragenden Fähigkeit, Überanpassungen zu reduzieren, verbessert die Dropout-Schicht auch die Lernfähigkeit von scBalance für die neu abgetasteten Nebenzelltypen. Darüber hinaus bietet scBalance eine Option zur Netzwerkwiederverwendung für Trainingsszenarien im Atlas-Maßstab, sodass Benutzer den erheblichen Zeitaufwand für das erneute Training des Modells für denselben Datensatz vermeiden können (Abb. 1a, Schritt 3).

Zusammengenommen bietet scBalance eine Netzwerkstruktur mit drei verborgenen Schichten mit einer Batchnorm- und Dropout-Einstellung in jeder Schicht. Die Aktivierungsfunktion ist als exponentielle lineare Einheit (ELU)37 festgelegt und die Ausgabeschicht verwendet Softmax. Im Trainingsmodus (Abb. 1a, Schritt 2) werden Einheiten in der verborgenen Schicht nach dem Zufallsprinzip deaktiviert, um den Einfluss von Geräuschen auf den Trainingsprozess zu reduzieren. Im Vorhersagemodus wird das Netzwerk auf einen vollständig verbundenen Status eingestellt, um alle im Weiterleitungsprozess verwendeten Parameter beizubehalten. Die Modellbewertung und Backpropagation basieren auf der Cross-Entropy-Loss-Funktion und dem Adam-Optimierer. Um den Trainings- und Vorhersageprozess zu beschleunigen, verfügt scBalance auch über einen GPU-Modus (Graphics Processing Unit), der die Laufzeit des Klassifikators um 25–30 % reduziert. Insgesamt ist scBalance gut darauf ausgelegt, verschiedene Arten von Rauschen und unausgeglichenen Datensätzen zu verarbeiten und gleichzeitig eine hohe Klassifizierungsgenauigkeit für seltene und wichtige Zelltypen zu erreichen.

Die Fähigkeit von scBalance zur Identifizierung seltener Zelltypen haben wir erstmals im Basistest demonstriert. Um die Leistung zu bewerten, verwendeten wir zwölf scRNA-seq-Datensätze mit unterschiedlichem Ungleichgewichtsgrad und unterschiedlicher Zellzahl, die in Zugsätze und Testsätze unterteilt wurden. Um einen umfassenderen Test zu gewährleisten, werden die meisten Datensätze von verschiedenen Sequenzierungsplattformen generiert (siehe „Methoden“ und Tabelle 1). Die wahren Beschriftungsinformationen dieser Datensätze sind nur bei der Auswertung von Vorhersageergebnissen verfügbar. Hier haben wir scBalance mit sieben Methoden verglichen, die häufig zur Identifizierung von scRNA-seq-Zelltypen verwendet werden: SingleCellNet14, SingleR28, scVI29, scmap-cell27, scmap-cluster27, scPred30 und MARS31, bei denen scPred und MARS auch die Fähigkeit zur Behandlung beanspruchten Ungleichgewichts-Einzelzellendatensätze in ihren Arbeiten, und scVI und MARS sind Deep-Learning-basierte Methoden wie scBalance. Um sicherzustellen, dass es sich bei unserem Benchmark-Vergleich um ein faires Experiment handelt, haben wir für jedes Tool einen einheitlichen Vorverarbeitungsprozess verwendet und alle Parameter als Standard festgelegt. Alle Experimente wurden auf der Grundlage der fünffachen Kreuzvalidierung zur Quantifizierung der Klassifizierungsvariabilität durchgeführt. Das detaillierte Protokoll finden Sie unter „Methoden“. Wir haben den Kappa-Score von Cohen verwendet, um die Leistung von scBalance und den anderen sieben Methoden quantitativ zu bewerten (Abb. 2a). Dem Ergebnis zufolge übertrifft scBalance bei den meisten dieser zwölf Datensätze alle anderen Methoden, indem es den höchsten Cohen-Kappa-Score erreicht. Besonders gut schneidet scBalance bei großen und komplexen Datensätzen wie Campbell und Zillions ab. Und die Leistung von scBalance ist die stabilste unter all diesen sieben Methoden, was ihr einen Vorteil beim weiteren Referenztraining im Atlas-Maßstab verschafft. Da der Kappa-Score von Cohen eine für Minderheitenklassen relevante Metrik darstellt, liefert eine bessere Leistung bei diesem Score einen vorläufigen Beweis dafür, dass scBalance bei der Annotation seltener Bevölkerungsgruppen mehr Vorteile bietet.

a Gesamtannotationsleistung, gemessen anhand des Kappa-Scores von Cohen, im Vergleich zu vorhandenen Methoden für mehrere Datensätze (Zellennummer wird nach dem Datensatznamen angegeben). scBalance übertrifft andere Methoden durchweg bei der genauen Identifizierung kleinerer Zellpopulationen in allen zwölf Datensätzen. (n = 5 für jedes Balkendiagramm und jeden Fehlerbalken. Fehlerbalken sind als Mittelwert ± Standardabweichung definiert). b Zelltypspezifisches Genauigkeits-Benchmarking anhand des Baron Human-Datensatzes (n = 5 für jedes Boxplot). Die Zahl hinter jedem Zelltypnamen gibt die Anzahl der Zellen in diesem Typ an. scBalance erreicht im Vergleich zu anderen Methoden eine höhere Genauigkeit bei der Identifizierung seltener Zelltypen.

Um die Fähigkeit von scBalance, kleinere Zellpopulationen genau zu kommentieren, besser zu demonstrieren, haben wir die Genauigkeit jedes Zelltyps weiter untersucht, um zu zeigen, ob die insgesamt hohe Leistung genau durch die Verbesserung der Identifizierung kleinerer Zelltypen erreicht wird (Abb. 2b und ergänzende Abbildungen). 2–4 und ergänzende Daten 2). Wir haben diese Datensätze in drei Klassen eingeteilt: (1) große Datensätze mit einer einfachen Zellzusammensetzung, wie Baron Human, Lake und Zillions; (2) kleine Datensätze mit einem einfachen Zellhintergrund, wie Muraro, Baron Mouse, Deng usw.; und (3) Datensätze mit komplexen Zellstrukturen, zum Beispiel Zheng 68 K, das hauptsächlich aus T-Zellen und ihren Subtypen besteht, sodass Zellen eine hohe Ähnlichkeit aufweisen. Wir haben zunächst die Leistung von scBalance im Baron Human-Datensatz analysiert (Abb. 2b und ergänzende Daten 3) und festgestellt, dass alle Methoden bei großen Populationen wie der Beta- und der Alpha-Zelle eine gute Leistung erbringen. Allerdings bleibt die Leistung von scBalance bei kleineren Zelltypen wie der Mastzelle und der Epsilon-Zelle immer noch stabil und vielversprechend, während die anderen Methoden die meisten dieser seltenen Zelltypen nicht erkennen. Diese Ergebnisse zeigen die Fähigkeit von scBalance, kleinere Zellpopulationen in regulären Datensätzen zu kommentieren. Ähnliche Ergebnisse finden sich auch im Ergebnis des kleinen Datensatzes (Ergänzende Abbildung 3). Darüber hinaus interessierte uns auch die Leistung von scBalance bei Datensätzen mit komplexem Zellhintergrund. Durch die Analyse des Ergebnisses des Zheng 68 K-Datensatzes (ergänzende Abbildung 4) stellten wir fest, dass scBalance immer noch die beste Methode zur Identifizierung seltener Zelltypen ist und gleichzeitig eine hohe Genauigkeit bei den anderen Typen beibehält. Dieses Ergebnis verschafft scBalance einen weiteren praktischen Vorteil bei realen Problemen. Um die tatsächliche positive Nachweisempfindlichkeit von scBalance für jeden Zelltyp besser zu verstehen, haben wir anschließend die Präzision von scBalance in diesen drei Datensätzen analysiert (Ergänzungstabellen 1–3). Die Ergebnisse zeigen, dass scBalance im Vergleich zu den anderen Methoden die robusteste und empfindlichste Methode zur Identifizierung kleinerer Zelltypen ist, insbesondere vor dem komplexen Zellhintergrund.

Zusammenfassend lässt sich sagen, dass scBalance bei der grundlegenden Annotationsaufgabe eine gute Leistung erbringt, da es über die stabile Fähigkeit verfügt, nicht nur die Hauptzelltypen, sondern auch die Nebenzelltypen erfolgreich zu identifizieren.

Im realistischen Szenario wird erwartet, dass Benutzer ein Annotationstool mithilfe eines Datensatzes trainieren, der aus einem anderen Protokoll als dem für das Abfrage-scRNA-seq-Profil verwendeten Protokoll generiert wurde. Wenn jedoch unterschiedliche Sequenzierungsplattformen verwendet werden, kann mehr Rauschen entstehen, was sich stärker auf die Annotationsaufgabe zwischen Datensätzen auswirken kann als auf die Annotationsaufgabe innerhalb von Datensätzen38. Um die Generalisierungsfähigkeit von scBalance bei protokollübergreifenden Aufgaben zu verbessern, haben wir die Dropout-Technik verwendet, um unser Modell robuster gegenüber den technischen Variationen zu machen. Wir haben zunächst ein Vergleichsexperiment zwischen scBalance mit Dropout und scBalance ohne Dropout an den PBMCBench-Datensätzen verschiedener Sequenzierungsplattformen (Abb. 3a und ergänzende Abb. 5 und ergänzende Daten 4) und den Pankreas-Datensätzen verschiedener Protokolle durchgeführt, die in einer früheren Studie verwendet wurden39 ( Ergänzende Abbildung 6 und ergänzende Daten 5). Die Ergebnisse zeigen, dass scBalance mit Dropout die Generalisierungsfähigkeit verbessert und zu einer besseren Leistung bei der Annotationsaufgabe zwischen Datensätzen für alle Datensätze führt. Darüber hinaus haben wir die Robustheit von scBalance gegenüber Batch-Effekten bei datensatzübergreifenden Annotationsaufgaben demonstriert. Wir haben die Klassifizierungsleistung von scBalance mit und ohne Batch-Korrektur mit Combat40, einem häufig verwendeten Batch-Korrekturtool, verglichen, um zu bewerten, ob die Leistung von scBalance durch Batch-Korrektur weiter verbessert werden kann (Ergänzende Abbildung 7 und Ergänzende Daten 6). Die Ergebnisse deuten darauf hin, dass die Leistung von scBalance durch die Batch-Korrektur nicht wesentlich beeinträchtigt oder verbessert wird, was darauf hindeutet, dass unsere Methode selbst robust gegenüber den potenziellen negativen Auswirkungen von Batch-Effekten ist.

In scBalance wird eine Dropout-Technik verwendet, um die Modellgeneralisierung und Robustheit gegenüber Rauschen zu verbessern. b Die allgemeine Annotationsgenauigkeit von scBalance wird mit der anderer Methoden für Datensätze verglichen, die von anderen Protokollen generiert wurden. Jedes Experimentpaar trägt den Namen „Train Dataset_Test Dataset“ und der Kappa-Score von Cohen wird als Gesamtmetrik verwendet. (n = 42 für jedes Boxplot, um alle 42 Trainingspaare anzuzeigen). Die Fähigkeit von c scBalance, seltene Zelltypen bei Annotationsaufgaben zwischen Datensätzen genau zu identifizieren, wird demonstriert. (n = 42 für jedes Boxplot, um alle 42 Trainingspaare anzuzeigen). d Die UMAP-Visualisierung zeigt, dass scBalance andere Methoden bei der Identifizierung seltener Zellpopulationen über verschiedene Ansätze hinweg übertrifft. Alle Methoden wurden auf dem PBMC-Datensatz (SMART-Seq2) trainiert und zur Vorhersage von Zelltypen im PBMC-Datensatz (10xv3) verwendet.

Um die Leistung von scBalance unter Batch-Effekt und seine Fähigkeit, seltene Zelltypen zu identifizieren, weiter zu bewerten, haben wir unser Benchmarking um andere Annotationsmethoden für die Annotationsaufgabe zwischen Datensätzen erweitert. Wir haben die PBMCbench-Datensätze (siehe „Methoden“ und Tabelle 1) verwendet, um die Leistung jeder Methode für jedes Protokollpaar zu testen und zu bewerten, wobei der Kappa-Score von Cohen als Bewertungsmaßstab verwendet wurde. In der Zwischenzeit waren wir besonders an der Klassifizierungsgenauigkeit von scBalance für kleinere Zellpopulationen interessiert, die wir als Zelltypen mit weniger als 5 % der Gesamtzellzahl definiert haben. Daher haben wir auch die Fähigkeit zur Annotation seltener Zelltypen sowie die Gesamtgenauigkeit quantifiziert. Die in Abb. 3b zusammengefassten Ergebnisse zeigen, dass scBalance in allen Experimenten die höchsten Durchschnittswerte erzielte (Abb. 3b und ergänzende Daten 7). Im Vergleich zur zweitbesten Methode steigerte scBalance den Durchschnittswert von 0,85 auf 0,95. Darüber hinaus war scBalance auch bei den meisten Testpaaren die beste Methode und demonstrierte seine Exzellenz bei der datensatzübergreifenden Aufgabe. Insbesondere haben wir auch die Klassifizierungsgenauigkeit seltener Typen jeder Methode analysiert (Abb. 3c), und die Ergebnisse zeigen, dass scBalance die anderen Methoden bei der genauen Identifizierung kleinerer Populationen bei den meisten Testpaaren in der datensatzübergreifenden Aufgabe übertrifft. Um die Praktikabilität und Effizienz von scBalance weiter zu demonstrieren, haben wir zusätzliche Benchmarking-Experimente durchgeführt, um seine Leistung bei der Annotationsaufgabe zwischen Datensätzen zu bewerten, wenn andere Methoden in Verbindung mit Batch-Korrekturmethoden verwendet werden (ergänzende Abbildung 8 und ergänzende Daten 8). Die Ergebnisse deuten darauf hin, dass die meisten Methoden zwar eine Verbesserung zeigten (durchschnittliche Verbesserungen lagen zwischen 1 und 4 %) nach der Vorverarbeitung der Batch-Effektkorrektur im Vergleich zu Abb. 3b, scBalance jedoch weiterhin die anderen Methoden für die Annotationsaufgabe zwischen Datensätzen übertraf. Dies zeigt, dass scBalance nach wie vor eines der effizientesten verfügbaren Tools für diese Aufgabe ist. Um weitere Einblicke in die Klassifizierungsergebnisse der seltenen Zellpopulation zu gewinnen, verwendeten wir anschließend UMAP (Uniform Manifold Approximation and Projection), um das Clustering-Ergebnis der drei leistungsstärksten Methoden mit der Vorhersagebezeichnung oder der wahren Bezeichnung zu visualisieren (Abb. 3d). ). Unsere Analyse ergab, dass SingleCellNet im Vergleich zur echten Markierung mehr falsche Annotationen auf den Megakaryozytenzellen und CD16+-Monozyten anzeigte als scBalance. In ähnlicher Weise zeigte scVI mehr falsche Markierungen auf den Megakaryozyten-Zellen und versagte sogar völlig bei der Klassifizierung von CD16+-Monozyten. Im Gegensatz dazu lieferte scBalance das genaueste Annotationsergebnis für alle sechs Zelltypen und markierte erfolgreich die beiden seltenen Zellpopulationen Megakaryozyten und CD16+-Monozyten. Zusammengenommen deuten die Ergebnisse darauf hin, dass scBalance eine robustere Leistung als bestehende Methoden für plattformübergreifende Annotationsaufgaben bietet und seine herausragende Fähigkeit zur Identifizierung seltener Zellpopulationen unter dem Einfluss technischer Variationen beibehält.

Die Laufzeit gilt als eines der wichtigsten Dinge für ein Annotationstool in der realen Einzelzellenanalyseumgebung und als größtes Hindernis für die Skalierbarkeit. Um die Überlegenheit von scBalance in Bezug auf die Berechnungsgeschwindigkeit hervorzuheben, haben wir die Vergleichsergebnisse der sechs repräsentativen Methoden vorgestellt, die alle über unterschiedliche grundlegende Modelle für maschinelles Lernen verfügen (Abb. 4). Aufgrund der Nutzung der GPU haben wir scBalance-CPU und scBalance-GPU getrennt dargestellt, um den Vergleich für andere Methoden ohne GPU-Berechnung fair zu gestalten. Wir haben zunächst die Leistung des scBalance auf den verschiedenen Verarbeitungseinheiten verglichen. Das Ergebnis zeigt, dass scBalance-GPU eine große Verbesserung der Laufgeschwindigkeit aufweist, was die Laufzeit im Vergleich zur scBalance-CPU um mehr als 50 % reduziert (Abb. 4a). Insbesondere bietet scBalance-GPU eine robuste Leistung bei Datensätzen mit unterschiedlichen Zellenzahlen. Die Laufzeit bleibt bei Proben von 30.000 bis 60.000 Zellen relativ stabil. Diese Robustheit verleiht scBalance eine potenziell erweiterte Fähigkeit, große Datensätze schnell mit Anmerkungen zu versehen. Wir haben auch das Vergleichsergebnis von scBalance-CPU mit den anderen fünf Methoden vorgestellt. Obwohl alle Methoden auf der CPU basieren, bietet scBalance auch eine vielversprechende Laufgeschwindigkeit. Insbesondere bei Datensätzen mit mehr als 30.000 Zellen reduziert scBalance die Laufzeit auf 10 % der anderen fünf Methoden. Im größten Datensatz bietet scBalance eine mehr als 20-fache Rechengeschwindigkeit im Vergleich zu SingleR (Abb. 4b). Der Vorteil des Zeitaufwands macht scBalance auch zu einem hervorragenden Werkzeug für die Annotation großer Datensätze.

a Laufzeitvergleich von scBalance auf Datensätzen verschiedener Maßstäbe mit unterschiedlichen Prozessoren. Unsere Methode erreicht schnelle Laufzeiten bei hoher Skalierbarkeit. b Vergleich der Laufzeiten von sechs verschiedenen Methoden an Datensätzen unterschiedlicher Größe. Alle Methoden werden auf der CPU getestet. scBalance übertrifft die anderen Methoden bei allen getesteten Datensatzgrößen.

Da die Größe des Zellatlas weiter zunimmt, wird die Skalierbarkeit von Annotationstools immer wichtiger. Wir haben daher die Stärke von scBalance beim Erlernen seltener Zelltypen in den scRNA-seq-Datensätzen auf Millionenebene diskutiert. Wir haben zunächst das Annotationsergebnis innerhalb des Datensatzes als Proof of Concept verwendet, um die Annotationsleistung von scBalance im groß angelegten Zellatlas zu bewerten. Wir haben zwei kürzlich veröffentlichte Zellatlas zusammengestellt, darunter den menschlichen Herzzellatlas41 (487.106 Zellen) und den COVID-19-Immunatlas17 (1.462.702 Zellen). Da keine andere existierende Methode über die Annotationsfähigkeit von scRNA-seq-Profilen auf Millionenebene berichtet hat und es insbesondere schwierig ist, den Datensatz für R-basierte Methoden wie SingleCellNet und Scmap zu laden, haben wir scBalacne mit herkömmlichen Methoden des maschinellen Lernens wie Random verglichen Forest (n_estimators=50,random_state=10), Entscheidungsbaum, SVM (kernel:rbf) und kNN (k = 3) in Python. Wie in Abb. 5a und den ergänzenden Daten 9 gezeigt, übertrifft scBalance die anderen Methoden des maschinellen Lernens in beiden Zellatlanten deutlich. Darüber hinaus erreicht scBalance im Vergleich zu den anderen Methoden eine bis zu 150-mal schnellere Laufgeschwindigkeit beim Training und Markieren des COVID-Zellatlas (Abb. 5b). Trotz der Verdreifachung der Zellzahl zwischen den beiden Datensätzen bleibt scBalance die einzige Methode mit einer robusten Laufgeschwindigkeit, was einen Vorteil in der Skalierbarkeit bietet.

a Anmerkungsleistungen im Vergleich mit verschiedenen Methoden für den Herzatlas (~50 K Zellen) und den COVID-Atlas (~1,5 M Zellen). b Laufzeitvergleich zwischen scBalance und herkömmlichen Algorithmen für maschinelles Lernen. Die Y-Achse zeigt die Laufzeit in Sekunden an. c UMAP zeigt das Annotationsergebnis von scBalance. Der Referenzdatensatz ist COVID Atlas17 und der Abfragedatensatz ist BALF data32. d Dotplot zeigt die Zellsubtypverteilung im BALF-Datensatz.

Zusätzlich zur einfachen Bewertung der Skalierbarkeit haben wir den COVID-Immunatlas als Referenzdatensatz für eine Instanz verwendet, um zu veranschaulichen, dass das Annotationsergebnis von scBalance beim Training mit Referenzen im Millionenmaßstab seltene Zelltypen effektiv identifizieren kann. Als Abfragedaten haben wir auch das scRNA-seq-Profil von Zellen der bronchoalveolären Lavageflüssigkeit (BALF) von einem Patienten mit schwerer COVID-Erkrankung erfasst (Abb. 5c). Während es zahlreiche Veröffentlichungen gibt, die sich mit der PBMC-Landschaft42,43,44,45 in verschiedenen COVID-Patientenproben befassen, mangelt es an Untersuchungen zur BALF-Zellkomponente von COVID-Patienten. Da es sich jedoch um die Probe handelt, die Mikroumgebungsinformationen in Lungenalveolen am direktesten widerspiegeln kann, sind BALF-Zellen von großer Bedeutung für das Verständnis des Zusammenhangs zwischen der Schwere der Erkrankung und der Dynamik der respiratorischen Immuneigenschaften. Obwohl Liao et al. enthüllte im Jahr 202032 die Landschaft bronchoalveolärer Immunzellen bei Patienten mit COVID. Ihre Arbeit, die auf der Integration von Seurat basiert, identifizierte nur Zellgruppen in geringer Auflösung. Hier haben wir scBalance verwendet, um den BALF scRNA-seq-Datensatz zu kommentieren. Unsere Methode identifizierte erfolgreich viel mehr Zellsubtypen als die ursprüngliche Forschung, indem sie den COVID-Atlas als Referenz verwendete. Im Vergleich zur manuellen Beschriftungsmethode, die in der ursprünglichen Analyse verwendet wurde, verbesserte scBalance die Anmerkungsauflösung für den BALF-Datensatz erheblich. In Kombination mit dem Ergebnis in Abb. 5c, d und der ergänzenden Abb. 9 identifizierte scBalance 64 Subtypen der Immunzellen in der BALF-Probe. Wie erwartet zeigen Makrophagen die höchste Anreicherung in der BALF-Probe, während B-Zellen nur einen kleinen Teil der Immunlandschaft ausmachen. Bemerkenswert ist, dass scBalance auch seltene Subtypen in allen Zellgruppen identifizierte. In der myeloischen Gruppe verdeutlicht unsere Methode, dass sich im BALF auch Monozyten befinden und nicht nur Makrophagen. Aber Makrophagenzellen sind immer noch die Hauptkomponente, insbesondere der proinflammatorische Makrophage (M1) wie der CCL3L1+-Makrophagen, was auf ein starkes Signal zur Rekrutierung von Immunzellen bei BALF bei schweren Patienten hindeutet. Anders als die Analyse von Liao et al.32 zeigt unsere Methode, dass die proinflammatorische Umgebung nicht nur von Makrophagen, sondern auch von CD14-Monozyten (CCL3+) erzeugt wird. Darüber hinaus ergab unsere Methode auch, dass proliferative Gedächtnis-T-Zellen (einschließlich MKI67-CCL4 (hoch) CD4-T-Zellen und MKI67-CCL4 (niedrig) CD4-T-Zellen) im Vergleich zu Effektor-T-Zellen in der Lungenregion signifikant angereichert sind . Zusammen haben unsere Methoden erfolgreich Zellsubtypen identifiziert und einen umfassenderen Immunatlas im BALF bereitgestellt, indem wir den COVID-Zellatlas als Referenz verwendet haben. Es ist erwähnenswert, dass die meisten der von scBalance aufgedeckten Zelltypen im COVID-Atlas selten sind, was den Vorteil darstellt, seltene Zelltypen unserer Methode im großen scRNA-seq-Datensatz zu identifizieren.

Jüngste Fortschritte bei scRNA-seq-Methoden haben zu einem wachsenden Bedarf an Werkzeugen zur Annotation von Zelltypen geführt. Mit der Veröffentlichung immer klarer definierter Zellatlanten erfreuen sich Tools zur automatischen Annotation zunehmender Beliebtheit. Allerdings gibt es in der aktuellen Software Einschränkungen in den Bereichen der Markierung seltener Zelltypen, der Skalierbarkeit und der Kompatibilität. In diesem Artikel stellen wir scBalance vor, ein Open-Source-Python-Paket, das adaptive Gewichtsabtastung und ein spärliches neuronales Netzwerk für die überwachte automatische Annotation von Zelltypen integriert. Wir haben die Fähigkeit von scBalance zur Annotation seltener Typen und die überlegene Fähigkeit zur Annotation von Zellen insgesamt durch Vergleichsexperimente innerhalb und zwischen Datensätzen an mehreren scRNA-seq-Datensätzen unterschiedlicher Maßstäbe, Generierungsprotokolle und Ungleichgewichtsgrade demonstriert. Bemerkenswert ist, dass scBalance im Vergleich zu den meisten weit verbreiteten Annotationstools für Zelltypen14,30,31 eine ausgezeichnete Fähigkeit zur Annotation seltener Zelltypen gezeigt hat, selbst in großen Datensätzen mit komplexen Zellhintergründen, wo andere Methoden kleinere Populationen nicht identifizieren können. Darüber hinaus haben wir die robuste Laufgeschwindigkeit von scBalance bei Datensätzen verschiedener Maßstäbe demonstriert, was ihm einen potenziellen Vorteil für die Skalierbarkeit verschafft. Indem wir unsere Methode an zwei kürzlich veröffentlichten Großzellatlanten getestet haben, haben wir die Skalierbarkeit und die Fähigkeit von scBalance zur Identifizierung seltener Populationen in millionenschweren Datensätzen weiter demonstriert. Mithilfe dieser Fähigkeit konnte scBalance erfolgreich eine Immunlandschaft von BALF-Zellen beschreiben und seltenere Typen identifizieren als veröffentlichte Forschungsergebnisse. Darüber hinaus ist scBalance so konzipiert, dass es mit Scanpy und Anndata kompatibel ist und eine benutzerfreundliche Anwendung bietet.

Neben der Vorstellung unserer Methode zeigen wir auch, wie scBalance mit anderer Software zusammenarbeiten kann, um Anwendern ein breiteres Anwendungsspektrum zu bieten. Wie in Abb. 1 und im GitHub-Tutorial dargestellt, stellen wir optionale Parameter bereit, mit denen Benutzer eine externe Zelltyp-Ausgleichsmethode wie scSynO34 verwenden können, um sich besser auf einen bestimmten, untergeordneten Zelltyp von Interesse zu konzentrieren. Wir glauben, dass die Integration dieser ergänzenden Tools in unsere Methode die Leistung von scBalance bei verschiedenen Arten von Aufgaben erheblich verbessern kann, was die potenzielle Benutzergruppe von scBalance weiter vergrößern könnte.

Schließlich schlagen wir mehrere zukünftige Bemühungen zur Verbesserung von scBalance vor, beispielsweise die Einbeziehung von mehr Vorwissen wie Markergenen, um genauere Annotationen für ähnliche Zelltypen zu erstellen, wie z. B. CD4 + /CD45+ naive T-Zellen und CD4 + /CD45+ Gedächtnis-T-Zellen. Darüber hinaus könnte scBalance so modifiziert werden, dass es Daten zur Single-Cell-Chromatin-Accessibility-Sequenzierung (scATAC-seq) mit Anmerkungen versehen kann, indem das Netzwerk an eine spärlich-robuste Struktur angepasst wird. Zusammenfassend glauben wir, dass scBalance eine wertvolle Ergänzung zur Toolbox für automatische Annotationen ist, insbesondere aufgrund seiner seltenen Fähigkeit zur Annotation von Zelltypen und seiner Skalierbarkeit.

In diesem Abschnitt beschreiben wir alle Datensätze, die wir in den obigen Experimenten und Analysen verwendet haben. In den Baseline-Annotation-Experimenten (intra- und inter-dataset) haben wir 20 Datensätze von kleinem (~200 Zellen) bis großem Maßstab (~70.000 Zellen) verwendet. Um die Generalisierungsfähigkeit von scBalance weiter zu demonstrieren, werden alle ausgewählten Datensätze aus unterschiedlichen Komplexitäten und unterschiedlichen Sequenzierungsprotokollen generiert. In den Skalierbarkeitsexperimenten werden zwei extrem große Datensätze verwendet. Alle Datensätze und ihre entsprechenden Zelltypbezeichnungen stammen aus dem Originalpapier. Entsprechende Details sind in Tabelle 1 dargestellt.

Wir stellen scBalance zur Verfügung, eine zusammengesetzte neuronale Netzwerkstruktur, um Annotationsaufgaben vom Zelltyp durchzuführen. scBalance benötigt eine Einzelzell-RNA-Expressionsmatrix M als Eingabe, in der jede Spalte ein Gen und jede Zeile eine Zelle darstellt. Um ein genaueres Annotationsergebnis zu erhalten, empfehlen wir die Verwendung eines gefilterten Datensatzes mit Protokolltransformation und Normalisierung als Trainingssatz. Schritte zur Protokolltransformation und -normalisierung können der standardmäßigen Vorverarbeitungspipeline im Scanpy-Tutorial folgen. Ziel ist es, zu verhindern, dass die Ausreißergene den Trainingsprozess stören. Die Vorverarbeitung kann durch Befolgen des Scanpy-Tutorials erfolgen, in dem der Skalierungsparameter in der Normalisierungsfunktion manuell geändert werden kann. Der Vorhersagedatensatz sollte dieselben Vorverarbeitungsschritte aufweisen wie der Trainingssatz. Vor dem Training werden Teilmengen aus dem Referenzsatz und dem Vorhersagesatz basierend auf den gemeinsamen Genen extrahiert und als Eingabe verwendet. Die scBalance-Pipeline besteht aus drei Kernmodulen (Abb. 1a), einer gewichteten Abtastfunktion und einem neuronalen Netzwerkklassifikator.

Das erste Modul ist eine gewichtete Stichprobenfunktion, die eine einfache, aber effiziente Lösung für das Lernen unausgeglichener scRNA-seq-Datensätze bietet. Im Gegensatz zu häufig verwendeten Oversampling- und Undersampling-Methoden bietet scBalance eine Kombination dieser beiden Methoden und verbessert so die Laufgeschwindigkeit erheblich, ohne die Nebentypen zu überpassen. Da wir im Trainingsschritt über die bekannten Beschriftungen im Trainingssatz verfügen, weist scBalance jedem Zelltyp entsprechend dem Anteil eine Gewichtung zu und wählt anhand der Gewichte zufällig Stichproben aus dem Datensatz aus, um den Trainingsstapel für das neuronale Netzwerk zu erstellen. Der Sampling-Prozess wird mit Ersetzung eingestellt, um sicherzustellen, dass der Klassifikator so viele Nebentypinformationen wie möglich auf zuverlässige Weise lernen kann.

Im zweiten Modul verwendeten wir eine neuronale Netzwerkstruktur (NN), um die Klassifizierungsaufgabe durchzuführen. Der NN-Klassifikator in scBalance enthält eine Eingabeebene, drei verborgene Ebenen und eine Softmax-Ebene. Die Anzahl der Neuronen in der Eingabeschicht entspricht der Anzahl der Gene im scRNA-seq-Datensatz. Den drei verborgenen Schichten folgen jeweils 256, 128 und 64 Einheiten. Wir fügen außerdem Dropout- und Batch-Normalisierungstechniken auf jeder verborgenen Ebene hinzu, um eine Überanpassung zu vermeiden und die Laufgeschwindigkeit zu erhöhen. Nur die Trainingsphase von scBalance beinhaltet die Vorwärtspropagierung mit Batch-Normalisierungs- und Dropout-Techniken. Um die Varianzverschiebung46 zu vermeiden, platzieren wir die Dropout-Ebene nach der Batch-Normalisierungsebene (Gl. (1–4)):

wobei l die l-te Schicht des neuronalen Netzwerks darstellt, j das j-te Neuron in seiner Schicht darstellt, b die in der Schicht hinzugefügte zufällige Vorspannung darstellt und \(\sigma (\bullet)\) die Aktivierungsfunktion darstellt. \({BN}(\bullet )\) ist die Batch-Normalisierungsfunktion, um den Wert jeder Mini-Batch zu normalisieren. r ist ein Vektor einer unabhängigen Bernoulli-Zufallsvariablen mit der Ausfallwahrscheinlichkeit p. Dieser Vektor wird elementweise mit jeder verborgenen Ebene multipliziert, um eine Dropout-Ebene \({\widetilde{x}}^{l}\) zu erzeugen. In scBalance beträgt die Standard-Abbruchwahrscheinlichkeit 0,5. Die Aktivierungsfunktion (Gleichung (5)) in scBalance ist eine exponentielle lineare Einheitsfunktion (ELU).

Die Ausgabeschicht basiert auf der Softmax-Funktion (Gl. (6)):

Dabei ist \(z\) der Eingabevektor der Softmax-Ebene und K die Anzahl der Zelltypen im Referenzdatensatz. Bei der Backpropagation wählen wir den Kreuzentropieverlust als Verlustfunktion von scBalance und die Adam47-Optimierungsmethode als Optimierer. Nach dem Training wird die Dropout-Ebene deaktiviert. scBalance bietet ein dreischichtiges, vollständig verbundenes neuronales Netzwerk zur Vorhersage des Zelltyps.

Um die Wirksamkeit der Hyperparameter in scBalance zu demonstrieren, haben wir verschiedene Hyperparametereinstellungen verglichen. (1) Aktivierungsfunktion. Aufgrund der Vorteile von ELU bei der Verarbeitung spärlicher Datensätze haben wir in scBalance ELU als Aktivierung gewählt. (2) Dropout-Schicht. Anschließend haben wir die Leistung der Verwendung der Dropout-Schicht getestet. Da die Dropout-Schicht hauptsächlich für den Batch-Effekt konzipiert ist, entwerfen wir Experimente entsprechend den plattformübergreifenden Aufgaben. Das Ergebnis zeigt, dass die Verwendung der Dropout-Schicht die Gesamtleistung verbessert. Jeder Wert in der Tabelle ergibt sich aus dem Durchschnitt von fünf Wiederholungen.

Um die Leistung von scBalance zu bestätigen, haben wir es mit mehreren häufig verwendeten Methoden verglichen, darunter R-basierte Pakete wie Scmap-cell, Scmap-cluster, SingleCellNet, SingleR und scPred sowie die Python-basierten Pakete scVI und MARS. Alle Evaluierungscodes und Eingabedaten folgen den Anweisungen und Tutorials, die in jedem Paket enthalten sind. Um sicherzustellen, dass unsere Bewertung für jede Methode fair ist, legen wir alle Parameter für jeden Ansatz als Standard fest, einschließlich scBalance.

Die Laufumgebung, die wir für Python-basierte Software verwendet haben, ist (1) scVI von Github (https://github.com/YosefLab/scvi-tools), Version ist 0.14.5. Wir haben die GPU-Version ausgeführt und die Hyperparameter entsprechend ihrem Beispiel festgelegt. Wir haben LTMG-Ableitungen in die Vorverarbeitung mit der entsprechenden gegebenen Option des Codes integriert. Alle Hyperparameter werden gemäß der Anleitung eingestellt. Die Aufgabe wird auf der Workstation mit Intel(R) Xeon(R) CPU E5-2667 v4, Betriebssystem CentOS Linux Release 7.7.1908, Nvidia TITAN (2) MARS von Github (https://github.com/snap-stanford/mars). Alle Hyperparameter werden gemäß der Anleitung eingestellt. Die Aufgabe wird auf dem Server Linux Ubuntu 20.04.4 mit 2,35 GHz AMD EPYC 7452 32-Core-Prozessor und 503 G RAM umgesetzt. Für die R-basierten Pakete haben wir die Aufgaben mit dem Computermodell Intel(R) Core(TM) i5-5287U CPU @ 2,90 GHz RAM 8GB umgesetzt. Die Details der Software sind (3) SingleR Version 1.6.1 von CRAN (https://github.com/dviraran/SingleR). Die Parameter werden als vom Tutorial bereitgestellter Standardwert festgelegt. (5) Scmap-Cell und Scmap-Cluster von BioManager (https://github.com/hemberg-lab/scmap), wobei alle Parameter der Funktionsanweisung folgen. Für (5) scPred Version 1.9.2 von BiocManager (https://github.com/powellgenomicslab/scPred), läuft mit den Standardparametern. Und (6) SingleCellNet Version 0.1.1 von BiocManager (https://github.com/pcahan1/singleCellNet), läuft mit den Standardparametern. Wir haben die Kategorie mit der höchsten Punktzahl in der Vorhersage zum Endergebnis herangezogen. Die Aufgabe wird auf dem Server Linux Ubuntu 20.04.4 mit 2,35 GHz AMD EPYC 7452 32-Core-Prozessor und 503 G RAM umgesetzt.

Im Folgenden beschreiben wir das Protokoll und die quantitativen Metriken, die wir in den Experimenten verwendet haben. Um die Entwicklung zuverlässig zu machen und die Variabilität quantifizieren zu können, haben wir in jedem unserer Experimente sowohl eine fünffache Kreuzvalidierung als auch eine fünffache Wiederholung als Grundprotokoll verwendet. Für die fünffache Kreuzvalidierung basiert die Zugtestaufteilung in der datensatzinternen Klassifizierungsaufgabe auf der StratifiedKFold-Funktion im Python-Paket sklearn v1.2.0. Die Aufteilungsstrategie ist geschichtet und basiert auf dem Ground-Truth-Label des Datensatzes. Beim Testen wird die wahre Bezeichnung des Testdatensatzes ausgeblendet. Das Zug-Test-Aufteilungsverhältnis ist für alle Experimente auf 0,8 (n_split=5) festgelegt, um sowohl im Trainingssatz als auch im Testsatz genügend Daten zu behalten. Für den 5-maligen Wiederholungstest basiert die Zugtestaufteilung auf der Funktion Train_test_split im Python-Paket sklearn v1.2.0. Um die Fairness zu gewährleisten, wird ein zufälliger Startwert angewendet. Jede Methode wird fünfmal getestet. Um die Leistung von scBalance zu bewerten, haben wir in unserer Arbeit den Kappa-Score von Cohen, den Macro F1-Score und die Genauigkeit verwendet. Cohens Kappa-Score gilt für die Gesamtleistungsmetrik. Im Gegensatz zu den meisten Veröffentlichungen, die Genauigkeit (Acc) als Maß verwenden, ist es unser Ziel, die Identifizierungsfähigkeit der seltenen Zelltypen sowie die allgemeine Klassifizierungsgenauigkeit zu belegen. Daher wählen wir den Cohen-Kappa-Koeffizienten 48 k, der einen Ansatz berücksichtigt, der die Nebenklassen berücksichtigt, und der uns eine umfassende Bewertung der Klassifizierungsleistung ermöglichen kann, einschließlich der Identifizierung der Haupttypen und der Nebentypen (Gleichung (7)).

Dabei ist \({p}_{0}\) die beobachtete proportionale Variable und \({p}_{e}\) die hypothetische Wahrscheinlichkeitsvariable. Um \({p}_{e}\) zu berechnen, verwenden wir die beobachteten Daten, um die Wahrscheinlichkeiten dafür zu berechnen, dass jeder Beobachter zufällig jede Kategorie sieht. In dieser Formel wird das Gewicht für die Fehlklassifizierung der seltenen Populationen hervorgehoben.

Der Makro-F1-Score wird aufgrund seiner Sensitivität gegenüber seltenen Populationen für den Vergleich der Stichprobenmethode verwendet (Gleichung (8)).

Die Genauigkeit wird verwendet, um die zelltypspezifische Genauigkeit bei der Annotationsaufgabe innerhalb von Datensätzen und die Genauigkeit seltener Zelltypen bei der Annotationsaufgabe zwischen Datensätzen zu bewerten.

Präzision wird als echte positive Erkennungsempfindlichkeitsmetrik verwendet (Gleichung (9)):

Dabei ist TP richtig positiv und FP falsch positiv.

Weitere Informationen zum Forschungsdesign finden Sie in der mit diesem Artikel verlinkten Nature Portfolio Reporting Summary.

Für diese Studie wurden keine neuen Daten generiert. Alle in dieser Studie verwendeten Daten sind wie zuvor beschrieben öffentlich verfügbar (siehe Tabelle 1).

scBalance ist als unabhängiges Python-Paket unter https://github.com/yuqcheng/scBalance verfügbar.

Tang, F. et al. mRNA-Seq-Gesamttranskriptomanalyse einer einzelnen Zelle. Nat. Methoden 6, 377–382 (2009).

Artikel CAS PubMed Google Scholar

Horning, AM et al. Einzelzell-RNA-Seq zeigt eine Subpopulation von Prostatakrebszellen mit erhöhter Zellzyklus-bezogener Transkription und abgeschwächter Androgenreaktion. Krebs Res. 78, 853–864 (2018).

Artikel CAS PubMed Google Scholar

Nyquist, MD et al. Der kombinierte TP53- und RB1-Verlust fördert die Resistenz von Prostatakrebs gegenüber einer Reihe von Therapeutika und macht ihn anfällig für Replikationsstress. Cell Rep. 31, 107669 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Guo, C. et al. Die Einzelzellanalyse zweier schwerer COVID-19-Patienten zeigt einen Monozyten-assoziierten und auf Tocilizumab reagierenden Zytokinsturm. Nat. Komm. 11, 3924 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Wilk, AJ et al. Ein Einzelzellatlas der peripheren Immunantwort bei Patienten mit schwerer COVID-19-Erkrankung. Nat. Med. 26, 1070–1076 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Guo, L. et al. Klärung von Zellschicksalentscheidungen während der Neuprogrammierung somatischer Zellen durch Einzelzell-RNA-Seq. Mol. Zelle 73, 815–829.e817 (2019).

Artikel CAS PubMed Google Scholar

Butler, A., Hoffman, P., Smibert, P., Papalexi, E. & Satija, R. Integration transkriptomischer Einzelzelldaten über verschiedene Bedingungen, Technologien und Arten hinweg. Nat. Biotechnologie. 36, 411–420 (2018).

Artikel CAS PubMed PubMed Central Google Scholar

Wolf, FA, Angerer, P. & Theis, FJ SCANPY: groß angelegte Einzelzell-Genexpressionsdatenanalyse. Genombiol. 19, 15 (2018).

Artikel PubMed PubMed Central Google Scholar

Tran, D. et al. Schnelle und präzise Einzelzellen-Datenanalyse mithilfe eines hierarchischen Autoencoders. Nat. Komm. 12, 1029 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Han, W. et al. Selbstüberwachtes kontrastives Lernen für die integrative Einzelzell-RNA-seq-Datenanalyse. BioRxiv 23, bbac377 (2021).

Google Scholar

Lindeboom, RGH, Regev, A. & Teichmann, SA Auf dem Weg zu einem Atlas menschlicher Zellen: Notizen aus der Vergangenheit machen. Trends Genet. 37, 625–630 (2021).

Artikel CAS PubMed Google Scholar

Rozenblatt-Rosen, O., Michael, J., Regev, A. & Teichmann, SA Der Atlas der menschlichen Zellen: von der Vision zur Realität. Natur 550, 451–453 (2017).

Artikel CAS PubMed Google Scholar

Xie, B., Jiang, Q., Mora, A. & Li, X. Automatische Zelltyp-Identifizierungsmethoden für die Einzelzell-RNA-Sequenzierung. Berechnen. Struktur. Biotechnologie. J. 19, 5874–5887 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Tan, Y. & Cahan, P. SingleCellNet: ein Rechentool zur Klassifizierung einzelner Zell-RNA-Seq-Daten über Plattformen und Arten hinweg. Zellsystem 9, 207–213.e202 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Ma, F. & Pellegrini, M. ACTINN: Automatisierte Identifizierung von Zelltypen bei der Einzelzell-RNA-Sequenzierung. Bioinformatik 36, 533–538 (2019).

Artikel Google Scholar

Worbs, T., Hammerschmidt, SI & Förster, R. Migration dendritischer Zellen in Gesundheit und Krankheit. Nat. Rev. Immunol. 17, 30–48 (2017).

Artikel CAS PubMed Google Scholar

Ren, X. et al. COVID-19-Immunmerkmale, die durch einen groß angelegten Einzelzell-Transkriptomatlas aufgedeckt wurden. Zelle 184, 5838 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Khalilia, M., Chakraborty, S. & Popescu, M. Vorhersage von Krankheitsrisiken anhand stark unausgeglichener Daten mithilfe von Random Forest. BMC Med. Informieren. Entscheidung. Mak. 11, 51 (2011).

Artikel PubMed PubMed Central Google Scholar

Wegmann, R. et al. CellSIUS ermöglicht den empfindlichen und spezifischen Nachweis seltener Zellpopulationen anhand komplexer Einzelzell-RNA-Seq-Daten. Genombiol. 20, 142 (2019).

Artikel PubMed PubMed Central Google Scholar

Jiang, L., Chen, H., Pinello, L. & Yuan, G.-C. GiniClust: Erkennung seltener Zelltypen aus Einzelzell-Genexpressionsdaten mit Gini-Index. Genombiol. 17, 144 (2016).

Artikel PubMed PubMed Central Google Scholar

Zheng, GXY et al. Massiv paralleles digitales Transkriptionsprofiling einzelner Zellen. Nat. Komm. 8, 14049 (2017).

Artikel CAS PubMed PubMed Central Google Scholar

Han, X. et al. Kartierung des Mauszellatlas durch Microwell-Seq. Zelle 172, 1091–1107.e1017 (2018).

Artikel CAS PubMed Google Scholar

Nguyen, V. & Griss, J. scAnnotatR: Framework zur genauen Klassifizierung von Zelltypen in Einzelzell-RNA-Sequenzierungsdaten. BMC Bioinforma. 23, 44 (2022).

Artikel CAS Google Scholar

Zhang, R., Luo, Y., Ma, J., Zhang, M. & Wang, S. scPretrain: Selbstüberwachtes Lernen mit mehreren Aufgaben zur Zelltypklassifizierung. BioRxiv 38, 1607–1614 (2020).

Google Scholar

Wang, L. et al. Eine interpretierbare Deep-Learning-Architektur von Kapselnetzwerken zur Identifizierung zelltypischer Genexpressionsprogramme aus Einzelzell-RNA-Sequenzierungsdaten. Nat. Mach. Intel. 2, 693–703 (2020).

Artikel Google Scholar

Kim, H., Lee, J., Kang, K. & Yoon, S. MarkerCount: Ein stabiler, zählbasierter Zelltypidentifikator für Einzelzell-RNAseq-Experimente. Comput Struct Biotechnol J. 20, 3120–3132 (2022).

Artikel Google Scholar

Kiselev, VY, Yiu, A. & Hemberg, M. scmap: Projektion von Einzelzell-RNA-seq-Daten über Datensätze hinweg. Nat. Methoden 15, 359–362 (2018).

Artikel CAS PubMed Google Scholar

Aran, D. et al. Eine referenzbasierte Analyse der Lungeneinzelzellsequenzierung zeigt einen vorübergehenden profibrotischen Makrophagen. Nat. Immunol. 20, 163–172 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Lopez, R., Regier, J., Cole, MB, Jordan, MI & Yosef, N. Tiefgreifende generative Modellierung für die Einzelzell-Transkriptomik. Nat. Methoden 15, 1053–1058 (2018).

Artikel CAS PubMed PubMed Central Google Scholar

Alquicira-Hernandez, J., Sathe, A., Ji, HP, Nguyen, Q. & Powell, JE scPred: genaue überwachte Methode zur Zelltypklassifizierung aus Einzelzell-RNA-seq-Daten. Genombiol. 20, 264 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Brbić, M. et al. MARS: Entdeckung neuer Zelltypen durch heterogene Einzelzellexperimente. Nat. Methoden 17, 1200–1206 (2020).

Artikel PubMed Google Scholar

Liao, M. et al. Einzelzelllandschaft bronchoalveolärer Immunzellen bei Patienten mit COVID-19. Nat. Med. 26, 842–844 (2020).

Artikel CAS PubMed Google Scholar

Alquicira-Hernandez, J., Sathe, A., Ji, HP, Nguyen, Q. & Powell, JE scPred: genaue überwachte Methode zur Zelltypklassifizierung aus Einzelzell-RNA-seq-Daten. Genombiol. 20, 264 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Bej, S., Galow, A.-M., David, R., Wolfien, M. & Wolkenhauer, O. Automatisierte Annotation seltener Zelltypen aus Einzelzell-RNA-Sequenzierungsdaten durch synthetisches Oversampling. BMC Bioinforma. 22, 557 (2021).

Artikel CAS Google Scholar

Eling, N., Morgan, MD & Marioni, JC Herausforderungen bei der Messung und dem Verständnis von biologischem Lärm. Nat. Rev. Genet. 20, 536–548 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I. & Salakhutdinov, R. Dropout: eine einfache Möglichkeit, eine Überanpassung neuronaler Netze zu verhindern. J. Mach. Lernen. Res. 15, 1929–1958 (2014).

Google Scholar

Clevert, D.-Ae, Unterthiner, T. & Hochreiter, S. Schnelles und genaues Deep Network Learning durch exponentielle lineare Einheiten (ELUs). Vorabdruck unter https://arxiv.org/abs/1511.07289 (2016).

Hwang, B., Lee, JH & Bang, D. Einzelzell-RNA-Sequenzierungstechnologien und Bioinformatik-Pipelines. Exp. Mol. Med. 50, 1–14 (2018).

Artikel CAS PubMed PubMed Central Google Scholar

Lin, Y. et al. scClassify: Schätzung der Stichprobengröße und Multiskalenklassifizierung von Zellen mithilfe von Einzel- und Mehrfachreferenzen. Mol. Syst. Biol. 16, e9389 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Johnson, WE, Li, C. & Rabinovic, A. Anpassen von Batch-Effekten in Microarray-Expressionsdaten mithilfe empirischer Bayes-Methoden. Biostatistik 8, 118–127 (2006).

Artikel PubMed Google Scholar

Litvinukova, M. et al. Zellen des erwachsenen menschlichen Herzens. Natur 588, 466 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Wilk, AJ et al. Ein Einzelzellatlas der peripheren Immunantwort bei Patienten mit schwerer COVID-19-Erkrankung. Nat. Med. 26, 1070–1076 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Schulte-Schrepping, J. et al. Schweres COVID-19 ist durch ein fehlreguliertes myeloisches Zellkompartiment gekennzeichnet. Zelle 182, 1419–1440.e1423 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Zhao, J. et al. Antikörperreaktionen auf SARS-CoV-2 bei Patienten mit neuartiger Coronavirus-Krankheit 2019. Clin. Infizieren. Dis. 71, 2027–2034 (2020).

Artikel CAS PubMed Google Scholar

Rabaan, AA et al. Rolle entzündlicher Zytokine bei COVID-19-Patienten: eine Übersicht über molekulare Mechanismen, Immunfunktionen, Immunpathologie und immunmodulatorische Medikamente zur Bekämpfung des Zytokinsturms. Impfstoffe 9, 436 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Li, X., Chen, S., Hu, X. & Yang, J. Verständnis der Disharmonie zwischen Dropout und Batch-Normalisierung durch Varianzverschiebung. 2019 IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung (CVPR) 2677–2685 (2019).

Kingma, DP & Ba, J. Adam: eine Methode zur stochastischen Optimierung. In Proc. 3. Internationale Konferenz über lernende Repräsentationen (ICLR) (ICLR, 2015).

Vieira, SM, Kaymak, U. & Sousa, JMC Cohens Kappa-Koeffizient als Leistungsmaß für die Merkmalsauswahl. Internationale Konferenz über Fuzzy-Systeme 1–8 (2010).

Deng, QL, Ramskold, D., Reinius, B. & Sandberg, R. Einzelzell-RNA-Seq zeigt dynamische, zufällige monoallele Genexpression in Säugetierzellen. Wissenschaft 343, 193–196 (2014).

Artikel CAS PubMed Google Scholar

Darmanis, S. et al. Eine Untersuchung der Transkriptomdiversität des menschlichen Gehirns auf Einzelzellebene. Proz. Natl Acad. Wissenschaft. USA 112, 7285–7290 (2015).

Artikel CAS PubMed PubMed Central Google Scholar

Usoskin, D. et al. Unvoreingenommene Klassifizierung sensorischer Neuronentypen durch groß angelegte Einzelzell-RNA-Sequenzierung. Nat. Neurosci. 18, 145–153 (2015).

Artikel CAS PubMed Google Scholar

Camp, JG et al. Multilinienkommunikation reguliert die Entwicklung menschlicher Leberknospen durch Pluripotenz. Natur 546, 533–538 (2017).

Artikel CAS PubMed Google Scholar

Baron, M. et al. Eine transkriptomische Einzelzellkarte der Bauchspeicheldrüse von Mensch und Maus zeigt die Populationsstruktur zwischen und innerhalb der Zellen. Zellsystem 3, 346–360.e344 (2016).

Artikel CAS PubMed PubMed Central Google Scholar

Mauro et al. Ein Einzelzell-Transkriptomatlas der menschlichen Bauchspeicheldrüse. Zellsystem 3, 385–394.e383 (2016).

Artikel Google Scholar

Lake, BB et al. Neuronale Subtypen und Diversität durch Einzelkern-RNA-Sequenzierung des menschlichen Gehirns aufgedeckt. Science 352, 1586–1590 (2016).

Artikel CAS PubMed PubMed Central Google Scholar

Campbell, JN et al. Eine molekulare Zählung der Zelltypen des bogenförmigen Hypothalamus und der mittleren Eminenz. Nat. Neurosci. 20, 484–496 (2017).

Artikel CAS PubMed PubMed Central Google Scholar

Zilionis, R. et al. Die Einzelzell-Transkriptomik von Lungenkrebs bei Menschen und Mäusen zeigt konservierte myeloische Populationen bei Individuen und Arten. Immunität 50, 1317 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Schaum, N. et al. Durch Einzelzelltranskriptomik von 20 Mausorganen entsteht eine Tabula Muris. Natur 562, 367 (2018).

Artikel PubMed Central Google Scholar

Zheng, GXY et al. Massiv paralleles digitales Transkriptionsprofiling einzelner Zellen. Nat. Komm. 8, 14049 (2017).

Artikel CAS PubMed PubMed Central Google Scholar

Ding, J. et al. Systematischer Vergleich von Einzelzell- und Einzelkern-RNA-Sequenzierungsmethoden. Nat. Biotechnologie. 38, 737–746 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Xin, Y. et al. Die RNA-Sequenzierung einzelner menschlicher Inselzellen enthüllt Gene für Typ-2-Diabetes. Zellmetabolismus 24, 608–615 (2016).

Artikel CAS PubMed Google Scholar

Segerstolpe, Å. et al. Einzelzell-Transkriptom-Profilierung menschlicher Pankreasinseln bei Gesundheit und Typ-2-Diabetes. Zellmetabolismus 24, 593–607 (2016).

Artikel CAS PubMed PubMed Central Google Scholar

Referenzen herunterladen

Die Arbeit wurde von der Chinese University of Hong Kong (CUHK) mit den Preisnummern 4937025, 4937026, 5501517 und 5501329 sowie vom Innovation and Technology Fund (ITF) mit der Preisnummer GHP/065/21SZ unterstützt.

Fakultät für Informatik und Ingenieurwesen (CSE), Chinesische Universität Hongkong (CUHK), Sonderverwaltungszone Hongkong, China

Yuqi Cheng, Jianing Zhang und Yu Li

School of Computational Science and Engineering, Georgia Institute of Technology, Atlanta, GA, USA

Yuqi Cheng

School of Information and Software Engineering, University of Electronic Science and Technology of China, 610054, Chengdu, China

Xingyu-Fan

Das CUHK Shenzhen Research Institute, Hi-Tech Park, Nanshan, 518057, Shenzhen, China

Yu Li

Sie können diesen Autor auch in PubMed Google Scholar suchen

YC hat die Methode und alle Benchmark-Experimente entworfen. YC hat das Tool in Python implementiert. YC, JZ und XF führten Datenanalysen und alle Berechnungsexperimente durch. JZ und XF lieferten auch Anregungen zur Methodenentwicklung. YC, YL, JZ und XF haben das Manuskript gemeinsam geschrieben. Alle Autoren haben das Manuskript überprüft.

Korrespondenz mit Yu Li.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Dieses Manuskript wurde zuvor in einer anderen Nature Portfolio-Zeitschrift rezensiert. Das Manuskript wurde ohne weitere Begutachtung bei Communications Biology als zur Veröffentlichung geeignet erachtet. Hauptredakteur: Gene Chong.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht durch gesetzliche Vorschriften zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Cheng, Y., Fan, X., Zhang, J. et al. Ein skalierbares, spärliches neuronales Netzwerk-Framework für die Annotation seltener Zelltypen von Einzelzell-Transkriptomdaten. Commun Biol 6, 545 (2023). https://doi.org/10.1038/s42003-023-04928-6

Zitat herunterladen

Eingegangen: 13. April 2023

Angenommen: 11. Mai 2023

Veröffentlicht: 20. Mai 2023

DOI: https://doi.org/10.1038/s42003-023-04928-6

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.

Fallstudie: HERMA-Etikettenapplikatoren für Rundläufer-Etikettiermaschinen von Gernep

ACCT ist ein schnelles und zugängliches Tool zur automatischen Zellzählung, das maschinelles Lernen für die 2D-Bildsegmentierung nutzt

Nachricht

Ein skalierbares, spärliches neuronales Netzwerk-Framework für die Annotation seltener Zelltypen einzelner Zellen