Präzise Automatik

Nachricht

HeimHeim / Nachricht / Präzise Automatik

Nov 13, 2023

Präzise Automatik

Band Nature Communications

Nature Communications Band 13, Artikelnummer: 1867 (2022) Diesen Artikel zitieren

7083 Zugriffe

6 Zitate

17 Altmetrisch

Details zu den Metriken

Die Unfähigkeit, große, frei zugängliche medizinische Bilddatensätze genau und effizient zu kennzeichnen, schränkt die weit verbreitete Implementierung von Modellen der künstlichen Intelligenz im Gesundheitswesen ein. Es gab jedoch nur wenige Versuche, die Annotation solcher öffentlichen Datenbanken zu automatisieren; Ein Ansatz konzentrierte sich beispielsweise auf die arbeitsintensive, manuelle Kennzeichnung von Teilmengen dieser Datensätze, die zum Trainieren neuer Modelle verwendet werden sollen. In dieser Studie beschreiben wir eine Methode zur standardisierten, automatisierten Kennzeichnung basierend auf der Ähnlichkeit zu einem zuvor validierten, erklärbaren KI-(xAI-)Modell-abgeleiteten Atlas, für den der Benutzer einen quantitativen Schwellenwert für ein gewünschtes Maß an Genauigkeit (die Wahrscheinlichkeit) angeben kann -of-similarity, pSim-Metrik). Wir zeigen, dass unser xAI-Modell durch die Berechnung der pSim-Werte für jedes klinische Ausgabeetikett basierend auf dem Vergleich mit seinem aus dem Trainingssatz abgeleiteten Referenzatlas die externen Datensätze automatisch mit einem vom Benutzer ausgewählten hohen Genauigkeitsgrad kennzeichnen kann, der diesem entspricht oder diesen übertrifft menschlicher Experten. Wir zeigen außerdem, dass durch die Feinabstimmung des ursprünglichen Modells mithilfe der automatisch gekennzeichneten Prüfungen für die Umschulung die Leistung erhalten oder verbessert werden kann, was zu einem hochpräzisen, allgemeineren Modell führt.

Die Implementierung medizinischer künstlicher Intelligenz (KI) in die klinische Praxis im Allgemeinen und die radiologische Praxis im Besonderen ist bisher größtenteils durch den Zeit-, Kosten- und Fachaufwand begrenzt, der erforderlich ist, um sehr große Bilddatensätze, die als Platin-Level dienen können, genau zu kennzeichnen Grundwahrheit für das Training klinisch relevanter KI-Modelle. Die Fähigkeit, große externe Datensätze automatisch und effizient mit einem vom Benutzer gewählten Genauigkeitsgrad zu kommentieren, kann daher von erheblichem Wert für die Entwicklung wirkungsvoller, wichtiger medizinischer KI-Modelle sein, die einen Mehrwert für die Medizin bieten und von diesen weitgehend akzeptiert werden Gesundheitsgemeinschaft. Ein solcher Ansatz hat nicht nur das Potenzial, Umschulungen zu fördern, um die Genauigkeit bestehender KI-Modelle zu verbessern, sondern kann – durch die Verwendung erklärbarer, modellabgeleiteter atlasbasierter Methoden1 – auch dazu beitragen, die Kennzeichnung von Open-Source-Datensätzen zu standardisieren2,3,4,5 , bei denen die bereitgestellten Beschriftungen verrauscht, ungenau oder nicht vorhanden sein können. Eine solche Standardisierung kann wiederum die Anzahl der Datenpunkte reduzieren, die für die genaue Modellerstellung, Erleichterung, Schulung und Umschulung aus anfänglichen kleinen, aber gut kommentierten Datensätzen erforderlich sind1,6.

In dieser Studie entwickeln und demonstrieren wir eine Methode zur standardisierten, automatisierten Kennzeichnung auf der Grundlage der Ähnlichkeit zu einem zuvor validierten Modell der erklärbaren KI (xAI). Dabei verwenden wir einen modellabgeleiteten atlasbasierten Ansatz, für den der Benutzer einen quantitativen Schwellenwert für einen gewünschten Wert festlegen kann Genauigkeitsgrad (Ähnlichkeitswahrscheinlichkeit oder pSim-Metrik). Die pSim-Werte reichen von einer „Basis“-Ähnlichkeitswahrscheinlichkeit (pSim = 0, am wenigsten selektiv) bis zu einer „maximalen“ Ähnlichkeitswahrscheinlichkeit (pSim = 1, am selektivsten); pSim wird durch Vergleich zwischen vom Testsatz abgeleiteten Bildmerkmalen und Bildmerkmalen berechnet, die aus dem Referenzatlas (dh der Bibliothek) des Modells abgerufen wurden. Dieser modellabgeleitete Atlas wird während der Modellerstellung (Abb. 1a) aus den Trainingssatzfällen (Abb. 1a, b) erstellt. Der berechnete pSim-Wert spiegelt das harmonische Mittel zwischen zwei modellbezogenen Parametern wider, der „Patch-Ähnlichkeit“ und dem „Konfidenz“ (Methoden, Abb. 1b, c).

Standardisierte, automatisierte Markierungsmethode, basierend auf der Ähnlichkeit zu einem zuvor validierten, erklärbaren KI-Modell (xAI) für die Bruströntgenerkennung (CXR) mit fünf Markierungen, unter Verwendung eines auf einem xAI-Modell abgeleiteten Atlas-basierten Ansatzes. a Unser quantitatives, modellbasiertes, atlasbasiertes, erklärbares KI-System berechnet einen Ähnlichkeitswahrscheinlichkeitswert (pSim) für die automatisierte Kennzeichnung, basierend auf dem harmonischen Mittel zwischen der Patch-Ähnlichkeit und der Konfidenz. Die resultierende pSim-Metrik kann auf einen „Modusauswahl“-Algorithmus angewendet werden, um entweder die externen Eingabebilder einem ausgewählten Vertrauensschwellenwert zuzuordnen oder den Benutzer darauf aufmerksam zu machen, dass der pSim-Wert unter diesen ausgewählten Schwellenwert fällt. b Die modellabgeleitete, atlasbasierte Methode berechnet Patch-Ähnlichkeit und -Konfidenz auf der Grundlage der Klassenaktivierungszuordnung (Class Activation Mapping, CAM)38,39 und der vorhergesagten Wahrscheinlichkeit aus dem Modell für jedes klinische Ausgabeetikett. c Das harmonische Mittel zwischen Patch-Ähnlichkeit und Konfidenz wird dann verwendet, um einen pSim für jede klinische Ausgabebezeichnung in der Modusauswahl zu berechnen.

Konkret haben wir unser bestehendes KI-Modell zur Erkennung von fünf verschiedenen Etiketten in der Thorax-Röntgenaufnahme (CXR) (Kardiomegalie, Pleuraerguss, Lungenödem, Lungenentzündung und Atelektase) auf drei große Open-Source-Datensätze angewendet – CheXpert2, MIMIC3 und NIH4 – und verglich die resultierenden Etiketten mit denen von sieben menschlichen Radiologen. Bemerkenswert ist, dass zwischen den ausgewählten pSim-Schwellenwerten und der Anzahl der vom Modell aus dem externen Datensatz identifizierten (dh erfassten) Fälle eine umgekehrte Beziehung besteht. Mit anderen Worten: Je höher der Schwellenwert für die Ähnlichkeitswahrscheinlichkeit, desto weniger Fälle werden aus der externen Datenbank als ähnlich zu den mit dem Modell gekennzeichneten Fällen identifiziert.

Wir haben gezeigt, dass unser xAI-Modell durch die Berechnung der pSim-Werte für jedes klinische Ausgabeetikett basierend auf dem Vergleich mit dem vom Trainingssatz des Modells abgeleiteten Referenzatlas die externen Datensätze automatisch mit einem vom Benutzer ausgewählten, willkürlich hohen Genauigkeitsgrad kennzeichnen konnte, der oder entspricht übertrifft das menschlicher Experten. Darüber hinaus haben wir gezeigt, dass durch die Feinabstimmung des ursprünglichen Modells mithilfe der automatisch gekennzeichneten Prüfungen für die Umschulung die Leistung erhalten oder verbessert werden konnte, was zu einem hochpräzisen, allgemeineren Modell führte. Obwohl die pSim-Schwellenwerte, die zum Erreichen maximaler Ähnlichkeit erforderlich sind, je nach klinischer Ausgabebezeichnung variieren, können diese Werte, sobald sie identifiziert sind – basierend auf dem Vergleich von Modellbezeichnungen mit einer relativ kleinen Teilmenge von von Experten kommentierten Grundwahrheitsbezeichnungen – auf die übrigen externen angewendet werden Datensatz, um Untersuchungen zu identifizieren, die bei einem vorgegebenen Genauigkeitsniveau mit hohem Konfidenzniveau wahrscheinlich positiv für dieses klinische Ergebnisetikett ausfallen; Die resultierenden Beschriftungen können dann zur Feinabstimmung oder Neuschulung des Originalmodells angewendet werden.

Wir haben ein xAI-Modell zur Erkennung der folgenden fünf verschiedenen Bezeichnungen auf CXRs in der posterior-anterioren (PA)-Projektion entwickelt: Kardiomegalie, Pleuraerguss, Lungenödem, Lungenentzündung und Atelektase (siehe Methoden). Wie aus früheren Berichten hervorgeht, verfügte unser Modell zur Erklärbarkeit über Module zur Atlaserstellung und Vorhersagebasisberechnung (Abb. 1)1. Die Vorhersagebasis wurde verwendet, um einen Patch-Ähnlichkeitswert (eine Wahrscheinlichkeit zwischen 0 und 1) zu berechnen. Unser Modell enthielt auch ein Modul zur Berechnung der Konfidenzwahrscheinlichkeit (Abb. 1a und b). Das harmonische Mittel zwischen den Ausgaben des Patch-Ähnlichkeits- und Konfidenzmodells wurde verwendet, um einen quantitativen Wert der Ähnlichkeitswahrscheinlichkeit (pSim) zwischen 0 und 1 für jedes untersuchte klinische Ausgabeetikett zu berechnen (Abb. 1c).

CXR-Untersuchungen, die von Februar 2015 bis Februar 2019 an unserer Einrichtung durchgeführt wurden, wurden anhand unseres RIS (Radiology Information System) und PACS (Picture Archiving and Communication System) identifiziert, was zu einem Datensatz von 440.852 Studien führte. Untersuchungen wurden ausgeschlossen, wenn kein zugehöriger radiologischer Bericht, keine Informationen zur Ansichtsposition (z. B. anteroposteriore Projektion, tragbar usw.) oder keine wesentlichen Patientenidentifikatoren (einschließlich, aber nicht beschränkt auf Krankenaktennummer, Alter oder Geschlecht) vorlagen. Insgesamt wurden 400.886 CXR-Bilder aus 267.180 Untersuchungen, die 117.195 Patienten repräsentieren, zusammen mit den entsprechenden radiologischen Berichten retrospektiv erfasst (ergänzende Abbildung 1). Mithilfe eines regelbasierten NLP-Modells (Natural Language Processing) (Ergänzungstabelle 1) haben wir automatisch 20 pathologische Bezeichnungen aus den Radiologieberichten extrahiert, denen eine der folgenden drei Bezeichnungen zugewiesen wurde: positiv, negativ oder ignorieren. Nach automatisierter NLP-Datengewinnung und -bereinigung haben wir 151.700 anteroposteriore CXR-Ansichten von 49.096 Patienten (58 % männlich, Durchschnittsalter 62 ± 18 Jahre) und 90.023 posteroanteriore (PA) CXR-Ansichten von 69.404 Patienten (50 % männlich, Durchschnittsalter 57) archiviert ± 19 Jahre). Wir haben für jede Ansichtsposition zufällig 1000 Bilder als Testsatz ausgewählt; Die übrigen Untersuchungen von nicht überlappenden Patienten wurden in Trainings- und Validierungssätze unterteilt (ergänzende Abbildung 1). Die Bezeichnungen für die Trainings- und Validierungssätze wurden ausschließlich anhand der automatisierten NLP-Aufgaben bestimmt, während die Bezeichnungen für den Testsatz durch Konsens von drei US-amerikanischen Radiologen an unserer Einrichtung bestimmt wurden (weitere Einzelheiten finden Sie in der Ergänzungstabelle 1) unter Verwendung der „ „Mark-it“-Tool (https://markit.mgh.harvard.edu, MA, USA) für Anmerkungen7. Unser xAI-Modell wurde durch überwachtes Lernen mit einem gesamten Trainingsdatensatz von 138.686 CXRs trainiert und erreichte in unserem ersten Modell eine mittlere AUROC-Kurve (Area Under the Receiver Operating Characteristic)8 von 0,95 + 0,02 für die Erkennung der fünf klinischen Ausgabeetiketten (Ergänzungstabelle 2). , unabhängiger Testsatz (Methoden).

Wir haben unser xAI CXR-Auto-Labeling-Modell auf die verfügbaren PA CXR-Bilder aus drei großen Open-Source-Datensätzen angewendet: CheXpert (n = 29.420 PA CXRs), MIMIC (n = 71.223) und NIH (n = 67.310)2,3. 4. Um die Genauigkeit der Kennzeichnung zu beurteilen, haben wir zufällig eine Teilmenge von „positiven“ und „negativen“ Fällen ausgewählt, wie sie vom Modell für jede der fünf Kennzeichnungen bestimmt wurden und die gleichmäßig in jedem der zehn pSim-Wertbereiche (0–0,1, 0,1–0,2, 0,2) verteilt sind –0,3, …, 0,9–1,0), zur Expertenbegutachtung (Abb. 2–4). Ground Truth (GT) wurde als Mehrheitskonsens von sieben spezialisierten Radiologen definiert (drei mit 12–25 Jahren Erfahrung in der Thoraxradiologie und vier mit 1–6 Jahren Erfahrung in der Notfallradiologie); GT und individuelle Bewertungen jedes Lesers für jedes klinische Ausgabeetikett (Kardiomegalie, Pleuraerguss, Lungenödem, Lungenentzündung und Atelektase) in jedem der pSim-Wertbereiche sind in den Abbildungen dargestellt. 2–4a (oben links). In Abb. In 2–4b (oben rechts) stellen wir die Beziehung zwischen dem pSim-Wert, der für die automatische Beschriftung des Modells (x-Achse) angewendet wird, und sowohl dem (i) positiven Vorhersagewert (PPV) als auch dem negativen Vorhersagewert (NPV) des Modells grafisch dar Bewertungen versus Grundwahrheit; und die True-Positive-Capture-Rate (TPCR) und die True-Negative-Capture-Rate des (ii) Modells, jeweils definiert als die gesamte True Positive (nach GT) dividiert durch die gesamte Positive (nach GT) bzw. die gesamte True Negative (nach GT) dividiert durch das Gesamtnegativ (durch GT). In Abb. 2–4c (unten links) und Abb. In den Abbildungen 2–4d (unten rechts) wird jeweils die Anzahl der vom Modell bei jedem pSim-Schwellenwert (x-Achse) bewerteten falsch positiven (nach GT) und falsch negativen (nach GT) Fälle angezeigt, geschichtet nach Datensätzen (d. h , CheXpert, MIMIC oder NIH), wobei der optimale, niedrigste pSim-Schwellenwert 100 % PPV oder NPV erreicht, angegeben. Bemerkenswert ist, dass der niedrigstmögliche pSim-Schwellenwert, der für 100 % PPV oder NPV erforderlich ist, der maximalen „richtigen Erfassungsrate“ entspricht, wie in den Abbildungen dargestellt. 2–4b.

Wir haben unser xAI CXR-Auto-Labeling-Modell auf drei große Open-Source-Datensätze angewendet: CheXpert, MIMIC und NIH. Für zwei der fünf klinischen Ausgabebezeichnungen (Kardiomegalie und Pleuraerguss) haben wir zufällig eine Teilmenge von „positiven“ und „negativen“ Fällen ausgewählt, wie vom Modell bestimmt, gleichmäßig verteilt in jedem der zehn pSim-Wertbereiche (0–0,1, 0,1). –0,2, 0,2–0,3, …, 0,9–1,0), zur Expertenbegutachtung. In a werden die positiven (hellrot) und negativen (hellblau) Bewertungen für jeden der sieben einzelnen Leser (Spalten A–G) grafisch dargestellt, wobei in der letzten Spalte die Konsensgrundwahrheit (GT, bestimmt durch Mehrheit) angezeigt wird (fettes Rot oder kräftiges Blau). In b sind die positiven Vorhersagewerte (PPV = [wahr positiv nach GT]/[insgesamt positiv nach Modell], durchgezogene rote Dreiecke, Y-Achse links) und die negativen Vorhersagewerte (NPV = [wahr negativ nach GT]/[insgesamt negativ nach Modell], durchgezogene blaue Kreise, Y-Achse links), der Bewertungen des Modells werden im Vergleich zum pSim-Schwellenwert, der vom Modell angewendet wurde (X-Achse), grafisch dargestellt. In b (y-Achse rechts) werden außerdem die tatsächlich positive Erfassungsrate (TPCR, gepunktete rote Dreiecke) und die tatsächlich negative Erfassungsrate (TNCR, gepunktete blaue Kreise) des Modells angezeigt, jeweils definiert als TPCR = [wahr positiv (TP) durch GT ]/[Gesamtpositiv nach GT (fettgedruckte rote Zahl aus a)] und TNCR = [echt negativ (TN) nach GT]/[gesamt negativ nach GT (fettgedruckte blaue Zahl aus a)]. In c (unten links) und d (unten rechts) ist die Anzahl der vom Modell bei jedem pSim-Schwellenwert (x-Achse) bewerteten falsch positiven (FP nach GT) und falsch negativen (FN nach GT) Fälle angegeben nach Datensatz geschichtet dargestellt (CheXpert, MIMIC oder NIH; Gesamtzahl der positiven oder negativen Fälle nach dem Modell in Klammern), wobei der optimale, niedrigste pSim-Schwellenwert 100 % PPV oder NPV erreicht, wie angegeben (fette grüne Dreiecke).

Die Bildunterschriften a–d finden Sie in Abb. 2.

Die Bildunterschriften a–d finden Sie in Abb. 2.

Wie auch in den Textfeldern in Abb. gezeigt. In den Abbildungen 2–4c, d sowie in Abb. 5 ist die Modellgenauigkeit im Vergleich zu der der verfügbaren gepoolten öffentlichen Labels der externen Open-Source-Datensätze günstig. Abbildung 5 zeigt außerdem, dass die AUROC-Leistung des automatisierten Kennzeichnungsmodells im Vergleich zu der der einzelnen erfahrenen Radiologen für jede klinische Ausgabekennzeichnung sowohl beim pSim = 0-Basiswert-Kennzeichnungsschwellenwert als auch beim optimalen pSim-Wert-Kennzeichnungsschwellenwert (d. h.) günstig ist niedrigster pSim-Wert, der eine Genauigkeit von 100 % erreicht, gemäß Abb. 2–4c, d).

Die AUROC-Leistung unseres xAI CXR-Autokennzeichnungsmodells, das auf die Open-Source-Datensätze CheXpert, MIMIC und NIH angewendet wird, wird für jede der fünf gekennzeichneten klinischen Ausgabebezeichnungen gezeigt: a Kardiomegalie, b Pleuraerguss, c Lungenödem, d Lungenentzündung, und e Atelektase. Der Vergleich erfolgt mit der Leistung der einzelnen erfahrenen Radiologen (A–G, rote Kreise) sowie mit der Leistung der gepoolten externen Anmerkungen (blaue Quadrate, n = Anzahl der verfügbaren beschrifteten externen Fälle pro klinischem Ausgabeetikett). ROC-Kurven (y-Achsen-Sensitivität, x-Achse 1-Spezifität) werden sowohl für den Grundlinien-pSim = 0-Schwellenwert (vergrößerter Kasten) als auch für den optimalen pSim-Schwellenwert (d. h. den niedrigsten pSim-Schwellenwert, der eine Genauigkeit von 100 % erreicht, wie in Abb. 2–4c und d).

Beispielhafte automatisch beschriftete CXR-Bilder, die eine vollständige Übereinstimmung zwischen allen sieben erfahrenen Radiologen und dem xAI-Modell aufwiesen und für jede der fünf untersuchten klinischen Ausgabebezeichnungen positiv waren, sind in der ergänzenden Abbildung 2 dargestellt. Die vom Modell für jedes Bild angewendeten pSim-Schwellenwerte und die Anzahl/Prozent der PA CXR-Untersuchungen mit vollständiger Übereinstimmung für jedes Label werden ebenfalls angezeigt. Bemerkenswert ist, dass das Modell nur 14 positive Untersuchungen als Lungenentzündung identifizierte, die mit jedem Leser voll und ganz übereinstimmten, von insgesamt 50 Untersuchungen, die als positiv für Lungenentzündung eingestuft wurden (28 %). Die prozentual positiven Markierungen mit vollständiger Übereinstimmung für die anderen vier Markierungen waren, wie in der Abbildung dargestellt, Kardiomegalie 78 % (39/50), Pleuraerguss 78 % (39/50), Lungenödem 43 % (17/40) und Atelektase 46 % (23/50).

In der Ergänzungstabelle 3 haben wir unser automatisiertes Kennzeichnungsmodell auf die drei vollständigen öffentlichen Open-Source-CXR-Datensätze angewendet: CheXpert (n = 29.420), MIMIC (n = 71.223) und NIH (n = 67.310); um die Größe der Anzahl der erfassten Fälle am optimierten pSim-Schwellenwert für maximale Genauigkeit für jedes klinische Ausgabeetikett zu demonstrieren (PPV, NPV = 1; gemäß Abb. 2–4). Die Zusammenfassung der Modellbezeichnungen für die drei vollständigen öffentlichen Datensätze (Ergänzungstabelle 3, C) ergab eine Erfassungsrate von 80 % für Kardiomegalie (134.076/167.953), 68 % für Pleuraerguss (114.230/167.953) und 27 % für Lungenödem ( 45.660/167.953), 20 % für Lungenentzündung (33.308/167.953) und 28 % für Atelektase (47.436/167.953). Es ist bemerkenswert, dass die mittleren CXR-„Erfassungsraten“ des Modells für die gepoolten Ergebnisse aus den drei öffentlichen Datensätzen weitgehend denen in den Diagrammen der Abbildungen entsprachen. 2–4b, für die zufällig ausgewählte Untergruppe von Untersuchungen (n = 90–100), die sowohl vom Modell als auch von den erfahrenen Radiologen gekennzeichnet wurden.

Für jedes der fünf automatisch gekennzeichneten klinischen Ausgabeetiketten (Abb. 6) haben wir Folgendes verglichen: (i) den Prozentsatz der positiv automatisch gekennzeichneten CXRs, die aus den drei gepoolten, vollständigen öffentlichen Datensätzen (aus Ergänzungstabelle 3) erfasst wurden; (ii) der Prozentsatz der Fälle mit vollständiger Übereinstimmung zwischen dem Modell und allen sieben Expertenlesern (aus ergänzender Abbildung 2); (iii) der niedrigste pSim-Wert, so dass PPV = 1 (dargestellt als „1-pSim@PPV1“; aus Abb. 2–4c), und (iv) der niedrigste pSim-Wert, so dass NPV = 1 (dargestellt als „1- pSim@NPV1“; aus Abb. 2–4d). Klinische Ausgabekennzeichnungen mit höheren Werten dieser Parameter (z. B. Kardiomegalie, Pleuraerguss) entsprachen einer höheren Effizienz und Zuverlässigkeit der automatischen Kennzeichnung des Modells; Klinische Ausgabebezeichnungen mit niedrigeren Werten (z. B. Lungenödem, Lungenentzündung) entsprachen einer geringeren Effizienz und Zuverlässigkeit der automatischen Kennzeichnung des Modells. Bemerkenswert ist, dass für die Atelektase „1-pSim@PPV1“ höher war als „1-pSim@NPV1“, was auf ein größeres Vertrauen hindeutet, dass das Modell bei der „Anpassung“ dieser Bezeichnung korrekt ist (d. h. bei der korrekten automatischen Kennzeichnung von richtig-positiven Ergebnissen). ) als beim „Ausschließen“ dieser Bezeichnung (d. h. beim korrekten automatischen Kennzeichnen von echten Negativen). Diese Beziehung war für die anderen vier Bezeichnungen umgekehrt (z. B. größeres Vertrauen, dass das Modell eine Lungenentzündung oder ein Lungenödem korrekt „ausschließen“ kann als „einschließen“).

Für jede der fünf automatisch gekennzeichneten klinischen Ausgabebezeichnungen – Kardiomegalie (blau), Pleuraerguss (orange), Atelektase (grau), Lungenödem (grün) und Lungenentzündung (gelb) – haben wir Folgendes verglichen: (i) den Prozentsatz positiv automatisch gekennzeichnete CXRs, die aus den drei gepoolten, vollständigen öffentlichen Datensätzen „erfasst“ wurden (d. h. „Pooled Capture%“ aus Ergänzungstabelle 3, C); (ii) der Prozentsatz der Fälle mit vollständiger Übereinstimmung zwischen dem Modell und allen sieben Expertenlesern (dh „Volle Zustimmung %“ aus ergänzender Abbildung 2); (iii) der niedrigste pSim-Wert, so dass PPV = 1 (dargestellt als „1-pSim“, aus Abb. 2–4, c) und (iv) der niedrigste pSim-Wert, so dass NPV = 1 (dargestellt als „1- pSim“, aus Abb. 2–4, d). Klinische Ausgabebezeichnungen mit höheren y-Achsenwerten (z. B. Kardiomegalie, Pleuraerguss) entsprechen denen mit höherer Effizienz/Konfidenz bei der automatischen Kennzeichnung des Modells. Klinische Ausgabebezeichnungen mit niedrigeren Y-Achsen-Werten (z. B. Lungenentzündung, Lungenödem) entsprechen denen mit geringerer Effizienz/Konfidenz bei der automatischen Kennzeichnung des Modells. Bemerkenswert ist, dass in der Grafik für Atelektase „1-pSim@PPV1“ höher ist als „1-pSim@NPV1“, was als größeres Vertrauen interpretiert werden kann, dass das Modell bei der „Entscheidung“ der klinischen Ausgabebezeichnung korrekt ist ( d. h. korrekte automatische Kennzeichnung von richtig-positiven Ergebnissen) als beim „Ausschließen“ der klinischen Ausgabekennzeichnung (d. h. korrekte automatische Kennzeichnung von wahr-negativen Befunden); Diese Beziehung ist für die anderen vier klinischen Ausgabebezeichnungen umgekehrt (z. B. größeres Vertrauen, dass das Modell eine Lungenentzündung oder ein Lungenödem korrekt „ausschließen“ kann als „ausschließen“).

Die paarweise Kappa-Statistik zur Schätzung der Variabilität zwischen Beobachtern unter den sieben erfahrenen Radiologen ist in Abb. 7 für jedes der fünf automatisch gekennzeichneten klinischen Ausgabeetiketten dargestellt. Die Bereiche für diese Werte sind wie folgt: Kardiomegalie 0,82–0,92, Pleuraerguss 0,78–0,94, Lungenödem 0,57–0,86, Pneumonie 0,38–0,80 und Atelektase 0,47–0,78. Die Verteilung dieser Bereiche korreliert gut mit der Effizienz und den Konfidenzmetriken des Modells für die automatische Etikettierung pro klinischem Ausgabeetikett, die in Abb. 6 dargestellt sind, wobei Kardiomegalie und Pleuraerguss die größte Interbeurteiler-Übereinstimmung aufweisen und Lungenentzündung, Lungenödem und Atelektase angezeigt werden das Mindeste.

Für jede der fünf automatisch markierten klinischen Ausgabebezeichnungen – a Kardiomegalie, b Pleuraerguss, c Lungenödem, d Lungenentzündung und e Atelektase – werden die paarweisen Kappa-Statistiken zur Schätzung der Variabilität zwischen Beobachtern in den jeweiligen farbcodierten Matrizen angezeigt43.

In Abb. 8 vergleichen wir die Auto-Labeling-Leistung des Modells unter Verwendung dieser pSim-Metrik mit der Leistung von entweder (1) Patch-Ähnlichkeit (basierend auf CAM-Berechnungen, bezogen auf die „fokale“ räumliche Lokalisierung) oder (2) Konfidenzwahrscheinlichkeit (bezogen). allein auf die „globale“ Wahrscheinlichkeitsverteilung der endgültigen Modellausgabebezeichnungen zurückzuführen. Unsere neue Analyse legt nahe, dass die Verwendung eines quantitativen pSim-Schwellenwerts Vorteile gegenüber der Patch-Ähnlichkeit oder der Konfidenzberechnung allein haben könnte, was insbesondere für die Ausgabebezeichnungen klinischer Diagnosen – Lungenentzündung und Lungenödem – bemerkenswert ist, die unter Experten die geringste Übereinstimmung zwischen Bewertern aufweisen (Abb. 7). Diese Ergebnisse wirken sich auf die „Erklärbarkeit“ unseres Modells im Hinblick auf Ausprägungskarten aus. Eine kürzlich erschienene Arbeit kam zu dem Schluss, dass die Techniken der Salienzkarten sehr unterschiedlich sind und dass ihre Verwendung „im Hochrisikobereich der medizinischen Bildgebung eine zusätzliche Prüfung erfordert“; Die Autoren empfahlen, „dass Erkennungs- oder Segmentierungsmodelle verwendet werden, wenn Lokalisierung die gewünschte Ausgabe des Netzwerks ist“. Ein bemerkenswertes Merkmal unseres Ansatzes ist jedoch seine Erklärbarkeit auf der Grundlage quantitativer pSim-Werte (berechnet aus unserem modellabgeleiteten Atlas), die, wie bereits erwähnt, möglicherweise einen Mehrwert gegenüber Ausnahmekarten bieten, die nur mithilfe von Patch-Ähnlichkeits- oder Konfidenzberechnungen erstellt wurden9.

Wir haben die Leistung der True Positive Capture Rate (TPCR) für jedes der fünf klinischen Ausgabeetiketten verglichen, wobei wir nur die Konfidenzwahrscheinlichkeit (die die globale Wahrscheinlichkeitsverteilung der Ausgabeetiketten widerspiegelt) und nur die Patch-Ähnlichkeit (die die fokale räumliche Lokalisierung der Ausgabeetiketten widerspiegelt) herangezogen haben. und pSim (spiegelt das harmonische Mittel zwischen der Konfidenzwahrscheinlichkeit und der Patch-Ähnlichkeit wider, wie in Abb. 1 dargestellt). Diese Ergebnisse sind insofern bemerkenswert, als die beiden Modellausgabebezeichnungen, die eine hohe Interbeurteiler-Übereinstimmung der Bildgebungsbefunde widerspiegeln – a Kardiomegalie und b Pleuraerguss, wie in Abb. 7 – eine gute Übereinstimmung zwischen den drei Konfidenzniveaumetriken mit hohen TPCRs für zeigen jede. Für die beiden Ausgabebezeichnungen, die gemäß Abb. 7 eine geringere Interbeurteiler-Übereinstimmung zeigen – c Lungenödem und d Lungenentzündung – übersteigt die pSim-Leistung die der Patch-Ähnlichkeit für beide deutlich und die der Konfidenzwahrscheinlichkeit für Lungenentzündung, aber nicht für Lungenödem. Dieser Unterschied ist wahrscheinlich auf die Tatsache zurückzuführen, dass die Patch-Ähnlichkeit empfindlicher für die Erkennung fokaler, regionaler Bildbefunde ist (z. B. bei der klinischen Diagnose einer Lungenentzündung), während die Konfidenzwahrscheinlichkeit empfindlicher für die Erkennung globaler Befunde ist (z. B , wie bei der klinischen Diagnose eines Lungenödems beobachtet). Die Ergebnisse für E-Atelektasen, bei CXR typischerweise ein eher fokaler als globaler Befund, können auf ähnliche Weise erklärt werden.

Wir haben auch die Beziehung zwischen Leistungskonsistenz, Generalisierbarkeit, Datensatzgröße und Architektur untersucht. In Bezug auf die Architektur gab es eine hervorragende Konsistenz zwischen unserem aktuellen Modell und drei weiteren unterschiedlichen Modellarchitekturen, darunter ResNet-5010, MobileNet v211 und MnasNet12 (ergänzende Abbildung 3). Unsere Ergebnisse deuten ebenfalls auf eine konsistente, robuste Generalisierbarkeit hinsichtlich der Größe und Heterogenität des Datensatzes hin (Tabelle 1, Ergänzungstabellen 3 und 4).

Um die Fähigkeit unseres Systems zu demonstrieren, auf externe Datensätze mit einem vom Benutzer festgelegten Leistungsniveau zu verallgemeinern, haben wir unser ursprüngliches Modell durch iteratives Neutraining unter Verwendung der automatisch gekennzeichneten CXR-Prüfungen aus den drei öffentlichen Datensätzen verfeinert (Tabelle 1). Die für die Umschulung ausgewählten CXR-Prüfungen (n = 31.020) hatten mindestens ein positives Label, einen pSim-Wert, der größer oder gleich dem optimalen Schwellenwert für dieses Label war (gemäß Abb. 2–4c, 2–4d und 5). und wurden ausgeschlossen, wenn sie zuvor als Teil des Testsatzes verwendet wurden. Unsere Ergebnisse, die die Leistung des ursprünglichen Modells mit der des fein abgestimmten Modells vergleichen (Tabelle 1 und Ergänzungstabelle 4), zeigten eine gleiche oder verbesserte Genauigkeit des fein abgestimmten Modells – trainiert mit sowohl lokalen als auch allgemeineren Daten aus den drei öffentlichen Datensätzen – im Vergleich zum ursprünglichen Modell, das nur mit lokalen Daten trainiert wurde.

Die genaue und effiziente Annotation großer medizinischer Bilddatensätze ist eine wichtige Einschränkung beim Training und damit bei der weit verbreiteten Implementierung von KI-Modellen im Gesundheitswesen13,14,15,16,17,18,19,20,21,22. Bisher wurden jedoch in der Literatur nur wenige Versuche beschrieben, die Kennzeichnung solch großer Open-Access-Datenbanken zu automatisieren2,3,4,5,6. Ein Ansatz konzentrierte sich beispielsweise auf die Entwicklung neuer KI-Modelle unter Verwendung arbeitsintensiver, manuell annotierter Teilmengen der externen Datensätze und die Anwendung dieser Modelle auf die verbleibende Datenbank6. Die Genauigkeit eines solchen Ansatzes kann nicht nur durch Folgendes eingeschränkt werden: (1) die Grundleistung des Modells, sondern auch durch (2) Unterschiede in der Fallmischung und Bildqualität der externen Datensätze. Darüber hinaus kann, wie die Ergebnisse unserer Studie zeigen, (3) nicht davon ausgegangen werden, dass die in öffentlichen Datenbanken bereitgestellten Etiketten korrekt oder sauber sind; In einigen öffentlichen Datensätzen können solche Beschriftungen beispielsweise aus möglicherweise verrauschten, von NLP abgeleiteten Annotationen ohne Validierung durch einen geeigneten Referenzstandard auf Platinebene generiert worden sein.

In dieser Studie demonstrieren wir eine Methode zur standardisierten, automatisierten Kennzeichnung basierend auf der Ähnlichkeit zu einem zuvor validierten xAI-Modell unter Verwendung eines auf einem Modell abgeleiteten Atlas basierenden Ansatzes, für den der Benutzer einen quantitativen Schwellenwert für ein gewünschtes Maß an Genauigkeit angeben kann pSim-Metrik. Insbesondere haben wir unser bestehendes KI-Modell zur Erkennung von fünf verschiedenen klinischen CXR-Ausgabebezeichnungen (z. B. Kardiomegalie, Pleuraerguss, Lungenödem, Lungenentzündung und Atelektase) auf drei große öffentliche Open-Source-Datensätze (z. B. CheXpert, MIMIC und) angewendet NIH) und verglich die resultierenden Etiketten mit denen von sieben menschlichen Radiologen.

Wir haben gezeigt, dass unser xAI-Modell durch die Berechnung der pSim-Werte für jedes Etikett basierend auf dem Vergleich mit dem abgerufenen, vom Trainingssatz abgeleiteten Referenzatlas eine Teilmenge der externen Daten automatisch mit einem vom Benutzer ausgewählten, willkürlich hohen Genauigkeitsgrad kennzeichnen kann oder übersteigt die der menschlichen Experten (Abb. 5). Darüber hinaus haben wir gezeigt, dass durch die Feinabstimmung des ursprünglichen Modells mithilfe der automatisch gekennzeichneten Prüfungen für die Umschulung die Leistung erhalten oder verbessert werden konnte, was zu einem hochpräzisen, allgemeineren Modell führte.

Der für die Anmerkung verwendete pSim-Wert spiegelt einen Kompromiss zwischen der Genauigkeit der Bildbeschriftung (d. h. je höher der pSim-Wert, desto genauer die Beschriftungen) und der Effizienz der Bildbeschriftung (d. h. je höher der pSim-Wert, desto weniger Untersuchungen) wider die das Modell zur Annotation auswählt). Um den pSim-Schwellenwert für jedes Ausgabeetikett so zu bestimmen, dass PPV, NPV = 1 ist, haben wir zufällig eine Teilmenge von „positiven“ und „negativen“ Untersuchungen aus den drei gepoolten Open-Source-Datenbanken ausgewählt, die gleichmäßig in jedem der zehn pSim-Wertbereiche verteilt sind ( 0–0,1, 0,1–0,2, 0,2–0,3, …, 0,9–1,0) gemäß Abb. 2–4 (10 Prüfungen pro pSim-Bereich für insgesamt 100). Es ist bemerkenswert, dass wir mit diesem Ansatz für die Prüfungsauswahl trotz der relativ geringen Anzahl von Fällen, die der menschlichen Expertenprüfung vorgelegt wurden (n = 100), nach der Feinabstimmung ein sehr hohes Maß an Kennzeichnungsgenauigkeit und Modellleistung erreichen konnten.

Um die Effizienz unseres automatisierten Etikettierungsansatzes zu bewerten, haben wir unser xAI-Modell auf die drei vollständigen öffentlichen Datensätze angewendet und die fünf automatisch markierten klinischen Ausgabeetiketten anhand der folgenden Parameter verglichen: (i) der Prozentsatz der positiv automatisch markierten CXRs aus den drei gepoolten öffentlichen Datensätzen (d. h. der Erfassungsrate), (ii) der Prozentsatz der Fälle mit vollständiger Übereinstimmung zwischen dem Modell und allen sieben Expertenlesern, (iii) der niedrigste pSim-Wert für die Annotation, sodass alle erfassten positiven Fälle wahr sind positiv (d. h. optimaler pSim für PPV = 1) und (iv) der niedrigste pSim-Wert für die Annotation, sodass alle erfassten negativen Fälle wirklich negativ sind (d. h. optimaler pSim für NPV = 1). Wir fanden eine starke Korrelation zwischen der Größe dieser Parameter für jedes der annotierten klinischen Ausgabeetiketten, wie in Abb. 6 dargestellt. Es ist bemerkenswert, dass die positiven Erfassungsraten aus den drei gepoolten öffentlichen Datensätzen auch stark mit den in der Grafik dargestellten Erfassungsraten korrelierten Feigen. 2–4b, für die Teilmenge der Untersuchungen (n = 90–100), die sowohl vom Modell als auch von den Radiologenexperten gekennzeichnet wurde. Darüber hinaus stimmten die für jedes klinische Ausgabeetikett angegebenen Parameterwerte gut mit den in Abb. 7 gezeigten Kappa-Werten für die Variabilität zwischen Beobachtern überein.

Zusammengenommen deuten unsere Ergebnisse darauf hin, dass die Gesamtgenauigkeit und Effizienz des Auto-Labeling-Modells, das auf die gesamten öffentlichen Datensätze mit dem optimalen pSim für jedes klinische Ausgabelabel angewendet wird, der Genauigkeit und Effizienz des Modells bei Anwendung auf die Teilmenge ähnlich sein kann von den sieben erfahrenen Radiologen kommentierten Untersuchungen. Diese Ergebnisse deuten auch auf eine höhere Effizienz der automatischen Markierung mit höherem Vertrauen in die Genauigkeit der Markierung bei Kardiomegalie und Pleuraerguss hin – zwei der objektiveren Ergebnisse bei der CXR-Interpretation – und auf eine geringere Effizienz der automatischen Markierung mit geringerem Vertrauen in die Genauigkeit der Markierung bei Lungenentzündung und Lungenödem – zwei der eher subjektiven Beurteilungen bei der CXR-Interpretation. Tatsächlich ist die Kennzeichnung dafür umso zuverlässiger und robuster, je größer die Menge „1-pSimoptimal“ für eine bestimmte klinische Ausgabekennzeichnung ist (wobei 0 ≤ pSim ≤ 1 und pSimoptimal = der minimale pSim-Wert, sodass PPV/NPV = 1). klinische Ausgabebezeichnung, basierend auf der Ähnlichkeit mit dem „erinnerten“ Referenzatlas, der aus dem NLP-Trainingssatz des Modells abgeleitet wurde.

Ein wichtiges Merkmal, das unseren Ansatz von dem anderer Black-Box-Klassifizierungsmodelle unterscheidet, ist die Erklärbarkeit; Die pSim-Metrik gibt Rückmeldung darüber, ob das Modell mit einem vorgegebenen Genauigkeitsgrad arbeitet. Das Beschriften externer Datensätze mithilfe von Black-Box-Klassifizierungsmethoden ist wahrscheinlich arbeitsintensiver als bei unserem Ansatz, da für jeden einzelnen Datensatz (z. B. CheXpert, NIH und MIMIC) möglicherweise eine größere Anzahl manueller Beschriftungen erforderlich ist, um sicherzustellen, dass ausreichende repräsentative Untersuchungen durchgeführt werden wurden beprobt. Die Verwendung von pSim zur Schätzung einer quantitativen Ähnlichkeitswahrscheinlichkeit könnte jedoch das Vertrauen der Benutzer stärken, dass genügend Untersuchungen für eine genaue Modellleistung durchgeführt wurden. In Zukunft muss eine solche manuelle Annotation durch Experten möglicherweise nur noch einmal für eine bestimmte Plattform an einer bestimmten Institution durchgeführt werden, was eine automatisierte kontinuierliche Feinabstimmung und Umschulung erleichtert. Tatsächlich wurde in einem kürzlich veröffentlichten Artikel festgestellt, dass „die Leistung eines Modells zur Segmentierung von Hirnläsionen, das anhand der Daten einer einzelnen Institution trainiert wurde, geringer war, wenn es an einer zweiten Institution angewendet wurde; jedoch bei Hinzufügung einer kleinen Menge (10 %) an Trainingsdaten von der zweiten Institution.“ ermöglichte es dem Modell, sein volles potenzielles Leistungsniveau an der zweiten Institution zu erreichen.“ Unser Ansatz hat das Potenzial, eine Feinabstimmung oder Umschulung auf ein ähnliches oder höheres Leistungsniveau zu ermöglichen, wobei deutlich weniger Daten als 10 % des anfänglichen Trainingssatzes verwendet werden23.

Ein weiterer bemerkenswerter Aspekt unseres Ansatzes betrifft die Systembereitstellung. Wir können den Schwellenwert für den pSim-Wert auf jede Klasse unabhängig anwenden, indem wir einen niedrigen pSim-Wert für eine klinische Ausgabebezeichnung mit hoher Auffälligkeit und hoher Interbeurteiler-Übereinstimmung auswählen und einen hohen pSim-Wert für eine verrauschtere, subjektivere, unspezifische klinische Ausgabebezeichnung mit niedrigerer Inter -Bewertungsvereinbarung, letzteres auf Kosten der Generierung weniger gekennzeichneter Prüfungen (d. h. geringere Erfassungsrate). Durch die Verwendung von pSim-Werten lässt sich quantifizieren, welche klinischen Ausgabebezeichnungen des KI-Modells am zuverlässigsten annotiert sind und welche verbessert werden müssen, wodurch die Systemrobustheit gemessen werden kann. Der Einsatz des xAI-Systems ist außerdem HIPAA-konform, da keine patientenidentifizierbaren Quelldaten gespeichert werden müssen, da die Modusauswahl (Abb. 1) nur die codierten vorhergesagten Wahrscheinlichkeitsverteilungen für Kategorien und die komprimierten Informationen aus der UMAP-Transformation24 für den Atlas verwendet.

Andere aktuelle Ansätze zur automatischen Kennzeichnung umfassen halbüberwachtes6,25 und selbstüberwachtes26,27,28,29 Lernen. Da diese Ansätze jedoch von einer geringen Korrelation zwischen Klassen ausgehen, wurde ihre Leistung nicht für Multi-Label-CXR-Klassifizierungsmodelle mit hoher Interklassenkorrelation validiert. Es wurde auch versucht, durch Transferlernen und Feinabstimmung die Leistung zu verbessern, wenn unabhängig entwickelte Modelle auf externe Datensätze angewendet werden30,31,32. Diese Methoden sind jedoch oft unpraktisch, da verschiedene Institutionen wahrscheinlich unterschiedliche Definitionen für ähnliche Kategorien und die Datenerfassung verwenden Bei externen Beschriftungen, die auf selbst geringfügig unterschiedlichen Definitionen basieren, kann es zu erheblichem Rauschen kommen, wenn solche Daten zum Trainieren oder Umschulen neuer Modelle verwendet werden. Unser Ansatz ermöglicht jedoch die Generierung standardisierter Etiketten mit einer vom Benutzer definierten Ähnlichkeitswahrscheinlichkeit zu der etablierter Modelle. Unser modellabgeleiteter atlasbasierter Ansatz, der die Rechenprobleme vereinfacht, indem er sich auf kleine Patch-Regionen mit geringeren Interklassen- und höheren Intraklassen-Korrelationen konzentriert, könnte eine hohe Genauigkeit und Effizienz für die automatische Kennzeichnung von drei großen öffentlichen Open-Source-CXR-Datensätzen erzielen, die ähnlich oder größer sind das menschlicher Experten.

Unser Auto-Labeling-KI-Modell spiegelt mehrere Merkmale der menschlichen Intelligenz33 im Allgemeinen und das nachahmende Verhalten eines Radiologen im Besonderen wider. Insbesondere ist unser System „intelligent“, da es auf sein „Gedächtnis“ der im Trainingssatz vorhandenen klinischen Ausgabeetiketten für Untersuchungen zugreifen und deren Ähnlichkeit mit klinischen Ausgabeetiketten in den neuen externen Untersuchungsdaten quantitativ abschätzen kann. Die „1-pSimoptimal“-Metrik für jedes klinische Ausgabeetikett stellt ein Maß für die „Intelligenz“ des Systems für eine effiziente und genaue Etikettierung dar, und ihr Wert (zwischen 0 und 1) spiegelt die Qualität (d. h. Grundwahrheitsgenauigkeit) des Etiketts wider Von NLP abgeleiteter Datensatz, der für das Ersttraining verwendet wird. Das Modell kann Benutzern durch seine Erklärbarkeitsfunktion auch Feedback geben, indem es Beispiele der betrachteten klinischen Ausgabebezeichnungen aus seinem Referenzatlas zusammen mit dem zugehörigen pSim-Wert anzeigt; Diese Interaktion gibt dem Benutzer ein zusätzliches Maß an Sicherheit, dass das Modell das tut, was es tun soll. In dieser Hinsicht kann unser System als Augmented-Intelligence-Tool zur Verbesserung der Genauigkeit und Effizienz medizinischer Bildgebungsgeräte betrachtet werden.

Tatsächlich besteht eine Einschränkung unseres Modells darin, dass seine Kennzeichnungsgenauigkeit und -effizienz direkt proportional zur Qualität des anfänglichen Trainingssatzes ist. Dies könnte erklären, warum Kardiomegalie und Pleuraerguss – zwei auffällige klinische Ausgabebezeichnungen, die in den von NLP für das Modelltraining identifizierten radiologischen Berichten routinemäßig korrekt beschrieben werden – höhere Effizienzkennzahlen aufweisen (Abb. 2 und 6) als Lungenödem und Lungenentzündung (Abb. 3), die unspezifischer sind und von verschiedenen Radiologen unterschiedlich beurteilt werden. Dies kann auch erklären, warum die 1-pSimoptimal-Werte für NPV = 1 in Abb. 6 für alle klinischen Ausgabebezeichnungen außer Atelektase (Abb. 4) höher sind als die 1-pSimoptimal-Werte für PPV = 1, da die Atelektase niedriger ist Auffälligkeit, eine unspezifischere klinische Ausgabebezeichnung, die in CXR-Radiologieberichten normalerweise nur dann erwähnt wird, wenn sie vorhanden ist, aber nicht erwähnt wird, wenn sie nicht vorhanden ist (d. h. das Modell hat aus seinem NLP-abgeleiteten Trainingssatz gelernt, ein höheres Maß an Sicherheit zu haben, und daher ein höherer 1-pSimoptimal-Wert, wenn eine Atelektase vorhanden ist, als wenn sie nicht vorhanden ist). Lungenödeme und Lungenentzündungen hingegen werden in CXR-Berichten typischerweise mit höherer Sicherheit beschrieben, wenn sie definitiv nicht vorhanden sind (z. B. kein Hinweis auf ein Lungenödem oder eine Lungenentzündung), als wenn sie möglicherweise vorhanden sind (z. B. nicht ausgeschlossen werden können). Lungenödem oder Lungenentzündung).

Da es sich bei Kardiomegalie und Pleuraerguss um fokale, hochauffällige regionale Bildbefunde handelt, zeigen sie darüber hinaus auch eine höhere TPCR-Leistung bei Patch-Ähnlichkeit als bei Konfidenzwahrscheinlichkeit (Abb. 8). Auch bei Atelektasen, typischerweise einem diskreteren, fokaleren regionalen CXR-Befund als bei Lungenödemen oder Lungenentzündungen, zeigen sowohl Patch-Ähnlichkeit als auch pSim (Abb. 8) eine gute TPCR-Leistung im Verhältnis zur Konfidenzwahrscheinlichkeit. Umgekehrt stimmt dieses Ergebnis für Lungenödeme, die einzige Bezeichnung, bei der die TPCR-Leistung mit Konfidenzwahrscheinlichkeit besser ist als mit Patch-Ähnlichkeit (Abb. 8), mit der Tatsache überein, dass die Konfidenzwahrscheinlichkeit empfindlicher für die Erkennung globaler, nicht lokalisierter Ereignisse ist Merkmale, die routinemäßig mit Lungenödembefunden im CXR assoziiert sind (d. h. Lungenödeme werden diffus im gesamten bilateralen Lungenfeld sichtbar).

Es ist bemerkenswert, dass die Erklärung für diese Leistungsunterschiede zwischen Konfidenzwahrscheinlichkeit, Patch-Ähnlichkeit und pSim für die fünf verschiedenen Etiketten (Abb. 8) so genau mit der in den Abbildungen gezeigten Leseleistung und Lesevariabilität übereinstimmt. 2–5 und 7. Dies bestätigt nicht nur unsere „gesunde“ klinische Einsicht, dass Kardiomegalie und Pleuraerguss (sowie Atelektase) objektive CXR-Befunde mit hoher Auffälligkeit sind, während Lungenödem und Lungenentzündung eher unspezifische subjektive Beurteilungen sind, sondern auch unterstreicht die Erklärbarkeit unseres Modells (durch Zuweisung geeigneter pSim-Werte für jedes Etikett), indem es die menschliche Leistung widerspiegelt, was wahrscheinlich auf die auf Radiologen basierende Grundwahrheit zurückzuführen ist, die für das Modelltraining verwendet wird.

Eine weitere Einschränkung unseres Modells besteht darin, dass unser vorgeschlagenes xAI-System erhebliche Rechenressourcen und Speicherplatz benötigt, um die Vorhersagebasis bereitzustellen und das Modusauswahlmodul zu betreiben. Da die erklärbaren Module jedoch für den unabhängigen Betrieb konzipiert wurden, können wir das xAI-System mit angepassten Funktionen entsprechend der Spezifikation eines bestimmten Servers unterschiedlich einsetzen.

Zusammenfassend haben wir: (i) ein erklärbares KI-Modell für die automatisierte Kennzeichnung von fünf verschiedenen klinischen CXR-Bildgebungsausgabekennzeichnungen mit einem vom Benutzer gewählten quantitativen Konfidenzniveau entwickelt und demonstriert, basierend auf der Ähnlichkeit mit dem modellabgeleiteten Atlas eines vorhandenen validiertes Modell und (ii) zeigte, dass durch die Feinabstimmung dieses vorhandenen Modells mithilfe der automatisch gekennzeichneten Prüfungen für die Umschulung die Leistung erhalten oder verbessert werden konnte, was zu einem äußerst genauen, allgemeineren Modell führte. Es ist bemerkenswert, dass diese Ergebnisse durch die Annotation von nur 100 Untersuchungen durch menschliche Experten erzielt wurden, die aus den drei großen unabhängigen Datensätzen ausgewählt wurden und eine gleichmäßige Verteilung der pSim-Schwellenwerte von 0 bis 1 darstellen; Dies deutet darauf hin, dass unser Ansatz, der auf quantitativer Ähnlichkeit mit einem erklärbaren, von einem KI-Modell abgeleiteten Atlas basiert, in der Lage sein könnte, unabhängig von der Größe der untersuchten Open-Source-Datenbank eine hochpräzise, ​​vollautomatische Kennzeichnung bereitzustellen.

Zusammenfassend lässt sich sagen, dass die Fähigkeit, große medizinische Bilddatenbanken automatisch, genau und effizient zu kommentieren, von erheblichem Wert bei der Entwicklung wichtiger, wirkungsvoller KI-Modelle sein kann, die einen Mehrwert für die Gesundheitsgemeinschaft bieten und von dieser weithin akzeptiert werden. Unser Ansatz könnte nicht nur dazu beitragen, die Genauigkeit bestehender KI-Modelle durch Feinabstimmung und Umschulung zu verbessern, sondern auch dazu beitragen, Beschriftungen von Open-Source-Datensätzen (für die die bereitgestellten Beschriftungen verrauscht, ungenau oder fehlen können) basierend auf ihren Daten zu standardisieren quantitative Ähnlichkeit mit denen bestehender, validierter Modelle. Die Verwendung der pSim-Metrik für die automatische Beschriftung hat das Potenzial, die Menge an annotierten Daten zu reduzieren, die für eine genaue Modellerstellung erforderlich sind, und dadurch den Bedarf an arbeitsintensiver manueller Beschriftung sehr großer Datensätze durch menschliche Experten zu verringern.

Diese Studie entsprach dem Health Insurance Portability and Accountability Act und wurde vom Institutional Review Board des Massachusetts General Hospital für die retrospektive Analyse klinisch erfasster Daten mit Verzicht auf eine Einwilligung nach Aufklärung genehmigt.

Der Entwicklungsdatensatz enthielt CXR-Bilder, die zwischen Februar 2015 und Februar 2019 aufgenommen wurden. Alle DICOM-Bilder (Digital Imaging and Communications in Medicine) wurden vor der Datenanalyse deidentifiziert. Um einen konsistenten Datensatz zu erstellen, haben wir nur Untersuchungen ausgewählt, denen zugehörige radiologische Berichte, Ansichtspositionsinformationen (z. B. AP/PA-Projektionen, tragbar usw.) und wesentliche Patientenidentifikatoren (einschließlich, aber nicht beschränkt auf Krankenaktennummer, Alter usw.) vorlagen Geschlecht). Wenn eine Untersuchung mehrere CXR-Bilder umfasste, wurde nur ein einziges CXR-Bild einbezogen. Wir haben für jede Ansichtsposition zufällig 1000 Bilder als Testsatz ausgewählt. Die übrigen Untersuchungen von nicht überlappenden Patienten wurden in Trainings- und Validierungssätze unterteilt (ergänzende Abbildung 1).

Die Bezeichnungen für die Trainings- und Validierungssätze wurden ausschließlich anhand der automatisierten NLP-Aufgaben ermittelt, während die Bezeichnungen für den Testsatz im Konsens von drei US-amerikanischen Radiologen an unserer Einrichtung bestimmt wurden (weitere Einzelheiten finden Sie in der Ergänzungstabelle 1) unter Verwendung der „Mark“. -it“-Tool (https://markit.mgh.harvard.edu, MA, USA) für Anmerkungen7.

Das Densely Connected Convolutional Network (DenseNet-121)34, das jede Schicht mit allen anderen Schichten in einer Feed-Forward-Methode verbindet, wurde ausgewählt, um das System zur Erkennung und Klassifizierung von 20 pathologischen Etiketten zu entwickeln. Das vorab trainierte Modell, das im offiziellen Repository in Pytorch35,36 verfügbar ist, wurde durch überwachtes Lernen mit unserem Trainingsdatensatz und den NLP-Labels verfeinert, nachdem die letzte vollständig verbundene Schicht mit 1000 Ausgaben und die erste Faltungsschicht durch 21 Ausgaben ersetzt wurden (d. h , 20 pathologische Beschriftungen und Ansichtsposition) und mit Eingaben von jeweils 1 Kanaltiefe. Die Netzwerktopologie wurde mit AdamW37 optimiert, wobei wir eine Stapelgröße von 144, eine Lernrate von \(1\times 1{0}^{-4}\), Beta-1 von 0,9, Beta-2 von 0,999 verwendeten. Epsilon von \(1\times 1{0}^{-8}\) und Gewichtsabfall von \(1\times 1{0}^{-5}\). Im Trainingsschritt wurde eine Echtzeit-Datenerweiterung durch Anwendung geometrischer Transformationen durchgeführt: Drehung von –10 auf 10, Skalierung auf 110 %, zufälliges Zuschneiden auf 512 × 512, zufällige horizontale Drehung mit 1 % Wahrscheinlichkeit. Alle Experimente wurden auf vier GPUs von Tesla V100 SXM 32 GB [NVIDIA DGX, CA, USA] durchgeführt und alle Deep-Learning-Modelle wurden mit Pytorch (v.1.2.0) implementiert.

Die Verlustfunktion der binären Kreuzentropie (BCE) wurde mit den Verhältnissen positiver und negativer Stichproben für jede Klassenbezeichnung gewichtet (\({\alpha }_{P}^{c}\) und \({\alpha }_{ N}^{c}\)), für Multi-Label-Klassifizierung4. Wir haben zwei zusätzliche Gewichte in Betracht gezogen: Das erste Gewicht musste das Verhältnis der Anzahl effektiver Proben (\({\alpha }_{s}^{c}\) widerspiegeln, die maximale Summenzahl zwischen positiven und negativen Etiketten unter 20 klinischen Ausgabebezeichnungen dividiert durch die der c-ten Bezeichnung), die aufgrund der Berücksichtigung von Ignorierungsbezeichnungen für jede klinische Ausgabebezeichnung trainiert werden sollen. Beim Training des KI-Modells haben wir experimentell herausgefunden, dass die Verwendung von Proben mit der anderen Ansichtsposition sowie solchen mit einer gezielten Ansichtsposition die Generalisierungsleistung des Modells verbessern kann, daher haben wir dem Verlust das zweite Gewicht (α(ν)) hinzugefügt Funktion zur relativen Steuerung des Einflusses von Proben auf die Zielansichtsposition. Die gewichtete BCE-Verlustfunktion ist durch die Gleichung gegeben. (1):

wobei x CXR-Bilder bezeichnet, ist die Ausgabe des Modells \({{{{\bf{y}}}}}}=\{{y}^{1},{y}^{2},..., {y}^{J}\}\), das die vorhergesagte Wahrscheinlichkeit von J Klassen angibt, v ist eine Ansichtsposition des Bildes und \({{{{{\bf{t}}}}}}=\{ {t}^{1},{t}^{2},...,{t}^{J}\}\) bezeichnet die Etiketten der klinischen Ausgabeetiketten, die von NLP extrahiert wurden. Darüber hinaus ist \({\alpha }_{s}^{c}\) definiert als \((\left|{P}^{m}\right|+\left|{N}^{m}\ right|)/(\left|{P}^{c}\right|+\left|{N}^{c}\right|)\), um Fairness zwischen Klassen mit unterschiedlicher Anzahl effektiver Stichproben zu gewährleisten, die berücksichtigen nur „0“ und „1“, nicht „−1“. Hier sind \(\left|{P}^{c}\right|\) und \(\left|{N}^{c}\right|\) die Gesamtzahlen von „1“ und „0“ s in Labels für c Label, und m bedeutet den Klassenindex mit der maximalen Gesamtzahl von „1“ und „0“ (\(m={{\arg }}\mathop{{{\max }}} \nolimits_{c}(\left|{P}^{c}\right|+\left|{N}^{c}\right|)\)). Wir definieren auch \({\alpha }_{P}^{c}=\frac{\left|{P}^{c}\right|+\left|{N}^{c}\right|}{ \left|{P}^{c}\right|}\) und \({\alpha }_{N}^{c}=\frac{\left|{P}^{c}\right|+\ left|{N}^{c}\right|}{\left|{N}^{c}\right|}\) zur Lösung des Ungleichgewichts zwischen Positiv und Negativ; α(ν) wird auf ω gesetzt, wenn ν die Zielansicht ist, 1 für die anderen.

Unsere automatisierte Datensatzkennzeichnung, die auf der Ähnlichkeit zu einem validierten CXR-KI-Modell basiert, erfordert die Berechnung von zwei quantitativen atlasbasierten Parametern, den „Patch-Ähnlichkeits“- und „Konfidenz“-Wahrscheinlichkeiten (Werte zwischen 0 und 1), wie in Abb. 1 dargestellt. Für Bei der Berechnung der „Patch-Ähnlichkeit“ wird ein Patch-Atlas basierend auf dem Class Activation Mapping (CAM) generiert38,39; Für die „Konfidenz“-Berechnung wird ein Verteilungsatlas basierend auf vorhergesagten Wahrscheinlichkeiten erstellt (Abb. 1a, b). Das harmonische Mittel zwischen den Patch-Ähnlichkeits- und Konfidenzwerten wird dann verwendet, um einen pSim für jedes klinische Ausgabeetikett zu berechnen (Abb. 1c).

Um die Robustheit des gesamten Systems zu verbessern, wird ein Ensemble aus sechs DenseNet-121-Modellen unter Verwendung ungewichteter Mittelung zusammengestellt, sodass die endgültige Wahrscheinlichkeit als Durchschnitt der von den sechs Modellen vorhergesagten Wahrscheinlichkeiten bestimmt wird40. Diese sechs Modelle werden durch unabhängiges Training mit drei Gewichten (dh ω = 1,1, 1,5 und 2,0 in α(ν)) für die PA-Ansicht und anschließender Auswahl zweier durch AUROC bzw. Genauigkeit maximierter Modelle konstruiert. Um den Verteilungsatlas zu erstellen, schließen wir mit dem trainierten KI-Modell einen vollständigen Trainingsdatensatz ab, um zwei Wahrscheinlichkeitsverteilungen positiver und negativer Stichproben für den Trainingsdatensatz zu erhalten. Diese Wahrscheinlichkeitsverteilungen werden als Verteilungsatlas für jedes klinische Ausgabeetikett gespeichert.

Um die Lokalisierungsleistung unserer Klassenaktivierungszuordnung zu verbessern, haben wir eine Ensemble-Methode wie folgt entwickelt: indem wir Rauschkomponenten eines einzelnen CAM entfernten, nur signifikante Komponenten hinzufügten und sie in Gleichung normalisierten. (2) konnte das Ensemble-CAM die überlappenden Bereiche zwischen den einzelnen CAMs deutlich hervorheben.

wobei \({{{{{\bf{CAM}}}}}}}_{{{{{\bf{E}}}}}}}^{{{{{{\bf{c} }}}}}}\) bedeutet die Ensemble-CAM-Matrix, \({{{{{{\bf{CAM}}}}}}}_{{{{{{\bf{s}}}}}} }^{{{{{\bf{c}}}}}}}\) ist eine CAM-Matrix für die c-Klasse, die aus dem s-ten Einzelmodell generiert wird, und S bezeichnet die Anzahl der Modelle. Uτ bezeichnet eine Matrix mit der Komponente von \({u}_{i,j}={{{{{\rm{u}}}}}}({{{{{{\bf{CAM}}}} }}}_{{{{{\bf{s}}}}}}}^{{{{{\bf{c}}}}}}}(i,j)-\tau )\) CAM-Werte kleiner als τ als Rauschkomponenten zu ermitteln und zu entfernen. u ist eine Einheitsschrittfunktion, ⊙ bedeutet das Hadamard-Produkt und Normalize ist eine lineare Skala zur Umrechnung in einen Standardbereich zwischen 0 und 1.

Um den Patch-Atlas zu erstellen, suchen wir auf einem hochauflösenden CAM (512 × 512), das aus einem CAM für jede Klasse generiert wurde, nach Hauptkonturen, wählen einen Begrenzungsrahmen aus, der den Umriss enthält, definieren ihn als Patch und speichern ihn (einen). oder zwei Patches von einem CAM werden in dieser Studie berücksichtigt). Für jedes klinische Ausgabeetikett werden Patches als typische, repräsentative Muster nur aus den CXR-Bildern gespeichert, wobei die vorhergesagte Wahrscheinlichkeit des KI-Modells größer oder gleich 0,9 ist. Wir trainieren ein auf Kosinusmetriken basierendes UMAP-Modell unter Verwendung der Patches für alle klinischen Ausgabeetiketten24. Das UMAP-Modell wandelt die Patches in Koordinaten im zweidimensionalen Einbettungsraum um, sodass die Kosinusähnlichkeit umso höher ist, je kleiner der euklidische Abstand in diesem Raum ist. Für die automatisierte Markierungsmethode besteht der Patch-Atlas daher aus Koordinaten für alle Patches im zweidimensionalen Einbettungsraum und dem UMAP-Modell (Abb. 1b). Darüber hinaus kann der Patch-Atlas mit fortgeschritteneren Schemata41,42 erstellt werden.

Um die Patch-Ähnlichkeit zu berechnen, wie in Abb. 1b gezeigt, müssen wir die Vorhersagebasis (\({{{{{{\boldsymbol{\Psi }}}}}}}_{{{{{{\rm {pb}}}}}}}^{{{{{\rm{c}}}}}}}\)) für die c-te Beschriftung durch Berechnen des euklidischen Abstands zwischen der UMAP-transformierten Koordinate des Eingabebilds und des Patch-Atlas und dann durch Auswahl der K-Basis mit dem Mindestabstand gemäß Gl. (3):

wobei \({{{{{{\boldsymbol{\Omega }}}}}}}_{{{{{{\rm{pb}}}}}}}^{{{{{{\rm{c }}}}}}}(k)\) bezeichnet den Patch mit dem k-ten minimalen euklidischen Abstand im Patch-Atlas, und der euklidische Abstand wird berechnet durch \({\left|\left|{{{{{ {\rm{f}}}}}}}_{{{{{{\rm{UMAP}}}}}}}^{{{{{\rm{c}}}}}}}({ {{{{{\bf{y}}}}}}}_{{{{{\rm{p}}}}}}}^{{{{{{\rm{c}}}}} }})-{{{{{{\rm{A}}}}}}}_{{{{{{\rm{P}}}}}}-{{{{{\rm{UMAP}} }}}}}^{{{{{\rm{c}}}}}}}(i)\right|\right|}_{2}{for\; i}=1,\ldots ,{ n}({{{{{{\rm{A}}}}}}}_{{{{{{\rm{P}}}}}}-{{{{{\rm{UMAP}}} }}}}^{{{{{{\rm{c}}}}}}})\). Darüber hinaus ist \({{{{{\rm{f}}}}}}}_{{{{{{\rm{UMAP}}}}}}}^{{{{{{\rm{c }}}}}}}\) ist das trainierte UMAP-Modell für die C-Klasse, \({{{{{{\bf{y}}}}}}}_{{{{{{\rm{p}} }}}}}}^{{{{{{\rm{c}}}}}}}\) ist ein 1024-dimensionaler Patch-Vektor, der durch ein Eingabebild berechnet wird, \({{{{{{\rm{ A}}}}}}}_{{{{{{\rm{P}}}}}}-{{{{{\rm{UMAP}}}}}}}^{{{{{{\ rm{c}}}}}}}\) ist der Patch-Atlas und \(n({{{{{{\rm{A}}}}}}}_{{{{{{\rm{ P}}}}}}-{{{{{\rm{UMAP}}}}}}}^{{{{{\rm{c}}}}}}})\) ist die Größe der Patch-Atlas. Die Patch-Ähnlichkeit wird vorgeschlagen, um es dem KI-Modell zu ermöglichen, den neuen Patch basierend auf der Vorhersagebasis (\({{{{{{\boldsymbol{\Psi }}}}}}}_{{{{{{\ rm{pb}}}}}}}^{{{{{\rm{c}}}}}}}\)), als quantitative Metrik. Die Metrik wird anhand eines Perzentils berechnet, das angibt, wie nahe ein Patch eines Eingabebilds auf einer Vorhersagebasis von K Patches im Einbettungsraum liegt.

wobei \({{{{{{\rm{f}}}}}}}_{{{{{{\rm{D}}}}}}}^{{{{{{\rm{c} }}}}}}\) bezeichnet eine Funktion, die ein Perzentil für den mittleren euklidischen Abstand der K-nächsten Patches für das Eingabebild berechnet, basierend auf einer Verteilung des mittleren euklidischen Abstands für alle Patches des Patch-Atlas.

Gemäß Abb. 1b schlagen wir die auf dem Verteilungsatlas basierende Konfidenzmetrik als Maß für das Vertrauensniveau zwischen den positiven und negativen vorhergesagten Wahrscheinlichkeiten für ein klinisches Output-Label vor. Diese quantitative Metrik wird einfach mit den Gleichungen definiert. (5) und (6) für positive und negative vorhergesagte Proben wie folgt:

Unter der Annahme, dass eine vorhergesagte Wahrscheinlichkeit \({y}^{c}\) für die C-Klasse ist, berechnen wir ein Perzentil (\({{{{{{\rm{f}}}}}}}_{{{ {{{\rm{P}}}}}}}^{{{{{\rm{c}}}}}}}({y}^{c})\)) im positiven Verteilungsatlas und ein Perzentil (\({1-{{{{{\rm{f}}}}}}}_{{{{{{\rm{N}}}}}}}^{{{{{{ \rm{c}}}}}}}({y}^{c})\)) im negativen Verteilungsatlas. Anschließend wird die Differenz zwischen zwei Perzentilen als Konfidenz berechnet. Da die Vorhersagefähigkeit des xAI-Modells für jede klinische Ausgabebezeichnung mit der Form und dem Schnittgrad der beiden Wahrscheinlichkeitsdichtekurven (positiv und negativ) im Verteilungsatlas zusammenhängt, ist die Konfidenzmetrik, wie sie auf der Grundlage der Gleichungen definiert ist. (5) und (6) liefern ein quantitatives Maß analog zum ap-Wert zwischen verschiedenen statistischen Verteilungen. Mit anderen Worten: Je höher der Konfidenzwert für eine Beschriftung, desto höher ist die Wahrscheinlichkeit, dass das Eingabebild der richtigen Beschriftung zugeordnet wird, und desto geringer ist die Wahrscheinlichkeit einer falschen Zuordnung. Darüber hinaus ist diese Metrik in der Lage, unterschiedliche Konfidenzniveaus entsprechend unterschiedlicher Verteilungen der klinischen Ergebniskennzeichnungsmerkmale im Verteilungsatlas für jede Klasse des Modells zu quantifizieren, selbst bei denselben vorhergesagten Wahrscheinlichkeiten.

Unsere automatisierte Methode zur Datensatzkennzeichnung berechnet den pSim-Wert mithilfe eines harmonischen Mittelwerts zwischen Konfidenz und Patch-Ähnlichkeit (pSimilarity in Gleichung (7)) für jedes Eingabebild.

Der pSim-Schwellenwert für jedes klinische Ausgabeetikett wird anhand der niedrigsten pSim-Werte ausgewählt, die 100 % PPV und NPV erreichen können, wie in den Abbildungen dargestellt. 2–4.

Zu den weiteren Funktionen unseres Modelldesigns gehört ein „Modusauswahl“-Algorithmus, der mithilfe des ausgewählten pSim-Schwellenwerts verwendet werden kann, um entweder: (1) die Bildbezeichnung (positiv, negativ oder unbeschriftet) innerhalb eines bestimmten Levels zu bestimmen -Konfidenz, wenn der pSim-Wert für eine Klasse größer als der ausgewählte Schwellenwert ist („Selbstausmerkungsmodus“), oder (2) den menschlichen Benutzer warnen, wenn der pSim unter den ausgewählten Schwellenwert für das Konfidenzniveau fällt („Re- Anmerkungsmodus"). Obwohl der „Re-Annotation-Modus“ in unserer aktuellen Studie nicht angewendet wurde, hat er das Potenzial, bei zukünftigen Anwendungen und dem Einsatz unseres Modells als Teil seiner Erklärbarkeitsfunktion von Wert zu sein (weitere Einzelheiten zur „Modusauswahl“ von pSim werden bereitgestellt). im Methodenkasten 1).

Eingabe: vorhergesagte Wahrscheinlichkeit für C-Klasse (yc), ConfidenceP, ConfidenceN und Patch-Ähnlichkeit

%[Schritt-1] Zur Aufteilung in zwei Gruppen nach yc und THpos: positive oder negative Kandidaten

Wenn \({y}^{c}\ge T{H}_{{pos}}\): dann

%[Schritt-2] Zur Festlegung des Modus und der Anmerkung für die positiven Kandidaten

% Ähnlichkeitswahrscheinlichkeit, pSim

pSim = 2 KonfidenzP pÄhnlichkeit / (KonfidenzP + pÄhnlichkeit)

Wenn pSim > = pSim-Schwellenwert (PPV, NPV = 1): dann

Modus = Selbstanmerkungsmodus

Label = 1 %Positives Label

Anders

Modus = Re-Annotation-Modus

Beschriftung = -1 % unbeschriftet

Anders

%[Schritt-2] Zum Festlegen des Modus und der Anmerkung für die negativen Kandidaten

pSim = VertrauenN

Wenn pSim > = pSim-Schwellenwert (PPV, NPV = 1): dann

Modus = Selbstanmerkungsmodus

Label = 0 %Negatives Label

Anders

Modus = Re-Annotation-Modus

Anmerkung = −1 % unbeschriftet

Um die statistische Signifikanz der AUROCs zu bewerten, haben wir 95 %-KIs mithilfe eines nichtparametrischen Bootstrap-Ansatzes über das folgende Verfahren berechnet: Zunächst wurden 1000 Fälle zufällig aus dem Testdatensatz von 1000 Fällen mit Ersetzung ausgewählt und die DCNN-Modelle wurden anhand der Stichprobe ausgewertet Testsatz. Nachdem dieser Prozess 2000 Mal ausgeführt wurde, wurden 95 %-KIs unter Verwendung des Intervalls zwischen 2,5 und 97,5 Perzentilen der AUROC-Verteilung ermittelt. Die 95 %-KIs der prozentualen Genauigkeit, Sensitivität und Spezifität der Modelle am ausgewählten Betriebspunkt wurden mithilfe von binomialen Proportions-KIs berechnet.

Obwohl die externen Datensätze sowohl AP- als auch PA-Ansichten enthielten, wurde unsere Studie aus Gründen der Konsistenz/Annehmlichkeit und zur Minimierung potenzieller Störvariablen nur mit PA-Ansichten durchgeführt. Konkret haben wir aus den Datensätzen CheXpert v1 (n = 223.414) und NIH (n = 112.120), deren Metadatendateien PA-Labels enthalten, 29.420 bzw. 67.310 PA-CXRs gesammelt. Aus dem MIMIC v1-Datensatz (n = 369.188), der keine eindeutigen Bezeichnungen hatte, wandten wir ein internes Modell zur Unterscheidung zwischen PA- und AP-Projektionen an, das 71.223 PA CXRs ergab (Spezifität 0,999, Sensitivität = 0,998).

Weitere Informationen zum Forschungsdesign finden Sie in der mit diesem Artikel verlinkten Nature Research Reporting Summary.

Die Beschriftungen für die fünf Kategorien, die von den sieben Expertenlesern auf die drei offenen Datensätze angewendet wurden, können unter https://github.com/MGH-LMIC/AutoLabels-PublicData-CXR-PA abgerufen werden. Die für diese Studie generierten Trainings-, Validierungs- und Testdatensätze sind anonymisiert; Das Nicht-DICOM-Bildformat dieser Daten kann auf offizielle Anfrage innerhalb von 15 Werktagen zu Forschungszwecken beim entsprechenden Autor ([email protected]) verfügbar sein.

Die Codes für die Modellentwicklung sind abrufbar unter: https://github.com/MGH-LMIC/CXR-autolabeling.

Lee, H. et al. Ein erklärbarer Deep-Learning-Algorithmus zur Erkennung akuter intrakranieller Blutungen aus kleinen Datensätzen. Nat. Biomed. Ing. 3, 173–182 (2019).

Artikel Google Scholar

Irvin, J. et al. Chexpert: ein großer Röntgendatensatz des Brustkorbs mit Unsicherheitsbezeichnungen und Expertenvergleich. In Proceedings of the AAAI Conference on Artificial Intelligence 33, 590–597 (2019).

Johnson, A., et al. MIMIC-CXR-JPG – Röntgenaufnahmen des Brustkorbs mit strukturierten Beschriftungen (Version 2.0.0). PhysioNet https://doi.org/10.13026/8360-t248 (2019).

Wang, X., et al. Chestx-ray8: Thorax-Röntgendatenbank im Krankenhausmaßstab und Benchmarks zur schwach überwachten Klassifizierung und Lokalisierung häufiger Thoraxerkrankungen. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2097–2106 (2017).

Bustos, A., Pertusa, A., Salinas, JM & de la Iglesia-Vayá, M. Padchest: ein großer Röntgenbilddatensatz des Brustkorbs mit mehrfach beschrifteten, kommentierten Berichten. Med. Bild Anal. 66, 101797 (2020).

Artikel Google Scholar

Kim, TK, Paul, HY, Hager, GD & Lin, CT Verfeinerung der Methoden zur Datensatzkuration für Deep-Learning-basiertes automatisiertes Tuberkulose-Screening. J. Thorac. Dis. 12, 5078–5085 (2020).

Artikel Google Scholar

Witowski, J., et al. MarkIt: eine kollaborative Annotationsplattform für künstliche Intelligenz, die Blockchain für die medizinische Bildgebungsforschung nutzt. Blockchain im Gesundheitswesen heute (2021).

Powers, D. Bewertung: von Präzision, Erinnerung und F-Faktor bis hin zu ROC, Informiertheit, Markiertheit und Korrelation. J. Mach. Lernen. Technol. 2, 37–63 (2008).

Google Scholar

Arun, N. et al. Bewertung der Vertrauenswürdigkeit von Salienzkarten zur Lokalisierung von Anomalien in der medizinischen Bildgebung. Radiol. Artif. Intel. 3, e200267 (2021).

Artikel Google Scholar

He, K., Zhang, X., Ren, S. und Sun, J. Deep Residual Learning für die Bilderkennung. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 770–778, (2016).

Sandler, M., Howard, A., Zhu, M., Zhmoginov, A. und Chen, LC Mobilenetv2: invertierte Residuen und lineare Engpässe. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 4510–4520, (2018).

Tan, M., et al. Mnasnet: Plattformbewusste neuronale Architektursuche für Mobilgeräte. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2820–2828, (2019).

Lakhani, P. & Sundaram, B. Deep Learning bei der Thoraxradiographie: Automatisierte Klassifizierung von Lungentuberkulose mithilfe konvolutioneller neuronaler Netze. Radiologie 284, 574–582 (2017).

Artikel Google Scholar

Baltruschat, IM, Nickisch, H., Grass, M., Knopp, T. & Saalbach, A. Vergleich von Deep-Learning-Ansätzen für die Multi-Label-Röntgenklassifizierung des Brustkorbs. Wissenschaft. Rep. 9, 1–10 (2019).

Artikel CAS Google Scholar

Pasa, F., Golkov, V., Pfeiffer, F., Cremers, D. & Pfeiffer, D. Effiziente Deep-Network-Architekturen für schnelles Screening und Visualisierung von Tuberkulose im Röntgenthorax. Wissenschaft. Rep. 9, 1–9 (2019).

Artikel CAS Google Scholar

Wang, L., Lin, ZQ & Wong, A. Covid-net: ein maßgeschneidertes Deep Convolutional Neural Network-Design zur Erkennung von Covid-19-Fällen anhand von Röntgenbildern des Brustkorbs. Wissenschaft. Rep. 10, 1–12 (2020).

Artikel Google Scholar

Rajpurkar, P. et al. CheXaid: Deep-Learning-Unterstützung für die ärztliche Diagnose von Tuberkulose mithilfe von Röntgenaufnahmen des Brustkorbs bei Patienten mit HIV. NPJ-Ziffer. Med. 3, 1–8 (2020).

Artikel Google Scholar

Oh, Y., Park, S. & Ye, JC Deep-Learning-Covid-19-Funktionen auf cxr unter Verwendung begrenzter Trainingsdatensätze. IEEE Trans. Med. Bildgebung 39, 2688–2700 (2020).

Artikel Google Scholar

Nam, JG et al. Entwicklung und Validierung eines Deep-Learning-basierten automatischen Erkennungsalgorithmus für bösartige Lungenknötchen auf Röntgenaufnahmen des Brustkorbs. Radiologie 290, 218–228 (2019).

Artikel Google Scholar

Sim, Y. et al. Auf Deep Convolutional Neural Network basierende Software verbessert die Erkennung bösartiger Lungenknötchen durch Radiologen auf Röntgenaufnahmen des Brustkorbs. Radiologie 294, 199–209 (2020).

Artikel Google Scholar

Sung, J., et al. Mehrwert eines auf Deep Learning basierenden Erkennungssystems für mehrere wichtige Befunde auf Röntgenaufnahmen des Brustkorbs: eine randomisierte Crossover-Studie. Radiologie 202818, (2021).

Zech, JR et al. Variable Generalisierungsleistung eines Deep-Learning-Modells zur Erkennung von Lungenentzündung in Röntgenaufnahmen des Brustkorbs: eine Querschnittsstudie. PLoS Med. 15, e1002683 (2018).

Artikel Google Scholar

Rauschecker, AM et al. Interinstitutionelle Portabilität eines Deep-Learning-Algorithmus zur Segmentierung von Hirn-MRT-Läsionen. Radiol. Artif. Intel. 4, e200152 (2021).

Artikel Google Scholar

McInnes, L. et al. UMAP: Uniform Manifold Approximation and Projection. Journal of Open Source Software, 3, 861 https://doi.org/10.21105/joss.00861 (2018).

Berthelot, D., et al. Mixmatch: ein ganzheitlicher Ansatz für halbüberwachtes Lernen. In Advances in Neural Information Processing Systems, 5050–5060 (2019).

He, K., Fan, H., Wu, Y., Xie, S. & Girshick, R. Momentum-Kontrast für unbeaufsichtigtes visuelles Repräsentationslernen. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 9729–9738, (2020).

Chen, T., Kornblith, S., Norouzi, M. und Hinton, G. Ein einfacher Rahmen für kontrastives Lernen visueller Darstellungen. In Proceedings of International Conference on Machine Learning, 1597–1607, (2020).

Caron, M., et al. Unüberwachtes Lernen visueller Merkmale durch kontrastierende Clusterzuordnungen. In Proceedings of Advances in Neural Information Processing Systems (NeurIPS), (2020).

Hadsell, R., Chopra, S. und LeCun, Y. Dimensionsreduktion durch Erlernen einer invarianten Abbildung. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 1735–1742, (2006).

Apostolopoulos, ID & Mpesiana, TA Covid-19: Automatische Erkennung aus Röntgenbildern unter Verwendung von Transferlernen mit Faltungs-Neuronalen Netzen. Physik. Ing. Wissenschaft. Med. 43, 635–640 (2020).

Artikel Google Scholar

Shin, HC et al. Deep Convolutional Neural Networks für computergestützte Erkennung: CNN-Architekturen, Datensatzeigenschaften und Transferlernen. IEEE Trans. Med. Bildgebung 35, 1285–1298 (2016).

Artikel Google Scholar

Yosinski, J. et al. Wie übertragbar sind Merkmale in tiefen neuronalen Netzen? Fortschritte in neuronalen Informationsverarbeitungssystemen 27 (2014).

Kolb, DA Erfahrungslernen: Erfahrung als Quelle des Lernens und der Entwicklung (FT Press, 2014).

Huang, G., Liu, Z., Van Der Maaten, L. und Weinberger, KQ Dicht verbundene Faltungsnetzwerke. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 4700–4708, (2017).

Deng, J., et al. Imagenet: eine umfangreiche hierarchische Bilddatenbank. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 248–255, (2009).

Paszke, A. et al. Pytorch: Eine leistungsstarke Deep-Learning-Bibliothek im Imperativ-Stil. Fortschritte in neuronalen Informationsverarbeitungssystemen 32 (2019).

Loshchilov, I. & Hutter, F. Entkoppelte Regularisierung des Gewichtsabfalls. In International Conference on Learning Representations, (2019).

Zhou, B., Khosla, A., Lapedriza, A., Oliva, A. und Torralba, A. Lernen tiefer Merkmale für die diskriminierende Lokalisierung. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2921–2929, (2016).

Selvaraju, RR, et al. Grad-CAM: Visuelle Erklärungen aus tiefen Netzwerken mittels Gradienten-basierter Lokalisierung. In Proceedings of the IEEE International Conference on Computer Vision, 618–626, (2017).

Ju, C., Bibaut, A. & van der Laan, M. Die relative Leistung von Ensemble-Methoden mit tiefen Faltungs-Neuronalen Netzen zur Bildklassifizierung. J. Appl. Stat. 45, 2800–2818 (2018).

Artikel MathSciNet Google Scholar

Ahn, J., Cho, S. und Kwak, S. Schwach überwachtes Lernen der Instanzsegmentierung mit Beziehungen zwischen Pixeln. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2209–2218, (2019).

Jo, S. & Yu, IJ Puzzle-CAM: verbesserte Lokalisierung durch übereinstimmende Teil- und Vollfunktionen. 2021 IEEE International Conference on Image Processing, (2021).

Stehman, SV Auswahl und Interpretation von Maßen für die Genauigkeit thematischer Klassifizierung. Fernerkundung. Umwelt. 62, 77–89 (1997).

Artikel ADS Google Scholar

Referenzen herunterladen

Unsere Forschung bietet eine Methode zur praktischen Nutzung offener Datensätze. Wir danken CheXpert, MIMIC und NIH, die bereits viel Zeit und Mühe in die Weitergabe von Röntgenaufnahmen des Brustkorbs gesteckt haben. Wir möchten uns auch bei Thomas J. Schultz und Eric Michael L'Italien vom Enterprise Medical Imaging (EMI)-Team sowie Sehyo Yune, Myeongchan Kim und Jan Sylwester Witowski von der Radiologieabteilung des Massachusetts General Hospital für ihre Unterstützung bei der Datenkuratierung bedanken. Und vielen Dank an Nvidia und das Center for Clinical Data Science (CCDS), die das DGX-System für unsere Forschung zur Verfügung gestellt haben.

Diese Autoren haben gleichermaßen beigetragen: Doyun Kim, Joowon Chung.

Abteilung für Radiologie, Massachusetts General Brigham und Harvard Medical School, Boston, MA, USA

Doyun Kim, Joowon Chung, Jongmun Choi, Marc D. Succi, John Conklin, Maria Gabriela Figueiro Longo, Jeanne B. Ackman, Brent P. Little, Milena Petranovic, Mannudeep K. Kalra, Michael H. Lev & Synho Do

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

DK, JJ, MHL und SD haben die Forschung initiiert und konzipiert. Von DK, JC, JMC und SD kuratierte Daten. MDS, JC, MGFL, JBA, BPL, MP und MKK interpretierten und kommentierten die Daten. DK, JJ, MHL und SD analysierten die Daten und Ergebnisse. DK, JJ, JBA, MP, BPL, MHL und SD haben das Manuskript geschrieben.

Korrespondenz mit Synho Do.

MHL ist Berater für GE Healthcare sowie für die Pharmaunternehmen Takeda, Roche und Seagen und hat institutionelle Forschungsunterstützung von Siemens Healthcare erhalten. BPL und JBA erhalten Lizenzgebühren von Elsevier, Inc. als assoziierter Herausgeber und Autor akademischer Lehrbücher. SD ist Berater von Doai und erhielt Forschungsunterstützung von Tplus und Medibloc. MKK hat institutionelle Forschungsunterstützung von Siemens Healthineers, Coreline Inc. und Riverain Tech Inc. erhalten. JMC wurde teilweise durch einen Zuschuss des Korea Health Technology R&D Project durch das Korea Health Industry Development Institute (KHIDI) unterstützt, das vom Ministerium für Gesundheit und Gesundheit finanziert wurde. Wohlfahrt, Republik Korea (HI19C1057). Die übrigen Autoren erklären keine konkurrierenden Interessen.

Nature Communications dankt Chang Min Park, Eric Oermann und den anderen, anonymen Gutachtern für ihren Beitrag zum Peer-Review dieser Arbeit. Peer-Reviewer-Berichte sind verfügbar.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht durch gesetzliche Vorschriften zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Kim, D., Chung, J., Choi, J. et al. Präzise automatische Kennzeichnung von Röntgenbildern des Brustkorbs basierend auf quantitativer Ähnlichkeit mit einem erklärbaren KI-Modell. Nat Commun 13, 1867 (2022). https://doi.org/10.1038/s41467-022-29437-8

Zitat herunterladen

Eingegangen: 20. August 2021

Angenommen: 14. März 2022

Veröffentlicht: 06. April 2022

DOI: https://doi.org/10.1038/s41467-022-29437-8

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

BMC Medizin (2023)

Naturbiomedizinische Technik (2022)

Wissenschaftliche Berichte (2022)

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.