VinDr

Blog

HeimHeim / Blog / VinDr

Nov 18, 2023

VinDr

Wissenschaftliche Daten Band 9,

Scientific Data Band 9, Artikelnummer: 429 (2022) Diesen Artikel zitieren

8653 Zugriffe

23 Zitate

2 Altmetrisch

Details zu den Metriken

Die meisten vorhandenen Röntgendatensätze des Brustkorbs enthalten Beschriftungen aus einer Liste von Befunden, ohne deren Position auf den Röntgenbildern anzugeben. Dies schränkt die Entwicklung maschineller Lernalgorithmen zur Erkennung und Lokalisierung von Brustanomalien ein. In dieser Arbeit beschreiben wir einen Datensatz von mehr als 100.000 Röntgenaufnahmen des Brustkorbs, die nachträglich in zwei großen Krankenhäusern in Vietnam gesammelt wurden. Aus diesen Rohdaten veröffentlichen wir 18.000 Bilder, die von insgesamt 17 erfahrenen Radiologen manuell mit Anmerkungen versehen wurden, mit 22 lokalen Beschriftungen von Rechtecken, die Anomalien umgeben, und 6 globalen Beschriftungen vermuteter Krankheiten. Der veröffentlichte Datensatz ist in einen Trainingssatz von 15.000 und einen Testsatz von 3.000 unterteilt. Jeder Scan im Trainingssatz wurde von drei Radiologen unabhängig beschriftet, während jeder Scan im Testsatz im Konsens von 5 Radiologen beschriftet wurde. Wir haben eine Beschriftungsplattform für DICOM-Bilder entworfen und gebaut, um diese Anmerkungsverfahren zu erleichtern. Alle Bilder werden im DICOM-Format zusammen mit den Beschriftungen sowohl des Trainingssatzes als auch des Testsatzes öffentlich zugänglich gemacht.

Messungen)

Krankheiten und auffällige Befunde bei Röntgenaufnahmen des Brustkorbs

Technologietyp(en)

KI dient der Erkennung von Krankheiten und auffälligen Befunden

Probenmerkmal – Standort

Vietnam

Computergestützte Diagnosesysteme (CAD) für Thorax-Röntgenaufnahmen (auch als Thorax-Röntgenaufnahmen oder CXR bezeichnet) haben dank der Verfügbarkeit großer markierter Datensätze und der jüngsten Fortschritte bei leistungsstarken überwachten Lernalgorithmen in letzter Zeit große Erfolge erzielt1,2, 3,4,5. Durch die Nutzung von Deep Convolutional Neural Networks (CNN)6 können diese Systeme bei der Klassifizierung häufiger Lungenerkrankungen und verwandter Befunde eine Leistung auf Expertenniveau erreichen. Das Training eines CNN ist in hohem Maße auf qualitativ hochwertige Datensätze kommentierter Bilder angewiesen. Aufgrund mehrerer Einschränkungen ist die Erstellung solcher Datensätze jedoch kostspielig und zeitaufwändig: (1) Medizinische Daten sind von Krankenhäusern oder medizinischen Zentren schwer abzurufen; (2) manuelle Anmerkungen durch Ärzte sind teuer; (3) Die Kommentierung medizinischer Bilder erfordert einen Konsens mehrerer Experten, um menschliche Vorurteile zu überwinden7; und (4) es fehlt ein effizientes Kennzeichnungsrahmenwerk zur Verwaltung und Kommentierung umfangreicher medizinischer Datensätze.

Zu den bemerkenswerten öffentlichen Datensätzen von CXR gehören ChestX-ray8, ChestX-ray148, Padchest9, CheXpert2 und MIMIC-CXR10. ChestX-ray14, eine erweiterte Version von ChestX-ray8, wurde von den US National Institutes of Health (NIH) veröffentlicht und enthält über 112.000 CXR-Scans von mehr als 30.000 Patienten. Ohne manuelle Anmerkungen wirft dieser Datensatz erhebliche Probleme im Zusammenhang mit der Qualität seiner Beschriftungen auf11. Padchest besteht aus mehr als 160.000 CXR-Bildern, von denen 27 % von Radiologen mit 174 verschiedenen Befunden und 19 Diagnosen handbeschriftet wurden. Der Rest des Datensatzes wurde mit einem NLP-Tool (Natural Language Processing) gekennzeichnet. Das kürzlich veröffentlichte CheXpert bietet mehr als 200.000 CXRs von 65.240 Patienten, die mithilfe eines automatisierten regelbasierten Labelers, der Schlüsselwörter aus medizinischen Berichten extrahiert, auf das Vorhandensein von 14 Beobachtungen hin gekennzeichnet wurden. MIMIC-CXR nutzt den gleichen Kennzeichnungsmechanismus und enthält 377.110 Bilder im DICOM-Format sowie Freitext-Radiologieberichte. Tabelle 1 bietet eine Zusammenfassung der oben genannten Datensätze zusammen mit anderen mittelgroßen Datensätzen, darunter JSRT12, Indiana13, MC14 und SH14.

Die meisten vorhandenen CXR-Datensätze sind auf automatisierte, regelbasierte Etikettierer angewiesen, die entweder den Schlüsselwortabgleich (z. B. CheXpert2- und NIH-Markierer8) oder ein NLP-Modell verwenden, um Krankheitskennzeichnungen aus Freitext-Radiologieberichten zu extrahieren. Mit diesen Tools können Etiketten in großem Umfang erstellt werden, sie führen jedoch gleichzeitig zu einer hohen Rate an Inkonsistenzen, Unsicherheiten und Fehlern11,15. Diese verrauschten Bezeichnungen können dazu führen, dass Deep-Learning-basierte Algorithmen von den gemeldeten Leistungen abweichen, wenn sie in einer realen Umgebung bewertet werden16. Darüber hinaus verknüpfen die berichtsbasierten Ansätze ein CXR-Bild nur mit einem oder mehreren Labels in einer vordefinierten Liste von Befunden und Diagnosen, ohne deren Standorte zu identifizieren. Es gibt einige CXR-Datensätze, die mit Anmerkungen versehene Orte von Anomalien enthalten, diese sind jedoch entweder zu klein für das Training von Deep-Learning-Modellen (JSRT) oder nicht detailliert genug (PadChest). Bei der Interpretation eines CXR geht es nicht nur um die Klassifizierung auf Bildebene. Aus der Sicht eines Radiologen ist es noch wichtiger, die Anomalien auf dem Bild zu lokalisieren. Dies erklärt teilweise, warum die Anwendungen von CAD-Systemen für CXR in der klinischen Praxis immer noch sehr begrenzt sind.

Um der Forschungsgemeinschaft einen großen CXR-Datensatz mit hochwertigen Labels zur Verfügung zu stellen, haben wir den VinDr-CXR-Datensatz aus mehr als 100.000 Rohbildern im DICOM-Format erstellt, die nachträglich im Krankenhaus 108 (H108) und in Hanoi gesammelt wurden Medical University Hospital (HMUH), zwei der größten Krankenhäuser in Vietnam. Der veröffentlichte Datensatz besteht aus 18.000 CXR-Scans aus der postero-anterioren (PA) Ansicht, die sowohl die Lokalisierung kritischer Befunde als auch die Klassifizierung häufiger Thoraxerkrankungen umfassen. Diese Bilder wurden von einer Gruppe von 17 Radiologen mit mindestens 8 Jahren Erfahrung hinsichtlich des Vorliegens von 22 kritischen Befunden (lokale Etiketten) und 6 Diagnosen (globale Etiketten) kommentiert; Jeder Befund wird mit einem Begrenzungsrahmen lokalisiert. Die lokalen und globalen Bezeichnungen entsprechen den Abschnitten „Befunde“ bzw. „Eindrücke“ eines Standard-Radiologieberichts. Wir teilen den Datensatz in zwei Teile: den Trainingssatz mit 15.000 Scans und den Testsatz mit 3.000 Scans. Jedes Bild im Trainingssatz wurde von drei Radiologen unabhängig gekennzeichnet, während die Anmerkung jedes Bildes im Testsatz noch sorgfältiger behandelt und aus dem Konsens von fünf Radiologen ermittelt wurde. Der Etikettierungsprozess wurde über ein internes System namens VinDr Lab17 durchgeführt, das auf einem Picture Archiving and Communication System (PACS) aufbaute. Alle DICOM-Bilder und die Beschriftungen sowohl des Trainingssatzes als auch des Testsatzes werden freigegeben. Eine leicht modifizierte Version dieses Datensatzes wurde verwendet, um die VinBigData Chest Xray Abnormalities Detection Challenge auf der Kaggle-Plattform (https://www.kaggle.com/c/vinbigdata-chest-xray-abnormalities-detection/) zu organisieren.

VinDr-CXR ist nach unserem besten Wissen derzeit der größte öffentliche CXR-Datensatz mit von Radiologen generierten Anmerkungen sowohl in Trainings- als auch in Testsätzen. Wir glauben, dass der Datensatz die Entwicklung und Bewertung neuer Modelle für maschinelles Lernen sowohl für die Lokalisierung als auch für die Klassifizierung von Thoraxläsionen und -erkrankungen bei CXR-Scans beschleunigen wird.

Der Aufbau des VinDr-CXR-Datensatzes, wie in Abb. 1 dargestellt, ist in drei Hauptschritte unterteilt: (1) Datenerfassung, (2) Datenfilterung und (3) Datenkennzeichnung. Zwischen 2018 und 2020 haben wir retrospektiv mehr als 100.000 CXRs im DICOM-Format von lokalen PACS-Servern zweier Krankenhäuser in Vietnam, HMUH und H108, gesammelt. Bilddaten wurden von einer Vielzahl von Scannern namhafter Hersteller medizinischer Geräte erfasst, darunter Phillips, GE, Fujifilm, Siemens, Toshiba, Canon, Samsung und Carestream. Die ethische Freigabe dieser Studie wurde vor Beginn der Studie von den Institutional Review Boards (IRBs) der HMUH und H108 genehmigt. Auf die Einholung der Einwilligung des Patienten nach Aufklärung wurde verzichtet, da diese retrospektive Studie keine Auswirkungen auf die klinische Versorgung oder den Arbeitsablauf in diesen beiden Krankenhäusern hatte und alle patientenidentifizierbaren Informationen aus den Daten entfernt wurden.

Der Ablauf der Erstellung des VinDr-CXR-Datensatzes: (1) Rohbilder im DICOM-Format wurden nachträglich vom PACS des Krankenhauses gesammelt und zum Schutz der Privatsphäre des Patienten anonymisiert; (2) ungültige Dateien, wie etwa Bilder anderer Modalitäten, anderer Körperteile, schlechter Qualität oder falscher Ausrichtung, wurden automatisch von einem CNN-basierten Klassifikator herausgefiltert; (3) Ein webbasiertes Beschriftungstool, VinDr Lab, wurde entwickelt, um DICOM-Daten zu speichern, zu verwalten und aus der Ferne zu kommentieren: Jedes Bild im Trainingssatz von 15.000 Bildern wurde von einer Gruppe von drei Radiologen und jedes Bild im Test unabhängig gekennzeichnet Der Satz von 3.000 Bildern wurde im Konsens von 5 Radiologen beschriftet.

Zum Schutz der Privatsphäre des Patienten18 wurden alle mit den Bildern verbundenen personenbezogenen Daten entfernt oder durch Zufallswerte ersetzt. Konkret haben wir ein Python-Skript ausgeführt, das alle DICOM-Tags geschützter Gesundheitsinformationen (PHI)19 entfernt, wie zum Beispiel: Name des Patienten, Geburtsdatum des Patienten, Patienten-ID oder Erfassungszeit und -datum usw. Wir haben nur eine begrenzte Anzahl von DICOM beibehalten Attribute, die für die Verarbeitung von Rohbildern erforderlich sind. Die gesamte Liste der beibehaltenen Attribute ist in Tabelle 1 (ergänzende Materialien) aufgeführt. Als nächstes wurde ein einfacher Algorithmus implementiert, um in den Bilddaten erscheinende Textinformationen (z. B. Pixelanmerkungen, die identifizierbare Informationen des Patienten enthalten könnten) automatisch zu entfernen. Die resultierenden Bilder wurden dann manuell überprüft, um sicherzustellen, dass alle Texte entfernt wurden, bevor sie digital aus den Systemen der Krankenhäuser gesendet wurden.

Bei den gesammelten Rohdaten handelte es sich größtenteils um CXRs aus der PA-Ansicht von Erwachsenen, sie enthielten aber auch eine erhebliche Menge an Ausreißern, wie z. B. Bilder von anderen Körperteilen als der Brust (aufgrund nicht übereinstimmender DICOM-Tags), pädiatrische Scans, Bilder von geringer Qualität oder seitliche CXRs. Beispiele für diese Bilder sind in Abb. 2 dargestellt. Alle Ausreißer wurden mithilfe eines binären Klassifikators, einem leichten Faltungs-Neuronalen Netzwerk (CNN), automatisch aus dem Datensatz ausgeschlossen. Das Trainingsverfahren dieses Klassifikators ist nicht Gegenstand dieses Dokuments.

Beispiele für gültige (links) und ungültige (rechts) CXR-Scans. Ein CNN-basierter Klassifikator wurde trainiert und verwendet, um Ausreißer automatisch zu filtern. Für die Kennzeichnung wurden nur gültige PA-View-CXRs von Erwachsenen zurückgehalten.

Der VinDr-CXR-Datensatz wurde für insgesamt 28 Befunde und Diagnosen bei Erwachsenen gekennzeichnet: (1) Aortenvergrößerung, (2) Atelektase, (3) Kardiomegalie, (4) Verkalkung, (5) Schlüsselbeinfraktur, (6) Konsolidierung , (7) Ödem, (8) Emphysem, (9) Vergrößerte PA, (10) Interstitielle Lungenerkrankung (ILD), (11) Infiltration, (12) Lungenhöhle, (13) Lungenzyste, (14) Lungentrübung, (15) Mediastinale Verschiebung, (16) Knoten/Masse, (17) Lungenfibrose, (18) Pneumothorax, (19) Pleuraverdickung, (20) Pleuraerguss, (21) Rippenfraktur, (22) Andere Läsion, (23 ) Lungentumor, (24) Lungenentzündung, (25) Tuberkulose, (26) Andere Krankheiten, (27) Chronisch obstruktive Lungenerkrankung (COPD) und (28) Kein Befund. Diese Labels wurden in zwei Kategorien unterteilt: lokale Labels (1–22) und globale Labels (23–28). Die lokalen Beschriftungen sollten mit Begrenzungsrahmen markiert sein, die die Befunde lokalisieren, während die globalen Beschriftungen den diagnostischen Eindruck des Radiologen widerspiegeln sollten. Die Definition jedes Etiketts ist in Tabelle 2 (Ergänzungsmaterialien) aufgeführt. Diese Etikettenliste wurde von einem Komitee der erfahrensten Radiologen der beiden Krankenhäuser vorgeschlagen. Bei der Auswahl dieser Labels wurden zwei Faktoren berücksichtigt: Erstens sind sie weit verbreitet und zweitens können sie auf CXRs unterschieden werden. Abbildung 3 zeigt mehrere Proben mit lokalen und globalen Beschriftungen, die von Radiologen mit Anmerkungen versehen wurden.

Beispiele für CXRs mit Anmerkungen des Radiologen. Von Radiologen markierte abnormale Befunde (lokale Markierungen) werden zur Visualisierung auf den Originalbildern aufgetragen. Die globalen Beschriftungen sind fett gedruckt und am Ende jedes Beispiels aufgeführt. Besser auf einem Computer betrachten und für Details vergrößern.

Um den Kennzeichnungsprozess zu erleichtern, haben wir ein webbasiertes Framework namens VinDr Lab entworfen und aufgebaut und ein Team aus 17 erfahrenen Radiologen die Daten aus der Ferne kommentieren lassen. Alle am Kennzeichnungsprozess beteiligten Radiologen waren in diagnostischer Radiologie zertifiziert und erhielten vom vietnamesischen Gesundheitsministerium Zertifikate für Gesundheitsberufe. Aus den gefilterten Daten wurde ein Satz von 18.000 CXRs zufällig ausgewählt, von denen 15.000 Scans (normal: 10.606 Studien, abnormal: 4394 Studien) als Trainingssatz dienen und die restlichen 3.000 (normal: 2052 Studien, abnormal: 948 Studien) den bilden Testsatz. Jede Probe im Trainingssatz wurde drei Radiologen zur blinden Kommentierung zugewiesen. Darüber hinaus waren alle teilnehmenden Radiologen blind für relevante klinische Informationen. Für das Testset waren 5 Radiologen an einem zweistufigen Kennzeichnungsprozess beteiligt. In der ersten Phase wurde jedes Bild unabhängig von drei Radiologen kommentiert. In der zweiten Phase überprüften zwei weitere Radiologen, die über ein höheres Maß an Erfahrung verfügen, die Anmerkungen der drei vorherigen Annotatoren und kommunizierten miteinander, um über die endgültigen Bezeichnungen zu entscheiden. Die Meinungsverschiedenheiten zwischen den ersten Kommentatoren, wie in Abb. 3 (ergänzende Materialien) dargestellt, wurden von den beiden Gutachtern sorgfältig besprochen und gelöst. Schließlich dient der Konsens ihrer Meinungen als Referenzgrundwahrheit.

Nach Abschluss der Beschriftung wurden die Beschriftungen von 18.000 CXRs im JavaScript Object Notation (JSON)-Format exportiert. Anschließend analysierten wir deren Inhalte und organisierten die Anmerkungen in Form einer einzigen CSV-Datei (Comma-Separated Values). Als Ergebnis haben wir eine einzige CSV-Datei bereitgestellt, die Beschriftungen, Begrenzungsrahmenkoordinaten und die entsprechenden Bild-IDs enthält. Für den Trainingssatz enthält jede Probe die Anmerkungen von drei verschiedenen Radiologen. Für das Testset stellen wir lediglich die Konsensetiketten der fünf Radiologen zur Verfügung. Die Datenmerkmale, einschließlich der Patientendemografie und der Prävalenz jedes Befunds oder jeder Pathologie, sind in Tabelle 2 zusammengefasst. Die Verteilung aller Etiketten im Trainingssatz ist in Abb. 4 dargestellt. Wir haben alle Bilder zusammen mit den Etiketten des Trainings veröffentlicht Set und das Testset.

Verteilung von Befunden und Pathologien auf dem Trainingsset von VinDr-CXR.

Der VinDr-CXR-Datensatz wurde zum öffentlichen Download an PhysioNet übermittelt20. Wir stellen alle Bilddaten und die entsprechenden Ground-Truth-Labels sowohl für die Trainings- als auch für die Testsätze bereit. Die Bilder wurden in zwei Ordnern organisiert, einen zum Training und einen zum Testen. Jedes Bild verfügt über eine eindeutige, anonyme Kennung, die aus dem Wert der vom DICOM-Tag bereitgestellten SOP-Instanz-UID (0008,0018) codiert wurde. Der Kodierungsprozess wurde vom Python-Hashlib-Modul unterstützt (siehe [sec:code]Codeverfügbarkeit). Die lokalen Anmerkungen der Radiologen zum Trainingssatz wurden in einer CSV-Datei, annotations_train.csv, bereitgestellt. Jede Zeile der Tabelle stellt einen Begrenzungsrahmen mit den folgenden Attributen dar: Bild-ID (image_id), Radiologen-ID (rad_id), Name der Beschriftung (class_name) und Begrenzungsrahmen-Koordinaten (x_min, y_min, x_max, y_max). Hier kodiert rad_id die Identitäten der 17 Radiologen, (x_min, y_min) sind die Koordinaten der oberen linken Ecke des Felds und (x_max, y_max) sind die Koordinaten der unteren rechten Ecke. In der Zwischenzeit wurden die Beschriftungen auf Bildebene des Trainingssatzes in einer anderen CSV-Datei, image_labels_train.csv, mit den folgenden Feldern gespeichert: Bild-ID (image_id), Radiologen-ID (rad_ID) und Beschriftungen (labels) sowohl für die Befunde als auch für die Diagnosen . Konkret gehört zu jeder Bild-ID ein Vektor mit mehreren Beschriftungen, die unterschiedlichen Pathologien entsprechen, wobei positive mit „1“ und negative mit „0“ kodiert wurden. Ebenso wurden die Bounding-Box-Anmerkungen und die Beschriftungen auf Bildebene des Testsatzes in annotations_test.csv bzw. image_labels_test.csv aufgezeichnet. Der einzige Unterschied besteht darin, dass jede Zeile in den CSV-Dateien des Testsatzes nicht mit einer Radiologen-ID verknüpft war.

Die Anonymisierung der Daten wurde kontrolliert. Insbesondere wurden alle DICOM-Metadaten analysiert und manuell überprüft, um sicherzustellen, dass alle individuell identifizierbaren Gesundheitsinformationen der Patienten entfernt wurden, um den US-amerikanischen HIPAA (https://www.hhs.gov/hipaa/for-professionals/privacy) zu erfüllen /laws-regulations/index.html), der europäischen DSGVO (https://gdpr-info.eu/) sowie den lokalen Datenschutzgesetzen. Auch die Pixelwerte aller CXR-Scans wurden sorgfältig untersucht. Alle Bilder wurden von einem Team aus 10 menschlichen Lesern von Fall zu Fall manuell überprüft. Während dieses Überprüfungsprozesses wurde eine kleine Anzahl von Bildern aus dem Datensatz ausgeschlossen, die private Textinformationen enthielten, die von unserem Algorithmus nicht entfernt wurden. Der manuelle Überprüfungsprozess half auch dabei, Ausreißerproben zu identifizieren und zu verwerfen, die der CNN-basierte Klassifikator nicht erkennen konnte. Um die Qualität des Etikettierungsprozesses zu kontrollieren, haben wir eine Reihe von Regeln entwickelt, die VinDr Lab für die automatische Überprüfung der von Radiologen erstellten Etiketten zugrunde liegen. Diese Regeln verhindern, dass Annotatoren mechanische Fehler machen, wie z. B. das Vergessen, globale Beschriftungen auszuwählen oder Läsionen auf dem Bild zu markieren, während sie „Kein Befund“ als globale Beschriftung wählen. Um eine völlige Blindheit unter den Annotatoren sicherzustellen, wurden die Bilder zufällig gemischt, bevor sie jedem von ihnen zugewiesen wurden.

Um den Datensatz herunterzuladen, müssen Benutzer eine Datennutzungsvereinbarung (DUA) namens PhysioNet Credentialed Health Data License 1.5.0 (https://physionet.org/content/vindr-cxr/view-license/1.0.0/) akzeptieren. . Durch die Annahme des DUA erklären sich Benutzer damit einverstanden, dass sie die Daten nicht weitergeben und dass der Datensatz nur für wissenschaftliche Forschungs- und Bildungszwecke verwendet werden darf und dass sie nicht versuchen, Patienten, Institutionen oder Krankenhäuser erneut zu identifizieren. Für jede Veröffentlichung, die sich mit dieser Ressource befasst, müssen die Autoren dieses Originalpapier zitieren. Wir ermutigen solche Autoren außerdem, ihren Code und ihre Modelle zu veröffentlichen, was der Community helfen wird, Experimente zu reproduzieren und die Forschung im Bereich der medizinischen Bildgebung voranzutreiben.

Der zum Laden und Verarbeiten von DICOM-Bildern verwendete Code basiert auf den folgenden Open-Source-Repositories: Python 3.7.0 (https://www.python.org/); Pydicom 1.2.0 (https://pydicom.github.io/); OpenCV-Python 4.2.0.34 (https://pypi.org/project/opencv-python/); und Python-Hashlib (https://docs.python.org/3/library/hashlib.html). Der Code zur Datendeidentifizierung und Ausreißererkennung wurde unter https://github.com/vinbigdata-medical/vindr-cxr öffentlich zugänglich gemacht.

Rajpurkar, P. et al. Deep Learning für die Röntgendiagnostik des Brustkorbs: Ein retrospektiver Vergleich des CheXNeXt-Algorithmus mit praktizierenden Radiologen. PLoS Medicine 15, e1002686, https://doi.org/10.1371/journal.pmed.1002686 (2018).

Artikel PubMed PubMed Central Google Scholar

Irvin, J. et al. CheXpert: Ein großer Röntgendatensatz des Brustkorbs mit Unsicherheitsbezeichnungen und Expertenvergleich. In Proceedings of the AAAI Conference on Artificial Intelligence 33, 590–597 (2019).

Artikel Google Scholar

Majkowska, A. et al. Interpretation von Thorax-Röntgenaufnahmen mit Deep-Learning-Modellen: Bewertung mit vom Radiologen festgelegten Referenzstandards und bevölkerungsangepasste Bewertung. Radiology 294, 421–431, https://doi.org/10.1148/radiol.2019191293 (2020).

Artikel PubMed Google Scholar

Tang, Y.-X. et al. Automatisierte Anomalienklassifizierung von Thorax-Röntgenaufnahmen mithilfe tiefer Faltungs-Neuronalnetze. npj Digital Medicine 3, 1–8, https://doi.org/10.1038/s41746-020-0273-z (2020).

Artikel Google Scholar

Pham, HH, Le, TT, Tran, DQ, Ngo, DT & Nguyen, HQ Interpretation von Röntgenaufnahmen des Brustkorbs über CNNs, die hierarchische Krankheitsabhängigkeiten und Unsicherheitsbezeichnungen ausnutzen. Neurocomputing 437, 186–194 (2021).

Artikel Google Scholar

LeCun, Y., Bengio, Y. & Hinton, G. Deep Learning. Nature 512, 436–444, https://doi.org/10.1038/nature14539 (2015).

Artikel ADS CAS Google Scholar

Razzak, MI, Naz, S. & Zaib, A. Deep Learning für die medizinische Bildverarbeitung: Überblick, Herausforderungen und die Zukunft. In Classification in BioApps, 323–350, https://doi.org/10.1007/978-3-319-65981-7_12 (Springer, 2018).

Wang, X. et al. ChestX-ray8: Datenbank für Röntgenaufnahmen des Brustkorbs im Krankenhausmaßstab und Benchmarks zur schwach überwachten Klassifizierung und Lokalisierung häufiger Thoraxerkrankungen. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2097–2106, https://doi.org/10.1109/CVPR.2017.369 (2017).

Bustos, A., Pertusa, A., Salinas, J.-M. & de la Iglesia-Vayá, M. Padchest: Ein großer Röntgenbilddatensatz des Brustkorbs mit kommentierten Berichten mit mehreren Etiketten. Medizinische Bildanalyse 66, 101797 (2020).

Artikel Google Scholar

Johnson, AE et al. MIMIC-CXR, eine anonymisierte, öffentlich zugängliche Datenbank mit Röntgenaufnahmen des Brustkorbs mit Freitextberichten. Wissenschaftliche Daten 6, 317, https://doi.org/10.1038/s41597-019-0322-0 (2019).

Artikel PubMed PubMed Central Google Scholar

Oakden-Rayner, L. Erkundung des ChestXray14-Datensatzes: Probleme. https://lukeoakdenrayner.wordpress.com/2017/12/18/the-chestxray14-dataset-problems/ (2017). (Online; abgerufen am 04. Mai 2020).

Shiraishi, J. et al. Entwicklung einer digitalen Bilddatenbank für Thorax-Röntgenaufnahmen mit und ohne Lungenknötchen: Analyse der Betriebseigenschaften des Empfängers zur Erkennung von Lungenknötchen durch Radiologen. American Journal of Roentgenology 174, 71–74, https://doi.org/10.2214/ajr.174.1.1740071 (2000).

Artikel CAS PubMed Google Scholar

Demner-Fushman, D. et al. Vorbereiten einer Sammlung radiologischer Untersuchungen zur Verteilung und zum Abruf. Journal of the American Medical Informatics Association 23, 304–310, https://doi.org/10.1093/jamia/ocv080 (2016).

Artikel PubMed Google Scholar

Jaeger, S. et al. Zwei öffentliche Röntgendatensätze des Brustkorbs für das computergestützte Screening von Lungenerkrankungen. Quantitative Bildgebung in Medizin und Chirurgie 4, 475–477 https://doi.org/10.3978/j.issn.2223-4292.2014.11.20 (2014).

PubMed PubMed Central Google Scholar

Oakden-Rayner, L. Erkundung umfangreicher öffentlicher medizinischer Bilddatensätze. Akademische Radiologie 27, 106–112, https://doi.org/10.1016/j.acra.2019.10.006. Sonderausgabe: Künstliche Intelligenz (2020).

Nagendran, M. et al. Künstliche Intelligenz versus Kliniker: Systematische Überprüfung des Designs, der Berichtsstandards und der Ansprüche von Deep-Learning-Studien. BMJ 368, https://doi.org/10.1136/bmj.m689 (2020).

Nguyen, NT et al. VinDr Lab: Eine Datenplattform für medizinische KI. https://github.com/vinbigdata-medical/vindr-lab (2021).

Vietnamesische Nationalversammlung. Verordnung 40/2009/QH12 (Gesetz über ärztliche Untersuchung und Behandlung). http://vbpl.vn/hanoi/Pages/vbpqen-toanvan.aspx?ItemID=10482. (Online; abgerufen am 11. Dezember 2020) (2009).

Isola, S. & Al Khalili, Y. Protected Health Information (PHI). https://www.ncbi.nlm.nih.gov/books/NBK553131/ (2019).

Nguyen, HQ, Pham, HH, Le, LT, Dao, M. & Lam, K. VinDr-CXR: Ein offener Datensatz von Röntgenaufnahmen des Brustkorbs mit Anmerkungen des Radiologen. PhysioNet https://doi.org/10.13026/3akn-b287 (2021).

Referenzen herunterladen

Die Autoren möchten dem Hanoi Medical University Hospital und dem Hospital 108 dafür danken, dass sie uns Zugang zu ihren Bilddatenbanken gewährt haben und sich bereit erklärt haben, den VinDr-CXR-Datensatz öffentlich zugänglich zu machen. Unser besonderer Dank gilt allen unseren Mitarbeitern, einschließlich Radiologen, Ärzten und Technikern, die am Datenerfassungs- und Kennzeichnungsprozess beteiligt waren.

Diese Autoren haben gleichermaßen beigetragen: Ha Q. Nguyen, Khanh Lam, Linh T. Le.

Diese Autoren trugen gleichermaßen bei: Dung D. Le, Chi M. Pham, Hang TT Tong, Diep H. Dinh, Cuong D. Do, Luu T. Doan, Cuong N. Nguyen, Binh T. Nguyen, Que V. Nguyen, Au D. Hoang, Hien N. Phan, Anh T. Nguyen, Phuong H. Ho.

Vingroup Big Data Institute, Hanoi, Vietnam

Ha Q. Nguyen, Hieu H. Pham, Dat Q. Tran, Dung B. Nguyen, Minh Dao und Van Vu

Smart Health Center, VinBigData JSC, Hanoi, Vietnam

Ha Q. Nguyen, Hieu H. Pham, Dat T. Ngo, Nghia T. Nguyen und Nhan T. Nguyen

Krankenhaus 108, Abteilung für Radiologie, Hanoi, Vietnam

Khanh Lam, Dung D. Le, Chi M. Pham, Hang TT Tong, Diep H. Dinh und Cuong D. Do

Hanoi Medical University Hospital, Abteilung für Radiologie, Hanoi, Vietnam

Linh T. Le, Luu T. Doan, Cuong N. Nguyen, Binh T. Nguyen, Que V. Nguyen, Au D. Hoang, Hien N. Phan und Anh T. Nguyen

Hochschule für Ingenieurwesen und Informatik, VinUniversity, Hanoi, Vietnam

Hieu H. Pham

VinUni-Illinois Smart Health Center, VinUniversity, Hanoi, Vietnam

Hieu H. Pham

Allgemeines Krankenhaus Tam Anh, Abteilung für Radiologie, Ho-Chi-Minh-Stadt, Vietnam

Phuong H. Hoa

Yale University, Fakultät für Mathematik, New Heaven, CT, 06511, USA

Von Vu

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

HQN, KL und LL haben die Studie entworfen; HQN, Nghia T. Nguyen, MD und VV haben den Kennzeichnungsrahmen entworfen; HHP und DBN führten die Anonymisierung der Daten durch; HHP hat den Algorithmus zur Ausreißerfilterung entwickelt; DT, DBN, DTN und Nhan T. Nguyen führten die Datenerfassung und -analyse durch; KL, LL, DL, CP, HT, DD, CD, LD, CN, BN, QN, AH, HNP, AN und PH kommentierten Daten und machten Kommentare zur Verbesserung der Beschriftungstools; HQN und HHP haben den Artikel geschrieben; Alle Autoren haben das Manuskript überprüft.

Korrespondenz mit Hieu H. Pham.

Diese Arbeit wurde von der Vingroup JSC finanziert. Der Geldgeber spielte keine Rolle bei der Gestaltung der Studie, der Datenerhebung und -analyse, der Entscheidung zur Veröffentlichung oder der Erstellung des Manuskripts.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht durch gesetzliche Vorschriften zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Nguyen, HQ, Lam, K., Le, LT et al. VinDr-CXR: Ein offener Datensatz von Röntgenaufnahmen des Brustkorbs mit Anmerkungen des Radiologen. Sci Data 9, 429 (2022). https://doi.org/10.1038/s41597-022-01498-w

Zitat herunterladen

Eingegangen: 04. August 2021

Angenommen: 23. Juni 2022

Veröffentlicht: 20. Juli 2022

DOI: https://doi.org/10.1038/s41597-022-01498-w

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Wissenschaftliche Berichte (2023)

Wissenschaftliche Daten (2023)

SN Informatik (2023)

Nature Machine Intelligence (2022)