Extraktion von Materialinformationen über automatisch generiertes Korpus

Nachricht

HeimHeim / Nachricht / Extraktion von Materialinformationen über automatisch generiertes Korpus

Nov 19, 2023

Extraktion von Materialinformationen über automatisch generiertes Korpus

Wissenschaftliche Daten Band 9,

Scientific Data Band 9, Artikelnummer: 401 (2022) Diesen Artikel zitieren

2608 Zugriffe

1 Zitate

1 Altmetrisch

Details zu den Metriken

Die Informationsextraktion (IE) in der Verarbeitung natürlicher Sprache (NLP) zielt darauf ab, strukturierte Informationen aus unstrukturiertem Text zu extrahieren, um einem Computer das Verständnis natürlicher Sprache zu erleichtern. Auf maschinellem Lernen basierende IE-Methoden bringen mehr Intelligenz und Möglichkeiten, erfordern jedoch einen umfangreichen und genau beschrifteten Korpus. Im Bereich der Materialwissenschaften ist die Bereitstellung zuverlässiger Etiketten eine mühsame Aufgabe, die den Einsatz vieler Fachleute erfordert. Um manuelle Eingriffe zu reduzieren und Materialkorpus während des IE automatisch zu generieren, schlagen wir in dieser Arbeit ein halbüberwachtes IE-Framework für Materialien über automatisch generierten Korpus vor. Am Beispiel der Superlegierungsdatenextraktion in unserer vorherigen Arbeit beschriftet das vorgeschlagene Framework mithilfe von Snorkel automatisch den Korpus mit Eigenschaftswerten. Anschließend wird das ON-LSTM-Netzwerk (Ordered Neurons-Long Short-Term Memory) eingesetzt, um ein Informationsextraktionsmodell auf dem generierten Korpus zu trainieren. Die experimentellen Ergebnisse zeigen, dass der F1-Score der γ'-Lösungstemperatur, der Dichte und der Solidustemperatur von Superlegierungen 83,90 %, 94,02 % bzw. 89,27 % beträgt. Darüber hinaus führen wir ähnliche Experimente mit anderen Materialien durch. Die experimentellen Ergebnisse zeigen, dass das vorgeschlagene Framework im Bereich der Materialien universell ist.

Bei der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) geht es darum, dass ein Computer Textwissen versteht, sodass ein Computer natürliche Sprache analysieren und verarbeiten kann1. Die Informationsextraktion (IE) im NLP ist eine der bekanntesten Text-Mining-Technologien und zielt darauf ab, strukturierte Informationen aus unstrukturiertem Text zu extrahieren2. Die wissenschaftliche Literatur im Bereich Materialien enthält eine große Anzahl zuverlässiger Daten, die die datengesteuerte Materialforschung und -entwicklung fördern3,4,5. Es ist zeitaufwändig, sich ausschließlich auf die manuelle Extraktion durch Menschen zu verlassen6. Daher hat die automatische Datenextraktion organischer und anorganischer chemischer Substanzen aus Artikeln in den Bereichen Chemie und Materialwissenschaften mithilfe von NLP-Techniken Sinn gemacht7,8,9,10,11.

Mit der Entwicklung von maschinellem Lernen und NLP hat sich die IE-Technologie rasant weiterentwickelt6, insbesondere in der Biologie und Medizin. Sunil et al. schlugen vor, dass es sich bei IE um einen Prozess zur Erkennung und Klassifizierung semantischer Beziehungen handelt, und nutzten ein Convolutional Neural Network (CNN), um semantische Merkmale zu erhalten, um die Informationen im biomedizinischen Bereich zu extrahieren12. In vielen Artikeln wurden Deep-Learning-Modelle zur Funktionsoptimierung angewendet. zum Beispiel Xinbo et al. verwendete bedingte Zufallsfelder (Conditional Random Fields, CRFs), um die Merkmale des Kontexts zu klassifizieren, und verwendete Autoencoder und Sparsity-Beschränkungen, um das Problem der Wortsparsity zu lösen13. In jüngster Zeit wurden auch andere IE-Systeme bei der Suche nach möglichen Informationen mit Long Short-Term Memory (LSTM) untersucht. Raghavendra et al. eingebettete Wörter in bidirektionales LSTM und CRF. Sie verwendeten ein rekurrentes neuronales Netzwerk, um Merkmale zu erhalten, und führten die Extraktion klinischer Konzepte durch14. Arshad et al. stellte eine LSTM-Methode zum Verständnis der Sprachgrammatik und zum Ableiten der Beziehung zwischen Wörtern vor15. Alle oben genannten neuronalen Netze erfordern jedoch einen umfangreichen und genau gekennzeichneten Korpus, um das Netz zu trainieren.

Leider gibt es zu vielen Materialthemen, wie z. B. Superlegierungen, relativ wenige Veröffentlichungen, so dass es eine schwierige Aufgabe ist, die erforderlichen Informationen aus dem Veröffentlichungspapier zu extrahieren. In unserer vorherigen Arbeit11 haben wir eine NLP-Pipeline entwickelt, um sowohl chemische Zusammensetzungs- als auch Eigenschaftsdaten aus der wissenschaftlichen Literatur zu Superlegierungen zu erfassen. Eine regelbasierte Named Entity Recognition (NER)-Methode und ein distanzbasierter heuristischer Mehrfachbeziehungs-Extraktionsalgorithmus für die Pipeline wurden vorgeschlagen, um den Nachteil begrenzter Trainingskorpusbezeichnungen zu überwinden und gleichzeitig eine hohe Präzision und einen hohen Abruf zu erreichen. Der vorgeschlagene IE-Algorithmus ist eine regelbasierte Methode, während die Methode des maschinellen Lernens nach dem Vergleich aufgegeben wurde, da der markierte Korpus für das Training nicht ausreichte. Es ist eine mühsame Aufgabe, die den Einsatz vieler Fachleute erfordert, wenn sie allein von Menschen erledigt wird. Eine regelbasierte Strategie ist unter solchen Bedingungen effizient, jedoch ohne die Fähigkeit, selbstständig zu lernen und zu aktualisieren. Daher ist für auf maschinellem Lernen basierende IE die automatische Generierung von Korpussen im Materialbereich erforderlich, um manuelle Eingriffe zu reduzieren, sodass Computer selbst Papiere lesen und Datensätze extrahieren können.

Bei Problemen mit maschinellem Lernen sind zwei Probleme unvermeidlich: Daten und Algorithmen. Mit der Verbesserung verschiedener Frameworks für maschinelles Lernen nimmt die Anwendungsschwelle von Algorithmen allmählich ab. Allerdings ist die Datenerfassung immer noch ein arbeitsintensiver und notwendiger Prozess. Bei der Arbeit stehen wir normalerweise vor dem folgenden Problem: Die Aufgabe hat viele Korpusse, aber keine davon hat zuverlässige Bezeichnungen. Als Reaktion auf die oben genannten Probleme sind die üblichen Methoden das unbeaufsichtigte Lernen übertragbarer Merkmale, die Kombination von Regelsystem und Modell oder ein einfaches Stapelregelsystem sowie halbüberwachte Methoden zur Erweiterung der Etikettendaten und zur Verbesserung der manuellen Überprüfung und Annotation16. Aber diese Methoden sind entweder zu umständlich in der Handhabung, zu teuer oder zu unflexibel. Auf dieser Grundlage hat ein Forschungsteam der Stanford University Snorkel16 als Datenprogrammierungsframework vorgeschlagen, das eine schnelle Datensatzkonstruktion und Modellschulung ermöglicht.

In dieser Arbeit schlagen wir ein halbüberwachtes IE-Framework für den Materialbereich über einen automatisch generierten Korpus vor. Am Beispiel der Superlegierungsdatenextraktion in der vorherigen Arbeit beschriftet das vorgeschlagene Framework mithilfe von Snorkel17 automatisch den Korpus mit dem Namen einer Superlegierung und den entsprechenden Eigenschaftswerten. Wir fügen zunächst die Beschriftungsfunktion, die gemäß den Satzmerkmalen der wissenschaftlichen Literatur geschrieben wurde, in den Schnorchelfunktionstrainingsprozess ein und erhalten dann den genauen Trainingssatz. Halbüberwacht wird in von Menschen geschriebenen Kennzeichnungsfunktionen verkörpert, anstatt die Daten zu erweitern. Schließlich verwenden wir das beliebte Netzwerk Ordered Neurons-LSTM (ON-LSTM)18, um ein Informationsextraktionsmodell auf diesem automatisierten Trainingskorpus zu trainieren und Eigenschaftswerte in der wissenschaftlichen Materialliteratur zu extrahieren. Bei der Informationsextraktionsaufgabe erzielen wir mit ON-LSTM etwa 18 % bessere Ergebnisse als mit herkömmlichem LSTM. Der Code ist unter https://github.com/MGEdata/auto-generate-corpus verfügbar. Unsere Beiträge sind wie folgt zusammengefasst:

Für Materialien wird ein neues IE-Framework vorgeschlagen, das die halbüberwachte Methode des maschinellen Lernens nutzt, um automatisch Korpus zu generieren. Diese Arbeiten basieren auf der vorherigen Arbeit11 und extrahieren die Informationen im Materialfeld weiter.

ON-LSTM wird verwendet, um die Aufgabe des IE abzuschließen. Nach unserem besten Wissen ist dies das erste Mal, dass ON-LSTM und IE kombiniert werden, um die Möglichkeit einer möglichen Integration zu untersuchen.

Experimentelle Ergebnisse zeigen, dass die in diesem Artikel vorgeschlagene Methode effektiv Informationen extrahieren und auf breite Materialthemen angewendet werden kann.

Unsere Methode zum Extrahieren von Materialinformationen durch automatische Generierung von Korpus umfasst die folgenden Schritte: NER, Generierung von Kandidatensätzen, Schnorchel-Framework und Trainingsmodell, wie in Abb. 1 dargestellt. Um den Algorithmus-Workflow detaillierter und anschaulicher zu erklären, nehmen wir γ' Lösungstemperatur einer Superlegierung als Beispiel. Der anfängliche Korpus, den wir verwenden, besteht darin, die NER-Methode zu verwenden, um den Namen und den Eigenschaftswert der Superlegierung in einem Satz zu markieren. Die spezifische Methode von NER wird in unserem vorherigen Artikel11 ausführlich beschrieben. Allerdings markiert der anfängliche Korpus alle Superlegierungsnamen und Eigenschaftswerte in einem Satz. Je nach NER kann der Übereinstimmungsmodus von Superlegierungsnamen und Eigenschaftswerten nicht genau ermittelt werden, wenn in einem Satz mehrere Superlegierungsnamen und Eigenschaftswerte vorhanden sind. Der nächste Schritt besteht darin, Kandidaten zu generieren. Das Folgende ist ein Beispielsatz, der die γ'-Lösungstemperatur von Superlegierungen beschreibt:

Prozess zur Informationsextraktion. Dabei steht BA für den Namen der Superlegierung und B-Val für den Eigenschaftswert. LF_1, LF_2, …, LF_n repräsentieren den Namen der Beschriftungsfunktionen.

Die γ'-Lösungstemperaturen von X1, X2 und X3 sind Y1, Y2 bzw. Y3.

In diesem Satz geht es um drei Superlegierungen und ihre γ'-Lösungstemperaturen. In diesem Satz steht Xi für die i-te Superlegierung und Yi für den Wert der i-ten γ'-Lösungstemperatur. In diesem Beispiel besteht die Aufgabe, die wir erledigen müssen, darin, die richtige Paarung zu finden: (X1, Y1), (X2, Y2) und (\({X}_{3}\), \({Y}_{ 3}\)). Wir definieren die Kandidaten als eine erschöpfende Kombination der Namen der Superlegierungen \({X}_{1}\), \({X}_{2}\), \({X}_{3}\) und γ ' Lösungstemperaturen \({Y}_{1}\), \({Y}_{2}\), \({Y}_{3}\). Daher gibt es 9 Kandidaten: (\({X}_{1}\), \({Y}_{1}\)), (\({X}_{1}\), \({Y }_{2}\)), (\({X}_{1}\), \({Y}_{3}\)), (\({X}_{2}\), \( {Y}_{1}\)), (\({X}_{2}\), \({Y}_{2}\)), (\({X}_{2}\), \({Y}_{3}\)), (\({X}_{3}\), \({Y}_{1}\)), (\({X}_{3}\ ), \({Y}_{2}\)), (\({X}_{3}\), \({Y}_{3}\)). Wenn ein Satz \(m\) Namen von Superlegierungen und \(n\) γ'-Lösungstemperaturen enthält, werden m*n Kandidaten generiert.

Im dritten Schritt schreiben wir einige Beschriftungsfunktionen im Snorkel-Framework, einer halbüberwachten Methode zum Screening der Kandidaten, und ermitteln die korrekte Paarung aus Superlegierungsname und γ'-Lösungstemperatur. Bisher haben wir die zu extrahierende Beziehung genau gefunden und den benötigten Korpus generiert. Schließlich verwenden wir in diesen Korpora das Deep-Learning-Modell ON-LSTM-Trainingsmodell, sodass die neuen Korpora mithilfe des Trainingsmodells direkt die erforderliche Beziehung extrahieren können.

Aufgrund der geringen Literatur zum Thema Superlegierungen können keine öffentlichen IE-Korpora genutzt werden. Um ein Modell in diesem Bereich zu trainieren, kann das Trainingskorpora-Problem daher durch manuelle Suche gelöst werden19. Snorkel vertritt die radikale Idee, dass eine mathematische und systematische Struktur für den chaotischen und oft völlig manuellen Prozess der Erstellung und Verwaltung von Trainingsdaten bereitgestellt werden kann, indem man den Benutzern zunächst die Möglichkeit gibt, Trainingskorpora programmgesteuert zu kennzeichnen, aufzubauen und zu verwalten.

Der dritte Teil von Abb. 1 zeigt den spezifischen Prozess des Snorkel-Frameworks. Der Hauptvorteil des Snorkel-Frameworks besteht darin, dass der Datensatz nicht manuell beschriftet werden muss. Wenn sich die Aufgabe ändert, müssen die Daten möglicherweise neu gekennzeichnet, erweitert oder ignoriert werden20. Benutzer müssen lediglich auf die Merkmale jedes Datensatzes achten und Kennzeichnungsfunktionen für den Datensatz schreiben, die automatisch „wahr“ und „falsch“ für Kandidaten ermitteln können. Allerdings bietet Snorkel lediglich ein Framework zur Generierung der Trainingsdaten an und ist nicht für einen bestimmten Bereich konzipiert; In früheren Arbeiten20 wurde Schnorchel im Bereich Chemie eingesetzt. In dieser Arbeit entwickeln wir eine Anwendung von Snorkel, einem schwach überwachten Lernrahmen zur Generierung von Korpora aus der wissenschaftlichen Literatur.

Um Kandidaten zu generieren, verwenden wir Regeln, um alle relevanten Wörter zu Superlegierungen und der γ'-Lösungstemperatur aus der wissenschaftlichen Literatur zu kennzeichnen. Wir erschöpfen alle Kombinationen der markierten Superlegierungen und der γ'-Lösungstemperatur, um Kandidatensätze zu bilden, und beurteilen sie dann anhand von Kennzeichnungsfunktionen. Das generative Modell in Snorkel berechnet die Genauigkeit und Relevanz der Kandidatensätze basierend auf der Konsistenz und Divergenz der geschriebenen Beschriftungsfunktionen. Basierend auf den Kennzeichnungsfunktionen benötigt das generative Modell keine tatsächlichen Daten und beurteilt direkt, ob der Kandidat richtig oder falsch liegt. Jeder Kandidat wird von allen Kennzeichnungsfunktionen bewertet, um ein vernünftiges Ergebnis zu erhalten. Die Kandidaten werden richtig beurteilt und die Zielkorpora gebildet.

Für Superlegierungen in Werkstoffen nutzen wir regelbasierte Methoden zur Klassifizierung von Sätzen, die den Namen der Superlegierungen und entsprechende Eigenschaftswerte aus mehr als 14.425 Volltexten materialbezogener wissenschaftlicher Zeitschriftenartikel enthalten. Ähnlich wie bei unserer vorherigen Arbeit11 erfolgt der Zugriff auf diese Artikel über die APIs von Elsevier Research Products, so dass jeder, der einen API-Schlüssel erhalten und die APIs kostenlos für nichtkommerzielle Zwecke nutzen kann, erhalten kann. Ausführliche Informationen zu den APIs von Elsevier Research Products finden Sie unter https://dev.elsevier.com. Nachdem der Antrag genehmigt wurde, weist die Website jedem Benutzer einen API-Schlüssel zu. Über den API-Schlüssel können wir Artikel im Klartext- und XML-Format erhalten. Sobald wir die Artikel haben, können wir Text Mining für die Artikel durchführen. Zusätzlich haben wir die Dois von 14.425 Artikeln im Zusatzmaterial hochgeladen. Zu den gewonnenen Superlegierungen gehören zwei Typen, Superlegierungen auf Co-Basis und Superlegierungen auf Ni-Basis, die mehr als 80 % aller Superlegierungen ausmachen. Sätze, die die Eigenschaftswerte von Superlegierungen enthalten, sind in der Regel im Volltext enthalten, sodass wir den Volltext von Artikeln in wissenschaftlichen Fachzeitschriften berücksichtigen. Der Artikel über Superlegierungen enthält viele Eigenschaften, wir konzentrieren uns auf drei davon: γ'-Lösungstemperatur, Solidustemperatur und Dichte. Darunter waren 457 Sätze, die sich auf die γ'-Lösungstemperatur bezogen. Das erste Korpus wurde auf https://github.com/MGEdata/snorkel veröffentlicht. Obwohl nur relativ wenige Sätze gewonnen werden, ist die Zahl der Sätze für den Bereich der Superlegierungen bereits recht hoch. In einigen Fällen werden mehrere Namen und Eigenschaftswerte in einem Satz erwähnt. Um die Superlegierung und die γ'-Lösungstemperaturen genau anzupassen, wurden alle Kombinationen umfassend generiert, um 1.184 Paare zu erhalten. Der passende Kandidat wird von Snorkel markiert, um Korpora zu bilden. Die auf diese Weise erhaltenen Korpora spiegeln den Einfluss der Markierungsfunktion auf die Extraktion wider.

Jeder Datensatz weist einzigartige Merkmale auf, und die Beschriftungsfunktionen werden entsprechend den Merkmalen des Datensatzes angepasst. Wenn Benutzer unser vorgeschlagenes Framework verwenden möchten, um die Beziehung in ihrem eigenen Korpus zu extrahieren, müssen sie lediglich Kennzeichnungsfunktionen neu schreiben, die den Merkmalen der Sätze in ihrem Korpus entsprechen. Die Kennzeichnungsfunktionen haben nichts mit der Quelle des Korpus zu tun, sondern nur mit den Merkmalen des Satzes. Die wissenschaftliche Literatur zu Superlegierungen verfügt über ein professionelleres Vokabular. Wir schreiben mehr als 10 Markierungsfunktionen entsprechend ihren semantischen Eigenschaften zum Extrahieren der γ'-Lösungstemperatur. Tabelle 1 enthält Beispiele für Beschriftungsfunktionen. Wir passen die Schreibweise der Beschriftungsfunktion entsprechend der Abdeckung, Überschneidungen und Konflikte verschiedener Beschriftungsfunktionen an. Die Liste der Markierungsfunktionen ist in Tabelle 2 aufgeführt. Die Abdeckung der Markierungsfunktionen bezieht sich auf den Anteil positiver und negativer Proben, die erfolgreich markiert wurden. Bei der γ'-Lösungstemperatur der extrahierten Superlegierung erreicht die umfassende Abdeckung der von uns beschriebenen Markierungsfunktion mehr als 90 %. Wenn Benutzer das Framework zum Schreiben von Beschriftungsfunktionen verwenden, versuchen Sie, die Gesamtabdeckung der Beschriftungsfunktionen so hoch wie möglich zu gestalten. Um Überschneidungen detaillierter zu beschreiben, veranschaulichen wir dies anhand eines Beispiels. Angenommen, es gibt drei Kandidaten \(c1\), \(c2\), \(c3\) und zwei Beschriftungsfunktionen \(LF1\), \(LF2\). Wenn die Kennzeichnungsfunktion den Kandidaten als richtig beurteilt, gibt sie 1 zurück, wenn der Kandidat als falsch beurteilt wird, gibt sie 0 zurück. Wenn die Kennzeichnungsfunktion den Kandidaten nicht einbezieht, enthält sie sich der Stimme und gibt −1 zurück. Die durch die Beschriftungsfunktionen \(LF1\) und \(LF2\) gebildete Matrix ist jeweils [1, −1, 0],[1, −1, −1]. Sowohl \(LF1\) als auch \(LF2\) beurteilen den ersten Kandidaten, was als Überlappung bezeichnet wird. Ein Konflikt bedeutet, dass zwei Kennzeichnungsfunktionen denselben Kandidaten betreffen und die Beurteilungsergebnisse inkonsistent sind. Je mehr der Konflikt gegen 0 tendiert, desto spezifischer werden die Beschriftungsfunktionen geschrieben. Wir drucken die Beschriftungsfunktionen über den Beschriftungsfunktionsanalysator PandasLFApplier auf der offiziellen Website des Snorkel-Frameworks aus und stellen fest, dass der Konflikt 0 ist. Dies zeigt an, dass zwischen den von uns geschriebenen Beschriftungsfunktionen kein Konflikt besteht. Eine Betrachtung der Tabelle zeigt, dass diese Beschriftungsfunktionen umfassend und präzise sind. Diese Funktionen haben gute Ergebnisse erzielt. Beispielsweise hat LF_in eine Kandidatenabdeckung von 0,46.

Das generative Modell beurteilt anhand vorgegebener Kennzeichnungsfunktionen, ob jeder Kandidat wahr oder falsch ist, und wandelt so die Aufgabe der Generierung der Korpora in eine Klassifizierungsaufgabe um. Es ist bekannt, dass der F1-Score ein gutes Maß für Klassifizierungsprobleme ist, und einige Klassifizierungsprobleme verwenden häufig den F1-Score als endgültige Bewertungsmetrik. Der F1-Score ist das harmonische Mittel von Präzision und Recall, d. h. \({\rm{F1}} \mbox{-} {\rm{score}}=2\ast \frac{Präzision\ast Recall}{Präzision +erinnern}\). Die Präzision wird durch \(\frac{TP}{TP+FP}\) und der Rückruf durch \(\frac{TP}{TP+FN}\) angegeben. Hier ist TP wirklich positiv, was als positive Probe beurteilt wird und tatsächlich eine positive Probe ist. FP ist falsch positiv, was als positive Probe beurteilt wird, tatsächlich aber eine negative Probe ist. FN ist falsch negativ, was als negative Probe beurteilt wird, tatsächlich aber eine positive Probe ist. Der Maximalwert des F1-Scores beträgt 1 und der Minimalwert 0.

Neben dem F1-Score ist ROC21 auch ein Indikator zur Messung der Unausgewogenheit der Klassifizierung. ROC-auc wird insbesondere verwendet, um die Vor- und Nachteile eines binären Klassifikators zu bewerten. ROC-auc ist als Fläche unter der ROC-Kurve definiert. Die ROC-Kurve liegt im Allgemeinen auf einer geraden Linie y = x, sodass der Wertebereich aller ROC-auc zwischen 0,5 und 1 liegt. In vielen Fällen zeigt die ROC-Kurve nicht klar an, welcher Klassifikator eine bessere Leistung erbringt, und ROC-auc ist a numerischer Wert. Ein größerer Wert entspricht einem besseren Klassifikatoreffekt. Für die Beziehung zwischen dem Wert von ROC-auc und dem Klassifikator haben wir einen groben Standard zur Bewertung des Klassifikators. Wenn ROC-auc weniger als 0,5 beträgt, verfügt das Modell über eine geringe Unterscheidungsfähigkeit. Wenn ROC-auc größer als 0,5 und kleiner als 0,8 ist, ist die Unterscheidungsfähigkeit des Modells akzeptabel. Wenn der Wert von ROC-auc größer als 0,8 ist, ist die Unterscheidungsfähigkeit des Modells besser.

Wir unterteilen die 1184 Kandidatensätze der γ‘-Lösungstemperatur in den Trainingssatz, den Entwicklungssatz und den Testsatz, bestehend aus 674, 200 bzw. 310 Kandidatensätzen. Um die Wirkung der Verwendung von Snorkel zur Generierung der Korpora zu überprüfen, haben wir Domänenexperten eingeladen, den Entwicklungssatz und den Testsatz manuell zu markieren. Unter den 1184 Kandidatensätzen kommentieren die Experten insgesamt 200 Kandidatensätze als Entwicklung. Obwohl der manuelle Arbeitsaufwand derzeit etwas groß ist, kann das trainierte Modell einen größeren Datensatz generieren. Der manuelle Arbeitsaufwand beschränkt sich auf das Anfangsstadium und der spätere Einsatz der maschinellen Bearbeitung wird deutlich schneller erfolgen als die manuelle Bearbeitung. Bisher wurden das Trainingsset und das Testset nicht beschriftet, und das Entwicklungsset wurde manuell beschriftet. Wir betten die Label-Funktionen in das Snorkel-Framework für das Entwicklungsset ein. Der Zweck besteht darin, die richtigen Informationen aus dem Trainingssatz zu extrahieren, um die Korpora zu bilden.

Die Bewertungsergebnisse des automatisch generierten Korpus sind in Abb. 2 dargestellt. Die Zahl am unteren Rand der Abbildung ist die Epoche und die vertikale Achse stellt den spezifischen Wert dar. Bei der Verwendung des Snorkel-Frameworks verwenden wir verschiedene Epochen. Wenn das Modell trainiert wird, wird die Wirkung des Modells mit zunehmender Epoche besser. Wenn wir jedoch zu viele Epochen trainieren, passt das Modell zu stark an die Trainingsdaten und die Wirkung nimmt ab. Im Idealfall möchten wir den Wendepunkt finden, an dem das Modell vom Guten zum Schlechten wechselt, um zu entscheiden, ob das Training beendet werden soll. Nach vielen Experimenten haben wir herausgefunden, dass die besten Ergebnisse erzielt werden, wenn die Epoche 70 beträgt. Der beste ROC-auc lag bei 0,882 und der beste F1-Score bei 0,839. Die entsprechende Wendepunkt-Epoche liegt bei 70, und mehr Epochen führen zu einer Überanpassung, was zu schlechteren Ergebnissen führt. Diese Werte weisen darauf hin, dass die Qualität des generierten Datensatzes hoch ist. Obwohl diese Werte je nach Epoche leicht variieren, ist aus der Abbildung ersichtlich, dass der Unterschied nicht signifikant ist. Dies zeigt, dass die Schnorchel-Lernfähigkeit nicht stark mit der Epoche korreliert, solange die Beschriftungsfunktion korrekt geschrieben ist.

Die Leistung von F1-Score und ROC-auc im generierten Datensatz. Wenn der Wert größer als 0,8 ist, funktioniert das Modell gut.

Wir haben den Korpus mit Snorkel erhalten. Bei der Beurteilung, ob Kandidaten richtig oder falsch sind, schreiben wir die Label-Funktion auf der Ebene des Kandidatensatzes. Da verschiedene Kandidaten aus demselben Satz stammen können, kann es sein, dass das Modell bei der Überprüfung des Testsatzes die Sätze im Testsatz während des Trainings gesehen hat. Um die Allgemeingültigkeit unseres Modells zu veranschaulichen, fügen wir untrainierte 88 Sätze zur γ'-Lösungstemperatur hinzu, um 298 Kandidatensätze zu generieren.

Wir fügen die generierten 298 Kandidatensätze direkt in das trainierte Modell ein und beurteilen jeden Kandidaten. Wir laden Experten ein, nach dem Zufallsprinzip 50 von Snorkel automatisch generierte Korpora zur manuellen Prüfung auszuwählen. Tabelle 3 ist ein Beispiel für die von Experten korrigierten Korpora. Aus einer Vielzahl von Kandidaten wird die richtige Paarung ausgewählt. Die Ergebnisse zeigten, dass die Methode zur automatischen Generierung von Corpus-Tags verwendet wurde. Die Tag-Genauigkeitsrate erreichte mehr als 80 %. Die erste Spalte mit der Bezeichnung 1 ist das richtige Paar und die mit der Bezeichnung 0 ist falsch. „name_id“ und „attri_id“ repräsentieren jeweils die Position der Superlegierung und der γ‘-Lösungstemperatur in einem Satz.

Mit der großen Anzahl markierter Korpora, die von Snorkel erzeugt werden, können wir diese Korpora verwenden, um ein Diskriminanzmodell zu trainieren. Aber wir müssen uns fragen, warum wir ein weiteres Diskriminanzmodell trainieren müssen, da Snorkel den Typ der Probe genau bestimmen kann? Diese Frage muss mit dem Unterschied zwischen dem generativen und dem diskriminanten Modell beginnen. Das generative Modell in Snorkel lernt die gemeinsame Wahrscheinlichkeitsverteilung P(X, Y) aus den Daten und erhält dann die bedingte Wahrscheinlichkeitsverteilung P(Y|X) als Vorhersagemodell. Die Formel zum Generieren des Modells lautet wie folgt.

Das Diskriminanzmodell, das die bedingte Wahrscheinlichkeitsverteilung P(Y|X) direkt aus den Daten lernt, wird als Vorhersagemodell festgelegt. Basierend auf den Merkmalen des Diskriminanzmodells und des generativen Modells können die vom generativen Modell erstellten Korpora dazu beitragen, dass das Diskriminanzmodell die Abdeckung der vorgeschlagenen Methode verbessert. Das generative Modell muss die gemeinsame Wahrscheinlichkeitsverteilung P(X, Y) lernen, aber für Korpora, die nicht von allen Markierungsfunktionen abgedeckt werden können, ist es offensichtlich unmöglich, P(X, Y) zu erhalten. Im Gegenteil, das Diskriminanzmodell benötigt nur die Eigenschaften von X selbst. P(Y|X) kann berechnet werden, sodass das Diskriminanzmodell die Datenpunkte abdecken kann, die das generative Modell nicht abdecken kann. Darüber hinaus können Diskriminanzmodelle im Vergleich zum Wahrscheinlichkeitsgraphenmodell, das beim generativen Modelltraining verwendet wird, mit fortgeschritteneren und komplexeren Modellen trainiert werden, beispielsweise mit dem von uns verwendeten ON-LSTM-Modell, wodurch auch die Genauigkeit des Modells verbessert werden kann.

ON-LSTM integriert die hierarchische Struktur durch spezifische Sortierung von Neuronen in das LSTM und ermöglicht es dem LSTM, die hierarchischen Strukturinformationen automatisch zu lernen. Die Trainingsmethode ist überwachtes Lernen und das trainierte Modell kann zur Verarbeitung eines großen Materialkorpus verwendet werden. ON-LSTM sortiert die Neuronen innerhalb des LSTM und integriert die hierarchische Struktur, um umfangreichere Informationen auszudrücken18. Im ursprünglichen LSTM-Modell stehen die Aktualisierungen zwischen Neuronen nicht in Zusammenhang. Aus diesem Grund fügt ON-LSTM zwei Gates hinzu: das Master-Forget-Gate \(\widetilde{{f}_{t}}\) und das Master-Input-Gate \(\widetilde{{i}_{t}}\) . Die Struktur von ON-LSTM ist in Abb. 3 dargestellt.

Die interne Struktur von ON-LSTM, wobei σ das Sigmoid der Aktivierungsfunktion ist, ft das Vergessens-Gate ist, es das Eingangs-Gate ist und ot das Ausgangs-Gate ist.

Um die Überlegenheit der vorgeschlagenen Methode zu demonstrieren, wird unser Algorithmus mit mehreren klassischen Algorithmen in unserem vorgeschlagenen Datensatz verglichen. Die Vergleichsergebnisse sind in Abb. 4 dargestellt. Unter diesen ist Snowball22 ein allgemeines Informationsextraktions-Framework. Der modifizierte Snowball23 ist eine Verbesserung auf der Basis von Snowball für den Materialbereich. Der entfernungsbasierte Algorithmus ist die in unserem vorherigen Artikel vorgeschlagene Methode11. LSTM bezieht sich auf die Ergebnisse, die wir erhalten, nachdem wir Snorke zur automatischen Generierung des Korpus verwendet und dann das LSTM-Netzwerktraining verwendet haben. ON-LSTM ist das Ergebnis des Trainings mit ON-LSTM nach dem Produktionskorpus. Es ist offensichtlich, dass unsere vorgeschlagene Methode eine viel bessere Leistung erbringt als die vorherigen klassischen Algorithmen. Die Ergebnisse zeigen, dass ON-LSTM bei der IE-Aufgabe eine bessere Leistung als LSTM erbringt. Mit anderen Worten: Geordnete Neuronen können umfassendere Informationen in Sätzen ausdrücken und semantische Informationen zwischen Wörtern erfassen.

Vergleichsergebnisse von ON-LSTM und den in früheren Artikeln vorgeschlagenen Algorithmen. ON-LSTM ist unsere vorgeschlagene Methode.

Die von uns vorgeschlagene Methode ist ein allgemeiner Rahmen für IE ohne Korpora, der für Materialien universell ist. Um diese Eigenschaft besser zu veranschaulichen, haben wir auch andere physikalische Eigenschaften aus dem Materialbereich extrahiert, darunter Dichte, Solidustemperaturen von Superlegierungen und Härteinformationen von Legierungen mit hoher Entropie. Tabelle 4 zeigt den F1-Score für die Dichte, die γ'-Lösungstemperatur von Superlegierungen und die Härteinformationen von Legierungen mit hoher Entropie. Experimentelle Ergebnisse zeigen, dass unsere vorgeschlagene Methode zur Beziehungsextraktion mithilfe eines automatisch generierten Korpus vielseitig ist und alle Eigenschaften im Materialbereich extrahieren kann.

Aus Tabelle 4 können wir ersehen, dass der F1-Score eine gute Leistung beim Extrahieren von Dichteinformationen aus Superlegierungen aufweist. Wir beobachten die Merkmale von Sätzen, die Dichte enthalten, und stellen fest, dass diese Sätze im Vergleich zu anderen Attributen bei der Beschreibung der Dichte relativ eintönig sind. Aus diesem Grund ist der F1-Score der Dichte relativ hoch. Wir fassen einige typische Satzmuster wie folgt zusammen, wobei A das Attribut und B den Eigenschaftswert darstellt. Ai, Bi repräsentiert das i-te A oder B.

„Noch wichtiger ist, dass diese Superlegierungen auf Co-V-Basis eine geringere Dichte haben (8,39–8,86 g/cm3).“ Wenn wir eine Label-Funktion schreiben, können wir sie in der Form „A(B)“ beschreiben.

„Die scheinbare Dichte der GTD222- und TiC/GTD222-Verbundpulver betrug 4,56 g/cm3 bzw. 4,48 g/cm3“, was als Muster „A1 und A2 sind Verb B1 und B2“ zusammengefasst werden kann.

„Während die Dichte von Nimonic 90.0 8,2 g/cm3 beträgt, haben die Schichtbestandteile Ni2Si, Ni5Si2, Cr2B und CrB eine Dichte von 7,2 g/cm3, 7,0 g/cm3, 6,6 g/cm3 bzw. 6,1 g/cm3.“ Beschriftungsfunktionen können als „A1, A2, A3 und A4 haben die Dichte B1, B2, B3, B4“ geschrieben werden.

Methoden des maschinellen Lernens erfordern große Datenmengen für das Modelltraining. Obwohl Methoden des maschinellen Lernens in vielen Bereichen weit verbreitet sind, handelt es sich immer noch um neuartige Methoden zur Extraktion der erforderlichen Informationen im Materialbereich. Die extrahierten Informationen können Forschern dabei helfen, zu bestimmen, welche Materialien unter welchen Umständen verwendet werden sollten.

In dieser Arbeit verwenden wir halbüberwachtes Schnorcheln, um Trainingssätze im Bereich Materialien zu generieren. Wir nehmen Superlegierungen als Beispiel und überprüfen die Allgemeingültigkeit der vorgeschlagenen Methode im Bereich der Materialien anhand einer Reihe unterschiedlicher Materialtypen. Da unser Datensatz beim Generieren des Trainingssatzes stark unausgeglichen ist, kann selbst eine triviale Basislinie, die immer negativ ausgibt, eine hohe Genauigkeit erzielen. Daher haben wir den Datensatz anhand des F1-Scores und des ROC-auc und nicht anhand der Genauigkeit bewertet. Darüber hinaus untersuchen wir zunächst die mögliche Integration zwischen ON-LSTM und IE. Obwohl wir zum Trainieren des Modells fortschrittlichere Methoden verwenden, sind die Ergebnisse nicht besonders zufriedenstellend. Dies kann auf die geringe Anzahl an Datensätzen und das Ungleichgewicht zwischen positiven und negativen Stichproben zurückzuführen sein. Obwohl alle unsere Prozesse spezifische Informationen im Bereich Materialien extrahieren, kann die vorgeschlagene Methode auch auf andere Bereiche ohne Datensätze angewendet werden. Je nach Anforderung werden unterschiedliche Beschriftungsfunktionen geschrieben und anschließend das Modell entsprechend dem generierten Datensatz trainiert, um die Robustheit der Extraktion zu erhöhen. In allen Fällen hängt die Schwierigkeit beim Schreiben von Beschriftungsfunktionen mit der Schwierigkeit des Korpus und der extrahierten Informationen zusammen.

Der Einsatz von Methoden des maschinellen Lernens zur Extraktion von Informationen im Materialbereich steht noch vor vielen Herausforderungen. Einerseits erfordert maschinelles Lernen einen großen Korpus, während die Datenmenge im Bereich Superlegierungen aufgrund der Schwierigkeit, genaue und fehlerfreie Datensätze zu erhalten, gering ist. Wir hoffen, in Zukunft mehr Artikel über Materialien und mehr Sätze mit physikalischen Eigenschaften zu erhalten, um größere und qualitativ hochwertigere Datensätze zu erhalten. Andererseits verwenden wir beim Extrahieren von Informationen aufgrund der begrenzten Anzahl von Datensätzen kein vorab trainiertes Modell. Das Pre-Training-Modell erhält durch selbstüberwachte Lernmethoden aus großen Datenmengen Modelle, die sich nicht auf bestimmte Aufgaben beziehen und die reichhaltigen semantischen Merkmale von Wörtern oder Sätzen effektiver ausdrücken können. In Zukunft könnte es möglich sein, in der Informationsextraktionsphase vorab trainierte Modelle wie BERT24 und XLNet25,26 einzuführen, um die Kontextinformationen von Sätzen vollständig zu nutzen und Vektoren präzise zu verwenden, um die Bedeutung von Wörtern auszudrücken.

In diesem Abschnitt beschreiben wir die in dieser Arbeit verwendeten Methoden des maschinellen Lernens, nämlich die Snorkel-Methode zum Generieren von Datensätzen und die ON-LSTM-Methode zum Trainieren der IE-Modelle.

Snorkel ist ein Modell, das schwache Aufsicht zur Generierung von Datensätzen verwendet. Es beschriftet alle Ausreißerdaten manuell und erfordert lediglich, dass Benutzer Beschriftungsfunktionen schreiben27. Snorkel verwendet Datenprogrammierung28,29, um seine Ausgabe zu erhalten. Der Hauptzweck von Snorkel besteht darin, ein φ \(\in \) Φ anzugeben und die mögliche diskrete Bezeichnung τ \(\in \) T zu bestimmen, wobei Φ die Kandidatenmenge und T die Menge {1, 0} darstellt. Um dieses Ziel zu erreichen, müssen wir einige Beschriftungsfunktionen λ basierend auf dem spezifischen Datensatz schreiben. Für Benutzer sind die geschriebenen Beschriftungsfunktionen Black-Box-Funktionen und sie müssen die Funktionsweise von Snorkel bei Beschriftungsfunktionen nicht verstehen. Bei Eingabe des Kandidatensatzes Φ und der Beschriftungsfunktionen λ gibt Snorkel Beschriftungen T aus, zu denen Φ gehört. Benutzer können Beschriftungsfunktionen auf folgende Weise schreiben:

Musterbasiert: Die Methode formuliert einige Regeln, indem sie die Eigenschaften von Satzmustern beobachtet. Omar et al. schlug die Grundprinzipien der Beobachtung vor, um Benutzern das Kommentieren von Datensätzen zu erleichtern30. Sonal et al. verwendeten für die Kennzeichnung die Regeln der Verteilungsähnlichkeit und des Wort-zu-Wort-Abstands31.

Fernaufsicht: Fernaufsicht bezieht sich auf eine vorhandene Wissensbasis. Unter der Annahme, dass die Wissensdatenbank die zu extrahierenden Informationen enthält, entspricht dies der automatischen Markierung eines Teils der Proben. zum Beispiel Raphael et al. nutzten die Informationen in der Wissensdatenbank, um sich wiederholende Beziehungen auf Satzebene zu extrahieren32.

Schwache Klassifikatoren: Wir nennen einen Klassifikator, der etwas besser als eine Zufallsvorhersage, aber nicht sehr genau ist, einen schwachen Klassifikator33. Wir können schwache Klassifikatoren für andere Datensätze als Beschriftungsfunktionen trainieren.

Wenn der Kandidatensatz Datenpunkte enthält und die Benutzer b Beschriftungsfunktionen schreiben, wird die Matrix Γ \(\in \) Ta*b generiert. Jede Beschriftungsfunktion kann Abdeckung, Überlappungen und Konflikte für denselben Datenpunkt aufweisen. Snorkel löst die oben genannten Probleme automatisch intern und erstellt schließlich eine einzelne Beschriftung für jeden Datenpunkt. Die wichtigste Komponente von Snorkel-Modellen, die mehrere Beschriftungsfunktionen integriert, wird als generatives Modell bezeichnet. Snorkel implementiert diese Komponente mithilfe der Methode der Datenprogrammierung. Einzelheiten finden Sie unter27,28,29.

Nachdem der erfasste Datensatz durch das mit TensorFlow34 gelieferte Plug-in eingebettet wurde, verwenden wir den ON-LSTM-Algorithmus für maschinelles Lernen zur Relationsextraktion. ON-LSTM ist eine Variante von LSTM. Für eine klare Beschreibung von ON-LSTM veranschaulichen wir den Prozess Schritt für Schritt. In diesem Abschnitt verstehen wir zunächst das Funktionsprinzip von LSTM.

LSTM ist eine spezielle Art eines wiederkehrenden neuronalen Netzwerks35 (RNN), das langfristige Abhängigkeiten lernen kann. LSTM entfernt oder fügt Informationen über seine Speicherzelle \({c}_{t}\) hinzu. Wie in Abb. 5 gezeigt, gibt es drei Arten von Gattern, nämlich das Vergessensgatter \({f}_{t}\), das Eingangsgatter \({i}_{t}\) und das Ausgangsgatter \({o} _{t}\), in ct36. Der erste Schritt von LSTM besteht darin, zu entscheiden, welche Informationen wir aus dem Zellzustand verwerfen, was über das Vergessenstor erfolgt. Die Eingabe ist der verborgene Zustand \({h}_{t-1}\) der vorherigen Sequenz und dieser Datensequenz \({x}_{t}\). Die Ausgabe \({f}_{t}\) des Vergessensgatters stellt die Wahrscheinlichkeit dar, den verborgenen Zellenzustand der vorherigen Ebene zu vergessen, und wird wie folgt ausgedrückt.

wobei \(\sigma \) die Aktivierungsfunktion Sigmoid ist und Wf und bf der lineare Korrelationskoeffizient bzw. Bias sind. Der Wert von ft liegt zwischen 0 und 1; Hier bedeutet 0, dass keine Informationen passieren dürfen, und 1 bedeutet, dass alle Informationen passieren dürfen.

Die interne Struktur von LSTM. Eine LSTM-Zelle besteht aus einer Speicherzelle ct und drei Gates.

Das Eingangsgatter bestimmt, welche neuen Informationen im Zellzustand gespeichert werden. Es besteht aus zwei Teilen: Der erste Teil verwendet die Sigmoid-Aktivierungsfunktion und seine Ausgabe ist \({i}_{t}\). Der zweite Teil verwendet die Tanh-Aktivierungsfunktion und ihre Ausgabe ist \({\widehat{c}}_{t}\). Die Ergebnisse der beiden werden multipliziert, um den Zellzustand zu aktualisieren. \({W}_{i}\), \({W}_{c}\), \({b}_{i}\) und \({b}_{c}\) sind linear verwandte Koeffizienten und Verzerrungen.

Als nächstes müssen wir den Status der alten Zelle aktualisieren und \({c}_{t-1}\) auf \({c}_{t}\) aktualisieren. Wir multiplizieren den alten Zustand mit \({f}_{t}\) und verwerfen die Informationen, die mit Sicherheit verworfen werden. Für die Addition des Produkts aus dem Eingangstor \({i}_{t}\) und \({\widehat{c}}_{t}\) lautet die Formel wie folgt.

Schließlich müssen wir den auszugebenden Wert bestimmen. Die Formel zur Berechnung von ot lautet wie folgt. Hier geben w0 und bo den Korrelationskoeffizienten und den Bias an.

Die Aktualisierung des verborgenen Zustands ht besteht aus zwei Teilen: Der erste Teil ist ot und der zweite Teil besteht aus ct und den Aktivierungsfunktionen tanh.

Gemäß der zuvor gemeldeten Arbeit wurde die neue Cumax-Aktivierungsfunktion verwendet. Der Neuronenzustand steuert, welche Informationen gespeichert und vergessen werden. Durch die Einführung eines solchen Gate-Mechanismus werden voneinander abhängige Aktualisierungsregeln zwischen Neuronen festgelegt, sodass Neuronen eine Ordnung und Hierarchie von Unterschieden aufweisen.

Das Objekt des ON-LSTM-Denkens ist die natürliche Sprache, und die Natur kann normalerweise eine hierarchische Struktur ausdrücken. In englischen Sätzen können Buchstaben als Struktur auf der niedrigsten Ebene betrachtet werden, während Wörter und Phrasen eine Struktur auf höherer Ebene haben. Je höher die Ebene, desto gröber die Granularität und desto größer die Spanne des Satzes. In der ON-LSTM-Struktur können Informationen auf hoher Ebene einen beträchtlichen Abstand beibehalten, da die von den Informationen auf hoher Ebene direkt kopierten historischen Informationen dazu führen können, dass historische Informationen ohne Änderung wiederholt werden. Die Low-Level-Informationen können bei jedem Eingabeschritt aktualisiert werden, da die Low-Level-Informationen die Eingabe direkt duplizieren. Der Input verändert sich ständig, so dass die hierarchische Struktur durch Informationsbewertung verankert wird.

Das Vergessens-Gate \({f}_{t}\), das Eingabe-Gate \({i}_{t}\), das Ausgabe-Gate \({o}_{t}\) und \({\widehat{c }}_{t}\) von ON-LSTM, gegeben durch die gleichen Formeln wie ct und LSTM, aber der Aktualisierungsmechanismus von \({\widehat{c}}_{t}\) nach \({c}_{ t}\) ist unterschiedlich. Das Folgende ist die aktualisierte Formel des gesamten ON-LSTM:

Der Wert der Cumax-Aktivierungsfunktion nimmt monoton von 1 auf 0 ab. Innerhalb eines bestimmten Bereichs tendiert sein Wert gegen 0, was darauf hinweist, dass die vorherigen Informationen vergessen wurden; tendiert sein Wert gegen 1, wird der neue Eingabeinhalt immer wichtiger. Beim Training des Modells legen wir den Dropout auf 0,4, die Lernrate auf 0,1 und die Dimension des Wortvektors auf 64 fest.

Unsere Ausgangsdaten und extrahierten Daten sind unter https://github.com/MGEdata/snorkel verfügbar.

Der Code ist unter https://github.com/MGEdata/auto-generate-corpus verfügbar. Wenn Forscher ihr eigenes Korpus extrahieren, müssen sie in dem von uns geschriebenen Framework nur Beschriftungsfunktionen schreiben, die den Merkmalen ihres eigenen Korpus entsprechen, was sehr einfach zu verwenden ist.

Galassi, A., Lippi, M. & Torroni, P. Aufmerksamkeit bei der Verarbeitung natürlicher Sprache. IEEE-Transaktionen in neuronalen Netzen lernen. Syst. 15, 3709–3721 (2020).

Google Scholar

Mooney, RJ & Bunescu, RC Gewinnen Sie Wissen aus Text mithilfe der Informationsextraktion. Acm Sigkdd Explor. Newsl. 7, 3–10 (2005).

Artikel Google Scholar

Rickman, JM, Lookman, T. & Kalinin, SV Materialinformatik: Von der atomaren Ebene zum Kontinuum. Acta Materials 168, 473–510.

Artikel ADS CAS Google Scholar

Wen, C. et al. Durch maschinelles Lernen unterstütztes Design von Legierungen mit hoher Entropie und gewünschten Eigenschaften. Acta Materialia 170, 109–117 (2019).

Artikel ADS CAS Google Scholar

Xue, D. et al. Beschleunigte Suche nach Materialien mit gezielten Eigenschaften durch adaptives Design. Nat. Kommunikation 7, 1–9 (2016).

ADS Google Scholar

Tshitoyan, V. et al. Unbeaufsichtigte Worteinbettungen erfassen latentes Wissen aus der materialwissenschaftlichen Literatur. Nat. 571, 95–98 (2019).

Artikel ADS CAS Google Scholar

Swain, MC & Cole, JM Chemdataextractor: ein Toolkit zur automatisierten Extraktion chemischer Informationen aus der wissenschaftlichen Literatur. J. Chemical Information Modeling 56, 1894–1904 (2016).

Artikel CAS Google Scholar

Krallinger, M., Rabal, O., Lourenco, A., Oyarzabal, J. & Valencia, A. Informationsabruf- und Text-Mining-Technologien für die Chemie. Chem. Rezensionen 117, 7673–7761 (2017).

Artikel CAS Google Scholar

Kim, E. et al. Planung der Synthese anorganischer Materialien mit literaturtrainierten neuronalen Netzen. J. Chemical Information Modeling 60, 1194–1201 (2020).

Artikel CAS Google Scholar

Kim, E., Huang, K., Jegelka, S. & Olivetti, E. Virtuelles Screening von Syntheseparametern anorganischer Materialien mit Deep Learning. npj-Berechnung. Mater. 3, 1–9 (2017).

Artikel CAS Google Scholar

Wang, W. et al. Automatisierte Pipeline für Superlegierungsdaten durch Text Mining. npj-Berechnung. Mater. 8, 1–12 (2022).

Artikel ADS Google Scholar

Sahu, SK, Anand, A., Oruganty, K. & Gattu, M. Beziehungsextraktion aus klinischen Texten unter Verwendung eines domäneninvarianten Faltungs-Neuronalen Netzwerks. In BioNLP@ACL (2016).

Lv, X., Guan, Y., Yang, J. & Wu, J. Extraktion klinischer Beziehungen mit Deep Learning. Int. J. Hybrid Inf. Technol. 9, 237–248 (2016).

Google Scholar

Chalapathy, R., Borzeshi, EZ & Piccardi, M. Bidirektionales lstm-crf für die Extraktion klinischer Konzepte. arXiv-Vorabdruck arXiv:1611.08373 (2016).

Javeed, A. Ein lstm-Modell zum Extrahieren hierarchischer Beziehungen zwischen Wörtern für eine bessere Themenmodellierung. J. Physik: Conf. Ser. 1780, 012019 (2021).

Google Scholar

Ratner, A. et al. Schnorchel: Schnelle Erstellung von Trainingsdaten mit schwacher Aufsicht. In Proceedings of the VLDB Endowment. Internationale Konferenz über sehr große Datenbanken, Bd. 11, 269 (NIH Public Access, 2017).

Ratner, A., Bach, SH, Ehrenberg, H., Fries, J. & Re, C. Schnorchel: Schnelle Trainingsdatenerstellung mit schwacher Aufsicht. Die VLDB J. 11, 269–282 (2017).

Google Scholar

Shen, Y., Tan, S., Sordoni, A. & Courville, AC Geordnete Neuronen: Integration von Baumstrukturen in wiederkehrende neuronale Netze. ArXiv abs/1810.09536 (2019).

Gao, T., Han, X., Xie, R., Liu, Z. & Sun, M. Neuronaler Schneeball für das Lernen von Beziehungen mit wenigen Schüssen. Proz. AAAI Conf. auf Artif. Intel. 34, 7772–7779 (2020).

Google Scholar

Mallory, EK et al. Mit Schnorchel chemische Reaktionen aus Text extrahieren. BMC Bioinforma. 21 (2020).

Fawcett, T. Eine Einführung in die Roc-Analyse. Mustererkennungsbriefe 27, 861–874 (2006).

Artikel ADS Google Scholar

Agichtein, E. & Gravano, L. Snowball: Extrahieren von Beziehungen aus großen Klartextsammlungen. In Proceedings of the five ACM Conference on Digital Libraries, 85–94 (2000).

Court, CJ & Cole, JM Automatisch generierte Materialdatenbank für Curie- und Neel-Temperaturen mittels halbüberwachter Beziehungsextraktion. Wissenschaft. Daten 5, 1–12 (2018).

Artikel Google Scholar

Devlin, J., Chang, M.-W., Lee, K. & Toutanova, K. Bert: Vortraining tiefer bidirektionaler Transformatoren für das Sprachverständnis. arXiv-Vorabdruck arXiv:1810.04805 (2018).

Yang, Z. et al. Xlnet: Generalisiertes autoregressives Vortraining für das Sprachverständnis. Adv. Neuronale Informationsverarbeitungssysteme 32 (2019).

Yan, R., Jiang, X. & Dang, D. Erkennung benannter Entitäten mithilfe von xlnet-bilstm-crf. Neuronaler Prozess. Lette. 53, 1–18 (2021).

Artikel Google Scholar

Ratner, A. et al. Schnorchel: Schnelle Erstellung von Trainingsdaten mit schwacher Aufsicht. Die VLDB J. 29, 709–730 (2020).

Artikel Google Scholar

Bach, SH, He, BD, Ratner, AJ & Re, C. Erlernen der Struktur generativer Modelle ohne gekennzeichnete Daten. Proz. Forschung zum maschinellen Lernen 70, 273–82 (2017).

Google Scholar

Ratner, A., De, SC, Wu, S., Selsam, D. & Re, C. Datenprogrammierung: Schnelle Erstellung großer Trainingssätze. Adv. Neuronale Informationsverarbeitungssysteme 29, 3567 (2016).

Google Scholar

Zaidan, O. & Eisner, J. Modellierung von Annotatoren: Ein generativer Ansatz zum Lernen aus Annotator-Grundsätzen. In Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, 31–40 (2008).

Gupta, S. & Manning, CD Verbessertes Musterlernen für die Bootstrapping-Entitätsextraktion. In Proceedings of the Eighteenth Conference on Computational Natural Language Learning, 98–108 (2014).

Hoffmann, R., Zhang, C., Ling, X., Zettlemoyer, L. & Weld, DS Wissensbasierte schwache Supervision zur Informationsextraktion überlappender Beziehungen. In ACL (2011).

Shatalova, OV, Mednikov, DA, Protasova, ZU & Stadnichenko, NS Vorhersage des Risikos kardiovaskulärer Komplikationen mit einem segmentierten Raum von Risikofaktoren und Synergiekanälen. J. Physik: Conf. Ser. 1679, 032042 (5 Seiten) (2020).

Google Scholar

Abadi, M. et al. {TensorFlow}: Ein System für {groß angelegtes} maschinelles Lernen. Im 12. USENIX-Symposium zum Design und zur Implementierung von Betriebssystemen (OSDI 16), 265–283 (2016).

Zaremba, W., Sutskever, I. & Vinyals, O. Rekurrente Regularisierung neuronaler Netze. arXiv-Vorabdruck arXiv:1409.2329 (2014).

Shi, X. et al. Faltungs-LSTM-Netzwerk: Ein maschineller Lernansatz für Niederschlags-Nowcasting. arXiv-Vorabdruck arXiv:1506.04214 (2015).

Referenzen herunterladen

DD und YS sind die entsprechenden Autoren dieses Artikels. Diese Forschung wird unterstützt vom National Key Research and Development Program of China unter Grant No. 61672102, Nr. 61073034, Nr. 61370064 und Nr. 60940032; die National Social Science Foundation of China unter der Fördernummer BCA150050; das Programm für herausragende Talente des neuen Jahrhunderts an der Universität des chinesischen Bildungsministeriums unter der Fördernummer NCET-10-0239; der Open Project Sponsor des Beijing Key Laboratory of Intelligent Communication Software and Multimedia unter der Fördernummer ITSM201493 und die Science Foundation des chinesischen Bildungsministeriums und der China Mobile Communicaions Corporation unter der Fördernummer MCM20130371. Besonderer Dank geht an meinen Freund Ye Tao, der mich bei der Einreichung der Arbeit angeleitet und mich ermutigt hat, das Manuskript immer wieder zu überarbeiten.

Schule für Künstliche Intelligenz, Beijing Normal University, Peking, 100875, China

Rongen Yan & Depeng Dang

Beijing Advanced Innovation Center for Materials Genome Engineering, Institut für fortgeschrittene Materialien und Technologie, Universität für Wissenschaft und Technologie Peking, Peking, 100083, China

Xue Jiang, Weiren Wang & Yanjing Su

Kollaboratives Innovationszentrum für Stahltechnologie, Universität für Wissenschaft und Technologie Peking, Peking, 100083, China

Xue Jiang

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Die ursprüngliche Idee wurde von RY und DD vorgebracht und mit XJ und YS diskutiert. Die Originaldaten werden von XJ, WW und YS bereitgestellt. Alle Autoren beteiligten sich an der Diskussion, Analyse, dem Verfassen und Lesen des Papiers. DD und YS leiteten und leiteten das Projekt.

Korrespondenz mit Depeng Dang oder Yanjing Su.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht durch gesetzliche Vorschriften zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Yan, R., Jiang, X., Wang, W. et al. Extraktion von Materialinformationen über automatisch generiertes Korpus. Sci Data 9, 401 (2022). https://doi.org/10.1038/s41597-022-01492-2

Zitat herunterladen

Eingegangen: 09. März 2022

Angenommen: 28. Juni 2022

Veröffentlicht: 13. Juli 2022

DOI: https://doi.org/10.1038/s41597-022-01492-2

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt