Was ist Datenkennzeichnung?  (Definition, Beispiele)

Nachricht

HeimHeim / Nachricht / Was ist Datenkennzeichnung? (Definition, Beispiele)

Oct 26, 2023

Was ist Datenkennzeichnung? (Definition, Beispiele)

Unter Datenkennzeichnung versteht man die Praxis, Rohdatenelemente zu identifizieren, die bereitgestellt werden sollen

Unter Datenkennzeichnung versteht man die Praxis, Rohdatenelemente zu identifizieren, um ihnen eine Bedeutung zu geben, damit ein maschinelles Lernmodell diese Daten nutzen kann. Nehmen wir an, unsere Rohdaten sind ein Bild von Tieren. In diesem Fall möchten Sie alle verschiedenen Tiere für das Modell beschriften, einschließlich Vögel, Pferde und Kaninchen. Ohne geeignete Beschriftungen weiß das maschinelle Lernmodell nicht, welche unterschiedlichen Datentypen im Bild enthalten sind.

Die Datenkennzeichnung ist ein wesentlicher Schritt vor dem Training oder der Verwendung eines maschinellen Lernmodells. Es ist an vielen Anwendungen beteiligt, beispielsweise an Computer Vision, Natural Language Processing (NLP) sowie Bild- und Spracherkennung.

Mehr von Sara A. MetwalliWas ist Datenvalidierung?

Es gibt zwei Hauptkategorien von Algorithmen für maschinelles Lernen: überwacht und unüberwacht.

Bei überwachten Algorithmen für maschinelles Lernen müssen wir dem Algorithmus beschriftete Daten zur Verfügung stellen, damit er lernen kann, und das Gelernte dann auf neue Daten anwenden. Je genauer die gekennzeichneten Daten sind, desto besser sind die Ergebnisse des Algorithmus. In den meisten Fällen beginnt die Datenkennzeichnung damit, dass eine Person (oft als „Kennzeichner“ bezeichnet) einige Entscheidungen zu unbeschrifteten Daten trifft, damit der Algorithmus lernen kann.

Nehmen wir an, wir möchten, dass unser Algorithmus Bäume identifiziert. Um das Modell zu trainieren, werden dem Labeler möglicherweise zunächst Bilder präsentiert und er muss mit „wahr“ oder „falsch“ antworten und angeben, ob das Bild einen Baum enthält. Der Algorithmus verwendet diese Entscheidungen dann, um das Bildmuster zu identifizieren, zu lernen, was ein Baum ist, und anhand dieser Entscheidungen dann vorherzusagen, ob zukünftige Bilder Bäume enthalten.

Da die Datenkennzeichnung für die Entwicklung eines guten Modells für maschinelles Lernen von entscheidender Bedeutung ist, nehmen Unternehmen und Entwickler sie sehr ernst. Allerdings kann die Datenkennzeichnung zeitaufwändig sein, weshalb einige Unternehmen den Prozess möglicherweise mithilfe eines Tools oder einer Dienstleistung auslagern oder automatisieren.

Wir können verschiedene Ansätze zur Kennzeichnung von Daten verwenden; Die Entscheidung zwischen diesen Ansätzen hängt von der Größe Ihrer Daten, dem Umfang des Projekts und der Zeit ab, die Sie für die Fertigstellung benötigen. Eine Möglichkeit, verschiedene Kennzeichnungsmethoden zu kategorisieren, besteht darin, ob ein Mensch oder ein Computer die Kennzeichnung vornimmt. Wenn Menschen die Kennzeichnung vornehmen, kann sie eine von drei Formen annehmen.

Dieser Ansatz wird in großen Unternehmen mit vielen erfahrenen Datenwissenschaftlern verwendet, die an der Kennzeichnung der Daten arbeiten können. Die interne Etikettierung ist sicherer und genauer als die Auslagerung, da sie intern erfolgt, ohne dass die Daten an einen externen Auftragnehmer oder Lieferanten gesendet werden. Dieser Ansatz schützt Ihre Daten vor dem Verlust oder Missbrauch, wenn der Outsourcing-Agent unzuverlässig ist.

Diese Option kann die richtige Wahl für große Projekte auf hohem Niveau sein, die mehr Ressourcen erfordern, als das Unternehmen entbehren kann. Allerdings ist die Verwaltung eines freiberuflichen Arbeitsablaufs erforderlich, was kostspielig und zeitaufwändig sein kann, da Unternehmen in solchen Fällen verschiedene Teams einstellen, die parallel arbeiten, um die Arbeit pünktlich zu erledigen. Um den Fluss und die Qualität der Arbeit aufrechtzuerhalten, müssen alle Teams bei der Bereitstellung der Ergebnisse einen ähnlichen Ansatz verfolgen. Andernfalls ist mehr Aufwand erforderlich, um die Ergebnisse in das gleiche Format zu bringen.

Bei diesem Ansatz nutzt das Unternehmen oder der Entwickler einen Dienst, um die Daten schnell und zu geringeren Kosten zu kennzeichnen. Eine der bekanntesten Crowdsourcing-Plattformen ist reCAPTCHA, die grundsätzlich CAPTCHA generiert und Benutzer auffordert, die Daten zu kennzeichnen. Anschließend vergleicht das Programm die Ergebnisse verschiedener Benutzer und generiert beschriftete Daten.

Wenn wir die Etikettierung jedoch automatisieren und dafür einen Computer verwenden möchten, können wir eine von zwei Methoden verwenden.

Bei diesem Ansatz generieren wir synthetische Daten unter Verwendung der Originaldaten, um die Qualität des Etikettierungsprozesses zu verbessern. Dieser Ansatz führt zwar zu besseren Ergebnissen als programmatisches Labeling, erfordert jedoch viel Rechenleistung, da Sie mehr Leistung benötigen, um mehr Daten zu generieren. Dieser Ansatz ist eine gute Wahl, wenn das Unternehmen über einen Supercomputer oder einen Computer verfügt, der große Datenmengen in angemessener Zeit verarbeiten und generieren kann.

Um Rechenleistung zu sparen, verwendet dieser Ansatz ein Skript, um den Kennzeichnungsprozess durchzuführen, anstatt mehr Daten zu generieren. Allerdings erfordert die programmatische Kennzeichnung oft eine gewisse menschliche Anmerkung, um die Qualität der Kennzeichnung zu gewährleisten.

Mehr von den Experten für maschinelles Lernen von Built InPolynomiale Regression: Eine Einführung

Durch die Datenkennzeichnung erhalten Benutzer, Teams und Unternehmen ein besseres Verständnis der Daten und ihrer Verwendung. Die Datenkennzeichnung bietet vor allem eine Möglichkeit, präzisere Vorhersagen zu treffen und die Datenverwendbarkeit zu verbessern.

Eine genaue Datenkennzeichnung gewährleistet eine bessere Qualitätssicherung innerhalb von Algorithmen für maschinelles Lernen als die Verwendung unbeschrifteter Daten. Dies bedeutet, dass Ihr Modell auf Daten höherer Qualität trainiert und die erwartete Ausgabe liefert. Richtig gekennzeichnete Daten liefern die Grundwahrheit (d. h. wie Etiketten reale Szenarien widerspiegeln) zum Testen und Iterieren nachfolgender Modelle.

Datenkennzeichnung kann auch die Nutzbarkeit von Datenvariablen innerhalb eines Modells verbessern. Beispielsweise könnten Sie eine kategoriale Variable als binär umklassifizieren, um sie für ein Modell besser nutzbar zu machen. Durch das Aggregieren von Daten kann das Modell optimiert werden, indem die Anzahl der Modellvariablen reduziert oder die Einbeziehung von Kontrollvariablen ermöglicht wird. Unabhängig davon, ob Sie Daten zur Erstellung eines Computer-Vision- oder NLP-Modells verwenden, sollte die Verwendung hochwertiger Daten für Sie oberste Priorität haben.

Die Datenkennzeichnung ist teuer, zeitaufwändig und anfällig für menschliche Fehler.

Während die Datenkennzeichnung für Modelle des maschinellen Lernens von entscheidender Bedeutung ist, kann sie sowohl aus Ressourcen- als auch aus Zeitgründen kostspielig sein. Angenommen, ein Unternehmen verfolgt einen stärker automatisierten Ansatz. In diesem Fall müssen die Ingenieurteams vor der Datenverarbeitung immer noch Datenpipelines einrichten. Eine manuelle Etikettierung ist fast immer teuer und zeitaufwändig.

Diese Kennzeichnungsansätze unterliegen auch menschlichen Fehlern (z. B. Codierungsfehlern, Fehlern bei der manuellen Eingabe), die die Datenqualität beeinträchtigen können. Schon kleine Fehler führen zu ungenauer Datenverarbeitung und -modellierung. Qualitätssicherungsprüfungen sind für die Aufrechterhaltung der Datenqualität unerlässlich.

Unabhängig davon, welchen Etikettierungsansatz Sie für Ihr Datenetikettierungsprojekt wählen, gibt es eine Reihe bewährter Methoden, um die Genauigkeit und Effizienz Ihres Datenetikettierungsprozesses zu verbessern. Beispielsweise erstellen wir Modelle für maschinelles Lernen unter Verwendung großer Mengen hochwertiger Trainingsdaten, was teuer und zeitaufwändig ist. Um bessere Trainingsdaten zu entwickeln, können wir eine oder mehrere der folgenden Methoden verwenden:

Es gibt viele Online-Tools und Softwarepakete, mit denen Sie Daten mit einem der oben genannten Ansätze kennzeichnen können.

Labeler-Konsens Label-Auditing Aktives Lernen