Nov 02, 2023
Eine Einführung in die automatisierte Datenkennzeichnung
Hinweis: Vielen Dank an Superb AI für den Gedankenführungs-/Bildungsartikel oben.
Hinweis: Vielen Dank an Superb AI für den Gedankenführungs-/Bildungsartikel oben. Superb AI hat diesen Inhalt unterstützt und gesponsert.
Künstliche Intelligenz hat im letzten Jahrzehnt große Wellen geschlagen und Fortschritte zeigen sich in alltäglichen Anwendungen. Doch um dorthin zu gelangen, bedarf es einer Menge Daten, und das Kuratieren dieser Daten und ihre Umsetzung in die Tat erfordert viel Arbeit. ML-Experten haben ihr Augenmerk auf die automatisierte Datenkennzeichnung gerichtet, um ML-Modelle schneller in reale Anwendungen zu implementieren, und es ist leicht zu verstehen, warum. Jeder ML-Praktiker weiß, dass ein erfolgreiches Modell Tausende von Datenetiketten erfordert. Dies manuell zu erledigen bedeutet, Tausende von Arbeitsstunden zu investieren, die Strategie zu optimieren und jeden Schritt im Prozess zu überwachen. Für die meisten Praktiker ist die automatisierte Datenkennzeichnung eine Selbstverständlichkeit.
Bei der Datenkennzeichnung in der Pipeline für maschinelles Lernen kommt es bekanntermaßen zu großen Engpässen und Verlangsamungen. Es erfordert ein umfangreiches Team, die wichtigen Objekte in jedem Bild individuell mit Anmerkungen zu versehen, was manchmal sehr detailliert und zeitaufwändig sein kann. Bei der Leitung eines Teams von Etikettierern muss häufig sichergestellt werden, dass jede Person bei jedem Bild dem gleichen einheitlichen Muster folgt, da etwaige Unterschiede das Modell verwirren können. Darüber hinaus ist die Einstellung eines Teams interner Datenetikettierer sehr kostspielig und die Auslagerung führt zu Missverständnissen und Fehlern. Wenn Sie es bis jetzt noch nicht gesammelt haben, ist die manuelle Datenkennzeichnung mühsam. Und bei jedem Schritt muss die Datenanmerkung von QS-Fachleuten überwacht und Fehler korrigiert werden.
Das Hinzufügen von Automatisierung zu Ihrem maschinellen Lernprojekt wirkt vielen der oben beschriebenen Probleme entgegen. Auch wenn kein Projekt völlig ohne den Einfluss des Menschen auskommt, senkt die Minimierung dieses Bedarfs die Kosten, minimiert Fehler, macht Outsourcing überflüssig und sorgt für einen schnelleren End-to-End-Betrieb. Die Einführung von Automatisierung in Ihren Arbeitsablauf beseitigt den Engpass, der ML-Experten seit der Einführung der künstlichen Intelligenz plagt.
Automatisierung ist für bestimmte Projekte sinnvoller als für andere. Beim Training eines Modells, das auf Abertausenden von Datenbildern basiert, ist es fast unmöglich, nicht zu automatisieren. Die alleinige Verwendung von Menschen führt zu Verlangsamungen und Fehlern. Je detaillierter Ihr Projekt also ist, desto hilfreicher ist die Automatisierung. Darüber hinaus gehen bestimmte Arten von Etikettierungsprojekten mit der Automatisierung einher, und die Umsetzung dieser Strategie funktioniert einfach.
Beim maschinellen Lernen sind Ihre Modelle nur so gut wie ihre realen Anwendungen. In vielen Fällen bedeutet das, sich an veränderte Umgebungen anzupassen und neuere Innovationen zu berücksichtigen. Vor diesem Hintergrund müssen ML-Anwender ihre Modelle ständig aktualisieren, damit sie weiterhin genaue Ergebnisse liefern. Selbstfahrende Autos sind ein Paradebeispiel für eine Anwendung, die einer kontinuierlichen Überarbeitung bedarf. Automodelle ändern sich, Straßenschilder werden aktualisiert und die gesamte Umgebung bleibt selten gleich. Wenn Sie Ihr Modell nicht aktualisieren, kann dies zu gefährlichen Fehlern oder Unfällen führen, die als Modellverfall bezeichnet werden.
Im Gegenteil, es gibt Beispiele, bei denen häufige Modellüberarbeitungen kaum oder gar keine Verbesserung der Modellleistung bewirken. Das Hinzufügen weiterer Daten zu einem Modell erfordert mehr Qualitätssicherung und Aufsicht sowie zusätzliche Schulungen. Manchmal lohnt es sich einfach nicht. Wenn sich Ihr Modell andererseits mit der Zeit verschlechtert, ist die Feinabstimmung eines Umschulungsplans Teil der Sicherstellung, dass die Leistung optimal bleibt. Wenn häufige Umschulungen Teil Ihres Projekts sind, ist eine automatisierte Etikettierung unerlässlich.
Darüber hinaus kann eine automatische Kennzeichnung programmiert werden, um Grenzfälle zu identifizieren und Konfidenzniveaus zu berechnen. Wenn Ihr Modell Bilder automatisch beschriftet, kann die Identifizierung derjenigen Bilder, bei denen es sich weniger sicher ist, viel Zeit im Qualitätssicherungsprozess einsparen. Das Unsicherheitsschätzungstool von Superb AI leistet beispielsweise genau dies. Es identifiziert fehleranfällige Grenzfälle und markiert sie, damit sie von einem Menschen überprüft werden können. Dadurch wird der erforderliche menschliche Eingriff reduziert, ohne ihn ganz zu beseitigen.
Automatisierte Beschriftung scheint möglicherweise die beste Option zu sein, wenn sie für Ihren Projekttyp verfügbar ist, und die gute Nachricht ist, dass dies wahrscheinlich der Fall ist. Es gibt eine Vielzahl von Annotationstechniken, die mit einem programmatischen Ansatz einhergehen, die wir im Folgenden aufschlüsseln:
Die am wenigsten aufwändige Form der Kennzeichnung ist bei vielen Initiativen die Bildklassifizierung. Annotatoren richten ihre Projekte so ein, dass sie aus einer Vielzahl von Tags zur Beschreibung ihrer Daten auswählen können. Die Klassifizierung selbst erfordert die Auswahl einer Bezeichnung aus einer Dropdown-Liste. Es gibt kein Zeichnen oder Umreißen von Objekten mit der Maus. Die Klassifizierung kann als Ergänzung zu anderen Annotationsprojekten oder als eigenständige Lösung verwendet werden. Sobald die Grundwahrheit eines Modells erstellt ist, kann Automatisierung hinzugefügt werden, um die Objekte in nicht klassifizierten Daten zu identifizieren.
Begrenzungsrahmen sind ebenfalls ein einfacher Anmerkungstyp, aber das bedeutet nicht, dass sie für viele Anwendungen nicht sehr effektiv sind. Hier klickt und zieht ein Annotator einfach mit der Maus, bis sich eine Kastenform um die zu beschriftenden Objekte bildet. Annotatoren sollten darauf achten, alle Aspekte ihrer beschrifteten Objekte einzubeziehen und zusätzlichen Platz zu vermeiden. Allein die Befolgung dieser beiden Regeln macht die Erstellung eines Ground-Truth-Datensatzes zu einer einfachen Aufgabe.
Das Segmentieren eines Bildes ist bei vielen Datenkennzeichnungsprojekten ein komplizierter, wenn auch notwendiger Ansatz. Die Segmentierung ist eine Kombination aus Lokalisierung und Klassifizierung und zielt darauf ab, einen präzisen Umriss bestimmter Objekte zu erstellen. Und dafür gibt es eine Reihe von Ansätzen. Schlüsselpunkte dienen beispielsweise dazu, Hauptpunkte eines Objekts zu verbinden, um einen Skelettumriss zu bilden. Andererseits umreißt die Polygonanmerkung das Bild als Ganzes. Polylinien zeichnen lineare Umrisse eines Objekts nach, beispielsweise eines Zebrastreifens, und die semantische Segmentierung zeichnet die Form jedes Objekts nach und unterteilt sie in Klassen. Im Detail unterscheidet die Instanzsegmentierung zwischen verschiedenen Typen desselben Objekts, z. B. verschiedenen Personen, anstatt sie zu einem Ganzen zu gruppieren. Jede dieser Etikettierungsstrategien erfordert viel Zeit. Das bedeutet, dass die Suche nach einem schnelleren Weg von entscheidender Bedeutung ist, um Ihr Modell schnell und effizient auf den Markt zu bringen.
Für viele Computer-Vision-Anwendungen ist Video eine wichtige Komponente. Beispielsweise ist die Überwachung mittlerweile in der Lage, verdächtige Aktivitäten wie Diebstahl zu erkennen. Um zu verstehen, wie Diebstahl aussieht, ist ein gut trainierter Computer-Vision-Algorithmus erforderlich. Das Problem? Videoaufnahmen enthalten viel mehr Details und Informationen als Bilder, daher ist die Kennzeichnung viel aufwändiger. Das Aufteilen jeder Datei in einzelne Frames ist mühsam, und das Isolieren nach Anwendbarkeit kann unzählige Stunden dauern. Daher kann es lebensrettend sein, die Grundwahrheit zu ermitteln und sie dann zu trainieren, um bestimmte Objekte und Personen schnell zu kennzeichnen.
Automatisierung ist für viele Szenarien und Teams gleichermaßen ideal, da sie den Modellerstellungsprozess rationalisiert und die Gesamtzeit verkürzt. Es gibt jedoch einige Fälle, in denen die programmatische Implementierung weniger effizient ist.
Der erste Teil der Datenkennzeichnung besteht darin, eine kleine Teilmenge von Daten zu kommentieren, mit denen Sie Ihr Modell trainieren. Dieser Teil basiert vollständig auf dem Eingreifen des Menschen in der Schleife, um sicherzustellen, dass die ursprünglichen Daten korrekt mit Anmerkungen versehen sind. Hier ist der Grund: Der Einstieg in die Automatisierung basiert auf vorab trainierten Datensätzen. In den meisten Fällen sind externe Daten hilfreich, aber nicht für jeden Anwendungsfall perfekt. Die Implementierung eines externen Datensatzes in Ihr Modell kann so sein, als würde man einen quadratischen Stift in ein rundes Loch stecken. Daher ist es besser, mit Ihren eigenen Daten zu arbeiten und den ersten Teil der Arbeit von Menschen erledigen zu lassen.
Darüber hinaus erfordert die Erstellung eines Ground-Truth-Datensatzes auch, dass jeder Fehler in dieser Phase korrigiert und in die nächste Phase der Kennzeichnung geleitet wird. Beim Zusammenstellen eines Modells muss man jedes Bild durchgehen und sicherstellen, dass die Beschriftungsgrenzen eng sind und die Beschriftungen korrekt ausgeführt werden. Wenn Sie Ihr Modell in der Anfangsphase der Automatisierung überlassen, werden einige der wichtigen Etiketten fehlen und die Voraussetzungen für ein ineffektives und ungenaues Modell geschaffen.
Darüber hinaus bringt die Arbeit mit proprietären Informationen eigene Hindernisse mit sich. Regulierte Branchen wie Medizin, Finanzen und Sicherheit stellen ein größeres Risiko dar, wenn sie nicht zumindest in der Anfangsphase von Menschen überwacht werden. Das Trainieren eines Modells zur Erkennung bestimmter Krebsarten sollte in der Anfangsphase der Erstellung einer Grundwahrheit am besten medizinischen Fachkräften überlassen werden. Bei Finanzwerten kann sich ein Verstoß gegen Ihr Modell als katastrophal erweisen, insbesondere bei Konten mit hohem Vermögen. Das Gleiche gilt für Regierungsmodelle. Ohne sorgfältige Überwachung dieser Modelle ist das Schadenspotenzial viel größer.
Einige Datensätze und Modelle sind komplexer als andere, was bedeutet, dass ein automatisiertes Modell bei einigen Beschriftungen wahrscheinlich die Marke verfehlt. Wenn es sich bei einem Modell hauptsächlich um Randfälle handelt, ist wahrscheinlich menschliches Eingreifen erforderlich. Die Automatisierung eines Modells, das mehr Kontrolle erfordert, ist höchst ineffizient und macht alle Vorteile zunichte. In anderen Fällen ersetzt die Verwendung von Menschen zur Qualitätssicherung von Bildern mit geringerem Konfidenzniveau die anfänglichen Vorhersagen eines Modells. Die Arbeit mit Kantenfällen erfordert einen feinen Kamm, der oft nicht durch Maschinen ersetzt werden kann.
In einer kurzen Antwort: wahrscheinlich. Automatisierung beschleunigt nachweislich den Etikettierungsprozess und hilft Praktikern des maschinellen Lernens, ihre Projekte zu beschleunigen. Anwendungen, die häufige Aktualisierungen erfordern, sind leichter zu überblicken, wenn manuelle Anmerkungen nicht berücksichtigt werden. In manchen Fällen, beispielsweise im medizinischen Bereich, kostet die manuelle Kennzeichnung wertvolle Zeit von Ärzten und Praktikern, die als einzige dazu qualifiziert sind, abnormale Wucherungen oder Krankheiten zu erkennen und daher ordnungsgemäß zu kennzeichnen. Dies sollte nur beim Erstellen Ihres Ground-Truth-Datensatzes und während des Qualitätssicherungsprozesses erforderlich sein. Dasselbe Prinzip gilt auch für andere Szenarien: Es macht einfach keinen Sinn, wertvolle Ressourcen wie Ingenieure zu leihen, um den manuellen Etikettierungsprozess zu überwachen.
Die Entscheidung, welchen Ansatz Sie bei der Etikettierung wählen, hängt vollständig von Ihrem Projekt und der Phase ab, in der Sie sich befinden. Wenn es darum geht, die Wahrheit zu ermitteln, ist die Automatisierung zunächst einfach, aber am Ende sind die Ergebnisse nicht hilfreich. Wenn Sie diese Abkürzung verwenden, sparen Sie letztendlich keine Zeit und erhalten lediglich ein ungenaues Modell. Andererseits verursachen komplizierte Segmentierungsaufgaben nur dann Kopfschmerzen, wenn sie manuell durchgeführt werden, und es ist eine einfache Lösung für weniger komplexe Projekte wie Begrenzungsrahmen. Automatisierung ist daher der Schlüssel zur Beschleunigung und Aktualisierung von maschinellen Lernprojekten.
Bei Superb AI sind wir darauf spezialisiert, Ihre maschinellen Lern- und Computer-Vision-Projekte zu automatisieren. Während wir unsere Fähigkeiten weiter ausbauen, werden Sie eine gut integrierte Kombination von Funktionen vorfinden, die den Datenkennzeichnungsprozess humanisiert und ihn gleichzeitig nahtlos und automatisch macht. Vereinbaren Sie noch heute einen Anruf mit unserem Vertriebsteam, um loszulegen. Abonnieren Sie außerdem unseren Newsletter, um über die neuesten Computer-Vision-Neuigkeiten und Produktveröffentlichungen auf dem Laufenden zu bleiben. Dieser Artikel wurde ursprünglich im Superb AI-Blog veröffentlicht.
Caroline Lasorsa ist Produktmarketing-Expertin bei Superb AI und hat ihren Sitz in Boston, Massachusetts. Sie ist eine begeisterte Leserin und Lernerin und hat ein großes Interesse an künstlicher Intelligenz für Anwendungsfälle in der Medizin und im Gesundheitswesen.