Cleanlab geöffnet

Nachricht

HeimHeim / Nachricht / Cleanlab geöffnet

Oct 27, 2023

Cleanlab geöffnet

Beschriftete Daten sind für das Training überwachter Modelle für maschinelles Lernen unerlässlich, aber

Beschriftete Daten sind für das Training überwachter Modelle für maschinelles Lernen unerlässlich. Fehler von Datenannotatoren können sich jedoch auf die Genauigkeit des Modells auswirken. Es ist üblich, mehrere Anmerkungen pro Datenpunkt zu sammeln, um Anmerkungsfehler zu reduzieren und eine zuverlässigere Konsensbezeichnung zu erstellen. Dieser Ansatz kann jedoch kostspielig sein. Um das ML-Modell mit minimaler Datenkennzeichnung zu optimieren, ist es wichtig zu bestimmen, welche neuen Daten eine Kennzeichnung erfordern oder welche aktuellen Kennzeichnungen erneut überprüft werden müssen.

ActiveLab, eine kürzlich veröffentlichte Methode des aktiven Lernens, wurde als Open-Source-Tool zur Verfügung gestellt, um diesen Entscheidungsprozess zu unterstützen. ActiveLab hilft bei der Identifizierung der Daten, die eine Kennzeichnung oder Neukennzeichnung erfordern, um eine maximale Verbesserung des ML-Modells zu erreichen und gleichzeitig ein begrenztes Annotationsbudget einzuhalten. Mit ActiveLab generierte Trainingsdatensätze haben im Vergleich zu anderen aktiven Lerntechniken bei der Arbeit mit einer festen Anzahl von Anmerkungen bessere ML-Modelle hervorgebracht.

ActiveLab befasst sich mit der entscheidenden Frage, ob es vorteilhafter ist, eine zusätzliche Anmerkung für einen zuvor gekennzeichneten Datenpunkt zu erhalten oder eine völlig neue Instanz aus dem nicht gekennzeichneten Pool zu kennzeichnen. Die Antwort auf diese Frage hängt vom Grad des Vertrauens in die aktuellen Anmerkungen ab. In Fällen mit nur einer Anmerkung von einem unzuverlässigen Annotator oder zwei Anmerkungen mit widersprüchlichen Ergebnissen ist es entscheidend, durch Umbenennung eine andere Meinung einzuholen. Dieser Prozess gewinnt besonders an Bedeutung, wenn die negativen Folgen des Trainings eines Modells mit falsch gekennzeichneten Daten nicht durch bloße Kennzeichnung neuer Datenpunkte aus dem unbeschrifteten Pool behoben werden können.

Die Forscher begannen mit einem anfänglichen Trainingssatz von 500 beschrifteten Beispielen und trainierten ein Klassifikationsmodell für mehrere Runden, wobei sie nach jeder Iteration seine Testgenauigkeit grafisch darstellten. In jeder Runde wurden zusätzliche Anmerkungen für 100 Beispiele gesammelt, die entweder aus diesem Satz von 500 oder einem separaten Pool von 1500 zunächst unbeschrifteten Beispielen ausgewählt wurden. Um zu entscheiden, welche Daten als nächstes gekennzeichnet bzw. neu gekennzeichnet werden sollen, wurden verschiedene Methoden des aktiven Lernens eingesetzt. Die zufällige Auswahl wurde mit Good Random verglichen, bei dem die unbeschrifteten Daten zuerst priorisiert werden, sowie mit Entropy und Uncertainty, beliebten modellbasierten aktiven Lernmethoden. Es wurde auch ActiveLab verwendet, das auf Modellvorhersagen basiert, um abzuschätzen, wie informativ ein anderes Label für jedes Beispiel sein wird, und dabei zu berücksichtigen, wie viele Annotationen ein Beispiel bisher erhalten hat und deren Übereinstimmung sowie wie vertrauenswürdig jeder Annotator im Vergleich zu den trainierten insgesamt ist Modell. Ähnliche Ergebnisse wurden für andere Modelle und Bildklassifizierungsdatensätze gefunden, wie im Artikel der Forscher über die Entwicklung dieser Methode ausführlich beschrieben.

Besuche diePapierUndGithub. Alle Anerkennung für diese Forschung gebührt den Forschern dieses Projekts. Vergessen Sie auch nicht, mitzumachenunser 15k+ ML SubReddit,Discord-Kanal, UndE-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen.

Niharika ist Praktikantin im Bereich technische Beratung bei Marktechpost. Sie studiert im dritten Jahr und macht derzeit ihren B.Tech am Indian Institute of Technology (IIT) in Kharagpur. Sie ist eine äußerst enthusiastische Person mit großem Interesse an maschinellem Lernen, Datenwissenschaft und KI und eine begeisterte Leserin der neuesten Entwicklungen in diesen Bereichen.

Papier-Github. unser über 15.000 ML SubReddit Discord Channel E-Mail-Newsletter