Wie offen

Nachricht

HeimHeim / Nachricht / Wie offen

Nov 01, 2023

Wie offen

Treffen Sie vom 11. bis 12. Juli Top-Führungskräfte in San Francisco, um zu erfahren, wie Führungskräfte sind

Treffen Sie vom 11. bis 12. Juli Top-Führungskräfte in San Francisco, um zu erfahren, wie Führungskräfte KI-Investitionen integrieren und optimieren, um erfolgreich zu sein. Erfahren Sie mehr

Die Datenkennzeichnung ist einer der grundlegendsten Aspekte des maschinellen Lernens. Es ist auch oft ein Bereich, in dem Unternehmen Schwierigkeiten haben – sowohl bei der genauen Kategorisierung von Daten als auch bei der Reduzierung potenzieller Verzerrungen.

Bei der Datenkennzeichnungstechnologie wird ein Datensatz, der zum Trainieren eines Modells für maschinelles Lernen verwendet wird, zunächst analysiert und mit einem Etikett versehen, das eine Kategorie und eine Definition dessen bereitstellt, worum es bei den Daten eigentlich geht. Während die Datenkennzeichnung ein entscheidender Bestandteil des maschinellen Lernprozesses ist, hat sie sich in jüngster Zeit mehreren Studien zufolge auch als äußerst inkonsistent erwiesen. Der Bedarf an genauer Datenkennzeichnung hat zu einem geschäftigen Markt von Datenkennzeichnungsanbietern geführt.

Zu den beliebtesten Datenkennzeichnungstechnologien gehört das Open-Source-Label Studio, das vom in San Francisco ansässigen Startup Heartex unterstützt wird. Das neue Label Studio 1.6-Update, das heute veröffentlicht wird, bietet Benutzern neue Funktionen, die eine bessere Analyse und Kennzeichnung von Daten in Videos ermöglichen.

Laut Michael Malyuk, Mitbegründer und CEO von Heartex, besteht die Herausforderung für die meisten Unternehmen mit künstlicher Intelligenz (KI) darin, über gute Daten zu verfügen, mit denen sie arbeiten können.

Transformation 2023

Besuchen Sie uns vom 11. bis 12. Juli in San Francisco, wo Top-Führungskräfte erzählen, wie sie KI-Investitionen erfolgreich integriert und optimiert und häufige Fallstricke vermieden haben.

„Wir betrachten die Kennzeichnung als eine breitere Kategorie der Datensatzentwicklung und Label Studio ist eine Lösung, die es Ihnen letztendlich ermöglicht, jede Art von Datensatzentwicklung durchzuführen“, sagte Malyuk.

Während die Version 1.6 von Label Studio als wichtigste neue Funktion über eine Videoplayer-Funktion verfügt, betonte Malyuk, dass die Technologie für jede Art von Daten nützlich ist, einschließlich Text, Audio, Zeitreihen und Video.

Zu den größten Problemen bei jedem Etikettierungsansatz für alle Datentypen gehört die Definition der Kategorien, die für Datenetiketten verwendet werden.

„Manche Menschen können Dinge auf eine bestimmte Art und Weise benennen, andere auf eine andere Art und Weise, aber im Wesentlichen bedeuten sie dasselbe“, sagte Malyuk.

Er erklärte, dass Label Studio Taxonomien für Etiketten bereitstellt, aus denen Benutzer auswählen können, um ein Datenelement zu beschreiben, sei es eine Text-, Audio- oder Bilddatei. Wenn zwei oder mehr Personen in derselben Organisation dieselben Daten unterschiedlich kennzeichnen, erkennt das Label Studio-System den Konflikt, sodass er analysiert und behoben werden kann. Label Studio bietet sowohl ein manuelles Konfliktlösungssystem als auch einen automatisierten Ansatz.

Der Prozess der Datenkennzeichnung kann häufig manuelle Arbeit erfordern, bei der Menschen eine Kennzeichnung zuweisen oder überprüfen, ob eine Kennzeichnung korrekt ist.

Es gibt eine Reihe von Ansätzen zur Automatisierung des Prozesses. Das Startup Lightly AI verwendet ein selbstüberwachtes maschinelles Lernmodell, das in Label Studio integriert werden kann. Dann gibt es Anbieter, die eine Vektordatenbank verwenden, um Daten in Mathematik umzuwandeln, anstatt Daten mit Etiketten zu versehen, um Daten und ihre Beziehungen zu identifizieren.

Malyuk sagte, dass Vektordatenbanken durchaus ihren Nutzen haben und für Aufgaben wie Ähnlichkeitssuchen effektiv sein können. Das Problem besteht seiner Ansicht nach darin, dass der Vektoransatz bei unstrukturierten Datentypen wie Audio und Video nicht so effektiv ist. Er wies darauf hin, dass eine Vektordatenbank Identifikationstypen für gängige Objekte nutzen kann.

„Sobald man anfängt, von diesem Allgemeinwissen abzuweichen und sich auf etwas ein wenig anderes einzulassen, wird es ohne manuelle Kennzeichnung sehr kompliziert“, sagte Malyuk.

Voreingenommenheit in der KI ist eine ständige Herausforderung, die viele in der Branche zu bekämpfen versuchen. Die Grundlage des maschinellen Lernens sind die tatsächlichen Daten, und auch die Art und Weise, wie Daten gekennzeichnet werden, kann potenziell zu Verzerrungen führen. Voreingenommenheit kann beabsichtigt sein, sie kann aber auch umständlicher Natur sein.

„Wenn Sie einen sehr subjektiven Datensatz morgens vor dem Kaffee und dann noch einmal nach dem Kaffee kennzeichnen, erhalten Sie möglicherweise sehr unterschiedliche Antworten“, sagte Malyuk.

Obwohl es nicht immer möglich ist, sicherzustellen, dass Datenkennzeichnungsprozesse nur von Personen durchgeführt werden, die vollständig koffeinhaltig sind, gibt es Prozesse, die hilfreich sein können. Malyuk sagte, dass Label Studio auf Softwareseite eine Möglichkeit bietet, einen Prozess so aufzubauen, dass jeder seinen individuellen Beitrag leistet. Das System identifiziert und erstellt alle Matrizen, in denen es Personen einander zuordnet und wie sie dieselben Elemente kennzeichnen. Es handelt sich um einen Ansatz, der laut Malyuk möglicherweise Voreingenommenheit für eine bestimmte Bezeichnung identifizieren kann.

Die Open-Source-Label-Studio-Technologie soll von Einzelpersonen und kleinen Gruppen genutzt werden, während das kommerzielle Projekt Unternehmensfunktionen für größere Teams rund um Sicherheit, Zusammenarbeit und Skalierbarkeit bereitstellt.

„Bei Open Source konzentrieren wir uns auf den Benutzer und versuchen, das Leben des einzelnen Benutzers aus der Sicht der Kennzeichnung so einfach wie möglich zu machen“, sagte Malyuk. „Beim Unternehmen konzentrieren wir uns auf die Organisation und alle geschäftlichen Anforderungen.“

Die Mission von VentureBeat soll ein digitaler Stadtplatz für technische Entscheidungsträger sein, um sich Wissen über transformative Unternehmenstechnologie anzueignen und Transaktionen durchzuführen. Entdecken Sie unsere Briefings.

Die Mission von VentureBeat