Datenkennzeichnung und KI-Revolution (2023)

Blog

HeimHeim / Blog / Datenkennzeichnung und KI-Revolution (2023)

Oct 30, 2023

Datenkennzeichnung und KI-Revolution (2023)

Was ist Datenkennzeichnung? Datenkennzeichnung wird für maschinelle Lernalgorithmen eingesetzt

Was ist Datenkennzeichnung?

Datenkennzeichnung wird für maschinelle Lernalgorithmen verwendet, um Objekte richtig zu identifizieren und zu verstehen. Gesichtserkennung, autonomes Fahren, Flugdrohnen, Robotik usw. sind alles Bereiche, in denen sich ML als unverzichtbar erwiesen hat. Visuelle (fotografische und filmische), akustische und Textdaten sind heute die Hauptkategorien, die bei der Datenerfassung und -kennzeichnung verwendet werden. Zwei Hauptfaktoren bestimmen die Wirksamkeit eines KI-Systems:

Die Datenkennzeichnung in ihrer einfachsten Form bringt dem System bei, Fahrzeuge zu erkennen, indem es Beispiele verschiedener Automobile bereitstellt, damit es die gemeinsamen Merkmale jedes einzelnen erlernen und Autos auf unbeschrifteten Fotos richtig identifizieren kann.

Wie funktioniert die Datenkennzeichnung?

Maschinelles Lernen (ML) und Deep Learning erfordern typischerweise riesige Datenmengen, um die Grundlage für zuverlässige Lernmuster zu schaffen. Die Daten, die sie für ihre Trainingssysteme sammeln, müssen gekennzeichnet werden, um das gewünschte Ergebnis zu erzielen.

Für die Merkmalserkennung verwendete Bezeichnungen sollten beschreibend, aussagekräftig und eindeutig sein, wenn der resultierende Algorithmus zuverlässig sein soll. Ein gut gekennzeichneter Datensatz bietet Überprüfbarkeit, die das ML-Modell nutzen kann, um die Präzision seiner Vorhersagen zu überprüfen und seine Methode zu verfeinern.

Genauigkeit und Präzision sind die Kennzeichen eines erstklassigen Algorithmus. Ein genauer Datensatz ist ein Datensatz, bei dem bestimmte Beschriftungen direkt aus den Originaldaten abgerufen werden können. In der Datenwissenschaft wird Qualität als der Grad definiert, in dem ein Datensatz insgesamt wahr ist.

Schlüssel zum Sieg

Systeme oder Maschinen, die Muster erkennen oder autonom funktionieren können, erfordern eine umfassende Schulung in Form hochwertiger, umfangreicher Daten. Das CDAO, bei dem Martell arbeitet, wurde im Dezember 2021 gegründet, um den Einsatz von KI und Datenanalysen durch das Verteidigungsministerium zu beschleunigen und zu erweitern. Nach Monaten der Konsolidierung des Joint AI Center, des Defence Digital Service, Advana und der Position des Chief Data Officer nahm das Büro im Juni endlich seinen Betrieb mit voller Kapazität auf.

Das Militär ist seit langem an künstlicher Intelligenz interessiert, um schneller bessere Urteile zu fällen und bisher unzugängliche Bereiche für eine Untersuchung zu erschließen, die kein Soldat, Seemann oder Mensch zu erkunden wagen würde.

Laut einer Studie des Government Accountability Office arbeitete das Verteidigungsministerium Anfang 2021 an mehr als 685 KI-Projekten. Einige dieser Programme betrafen wichtige militärische Systeme. Im vergangenen Monat beauftragte die Luftwaffe die Howard University mit der Leitung der Forschung zur taktischen Autonomie, einschließlich bemannter und unbemannter Teambildung, im Rahmen eines Fünfjahresvertrags über 90 Millionen US-Dollar.

Die datenzentrierte Methode hat ihre Nachteile. Insbesondere ist die modellzentrierte Strategie die einzige Wahl, wenn das Team knapp bei Kasse ist und man versucht, eine von Menschenhand vorgenommene Kennzeichnung zu vermeiden und ausschließlich einen bereits vorhandenen Datensatz zu verwenden. Mittlerweile gibt es zwei Möglichkeiten der Etikettierung: Sie können die Etikettierung intern durchführen, was sehr teuer und zeitaufwändig sein kann, oder sie auslagern, was manchmal ein Glücksspiel sein kann und normalerweise viel kostet. Synthetische Kennzeichnung ist ein weiterer Ansatz, der die Erstellung gefälschter Daten für ML beinhaltet, aber sie ist ressourcenintensiv und daher für viele kleinere Unternehmen unerreichbar. Daher kommen viele Gruppen zu dem Schluss, dass die datenzentrierte Strategie den erforderlichen Aufwand nicht wert ist, obwohl sie in Wirklichkeit besser informiert sein müssen.

Die datenzentrierte Strategie ist effektiv, aber nur, wenn man sich die Mühe macht, mit den Daten zu arbeiten. Die gute Nachricht ist, dass die Datenkennzeichnung dank Crowdsourcing-Techniken nicht teuer sein oder Monate dauern muss. Das Problem besteht jedoch darin, dass mehr Menschen über solche Verfahren informiert werden müssen, ganz zu schweigen davon, dass sie sich weiterentwickelt haben, um erfolgreich zu sein. Ungeachtet der Nachteile entscheiden sich der Studie zufolge über 80 % der ML-Anwender für den Inhouse-Weg. Und eine aktuelle Umfrage zeigt, dass diese Ärzte diese Technik nicht anwenden, weil sie sie anderen vorziehen; Sie nutzen es, weil sie es nicht besser wissen.

Etwas zusammenfassen

Der Zugang zu großen Mengen qualitativ hochwertiger, gekennzeichneter Daten ist immer noch ein großes Hindernis für die Weiterentwicklung der künstlichen Intelligenz. Ein Anstieg des Bedarfs an ordnungsgemäß gekennzeichneten Daten ist praktisch unvermeidlich, da die Bewegung mit Ng als Anführer an Fahrt gewinnt. Fortschrittliche KI-Experten überdenken daher die Klassifizierung ihrer Daten. Aufgrund der hohen Kosten und der begrenzten Skalierbarkeit der internen Etikettierung kann es sein, dass sie diese bald übersteigt und die Verwendung externer Quellen wie vorgefertigte Daten, Daten-Scraping oder die Herstellung von Verbindungen zu datenreichen Einheiten nicht mehr möglich ist. Die unterste Schlussfolgerung ist, dass qualitativ hochwertiger Input für den tatsächlichen Erfolg von KI-Initiativen unerlässlich ist. Und Genauigkeit, also eine korrekte Kennzeichnung, ist erforderlich, um die Datenqualität und damit auch die darauf basierenden Modelle zu verbessern.

Dhanshree Shenwai ist Informatikingenieur und verfügt über gute Erfahrung in FinTech-Unternehmen in den Bereichen Finanzen, Karten & Zahlungen und Bankwesen mit großem Interesse an Anwendungen von KI. Sie ist begeistert davon, neue Technologien und Fortschritte in der sich entwickelnden Welt von heute zu erforschen, um das Leben aller einfacher zu machen.

Was ist Datenkennzeichnung? Wie funktioniert die Datenkennzeichnung? Der Schlüssel zum Sieg. Um es zusammenzufassen