Warum Daten die größte Herausforderung für maschinelle Lernprojekte bleiben

Nachricht

HeimHeim / Nachricht / Warum Daten die größte Herausforderung für maschinelle Lernprojekte bleiben

Nov 04, 2023

Warum Daten die größte Herausforderung für maschinelle Lernprojekte bleiben

Treffen Sie vom 11. bis 12. Juli Top-Führungskräfte in San Francisco, um zu erfahren, wie Führungskräfte sind

Treffen Sie vom 11. bis 12. Juli Top-Führungskräfte in San Francisco, um zu erfahren, wie Führungskräfte KI-Investitionen integrieren und optimieren, um erfolgreich zu sein. Erfahren Sie mehr

Qualitätsdaten sind das Herzstück des Erfolgs der künstlichen Intelligenz (KI) in Unternehmen. Und dementsprechend bleibt es die Hauptherausforderung für Unternehmen, die maschinelles Lernen (ML) in ihren Anwendungen und Abläufen anwenden möchten.

Laut dem neuesten State of AI Report von Appen hat die Branche beeindruckende Fortschritte dabei gemacht, Unternehmen dabei zu helfen, die Hürden bei der Beschaffung und Aufbereitung ihrer Daten zu überwinden. Aber es gibt noch viel mehr zu tun auf verschiedenen Ebenen, einschließlich der Organisationsstruktur und der Unternehmensrichtlinien.

Der KI-Lebenszyklus eines Unternehmens kann in vier Phasen unterteilt werden: Datenbeschaffung, Datenvorbereitung, Modelltests und -bereitstellung sowie Modellbewertung.

Fortschritte in der Datenverarbeitung und bei ML-Tools haben dazu beigetragen, Aufgaben wie das Training und Testen verschiedener ML-Modelle zu automatisieren und zu beschleunigen. Cloud-Computing-Plattformen ermöglichen es, Dutzende verschiedener Modelle unterschiedlicher Größe und Struktur gleichzeitig zu trainieren und zu testen. Da jedoch die Anzahl und Größe der Modelle für maschinelles Lernen zunimmt, werden sie mehr Trainingsdaten benötigen.

Transformation 2023

Besuchen Sie uns vom 11. bis 12. Juli in San Francisco, wo Top-Führungskräfte erzählen, wie sie KI-Investitionen erfolgreich integriert und optimiert und häufige Fallstricke vermieden haben.

Leider erfordert die Beschaffung von Trainingsdaten und das Kommentieren immer noch einen erheblichen manuellen Aufwand und ist weitgehend anwendungsspezifisch. Laut Appens Bericht „mangelt es an ausreichenden Daten für einen bestimmten Anwendungsfall, neue Techniken des maschinellen Lernens erfordern größere Datenmengen oder Teams verfügen nicht über die richtigen Prozesse, um die benötigten Daten einfach und effizient zu erhalten.“

„Für eine genaue Modellleistung sind hochwertige Trainingsdaten erforderlich; und große, umfassende Datensätze sind teuer“, sagte Sujatha Sagiraju, Chief Product Officer von Appen, gegenüber VentureBeat. „Es ist jedoch wichtig zu beachten, dass wertvolle KI-Daten die Chancen erhöhen können, dass Ihr Projekt vom Pilotprojekt in die Produktion übergeht; daher sind die Kosten erforderlich.“

ML-Teams können mit vorab gekennzeichneten Datensätzen beginnen, müssen jedoch irgendwann ihre eigenen benutzerdefinierten Daten sammeln und kennzeichnen, um ihre Bemühungen zu skalieren. Je nach Anwendung kann die Etikettierung extrem teuer und arbeitsintensiv werden.

In vielen Fällen verfügen Unternehmen über genügend Daten, können aber mit Qualitätsproblemen nicht umgehen. Verzerrte, falsch gekennzeichnete, inkonsistente oder unvollständige Daten verringern die Qualität von ML-Modellen, was wiederum den ROI von KI-Initiativen beeinträchtigt.

„Wenn Sie ML-Modelle mit schlechten Daten trainieren, werden die Modellvorhersagen ungenau sein“, sagte Sagiraju. „Um sicherzustellen, dass ihre KI in realen Szenarien gut funktioniert, müssen Teams in ihrem Trainingskit eine Mischung aus hochwertigen Datensätzen, synthetischen Daten und Human-in-the-Loop-Bewertungen haben.“

Laut Appen betrachten Unternehmensleiter die Datenbeschaffung und -aufbereitung viel seltener als technisches Personal als die größten Herausforderungen ihrer KI-Initiativen. „Es bestehen immer noch Lücken zwischen Technologen und Unternehmensleitern, wenn es darum geht, die größten Engpässe bei der Implementierung von Daten für den KI-Lebenszyklus zu verstehen. Dies führt zu einer Fehlausrichtung von Prioritäten und Budget innerhalb der Organisation“, heißt es im Appen-Bericht.

„Wir wissen, dass einige der größten Engpässe für KI-Initiativen im Mangel an technischen Ressourcen und der mangelnden Zustimmung der Führungskräfte liegen“, sagte Sagiraju. „Wenn man sich diese Kategorien ansieht, sieht man, dass die Datenwissenschaftler, Ingenieure für maschinelles Lernen, Softwareentwickler und Führungskräfte über verschiedene Bereiche verteilt sind, sodass es nicht schwer ist, sich einen Mangel an abgestimmten Strategien aufgrund widersprüchlicher Prioritäten zwischen den verschiedenen Teams vorzustellen.“ innerhalb der Organisation."

Die Vielfalt der an KI-Initiativen beteiligten Personen und Rollen macht es schwierig, diese Ausrichtung zu erreichen. Von den Entwicklern, die die Daten verwalten, über die Datenwissenschaftler, die sich mit Problemen vor Ort befassen, bis hin zu den Führungskräften, die strategische Geschäftsentscheidungen treffen, alle haben unterschiedliche Ziele vor Augen und daher unterschiedliche Prioritäten und Budgets.

Allerdings sieht Sagiraju, dass die Kluft von Jahr zu Jahr kleiner wird, wenn es darum geht, die Herausforderungen der KI zu verstehen. Und das liegt daran, dass Unternehmen die Bedeutung hochwertiger Daten für den Erfolg von KI-Initiativen besser verstehen.

„Die Betonung, wie wichtig Daten – insbesondere qualitativ hochwertige Daten, die mit Anwendungsszenarien übereinstimmen – für den Erfolg eines KI-Modells sind, hat Teams zusammengebracht, um diese Herausforderungen zu lösen“, sagte Sagiraju.

Datenherausforderungen sind im Bereich des angewandten ML nichts Neues. Doch da ML-Modelle immer größer werden und Daten immer umfangreicher verfügbar werden, müssen skalierbare Lösungen für die Zusammenstellung hochwertiger Trainingsdaten gefunden werden.

Glücklicherweise gibt es einige Trends, die Unternehmen dabei helfen, einige dieser Herausforderungen zu meistern, und der KI-Bericht von Appen zeigt, dass die durchschnittliche Zeit, die für die Verwaltung und Aufbereitung von Daten aufgewendet wird, tendenziell sinkt.

Ein Beispiel ist die automatisierte Etikettierung. Beispielsweise erfordern Objekterkennungsmodelle die Angabe der Begrenzungsrahmen jedes Objekts in den Trainingsbeispielen, was einen erheblichen manuellen Aufwand erfordert. Automatisierte und halbautomatische Beschriftungstools verwenden ein Deep-Learning-Modell, um die Trainingsbeispiele zu verarbeiten und die Begrenzungsrahmen vorherzusagen. Die automatisierten Etiketten sind nicht perfekt und ein menschlicher Etikettierer muss sie überprüfen und anpassen, aber sie beschleunigen den Prozess erheblich. Darüber hinaus kann das automatisierte Etikettiersystem weiter trainiert und verbessert werden, da es Feedback von menschlichen Etikettierern erhält.

„Während viele Teams damit beginnen, ihre Datensätze manuell zu kennzeichnen, greifen immer mehr auf zeitsparende Methoden zurück, um den Prozess teilweise zu automatisieren“, sagte Sagiraju.

Gleichzeitig gibt es einen wachsenden Markt für synthetische Daten. Unternehmen nutzen künstlich generierte Daten, um die Daten, die sie aus der realen Welt sammeln, zu ergänzen. Synthetische Daten sind besonders nützlich bei Anwendungen, bei denen die Beschaffung realer Daten kostspielig oder gefährlich ist. Ein Beispiel sind Unternehmen für selbstfahrende Autos, die bei der Beschaffung von Daten von realen Straßen vor regulatorischen, sicherheitstechnischen und rechtlichen Herausforderungen stehen.

„Selbstfahrende Autos benötigen unglaubliche Datenmengen, um auf der Straße sicher und auf alles vorbereitet zu sein, aber einige der komplexeren Daten sind nicht ohne weiteres verfügbar“, sagte Sagiraju. „Synthetische Daten ermöglichen es Praktikern, Grenzfälle oder gefährliche Szenarien wie Unfälle, kreuzende Fußgänger und Einsatzfahrzeuge zu berücksichtigen, um ihre KI-Modelle effektiv zu trainieren. Synthetische Daten können Instanzen zum Trainieren von Daten erstellen, wenn nicht genügend von Menschen stammende Daten vorhanden sind. Dies ist von entscheidender Bedeutung.“ die Lücken füllen."

Gleichzeitig hilft die Entwicklung des MLops-Marktes Unternehmen dabei, viele Herausforderungen der Machine-Learning-Pipeline zu bewältigen, darunter die Kennzeichnung und Versionierung von Datensätzen; Trainieren, Testen und Vergleichen verschiedener ML-Modelle; Modelle im großen Maßstab einsetzen und deren Leistung verfolgen; und das Sammeln neuer Daten und das Aktualisieren der Modelle im Laufe der Zeit.

Da ML in Unternehmen jedoch eine größere Rolle spielt, wird die menschliche Kontrolle immer wichtiger.

„Human-in-the-Loop (HITL)-Bewertungen sind unerlässlich, um genaue, relevante Informationen zu liefern und Verzerrungen zu vermeiden“, sagte Sagiraju. „Obwohl viele glauben, dass Menschen bei der KI-Ausbildung tatsächlich in den Hintergrund treten, denke ich, dass wir einen Trend zu mehr HITL-Bewertungen sehen werden, um verantwortungsvolle KI zu stärken und mehr Transparenz darüber zu haben, was Organisationen in ihre Modelle investieren, um Modelle sicherzustellen.“ in der realen Welt gute Leistungen erbringen.

Die Mission von VentureBeat soll ein digitaler Stadtplatz für technische Entscheidungsträger sein, um sich Wissen über transformative Unternehmenstechnologie anzueignen und Transaktionen durchzuführen. Entdecken Sie unsere Briefings.

Die Mission von VentureBeat