KI-Tag 2022: FSD vereinfacht

Blog

HeimHeim / Blog / KI-Tag 2022: FSD vereinfacht

Nov 18, 2023

KI-Tag 2022: FSD vereinfacht

Tesla hat heute Abend seine AI Day 2022-Veranstaltung in Palo Alto, Kalifornien, abgehalten.

Tesla veranstaltete heute Abend seine AI Day 2022-Veranstaltung in Palo Alto, Kalifornien, und ging ausführlich auf seine neuesten Entwicklungen in der Welt der KI ein. Ein Teil der Diskussion drehte sich um Full Self-Driving (FSD). Elon Musk warnte vor der Veranstaltung, dass es sehr technisch werden würde, und wurde nicht enttäuscht.

Hier werfen wir einen Blick auf den Abschnitt „Full Self Driving“ von Teslas AI Day 2022 und versuchen dabei, die Konzepte zu vereinfachen.

Tesla begann die Diskussion mit Zahlen. Tesla hat bisher 35 Releases mit 281 verschiedenen Trainingsmodellen erstellt. Die interessantere Zahl ist die Gesamtzahl der Pull-Anfragen (Gesamthäufigkeit, mit der Code zusammengeführt wurde) von 18.659.

FSD Beta hat insgesamt 4,8 Millionen Datensätze verwendet.

Tesla ging dann zu einem Flussdiagramm über, das zeigen würde, wie sie verschiedene Themen innerhalb des Full Self Driving-Segments des Tesla AI Day 2022 abdecken würden. Die Trainingsdaten, bei denen es sich um automatisch gekennzeichnete Daten, simulierte Daten oder von der Daten-Engine handeln kann, werden in verschiedene eingespeist Neuronale Netze, die in die Planung einfließen.

Die einzelnen Themen wurden später im Verlauf der Konferenz ausführlicher behandelt.

Bitte aktivieren Sie JavaScript

Dieses neuronale Netzwerk entscheidet über Dinge wie die Lückenkontrolle. Stellen Sie sich vor, Sie biegen an einer Kreuzung links ab. Da geht ein Fußgänger hinüber. Wann ist das Autofahren sicher? Stellen Sie sich Planung als das Treffen von Entscheidungen vor (dazu gehört noch viel mehr, aber wir werden es vereinfachen).

Tesla verwendet etwas, das sie „Interaktionssuche“ nennen. Es untersucht Fahrspuren, Belegung (was auf diesen Fahrspuren passiert) und andere sich bewegende Objekte. Die erste Schicht des neuronalen Netzwerks betrachtet die Fahrspur. Wie ist die Spur?

Anschließend verzweigt es (schaut auf) freie Samen (wer die Spur belegt) und verzweigt sich zu Interaktionen innerhalb der Spuren; Fußgänger oder Gegenstände.

Anschließend wird geplant, wie wahrscheinlich es ist, dass Sie eingreifen. Es finden Prüfungen statt, z. B.: Werden Sie in eine Kollision geraten? Gibt es Konflikte mit den Daten?

Dieses Netzwerk erkennt Bordsteine, Autos, Trümmer auf der Straße und gibt allgemeine Vorhersagen darüber, wohin sich die Dinge entwickeln. Anstatt nur ein einfaches Objektnetzwerk zu verwenden, erstellt dieses Netzwerk eine befahrbare Oberfläche; wo das Auto fahren kann.

Sie verwenden Kamerabilder mit Rohfotos, nicht Standard-RGB. Sie extrahieren die Merkmale aus dem Foto und erstellen ein 3D-Modul mit räumlichen Merkmalen. Anschließend durchläuft es eine „Entfaltung“, um eine endgültige Ausgabe zu erhalten. Tesla wollte eine Ausgabe mit höherer Auflösung, deshalb verwenden sie „Queryable Outputs“ und „NeRFs“, mit denen sie 3D-Umgebungen mit 2D-Bildern erstellen können.

Tesla verwendet auch automatisch gekennzeichnete Datensätze. Pro Sekunde nehmen sie 400.000 Videos auf. Mithilfe der benutzerdefinierten Pytorch-Erweiterung (äußerst beliebtes Framework für maschinelles Lernen) werden Daten zum Training vom Speicher zur GPU übertragen. (Ich kenne mich mit Hardware nicht so gut aus). Sie überprüfen mit der Grundwahrheit.

Sie müssen Vorhersagen verwenden, da man manchmal Dinge auf der anderen Seite der Kreuzung nicht sehen kann. Es gibt eine „Vision-Komponente“, die Eingabedaten bereitstellt. Tesla fügt dann eine Kartenkomponente hinzu. Es handelt sich um Straßenkartendaten mit topografischen Informationen. Sie stellten sicher, dass es sich nicht um HD Maps handelt; So wissen sie beispielsweise nicht im Voraus, wann die Fahrspur endet. Tesla fügt dann etwas hinzu, das als „Sprache“-Komponente bezeichnet wird. Es handelt sich um Spurpositionen im 3D-Raum. Die Sprachkomponente verfügt über ein Vorhersagegitter, das alle Spuren im gegebenen 3D-Raum abbildet. Es wird bis zum Ende des Abschnitts immer wieder wiederholt. Diese Spurvorhersage ist erforderlich, insbesondere da Sie und der Tesla die Straße möglicherweise nicht klar sehen. Sie brauchen Vorhersagen.

Tesla ist derzeit auf einen Kreuzungs-Cache von 500.000 pro Tag beschränkt (Datenspeichergrenzen). Sie wollen 1 Milliarde Kreuzungen erreichen. Offensichtlich geht die Rechnung zwischen ihrem Ziel und ihren Grenzen nicht auf. Sie verwenden jetzt „Rekonstruktion“, die besser skaliert und schneller beschriftet wird als der 2020-Ansatz. Für fast alle Aufgaben ihrer Planung nutzen sie automatische Etikettierer. Die Beschriftung erfolgt sogar automatisch bei unterschiedlichen Wetterbedingungen wie Dunkelheit, Regen oder Nebel.

Es gibt Situationen, in denen es schwierig ist, reale Daten zu erhalten. Hier kommen Simulationen zum Einsatz. Stellen Sie sich vor, es wäre so, als würden Sie eine Szene in einem Videospiel erstellen und diese Daten dann verwenden, um unklare Dinge zu beheben, die beim Autofahren passieren. Die Schritte, die Tesla zur Erstellung dieser Simulationen verwendet, sind:

Diese erfolgen alle automatisch und können in weniger als 5 Minuten eingerichtet werden. Es ermöglicht Tesla, Material auszutauschen oder den Standort zu ändern und so eine unendliche Anzahl von Szenen zu erstellen, um neue Bodenwahrheiten zu schaffen. Erstellen Sie neue Abläufe, um Vorhersagen zu treffen und Daten zu erstellen, die aus der realen Welt nicht abgeleitet werden können.

Beim Autofahren gibt es Herausforderungsfälle. Tesla kann mit Testvideos ein Evaluierungsset erstellen. Sie können spezifische Daten von Teslas Fahrten sammeln, die genau das treffen, woran sie gerade arbeiten. Dann trainieren, reparieren und testen.

Wenn Sie alle Details erfahren möchten, können Sie sich unten die Präsentation zum AI Day 2022 ansehen. Der Abschnitt über FSD beginnt bei der 58-Minuten-Marke.