Eindämmung des wachsenden Leistungsbedarfs des maschinellen Lernens

Nachricht

HeimHeim / Nachricht / Eindämmung des wachsenden Leistungsbedarfs des maschinellen Lernens

Sep 07, 2023

Eindämmung des wachsenden Leistungsbedarfs des maschinellen Lernens

Angesichts der wachsenden Besorgnis über den Energiebedarf großer Maschinen

Von

Angesichts der wachsenden Besorgnis über den Energiebedarf großer Modelle für maschinelles Lernen hat eine aktuelle Studie des MIT Lincoln Laboratory und der Northeastern University die Einsparungen untersucht, die durch leistungsbegrenzende GPUs beim Einsatz von Modelltraining und Inferenz sowie mehreren anderen erzielt werden können Techniken und Methoden zur Reduzierung des KI-Energieverbrauchs.

Die neue Arbeit fordert außerdem, dass neue KI-Papiere mit einer „Energieerklärung“ abschließen (ähnlich dem jüngsten Trend zu „ethischen Implikationserklärungen“ in Papieren aus dem Bereich der maschinellen Lernforschung).

Die wichtigste Schlussfolgerung aus der Arbeit ist, dass die Leistungsbegrenzung (Begrenzung der verfügbaren Leistung der GPU, die das Modell trainiert) wertvolle Energiesparvorteile bietet, insbesondere für Masked Language Modeling (MLM) und Frameworks wie BERT und seine Derivate.

Drei Sprachmodellierungsnetzwerke, die im Hinblick auf den Stromverbrauch mit einem Prozentsatz der Standardeinstellungen von 250 W (schwarze Linie) arbeiten. Die Beschränkung des Stromverbrauchs schränkt die Trainingseffizienz oder -genauigkeit nicht 1:1 ein und bietet Stromeinsparungen, die im großen Maßstab spürbar sind. Quelle: https://arxiv.org/pdf/2205.09646.pdf

Bei größeren Modellen, die in den letzten Jahren aufgrund von Hyperscale-Datensätzen und neuen Modellen mit Milliarden oder Billionen Parametern Aufmerksamkeit erregt haben, können ähnliche Einsparungen durch einen Kompromiss zwischen Trainingszeit und Energieverbrauch erzielt werden.

Trainieren Sie leistungsfähigere NLP-Modelle im großen Maßstab unter Leistungseinschränkungen. Die durchschnittliche relative Zeit unter einer 150-W-Obergrenze wird in Blau und der durchschnittliche relative Energieverbrauch für 150 W in Orange angezeigt.

Bei diesen höher angelegten Bereitstellungen stellten die Forscher fest, dass eine 150-W-Begrenzung der Stromnutzung zu einer durchschnittlichen Senkung des Energieverbrauchs um 13,7 % im Vergleich zum standardmäßigen 250-W-Maximum sowie zu einer relativ geringen Verlängerung der Trainingszeit um 6,8 % führte.

Darüber hinaus stellen die Forscher fest, dass trotz der Schlagzeilen über die Kosten für das Modelltraining in den letzten Jahren die Energiekosten für die tatsächliche Nutzung der trainierten Modelle weitaus höher sind*.

„Bei der Sprachmodellierung mit BERT ist der Energiegewinn durch Power-Capping bei der Durchführung von Inferenzen deutlich größer als beim Training.“ „Wenn dies auch für andere KI-Anwendungen gilt, könnte dies erhebliche Auswirkungen auf den Energieverbrauch großer oder Cloud-Computing-Plattformen haben, die Inferenzanwendungen für Forschung und Industrie bedienen.“

Darüber hinaus und vielleicht am kontroversesten schlägt das Papier vor, die umfassende Schulung von Modellen für maschinelles Lernen auf die kälteren Monate des Jahres und auf die Nacht zu verlagern, um Kühlkosten zu sparen.

Oben: PUE-Statistiken für jeden Tag des Jahres 2020 im Datenzentrum der Autoren, mit einem bemerkenswerten und anhaltenden Anstieg/Plateau in den Sommermonaten. Unten sehen Sie die durchschnittliche stündliche PUE-Schwankung für denselben Standort im Laufe einer Woche, wobei der Energieverbrauch zur Tagesmitte hin ansteigt, da sowohl die interne GPU-Kühlhardware als auch die Umgebungskühlung des Rechenzentrums Schwierigkeiten haben, eine brauchbare Temperatur aufrechtzuerhalten.

Die Autoren geben an:

„Offensichtlich sind hohe NLP-Aufgaben im Sommer typischerweise viel weniger effizient als solche, die im Winter ausgeführt werden.“ Angesichts der großen saisonalen Schwankungen gibt es rechenintensive Experimente, die auf kühlere Monate abgestimmt werden können. Diese Zeitplanung kann den CO2-Fußabdruck erheblich reduzieren.“

Das Papier erkennt auch die neuen Möglichkeiten zur Energieeinsparung an, die durch Bereinigung und Optimierung der Modellarchitektur und Arbeitsabläufe möglich sind – obwohl die Autoren die weitere Entwicklung dieses Weges anderen Initiativen überlassen.

Abschließend schlagen die Autoren vor, neue wissenschaftliche Arbeiten aus dem Bereich des maschinellen Lernens zu ermutigen oder möglicherweise einzuschränken, mit einer Erklärung zu schließen, in der der Energieverbrauch der in der Forschung durchgeführten Arbeit und die potenziellen Auswirkungen auf die Energie durch die Übernahme der in der Arbeit vorgeschlagenen Initiativen dargelegt werden .

Das Papier geht mit gutem Beispiel voran und erläutert die Energieimplikationen seiner eigenen Forschung.

Der Artikel trägt den Titel „Great Power, Great Responsibility: Recommendations for Reducing Energy for Training Language Models“ und stammt von sechs Forschern am MIT Lincoln und Northeastern.

Da die Rechenanforderungen für Modelle des maschinellen Lernens parallel zur Nützlichkeit der Ergebnisse gestiegen sind, setzt die aktuelle ML-Kultur den Energieverbrauch mit verbesserter Leistung gleich – trotz einiger namhafter Aktivisten wie Andrew Ng, die darauf hinweisen, dass die Datenkuratierung wichtiger sein könnte Faktor.

In einer wichtigen MIT-Zusammenarbeit aus dem Jahr 2020 wurde geschätzt, dass eine zehnfache Verbesserung der Modellleistung einen 10.000-fachen Anstieg der Rechenanforderungen und eine entsprechende Energiemenge mit sich bringt.

Infolgedessen hat die Forschung zu weniger energieintensivem, effektivem ML-Training in den letzten Jahren zugenommen. Nach Angaben der Autoren ist das neue Papier das erste, das sich eingehend mit den Auswirkungen von Leistungsbeschränkungen auf das Training und die Schlussfolgerung des maschinellen Lernens befasst, wobei der Schwerpunkt auf NLP-Frameworks (wie der GPT-Reihe) liegt.

Da die Qualität der Schlussfolgerung von größter Bedeutung ist, stellen die Autoren ihre Ergebnisse gleich zu Beginn dar:

„[Diese] Methode hat keinen Einfluss auf die Vorhersagen trainierter Modelle und folglich auf deren Leistungsgenauigkeit bei Aufgaben.“ Das heißt, wenn zwei Netzwerke mit derselben Struktur, denselben Anfangswerten und denselben Batch-Daten für die gleiche Anzahl von Batches unter unterschiedlichen Leistungsobergrenzen trainiert werden, sind ihre resultierenden Parameter identisch und nur die für ihre Erzeugung erforderliche Energie kann unterschiedlich sein.

Um die Auswirkungen von Power-Caps auf Training und Inferenz zu bewerten, verwendeten die Autoren das Befehlszeilendienstprogramm nvidia-smi (System Management Interface) zusammen mit einer MLM-Bibliothek von HuggingFace.

Die Autoren trainierten die Natural Language Processing-Modelle BERT, DistilBERT und Big Bird über MLM und überwachten deren Stromverbrauch beim Training und Einsatz.

Die Modelle wurden anhand des WikiText-103-Datensatzes von DeepAI für 4 Epochen in Achterchargen auf 16 V100-GPUs mit vier verschiedenen Leistungsobergrenzen trainiert: 100 W, 150 W, 200 W und 250 W (der Standard oder Basiswert für eine NVIDIA V100-GPU). . Die Modelle verfügten über Scratch-trainierte Parameter und zufällige Initialisierungswerte, um vergleichbare Trainingsauswertungen zu gewährleisten.

Wie im ersten Bild oben zu sehen ist, zeigen die Ergebnisse gute Energieeinsparungen bei nichtlinearen, günstigen Verlängerungen der Trainingszeit. Die Autoren geben an:

„Unsere Experimente zeigen, dass die Implementierung von Stromobergrenzen den Energieverbrauch auf Kosten der Trainingszeit deutlich reduzieren kann.“

Als nächstes wandten die Autoren dieselbe Methode auf ein anspruchsvolleres Szenario an: das Training von BERT mit MLM auf verteilten Konfigurationen über mehrere GPUs – ein typischerer Anwendungsfall für gut finanzierte und weithin bekannte FAANG-NLP-Modelle.

Der Hauptunterschied in diesem Experiment bestand darin, dass ein Modell zwischen 2 und 400 GPUs pro Trainingsinstanz verwenden konnte. Es wurden dieselben Einschränkungen für den Stromverbrauch angewendet und dieselbe Aufgabe verwendet (WikiText-103). Diagramme der Ergebnisse finden Sie im zweiten Bild oben.

In dem Papier heißt es:

„Im Durchschnitt aller Konfigurationsoptionen führte eine 150-W-Begrenzung des Stromverbrauchs zu einer durchschnittlichen Reduzierung des Energieverbrauchs um 13,7 % und einer Verlängerung der Trainingszeit um 6,8 % im Vergleich zum Standardmaximum.“ [Die] 100-W-Einstellung hat deutlich längere Trainingszeiten (durchschnittlich 31,4 % länger). „Eine 200-W-Grenze entspricht fast der gleichen Trainingszeit wie eine 250-W-Grenze, aber bescheidenere Energieeinsparungen als eine 150-W-Grenze.“

Die Autoren gehen davon aus, dass diese Ergebnisse eine Leistungsbegrenzung auf 150 W für GPU-Architekturen und die darauf ausgeführten Anwendungen unterstützen. Sie stellen außerdem fest, dass sich die erzielten Energieeinsparungen auf alle Hardwareplattformen übertragen lassen, und führten die Tests erneut durch, um die Ergebnisse für NVIDIA K80-, T4- und A100-GPUs zu vergleichen.

Einsparungen bei drei verschiedenen NVIDIA-GPUs.

Das Papier zitiert mehrere frühere Studien, die zeigen, dass trotz der Schlagzeilen die Schlussfolgerung (die Verwendung eines fertigen Modells, wie z. B. eines NLP-Modells) und nicht das Training die größte Wirkung entfaltet, was darauf hindeutet, dass populäre Modelle kommerzialisiert werden und Eingang in die Welt finden Im Mainstream könnte der Stromverbrauch in diesem noch jungen Stadium der NLP-Entwicklung zu einem größeren Problem werden, als es derzeit der Fall ist.

Daher haben die Forscher die Auswirkungen der Inferenz auf den Stromverbrauch gemessen und festgestellt, dass die Einführung von Stromobergrenzen einen bemerkenswerten Einfluss auf die Inferenzlatenz hat:

„Im Vergleich zu 250 W erforderte eine 100-W-Einstellung die doppelte Inferenzzeit (eine Steigerung um 114 %) und verbrauchte 11,0 % weniger Energie, 150 W erforderte 22,7 % mehr Zeit und sparte 24,2 % Energie, und 200 W benötigte 8,2 % mehr Zeit bei 12,0 % weniger.“ Energie.'

Das Papier schlägt vor, dass Schulungen (wenn nicht sogar Schlussfolgerungen, aus offensichtlichen Gründen) zu Zeiten geplant werden könnten, zu denen das Rechenzentrum die höchste Power Usage Effectiveness (PUE) erreicht – praktisch im Winter und in der Nacht.

„Erhebliche Energieeinsparungen können erzielt werden, wenn Arbeitslasten zu Zeiten geplant werden können, zu denen ein niedrigerer PUE erwartet wird.“ Beispielsweise kann die Verlagerung eines Auftrags mit kurzer Laufzeit von Tag auf Nacht eine Reduzierung um etwa 10 % bringen, und die Verlagerung eines längeren, teuren Auftrags (z. B. ein Sprachmodell, dessen Fertigstellung Wochen dauert) von Sommer auf Winter kann zu einer Reduzierung um 33 % führen.

„Obwohl es schwierig ist, die Einsparungen vorherzusagen, die ein einzelner Forscher erzielen kann, unterstreichen die hier präsentierten Informationen die Bedeutung von Umweltfaktoren, die sich auf den Gesamtenergieverbrauch ihrer Arbeitsbelastung auswirken.“

Abschließend stellt das Papier fest, dass selbst entwickelte Verarbeitungsressourcen wahrscheinlich nicht die gleichen Effizienzmaßnahmen umgesetzt haben wie große Rechenzentren und hochrangige Cloud-Computing-Anbieter und dass durch die Verlagerung von Arbeitslasten an Standorte, die stark in einen guten PUE investiert haben, Vorteile für die Umwelt erzielt werden könnten.

„Es ist zwar praktisch, über private Computerressourcen zu verfügen, auf die zugegriffen werden kann, diese Bequemlichkeit hat jedoch ihren Preis.“ Im Allgemeinen lassen sich Energieeinsparungen und Auswirkungen in größeren Maßstäben leichter erzielen. „Rechenzentren und Cloud-Computing-Anbieter investieren erheblich in die Effizienz ihrer Einrichtungen.“

* Relevante Links im Artikel.

Neue KI-Technik kann Waldbrandvorhersagen verbessern

Neue KI verfolgt den Zustand von Korallenriffen

Autor für maschinelles Lernen, künstliche Intelligenz und Big Data. Persönliche Website: martinanderson.ai Kontakt: [email protected] Twitter: @manders_ai

Echte Partnerschaften finden: Wie Versorgungsunternehmen Anbieter künstlicher Intelligenz bewerten

Das eDiffi-Diffusionsmodell von NVIDIA ermöglicht „Malen mit Worten“ und mehr

UniTune: Googles alternative neuronale Bildbearbeitungstechnik

Die einzigartige Lösung von DALL-E 2 für Doppelbedeutungen

KI-unterstützte Objektbearbeitung mit Imagic von Google und „Erase and Replacement“ von Runway

GOTCHA – Ein CAPTCHA-System für Live-Deepfakes

Der drohende Energieraub des maschinellen Lernens verringert die Leistungsfähigkeit von NLP. „Großes NLP“-Schlussfolgerungen reduzieren, nicht Training, frisst Kraft. Wintertraining. Halten Sie es im Dunkeln