Google Keynote Charts ML-Treiber bei Hot Chips 23

Von John Russell

31. August 2023

Die Google-Wissenschaftler Jeff Dean und Amin Vahdat lieferten diese Woche in ihrer gemeinsamen Keynote zur Eröffnung von Hot Chips 23 einen faszinierenden Rundgang durch die wichtigsten ML-Hardware- und Software-Designtrends. Das Paar beschäftigte sich unter anderem mit der zunehmenden Sparsamkeit gegenüber der Dichte, den Bemühungen um adaptive Kommunikation, der Entwicklung besserer Stromverbrauchs- und Systemleistungsmetriken sowie KI-gesteuertem, beschleunigtem Chipdesign.

Dean und Vahdat ließen nichts unversucht, obwohl keine streng gehüteten Google-Nachrichten enthüllt wurden. Einige davon dürften bei der Google Cloud Next 23-Veranstaltung zutage treten, die heute in San Francisco beginnt. Nichtsdestotrotz betonten Dean und Vahdat in groben Zügen die Notwendigkeit, den Fortschritt zu beschleunigen, da die Nachfrage nach ML-Rechenleistungen von vielen Faktoren bestimmt wird, darunter natürlich auch von der rasant steigenden Größe (Anzahl der Parameter) von Modellen, die die Kapazitäten der Infrastruktur übersteigt.

„Offensichtlich hat maschinelles Lernen in den letzten Jahren unsere Erwartungen an das, was wir mit Computern für möglich halten, verändert“, sagte Dean. „Computer können jetzt Bilder verstehen, Sprache verstehen und Sprache viel besser verstehen als jemals zuvor, und das eröffnet eine Reihe aufregender neuer Möglichkeiten.“ Eine weitere Beobachtung ist, dass eine Vergrößerung des Maßstabs, der Einsatz von mehr Berechnungen, mehr Daten und die Erstellung größerer Modelle bessere Ergebnisse liefert. Und die Arten von Berechnungen, die wir ausführen möchten, und die Hardware, auf der wir sie ausführen möchten, ändern sich dramatisch.

„Ich denke, das ist eine wichtige Lektion für Computer-Hardware-Designer: Wir müssen in der Lage sein, mit der sich verbessernden ML-Forschungslandschaft mitzuhalten. Im weiteren Verlauf des Vortrags möchte ich über einige wichtige Trends und Modelle des maschinellen Lernens, einige Implikationen für Computerarchitekten und darüber sprechen, wie wir ML-Hardware entwerfen und schnell bereitstellen, um mit der schnelllebigen Branche Schritt zu halten.“

Manchmal ist es am besten, zunächst mit Schlussfolgerungen zu beginnen.

Dean, Chefwissenschaftler von Google, präsentierte die erste Hälfte des Vortrags und befasste sich (hauptsächlich) mit Hardware-Designtrends. Vahdat, ein Google Fellow und technischer Leiter im Bereich Networking, befasste sich mit den Bemühungen von Google, den CO2-Ausstoß einzudämmen, und verbrachte viel Zeit mit der Diskussion der Goodput-Metrik von Google. Vahdat bemerkte: „Google hat sich öffentlich verpflichtet, bis 2030 rund um die Uhr kohlenstofffrei zu arbeiten. Ein wirklich ehrgeiziges Ziel.“

Es war ein ehrgeiziges Gespräch. Hier werden einige ihrer Folien und Deans Anmerkungen zu ML-Modelltrends präsentiert, darunter Sparsity, adaptive Berechnung und sich dynamisch verändernde neuronale Netze. HPCwire wird eine Folgeberichterstattung über Vahdat-Kommentare veröffentlichen.

„Dichte Modelle, die wahrscheinlich die neuronalen Netze sind, mit denen Sie am besten vertraut sind, sind solche, bei denen das gesamte Modell für jedes Eingabebeispiel oder für jeden generierten Token aktiviert wird, und sie stehen im Fokus der überwiegenden Mehrheit der maschinellen Lerngemeinschaft . Obwohl sie großartig sind und viele großartige Dinge erreichen konnten, wird Sparse Computing in der Zukunft ein wichtiger Trend sein“, sagte Dean.

„Sparse-Modelle verfügen über unterschiedliche Pfade, die je nach Bedarf adaptiv aufgerufen werden. Anstelle dieses riesigen Modells können diese spärlichen Modelle viel effizienter sein. Sie greifen einfach auf die richtigen Teile des Gesamtmodells zurück. Und auch der Aspekt der richtigen Teile wird im Trainingsprozess erlernt. Anschließend können verschiedene Teile des Modells auf unterschiedliche Arten von Eingaben spezialisiert werden. Das Endergebnis ist, dass Sie am Ende etwas haben, bei dem Sie genau das richtige 1 % oder die richtigen 10 % eines sehr großen Modells berühren, und das führt zu einer verbesserten Reaktionsfähigkeit und einer höheren Genauigkeit.“

Wie Dean und Kollegen in einem Artikel aus dem Jahr 2022 (A Review of Sparse Expert Models in Deep Learning) feststellten, ist Sparsity keineswegs neu.

In diesem Artikel schreiben sie: „Sparse-Expertenmodelle sind ein dreißig Jahre altes Konzept, das wieder als beliebte Architektur im Deep Learning auftaucht.“ Diese Architekturklasse umfasst Mixture-of-Experts, Switch Transformers, Routing-Netzwerke, BASE-Schichten und andere, alle mit der einheitlichen Idee, dass auf jedes Beispiel eine Teilmenge der Parameter einwirkt. Auf diese Weise entkoppelt der Grad der Sparsity die Parameteranzahl von der Berechnung pro Beispiel, was extrem große, aber effiziente Modelle ermöglicht. Die resultierenden Modelle haben erhebliche Verbesserungen in verschiedenen Bereichen wie der Verarbeitung natürlicher Sprache, Computer Vision und Spracherkennung gezeigt.“

In seinem Hot-Chips-Vortrag betonte Dean, dass es viele verschiedene Ebenen der Sparsität gibt. „Es gibt grobkörnige Sparsity, die man sich als sehr große Module vorstellen kann, die in einem bestimmten Beispiel entweder aktiviert sind oder nicht. Und es gibt eine feinkörnige Sparsity, eine Art Sparsity innerhalb eines einzelnen Vektortensors, bei dem typischerweise ein oder zwei von jeweils vier Werten Null sind, und moderne Hardware beginnt, dies zu unterstützen. Diese beiden Arten von Sparsity ergänzen sich tatsächlich. Sie können grobkörnige Module haben, die wiederum eine feinkörnige Sparsity innerhalb der Aktivierungen oder innerhalb des Gewichtsparameterraums aufweisen. Ich denke also nicht, dass sie sich gegenseitig ausschließen; man möchte tatsächlich in der Lage sein, die Sparsity auf vielen verschiedenen Ebenen auszunutzen“, bemerkte er.

Heutzutage verwenden die meisten Sparsity-Arbeiten für jeden Experten die gleiche Größe und Struktur; Sie haben hier eine Reihe grüner Experten (Folie unten) für sie, Sie haben hier eine Routing-Lernfunktion, die lernt, welcher Experte in welcher Sache gut ist, und dann senden Sie einige der Beispiele an den entsprechenden Experten“, sagte Dean . „Eine rechnerische Ausgewogenheit wird in der Regel dadurch erreicht, dass die Berechnungen für Experten gleich groß sind und jedem Experten die gleiche Anzahl an Beispielen zur Verfügung steht. Für Computerarchitekten bedeutet dies, dass die All-to-All-Shuffle-Leistung über alle Beschleuniger hinweg wirklich wichtig ist. Dies gilt für alle Sparse-Modelle. Sie möchten in der Lage sein, Dinge schnell und auf die richtige Weise von einem Teil des Modells zum anderen zu leiten.“

Es sei vielleicht überraschend, dass Sparsity die Modellleistung verbessere und es ermöglichen könne, die Rechenkosten besser zu verwalten, sagte Dean.

„Vielleicht möchten Sie jedoch die Möglichkeit haben, statt fester Rechenkosten die Rechenkosten verschiedener Teile des Modells zu variieren. Und es macht keinen Sinn, für jedes Beispiel die gleiche Menge an Rechenleistung aufzuwenden, denn einige Beispiele sind 100-mal so schwer, aber wir sollten 100-mal so viel Rechenleistung für Dinge aufwenden, die wirklich schwierig sind, als für Dinge, die sehr einfach sind. Und hier, sehen Sie, haben wir einen sehr kleinen Experten, ein sehr kleiner Rechenaufwand, der vielleicht für 90 % der Beispiele verwendet werden könnte, weil sie einfach sind, und dann haben Sie eine progressive Reihe größerer und größerer Beispiele Größere Experten, die möglicherweise auf verschiedene Dinge spezialisiert sind, dieser kann auf sehr schwierige Situationen einer bestimmten Art spezialisiert sein. Und diese bekommen nicht viel Verkehr, aber es gibt viele Berechnungen“, sagte Dean.

„Sie könnten sogar sehr unterschiedliche Arten von Rechenstrukturen haben. Eines könnte also ein sehr einfaches, einschichtiges Teil eines Modells sein, während das komplexere Teil selbst viele, viele Schichten haben könnte. Und um all dies auf Hardware abzubilden, möchten Sie in der Lage sein, die größeren, rechenintensiveren Dinge auf mehr Chips abzubilden. Dieser könnte also auf 16 Chips sein, dieser könnte auf acht Chips sein und diese beiden könnten auf einem Chip sein“, sagte er.

Google hat ein Tool namens Pathways entwickelt, das bei der Verwaltung der zugrunde liegenden Hardware für flexible Modelle hilft. „Eines der Dinge, an denen wir in den letzten Jahren gearbeitet haben, ist ein System namens Pathways, ein skalierbares System, das solche flexiblen Modelle für maschinelles Lernen ermöglicht. Wir verfügen über eine flexible Zuordnung von Komponenten, die Sie sich als Teile der ML-Berechnung vorstellen können, die kleinen grünen oder blauen Quadrate, Rechtecke aus den vorherigen Folien oder eine Sammlung physischer Rechengeräte. Sie können dann dem laufenden System dynamisch Ressourcen wie weitere physische Hardware hinzufügen oder entfernen, und das System kümmert sich darum“, sagte Dean.

„Pathways verwaltet auch die Kommunikation über mehrere Arten von Netzwerktransporten hinweg und wählt den geeigneten und schnellsten für jede Art von Kommunikation aus, die von der übergeordneten Software durchgeführt werden muss. Es ist hoch skalierbar; Das PaLM2-Sprachmodell wurde mithilfe von Pathways über mehrere TPU v. 4-Pods hinweg trainiert, wobei innerhalb eines Pods das ICI, die innere Chip-Verbindung, verwendet wird, bei der es sich um ein Netzwerk mit sehr hoher Bandbreite handelt. Und wenn man dann Pod-Grenzen überschreitet, werden Data Center Network-Transfers verwendet, um zwischen einer Seite des Modells und der anderen zu kommunizieren.“

Offensichtlich steckte in der Keynote von Dean und Vahdat noch viel mehr. HPCwire wird eine Folgeberichterstattung über den Vahdat-Teil zu CO2-Emissionsmetriken und Eindämmungsbemühungen haben.

Link zu Hot Chips 23.

Der Untergang dichter Modelle – nicht ganz, aber…Sparsity kann dabei helfen, die Rechenkosten zu verwalten