Archiv verlassen und diese Seite im Standarddesign anzeigen : Diskussion zu: nVidia stellt den "GH100"-Chip der Hopper-Generation mit 18'432 ...
Leonidas
2022-03-22, 19:59:02
Link zur News:
https://www.3dcenter.org/news/nvidia-stellt-den-gh100-chip-der-hopper-generation-mit-18432-fp32-einheiten-144-shader-clustern
iamthebear
2022-03-22, 21:30:36
Bei Ampere hat es keine "Verdopplung" der FP32 Einheiten gegeben. Es wurden die INT Einheiten durch Kombinationseinheiten ersetzt, die entweder FP32 ODER INT berechnen können je nach Workload aber nie beides gleichzeitig.
Die Frage, die sich mir stellt ist:
.) Hat GH100 tatsächlich 128FP + 64 INT Einheiten? Oder nur 128FP32 Einheiten wie Ampere? Ist das ein offizielles Blockdiagramm vom Shader Cluster oder ist das selbst erstellt und eventuell falsch?
.) Falls es korrekt ist hat Lovelace vielleicht auch eine 128+64 Aufteilung? Falls dies der Fall ist, dann würde das die Performanceeinschätzung drastisch nach oben korrigieren.
.) Hat GH100 tatsächlich 128FP + 64 INT Einheiten? Oder nur 128FP32 Einheiten wie Ampere? Ist das ein offizielles Blockdiagramm vom Shader Cluster oder ist das selbst erstellt und eventuell falsch?
Laut Schaltbild separate 128FP und 64 INT Einheiten.
Aber... 32 Thread warp Scheduler davor pro Takt können also max. 32 Threads scheduled werden.
Auf den Durchsatz macht es damit keinen Unterschied ob es INT32/FP32 Kombieinheiten oder separate ALUs sind.
Eine FP32 Einheit besteht aus 1bit Vorzeichen, 8bit Exponent und 23bit Mantisse.
Eine Kombeinheit macht man daraus indem man in der Hardware die Mantisse auf 32bit verbreitert. Damit laufen aber aber immer überflüssige bits mit, die etwas mehr Strom brauchen als dezidierte Einheiten.
.) Falls es korrekt ist hat Lovelace vielleicht auch eine 128+64 Aufteilung? Falls dies der Fall ist, dann würde das die Performanceeinschätzung drastisch nach oben korrigieren.
Wie gesagt, laut Schaltbild ist der Warp-Scheduler weiter auf 32 Threads limitiert, und damit effektiv Durchsatzlimitierend die Performanceeinschätzung ändert sich damit höchstens minimal.
Also wenn 4N ein Nvidia-Angepasster Prozess ist, dann einer mit möglichst schlechter Transistordichte?
M1Max hat bereits 57 Mrd. Transistoren und das mit der Hälfte der Die-Size und "nur" N5.
Leonidas
2022-03-23, 02:53:26
Bei Ampere hat es keine "Verdopplung" der FP32 Einheiten gegeben. Es wurden die INT Einheiten durch Kombinationseinheiten ersetzt, die entweder FP32 ODER INT berechnen können je nach Workload aber nie beides gleichzeitig.
Korrekt. Nur wird dafür hier und da auch mal ein einzelnes Wort benötigt. Enter "FP32-Verdopplung".
Ehrlich, ich bin nicht beeindruckt. Hätte mehr erwartet. Sinnlos aufgeblasene Onedie Architektur, hoher Verbrauch, eigens aufgelegter Fertigungsprozess bei TSMC den Nvidia n4 nennt, TSMC eher 6nm irgendwas (vermutlich zwei weitere Layer EUV belichtet), kaum Neuerungen. 700w, die merken es echt nicht mehr. Das ist für die angekündigte Fläche überhaupt nichts Gutes.
Nvidia scheint in seiner eigenen Welt, seinem eigenem Omivers gefangen und die Engineers haben wohl den Verstand verloren. Weiter, höher, schneller mit aller Macht und der Brechstange, ohne Sinn und Verstand, völlig ohne Effizienz, blind für die Entwicklung am Energiemarkt bei verfügbaren Ressourcen. Wer baut sich mit solchen Verbräuchen so einen Krempel ins E Auto? Das Ding säuft pro Stunde Fahrzeit allein fast 1kwh aus dem Akku. Die haben sie nicht mehr alle, schon die Abwärme würde da zum Problem werden. Genau deshalb fliegt Nvidia auch bei vielen aus dem Konzept.
Hopper der MCM ja klar, nur Grütze wurde da wieder berichtet. Genau das ist auch das Problem, ähnlich Intel. Man bekommt das nicht mehr energiesparend auf einem Die untergebracht. Wobei auch die Preise dafür explodieren, was wohl nur pure Absicht ist. Entwicklung zum Selbstzweck. Immer mehr verdienen. +250w in einer Iteration, na dann. Dann ist auch das Leistungvermögen kaum beeindruckend. Man geht komplett über die Energieaufnahme, kann jeder und gibt Tensor mit v4 einen neuen Namen. Schwach. Nextgen wird zumindest bei Nvidia ein Flop. Wurde ja auch mal wieder Zeit, jede dritte Gen kannste bei denen vergessen. Das wird kaum jemand aufrüsten, der Verbrauch schießt eklatant in die Höhe. Das ist mitterweile selbst in HPC Rechenzentren extrem wichtig geworden. Da optimiert man lieber den Code, als sinnlos Energie zu verbraten.
Wer bitte will das Nvidia das Internet berechnet und damit kontrolliert, ja klar hätte der Witzbold Huang wohl gerne. Was für eine hohle Aussage.
Denke mal AMD wird nicht viel besser. Nichts mehr zu sehen von 2,3-fach schneller. In irgendwelchen Cherrypickingszenarien oder feuchten Träumen einiger. Sinnlos aufgeblasen.
Timbaloo
2022-03-23, 10:42:51
Also wenn 4N ein Nvidia-Angepasster Prozess ist, dann einer mit möglichst schlechter Transistordichte?
NV geht seit einiger Zeit eher den Weg, die Packdichte nicht zu maximieren, zuungunsten von... Packdichte, aber halt zugunsten von Effizienz.
madshi
2022-03-23, 12:51:07
Hier gibt's ein detailliertes White-Paper von Nvidia:
https://nvdam.widen.net/s/9bz6dw7dqr/gtc22-whitepaper-hopper
Das mit den 700 Watt tut natürlich etwas weh, aber die PCIe Ausführung von Hopper soll wohl mit 350 Watt auskommen, was sich wiederum recht gut anhört. Klar muß man dann bei der Performance ein paar Abstriche machen, aber die 350 Watt Version soll nur etwa 20% langsamer sein als die 700 Watt Version. Das läßt hoffen, daß sich bei Ada mit leichter Watt Drosselung auch eine gute Energie-Effizienz erreichen lassen sollte...
NV geht seit einiger Zeit eher den Weg, die Packdichte nicht zu maximieren, zuungunsten von... Packdichte, aber halt zugunsten von Effizienz.
Seit einiger Zeit eher umgekehrt. Die 8N Amperes haben für ein 10nm Derivat eine sehr hohe Packdichte, gar nicht mal weit hinter AMDs N7.
Und bei Apples-to-Apples hat man gegenüber AMD mit N7 eine deutlich höhere Dichte.
Auf den ersten Blick ist Hopper damit in der Dichte eher ein Rückschritt in alte Zeiten.
Es könnte natürlich daran liegen, dass man die Caches extrem vergrößert hat, und wenn man sich TSMCs Angaben ansieht fällt auf, das Cache zwischen N7 und N5 seltsamerweise eher schlecht skaliert, früher war es ja in den Fertigungsschritten eher so, dass Cache nahe am Maximum skaliert.
Andererseits ist da immer noch der Vergleich mit Apple, der M1Max ist auch ein Cache-Monster, anteilsmäßig eher noch höher als GH100 und erreicht dabei eine wesentlich höhere Dichte.
Doppelter Stromverbrauch bei dreifacher Leistung , sieht doch gut aus, viel mehr kann man von nem Nodesprung nicht erwarten.
Der Verbauch des schmalerern Gaming ablegers wird wohl massgeblich vom SI und dessen Taktraten hängen.
Wenn es hier auch grob 3xRTX3080 Leistung für 600w gibt bin ich im Boot es sei den AMD kommt früher aus dem Knick kann endlich beim RT mithalten und FSR2.0 zieht mit DLSS gleich.
Das mit den 700 Watt tut natürlich etwas weh, aber die PCIe Ausführung von Hopper soll wohl mit 350 Watt auskommen, was sich wiederum recht gut anhört. Klar muß man dann bei der Performance ein paar Abstriche machen, aber die 350 Watt Version soll nur etwa 20% langsamer sein als die 700 Watt Version.
Da stellt sich dann die Frage was Nvidia geritten hat das Teil dermaßen am Limit zu betreiben.
Für 50% mehr Transistoren gleich mal 75% mehr Verbrauch, das sollte bei einem besseren Prozess eigentlich nicht passieren.
Andererseits könnte natürlich auch sein, dass beispielsweise NVLINK einen nicht unerheblichen Teil des Powerbudgets verbraucht, bzw. dass die TDP nur so hoch gewählt wurde um den Chip bei hoher Last am NVLINK nicht auszubremsen.
Fast 1TB/s über doch größere Distanzen ist nicht ohne, dass dürfte schon einigermaßen erheblich Strom brauchen.
Hier gibt's ein detailliertes White-Paper von Nvidia:
https://nvdam.widen.net/s/9bz6dw7dqr/gtc22-whitepaper-hopper
Das mit den 700 Watt tut natürlich etwas weh, aber die PCIe Ausführung von Hopper soll wohl mit 350 Watt auskommen, was sich wiederum recht gut anhört. Klar muß man dann bei der Performance ein paar Abstriche machen, aber die 350 Watt Version soll nur etwa 20% langsamer sein als die 700 Watt Version. Das läßt hoffen, daß sich bei Ada mit leichter Watt Drosselung auch eine gute Energie-Effizienz erreichen lassen sollte...
Dann würde ich dir mal empfehlen das hier zu lesen https://www.igorslab.de/netzteil-irrsinn-und-lastspitzen-drama-wenn-die-pure-ressourcen-verschwendung-zur-methode-wird/2/ und was 350 oder 375w eigentlich wirklich bedeutet nach ATX3.0 und PCIe5.0.Das Netzteil muss entsprechend seiner Spezifikation 50 bis 100% mehr leisten, 450w GPU TPG bedeutet 2000w Netzteil, wobei das im 10ns Bereich auch als Leistungsspitze abgerufen wird. Die haben den Verstand verloren. 600w bedeutet 2400w Netzteil.
Klar muß man dann bei der Performance ein paar Abstriche machen, aber die 350 Watt Version soll nur etwa 20% langsamer sein als die 700 Watt Version. Das läßt hoffen, daß sich bei Ada mit leichter Watt Drosselung auch eine gute Energie-Effizienz erreichen lassen sollte...
Natürlich... Dann wäre es ja sinnvoller, 2 350W Modelle zu verbauen. Braucht auch nur 700W, wäre aber 60% schneller. Den Schwachsinn glaubst du hoffentlich selber nicht, dass da nur 20% Unterschied wären...
Was mich bzgl. der Keynote nachdenklich stimmte war, Huang: "Rund eine Billion Dollar umfasst der adressierbare Markt für Nvidia. 300 Milliarden Dollar enfallen dabei auf die Autoindustrie, 300 Milliarden Dollar aufs Data-Center, 150 Milliarden jeweils auf Business-Software und Omniverse-Dienste. Das heutige Kerngeschäft mit Videospielen umfasst 100 Milliarden Dollar."!
Keine Ahnung woher er das wieder hat, aber danke Huang, also 10% entfallen auf Spiele GPUs die für euch zukünftig keine Rolle mehr spielen? ...gute Zielrichtung. Muss man sich nicht wundern, dass man von euch nur noch verarscht wird.
Super Ankündigung.
Andererseits ist da immer noch der Vergleich mit Apple, der M1Max ist auch ein Cache-Monster, anteilsmäßig eher noch höher als GH100 und erreicht dabei eine wesentlich höhere Dichte.
Und was genau kann ich mir von der höheren Dichte kaufen? Im Vergleich zum Max ist eine 3090 z.B. in Tensorflow grob 8x so schnell. Selbst deren Verbrauch liegt aber nicht 8x so hoch.
Ich weiß auch nicht, warum sich alle an den 700W aufhängen. Bei 2PFlop in FP16 sind die 700W schon echt gut. Der ach so heilige M1 Max schafft da 10,4 TFlops in der GPU und 5,5TFlops in der NeuralEngine. Da sieht man schon, dass man den M1 Max eben nicht mit H100 vergleichen kann...
iamthebear
2022-03-23, 22:17:49
Laut Schaltbild separate 128FP und 64 INT Einheiten.
Aber... 32 Thread warp Scheduler davor pro Takt können also max. 32 Threads scheduled werden.
Auf den Durchsatz macht es damit keinen Unterschied ob es INT32/FP32 Kombieinheiten oder separate ALUs sind.
Das scheint wohl tatsächlich das Problem zu sein bzw. der Grund, dass Nvidia noch nicht schon früher auf 128+64 gesetzt hat.
Habe jetzt den Blogeintrag von Nvidia mit denen von Turing und Ampere (GA100) vergleichen und sie haben den Absatz mit der gleichzeitigen Ausführung von FP32 und INT raus genommen. Ich denke, damit ist klar, dass es doch nicht funktioniert. Damit sind die 3x FP32 aber je nach Workload irreführend.
Eine FP32 Einheit besteht aus 1bit Vorzeichen, 8bit Exponent und 23bit Mantisse.
Eine Kombeinheit macht man daraus indem man in der Hardware die Mantisse auf 32bit verbreitert. Damit laufen aber aber immer überflüssige bits mit, die etwas mehr Strom brauchen als dezidierte Einheiten.
Die Frage ist warum opfert Nvidia auf der einen Seite Platz für INT Einheiten nur um ein bisschen Strom mit 9 Bits weniger zu sparen, treibt aber auf der anderen Seite den Takt bis auf 700W hoch. Das hört sich zumindest etwas seltsam an.
Ehrlich, ich bin nicht beeindruckt. Hätte mehr erwartet. Sinnlos aufgeblasene Onedie Architektur, hoher Verbrauch, eigens aufgelegter Fertigungsprozess bei TSMC den Nvidia n4 nennt, TSMC eher 6nm irgendwas (vermutlich zwei weitere Layer EUV belichtet), kaum Neuerungen. 700w, die merken es echt nicht mehr. Das ist für die angekündigte Fläche überhaupt nichts Gutes.
Die PCIe Variante hat mit 350W weniger als der Vorgänger. Lediglich die Variante, die in Nvidias Supercomputern verbaut wird zieht die 700W und da sind wir sowieso in Preisregionen wo das kein Schwein mehr kümmert.
Wer baut sich mit solchen Verbräuchen so einen Krempel ins E Auto? Das Ding säuft pro Stunde Fahrzeit allein fast 1kwh aus dem Akku. Die haben sie nicht mehr alle, schon die Abwärme würde da zum Problem werden. Genau deshalb fliegt Nvidia auch bei vielen aus dem Konzept.
Wieso sollte man sich eine GPU für Supercomputer in ein Auto bauen wollen? Die werden in irgendeinem gut gekühlten Rechenzentrum stehen, wo sie bestenfalls die AI Modelle trainieren, die die Autos dann mit komplett anderer Hardware ausführen.
Hopper der MCM ja klar, nur Grütze wurde da wieder berichtet.
Verstehe ich nicht. Es wurde doch die ganze Zeit berichtet, dass es mehrere Versionen geben wird und nur die schnellste ein MCM Design sein wird. Gut möglich, dass die MCM Version erst später kommt.
Genau das ist auch das Problem, ähnlich Intel. Man bekommt das nicht mehr energiesparend auf einem Die untergebracht.
Genauso wie bei Intel entsteht die Verlustleistung durch den Takt.
Wobei auch die Preise dafür explodieren, was wohl nur pure Absicht ist.
Was bedeutet, dass die Entwicklungsabteilung gute Arbeitet geleistet hat wenn man mehr dafür verlangen kann und seine Produkte immer noch los wird. Dann bekommen die Aktionäre eine schöne Dividende und der CEO einen fetten Bonus.
Nvidia ist genauso wie AMD ein börsennotiertes Unternehmen. Die weder die Caritas noch dafür zuständig, dass du eine billige Karte zum Zocken bekommst.
Man geht komplett über die Energieaufnahme, kann jeder und gibt Tensor mit v4 einen neuen Namen. Schwach.
Da bin ich gespannt wie du aus einem A100 die 3 fache Leistung raus holen willst nur mit mehr Verlustleistung.
Nextgen wird zumindest bei Nvidia ein Flop. Wurde ja auch mal wieder Zeit, jede dritte Gen kannste bei denen vergessen.
Klingt logisch. Nachdem Pascal ja der größte Flop in Nvidias Geschichte war Tuuring/Ampere die goldene Ära der günstigen GPUs waren muss jetzt wieder ein Flop kommen...
Das wird kaum jemand aufrüsten, der Verbrauch schießt eklatant in die Höhe. Das ist mitterweile selbst in HPC Rechenzentren extrem wichtig geworden. Da optimiert man lieber den Code, als sinnlos Energie zu verbraten.
Nö die legen 20 Supercomputer auf einen Hopper basierten zusammen und sparen dadurch 90% ihrer Stromkosten ein.
Oder sie berechnen damit komplexe AI Modelle, was früher gar nicht möglich war.
Und ja klar. Da lässt man den Azubi eine halbe Stunde am Code des AI Modells basteln und verdoppelt damit schnell mal die Perfprmance.
Denke mal AMD wird nicht viel besser. Nichts mehr zu sehen von 2,3-fach schneller. In irgendwelchen Cherrypickingszenarien oder feuchten Träumen einiger. Sinnlos aufgeblasen.
Und diese Weisheit nimmst du woher?
Seit einiger Zeit eher umgekehrt. Die 8N Amperes haben für ein 10nm Derivat eine sehr hohe Packdichte, gar nicht mal weit hinter AMDs N7.
Und bei Apples-to-Apples hat man gegenüber AMD mit N7 eine deutlich höhere Dichte.[/quote]
Was viele hier leider etwas verdrängen: GA100 hatte bereits fast 1.5x Transistordichte verglichen mit den Gamingvarianten. GA100 hat nichts mit den Gamingkarten zu tun.
Auf den ersten Blick ist Hopper damit in der Dichte eher ein Rückschritt in alte Zeiten.
Also ich finde 1.5x von GA100 auf GH100 im Rahmen der Erwartungen. Die 1.8x die TSMC angibt sind ja nur der Best case für Logik. Bei SRAM oder analogen Teilen ist es deutlich weniger und GA100 war ja bereits für eine GPU sehr kompakt.
Apple hat beim Wechsel von N7 auf N5 auch bloß 1.5x Skalierung geschafft. N4 oder 4N bleibt immer noch ein 5nm Prozess ohne ernsthafte Density Verbesserungen.
Es könnte natürlich daran liegen, dass man die Caches extrem vergrößert hat, und wenn man sich TSMCs Angaben ansieht fällt auf, das Cache zwischen N7 und N5 seltsamerweise eher schlecht skaliert, früher war es ja in den Fertigungsschritten eher so, dass Cache nahe am Maximum skaliert.
Auch wenn SRAM schlechter skaliert sind die SRAM Zellen trotzdem noch immer dichter als die Logikteile. Wenn man also den Cacheanteil erhöht steigt die Transistordichte.
Laut den Daten von Wikichip für TSMC 5nm:
Logik: 170MTrans/mm²
SRAM: 0.0021um/Zelle bzw. 6 Transistoren sind 285 MTrans/mm²
Allerdings ist das bei Hopper vs. GA100 gar nicht der Fall.
GA100 hatte bereits 40MB L2, GH100 hat 50MB. Das sind 25% mehr bei insgesamt 50% mehr Transistoren. Also anteilsmäßig wurde der L2 Cache sogar weniger.
Andererseits ist da immer noch der Vergleich mit Apple, der M1Max ist auch ein Cache-Monster, anteilsmäßig eher noch höher als GH100 und erreicht dabei eine wesentlich höhere Dichte.
Wie schon gesagt: Mehr Cache bedeutet höhere Transistordichte auch wenn der Unterschied geringer wird.
Aber auch hier ist der Unterschied nicht so groß:
GH100 50MB L2 bei 80Mrd. Trans.
M1 Max 48MB System Level Cache bei 57 Mrd. Trans.
Apple hat jedoch eine um 30% höhere Transistordichte.
Ich habe den Eindruck, dass ab 10nm abwärts die maximalen Transistordichten nur dann erreichbar ist, wenn man auch jede Menge Arbeit in die Optimierung des Designs steckt. Bei Apple ist das definitiv der Fall, Nvidia ist so naja und AMD hinkt hinten nach vor allem deren erste Designs. Ich erinnere an die Radeon VII mit 40MTrans/mm² in 7nm.
Ein Teil ist sicher auch dadurch erklärbar, dass Nvidia etwas breitere Libraries verwendet, denn bei fast 1W/mm² würden sie sonst ein Problem mit Hotspots bekommen.
Doppelter Stromverbrauch bei dreifacher Leistung , sieht doch gut aus, viel mehr kann man von nem Nodesprung nicht erwarten.
Der Verbauch des schmalerern Gaming ablegers wird wohl massgeblich vom SI und dessen Taktraten hängen.
Wenn es hier auch grob 3xRTX3080 Leistung für 600w gibt bin ich im Boot es sei den AMD kommt früher aus dem Knick kann endlich beim RT mithalten und FSR2.0 zieht mit DLSS gleich.
Das ist ein Äpfel/Birnen Vergleich:
.) Der Vergleich bezieht sich gegenüber GA100 in TSMC 7nm. Gaming Ampere ist in Samsung 8nm gefertigt. Auch wenn der Namen ähnlich aussieht: Da ist ein Node dazwischen.
.) Die Verdopplung der Verlustleistung ist nur ein Produkt des Taktes. Die PCIe Variante braucht mit 350W sogar weniger ist aber nur 20% schwächer.
.) Die FP32 Leistung steigt deshalb so stark, da die Anzahl der FP32 Einheiten pro SM verdoppelt wurde. Dafür verliert Hopper die Möglichkeit INT32 parallel zu berechnen. Das ist in etwa dasselbe wie die die RTX3080 vs. 2080.
Da stellt sich dann die Frage was Nvidia geritten hat das Teil dermaßen am Limit zu betreiben.
Für 50% mehr Transistoren gleich mal 75% mehr Verbrauch, das sollte bei einem besseren Prozess eigentlich nicht passieren.
Ganz einfach: Bei einem Preis von mehr als 10K Euro pro GPU interessiert ist keiner bereit 20% Performance zu opfern nur damit die Stromrechnung im Jahr 500 Euro billiger wird.
Die Dinger laufen sowieso nur in großen Rechenzentren, die sowieso Industrietarife haben.
Andererseits könnte natürlich auch sein, dass beispielsweise NVLINK einen nicht unerheblichen Teil des Powerbudgets verbraucht, bzw. dass die TDP nur so hoch gewählt wurde um den Chip bei hoher Last am NVLINK nicht auszubremsen.
Fast 1TB/s über doch größere Distanzen ist nicht ohne, dass dürfte schon einigermaßen erheblich Strom brauchen.[/QUOTE]
Also die Daten, die ich auf die Schnelle für den Vorgänger gefunden habe:
600GB/s
8pJ/Bit bis zu 30cm also 38W
Bei 900GB/s wären das dann um die 60W
Für längere Distanzen war vor irgendetwas mit optischer Übertragung in Planung. Keine Ahnung ob das nun aktuell ist:
4pJ/Bit bis zu 100m
Also es ist ein Thema aber 350W frisst es nicht.
madshi
2022-03-23, 22:33:20
Ich hoffe nur, daß Ada/Lovelace auch die neuen Tensor-Cores v4 kriegt. Doppelte AI Performance (on top of everything else) wäre schon sehr sehr nice! Und könnte mir auch vorstellen daß FP8 recht nützlich sein könnte. Möglicherweise ist es einfacher zu trainieren als INT8? Keine Ahnung, mal sehen...
gastello
2022-03-24, 02:06:51
Nö die legen 20 Supercomputer auf einen Hopper basierten zusammen und sparen dadurch 90% ihrer Stromkosten ein.
Als wenn man die bereits ausgestatteten Rechenzentren dann auf eine neue Gen umstellt oder die Berechnung einfach auf andere Zentren umleitet. Das geht 1. physikalisch schon überhaupt nicht und 2. wäre man schön blöd! HPC haben die Rechenwerke deutlich höhere Standzeiten als manche hier glauben. Das wird wenn, Zukunftsmusik für die nachfolgenden Supercomputer oder als Erweiterung existierender, sie ersetzen sie aber nicht!
Mit N4 hat sich Nvidia jedenfalls keinen Gefallen getan, weil Apple den fast zu belegt, für sich bucht, die Yield alles andere als gut ist und man sich mit denen umherschlagen wird müssen, das passte AMD schon nicht unter N7. Zudem ist N4 ein N5 mit weiteren Layern in EUV, was sowieso nur ein N6/N7 ist (Design Rules sind gleich). Genau deshalb explodiert der Verbrauch, vor allem spart er an Fläche (bis -44%) was dann wohl ein monolithisches Design erst möglich machte. Weder bringt er massiv mehr Leistung (+5%) oder Effizienz (-10%). Nvidia scheint es vor allem um die Waferkosten zu gehen.
Da man auf den HBM3 einprügelt, wundert mich persönlich der Verbrauch überhaupt nicht.
Das man nicht mit MCM kommt halte ich zumindest für einen massiven Rückschritt in der Entwicklung, weil man dieses Jahr klar bei AMD damit rechnen kann und Intel wohl auch nachzieht. Marktführerschaft sieht für mich zumindest anders aus.
gastello
2022-03-24, 02:14:11
Ich hoffe nur, daß Ada/Lovelace auch die neuen Tensor-Cores v4 kriegt.
Hoppers Zuwächse beziehen sich die Tensor Optimization betreffend vor allem auf Spracherkennung (v4T), das ist bei Lovelace kein Thema. Denke er bekommt sie nicht. Und genau dieser Part bezieht sich auch auf Aussagen zur die Verdopplung der AI Leistung. Das ist eher plattformbasierend wichtig, (Google) oder Cloud, und damit kein Thema unter Lovelace.
Wenn Lovelace v4T bekommt dann in abgewandelter Form.
Die PCIe Variante hat mit 350W weniger als der Vorgänger. Lediglich die Variante, die in Nvidias Supercomputern verbaut wird zieht die 700W und da sind wir sowieso in Preisregionen wo das kein Schwein mehr kümmert.
Das stimmt so nicht ganz. GA100 PCIe hatte 250W, lediglich die SMX4 Variante hatte 400W. NVidia ist also bei beiden Varianten mit dem Verbrauch nach oben gegangen. Allerdings ist der Verbrauch auch immer relativ, wenn die Leistung stimmt.
Die Frage ist warum opfert Nvidia auf der einen Seite Platz für INT Einheiten nur um ein bisschen Strom mit 9 Bits weniger zu sparen, treibt aber auf der anderen Seite den Takt bis auf 700W hoch. Das hört sich zumindest etwas seltsam an.
Weil Nvidia das praktisch immer so macht. die eigentlichen ALUs, also Adder, Multiplier etc. machen in der Realität nur einen sehr geringen Anteil an Transistoren/Fläche aus, der wahre Aufwand ist die Verwaltungslogik drum herum.
Auch Pascal hatte schon eigene INT ALUs, der Schritt zu Turing war nicht die ALUs hinzuzufügen, sondern Scheduler und Datenpfade zu verbreitern, damit man sowohl INT als auch FP füttern kann. Deshalb war der Schritt zu Ampere auch FP mit zu verbreitern nur logisch und eher verwunderlich, dass es nicht schon bei Turing der Fall war. Dass dürfte aber daran gelegen haben, dass man Turing nicht wir ursprünglich geplant auf 10nm sondern immer noch mit 16nm++ fertigen musste.
Die PCIe Variante hat mit 350W weniger als der Vorgänger. Lediglich die Variante, die in Nvidias Supercomputern verbaut wird zieht die 700W und da sind wir sowieso in Preisregionen wo das kein Schwein mehr kümmert.
In Supercomputern ist verbrauch wichtiger als in den meisten anderen Anwendungsgebieten, weil sich hier in aller Regel der Verbrauch gleich doppelt zu Buche schlägt, einmal für die Hardware, und 1x für die Klimaanlage, außer in jenen Ausnahmefällen in denen diese in kalten Regionen gebaut werden können.
madshi
2022-03-24, 10:24:37
Hoppers Zuwächse beziehen sich die Tensor Optimization betreffend vor allem auf Spracherkennung (v4T), das ist bei Lovelace kein Thema. Denke er bekommt sie nicht. Und genau dieser Part bezieht sich auch auf Aussagen zur die Verdopplung der AI Leistung. Das ist eher plattformbasierend wichtig, (Google) oder Cloud, und damit kein Thema unter Lovelace.
Wenn Lovelace v4T bekommt dann in abgewandelter Form.
Die Hopper Tensor Cores haben doppelte Performance pro Core für alle Datenformate, plus Unterstützung für FP8, plus verbessertes Speicher-Handling. All diese Verbesserungen wären sehr hilfreich auch für Lovelace und nicht beschränkt auf Spracherkennung.
Versteh das Gemecker nicht , wann gab es mal solche Leistungsprünge ?
Im Schnitt musste man sich mit wesentlich weniger zufrieden geben egal von welcher Bude.
Konkurenz belebt halt das Geschäft, seit AMD mit RDNA2 in einigen wieder Punkten gleich in anderen ( Verbrauchsvorteil durch Fertigungsvorteil ) an NVIDIA vorbei gezogen ist kommt wieder Leben in die Bude.
Wenn die Gamingableger auch nur irgendo in die nähe von Faktor 2 in Punkto Leistung kommen freut mich das.
Meine RTX 3080 reicht für DCS erst recht in VR nicht aus von daher immer her mit den neuen Karten.
Nach HD7970 R9 290X GTX1080 und RTX3080 könnte mal wieder AMD in den Rechener wandern um das Muster beizubehalten :-p
iamthebear
2022-03-24, 22:56:05
Ich hoffe nur, daß Ada/Lovelace auch die neuen Tensor-Cores v4 kriegt. Doppelte AI Performance (on top of everything else) wäre schon sehr sehr nice! Und könnte mir auch vorstellen daß FP8 recht nützlich sein könnte. Möglicherweise ist es einfacher zu trainieren als INT8? Keine Ahnung, mal sehen...
Die Frage ist was soll ein Gamer mit zusätzlicher AI Performance.
Bis auf DLSS gibt es meines Wissens nach noch keine Anwendung für die Tensor Cores in Spielen und bei 2.2x Performance wird auch das nicht mehr wirklich notwendig sein und selbst falls doch ist schwer fraglich inwiefern der DLSS Overhead überhaupt an der Tensor Performance hängt. Viel davon ist ja weiterhin reguläre Shaderarbeit.
Als wenn man die bereits ausgestatteten Rechenzentren dann auf eine neue Gen umstellt oder die Berechnung einfach auf andere Zentren umleitet. Das geht 1. physikalisch schon überhaupt nicht und 2. wäre man schön blöd! HPC haben die Rechenwerke deutlich höhere Standzeiten als manche hier glauben. Das wird wenn, Zukunftsmusik für die nachfolgenden Supercomputer oder als Erweiterung existierender, sie ersetzen sie aber nicht!
Ich weiß. Deshalb auch die 20x. Es werden Ampere Supercomputer nicht durch Hopper ersetzt werden. Ich meinte den Kunden, der z.B. seinen Cluster aus P100 außer Betrieb nimmt und stattdessen für seine AI Anwendungen auf H100 setzt. Oder den Kunden der seinen Code auf CUDA portiert und statt 200 alter Xeons nun 10 H100 einsetzt.
Die bekommen dann dieselbe Performance nun für einen Bruchteil des Energieverbrauchs.
Mit N4 hat sich Nvidia jedenfalls keinen Gefallen getan, weil Apple den fast zu belegt, für sich bucht, die Yield alles andere als gut ist und man sich mit denen umherschlagen wird müssen, das passte AMD schon nicht unter N7. Zudem ist N4 ein N5 mit weiteren Layern in EUV, was sowieso nur ein N6/N7 ist (Design Rules sind gleich). Genau deshalb explodiert der Verbrauch, vor allem spart er an Fläche (bis -44%) was dann wohl ein monolithisches Design erst möglich machte. Weder bringt er massiv mehr Leistung (+5%) oder Effizienz (-10%). Nvidia scheint es vor allem um die Waferkosten zu gehen.
Also unter normalen Umständen würde ich Nvidia einmal unterstellen, dass diese nicht komplett bescheuert sind und sich ihre Kapazitäten ähnlich wie Apple vertraglich gesichert haben. Die haben sogar Anzahlungen von mehreren Mrd. zum Bau der jeweiligen Fabs geleistet.
Die Frage ist nur was passiert wenn 3nm weiterhin nicht anläuft und die Apple Kapazitäten nicht frei werden bzw. Zen5/RDNA4 etc. auf 4nm ausweichen müssen. Und wenn dann gleichzeitig auch noch wieder mal Wasser oder Wafer knapp werden kann es schon sein, dass TSMC etwas umpriorisieren muss aber Nvidia steht hier durch die finanziellen Vorleistungen sicher weit oben auf der Liste.
Die Yields waren bei 5nm bereits 2020 besser als 7nm. Deswegen sind auch so riesige Chips absolut kein Problem.
Was die Energieeffizienz angeht: N4 ist kein großer Schritt gegenüber N5 aber wenn die Technologie bereit steht warum sollte man sie nicht nutzen. EUV Anlagen hat TSMC ja genug und jeder Layer den man mit EUV belichtet spart man sich Unmengen an DUV Masken.
Verglichen mit N7 liefert N5 ca. 50% mehr Performance/Watt, was in etwa so viel ist wie die Density Verbesserungen und bei gleicher Chipgröße und Takt der Verbrauch ca. gleich bleibt.
Falls man wie Nvidia allerdings auch mehr Takt haben will dann geht der Verbrauch natürlich nach oben aber das ist ja normal. Wenn Nvidia seine A100 mit 300MHz mehr Takt ausliefern würde, dann würden die auch saugen ohne Ende, vermutlich noch viel schlimmer.
Da man auf den HBM3 einprügelt, wundert mich persönlich der Verbrauch überhaupt nicht.
HBM3 hat halt auch deutlich mehr Bandbreite. Ich halte es nicht für sinnvoll verschieden schnelle Technologien zu vergleichen. Taktet man HBM3 auf das Niveau von HBM2 runter wird dieser auch sicher nicht mehr brauchen.
Das man nicht mit MCM kommt halte ich zumindest für einen massiven Rückschritt in der Entwicklung, weil man dieses Jahr klar bei AMD damit rechnen kann und Intel wohl auch nachzieht. Marktführerschaft sieht für mich zumindest anders aus.
MCM wäre für Nvidia derzeit echt sinnlos. Hopper wird sowieso in einem Verbund mit mehreren GPUs eingesetzt. Da verbaut man eben stattdessen doppelt so viele GPUs.
Im Gamingbereich sehe ich den Sinn auch nicht. Yield sind bei 5nm so gut wie schon lange nicht mehr und mit geschätzten 600mm² ist der Die auch noch weit vom Maximum entfernt. Ja klar man könnte dann wie AMD eine Monster GPU mit 1000mm²+ bauen aber mal ehrlich wer will sich das denn noch leisten. Was nützt es wenn der Top Die dann nochmal 30% schneller ist aber selbst der kleinste SKU über 2000€ kostet?
Der Großteil der Käufer wird sich sowieso auf AD103 und 104 stürzen.
Bei AMD sieht das etwas anders aus. Deren Designs brauchen deutlich mehr Caches und bei 256MB Cache macht es schon Sinn den Cache auf einen eigenen Chip auszulagern. Ob es nun sinnvoll ist 2 GCDs zu machen das wage ich zu bezweifeln. Ich de ke AMD will hier in erster Linie für zukünftige Fertigungstechnologien üben wo wie bei 3nm die Yields nicht so rosig aussehen aber man trotzdem früh umsteigen will.
Weil Nvidia das praktisch immer so macht. die eigentlichen ALUs, also Adder, Multiplier etc. machen in der Realität nur einen sehr geringen Anteil an Transistoren/Fläche aus, der wahre Aufwand ist die Verwaltungslogik drum herum.
Ich bin eigentlich davon ausgegangen, dass das, was im Blockdiagramm als INT beteichnet wird die Verwaltungslogik miteinschließt. Aber vielleicht hast du Recht. Wenn damit wirklich nur die Adder gemeint sind dann macht das wirklich Sinn.
Auch Pascal hatte schon eigene INT ALUs, der Schritt zu Turing war nicht die ALUs hinzuzufügen, sondern Scheduler und Datenpfade zu verbreitern, damit man sowohl INT als auch FP füttern kann. Deshalb war der Schritt zu Ampere auch FP mit zu verbreitern nur logisch und eher verwunderlich, dass es nicht schon bei Turing der Fall war. Dass dürfte aber daran gelegen haben, dass man Turing nicht wir ursprünglich geplant auf 10nm sondern immer noch mit 16nm++ fertigen musste.
Pascal hatte bereits 128FP32 Einheiten pro SM, Turing hatte nur mehr 64, konnte dann jedoch stattdessen parallel INT berechnen. Bei Gaming Ampere wurde das wieder rückgängig gemacht.
Dass es am Die Space gelegen ist denke icht nicht. Dann hätte man einfach weniger Shader verbauen können. Ich vermute eher, dass Nvidia hier eher ein paar Schaltungen aus dem Datacenter Lineup recyclen wollte oder darauf spekuliert hat, dass mit RT der Anteil der INT Operationen ansteigt.
In Supercomputern ist verbrauch wichtiger als in den meisten anderen Anwendungsgebieten, weil sich hier in aller Regel der Verbrauch gleich doppelt zu Buche schlägt, einmal für die Hardware, und 1x für die Klimaanlage, außer in jenen Ausnahmefällen in denen diese in kalten Regionen gebaut werden können.
Grundsätzlich hast du das Recht aber man muss die Energiekosten immer im Vergleich zu den Anschaffungskosten sehen.
Einen DGX A100 Server mit 8 GPU bekommt man um die 150K netto.
Um dasselbe Geld stecken in einer Miningfarm schon 150 RTX 3080.
gastello
2022-03-24, 23:20:03
Die Hopper Tensor Cores haben doppelte Performance pro Core für alle Datenformate, plus Unterstützung für FP8, plus verbessertes Speicher-Handling. All diese Verbesserungen wären sehr hilfreich auch für Lovelace und nicht beschränkt auf Spracherkennung.
H100 ist vor allem für Compute (EOS) entwickelt und gedacht, das eignet sich nicht fürs Gaming, nirgendwo.
Ich habe ehrlich gesagt keine Vorstellung,was du mir damit sagen willst. Tensor ist in dem Fall dem Verwendungszweck angepasst, nur 2 von 72 TPC eignen sich für bspw. Pixelshader Berechnungen. Anders als bei Ampere hat Hopper nichts mehr mit den Gaming Derivaten gemein. Ähnlich wie Selene hat Eos überhaupt nichts, nirgendwo mit Gaming zu tun. Es wäre Schwachsinn auf Compute optimierte Cores daher in Gamingvarianten zu verwenden/verschwenden. Tensor ist zwar vielfach einsetzbar, dass heißt aber nicht das es sich um die jeweils gleichen Rechenwerke handelt denn die Transformer Engine ist nicht übertragbar. Das erkennt man später an Grace Hopper. Das Ganze ist eher massiv auf AI/HPC Beschleunigung ausgelegt.
madshi
2022-03-24, 23:23:06
Die Frage ist was soll ein Gamer mit zusätzlicher AI Performance.
Die Consumer-GPUs werden auch gerne für AI-Training und -Inference benutzt. Für den typischen Gamer mag das nicht sinnvoll sein, aber nicht jeder, der Lovelace kauft, ist ein Gamer...
madshi
2022-03-25, 11:13:47
Ich habe ehrlich gesagt keine Vorstellung,was du mir damit sagen willst. Tensor ist in dem Fall dem Verwendungszweck angepasst, nur 2 von 72 TPC eignen sich für bspw. Pixelshader Berechnungen. Anders als bei Ampere hat Hopper nichts mehr mit den Gaming Derivaten gemein. Ähnlich wie Selene hat Eos überhaupt nichts, nirgendwo mit Gaming zu tun. Es wäre Schwachsinn auf Compute optimierte Cores daher in Gamingvarianten zu verwenden/verschwenden. Tensor ist zwar vielfach einsetzbar, dass heißt aber nicht das es sich um die jeweils gleichen Rechenwerke handelt denn die Transformer Engine ist nicht übertragbar. Das erkennt man später an Grace Hopper. Das Ganze ist eher massiv auf AI/HPC Beschleunigung ausgelegt.
Ja, natürlich sind Tensor-Cores auf AI Beschleunigung ausgelegt. Das ist der Hauptzweck von Tensor-Cores. Aber AI Beschleunigung beschränkt sich nicht nur auf den professionelle Markt. Nvidia ist offensichtlich der Meinung, daß AI auch für Consumer Zwecke nützlich ist. DLSS ist da natürlich das Parade-Beispiel, aber das ist auch nicht das einzige. Ich möchte z.B. AI gerne für Real-Time-Video-Processing (beim Filme gucken) verwenden. Das ist ebenfalls ein Consumer Zweck, und der würde definitiv von Tensor-Cores v4 profitieren.
Bisher hat Nvidia bei jeder neuen GPU Generation neue Tensor-Cores verwendet (Volta -> Turing -> Ampere -> Hopper). Stimmt zwar, daß Hopper nicht für Gaming gedacht ist, aber ich sehe keinen Grund dafür, warum Nvidia die verbesserten Tensor-Cores nicht auch in Ada/Lovelace einbauen sollte. Was wäre der Nachteil? Warum auf der alten Generation bleiben?
Der einzige Grund auf v3 zu bleiben wäre (meiner Meinung nach) wenn Tensor v4 dramatisch mehr Chipfläche benötigt als v3, dann könnte das Sinn machen. Aber ich hoffe stark, daß sie trotzdem v4 verbauen werden - weil ich es für meine Zwecke haben möchte.
Anyway, wir werden sehen...
Troyan
2022-03-25, 11:48:32
Das stimmt so nicht ganz. GA100 PCIe hatte 250W, lediglich die SMX4 Variante hatte 400W. NVidia ist also bei beiden Varianten mit dem Verbrauch nach oben gegangen. Allerdings ist der Verbrauch auch immer relativ, wenn die Leistung stimmt.
Die 80GB Version hat 300W. H100 hat 350W bei 2,46x mehr Rechenleistung.
gastello
2022-03-25, 12:17:00
Die 80GB Version hat 300W. H100 hat 350W bei 2,46x mehr Rechenleistung.
Es gibt eine 250, 300 und 400w PCIe Variante jew nach Skalierung der Rechenleistung, der Speicherausbau bleibt gleich. Cherry Picking hilft einem dabei nicht? Oder vergleichst du gerade die 2,4fache Leistung des SFX H100 mit dem der deutlich reduzierten PCIe? Wie man sieht auch abhängig von der Leistungsaufnahme und daran wird nichts ändern.
Bleibt bitte bei den Fakten!
vBulletin®, Copyright ©2000-2025, Jelsoft Enterprises Ltd.