PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Diskussion zu: nVidia stellt den Volta-Chip GV100 mit 5376 Shader-Einheiten unter ...


Leonidas
2017-05-11, 04:46:17
Link zur News:
https://www.3dcenter.org/news/nvidia-stellt-den-volta-chip-gv100-mit-5376-shader-einheiten-unter-der-12nm-fertigung-vor

MadManniMan
2017-05-11, 07:36:45
Wie kommst Du darauf, dass der Chip mit 10- statt 12-nm-Fertigung nichtmal halbsoviel Fläche benötigen würde?

Thoro
2017-05-11, 08:13:31
Wie kommst Du darauf, dass der Chip mit 10- statt 12-nm-Fertigung nichtmal halbsoviel Fläche benötigen würde?

Wenn 12nm in Wahrheit 16nm ist, scheint es nicht so unrealistisch anzunehmen, dass 10nm im Gegensatz zu 16nm eine satte Platzeinsparung bringen würde, oder?

MadManniMan
2017-05-11, 08:35:13
Wenn 12nm in Wahrheit 16nm ist, scheint es nicht so unrealistisch anzunehmen, dass 10nm im Gegensatz zu 16nm eine satte Platzeinsparung bringen würde, oder?

Wenn 12 nm in Wahrheit 20 nm ist, könnte man sogar von 200 mm² ausgehen :upara:

Warum sollte das so sein?

Leonidas
2017-05-11, 09:02:16
10nm zu 16nm bei TSMC sind -50% Fläche:
https://www.3dcenter.org/news/tsmc-mit-geringeren-technischen-fortschritten-bei-der-10nm-und-7nm-fertigung

12nm ist hingegen nur ein Verkaufsname für eine bessere Form von 16nm.

Man sieht es auch an der Packdichte:
GP100: 25,1 Mill. Tr./mm²
GV100: 25,9 Mill. Tr./mm²
... das ist faktisch normale Optimierung innerhalb derselben Fertigung

Gast
2017-05-11, 09:17:01
10nm zu 16nm bei TSMC sind -50% Fläche:
https://www.3dcenter.or/news/tsmc-mit-geringeren-technischen-fortschritten-bei-der-10nm-und-7nm-fertigung

12nm ist hingegen nur ein Verkaufsname für eine bessere Form von 16nm.

Man sieht es auch an der Packdichte:
GP100: 25,1 Mill. Tr./mm²
GV100: 25,9 Mill. Tr./mm²
... das ist faktisch normale Optimierung innerhalb derselben Fertigung
Wenn die packdichte p vs v zugunsten des Takt geopfert wurde, dann kann man die Werte leider nicht vergleichen. Jetzt ist die Taktrate zwar ebenfalls geringer, aber der Stromverbrauch trotz massiver größte nicht gestiegen. Die Zahlen sehen zwar kaum besser aus, aber das Ergebnis kann sich sehen lassen.

Gast
2017-05-11, 09:25:31
Hut ab Nvidia (und natürlich auch die Kollegen der Halbleiterindustrie),
seit 2011 sind das schon sehr beachtlichte Steigerungen in allen Bereichen der Leistung und Effizienz.

Wenn man sich da den oft manchmal nur marginalen "Fortschritt" in anderen rein technologisch getriebenen Branchen ansieht, kann man die Arbeit der Entwickler auch mal zu schätzen wissen.

Und schön, dass für "unsere" Gaming Sparte auch was abfällt ;-)

Thoro
2017-05-11, 09:28:56
Wenn 12 nm in Wahrheit 20 nm ist, könnte man sogar von 200 mm² ausgehen :upara:

Warum sollte das so sein?

Häh?

Eldoran
2017-05-11, 09:51:44
Die 12nm TSMC Fertigung ist soweit ich sehen kann ein weitgehend unbeschriebenes Blatt.
Gemäß Semiwiki https://www.semiwiki.com/forum/content/6713-14nm-16nm-10nm-7nm-what-we-know-now.html ist 16nm => 10nm eine Verdopplung der Transistordichte. Wenn 12nm eine Verbesserung von 16nm darstellt und nvidia damit gleich einen absoluten monsterchip herstellen kann, wird sich an der Packungsdichte wohl nicht großartig etwas verbessern.

Wenn man den GP100 in relation setzt, bekommt nvidia wohl effektiv grob 3,2% mehr Transistoren in 12nm unter.
https://www.semiwiki.com/forum/content/6662-tsmc-talks-about-22nm-12nm-7nm-euv.html
12nm FFC offers a 10% performance gain or a 25% power reduction. 12nm also offers a 20% area reduction with 6T Libraries versus 7.5T or 9T.
Für mich klingt das so, als ob hauptsächlich Caches kleiner ausgefallen sein könnten.

HPVD
2017-05-11, 10:03:25
was mir in den Specs noch fehlt, ist die Angabe ob er PCIe 4.0 unterstützt...
Hat da irgendjemand bereits eine Info entdeckt?

HPVD
2017-05-11, 10:06:46
@leonidas: super, dass in den Tabellen auch das Erscheinungsdatum steht - das macht irgendwie keine andere Webseite...
Aber es hilft sehr den Fortschritt einzuordnen!

HeinLo
2017-05-11, 10:46:35
Die Information zur Half-Precision wird man wahrscheinlich vergeblich suchen dürfen und irgendwann den Single-Precision Wert einsetzen.

Denn die Vermutung liegt doch nahe, dass für die gigantischen 120 Tensor-Flops die Verdopplung bei 16bit und 8bit Verarbeitung verworfen wurde und dafür im Design beschleunigenden Vereinfachungen eingeflochten sind. Somit für 16bit/8bit ein vereinfachtes ISA gilt mit weniger Instruktionen verwendet wird.
Dieser soll wohl Googles TPU im kommenden AI Markt das Wasser abgraben.

Ein Gaming-Chip wird sich vermutlich in diesem Punkt unterscheiden und auf allg. Support von 16bit Float setzen müssen.

PCIe 4 ist doch völlig wurscht bei diesem pfrofessionellen Produkt. Die Daten müssen in den lokalen RAM, über PCIe will man dann nichts zeitkritisches anbinden, die Datensourcen schaffen wohl kaum PCIe 3.

Leonidas
2017-05-11, 11:23:16
HeinLo:
Sehe ich ähnlich, vermutlich wird Tenso das Thema "HalfPrecision" komplett übernehmen.


PCI Express 4.0:
Noch nicht spruchreif, daher ziemlich sicher noch nicht mit dabei. GV100 hat dafür NVLink 2.0.

Cyphermaster
2017-05-11, 11:58:47
Wenn man sich da den oft manchmal nur marginalen "Fortschritt" in anderen rein technologisch getriebenen Branchen ansieht, kann man die Arbeit der Entwickler auch mal zu schätzen wissen.Ohne die Arbeit der Leute madig machen zu wollen: Die wirkliche Güte einer Entwicklung zeigt sich allerdings abhängig vom Grad der vorhandenen Einschränkungen der Physik. Die letzten 2% von 98% auf 100% des Möglichen sind viel schwerer zu erreichen, als die 20% von 60% auf 80%, auch wenn "nur" 2% Fortschritt "marginal" wirken.

Man sieht auch in der Halbleiterbranche, daß die Riesenschritte beginnen, kleiner zu werden... Es wird deshalb für die Chipentwickler zusehends schwieriger werden, noch an Effizienz zuzulegen. Früher haben das die Prozeß-Jungs immer locker irgendwie hingebogen - aber je feiner der Fertigungsprozeß, desto weniger ist noch zu gewinnen, und umso geschickter müssen die Transistoren eingesetzt werden.

HeinLo
2017-05-11, 12:30:03
Habe mal recherchiert was eigentlich mit Tensor Flops gemeint sein könnte.

Nach diversen Quellen soll es sich bei nVidia um ein relativ fixes Konstrukt für ein Single Takt Fast Multiply Add für 4x4 Matrix aus FP16 und Ergebnis FP32 handeln.
Laut Anandtech sind das 8 Tensor Cores pro SM. Ich würde deshalb vermuten diese Tensor Cores greifen auf je 8 Shadercores zu. Aber das ist schon noch sehr spekulativ. Sicherlich gibt es aber irgend ein Zusammenhang und doppelte Nutzung vorhandener HW.

Diverses FMA kennt man ja von CPUs und auch in GCN. Ich bin mal gespannt ob die anderen Hersteller auch künftig Tensor Flops angeben. Da AI nicht mein Thema ist kann ich garnicht beurteilen ob es lediglich diese eine FMA Operation braucht, oder ob da noch andere eine Rolle spielen. Interessant am Beispiel ist zumindest, dass Training wohl doppelt so hohe Leistung hat wie Inferencing, es ist zumindest einiges komplexer als der simple Tensor Flop Wert zunächst vermuten lässt.

Gast
2017-05-11, 14:59:25
Wenn man den GP100 in relation setzt, bekommt nvidia wohl effektiv grob 3,2% mehr Transistoren in 12nm unter.

Den Chip komplett betrachtet schon, aber nimmt man die Single Precision Werte, welche für das Gaming interessant sind, dann liegen hier 50% mehr Shader an. Das ist beachtlich. Ob die Chip größe hauptsächlich wegen der Tensor Cores so explodiert ist und GV104 daher mit 300mm² und 3584 Cudacores kommt? Dann könnte man 12nm zurecht 12nm nennen.

Gast
2017-05-11, 18:43:16
Laut Anandtech bringt 12nm gegenüber 16nm 20% Flächenersparnis bzw. 10% mehr Performance oder 25% weniger Verbrauch.

http://www.anandtech.com/show/11337/samsung-and-tsmc-roadmaps-12-nm-8-nm-and-6-nm-added/4

12nm als "16nm mit neuem Namen" zu bezeichnen ist also nicht ganz richtig, vielmehr ist es ein typischer Half-Node-Sprung.

Gast
2017-05-11, 20:26:34
nVidia setzt erneut auf HBM2, welches sie Ende 2015 noch wegen des zu erwartenden ansteigenden Energiebedarfs verteufelt haben.
Tatsächlich ist man weiterhin bei weniger als der Hälfte der Bandbreite, für die man 120W Verbrauch für das Speicherinterface prognostiziert hat. Wann braucht man die überhaupt?
Eine Lösung statt Gemecker hat nVidia weiterhin nicht präsentiert. Gibt es eine?

Sich darauf zu versteifen, dass es keinen Vollausbau geben wird, ist Blödsinn.

Die Tensor Cores sollen HP 'ersetzen'.

Die Chipgröße ist eine Hausnummer.

Leonidas
2017-05-12, 02:19:31
Laut Anandtech bringt 12nm gegenüber 16nm 20% Flächenersparnis bzw. 10% mehr Performance oder 25% weniger Verbrauch.

http://www.anandtech.com/show/11337/samsung-and-tsmc-roadmaps-12-nm-8-nm-and-6-nm-added/4

12nm als "16nm mit neuem Namen" zu bezeichnen ist also nicht ganz richtig, vielmehr ist es ein typischer Half-Node-Sprung.



Ein typischer Half-Node-Sprung wäre etwas mehr als das, zumindest beim Flächenbedarf. Die 10% werden kaum erreicht, real sind es 3% mehr Transistoren pro mm². Wenn sie die Verbrauchsvorgabe erreichen, sind sie Spitze - müssen sie aber wohl, weil ansonsten kann das Teil seinen Takt nicht ausreizen.

MrSpadge
2017-05-12, 22:07:13
nVidia setzt erneut auf HBM2, welches sie Ende 2015 noch wegen des zu erwartenden ansteigenden Energiebedarfs verteufelt haben.
Tatsächlich ist man weiterhin bei weniger als der Hälfte der Bandbreite, für die man 120W Verbrauch für das Speicherinterface prognostiziert hat. Wann braucht man die überhaupt?
Eine Lösung statt Gemecker hat nVidia weiterhin nicht präsentiert. Gibt es eine?

Sie haben damals gesagt, dass HBM1/2 dauerhaft nicht die letzte Lösung ist und sie schon in wenigen Jahren Besseres brauchen - viel früher, als man es außerhalb der Firma vielleicht erwartet hätte. Deshalb haben sie das den RAM-Entwicklern frühzeitig gesagt, da sie selbst keinen RAM-Standard entwickeln wollen (sowas macht man jetzt nicht mal nebenbei..).

Ansonsten: nen Faktor 2 gegenüber HBM2 bekommen sie sicherlich noch ohne größere Kopfstände hin. Die Frage ist nur zu welchem Preis (Stromverbrauch). Und ab wann die integrierte Optik das ernsthaft übernehmen kann ist schwer vorherzusagen.

Zu PCIe: auf Anandtechs Folien steht PCIe 3.0.

Half Precision: in Anandtechs Tabellen steht's mit 2:1 SP-Durchsatz drin. Die Tensor-Einheiten können HP für künstliche neuronale Netze mehr als ersetzen. Für viele andere mögliche Aufgaben sind sie mit ihrer festen Ausrichtung auf 4x4 Matrizen (äh, Tensoren) aber zu unflexibel, kann ich mir vorstellen. Und größere Matrixmultiplikationen mal eben in 4x4 Teilblöcke zu unterteilen stelle ich mir ziemlich fies vor, sowohl was den Programmieraufwand als auch den Overhead durch zusätzliche Operationen angeht.

Den Chip komplett betrachtet schon, aber nimmt man die Single Precision Werte, welche für das Gaming interessant sind, dann liegen hier 50% mehr Shader an. Das ist beachtlich. Ob die Chip größe hauptsächlich wegen der Tensor Cores so explodiert ist

Das wäre aber Quatsch, wenn man diie Packungsdichte betrachten will. Dort zählt, wie groß der hergestellte Chip ist und wie viele Transistoren darin verbaut wurden. Nicht, wie viele davon nVidia eineinem bestimmten Produkt freigeschaltet hat. An dieser Stelle hat GV100 nämlich einen Vorteil gegenüber GP100, da prozentual mehr Shader aktiviert sind.
Die Chipfläche ist gewachsen, weil mehr SMs verbaut wurden - die alleine reichen schon, um die werte ungefähr zu erklären. Nebenbei sind einige Caches gewachsen und die Kontrolllogik wurde umgebaut und erweitert.

Ich würde deshalb vermuten diese Tensor Cores greifen auf je 8 Shadercores zu. Aber das ist schon noch sehr spekulativ.

Laut Anandtech können die 8 TPUs in einem SM zusammen 1024 Operationen pro Takt, die FP32 ALUs aber nur 256 / 128 in HP / SP. Schon vom Durchsatz her können es nicht (nur) die normalen ALUs sein, selbst wenn die FP64 mit jeweils 4 HP Operationen hinzu kommen würden (-> Faktor 2 schneller, 4 wäre aber nötig).

Interessant finde ich, wie sie die TPUs mit Arbeit versorgen. Mal eben den 4-fachen Durchsatz in nen SM bringen, heißt normalerweise auch die Datenpfade, Registerbandbreite etc. um diesen Faktor zu erhöhen. Was dann für die normalen FP32/64-Berechnungen verschwendet wäre, da nie nutzbar. Ein derart schlecht ausbalanciertes System baut nVidia nicht. Deshalb hat auch kein Chip 1:1 SP:DP Verhältnis, da dann in SP die Hälfte der Datenpfade ungenutzt wären.

GV100 dürfte es helfen, dass die Gewichte (das B in D = A*B + C) bei trainierten Netzen immer gleich bleiben, d.h. zumindest in caches & Registern bleiben können. Aber warum ist es immer ne 4x4 Matrixoperation? Ist bei Googles TPU auch so.. ad hoc erschließt sich mir allerdings nicht, warum das so ist.

MrS