PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Diskussion zu: Wie nVidias "Volta" Gaming-Chips unter der 12nm-Fertigung aussehen ...


Leonidas
2017-05-13, 18:06:11
Link zur News:
https://www.3dcenter.org/news/wie-nvidias-volta-gaming-chips-unter-der-12nm-fertigung-aussehen-koennten

IchoTolot
2017-05-13, 21:14:39
Ich frage mich ja wie es bei Grafikkarten mit der Entwicklung weitergeht. Der nVidia Chef - ich weiß den Namen nicht - soll ja gesagt haben, dass man sich an der Grenze des technisch möglichen bewege. Man bekommt da schon irgendwie was Schiss. Wie soll das Tempo noch gesteigert werden? Nutzen Grafikkarten eigentlich auch "Befehlssätze" wie CPUs? Sicher oder? Bin da noob. ^^ Oder haben wir bald auch Mehrkern GPUs?

cat
2017-05-13, 21:40:50
Die erste Einschätzung gefällt mir am meisten, weil es den Weg der salvage Karten auf gleichem Weg wie bei Pascal ermöglich und wahrscheinlich macht.
Über die Pascal Karten kann man sich wirklich nicht beschweren.
abgesehen von der 1060 3GB

Die Nachflogerin der 1070 wäre mit 3GPCs und somit 21SMv bei 2688

Der GV106 mit 14SMv und 1792 Cores dürfte wohl 192bit und 6GB haben.
1152-1536 Cores 3-6GB für die Salvage (evtl. 2 Salvage Karten)

cat
2017-05-13, 22:18:49
Oder haben wir bald auch Mehrkern GPUs?

aktuell nutzen GPUs schon über 4000 "Kerne" allerdings handelt es sich dabei um Zusammenschlüsse bzw. Gruppen davon.
Diese "Kerne" sind (INT)Integer-Einheiten also Ganz-Zahlen-Einheiten und (FPU) Fließkomma-Einheiten die sozusagen sehr gut runden und schätzen können.

Einzelne CPU-Kerne besitzen aber auch mehrere dieser Einheiten gleichzeitig in sogenannten Pipelines, das schwankt zwischen 1und4,5,6 pro CPU-Kern.

Bei Ein-Chip-Grafikkarten sind diese Einheiten nach Hersteller Nvidia, AMD etwas anders verteilt in Clustern oder Arrays.

Bei Nvidia sind die größten Karten mir 6 Clustern bestückt von denen jeder fast eine eigene Grafikkarte sein könnte.
jeder GraphicsProcessingCluster kann 1 Primitiv pro Takt zur Erzeugung der 3-Dimensionalen Umgebung erzeugen und hat mehrere Shader-Multiprozessoren die die eigentlichen Kerne in Gruppen zu 4x 32 Kernen enthalten, die SM enthalten auch Einheiten die für das projizieren der fertigen 3D-Szene in die 2D-Pixel des Bildschirms sind, die heißen Rasterizer-Einheiten.
Mit Volta wird die Menge der SM und damit auch der Rasterizer pro Primitiv-Erzeuger von 5 bei Pascal auf 7 steigen.
Also 896 Kerne pro GraphicsProcessingCluster bei Nvidia Volta.

AMDs Architektur kann nur maximal 4 Primitiv-Erzeuger enthalten.
Die Verschaltung erfolgt bei der FuryX z.B. in 4 Arrays mit je 16 Compute-Units
die enthalten aber keine 128 Kerne wie bei Nvidia sondern nur 64 "Kerne" genauer gesagt 4x 16 Kerne. Und auch keine Rasterizer im Gegensatz zu Nvidias System.
Also 1024 Kerne pro Array und Primitiv-Erzeuger und Rasterizer bei AMD.

In beiden Systeme bekommen die Kern-Verbände mehrere dekodierte Aufgaben-Blöcke zugewiesen die in mehreren Takten abgearbeitet werden müssen, meistens dauert es 4 Takte. Von Takt zu Takt kann zwischen den verschiedenen Blöcken gewechselt werden, wenn z.B. auf Daten gewartet werden muss. Es würde dann aussehen wie Kasskaden, dadurch wird sehr parallel gearbeitet und Latenz versteckt.


Bis heute leidet AMD -ich hoffe das es mit Vega vorbei ist- an einem riesen System-Problem:
Einmal zusammengestellte Aufgaben-Blöcke können nach kurzen Zeit (direkt nach dem dekodieren oder nach 1-3 Takten) häufig Befehle enthalten die mitlerweile falsch oder unnötig sind.
Diese Befehle kann AMD nicht verwerfen sondern muss den Block vollständig ausführen was Strom frisst und Rechenleistung verschwendet.
Das heißt für AMD hätte die Lösung dieses Problems doppelten Nutzen. :biggrin:

Nvidia scheint das vermeiden zu können.

danarcho
2017-05-13, 23:19:03
Einmal zusammengestellte Aufgaben-Blöcke können nach kurzen Zeit (direkt nach dem dekodieren oder nach 1-3 Takten) häufig Befehle enthalten die mitlerweile falsch oder unnötig sind.

Könntest du das etwas näher ausführen? Ich versteh nur Bahnhof. Wäre auch super, wenn du etwas gängigere Terminologie verwendest. Was meinst du mit Aufgaben-Block? In welchem Fall werden Instruktionen falsch oder unnötig? Hast du ein Code-Beispiel?

Iscaran
2017-05-14, 00:05:59
Volta-Spekulation #1 (pessimistisch)
GV106 ~220mm² (+10%) = max. 1792 Shader-Einheiten (+40%)
GV104 ~360mm² (+15%) = max. 3584 Shader-Einheiten (+40%)
GV102 ~540mm² (+15%) = max. 5376 Shader-Einheiten (+40%)


Die Werte halte ich für unrealistisch...

Vergleichen wir mal GP100 mit GV100:

GP100: 610mm2 = 3840 Shader
GV100: 815mm2 (+34%) = 5376 Shader (+40%)

Man beachte dass die Flächenzunahme von GV zu GP nahezu 1:1 mit der Shaderzunahme korreliert. Nur +6% zusätzliche Shader durch sonstige Architekturoptimierungen.

Warum sollten die kleinen Chips fast einen Faktor 2 mehr "Shaderzuwachs/Fläche" haben als der big Chip GV100 ?

Realistischer ist daher denke ich:
=> GV106 220mm2 =+10% Chipfläche => + ~15-20% Shader = 1536(bei +20%)
=> GV104 360mm2 =+15% Chipfläche => + ~20-25% Shader = 3200(bei +25%)
=> GV102 540mm2 =+15% Chipfläche => + ~20-25% Shader =4800(bei +25%)

Die optimistischen bis sehr optimistischen Schätzungen halte ich daher für erst recht unmöglich.

EDIT:
Das passt dann auch gut zur Aufteilung der Rasterengines mit Vielfachen von 6 ( Da sich dies nicht gut auf 6 Raster-Engines aufteilen läßt, sind demzufolge eher "nur" 12 mehr Shader-Cluster beim GV102 anzunehmen, was insgesamt 42 Shader-Cluster auf einer Chipfläche von ~540mm² für diesen Grafikchip ergibt.
Mit 128 Shadern/Cluster würde ich dann bei 1536 Shadern auf nur 12 Cluster statt 14 kommen beim GV106. 12 ist ein ganzzahliges Vielfaches von 6. 14 würde da eben nicht passen.
Analog GV104 3200 Shader/128 = 25 => realistischer 24 (=2x12) und wiederum ein ganzes Vielfaches von 6.
Damit müsste man beim GV104 sogar nochmal nach unten korrigieren auf 3072 Shader.
4800 /128 =37.5...das ergibt analoge Problem beim verteilen...=> Möglicherweise sind wir hier sogar nur bei 36 Cluster. Was dann 4608 Shader wären.
Das sind dann ganz analog Steigerungen um +20% Shader bei allen 3 Chips.

EDIT2: Hmmm GP104 hat ja 4 Raster engines GP 106 nur 2...evtl. gingen da dann doch noch andere Aufteilungen...dennoch +20-25% Shader ist imho was drin ist sofern die kleinen Chips auch nur annähernd wie der Große "skalieren" und aufgebaut sind.

Gast
2017-05-14, 02:44:55
Man kann leider 1 zu 1 vom Gp100 vs Gv100 nichts ableiten, aber man darf davon ausgehen das die Plus Minus 60% auf die nächste Generation drauf gelegt wird an Leistung, genau wie es die letzten Jahre der Fall war, genauso +50$ nochmals oben drauf.

Gast
2017-05-14, 10:06:39
Ich frage mich ja wie es bei Grafikkarten mit der Entwicklung weitergeht. Der nVidia Chef - ich weiß den Namen nicht - soll ja gesagt haben, dass man sich an der Grenze des technisch möglichen bewege. Man bekommt da schon irgendwie was Schiss. Wie soll das Tempo noch gesteigert werden? Nutzen Grafikkarten eigentlich auch "Befehlssätze" wie CPUs? Sicher oder? Bin da noob. ^^ Oder haben wir bald auch Mehrkern GPUs?

Solange nichts grundlegend neues gefunden wird sich die Chipfertigung Mitte der Zwanziger in ein Plateau bewegen. Sicherlich wird noch das ein oder gehen, aber dafür braucht es auch Kunden die das bezahlen wollen. Der Markt für Grafikkarten die so viel kosten wie ein neues Auto wird recht überschaubar sein.

hardtech
2017-05-14, 10:23:33
@cat

zu viel freizeit?

Leonidas
2017-05-14, 21:49:07
Die Werte halte ich für unrealistisch...

Vergleichen wir mal GP100 mit GV100:

GP100: 610mm2 = 3840 Shader
GV100: 815mm2 (+34%) = 5376 Shader (+40%)

Man beachte dass die Flächenzunahme von GV zu GP nahezu 1:1 mit der Shaderzunahme korreliert. Nur +6% zusätzliche Shader durch sonstige Architekturoptimierungen.

Warum sollten die kleinen Chips fast einen Faktor 2 mehr "Shaderzuwachs/Fläche" haben als der big Chip GV100 ?


... weil GV100 seine Tensor Cores und andere Verbesserungen trägt, die nur der Auslastung seiner *verschiedenen* Recheneinheiten zuträglich ist. Nichts davon wird bei den Gamer-Chips von Volta Verwendung finden.

Kann natürlich sein, das NV für die Gamer-Chips von Volta sich ebenfalls noch gravierende andere Veränderungen ausdenkt. Beim GV100 ist davon jedoch noch nichts zu sehen (wäre auch Quatsch, bei diesem Chip die Spiele-Performance weiter zu optimieren).

Generell gesehen hast Du Recht: Sofern nVidia noch wirklich an GV10x herumoptimiert zugunsten von Gaming, passen meine Rechnungen nicht. Sie sind faktisch Pascal + weitere CU, ohne größere Optimierungen. So gesehen sind meine Rechnungen allesamt optimistisch und Deine Rechnung ist die einzige wirklich defensive Rechnung.

Gast
2017-05-14, 21:52:25
Warum sollten die kleinen Chips fast einen Faktor 2 mehr "Shaderzuwachs/Fläche" haben als der big Chip GV100 ?


Vielleicht weil die Tensor-Cores, FP64 und evtl. auch der hohe INT-Durchsatz fehlen werden?
Nicht zu vergessen dass GV100 auch deutlich breitere Datenpfade haben muss, da dieser beispielsweise FLOAT32 und INT8 auch gleichzeitig ansteuern kann. Ich denke mal auch dass die Tensor-Cores nicht den kompletten SM blockieren, aber genauere Details gibt's ja von Nvidia leider noch nicht.
Anyway, Faktor 2 bei den Gamer-Chips gegenüber GV100 klingt mehr als realisitisch, eher noch zu niedrig

Iscaran
2017-05-14, 22:47:06
... weil GV100 seine Tensor Cores und andere Verbesserungen trägt, die nur der Auslastung seiner *verschiedenen* Recheneinheiten zuträglich ist. Nichts davon wird bei den Gamer-Chips von Volta Verwendung finden.

... So gesehen sind meine Rechnungen allesamt optimistisch und Deine Rechnung ist die einzige wirklich defensive Rechnung.

Es sind nur 336 Tensor cores (TC) verbaut gegenüber 5376 Shadern (SC). Ich hab zwar keine Ahnung wie groß so ein TC vs einem SC ist - aber nur mal unter der Annahme das die in etwas gleich groß sind: Dann sind die 336 Tensor cores nur ~6% (EDIT: 12%) weitere Shaderfläche.

EDIT: Sorry hatte was falsch im Kopf: Es sind 640 TCs
https://www.nvidia.com/en-us/data-center/volta-gpu-architecture/

Da ich die Bilder von GV100 nicht kenne, und daher keine Schätzung zu den Einzelgrößen von TC bzw. SC habe ist obiges leider sehr spekulativ.

Aber gesetzt den Fall dass ein TC rein Flächenmäßig nicht viel anders ist als ein SC dann könnten gaming Ableger von GV100 ca 6% bessere Shaderpackdichte + weitere 6% (EDIT 12%) wegen des Austausches von TC gegen SC aufweisen.
Noch ein bisschen Platzersparnis bei anderen Komponenten dann kommt man bestenfalls auf 20% (EDIT 25%) mehr Shader bei gleicher Chipfläche.

=> 1.) Wenn die GV102-106 in etwa dieselben Chipflächen wie ihre Pascalpendants haben sollten würde ich nicht mit wesentlich mehr als 25-35% mehr Shadern rechnen.
Alternativ
=> 2.) Die Chips werden deutlich größer (Flächenzuwachs ~25-30% relativ zu den Pascals. Dann lassen sich sicherlich auch +40-50% Shader realisieren.

Die Frage ist halt ob nVidia wirklich in allen Segmenten auf "Big Chips" setzen will.

Naja - warten wirs ab.
Aber nach allem was man bisher weiss ist Volta eher ein Computing chip denn ein Gamer chip. Für die Gaming-Seite ist es eher ein half-node step von daher würde ich den Performance-Zuwachs für diese nächste Generation chips eher "pessimistisch" schätzen.


Anyway, Faktor 2 bei den Gamer-Chips gegenüber GV100 klingt mehr als realisitisch, eher noch zu niedrig


Faktor 2 mehr shader ?!? / Performance...

Also meiner Meinung nach wird es nVidia hier schwer haben selbst die "üblichen" 50% von Generation zu Generation drauflegen zu können.

Gastbeitrag
2017-05-14, 23:41:34
Ich denke mal nVidia hat mit dem GM200 gezeigt, das nV auch bereit ist einen 'reinen' Gamer Chip mit um die 600mm² Größe aufzulegen, damals auch aus Gründen einer nicht verfügbaren deutlich kleineren Fertigung. Die beinahe gleichen Voraussetzungen sind doch derzeit auch gegeben mit der 16nm (bzw. 12nm) und 10nm/7nm Fertigung.

Da sich ein neuer Chip ja nur rechnet, wenn er zu vorhandenen Chips spürbar Vorteile bringt auf irgendeine Art, also ein kleinerer Chip mit gleicher Leistung Ermangelung neuer Fertigung also nicht geht, kann es ja nur ein größerer Chip mit mehr Leistung sein. Also halte ich es durch aus für realistisch das nVidia hier ein GV102 mit 550 bis 600mm² auflegen wird mit entsprechender deutlicher Mehrleistung zum GP102 mit 472mm².

Gast
2017-05-15, 00:57:10
Der 16nm Prozess bei TSMC bzw. der darauf basierende angepasste 12nm FFN scheint doch schon sehr gereift zu sein, wenn man bedenkt das nVidia bei der Tesla P100 vom 3840 Shader starken GP100 nur deren 3584 Shader nutze.

GP100 = 3840 Shader = 100% vs Tesla P100 = 3584 Shader = ~93%
GV100 = 5376 Shader = 100% vs Tesla V100 = 5120 Shader = ~95%

GP100 = 610mm² = 100% vs GV100 = 815mm² = ~134%

Obwohl der GV100 mit rund 34% deutlich mehr Fläche nutzt, deaktiviert nVidia zur Steigerung der Produktionsausbeute prozentual gesehen sogar rund 2% weniger Shader als beim deutlich kleineren GP100 Chip.

Iscaran
2017-05-15, 09:03:55
Also halte ich es durch aus für realistisch das nVidia hier ein GV102 mit 550 bis 600mm² auflegen wird mit entsprechender deutlicher Mehrleistung zum GP102 mit 472mm².

Ja das halte ich auch für möglich.

Aber diese wundersame Performance explosion bei quasi gleicher Chipgröße wie von Leonidas im Artikel spekuliert ist eher unwahrscheinlich/unmöglich.

Frage ist halt ob nVidia sich "teuerere" (weil deutlich größere) Chips leisten will als AMD ins Feld führt...
Andererseits bei den Preisen dürfte es egal sein. nVidia Manufacturing kosten für eine 1060 sind ja vermutlich eh weit niedriger als 100$/Chip da ist also noch Luft nach oben.

Gast
2017-05-16, 01:46:35
Frage ist halt ob nVidia sich "teuerere" (weil deutlich größere) Chips leisten will als AMD ins Feld führt...
Dann könnte man gleich die Frage stellen, ob denn nVidia überhaupt irgendeine Not hätte in absehbarer Zukunft die GTX 1080 Ti (12,2TFLOPs @ 'nur' 1,7GHz oder 13,6TFLOPs @ 1,9GHz Partner Modelle ; 12GB 484GB/s) wegen der RX Vega (13,1TFLOPs @ 1,6GHz , 8GB max 512GB/s) durch einen vielleicht ~540mm² 12nm GV102 mit möglicherweise geringen 20% mehr (6 GPC x 6 TPC x 128 = 4608) Shader zu ersetzen bei nahezu identischen Pascal Taktfrequenzen?!

https://abload.de/thumb/gp102-block-6x5_vs_6xtosnt.jpg (http://abload.de/image.php?img=gp102-block-6x5_vs_6xtosnt.jpg)

Gast
2017-05-16, 17:57:02
Es sind nur 336 Tensor cores (TC) verbaut gegenüber 5376 Shadern (SC). Ich hab zwar keine Ahnung wie groß so ein TC vs einem SC ist - aber nur mal unter der Annahme das die in etwas gleich groß sind: Dann sind die 336 Tensor cores nur ~6% (EDIT: 12%) weitere Shaderfläche.

EDIT: Sorry hatte was falsch im Kopf: Es sind 640 TCs
https://www.nvidia.com/en-us/data-center/volta-gpu-architecture/

Da ich die Bilder von GV100 nicht kenne, und daher keine Schätzung zu den Einzelgrößen von TC bzw. SC habe ist obiges leider sehr spekulativ.


Ein Shadercore = 2 FP32 ALUs, je eine ADD und MUL ALU.
Ein Tensorcore = 16 FP16 MUL-ALUs + 16 FP32 ADD-ALUs

Alleine daraus scheint mir die Annahme dass 1 Tensorcore in etwa der Größe eines Shadercores entspricht arg unwahrscheinlich.

Klar wird die Dichte der ALUs in den Tensorcores deutlich höher sein (ansonsten könnte man ja gleich herkömmliche Cores verwenden), aber dass man plötzlich 32ALUs auf den Platz den ansonsten 2 bekommen hinbringt erscheint mir doch sehr unwahrscheinlich.

Iscaran
2017-05-18, 09:06:50
Ein Shadercore = 2 FP32 ALUs, je eine ADD und MUL ALU.
Ein Tensorcore = 16 FP16 MUL-ALUs + 16 FP32 ADD-ALUs


Wenn das zutrifft könnte man die Tensor cores eventuell um die Existierenden FP32-ALUS herumgruppieren und verschalten. So Dass man z.B. Entweder den "Tensor-Core" nutzt ODER den klassischen Shader-Core.

1Tensorcore wäre dann sowas wie 8xShadercore+ADD+MUL (Die FP16 einheiten lassen sich aus den FP32 heraus direkt "generieren" weswegem 16+16 gut passen würde)

Ansonsten hast du Recht ein Tensor Core dürfte dann ca 8-10 die Größe eines Shader-Cores haben...

Das wäre aber IMHO ein IMMENSER Platzbedarf...ich glaube das nVidia hier durch geschickte "Bauteil"-Verknüpfung einfach 2 fliegen mit einer Klappe schlägt.
EDIT: Es ist bestimmt KEIN Zufall dass 8x640 = 5120 ist...bei 5376 Shadercores....die restlichen 256 werden also entweder nicht zu Tensor-Cores gekoppelt oder erfüllen dann andere Aufgaben (MUL/ADD ?)
EDIT2: Dann wäre es allerdings auch kaum ein Mehrbedarf an Platz für die Tensorcores...die sind dann eigentlich "Teil" der Shader...(Bzw. umgekehrt)

Gast
2017-05-18, 13:08:53
...
Erschreckend wie nVidia im Alleingang weiter macht. Wie man die kennt machen die in ihrem stillen Kämmerlein und knallen dann Anfang 2018 die Karten auf den Tisch, da habt ihr. Jensen erlaubt zudem jetzt unsinnige Projekte, bei denen sich die Engineers beweisen können und man bei Fertigungsgrenzen an die Machbarkeit geht.

AMD äfft indes die FE Praktik nach, um an mehr Geld zu kommen. Als wenn die nichts anderes zu tun haben. Wenn die so weitermachen ist nVidia ganze zwei Gens weiter. Dann braucht man nicht mehr überlegen was man von wem kauft, dass erledigt sich ganz von allein. Wie die das Thema GPU seit ATI runter gewirtschaftet haben, muss denen endlich mal einer sagen.

Wirkliche Konkurrenz für nVidia scheint das jedenfalls nicht mehr zu sein. NVidia selbst muss es schwer fallen, sich irgendwo sinnige Ziele zu setzen - wenn man kaum Konkurrenz hat oder fürchten muss. AMD kann nur hoffen das die einen Entwurf wie damals den NV30 mal gehörig verwachsen. Ansonsten können die einpacken. Wenn Volta wirklich +40% zu Pascal im Consumerbereich drauflegt, ist man 80-90% weit weg von Fiji. Wie will AMD das mit Vega aufholen? Selbst Vega 11 hilft da nicht ab, der wird eher nur ein Refresh wie oder für den Polaris 20 um Polaris auf Vega-NCUs zu updaten. Von Navi hat man bisher nichts gehört und wie man AMD kennt wird der ein weiteres Jahr nach hinten verschoben. 7nm ist noch lange nicht reif. AMD hat dabei das Talent, auf Technologien zu setzen, die eine Massenverfügbarkeit ausschließen. Die haben sich mit GCN IMO völlig verzettelt.

Solche Spielereien wie den GV100 mit 800+mm² Diefläche zeigen das deutlich, man baut es - weil man es kann und sich leisten darf, Zeit hat man ja genug. Ein gehöriger Dämpfer für AMD und Koduris RG. AMD hat nichts weiter zu tun, als nVidia dabei nachzuäffen und mit FE Derivaten auf ein GTX/Titan Abverkaufskonzept bei Vega zu setzen. War beim GPU-Boost auch schon so. Ob die AMD-Partner das nach den Quärelen der letzten Jahre für gut heißen, kann man sich kaum vorstellen. Die haben ja so schon nichts verdient und AMD tritt jetzt mit denen in direkte Konkurrenz beim Absatz. Als abgeschlagene #2 im Markt, ehrlich? Auweia...autsch das tut schon richtig weh. Die AMD Enthusiasten ala Fiji-Besitzer müssen sich doch richtig veräppelt vorkommen. 2 Jahre keine Nachfolgehardware und dann kommt AMD mit FEs um die Ecke – lächerlich.:rolleyes: