PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : nVidia - Volta - 2017/2018 (GV100, Xavier, ...)


Seiten : 1 2 3 4 [5] 6 7

aufkrawall
2017-08-11, 18:04:15
Ich muß -nebenbei- sagen, daß ich die starke Steigerung von Perf./Watt und die 30% Steigerung nicht unbedingt sehe. Ich vermute Volta eher bei 20, maximal 25%. Zum Einen wegen der schon hohen Taktungen der aktuellen Karten, zum Anderen wegen der durch das Nicht-Gleichziehen von Vega mit der 1080Ti-Klasse verführerischen Aussicht, nochmal einen Zyklus lang gewinnoptimierter zu fahren, statt auf technologischer Kante genäht. Moderatere Taktungen und geringere Perf./Watt-Steigerungen verbessern die Yields und verringern die Entwicklungs- sowie Einkaufskosten (keine superteuren BAT-Speichermodule nötig).
Man wird immer das beste Perf./Watt-Verhältnis versuchen zu erzielen, um dann zu höheren Preisen verkaufen zu können. Gerade weil man außer Konkurrenz läuft, kann man dann doch noch viel besser abstauben.
Und wenn man die GPU durch lahmen Speicher ausbremsen will, wär man auch blöd, nicht gleichzeitig auch Takt und Spannung zu reduzieren. Dann kann man später um so besser einen Refresh platzieren.

Hübie
2017-08-11, 18:48:14
Siehe Kepler. Hat mit der GTX 680 -> 770* super funktioniert. Genau so wie Titan classic -> 780 Ti (es gab von EVGA einige 6GB Varianten die sich Mitarbeiter in den PC schrauben durften, da Jensen die Jungs zurück gepfiffen hat und die es so nie auf den Markt schafften).
Man kann also alternierend Speichermenge und Takt entsprechend anpassen um Refreshes oder Respins zu platzieren.

*fairerweise muss man sagen dass hier das PCIE PHY gefixt wurde, also ein metalspin statt fand.

BoMbY
2017-08-11, 21:15:33
Je mehr ich drüber nachdenke was Jensen da gesagt hat, und was auch sonst so von Earning Call zu vernehmen ist, desto mehr glaube ich, die planen gar keine Gamer-Volta, und nur einen Pascal-Refresh in 2018, eventuell mit 12FFN, aber weiter mit GDDR5X, und das GDDR6 von Hynix ist vermutlich für die Vega 11 von AMD.

Skysnake
2017-08-11, 21:45:20
Naja, was man bisher von Volta gesehen hat, ist wohl nicht nützlich für gameing

Oktober hbm2 aber sonst?

Digidi
2017-08-13, 11:22:59
Volta für Gaming kommt Anfang 2018.
http://www.pcgameshardware.de/Volta-Codename-266151/News/Nvidia-GV100-Produktionskosten-Geforce-2017-1235632/

Wahrscheinlich ist Volta von der Architektur zu nahe an Pascal um da so ein Risiko mit big chip einzugehen.

Bestätigt auch das 12nm nur 16nm+heiße Luft sind.

AlterSack
2017-08-13, 11:38:28
Je mehr ich drüber nachdenke was Jensen da gesagt hat, und was auch sonst so von Earning Call zu vernehmen ist, desto mehr glaube ich, die planen gar keine Gamer-Volta, und nur einen Pascal-Refresh in 2018, eventuell mit 12FFN, aber weiter mit GDDR5X, und das GDDR6 von Hynix ist vermutlich für die Vega 11 von AMD.

Glaube nicht, dass ein Vega 11 kommt.
Der Chip wäre zu gross, also zu teuer und wahrscheinlich kaum schneller als Polaris.

BoMbY
2017-08-13, 11:44:07
Glaube nicht, dass ein Vega 11 kommt.
Der Chip wäre zu gross, also zu teuer und wahrscheinlich kaum schneller als Polaris.

Auch wenn es OT ist, aber Vega 11, 12 und 20 sind praktisch bestätigt. (https://videocardz.com/71280/amd-vega-10-vega-11-vega-12-and-vega-20-confirmed-by-eec)

Digidi
2017-08-13, 11:45:14
Glaube nicht, dass ein Vega 11 kommt.
Der Chip wäre zu gross, also zu teuer und wahrscheinlich kaum schneller als Polaris.
Bombay könnte Recht haben. Gv100 sieht sehr nach gp100 aus wenn man Mal die Tensor Cores weg lässt. Der Pascale refresh kommt dann halt als Volta mit kleinen Verbesserungen

BlacKi
2017-08-13, 11:59:40
Bombay könnte Recht haben. Gv100 sieht sehr nach gp100 aus wenn man Mal die Tensor Cora weg lässt. Der Pascale refresh kommt dann halt als Volta mit kleinen Verbesserungen
solange die +60% performance rumkommen ist doch alles in butter. dann kommt 1070-1080 performance für 250-300€ und für 450€ dann 1080ti performance. vl gönne ich mir ja aber auch diesmal den full chip gv104, irgendwie müssen die vielen pixel von UWQHD nächstes jahr ja geschubbst werden.

Digidi
2017-08-13, 12:03:09
solange die +60% performance rumkommen ist doch alles in butter. dann kommt 1070-1080 performance für 250-300€ und für 450€ dann 1080ti performance. vl gönne ich mir ja aber auch diesmal den full chip gv104, irgendwie müssen die vielen pixel von UWQHD nächstes jahr ja geschubbst werden.

Glaub Mal nicht dran so wie es aussieht ist 12nm nur ein etwas besserer 16nm Prozess. Ich tippe Mal das man den Chip 10-20% größer macht und dann so 10-20% Mehrleistung raus kommen. Die Zeiten massiver Steigerungen sind vorbei. Siehe Intel.

Locuza
2017-08-13, 12:05:39
Bombay könnte Recht haben. Gv100 sieht sehr nach gp100 aus wenn man Mal die Tensor Cora weg lässt. Der Pascale refresh kommt dann halt als Volta mit kleinen Verbesserungen
Volta verwendet eine neue ISA und hat die Cache-Hierarchy verändert, dass sind keine kleinen Verbesserungen.

horn 12
2017-08-13, 12:05:48
Würde ich unterschreiben.

Digidi
2017-08-13, 12:09:58
Volta verwendet eine neue ISA und hat die Cache-Hierarchy verändert, dass sind keine kleinen Verbesserungen.

Da muss man Mal abwarten was beim Gaming Chip übrig bleibt. Die neue Isa und cach hirachie könnte ja nur wegen AI/Tensore Cores nötig sein.

Locuza
2017-08-13, 12:17:17
[1] Da muss man Mal abwarten was beim Gaming Chip übrig bleibt.[2] Die neue Isa und cach hirachie könnte ja nur wegen AI nötig sein.
1. Ja
2. Nein

basix
2017-08-13, 12:29:42
solange die +60% performance rumkommen ist doch alles in butter. dann kommt 1070-1080 performance für 250-300€ und für 450€ dann 1080ti performance.

Von der Performance her könnte es klappen. Beim Preis kannst du wohl Faktor 2x draufrechnen :(

Edit: Ah sorry, falsch gelesen. Preise OK. Aber wenn man die entsprechenden 1070/1080 und 1080 Ti Derivate mit Volta anschaut, wird es wohl mit Faktor 2x rauskommen.

Digidi
2017-08-13, 12:36:06
Von der Performance her könnte es klappen. Beim Preis kannst du wohl Faktor 2x draufrechnen :(

Edit: Ah sorry, falsch gelesen. Preise OK. Aber wenn man die entsprechenden 1070/1080 und 1080 Ti Derivate mit Volta anschaut, wird es wohl mit Faktor 2x rauskommen.

Das ist physikalisch nicht möglich außer Volta kommt in 7nm



2. Nein
Mehr Input bitte!

basix
2017-08-13, 12:42:06
Wieso sollte das physikalisch nicht möglich sein? Performance: +20% Die Size, +20% Packdichte, +20% Architektur oder Takt. Alles im Rahmen des Möglichen.

Für Volta wird ein relativ starker Effizienzanstieg angegeben. Ist die Frage, ob der ebenfalls so hoch ausfallen kann. Maxwell Reloaded halte ich für sehr schwierig.

Digidi
2017-08-13, 12:49:41
Wieso sollte das physikalisch nicht möglich sein? Performance: +20% Die Size, +20% Packdichte, +20% Architektur oder Takt. Alles im Rahmen des Möglichen.

Für Volta wird ein relativ starker Effizienzanstieg angegeben. Ist die Frage, ob der ebenfalls so hoch ausfallen kann. Maxwell Reloaded halte ich für sehr schwierig.

Die Die Size steigt vielleicht 10-20%, packdichte bei 12nm ist fast gleich zu 16nm. Es bleibt der Unsicherheitsfaktor Architektur und da weiß man noch nicht ob man vielleicht eher bei Pascal bleibt.

Gv100 hat bestimmt Unsummen an Entwicklungskosten verursacht das wird man mit einem Gaming Chip nicht riskieren.

Locuza
2017-08-13, 12:54:35
[...]
Mehr Input bitte!
Lies dir das Whitepaper durch:
http://images.nvidia.com/content/volta-architecture/pdf/Volta-Architecture-Whitepaper-v1.0.pdf

Gängige Instruktionen benötigen nur noch vier Zyklen, gegenüber den aktuellen sechs und die veränderte Cache-Struktur kommt allgemein Berechnungen zu Gute.
Nichts davon ist nur wegen AI nötig gewesen oder nur bei AI von Vorteil.

Digidi
2017-08-13, 12:56:23
Danke Locuza für was Handfestes. Was für Auswirkungen hat denn ungefähr die Latenzsenkung von 6 auf 4 cycles?

BoMbY
2017-08-13, 13:05:13
Nvidia Volta: GV100 kostet fast 1.000 USD in der Produktion (http://www.pcgameshardware.de/Volta-Codename-266151/News/Nvidia-GV100-Produktionskosten-Geforce-2017-1235632/) - sind so in etwa 4-5 funktionierende Dies pro Wafer, wenn ich das richtig sehe? Auf jeden Fall deutlich mehr als ich gedacht hatte.

AlterSack
2017-08-13, 13:08:35
solange die +60% performance rumkommen ist doch alles in butter. dann kommt 1070-1080 performance für 250-300€ und für 450€ dann 1080ti performance. vl gönne ich mir ja aber auch diesmal den full chip gv104, irgendwie müssen die vielen pixel von UWQHD nächstes jahr ja geschubbst werden.

...Blütenträume...?

http://www.pcgameshardware.de/Volta-Codename-266151/News/Nvidia-GV100-Produktionskosten-Geforce-2017-1235632/

Vorerst kommt kein Volta für Spieler. :D

BlacKi
2017-08-13, 13:13:21
Von der Performance her könnte es klappen. Beim Preis kannst du wohl Faktor 2x draufrechnen :(

Edit: Ah sorry, falsch gelesen. Preise OK. Aber wenn man die entsprechenden 1070/1080 und 1080 Ti Derivate mit Volta anschaut, wird es wohl mit Faktor 2x rauskommen.
von kepler gk104 auf maxwell gm204 ist man mit der die size ebenfalls erheblich nach oben gegangen um die 60% steigerung zu bekommen, da der fertigungsprozess gleich blieb. dasselbe wird man erneut sehen. gv102 wird 550-610mm² groß das sind alleine schon 25-30%, noch nicht einmal berücksichtigt das 12nm etwas chipfläche einsparen kann. die volta architektur soll nun noch taktfreudiger sein als pascal.
wenn man sich nun die preise der vergangenheit ansieht, sind die g*104 chips 50$ teurer geworden als der vorgänger zum release.

gv104 full chip wird keine 1000-1200$ kosten, sondern 650msrp. und 20% schneller als die 1080 ti. mit 16gb. meiner einschätzung nach.

die 180watt wird man dann wohl nicht mehr halten können, das wird wohl eher einer 200w karte.

vinacis_vivids
2017-08-13, 13:22:47
1080ti steht bei 250W und OC Varianten sind bei 300W (25% PL) und 375W (50% PL)

AffenJack
2017-08-13, 13:24:11
Nvidia Volta: GV100 kostet fast 1.000 USD in der Produktion (http://www.pcgameshardware.de/Volta-Codename-266151/News/Nvidia-GV100-Produktionskosten-Geforce-2017-1235632/) - sind so in etwa 4-5 funktionierende Dies pro Wafer, wenn ich das richtig sehe? Auf jeden Fall deutlich mehr als ich gedacht hatte.

Sind mehr, der Chip alleine kostet ja auch nicht 1k, sondern mit Interposer, HBM, gehen schon mal 100-150$ weg. Sowieso spricht er da von several hundred - close to 1k. Gibt da also schon ne gute Spanne, vielleicht auch wegen Yieldschwankungen und bei schlechteren Wafern ists 1k, bei guten deutlich weniger. Den Wafer in dem Prozess dürftest du auch nicht so billig kriegen. TSMC wird sich das gut bezahlen lassen, das Nv nen eigenen Customnode kriegt. Realistisch am Anfang des Prozesses sind da eher 6-7k pro Wafer. Also 8-10 ist eher realistisch, mit anfänglich dank schwankender Ausbeuten auch mal geringeren Zahlen.

|MatMan|
2017-08-13, 13:24:48
Wegen 10-20% Mehrperformance legt man keinen neuen Chip auf (Ausnahme AMD mit Tonga).

Was soll die GV100 Entwicklung mit Risiko (welches Risiko?) bei den Gamer-Varianten zu tun?

HisN
2017-08-13, 13:33:19
Nvidia Volta: GV100 kostet fast 1.000 USD in der Produktion (http://www.pcgameshardware.de/Volta-Codename-266151/News/Nvidia-GV100-Produktionskosten-Geforce-2017-1235632/)

Viel interessanter. Keine Volta-Gamer-Grakas dieses Jahr mehr.
Wer hätte gedacht dass meine Pascal-Titan X (zum Release gekauft) soooo lange durchhalten würde. Irgendwie ging das die letzten Generationen fixer^^

Digidi
2017-08-13, 13:44:27
Viel interessanter. Keine Volta-Gamer-Grakas dieses Jahr mehr.
Wer hätte gedacht dass meine Pascal-Titan X (zum Release gekauft) soooo lange durchhalten würde. Irgendwie ging das die letzten Generationen fixer^^
Ist wahrscheinlich dem Split zwischen der Gaming und Pro Grafikkarten geschuldet. Da wurden garantiert die Entwicklungsabteilungen geteilt wodurch nun jede Abteilung nun etwas weniger Man Power hat. Dadurch verzögern sich nun etwas die Entwicklungen.

BlacKi
2017-08-13, 13:49:53
Wer hätte gedacht dass meine Pascal-Titan X (zum Release gekauft) soooo lange durchhalten würde. Irgendwie ging das die letzten Generationen fixer^^
das lag daran, das die pascal tx früher rauskam, aber selbst dort waren es 1 jahr und 5 monate zum vorgänger.

von der ersten titan zur tx waren es 2 jahre und einen monat XD https://www.techpowerup.com/reviews/?category=Graphics+Cards&manufacturer=NVIDIA&pp=25&order=date

AffenJack
2017-08-13, 13:55:21
von kepler gk104 auf maxwell gm204 ist man mit der die size ebenfalls erheblich nach oben gegangen um die 60% steigerung zu bekommen, da der fertigungsprozess gleich blieb. dasselbe wird man erneut sehen. gv102 wird 550-610mm² groß das sind alleine schon 25-30%, noch nicht einmal berücksichtigt das 12nm etwas chipfläche einsparen kann. die volta architektur soll nun noch taktfreudiger sein als pascal.
wenn man sich nun die preise der vergangenheit ansieht, sind die g*104 chips 50$ teurer geworden als der vorgänger zum release.


60% sind unrealistisch. Das hat man 1 mal geschafft mit Maxwell, aber sowas passiert nicht oft. GV100 PciE hat 40% mehr Tflops als GP100 PciE bei gleicher TDP. Das sollte man als Richtwert nehmen, mehr wird es kaum. Vielleicht sogar eher 30%, wenn man mit der Diesize nicht so hoch will. Woher kommt das die Volta Architektur taktfreudiger als Pascal sein soll? Dafür gibts noch keine wirklichen Indizien, außer möglichweise der neue Prozess.

BlacKi
2017-08-13, 14:14:23
60% sind unrealistisch. Das hat man 1 mal geschafft mit Maxwell, aber sowas passiert nicht oft.
eigentlich ist das bei nv seit kepler die regel?

gk104 full chip ca 60% schneller als gf114 full chip(gtx 560ti)

gm204 full chip ca 60% schneller als gk104 full chip

gp104 full chip ca 60% schneller als gm204 full chip

und jetzt soll gv104 full chip +60% unrealistisch sein?

vinacis_vivids
2017-08-13, 14:27:54
16nm zu 12nm ist kein Shrink.

Entropy
2017-08-13, 15:02:06
GV100 PciE hat 40% mehr Tflops als GP100 PciE bei gleicher TDP.
Die haben aber am Threading gearbeitet, deswegen könnte Volta gerade dort mehr Leistung erbringen, wo vorherige GPUs wirklich zurückfallen.
Ich könnte mir vorstellen, dass das bei Spielen viel mehr bringt als bei Compute.
Nur Flops zwischen Generationen sind kein starkes Leistungsindiz bei Nvidia.

BoMbY
2017-08-13, 15:03:11
Die Leistung pro SP ist bei GP100 zu GV100 praktisch identisch, nur der Stromverbrauch scheint pro SP gesunken sein. Also ich sehe da jetzt keinen großen IPC-Gewinn ansich (außer halt die neuen Schaltkreise für andere Aufgaben), und auch keinen deutlich höheren Takt bisher.

Complicated
2017-08-13, 15:19:57
Sind mehr, der Chip alleine kostet ja auch nicht 1k, sondern mit Interposer, HBM, gehen schon mal 100-150$ weg.
Der Interposer für Fiji kostete ca. $1,-/100mm² (http://www.planet3dnow.de/vbulletin/threads/422600-AMD-Interposer-Strategie-Zen-Fiji-HBM-und-Logic-ICs), HBM2 ca. $80,-/4 GB.
4 Stacks verbrauchen (https://www.3dcenter.org/news/hardware-und-nachrichten-links-des-2728-mai-2017) ca. 4x90mm² Grundfläche auf dem Interposer, die GV100 GPU ist 815 mm² groß. Das ergibt eine Fläche von über 1.175 mm² für den Interposer. Schaut man sich die Fotos an wohl ca. 1.300 mm² - ich denke hier gehen zusätzliche Kosten drauf für ein Verfahren zur Vergrößerung des Interposers - z.B. "stiched Interposer".
Siehe: http://www.planet3dnow.de/vbulletin/threads/422600-AMD-Interposer-Strategie-Zen-Fiji-HBM-und-Logic-ICs?p=5022049&viewfull=1#post5022049

Fijis Interposer soll hart am Limit für die machbare "rectile size" eines einzelnen Interposers gewesen sein mit ca. 1.000 mm². Hier könnte ein Kostentreiber vorhanden sein, einfach durch den zusätzlichen Fertigungsschritt für den Interposer und eventuell durch das hinzufügen von aktiven Komponenten auf dem Interposer, entweder als Interconnect zwischen zwei Interposer-Hälften oder auch für andere Zwecke um die Performance zu erhöhen. Der Fiji-Interposer war schließlich komplett passiv und hatte einen Yield über 98%. Das könnte mit aktiven Komponenten schon anders aussehen.

Also wenn man die Kosten für den Interposer mit ca. $20,- + $360,- HBM2 (16 GB) mal jetzt mit ca. $400,- beziffert ohne die Zusatzkosten für einen weiteren Fertigungsschritt beim Interposer zu berücksichtigen, dann kann man vielleicht mit ca. $500,- rein für den GPU-IC rechnen an Kosten inkl. assembling.

Locuza
2017-08-13, 15:22:49
Die Leistung pro SP ist bei GP100 zu GV100 praktisch identisch, nur der Stromverbrauch scheint pro SP gesunken sein. Also ich sehe da jetzt keinen großen IPC-Gewinn ansich (außer halt die neuen Schaltkreise für andere Aufgaben), und auch keinen deutlich höheren Takt bisher.
Die neue ISA, getrennte FP/INT-Pipes, die veränderte Cache-Hierarchy, dass sieht dir nach praktisch gleicher Leistung pro SP aus?

reaperrr
2017-08-13, 15:27:20
eigentlich ist das bei nv seit kepler die regel?

gk104 full chip ca 60% schneller als gf114 full chip(gtx 560ti)

Die-Shrink von 40 auf 28nm und die alten Fermi-Doppeltakt-ALUs waren wesentlich ineffizienter.


gm204 full chip ca 60% schneller als gk104 full chip
Die Kepler-SM hatten noch den (mMn fehlgeleiteten) superskalaren Ansatz der Konsumenten-Fermis, also 1/3 der ALUs nur mit Optimierungen effektiv nutzbar und doppelt so viele TMUs pro SM, die Strom und Platz brauchten und nur wenig zur Performance beigetragen haben.

Die Maxwell-Steigerung bestand hauptsächlich aus dem Trio SM-Entschlackung, TBR, DCC (m.E. in der Reihenfolge).


gp104 full chip ca 60% schneller als gm204 full chip

Die-Shrink. Ohne den neuen Prozess wäre Pascal wohl sogar etwas ineffizienter als Maxwell 2.0, da GP104 von der Transistorenzahl her näher an GM200 als GM204 liegt.


und jetzt soll gv104 full chip +60% unrealistisch sein?
Es gibt seit Maxwell 2.0 keine "niedrig hängenden, leicht zu erntenden Früchte" auf der Architekturseite mehr, und der von GV100 genutzte 12FFN Prozess ist im Prinzip nur 16FF++, mit leichten Vorteilen bei Verbrauch und Größe der SRAM-Zellen (Cache, Register) gegenüber dem bei GP104 verwendeten 16FF+.

Anders ausgedrückt, die Architektur ist seit MXW2 zu gut, um unabhängig vom Prozess nochmal ähnlich große Sprünge machen zu können, und die richtigen Next-Gen-Fertigungsprozesse sind noch nicht reif für die Massenproduktion.


Ich denke, Volta wird in erster Linie dadurch zulegen, dass im jeweiligen Preissegment die Zahl der ShaderModule um 40% gesteigert wird, und die dadurch gestiegene Perf/Takt dann mit etwas weniger Ref-Takt, Ref-Spannung und eben dem leicht verbesserten Prozess kombiniert wird, um die Leistung ohne (nennenswerte) TDP-Steigerungen um ca. 30-40% zu erhöhen.

Aber wie gesagt, um 60% mit nur leicht optimiertem Prozess rauszuholen ist die mit Maxwell2.0 gelegte Basis einfach schon zu gut. Dafür müsste schon eine radikale Überarbeitung der Architektur her, und danach sieht es anhand GV100 nicht aus.

Hübie
2017-08-13, 16:46:56
Das trifft's gut, reaperrr. Das erwarte ich auch eher, als x + secret sauce = +60%. Bevor Gipsel aber kommt erwähne ich hier noch dass die Vorteile nicht auf SRAM-Zellen beschränkt sind, sondern eine Track insgesamt geringer ist. Perf/W wird wieder überraschen...

BlacKi
2017-08-13, 17:08:03
Ich denke, Volta wird in erster Linie dadurch zulegen, dass im jeweiligen Preissegment die Zahl der ShaderModule um 40% gesteigert wird, und die dadurch gestiegene Perf/Takt dann mit etwas weniger Ref-Takt, Ref-Spannung und eben dem leicht verbesserten Prozess kombiniert wird, um die Leistung ohne (nennenswerte) TDP-Steigerungen um ca. 30-40% zu erhöhen.
dort gehen unsere meinungen auseinander. ich gehe von einem höheren anliegendem boosttakt aus, bei niedriger anliegenden spannung. ergo 60%.

nvidia hat die reserven um die leistung auf die straße zu bringen. wie gesagt halte ich eine höhere tdp für wahrscheinlicher als die senkung der performance ziele. nur weil vega nicht so gut wird, wie manche erwartet haben, bedeutet das nicht das nvidia sich nun auf den lorbeeren ausruht, denn nvidia ist bereits sein eigener stärkster konkurent. wird volta zu schwach, sinken die verkäufe.

basix
2017-08-13, 17:12:38
60% sind unrealistisch. Das hat man 1 mal geschafft mit Maxwell, aber sowas passiert nicht oft. GV100 PciE hat 40% mehr Tflops als GP100 PciE bei gleicher TDP. Das sollte man als Richtwert nehmen, mehr wird es kaum. Vielleicht sogar eher 30%, wenn man mit der Diesize nicht so hoch will. Woher kommt das die Volta Architektur taktfreudiger als Pascal sein soll? Dafür gibts noch keine wirklichen Indizien, außer möglichweise der neue Prozess.

Aus dem von Locuza verlinkten Whitepaper:
The new Volta SM is 50% more energy efficient than the previous generation Pascal design, enabling major boosts in FP32 and FP64 performance in the same power envelope.

HOT
2017-08-13, 17:22:28
60% bei fast gleicher Fertigung halte ich für utopisch, zumal man ja eher minimale Änderungen in der Architektur sehen wird. Ich denke man wird bei GV104 3k Shader + erwarten können bei ca. 400mm² mit etwas mehr Effizienz bei höherer TDP als jetzt, also 30% bei etwas höherer TDP. Man hätte sicherlich mehr Leistung erreicht, hätte man das Teil auf 10nm geshrinkt, aber das war wohl einfach nicht drin.

Kriton
2017-08-13, 17:30:05
dort gehen unsere meinungen auseinander. ich gehe von einem höheren anliegendem boosttakt aus, bei niedriger anliegenden spannung. ergo 60%.

nvidia hat die reserven um die leistung auf die straße zu bringen. wie gesagt halte ich eine höhere tdp für wahrscheinlicher als die senkung der performance ziele. nur weil vega nicht so gut wird, wie manche erwartet haben, bedeutet das nicht das nvidia sich nun auf den lorbeeren ausruht, denn nvidia ist bereits sein eigener stärkster konkurent. wird volta zu schwach, sinken die verkäufe.

Du meinst so wie Intel sein eigener stärkster Konkurrent war und sich deswegen nicht auf seinen Lorbeeren ausgeruht hat, anstatt einfach den eigenen Gewinn zu maximieren?

BlacKi
2017-08-13, 17:49:41
Du meinst so wie Intel sein eigener stärkster Konkurrent war und sich deswegen nicht auf seinen Lorbeeren ausgeruht hat, anstatt einfach den eigenen Gewinn zu maximieren?
und mit einem starken amd konkurenten hätten wir heute 64 kern cpus? träum weiter :biggrin:

dein argument zieht auch insofern nicht, weil nvidia auf die verkäufe im desktop segment stärker angewiesen ist als intel. zumal intel im server segment stets mehr kerne anbietet jahr für jahr.

scully1234
2017-08-13, 17:52:28
Jensen ist auch nicht Intel...

basix
2017-08-13, 17:57:49
Stimmt, NV hat ihre Margen im Desktop-Bereich mit dem GTX Titan Move maximiert ;)

und mit einem starken amd konkurenten hätten wir heute 64 kern cpus? träum weiter :biggrin:
Das nicht, aber 6C hätten wir schon lange auf der Mainstream-Plattform gesehen, die Preise wären tiefer und man müsste nicht mit jeder Generation das Mainboard wechseln (siehe Z170 vs. Z270 vs. Z370 vs. Z370+). Alles in allem: Für den Kunden mehr für weniger Geld und nicht für weniger mehr Geld in Intels Tasche ;)

Kriton
2017-08-13, 18:58:55
und mit einem starken amd konkurenten hätten wir heute 64 kern cpus? träum weiter :biggrin:

Mir Aussagen in den Mund legen, die ich nicht mal im Ansatz getätigt habe ist eine illegitime Art der "Diskussionsführung". Aber schön, dass Du inhaltlich nicht auf meine Argument eingehst.

dein argument zieht auch insofern nicht, weil nvidia auf die verkäufe im desktop segment stärker angewiesen ist als intel. zumal intel im server segment stets mehr kerne anbietet jahr für jahr.

Warum sollte Nvidia stärker angewiesen sein als Intel? Weil Intel die Server hat? Und deswegen ist man bereit weniger Gewinn in einer anderen Sparte zu machen? Das ist nicht schlüssig. Unternehmen sind generell auf Gewinnmaximierung aus, das ist systemimmanent.

Aber um auf den grundsätzlichen Gedanken noch einmal einzugehen: Natürlich wird Nvidia (regelmäßige) Steigerungen brauchen um weiter Absatz zu generieren. Aber in einer Wettbewerbssituation werden wir sicher auch mehr Innovation/Leistung/bessere Preise sehen als wenn Nvidia sich nur an sich selbst orientieren muss. basix hat verstanden worauf ich hinauswill.

BlacKi
2017-08-13, 19:20:04
Warum sollte Nvidia stärker angewiesen sein als Intel? Weil Intel die Server hat? Und deswegen ist man bereit weniger Gewinn in einer anderen Sparte zu machen? Das ist nicht schlüssig. Unternehmen sind generell auf Gewinnmaximierung aus, das ist systemimmanent.
mag sein, aber wie schröpft intel seine kunden die keinen aufrüstdruck haben?

es gibt genug leute die immernoch keinen aufrüstdruck haben mit einer cpu aus 2011. kannst du mir sagen warum intel im mainstream bereich nicht mehr kerne bringt jahr für jahr? ich verstehe es nicht, was soll denn an der salamitaktik gewinnsteigernd sein, wenn sie keiner kauft? oder siehst du einen sinn darin vom i7 4790 auf den i7 6700 zu wechseln? wie kann man seine kunden schröpfen wenn sie gar nicht erst kaufen?

Kriton
2017-08-13, 20:20:28
mag sein, aber wie schröpft intel seine kunden die keinen aufrüstdruck haben?

es gibt genug leute die immernoch keinen aufrüstdruck haben mit einer cpu aus 2011. kannst du mir sagen warum intel im mainstream bereich nicht mehr kerne bringt jahr für jahr? ich verstehe es nicht, was soll denn an der salamitaktik gewinnsteigernd sein, wenn sie keiner kauft? oder siehst du einen sinn darin vom i7 4790 auf den i7 6700 zu wechseln? wie kann man seine kunden schröpfen wenn sie gar nicht erst kaufen?

Du machst IMHO den Fehler das Retailgeschäft zu überschätzen. Ich komme aus einem anderen Bereich, und da sehe ich wie die Dinge betrachtet und entschieden werden. Z.B. wenn deine standardisierten Geräte abgeschrieben sind. Da guckt man nicht auf die tatsächlichen Unterschiede, sondern nur/einfach auf die aktuelle Generation.

basix
2017-08-13, 20:27:49
mag sein, aber wie schröpft intel seine kunden die keinen aufrüstdruck haben?

es gibt genug leute die immernoch keinen aufrüstdruck haben mit einer cpu aus 2011.

Das ist definitv ein Argument. Viele bleiben noch beim 2600K oder 4770K. Aber sieh es dir an, es rüsten trotzdem die meisten nach spätestens 3-4 Jahren wieder auf. Auch wenn die Mehrleistung nicht wahnsinnig gross ist. Zudem gibt es noch viele Leute ausserhalb des Gamings, für die ist ein i7 7700 ein grosser Sprung (die behalten den PC dann wieder 5-10 Jahre). Mein Vater sitzt z.B. noch auf einem mehr als 10 Jahre alten C2D E6600 und hat noch nie geklagt, sein PC wäre zu langsam (ich merke natürlich schon einen grossen Unterschied verglichen zu meinem System - aber was man nicht weiss...). Eine 128GB SSD war schon ein genug grosses Upgrade. Für ihn wäre der Sprung auf z.B. einen Ryzen 5 1600 riesig. Aber solche "Langsamaufrüster" gibt es wesentlich mehr als solche Leute wie uns. Deswegen ergibt sich über das gesamte Verkaufsvolumen auch eine höhere Marge. Intel geht es auch gar nicht zwingend um mehr Umsatz, sondern einen maximierten Gewinn. Deshalb auch das wahnsinng aufgesplitterte Portfolio. Für uns blöde, die Unwissenden merken es nicht und Intel garniert ab.

So nun genug OT, eigentlich geht es um Volta ;)

Hübie
2017-08-13, 23:46:08
Schon interessant wie ihr von dem einen zum anderen Thema gelangt :smile: Wäre nur schön wenn ihr das auch mal belegen würdet.

@HOT: Ich mag die Zahl 3584 weil die zwei Primzahlen und zwei gerade Zahlen hat. Ist so schön ausgeglichen...

BoMbY
2017-08-14, 00:45:03
Die neue ISA, getrennte FP/INT-Pipes, die veränderte Cache-Hierarchy, dass sieht dir nach praktisch gleicher Leistung pro SP aus?

P100: 10.6 TFlops / 3584 SP ~= 2.95 GFlops/SP
V100: 15.0 TFlops / 5120 SP ~= 2.92 GFlops/SP

Locuza
2017-08-14, 05:19:32
P100: 10.6 TFlops / 3584 SP ~= 2.95 GFlops/SP
V100: 15.0 TFlops / 5120 SP ~= 2.92 GFlops/SP
Und wie extrahierst du jetzt die IPC daraus?

Hübie
2017-08-14, 07:58:53
P100: 10.6 TFlops / 3584 SP ~= 2.95 GFlops/SP
V100: 15.0 TFlops / 5120 SP ~= 2.92 GFlops/SP

Du ignorierst den Takt. Das Ergebnis wäre wohl auf eine Nachkommastelle identisch. Flops sind allerdings auch nicht aussagekräftig genug, wenn man gar nicht weiß wie hoch die in der Praxis sind. Wir betrachten hier eh nur eine Operation.

BoMbY
2017-08-14, 09:15:47
Der Takt ist bei beiden fast gleich. 1.370 bis 1.455 und 1328 bis 1480.

Hübie
2017-08-14, 11:26:36
GP100 hat 1303 MHz vs. 1370 vom GV100 mit Boost - und der schwankt von Chip zu Chip. Wir beschränken uns mal auf die PCIE-Versionen. ;)

Dural
2017-08-14, 13:58:33
Was ist den das für eine Rechnung???

Es zählt Flops/Watt, alles andere ist völlig nutzlos.

Troyan
2017-08-14, 14:15:34
P100: 10.6 TFlops / 3584 SP ~= 2.95 GFlops/SP
V100: 15.0 TFlops / 5120 SP ~= 2.92 GFlops/SP

Lass mich raten: Du weiß nicht, was eine Recheneinheit ist, gell? :eek:

Die Leistung pro Recheneinheiten ist seit Jahrzehnten identisch.

Dural
2017-08-14, 14:25:17
Jahrzehnten ist etwas übertrieben ;)

Entropy
2017-08-14, 15:06:56
P100: 10.6 TFlops / 3584 SP ~= 2.95 GFlops/SP
V100: 15.0 TFlops / 5120 SP ~= 2.92 GFlops/SP
Ich sprach von einer gestiegenen Effizienz, also mehr Leistung aus denselben Flops heraus zu bekommen. Ich sagte auch dass es deswegen die reinen Flops kein representativer Vergleichswert ist, da bringt es wirklich nichts GFlops/SP zu bringen :/

Wenn du z.B. Dreiecke zeichnest, werden Fragmente von verschiedene Dreiecken in eine Warp gesteckt und es kann sein, dass die verschieden verzweigen, z.B. weil sie von den Vertices andere Materialien oder von Light Clustern unterschiedliche Lightquellentypen vorgegeben werden. Vor Volta werden die Cuda Cores nur eine Verzweigung abarbeiten, im Anschluss die zweite Verzweigung. Wenn zwischendurch irgendwo ein Stall ist, z.B. wegen Texture Fetches, ist der Cuda Core vielleicht Idle. Bei Volta kann jeder Thread vom Cuda Core scheinbar unabhängig abarbeiten, sodass weniger Idle-Zeit anfällt und somit die IPC, unabhängig von den theoretischen Flop/s, ansteigen.

Wenn Nvidia das für auf Compute ausgelegte GVs verbaut, wird das Leistungssteigernd sein. Bei nicht-Compute kann das, aus oben genannten Gründe, noch mehr bringen.

Rampage 2
2017-08-15, 19:39:58
Wird sich die verkürzte Latenz (4 statt 6 Taktzyklen) und der veränderte Cache-Aufbau negativ auf die Taktbarkeit ggü. Pascal auswirken? Etwa, dass ein GV102 im Vollausbau "nur" noch bis 1.8-1.9 GHz boosten kann?

R2

Skysnake
2017-08-15, 19:51:25
Naja eine kürzere Pipeline verträgt niedrigere Taktraten als ne lange. Also wenn man die gleichen Operationen ausführen muss.

Aber keine Ahnung ob dadurch der Takt wirklich sinken wird.

Hübie
2017-08-15, 20:04:33
Kann man generell so im Vorfeld gar nicht sagen. Es geht, ums mal plump auszudrücken, ums Beschleunigen und Abbremsen von Elektronen bzw. dem -fluss. Findet man probate Mittel (z.B. Legierung oder allgemein neue Materialien) um einen Transistor dazu zu bewegen schneller zu "schalten" (Schwellspannung zu erreichen), dann muss nicht zwangsläufig der Takt leiden. Ein weiteres Mittel kann die Verwendung mehrerer Schaltgruppen sein, aber das ist definitiv nicht mein Fachgebiet. ;)
Wenn ich mir GV100 anschaue: Wenn dann nicht viel. Mein Bauchgefühl sagt mir, gleiche oder leicht bessere Taktbarkeit wird es geben.

pixeljetstream
2017-08-15, 20:30:27
zu der Aussage NV würde sich ausruhen: wer rastet rostet. Die Aktie steht und fällt mit dem Business der jenseits von Gaming kommen soll, nur wenn man dort sicher Fuß fasst, wächst usw. ist langfristig der Glaube da. Denn für die meisten Analysten ist Gaming langfristig tot, PC Markt schrumpft usw. denn Rekordquartale hatte man da schon oft und dem Kurs hat's nicht wirklich was gebracht.
Da man mit den anderen Märkten auch viel mehr potentielle Konkurrenten hat, kann man sich es nicht leisten nen Gang runterzuschalten. Dazu sind die anderen alle zu stark. Gleichzeitig brauch man immer noch starkes Gaming um sich die Forschung leisten zu können. Das gute ist, dass es auch Überschneidung gibt, den ganzen deep learning kram, kann man ja auch virtuell "rendern" und so schneller als Echtzeit die Roboter/Autos usw. trainieren. Das heißt man muss sich um Grafik als wichtiges Thema keine Sorge machen ;)

Hübie
2017-08-15, 20:55:21
Also Stagnation sehe ich bei NV keineswegs. Wer das behauptet, soll es gefälligst beweisen.
Beim Thema AI wird sich halt noch vieles zeigen müssen, da nun auch etliche startups aufkommen (im Kopf blieb mir nun Graphcore (http://www.datacenter-insider.de/britisches-startup-graphcore-bringt-ki-chip-auf-den-markt-a-627537/)). Aus manchen wird was, aus den meisten wird eine Schublade* und wenige gehen sang- und klanglos unter.

*Schublade = aufgekauft und die IP landet in der Schublade.

Sardaukar.nsn
2017-08-15, 21:18:25
zu der Aussage NV würde sich ausruhen: wer rastet rostet. Die Aktie steht und fällt mit dem Business der jenseits von Gaming kommen soll, nur wenn man dort sicher Fuß fasst, wächst usw. ist langfristig der Glaube da...

So in dieses Richtung? https://www.youtube.com/watch?v=GoQLeMCqIWs

Hübie
2017-08-15, 21:49:46
Besonders die Automobilindustrie ist ein untreuer Partner. Risiko ist Mittel bis Hoch einzustufen. Wobei NV ja schnell reagieren kann. Man baut ja nix auf "Halde".

Blediator16
2017-08-15, 22:13:08
Die Halde wäre dann in dem Fall Nintendo :D

Hübie
2017-08-15, 22:34:18
X-D In der Tat. Ich hatte bis zu letzt gehoft die wären nicht so dämlich, aber ... na ja big N hat von Technologie soviel Ahnung wie ne Kuh vom Fahrrad fahren.

Rampage 2
2017-08-16, 00:44:40
Aber keine Ahnung ob dadurch der Takt wirklich sinken wird.

Ob es die Taktbarkeit verschlechtert ist unklar - aber förderlich für eine höhere Taktbarkeit ist es garantiert nicht, oder? ;)

(soweit ich die Logik richtig verstanden habe...)

R2

Troyan
2017-08-16, 01:17:36
GV100 taktet genauso wie GP100. Und laut nVidia sei das Design weiterhin auf hohe Taktraten optimiert:

Volta SM (Streaming Multiprocessor)

Architected to deliver higher performance, the Volta SM has lower instruction and cache latencies than past SM designs and includes new features to accelerate deep learning applications.

Major Features include:

New mixed-precision FP16/FP32 Tensor Cores purpose-built for deep learning matrix arithmetic;
Enhanced L1 data cache for higher performance and lower latency;
Streamlined instruction set for simpler decoding and reduced instruction latencies;
Higher clocks and higher power efficiency.

https://devblogs.nvidia.com/parallelforall/inside-volta/

Timbaloo
2017-08-16, 08:31:49
Besonders die Automobilindustrie ist ein untreuer Partner. Risiko ist Mittel bis Hoch einzustufen.

aber das ist definitiv nicht mein Fachgebiet.

Zwei random Quotes so zusammengesetzt, dass es Sinn ergibt.

basix
2017-08-16, 12:24:40
Was kann man eigentlich von GV102 erwarten? +20% Takt und +20% IPC bei 3840 Shader-Cores? Das würde gut passen mit den +50% effizienteren Volta SMs und 15-16 GT/s GDDR5X. Im Optimalfall führt das nicht einmal gross zu einem höheren Flächenbedarf.

BoMbY
2017-08-16, 13:40:32
Wo soll denn +20% IPC herkommen? Volta hat scheinbar praktisch keine Verbesserungen für klassische Anwendungen, und "Tensor-Cores" wird GV102 nicht haben - mit etwas Glück gibt es FP16 mit doppelter Geschwindigkeit von FP32. Alles andere dürfte 12FFN geschuldet sein.

Locuza
2017-08-16, 13:53:19
Wo soll denn +20% IPC herkommen? Volta hat scheinbar praktisch keine Verbesserungen für klassische Anwendungen, und "Tensor-Cores" wird GV102 nicht haben - mit etwas Glück gibt es FP16 mit doppelter Geschwindigkeit von FP32. Alles andere dürfte 12FFN geschuldet sein.
Ah, klassische Anwendungen profitieren vermutlich nicht vom einem L0-Instruction Cache in jedem SIMD-Block, einem fusionierten 128KB großen Cache, welcher den klassischen Shared-Memory und L1$ zusammenfasst.
Vermutlich ist es auch kein Performancegewinn, wenn Volta nun FP32 und Int32 Instruktionen parallel ausführen kann, ebenso das die Ausführungslatenz von 6 auf 4 gesunken ist.

AffenJack
2017-08-16, 14:30:32
Was kann man eigentlich von GV102 erwarten? +20% Takt und +20% IPC bei 3840 Shader-Cores? Das würde gut passen mit den +50% effizienteren Volta SMs und 15-16 GT/s GDDR5X. Im Optimalfall führt das nicht einmal gross zu einem höheren Flächenbedarf.

5120-5376 Shader würde ich erwarten. Somit gleich viel wie bei GV100 oder minimal weniger.
Ich tendiere zu 5120, da man dann 40 SMs hätte und die GPCs von 6 auf 8 steigern kann. 5376 wären 42 SMs, somit müsste man auf 6 SMs per GPC gehen oder andere krumme Zahlen. Irgendwie gefällt mir ersteres besser. Man könnte auch mal gucken wieviel GPCs GV100 hat, gut möglich, dass sie das eher übernehmen wollen und dann bei 5376 bleiben.
Das ganze bei ~600mm² und mit 16Gbps 384Bit Ram für die Titan. 14-15Gbps für die TI. Ich wäre skeptisch ob da mehr IPC bei raus kommt. Soweit ich da bisher zu gelesen hab, hilft das bei vorhandenen Code nicht viel, ermöglicht eher Code der vorher schlecht gelaufen ist.

basix
2017-08-16, 15:16:20
Hmm, mehr Shader könnten es schon sein. 5120 hört sich ziemlich gut an. Wird aber wie du schreibst eine sehr fette GPU. Für Nvidia wären +50% Leistung bei gleichbleibender Fläche wesentlich rentabler und unmittelbar nötig ist es aufgrund des (momentan) eher mittelmässigen Vega nicht zwingend. Eine IPC-Steigerung würde ich aber schon erwarten, wenn man schnellere und grössere Caches hat und die Latenz der Shader-Cores senkt. Vorausgesetzt der Command-Prozessor kommt der geringeren Latenz nach (welches evtl. wiederum durch die Caches abgefedert werden kann).

Für mich wäre das grösste Problem bei 5120 Shadern die Bandbreite. Wenn noch Takt obendrauf kommt und auch IPC, steigt die Bandbreite nicht gleich mit dem Shader-Throughput. Aber evtl. sind hier wieder die Caches die Heilsbringer und reduzieren die benötigte Off-Chip Bandbreite.

Bucklew
2017-08-16, 15:26:07
Wo soll denn +20% IPC herkommen? Volta hat scheinbar praktisch keine Verbesserungen für klassische Anwendungen
Unfug:
New Streaming Multiprocessor (SM) Architecture Optimized for Deep Learning Volta features a major new redesign of the SM processor architecture that is at the center of the GPU. The new Volta SM is 50% more energy efficient than the previous generation Pascal design, enabling major boosts in FP32 and FP64 performance in the same power envelope.
https://devblogs.nvidia.com/parallelforall/inside-volta/
Warum behaupten Leute ständig, Volta wäre ein müder Pascal-Refresh, wenn wir offensichtlich eine neue Shader-Architektur sehen werden? :confused:

btw: GP100 war in Sachen Leistungsaufnahme schon am Limit (300W). Wie sollte man da denn ohne Architektur-Änderung die Rechenleistung von 10 auf 15 TFlops steigern können?

scully1234
2017-08-16, 15:29:18
und unmittelbar nötig ist es aufgrund des (momentan) eher mittelmässigen Vega nicht zwingend. .

Es wäre fatal auf dem Status Quo die Zügel schleifen zu lassen, kann mir nicht vorstellen das Jensen nun einen Gang runter schaltet, weil der Mitbewerber derzeit mal abgeschlagen ist...

Dural
2017-08-16, 15:29:26
Mit GDDR6 dürfte die bandbreite sicherlich hoch genug ausfallen. Und GV102 dürfte sicher auch 5376SP wie GV100 haben, es macht keinen sinn zwei völlig unterschiedlich grosse GPUs zu entwickeln.

scully1234
2017-08-16, 15:36:35
Bei GV 100 belegen die Tensor Cores auch Platz, GV102 wird gewiss nicht die Dimensionen einnehmen, wie der große Tesla Chip, das wäre wirtschaftlich nicht tragbar

Dural
2017-08-16, 15:49:59
Natürlich streicht man die Sachen die im Gaming Bereich nicht nötig sind.

Die Gaming GPUs sind ja nur "Abfall" der grossen Gx100 GPUs, zuerst wird die dicke GPU Entwickelt danach kommen die ganzen Gaming GPUs die abgespeckt sind, da wird alles gestrichen wo nicht nötig ist, sprich DP, HBM, Shader Anpassungen, Cache Anpassung etc.

War bei Pascal nicht anders.

scully1234
2017-08-16, 15:53:06
Shader Modifikation u Cache Hierachie würde ich auch beim GV102 als gesetzt ansehen:smile:

Das sind Dinge die auch dem Sektor zu Gute kommen

DIE Size würde ich vermuten , aufgrund des fast unverändertem Prozesses, ein Stück oberhalb von Gp102

Skysnake
2017-08-16, 16:02:56
Ob es die Taktbarkeit verschlechtert ist unklar - aber förderlich für eine höhere Taktbarkeit ist es garantiert nicht, oder? ;)

(soweit ich die Logik richtig verstanden habe...)

R2

Ja so kann man das wohl sagen

basix
2017-08-16, 16:07:00
Es wäre fatal auf dem Status Quo die Zügel schleifen zu lassen, kann mir nicht vorstellen das Jensen nun einen Gang runter schaltet, weil der Mitbewerber derzeit mal abgeschlagen ist...

Deswegen auch das "unmittelbar" in Klammern ;) Beim Umstieg auf 7nm (ist das der nächste TSMC Node?) kann man dann wieder All-In gehen ;) So bringt man seine Innovationen Tröpfchenweise an den Mann und erhöht schlussendlich seine eigene Profitabilität.

aceCrasher
2017-08-16, 16:10:02
Wie viel Platz nehmen die Tensor cores eigentlich ein? Also, wie viel Platz kann man bei GV102 im Vergleich zu GV100 sparen durch die Einsparung der Tensors?

AffenJack
2017-08-16, 16:14:40
Deswegen auch das "unmittelbar" in Klammern ;) Beim Umstieg auf 7nm (ist das der nächste TSMC Node?) kann man dann wieder All-In gehen ;) So bringt man seine Innovationen Tröpfchenweise an den Mann und erhöht schlussendlich seine eigene Profitabilität.

Da wette ich wiederrum gegen. Volta ist der architekturelle Schritt. 7nm wird wieder ein Shrink mit minimalen Verbesserungen wie Pascal. Nvidia macht Intels TickTock nach.

Troyan
2017-08-16, 16:17:52
Nicht viel. Recheneinheiten sind flächenmäßig richtig "billig". Du kannst den kompletten Die zu bauen.

GV100 hat 37% mehr Transistoren bei 40% mehr Compute-Units. Und die CUs haben gegenüber Pascal Tensor-Cores, dedizierte INT-Einheiten, mehr Speicher etc. Dazu kommen mehr NVLinks, mehr L2 Cache, überarbeitete Speichercontroller...

Für Geforce kann man locker mit 40% mehr Einheiten bei <40% Transistoren rechnen.

Bucklew
2017-08-16, 16:47:57
Shader Modifikation u Cache Hierachie würde ich auch beim GV102 als gesetzt ansehen:smile:
Sie sind für GV1xx gesetzt.

Welchen Sinn sollte es haben, eine neue Architektur zu entwickeln und sie dann nicht auf allen Chips einzusetzen?

Daher weiß ich auch nicht, woher die völlig falsche und blödsinnige Behauptung kommt, Volta wäre ein Pascal-Refresh. Müssen ja richtige Experten in Sachen Grafikkarte sein, wenn man die Aussage "50% FP32 Efficiency" nicht versteht?

Sunrise
2017-08-16, 17:35:34
Mit GDDR6 dürfte die bandbreite sicherlich hoch genug ausfallen. Und GV102 dürfte sicher auch 5376SP wie GV100 haben, es macht keinen sinn zwei völlig unterschiedlich grosse GPUs zu entwickeln.
Warum sollte das keinen Sinn machen, wenn NV sowieso beide dediziert entwickeln muss?

Wäre dann interessant, wenn GP100 und GP102 bei dem Rechenwerk-Aufbau identisch wären.

BoMbY
2017-08-16, 17:36:12
Energy Efficeny ist nicht mit IPC-Steigerung gleich zu setzen. Das heißt erstmal nur, dass die mehr Takt bei gleichem Strom erreichen kann, und das dürfte eben hauptsächlich dem Prozess geschuldet sein. GV100 hat offensichtlich keine gesteigerte FP32 IPC, eher eine Verschlechterung.

Troyan
2017-08-16, 17:45:17
Kannst du bitte aufhören deinen Unsinn hier fortzuführen? Dein vollkommen fehlendes Verständnis, was "IPC" ist, wieso "IPC" keinen Sinn bei Grafikkarten macht, ist mehr als offensichtlich.

Aber du kannst gerne erklären, wie GV100 eine Verschlechterung bei der "IPC" hätte, wenn der Chip dank Dual-Scheduling mehrere Recheneinheiten pro SM gleichzeitig verwenden kann...

BoMbY
2017-08-16, 17:49:49
Wo ist denn bitte der FP32 Instructions per Clock Gewinn bei FP32 bei GV100 gegenüber GP100? Pro Takt und Pro Recheneinheit sind die im besten Fall 100% identisch.

basix
2017-08-16, 18:24:01
IPC bedeutet aber für mich in diesem Kontext, dass mehr hinten raus kommt und nicht, dass die theoretische Rechenleistung steigt (10 TFLOPs vs. 15 TFLOPs). Mit den +50% FLOPs kommen also z.B. +70% Leistung beim Spieler an. Ob das so kommt weiss keiner so genau, aber die Verbesserungen an den Shader-Cores und Caches deuten zumindest keine Verschlechterung an. Und wir spekulieren hier über mögliche Verbesserungen ;)

Edit:
Und wenn man es genau nimmt, steigt die theoretische Rechenleistung sogar aufgrund der INT32-Einheiten, welche parallel laufen dürfen. Wie viel das bringt keine Ahnung. Ob die in den Gaming-Chips drin bleiben ebenfalls keine Ahnung. Aber anscheinend sind INT-Einheiten sehr klein und stromsparend. Und wenn sie z.B. +5% bringen sollten, wieso entfernen?

Troyan
2017-08-16, 18:47:22
Wo ist denn bitte der FP32 Instructions per Clock Gewinn bei FP32 bei GV100 gegenüber GP100? Pro Takt und Pro Recheneinheit sind die im besten Fall 100% identisch.

Dir ist schon klar, dass GV100 5120 * 2 "Instructions per Clock" ausführen kann und dies 40% mehr sind als die 3584 * 2 "Instructions per Clock" von GP100?

Du solltest deine Buzzwörter auch verstehen, bevor du sie benutzt. ;D

pixeljetstream
2017-08-17, 00:52:36
Natürlich streicht man die Sachen die im Gaming Bereich nicht nötig sind.

Die Gaming GPUs sind ja nur "Abfall" der grossen Gx100 GPUs, zuerst wird die dicke GPU Entwickelt danach kommen die ganzen Gaming GPUs die abgespeckt sind, da wird alles gestrichen wo nicht nötig ist, sprich DP, HBM, Shader Anpassungen, Cache Anpassung etc.

War bei Pascal nicht anders.

Zumindest die letzten Male kam zuerst die SM Architektur als Fokus, dann Grafikfeatures. Ist imo nicht direkt Abfall.

GM 10x: neue SM
GM 20x: primitive broadcast, viewport swizzle...
GP 100: neue SM
GP 10x: stereo, lense matched shading...
GV 100…

Bucklew
2017-08-17, 08:53:16
Volta hat scheinbar praktisch keine Verbesserungen für klassische Anwendungen
Energy Efficeny ist nicht mit IPC-Steigerung gleich zu setzen. Das heißt erstmal nur, dass die mehr Takt bei gleichem Strom erreichen kann, und das dürfte eben hauptsächlich dem Prozess geschuldet sein. GV100 hat offensichtlich keine gesteigerte FP32 IPC, eher eine Verschlechterung.
Warum ist "Verbesserung" ausschließlich IPC? Warum nicht die Energieeffizienz, gerade, wenn man an der PowerWall von 300W festhängt?

Abgesehen davon hat Troyan deinen IPC-Blödsinn ja schon entlarvt.

Wer behauptet, dass die bisherigen Fakten zu Volta keine Verbesserungen im Gaming erwarten lassen, der hat einfach keine Ahnung. Um das mal ganz hart auszudrücken.

Dural
2017-08-17, 09:35:38
Vor allem wenn man so denkt, es seit rund 10 Jahren keine "IPC Verbesserungen" gab, das hat ihm Wahrscheinlich noch keiner gesagt ;)

Ab G80 / 2006 sind die GPUs bei NV sehr ähnlich aufgebaut, wobei der G80 ja noch MUL hatte. Hat aber offensichtlich nichts gebracht.


@pixeljetstream
Natürlich kommen auch Sachen die eben für Gaming relevant sind hinzu, ändert aber nichts an der Tatsache das das Grundgerüst zwischen GeForce und Tesla völlig identisch ist.

HOT
2017-08-17, 09:53:03
Hm, Volta erhöht ja die Anzahl der Einheiten pro SM beim GV100. Wie wärs wenn man bei der Gaming-Variante alles entfernt bis auf FP32 und der zusätzlich eine gleichzeitig nutzbare FP16-Einheit zur Seite stellt? Könnte doch sinnvoll sein. Eine Sinn für Int-Einheiten oder Tensor-Cores erschließen sich mit fürs Gaming nicht, sowas wird mit Sicherheit nicht verbaut. Das Einzige, was neben FP32 interessant ist für Gaming wäre FP16. Das wär mMn auch im Powerbudget durch die Einsparungen von Prozess und Architektur denkbar.
Und hier werden noch größere Luftschlösser gebaut als im Vega-Thread. 60-70% mehr Leistung - ja ne ist klar. Leute, da gibts keine Zauberer... 60-70% mehr Leistung = mindestens 1/3 mehr TDP und erheblich größere Dies. Ist zudem auch gar nicht nötig, AMD wird sowieso 7nm brauchen um aufzuschließen.

Dural
2017-08-17, 10:00:50
Ich weis es ja nicht, aber ich Tippe ja mehr auf nein.

Ich glaube mal gelesen zu haben das NV meinte das FP16 für Spiele überbewertet ist.

Bucklew
2017-08-17, 10:05:09
Und hier werden noch größere Luftschlösser gebaut als im Vega-Thread.
Hast dich aber schnell vom Montag erholt ;D

Wenn man sich die letzten vier Launches mal anschaut (Maxwell,Polaris, Pascal,Vega), dann war es immer NVIDIA, die nieder geschrieben wurden und AMD, die hochgejubelt wurden - und die Launches waren genau anders herum.

Wie war das noch mit Pascal und Polaris? Pascal kommt MONATE nach Polaris und hat gegen Polaris in Sachen Perf/Watt auch null Chance. Und Vega erst. Und was waren das für zwei Reinfälle ;D

Jupiter
2017-08-17, 10:22:46
Ich bin gespannt, was Volta bieten wird. Ich rechne mit einer Leistungssteigerung von mindestens 30 Prozent.

Und hier werden noch größere Luftschlösser gebaut als im Vega-Thread. 60-70% mehr Leistung - ja ne ist klar. Leute, da gibts keine Zauberer... 60-70% mehr Leistung = mindestens 1/3 mehr TDP und erheblich größere Dies. Ist zudem auch gar nicht nötig, AMD wird sowieso 7nm brauchen um aufzuschließen.

Im Vega-Thread stand mal in etwa das alles unter zirka 20% an Mehrleistung zur GTX 1080Ti oder Titan X ein Fehlschlag wäre und nun hängen die Karten zwischen GTX 1070 und GTX 1080er Leistung. Jetzt schafft es Vega gerade die GTX 980Ti von Juni/Juli 2015 einzuholen.

HOT
2017-08-17, 10:26:13
Hast dich aber schnell vom Montag erholt ;D

Wenn man sich die letzten vier Launches mal anschaut (Maxwell,Polaris, Pascal,Vega), dann war es immer NVIDIA, die nieder geschrieben wurden und AMD, die hochgejubelt wurden - und die Launches waren genau anders herum.

Wie war das noch mit Pascal und Polaris? Pascal kommt MONATE nach Polaris und hat gegen Polaris in Sachen Perf/Watt auch null Chance. Und Vega erst. Und was waren das für zwei Reinfälle ;D

Du uebertreibst da doch ein wenig. Pascal war wegen das Taktes eine ueberreaschung ansonsten ist man doch sehr nah an Maxwell. Und nein, hier wurden noch weit groessere Luftschloesser gebaut, da hat dich deine Erinnerung etwas im Stich gelassen. Was wurde hier nicht alles spekuliert, 3k shader fuer gp104 bis zu 6k shader fuer gp102... nur der Takt daempfte die Enttaeuschung ein wenig.

Bucklew
2017-08-17, 10:41:32
Du uebertreibst da doch ein wenig. Pascal war wegen das Taktes eine ueberreaschung ansonsten ist man doch sehr nah an Maxwell. Und nein, hier wurden noch weit groessere Luftschloesser gebaut, da hat dich deine Erinnerung etwas im Stich gelassen. Was wurde hier nicht alles spekuliert, 3k shader fuer gp104 bis zu 6k shader fuer gp102... nur der Takt daempfte die Enttaeuschung ein wenig.
Ach, Kollege. 10 Sekunden Suche in der Historie:

Wenn schon was in Q3 was kommt wird das ein Titan. "Kleinere" GP100-Varianten sind sicherlich eher Q4 oder Q1 17 zu erwarten, von kleineren Chips ist bisher gar nichts zu hören, ich bin mir nicht mal sicher ob es die überhaupt gibt. Immerhin wär eine komplette Serie ohne HBM-Erfahrung und dann auch noch im neuen Prozess ein gewaltiges Risiko.
Und du willst uns was von Luftschlössern erzählen? :rolleyes:


GV100 wurde bei der aktuellsten Roadmap bereits auf 2018 verschoben, der Link oben ist also nicht mehr aktuell.
Würde dann ja gut passen:
2016 -> GP100
2017 -> GV104/6/7
2018 -> GV100
2019 -> 10nm
Schon toll, wie ihr euch gegenseitig hochstachelt ;D

Bitte spare es dir in Zukunft, Spekulationen von anderen User zu bewerten. Danke.

Hübie
2017-08-17, 11:16:31
HOT-Prognosen sind schon eine Legende. :D

@Troyan: Es gibt nichts verlässliches bzgl. FP32<->FP16, da es einfach Jahrelang ignoriert wurde. Wenn die Implementierung nicht allzu aufwändig ist, warum sollte man es dann nicht implementieren?
The never ending story "Star citizen" soll ja angeblich von FP64 gebrauch machen, aber ansonsten ist mir nichts bekannt. Also wenn, dann kann man das weg lassen und statt dessen FP16 nutzen. Meine laienhafte Meinung dazu.

@Timbaloo: Es werden ständig Zuliefererverträge gewechselt und innerhalb eines Modells nicht überall die gleichen Chips verbaut (Features schon). Was willst du also mit deinem offensiven Kommentar sagen? :rolleyes:

HOT
2017-08-17, 11:20:41
Ach, Kollege. 10 Sekunden Suche in der Historie:


Und du willst uns was von Luftschlössern erzählen? :rolleyes:


Schon toll, wie ihr euch gegenseitig hochstachelt ;D

Bitte spare es dir in Zukunft, Spekulationen von anderen User zu bewerten. Danke.
Ich mag meine Historie :D.

[...]

Im Vega-Thread stand mal in etwa das alles unter zirka 20% an Mehrleistung zur GTX 1080Ti oder Titan X ein Fehlschlag wäre und nun hängen die Karten zwischen GTX 1070 und GTX 1080er Leistung. Jetzt schafft es Vega gerade die GTX 980Ti von Juni/Juli 2015 einzuholen.
Ich würd da gar nicht so drüber lachen. In Bestcase-Scenarien kann das durchaus noch werden. Im Durchschnitt jedoch war das eigentlich immer unrealistisch. Langfristig wird man so 10-20% unterm GP102 bleiben mit V10, auch wenn alles optimiert ist und viele neue low-level-Titel auf dem Markt sind.

Bucklew
2017-08-17, 11:23:06
Ich mag meine Historie :D.
Also trollst du eigentlich nur? Gut zu wissen.

HOT
2017-08-17, 11:25:49
Also trollst du eigentlich nur? Gut zu wissen.
Also ich hab nicht angefangen, sich über meine Historie lustig zu machen :freak:

Bucklew
2017-08-17, 11:51:17
Also ich hab nicht angefangen, sich über meine Historie lustig zu machen :freak:
Über deine Historie musst du auch einen Mantel des Schweigen legen. Immerhin warst du ja offensichtlich einer von den Akteuren, den ich vorhin meinte ;D

Von daher ist es einfach nur lächerlich, wenn du anderen Usern vorwirfst Luftschlösser zu bauen. Offensichtlich bist du derjenige, der da drin wohnt ;D

PS: Du solltest übrigens mal das Posting mit den 60-70% genauer lesen. Offensichtlich hast du gar nicht verstanden, was der Poster damit meinte. Denn er schrieb mitnichten, dass Voltakarten 60-70% schneller als Pascal sein werden ;)

HOT
2017-08-17, 12:12:34
Über deine Historie musst du auch einen Mantel des Schweigen legen. Immerhin warst du ja offensichtlich einer von den Akteuren, den ich vorhin meinte ;D

Von daher ist es einfach nur lächerlich, wenn du anderen Usern vorwirfst Luftschlösser zu bauen. Offensichtlich bist du derjenige, der da drin wohnt ;D

PS: Du solltest übrigens mal das Posting mit den 60-70% genauer lesen. Offensichtlich hast du gar nicht verstanden, was der Poster damit meinte. Denn er schrieb mitnichten, dass Voltakarten 60-70% schneller als Pascal sein werden ;)
Nein, ich stehe zu meiner Historie.

basix
2017-08-17, 12:53:14
PS: Du solltest übrigens mal das Posting mit den 60-70% genauer lesen. Offensichtlich hast du gar nicht verstanden, was der Poster damit meinte. Denn er schrieb mitnichten, dass Voltakarten 60-70% schneller als Pascal sein werden ;)

Richtig ;)

Jupiter
2017-08-17, 13:49:46
Ich mag meine Historie :D.


Ich würd da gar nicht so drüber lachen. In Bestcase-Scenarien kann das durchaus noch werden. Im Durchschnitt jedoch war das eigentlich immer unrealistisch. Langfristig wird man so 10-20% unterm GP102 bleiben mit V10, auch wenn alles optimiert ist und viele neue low-level-Titel auf dem Markt sind.


In Bestcase-Szenarien wie Watch Dogs 2 liegt die GTX 1080 in 1440p auch 20% vor der Vega 64.

Rampage 2
2017-08-17, 15:40:42
Ich tendiere zu 5120, da man dann 40 SMs hätte und die GPCs von 6 auf 8 steigern kann.

Es wäre in der Tat sinnvoll, wenn Nvidia die Gx102 vom Gx104 leistungsmäßig stärker abgrenzen würde. Also:

Gx102 = 8 GPCs

Gx104 = 4 GPCs

Gx106 = 2 GPCs

Dann wäre ein Gx102 doppelt so stark wie ein Gx104 und der irrsinnige Preisaufschlag für eine Ti oder Titan wäre endlich mal gerechtfertigt...

Das Problem ist nur, dass man dann die Gx104 und Gx106 noch stärker abspecken müsste (weniger SPs, ROPs und TMUs als sonst üblich), weil die maximale Die-Size gleich bleibt; ein GV104 dürfte weiterhin nur maximal 2560SPs und ein GV106 maximal 1280SPs haben - also exakt so viele, wie GP104 und GP106 jetzt haben. GV102 würde dann 5120SPs haben und müsste über ein 512Bit breites SI verfügen. Und das Weniger an Einheiten bei GV104/106 müsste NV durch einen höheren Takt und/oder höhere IPC ausgleichen, um die Ziel-Performance eines ursprünglichen GV104 (3500-4000 SPs) erreichen. Und damit ein GV102 trotzdem doppelt so schnell bleibt, müsste NV auch da den (Chip-)Takt weiter erhöhen...

Insofern scheint das wohl nicht mehr möglich zu sein - ist schon fast 10 Jahre her, seitdem das Zuletzt so gehandhabt wurde:freak:


Das ganze bei ~600mm² und mit 16Gbps 384Bit Ram für die Titan. 14-15Gbps für die TI. Ich wäre skeptisch ob da mehr IPC bei raus kommt.

Wieviel Platz würde denn ein hypothetischer GV102 mit 6144 SPs und ohne jeglichen HPC-Ballast und im "neuen" 12nm Prozess einnehmen? GP102 hat keinerlei HPC-Ballast und ist im Vollausbau (3840SPs) 471mm^2 groß, allerdings im bisschen "schlechteren" 16nm FF+ Prozess...

Dieselbe Frage für hypothetische 5760 SPs...

R2

Hübie
2017-08-17, 15:56:24
Iirc ist der Flächenvorteil bei 6%. Dann käme man rechnerisch bei 664 mm² heraus. GV102 wird unter 600 sein. ;)

Rampage 2
2017-08-17, 16:11:29
Iirc ist der Flächenvorteil bei 6%. Dann käme man rechnerisch bei 664 mm² heraus. GV102 wird unter 600 sein. ;)

*hust*

GV102 @ 6144 SPs = 709mm^2

GV102 @ 5760 SPs = 664mm^2

GV102 @ 5376 SPs = 620mm^2

Selbst der schlankste GV102 (exakt so viele SPs wie GV100) wäre immer noch deutlich über 600mm^2 groß;D

Wo liegt eigentlich das aktuelle Limit für die Die-Size bei der Herstellung von Chipwafern? Ich hatte irgendwo mal rausgelesen, dass evtl. auch ~ 700mm^2 noch im Bereich des Machbaren seien...

R2
Merken

Hübie
2017-08-17, 16:21:39
GV100 hat schon mal 815mm²... beim CoWoS ist man bei 1000+, also schätze ich etwas unter 850 mm² als reticle limit (~30 x 28 mm).

reaperrr
2017-08-17, 16:34:52
Es wäre in der Tat sinnvoll, wenn Nvidia die Gx102 vom Gx104 leistungsmäßig stärker abgrenzen würde. Also:

Gx102 = 8 GPCs

Gx104 = 4 GPCs

Gx106 = 2 GPCs

Dann wäre ein Gx102 doppelt so stark wie ein Gx104 und der irrsinnige Preisaufschlag für eine Ti oder Titan wäre endlich mal gerechtfertigt...

Das Problem ist nur, dass man dann die Gx104 und Gx106 noch stärker abspecken müsste (weniger SPs, ROPs und TMUs als sonst üblich), weil die maximale Die-Size gleich bleibt; ein GV104 dürfte weiterhin nur maximal 2560SPs und ein GV106 maximal 1280SPs haben - also exakt so viele, wie GP104 und GP106 jetzt haben. GV102 würde dann 5120SPs haben und müsste über ein 512Bit breites SI verfügen. Und das Weniger an Einheiten bei GV104/106 müsste NV durch einen höheren Takt und/oder höhere IPC ausgleichen, um die Ziel-Performance eines ursprünglichen GV104 (3500-4000 SPs) erreichen. Und damit ein GV102 trotzdem doppelt so schnell bleibt, müsste NV auch da den (Chip-)Takt weiter erhöhen...
Kann man so ziemlich ausschließen.

Wegen dem anstehenden GDDR6 wird NV zu 99% bei den aktuellen SI-Breiten im jeweiligen Segment bleiben, damit macht es dann auch Sinn, die Zahl an GPCs, ROPs und relativen Performance-Abstände gleich zu halten.

Ich denke, wir werden einfach 'nur' 33-40% mehr SM, GDDR5X/GDDR6 fürs gesamte Line-Up ab 2050 Ti aufwärts, und ein paar Architekturverbesserungen sehen.
Edit: Was ja auch völlig ausreicht, da Nvidia momentan hauptsächlich sich selbst in Form von Pascal schlagen muss, um die Leute zum Aufrüsten zu bewegen.

Hübie
2017-08-17, 16:45:35
Man kann da nach wie vor derbe beim Takt skalieren. Seht doch mal GM200 an. Der kam so untertaktet daher, dass man noch mal 25% bei so ziemlich jeder Karte herausholen kann (GPU&MEM). Ich erwarte da auch eher 30% plus Checklistenfeatures (erinnert ihr euch an MFAA oder diese Perpektivenkorrektur für Bezel / VR??).

Complicated
2017-08-17, 17:36:43
Dir ist schon klar, dass GV100 5120 * 2 "Instructions per Clock" ausführen kann und dies 40% mehr sind als die 3584 * 2 "Instructions per Clock" von GP100?

Du solltest deine Buzzwörter auch verstehen, bevor du sie benutzt. ;D
Was ist das denn für eine Logik?
Die selbe Rechnung bei einer CPU bedeutet 4 Kerne * "Intructions per Clock" verglichen mit 8 Kernen * "Intruction per Clock" ergibt 100% mehr IPC bei doppelt so vielen Kernen?
:freak:

Troyan
2017-08-17, 17:48:53
Es gilt das gleiche für dich: Benutze keine Buzzwörter, die du nicht verstehst und somit einordnen kannst.


Die Maßeinheit Instructions per Cycle (IPC; deutsch Instruktionen pro Zyklus[1]) bezeichnet die Anzahl der von einem Prozessor in einem Taktzyklus ausführbaren Befehle.
https://de.wikipedia.org/wiki/Instructions_per_Cycle

Taktzyklus

Ein Taktsignal oder Systemtakt (kurz auch nur Takt; englisch clock signal, clock oder system clock genannt) ist in der Digitaltechnik ein binäres Signal, das der Koordination bzw. Synchronisation der Aktionen mehrerer Schaltkreise (insbesondere der von Flipflops) innerhalb komplexer digitaler Systeme (Schaltwerke) dient.
https://de.wikipedia.org/wiki/Taktsignal

Complicated
2017-08-17, 18:02:16
Schon blöd wenn man nicht nachschaut wie Wikipedia einen Prozessor definiert. Das ist jeweils ein Kern in diesem von dir verlinkten Kontext:
https://de.wikipedia.org/wiki/Prozessor#Hauptprozessor.2C_CPU_und_Prozessorkern
Die klassische Einteilung, dass ein Steuerwerk und eine ALU als ein CPU, Kern bzw. Prozessor bezeichnet werden, verschwimmt zunehmend. Heutige Prozessoren (auch Einkernprozessoren) besitzen oft Steuerwerke, die jeweils mehrere Hardware-Threads verwalten (Multi-/Hyper-Threading); das Betriebssystem „sieht“ mehr Prozessorkerne, als tatsächlich (vollwertige) Steuerwerke vorhanden sind.

Troyan
2017-08-17, 18:07:27
GPUs treten als "ein" Kern nach außen auf. Die komplette Abarbeitung der Arbeit ist anders als bei "normalen" Prozessoren. Deswegen steigt die IPC auch mit mehr Recheneinheiten im Gegensatz zu Prozessoren.

Dazu kommt die Definition. Was ist ein "Kern". Die reine FP32 Einheit? Ein Vec16 Verbund? Eine Compute Unit? Ein kompletter GPC?

Man sollte Buzzwörter nicht verwenden, wenn man keine Ahnung hat, worüber man spricht.

basix
2017-08-17, 19:01:52
+40% sind ja wohl das grösste, was drin liegt. Ein voller (leerer) GPC mit 640 Shader Cores ist ca. 60mm2 gross. 5120 Shader Cores oder +33% ergibt also +1280 Shader oder +120mm2 und somit schon ca. 590mm2

Dies ergibt aber ein "asymmetrisches Design", nicht alle GPC haben gleich viele SMs. Packen sie jeweils 7 SM in ein GPC käme man auf 5376 Shader Cores (+40%) oder +144m2 und 615mm2. Entweder sie sparen noch irgendwo Fläche ein oder sie gehen über 600mm2. Aufgrund der sicherlich sehr hohen Preise / Marge könnte das Nvidia aber schon wagen. Und im Quadro Bereich ist so ein Chip sicher auch nicht zu verachten.

Sunrise
2017-08-18, 07:47:58
Zwischen 550mm^2 bis etwa 650mm^2 ist überhaupt kein Thema bei GV102. Auch GV104 wird größer und AMD gibt ja vor, was sie für die Radeon Vega RX64 verlangen, da kommt schon GV104 leistungsmäßig weit drüber und Preis-Spielraum ist auch mehr als genug.

Ab 7nm kommt man zudem wieder sehr weit mit der Die-Größe runter, insofern kann man sowohl in die Breite als auch mit den Verbesserungen von GV100 und weniger "Ballast", dem optimierten Prozess mit minimalem Mehrtakt wieder den Abstand deutlich ausbauen.

NV kann da auf absehbare Zeit dann sowieso wieder die Preise diktieren.

Es ist wohl eher die Frage wie weit sie gehen müssen, damit sie ihre sehr guten Margen halten können und einen Refresh von Vega (Vega 20, falls er wirklich existiert), auch noch abfangen kann.

Hübie
2017-08-18, 08:00:23
+40% sind ja wohl das grösste, was drin liegt. Ein voller (leerer) GPC mit 640 Shader Cores ist ca. 60mm2 gross. 5120 Shader Cores oder +33% ergibt also +1280 Shader oder +120mm2 und somit schon ca. 590mm2

Dies ergibt aber ein "asymmetrisches Design", nicht alle GPC haben gleich viele SMs. Packen sie jeweils 7 SM in ein GPC käme man auf 5376 Shader Cores (+40%) oder +144m2 und 615mm2. Entweder sie sparen noch irgendwo Fläche ein oder sie gehen über 600mm2. Aufgrund der sicherlich sehr hohen Preise / Marge könnte das Nvidia aber schon wagen. Und im Quadro Bereich ist so ein Chip sicher auch nicht zu verachten.

Ich nehme an, dass du vom GV100 ausgehend mit den 60 mm^2 gerechnet hast. Die SMs werden sich jedoch unterscheiden.

Dural
2017-08-18, 09:27:09
GV102 42x128 = 5376SP
GV104 28x128 = 3584SP

Leider gibt das so krumme 7er Cluster.

Hübie
2017-08-18, 10:12:09
4608 wäre auch denkbar. 384 Bit Busbreite passen da herrlich zu. :D Da muss man aber ordentlich die Taktschraube festziehen. Ich rechne fest mit 5376 ALUs, 7 SMs á 128 ALUs pro GPC, 6 GPCs insgesamt und das ganze an 384 Bit samt GDDR6. Das dürfte leicht unter oder über 600 mm² heraus kommen. Da man Balast wie FP64 und Tensor Cores nicht braucht müsste man unter 600 mm² landen. Für HBM2 oder mehr Busbreite sehe ich hier einfach keinen Bedarf.

Auf die Werte lasse ich mich sogar festnageln. :D

horn 12
2017-08-18, 10:15:30
Und Preislich 600 bis 650 Euro für GV 104 und knappe Tausend für GV100
Dies wird arg teuer und dies weiss NV nur zu genau.

basix
2017-08-18, 10:49:12
Ich nehme an, dass du vom GV100 ausgehend mit den 60 mm^2 gerechnet hast. Die SMs werden sich jedoch unterscheiden.

Nein, GP104 und nachmessen am Die Shot ;)

Hübie
2017-08-18, 11:11:48
Dann hast du den Fertigungsvorteil von 12nm nicht beachtet. :smile: Der ist marginal, aber in der Summe vorhanden.

@horn12: Es gibt keinen Grund die Preise so hoch anzusetzen. Wie gehabt GV104 wird bei 599/699 $ liegen. Man war mit der Founder Edition sehr erfolgreich und wird dies wohl so beibehalten.

AffenJack
2017-08-18, 11:15:37
GV102 42x128 = 5376SP
GV104 28x128 = 3584SP

Leider gibt das so krumme 7er Cluster.

Macht wirklich am meisten Sinn, wenn man Nvs letzte Generationen betrachtet. Bei 5120 Shadern kann Nv nicht ihr übliches 1/3, 2/3,3/3 SM-Anzahl aufziehen.
GV106 dann 1792SP.

Was ist an 7er GPCs krummer als 5er GPCs? Beides nicht gerade. Mehr SM pro GPC hat dann auch noch den Vorteil, dass man etwas Platz sparen wird. Man skaliert damit zwar nicht die Rasterizerleistung, aber die dürfte noch locker ausreichen.

Dann hast du den Fertigungsvorteil von 12nm nicht beachtet. :smile: Der ist marginal, aber in der Summe vorhanden.

Da weiß man auch nicht ob bei der Packdichte nicht mehr geht. GV100 ist so an der Grenze gebaut, dass man bewusst auf Packdichte verzichtet haben könnte, während GV102 usw diese dann noch etwas erhöhen.

AffenJack
2017-08-18, 11:17:30
löschen bitte

robbitop
2017-08-18, 11:35:31
5 % Vorteil durch 12FC kommen gut hin verglichen mit GP100 und GP102.
Ich tippe (für den Vollausbau) auf Einheitengleichheit zum GV100. Einfach weil es bei GP102 auch so war.
GP102 hatte ohne "Ballast" 77% der Fläche von GP100. Ausgegangen davon, dass sich das bei Volta auch so verhält, würde GV102 629 sqmm haben. GV104 entsprechend ~420 sqmm.

Es kann natürlich sein, dass die Tensor Cores deutlich mehr Ballast erzeugen.

Ein hypothetischer GP100@12FC@5376SPs würde extrapoliert bei grob 811 sqmm liegen. GV100 hat 815 sqmm. Auch heruntergerechnet (GV100@16nm@3840SPs) kommt man auf ähnliche Größen wie GP100.

So groß sind die Tensorcores offenbar nicht ggü dem Ballast den GP100 mitträgt. So viel mehr Transistoren hat ein GPC @GV100 offenbar gar nicht als GP100. Vor allem wenn man vergleicht, wie sehr diese von Maxwell zu Pascal gewachsen sind. Hier würde ich die leise Vermutung äußern, dass doch nicht so viel mehr Takt und einheitsnormierte (und gleichzeitig taktnormierte) Leistung herauskommt.

Die Mehrleistung von ("Gamingvolta" - also GV102 und GV104 und GV106) käme folglich im Wesentlichen aus größeren Kerngrößen und leicht höheren Taktraten (bedingt durch 12FC).

Hübie
2017-08-18, 11:58:45
Jetzt hab ich den Anschluß verloren. :freak: Was meinst du mit "größeren Kerngrößen"? Mehr SMs pro GPCs? Oder einfach größere ALUs (mehr Funktionen, wobei ich gar nicht weiß ob man da mehr benötigt)? Wenn die Schaubilder stimmen, nimmt so ein Tensor Core ca. 1/3 eines SM (rein auf den Block mit ALUs bezogen:

https://abload.de/img/tensorcoreszjstn.png (http://abload.de/image.php?img=tensorcoreszjstn.png)

Aus dem Hintergrund kam dass man bei Perf/W überzeugen will und überraschen wird.

Edit: Ich frage mich gerade ob das OCN dadurch größer oder kleiner sein würde. Für mein Verständnis braucht es weniger Komplexität, wenn 7 statt 5 SMs auf einen GPC landen. Dafür hat man eben nicht mehr Rasterleistung (sagte Affenjack ja schon).

Edit2: Quelle: http://www.guru3d.com/articles-pages/nvidia-testla-volta-v100-preview,1.html

Bucklew
2017-08-18, 12:16:16
+40% sind ja wohl das grösste, was drin liegt.
+40% durch die Reihe wäre aber krass, weil sich AMD mit Vega (und 500mm² Die) eher mit dem GV106, als mit dem GV104 vergleichen würde.

Dies wird arg teuer und dies weiss NV nur zu genau.
Die Karten wären auch faktisch konkurrenzlos.

AffenJack
2017-08-18, 12:23:05
Es sind nicht nur die Tensorcores die dazugekommen sind:

GV100 Die Size gegen GP100 :+34%
Transistorzahl: +38%
GPC: Gleich
Shader : +40%
Nvlink 4 vs 6: +50%
L1 Cache/Shared Memory pro SM: 88kb vs 128kb +45%
L2 Cache:4mb vs 6mb +50%
Speicherinterface/ROP: Gleich
+ Tensor Cores + Int 32

GP102 vs GV102 Spekulation
GPC: Gleich
Shader : 5376SP +40%
L1 Cache/Shared Memory pro SM: 144kb vs 160-192kb? +11% - +33%
L2 Cache: Gleich?
Speicherinterface/ROP: Gleich
+ 2x FP16 +INT32?

Alleine 2 zusätzliche Nvlinks sollten schon etwas Platz weggenommen haben, der zusätzliche L1/L2 Cache.

Völlig ins blaue geraten:
Ein Hypothetischer GV100 ohne die Sachen wäre vielleicht: 815mm² - Cachesteigerung 5mm², - 2x Nvlink 20mm², - Tensorcores 20mm² = 770 mm² Also 26% größer als GP100, wenn man die gleichen Dinge skalieren würde wie in meiner GV102 Speku. Auf GV102 bezogen käme man bei 594 mm² raus. Klinge also durchaus machbar.

Weiß eigentlich wer wie groß 1 Nvlink ist? Es gab doch Dieshots, da müsste sowas bekannt sein. Ich hab da nur geraten.

scully1234
2017-08-18, 12:45:30
Weiß eigentlich wer wie groß 1 Nvlink ist? Es gab doch Dieshots, da müsste sowas bekannt sein. Ich hab da nur geraten.


https://devblogs.nvidia.com/parallelforall/wp-content/uploads/2017/05/image7.png


https://cdn.arstechnica.net/wp-content/uploads/sites/3/2017/05/NVIDIA-Telsa-V100.jpg

basix
2017-08-18, 13:08:09
Die-Shot + Markierung NVLINK GP100:
https://forum.beyond3d.com/posts/1937171/

Ich komme auf ca. 20-25mm2 für den markierten Bereich (NVLINK kann aber noch mehr beinhalten, weiss ich aber nicht). 10-15mm2 durch die zwei zusätzlichen Links sind einigermassen realistisch.

Edit:
Volta GP102 mit 6x 7er GPC wird meiner Meinung nach auf die 600mm2 knacken und wenn nicht nur haarscharf daran vorbeisegeln. Eine Realisierung ist aber nicht unrealistisch. TSMC 16nm ist nun auch schon >1 Jahr am Markt.

aceCrasher
2017-08-18, 14:02:47
@Complicated

Ich denke, dass die Leute wenn sie hier von IPC sprechen eher "Endleistung in Anwendungen/Spielen in Relation zur vorhandenen Rohleistung in Tflops" meinen, während du nur von Rohleistung sprichst.

EDIT: Whoops, in der Seite vertan, nicht mehr relevant.

robbitop
2017-08-18, 23:02:28
@huebi
das ist doch nur ein Schaubild. Das sagt rein gar nichts über tatsächliche relative Größe der Tensorcores aus.
Skaliere GP100 auf die Anzahl der Recheneinheiten von GV100 und die Transistorzahl ist nahezu vergleichbar (unterr der Annahme, dass eine lineare Skalierung vorliegt - also nir grobe Näherung).

Rampage 2
2017-08-19, 00:31:41
Es sind nicht nur die Tensorcores die dazugekommen sind:

GV100 Die Size gegen GP100 :+34%

Speicherinterface/ROP: Gleich


Der GV100 Vollausbau hat angeblich 336 TMUs - allein deswegen müsste GV100 mehr ROPs besitzen. Ich rechne zwischen 112-144 ROPs.



GP102 vs GV102 Spekulation

Speicherinterface/ROP: Gleich



Seit Maxwell sind bei Gx104 immer 64 ROPs verbaut - mit Volta ist die Zeit reif für die nächste Erhöhung. Die Pixel-Füllrate muss weiter steigen. Auch hier rechne ich zwischen 80-96 ROPs.

R2

HOT
2017-08-19, 00:33:00
Ein GV104 mit 3072 Shader würde grob überschlagen 350mm² ergeben mit etwas Platzersparnis, ein GV102 mit 4608 Shader ca. 550mm². Das sind ziemlich gute Werte, auch aus Kostensicht mMn.
Die kann man dann mit >= 14GT/s GDDR5X/6 kombinieren, das würde passen. Mit verbesserter Fertigung wär dann sogar noch ein Refresh drin, die 12FFN sind ja noch sehr frisch. Hat alles das Milchmädchen berechnet selbstredend.
5376 Shader sind mMn eher unwahrscheinlich, es sei denn, man bekommt auch abseits des Prozesses die Packdichte besser hin, denn das wären ca. 650mm² meiner Milchmädchenrechnung nach. Man wird mMn unter allen umständen vermeiden wollen stark über 400 bzw. 600mm² zu kommen.

Rampage 2
2017-08-19, 02:17:34
5376 Shader sind mMn eher unwahrscheinlich, es sei denn, man bekommt auch abseits des Prozesses die Packdichte besser hin, denn das wären ca. 650mm² meiner Milchmädchenrechnung nach. Man wird mMn unter allen umständen vermeiden wollen stark über 400 bzw. 600mm² zu kommen.

Rein rechnerisch würde ein GP102 aufgebläht auf 5376 SPs eine Die-Fläche von ~ 660mm^2 beanspruchen. Minus 5% durch Flächenvorteil von 12nm und man landet bei 620-630mm^2. Vielleicht sogar etwas kleiner. Der GM200 hatte auch 601mm^2 und die 20-30mm^2 mehr eines GV102 wäre ja keine gravierende Abweichung vom 600mm^2 Limit...

(Das Monster-Die vom GV100 ist ja für den HPC-Markt bestimmt - und dort spielen Kosten und Aufwand keine Rolle. Daher kann Nvidia dort die Limits überschreiten)

R2

Dural
2017-08-19, 10:36:20
Wie so sollte man vermeiden über 600mm2 zu gehen? Gm200 war auch 600 und es ging.
12nm ist ja nur 16nm++ und nv lässt einen 800mm2 chip damit bauen, technisch dürfte der prozess also recht ausgereift sein.

Amd hat so viel rückstand, das lässt sich kaum mehr aufholen mit den mittel die sie haben = nv kann für die volta karten quasi alles verlangen. Es spricht nichts gegen einen gv102 mit 600mm2

HOT
2017-08-19, 10:55:45
Es spricht einach nichts dafür. Dass V10 auf absehbare Zeit das Top-Produkt wird und dieser die 1080ti nicht signifikant schlagen konnte ist ja schon lange bekannt. Warum sollte man sich solche Kostenfaktoren ans Bein binden? Dann kommt noch als weiterer Punkt die TDP hinzu. Je größer der Chip wird, desto weniger kannst du den takten. Da nimmt man doch lieber einen kleineren Chip, weniger Kosten und dafür höhere Taktraten. NV kann das doch nutzen, warum also nicht. Wie gesagt, es gibt genau keine Notwendigkeit dafür, die Chips über 400 bzw. 600mm² zu bringen und das war schon lange klar. Wenn man auch nur ein bisschen wirtschaftlich denkt sollte das schnell klar werden. GV104 muss die 1080ti knapp schlagen, mehr ist einfach unnötig und bringt keinen Cent mehr für NV. 3k Shader @1900MHz Boost reicht für die 1080Ti und man bräuchte, um ähnliche Bandbreiten zu erreichen, 256Bit 16Gbps GDDR5x/6 RAM.
Und nein, der Prozess ist neu. Er baut auf einem erfolgreichen, fertigen Prozess auf, daher sind die Chipgrößen auch möglich.

horn 12
2017-08-19, 11:11:15
Nun dies hängt wohl davon ab wie schnell Vega in 1-2 Monaten Wird
Der Verbrauch ist hoch wie er ist aber gut möglich das AMD die GTX 1080 TI in etwa erreicht bei so vielen Spielen. Da ist gewaltig was im Argen und wenn sie es schaffen die Fesseln zu lösen ist viel drinnen.
Rechne auch GV104 wird so 10 bis 15% über einer GTX 1080TI Stock kommen zu fast selben Preis, Zumindest aber doch über 550 Euro.

pixeljetstream
2017-08-19, 11:30:41
animiert in die Tabellen zu gucken um zu sehen wer besser beim Topfschlagen ist ;)

scully1234
2017-08-19, 11:49:52
hast du da ne aufschlussreiche Tabelle für Volta ? :tongue:

Hübie
2017-08-19, 12:27:22
@huebi
das ist doch nur ein Schaubild. Das sagt rein gar nichts über tatsächliche relative Größe der Tensorcores aus.
Skaliere GP100 auf die Anzahl der Recheneinheiten von GV100 und die Transistorzahl ist nahezu vergleichbar (unterr der Annahme, dass eine lineare Skalierung vorliegt - also nir grobe Näherung).

Das ist mir alles klar, nur waren die in der Vergangenheit nicht weit weg von den Relationen auf dem Chip (FP64 Units sind z.B. winzig und werden entsprechend so dargestellt). Daher auch das "1/3?" mit Fragezeichen versehen. :wink:

ps: Mit "ie". wieso bekommt das keiner hin? :|

pixeljetstream
2017-08-19, 12:38:46
hast du da ne aufschlussreiche Tabelle für Volta ? :tongue:

reicht auf jeden Fall für nen wichtig mach kommentar ;)

gibt nen twitter link der zu cuda 9 rc docs führt

https://twitter.com/g_truc/status/895414311425912832

http://docs.nvidia.com/cuda-rc/cuda-c-programming-guide/index.html#maximize-instruction-throughput
http://docs.nvidia.com/cuda-rc/cuda-c-programming-guide/index.html#features-and-technical-specifications
http://docs.nvidia.com/cuda-rc/cuda-c-programming-guide/index.html#compute-capability-7-x

Troyan
2017-08-19, 12:48:06
Kein doppelter Durchsatz mit FP16 aus den FP32 Einheiten für GV100. War zwar schon klar, aber interessant zu sehen.

reaperrr
2017-08-19, 15:15:40
Rein rechnerisch würde ein GP102 aufgebläht auf 5376 SPs eine Die-Fläche von ~ 660mm^2 beanspruchen.
Nein.

Du machst dir das viel zu einfach mit der Rechnung. Ein solcher GP102 käme auch nur auf ~600mm², weil
- Speicherinterface
- L2-Cache
- Command Processor
- Zahl der GPCs (Primitive Pipelines)
- I/O (PCIe-Lanes)
- DisplayEngine, Video En-/Decoder

gleich bleiben würden.

GP102 hat 10 SM, 2 GPC, 32 ROP, 1 MB L2 und 128bit SI mehr als GP104, und braucht dafür nur 165mm² zusätzlich, selbst damit kämst du "nur" auf 635mm².
12 SM zusätzlich wäre zwar eine etwas größere Steigerung in diesem Bereich, aber wenn dafür alles andere gar nicht gesteigert wird, sollte der Flächenzuwachs trotzdem geringer ausfallen.


@HOT: Ganz einfach, Voltas Hauptkonkurrent heißt nicht Vega, sondern Pascal.

Nvidia muss nicht AMD-Fans, sondern Pascal-Besitzer zum aufrüsten bringen um weiter so hohe Umsätze und Gewinne zu erwirtschaften, und dafür reichen 20-25% mehr Performance nicht aus, dann würden zu viele Pascal-Besitzer Volta überspringen.

Bei 35-40% sieht das schon etwas anders aus. Solange das Verkaufsvolumen dadurch entsprechend größer ausfällt, fallen die paar mm² mehr nicht groß ins Gewicht (zumal sie für 15% mehr Performance-Steigerung auch problemlos 50$ mehr nehmen können, was die höheren Produktionskosten pro Chip schon mehr als ausgleichen dürfte).

scully1234
2017-08-19, 15:46:21
Nvidia muss nicht AMD-Fans, sondern Pascal-Besitzer zum aufrüsten bringen um weiter so hohe Umsätze und Gewinne zu erwirtschaften, und dafür reichen 20-25% mehr Performance nicht aus.

Zumindestens nicht bei dem großen GV102, für den kleinen wäre solch eine Leistungssteigerung im Erwartbaren

Skysnake
2017-08-19, 21:45:25
(Das Monster-Die vom GV100 ist ja für den HPC-Markt bestimmt - und dort spielen Kosten und Aufwand keine Rolle. Daher kann Nvidia dort die Limits überschreiten)

R2

Schön wärs...

Aber die Realität sieht ganz anders aus. Im HPC Bereich wird mit spitzer Feder gerechnet. Da sind oft keine super Margen drin. Dafür sind es halt immer gleich relativ große Deals. Aber Enterprise ist deutlich interessanter was die Margen anbelangt.

Wo Geld eher keine Rolle spielt ist der Banken und Versicherungssektor. Da ist oft nur interessant wieviel 9er man bieten kann.

Digidi
2017-08-19, 23:50:20
Wird Volta auch so was wie Primitive Shader bekommen? Oder hat Pascal das schon?

reaperrr
2017-08-20, 00:24:48
Wird Volta auch so was wie Primitive Shader bekommen? Oder hat Pascal das schon?
Pascal definitiv nicht, und bei Volta bezweifle ich es stark, da es sich um eine AMD-Entwicklung und kein offizielles DX12-Feature handelt, selbst bei Async-Compute hat NV ja recht lange gebraucht, bis es wenigstens keine Einbußen mehr verursacht (seit Pascal).

Wobei Nvidia sowas wie Primitive Shader von der Performance her durch die höheren Taktraten, das bessere Culling und die Polymorph-Engines so oder so nicht so dringend braucht.

pixeljetstream
2017-08-20, 00:32:49
Wird Volta auch so was wie Primitive Shader bekommen? Oder hat Pascal das schon?

Seit Maxwell2 hat NV eine Extension (NV_viewport_array2) die es erlaubt in jeder Geometrie Stage Primitive zu Cullen. Seit Kepler kann jeder thread im Warp auf benachbarte Register zugreifen.
Technisch ist es daher möglich ähnliches culling selber zu implementieren.

Da es aber bisher von AMD keine Vulkan Extensions oder der gleichen vom PS gibt, weiß man nicht genau was nun der volle Funktionsumfang ist.

Allerdings funktioniert die Geometriepipeline beider Hersteller unterschiedlich, wie reaperr sagt. Was dem einen nutzt, muss beim anderen kein bottleneck sein, oder ist dort evtl anders gelöst.

Hübie
2017-08-20, 00:54:20
Und gab / gibt es schon variable Warp-Sizes?

Digidi
2017-08-20, 01:04:47
Seit Maxwell2 hat NV eine Extension (NV_viewport_array2) die es erlaubt in jeder Geometrie Stage Primitive zu Cullen. Seit Kepler kann jeder thread im Warp auf benachbarte Register zugreifen.
Technisch ist es daher möglich ähnliches culling selber zu implementieren.

Da es aber bisher von AMD keine Vulkan Extensions oder der gleichen vom PS gibt, weiß man nicht genau was nun der volle Funktionsumfang ist.

Allerdings funktioniert die Geometriepipeline beider Hersteller unterschiedlich, wie reaperr sagt. Was dem einen nutzt, muss beim anderen kein bottleneck sein, oder ist dort evtl anders gelöst.

Kann man bei Nvidia auch schon im Vertex Shader Cullen?
So läuft das bei AMD ab:


“In a chipset we’ve been building for a while now, we have a vertex process that runs and it could either be a domain shader or a vertex shader, could be a vertex process on the output of a geometry shader that’s doing amplification or decimation. And at that point when you finally have the final position of the vertices of the triangle, is one point where we can always find out whether or not the triangle is inside of the frustum, back-faced, or too small to hit. From frustum testing, there’s a mathematical way to figure out whether or not a vertex is inside of the view frustum. If any one of the vertices are inside of the view frustum, then we’ll know that the triangle can potentially create pixels. To do a back-faced culling perspective, you can find two edges or with three vertices you can find one edge and a second edge, and then you can take a cross-product of that and determine the facedness of the triangle. You can then product that with the eye-ray, and if it’s a positive result, it’s facing the direction of the view, and if it’s negative it’s a back-faced triangle and you don’t need to do it. […] State data goes in to whether or not you can opportunistically throw a triangle away. You can be rendering something where you can actually fly inside of an object, see the interior of it, and then when you come outside, you can see outside-in – in those instances, you can’t do back-faced culling.”
http://www.gamersnexus.net/guides/3010-primitive-discarding-in-vega-with-mike-mantor

Hübie
2017-08-20, 11:09:21
Übrigens wären 5120 ALUs gar nicht so schlecht, wenn man pro GPC 5*128 beibehalten würde. Dann hat man 1920 und 3200 ALUs für die Performance und Entry-Level Karten. 1280 dann die Nachfolger der 1030 Ende 2018. Klingt doch auch nach einem guten Treffer oder hab ich was nicht bedacht?? :D

pixeljetstream
2017-08-20, 12:47:38
Kann man bei Nvidia auch schon im Vertex Shader Cullen?
So läuft das bei AMD ab:

http://www.gamersnexus.net/guides/3010-primitive-discarding-in-vega-with-mike-mantor

Das meiste was bei gamersnexus erklärt wird, ist high-level und beschreibt nur die Mathematik und generelle Vorteile wenn man erst culled für Leute die denke ich keine Entwickler sind, weniger interessante Details. Das Vega Whitepaper ist da ein bißchen aufschlussreicher, aber auch noch nicht genau genug was man als Entwickler nun alles machen kann mit dem Shader. Im Moment ist er ja nur intern als Optimierung genutzt. Sobald AMD es via Vulkan direkt den Entwicklern verfügbar macht, weiß man mehr. Da AMD's Wavefronts doppelt so breit sind wie NV's warps, blockieren sie mehr Ressourcen wenn nur wenige davon tatsächlich genutzt werden, das könnte den Handlungsbedarf ihrerseits etwas verschärft haben.

Wie vorher erwähnt erlaubt es die NV Extension dem Entwickler auch im Vertex Shader zu cullen. Allerdings hat man über die API nur im "(fast) geometry shader" die per-primitive Informationen für backface/small primitive culling, ergo kann man im Vertex Shader mit der Extension nur frustum culling auf warp-level betreiben.Also wenn alle Primitive im Vertex warp ausserhalb des Frustums sind, kann man sich den Attribute Fetch sparen. Der fast geometry shader hat auch nicht die Nachteile des normalen GS und kam ebenfalls mit Maxwell2.
Was die Hardware oder Treiber darüberhinaus für Möglichkeiten an Optimierungen in der Primitivepipeline hat, ist öffentlich nicht dokumentiert.

Digidi
2017-08-20, 13:36:29
Danke Pixeljetstream

Gibt es von Nvidia eine Aussage wie viel die Hardware Maxiaml an Geometrie bearbeiten kann. AMD nennt hier 17 Polygonen per Clock.

Leider finde ich nichts dazu bei Nvidia. ¯\_(ツ)_/¯

Hübie
2017-08-20, 13:50:52
Gibt es dafür überhaupt einen Funktionsaufruf durch DXGI? Oder nur per Vulkan / OGL / CUDA?? Dann wird man DX erweitern müssen, wenn man den Anschluss nicht verlieren möchte.

Wenn ich mir übrigens die Daten aus deinen Tabellen mal so ansehe nähert man sich teilweise wieder Kepler an. Man sucht da also noch die Balance - zumindest für HPC. Wieviel letztendlich für Consumer notwendig ist wird sich zeigen müssen.

Vielleicht ne doofe undurchdachte Frage: Erhöht sich mit der Auflösung der Druck auf Register? Für mein Verständnis ja, da man mehr Informationen pro Quad bzw. pro Pixel hat was ja in mehr Zwischenergebnisse resultiert. Demnach müssten diese ggü. Pascal wahrscheinlich schon mal ansteigen, wenn man das "4k-Siegel" anstrebt. Oder zumindest deren Bandbreite.

pixeljetstream
2017-08-20, 19:09:44
Die Anzahl der maximal gelichzeitig ausführbaren Threads ist selbst bei vielen normalen Auflösungen schon geringer als die Anzahl der Pixel, ergo ist das Problem grundsätzlich nicht anders. Es ist einfach "viel" mehr Arbeit.

Danke Pixeljetstream

Gibt es von Nvidia eine Aussage wie viel die Hardware Maxiaml an Geometrie bearbeiten kann. AMD nennt hier 17 Polygonen per Clock.

Leider finde ich nichts dazu bei Nvidia. ¯\_(ツ)_/¯

AMD macht zwei Angaben, rastern können sie nachwievor mit 4 triangles per clock. Culling ist durch den Primitive Shader nun höher.

NV's GPC hat eine Raster engine die 1 triangle pro clock schafft, also GP104 mit 4 GPCs 4 per clock, bzw. GP102 6 per clock.

Es findet sich im 680 Whitepaper eine Angabe zum Durchsatz, die Polymorphengine schafft 0.5 primitives/clk, also müsste GP102 15 primitives/clk bzw GP104 10 primitives/clk schaffen, da in anderen Whitepapers keine Angaben mehr zu Änderungen beim Durchsatz gemacht wurden.

Edit: diese Annahme ist mit Vorsicht zu genießen ob sie sich aufs Culling bezieht, da im Prinzip mehrere Limits greifen und in den Whitepapers nicht steht welches genau gemeint ist. Auch kann eine Unit zur Zeiten von Kepler das echte Limit gewesen sein, und später nicht mehr.

Nach etwas googlen fand ich einen Kommentar wo einer meinte das tatsächlich gemessene Limit war weniger. Im Zweifelsfall liegt der Wert zwischen Raster und diesen hergeleiteten Werten.

https://international.download.nvidia.com/webassets/en_US/pdf/GeForce-GTX-680-Whitepaper-FINAL.pdf (Seite 8)

Digidi
2017-08-20, 19:42:25
Danke für die Infos.

was ich nicht ganz verstehe, die Polymorphenginge sitzt doch nach dem Rasterizer wie kann die dann noch Polygonen verarbeiten?

pixeljetstream
2017-08-20, 21:25:39
Die Polymorphengine (Marketingnamenskonstrukt) beherbergt mehrere Units, in erster Linie macht sie Arbeit vor dem Rasterizer, nur das "Attribute Setup" ist Post Rasterizer. https://developer.nvidia.com/content/life-triangle-nvidias-logical-pipeline Es gibt auch hier das ganze vereinfacht nett illustriert https://simonschreibt.de/gat/renderhell-book2/

bevors zu offtopic wird kannst auch hier weiter fragen https://www.forum-3dcenter.org/vbulletin/showthread.php?t=582141

cat
2017-08-21, 13:20:18
https://www.notebookcheck.com/fileadmin/Notebooks/Sonstiges/Grafikkarten/NVidia/GTX1000/pascal_smp_architecture.png

Locuza
2017-08-21, 13:43:45
[...]
http://docs.nvidia.com/cuda-rc/cuda-c-programming-guide/index.html#features-and-technical-specifications
[...]
Laienhaft sieht es danach aus, als ob sich mit Volta nicht viel bei den verwalteten Ressourcen ändert und weiterhin ein Constant-Buffer von 64KB existiert, ich hatte gedacht diese Restriktion würde Nvidia mit Volta abschaffen.

pixeljetstream
2017-08-21, 19:02:29
Danke für die Infos.

was ich nicht ganz verstehe, die Polymorphenginge sitzt doch nach dem Rasterizer wie kann die dann noch Polygonen verarbeiten?

Hab die Angabe im Post davor geändert, die Werte fürs Culling müssen nicht so sein. Im Zweifelsfall zwischen den hergeleiteten und den Rasterwerten.

Troyan
2017-08-22, 16:01:33
Neue Informationen über GV100 von der Hotchip: https://www.servethehome.com/nvidia-v100-volta-update-hot-chips-2017/

gravitationsfeld
2017-08-22, 16:05:10
Irgendwelche Neuigkeiten was UBO-Limits und Groesse angeht?

Laienhaft sieht es danach aus, als ob sich mit Volta nicht viel bei den verwalteten Ressourcen ändert und weiterhin ein Constant-Buffer von 64KB existiert, ich hatte gedacht diese Restriktion würde Nvidia mit Volta abschaffen.
ffs.

Hübie
2017-08-22, 16:29:54
Neue Informationen über GV100 von der Hotchip: https://www.servethehome.com/nvidia-v100-volta-update-hot-chips-2017/

Dieses Schöngerechne... X-D Was wirklich Neues seh ich gerade (noch?) nicht.

scully1234
2017-08-22, 16:31:17
NVIDIA is showing, and the logic portions, one has to wonder whether the Tensor Core will be part of the gaming line in any form

Das ist neu

Troyan
2017-08-22, 16:39:49
Dieses Schöngerechne... X-D Was wirklich Neues seh ich gerade (noch?) nicht.

Doch, die Ausführungslogik ist neu.

Hübie
2017-08-22, 16:48:34
Ich meinte nicht im Vergleich zu Pascal sondern im Vergleich zu dem was man schon voher kannte. ;) War nicht klar ausgedrückt, my bad.

@scully: Das ist nur eine Frage ob wir die Dinger in irgendeiner Form sehen werden. ;) Glaube kaum, dass man so viele FP16 Matrixmultiplikationen beim Gaming hat. Wissen tue ich es jedoch nicht - wie auch?

Dural
2017-08-22, 16:51:23
Dieses Schöngerechne... X-D Was wirklich Neues seh ich gerade (noch?) nicht.

Schön Rechnen dürfen sie wohl auch, im (fast) gleichen Prozess und (fast) gleichen verbrauch mal 50% mehr Roh Leistung kann sich sehen lassen.

Das schafft AMD nicht mal von 28nm auf 14nm, sorry der musste jetzt sein :D ;)

Hübie
2017-08-22, 18:01:02
Dafür schafft man mit wenigen Handgriffen eine bessere Effizienz als GP102 @stock. Ist nur nicht das Thema hier. ;)

https://abload.de/img/hwl_uv-testg8byk.png (http://abload.de/image.php?img=hwl_uv-testg8byk.png)

B2T: Es wurde schon mehrfach gesagt, dass man in puncto Perf/W neue Bestleistungen aufstellen möchte. Dieses Ziel hat man erreicht.
Es gab in der Vergangenheit auf der Siggraph & Hotchips schon Vorträge über Mittel und Wege von Datenübertragungen. Die Früchte dieser jahrelangen Forschungs- und Entwicklungsarbeit sieht man nun umso mehr in Volta - wobei Maxwell und Pascal hier auch schon gut dastehen. Leider finde ich die mal wieder nicht hier im System. :redface:

=Floi=
2017-08-23, 02:58:29
die l1 steigerung finde ich schon heftig. die 10mb sind ne menge holz.
Die dürften auch sehr viel bringen.

Der GV100 sieht so aus, als würde das technisch alles kein problem sein. (und dabei ist selbst ein GP102 schon ein großer chip) alleine die 815mm2 sind so bekloppt.

Hübie
2017-08-23, 03:19:26
Da ist einfach mehr zusammen gewachsen: Vorher waren L1/Cache und SMEM getrennt, nun hat man einen Block den man individuell konfigurieren kann. Dem Speicher ist ja auch scheißegal ob es nun Daten einer Textur oder sonst was ist, was da drin liegt. Diese Restriktionen habe ich schon bei Fermi nicht verstanden. Wird aber wohl irgendwie mit dem OCN und dem Design der TMU/TAU zusammenhängen.
Dazu kommt im Falle von GP100<->GV100 dass man noch 40% mehr SMs hat und da sitzt eben der L1$ ;)

Edit: Wobei man immer bis 96 KB konfigurieren kann. Also hat man <8065 KB Tex und >32-10752 KB Data$.

https://abload.de/img/nv_volta-cc7.0wvr9v.png (http://abload.de/image.php?img=nv_volta-cc7.0wvr9v.png)

Skysnake
2017-08-23, 07:00:10
Das ist doch schon lange so das man das konfigurieren kann.

Ein Cache bringt halt eben nicht immer etwas. Manchmal ist es besser das über Software in der Hand zu haben. Dafür muss man halt cycles extra aufwenden während ein Cache das ohne extra cycles macht.

Hübie
2017-08-23, 07:32:43
Iirc seit Maxwell. Nun ist aber alles in einen Cache gewandert. ;)

scully1234
2017-08-24, 18:08:37
THG hat zur Hot Chip auch nochmal ein Bisschen was zusammengekratzt rund um Volta


http://www.tomshardware.com/news/nvidia-volta-gv100-gpu-ai,35297.html

Leonidas
2017-09-02, 14:23:40
Du machst dir das viel zu einfach mit der Rechnung. Ein solcher GP102 käme auch nur auf ~600mm², weil
- Speicherinterface
- L2-Cache
- Command Processor
- Zahl der GPCs (Primitive Pipelines)
- I/O (PCIe-Lanes)
- DisplayEngine, Video En-/Decoder

gleich bleiben würden.

GP102 hat 10 SM, 2 GPC, 32 ROP, 1 MB L2 und 128bit SI mehr als GP104, und braucht dafür nur 165mm² zusätzlich, selbst damit kämst du "nur" auf 635mm².
12 SM zusätzlich wäre zwar eine etwas größere Steigerung in diesem Bereich, aber wenn dafür alles andere gar nicht gesteigert wird, sollte der Flächenzuwachs trotzdem geringer ausfallen.



Stimme ich einfach mal zu. Shader-Einheiten machen heutzutage grob 50% des Platzbedarfs bei mittleren Chips aus. Ganz Milchmädchenhaft kann man einen GV104 mit doppelter Anzahl Shader-Einheiten (5120) auflegen und käme auf nur 50% mehr Die-Size (~470mm2) - ganz ohne 12nm. Da dürfen natürlich keine anderen Einheiten mitwachsen.

Siehe auch hier, alles schonmal ausgerechnet:
https://www.3dcenter.org/news/wie-nvidias-volta-gaming-chips-unter-der-12nm-fertigung-aussehen-koennten

Rampage 2
2017-09-02, 15:49:04
Stimme ich einfach mal zu. Shader-Einheiten machen heutzutage grob 50% des Platzbedarfs bei mittleren Chips aus. Ganz Milchmädchenhaft kann man einen GV104 mit doppelter Anzahl Shader-Einheiten (5120) auflegen und käme auf nur 50% mehr Die-Size (~470mm2) - ganz ohne 12nm. Da dürfen natürlich keine anderen Einheiten mitwachsen.

Siehe auch hier, alles schonmal ausgerechnet:
https://www.3dcenter.org/news/wie-nvidias-volta-gaming-chips-unter-der-12nm-fertigung-aussehen-koennten

Ist also ein GV104 mit 4096 SPs (1024 SPs bzw. 8 SMX pro GPC) und ein GV102 mit 6144 SPs vielleicht doch nicht so unrealistisch? (Beides natürlich ohne jeglichen HPC-Kram)

Edit: Wieviel Platz nehmen zusätzliche ROPs & TMUs ein? Also angenommen, ein GV104 hätte exakt die 1,5x Anzahl eines GP104 (96 ROPs & 240 TMUs).

R2

Leonidas
2017-09-03, 04:16:33
Mit Shader-Einheiten meinte ich inkl. TMUs, das ist ja nicht trennbar.

Gebraucht würden zusätzliche Raster-Engines und mehr Speicherbandbreite. Mehr ROPs eigentlich nicht so zwingend.

Hübie
2017-09-03, 10:11:40
6144 wäre wünschenswert, aber ich denke das ist auf Kante gestrickt, was die yieldrate unten halten wird und außerdem die Salamischeibe zu dick werden lässt.

Rampage 2
2017-09-03, 17:38:09
Gebraucht würden zusätzliche Raster-Engines und mehr Speicherbandbreite. Mehr ROPs eigentlich nicht so zwingend.

Texturierleistung vielleicht nicht (da ist eine 1080 @ max. OC immer noch 75% schneller als eine 980 @ max. OC), aber die Pixel-Füllrate ist seit Maxwell nicht sonderlich angestiegen - nur 40% mehr als eine am Anschlag übertaktete 980. Abgesehen davon, die TXp und 1080 Ti haben 96 bzw. 88 ROPs und 240 bzw. 224 TMUs - wie soll sich GV104 von der TXp absetzen, wenn sie weniger Füllrate hat als Diese?

Der GV100 Vollausbau soll angeblich 336 TMUs besitzen - aber das ist die HPC-Variante. Der GV102 könnte vielleicht 360 davon haben oder aber ebenfalls 336. Welche ROP-Anzahl würde zu 336 TMUs passen? Ich gehe von 144 aus - aber 120, 112 und 108 wären auch mathematisch sinnvoll.

R2

Edit: würden 6 Raster-Engines einen GV104 zu stark aufblähen? Raster-Engines sind AFAIR für den Polygondurchsatz verantwortlich, oder?

AffenJack
2017-09-03, 19:34:32
Ist also ein GV104 mit 4096 SPs (1024 SPs bzw. 8 SMX pro GPC) und ein GV102 mit 6144 SPs vielleicht doch nicht so unrealistisch? (Beides natürlich ohne jeglichen HPC-Kram)


Nope, wird viel zu groß, äußerst unwahrscheinlich.

Texturierleistung vielleicht nicht (da ist eine 1080 @ max. OC immer noch 75% schneller als eine 980 @ max. OC), aber die Pixel-Füllrate ist seit Maxwell nicht sonderlich angestiegen - nur 40% mehr als eine am Anschlag übertaktete 980. Abgesehen davon, die TXp und 1080 Ti haben 96 bzw. 88 ROPs und 240 bzw. 224 TMUs - wie soll sich GV104 von der TXp absetzen, wenn sie weniger Füllrate hat als Diese?

Der GV100 Vollausbau soll angeblich 336 TMUs besitzen - aber das ist die HPC-Variante. Der GV102 könnte vielleicht 360 davon haben oder aber ebenfalls 336. Welche ROP-Anzahl würde zu 336 TMUs passen? Ich gehe von 144 aus - aber 120, 112 und 108 wären auch mathematisch sinnvoll.

R2

Edit: würden 6 Raster-Engines einen GV104 zu stark aufblähen? Raster-Engines sind AFAIR für den Polygondurchsatz verantwortlich, oder?

Werden 96 ROPs bleiben bei GV102, da die mit dem Speicherkontroller zusammenhängen. GPC Erhöhung wäre theorethisch möglich, aber auch sehr unwahrscheinlich.
TMUs skalieren mit Shadern, damit sind 336 TMUs am wahrscheinlichsten, bei eben gleicher Shaderanzahl wie GV100. Deswegen auch die gleiche GPC Anzahl wie GV100. Also 6 für GV102.

Rampage 2
2017-09-03, 21:22:03
Werden 96 ROPs bleiben bei GV102, da die mit dem Speicherkontroller zusammenhängen. GPC Erhöhung wäre theorethisch möglich, aber auch sehr unwahrscheinlich.

Etwa so? : 16 ROPs pro 64Bit-Crossbar, 384Bit = 6 x 64Bit = 6 x 16 ROPs = 96 ROPs

Volta soll ja eine grundlegend neue mArch werden - besteht da eine gewisse Möglichkeit, dass die Zahl der ROPs pro Crossbar erhöht wird? Also z.B. von 16 auf 24 ROPs pro Crossbar?


TMUs skalieren mit Shadern, damit sind 336 TMUs am wahrscheinlichsten, bei eben gleicher Shaderanzahl wie GV100. Deswegen auch die gleiche GPC Anzahl wie GV100. Also 6 für GV102.

Das würde dann ein Verhältnis von 1:3,5 ergeben (96 ROPs gegen 336 TMUs) - damit erreicht man fast schon Kepler-Verhältnisse (32 ROPs gegen 128 TMUs; 1:4)...

R2

basix
2017-09-04, 09:30:15
Fast schon Kepler. Aber war Kepler so ROP bound? Und ist es nicht so, dass durch Maxwell / DSBR die ROP Last sinkt?

Hübie
2017-09-04, 09:44:18
Für mein Verständnis ergibt sich das aus der Konsequenz von verworfenen Primitives dass weniger Pixel exportiert werden. Aber in meiner Vorstellung passiert das auch ohne DSBR beim depth pass / z-test. Unnötige Samples kommen afaik also ohne hin nicht zu den ROPs.
Kepler hatte zu wenig Cache und Scheduler/Dispatcher um genügend Warps für alle 192 ALUs/SM zu spawnen. Die ROPs waren imo völlig ausreichend.
Fermi hatte ja eine Exportschwäche, aber was genau da war, weiß ich nicht mehr. Hatte irgendwas mit 48 Bit zu tun. :D

AffenJack
2017-09-04, 13:56:04
Das würde dann ein Verhältnis von 1:3,5 ergeben (96 ROPs gegen 336 TMUs) - damit erreicht man fast schon Kepler-Verhältnisse (32 ROPs gegen 128 TMUs; 1:4)...
R2

Nö, sieht eher nicht danach aus, dass es mehr ROPs geben kann. ROPs haben über die Zeit an Wichtigkeit eingebüßt. ROP Limitierung könnte zu mehr Verlusten durch MSAA führen, aber das wird heutzutage immer weniger eingesetzt. Ansonsten denke ich nicht, dass das zum Problem wird.

cat
2017-09-09, 19:53:20
Maxwell hat doch die ROPs und LD/ST im Verhältnis zu den Cores (StreamProcessors) verdoppelt?
siehe Unterschied GTX 750 Maxwell1 zu GTX950 Maxwell2

Hübie
2017-09-09, 21:01:31
Annähernd verdoppelt (iirc Faktor 1,875 ; ROPs:ALUs). Aber mir fehlt gerade der Zusammenhang deines Beitrags. :D

TheAntitheist
2017-09-11, 06:24:57
Annähernd verdoppelt (iirc Faktor 1,875 ; ROPs:ALUs). Aber mir fehlt gerade der Zusammenhang deines Beitrags. :D

na der Post dadrüber, auf den nimmt er Bezug, da Affe meinte das ROPs an wichtigkeit verloren haben, genau das Gegenteil aber der Fall ist siehe Maxwells änderung gegenüber Kepler.

Hübie
2017-09-11, 07:55:02
Ist mir klar, nur ging es um ROP:TMU und Kepler-Verhältnisse. Wobei ich aus all dem Quark nix herauslesen kann. Die rohe Anzahl sagt ja nicht viel aus, wie wir in der Vergangenheit gelernt haben (GP104>GM200 in puncto Performance - allein durch Takt).

digidoctor
2017-09-17, 17:12:59
Was sind die letzten ernstzunehmenden zeitlichen Schätzungen zum Erscheinen des Desktopnachfolgers der jetzigen Generation?

robbitop
2017-09-17, 17:42:02
H1 2018 für GV104. Performance vermutlich ~1080 Ti Niveau. War bisher immer so dass der Performancechip der Folgegeneration in etwa die Performance des Highendchips der Vorgängergeneration hatte.

GV102 kommt sicherlich, wie in den letzten paar Gens, deutlich später. Vermutlich auch zuerst als teure Titan und deutlich später als Ti. Für eine Ti wird es dann 2019. (passt gut mit Ryzen 2 oder aber auch Icelake :))

AffenJack
2017-09-17, 17:46:39
H1 2018 für GV104. Performance vermutlich ~1080 Ti Niveau. War bisher immer so dass der Performancechip der Folgegeneration in etwa die Performance des Highendchips der Vorgängergeneration hatte.

GV102 kommt sicherlich, wie in den letzten paar Gens, deutlich später. Vermutlich auch zuerst als teure Titan und deutlich später als Ti. Für eine Ti wird es dann 2019. (passt gut mit Ryzen 2 oder aber auch Icelake :))

Wette ich gegen. GV104 H1, GV102 Titan Q1, Ti Ende Q2, Anfang Q3. Titan zu Ti wird eher wie bei Maxwell sein.

robbitop
2017-09-17, 19:37:53
Bisher hat man sich immer sehr lang Zeit gelassen, bis eine Ti kam. Warum soll es diesmal anders werden?

AffenJack
2017-09-17, 20:11:43
Weil die Prozesssituation genauso wie bei Maxwell ist und sich deshalb genau dies wiederholen wird. Titan zu Ti Zeit ist eher abhängig vom Prozess.
GM200 Titan 28nm März 15, Juni 15 Ti -> 1 Jahr später 16nm
GV102 Titan "12nm" (16nm) März 18, Juni - August 18 Ti -> 1 Jahr später 7nm.

Ein Chip braucht heutzutage schon ~1Jahr Zeit in ordentlichen Quantitäten um Geld zu verdienen, sonst machts keinen Sinn. Du bringst keine Ti mehr 2019, wenn der Nachfolger vor der Tür steht und AMD schon 7nm hat. Die geringere Konkurrenz im Vergleich zu Maxwell/Fiji wirst du an anderen Dingen merken. Ti könnte noch mehr beschnitten werden und wird noch teurer werden.

Cubitus
2017-09-17, 22:24:01
H1 2018 für GV104. Performance vermutlich ~1080 Ti Niveau. War bisher immer so dass der Performancechip der Folgegeneration in etwa die Performance des Highendchips der Vorgängergeneration hatte.


Der GP104 war zwischen 15-20% schneller als der GM200.
Das ist schon etwas flotter.

reaperrr
2017-09-17, 22:40:33
Der GP104 war zwischen 15-20% schneller als der GM200.
Das ist schon etwas flotter.
Das war aber auch ein Full-Node-Shrink mit erstmaliger FinFET-Verwendung, m.E. dadurch ein größerer Sprung als von 40nm auf 28nm.
"12"nm wird vielleicht ein Schritt wie damals von 65 auf 55nm (von der Flächenersparnis nichtmal das, was man so liest).

robbitop
2017-09-18, 09:45:17
12nm ist nichtmal ein halfnodeshrink wie 65 auf 55 sondern nur eine optimierte 16nm Variante. Vor allem schrumpfen die sram Zellen. Bringt 5% Flächenersparnis. Kaum der Rede Wert.

@Affenjack
GPM104 kam im September 14 und die Ti erst im Juni 15. Das sind 9 Monate. Das wird sehr eng mit einer GV102 als Ti. Zumal viele Gerüchte GV104 erst in Q2 vorhersagen.

Hübie
2017-09-18, 10:09:52
GP10x sind im Abverkauf. Soviel ich weiß werden keine Bestellungen mehr angenommen. Kann man nun deuten wie man will. Wie lang der Vorlauf aktuell ist, weiß ich nicht.
Wenn ich raten müsste: GV102 als Titan um die Nachfrage flach zu halten und GV104 Anfang '18 (~Feb-März).

GP104 kam im Mai und GP102 im August '16. Wie kommst du auf September? :|

@Cubitus: Maxwell wurde wie Kepler mit sehr konservativen Taktraten ausgeliefert. Vergiss das nicht. ;)

Rancor
2017-09-18, 10:46:40
Die verfügbaren Volta Karten sind alles Teslas ohne Videoausgang? :naughty:

robbitop
2017-09-18, 11:07:33
GP104 kam im Mai und GP102 im August '16. Wie kommst du auf September? :|
Typo. Ich meinte Maxwell. GM entsprechend. Weil Affenjack sich auf die Zeiträume von Maxwell bezog.

Wie sicher ist die Info zu GP10x? Wenn es stimmt, würde es darauf hindeuten, dass GV10x eher früher als später käme.

Hübie
2017-09-18, 11:13:31
Muss die Aussage etwas abschwächen: Die 'big chips' sind im Abverkauf. Ob die Derivate der GP102 oder auch der GP104 gemeint ist erschließt sich mir nicht. Das Pascal aber von nun an nach und nach EOL geht ist so sicher wie das Amen in der Kirche. Ich denke dass GP108 am längsten laufen wird. Der ist halt billig und in Massen herstellbar.

robbitop
2017-09-18, 11:24:12
GP100 könnte gemeint sein. Oder GP102 als Tesla. Immerhin gibt es bereits GV100. Ansonsten kommt traditionell 104 als erste Geforce. Solange GP104 noch nicht im Abverkauf ist, heißt es wenig.

Hübie
2017-09-18, 11:43:04
Ich lasse das mal unkommentiert so stehen. :D Der Aufmerksame weiß, dass dies nicht erst seit gestern so aussieht.

https://abload.de/img/nvidia_shop63sez.png (http://abload.de/image.php?img=nvidia_shop63sez.png)

Edit: Und im deutschen Shop ist es nicht anders: 1080 Ti (http://www.nvidia.de/graphics-cards/geforce/pascal/gtx-1080-ti/#buy-now) & 1080 (http://www.nvidia.de/graphics-cards/geforce/pascal/gtx-1080/#buy-now) nicht vörrätig.

robbitop
2017-09-18, 11:45:40
Es sind Grafikkarten im NV Shop nicht auf Lager. Das sagt IMO noch gar nichts. Die Verfügbarkeit der Custom Karten ist nach wie vor, trotz erhöhter Nachfrage aus dem Mining, sehr gut. Schau mal auf den Preissuchmaschinen.

NV ist in allererster Linie ein IHV und kein Hardwarestore mit großem Lager an SKUs.

BlacKi
2017-09-18, 12:08:22
sollen nun ein halbes jahr lang keine karten lieferbar sein? glaub ich nicht. ich hoffe ja auf januar februar. ich glaube die bekommen wieder karten rein.

Hübie
2017-09-18, 12:09:24
Es gibt ja noch die Shops...

HOT
2017-09-18, 12:09:37
Da setzt man jetzt einfach ne 1060Ti und 1070Ti ein, die mit GDDR5X laufen.

BlacKi
2017-09-18, 12:14:46
Es gibt ja noch die Shops...
ja, schon klar, aber glaub ich trotzdem nicht dran. die lager sind wohl einfach leergekauft. wird sich wohl wieder füllen in den nächsten wochen. zumal man gesagt hat, das dieses jahr volta nicht kommt, ein anzeichen auf volta ist das definitiv nicht.

HOT
2017-09-18, 12:21:49
Das könnte einfach daran liegen, dass GDDR5 im Verhältnis zu teuer geworden ist, sodass man gleich direkt schnellere Produkte mit GDDR5X bieten kann.
Die DRAM-Preise werden ja noch mal um 40% anziehen.

BlacKi
2017-09-18, 12:33:32
das müsste sich dann ja bald zeigen. bin gespannt.

dildo4u
2017-09-19, 13:49:32
Geekbench GV100 vs P100 vs Vega 64:

https://www.reddit.com/r/hardware/comments/70tnwc/tesla_v100_spotted_in_geekbench/

Fragman
2017-09-19, 16:04:34
Geekbench GV100 vs P100 vs Vega 64:

https://www.reddit.com/r/hardware/comments/70tnwc/tesla_v100_spotted_in_geekbench/

schon eine ganz ordentliche leistungssteigerung.

in wie weit is dieser benchmark auf games uebertragbar?

HOT
2017-09-19, 16:25:18
Gar nicht, da 1.) Compute und 2.) völlig andere Produkte. Das ist nicht mal Äpfel mit Birnen verglichen, eher Äpfel mit Glühbirnen.

AffenJack
2017-09-19, 16:26:58
schon eine ganz ordentliche leistungssteigerung.

in wie weit is dieser benchmark auf games uebertragbar?

Gar nicht. Niemand weiß, was da wirklich ausschlaggebend für die gewinne ist. Könnte z.B. sein, dass die Sachen massiv durch den viel größeren L1 Cache profitieren, weil der Shared Memory vorher nicht genutzt wurde. Für Games sagt das gar nix aus.


@Affenjack
GPM104 kam im September 14 und die Ti erst im Juni 15. Das sind 9 Monate. Das wird sehr eng mit einer GV102 als Ti. Zumal viele Gerüchte GV104 erst in Q2 vorhersagen.

28nm war aber auch ein 4 Jähriger Node und Maxwell hätte wahrscheinlich eh früher kommen sollen, wurde aber wegen DX12 nach hinten verschoben. Sonst hätte man keine GM107/ GM20X Unterteilung gehabt. 16nm wird nur 3 Jahre aktuell bleiben. Da muss man die Chips mehr zusammen schieben und ich frage mich auch, ob wir eine volle Volta Gen sehen werden. GV107/GV108 kommen denke ich eher in 7nm.

dildo4u
2017-09-19, 16:28:00
NV ist beim Gameing eigentlich besser als die Compute Spec es vermuten lassen vs AMD,ich schätze mal der Sprung ist diesmal massiv aber natürlich verkaufen die ein den dicken Chip erstmal nicht als Geforce.

HOT
2017-09-19, 16:30:24
Ich glaub mit GV100 wirst du im Gaming nicht besonders weit kommen :D.

dildo4u
2017-09-19, 16:32:21
Die Cuda Cores sind die selben im Geforce Produkt was fehlt sind die Tensor Core's die Geekbench nicht testet.

HOT
2017-09-19, 16:42:19
Trotzdem sieht das Consumerprodukt ganz anders aus, du kannst keine ernsthaften Schlüsse daraus ziehen, das ist einfach Blödsinn.

scully1234
2017-09-19, 22:36:07
Geekbench GV100 vs P100 vs Vega 64:

https://www.reddit.com/r/hardware/comments/70tnwc/tesla_v100_spotted_in_geekbench/


Bei der Compute Performance bereits 3 fach schneller, als der dickste Vega Chip?

Ich stell mir gerade einen 815 mm² Gaming Chip vor ,lediglich vollgestopft mit FP32 Cuda Cores ,und dem Mörder Cache des GV100:devil:

TITAN XX für schlappe 2500Euro

Digidi
2017-09-20, 13:09:42
Bei der Compute Performance bereits 3 fach schneller, als der dickste Vega Chip?

Ich stell mir gerade einen 815 mm² Gaming Chip vor ,lediglich vollgestopft mit FP32 Cuda Cores ,und dem Mörder Cache des GV100:devil:

TITAN XX für schlappe 2500Euro

Mal wieder so ein typischer Scully. Dafür das man gut 80% mehr Die Size braucht und das Teil extrem Teuer ist sind die Ergebnisse keine Glanzleistung. Hinzu kommt das es geekbench ist. Da ist 0 Optimierung drin.
Was man auch sieht Vega ist OpenCl und GV100 ist in Cuda gebencht worden. Das eine Windows 10 das andere mit Ubuntu.

Und dann wird hier auch noch gefeiert das die nächste Titan dann 2500 Euro kostet.

Hier wird mal wieder billige Schulhof-Propaganda betrieben um Ahnungslose in die Irre zu führen.

:facepalm:

aufkrawall
2017-09-20, 13:29:45
Betriebssystem dürfte bei Nvidia egal sein, wenn der Score komplett an der GPU hängt.

Timbaloo
2017-09-20, 15:49:33
Um mal vom Kindergarten wieder zum Thema und zur Realität zu kommen: GV102 wird sicher nicht >>600mm^2 sein.

Digidi
2017-09-20, 16:06:32
Um mal vom Kindergarten wieder zum Thema und zur Realität zu kommen: GV102 wird sicher nicht >>600mm^2 sein.
Es wird wohl darauf hinauslaufen. TSMC wird wohl erst Anfang 2018 beginnen 7nm zu fertigen, das wäre zu spät für Volta.

=Floi=
2017-09-20, 16:57:02
ist hald schade, dass NV so wenig details zur alten und neuen architektur freigibt und auch keine großen ausblicke mehr gibt.

Es ist hald immer eine zweigespaltene sache was den preis angeht.
Für mich persönlich sind 700€ das maximum. NV passt den preis (leider?!) sehr gut an die leistung an. Da kann man ihnen an sich keinen vorwurf machen, weil eine 1080ti auch abliefert und mit den 11 gb ram auch lange halten wird.
So lange NV bei der titan nicht mal nen ordentlichen kühler verbauen kann, bleibt das teil für mich ein nogo!


Die frage ist eher wie schnell und stark wird die aktuelle generation obsolet. Mit einer 980ti kommt man sicherlich heute noch gut über die runden.

Thunder99
2017-09-20, 17:09:13
Preis ist doch nebensächlich. Es kostet halt den Preis, den NV halt aus ruft.

Back to topic ist wohl eher die Frage 12nm oder 7nm. Bei Ersteres erwarte ich ein Maxwell "V3". Bis auf den dicken Chip haben sie ja noch Spielraum.
GV102 wird wenn er wirklich kommt, in 12nm, sicherlich mehr wie jetzt eine Titan kosten, schlicht weil er teurer werden kann in der Produktion.
Wenn ich mich irren sollte umso besser ;D

Gipsel
2017-09-20, 21:56:45
Bitte bleibt beim Thema!

Fragman
2017-09-21, 09:01:36
Preis ist doch nebensächlich. Es kostet halt den Preis, den NV halt aus ruft.


das preisargument ist mit vega ja nun auch keins mehr.
es wurde ja gesagt, das nv so hohe preise nimmt, weil sie es koennen, da keine konkurenz. nun macht amd es genauso, obwohl preis/leistung diese preise nicht rechtfertigt. dazu kommt, das auch amd nun einen dicken chip hat.

damit ist die richtung wohl klar, dickere chips bei allgemein hoeheren preisen.

Skysnake
2017-09-27, 23:45:07
The
Committee is concerned that the deployment plan for an exascale machine has
undergone major changes without an appropriately defined cost and
performance baseline. (https://science.energy.gov/~/media/ascr/ascac/pdf/meetings/201709/HellandASCAC170926.pdf)
hm.. das hört sich nicht wirklich gut an.

Aurora wurde btw. auch eingestampft. Ist also nicht ganz klar, worauf sich das bezieht. Intel oder eben IBM+nVidia.

Ich habe es mal hier rein gepackt, da es scheinbar keinen Thread zu Intel gibt, und es Volta schon tangiert.

Man sollte wirklich sehr genau hinschauen, was aus Summit etc. wird. Auch wegen dem ganzen Budget HickHack, wo gar nicht mehr klar ist, wer wann wo wieviel Geld bekommt. Aurora ist ja tot, also wird das Geld gespart....

Hübie
2017-09-28, 07:34:23
Die können sich bei Trump bedanken. Aber das ist was fürs PoWi-Forum. Trotzdem sind die Auftragsbücher voll.
Momentan wird NV sehr hoch bewertet. Da wäre ich z.B. vorsichtiger wenn man die Unsicherheit für die künftige Entwicklung berücksichtigt. Besonders beim Thema AI Training bzw. Inference gibt's starke Konkurrenz.

Skysnake
2017-09-28, 21:14:03
Man muss das auch mal bedenken. Intel und Cray sind nicht in der Lage 2018 zu liefern und bekommen dafür ein update für eine 5 mal größere Maschine...

Die wird sicherlich nicht billiger werden als die geplante. Zudem kann sich damit IBM und nVidia die erste Ecascale Kiste abschminken. Also ich wäre an deren stelle ziemlich passed. Ich kann mir kaum vorstellen, dass die dagegen nicht klagen werden.

Wie gesagt wirft das aber auch ziemliche Fragen auf. Denn IBM und nVidia sollten ja als second supply dienen, genau wie bei Intel und Cray, um einem Plan B zu haben fürdas Exascalesystem. Und nun wo man Plan B braucht greift man zu Plan C von dem Hersteller der Plan A verkackt hat?

WTF? :ugly:

Also da muss man sich echt am Kopf kratzen. Passt aber zu einigen Gerüchten, wonach man mit IBM und nVidia auch nicht ganz glücklich sein soll. Aber keine Ahnung was man davon halten soll. War viel zu unspezifisch. Daher bin ich auch nie hier darauf eingegangen

AffenJack
2017-09-28, 23:04:52
Der Grund für das Exascalesystem mit Aurora sind doch gerade Klagen. Nvidia, IBM können vielleicht ne minimale Entschädigung kriegen, aber Intel und Cray könnten vielleicht einen Großteil der Summe einklagen, wenn die Regierung da aussteigen will. Also gibt man denen den Exascaleauftrag, damit die ruhig halten.

Skysnake
2017-09-28, 23:33:53
Naja es ist aber alles andere als klar dass das Budget gekürzt wurde und daher das System nicht kommt.

Und nicht das Budget gekürzt wurde, weil das Ding die Anforderungen nicht gepackt hat.

Wenn man nach dem hier geht konnte Intel wohl wirklich schlicht nicht liefern. https://insidehpc.com/2017/09/exascale-looming-exciting-time-computational-science/

Interessant ist auch die budget Aufstellung hier, wobei ich ganz ehrlich zugeben muss das ich nicht sicher sagen kann ob man jetzt mehr oder weniger Geld ins die leadership Systeme packt.

Soweit ich das aber verstehe plant man insgesamt sogar mehr Geld ein für die Systeme etc. Daher wohl auch 2021 als Ziel fürs erste Exascalesystem statt 2023. Das Geld wird halt nur nicht für Aurora ausgegeben.

https://science.energy.gov/~/media/ascr/ascac/pdf/meetings/201709/HellandASCAC170926.pdf

AffenJack
2017-09-29, 00:31:56
Das sind ja prinzipiell Budgetanforderungen, davon wird nun auch Summit bezahlt. Man weiß nicht, was da die ursprüngliche Planung war, wenn Aurora auch gekommen wäre. Kann man nicht viel zu sagen. Ich glaube eher, Aurora wurde gekürzt, weil man gemerkt hat, dass die Anforderungen die man gestellt hat falsch waren. Die Systeme wurden mit HPC im Kopf ausgeschrieben, aber mittlerweile wollen alle mehr DL/HPC Hybridsysteme. Für DL wäre Knights Hill aber nun nicht gerade der Bringer geworden nach den älteren Planungen. Daher wurde das Ding gestrichen und eben durch ein 1 Exaflopt DL/HPC System ersetzt. Wo wir gerade bei Knights Hill sind, existiert das Ding noch? Knights Mill wurde vorgestellt, aber bei KH war man erstaunlich leise bisher.

Troyan
2017-09-29, 10:29:21
Ein paar Benchmarkwerte von V100 gegenüber P100: http://en.community.dell.com/techcenter/b/techcenter

Entropy
2017-09-29, 12:16:56
Ein neues Marketingpaper: http://images.nvidia.com/content/technologies/volta/pdf/437317-Volta-V100-DS-NV-US-WEB.pdf

Skysnake
2017-09-30, 14:08:00
Das sind ja prinzipiell Budgetanforderungen, davon wird nun auch Summit bezahlt. Man weiß nicht, was da die ursprüngliche Planung war, wenn Aurora auch gekommen wäre. Kann man nicht viel zu sagen. Ich glaube eher, Aurora wurde gekürzt, weil man gemerkt hat, dass die Anforderungen die man gestellt hat falsch waren. Die Systeme wurden mit HPC im Kopf ausgeschrieben, aber mittlerweile wollen alle mehr DL/HPC Hybridsysteme. Für DL wäre Knights Hill aber nun nicht gerade der Bringer geworden nach den älteren Planungen. Daher wurde das Ding gestrichen und eben durch ein 1 Exaflopt DL/HPC System ersetzt. Wo wir gerade bei Knights Hill sind, existiert das Ding noch? Knights Mill wurde vorgestellt, aber bei KH war man erstaunlich leise bisher.

Also das man DL Maschinen haben "will" habe ich noch von niemandem gehört der an nem HPC Zentrum gearbeitet hat. Und auch in dem Video in einem meiner links sagt die Dame ganz klar, dass die Chips nicht für uns HPC Leute Designed werden und wir das DL Geraffel halt zwangsweise mitbekommen.

Ganz im Gegenteil sind viele sogar eher schon genervt vom DL-Marketing. Also das ist zumindest mein Eindruck, wenn ich mich mit verschiedenen Leuten von großen Center unterhalten.

AffenJack
2017-09-30, 15:47:45
Also das man DL Maschinen haben "will" habe ich noch von niemandem gehört der an nem HPC Zentrum gearbeitet hat. Und auch in dem Video in einem meiner links sagt die Dame ganz klar, dass die Chips nicht für uns HPC Leute Designed werden und wir das DL Geraffel halt zwangsweise mitbekommen.

Ganz im Gegenteil sind viele sogar eher schon genervt vom DL-Marketing. Also das ist zumindest mein Eindruck, wenn ich mich mit verschiedenen Leuten von großen Center unterhalten.

Guck dir doch das pdf was du verlinkt hast an. Da schreiben sie selber, dass dl eine anforderung für den exafloprechner ist. Vielleicht ist das an manch anderem HPC Center anders. Aber hier will man auf jeden Fall ein System was beides kann und das konnte Aurora nur mäßig.

Skysnake
2017-09-30, 19:45:42
Bei Projekten die quasi gegen die Wand gefahr3n wurden wäre ich da aber vorsichtig. Vorallem, wenn man ne DL-Maschine haben will, warum dann von Intel und nicht von IBM und nVidia? Nvidia ist auch wegen ihrem Software Support da führend bis jetzt. Und mit Summit zeigen sie ja das sie es zumindest halbwegs geschafft haben. Auf jeden Fall besser als Intel...

Sorry aber das stinkt wie Sau. Vor allem welchen Sinn macht es, wenn man bei zwei Kandidaten um nicht nackt da zu stehen bei Problemen, im Falle von Problemen demjenigen auch noch den Arsch pudert?

Das wirft bei mir sehr viele Fragen auf, wie gut Summit sein mag, wenn man quasi für seine Paradedisziplin sich was anderes sucht:ugly:

Kriton
2017-09-30, 22:26:50
Weil Du allein technisch denkst. Solche Entscheidungen werden aber (zu einem nicht unbeträchtlichen Teil) unter Berücksichtigung anderer Belange getroffen.
Das soll auch keine Wertung sein, sondern nur eine Beschreibung dessen, was ich in der Praxis regelmäßig sehe.

Skysnake
2017-09-30, 23:40:59
Klar spielt da auch oft Politik mit rein. Ich sag mal nur top500 Platzierung. Aber das DL Zeug ist halt für solche politischen Spielereien nur bedingt geeignet. Klar man kann jetzt anfangen und 1 Exaflop mit fp16 erreichen, aber das ist ziemliche Augenwischerei und wäre für die USA eine Armutsbekundung.

Denn eines sollte klar sein. Die Chinesen werden so was nicht machen.

Und ansonsten. Klar es gibt einige flagship Projekte aber viel kommt dabei oft nicht Rum. Ich konnte in einem bigdata Projekt arbeiten und auf Workshops mit so manchen Leuten aus der Wirtschaft und Wissenschaft austauschen. Das war fast durchgehend ernüchternd. Vor allem wenn man mal verglichen hat, was die Leute off record erzählt haben und was in öffentlichen Berichten zu lesen ist. Das weicht zumeist sehr stark voneinander ab. Aber auch kein echtes Wunder, da man ja immer Erfolge vorweisen sollte... Ich würde daher nicht viel auf die ganzen success stories geben

Ich konnte auch an der Erarbeitung eines Analysekonzepts von Simulationsdaten im Bereich von 100TB pro Simulation arbeiten. DL stand da auch als Möglichkeit mit drauf. Wurde aber ziemlich schnell gekillt, weil völlig ungeeignet für diese Art von Simulationen (large eddy, also cfd)

Und genau das ist das Problem. Es eignen sich gar nicht sooo viele Probleme der klassischen HPC Nutzer für solche Ansätze.

Und das sind und werden auch in Zukunft die große Mehrheit der Nutzer bleiben.

Ein großes Problem sind allein schon die qualitativ hochwertigen trainingsdaten. Die gibt es nicht, und selbst wenn, dann in viel viel zu kleinem Umfang. Da gibt es echte strukturelle Probleme.

DL etc ist nur aktuell hip und wenn man einen Förderantrag durchbekommen will schreibt man halt was dazu. Das heißt aber nicht, dass die Leute überzeugt davon sind.

Und ja das ist total behämmert...

BoMbY
2017-10-01, 09:18:59
Bei Exascale ist überhaupt nichts entschieden: Six Exascale PathForward Vendors Selected; DoE Providing $258M (https://www.hpcwire.com/2017/06/15/six-exascale-pathforward-vendors-selected-doe-providing-258m/):


The much-anticipated PathForward awards for hardware R&D in support of the Exascale Computing Project were announced today with six vendors selected – AMD, Cray, Hewlett Packard Enterprise (HPE), IBM, Intel, and NVIDIA. The Department of Energy (DoE) will provide $258 million while the vendors must contribute at least 40 percent of the total costs bringing the total investment to at least $430 million.


Außerdem sagt AMD dazu (http://ir.amd.com/phoenix.zhtml?c=74093&p=irol-newsArticle&ID=2281294):


We have been working on exascale research for five years now, and PathForward will take our work to a new level, focusing on system-level technology integration with partners. We are well prepared for this initiative, as evidenced by our high-performance technologies development along with long-standing participation in standards bodies.

Hübie
2017-10-01, 09:26:02
Warum zitierst du AMD? :|

AffenJack
2017-10-01, 09:39:43
Bei Projekten die quasi gegen die Wand gefahr3n wurden wäre ich da aber vorsichtig. Vorallem, wenn man ne DL-Maschine haben will, warum dann von Intel und nicht von IBM und nVidia? Nvidia ist auch wegen ihrem Software Support da führend bis jetzt. Und mit Summit zeigen sie ja das sie es zumindest halbwegs geschafft haben. Auf jeden Fall besser als Intel...

Sorry aber das stinkt wie Sau. Vor allem welchen Sinn macht es, wenn man bei zwei Kandidaten um nicht nackt da zu stehen bei Problemen, im Falle von Problemen demjenigen auch noch den Arsch pudert?

Das wirft bei mir sehr viele Fragen auf, wie gut Summit sein mag, wenn man quasi für seine Paradedisziplin sich was anderes sucht:ugly:

Wer sagt, dass Aurora gegen die Wand gefahren wurde? Wir haben keine Hintergrundinfos. Sich veränderne Worlkloads und Planungen sind in solchen Projekten völlig normal. Was wenn Intel hätte liefern können, aber das DOE ein großes System ohne DL nicht mehr haben will und es dank Trump auch kaum mit dem Budget vereinbar ist? Bevor also das DOE von Intel in Grund und Boden geklagt wird, mauschelt man ihnen den nächsten großen Auftrag zu. Bis 2021 ist viel Zeit und wenn Intel in Knights Crest erstmal Matrixbeschleunigung im chip hat, wird Nvidia da auch keine Vorteile mehr haben. Mit Knights Mill und Lake Crest wird Intel da schon genug angreifen, nur noch den Nachteil haben, dass die Chips nicht flexibel sind.

1 Exaflop mit Tensoren wird auch Summit schon erreichen, aber für die Liste spielt das keine Rolle. DL Workloads werden auch HPC nicht ersetzen. Beide haben andere Einsatzfelder, aber es gibt genug Sachen die mit DL am besten gehen angefangen mit den simplen Geschichten wie Sprach/Bilderkennung und ich habe absolut kein Plan was man mit nem Exaflop DL Leistung anfangen kann. Aber die ganze Forschung dazu findet ja auch erst seit ein paar Jahren statt.

Bei Exascale ist überhaupt nichts entschieden: Six Exascale PathForward Vendors Selected; DoE Providing $258M (https://www.hpcwire.com/2017/06/15/six-exascale-pathforward-vendors-selected-doe-providing-258m/):


Doch, Intel kriegt das erste. Deine Quellen sind alt. Forschung gibts immer in dem Feld und man weiß nicht, wer die nächsten System dann kriegt, aber Nr.1 ist von Intel. https://www.hpcwire.com/2017/09/27/us-coalesces-plans-first-exascale-supercomputer-aurora-2021/

Diese kommen auch schon 2022, wie es aussieht:
During her presentation, Barb Helland made the point that ASCR would soon be releasing information about the procurement of additional exascale systems to be delivered in the 2022 timeframe. No details were provided, but she explained that these systems would be follow-on systems to the ones delivered as part of the CORAL procurement.
https://www.hpcwire.com/2017/09/28/us-exascale-program-additional-clarity/

Ich wette, dass eins davon auf jeden Fall IBM, Nvidia werden wird. Das dritte ist dann das Fragezeichen. Vielleicht kann AMD da was abgreifen. Aber die Beschreibung als "follow-on systems" könnte auch heißen, dass es auch architekturell nachfolger von summit und sierra werden und es bei beiden IBM, Nvidia wird. Das ist aber eher arg spekulativ und beschreibt wahrscheinlich eher den Aufstellort. Aber in paar Monaten sollten wir schlauer sein.

Um auf Volta zurückzukommen, deren Systeme sind nun frei im Handel erhältlich:
https://www.nextplatform.com/2017/09/27/volta-gpu-accelerators-hit-streets/

Und kosten 8k pro SXM2 Volta:
http://www.thinkmate.com/system/gpx-xt4-24s1-4nvlink

Damit nicht groß teurer als P100, obwohl von Preisen im Bereich über 10k spekuliert wurde.

=Floi=
2017-10-01, 11:10:18
Bei Projekten die quasi gegen die Wand gefahr3n wurden wäre ich da aber vorsichtig. Vorallem, wenn man ne DL-Maschine haben will, warum dann von Intel und nicht von IBM und nVidia? Nvidia ist auch wegen ihrem Software Support da führend bis jetzt. Und mit Summit zeigen sie ja das sie es zumindest halbwegs geschafft haben. Auf jeden Fall besser als Intel...

Sorry aber das stinkt wie Sau. Vor allem welchen Sinn macht es, wenn man bei zwei Kandidaten um nicht nackt da zu stehen bei Problemen, im Falle von Problemen demjenigen auch noch den Arsch pudert?

Das wirft bei mir sehr viele Fragen auf, wie gut Summit sein mag, wenn man quasi für seine Paradedisziplin sich was anderes sucht:ugly:

intel wird den besseren preis gemacht haben.