nVidia - Pascal - GP100 - 2016 - 3D-Memory HBM, NVLINK, Mixed Precision [Archiv] - Seite 14

BigKid

2016-04-06, 16:29:10

:rolleyes:

Das Avatar ist nicht auf Nvidia, sondern auf die GTX 970 bezogen, die ich damals hatte.:wink:
Für mich sieht das nach einem PrePreview aus, nicht nach einem fertigen Produkt. 610mm² in 16nm FF, da dreht man ja am Rad.
AMD wird mit einem erheblich kleineren Chip und 4096 Shadern kommen, vll 350mm² wenns hoch kommt und wahrscheinlich ähnlich viel leisten können.

Ich frage mich nur wieso geht Nvidia auf 300 Watt TDP, das dürfte doch normalerweise völlig unnötig sein. Ich kann mir nicht vorstellen, dass die Karte im sweet spot läuft.
Für mich sieht das danach aus, als würde man alles in die Waagschaale werfen, was möglich ist. Nur bleibt dann eigentlich kein Spielraum für Verbesserungen, denn die die Größe ist ja schon ausgereizt.

Erinnert mich irgendwie an Fermi 2010, das sieht nach Holzhammer aus und auch damals hat man sehr früh schon so getan als ob alles fertig wäre und das kommt so überraschend irgendwie.
Sie wollen ne MAssenfertigung bereits gestartet haben... mit welchem HBM2 eigentlich?
Ferner scheint es sich hier doch um einen Profi-Chip für Supercompute(r) zu handeln. Und wenn sich da die FLOPS ansieht und das FLOPS/Watt dann sieht es nicht nach einem FLOPP aus ... :)

Es ist doch gar nicht sicher raus, dass der Gaming Chip (zumindest der für die nächsten 12 Monate) überhaupt HBM hat.
Es gibt auch Indizien dafür dass sie für Gaming und auch für diese ganzen Car/Drive-Geschichten erstmal mit DDR5(X) antreten...

Dural

2016-04-06, 16:32:56

Wie so kommen einige immer mit AMD an? Ich sehe da weit und breit kein 1:2 DP Monster Chip.

Es ist gut möglich das AMD mehr Einheiten verbauen wird, aber wir sollten schon längst wissen das theoretische Leistung rein komme gar nichts aussagt was der Chip wirklich auf den Boden bringt. Und genau da erhoffe ich wirklich viel vom GP100

scully1234

2016-04-06, 16:33:41

Keine Angst, sobald nVidia eine höhere TDP braucht, ist die Leistungsaufnahme wieder egal.

Wenn die Leistungsaufnahme, auch in Leistung umgesetzt wird ,und nicht exponentiell verpufft wieso nicht?

Der scheint wohl gut zu skallieren, und wenn es keine thermischen Unwägbarkeiten gibt mit dem Rack,ist das mit Intel im Nacken auch gut zu verstehen,das man ''all In''geht.

Was anderes waere es, wenn ich fuer 4Mhz Coretakt zusaetzlich,3 Megawatt an Leistung aufbringen muesste.

Kartenlehrling

2016-04-06, 16:39:35

Wieso hat er diese AMBER Benchmark schwäche, da skaliert er überhaupt nicht gut?

Dural

2016-04-06, 16:43:10

Schwäche?

2x K80 (4xGK210) gegen 2x P100 (2xGP100)

Sunrise

2016-04-06, 17:06:38

Wieso waren eure Erwartungen so niedrig?
Es wurden mehrfach 6144 SP genannt, bei dem Riesen wohl theoretisch auch denkbar. Ich haette dieses mal auch hoehere Packdichte bei Nvidia, dafuer halt niedrigeren Takt erwartet. Mit 6144 SP waeren es selbst bei 900 MHz immer noch 5,5 DP GFLOPs. Mit 1:2 habe ich eigentlich fest gerechnet...

Wer glaubt denen eigentlich, dass das Teil in Massenproduktion ist? Warum gibt es nur so ein laecherliches Bild oder gibt es irgendwas daran, was es wert waere zu "verstecken"?
Je mehr SP du hast umso mehr zusätzliche Logik brauchst du um diese zu verbinden. Das ist einfach ein errechneter Sweet-Spot den NV anhand diverser simulierter Werte getroffen hat bei etwa 600mm² und den Prozesseigenschaften, damit man auch die Takte (die mit FinFET zulegen und NICHT schlechter sind, wie hier einige Schlaumeier wieder zum Besten gaben) weiter steigern kann. Wenn die SP in einem ungünstigen Verhältnis steigen werden eben andere Werte beeinflusst, daher ist das Spekulieren auch oft einfach nur "gut raten", weil wir keine Chipsimulationen durchführen können, wir können nur "schätzen".

Es liegt eben immer daran, wie der Chip entworfen wurde und nicht daran, ob FinFET ohne irgendwelche weiteren Daten zu nennen (Packdichte, Takt, Chipgröße) "besser" ist. Ja, FinFET ist definitiv besser für viele Dinge, wenn man keine TSMC-16nm FinFET-Limits überschreitet, was aber bei jedem Prozess schon immer so war und auch in der Vergangenheit von NV sogar ignoriert wurde (mit hohem Risiko erkauft).

Die 1:2:4 (bzw. sogar vermuteten :8) wurden ja öfter genannt und auch hier im Januar (http://www.forum-3dcenter.org/vbulletin/showthread.php?p=10916597&highlight=1%3A2%3A4#post10916597) nochmal von mir zusammengefasst mit einer paar zusätzlichen Spekulationen zu Volta.

Zettabit

2016-04-06, 17:10:49

Sehr spannend, was NVIDIA da auf die Beine stellt.

Also wird es erstmals tatsächlich einen dedizierten Chip für den HPC-Bereich geben, der nicht auch im Gamingbereich recycelt wird. Extrem spannend.

Noch dazu Volumenproduktion im Herbst 2015, nur ein Metalspin. Das ist echt beeindruckend für so ein 600mm² Monster, noch dazu mit HBM-Interface. Das NVIDIA ja angeblich gar nicht bauen kann, überhaupt völlig hinter AMD hinterher hinkt - und nun liefert NVIDIA wohl Monate vor AMD das erste HBM2-Design ;D

Apropos: Das Gerücht von SA, TSMC hätte Probleme mit der Interposer-Fertigung hat sich damit dann wohl wie üblich in Luft aufgelöst? Wie schon so oft?

Ich wette Computex hören wir mehr bezüglich GeForce.

Erinnert mich irgendwie an Fermi 2010, das sieht nach Holzhammer aus und auch damals hat man sehr früh schon so getan als ob alles fertig wäre und das kommt so überraschend irgendwie.
Sie wollen ne MAssenfertigung bereits gestartet haben... mit welchem HBM2 eigentlich?
Ja dass dir der Arsch auf Grundeis geht hatte ich mir schon gedacht ;D

Stell dir vor: Die gehen mit HBM2 nicht nur in Volumenproduktion (sind sie sogar schon), die liefern in zwei Monaten sogar schon aus ;D

Finds echt herrlich, wie NVIDIA mal wieder die versammelten "Insider" vollkommen an der Nase herum geführt hat. :freak:

Nightspider

2016-04-06, 17:10:51

Ich weiß gar nicht, warum einige hier so wegen der hohen Taktrate ausflippen und da noch riesiges OC-Potenzial wittern.

Weil da schon die letzten Generationen gute Fortschritte gemacht haben.
Das ist zwar keine Garantie dafür das es bei Pascal genauso ablaufen wird aber ein gutes Indiz.

Ob man die ersten Zahlen jetzt optimistisch oder pessimistisch auslegt ist jedem selbst überlassen. ;)

Es wurde schon oft angedeutet, dass mit FF der Qualitätsunterschied zwischen den Chips geringer sein soll, und dass ab einer bestimmten Taktrate auch schnell einfach Schluss sein kann.

Darauf schließen die Leute aber primär von der Intel-Fertigung bzw. der Stagnation der Taktrate bei Intel Prozessoren was aber absolut nichts zu bedeuten haben muss.
Das mit GP100 die Taktraten ordentlich steigen ist schon ein erster Beweis das dem nicht so ist.

Sunrise

2016-04-06, 17:20:14

...und nun liefert NVIDIA wohl Monate vor AMD das erste HBM2-Design ;D
Ist jetzt nicht verwunderlich, bei dem R&D-Budget das NV hat. Und ob jetzt HBM oder HBM2 interessiert da in der Rechnung auch keinen mehr. AMD hatte einfach Hynix als Partner, NV hatte Samsung, weil NV diese hohen Bandbreite auch wirklich benötigt (je mehr bei HPC um so besser). Beim Fiji-Design war HBM vollkommen ausreichend, zudem war der Chip sowieso schon am Limit auf 28nm, und über DP reden wir lieber mal nicht.* NV macht eben das gleiche nach, nur eben mit DEUTLICH mehr für HPC, was sie geschätzt ziemlich heftig nach vorne katapultieren wird.

NV musste diesen Schritt machen, andernfalls können Sie ihre Ziele für die Zukunft (um nicht unterzugehen) nicht erreichen.

Das soll natürlich nicht den Eindruck von GP100 schmälern, im Gegenteil, das Ding ist ein ziemliches Monster, da kann Intel jetzt erstmal heimgehen (was zu erwarten war).

*DP ist auch wohl der Grund, warum ich davon ausgehe, dass sich man sich bei AMD am Hawaii-Aufbau für HPC (evtl. auch bei Polaris) orientieren wird.

Was lässt denn eigentlich an der Gamingtauglichkeit des GP100 zweifeln?
...
Das ist ein Plus von 38%.
...
Summa summarum lässt sich imo mit GP100 problemlos eine Verdoppelung der Gaming-Performance gegenüber einer GTX 980 Ti erzielen.
Ja, zum etwa 3-4-fachen Preis für NV -> Übertrag an Endkunde. Du bekommst also selbst im Best-Case wohl 50% Mehrleistung für den min. dreifachen (300%) höheren preis als eine 980Ti, perfekt gamingtauglich, vor allem weil die DP-Units seit neuem total angesagt sind in dem Bereich. Err, nein!

Aufwachen, bitte!

Was im Gaming-Bereich gebraucht wird, ist ein GP104 mit 256bit Interface, etwa GK104-Chipgröße und >GM204 und evtl. sogar GM200-Leistung und dann noch ein Chip der später nachkommt (GP102) mit maximalem FP32-Durchsatz. Kochen kann manchmal so einfach sein.

Sunrise

2016-04-06, 17:33:54

bitte löschen

fondness

2016-04-06, 17:34:33

Ich bin sehr auf die Leistung pro SP bei identischen Takt gespannt. Wenn diese im Vergleich zu Maxwell nicht steigt, dann habe ich mir ehrlich gesagt deutlich mehr erwartet. Das Ding ist bereits am absoluten Limit für 16nm FinFET, mehr geht also erstmal nicht. Und dabei steigen die FP32 TFLOPs/Watt um keine 30% ggü. GM200, trotz FinFET, trotz HBM. Die absolute Leistung steigt hauptsächlich wegen dem Takt, hier muss sich erstmal zeigen, ob der Chip tatsächlich deutlich mehr Takt mitmacht, oder ob man nur schlicht die Taktreserven von Maxwell jetzt ausnutzt. Ob es der doppelte FP16-Speed da raus reißt, gerade im HPC-Bereich wohl kaum.

Ansonsten hat bereits Vega10 4096 SPs bei höchstwahrscheinlich ebenfalls 1:2 DP und der ist vermutlich <400mm².

scully1234

2016-04-06, 17:40:21

Ansonsten hat bereits Vega10 4096 SPs bei höchstwahrscheinlich ebenfalls 1:2 DP und der ist vermutlich <400mm².

Alles hypothetische Erhebungen, abgeliefert hat derzeit nur P100. Wenn es dann irgendwann mal soweit ist, kann man mit der Betrachtung ja fortfahren

Nakai

2016-04-06, 17:40:23

Das NVLink wird Unmengen an Fläche gekostet haben. Genauso wie der (endlich mal) große Interconnect.

fondness

2016-04-06, 17:41:05

Er hat Q1 2017 für OEMs gesprochen. Das eigene Produkt sowie die ganz engen Partner und Cloud Anbieter bekommen die Teile dieses Jahr. Er sprach davon, dass alles was sie dieses Jahr produzieren in genau diese Bereiche fließt und dann ab Q1 2017 die OEMs drann sind.

Richtig, die Stückzahlen werden also 2016 Minimal sein, man kann nicht mal die Serverkunden vor Q1/17 bedienen, wo die Abnahmemengen ohnehin gering ist.

Alles hypothetische Erhebungen, abgeliefert hat derzeit nur P100. Wenn es dann irgendwann mal soweit ist, kann man mit der Betrachtung ja fortfahren

Abgeliefert wurde da gar nichts, man hat eine nette Präsentation gemacht, Stückzahlen gibt es auch bei Nvidia nicht vor Q1/17.

Das NVLink wird Unmengen an Fläche gekostet haben. Genauso wie der (endlich mal) große Interconnect.

Ja, das habe ich auch als erstes vermutet, hoffentlich gibt es bald einen Die-Shot. Aber leider ist da ja NV sehr verschlossen.

scully1234

2016-04-06, 17:45:30

Abgeliefert wurde da gar nichts, man hat eine nette Präsentation gemacht, Stückzahlen gibt es auch bei Nvidia nicht vor Q1/17.

Ich meinte in Stein gemeißelte Spezifikationen ''koennte ,und vielleicht '' braucht man bei Pascal nun glaub ich nicht mehr ins Feld fuehren

Zettabit

2016-04-06, 17:45:36

Ist jetzt nicht verwunderlich, bei dem R&D-Budget das NV hat.
Naja, vor vier Tagen:
http://www.forum-3dcenter.org/vbulletin/showpost.php?p=10989500&postcount=2866

Da hat TSMC CoWos angeblich ins zweite Halbjahr verschoben. Nun werden schon erste darauf basierende Produktive im 1. HJ ausgeliefert. Kurz: Völlig falsches Gerücht.

Ansonsten hat bereits Vega10 4096 SPs bei höchstwahrscheinlich ebenfalls 1:2 DP und der ist vermutlich <400mm².
Und FP16 auch in 1:2? Und NVLink? Und wann erscheint der Chip? 2017? Oder erst 2018?

Richtig, die Stückzahlen werden also 2016 Minimal sein, man kann nicht mal die Serverkunden vor Q1/17 bedienen, wo die Abnahmemengen ohnehin gering ist.
Nö, das Problem ist der ungewöhnliche Formfaktor, auf den sich die Server OEMs natürlich einlassen müssen und natürlich die Validierung der Geräte. Das braucht eben Zeit.

Abgeliefert wurde da gar nichts, man hat eine nette Präsentation gemacht, Stückzahlen gibt es auch bei Nvidia nicht vor Q1/17.
Stückzahlen mit dem Chip gibt es seit Herbst letzten Jahres. Erzähl nicht so einen Stuss. Musst jetzt eben damit leben, dass du hart auf dem Beton aufschlägst, nachdem du dich so weit aus dem Fenster gelehnt hast.

R.I.P.

2016-04-06, 17:47:34

Hut ab :) nette GPU. Mich würde die aktuelle Ausbeute interessieren. Kenne mich mit HPC gar nicht aus. Sind 300 Watt Verbrauch nicht extrem viel? Oder für das Gebotene ok? Ich habe vor kurzem eine perf/watt con Pascal vs. Maxwell gesehen und da hatte Pascal das Nachsehen (bin mir bewusst, dass man beide nicht direkt vergleichen kann). Sehr interessant, dass man eine eigene GPU nur für HPC und deep learning entwickelt hat.

Troyan

2016-04-06, 17:48:02

Richtig, die Stückzahlen werden also 2016 Minimal sein, man kann nicht mal die Serverkunden vor Q1/17 bedienen, wo die Abnahmemengen ohnehin gering ist.

Abgeliefert wurde da gar nichts, man hat eine nette Präsentation gemacht, Stückzahlen gibt es auch bei Nvidia nicht vor Q1/17.

Kannst du bitte aufhören hier diesen Unsinn zu erzählen? Es ist das dritte Mal, dass du es schreibst.

Die Box geht im Mai an Partner und ab Juni an alle Besteller. Im laufe des Jahres wird das Piz Daint System mit 4500 P100 Karten bestückt: http://nvidianews.nvidia.com/news/nvidia-pascal-gpus-to-double-speed-of-europe-s-fastest-supercomputer

R.I.P.

2016-04-06, 17:52:07

Und FP16 auch in 1:2? Und NVLink? Und wann erscheint der Chip? 2017? Oder erst 2018? Stückzahlen mit dem Chip gibt es seit Herbst letzten Jahres. Erzähl nicht so einen Stuss. Musst jetzt eben damit leben, dass du hart auf dem Beton aufschlägst, nachdem du dich so weit aus dem Fenster gelehnt hast.

Na ja, Server OEMs kriegen Pascal auch Anfang 2017. Nur Forschungsinstitute eben früher. Kenneb die Anzahl der Stückzahlen nicht, aber ich glaube du bist zu optimistisch.

@Trojan
Da steht im Laufe des Jahres. Nix mit Mai. Laut Pcgh wird Pascal in Juni an Forschungsinstitute ausgeliefert.

fondness

2016-04-06, 17:53:48

Kannst du bitte aufhören hier diesen Unsinn zu erzählen? Es ist das dritte Mal, dass du es schreibst.

Die Box geht im Mai an Partner und ab Juni an alle Besteller. Im laufe des Jahres wird das Piz Daint System mit 4500 P100 Karten bestückt: http://nvidianews.nvidia.com/news/nvidia-pascal-gpus-to-double-speed-of-europe-s-fastest-supercomputer

Was sind bitte 4500 Karten? Und die Box geht vielleicht an ein paar Unis. Du kannst es drehen und wenden wie du willst, das sind homöopathische Dosen.

scully1234

2016-04-06, 17:54:40

Kenne mich mit HPC gar nicht aus. Sind 300 Watt Verbrauch nicht extrem viel?.

Ist ne Eigenkreation von Nvidia, und bedient so wohl kein standard Rack,sonst waere das Monstrum wohl irgendwo bei rund 225Watt eingependelt worden,koennte ich mir vorstellen

aufkrawall

2016-04-06, 17:55:52

Das mit GP100 die Taktraten ordentlich steigen ist schon ein erster Beweis das dem nicht so ist.
Diese vermeintliche Steigerung kann auch eine Fata Morgana sein. Das Ding zieht 300W und schon GM200 hat mit üblicher Spannung sehr, sehr häufig 1,4Ghz mitgemacht.

Zettabit

2016-04-06, 17:55:59

Na ja, Server OEMs kriegen Pascal auch Anfang 2017. Nur Forschungsinstitute eben früher. Kenneb die Anzahl der Stückzahlen nicht, aber ich glaube du bist zu optimistisch.
Was ändert das an der Auslieferung der Produkte?

Dass die ServerOEMs Zeit brauchen ihre Produkte auf den neuen Formfaktor anzupassen, sollte klar sein, oder?

Was sind bitte 4500 Karten?
Immerhin schon mehr in einer Lieferung, als AMD je an Fury-Karten verkauft hat ;D ;D ;D

Troyan

2016-04-06, 18:01:02

Was sind bitte 4500 Karten? Und die Box geht vielleicht an ein paar Unis. Du kannst es drehen und wenden wie du willst, das sind homöopathische Dosen.

Mehr als von AMD. Oder kannst du Polaris/Vega schon kaufen? ;D

Die Server-Systeme sollen in Q1 verfügbar sein. Also dann, wenn AMD gerade mal irgendwas in der Richtung präsentieren wird.

Schnoesel

2016-04-06, 18:04:26

Wow wie man sich an einer Präsi so aufgeilen kann als hätte man die Karte schon zu Hause ;D Macht weiter ist lustig.

Nakai

2016-04-06, 18:08:17

Diese vermeintliche Steigerung kann auch eine Fata Morgana sein. Das Ding zieht 300W und schon GM200 hat mit üblicher Spannung sehr, sehr häufig 1,4Ghz mitgemacht.

Der Formfaktor ist auch völlig anders. Ich würde das gaaaanz vorsichtig sein. Es sollte natürlich klar sein, dass Finfet einen höheren Takt erlaubt. Das hängt aber auch davon ab, wie weit NV gehen möchte.

300W ist verdammt viel.

Dass GP100 für Normalos erstmal außer Reichweite bleibt, ist leider die Kehrseite der Medaille. Da wird bestimmt ein GP110/200 gebracht werden. 300W bei nichtmal einen Vollausbau ist völlig wahnwitzig.

€: Ahja, falls GP100 im Gaming-Bereich irgendwann ankommen sollte. Bei der derzeitigen Config kann man nicht viel mehr als 50% Mehrperformance erwarten, bei gleicher TDP eher sogar weniger. Der gesamte Ballast, also DP-Rate, NVLink, großer Interconnect, etc. schmälert eine höhere Effizienz dramatisch.

Kein Wunder, dass NV keinen GP100 fürs Gaming bringen wird. Der wäre wohl kaum mehr als 30% schneller dann, wenn man bedenkt in welchem Formfaktor die Karte kommen müsste.

AnarchX

2016-04-06, 18:33:32

VC hat den nun echten Pascal auf dem Drive PX2 mal skaliert:
http://cdn.videocardz.com/1/2016/04/NVIDIA-GP106-GTC-2016-vs-GM206-GPU.png
http://videocardz.com/58865/nvidia-1st-generation-pascal-speculation

Da da Package aber auf dem Foto kaum kleiner wirkt als bei den letzten Bildern mit GM204, könnte es eher das 37.5x37.5mm Package von GP104 sein. Auch die Bauteile sind nicht gleichgroß zu GM206.
Damit kommt man dann vielleicht wieder auf ~250mm².

Troyan

2016-04-06, 18:35:43

Der Chip sieht deutlich kleiner aus als GM204.

Das war das CES Modell:
https://pbs.twimg.com/media/CfWrwPGW8Ag5n2d.jpg:large

nalye

2016-04-06, 18:39:34

Mimimimimi AMD. Mimimimimi nVidia. Jetzt ist aber mal gut hier bitte. Danke.

Godmode

2016-04-06, 18:53:12

Keine Angst, sobald nVidia eine höhere TDP braucht, ist die Leistungsaufnahme wieder egal.

Die TDP ist ja nur für den Kühler wichtig. Die viel wichtigere Kennzahl ist GFlop/Watt und diese Zahl muss deutlich besser sein, als bei der alten Generation, was auch erreicht wurde. Ich würde auch eine 500W Karte kaufen, solange der GFlop/Watt Wert in Ordnung ist. Ob diese Box eventuell mit Wasser gekühlt wird? Ich kann mir schwer vorstellen, dass man 8x300W mit Luft ordentlich aus dem Gehäuse bringen kann.

Troyan

2016-04-06, 18:57:50

Anandtech hat ein Bild vom "inneren": http://www.anandtech.com/show/10229/nvidia-announces-dgx1-server

Kühler sind 2 HE und passiv.

scully1234

2016-04-06, 18:59:41

Ist doch mit heutigen Lueftern auch kein Thema mehr, solche thermischen Werte wegzupusten:smile:

Godmode

2016-04-06, 19:00:17

Anandtech hat ein Bild vom "inneren": http://www.anandtech.com/show/10229/nvidia-announces-dgx1-server

Kühler sind 2 HE und passiv.

Die werden dann wohl mit ordentlich Luftdruck reinfahren, um die die Abwärme nach draußen zu befördern.

Skysnake

2016-04-06, 19:00:42

Wird ziemlich sicher mit Wasser gekühlt

Wenn man sich alle Bilder ansieht, dann sind dies meiner Ansicht nach keine optischen Veränderungen. Zwischen KW 40 und 43 hat sich also noch etwas getan.

Die Chips aus KW 40 haben noch die typischen Engineering Sample Beschriftungen, die aus KW 43 nicht.

Edit:
55495
Das NVLink wird Unmengen an Fläche gekostet haben. Genauso wie der (endlich mal) große Interconnect.
Sicherlich nicht wenig. Das wird wohl auch teils die niedrige Transistordichte erklären. Ist halt verdammt viel IO, auch wenn man HBM(2) nutzt.

Der ganze IO(Highspeed/Analog) Kram ist halt einfach riesig im Vergleich zu dem reinen Logik Sachen, und ja ich spreche da wirklich aus 1. Hand.

PS:
Lustig wie halt jeder ignoriert, dass es Unterschiedliche Aussagen zwischen SC15 und der GTC16 bezüglich Pascal gibt :rolleyes:

EDIT:
Ah ok, ist doch tatsählich Luft. Aber jetzt ist auch klar warum das Ding 3U hoch ist.

Die Kühler sind 3U hoch :ugly:

Thunder99

2016-04-06, 19:02:02

Alle die Bedenken wegen der Spiele Performance haben vom GP100. Wieso gibt es denn das GP102 Gerücht? ;)
Wird wohl viel unnötiges weggelassen. Wenn jemand sich das leisten kann dann nvidia um den Markt zu bedienen (siehe Marktanteile und dessen Erwartung).
Wäre 50/50 der Marktanteil würden wir kein GP102 sehen sondern was wie bei Keppler meiner Meinung nach

Godmode

2016-04-06, 19:03:32

Lustig wie halt jeder ignoriert, dass es Unterschiedliche Aussagen zwischen SC15 und der GTC16 bezüglich Pascal gibt :rolleyes:

Nur weil sie was auf der SC15 gesagt haben, heißt dass ja nicht, dass es wirklich genau so kommen wird. Oder hat dir das irgend jemand versichert? :rolleyes:

AnarchX

2016-04-06, 19:03:55

Der Chip sieht deutlich kleiner aus als GM204.

Bei 400mm² sollte man GP104 auch nicht erwarten, aber möglicherweise liegt er am unteren Ende der Erwartungen. An GP106 mag ich jetzt eher nicht glauben.

Möglicherweise muss man da sich 2048/1792SPs @ 1,4-1,5GHz Basis-Takt + 8GiB 11Gbps GDDR5X im H2/2016 zufrieden geben.

scully1234

2016-04-06, 19:06:29

Hauptsache nicht zu konservativ ausgelegt ,nur das zaehlt

Troyan

2016-04-06, 19:07:01

Die GPUs von PX2 sollen 80GB/s schaffen. Es wäre gut möglich, dass sie ein 256bit Interface mit 1250MHz Speicher laufen lassen, aber das wäre auch fast vollkommene Verschwendung...

Nightspider

2016-04-06, 19:08:58

Diese vermeintliche Steigerung kann auch eine Fata Morgana sein. Das Ding zieht 300W und schon GM200 hat mit üblicher Spannung sehr, sehr häufig 1,4Ghz mitgemacht.

Naja die TDP hat ja erstmal sowieso nichts mit der maximal erreichbaren Taktrate zu tun.
Ein Sprung von 28nm auf 16FF sollte so oder so merklich bessere Taktraten erlauben, sofern die Architektur mitspielt.

Klar hat GM200 meistens 1,4Ghz mitgemacht aber ob das Overclocker erreichen oder der Standardboost ist auch wieder ein Unterschied. :)

Ich würde zumindest mit 200-300 Mhz mehr rechnen, welche zu erreichen sind. Das heißt beim kleinen GP204 könnten 1,75-1,9Ghz drin sein bei guter Kühlung. Hatte PCGH nicht mal eine 1,6Ghz GTX980?

Auf jeden Fall sind die neuen Karten spannend. In den letzten Jahren hat sich imo viel zu wenig getan und für neue Kracher wie Star Citizen braucht man auch einfach diese gewaltige Rohpower. :cool:

AnarchX

2016-04-06, 19:10:22

Die GPUs von PX2 sollen 80GB/s schaffen. Es wäre gut möglich, dass sie ein 256bit Interface mit 1250MHz Speicher laufen lassen, aber das wäre auch fast vollkommene Verschwendung...
GK104/GM204 hat man auch gerne mal um 50% deaktiviert, trotz guter 28nm Yields.
Es spricht vieles dafür, dass der gezeigte Die auf dem PX2 ein ~250mm² GP104 ist.

Nakai

2016-04-06, 19:17:54

AnarchX

2016-04-06, 19:19:08

Hier sind es wieder 18 Mrd. Transistoren: https://developer.nvidia.com/pascal

fondness

2016-04-06, 19:19:39

GK104/GM204 hat man auch gerne mal um 50% deaktiviert, trotz guter 28nm Yields.
Es spricht vieles dafür, dass der gezeigte Die auf dem PX2 ein ~250mm² GP104 ist.

Könnte durchaus Sinn machen, dann nimmt GP102 eben den Platz bei ~400mm2 ein.

BigKid

2016-04-06, 19:22:37

GK104/GM204 hat man auch gerne mal um 50% deaktiviert, trotz guter 28nm Yields.
Es spricht vieles dafür, dass der gezeigte Die auf dem PX2 ein ~250mm² GP104 ist.

Und für mich passt da einiges an Gerüchten dann am Ende doch zusammen...

Das PX2 setzt auf MXM Module...
MXM Module werden vermutlich erstmal auf GDDR5(X) setzen und nicht auf HBM.
Da wird auch kein GP100 eingesetzt sondern eher ein GP10x sein - der vermutlich auch nicht auf HBM setzt...
Und vielleicht sehen wir den Gaming Pascal dann halt doch ausnahmsweise zuerst in Laptops...
Was auch zu den aufgetauchten Benchmarks passen würde (Test von GP10x auf MXM Modulen in nem Testbed) ...

Spricht aber auch dafür das der GP10X dann nicht komplett auf Features für Compute verzichten kann wenn er auch für PX2 eingesetzt werden soll - oder ?

Alles einzel Gerüchte die zusammen gar kein so schlechtes Gericht geben...

Einfach nur weils mir reinlaufen würde...

aufkrawall

2016-04-06, 19:24:00

Hatte PCGH nicht mal eine 1,6Ghz GTX980?

Die meisten >1,5Ghz Ergebnisse sind imho nur scheinstabil oder es muss viel Spannung drauf. Realistisch sind 1,4.
Mit nur ~250mm² wär GP104 aber auch mit 1,75Ghz ziemlich langweilig für GM200-Besitzer. Außer natürlich, er kann Context Switches for free. :D

AnarchX

2016-04-06, 19:33:01

Spricht aber auch dafür das der GP10X dann nicht komplett auf Features für Compute verzichten kann wenn er auch für PX2 eingesetzt werden soll - oder ?

Er kann halt die zwei FP16 Operationen zusammenpacken, FP64 braucht es hier für das Deep Learning nicht.
In dem Treiber mit dem Codenamen waren ja auch noch zwei weitere Compute Level für Pascal neben dem 6.0 Profil von GP100 enthalten.

Ailuros

2016-04-06, 19:49:36

https://translate.googleusercontent.com/translate_c?depth=1&hl=en&ie=UTF8&prev=_t&rurl=translate.google.gr&sl=fr&tl=en&u=http://www.hardware.fr/news/14579/gtc-n-attendez-geforce-gp100.html&usg=ALkJrhiJmqpGFprnBDes2q7JStRXfIRhUg

This is actually an assumption we make for some time and that obviously is becoming a reality. Although we did not have official confirmation from Nvidia, several external sources confirmed that our intuition was correct and that there will be no GeForce based on the first big GPU Pascal.

Es ist aeusserst selten dass Damien irgendwo etwas falsches bzw. gewagtes behauptet, ergo stehen wir vor einer absoluten Eulogie.

A dedicated GPU, clearly upscale oriented is being finalized and should be announced soon according to our information. This should be content with GDDR5 or GDDR5X and operate all of its transistors to the record real time.

ach Du liebe Zeit wie werden es nur ohne HBM aushalten koennen.....:freak:

Es sind wohl 3 "pillars" fuer 3D die Erdbeben und Tsunamis bekaempfen koennen unter anderem: DX12, HBM und FF Prozesse :P

Godmode

2016-04-06, 20:06:27

Nakai

2016-04-06, 20:09:27

Wer HBM1/2 im Desktop haben will, muss eben zu Fiji greifen oder auf Vega10 warten. Sehr wahrscheinlich kommt noch GP102 mit HBM2, aber da ist noch nichts in Sicht.

Armaq

2016-04-06, 20:12:02

Ailuros

2016-04-06, 20:12:03

Solange das Endergebnis passt, ist mir jeglicher Speicher recht. Auch wenn HBM verdammt sexy wäre, wird es wohl wirklich auf GDDR5X hinauslaufen.

12Gbps GDDR5X @384bit entspricht 576 GB/s. Zu viel oder zu wenig? :D

IT drives business, business drives IT.

Wir sind an einem Punkt angekommen, wo Deep Learning unser Verständnis von bestimmten Fragestellungen verbessern kann. Nvidia liefert hier eine dezidierte Lösung, um solche Themen massiv zu beschleunigen.

Gaming wird für nvidia unwichtiger im Verhältnis zu anderen Themen (Car IT, DeepLear.). Diese Erkenntnisse aus dem R&D sind natürlich spiegelnd auch für Grafikkarten nutzbar, aber bei der technologischen Ausrichtung von Pascal, würde ich gar keine Rückschlüsse ziehen. Man hat sich deutlich für ein anderes Anwendungsgebiet entschieden.

Ich bin gespannt wer diese Monster kauft ... (außerhalb von Unis und ein paar IT Riesen).

Nur 1000 verkaufte hypothetische Einheiten von dem hier: http://www.nvidia.com/object/deep-learning-system.html bedeuten $129Mio Umsatz. Wenn ja waere es schon eine Hausnummer, denn wenn ich mich nicht irre verdienen sie von Teslas bis jetzt auch nicht mehr.

scully1234

2016-04-06, 20:17:37

reicht

und wenn GTX 1080 u 1070 nur so schnell werden wie Titan X tuts auch hochtaktender GDDR5:smile:

Ailuros

2016-04-06, 20:21:41

reicht

und wenn GTX 1080 u 1070 nur so schnell werden wie Titan X tuts auch hochtaktender GDDR5:smile:

Die 12 Gbps 5X@384bit sind ja nur frei erfunden, aber wenn man hypothetisch einem GP102 576GB/s Bandbreite spendiert (weil er es auch theoretisch brauchen wuerde), waeren fuer GP104 mit einem 256bit bus 228GB/s Bandbreite dann schon zu wenig. Da braeuchte man schon ungefaehr 2/3 der GP102 Bandbreite.

Leonidas

2016-04-06, 20:28:37

Nur so mal als Denkanstoß:
Denkt ihr nicht, dass die GP100 SMs für die "normalen" GPUs völlig überdimensioniert sind? Nur so nebenbei, NV ist mit Maxwell-SMs sehr gut gefahren. Man braucht keine übergroße Registerfile, sowie viel Shared Memory. Außerdem vergrößern kleine SMs den Interconnect.

Genau das überlege ich mir auch. U.u. bekommen die kleineren Chips gänzlich andere SMs, die näher an Maxwell dran sind. Für nicht-Profi-Anwendungen kann man einiges streichen und optimieren, nicht nur die FP64-Funktionalität.

Nur so zum Nachdenken: Angesichts der Packdichte würde ein Maxwell-Design in 16nm auf 601mm² Chipfläche (wie GM200) Richtung 6000 Shader-Einheiten tragen können. Selbst bei Abspeckungen an der Taktraten wegen hohem Verbrauch ergibt das viel mehr Gaming-Bums als der GP100 bieten kann.

Armaq

2016-04-06, 20:37:54

12Gbps GDDR5X @384bit entspricht 576 GB/s. Zu viel oder zu wenig? :D

Nur 1000 verkaufte hypothetische Einheiten von dem hier: http://www.nvidia.com/object/deep-learning-system.html bedeuten $129Mio Umsatz. Wenn ja waere es schon eine Hausnummer, denn wenn ich mich nicht irre verdienen sie von Teslas bis jetzt auch nicht mehr.
Das ist tatsächlich ein anderer Markt, für mein Verständnis (Tesla und ne 980Ti waren viel näher als das jetzt).

Diese Dinger gibt es jetzt für ein Gebiet, wo es kaum Anwendungsbereiche gibt. Sobald du das aber nutzen kannst, hat nvidia einfach recht. Bau dir sowas als Supercomputer und die 130k Listenpreis sind nichts.

Ich hoffe nur, das floppt nicht so hart wie bspw. das Thema Hadoop (jeder wird es nutzen bla, dabei bekommt keiner seine Anwendung gescheit auf das Zeug hin).

Welche Anwendung kann ich damit jetzt beschleunigen? Die Fragestellung ist für den kommerziellen Erfolg enorm wichtig, denn 130k gibt halt keiner mal so aus.

Technologisch spannend, aber Pascal hat so viele Themen integriert (HBM, Nvlink etc), dass es fast ein R&D Experiment in Produktbasis sein könnte. Mir fallen auf Anhieb einfach zu wenig Kunden, aber das heißt ja nichts.

Ailuros

2016-04-06, 20:41:05

Genau das überlege ich mir auch. U.u. bekommen die kleineren Chips gänzlich andere SMs, die näher an Maxwell dran sind. Für nicht-Profi-Anwendungen kann man einiges streichen und optimieren, nicht nur die FP64-Funktionalität.

Nur so zum Nachdenken: Angesichts der Packdichte würde ein Maxwell-Design in 16nm auf 601mm² Chipfläche (wie GM200) Richtung 6000 Shader-Einheiten tragen können. Selbst bei Abspeckungen an der Taktraten wegen hohem Verbrauch ergibt das viel mehr Gaming-Bums als der GP100 bieten kann.

Bleibt abzusehen ob Pascal selbst mit ein paar Reduzierungen ausserhalb FP64 effizienter ist und wie viel im Vergleich zu Maxwell. Wenn ja mit einem sehenswerten Prozentual haelt man erstmal perf/W schoen in Kontrolle mit konservativeren Einheiten-Anzahlen und laesst noch Platz fuer eine zweite Auflage wenn noetig fuer 16FF+.

AnarchX,

http://images.nvidia.com/content/technologies/deep-learning/pdf/NVI-01-Pascal-Infographic-v19.pdf

Hier sind's wieder 15.3b ;)

Das ist tatsächlich ein anderer Markt, für mein Verständnis (Tesla und ne 980Ti waren viel näher als das jetzt).

Diese Dinger gibt es jetzt für ein Gebiet, wo es kaum Anwendungsbereiche gibt. Sobald du das aber nutzen kannst, hat nvidia einfach recht. Bau dir sowas als Supercomputer und die 130k Listenpreis sind nichts.

Ich hoffe nur, das floppt nicht so hart wie bspw. das Thema Hadoop (jeder wird es nutzen bla, dabei bekommt keiner seine Anwendung gescheit auf das Zeug hin).

Welche Anwendung kann ich damit jetzt beschleunigen? Die Fragestellung ist für den kommerziellen Erfolg enorm wichtig, denn 130k gibt halt keiner mal so aus.

Technologisch spannend, aber Pascal hat so viele Themen integriert (HBM, Nvlink etc), dass es fast ein R&D Experiment in Produktbasis sein könnte. Mir fallen auf Anhieb einfach zu wenig Kunden, aber das heißt ja nichts.

Der gleiche link wie oben fuer die Transistoren: Medizin, Energie, AI. Ob es nun zum relativen Kaufserfolg wird oder nicht keine Ahnung.

Leonidas

2016-04-06, 20:41:15

Es spricht vieles dafür, dass der gezeigte Die auf dem PX2 ein ~250mm² GP104 ist.

Bei der Chipfläche und auch angesichts der Rohleistungen meinst Du sicher GP106.

Godmode

2016-04-06, 20:42:00

Genau das überlege ich mir auch. U.u. bekommen die kleineren Chips gänzlich andere SMs, die näher an Maxwell dran sind. Für nicht-Profi-Anwendungen kann man einiges streichen und optimieren, nicht nur die FP64-Funktionalität.

Nur so zum Nachdenken: Angesichts der Packdichte würde ein Maxwell-Design in 16nm auf 601mm² Chipfläche (wie GM200) Richtung 6000 Shader-Einheiten tragen können. Selbst bei Abspeckungen an der Taktraten wegen hohem Verbrauch ergibt das viel mehr Gaming-Bums als der GP100 bieten kann.

Das ist so gut wie bestätigt, weil es eben 3 verschiedene Pascal Compute Capabilities gibt.

12Gbps GDDR5X @384bit entspricht 576 GB/s. Zu viel oder zu wenig? :D

Mir sind Zahlen völlig schnuppe, wenn das Endergebnis passt.

Bleibt abzusehen ob Pascal selbst mit ein paar Reduzierungen ausserhalb FP64 effizienter ist und wie viel im Vergleich zu Maxwell. Wenn ja mit einem sehenswerten Prozentual haelt man erstmal perf/W schoen in Kontrolle mit konservativeren Einheiten-Anzahlen und laesst noch Platz fuer eine zweite Auflage wenn noetig fuer 16FF+.

FP64 raus, Registerfiles kleiner machen, mehr SPs, NVLink raus, oder auf 1-2 Links beschränken. Um noch mehr Platz zu sparen, eventuell HBM? NVLink wäre für eine VR-SLI-Dual-GPU Karte ganz nett und da würden dann auch 1-2 Links ausreichen. So könnte ein GP102 aussehen. Für GP104 dann aber kein NVLink und auch kein HBM Speicher.

Ailuros

2016-04-06, 20:49:01

Bei der Chipfläche und auch angesichts der Rohleistungen meinst Du sicher GP106.

Kann schwer etwas anderes sein als ein "GP106", da es sich um 3 TFLOP GPUs handeln soll. Wenn 250mm2 wieder von den Bildern eingeschaetzt ist, besteht mal wieder die Moeglichkeit dass das Ding am Ende sogar einen Schnitt kleiner ist.

AffenJack

2016-04-06, 20:49:13

Diese Dinger gibt es jetzt für ein Gebiet, wo es kaum Anwendungsbereiche gibt. Sobald du das aber nutzen kannst, hat nvidia einfach recht. Bau dir sowas als Supercomputer und die 130k Listenpreis sind nichts.

Ich hoffe nur, das floppt nicht so hart wie bspw. das Thema Hadoop (jeder wird es nutzen bla, dabei bekommt keiner seine Anwendung gescheit auf das Zeug hin).

Welche Anwendung kann ich damit jetzt beschleunigen? Die Fragestellung ist für den kommerziellen Erfolg enorm wichtig, denn 130k gibt halt keiner mal so aus.

Du unterschätzt Deep Learning etwas mit deiner Frage welches Anwendungsgebiet dafür in Frage kommt. Deep Learning ist gerade so ziemlich der Trend in der ganzen Industrie, vielleicht etwas zuviel Hype, aber trotzdem sind die Sachen die man damit anstellen kann/will enorm. Spracherkennung mit so Sachen wie Siri oder Google Now etc.. Auch das Go-Spielen zwischen dem Computer und Mensch basiert auf Deep Learning. Google, Apple, MS, Facebook, praktisch alle sind da drin und versuchen allesmögliche Zeug damit.

AnarchX

2016-04-06, 21:01:40

Bei der Chipfläche und auch angesichts der Rohleistungen meinst Du sicher GP106.
Nein GP104. Entsprechend der Bauteile sollte es das bekannte 37.5x37.5mm Package sein. Man hat es nur falsch auf 35x35 skaliert.
Durch GP102 verschiebt sich wohl hier etwas und gleichzeitig konkurriert man hier wohl passend mit Polaris10.

Auf der PX2 sind wohl einige SM deaktiviert oder der Takt extrem niedrig.

captain_drink

2016-04-06, 21:14:33

AC ist nicht optional. Ohne gibt es keine DX12/Vulkan-Kompatiblität. NV muss das halt im Treiber zurecht biegen, da es die HW nicht beherrscht.

https://www.google.de/?gws_rd=ssl#q=async+compute+dx12+optional

Ich lasse den Link mal unkommentiert stehen. Ob mehr als 5.000 Gegenargumente dich überzeugen können? Wer weiß...

Kartenlehrling

2016-04-06, 21:20:21

@Fondness hält sich wohl an Nvidia Folie ...

http://www.legitreviews.com/wp-content/uploads/2015/06/dx12-features-980ti.jpg

fondness

2016-04-06, 21:29:37

https://www.google.de/?gws_rd=ssl#q=async+compute+dx12+optional

Ich lasse den Link mal unkommentiert stehen. Ob mehr als 5.000 Gegenargumente dich überzeugen können? Wer weiß...

Ist das dein ernst oder willst du nur trollen? :rolleyes:
Jede DX12-fähige GPU muss AC-Code ausführen können. Was dann die HW daraus macht ist nicht das Problem der API.

/Edit: Da es so lustig ist: Ob mehr als 18.000 Gegenargumente dich überzeugen können? Wer weiß...
https://www.google.de/search?biw=2271&bih=1330&noj=1&q=async+compute+dx12+not+optional

Gipsel

2016-04-06, 21:30:02

https://www.google.de/?gws_rd=ssl#q=async+compute+dx12+optional

Ich lasse den Link mal unkommentiert stehen. Ob mehr als 5.000 Gegenargumente dich überzeugen können? Wer weiß...AC ist tatsächlich nicht optional, sondern eher integral zu nennen. :rolleyes:

==================

Und noch was zu den nV-Folien: Mit dem angeblichen "Spacer" auf dem HBM-Stack schießen die ja mal wieder den Vogel ab. Und der 4Hi-Stack hat nur 3 Speicher-Dies oder wie? ;D
Erklärung: Der oberste Memory-Die ist bloß nicht abgedünnt, weil da keine TSVs durch müssen. Es ist nur ein Nebeneffekt, daß man so auch 8Hi-Stacks (oder auch 2Hi) mit gleicher Höhe bauen kann.

iuno

2016-04-06, 21:39:46

Und noch was zu den nV-Folien: Mit dem angeblichen "Spacer" auf dem HBM-Stack schießen die ja mal wieder den Vogel ab. Und der 4Hi-Stack hat nur 3 Speicher-Dies oder wie? ;D
Erklärung: Der oberste Memory-Die ist bloß nicht abgedünnt, weil da keine TSVs durch müssen. Es ist nur ein Nebeneffekt, daß man so auch 8Hi-Stacks (oder auch 2Hi) mit gleicher Höhe bauen kann.
Ernsthaft? :D
Ich haette die 3 slices jetzt auf das Schaubild geschoben. Demnach hat der Stack ja auch keine µBumps..
Kannst du dazu was sagen?
Mit was fuer einem Material fuellen die die gaps auf? Warum nimmt man da nicht einfach einen Heatspreader? Zu schlechte Waermeabfuhr, zu hoch, teurer?
Offenbar gibt es auch noch zwei Varianten, links fehlt mglw. noch der Spacer, der die HBM Stacks auf die hoehe der GPU anpasst und es wurde nur das 'Fuellmaterial' verwendet?!

Sicher, dass AC nicht "optional" ist? MMn muessen hatl die 3 queue Typen unterstuetzt werden (copy, compute, gfx), ob die auch parallel abgearbeitet werden koennen muessen, glaube ich ehrlich gesagt nicht. Sonst duerfte Nvidia seine Karten ja ueberhaupt nicht DX12 kompatibel nennen.

captain_drink

2016-04-06, 21:40:00

@Fondness hält sich wohl an Nvidia Folie ...

http://www.legitreviews.com/wp-content/uploads/2015/06/dx12-features-980ti.jpg

Ist "More Control" also auch Teil der Specs? Rhetorische Frage, bitte nicht antworten.

(Sorry für OT i.Ü., ich kann sowas immer nicht stehen lassen.)

Ist das dein ernst oder willst du nur trollen? :rolleyes:
Jede DX12-fähige GPU muss AC-Code ausführen können. Was dann die HW daraus macht ist nicht das Problem der API.

Du fragst mich, ob ich trollen will? Danke für den unaufgeforderten Witz.

Bitte den Kontext beachten: Behauptet wurde, Maxwell v2 sei eine DX11-Architektur, weil es AC nicht (lies: nicht performant) beherrsche. Dem habe ich wiedersprochen mit dem Hinweis, dass FL 12_0 keineswegs vorschreibt, AC performant zu beherrschen. Um die von dir angesprochene Ausführbarkeit von Code ging es an keiner Stelle.

fondness

2016-04-06, 21:41:45

Das Feature ist nicht optional, wie von dir behauptet:
Zumal AC lediglich ein optionales Feature von DX12 (bzw. Vulkan) ist, so dass es umso arbiträrer erscheint, selbiges zum Distinktionsmerkmal zwischen DX11- und DX12-"Architekturen" (was auch immer man sich darunter vorstellen muss) zu deklarieren.

Deine Ausrede ist bestenfalls billig. Akzeptiere es, oder lass es.

Troyan

2016-04-06, 21:43:11

Das Feature ist nicht optional, wie von dir behauptet. Deine Ausrede ist bestenfalls billig. Akzeptiere es, oder lass es.

Natürlich ist das Feature optional. Was nicht optional ist, ist die Software-Unterstützung für Multi-Engine. :rolleyes:

Nakai

2016-04-06, 22:01:00

Nein GP104. Entsprechend der Bauteile sollte es das bekannte 37.5x37.5mm Package sein. Man hat es nur falsch auf 35x35 skaliert.
Durch GP102 verschiebt sich wohl hier etwas und gleichzeitig konkurriert man hier wohl passend mit Polaris10.

Auf der PX2 sind wohl einige SM deaktiviert oder der Takt extrem niedrig.

Ich hab vor einigen Wochen hier etwas sehr abstruses gepostet bzgl. Nvidia und 16FF. Das hieße eigentlich, dass GP104 ~ GM204 und GP102 ~ GM200.
NV hat anscheinend sehr viele Ressourcen in GP100 gebuttert. Ob diese Ressourcen nicht woanders fehlen?

@AC und NV:

NV unterstützt es, aber nicht in Hardware. Da muss der Treiber viel erledigen. Es gibt keinen Performanceboost, da Compute (CUDA) und Graphics nicht parallel auf der Hardware laufen kann. CUDA+Graphics kann nicht parallel laufen. NV GPUs können im WDDM mode oder TCC mode laufen. Bei Letzteres ist die GPU nicht mehr für Grafik zuständig, sondern eine reine Computekarte.

Mal eine Idee:
Lasst mal GPUView zu Ashes of Singularity laufen. Einmal mit AC und einmal ohne und zeichnet die Daten auf. Mich würden die beiden resultierenden Graphen sehr interessieren. Mit AC sollten auf der GPU Hardware Queue ordentlich Preemption Pakete landen.

€:
Natürlich ist das Feature optional. Was nicht optional ist, ist die Software-Unterstützung für Multi-Engine. :rolleyes:

Ja und nein. Beide Seiten meinen dasselbe, aber geben es nicht zu. Ist doch schon. Dann sind wir einer Meinung.

Dural

2016-04-06, 22:20:23

4500 stk. Gp100 im q4
http://www.computerbase.de/2016-04/nvidia-pascal-doppelte-leistung-fuer-europas-schnellsten-supercomputer/

Troyan

2016-04-06, 22:27:29

Ja und nein. Beide Seiten meinen dasselbe, aber geben es nicht zu. Ist doch schon. Dann sind wir einer Meinung.

Nein, tun sie nicht. Wie die Hardware unterschiedliche Queues verarbeitet, ist nicht von DX12 vorgeschrieben.

Was DX12 vorschreibt, ist die Softwarebedingung von den drei Queues in Form von Multi-Engine.

aufkrawall

2016-04-06, 22:37:46

Armaq

2016-04-06, 22:42:49

4500 stk. Gp100 im q4
http://www.computerbase.de/2016-04/nvidia-pascal-doppelte-leistung-fuer-europas-schnellsten-supercomputer/
Ja, aber nicht die 129k Variante.

Forschung ganz klar und auch für die IT-Riesen zum spielen, aber daraus wird kein kaufmännisch erfolgreiches Produkt. Frag mal die Microsoft HPC Sparte ;)

Troyan

2016-04-06, 23:04:39

Natürlich muss für DX12 die GPU damit klarkommen können, wenn eine Anwendung anfordert, dass Queues mit Graphics und Compute gleichzeitig abgearbeitet werden. Das ist mit Async Compute gemeint, und bei Nvidia muss der Treiber das halt seriell umsetzen, weils die Hardware nicht kann, was einfach ein Nachteil ist.
Hör doch mal mit dieser peinlichen Zerredungs-Strategie auf. Klingst dem User "dr_rus" von Guru3D frappierend ähnlich...

Die Anwendung hat überhaupt keine Ahnung, was die Hardware kann. :rolleyes:
Irgendwie scheinst du das ganze Konzept überhaupt nicht verstanden zu haben. Wie der Treiber die Queues auf die Hardware mappt, ist nicht von der API vorgeschrieben.

aufkrawall

2016-04-06, 23:06:09

Was macht denn dann der Schalter in Ashes und wozu hat Nvidia überhaupt diese Krüppel-Lösung eingebaut, wenn sie doch gar nicht nötig wäre?

Nakai

2016-04-06, 23:12:28

Nein, tun sie nicht. Wie die Hardware unterschiedliche Queues verarbeitet, ist nicht von DX12 vorgeschrieben.

Was DX12 vorschreibt, ist die Softwarebedingung von den drei Queues in Form von Multi-Engine.

Und deswegen kann NV kein AC, obwohl es AC eigentlich kann. NV muss eben AC in Software simulieren, da es die Hardware nicht kann.

Kurz, ein NV Produkt kann derzeit AC, aber nicht gut und auch nicht in Hardware.

DX12 hat AC bzw. MultiEngines nicht einfach so eingeführt. Es geht darum, zugrundeliegende Hardwarefunktionalitäten/ressourcen auszunutzen.

Ein nettes Beispiel bei meiner Firepro M4100. Die hat 2 ACE mit je einer Queue. Wenn ich in OpenCL oder sonstwo mehr als 2 Queues erstelle, killt sich der Treiber. Kurz, ich muss meine Computejobs auf zwei Queues aufteilen. Bei NV gibt es keine Queues, es wird alles über den Treiber realisiert. Kurz ich kann soviele Queues erstellen, bis ich in irgendein Systemlimit gerate. Bei Hawaii (8 ACEs a 8 Queues) kann man etwas mehr als 64 Queues erstellen und dann kracht der Treiber weg.

So was ist besser? kA. Bei AMD weiß man nur, dass es richtig auf Hardware läuft. Bei NV weiß man nichts. Womöglich ist da mehr Software als Hardware dabei, aber egal.

Es ist so mühselig darüber zu reden, weil es völlig egal ist. Man sollte einfach eine VendorID prüfen und dann entweder alles in einer Queue stopfen (NV) oder eben mehrere Queues/Engines (AMD) ausnutzen.

captain_drink

2016-04-06, 23:12:47

Was nicht optional ist, ist die Software-Unterstützung für Multi-Engine. :rolleyes:

Ganz recht, Letzteres ist die Voraussetzung für Async Compute, aber nicht damit gleichzusetzen.

Das Feature ist nicht optional, wie von dir behauptet:

Deine Ausrede ist bestenfalls billig. Akzeptiere es, oder lass es.

Das ist keine Ausrede, sondern der Kern der Sache. Es hat seinen guten Grund, warum AC nicht bei den Tabellen für die Feature Levels aufgeführt wird, weil es eben gar kein "Feature" ist. Mit dieser Meinung stehe ich nicht alleine:
I don't believe there is any specific requirement that Async Compute be required for D3D12, but perhaps I misread the spec.

http://www.overclock.net/t/1569897/various-ashes-of-the-singularity-dx12-benchmarks/1400#post_24360916

Die Basisfunktionalität (in Form von Multi-Engine) beherrscht jede GPU mit FL 12_0, folglich auch Maxwell v2. Etwas ganz anderes ist es, wie eine GPU Async Compute umsetzt, d.h. ob es z.B. auf HW-Ebene umgesetzt wird (wie im Fall von GCN mit den ACEs). In dem Zusammenhang ist auch eine Aussage von Andrew Lauritzen aufschlussreich:

When someone says that an architecture does or doesn't support "async compute/shaders" it is already an ambiguous statement (particularly for the latter). All DX12 implementations must support the API (i.e. there is no caps bit for "async compute", because such a thing doesn't really even make sense), although how they implement it under the hood may differ. This is the same as with many other features in the API.

https://forum.beyond3d.com/threads/intel-gen9-skylake.57204/page-6#post-1869935

Nakai hat also vermutlich recht, dass wir in etwa dasselbe meinen. Worauf man sich nämlich sicherlich einigen kann, ist Folgendes: Es ist falsch, dass Maxwell v2 keine DX12-Architektur ist, nur weil es eine Funktionalität, die durch DX12 ermöglicht wird, anders umsetzt als GCN. Die Specs sind eindeutig, Maxwell v2 unterstützt FL 12_1, und AC ist kein Teil der Specs. Oder anders formuliert: Maxwell v2 wird nicht plötzlich zur DX11-Architektur, weil keine ACEs vorhanden sind (was sie auch gar nicht müssen).

Nakai

2016-04-06, 23:23:22

Oke ich muss nochmal ausholen.

Die Anwendung hat überhaupt keine Ahnung, was die Hardware kann. :rolleyes:
Irgendwie scheinst du das ganze Konzept überhaupt nicht verstanden zu haben. Wie der Treiber die Queues auf die Hardware mappt, ist nicht von der API vorgeschrieben.

Die Anwendung kann ID-Checks durchführen. VendorID, PCIeID, etc.
Damit weiß man welche Hardware man vor sich hat.
Der Entwickler wird damit in die Verantwortung gezogen.

Nakai hat also vermutlich recht, dass wir in etwa dasselbe meinen. Worauf man sich nämlich sicherlich einigen kann, ist Folgendes: Es ist falsch, dass Maxwell v2 keine DX12-Architektur ist, nur weil es eine Funktionalität, die durch DX12 ermöglicht wird, anders umsetzt als GCN. Die Specs sind eindeutig, Maxwell v2 unterstützt FL 12_1, und AC ist kein Teil der Specs. Oder anders formuliert: Maxwell v2 wird nicht plötzlich zur DX11-Architektur, weil keine ACEs vorhanden sind (was sie auch gar nicht müssen).

Dumme Frage:
Wie kann man (fast) Overhead-frei auf eine GPU zugreifen?

Richtig! Die Queues/Multi-Engines/Pipes sind das Tor zur GPU-Welt. Der Unterschied zwischen AMD und NV ist, dass AMD ihre Hardware sehr direkt ansprechen lässt und NV alles über den Treiber realisiert. Dass Ersteres deutlich näher am Geist von DX12, muss man nicht sagen. Darum geht es ja, nämlich die Hardware-Ressourcen auszunutzen. Wenn NV einen Treiber dazwischen schaltet oder irgendwelchen Softwareblock hierfür verwendet, ist das in Ordnung.
Es wäre wahrscheinlich jedem am liebsten wenn NV soetwas wie die ACEs hat oder AMD genauso alles im Treiber löst. Dann hätte man nicht zwei sehr unterschiedliche Plattformen vor sich und muss nicht für jeden Rotz einen extra Codepfad oder Optimierungspfad einbauen.

€: Klingt pampig, war nicht so gemeint. Es ist einfach so, dass sich jeder etwas eigenes darunter vorstellt und jeder meint, das wahre DX12 zu verkörpern. Schwachsinn.

Foobar2001

2016-04-06, 23:23:45

Das Feature ist nicht optional, wie von dir behauptet:
Natuerlich ist es optional. Die Applikation fragt nach Queues und es ist voellig legal wenn der Treiber lediglich eine Queue hat die Graphics und Compute kann.

captain_drink

2016-04-06, 23:31:29

Es ist einfach so, dass sich jeder etwas eigenes darunter vorstellt und jeder meint, das wahre DX12 zu verkörpern. Schwachsinn.

Vgl. auch wiederum Lauritzen: https://forum.beyond3d.com/posts/1869983/

aufkrawall

2016-04-06, 23:36:48

y33H@

2016-04-07, 00:08:39

Hier noch mal die Tesla P100 samt GP100-HBM2-Package:

http://scr3.golem.de/screenshots/1604/GP100-Tesla-P100-Benchmarks-Details/GP100-Benchmark-Details-12.png

http://scr3.golem.de/screenshots/1604/GP100-Tesla-P100-Benchmarks-Details/GP100-Benchmark-Details-13.png

Leider miese Lichtverhältnisse ...

scully1234

2016-04-07, 00:17:01

So nah dran und noch keinen im Rucksack:P

Mancko

2016-04-07, 00:20:09

IT drives business, business drives IT.

Wir sind an einem Punkt angekommen, wo Deep Learning unser Verständnis von bestimmten Fragestellungen verbessern kann. Nvidia liefert hier eine dezidierte Lösung, um solche Themen massiv zu beschleunigen.

Gaming wird für nvidia unwichtiger im Verhältnis zu anderen Themen (Car IT, DeepLear.). Diese Erkenntnisse aus dem R&D sind natürlich spiegelnd auch für Grafikkarten nutzbar, aber bei der technologischen Ausrichtung von Pascal, würde ich gar keine Rückschlüsse ziehen. Man hat sich deutlich für ein anderes Anwendungsgebiet entschieden.

Ich bin gespannt wer diese Monster kauft ... (außerhalb von Unis und ein paar IT Riesen).

Man könnte es auch anders formulieren. Pascal ist die Vorstufe zur kompletten Trennung von Gaming und HPC & Co. Mit Pascal werden wir vermutlich noch einen Mix sehen und keine 100%ig vollständige Separierung. Wenn es Nvidia aber schafft ihr Geschäft mit professionellen Kunden sowie Forschungsinstituten weiter zu steigern, dann sehen wir m.E. mit Volta eine komplette Trennung beider Bereiche. Dann macht Nvidia genügend Umsatz um für beide Welten dedizidierte Produkte zu liefern und das wird dann insbesondere für AMD extrem hart, weil die einfach Gefahr laufen, dass die Konkurrenz ihnen beim R&D Budget immer weiter enteilt.

y33H@

2016-04-07, 00:20:12

@ scully1234

Es gab für jeden Keynote-Teilnehmer einen GP100 als Schlüsselanhänger weil nur 5 der 90 Dies pro Wafer funktionieren :P

scully1234

2016-04-07, 00:24:17

@ scully1234

weil nur 5 der 90 Dies pro Wafer funktionieren :P

Dann wird das n kostspieliger Release :smile:

Nightspider

2016-04-07, 00:25:06

@ scully1234

Es gab für jeden Keynote-Teilnehmer einen GP100 als Schlüsselanhänger weil nur 5 der 90 Dies pro Wafer funktionieren :P

Mach mal ein pic davon! :)

Nakai

2016-04-07, 00:26:32

@ scully1234

Es gab für jeden Keynote-Teilnehmer einen GP100 als Schlüsselanhänger weil nur 5 der 90 Dies pro Wafer funktionieren :P

Im Ernst? ;D

Hübie

2016-04-07, 00:29:17

Nakai

2016-04-07, 01:00:52

Mehr als 256b GDDR5X sehen wir eh nicht. Die arme Platine.

Foobar2001

2016-04-07, 01:28:39

Also wäre Nvidias Implementierung Spec-getreu, wenn der Treiber bei Multi-Queue einfach crashen oder abbrechen würde?
Das wäre doch die logische Konsequenz daraus, wenn der Support nicht verpflichtend wäre.
Wenn der Treiber sagt es gibt nur eine Queue, dann crasht die App halt wenn sie mehr als eine erzeugen will. Ist bei Vulkan genau das selbe.

N0Thing

2016-04-07, 01:47:36

Leonidas

2016-04-07, 04:12:58

Nein GP104. Entsprechend der Bauteile sollte es das bekannte 37.5x37.5mm Package sein. Man hat es nur falsch auf 35x35 skaliert.

Bei einem 128 Bit Speicherinterface? GP104 mit beschnittenem Speicherinterface kann ich mir kaum vorstellen, dafür sind 256 Bit bei regulärem GDDR5 nun auch nicht gerade großzügig.

Ailuros

2016-04-07, 07:14:27

Im Ernst? ;D

Mich wuerde es nicht ueberraschen wenn es solche wafer tatsaechlich giebt, aber dass es im Durchschnitt nur 5 sind kann natuerlich sehr schwer der Fall sein. Um es auf eine realistischere Basis zu bringen, ich bezweifle dass sie momentan ueber der 30% wafer-yield Grenze liegen.

Ailuros

2016-04-07, 07:21:13

Einspruch: es ist schon soweit dass wir eine GPU für HPC haben. Jensen sagte zudem dass die all-in gegangen sind, weil die Bedürfnisse einfach sehr schnell wuchsen. 2-3 Mrd für die Entwicklung dieses Chips bzw. der Linie (Formulierung war interpretierbar) sprechen eine überdeutliche Sprache. Ich beschäftige mich übrigens gern mit solch aggressiven Strategien. :)

Wobei Jensen sehr wohl bekannt ist fuer seine wilden Uebertreibungen ueberhaupt wenn es zu Kosten kommt. Das Reinigungs-Personal der Gebaeude muss nicht unbedingt zum R&D mitgerechnet werden :P

Spass beiseite, sobald es klar wurde dass 20SoC nutzlos fuer perf/W ist und sie ihre roadmap umkrempeln mussten, nahmen sie einfach Anteile vom originalen Maxwell und Volta Konzept und bastelten so schnell wie moeglich Pascal zusammen. Weiss der Geier was er jetzt da alles in einen Topf geschmissen hat das sich ueber wieviele SKUs und Jahre bezieht..... :rolleyes:

@Ailuros: Ich liebe deine Wortspielchen X-D Wer immer noch an 384 Bit GDDR5X glaubt, kann ne Kirche aufmachen. :D

Ehrlich gefragt: waere HBM2 auf einem GP102 wirklich billiger als GDDR5X?

horn 12

2016-04-07, 07:33:03

HBM ist bündig eingebettet mit der GPU
Gefällt mir sehr gut, LuftKühler sollten es dabei einfacher haben, ebenso Wasserkühlungen.
Weitaus Besser und komfortabler gelöst als bei der Konkurrenz AMD

Hübie

2016-04-07, 07:43:25

Ich denke du meinst in dem Kontext die Kosten insgesamt, denn HBM2 ist pro GB nicht deutlich teurer als GDDR5X. Teuer wird dann dass mehr Firmen daran arbeiten (müssen) und die wollen auch ein Stück vom Kuchen.
Teuer im technischen Sinne: Flächen- und Energieersparnis stehen obigen, im Falle von HBM2, positiv entgegen. Daher bin ich auch noch unentschlossen was GP102 angeht. Was denkst du?

Edit: Meine obige Aussage bezog sich natürlich auf GP104, denn um diesen ging es ja. Nur um Verwirrung zu vermeiden.

Ailuros

2016-04-07, 08:09:24

GDDR5X war nicht meine Idee fuer einen moeglichen GP102 sondern Damien Triolet's.

GP104 wird IMHO 256bit GDDR5X sein; falls nur GDDR5 dann natuerlich eine ziemliche Enttsaeuschung.

y33H@

2016-04-07, 08:11:54

Damien kann durchaus Recht behalten, abhängig davon, wie viel Micron tatsächlich liefern kann bis Sommer bzw ab Sommer.

Ailuros

2016-04-07, 08:27:01

Der absolute Witz waere wenn ein hypothetischer GP102 auch noch 64 clusters haben sollte :P

fondness

2016-04-07, 08:42:54

Natuerlich ist es optional. Die Applikation fragt nach Queues und es ist voellig legal wenn der Treiber lediglich eine Queue hat die Graphics und Compute kann.

Mit dem Argument ist jedes Feature optional, denn man kann ALLES irgendwie bei Software emulieren.

Hübie

2016-04-07, 08:50:23

Man könnt ihr eure alberne Diskussion nicht woanders fort führen? Jegliches D3D12-Feature muss irgendwie umgesetzt werden, sonst ist das Label eine Lüge. Fertig. Maxwell hat 31 Graphics und 1 Compute Queue. Edit: umgekehrt

Leonidas

2016-04-07, 08:51:08

@ scully1234

Es gab für jeden Keynote-Teilnehmer einen GP100 als Schlüsselanhänger weil nur 5 der 90 Dies pro Wafer funktionieren :P

Im Ernst? ;D

Frage wurde nicht beantwortet. Gab es die wirklich als Anhänger? Und gab es wirklich die Aussage von 5/90?

Hübie

2016-04-07, 08:55:39

Nein, nicht wirklich. 5/90. Das ist risk Niveau. Nicht mal...

iuno

2016-04-07, 08:59:44

Maxwell hat 31 Graphics und 1 Compute Queue.
eher andersrum ;p

Ansonsten: y33H@ hat wieder einen offensichtlichen Witz gemacht und alle flippen aus? Warum passiert das jedes Mal?

Der erste Chip GP100 sei allerdings direkt auf HPC und Deep Learning zugeschnitten worden. "Aber auch Crysis läuft darauf sehr schnell", erklärte Alben
http://www.heise.de/newsticker/meldung/GTC-2016-Nvidia-Chefarchitekt-deutet-hohe-Gaming-Performance-von-Pascal-an-3163999.html
Normale GPU bestaetigt, Rasterizer wohl nur der Uebersicht halber raus gelassen

Der letzte Absatz ist interessant:
Unklar bleibt, ob ein GP100-Ableger auch für besonders leistungsfähige 4K- und VR-Gamer-Grafikkarten erscheinen wird. [...] Alben zufolge sei Double Precision nur für ganz bestimmte Märkte interessant, man habe deswegen zwei Umsetzungen.
Zwei Umsetzungen von GP100 (=>GP102)? Oder von Pascal?

Ailuros

2016-04-07, 09:00:24

Frage wurde nicht beantwortet. Gab es die wirklich als Anhänger? Und gab es wirklich die Aussage von 5/90?

Eine oeffentliche Aussage? Wohl nicht. Mag sein dass irgend jemand irgend etwas beim Kaffeeklatsch erwaehnt hat und weiss der Geier wie es dann weitergereicht wurde. Bei der ersten Tahiti 28HP TSMC Produktion gab es auch stellenweise wafer die nur 4 operative dies gaben.

Hübie

2016-04-07, 09:09:47

Zwei Umsetzungen von big chip, würde ich jetzt sagen. So interpretiere ich es in dem Zusammenhang.

@iuno: Ähm, ja 31 Compute, 1 Graphics :redface:

Ailuros

2016-04-07, 09:22:40

Zwei Umsetzungen von big chip, würde ich jetzt sagen. So interpretiere ich es in dem Zusammenhang.

Etwas anderes als eine alternative Umsetzung vom big chip erwarte ich von einem GP102 auch nicht.

Hübie

2016-04-07, 09:31:30

Dural

2016-04-07, 09:32:38

Oh ein Wunder ;) war doch schon immer klar.

Mit zwei Versionen verstehe ich aber nicht zwei GP100, sondern einfach die Gaming Ableger (GP102,GP104,GP106)

Ailuros

2016-04-07, 09:45:54

Na man könnte es jedoch auch so interpretieren dass es vom GP100 zwei Abzweigungen gibt. Das wäre aber aus vielerlei Hinsicht unnötig und unsinnig, daher gehe ich stark davon aus dass damit gemeint ist: Es gibt zwei Umsetzungen für Big-Pascal.

Es ist doch scheissegal ob mein Glas halbvoll oder halbleer ist. Anders ob ich jetzt behaupte dass ein GP102 ein abgespeckter GP100 ist oder ein aufgepumpter GP104, aendert genau was?

iuno

2016-04-07, 09:47:40

Oh ein Wunder ;) war doch schon immer klar.
Nein, es war (und ist) eben nicht klar, ob ein GP102 kommt.
Je nachdem, wie man die Aussage interpretiert, kann das hier entweder die Bestaetigung fuer genau diesen GP102 sein oder aber auch nur belangloses Gequatsche, wie dass es noch einen staerker beschnittenen GP100 gibt oder dass noch kleine Pascal Chips nachkommen.

Dural

2016-04-07, 09:50:36

Dies war nicht auf GP102 bezogen, sondern das wir zwei Pascal Versionen sehen werden, wie dies übrigens seit GT200 der fall ist.

Ob ein GP102 kommt hat er ja nicht direkt bestätigt, aber die Wahrscheinlichkeit ist doch sehr hoch.

Hübie

2016-04-07, 10:06:56

Was gibt es seit GT200?:| Du meinst ein paar SMD-Bauteile und ein anderes BIOS machen einen neuen Chip? Oder reden wir aneinander vorbei?
@Ailuros: Da rede ich nicht mal von GP104. Noch mal: obige Aussage kann heißen: "Wir haben zwei GP100-Varianten. 1 im DGX-1 und der andere Chip ist GP102 (destillierter GP100)" oder aber "3 insgesamt. Einer für DGX-1 (und Derivate) und zwei für die jeweils anderen Märkte, als Steckkarte." Letzteres wird nur nicht passieren.

Nakai

2016-04-07, 10:10:36

Hübie

2016-04-07, 10:13:25

Dural

2016-04-07, 10:47:24

also ich habe ja mehr die Vermutung das sie bei 128 bleiben.

so oder so, NV hat mit Pascal ziemlich viel Geld eingesetzt, erst recht wenn man bedenkt das die in zwei Jahren Volta ausliefern wollen.

Edit:
Was kostet eigentlich eine P100 Tesla? Das ding muss unheimlich teuer sein.

Hübie

2016-04-07, 11:02:14

Also das komplette Rack kostet 129.000 $. 6000 $ für die CPUs abziehen. 5000 $ für das drum herum. Sagen wir 118.000 macht ~15.000 $ für ein Modul. Alles Retail(!). Wenn du grob rechnest (kenne die Preis-Absatz-Funktion ja nicht). Dann könntest du auf Gesamtkosten von vielleicht 7000 $ kommen (da ist R&D, ROI etc. mit drin). Herstellung dürften bei nicht mal 1000 sein. Keine Ahnung wie die yields sind oder was so ein Wafer kostet. Also alles sehr grob eingeordnet. :D

scully1234

2016-04-07, 11:07:18

GP100 ist reinher von den Specs keine gute Gamerkarte. .

Wohl wahr ,wenn die kleinen Zwerge vergessen haben, die Rasterengine ranzuschrauben:smile:

Ich find den Gedanken ,vom dedizierten Gamerchip, sowieso extra ordinaer:biggrin:

Nakai

2016-04-07, 11:26:57

Eine Sache noch:
Für DeepLearning braucht man Unmengen an Load-Kapazitäten. Die Load-Kapazitäten ~ Ausführungs-Kapazitäten. GPUs haben eine nicht sehr breite Anbndung an den Speicher, um Verhältnis zu der SP-Anzahl. Das war bestimmt einer der Gründe die SMs nochmal zu halbieren, um dadurch zwei getrennte Caches zu haben. Womöglich wurde nochmal die Bandbreite extra verdoppelt. Wie die einzelnen SMs bzw die L1-Caches nochmal an der Crossbar angeschlossen sind, wissen wir ja nicht.

scully1234

2016-04-07, 12:04:05

Godmode

2016-04-07, 12:17:10

Ich rechne auf mit 64x64 ALUs. Frage ist dann nur wie fett die crossbar / der Interconnect werden muss. Oder man bleibt beim Ansatz 128 ALUs pro SMP..? :| Ne neue Maske bräuchte es eh zur Belichtung.

Klingt ganz gut. Mit 1,5 GHz wäre man damit bei 64*64*2*1,5 = 12,28 TFLop/s FP32 was dann 75% mehr gegenüber einen normalen Titan X entsprechen würde.

MiamiNice

2016-04-07, 12:28:34

Hat denn schonmal einer ueberlegt ,warum Nvidia ausgerechnet im Juni ,nach der Computex ,Iray VR released? Kommt da vielleicht ein grosser Quadro Chip angerollt, der die Leistungsbeduerfnisse von VR stillen kann......und im Gepaeck dann doch noch ein Titan Brand

Sollte das so kommen, kaufe ich meine erste Titan.
Ich sende mal ein Stoßgebet zum großen HW Gott und hoffe :biggrin:

scully1234

2016-04-07, 12:38:52

Zumindestens auffaellig ists schon das man diesen Zeitpunkt waehlt, fuer eine Software die entsprechend potente Hardware einfordert

@Papa Schlumpf Jensen
Hier ist unsere Software.... und apropos wir haben da auch das passende Implantat,fuer euch kleine und mittelstaendische Unternehmen

PHuV

2016-04-07, 12:57:30

Klingt ganz gut. Mit 1,5 GHz wäre man damit bei 64*64*2*1,5 = 12,28 TFLop/s FP32 was dann 75% mehr gegenüber einen normalen Titan X entsprechen würde.
Da schätzt Du aber sehr optimistisch. :rolleyes: Ich würde mal vermuten (anhand der Beobachtungen über die Jahre), daß höchsten 20-30% Mehrleistung im Consumerbereich bleibt. Der letzte richtige Performance-Boost bei einer nachfolgende Generation war mit der 8800 GTX, alles was danach immer generationsweise folgte, war immer im genannten Rahmen. Der Chip wird vermutlich in dieser Größe auch so nicht bei den Consumerboards landen, das ist in der Preislage nicht weder wirtschaftlich noch produktionstechnisch für Nvidia sinnvoll.

Godmode

2016-04-07, 13:02:54

Da schätzt Du aber sehr optimistisch. :rolleyes: Ich würde mal vermuten (anhand der Beobachtungen über die Jahre), daß höchsten 20-30% Mehrleistung im Consumerbereich bleibt. Der letzte richtige Performance-Boost bei einer nachfolgende Generation war mit der 8800 GTX, alles was danach immer generationsweise folgte, war immer im genannten Rahmen. Der Chip wird vermutlich in dieser Größe auch so nicht bei den Consumerboards landen, das ist in der Preislage nicht weder wirtschaftlich noch produktionstechnisch für Nvidia sinnvoll.

GF100->GK110->GM200 war deutlich mehr als nur 30%. Meine Schätzung bezog sich außerdem auf GP102 und nicht GP104.

Nakai

2016-04-07, 13:14:45

Gp106 auf Drive PX2 mit 128bit SI und 5Ghz Gddr5. Falls Gddr5x wird es nicht viel mehr als 1500 SPs.

Troyan

2016-04-07, 13:15:01

Computerbase hat ein besseres Bild von PX2: http://www.computerbase.de/2016-04/nvidia-drive-px-2-kleine-pascal-gpus-mit-128-bit-und-4-gb-gddr5/

PHuV

2016-04-07, 13:17:53

GF100->GK110->GM200 war deutlich mehr als nur 30%.
Wo? Vielleicht theoretisch, aber doch zu keinem Zeitpunkt praktisch! Oder habe ich etwa einen Knick in der Optik, wenn ich die Benchmarks so vergleiche, z.B. 680->780->980?

http://www.hardwareluxx.de/index.php/artikel/hardware/grafikkarten/32753-geforce-gtx-980-im-taktvergleich-mit-der-geforce-gtx-780-ti.html
http://gpuboss.com/gpus/GeForce-GTX-980-vs-GeForce-GTX-680

Wo sehe siehst Du da mehr als 30%? :confused: Wie gesagt, Du hat hier reines Wunschdenken.

maximus_hertus

2016-04-07, 13:37:28

Godmode

2016-04-07, 13:46:08

Wo? Vielleicht theoretisch, aber doch zu keinem Zeitpunkt praktisch! Oder habe ich etwa einen Knick in der Optik, wenn ich die Benchmarks so vergleiche, z.B. 680->780->980?

http://www.hardwareluxx.de/index.php/artikel/hardware/grafikkarten/32753-geforce-gtx-980-im-taktvergleich-mit-der-geforce-gtx-780-ti.html
http://gpuboss.com/gpus/GeForce-GTX-980-vs-GeForce-GTX-680

Wo sehe siehst Du da mehr als 30%? :confused: Wie gesagt, Du hat hier reines Wunschdenken.

Wenn du einfach nur die x80 Chips vergleichst, hast du recht. Ich betrachte aber ein Leistungssegment - in diesem Fall Enthusiast - in den verschiedenen Generationen:

Generation: Fermi -> Kepler -> Mawell -> Pascal.
Leistungsklasse Enthusiast: GF110 -> GK110 -> GM200 -> GP102 60-70% im Schnitt
Lustungsklasse Highend: GF104 -> GK104 -> GM204 -> GP104 60-70% im Schnitt

Du vergleichst alle x80er Karten, er nur die Big Chips, also GTX 480/580 => 780 Ti => 980 Ti

Danke.

iuno

2016-04-07, 13:50:20

Eine laufende Demo mit dem PX2 gab es aber nicht oder?
GP106 sollte doch auch 'bald' kommen und vermutlich mit Polaris 10 konkurrieren und GM204 abloesen (GP104 sehe ich da jedenfalls nicht). Vielleicht bekommt das Ding ja als GeForce GTX ziemlich abartigen Takt spendiert, wenn der so klein ist. Base clock um 1,4? :confused:

Sunrise

2016-04-07, 14:19:44

GP100 ist reinher von den Specs keine gute Gamerkarte. Zu hoher Energieverbrauch, zu groß, zuviel Ballast, etc

Außerdem hat GP100 nur 25% mehr Einheiten gegenüber GM200. Eher wird GM200 als GP102 übernommen und nur geshrinkt.
Das Ding ist - wie schon erwähnt - bei der Herstellung VIEL zu teuer für das, was für Gamer hinten raus kommt. Wäre die Herstellung DEUTLICH günstiger, wäre auch vollkommen irrelevant, dass GP100 nur an die 30-x% schneller ist.

Es kommt immer auf die Relationen an, gerade bei so einem Monster auf einem neuen Prozess, mehreren neuen Technologien und vor allem dem Invest, der von NV da wohl hauptsächlich in mehrere Architekturen, bzw. eine Grundarchitektur mit starker Modifikation für GP100 (und Tegra, der von unten nach oben skalieren wird) geflossen ist.

Am Ende wird eben AMD evtl. wieder derjenige IHV sein, der billigere Grafikkarten bauen kann, weil bereits Fiji zeigt, dass man hier bei den Endpreisen sehr gut im Consumer-Bereich mitspielen kann. Bei GP102 hängt es jetzt von der genauen Konfiguration ab, GP104 wird aber wieder maximal um die 200mm² haben, bzw. nicht über 250mm² gehen, da bin ich mir recht sicher. Jedenfalls alles besser als ein Design, dass praktisch wohl im sehr hohen dreistelligen Bereich, bzw. sogar vierstelligen Bereich liegt, wo NV nicht unter $2000 gehen kann.

Das ist auch mitunter einer der Gründe, warum AMD mit Navi kleinere Dies möchte. Denn die Interposer wird es bald so oder so geben, aber die Dies bei immer neuen Prozessen so groß zu machen schließt einen automatisch von gewissen Märkten aus.

Was lernen wir daraus? Es geht immer nur ums Geld.

Mancko

2016-04-07, 14:32:24

Am Ende wird eben AMD evtl. wieder derjenige IHV sein, der billigere Grafikkarten bauen kann, weil bereits Fiji zeigt, dass man hier bei den Endpreisen sehr gut im Consumer-Bereich mitspielen kann.

Dir ist aber schon klar, dass AMD keine schwarzen Zahlen abliefert. "Billige" Grafikkarten bei AMD sind eine Notwendigkeit derzeit aber ganz sicher nicht ein Indikator für günstige Bauweise. Da sagen deren Zahlen seit vielen Quartalen definitiv etwas anderes, und das auch dann wenn man die CPU Sparte aussen vor lässt.

scully1234

2016-04-07, 14:42:16

Damit ist alles gesagt,es werden wohl dedizierte Chips werden ,lecker :P

Also nochmal ein Maxwell auf Steroid, fuer Gamer, ohne HPC Ballast

@Jonah Alben
Wie können wir HPC-Spezialisten, Entwickler autonomer Fahrzeuge und Gamer glücklich machen? Wir mussten dafür die richtige Balance im Core-Design finden." Der erste Chip GP100 sei allerdings direkt auf HPC und Deep Learning zugeschnitten worden (http://www.heise.de/newsticker/meldung/GTC-2016-Nvidia-Chefarchitekt-deutet-hohe-Gaming-Performance-von-Pascal-an-3163999.html)

dildo4u

2016-04-07, 14:47:27

War doch vollkommen klar keine Consumer GPU wird NVLink haben.

Sunrise

2016-04-07, 14:49:12

Dir ist aber schon klar, dass AMD keine schwarzen Zahlen abliefert. "Billige" Grafikkarten bei AMD sind eine Notwendigkeit derzeit aber ganz sicher nicht ein Indikator für günstige Bauweise. Da sagen deren Zahlen seit vielen Quartalen definitiv etwas anderes, und das auch dann wenn man die CPU Sparte aussen vor lässt.
Nein, das ist mir erst seitdem klar, seitdem du fast jeden Tag die gleiche Leier postest. :rolleyes:

Im Ernst, das war seit es AMD gibt noch nicht anders, weil es immer Intel und NV gab, die auch Druck gemacht haben (auch illegal) und AMDs Strategie einfach teilweise in eine Sackgasse läuft. Das ging bei Grafikkarten aber bisher gut, das "Problem" ist aber der Mix bei AMD, dass das Hauptgeschäft schon fast zum Nebengeschäft wurde, weil jeder bei AMD mit guten Preisen rechnet aber bei CPUs keiner zu Intel vergleichbaren Leistung, was sich auch auf deren Consumerverhalten bei GPUs überträgt (möglichst billig, reicht für das meiste aus).

Aber um mal komplett zur Ernsthaftigkeit der Realität zurück zu kommen:

AMD wird mit Polaris Preis/Leistung liefern müssen, denn NV hat mehr von allem und kann das mindestens genauso gut. AMD muss sich permanent mit weniger Barmitteln beweisen, das ist fernab von deinen Feststellungen in dieser Position nichtmal so aus dem Ärmel zu schütteln. Da müsste man mehrere volle Töpfe und vor allem leere Gläser haben, um das umzustellen. Aktuell sieht es gut aus, wenn AMD früher liefern kann, denn das entscheidet über die OEM- und weitere Verträge für die naheliegende Zukunft.

Von NV wiederum habe ich noch keinen GP104 oder GP102 gesehen, du etwa? Der Unterscheid ist, NV kann es sich teilweise leisten, AMD eben nicht (später zu kommen). Aber auch das ist aktuell unsicher, denn nur weil AMD öffentlich viel über Polaris redet, wissen wir nicht automatisch, wie weit NV ist. Man könnte es anhand der Zauba-Einträge aber zumindest erahnen.

Dural

2016-04-07, 14:51:50

Wenn schon GP106 ca. 250mm2 gross ist, könnte GP104 wirklich schon was mit 350mm2 haben. GP102 dann mit 500mm2.

scully1234

2016-04-07, 14:52:09

War doch vollkommen klar keine Consumer GPU wird NVLink haben.

Aber sicher auch nicht unbedingt ne einfache Entscheidung, einen Chip speziell nur fuer einen Zweck zu bauen, ist finanziell mindestens heikel:smile:

Aber vielleicht haben sie ja wirklich so viele Interessenten dafuer, das sich da die Produktionsstrassen ausgehen

Sunrise

2016-04-07, 15:07:37

Aber sicher auch nicht unbedingt ne einfache Entscheidung, einen Chip speziell nur fuer einen Zweck zu bauen, ist finanziell mindestens heikel:smile:

Aber vielleicht haben sie ja wirklich so viele Interessenten dafuer, das sich da die Produktionsstrassen ausgehen
Wenn du wie NV die besten Grafikkarten bauen willst, dann ist das eine einfache Entscheidung, wenn du Intel im HPC schlagen musst und auch die anderen Märkte bedienen. Die Investitionen in R&D kann NV vergrößern, weil NV sehr hohe Margen seit einiger Zeit fahren kann und somit ist das Risiko nicht größer als sonst, mit aber deutlich mehr Chancen noch mehr an Traktion zu gewinnen. Ob du jetzt $500 Millionen oder $1 Billione Dollar mehr für HPC investierst, kommt dir über die Jahre auf jedenfall zu Gute. Man muss eben auch etwas wagen und nicht immer nur auf die Nachteile schauen.

Mal abseits einiger Missgeschicke bei Tegra sind die Barmittel bei NV immer in die richtigen Entscheidungen geflossen. Ansonsten wäre man nicht da, wo man heute ist. Denn über ihre Tegra-Fehlschläge können sie lachen, wenn sie dann in allen Großrechner-Systemen mit ihren extrem teuren HW- und Software-Lösungen (ihr Ökosystem) erstmal drinnen sind. Sowas wird nicht einfach so umgestellt.

Godmode

2016-04-07, 15:26:48

War doch vollkommen klar keine Consumer GPU wird NVLink haben.

Das ist noch nicht bestätigt. Für ein Dual-GPU Board wäre auch ein einzelner NVLINK schon ganz nett. Bei den kleineren Chips - also alles unter GP102 -glaube ich auch nicht an NVLINK. Für GP102 könnte ich mir aber durchaus 1-2 NVLINKS vorstellen.

Schaffe89

2016-04-07, 15:31:47

Ja dass dir der Arsch auf Grundeis geht hatte ich mir schon gedacht ;D

Weswegen? Ich schiele auf die Spieleperformance und nicht auf die DP Performance und da ist die besagte Steigerung mit diesem hohen Takt und 50 Watt mehr TDP enttäuschend, oder findest du das für 16nm FF angemessen?
Also ich persönlich nicht so ganz.

Nvidia hat sich hier offenbar auf einen reinen HPC Chip mit 1:2 DP Rate konzentiert und selbst hier hätte ich >4096 Shader erwartet.

Duplex

2016-04-07, 15:51:05

Der Top Dog Gamer Chip in 14nm wird garantiert 80-100% schneller als die GTX980 Ti.

@Schaffe89
Nvidia ist und bleibt besser als AMD im GPU Segment.

captain_drink

2016-04-07, 16:14:09

Weswegen? Ich schiele auf die Spieleperformance und nicht auf die DP Performance und da ist die besagte Steigerung mit diesem hohen Takt und 50 Watt mehr TDP enttäuschend, oder findest du das für 16nm FF angemessen?

Und die Spieleperformance beurteilst du mangels Benchmarks anhand der geprüften Methode des Kaffeesatzlesens?
Muss dieses Agenda-Getrolle wirklich sein?

iuno

2016-04-07, 16:16:17

Für ein Dual-GPU Board wäre auch ein einzelner NVLINK schon ganz nett. Bei den kleineren Chips - also alles unter GP102 -glaube ich auch nicht an NVLINK. Für GP102 könnte ich mir aber durchaus 1-2 NVLINKS vorstellen.
Ja, alleine 1 NVLink bringt ja schon bidirektional 20 GiB, iirc hat PCIe3.0x16 knapp 16 GiB/s, also waere das schon eine ordentliche Steigerung.
Zumal auch ein GP102 (ohne FP64) speziell fuer deep learning ja noch besser waere als GP100 da weniger Ballast, einige hier spekulieren ja sogar mit mehr FP32 Units ggue. GP100?
Da ist imho schon noch einiges offen

dildo4u

2016-04-07, 16:19:44

Dural

2016-04-07, 16:21:41

Zudem GP100 wahrscheinlich schon mal 50% schneller als GM200 ist, der (fast) komplett ohne DP und NVLink daher kommt.

Der hohe Takt und die Grösse kosten halt auch etwas, und da sollten 300Watt vertretbar sein.

Interessant ist ja auch das der HBM Speicher nicht voll läuft, ich vermute mal das NV hier wegen dem Verbrauch etwas getrosselt hat.

So von wegen Effizienz Wunder HBM ;)

N0Thing

2016-04-07, 16:24:46

So von wegen Effizienz Wunder HBM ;)

Die Effizienz von HBM sieht im Vergleich sicher nicht so schlecht aus, wenn man mit GDDR auf die gleiche Bandbreite kommen will.

iuno

2016-04-07, 16:27:49

Interessant ist ja auch das der HBM Speicher nicht voll läuft, ich vermute mal das NV hier wegen dem Verbrauch etwas getrosselt hat.

So von wegen Effizienz Wunder HBM
Immer derselbe Unsinn. "So viel zum Effizienzwunder 16 FF+" ... Kannst ja mal ausrechnen, wie du mit GDDR5 hin kommst
Warum soll man den Takt komplett ausfahren, wenn die Bandbreite gar nicht benoetigt wird? Zumal das alles frueh am Markt ist, da koennen die Stacks aber im Uebrigen auch die MCs selbst noch Probleme haben :rolleyes:
Ist aber alles kein Grund zur Panik, weil die Bandbreite trotzdem etwa linear mit der Rohleistung steigt, zudem sind die Caches und Register auch noch deutlich groesser.

y33H@

2016-04-07, 16:29:27

Gab es die wirklich als Anhänger? Und gab es wirklich die Aussage von 5/90?Nein und nein.

aufkrawall

2016-04-07, 16:33:17

Damit ist alles gesagt,es werden wohl dedizierte Chips werden ,lecker :P

Also nochmal ein Maxwell auf Steroid, fuer Gamer, ohne HPC Ballast
Warum les ich das da nicht?

Ailuros

2016-04-07, 16:41:06

Ja, alleine 1 NVLink bringt ja schon bidirektional 20 GiB, iirc hat PCIe3.0x16 knapp 16 GiB/s, also waere das schon eine ordentliche Steigerung.
Zumal auch ein GP102 (ohne FP64) speziell fuer deep learning ja noch besser waere als GP100 da weniger Ballast, einige hier spekulieren ja sogar mit mehr FP32 Units ggue. GP100?
Da ist imho schon noch einiges offen

Also falls Du meinen 64*64 Scherz meinen solltest, es war offensichtlich nicht Ernst gemeint. Man liest schon heute in anderen fora dass Pascal eine GCN Kopie sein soll wegen den 64SPs/cluster (ja daemlicher geht's ueberhaupt nicht...), nun stell Dir vor wie der Kessel kochen wird wenn ein GP102 auch noch 4096SPs haben sollte *grunz* :freak:

fondness

2016-04-07, 16:43:47

AMD wird mit Polaris Preis/Leistung liefern müssen, denn NV hat mehr von allem und kann das mindestens genauso gut.

Was genau?

Ailuros

2016-04-07, 16:47:04

Weswegen? Ich schiele auf die Spieleperformance und nicht auf die DP Performance und da ist die besagte Steigerung mit diesem hohen Takt und 50 Watt mehr TDP enttäuschend, oder findest du das für 16nm FF angemessen?
Also ich persönlich nicht so ganz.

Nvidia hat sich hier offenbar auf einen reinen HPC Chip mit 1:2 DP Rate konzentiert und selbst hier hätte ich >4096 Shader erwartet.

....und mit den Dingern werden sie auch fett Moneten schaufeln koennen. Wer's besser kann soll's nachmachen. Sonst sind $129k Kisten die momentan damit verkauft offensichtlich nichts fuer uns normal Sterblichen.

Sonst laesst sich keine Echtzeit-Effizienz eines chips von einem specsheet ablesen.

Was genau?

Was hat denn Polaris so tolles Deiner Meinung nach ausser der wagen 2.5x Mal mehr perf/W Marketing-Behauptung bis jetzt. Es reicht eigentlich wenn NV im Bereich perf/W in etwa im gleichen Bereich landet um sich mehr oder weniger da zu erhalten wo sie heute stehen. Im Gegenfall steigt endlich AMD's Markanteil aber es werden sich immer noch keine Kontinente damit bewegen. Wenn AMD wirklich die resources haette einen wirklich fetten Tritt in den Hintern den Gruenen zu verpassen koennten wir ja weiterjareden. Sonst bleibt es beim ueblichen "oh ja wie schoen ich kauf mir trotzdem ne Gforce" fuer die meisten.

P100 ist ein weiterer Schritt von NV ihren ziemlich guten Vorsprung in Profi-Maerkten zu erhalten und wenn moeglich zu steigern. Von AMD 's Seite ist es es momentan eher put up or shut up.

Blediator16

2016-04-07, 16:47:24

Was genau?

Mehr und bessere PR

M4xw0lf

2016-04-07, 16:48:09

@Schaffe89
Nvidia ist und bleibt besser als AMD im GPU Segment.
Was aber an den GPUs selbst eigentlich als letztes liegt. :uponder:

scully1234

2016-04-07, 17:02:36

Nein und nein.

Offensichtlich must du humoristische Bemerkungen besser kennzeichnen :smile:

scully1234

2016-04-07, 17:23:17

Ist aber alles kein Grund zur Panik, weil die Bandbreite trotzdem etwa linear mit der Rohleistung steigt, zudem sind die Caches und Register auch noch deutlich groesser.

Ich frag mich sowieso ,warum alles abseits der professionellen bandbreitenintensiven Bereiche, so erpicht sein sollte auf stacked Ram

Eine Titan X@1.5GHZ kann noch ganz gut mit ''antiquierten'' GDDR 5 dealen, ohne all zu sehr am Bandbreitenzopf zu haengen.

Warum sollte das zumindestens fuer den GP104 eine all zu grosse Huerde sein, der sich wohl summa summarum im selben Leistungsspektrum bewegen wird

Mal angenommen es kommt dann noch ein abgespeckter GP100 alias GP102, dann hat man fuer den ja allemal noch die GDDR5 X Option

Complicated

2016-04-07, 17:25:41

Ja, alleine 1 NVLink bringt ja schon bidirektional 20 GiB, iirc hat PCIe3.0x16 knapp 16 GiB/s, also waere das schon eine ordentliche Steigerung.Nur was soll es bringen im Gaming-PC? Der PCIe wird immer weniger belastet durch immer bessere Kompression. Selbst 16xPCIe 2.0 ist noch kein Nadelöhr mit 16 GiB/s. Zumal es keine x86-CPUs gibt die NVlink unterstützen. Und danach zu urteilen, dass Intel Nvidia die Lizenzen für DMI 4xPCIe nicht gewährt hat seit dem Lynnfield 2009, ist es schwer vorstellbar, dass Intel jemals eine Nvidia Schnittstelle akzeptieren wird. Auch bei HPC schwer vorstellbar. Bei PCIe 3.0 sind es 32 GiB/s bei 16x
Hier ein Test bei CB: http://www.computerbase.de/2013-01/bericht-pcie-3.0-vs-pcie-2.0/#abschnitt_pcie_30_im_ueberblick

Ailuros

2016-04-07, 17:36:10

Mal angenommen es kommt dann noch ein abgespeckter GP100 alias GP102, dann hat man fuer den ja allemal noch die GDDR5 X Option

Bei einem hypothetiscfhen 384bit bus + GDDR5X reichen dann auch 12GB Speicher aus.

Hübie

2016-04-07, 17:36:39

Ich bin mir sicher dass du es falsch verstanden hast. War mir auch neu dass du jetzt bei AMD die Fahnen wehen musst. :rolleyes:

Godmode

2016-04-07, 17:38:11

Nur was soll es bringen im Gaming-PC? Der PCIe wird immer weniger belastet durch immer bessere Kompression. Selbst 16xPCIe 2.0 ist noch kein Nadelöhr mit 16 GiB/s. Zumal es keine x86-CPUs gibt die NVlink unterstützen. Und danach zu urteilen, dass Intel Nvidia die Lizenzen für DMI 4xPCIe nicht gewährt hat seit dem Lynnfield 2009, ist es schwer vorstellbar, dass Intel jemals eine Nvidia Schnittstelle akzeptieren wird. Auch bei HPC schwer vorstellbar. Bei PCIe 3.0 sind es 32 GiB/s bei 16x
Hier ein Test bei CB: http://www.computerbase.de/2013-01/bericht-pcie-3.0-vs-pcie-2.0/#abschnitt_pcie_30_im_ueberblick

Es geht darum, dass man zwei GPUs auf einem Board mit 80 GB/s verbinden könnte. Das ist zwar immer noch wenig, verglichen mit der Bandbreite zum VRAM, aber trotzdem deutlich besser, als das was jetzt verfügbar ist.

scully1234

2016-04-07, 17:40:20

Bei einem hypothetiscfhen 384bit bus + GDDR5X reichen dann auch 12GB Speicher aus.

Eben:smile:

Auch CT schreibt da irgendwie negativ

dass Spielerkarten nur mit GDDR5/X-Speicher erscheinen werden

Godmode

2016-04-07, 17:48:28

Es ist doch ganz einfach:

a.) Wieviel Bandbreite brauche ich, um den Chip nicht zu bremsen?
b.) Mit welchem Speichertyp erreiche ich das möglichst kosten- und energieeffizient?

Hübie

2016-04-07, 17:50:33

Die Antwort kennen wir ;) GP104->256 Bit GDDR5(X); GP102->384 Bit GDDR5X. So sieht die Projektion wirtschaftlich genug aus.

Beim 104er bin ich noch unschlüssig. Obwohl ich mir ziemlich sicher bin dass die auch X verwenden. Speicher ist schnell hergestellt und wenn der erst mal vom Band läuft, wird der verpackt, verschickt und direkt verlötet. Kein packaging, validating etc. Der Test geht schnell und die yields dürften nicht unterirdisch sein. Vom Kostenfaktor... Schätze mal GDDR5 + 20%.

scully1234

2016-04-07, 17:53:32

Oder GP104 breiter und GDDR5 um die GDDR5 X Durststrecke zu ueberbruecken

Sunrise

2016-04-07, 17:53:58

Was genau?
Moneten (was alleine noch nicht viel heißt) und vor allem (wie Ailuros schon schrieb) Effizienz (die AMD erstmal erreichen muss), usw. - NV legt hier die Messlatte vor. Von AMD kommen bisher keine klaren Fakten, nur Behauptungen. Die gezeigten Demos waren allesamt nicht aussagekräftig genug.

fondness

2016-04-07, 17:56:32

Moneten (was alleine noch nicht viel heißt) und vor allem (wie Ailuros schon schrieb) Effizienz (die AMD erstmal erreichen muss), usw. - NV legt hier die Messlatte vor. Von AMD kommen bisher keine klaren Fakten, nur Behauptungen. Die gezeigten Demos waren allesamt nicht aussagekräftig genug.

Die Aussage 2.5x Perf/Watt ist ziemlich klar IMO, aber okay das ist hier OT. Beim bisher vorgestellten Pascal hat sich da im für Spiele relevantem FP32-Bereich erstaunlich wenig getan, mal sehen wie es bei Gaming-Chips aussehen wird.

AnarchX

2016-04-07, 17:56:52

Computerbase hat ein besseres Bild von PX2: http://www.computerbase.de/2016-04/nvidia-drive-px-2-kleine-pascal-gpus-mit-128-bit-und-4-gb-gddr5/
Luxx noch bessere: http://www.hardwareluxx.de/index.php/news/hardware/grafikkarten/38729-gtc-2016-drive-px-2-modul-mit-pascal-gpu-und-samsung-gddr5-speicher.html
A1 Chips aus der 13. Woche 2016. Die Kennung gab es nicht bei Zauba.

Der Chip ist mir nach wie vor zu groß für GP106. Dieser könnte diesmal eher unter 200mm² ausfallen, da GP107 ja der kleinste Pascal sein könnte.

Ailuros

2016-04-07, 17:59:43

Die Aussage 2.5x Perf/Watt ist ziemlich klar IMO, aber okay das ist hier OT. Beim bisher vorgestellten Pascal hat sich da im für Spiele relevantem FP32-Bereich erstaunlich wenig getan, mal sehen wie es bei Gaming-Chips aussehen wird.

Das dumme ist eben dass diese Aussage genauso viel wert ist wie das specsheet vom P100 wenn es zur realen 3D Leistung kommt. Beides ist nicht gut genug um vorzeitige Schlussfolgerungen zu ziehen ueber noch total unbekannte SKUs von beiden Seiten.

Luxx noch bessere: http://www.hardwareluxx.de/index.php/news/hardware/grafikkarten/38729-gtc-2016-drive-px-2-modul-mit-pascal-gpu-und-samsung-gddr5-speicher.html
A1 Chips aus der 13. Woche 2016. Die Kennung gab es nicht bei Zauba.

Der Chip ist mir nach wie vor zu groß für GP106. Dieser könnte diesmal eher unter 200mm² ausfallen, da GP107 ja der kleinste Pascal sein könnte.

Sag bloss nicht dass Ihr die chip Groesse von solchen schraegen Photos abschaetzt..... :eek:

Sunrise

2016-04-07, 18:09:46

Die Aussage 2.5x Perf/Watt ist ziemlich klar IMO, aber okay das ist hier OT. Beim bisher vorgestellten Pascal hat sich da im für Spiele relevantem FP32-Bereich erstaunlich wenig getan, mal sehen wie es bei Gaming-Chips aussehen wird.
Erstens ist die 2.5X-Aussage absolut nicht anhand von öffentlich zugänglichen Realwerten belegt bisher (meines Wissens), noch ist GP100 das was NV auffahren kann, wenn sie eine Gaming-GPU bauen, weil GP100 nicht mit dem Hintergrund der absoluten Gaming-Performance entworfen wurde. Die Architektur-Effizienz leidet bei GP100 automatisch dadurch, dass das Teil wohl sehr stark auf sustained FP64, FP32 und FP16 ausgelegt wurde, deshalb auch die riesigen Register, Caches und Bandbreite, und mal davon ab, dass der HPC-Kram wohl nochmal ordentlich reinhaut.

Einen auf FP32 ausgelegten Chip, mit dem Ziel für Gaming an der Spitze zu sein, und ohne den anderen HPC-Schnickschnack, aber auch >500mm² Die kann locker >5000 ALUs unterbringen, bei auch sehr hohem Takt (siehe GP100) und Boost (siehe GP100).

Das Problem an der Geschichte ist lediglich, dass dieses Ding wohl dann auch wieder in Relation zum 28nm-Lineup noch viel zu teuer wäre. Deshalb wird NV wohl erst damit kommen, wenn AMD etwas bringt, damit die Margen der derzeitigen Produkte nicht leiden, denn eine bessere Situation mit 28nm-Produkten >AMD gibt es für NV nicht.

Dafür sollte aber zumindest GP104 als "Appetizer" dienen.

Troyan

2016-04-07, 18:10:35

Computerbase hat doch heute erst eine 75W GTX950 getestet:http://www.computerbase.de/2016-04/asus-geforce-gtx-950-2g-test/2/#diagramm-anno-2205-1920-1080
In Anno sind es 15% weniger Leistung bei fast 30% weniger Verbrauch gegenüber einer "normalen" GTX950. Der Vergleich von AMD war und ist einfach nur sinnbefreit.

Luxx noch bessere: http://www.hardwareluxx.de/index.php/news/hardware/grafikkarten/38729-gtc-2016-drive-px-2-modul-mit-pascal-gpu-und-samsung-gddr5-speicher.html
A1 Chips aus der 13. Woche 2016. Die Kennung gab es nicht bei Zauba.

Der Chip ist mir nach wie vor zu groß für GP106. Dieser könnte diesmal eher unter 200mm² ausfallen, da GP107 ja der kleinste Pascal sein könnte.

Er sieht (deutlich) kleiner aus als GK104. Und mit 256bit wären ~250mm^2 in der Nähe von G94.
GM206 ist doch auch 22xmm^2 und somit kaum kleiner...

AnarchX

2016-04-07, 18:17:22

Er sieht (deutlich) kleiner aus als GK104. Und mit 256bit wären ~250mm^2 in der Nähe von G94.
G206 ist doch auch 22xmm^2 und somit kaum kleiner...
Das GP104 kleiner als GK104 sein könnte, ist schon vom Package vermutbar. 37.5x37.5mm statt den 40x40 bei GK104/GM204.
Nur 250mm² wäre da halt an der unteren Grenze, aber mit 1,4GHz Basis-Takt und 8GiB GDDR5X stellt man da wohl auch eine brauchbare ~$499 Karte auf die Beine.

ShinyMcShine

2016-04-07, 18:20:35

Nur 250mm² wäre da halt an der unteren Grenze, aber mit 1,4GHz Basis-Takt und 8GiB GDDR5X stellt man da wohl auch eine brauchbare ~$499 Karte auf die Beine.
+1
Ist gekauft! :tongue:

Ailuros

2016-04-07, 18:38:36

Das GP104 kleiner als GK104 sein könnte, ist schon vom Package vermutbar. 37.5x37.5mm statt den 40x40 bei GK104/GM204.
Nur 250mm² wäre da halt an der unteren Grenze, aber mit 1,4GHz Basis-Takt und 8GiB GDDR5X stellt man da wohl auch eine brauchbare ~$499 Karte auf die Beine.

Ich fragte gerade nochmal bei B3D ob man daran denken koennte dass GP104 und co. vielleicht eine groessere Packdichte haben und dafuer niedrigere Frequenzen als P100. Es gibt hier keinen Drang irgendwelche verrueckte DP/W zu erreichen und die Konzentration sollte eher auf dem kleinstmoeglichen Verbrauch liegen.

250mm2 klingt aber meinem Bauchgefuehl als zu klein.

Nakai

2016-04-07, 19:03:02

Troyan

2016-04-07, 19:08:39

Ailuros

2016-04-07, 19:19:18

Es werden nicht mehr als 2048SP für den Chip auf dem PX2 Board sein. Die TFLOPs-Zahl liegt bei 8TFLOPs. Kommen die von beiden GPUs, reden wir von 1000MHz bei 2048SP. Es könnten auch auch nur 1536 mit höherem Takt sein.

Oder sie zaehlen bei den 8 TFLOPs die beiden Pascal SoC GPUs auch noch mit.

Ist aber wirklich total wurscht; kann mir irgend jemand sagen ob ein jeglicher Pascal pro FLOP, pro cluster, pro clock oder weiss der Geier noch welchem metric gleich auf liegt mit Maxwell oder haben wir doch N% an Effizienz-Steigerung?

Im ersten Fall spiegeln X Einheiten bzw. Y TFLOPs auch eine relativ bestimmte Leistung wieder; im zweiten Fall aber sollte man eher auf ganz anderer Basis rechnen.

AnarchX

2016-04-07, 19:26:48

Im finalen Release im 4. Quartal ist dann vielleicht wirklich GP106 verbaut. Bis dahin eine auf diese Leistung beschränkter GP104, mit einem GM2xx kann man die FP16-Leistung eher schlecht simulieren.

Laut HW-Luxx verbaut das MXM-Modul 8GiB 7Gbps Speicher, laut NV soll PX2 aber nur 4GiB pro GPU haben. Da wollte man wohl die Schmach von der CES wiedergutmachen und hat ein paar GP104-Mobile hineingesteckt.

Nakai

2016-04-07, 19:28:05

Es werden nicht mehr als 2048SP für den Chip auf dem PX2 Board sein. Die TFLOPs-Zahl liegt bei 8TFLOPs. Kommen die von beiden GPUs, reden wir von 1000MHz bei 2048SP. Es könnten auch auch nur 1536 mit höherem Takt sein.

Es gibt mehrere Gründe wieso das GP104 ist. Es ist die TDP von Drive PX2. 250W. Wieviel können die Tegras+das restliche Zeug schlucken? 50W? 75W?

Ein GP104 im MXM-Format wird ~75W schlucken. GP104 als Desktop wird auch nicht mehr als GM204 verbrauchen, evtl etwas weniger. Das passt hervorragend. Auch die Package-Größe ist sehr gut.

Und nun der richtige Hint warum das GP104 ist. Es ist ein MXM-B Modul. Das ist generell für 256Bit SIs und TDPs bis zu 100W. Ebenso ist die Spannungsversorgung sehr ähnlich zu GM204-MXM.
Kurz, das ist eine Karte mit 256Bit, ähnlichem Formfaktor und ähnlicher TDP zu GM204-Mobile. Das ist mit hoher Sicherheit GP104.

GP104 wird winzig und eher mit P10 konkurrieren...wobei eher nicht. P10 wird nochmal eine Stufe unterhalb sein.
Irgendwie kommt mir das eher wie ein GM204-Shrink vor. ;)

€:
Im finalen Release im 4. Quartal ist dann vielleicht wirklich GP106 verbaut. Bis dahin eine auf diese Leistung beschränkter GP104, mit einem GM2xx kann man die FP16-Leistung eher schlecht simulieren.

Laut HW-Luxx verbaut das MXM-Modul 8GiB 7Gbps Speicher, laut NV soll PX2 aber nur 4GiB pro GPU haben. Da wollte man wohl die Schmach von der CES wiedergutmachen und hat ein paar GP104-Mobile hineingesteckt.

Ich würde GP106 eher im MXM-A Format sehen.

foenfrisur

2016-04-07, 19:37:54

Computerbase hat doch heute erst eine 75W GTX950 getestet:
In Anno sind es 15% weniger Leistung bei fast 30% weniger Verbrauch gegenüber einer "normalen" GTX950.

bekomme ich das mal rechnerisch serviert von dir? :freak:

bei mir ist nur eine übertaktete 950 OC dabei. keine normale.
und bei mir sind beide werte (verbrauch & leistung) ~15-20% geringer.

also nix außergewöhnliches, wenn ich nix übersehen hab.

mfg

Dural

2016-04-07, 19:39:52

Mal eine andere frage, falls es gp104 ist wie gross sollen den gp106 und gp107 sein?

Ihr liegt falsch ;)

Ailuros

2016-04-07, 19:44:18

Wie gross ist denn der chip wirklich auf dem PX2 Modul dass Du so selbstsicher bis dass alle ploetzlich falsch liegen?

Dural

2016-04-07, 19:48:44

Angeblich ist er 250mm2 gross.

Ailuros

2016-04-07, 19:50:49

Angeblich ist er 250mm2 gross.

So viel konnte ich auch mitlesen bis jetzt. Ergo weisst Du auch nichts wirklich standfestes darueber, bist Dir aber sicher dass andere falsch liegen :freak:

Nakai

2016-04-07, 20:01:25

Mal eine andere frage, falls es gp104 ist wie gross sollen den gp106 und gp107 sein?

Ihr liegt falsch ;)

Dann wird Pascal ein Desaster. Ein GP106 im Mobile-Format, was einen ähnlichen Stromverbrauch wie GM204 im Mobile-Format hat.

€: Ihr rafft nicht, dass Finfet keine Kostenvorteile pro Transistor bringt. Die Kostenvorteile entstehen durch andere Rahmenbedingungen, ergo kleinere Kühlung, weniger Stromverbrauch, billigere Platinen. Die Kosten sind höher. Punkt. Ein GP104 mit 300~350mm² wäre wohl teurer als ein GM204.

Ailuros

2016-04-07, 20:36:11

Ich bin mir nicht sicher, aber bei GP10x werden die NVs endlich eine doppelte Packdichte hinlegen. Kurz ein 250mm² Finfet sollte ungefähr mit einem 500mm² 28nm vergleichbar sein. Und von da ist es nicht mehr sehr weit zu GM200. Wenn die Taktbarkeit noch passt, dann könnte ein 250mm² GP104 ungefähr ~2500 SPs hinlegen und den Takt noch etwas hochschrauben. Dementsprechend wird man GM200 erreichen können. Und das mit einem kleinerem SI, kleinerem Die, kleinerem Stromverbrauch und dementsprechend billigere Platine. Ob man dann GM200 mit 10~20% schlägt ist fraglich, eher wird man etwas darunter ansetzen und GM200 ausverkaufen.

Die These mit 40 clusters koennte hinhauen unter der Vorraussetzung dass Pascal sich um ca. ~25% effizienter beweisst (vs. GM204) und einer standard Frequenz von ~1.2GHz und 8GB 12Gbps GDDR5X. Koennte stellenweise theoretisch etwas schneller sein als GM200 SKUs, wird aber ziemlich wurscht sein. TDP werden sie wohl wieder nicht angeben, aber Gleichstand mit einer 980 ergo bei 165W "max graphics card power" waere zumindest wuenschenswert.

Nuetzt aber wie gesagt nichts so lange wir nicht wissen ob Pascal einen Unterschied zu Maxwell hat; so optimistisch darueber bin ich zwar nicht mit den bisherigen Daten, aber wir werden wohl erst in einigen Monaten weisser darueber.

Nakai

2016-04-07, 21:13:10

Die These mit 40 clusters koennte hinhauen unter der Vorraussetzung dass Pascal sich um ca. ~25% effizienter beweisst (vs. GM204) und einer standard Frequenz von ~1.2GHz und 8GB 12Gbps GDDR5X. Koennte stellenweise theoretisch etwas schneller sein als GM200 SKUs, wird aber ziemlich wurscht sein. TDP werden sie wohl wieder nicht angeben, aber Gleichstand mit einer 980 ergo bei 165W "max graphics card power" waere zumindest wuenschenswert.

Nuetzt aber wie gesagt nichts so lange wir nicht wissen ob Pascal einen Unterschied zu Maxwell hat; so optimistisch darueber bin ich zwar nicht mit den bisherigen Daten, aber wir werden wohl erst in einigen Monaten weisser darueber.

GP100 ist schonmal ein miserabler Ausgangspunkt. Ohne HPC-Deals wäre das Ding ein wirtschaftlicher Kollaps. Die SMs sind nicht sonderlich unterschiedlich zu Maxwell. Das sieht zwar neuartig aus, ist aber im Endeffekt nur eine Aufteilung des L1-Caches (Instruction, Data) geschuldet. Dadurch hat man "zwei" SMs aus einer erstellt. Hinzu kommen mehr Shared Memory und größere Register. Durch die doppelten L1-Caches muss der Interconnect auf der einen Seite doppelt so viele Peers beinhalten. Ansonsten sind 2 SMs immer noch innerhalb eines TCPs.

GP100 hat fürs Gaming soviel totes Gewicht, dass gerne entsorgt werden darf. Maxwell-artige SMs sind völlig ausreichend. Eventuell etwas mehr Cache oder Shared Memory.

Wie gesagt, 20(Maxwell)/40(Pascal) Cluster und ein gutes Stück mehr Takt klingen gut. Ein 256Bit SI mit GDDR5X bringt die Bandbreite etwa auf GM200-Niveau. Das ist vollkommen ausreichend. Wenn man mit GP104 etwas billiger als GM200 fertigen kann und ähnliche Margen (%) hat, dann ist das ein Erfolg. Wir dürfen GP102 nicht vergessen.

Reinher vom SP-Sprung von GP100 bzgl GM200, würde ich dasselbe derzeit von den jeweiligen anderen Chips erwarten. 25% mehr Cluster und ein Stück mehr Takt.

Kurz:
GP102 60/30 SMs (Pascal SMs/Maxwell-artige SMs)
GP104 40/20 SMs
GP106 20/10 SMs

Man wird gerade so versuchen, die möglich Leistung zu erhöhen, bevor man gegen die Finfet-Kosten-Barriere kracht. Wieviel teurer ist ein Finfet-Transistor gegenüber einem 28nm-Transistor?

€: Und klar Abwarten ist derzeit das größte Gebot.

Ailuros

2016-04-07, 21:24:50

Man wird gerade so versuchen, die möglich Leistung zu erhöhen, bevor man gegen die Finfet-Kosten-Barriere kracht. Wieviel teurer ist ein Finfet-Transistor gegenüber einem 28nm-Transistor?

€: Und klar Abwarten ist derzeit das größte Gebot.

Ich kann zwar nicht ausrechnen was die 16FF+ tools und co. jeweils kosten, wie und wo diese aufgesaugt werden, aber ich wuerde schaetzen dass wenn sie Mitte des Jahres mit einem mittelgrossen chip irgendwo ueber 50% yields haben werden, wird es schon leicht billiger fuer die Herstellung alleine als fuer GM200@28HP.

Sonst gerade: https://forum.beyond3d.com/posts/1905371/

A different transistor density for the same process would require a different fill factor of the standard cells per area (no benefit), a different standard cell library (unlikely), a different memory cell library (unlikely), or a different ratio between standard cells and memory area.

But since compute oriented chips have traditionally used more memory than graphics chips (larger caches, larger register files), that would actually decrease transistor density for the graphics chips.

So I don't expect any increase in density at all.

Ok. Dann sollte man wohl doch mit =/<25Mio/mm2 fuer die kleineren chips rechnen.

Nakai

2016-04-07, 21:50:34

Ich kann zwar nicht ausrechnen was die 16FF+ tools und co. jeweils kosten, wie und wo diese aufgesaugt werden, aber ich wuerde schaetzen dass wenn sie Mitte des Jahres mit einem mittelgrossen chip irgendwo ueber 50% yields haben werden, wird es schon leicht billiger fuer die Herstellung alleine als fuer GM200@28HP.

Sonst gerade: https://forum.beyond3d.com/posts/1905371/

Ok. Dann sollte man wohl doch mit =/<25Mio/mm2 fuer die kleineren chips rechnen.

Dann werden eben diese Einsparungen + sonstige Kostensenkungen eben die Reichweite für Finfet sein.

Bei AMD würde ich auch von ungefähr 25% mehr Einheiten ausgehen. Eventuell etwas mehr Takt.

Und bei der Packdichte wäre ich nicht so pessimistisch. Ja, die Packdichte von Speicher ist höher. Aber GP100 hat auch NVLink und einen sehr großen Interconnect. Aber dennoch ist das nicht sonderlich positiv und wie schon einmal "underwhelming". Finfet könnte schon viele Vorteile bringen, aber die Kostenbarriere wird uns den Leistungssprung verhindern, welcher möglich wäre.

Sunrise

2016-04-07, 23:15:42

Also wenn man auf 16FF+ einen GM200-artigen Aufbau nicht in 250-300mm^2 pressen könnte, würde mich das schon mehr als überraschen. Lassen wir mal großzügig bis zu 300mm^2 zu, aufgrund neuer Anpassungen der Architektur, wohl aber schmalerem Interface. Bei GP102 lässt NV sicher auch Luft bis >450mm^2.

Wenn wir von einer konservativeren Packdichte von etwa 20 Millionen Transistoren / mm^2 ausgehen, dann sollte das immernoch verdammt gut sein, oder?

Wie gesagt, meine Vermutung ist, dass GP102 sich zu GP104 wie GM200 zu GM204 verhält. Genau 50% mehr, was ziemlich genau abschätzbar wäre.

Bezüglich der Kosten sollte GDDR5X vorteilhafter sein, auch wird diese gigantische HBM2-Bandbreite wirklich nur maximal bei GP102 überhaupt benötigt werden, andernfalls sehe ich nicht viel Sinn darin, die GPU unnötig teuer zu machen, das Ding muss attraktiv für Consumer sein. Und wenn anhand von 50% mehr ein 256bit Interface bei GP104 reicht, dann reicht auch ein 384bit GDDR5X-Interface bei GP102 eigentlich aus.

scully1234

2016-04-07, 23:24:40

''All IN'' ist also vorerst nicht mit dem Monster

56SM aktiv laut Nvidia und der Vollausbau zeigt 60SM

http://www.pcgameshardware.de/screenshots/original/2016/04/Nvidia-GP100-GPU-Blockdiagramm-pcgh.png

iuno

2016-04-07, 23:31:26

Steht auch auf dem Datenblatt, war doch schon seit der Praesentation klar

scully1234

2016-04-08, 00:01:19

Ja ich hab da nicht so mitgezaehlt bei der Praesentation ,hab mich da eher berieseln lassen von Foenfrisur Jensen:smile:

Dann sind die kolportierten 12 Tflops SP ja doch noch drin ,wenn man dann irgendwann ''All IN'' geht

Edit:
http://vrworld.com/2016/04/08/nvidia-mezzanine-nvlink-connector-pictured/

Skysnake

2016-04-08, 07:19:21

Und nein es werden keine 2 GHz im Desktop, weil Tesla mehr ausgefahren wird. Ich bin auch erstaunt, dass man mehr zum speicherbasierten Design geht und ein fettes Netzwerk integriert, aber offenbar lässt es sich anders kaum lösen.
Willkommen in den 2010ern.

Du musst/solltest jedwedes Compute Design, das mehr als nen Microcontroller ist, um das Speichersystem herum designen.

Nur weil sie was auf der SC15 gesagt haben, heißt dass ja nicht, dass es wirklich genau so kommen wird. Oder hat dir das irgend jemand versichert? :rolleyes:
So jetzt komm ich auch mal endlich dazu...

Guckst du hier auf Slide 22 http://images.nvidia.com/events/sc15/pdfs/SC5102-path-exascale-computing.pdf

Dazu muss man sagen, das man bei nVidia nicht nur auf die bessere Effizienz abgezielt hat bei nVLink, sondern auch darauf, das man eben nur eine Datenleitung braucht und nicht zwei wie bei differenziellen Signalen.

Das Problem daran ist, das ist nicht kompatibel zu PCI-E, und sehr wahrscheinlich auch zu CAPI von IBM, wobei mir da leider noch immer die Infos fehlen, was die für einen physischen Layer benutzen für CAPI. Gerade für IBM kann ich mir aber nicht vorstellen, dass die differenzielle Signale nicht benutzen. DAfür sind die Vorteile von differenziellen Leitungen bezüglich Noise einfach viel zu groß. IBM ist da immer eher eine Firma die auf Sicherheit geht, was für deren Einsatzbereiche auch gut so ist.

In der nVidia Pressemitteilung (https://devblogs.nvidia.com/parallelforall/inside-pascal/) findet sich dagegen folgende Aussage:

NVLink uses NVIDIA’s new High-Speed Signaling interconnect (NVHS). NVHS transmits data over a differential pair running at up to 20 Gb/sec.

Ich habe den wichtigen Teil mal "dezent" gekennzeichnet...

Sorry entweder mach ich single Ended, so wie es nVidia dargestellt hat, oder ich mach differenzielle Paare....

Das sind zwei sich gegenseitig ausschließende Technologien.

Und bezüglich nVLink ist so knalle:

Power9, der wohl 2018 noch erscheinen wird laut IBM, wird PCI-E 4.0 haben, und damit 16Gb/s PHYs. Wuhuhuhu 16 vs 20 Gb/s ist jetzt echt extrem besser. :rolleyes:

Vor allem bündelt zumindest jetzt nVida 8 davon in einem Link. Macht PCI-E ja überhaupt nicht, und bei PCI-E gibt es nicht auch die Spezifikation für 16x und 32x. Oh WAIT.... :rolleyes:

Und noch was zu den nV-Folien: Mit dem angeblichen "Spacer" auf dem HBM-Stack schießen die ja mal wieder den Vogel ab. Und der 4Hi-Stack hat nur 3 Speicher-Dies oder wie? ;D
Erklärung: Der oberste Memory-Die ist bloß nicht abgedünnt, weil da keine TSVs durch müssen. Es ist nur ein Nebeneffekt, daß man so auch 8Hi-Stacks (oder auch 2Hi) mit gleicher Höhe bauen kann.
Vor allem sollte man sich die HBM stacks mal genauer ansehen. Das sieht so aus, als ob es Pascals mit HBM1 und welche mit HBM2 gibt. Die HBM stacks sehen nämlich hier unterschiedlich groß aus

Immer derselbe Unsinn. "So viel zum Effizienzwunder 16 FF+" ... Kannst ja mal ausrechnen, wie du mit GDDR5 hin kommst
Warum soll man den Takt komplett ausfahren, wenn die Bandbreite gar nicht benoetigt wird? Zumal das alles frueh am Markt ist, da koennen die Stacks aber im Uebrigen auch die MCs selbst noch Probleme haben :rolleyes:
Ist aber alles kein Grund zur Panik, weil die Bandbreite trotzdem etwa linear mit der Rohleistung steigt, zudem sind die Caches und Register auch noch deutlich groesser.
Also das man HBM2 nicht mit vollem Takt laufen lässt ist eine kleine Katastrophe! Klar ist es deutlich mehr Bandbreite als aktuell, aber du hast NIE!!!! genug Bandbreite im HPC in der Regel. Denn "zu viel" Bandbreite kannste im Zweifel einfach nutzen etwas weniger hart tunen zu müssen bis zu nicht mehr limitiert bist durchs SI, was aber in Real-World Applikations sehr selten vor kommt, wie ich selbst schmerzhaft im letzten halben Jahr erleben musste.

Ich kann zwar nicht ausrechnen was die 16FF+ tools und co. jeweils kosten, wie und wo diese aufgesaugt werden, aber ich wuerde schaetzen dass wenn sie Mitte des Jahres mit einem mittelgrossen chip irgendwo ueber 50% yields haben werden, wird es schon leicht billiger fuer die Herstellung alleine als fuer GM200@28HP.
[quote]
Die Tool kosten sind ziemlich am explodieren, vor allem muss man heute zwingend tools nutzen, die man früher gar nicht wirklich gebraucht hat. Also Elektromigration, stress, Heating usw usf.

Das meiste wurde mit 28nm Zwingend, aber aktuell ist man eigentlich auf dem Trip Package + ASIC zusammen! zu simulieren, also nicht nacheinander sondern wirklich in der gleichen Suite als EIN! gekoppeltes Problem. Ich will gar nicht wissen, was da die Lizenzen kosten. Vor allem weil auch bei den alten Problemen dir immer weniger Tools zur Verfügung stehen.

Hatte ich das Problem schon. Ein tool das verwendet wurde hat einfach keine Daten für einen neuen Prozess bekommen. :freak: Im Endeffekt gab es wohl GENAU! ein tool, das Daten für den Prozess hatte und das wars. Coole Sache ne...

[quote]
Sonst gerade: https://forum.beyond3d.com/posts/1905371/

Ok. Dann sollte man wohl doch mit =/<25Mio/mm2 fuer die kleineren chips rechnen.
Nicht zwingend. Es kommt darauf an, ob man Filling auch mit rechnet bei der Transistordichte oder nicht. Ich tendiere eher zu nein.

Zudem fallen halt große Analogblöcke weg wie nVlink, die wirklich ne beschissene Transistordichte haben werden. Dafür eventuell "nur" GDDR5(X), was wieder mehr Raum einnehmen wird als HBM...

Kommt also stark darauf an, wie groß was ist, ob das am Ende etwas bringt, oder aber ein Nullsummen Spiel ist.

Und ansonsten nur so als Randbemerkung: Das Filling wird für jedwedes Design einzeln gemacht. Es gibt gewisse Rules was man an Filling machen muss, aber das kann sich durchaus unterscheiden. Vor allem gibt es auch innerhalb der Standardzellen Libs Zellen mit unterschiedlichen Transistordichten. Aber nur mal so als kleine unbedeutende Randbemerkung.

Loeschzwerg

2016-04-08, 07:41:09

Vor allem sollte man sich die HBM stacks mal genauer ansehen. Das sieht so aus, als ob es Pascals mit HBM1 und welche mit HBM2 gibt. Die HBM stacks sehen nämlich hier unterschiedlich groß aus

Würde gut zu den unterschiedlichen Produktionswochen passen.

Ailuros

2016-04-08, 07:50:27

Skysnake,

Man wird aber wohl nicht fuer 16FF+ fuer jeglichen verschiedenen chip tools von Null auf neu bezahlen muessen oder? (ehrliche Frage).

Sunrise,

Ich weiss zwar nichts aber weniger als 23/24Mio/mm2 fuer die kleineren chips wuerde ich nicht erwarten.

Skysnake

2016-04-08, 08:10:49

Skysnake,

Man wird aber wohl nicht fuer 16FF+ fuer jeglichen verschiedenen chip tools von Null auf neu bezahlen muessen oder? (ehrliche Frage).

Wenns dumm läuft ja. Wie in meinem Fall gab es z.B. die Design Rules nur für ein tool, und die waren/sind entcrypted.

Damit haste genau zwei Möglichkeiten:

1. Du kaufst die Lizenz für das andere Tool
2. Du bettelst bei der Foundry/Tool Hersteller, dass Sie Libs für dein Tool bereitstellen.

1. Ist sehr teuer, und vor allem musste dann mit einem neuen Tool arbeiten, was eventuell gar nicht zu deinem designflow passt
2. Beten hilft da sicherlich, wobei für Firmen wie nVidia zumindest die Chance besteht, dass das funktioniert.

Was sich aber herauskristallisiert ist, das unterschiedliche Tools zu unterschiedlichen Ergebnissen kommen, und man eben selbst das PCB teils nicht mehr ignorieren kann wenn man den ASIC! designt :freak:

Besonders cool wird es halt, wenn man zwei Partner zwei unterschiedliche Tools verwenden, und der eine sagt es geht, und der andere es geht nicht...

Das sind halt IMMER! nur Simulationen, und das große Problem ist, die sagen dir an sich NIE! wenn du Sie falsch benutzt. Es kommt dann halt nur irgend ein bullshit raus. Genau den Fall hatte ich z.B.

Die "standard" Highprecission Einstellungen haben einfach bullshit simuliert. Ich hatte Fehler von glaub 100-200%. Gemerkt habe ich es dadurch, dass die Theorie/Physik eben mir gesagt hat, dass das nicht geht. Nach Wochen/Monaten Tool treten habe ich dann die "richtigen" Ergebnissen herausbekommen. Endergebnis war aber nicht mehr Simulation in ner Stunde oder so, sondern in Tagen...

Das Glück hier war, das die falschen Ergebnisse nur dazu geführt haben, dass die Schaltung an sich viel besser war als das was ich sehen konnte. Also hätte ich "nur" massiv overdesignt und eben weniger effektive Precission gehabt + mehr Leistung verballert um es zu fixen als nötig wäre. Damit wäre das wohl auch nen zweistelligen Prozentsatz größer geworden.

Ich hatte aber auch mal den Fall, das einfach das Modell von der Foundry falsch war. Und mit falsch meine ich wirklich falsch! So designte Schaltungen hätten wahrscheinlich nicht funktioniert....

War halt zum Glück "nur" für Analogkram...

So etwas kommt wohl sogar gar nicht soooo selten vor. Die Toolshersteller "fixen" das wohl teils auch in ihren eigenen Libs.

Jetzt rate aber mal, was passiert wenn du ein anderes Tool von einem anderen Hersteller verwenden musst....

GL HF...

iuno

2016-04-08, 09:01:48

Power9, der wohl 2018 noch erscheinen wird laut IBM, wird PCI-E 4.0 haben, und damit 16Gb/s PHYs. Wuhuhuhu 16 vs 20 Gb/s ist jetzt echt extrem besser. :rolleyes:

Vor allem bündelt zumindest jetzt nVida 8 davon in einem Link. Macht PCI-E ja überhaupt nicht, und bei PCI-E gibt es nicht auch die Spezifikation für 16x und 32x. Oh WAIT.... :rolleyes:
PCIe 3.0(x16) hat doch schon schon 16 GiB/s (afaik) :confused: 4.0 sollte das dann nochmal verdoppeln. Trotdem verdoppelt alleine ein NVLink effektiv die gesamte Bandbreite schon, die PCIe Verbindung muss ja nicht entfallen und kann auch weiterhin verwendet werden.
Ja, es gibt auch noch x32. Und Nvidia haette das auch mit mehreren PCIe Interfaces pro Karte machen koennen oder was willst du damit sagen? Dann muessen aber auch zuerst mal so viele Lanes bereitstehen oder die einzelnen Teilnehmer wieder untereinander verbunden werden, was dann auch wieder eine Sonderloesung ist. Und dann waere es nicht Nvidia wuerden sie nicht was eigenes machen :tongue:

Also das man HBM2 nicht mit vollem Takt laufen lässt ist eine kleine Katastrophe! Klar ist es deutlich mehr Bandbreite als aktuell, aber du hast NIE!!!! genug Bandbreite im HPC in der Regel.
Also war es auch jedes mal eine Katastrophe, dass man die Karten nicht jeweils mit den zu dem Zeitpunkt schnellsten GDDR5 Chips bestueckt hat? Eine Katastrophe ist imho was anderes, man muss halt irgendwo immer Komprobisse enigehen.
Ich habe ja nicht gesagt, dass es voellig egal ist - nur dass es nicht so schlimm ist wie einige denken, kein Grund zur Panik eben... aber klar waere mehr Bandbreite besser

Skysnake

2016-04-08, 09:19:20

Ailuros

2016-04-08, 09:19:59

Nur so am Rand: die Relation P100/720, V100/1200GB/sec ist um einiges gesunder als die vorher erwarten 1000--->1200GB/s die vorher irgendwo herumschwirrten.

Sunrise

2016-04-08, 09:50:28

Nur so am Rand: die Relation P100/720, V100/1200GB/sec ist um einiges gesunder als die vorher erwarten 1000--->1200GB/s die vorher irgendwo herumschwirrten.
Das stimmt, wobei wir nicht sicher wissen, ob Volta das nicht auch noch nach unten korrigiert.

Oder anders: Wenn GV100 nochmal 500GB/s mehr als 720GB/s bei GP100 benötigt, und GP100 bereits mit 610mm² so ziemlich am Anschlag ist, was genau erwarten wir denn da auf 16nm FF+, dass hier noch an Einheiten so stark steigerungsfähig wäre, dass man das überhaupt auf 16FF+ realisieren kann?

Wieso sollte GV100 diese enorme Menge an Bandbreite ggü. GP100 mehr benötigen? Ich glaube da noch nicht so recht dran, oder aber der kommt wirklich auf 10nm, andernfalls verstehe ich die Sache nicht ganz.

iuno

2016-04-08, 09:52:43

Ja, 128/130b hatte ich auch der Einfachheit halber aussen vor gelassen. Die PHYs machen natuerlich 8 Gbps, nur die effektive Bandbreite wird durch die Kodierung krumm.

oops :redface: das mit den 8 pairs pro Richtung/8 "Lanes" bei NVLink hatte ich verpasst, insofern hast du natuerlich voellig Recht. Trotzdem hat man hier natuerlich zeitlichen Vorsprung, PCIe 4.0 ist nichtmal spezifiziert und primaer geht es ja erstmal um die Kommunikation zwischen den GPUs

Skysnake

2016-04-08, 10:18:24

Wie gesagt Power 9 bekommt PCI-E und nVLink (2 bzw extended) 2018

Power 8+ bekommt 2017 nVLink.

Also grad mal so ein Jahr, und dafür den Aufwand?

Zudem wird Intel auch in absehbarer Zeit mit PCI-E 4 kommen

iuno

2016-04-08, 10:29:57

Was ist daran so aufwendig? Haufenweise PCIe Lanes (aktuell ja doppelt so viele fuer nichtmal dieselbe Bandbreite) rein zu knallen waere ja zum jetzigen Zeitpunkt nicht besser. Und dann hat es mit dem Standard eh nix mehr zu tun, wenn die Links nur "kreuz und quer" von GPU zu GPU gehen.
Die Frage ist auch, wie das zum Zeitpunkt der Konzeption aussah (da waren ja auch Partner beteiligt/eingeweiht). Es geht da ja auch in erster Linie darum, was zu bieten, was die Konkurrenz so noch nicht hat.

Hübie

2016-04-08, 10:33:16

Byte und bit

PCI-E hat etwa 8Gbit/s PHYs. (In Wahrheit ist es was krummes wegen dem 128/130 Bit Coding, aber lassen wir das Detail mal unter den Tisch fallen. Der Einfachheit halber).

nVidia hat nur 20Gbit/s PHYs. Die addieren halt Sende und Empfangsrichtung einfach. Daher steht da auch in der Regel bidirecational dabei. Bei PCI-E könnte man das auch machen.

Ein PCI-E 16x hat eine Bandbreite von 32GB/s bidirektional.

nVLink schafft die 20GB/s halt über nur 8 Lanes. PCI-E4 wird aber über 8 immerhin 16GB/s schaffen.

Das sind jetzt bei weitem nicht die Abstände die nVidia aktuell suggeriert. Die Vergleichen nämlich Äpfel mit Birnen.

Ne du. PCIE x16 hat 8 Gigatransfers per second (Bits pro Sekunde oder Signalpakete pro Sekunde, suchs dir aus).. 16 * 8 = 128 : 8 = 16 Gigabyte pro Sekunde. PCIE x32 hat deine 32 GB / s. PCIE 4.0 wird das verdoppeln.

Geh mal hin und guck dir mal an wie breit und groß PCIE x32 im Vergleich zum NVLINK ist. Schau mal wieiviel Platz NVLINK mit 80 GB /s benötigt und wieviel PCIE bräuchte. :freak:

Undertaker

2016-04-08, 10:34:51

Kennt man denn die ganzen anderen interessanten Parameter? Energiebedarf pro übertragenem Bit, Komplexität/Flächenbedarf auf dem Chip, mögliche Leitungslängen und Aufwand für das Routing, Latenzen... Da kann es noch viele andere Argumente pro NVLink geben.

iuno

2016-04-08, 10:35:45

Eine Lane = zwei Pairs (1 pro Richtung). Insofern stimmt es natuerlich, PCIe 3.0 x16 schafft insgesamt (in beide Richtungen) knapp 32 GB/s
Geh mal hin und guck dir mal an wie breit und groß PCIE x32 im Vergleich zum NVLINK ist. Schau mal wieiviel Platz NVLINK mit 80 GB /s benötigt und wieviel PCIE bräuchte. :freak:
Das hatten wir ja gerade. Doppelt so viele Pins halt, mit PCIe 4 gleich viele (bei etwas weniger Durchsatz).
Man sieht ja am P100 Modul, dass das mit normalen Erweiterungskarten fuer den PCIe Slot nichts mehr zu tun hat. PCIe hat das Modul ja immer noch mit dem Connector auf der Unterseite dabei. Nur halt nicht den typischen Slot

stinki

2016-04-08, 10:35:59

Und nun der richtige Hint warum das GP104 ist. Es ist ein MXM-B Modul. Das ist generell für 256Bit SIs und TDPs bis zu 100W. Ebenso ist die Spannungsversorgung sehr ähnlich zu GM204-MXM.
Kurz, das ist eine Karte mit 256Bit, ähnlichem Formfaktor und ähnlicher TDP zu GM204-Mobile. Das ist mit hoher Sicherheit GP104.

Ich sehe das auch so wie Nakai und AnarchX, wenn ich nicht einen kompletten Knick in der Optik habe sehe ich dort 8 Speicherbausteine und das sieht für mich nach einem 256Bit Speicher-Interface aus.
K4G80325FB HC28: Die 80 stehen für 8GBit und den Refresh, die 32 für 32Bit-Interface, die 5 für 16 Banks, F für 1.5V, B für 3rd Revision, H ist 170FBGA Package, C ist Commercial Normal Temp Range und 28 ist 7GBit Speed

Das passt aber nicht zu den Nvidia Aussagen von 80Gbyte Bandbreite pro Chip und 4GByte Specher-Menge bei PX2.
Ich nehme an, Nvidia hat einfach noch keine GP106 Chips und nimmt so lange was sie haben. Erst waren es GM204 Chips, nun GP104 Chips aus KW13 (das war letzte Woche, aber gut ist ja schon A1 Revision). Sobald Nvidia GP106 zur Verfügung hat werden die den schon verwenden.
Lange Rede kurzer Sinn, ich denke auch, dass der gezeigte Chip GP104 mit 256 Bit-Interface ist.

Hübie

2016-04-08, 10:40:49

@iuno: Die 80 GB / s gelten auch pro Richtung.

iuno

2016-04-08, 10:51:47

Ja, mit 4 NVLinks zu je 8 "Lanes". Ein NVLink ist vergleichbar mit 8 PCIe Lanes (jeweils 16 Pairs):

NVLink*:
20 Gbps pro Pair
8 Pairs = 1 Sub-Link
2 Sub-Links (fuer beide Richtungen) = 1 Link
insgesamt also 40 GB/s bidirektional mit 16 Pairs

PCIe 3.0:
8 Gbps pro Pair (16 bei PCIe 4.0)
2 Pairs (fuer beide Richtungen) = 1 Lane
16 Lanes = PCIe x16 :ugly:
insgesamt also 32 GB/s bidirektional mit 32 Pairs bei PCIe 3.0x16 bzw. mit 16 Pairs bei PCIe 4.0x8

NVLink uses NVIDIA’s new High-Speed Signaling interconnect (NVHS). NVHS transmits data over a differential pair running at up to 20 Gb/sec. Eight of these differential connections form a “Sub-Link” that sends data in one direction, and two sub-links—one for each direction—form a “Link” that connects two processors (GPU-to-GPU or GPU-to-CPU). A single Link supports up to 40 GB/sec of bidirectional bandwidth between the endpoints. Multiple Links can be combined to form “Gangs” for even higher-bandwidth connectivity between processors. The NVLink implementation in Tesla P100 supports up to four Links, allowing for a gang with an aggregate maximum theoretical bandwidth of 160 GB/sec bidirectional bandwidth.https://devblogs.nvidia.com/parallelforall/inside-pascal/

Hübie

2016-04-08, 10:56:43

Ja dennoch vergleicht Skysnake bidirectional mit onedirectional. Man addiert Bandbreite nicht, nur weil die in beide Richtungen geht. Also entweder man vergleicht PCIe 3.0 x16 @16 GB/s vs. NVLINK Quad @ 80 GB / s oder halt 32 GB vs 160 GB pro Sekunde. Also so wie du es geschrieben hast.

Hier sieht man die Aufteilung für die 160 GB/s:

http://abload.de/img/nvda_nvlink_cpuhtsad.jpg (http://abload.de/image.php?img=nvda_nvlink_cpuhtsad.jpg)

Quelle (http://vrworld.com/2016/04/06/nvidia-pascal-nvlink-interconnect-ibm/)

iuno

2016-04-08, 11:04:38

Man addiert Bandbreite nicht, nur weil die in beide Richtungen geht.
Genau das macht Nvidia aber doch mit NVLink. Ansonsten musst du bitte auch bei 20 GB/s pro Link bleiben, genauso wie 8 GB/s fuer PCIe3.0x8 und 16 GB/s fuer 4.0x8.

Also entweder man vergleicht PCIe 3.0 x16 @16 GB/s vs. NVLINK Quad @ 80 GB / s oder halt 32 GB vs 160 GB pro Sekunde.
Nein, der Vergleich ist unsinnig. Wie gesagt: ein NVLink ist vergleichbar mit 8 PCIe Lanes! Insofern musst du x8 mit einem Link oder eben das komplette Paket (x32) gegen 4 Links vergleichen.
Und da sieht aus, wie ich schon beschrieben habe: bei gleich vielen Datenpins bietet NVLink aktuell die 2.54-(3.0) bzw. 1.27-fache (4.0) Bandbreite ggue. PCIe wenn mann die 128/130b Kodierung noch mit beruecksichtigt (wobei die wirkliche effektive Bandbreite bei NVLink afaik noch unklar ist, ausserdem sprechen die auch immer von peak oder max. Durchsatz)

stinki

2016-04-08, 11:12:42

Das stimmt, wobei wir nicht sicher wissen, ob Volta das nicht auch noch nach unten korrigiert.

Oder anders: Wenn GV100 nochmal 500GB/s mehr als 720GB/s bei GP100 benötigt, und GP100 bereits mit 610mm² so ziemlich am Anschlag ist, was genau erwarten wir denn da auf 16nm FF+, dass hier noch an Einheiten so stark steigerungsfähig wäre, dass man das überhaupt auf 16FF+ realisieren kann?

Wieso sollte GV100 diese enorme Menge an Bandbreite ggü. GP100 mehr benötigen? Ich glaube da noch nicht so recht dran, oder aber der kommt wirklich auf 10nm, andernfalls verstehe ich die Sache nicht ganz.

Wie schon alle seit Monaten hier schreiben wird GV100 wohl ziemlich sicher 10nm FF von TSMC.
TSMC hat bei der letzten Konferenz angegeben, dass der erste Customer Tape Out auf 10FF stattgefunden hat. Damit dürften 10nm Grafik-Chips für (spätestens Ende) 2018 eigentlich kein Problem sein.

BlacKi

2016-04-08, 11:14:49

Damit dürften 10nm Grafik-Chips für (spätestens Ende) 2018 eigentlich kein Problem sein.
wie groß soll denn der vorteil ggü. 16nm sein?

Sunrise

2016-04-08, 11:30:14

Wie schon alle seit Monaten hier schreiben wird GV100 wohl ziemlich sicher 10nm FF von TSMC.
TSMC hat bei der letzten Konferenz angegeben, dass der erste Customer Tape Out auf 10FF stattgefunden hat. Damit dürften 10nm Grafik-Chips für (spätestens Ende) 2018 eigentlich kein Problem sein.
Weil alle eben sehr leicht und schnell auf den TSMC-Prozess-Hypetrain aufspringen, aber mit Fakten hat das oft nichts zu tun. Nichtmal TSMC selbst weiß manchmal, was genau sie da voraussagen (so scheint es zumindest), weil die immer von Memory oder aber irgendwelchen ICs oder SoCs ausgehen, was aber keine generelle Aussage für GPUs zulässt.

Das ist mit Release von GP100 nun aber ein starkes Indiz mehr, dass 16FF+ da wohl nicht viel Luft lässt, oder aber GV100 ist grundlegend anders und baut irgendwas so stark um, dass NV da 500GB/s mehr Bandbreite benötigt.

Wenn man GP100 gut und sehr teuer verkaufen kann, ist zumindest das Kostenargument etwas entschärft, solange man da >10 GPUs vom Wafer bekommt.

stinki

2016-04-08, 11:42:12

wie groß soll denn der vorteil ggü. 16nm sein?

Von TSMC Konferenz Mitte 2015:
"The density of 10nm will be 2.1x that of 16nm node partially due to a new local interconnect layer and partially because they are using self-aligned spacer (aka SADP or SIT) on the metal. SRAM cell shrinks by 0.46 to 0.49. Risk production will be 4Q2015. Test chip based on ARM Cortex A-57 taped out 2 weeks ago. There is a 19% speed gain or 38% power reduction based on this test chip."

Also Packdichte verdoppelt sich mit 10FF circa wieder gerade auf Grund des neuen Interconnect Layers (Interconnect ist größtes Problem bei der Verringerung der Chipfläche mittlerweile nicht mehr die Größe des Transistors, obwohl der natürlich auch schwierig ist).
Die Geschwindigkeitsgewinne oder die Powerreduzierung sind aber nicht so groß. (aber 38% weniger Power bei gleicher Geschwindigkeit sind jetzt auch nicht so wenig)

Troyan

2016-04-08, 11:44:16

Das ist mit Release von GP100 nun aber ein starkes Indiz mehr, dass 16FF+ da wohl nicht viel Luft lässt, oder aber GV100 ist grundlegend anders und baut irgendwas so stark um, dass NV da 500GB/s mehr Bandbreite benötigt.

Warum 500GB/s mehr? Auf der letzten Roadmap sind es weniger als die 1TB/s.

Ich glaube auch, dass mehr Bandbreite einfach nicht sinnvoll ist, da dann der absolute Stromverbrauch von HBM2 durch die Decke geht.

Sunrise

2016-04-08, 12:01:53

Warum 500GB/s mehr? Auf der letzten Roadmap sind es weniger als die 1TB/s.

Ich glaube auch, dass mehr Bandbreite einfach nicht sinnvoll ist, da dann der absolute Stromverbrauch von HBM2 durch die Decke geht.
Dann habe ich die wohl verpasst. Mir schwirren noch bis bzw. über 1TB/s im Kopf rum. Ständig diese Korrekturen...

stinki

2016-04-08, 12:08:11

Weil alle eben sehr leicht und schnell auf den TSMC-Prozess-Hypetrain aufspringen, aber mit Fakten hat das oft nichts zu tun. Nichtmal TSMC selbst weiß manchmal, was genau sie da voraussagen (so scheint es zumindest), weil die immer von Memory oder aber irgendwelchen ICs oder SoCs ausgehen, was aber keine generelle Aussage für GPUs zulässt.

So schlecht ist der Track-Record von TSMC in der letzten Zeit aber auch nicht. Nvidia traut sich immerhin einen 610mm² Chip auf 16FF+ zu. Den Chip gibt es anscheinend seit Q4/2015 (KW40/43). GP104 ist schon in Revision A1 verfügbar. Apple verkauft A9 und A9X SoCs und Huawei produziert Kirin950 auch schon. Soweit liegt Nvidia jetzt zeitlich auch nicht hinter den SoC-Herstellern.

Und wenn TSMC sagt sie hätten den ersten Tape-Out eines "richtigen" Chips (nicht Testchips) für einen Customer auf N10FF jetzt gehabt mit Massenfertigung Q4/2016 oder Q1/2017, dann sehe ich für N10FF Grafikchips Mitte/Ende 2018 nicht die riesen Probleme.

Complicated

2016-04-08, 13:34:15

Wie schon alle seit Monaten hier schreiben wird GV100 wohl ziemlich sicher 10nm FF von TSMC.
TSMC hat bei der letzten Konferenz angegeben, dass der erste Customer Tape Out auf 10FF stattgefunden hat. Damit dürften 10nm Grafik-Chips für (spätestens Ende) 2018 eigentlich kein Problem sein.
Das wird schwierig dann die Liefertermine in 2017 mit Volta einzuhalten:
https://www.olcf.ornl.gov/summit/
Summit will deliver more than five times the computational performance of Titan’s 18,688 nodes, using only approximately 3,400 nodes when it arrives in 2017. Like Titan, Summit will have a hybrid architecture, and each node will contain multiple IBM POWER9 CPUs and NVIDIA Volta GPUs all connected together with NVIDIA’s high-speed NVLink.

Ailuros

2016-04-08, 13:55:10

Nicht dass es nicht schon erwaehnt wurde.

stinki

2016-04-08, 14:13:35

Erst einmal muss IBM den Power8+ mit NVLink vorstellen. Hat den schon mal jemand gesehen?
Und danach kommt der oben erwähnte Power9. Und ich frage mich immer noch auf welchem next-Gen IBM/Globalfoundries Process der Power9 eigentlich hergestellt werden soll. Weiß dazu eigentlich jemand etwas genaueres? Ich warte immer noch auf die Ankündigung eines next-Gen Process von GF nach 14LPP.
IBM sagt 14nm, aber ich glaube die meinen damit nicht 14LPP, eher wahrscheinlich 14FD-SOI oder 14SOI FinFet...

Edit: Sehe gerade, dass Skysnake das mit Power8+ (2017) und Power9 (2018) weiter vorne auch schon geschrieben hat.

Wie gesagt Power 9 bekommt PCI-E und nVLink (2 bzw extended) 2018

Power 8+ bekommt 2017 nVLink.

Also vor 2018 wird das nichts mit Volta und Power9...

scully1234

2016-04-08, 15:15:16

Erst einmal muss IBM den Power8+ mit NVLink vorstellen. Hat den schon mal jemand gesehen?
...
http://vrworld.com/2016/04/08/nvidia-mezzanine-nvlink-connector-pictured/

http://vrworld.com/wp-content/uploads/2016/04/Zoom_Redpower_P210-1.jpg

Complicated

2016-04-08, 15:36:22

Edit: Sehe gerade, dass Skysnake das mit Power8+ (2017) und Power9 (2018) weiter vorne auch schon geschrieben hat.

Also vor 2018 wird das nichts mit Volta und Power9...
Dann hat sich aber etwas geändert in der Roadmap in den letzten 8 Monaten. Das war die aktuellste mir bekannte:
http://www.nextplatform.com/2015/08/10/ibm-roadmap-extends-power-chips-to-2020-and-beyond/
http://www.nextplatform.com/wp-content/uploads/2015/07/ibm-openpower-roadmap-2.jpg

stinki

2016-04-08, 15:48:38

http://vrworld.com/2016/04/08/nvidia-mezzanine-nvlink-connector-pictured/

http://vrworld.com/wp-content/uploads/2016/04/Zoom_Redpower_P210-1.jpg
Danke für den Link, ganz frisch von heute. Damit scheint es Power8+ mit NVLink schon mal zu geben.

stinki

2016-04-08, 15:54:19

Dann hat sich aber etwas geändert in der Roadmap in den letzten 8 Monaten. Das war die aktuellste mir bekannte:
http://www.nextplatform.com/2015/08/10/ibm-roadmap-extends-power-chips-to-2020-and-beyond/
http://www.nextplatform.com/wp-content/uploads/2015/07/ibm-openpower-roadmap-2.jpg

Weiter unten in dem Link spricht IBM aber selber von 2017+.
Und von "New Process Technology". Diesen neuen "14nm" Process von Globalfoundries für IBM will ich aber erst einmal sehen (wie gesagt, ich glaube damit ist nicht 14LPP gemeint).
Aber ich wäre der letzte der sich über einen neuen High Performance Process auf SOI Basis von GF beschweren würde. Das wäre für spätere Zen Implementierungen vielleicht sehr interessant.

Aber wenn Nvidia sich beeilt schaffen sie den 10FF Volta Chip vielleicht noch bis 31.12.2017. Ab spätestens Anfang Q1/2017 will TSMC 10FF in Massenproduktion haben. Das lässt Nvidia 12 Monate für Volta. Länger hat Nvidia für Pascal GP100 auf der 16FF+ TSMC Fertigung auch nicht gebraucht.

Skysnake

2016-04-08, 16:37:13

Was ist daran so aufwendig? Haufenweise PCIe Lanes (aktuell ja doppelt so viele fuer nichtmal dieselbe Bandbreite) rein zu knallen waere ja zum jetzigen Zeitpunkt nicht besser.

Das lässt sich nicht so einfach sagen. Höhere Frequenzen bedeuten extrem mehr Aufwand ab einem gewissen Punkt, und wir wissen ja alles, was für ein Fiasko PCI-E 3.0 am Anfang war.

Und nVLink ist eben totes Silizium, sobald man nicht andere GPUs damit zusammen schaltet, oder aber direkt an die CPU geht. Das ist halt schon eine gewaltige Einschränkung.

Und dann hat es mit dem Standard eh nix mehr zu tun, wenn die Links nur "kreuz und quer" von GPU zu GPU gehen.

Das widerspricht in KEINSTER! weise dem PCI-E Standard. Nur mal so am Rande.

Die Frage ist auch, wie das zum Zeitpunkt der Konzeption aussah (da waren ja auch Partner beteiligt/eingeweiht). Es geht da ja auch in erster Linie darum, was zu bieten, was die Konkurrenz so noch nicht hat.
Damit man einen Vendor Login machen kann?

Ähm....

Ja wirklich geil und Erstrebenswert.... -.-

Godmode

2016-04-08, 16:50:53

Das lässt sich nicht so einfach sagen. Höhere Frequenzen bedeuten extrem mehr Aufwand ab einem gewissen Punkt, und wir wissen ja alles, was für ein Fiasko PCI-E 3.0 am Anfang war.

Und nVLink ist eben totes Silizium, sobald man nicht andere GPUs damit zusammen schaltet, oder aber direkt an die CPU geht. Das ist halt schon eine gewaltige Einschränkung.

Das widerspricht in KEINSTER! weise dem PCI-E Standard. Nur mal so am Rande.

Damit man einen Vendor Login machen kann?

Ähm....

Ja wirklich geil und Erstrebenswert.... -.-

Super Computer sind ja quasi geschlossene System. Man steckt da nicht einfach mal andere Karten rein. Wenn dann wird meistens die ganze Plattform getauscht, inkl. CPUs, Interconnects, etc.

Skysnake

2016-04-08, 17:27:02

Durchaus, aber sofern nVLink nicht einfach ein CAPI Derivat ist, wovon ich noch immer ausgehe an sich, verballert auf allen Chips DIE-Size, mit der man eben nur in der Kombi Power+Pascal etwas anfangen kann.

Dabei gibt es z.B. so Ansätze wie bei DEEP(ER), wo man einfach PCI-E Karten nutzen könnte.

Es ist halt einfach ein krasser Vendor-Login. Und dann auch noch einer, bei dem man zwei Partner unter einen Hut bringen muss. Vor allem "nur" für GPUs. Der stink normale Interconnect kommt ja noch dazu, und das wird kein nVLink sein. Also nochmals einer mehr mit an Bord.

Das gesamte Grundkonzept ist einfach nicht wünschenswert durch den propritären Interconnect. Zumal eben der Unterschied zu PCI-E viel viel viel zu klein ist.

Und abgesehen davon scheint es eben auch ziemlich suboptimal zu sein, wenn man sich die Skalierungstests da anschaut.

<80% skalierung schon innerhalb eines Nodes wo man nVLink mit 160GBit/S pro GPU hat. Wie soll denn da die Skalierung erst ausschauen, wenn man aus dem Node raus muss?

Und bevor jetzt einer mit PizDaint kommt:
Das ist ne Cray mit Aries interconnect, und den werden die auch behalten. Sprich Pascal ist per PCI-E angebunden. Und nein, man sollte nicht davon ausgehen, dass die da 2 Pascal per nVLink miteinander verbinden. Das passt nämlich nicht ins powerbudget der Nodes, und ich glaube wirklich nicht, dass die da was drehen.

Der tolle nVLink ist damit da sehr wahrscheinlich voll fürn Arsch. Und wenn nicht, werden Sie wohl die Pascals runter takten müssen, weil sonst weder Strom noch Kühlung ausreichend sind.

iuno

2016-04-08, 17:31:56

Das widerspricht in KEINSTER! weise dem PCI-E Standard. Nur mal so am Rande.
Das war bloed ausgedrueckt, ich meinte den "standard"-Einsatz wie man es halt kennt mit den Slots und Steck-/Erweiterungskarten, nicht die standardisierte elektronische Anbindung.

Damit man einen Vendor Login machen kann?

Ähm....

Ja wirklich geil und Erstrebenswert.... -.-
Fuer uns nicht, fuer NV schon

AnarchX

2016-04-08, 17:40:04

Skysnake

2016-04-08, 17:45:43

Das war bloed ausgedrueckt, ich meinte den "standard"-Einsatz wie man es halt kennt mit den Slots und Steck-/Erweiterungskarten, nicht die standardisierte elektronische Anbindung.
Tja, das ist schon ein Problem. Man bekommt die Anschlüsse nicht wirklich ohne solche Mezzanine Plätze hin.

Man hätte allerdings auch schauen können, das man das anders löst. PCBs und Stecker sind eine Sache. Komplett eigene Interfaces auf der physikalischen Seite etwas komplett anders.

Es gibt genug "Custom" Lösungen, über die PCI-E geroutet wird. Das ist aber voll auf ok, weil man eben deutlich freier in der Auswahl wird, und man eben je nachdem eben eigene Lösungen anbieten kann.

Ob das jetzt AMD/ARM/Intel auf CPU Seite ist, oder Altera/AMD/Exascaler/Mellanox/nVidia/Xilinx/usw auf der Erweiterungskartenseite ist. Das geht alles. Klar läuft man dann in Lösungen wie bei Cray, wo man durchaus sich an einen Hersteller teilweise bindet, aber die Vorteile sind das durchaus wert, und man muss vor allem (sofern man kein CUDA nutzt) die Applikation in der Regel nur neu compilieren, und das wars dann auch schon.

Hier bauste aber ein ganzes Ökosystem auf. Dabei braucht man eigentlich ein Gegengewicht zu Intel. Was glaubste warum die Amis IBM+nVidia den Arsch ziemlich pudern? Die haben schiss komplett von Intel abhängig zu werden.

Genau dieses Ökosystem ist aber NICHT das was wir wirklich wollen, oder haste bock dich nur zwischen Pest und Kolara entscheiden zu können?

Fuer uns nicht, fuer NV schon
Aber auch nur, wenn die LEute so dumm sind und es mit sich machen lassen....

UND wenn die Partner mitziehen.... Was macht denn nVidia, wenn IBM sich dazu entscheidet, dass das doch zu wenig Marge abwirft und den Aufwand einfach nicht wert ist? Oder man einfach zu viele Probleme hat mit nVidia, und/oder aus welchen Gründen auch immer bei Coral nicht liefern kann wie gewollt.

IBM ist da schneller weg als du schauen kannst.

Foobar2001

2016-04-08, 17:50:30

Mit dem Argument ist jedes Feature optional, denn man kann ALLES irgendwie bei Software emulieren.
Nein. Async compute queues sind explizit optional in der Spec. Das ist kein erforderliches Feature fuer irgend ein Feature-Levels.

Es muss auch nichts emuliert werden, dem Treiber und der Hardware steht es frei es nicht zu unterstuetzen.

Dural

2016-04-08, 17:52:19

300mm2 mit 2560SP wären aber ziemlich gut, da dürften die 3840 ja in ca. 400mm2 passen. mit dem breiteren SI von sagen wir mal 384Bit GDDR5 sind es ca. 450mm2

scully1234

2016-04-08, 18:07:14

AnarchX

2016-04-08, 18:13:56

In einem anderen Thread schreibt er noch, dass GPU-Z da momentan 1152/864SPs erkennt: https://www.chiphell.com/forum.php?mod=redirect&goto=findpost&ptid=1562963&pid=32932835

Da könnte die gezeigte Karte wohl über 36SM/18SMM - 2304SPs (IPC-Vergleich? ;D) verfügen. Vielleicht es die GTX 1070, welche nur ~7.5Gbps GDDR5 einsetzen könnte.

Wenn das jetzt also GP104 ist alias GTX1080/70??? , wo geht dann der GDDR5 X Speicher wohl hin....wenn das mit Quadro und Titan auch noch stimmt,mach ich mich selbststaendig auf nem Jahrmarkt
Ich könnte mir GDDR5X auf der 1080 vorstellen, wohl mit eingeschränkter Verfügbarkeit. Die 1070 wäre hier halt mit 90% des Chips und 70% der Bandbreite nicht so stark beschnitten und stellt das Hauptangebot.

scully1234

2016-04-08, 18:20:55

Ich sag die bekommen beide GDDR5, und Nvidia hat noch nen Chip in petto , der zeitgleich mit ihrer neuen Render Software kommt

Das Releasedatum fuer Iray VR ist einfach zu verdächtig, und schreit foermlich nach ner Quadro zur Computex:smile:

Troyan

2016-04-08, 18:22:54

Der andere Chip ist dann wohl GP106 mit 256bit Interface. Erinnert ein bisschen an G92 und G94, die beide mit 256bit kamen.

Hübie

2016-04-08, 18:28:17

Gut möglich. Dann würde GP102 wohl auch gänzlich ohne HBM2 Interface kommen. Wenn nach wie vor GDDR5 für die X04er-Serie eingesetzt wird, bleibt es ziemlich langweilig. Andererseits könnte ich mich dann wieder entspannt zurück lehnen. :D Mich wurmt es kein HighEnd zu haben.

Edit: Der Transistor-Count wäre grob gesagt ziemlich gleich zu GM200 womit sich eine Packdichte von 21-25 Mio pro mm^2 ergäbe. Zumindest ist das dann gleich zum GP100. Das ist immer noch weit von den 32-37 Mio die vorher immer wieder herum schwirrten. :eek:

scully1234

2016-04-08, 18:47:33

Naja GP102 wuerde mich dann schon wieder versoehnlich stimmen.Da kann das ''weinende'' Auge, schonmal ueber die gestrichene HBM Option hinwegsehen, wennn er dafuer seine dedizierte Auslegung, auf reine Renderperformance voll zum tragen bringt.

Aber so n ''schaebiger'' GP104 auf Augenhoehe von TitanX maaeh weder Fisch noch Fleisch:biggrin:

Ailuros

2016-04-08, 19:06:57

Vielleicht doch ~300mm² für GP104:
https://www.chiphell.com/thread-1563086-1-1.html

Das scheint aber nicht der Chip von der PX2 zu sein, jedenfalls die Bauteilbestückung um den Die.
Der verbaute Speicher ist 8Gbps GDDR5 von Samsung, insofern vielleicht ein Desktop Sample.

Koennte stimmen; vor einiger Zeit zwitscherte jemand den ich nicht als zuverlaessig halte etwas von etwa GK104 die area und <GM200 Transistoren. Wenn man mit der Packdichte herumrechnet ist es nicht allzu schwer die logischere Kombination von die area/Transistoren-Menge auszurechnen.

Der andere Chip ist dann wohl GP106 mit 256bit Interface. Erinnert ein bisschen an G92 und G94, die beide mit 256bit kamen.

Hmmmm wie waere es mit GDDR5 fuer den einen und den anderen GDDR5x?

Edit: Der Transistor-Count wäre grob gesagt ziemlich gleich zu GM200 womit sich eine Packdichte von 21-25 Mio pro mm^2 ergäbe. Zumindest ist das dann gleich zum GP100. Das ist immer noch weit von den 32-37 Mio die vorher immer wieder herum schwirrten. :eek:

Nimmt man die angebenen 15.35*19.18 landet man bei 294mm2. Bei der kleinsten Transistoren-Anzahl 7.4b sind es 25.2Mio/mm2. So 24/25 klingt durchaus logisch IMHO.

Sonst verstehe ich den Text zwar nicht im link aber zwischen dem komischen 2560 vs 3072SP Dilemma, das erste fuer mich. Moment schreiben die jetzt von uns ab oder anders rum? :D