nVidia - Pascal - GP100 - 2016 - 3D-Memory HBM, NVLINK, Mixed Precision [Archiv] - Seite 13

Anmelden

Archiv verlassen und diese Seite im Standarddesign anzeigen : nVidia - Pascal - GP100 - 2016 - 3D-Memory HBM, NVLINK, Mixed Precision

Seiten : 1 2 3 4 5 6 7 8 9 10 11 12 [13] 14 15 16 17 18 19 20 21 22 23 24 25 26

Nakai

2016-04-05, 19:24:18

Tesla P100:

15 Billion Transistors

iuno

2016-04-05, 19:24:52

Tesla P100 :up:

Winter[Raven]

2016-04-05, 19:25:04

Tesla P100:

15 Billion Transistoren

miliarden

fondness

2016-04-05, 19:25:14

10.6 TFLOPs FP32, 5.3 TFLOPs FP64. 15 Mrd Transistoren.

Godmode

2016-04-05, 19:25:20

OMG...

Ailuros

2016-04-05, 19:26:07

1:2 DP? WTF!!!

Nakai

2016-04-05, 19:26:18

FP64:FP32:FP16 => 1:2:4 => 5,3 TFLOPs:10,6TFLOPs:21,2TFLOPs

€: Juhu, DP:SP-1:2

w0mbat

2016-04-05, 19:26:34

Tesla P100:

15 Billion Transistors

Ich bin mir sicher, dass er "ONEHUNDRED AND FIFTY BILLION" gesagt hat. :ugly:

Godmode

2016-04-05, 19:27:03

Ich bin mir sicher, dass er "ONEHUNDRED AND FIFTY BILLION" gesagt hat.

Natürlich, steht ja so auch auf der Folie. :freak:

Ailuros

2016-04-05, 19:27:16

150B Transistors is undoubtedly counting the RAM, BTW

Was fuer ein Bloedsinn....

M4xw0lf

2016-04-05, 19:27:26

Hat jemand mal den Titel des Threads gelesen? Genau das würde man doch erwarten für die FP64/32/16 Performance.

fondness

2016-04-05, 19:27:26

10.6 TFLOPs FP32 kommt mir etwas mager vor. TITAN X hat ~7 TFLOPs AFAIK.

Effe

2016-04-05, 19:27:35

5 Miracles!!!!!

Hübie

2016-04-05, 19:27:43

14 MB. :D Also damit kann man preemption machen, schätz ich.

Nakai

2016-04-05, 19:27:51

Das Ding besteht nur aus MixedPrecision FP64-Units.

€: 600mm² Finfet

w0mbat

2016-04-05, 19:28:09

600mm² WTF??!!

Ailuros

2016-04-05, 19:28:32

:( jetzt brauchen wir eigentlich eine GP102 Ankuendigung

Godmode

2016-04-05, 19:28:43

600mm² WTF??!!

Jop... :confused:

Nakai

2016-04-05, 19:29:26

edit

;D

€: Hätte ich auch nicht erwartet.

€2: 25 Mio Transistoren/mm2

scully1234

2016-04-05, 19:30:14

Das Ding besteht nur aus MixedPrecision FP64-Units.

€: 600mm² Finfet

Jupp buy buy Geforce

Troyan

2016-04-05, 19:30:15

Samsung macht HBM2.

iuno

2016-04-05, 19:31:10

Warum nicht? es ging doch immer um 1:2 :confused:
600mm² ist schon brutal, die Angabe mit den Transistoren inkl RAM ist nateurlich laecherlich. Die 16 GiB haben ja alleine schon > 128 Mrd

Ailuros

2016-04-05, 19:31:14

;D

€: Hätte ich auch nicht erwartet.

€2: 25 Mio Transistoren/mm2

Wieso sind es jetzt 17b oder weniger fuer GP100? Wenn es immer noch 17b sind, sind es 28Mio.

***edit: ich will hoffen dass GP100 heute in Massenproduktion liegt.

w0mbat

2016-04-05, 19:31:31

Volume production läuft schon für P100!

Nakai

2016-04-05, 19:31:31

Volume Production Today

fondness

2016-04-05, 19:31:58

Wieso sind es jetzt 17b oder weniger fuer GP100? Wenn es immer noch 17b sind, sind es 28Mio.

Es sind 15 Mrd Transistoren.

Hübie

2016-04-05, 19:32:23

Volume Production Today

:D Ja mal sehen was die Leute dann wieder sagen...

iuno

2016-04-05, 19:33:04

Volume Production Today
Warum haelt er dann nicht wenigstens eins hoch? War das schon auf den Chip selber bezogen? Es gibt ja nichtmal Bilder
:rolleyes:

fondness

2016-04-05, 19:33:17

Q1 2017 in Produkten. Volume Production ist offenbar auch ein dehnbarer Begriff.

Nakai

2016-04-05, 19:33:25

Es sind 15 Mrd Transistoren.

Dachte ich auch. Also 15Mrd+.

€:
Q1 2017 im Produkten.

Mhh, bitter.

Troyan

2016-04-05, 19:33:53

Q1 2017 im Produkten.

Q1 in Serversystemen. "Shipping is soon"

Blediator16

2016-04-05, 19:33:55

:D Ja mal sehen was die Leute dann wieder sagen...

Die Leute könnten recht haben, wenn sie vorher gesagt haben, dass dieses Jahr nichts mehr mit BigBoy wird.

fondness

2016-04-05, 19:34:10

Dachte ich auch. Also 15Mrd+.

Warum 15+? Die Angabe war eindeutig 15 Mrd Transistoren.

Ailuros

2016-04-05, 19:34:47

:D Ja mal sehen was die Leute dann wieder sagen...

Du darfst Fottemberg das Micro reichen, er hat sicher interessantes zu erzaehlen.

***edit: sonst egal ob 15 b oder mehr Transistoren es loest endlich das Raetsel mit der Packdichte ;)

Godmode

2016-04-05, 19:35:24

Warum 15+? Die Angabe war eindeutig 15 Mrd Transistoren.

Nein die Angabe war 150 Mrd. weil er auch den Ram mitzählt. Was der Chip alleine hat, hat er nicht gesagt.

Edit: Vor einem Jahr sagten sie ja schonmal, dass das Ding 17-18 Mrd. haben wird.

Blediator16

2016-04-05, 19:35:55

Nein die Angabe war 150 Mrd. weil er auch den Ram mitzählt. Was der Chip alleine hat, hat er nicht gesagt.

Ich meine auch 15b gehört zu haben.

DGX-1 3200 Watts

fondness

2016-04-05, 19:36:16

Okay dann habe ich mich verlesen :weg:

Hübie

2016-04-05, 19:36:41

http://abload.de/img/dgx-1y1stc.png (http://abload.de/image.php?img=dgx-1y1stc.png)

Edit: @Ailuros: ;D ;D ;D Hahahaaa mmd

@fondness: Das kommt wohl immer von der Verwirrung mit Mrd<->Bil. 150 Mrd sind 128 für RAM und 22 für GPU. Das ist sehr grob.

Nakai

2016-04-05, 19:36:41

Ich meine auch 15b gehört zu haben.

Me 2.

Ergo abwarten.

Complicated

2016-04-05, 19:36:59

Schon sexy präsentiert Das DXG :D

scully1234

2016-04-05, 19:37:31

2 Stunden um dem Ding das beizubringen:freak:

iuno

2016-04-05, 19:37:38

Nein die Angabe war 150 Mrd. weil er auch den Ram mitzählt. Was der Chip alleine hat, hat er nicht gesagt.
Doch, meine auch 15 gehoert zu haben.

128+ gehen auf den DRAM, noch ein bisschen was auf die base dies vom HBM, das kommt schon hin (also die 150er Angabe, mit den 15 bleibt natuerlich verhaeltnismaessig viel Spielraum da)

Blediator16

2016-04-05, 19:37:43

Schon sexy präsentiert Das DXG :D

Ich gehe mal davon aus, dass sie noch nichts da haben, sonst würden sie es wenigstens zeigen.

w0mbat

2016-04-05, 19:38:19

Er hat sowohl 15B als auch 150B gesagt. Ob das ein Versprecher war, oder ob das wirklich GPU- bzw. Gesamt-Transistoren sind werden wir sehen.

Ailuros

2016-04-05, 19:39:20

Mein Bauchgefuehl sagt mir 40 SMMs...

Nakai

2016-04-05, 19:40:09

Mein Bauchgefuehl sagt mir 40 SMMs...

Ich hoffe das wird dann aufgeklärt.

Complicated

2016-04-05, 19:41:17

Er hat 150 billion gesagt und für das gesamte Package (also inkl. RAM). Das war halt typisch Nvidia Zählweise. Später dann hat er, meine ich, kurz vor den 600mm² 15 billion für den Chip gesagt - da bin ich aber nicht mehr ganz sicher. Kurz vorher hat er GM200 erwähnt mit 7 billion.

scully1234

2016-04-05, 19:41:41

also ich plaediere doch wieder fuer den alten Jensen:freak:

Winter[Raven]

2016-04-05, 19:42:45

War ist das für ein Knilch...

Ailuros

2016-04-05, 19:43:35

;10993475']War ist das für ein Knilch...

ich wollte auch gerade sagen wer den Affen auf die Buehne gelassen hat....also doch lieber Jensen.... :weg:

scully1234

2016-04-05, 19:43:52

:tongue:

Hübie

2016-04-05, 19:44:29

Also GM200 hat ~8,1 Mrd. GP100 ~17. Also sind seine 7 auch ...meh :freak:

w0mbat

2016-04-05, 19:45:06

Er hilft mir aber sehr dabei, dass ich meinen Haarausfall als positiv sehen kann. Lieber wenig Haare also die Möglichkeit, so auszusehen :ugly:

MadManniMan

2016-04-05, 19:45:26

25 Mio. Transis pro mm² - wie sieht das bei den 28-nm-Chips aus?

Troyan

2016-04-05, 19:45:39

Hallo Pascal:
https://devblogs.nvidia.com/parallelforall/wp-content/uploads/2016/04/gp100_block_diagram-1-624x368.png
https://devblogs.nvidia.com/parallelforall/inside-pascal/

/edit: P100 hat 56SM. Der komplette Chip hat 60SM mit je 64SP anstelle von 128SP bei Maxwell.

fondness

2016-04-05, 19:46:41

Es sind 15 Mrd Transistoren für GP100, das schrieben auch mehrere Webseiten so - habe ich mich also doch nicht verhört.

Ailuros

2016-04-05, 19:46:45

https://devblogs.nvidia.com/parallelforall/inside-pascal/

heiliger Bimbam.....:eek:

iuno

2016-04-05, 19:46:54

3840 CUDA cores nur :eek:
d.h. 1,4 GHz Takt, bei der Packdichte? :confused:

Edit, da steht's ja: 1480 MHz boost :eek:

Naennon

2016-04-05, 19:47:00

;10993475']War ist das für ein Knilch...

einer der sich morgens einfach so einen nagelneuen Lambo kaufen kann

Hübie

2016-04-05, 19:47:12

25 Mio. Transis pro mm² - wie sieht das bei den 28-nm-Chips aus?

~14 Mio/mm². Es wird wohl mehr als 25 Mio sein.

Nakai

2016-04-05, 19:47:55

Ich lach mir gerade ins Fäustchen.

GCN-artige SMs:

Pro SM:
64 SPs
4 TMUs

fondness

2016-04-05, 19:48:02

15.3 Mrd Transistoren um genau zu sein, danke für den Link. :D
Sehr hoher Takt BTW^^

TDP steigt auf 300W.

scully1234

2016-04-05, 19:48:45

Die haben ja auch nen APU

Godmode

2016-04-05, 19:49:07

3840 CUDA cores nur :eek:
d.h. 1,4 GHz Takt, bei der Packdichte? :confused:

Edit, da steht's ja: 1480 MHz boost :eek:

Ja, das wundert mich auch gerade etwas: 3584*2*1,48 = 10,6 TFLop/s FP32.

Und 300W TDP steht auch noch in der Tabelle.

Troyan

2016-04-05, 19:49:35

Ich lach mir gerade ins Fäustchen.

GCN-artige SMs:

Pro SM:
64 SPs
4 TMUs

Fermi. ;)

Fast 1500Mhz und Leute reden davon, dass FinFet keine höheren Taktraten erlauben würde. :freak:

/edit: Fermi hatte 1400MHz als Shaderclock.

fondness

2016-04-05, 19:50:16

http://s16.postimg.org/rf78hnysl/Clipboard01.jpg (http://postimage.org/)

https://devblogs.nvidia.com/parallelforall/inside-pascal/?ClickID=b1f6e1fgqkusm16feeqqfsgknve1fn1vvgyg

AnarchX

2016-04-05, 19:50:37

Immerhin 1,33GHz Base. Da schafft GP104 vielleicht >1,4GHz.

iuno

2016-04-05, 19:50:39

Ja, das wundert mich auch gerade etwas: 3584*2*1,48 = 10,6 TFLop/s FP32.

Ist kein Vollausbau, nur 3584/3840 aktiv auf der Tesla P100...
wow:freak:

scully1234

2016-04-05, 19:50:50

Fast 1500Mhz und Leute reden davon, dass FinFet keine höheren Taktraten erlauben würde. :freak:

Ja dann mal her mit dem GP104, dann ist der doch vielleicht zu gebrauchen, als Titan X Replacement

Ailuros

2016-04-05, 19:51:23

~14 Mio/mm². Es wird wohl mehr als 25 Mio sein.

Es steht 610mm2 im link oben; sie haben einfach nicht die Packdichte voll ausgenutzt und haben noch etwas in Takt investiert.

Nakai

2016-04-05, 19:51:23

Fermi. ;)

Fast 1500Mhz und Leute reden davon, dass FinFet keine höheren Taktraten erlauben würde. :freak:

/edit: Fermi hatte 1400MHz als Shaderclock.

Nein, Fermi hatte 32 SPs pro SM.

Aber ja, die Konfiguration geht wieder in Richtung Fermi eher.

Troyan

2016-04-05, 19:52:23

Nein, Fermi hatte 32 SPs pro SM.

Aber ja, die Konfiguration geht wieder in Richtung Fermi eher.

Fermi hatte doppelten Takt für die Shaders - ergo waren es 64Cores pro Cluster.

fondness

2016-04-05, 19:52:32

Fast 1500Mhz und Leute reden davon, dass FinFet keine höheren Taktraten erlauben würde. :freak:

Naja, in Wahrheit hat man das Taktpotential mit Maxwell schlicht nicht ausgenutzt, was man jetzt wohl tut. Mal sehen ob da noch sonderlich OCing geht^^. Die TDP der Tesla P100 steigt auch auf 300W, keine Kleinigkeit.

Nakai

2016-04-05, 19:53:15

Ich wollte es nicht sagen, aber das Ding wird praktisch nur FP64 Einheiten haben, welche sich auf 2 FP32 splitten lassen. Diese wiederrum sind splittbar auf 2 FP16.

Deswegen hat man nur 3840 SPs.

€: Packdichte: ziemlich genau 25 Mio Transen/mm²

iuno

2016-04-05, 19:54:27

Fehlen jetzt eigentlich Raster Engines usw.? Also ein reiner Tesla Chip?
Auf dem Blockdiagramm ist mal nichts zu sehen

Effe

2016-04-05, 19:54:36

129K. Ein Schnapper!

Hübie

2016-04-05, 19:54:52

Es steht 610mm2 im link oben; sie haben einfach nicht die Packdichte voll ausgenutzt und haben noch etwas in Takt investiert.

Ja scheint wohl so. Jetzt stelle man sich mal die ganzen FP64 Units vor, streiche diese und ersetze diese mit FP32 ALUs. Ein wahres Gamer-Beast :freak: GP102?

Edgecrusher86

2016-04-05, 19:55:04

Pascal TITAN Black Q3 2017?! ;D

Überraschend hohe Taktraten, gerade für TESLA - ich hätte dann doch eher wie Ailuros mit bis zu 5120 SPs und z.B. 1035 MHz für die 10,6 TFLOP/s gerechnet.

Troyan

2016-04-05, 19:57:16

Ich wollte es nicht sagen, aber das Ding wird praktisch nur FP64 Einheiten haben, welche sich auf 2 FP32 splitten lassen. Diese wiederrum sind splittbar auf 2 FP16.

Nö, laut nVidia weiterhin FP32 und FP64 Einheiten:
https://devblogs.nvidia.com/parallelforall/wp-content/uploads/2016/04/gp100_SM_diagram-624x452.png

Nakai

2016-04-05, 19:57:28

Mixed Precision for Deep Learning. Außerdem musste man mit der FP64-Performance hochgehen.

Das Resultat ist GP100.

Ailuros

2016-04-05, 19:57:51

Ja scheint wohl so. Jetzt stelle man sich mal die ganzen FP64 Units vor, streiche diese und ersetze diese mit FP32 ALUs. Ein wahres Gamer-Beast :freak: GP102?

Nein danke; ein GP102 sollte IMO kleiner sein und nicht mehr als 250W verbrauchen. Aber "point taken"; uebrigens ist die erste Pascal Tesla auf fast 16 GFLOPs DP/W welches schon eine ziemlich hohe Rate ist.

iuno,

Ausser ich hab etwas verpasst bei 5 GPCs sind es dann auch 5 rasterizers.

Godmode

2016-04-05, 19:59:05

Nö, laut nVidia weiterhin FP32 und FP64 Einheiten:
https://devblogs.nvidia.com/parallelforall/wp-content/uploads/2016/04/gp100_SM_diagram-624x452.png

Und auch die Texture Units mit an Board...

Blediator16

2016-04-05, 19:59:24

Also wie es aussieht basteln die sich da gerade ein geschlossenes Ökosystem was seinesgleichen sucht...

AnarchX

2016-04-05, 19:59:42

Ausser ich hab etwas verpasst bei 5 GPCs sind es dann auch 5 rasterizers.
6 GPC und 4 TMUs je SM (also bis zu 240 bei 60SM). Insgesamt wohl ein sehr guter 3D-Chip, sofern verfügbar.

fondness

2016-04-05, 20:00:20

Ja scheint wohl so. Jetzt stelle man sich mal die ganzen FP64 Units vor, streiche diese und ersetze diese mit FP32 ALUs. Ein wahres Gamer-Beast :freak: GP102?

GP102 610mm²? I doubt it. ;)

iuno

2016-04-05, 20:00:39

FP64 Units werden auch in der Tabelle extra gelistet.
Haetten sie sicher angepriesen, wenn sie jetzt mit einer einzigen Einheit FP64/2xFP32/4xFP16 koennten.

Schon seltsam. Ich wuerde jetzt noch einen GM102 erwarten, ohne FP64 und mit mehr FP32 Units, andererseits waere das ja auch fuer Deep Learning interessant...

Naennon

2016-04-05, 20:01:56

was nun..

3840 oder 3584 Cores?

Hübie

2016-04-05, 20:03:34

Krass finde ich gerade, wie lange es eigentlich dauerte, bis man die Strategie auch umgesetzt hat. Ich hatte 2012 da mal ein sehr interessantes Gespräch und damals war Pascal glaub ich noch gar nicht geplant. Man wusste jedoch schon, dass man sich auftrennen muss, da die Anforderungen und Bedürfnisse zu stark voneinander abweichen. Man hat sich also mit einem Gamerchip einen Markt geschaffen, der jetzt dediziert und exklusiv bedient wird. Interessant. Also wer Aktien kaufen möchte sollte das jetzt noch machen. ;D Der ROI sollte in einigen Jahren sehr positiv sein.

fondness

2016-04-05, 20:03:55

uebrigens ist die erste Pascal Tesla auf fast 16 GFLOPs DP/W welches schon eine ziemlich hohe Rate ist.

Ein alter Hawaii schafft 9,7 DP-FLOPs/Watt in 28nm und nur 438mm².

Troyan

2016-04-05, 20:04:15

60SM bedeutet 2,5x Tessellationleistung gegenüber GM200. Wird langsam Zeit, dass die Konsolenentwickler endlich mal anfangen diese Transistoren auch zu nutzen.

iuno

2016-04-05, 20:04:15

was nun..

3840 oder 3584 Cores?

GP100: 3840
Auf Tesla P100: 3584 (teildeaktiviert)

Ein alter Hawaii schafft 9,7 DP-FLOPs/Watt in 28nm und nur 438mm².
Im Ernst, wenn der vergleichbare Vega etwa zur gleichen Zeit kommt, wird das unschoen (rein von den Specs natuerlich, Oekosystem usw. aussen vor)...

Raster Engines waren auf den alten Blockschaltbildern immer klar sichtbar eingezeichnet, hier sehe ich die halt nicht. Das Bild ist aber auch sehr klein
Vgl. GM200: http://www.pcgameshardware.de/screenshots/1020x/2015/03/GM200_Block_Diagram-pcgh.PNG
GP100: https://devblogs.nvidia.com/parallelforall/wp-content/uploads/2016/04/gp100_block_diagram-1-624x368.png
Vielleicht aber hier auch nur weggelassen, weil fuer Tesla unbedeutend

scully1234

2016-04-05, 20:04:46

was nun..

3840 oder 3584 Cores?

3584 bei dem Boosttakt

Hübie

2016-04-05, 20:05:22

Hahahaaaa.... Der Spruch mit dem Zoom war jetzt geil. :D

Naennon

2016-04-05, 20:06:10

GP100: 3840
Auf Tesla P100: 3584 (teildeaktiviert)

alles klar danke, also jede Gamerkarte die nicht 3840 hat = salvage/cut ;)

fondness

2016-04-05, 20:08:25

alles klar danke, also jede Gamerkarte die nicht 3840 hat = salvage/cut ;)

Bei den zu erwartenden Yields in 16nm FinFET und 610mm² wird das länger dauern mit den 3840 SPs. ;)
Wenn nicht mal die Tesla einen vollen Chip bekommt, dann schon gar nicht Gamer^^

scully1234

2016-04-05, 20:08:36

@Naennon
Die kommt so nicht als Gamerkarte mit den FP64 Einheiten

Da kommt was vollkommen losgeloessstes:smile:

Und nach dem Taktpotential fuer ne TESLA bin ich nun doch n bisschen gehypet fuer den GP104

Obwohl so n grosser GP102 mmmh....

Mancko

2016-04-05, 20:09:06

Also wie es aussieht basteln die sich da gerade ein geschlossenes Ökosystem was seinesgleichen sucht...

Was heißt gerade :) ? Daran arbeiten die schon eine ganze Weile und mit jeder Generation ein bisschen mehr.

Ailuros

2016-04-05, 20:10:22

Ein alter Hawaii schafft 9,7 DP-FLOPs/Watt in 28nm und nur 438mm².

Um nach der Kurve mit Fiji in eine Sackgasse zu rennen fuer DP.

Hübie

2016-04-05, 20:13:11

Bei den zu erwartenden Yields in 16nm FinFET und 610mm² wird das länger dauern mit den 3840 SPs. ;)
Wenn nicht mal die Tesla einen vollen Chip bekommt, dann schon gar nicht Gamer^^

Was sind denn die zu erwartenden Yields? :confused:

M4xw0lf

2016-04-05, 20:13:21

Um nach der Kurve mit Fiji in eine Sackgasse zu rennen fuer DP.
Ist doch irrelevant, da mit Polaris und Vega ebenfalls Nachfolger anstehen. Maxwell ist in Sachen DP(/W) ja auch ein Ausfall.

just4FunTA

2016-04-05, 20:13:31

roborace hell yeah, also das muß kommen und die Strecken sollten ala wipeout sein. :)

Nakai

2016-04-05, 20:14:41

So Ende und damit sollte klar sein, dass GP100 für Gamer wohl nicht kommt. Dafür kommt GP102 nächstes Jahr.

€: GP100 ist doch eine Überraschung geworden, irgendwie...

woodsdog

2016-04-05, 20:14:55

roborace - ja ne is klar...

Godmode

2016-04-05, 20:16:03

So Ende und damit sollte klar sein, dass GP100 für Gamer wohl nicht kommt. Dafür kommt GP102 nächstes Jahr.

€: GP100 ist doch eine Überraschung geworden, irgendwie...

Es gibt aber keinen Grund, warum man das Ding nicht für Gamer bringen sollte, außer eventuell einem zu hohen Preis.

Insgesamt freue ich mich auf die Pascal GPUs und auch die GP140 Pessimisten können wohl aufatmen.

Ailuros

2016-04-05, 20:16:09

Ist doch irrelevant, da mit Polaris und Vega ebenfalls Nachfolger anstehen. Maxwell ist in Sachen DP(/W) ja auch ein Ausfall.

Es sollte nur heissen dass eventuell beide IHVs fuer Fiji bzw. GM200 einen grossen Brocken von FP64 weglassen mussten, einfach weil ihnen die die area unter 28HP ausgegangen ist.

Bleibt abzusehen wie Vega im Bereich DP GFLOPs/W aussehen wird. Wobei es eigentlich 17.7 GFLOPs FP64 auf P100 sind.

woodsdog

2016-04-05, 20:17:12

naja... etwas arg viel Materialschlacht für praktisch kaum mehrleistung? 3500ish shader@1,4GHz ist jetzt irgendwie nich so pralle für Gamer

scully1234

2016-04-05, 20:17:58

Es gibt aber keinen Grund, warum man das Ding nicht für Gamer bringen sollte, außer eventuell einem zu hohen Preis.

.

Bei der DP Ratio ist das ja Siliziumverschwendung und an der Grenze zur Dekadenz:biggrin:

iuno

2016-04-05, 20:19:00

Um nach der Kurve mit Fiji in eine Sackgasse zu rennen fuer DP.
Und wozu haette Fiji DP bekommen sollen mit seinen laecherlichen 4 GiB?

AMD wuerde theoretisch schon ein doppelter Hawaii mit HBM reichen, um das Teil in dieser Hinsicht alt aussehen zu lassen. das ist imho schon ein bisschen lachhaft.
Wieso hat es AMD es damals bei Hawaii schon hinbekommen mit FP64/FP32 und Nvidia mit Pascal nicht?
Ich denke, sie haben sie es nicht hinbekommen, 16/32/64 mit denselben Units zu machen und fanden 16 letztendlich wichtiger? :confused:

Godmode

2016-04-05, 20:19:19

Bei der DP Ratio ist das ja Siliziumverschwendung und an der Grenze zur Dekadenz:biggrin:

Das war es auch schon bei GK110 und würde mich erstmal nicht abhalten so ein Ding zu kaufen.

naja... etwas arg viel Materialschlacht für praktisch kaum mehrleistung? 3500ish shader@1,4GHz ist jetzt irgendwie nich so pralle für Gamer

Die FP32 Leistung steigt - verglichen mit GM200 - doch um gute 60-70% an, wie erwartet. Für GP102 könnte das dann natürlich noch etwas mehr sein oder eben ein deutlich kleinerer Chip.

Troyan

2016-04-05, 20:21:17

naja... etwas arg viel Materialschlacht für praktisch kaum mehrleistung? 3500k shader@1,4GHz ist jetzt irgendwie nich so pralle für Gamer

Nein. Weniger Cores, dafür bessere Auslastung. Außerdem mehr Cache, mehr Geometrieeinheiten, besseres "Preemption" etc.

Schau dir Maxwell an - 6% mehr Cores, dafür >50% Mehrleistung. Und der Takt hier ist noch höher als bei GM200.
GTX780TI: 920Mhz (Boost)
TitanX: 1100MHz (Boost)
P100: 1480Mhz (Boost)

Dazu auch noch 3x Bandbreite.

Hübie

2016-04-05, 20:22:40

Godmode

2016-04-05, 20:24:19

Das man GP100 nicht in seinen Rechner stecken kann wurde bereits mehrmals gesagt und nun glaubt es hoffentlich auch der allerletzte :D War ja nur nicht klar wer, wer ist. Um GP102 ist es auch verdächtig still, also wer weiß was uns da wirklich erwartet. Ich kann mich jedenfalls entspannt zurück lehnen und schaffe es hoffentlich bis Volta...

Warum sollte man GP100 nicht in den Rechner stecken können? Package mit Chip+HBM+Interposer auf ne GPU Platine und fertig ist die Karte. NVLink braucht man ja nicht nach außen führen. Einzig der Preis könnte etwas problematisch sein.

scully1234

2016-04-05, 20:24:23

Das war es auch schon bei GK110 und würde mich erstmal nicht abhalten so ein Ding zu kaufen.
.

Ja stimmt der war auch so ''schlimm'' ,aber mittlerweile sollte man ja davon ausgehen ,das der Lernprozess Nvidia eine zweite Geforce Fertigungslinie bei TSMC zulaesst

Ich waere ja fuer mehr FP32 und knueppel dicke 1,8 GHZ unter Wasser wer noch:smile:

woodsdog

2016-04-05, 20:25:46

achso... dann sind das 3500 FP64 die geteilt werden können?

W4RO_DE

2016-04-05, 20:25:53

GP102 kommt zur Computex als Titan, GP104 passenderweise zur Gamescom und damit auch dem Weihnachtsgeschfäft, und der kastrierte GP102 dann Anfang 2017.

So, genug Kaffeesatz für heute. :)

Godmode

2016-04-05, 20:26:53

Ja stimmt der war auch so ''schlimm'' ,aber mittlerweile sollte man ja davon ausgehen ,das der Lernprozess Nvidia eine zweite Geforce Fertigungslinie zulaesst

Ich waere ja fuer mehr FP32 wer noch:smile:

Ich denke die machen den GP102 Chip einfach viel kleiner, als GP100. Damit wird das ganze dann auch für die "armen" Spieler leistbar und man kann später nochmal mit einem 600mm2 Monster nachlegen.

achso... dann sind das 3500 FP64 die geteilt werden können?

Nein, es ist die Hälfte, aber bei NV werden ja immer zwei FLOP pro SP ausgespuckt. Wie es intern aussieht, wird man wohl eher nicht erfahren.

aufkrawall

2016-04-05, 20:28:43

Das war es auch schon bei GK110 und würde mich erstmal nicht abhalten so ein Ding zu kaufen.

Die 780 war doch ziemlich lame, von der 770 ausgehend.
Könnte wieder ähnlich sein, und diesmal könnten sie sogar den Doppelt-Salvage versuchen als Titan anzudrehen.
Hoffentlich durchkreuzt AMD diesen Wahnsinn.

Godmode

2016-04-05, 20:29:26

Die 780 war doch ziemlich lame, von der 770 ausgehend.
Könnte wieder ähnlich sein, und diesmal könnten sie sogar den Doppelt-Salvage versuchen als Titan anzudrehen.
Hoffentlich durchkreuzt AMD diesen Wahnsinn.

Ich hatte ja auch ne Titan und die war nicht so schlecht, gerade mit Mod-BIOS.

fondness

2016-04-05, 20:29:28

Die FP32 Leistung steigt - verglichen mit GM200 - doch um gute 60-70% an, wie erwartet. Für GP102 könnte das dann natürlich noch etwas mehr sein oder eben ein deutlich kleinerer Chip.

Die Frage ist wieviel übrig bleibt, wen man OC vs. OC vergleicht. Bei Maxwell wurde ja schon sehr viel Takt liegen gelassen, den man nun mit Pascal auch ausnutzt.

Ailuros

2016-04-05, 20:29:49

Und wozu haette Fiji DP bekommen sollen mit seinen laecherlichen 4 GiB?

AMD wuerde theoretisch schon ein doppelter Hawaii mit HBM reichen, um das Teil in dieser Hinsicht alt aussehen zu lassen. das ist imho schon ein bisschen lachhaft.
Wieso hat es AMD es damals bei Hawaii schon hinbekommen mit FP64/FP32 und Nvidia mit Pascal nicht?
Ich denke, sie haben sie es nicht hinbekommen, 16/32/64 mit denselben Units zu machen und fanden 16 letztendlich wichtiger? :confused:

Es soll heissen dass dedizierte FP64 Einheiten zwar mehr die area kosten aber angeblich weniger Strom verbrauchen sollen. Wir hatten schon einige Debatten hier darueber und es ist zwar wenige nur davon ueberzeugt hier im Forum, aber ein paar waschreine engineers die ich ausserhalb NV damals fragte sprachen schon fuer die Wahrscheinlichkeit dass Strom gespart wird. Damals sagte man mir auch dass nur fuer synthesis eine jegliche FP64 Einheit unter 28LP TSMC bei 1GHz 0.025mm2 einnimmt.

Ich halbiere es mal theoretisch fuer 16FF+ und es sind dann 0.0125mm2/SP.
Bei 60 SMMs * 32 FP64 SPs * 0.0125mm2 = 24mm2 . Den Unterschied zwischen einem LP Prozess und 16FF+ schenk ich Dir fuer die hoehere Frequenz LOL :D

Synthesis ist zwar nur ein Anteil der Geschichte, denn der grosse Aufwand geht in die ganzen Datenleitungen etc, aber dafuer ist 1:2 DP/SP aus den gleichen ALUs auch nicht gerade umsonst. Ich kann Dir jetzt zwar nicht sagen wie hoch das Prozentual sein koennte von den 610mm2 die estate, aber so gigantisch wie es ausgemacht wird ist es nun auch wieder nicht. Man sollte eben bedenken dass bei kleineren chips als beim P100 DP eben nicht ganz entfernt wird, sondern ein grosser Anteil dieser.

Godmode

2016-04-05, 20:34:00

Die Frage ist wieviel übrig bleibt, wen man OC vs. OC vergleicht. Bei Maxwell wurde ja schon sehr viel Takt liegen gelassen, den man nun mit Pascal auch ausnutzt.

Das wird natürlich wirklich sehr spannend, ich gehe auch von weniger OCing Potenzial aus. Mein GM200 @1,5 GHz schafft ja ca. 9,2 TFlop/s in FP32 Berechnungen. GP100 müsste dann schon 2,1 GHz schaffen, damit ich meine 70% Mehrleistung bekomme.

aufkrawall

2016-04-05, 20:36:13

Ich hatte ja auch ne Titan und die war nicht so schlecht, gerade mit Mod-BIOS.
Die war ja auch nur 1x Salvage und es gab keine Konkurrenz.

Warum bist du eigentlich so heiß auf Pascal? Die Spiele-Entwicklung legt immer stärkeren Fokus auf GCN und Vega scheint wohl eher vor GP100 kaufbar zu sein.
Wenn GP104 nicht nennenswert mehr Takt als Maxwell-OC mitmacht, wir das auch nicht der Überflieger.

fondness

2016-04-05, 20:36:42

BTW, eine Zahl hat NV wohl bewusst nicht aufgeführt:

FP32 TFLOPs/Watt:
Tesla M40 / GM200 (Maxwell): 27,377664
Tesla P100 / GP100 (Pascal): 35,36213333333333

Eine Steigerung von nicht mal 30% trotz HBM und 16nm FinFET bei GP100.

Godmode

2016-04-05, 20:38:12

Die war ja auch nur 1x Salvage und es gab keine Konkurrenz.

Warum bist du eigentlich so heiß auf Pascal? Die Spiele-Entwicklung legt immer stärkeren Fokus auf GCN und Vega scheint wohl eher vor GP100 kaufbar zu sein.
Wenn GP104 nicht nennenswert mehr Takt als Maxwell-OC mitmacht, wir das auch nicht der Überflieger.

Ich kaufe immer das schnellste. Wenn AMD liefert, wechsle ich gerne mal in das andere Lager. Ach was heißt wechseln, ich habe ihnen ja gerade 6x R9 380X abgekauft. :tongue:

BTW, eine Zahl hat NV wohl bewusst nicht aufgeführt:

FP32 TFLOPs/Watt:
Tesla M40 / GM200 (Maxwell): 27,377664
Tesla P100 / GP100 (Pascal): 35,36213333333333

Eine Steigerung von nicht mal 30% trotz HBM bei GP100.

Die TDP von 300 Watt könnte für DP gemeint sein. SP kostet normalerweise deutlich weniger Strom.

Ailuros

2016-04-05, 20:43:54

Die TDP von 300 Watt könnte für DP gemeint sein. SP kostet normalerweise deutlich weniger Strom.

Ist doch wurscht; ein so grosser chip auf einem so neuen chip kann wohl nichts besseres erreichen. Bei Vollausbau und 2 metal spins waere ich sehr ueberrascht wenn sie nicht die 40 GFLOP Grenze sprengen. Ich hab um ehrlich zu sein um einiges weniger DP TFLOPs erwartet.

AnarchX

2016-04-05, 20:45:27

fondness

2016-04-05, 20:46:39

Die TDP von 300 Watt könnte für DP gemeint sein. SP kostet normalerweise deutlich weniger Strom.

Möglich, aber ich nehme doch an, das die Zahlen in der Tabelle vergleichbar sind.

scully1234

2016-04-05, 20:48:17

So und jetzt werde ich mal schnell bei Wozniak vorbeifahren ,und mir die Mars VR Demo sichern, dem Weichei ist eh schon schlecht:biggrin:

Ailuros

2016-04-05, 20:54:58

Möglich, aber ich nehme doch an, das die Zahlen in der Tabelle vergleichbar sind.

TDP ist TDP und mit dem rechne ich auch selber stets fuer solche Faelle. Die eigentliche Konzentration bei P100 und die anfangs bedienten Maerkten liegt eher bei FP64 und <FP32.

Aber um es mal in ein anderes Licht zu stellen: Vega muesste eine 225W TDP haben um eine 35 GFLOP FP32/W theoretisch zu erreichen. Durchaus moeglich aber es gibt eine andere Perspektive ob 35 GFLOPs wirklich wenig oder viel sind gerade zum heutigen Zeitpunkt.

Godmode

2016-04-05, 20:55:27

Ailuros

2016-04-05, 21:05:56

Ehrlich gesagt habe ich keine Ahnung ob das jetzt stimmt oder nicht. Einzig die 300 Watt finde ich etwas seltsam, hat man sich doch bisher immer mit 225-250W begnügt.

Bei 225-235W haette man auch kein so hohes DP GFLOP/W ratio erreicht. Keine Ahnung mit wieviel Intel am Ende ankommen wird, aber ihr design-Ziel war schon bei rund um 15 GFLOPs/W. Damit sie den TDP diesmal so hoch angelegt haben, muessen sie sich auch ziemlich selbstsicher sein dass Loesungen von Intel bzw. AMD fuer HPC auf jeden Fall nicht bei bescheidenen Werten sein werden. Ausser sie wetten auf die fruehe Vorstellung und reichen mit metal spins spaeter nach....

fondness

2016-04-05, 21:06:52

Vega muesste eine 225W TDP haben um eine 35 GFLOP FP32/W theoretisch zu erreichen.

Vega10 ist aber auch deutlich kleiner als 610mm2 bei den von dir angegebenen ~7875 GFLOPs.

Durchaus moeglich aber es gibt eine andere Perspektive ob 35 GFLOPs wirklich wenig oder viel sind gerade zum heutigen Zeitpunkt.

Ja mal sehen was die Konkurrenz macht.

Nakai

2016-04-05, 21:12:14

Es ist wirklich schade, dass man keinen "echten" Chip oder echte Hardware zeigen konnte. Im Endeffekt war die gesamte Veranstaltung eine Werbekampagne. Schade eigentlich.

Pascal sieht wirklich nach NVs GCN aus.

€:

Ja mal sehen was die Konkurrenz macht.

Das sehen wir frühestens mit Polaris, welchen Weg AMD einschlägt. Ich kann aber sagen, dass ich Finfets seit heute als weniger bombastisch ansehe.

iuno

2016-04-05, 21:12:47

Wieso waren eure Erwartungen so niedrig?
Es wurden mehrfach 6144 SP genannt, bei dem Riesen wohl theoretisch auch denkbar. Ich haette dieses mal auch hoehere Packdichte bei Nvidia, dafuer halt niedrigeren Takt erwartet. Mit 6144 SP waeren es selbst bei 900 MHz immer noch 5,5 DP GFLOPs. Mit 1:2 habe ich eigentlich fest gerechnet...

Wer glaubt denen eigentlich, dass das Teil in Massenproduktion ist? Warum gibt es nur so ein laecherliches Bild oder gibt es irgendwas daran, was es wert waere zu "verstecken"?

Ailuros

2016-04-05, 21:14:08

Vega10 ist aber auch deutlich kleiner als 610mm2 bei den von dir angegebenen ~7875 GFLOPs.

Es war nur eine hypothese fuer das was Du heute als wenig empfindest. Mit freier Bahn bis schaetzungsweise Anfang 2017 fuer den P100 kann vieles passieren.

Ja mal sehen was die Konkurrenz macht.

Momentan eher ins Leere glotzen fuer HPC.

Ailuros

2016-04-05, 21:18:59

Das sehen wir frühestens mit Polaris, welchen Weg AMD einschlägt. Ich kann aber sagen, dass ich Finfets seit heute als weniger bombastisch ansehe.

ROFL :D Sei nicht so gemein; haette man so manchem Wirrwarr hier glauben geschenkt sollten FinFET Prozesse eigentlich jeglichen Krebs heilen koennen, bevor Wissenschaftler unser RNA entziffern koennen :P :weg:

scully1234

2016-04-05, 21:20:46

Wer glaubt denen eigentlich, dass das Teil in Massenproduktion ist?

Fermi 1.0 war ja damals auch schon in Massenproduktion, als er das Woodscrew Mockup in die Kamera gehalten hatte.

Vielleicht wollte er sich diesmal einfach den AHA Moment ersparen, weil er weiss wie es da draussen wieder aufgenommen wird

Im Januar ist ja auch schonmal das halbe Internet ''explodiert'' wegen Drive PX

Dural

2016-04-05, 21:23:45

Echt krass, 620mm2 @ 1480mhz bei den tesla

Wilkommen 2ghz bei den desktop karten :D

Mandalore

2016-04-05, 21:25:01

So, kann mal ein Pro kurz zusammenfassen inwiefern sich Pascal von Maxwell unterscheidet? Habe im CB Forum vorhin Maxwell-refresh gelesen. Wie schauts aus=

iuno

2016-04-05, 21:26:17

Naja da gab es wenigstens die Chips schon, das Board und Kuehler war halt nicht fertig, oder?

@Mandalore: kein Pro hier, aber mit Refresh hat das natuerlich nichts zu tun. Neue Fertigung, scheint gute Taktraten mitzumachen, theoretisch (jeweils Vollausbau) 25% mehr Shaderprozessoren als GM200, Architektur veraendert (kleinere Cluster), mehr Einheiten fuer doppelte Praezision als je zuvor (fuer Spiele uninteressant) und natuerlich HBM

Kartenlehrling

2016-04-05, 21:26:23

Warum gibt es nur so ein laecherliches Bild oder gibt es irgendwas daran, was es wert waere zu "verstecken"?

Ich habe mich auch gefragt wieso es kein Fotos gibt, nur diese 3D Autodesk Bilder.
Was haben sie zu verstecken? :confused:

Nakai

2016-04-05, 21:30:25

ROFL :D Sei nicht so gemein; haette man so manchem Wirrwarr hier glauben geschenkt sollten FinFET Prozesse eigentlich jeglichen Krebs heilen koennen, bevor Wissenschaftler unser RNA entziffern koennen :P :weg:

Es wurde einfach das bestätigt, was einige schon vermutet haben. Will man Takt, muss die Packdichte deutlich sinken. Analog andersrum.
Reinher von dem, was Apple mit ihren SOCs geliefert hat, hätte ich eine etwas höhere Packdichte erwartet.

Womöglich ist GFs Finfet-Prozess diesbezüglich anders.

Ich hoffe mal, dass AMD etwas ähnliches irgendwann anbieten wird.

Tamagothi

2016-04-05, 21:30:48

Also grob gesagt Maxwell 3.0 mit separaten FP 64 Einheiten?

Das könnte noch Böse gegen Vega ausgehen :uponder:

scully1234

2016-04-05, 21:32:02

Naja da gab es wenigstens die Chips schon, das Board und Kuehler war halt nicht fertig, oder?

Interposer Issue anyway?

Und vielleicht darum noch keine vorzeigbare Platine

Da muesste er ja dann auch wieder Duebeln und Haemmern:smile:

Auf dem einen Werbe Slide ,war ja zumindestens schonmal A1 Silicon zu sehen, wenn das keine Faelschung war

Nakai

2016-04-05, 21:32:20

Echt krass, 620mm2 @ 1480mhz bei den tesla

Wilkommen 2ghz bei den desktop karten :D

GP100 wird wohl auch nicht als eine klassische PCIe-Karte erstmal erscheinen. Das sind einfach völlig andere Vorraussetzungen. 300W für so eine Steckkarte ist ziemlich sick, wenn man mich fragt.

fondness

2016-04-05, 21:35:09

Mit freier Bahn bis schaetzungsweise Anfang 2017 fuer den P100 kann vieles passieren.

Jensen sagte selbst q1/17 für P100.

Troyan

2016-04-05, 21:39:00

Nö, sagte er nicht.

Q1 2017 sind Serverhersteller, die Pascal ausliefern. Die Box mit 8 Pascal-Karten soll im Juni verfügbar sein.

Dural

2016-04-05, 21:41:04

GP100 wird wohl auch nicht als eine klassische PCIe-Karte erstmal erscheinen. Das sind einfach völlig andere Vorraussetzungen. 300W für so eine Steckkarte ist ziemlich sick, wenn man mich fragt.

Ist ja üblich das desktop karten schlechter gehen als tesla ;) finfet scheint echt der hammer zu sein.

Gp104 könnte richtig interessant werden, auch für gm200 besitzter.

Mandalore

2016-04-05, 21:43:43

Habe gerade bei GameStar gelesen, dass Pascal bei deutlich höherem Takt relativ gesehen kaum schneller als Maxwell ist ?!?! Scheint echt kaum verbessert zu sein :///

Complicated

2016-04-05, 21:44:54

Kommentar bei Anand:
GP100 NOT the biggest finfet chip ever made, Knights Landing is, ~683mm^2, on Intel 14nm, already shipping.;)

scully1234

2016-04-05, 21:46:17

Habe gerade bei GameStar gelesen, dass Pascal bei deutlich höherem Takt relativ gesehen kaum schneller als Maxwell ist ?!?! Scheint echt kaum verbessert zu sein :///

Ja ne 1:2 DP schonmal auf die Ausfuehrungseinheiten geschaut, das ist kein Gamerchip, so das man ihn damit ins Verhaeltniss stellen koennte zu Maxwell

Schmeiss den GPGPU Ballast ueber Bord ,und bau nen FP32 Rendermotor, und die Sache sieht ganz anders aus. Zumal sich das Monster schon Takten laesst wie Bolle

Das ist hier n Tesla Chip ,und wird's auch bleiben, da das fuer Geforce die Dekadenz in Reinform waere

Mandalore

2016-04-05, 21:49:51

Ja ne 1:2 DP schonmal auf die Ausfuehrungseinheiten geschaut, das ist kein Gamerchip, so das man ihn damit ins Verhaeltniss stellen koennte zu Maxwell

GM200 SP@1075MHz = 6,6 TFLOPS bei 3072 Cores

GP100 SP@1600MHz = 10,6 TFLOPS bei ca. 3600 Cores

Kling erstmal wie ein GG...

scully1234

2016-04-05, 22:02:19

Und wieviel double Precision kann Maxwell, und was kostet das wohl an Platz auf dem Chip?

Es gibt schon nen Grund ,warum es von Maxwell ,keine Modelle in die Richtung gab

Weil man dort eben die Funktionalität fuer GPGU ,Prozessbedingt/Die Size 28nm ausgeklammert hat, und lieber weiter mit Kepler gefahren ist

Hier hat man aber wieder den Dampfhammer ausgepackt, und ein Design fuer eben diese Sparte kreiert

Atma

2016-04-05, 22:05:18

Zusammenfassung von ComputerBase: http://www.computerbase.de/2016-04/nvidia-tesla-p100-gp100-als-grosser-pascal-soll-all-in-fuer-hpc-markt-gehen/

hasebaer

2016-04-05, 22:06:54

GP102 wird ohne FP64, dafür mit mehr FP32 Einheiten kommen, dazu kleiner, ergo billiger werden. Also ich brauche keinen GP100 als neue Titan.

y33H@

2016-04-05, 22:15:42

Grade Pascal Deep Dive auf der GTC: Es sind pro SM doppelte Register, Memory Bandwidth und Warps verglichen mit Maxwell v2.

maximus_hertus

2016-04-05, 22:16:27

104 vs 100:

[Maxwell: 2048 vs 3072 (66,6%) - kein Teslachip]
Kepler: 1536 vs 2880 (53,3%)
Fermi "2" (500er): 384 vs 512 (75%)
Fermi "1" (400er): 336 vs 480 (70%)

Hilft uns das bzgl. GP104?

Troyan

2016-04-05, 22:20:53

Grade Pascal Deep Dive auf der GTC: Es sind pro SM doppelte Register, Memory Bandwidth und Warps verglichen mit Maxwell v2.

Bilder, Bilder, Bilder. ;D

Drive PX 2 - diesmal angeblich mit Pascal:
https://pbs.twimg.com/media/CfTLgqGWIAAxl25.jpg:large
https://twitter.com/BradChacos/with_replies

Aus meiner Sicht deutlich kleiner als GM204 und kein GM206, da viel zu quadratisch.

Tamagothi

2016-04-05, 22:21:11

104 vs 100:

[Maxwell: 2048 vs 3072 (66,6%) - kein Teslachip]
Kepler: 1536 vs 2880 (53,3%)
Fermi "2" (500er): 384 vs 512 (75%)
Fermi "1" (400er): 336 vs 480 (70%)

Hilft uns das bzgl. GP104?

Nein da du nicht weißt wie viel Platz die FP64 Einheiten verbrauchen.

Theoretisch kann GP104 mit 4k FP32 Einheiten kommen. Und GP102 vielleicht mit 6k.

maximus_hertus

2016-04-05, 22:22:41

Ist GP102 eigentlich bestätigt? Oder "nur" Speku?

scully1234

2016-04-05, 22:23:46

clean

scully1234

2016-04-05, 22:25:23

was hat Jensen da fuer ne ungesunde Gesichtsfarbe?

@maximus_hertus
Bisher nur eine Treiberleiche

horn 12

2016-04-05, 22:27:09

Mehr Schall als Rauch um sich mal bissi in Rage zu bringen
Vor September kommt da wenig bis nix von NV und man will die Leut an der Stange halten
Ähnlich wie Fiji letztes Jahr!

Skysnake

2016-04-05, 22:31:19

Ist doch wurscht; ein so grosser chip auf einem so neuen chip kann wohl nichts besseres erreichen. Bei Vollausbau und 2 metal spins waere ich sehr ueberrascht wenn sie nicht die 40 GFLOP Grenze sprengen. Ich hab um ehrlich zu sein um einiges weniger DP TFLOPs erwartet.
Dem muss ich mich aber auch mal ganz kräftig anschließen.

Ich hätte mit vielleicht 3,5-4 TFLOPs bei 225W (15,5-17,8GFLOPs/W) gerechnet. Jetzt sind es halt 5,3TFLOPs bei 300W (17,68GFLOPs/W).

Das liegt für die Effizienz also voll auf im Rahmen, nur ist man eben deutlich weiter oben sowohl mit dem Verbrauch als auch mit der Peak-Performance, als ich das erwartet hätte. Man muss allerdings auch schauen, inwieweit man den Boost clock auch wirlich halten kann unter Dauerlast.

Ich will mal die meiner Meinung nach wichtigsten Zahlen mal kommentieren:

SMs 56: Naja, das man einen salvage bringen muss ist bei der Chipgröße jetzt nicht verwunderlich bei so einem neuen Prozess.

FP32 CUDA Cores / SM 64: Sehr cool! :up: Ich hätte ja mit 256 ALUs/SM gerechnet, um den Decoder Aufwand zu reduzieren für große Blocks.

FP64 CUDA Cores / SM 32: MEGA! Nur einen Warp, den man pro SM haben muss, um diese theoretisch schon auslasten zu können :eek: WTF! Das ist schon verdammt cool! Klar braucht man mehrere Wavefronts um die Latenzen zu verstecken, aber alles wohl ziemlich feingranular.
FP64 CUDA Cores / GPU 1792: So ganz fresse ich dedizierte DP-Units noch immer nicht.

Base Clock 1328 MHz: Sportlich für einen Base Clock, wenn er wirklich ein garantierter clock ist wie bisher unter allen Umständen.
GPU Boost Clock 1480 MHz: Noch etwas sportlicher, wenn man bedenkt wie groß der Chip ist, und das als erster Chip auf nem neuen Node mit dem ganzen Analoggeraffel dazu. Da haben Sie wirklich gute Arbeit abgeliefert, wenn das auch stabil läuft.

FP64 GFLOPs 5304[1]: rund 25% mehr als erwartet. Damit legt man wirklich stark vor, allerdings ist hier mit Boost Takt gerechnet, da muss man erst schauen, ob das bei echten Anwendungen auch gehalten werden kann.

Memory Interface 4096-bit HBM2: War absolut zu erwarten, ohne HBM musste man gar nicht erst antreten.

Memory Size 16 GB: War auch relativ klar.

L2 Cache Size 4096 KB Etwa das, was man erwarten konnte, keine große Überraschung.

Register File Size / SM 256 KB: An sich auch nicht wirklich etwas verwunderliches. Mit 256/512KB konnte man rechnen, was allerdings sehr überrascht ist, wie weniger ALUs man nur hat pro SM!

Register File Size / GPU 14336 KB: Das ist schon gewaltig durch die wenigen Units pro SM. Ich empfinde das schon als ziemlich geil. Das sollte den Druck aufs Registerfile schon sehr stark reduzieren und es dadurch sehr viel einfacher machen ohne große Kopfstände genug Warps, um die Latenzen verstecken zu können, allerdings hat man auch den hohen Takt, man sollte also auch einige Warps mehr haben, um immer Instruktionen sheduln zu können.

TDP 300 Watts: 300W sind hart. Das mögen Server-Hersteller nicht sonderlich. Da gibt es wirklich öfters Probleme durch.

Transistors 15.3 billion: harter Tobak, aber klar wenn man sich anschaut was alles drin steckt.
GPU Die Size 610 mm²: Das macht mir echt Kopfschmerzen. >600mm² zum Start eines neuen Nodes. AUTSCH! Das ist echt mutig, und ich kann nur hoffen, dass die mit dem ganzen neuen Zeug da drin sich nicht verlupft haben. Vor allem hat man so von der DIE-Size her eigentlich keinen Spielraum mehr nach oben für die nächste Gen. Klar man kann am Design feilen, aber es macht die Arbeit schon schwieriger.

Was nocht fehlt ist, das man jetzt auch 64 Special-Function-Units in einem SM hat. Das ist schon heftig. Sprich: Da geht was.

Was mich freut sind die zwei Messanine Stecker. :biggrin: Das ist genau das, was ich erwartet/vorher gesagt habe, als die erste Ankündigung von NVLink raus kam. :biggrin:;D

Ich bin ehrlich gesagt aber echt noch immer Platt von der Größe des DIEs. Interessant wäre jetzt wirklich noch zu Wissen, wieviel NVLink braucht an DIE-Size.

Was auch sehr schön ist, ist der 64kB Shared Mem pro SM. Schön 2^n und dazu dann eben noch die wenigen ALUs pro SM.

Also insgesamt muss ich wirklich sagen, dass die Architektur an sich schon sehr sehr schick aussieht. Auch das mit den zwei Dual-Warp Scheduler ist schön.

Also Pascal ist KEIN! Vergleich zu Kepler. Wo mir Kepler immer Kopfschmerzen bereitet, und mich abstößt dafür zu Programmieren und vor allem zu Optimieren, macht Pascal richtig lust mal etwas damit zu machen. :freak:

Hat nVidia bisher gut gemacht muss ich sagen, jetzt muss man halt noch abwarten, ob nicht noch irgendwelche Pferdefüße daher kommen.

Eins muss man nämlich schon sagen. Das Huan KEIN Pascal zeigen konnte ist schon sehr bedenklich. Vor allem habe ich im Hintergrund nun auch schon mehrfach gehört, das Systeme erst ab Q3/16 kommen sollen, und dann auch nicht viele.

Ich befürchte leider, das sich nVidia wie Intel hier einfach verhoben hat, und die SAche mit dem fehlenden Sample entkräftet diese Befürchtung nicht wirklich. :frown:

Schade eigentlich. nVidia scheint jetzt rein von der High level Sicht her einen wirklich schicken Chip gebaut zu haben. Ich drück Ihnen mal die Daumen, dass Sie nicht noch einen weiteren Respin brauchen, und in Q3 zumindest die Deals die Sie haben beliefern können.

Was man so von Coral usw hört lässt einen einfach schon hart daran Zweifeln, das Pascal eine große Verbreitung findet.

Grabhopser

2016-04-05, 22:33:08

Bilder, Bilder, Bilder. ;D

Drive PX 2 - diesmal angeblich mit Pascal:
https://pbs.twimg.com/media/CfTLgqGWIAAxl25.jpg:large
https://twitter.com/BradChacos/with_replies

Aus meiner Sicht deutlich kleiner als GM204 und kein GM206, da viel zu quadratisch.

Perspektivisch entzerren und schon hat man die Größe des Pascal Chips der es in etwa mit einem GM204 aufnehmen kann. ;D

Troyan

2016-04-05, 22:34:05

Wir brauchen den Typen von Videocardz. Der hat ja jetzt Erfahrung mit Entzerrung. :D

scully1234

2016-04-05, 22:38:41

So jetzt mal zu den ''Winzlingen''

GP102 @GDDR5X ''Titan Label''

GP104 @GDDR5 GTX 1070/1080

Meint ihr das ginge sich eventuell zur Computex aus, von den Kapazitaeten die TSMC zur Verfuegung haette?

Traeumen darf man ja wenigstens:smile:

Dural

2016-04-05, 22:53:55

Rund 3000sp für gp104 könnte man schon erwarten, und das bei einem takt von 1500mhz. 8gb gddr5x an 256bit.

y33H@

2016-04-05, 23:16:37

was hat Jensen da fuer ne ungesunde Gesichtsfarbe?Bei mir sieht er auch aus wie ein Ledersofa :freak:

http://scr3.golem.de/screenshots/1604/GP100-Pascal-GTC-2016/GTC-2016-GP100-01.jpg

mczak

2016-04-06, 00:27:56

60SM bedeutet 2,5x Tessellationleistung gegenüber GM200.
Halte ich für ausgeschlossen. Man sieht auf den Diagrammen sehr gut dass 2 SM zu einem TPC zusammengefasst sind. Da sitzt dann die Polymorph Engine drin. Gibt also nur Faktor 1.25 für Tesselation gegenüber GM200 (die Polymorph Engine könnte theoretisch schon schneller sein, aber ich wüsste nicht wozu). Bei den Tris/s sieht's noch schlechter aus (6 GPC bei GP100 wie auch bei GM200). Immerhin mehr Takt...
Bin nicht so sicher wieso man eigentlich die SM kleiner macht. War vielleicht einfacher als die Verdoppelung des RF, Anzahl warps etc. (denn das bleibt gleich pro SM).

btw die Speicherbandbreite ist gar nicht so gross, da erreicht man bloss 1.4gb/s pro Pin. HBM1 auf der Fury hatte auch schon 1.0gb/s - von einer Verdoppelung die ja "HBM2" erreichen soll ist man da also noch ziemlich weit entfernt.

Trotzdem ein Riesenbiest - wieso hat das Teil eigentlich so viele Transistoren? Pro fp32 alu sind das am Ende ~50% mehr. Na gut FP64, doppelter FP16-Durchsatz, verdoppelte RF etc. sind natürlich nicht gratis, scheint mir aber trotzdem viel zu sein. Wobei die NV-Link wohl auch nicht gratis sind.

Troyan

2016-04-06, 00:40:18

720GB/s war immer das Ziel für Pascal: https://youtu.be/v5U2KQdf3tU?t=290

y33H@

2016-04-06, 00:43:29

Die vollen 2 GHz kann man ja beim 3840 ALU Vollausbau fahren.

Troyan

2016-04-06, 00:44:33

Immerhin kann man jetzt davon ausgehen, dass Volta mit 10nm kommen wird.

Ravenhearth

2016-04-06, 00:51:17

Die vollen 2 GHz kann man ja beim 3840 ALU Vollausbau fahren.

Oder bei Volta?

mczak

2016-04-06, 00:51:46

720GB/s war immer das Ziel für Pascal: https://youtu.be/v5U2KQdf3tU?t=290
Wo siehst du das? Ich sehe da bloss einen Faktor 3 gegenüber Maxwell bei der Speicherbandbreite erwähnt. Ist aber bloss ein Faktor 2.5 gegenüber M40 oder auch K40 (6 Ghz gddr5) geworden.
(Macht ausserdem gerade für ein Compute-Design sowieso keinen Sinn das zu "künstlich" zu beschränken wenn problemlos mehr möglich wäre.)

Nakai

2016-04-06, 00:53:04

Man über doppelt soviele Register. Im Endeffekt ist der Chip gesundgeschrumpft im Vergleich zu den Vorgängern. Ergo weniger SPs pro Register. Ist doch schön.
Ansonsten haben die wohl einen sehr großen Interconnect verwendet. TPC? Diesen Begriff habe ich schon ewig nicht mehr gehört. Das letzte Mal als ich diesen Begriff gehört habe, war mit GT200. 2 SMs pro TPC. Ab Fermi wurden TPC und SM zusammengelegt. Kurz, pro TPC sind nun zwei SMs verbaut, was wir seit mhh G80 nicht mehr hatten. ;D

Damit wird der Sprung von Maxwell auf Pascal deutlich klarer. Die Caches sind in die SP-Blöcke gewandert und dadurch hat man 64er SMs. Im Grunde ist der Aufbau nahezu identisch zu Maxwell, nur deutlich für HPC optimiert. Man hat die Granularität bzgl Caches und SMs etwas entzerrt.

Dem muss ich mich aber auch mal ganz kräftig anschließen.

Ich hätte mit vielleicht 3,5-4 TFLOPs bei 225W (15,5-17,8GFLOPs/W) gerechnet. Jetzt sind es halt 5,3TFLOPs bei 300W (17,68GFLOPs/W).

Das liegt für die Effizienz also voll auf im Rahmen, nur ist man eben deutlich weiter oben sowohl mit dem Verbrauch als auch mit der Peak-Performance, als ich das erwartet hätte. Man muss allerdings auch schauen, inwieweit man den Boost clock auch wirlich halten kann unter Dauerlast.

Ich will mal die meiner Meinung nach wichtigsten Zahlen mal kommentieren:

SMs 56: Naja, das man einen salvage bringen muss ist bei der Chipgröße jetzt nicht verwunderlich bei so einem neuen Prozess.

FP32 CUDA Cores / SM 64: Sehr cool! :up: Ich hätte ja mit 256 ALUs/SM gerechnet, um den Decoder Aufwand zu reduzieren für große Blocks.

FP64 CUDA Cores / SM 32: MEGA! Nur einen Warp, den man pro SM haben muss, um diese theoretisch schon auslasten zu können :eek: WTF! Das ist schon verdammt cool! Klar braucht man mehrere Wavefronts um die Latenzen zu verstecken, aber alles wohl ziemlich feingranular.
FP64 CUDA Cores / GPU 1792: So ganz fresse ich dedizierte DP-Units noch immer nicht.

Base Clock 1328 MHz: Sportlich für einen Base Clock, wenn er wirklich ein garantierter clock ist wie bisher unter allen Umständen.
GPU Boost Clock 1480 MHz: Noch etwas sportlicher, wenn man bedenkt wie groß der Chip ist, und das als erster Chip auf nem neuen Node mit dem ganzen Analoggeraffel dazu. Da haben Sie wirklich gute Arbeit abgeliefert, wenn das auch stabil läuft.

FP64 GFLOPs 5304[1]: rund 25% mehr als erwartet. Damit legt man wirklich stark vor, allerdings ist hier mit Boost Takt gerechnet, da muss man erst schauen, ob das bei echten Anwendungen auch gehalten werden kann.

Memory Interface 4096-bit HBM2: War absolut zu erwarten, ohne HBM musste man gar nicht erst antreten.

Memory Size 16 GB: War auch relativ klar.

L2 Cache Size 4096 KB Etwa das, was man erwarten konnte, keine große Überraschung.

Register File Size / SM 256 KB: An sich auch nicht wirklich etwas verwunderliches. Mit 256/512KB konnte man rechnen, was allerdings sehr überrascht ist, wie weniger ALUs man nur hat pro SM!

Register File Size / GPU 14336 KB: Das ist schon gewaltig durch die wenigen Units pro SM. Ich empfinde das schon als ziemlich geil. Das sollte den Druck aufs Registerfile schon sehr stark reduzieren und es dadurch sehr viel einfacher machen ohne große Kopfstände genug Warps, um die Latenzen verstecken zu können, allerdings hat man auch den hohen Takt, man sollte also auch einige Warps mehr haben, um immer Instruktionen sheduln zu können.

TDP 300 Watts: 300W sind hart. Das mögen Server-Hersteller nicht sonderlich. Da gibt es wirklich öfters Probleme durch.

Transistors 15.3 billion: harter Tobak, aber klar wenn man sich anschaut was alles drin steckt.
GPU Die Size 610 mm²: Das macht mir echt Kopfschmerzen. >600mm² zum Start eines neuen Nodes. AUTSCH! Das ist echt mutig, und ich kann nur hoffen, dass die mit dem ganzen neuen Zeug da drin sich nicht verlupft haben. Vor allem hat man so von der DIE-Size her eigentlich keinen Spielraum mehr nach oben für die nächste Gen. Klar man kann am Design feilen, aber es macht die Arbeit schon schwieriger.

Was nocht fehlt ist, das man jetzt auch 64 Special-Function-Units in einem SM hat. Das ist schon heftig. Sprich: Da geht was.

Was mich freut sind die zwei Messanine Stecker. :biggrin: Das ist genau das, was ich erwartet/vorher gesagt habe, als die erste Ankündigung von NVLink raus kam. :biggrin:;D

Ich bin ehrlich gesagt aber echt noch immer Platt von der Größe des DIEs. Interessant wäre jetzt wirklich noch zu Wissen, wieviel NVLink braucht an DIE-Size.

Was auch sehr schön ist, ist der 64kB Shared Mem pro SM. Schön 2^n und dazu dann eben noch die wenigen ALUs pro SM.

Also insgesamt muss ich wirklich sagen, dass die Architektur an sich schon sehr sehr schick aussieht. Auch das mit den zwei Dual-Warp Scheduler ist schön.

Also Pascal ist KEIN! Vergleich zu Kepler. Wo mir Kepler immer Kopfschmerzen bereitet, und mich abstößt dafür zu Programmieren und vor allem zu Optimieren, macht Pascal richtig lust mal etwas damit zu machen. :freak:

Hat nVidia bisher gut gemacht muss ich sagen, jetzt muss man halt noch abwarten, ob nicht noch irgendwelche Pferdefüße daher kommen.

Eins muss man nämlich schon sagen. Das Huan KEIN Pascal zeigen konnte ist schon sehr bedenklich. Vor allem habe ich im Hintergrund nun auch schon mehrfach gehört, das Systeme erst ab Q3/16 kommen sollen, und dann auch nicht viele.

Ich befürchte leider, das sich nVidia wie Intel hier einfach verhoben hat, und die SAche mit dem fehlenden Sample entkräftet diese Befürchtung nicht wirklich. :frown:

Schade eigentlich. nVidia scheint jetzt rein von der High level Sicht her einen wirklich schicken Chip gebaut zu haben. Ich drück Ihnen mal die Daumen, dass Sie nicht noch einen weiteren Respin brauchen, und in Q3 zumindest die Deals die Sie haben beliefern können.

Was man so von Coral usw hört lässt einen einfach schon hart daran Zweifeln, das Pascal eine große Verbreitung findet.

Im Endeffekt beschreibst du gerade GCN.
Wie würde Fiji mit besserem Frontend, mit DP:SP-1:2, HBM2, also Vega10 wohl aussehen? Mehr als 400mm² würde ich nicht schätzen. Nichts gegen NV, aber irgendwas wird noch nicht richtig erklärt. GP100 wirkt tatsächlich sehr groß, dafür dass wohl Rasterizer und Co. rausgeflogen ist.

HOT

2016-04-06, 00:57:34

Wenn ich das Ding so sehe, glaube ich nicht, dass der GP102 den GP100 für Gaming ersetzt, ich denke, das wird einfach nicht nötig sein. Die FP64-Units werden so viel Platz in 16FF+ gar nicht fressen, die brauchen sicher bei dem Prozess nicht mehr Fläche als die FP64-Units beim GK110, also vernachlässigbar für Gaming und da sie separat sind, werden sie für Gaming einfach deaktiviert. Ohne NVLink und FP64 läge das Teil dann vielleicht schätzungsweise irgendwo bei 520-550mm², dafür wird sich eine neue Maske nicht lohnen - das Teil ist ein Grafikchip, also wird man ihn auch so benutzen. Bei dem Mehrverbrauch an Fläche wird der hohe Takt und die neue Organisation einfach ihren Tribut fordern, Maxwell war wohl doch etwas zu einfach aufgebaut, da mussten einige mehr Transistoren aufgewendet werden als bisher.
Ich schätze, dass GP102 die 3k Shader des GM200 in neuer Organisation mitbringen wird irgendwo bei 400mm² und GP104 dann eben 2k Shader bei 300mm², alle Takte um die 1,5GHz.

Vega-Profi wird wohl in etwa ähnliche Rechenleistung liefern aber nach dem heutigen Stand deutlich kleiner ausfallen und nur 2 HBM2-Stacks bedienen.

prinz_valium

2016-04-06, 02:16:30

GP102 wird ohne FP64, dafür mit mehr FP32 Einheiten kommen, dazu kleiner, ergo billiger werden. Also ich brauche keinen GP100 als neue Titan.

der kleine gp könnte im vollausbau echt hammer werden, wenn der ganze "ballast" wegfällt.

50% schneller als gtx 980ti mit etwas übertackten. das wäre doch was
die bandbreite muss nur hoch genug sein. also hoffen wir mal auf gddr5x

Hübie

2016-04-06, 02:28:23

Da haben wohl schon wieder einige nicht bemerkt dass er EXAKT das gleiche Board wie vor ein paar Monaten hoch gehalten hat. :D

Und nein es werden keine 2 GHz im Desktop, weil Tesla mehr ausgefahren wird. Ich bin auch erstaunt, dass man mehr zum speicherbasierten Design geht und ein fettes Netzwerk integriert, aber offenbar lässt es sich anders kaum lösen.

y33H@

2016-04-06, 02:40:53

Ailuros

2016-04-06, 06:13:10

Ich muss irgend eine Bauchgrippe erwischt haben....mein Bauch fuehlt sich wie eine Waschmaschine an. Wenn ich schon gruen vor Uebelkeit bin, darf ich ausnahmsweise mal mit HOT uebereinstimmen.... :freak: (die Bauchgrippe ist echt, den Rest mit einem guten Sinn Humor annehmen...)

horn 12

2016-04-06, 06:52:22

Nun, nach dem ganzen gezweigtem kann man nun bitte davon ausgehen das GP104 eben doch in etwa wieviel schneller, gleich schnell wird als GTX 980TI
GP104 sollte mit hohem Takt wohl ca. GTX 980TI Performance erreichen wenn eine GTX 980TI mit 1500 bis 1600 Mhz läuft. Also auf eine GTX 980TI die 20 bis 25% drauflegen können.
Oder liege ich da komplett daneben?

Ailuros

2016-04-06, 07:21:47

Es gibt noch keinen Grund zu glauben dass performance/desktop GPUs mit diametrisch kleineren chips gleich so hoch oder sogar hoeher takten werden. Wenn das eigentliche Ziel sich hauptsaechlich auf perf/W konzentrieren wird bei diesem, werden sie womoeglich dafuer auch eine ganz andere Strategie haben.

Sonst hast Du gerade ein steriles specsheet vor der Nase und nicht eine ausfuerhliche Analyse was ein P100 unter 3D in Echtzeit leistet, um erstmal eine Indizie zu haben.

Knuddelbearli

2016-04-06, 07:37:12

hmm nv vergleicht nur gegenüber dualkarten, bzw quad vs dual. Klingt für mich danach das man ansonsten keine 3 stelligen Performancezuwachs hätte ( +1xx% )

Hübie

2016-04-06, 07:40:29

Gute Besserung, Ailuros. :smile:
Im Grunde sind wir so schlau wie zuvor. :D

scully1234

2016-04-06, 07:43:46

Wenn das eigentliche Ziel sich hauptsaechlich auf perf/W konzentrieren wird .

Moin die sollen ja die Finger vom Prozess lassen, ich will Takt und keine green IT ECO Socke:P

Gute Besserung

AnarchX

2016-04-06, 07:49:24

fondness

2016-04-06, 08:07:55

Im Endeffekt beschreibst du gerade GCN.
Wie würde Fiji mit besserem Frontend, mit DP:SP-1:2, HBM2, also Vega10 wohl aussehen? Mehr als 400mm² würde ich nicht schätzen. Nichts gegen NV, aber irgendwas wird noch nicht richtig erklärt. GP100 wirkt tatsächlich sehr groß, dafür dass wohl Rasterizer und Co. rausgeflogen ist.

Jap, mir erscheint das Ding auch viel zu groß für nicht mal 4000 FP32-SPs. Selbst bei 1:2 DP, die wird Vega auch bieten.

Loeschzwerg

2016-04-06, 08:16:50

Wer noch Zweifel an existierendem Silizium hat: http://www.computerbase.de/2016-04/nvidia-dgx-1-supercomputer-mit-8-tesla-p100-fuer-kuenstliche-intelligenz/#update1 ... gleich 8 Dies.

Die Chips sind aus der 40./43. Woche 2015.

55494 Quelle CB

HBM und GP100 auf identischer Höhe und komplett eingegossen, oder wie sehe ich das? In jedem Fall unempfindlicher als z.B. Fiji.

Edit: Ahja, hier wird es ("Spacer") ja auf einer Folie gezeigt => http://www.computerbase.de/2016-04/nvidia-pascal-erste-p100-benchmarks-spacer-hat-platz-fuer-32-gb-hbm2/

Spasstiger

2016-04-06, 08:22:39

Ailuros

2016-04-06, 08:23:53

Wer noch Zweifel an existierendem Silizium hat: http://www.computerbase.de/2016-04/nvidia-dgx-1-supercomputer-mit-8-tesla-p100-fuer-kuenstliche-intelligenz/#update1 ... gleich 8 Dies.

Die Chips sind aus der 40./43. Woche 2015.

Danke; ich hatte gerade eine Not fuer ein "told you so": https://semiaccurate.com/forums/showpost.php?p=259525&postcount=217

Was lässt denn eigentlich an der Gamingtauglichkeit des GP100 zweifeln?
Max. 3840 SPs statt max. 3072 SPs (GP100 vs. GM200) sehen zwar auf den ersten Blick nach nur 25% Steigerung aus (Faktor 1,25), aber dafür steigt der Durchsatz durch den neuen Aufbau um bis zu 150% (Faktor 2,5). Die Speicherbandbreite verdoppelt sich knapp.
Und obendrein steigt das Taktpotential von 1075 MHz Boost-Takt bei der GTX 980 Ti auf mindestens 1480 MHz, die für die Tesla P100 bekannt gegeben wurden. Das ist ein Plus von 38%.
Summa summarum lässt sich imo mit GP100 problemlos eine Verdoppelung der Gaming-Performance gegenüber einer GTX 980 Ti erzielen.

Stets unter der Vorraussetzung dass P100 desktop SKUs auch wirklich eine 300W TDP haben werden.

Loeschzwerg

2016-04-06, 08:36:41

Kommt darauf an was NV an Designvorgaben für die Geforce Sparte auflegt, aber zumindest bei Quadro/Tesla Karten werden wir keine 300 Watt sehen.

Mancko

2016-04-06, 08:57:49

Nö, sagte er nicht.

Q1 2017 sind Serverhersteller, die Pascal ausliefern. Die Box mit 8 Pascal-Karten soll im Juni verfügbar sein.

Er hat Q1 2017 für OEMs gesprochen. Das eigene Produkt sowie die ganz engen Partner und Cloud Anbieter bekommen die Teile dieses Jahr. Er sprach davon, dass alles was sie dieses Jahr produzieren in genau diese Bereiche fließt und dann ab Q1 2017 die OEMs drann sind.

Skysnake

2016-04-06, 08:59:01

Gute Besserung, Ailuros. :smile:
Im Grunde sind wir so schlau wie zuvor. :D
Wer noch Zweifel an existierendem Silizium hat: http://www.computerbase.de/2016-04/nvidia-dgx-1-supercomputer-mit-8-tesla-p100-fuer-kuenstliche-intelligenz/#update1 ... gleich 8 Dies.

Die Chips sind aus der 40./43. Woche 2015.
Puh, das nimmt schon verdammt viel Unsicherheit raus! :up:

Das sieht auch nicht mehr nach Testboard sondern nach finalem Design aus auf den ersten Blick. Das ist sehr gut.

Was ich allerdings "lustig" finde ist, das nVidia entweder in ihrerm Pascal Artikel nen Fehler drin hat, oder man sich mal wieder klamheimlich seit SC15 von einer Technologie verabschiedet hat.

Ich bin mal gespannt, wie lange es dauert, bis es jemand raus hat ;)

Das hat auch recht große Auswirkungen bezüglich einer anderen Slide von der SC15, die ich, wohl falsch verstanden hatte, wenn man sich das jetzt durch den Kopf gehen lässt.

Ich sehe daher deutlich weniger Probleme für Coral. Sofern die neue Info aber wirklich stimmt, dann hat nVidia uns eventuell mal wieder einen ziemlichen Bären aufgebunden....

Ich will jetzt aber nicht zu viel verraten.

iuno

2016-04-06, 09:00:40

Wer noch Zweifel an existierendem Silizium hat: http://www.computerbase.de/2016-04/nvidia-dgx-1-supercomputer-mit-8-tesla-p100-fuer-kuenstliche-intelligenz/#update1
55494
HBM und GP100 auf identischer Höhe und komplett eingegossen, oder wie sehe ich das?
Sieht auch nett aus ;)
Mit was fuer einem Material fuellen die die gaps auf? Warum nimmt man da nicht einfach einen Heatspreader? Zu schlechte Waermeabfuhr, zu hoch, teurer?
Offenbar gibt es auch noch zwei Varianten, links fehlt mglw. noch der Spacer, der die HBM Stacks auf die hoehe der GPU anpasst und es wurde nur das 'Fuellmaterial' verwendet?!

Spasstiger

2016-04-06, 09:00:49

Ich sehe halt nicht die Notwendigkeit für einen GP102 als Enthusiast-Gaming-Chip in der Marktsituation 2016/2017. NV kann GP100 als nächste Titan in Q1/2017 auflegen. GP204 deckt mit einer Performance von GM200+30% die Bedürfnisse 2016 ab. Einen kompromisslosen Gaming-Chip mit 500 mm² und mehr hebt man sich für die zweite Finfet-GPU-Generation Ende 2017/Anfang 2018 auf, wenn die Fertigungsprozesse wirtschaftlicher sind.
300 Watt wären als Titan imo verkaufbar.

Dural

2016-04-06, 09:02:03

Was auch noch interessant ist, GP100 soll in Massenfertigung sein, aber alles sprach bei HBM2 von ende Jahr.

Ist er von Samsung?

Edit:
A1 Chips auf den Fotos, auch krass wenn die A1 schon in Serie gehen können :eek:

Hübie

2016-04-06, 09:06:57

Die 300 Watt konnte man nur realisieren, weil man selbst entwickelt hat. Sonst sind die ~225 Watt eine abhängige Größe für Integrationen.

HOT

2016-04-06, 09:10:49

Was lässt denn eigentlich an der Gamingtauglichkeit des GP100 zweifeln?
Max. 3840 SPs statt max. 3072 SPs (GP100 vs. GM200) sehen zwar auf den ersten Blick nach nur 25% Steigerung aus (Faktor 1,25), aber dafür steigt der Durchsatz durch den neuen Aufbau um bis zu 150% (Faktor 2,5). Die Speicherbandbreite verdoppelt sich knapp.
Und obendrein steigt das Taktpotential von 1075 MHz Boost-Takt bei der GTX 980 Ti auf mindestens 1480 MHz, die für die Tesla P100 bekannt gegeben wurden. Das ist ein Plus von 38%.
Summa summarum lässt sich imo mit GP100 problemlos eine Verdoppelung der Gaming-Performance gegenüber einer GTX 980 Ti erzielen.

Na ja, GP100 braucht als NV-Link-Modul mit teurer, total optimierter VRM schon 300W, der wird also die Taktraten nicht im Gaming-Sektor liefern. Andererseits fällt auch FP64 weg, das wird aber denke ich nicht so sehr in Budget schlagen. Als Gamingchip wird man ebenfalls erst mal nur Salvage sehen und der wird sicherlich eher auf 12xx (Base) - 1400 (Turbo) takten, um die 250W nicht zu reissen. In DX11 ist er dann ca. 50% schneller, 30% bei nicht-Referenz-980ti. Bei DX12 wird er sicher 70-80% besser als GM200.
Kommt natürlich auch darauf an, was AMD mit Vega abliefert. Wenn Vega echt stark ist, wird NV die 300W auch dort vollmachen.
Aber ich würde sagen (diesmal nicht alkoholisiert :D), dass NV das Frontend massiv aufgerüstet hat und die Organisation verfeinert hat, um bei DX12 und dem Profizeug deutlich weniger Probleme zu verursachen. Leider kostet diese Aufrüstung massiv Fläche, sodass man einfach nicht so effizient ist wie bei Maxwell, welcher aber eigentlich nur ein DX11 (11_0) Design ist, welcher mit der heißen Nadel um DX12-Features erweitert wurde, wie man am GM107 sieht. Ich glaube, die Pascal-Chips werden bei DX12 auch etwas Performance gewinnen, wenn auch nicht so viel wie GCN, einfach deswegen, weil Pascal seine Recheneinheiten auch bei DX11 schon besser auslasten kann.
Richtig gef*** sind da mal wieder die Käufer der Maxwell-Generation, da, wenn Pascal tatsächlich GCN-DX12-Code gewissermaßen "versteht", darauf seitens der Spielehersteller keine Rücksicht mehr genommen wird, die sagen dann einfach "benutz DX11".

Ich muss noch was loswerden: Großen Respekt für die schnelle Entwicklung an TSMC+NV für so ein Produkt. Da steckt sicher viel Arbeit hinter in der kurzen Zeit und ich hätte echt nicht gedacht, dass man das in so kurzer Zeit hinbekommt.
Sicherlich wird man "Massenproduktion" in sehr kleiner Serie und mit recht hohem Ausschuss machen, um die Kunden auch bedienen zu können, der Kundenkreis ist aber noch überschaubar. Als Fiji rauskam, war der auch ein paar Monate sehr schlecht verfügbar, das wird bei GP100 ebenfalls der Fall sein. Also gibts den bis 2017 erst mal ausschließlich als Modul. Danach wird man wohl die Produktionsvolumina auf ein ordentliches Niveau anheben können, um Quadros, Teslas und Geforces zu bauen.
Die große Frage ist nun, was ist mit den kleineren Varianten? So Sachen wie "GP104 30% über einer übertakteten GM200" ist damit wohl erst mal vom Tisch, das wird angesichts der Aufrüstung des Frontends und der Orga des GP100-Chips einfach nicht drin sein. Zudem wird der GP102 diesmal noch als Zwischenschritt zu GP100 auch noch "im Weg" sein, denn ein Ersatz für GP100 ist er garantiert mal nicht, das kann GP100 ja selbst problemlos leisten.

Gute Besserung Ailuros.

Locuza

2016-04-06, 09:14:43

Aber ich würde sagen (diesmal nicht alkoholisiert :D), dass NV das Frontend massiv aufgerüstet hat und die Organisation verfeinert hat, um bei DX12 und dem Profizeug deutlich weniger Probleme zu verursachen. Leider kostet diese Aufrüstung massiv Fläche, sodass man einfach nicht so effizient ist wie bei Maxwell, welcher aber eigentlich nur ein DX11 (11_0) Design ist, welcher mit der heißen Nadel um DX12-Features erweitert wurde, wie man am GM107 sieht. Ich glaube, die Pascal-Chips werden bei DX12 auch etwas Performance gewinnen, wenn auch nicht so viel wie GCN, einfach deswegen, weil Pascal seine Recheneinheiten auch bei DX11 schon besser auslasten kann.
Richtig gef*** sind da mal wieder die Käufer der Maxwell-Generation, da, wenn Pascal tatsächlich GCN-DX12-Code gewissermaßen "versteht", darauf seitens der Spielehersteller keine Rücksicht mehr genommen wird, die sagen dann einfach "benutz DX11".
Das dick gedruckte bezweifle ich sehr.

Dural

2016-04-06, 09:21:25

scully1234

2016-04-06, 09:26:07

HBM und GP100 auf identischer Höhe und komplett eingegossen, oder wie sehe ich das? In jedem Fall unempfindlicher als z.B. Fiji.

Haben die da zwei unterschiedliche Designs verbaut oder was ist der Grund hierfuehr (NVLINK???)

http://pics.computerbase.de/7/1/5/8/0/6-1080.1429466315.jpghttp://pics.computerbase.de/7/1/5/8/0/7-1080.4182997683.jpg

HOT

2016-04-06, 09:29:09

Das dick gedruckte bezweifle ich sehr.
Zweifel daran, wir sprechen uns in einem Jahr wieder.

Übrigens finde ich es ein sehr schlechtes Zeichen, dass man bei der Präsi überhaupt nicht auf die kleineren Chips der Serie eingegangen ist. Ich nehme an, GP100 hat extrem viele Kräfte gebündelt und es war gar nicht möglich soviele Chips in so kurzer Zeit auf die Beine zu stellen.

Hübie

2016-04-06, 09:36:26

Hast du geguckt was er fett gedruckt hat? :rolleyes:

@scully1234: Was meinst du? Die sind gedreht.

scully1234

2016-04-06, 09:37:37

Die sind im HBM Teil doch anders gestaltet oder taeuscht das jetzt?

Sind das unterschiedliche stacked Rams ,oder wieso wirkt das so, als ob der untere HBM mehr Raum einnimmt,auf dem Interposer?

iuno

2016-04-06, 09:47:57

Ich kann mir vorstellen, dass bei der 'dunkleren' Variante noch dieser spacer (http://pics.computerbase.de/7/1/5/8/3/15-630.1731623009.jpg)Fehlt
Mit was fuer einem Material fuellen die die gaps auf? Warum nimmt man da nicht einfach einen Heatspreader? Zu schlechte Waermeabfuhr, zu hoch, teurer?
Offenbar gibt es auch noch zwei Varianten, links fehlt mglw. noch der Spacer, der die HBM Stacks auf die hoehe der GPU anpasst und es wurde nur das 'Fuellmaterial' verwendet?!
Wer passende Software zur Hand hat (ich hier gerade nicht :P) kann das ja mal perspektivisch entzerren und vermessen. Vielleicht wurden auch zunaechst (links) noch HBM1 Stacks verwendet, wobei man ja auch nur bei Hynix die Masse kennt, bei Samsung afaik nicht.

scully1234

2016-04-06, 09:57:57

Hier ist mal das Hinterteil des Steckmoduls

http://images.anandtech.com/doci/10222/P100Back_575px.jpg

wolik

2016-04-06, 10:04:13

Zusammenfassung von ComputerBase: http://www.computerbase.de/2016-04/nvidia-tesla-p100-gp100-als-grosser-pascal-soll-all-in-fuer-hpc-markt-gehen/
Das Gesamtpaket des Tesla GP100 soll aus insgesamt 150 Milliarden Transistoren bestehen. :biggrin:

Loeschzwerg

2016-04-06, 10:07:08

Ich kann mir vorstellen, dass bei der 'dunkleren' Variante noch dieser spacer (http://pics.computerbase.de/7/1/5/8/3/15-630.1731623009.jpg)Fehlt

Wenn man sich alle Bilder ansieht, dann sind dies meiner Ansicht nach keine optischen Veränderungen. Zwischen KW 40 und 43 hat sich also noch etwas getan.

Die Chips aus KW 40 haben noch die typischen Engineering Sample Beschriftungen, die aus KW 43 nicht.

Edit:
55495

Locuza

2016-04-06, 10:17:51

Zweifel daran, wir sprechen uns in einem Jahr wieder.

- "Leider kostet diese Aufrüstung massiv Fläche, sodass man einfach nicht so effizient ist wie bei Maxwell"

Du könntest deine Behauptungen um soviel besser verdaubar machen, wenn du sie nicht als absolute Wahrheit verkaufst, sondern einfach ein ich denke/vermute/glaube hinzufügst.

Das hier:
- "ist wie bei Maxwell, welcher aber eigentlich nur ein DX11 (11_0) Design ist"

Ist blödsinn. Das Ding unterstützt DX12 mit FL12.1 und da gibt es kein eig.
Zeug wie paralleles arbeiten kannst du dir auch gleich sparen, wenn selektiv etwas als eig. bezeichnet wird, kann man cherry-picking bei jedem IHV betreiben.

- "mit der heißen Nadel um DX12-Features erweitert wurde"

Woher weißt du das es mit der heißen Nadel erweitert wurde?
Was definierst du als heiße Nadel?

- "Richtig gef*** sind da mal wieder die Käufer der Maxwell-Generation, da, wenn Pascal tatsächlich GCN-DX12-Code gewissermaßen "versteht"

Die haben gekauft was sie zu der Zeit gekauft haben, so "schlimm" wie bei Kepler wird es auch nicht ausfallen.

Godmode

2016-04-06, 10:18:07

Btw, ist schon jemand aufgefallen, dass im GP100 Blockschaltbild keine Rasterengine zu sehen ist:

GP100:
http://www.3dcenter.org/dateien/abbildungen/nVidia-GP100-Blockdiagramm.png

GM200:
http://www.3dcenter.org/dateien/abbildungen/nVidia-GeForce-GTX-Titan-X-Block-Diagramm.png

Locuza

2016-04-06, 10:21:49

Das hat mich auch interessiert, wie Nvidia das in der Vergangenheit dargestellt hat und es gibt ein Blockschaltbild was schon früher die Raster-Engines etc. ausgeklammert hat.

GK110 auf der GTC 2012:
http://www.hardwareluxx.de/images/stories/newsbilder/aschilling/2012/gtc2012/GK110Block.png

Nakai

2016-04-06, 10:22:06

Ein bisschen was zu den GPCs, TPC und SMPs.

http://abload.de/thumb/p1120971lqrs5.png (http://abload.de/image.php?img=p1120971lqrs5.png) http://abload.de/thumb/p1120973q6qpj.png (http://abload.de/image.php?img=p1120973q6qpj.png) http://abload.de/thumb/p1120979xworn.png (http://abload.de/image.php?img=p1120979xworn.png)

EDIT
http://nvidianews.nvidia.com/_ir/219/20163/GTC2016_FINAL.pdf.download

Sehr schön, hier sieht man es sehr gut.
Der Aufbau ist eigentlich sehr Maxwell-artig. Man hat im Grunde nur den SharedMemory vergrößert und aufgeteilt. Ich bezweifle, dass man SMs einzeln skalieren kann. Das wird auch nur wieder in Paaren funktionieren.

@Godmode:
Sehr richtig, das Ding hat keine Rasterfunktionalitäten anscheinend. Deswegen Gaming-tauglichkeit gleich NULL Komma NULL. Das ist ein reiner HPC-Chip und damit ziemlich nichtssagend für den Rest vom Schützenfest.

€: Selbst wenn das Ding Rasterisierer hat, im Grunde hat GP100 nur hohe FP64-Leistung und eben für FP16/DL-Zeug. Im Grunde sind das 50~60% Mehrperformance bei der gleichen Fläche gegenüber GM200. Das ist kein Gamingchip.

Dural

2016-04-06, 10:51:03

Laut NV sind aber TMUs (240) vorhanden. Macht doch keinen sinn?

scully1234

2016-04-06, 10:56:15

Hardware scheduler fuer Async compute?

http://videocardz.com/58838/nvidia-announces-pascal-gp100-with-3840-cuda-cores

@Nvidia
Unified Memory and Compute Preemption—significantly improved programming model; (https://devblogs.nvidia.com/parallelforall/inside-pascal/) .... dann koennen die roten Jungens sich ja jetzt wieder schlafen legen, wenn die Aufregung vorbei ist

iuno

2016-04-06, 11:10:22

Btw, ist schon jemand aufgefallen, dass im GP100 Blockschaltbild keine Rasterengine zu sehen ist
Ja, hat aber gestern wohl keinen interessiert ;p

Vielleicht aber hier auch nur weggelassen, weil fuer Tesla unbedeutend
Scheint ja zuzutreffen, wenn GK110 auch erst ohne gezeigt wurde.
Wofuer braucht man Texture Units bei einer Tesla?

Hardware scheduler fuer Async compute?

http://videocardz.com/58838/nvidia-announces-pascal-gp100-with-3840-cuda-cores
Warum der Link? So wie ich das sehe wird da nur der Blogeintrag zitiert. Ich sehe da auch nichts was auf Async hindeuten wuerde. Aber auch das ist fuer eine Tesla uninteressant, weil sowieso nur compute queues benutzt werden (davon natuerlich reichlich).

scully1234

2016-04-06, 11:12:32

Ich hab den Dev Blog von Nvidia als Zitat noch beigefuegt

Der Link zu Videocardz war nur ,weil ich deren Slide verwendet habe,soll ja alles korrekt bleiben:smile:

Nakai

2016-04-06, 11:29:50

Laut NV sind aber TMUs (240) vorhanden. Macht doch keinen sinn?

Die bekommt man aus den SMs auch nicht so leicht raus, ohne das Design stark umzukrempeln.

W4RO_DE

2016-04-06, 11:32:24

Ist er von Samsung?

Ja.

scully1234

2016-04-06, 11:37:23

Aber auch das ist fuer eine Tesla uninteressant, weil sowieso nur compute queues benutzt werden (davon natuerlich reichlich).

Na ob das nicht auch Einfluss hat auf das Featureset der Geforce Ableger:smile:

Dural

2016-04-06, 11:42:19

Die bekommt man aus den SMs auch nicht so leicht raus, ohne das Design stark umzukrempeln.

gut ist natürlich möglich, aber ich glaube nicht das der völlig ungeeignet für gaming ist, den nicht um sonst nennt NV ihn GP100

Aber ich bin auf GP104 so wie so mehr gespannt, das könnte eine wirklich nette kleine GPU werden. GP100 werden wir ziemlich sicher lange nicht voll Aktiviert auf Karten sehen und ich mag das gar nicht. :freak:

GP104:
2560SP
160TMUs
64ROPs
256Bit GDDR5X
8GB

Mit den Pascal Verbesserungen könnte der Chip Takt zu Takt sogar schon so schnell wie GM200 sein.

HOT

2016-04-06, 11:47:52

- "Leider kostet diese Aufrüstung massiv Fläche, sodass man einfach nicht so effizient ist wie bei Maxwell"

Du könntest deine Behauptungen um soviel besser verdaubar machen, wenn du sie nicht als absolute Wahrheit verkaufst, sondern einfach ein ich denke/vermute/glaube hinzufügst.

Das hier:
- "ist wie bei Maxwell, welcher aber eigentlich nur ein DX11 (11_0) Design ist"

Ist blödsinn. Das Ding unterstützt DX12 mit FL12.1 und da gibt es kein eig.
Zeug wie paralleles arbeiten kannst du dir auch gleich sparen, wenn selektiv etwas als eig. bezeichnet wird, kann man cherry-picking bei jedem IHV betreiben.

- "mit der heißen Nadel um DX12-Features erweitert wurde"

Woher weißt du das es mit der heißen Nadel erweitert wurde?
Was definierst du als heiße Nadel?

- "Richtig gef*** sind da mal wieder die Käufer der Maxwell-Generation, da, wenn Pascal tatsächlich GCN-DX12-Code gewissermaßen "versteht"

Die haben gekauft was sie zu der Zeit gekauft haben, so "schlimm" wie bei Kepler wird es auch nicht ausfallen.

Noch mal langsam ;).
NVidia hat ein Maxwell-Design entwickelt, als von neueren Low-Level-APIs noch überhaupt keine Rede war und für NV klar war, dass man sich auf DX11.0 konzentrieren möchte. Diese Entwicklung muss ja schon 2011 begonnen und spezifiziert worden sein, also als man Kepler bereits in Silizium vorliegen hatte. So ein Design braucht entsprechend Zeit um finalisiert zu werden. GM107 ist davon das Resultat, man baute diesen Chip für 11.0 in 28nm. In 2013 zeichnete sich allerdings schon ab, dass in Zukunft LowLevel-APIs eine Rolle spielen könnten, also veränderte man das Maxwell-Design auf die Schnelle, um den neuen Featuresets Rechnung zu tragen, anders kann das nämlich gar nicht gelaufen sein, dafür sind die Zeiträume viel zu knapp. Also hat Maxwell viel DX11-DNA, bringt jedoch alles für DX12 mit, was man in der kurzen Zeit erreichen konnte, das ist doch ziemlich klar meiner Ansicht nach. Heraus kam eben ein effizientes Design, insbesondere im DX11-Einsatz, welches aber bei DX12 dennoch mit einem weiten Featureset punkten konnte - mit einer Archillesverse, die man offenbar in der kurzen Zeit nicht anpassen konnte - das Frontend. Dadurch war man dazu gezwungen die grundsätzlich neue Art zu Arbeiten, nämlich asynchrones Rechnen, teilweise zu emulieren. Das ist meiner Ansicht nach die einzig sinnvolle Erklärung, warum Maxwell Schwierigkeiten mit AsyncCompute hat.

Beim letzten Satz hab ich mich einfach zu krass ausgedrückt, da sind mit die Pferde etwas durchgegangen. NV wird das sicherlich softwaretechnisch denke ich so hinbekommen, dass man damit auch bei DX12 leben kann.

Blediator16

2016-04-06, 11:50:51

Die Bilder von den Chips + Woodscrews :freak:

Interposer ist wie groß? Weil wir hatten ja einen Bericht vom 1200mm² Teil und packschwierigkeiten.

Locuza

2016-04-06, 12:16:38

Noch mal langsam ;).
NVidia hat ein Maxwell-Design entwickelt, als von neueren Low-Level-APIs noch überhaupt keine Rede war und für NV klar war, dass man sich auf DX11.0 konzentrieren möchte. Diese Entwicklung muss ja schon 2011 begonnen und spezifiziert worden sein, also als man Kepler bereits in Silizium vorliegen hatte. So ein Design braucht entsprechend Zeit um finalisiert zu werden. GM107 ist davon das Resultat, man baute diesen Chip für 11.0 in 28nm. In 2013 zeichnete sich allerdings schon ab, dass in Zukunft LowLevel-APIs eine Rolle spielen könnten, also veränderte man das Maxwell-Design auf die Schnelle, um den neuen Featuresets Rechnung zu tragen, anders kann das nämlich gar nicht gelaufen sein, dafür sind die Zeiträume viel zu knapp. Also hat Maxwell viel DX11-DNA, bringt jedoch alles für DX12 mit, was man in der kurzen Zeit erreichen konnte, das ist doch ziemlich klar meiner Ansicht nach. Heraus kam eben ein effizientes Design, insbesondere im DX11-Einsatz, welches aber bei DX12 dennoch mit einem weiten Featureset punkten konnte - mit einer Archillesverse, die man offenbar in der kurzen Zeit nicht anpassen konnte - das Frontend. Dadurch war man dazu gezwungen die grundsätzlich neue Art zu Arbeiten, nämlich asynchrones Rechnen, teilweise zu emulieren. Das ist meiner Ansicht nach die einzig sinnvolle Erklärung, warum Maxwell Schwierigkeiten mit AsyncCompute hat.

Und auf die schnelle hat man noch den shared-memory auf 96KB vergrößert, FP16 Atomics eingebaut und Multi-Projection implementiert und Zeit gefunden das optionale Tiled Resources Tier 3 einzupacken. Neben weiteren Kleinigkeiten.(HDMI2.0, bessere Decoder)
Das sieht nicht nach einer heißen Nadel aus, sondern nach vielen zielgesteuerten Veränderungen und viele DX12 Features sind natürlich nicht rein zufällig in der API.

Und dann noch einmal eine Definitionsfrage, was ist denn DX11-DNA und was ist DX12-DNA?
Natürlich hängt jetzt scheinbar alles an Async-Compute, was man leider als krude Bezeichnung für GFX + Compute Ausführung nehmen muss.

Naja, dann ist es halt so, dass GCN eigentlich die einzige echte DX12-Architektur ist.
Sorry Nvidia Maxwell v2 und Intel Gen 9, ihr DX11 Architekturen sucked halt. :P
Edit: Eigentlich sucked jede Architektur oder kann das ein Hersteller, außer AMD?

iuno

2016-04-06, 12:25:00

Na ob das nicht auch Einfluss hat auf das Featureset der Geforce Ableger:smile:
Was denn genau? Wie gesagt gibt es bisher keine Hinweise auf Async Faehigkeiten (gfx + compute in parallel). Ich sagte aber auch, dass das nichts zu bedeuten hat, weil man das bei einer Tesla nicht braucht. Mehrere Compute Queues gleichzeitig gehen natuerlich schon lange, nicht erst mit Pascal.

Nakai

2016-04-06, 12:38:58

http://forums.anandtech.com/showpost.php?p=38147258&postcount=1127

Was ich auch schon gesagt habe.

Mich würde es nicht wundern, wenn NV ihr Design an GCN angleichen wollte.

Eine Sache, wieso GP100 so "fett" ist. Ich vermute NV hat das erste Mal einen fetten Crossbar verbaut. NVs SMs waren immer so groß, dass sie nur mit mehreren Warps auslastbar waren. Dafür war die Crossbar deutlich kleiner und deutlich unkomplizierter. Fiji hat alleine 96 Peers auf der Seite der CUs.
Womöglich wurde GP100 deswegen so fett. Außerdem ist es bekannt, dass NV bzgl Interconnect und MCs noch nie an AMD rangekommen ist. Womglich sind sie einfach auf Nummer sicher gegangen und GP100 hat relativ viel Redundanz verbaut.

Ansonsten ist das was man in den 600mm²+ gepackt hat, sehr underwhelming. Der Chip ist mächtig, fett und krass, aber das sollte man erwarten bei 600mm²+. Nur so nebenbei, wenn AMD bei 230mm² ungefähr 2560 SPs unterbringt, muss NV das ordentlich mit dem Takt rausreissen.

prinz_valium

2016-04-06, 12:54:26

Seit wann haben OC Modell der 980Ti 250Watt? :wink:

Die 1,5GHz werden wir Garantiert sehen, OC müssten 2GHz drin sein. Ausser Pascal oder der Prozess macht sofort schluss, was ich aber nicht glaube.

Edit:
2GHz sind ja auch nur 35% von der P100 mehr Takt, rechnet mal bei alten Tesla Karten 35% Takt dazu, das ist nichts.

genau das sehe ich auch so.
was jucken mich irgendwelche tdp vorgaben von nvidia

ich will nur wissen was der prozess und der chip mitmacht. und mit glück haben wir hier ein potentielles taktmonster. der tesla baseclock ist ein indiz dafür. bisher aber auch nicht mehr, oder weniger.

leider wird man wieder vollpreis $500 für den kleinen zahlen müssen. aber wenn er stock 20 - 25% gegenüber der 980ti und mit oc dann 40 - 50% schafft, wäre das zum erste mal seit jahren wieder eine lohnende investititon.
dazu noch auf starke amd karten hoffen

mal sehen, ob ich meine gtx470 endlich in rente schicken kann :)

Nakai

2016-04-06, 13:04:25

Es hat sich gezeigt, dass NV eine ähnliche Konstellation des großen Modells auf die kleinen Modelle überträgt, jedenfalls seit Maxwell.

Ich denke NV wird einfach zwei GPCs, 4 MCs rausschmeißen, kein NVLiunk und die SMs vom DP Ballast befreien und wir haben GP104.
2560 SPs und dazu relativ hoher Takt klingt ganz gut.

Ich denke eher, wir sehen 1,5Ghz Base maximal.

captain_drink

2016-04-06, 13:16:47

Natürlich hängt jetzt scheinbar alles an Async-Compute, was man leider als krude Bezeichnung für GFX + Compute Ausführung nehmen muss.

Zumal AC lediglich ein optionales Feature von DX12 (bzw. Vulkan) ist, so dass es umso arbiträrer erscheint, selbiges zum Distinktionsmerkmal zwischen DX11- und DX12-"Architekturen" (was auch immer man sich darunter vorstellen muss) zu deklarieren.

Nakai

2016-04-06, 13:25:19

Zumal AC lediglich ein optionales Feature von DX12 (bzw. Vulkan) ist, so dass es umso arbiträrer erscheint, selbiges zum Distinktionsmerkmal zwischen DX11- und DX12-"Architekturen" (was auch immer man sich darunter vorstellen muss) zu deklarieren.

Das ist leider doch ein sehr gravierendes Merkmal. AC ist kein Feature, dass man ein oder ausschaltet. Es ist eher eine Art, wie man Arbeit auf die GPU bringt und dementsprechend ein definierendes Merkmal, wie etwas konkret implementiert wird.

Ätznatron

2016-04-06, 13:31:55

Sehe ich das richtig, dass auch Pascal kein ordentliches Hardware-AC beherrscht?

Ist das sicher oder derzeit nur Spekulation?

Falls das aber zutrifft, wäre für Gamer Pascal ein Riesenfail.

Nakai

2016-04-06, 13:34:23

Sehe ich das richtig, dass auch Pascal kein ordentliches Hardware-AC beherrscht?

Ist das sicher oder derzeit nur Spekulation?

Falls das aber zutrifft, wäre für Gamer Pascal ein Riesenfail.

Weiß keiner, wurde nicht erwähnt, werden wir sehen. ;)

HOT

2016-04-06, 13:43:47

Und auf die schnelle hat man noch den shared-memory auf 96KB vergrößert, FP16 Atomics eingebaut und Multi-Projection implementiert und Zeit gefunden das optionale Tiled Resources Tier 3 einzupacken. Neben weiteren Kleinigkeiten.(HDMI2.0, bessere Decoder)
Das sieht nicht nach einer heißen Nadel aus, sondern nach vielen zielgesteuerten Veränderungen und viele DX12 Features sind natürlich nicht rein zufällig in der API.

So war das ja auch nicht gemeint. Das bezog sich rein auf die Architektur. FP16 und anderes war sicherlich von vornherein geplant.

Und dann noch einmal eine Definitionsfrage, was ist denn DX11-DNA und was ist DX12-DNA?
Natürlich hängt jetzt scheinbar alles an Async-Compute, was man leider als krude Bezeichnung für GFX + Compute Ausführung nehmen muss.

Naja, dann ist es halt so, dass GCN eigentlich die einzige echte DX12-Architektur ist.
Sorry Nvidia Maxwell v2 und Intel Gen 9, ihr DX11 Architekturen sucked halt. :P
Edit: Eigentlich sucked jede Architektur oder kann das ein Hersteller, außer AMD?
Meine Güte ist das destruktiv und aggressiv und ot außerdem, ich hätt das besser nicht erwähnt, ich weiss ja dass meine plausible Theorie dauernd auf Ablehnung stößt - aber bisher auch kein stichhaltiges Gegenargument gesehen habe. Die Maxwell-Architektur verfolgt einen Zweck und dieser heiligt durchaus die Mittel. Intel hat da gar nichts zu suchen, die hab ich nicht kritisiert. Ich spreche Maxwell lediglich eine gewisse Zukunftstauglichkeit ab, was sich in aktuellen Spielen durchaus widerspiegelt und es gibt etliche Leute, die dafür 600€+ ausgegeben haben, das ist alles. Ob das wirklich so ist, ist noch ne andere Frage, aber ich denke - und es ist meine Meinung - dass es so ist. Deshalb schrieb ich ja auch, lass uns in einem Jahr das noch mal reflektieren. Für die Fury gilt das übrigens ähnliches, dort aber aufgrund des viel zu kleinen Speichers. Allgemein hat aber AMD durchaus den Konsolenbonus und dass sich M$ bei der Entwicklung von DX12 durchaus an der XB1 orientiert hat, das ist schwer zu leugnen. Nv hats hier ein bisschen schwerer, das haben sie aber wirtschaftlich mit Bravour gemeistert. Ich denke nur, dass das in Zukunft nicht so weitergeht. Und ja, es hängt, wenn auch nicht nur, viel an asyncCompute, das ist offensichtlich.

scully1234

2016-04-06, 13:59:37

Wie gesagt gibt es bisher keine Hinweise auf Async Faehigkeiten (gfx + compute in parallel). .

Compute Preemption—significantly improved

klingt das fuer dich nicht etwa nach ueberarbeiteten contex switching?

Nakai

2016-04-06, 14:01:12

klingt das fuer dich nicht nach ueberarbeiteten contex switching?

GCN ist vollständig parallel, ergo Compute oder Graphics Wavefronts gibt es keine Unterschiede. Bei NV wird das noch unterschiedlich gehandelt.

Ailuros

2016-04-06, 14:05:42

GCN ist vollständig parallel, ergo Compute oder Graphics Wavefronts gibt es keine Unterschiede. Bei NV wird das noch unterschiedlich gehandelt.

Ich lese mir das hier mal in Ruhe zu Hause durch: http://www.hardware.fr/news/14577/gtc-nvidia-tesla-p100-10-tflops-hbm2.html

Online translator natuerlich......

iuno

2016-04-06, 14:06:00

klingt das fuer dich nicht etwa nach ueberarbeiteten contex switching?
Preemption hat mit multi tasking zu tun, aber nicht mit paralleler Ausfuehrung. Das context-switching koennen sie natuerlich verbessert haben, das hatte ich auch schon zuvor gesagt, hat aber immer noch nichts mit async zu tun (ausser dass die Nachteile halt schrumpfen). AC-faehig wird die Hardware nicht, dadurch dass das switchen weniger Zeit braucht. Ziel ist es ja, den Kram nebenlaeufig auszufuehren

Duplex

2016-04-06, 14:08:02

Schaut man auf Nvidias Quartalszahlen, dann finde ich sind die +600mm² nichts besonderes, das maximum ist das beste was man entwickeln kann, in diesem Bereich hat Nvidia immer Vorsprung gegenüber AMD, man kann alles besser verkaufen.

fondness

2016-04-06, 14:32:01

Zumal AC lediglich ein optionales Feature von DX12 (bzw. Vulkan) ist, so dass es umso arbiträrer erscheint, selbiges zum Distinktionsmerkmal zwischen DX11- und DX12-"Architekturen" (was auch immer man sich darunter vorstellen muss) zu deklarieren.

AC ist nicht optional. Ohne gibt es keine DX12/Vulkan-Kompatiblität. NV muss das halt im Treiber zurecht biegen, da es die HW nicht beherrscht.

Nakai

2016-04-06, 14:45:54

Es gibt eine nette Folie, welche darstellt wie FP64 funktioniert.

FP16 werden pro Takt immer Op-Paare geschedult. Eventuell müssen diese die gleiche OP sein, was sehr naheliegend ist.

FP32 wird immer pro Takt einmal geschedult.

FP64 alle zwei Takte.

Warum sind es bei FP64 immer eine OP alle zwei Takte? Auf den Blockdiagrammen sind aber nur 32 FP64-Units pro SM eingezeichnet. Ergo wäre die Rate nur 1:4.

Die SIMDs bei Fermi waren immer in Paaren angeordnet. Kurz pro SM gab es 32 SPs (2x[2x8]). Für FP64 gab es nur 16 SPs (2x[1x8]), ergo wurden zwei FP32-SPs zu einer FP64-SP zusammengefasst. Womöglich wurde pro Takt geschedult.

Bei Kepler gibt es anscheinend dedizierte FP64-Einheiten. Grundsätzlich wäre es möglich FP32 und FP64 beliebig zu kombinieren. Die Warp Dispatcher können jedoch niemals den Peak für FP32 und FP64 gleichzeitig erreichen. Die grundsätzliche Designphilosphie war eher, völlige Auslastung der Dsipatcher als der SPs.

Maxwell hat das wieder entzerrt, indem die Anzahl der SPs und die Anzahl der Dispatcher ausgeglichen wurde. Hat Maxwell dedizierte FP64-SPs? kA, laut Damien und Hardware.fr scheint es noch so.

Und nun haben wir eine Dispatcher-Latenz für FP64. Man kann nur alle 2 Takte FP64 issuen, was sehr stark darauf hindeutet, dass FP64 eher durch loopen der FP32-Einheiten erreicht wird. Das geht eher in Richtung GCN.

Umso mehr ich GP100 anschaue, umso mehr sieht man eine GCN-artige Designphilosophie.

€: Und vom NV Devblog:

Because of the importance of high-precision computation for technical computing and HPC codes, a key design goal for Tesla P100 is high double-precision performance. Each GP100 SM has 32 FP64 units, providing a 2:1 ratio of single- to double-precision throughput. Compared to the 3:1 ratio in Kepler GK110 GPUs, this allows Tesla P100 to process FP64 workloads more efficiently.

Like previous GPU architectures, GP100 supports full IEEE 754‐2008 compliant single- and double‐precision arithmetic, including support for the fused multiply‐add (FMA) operation and full speed support for denormalized values.

Source: https://devblogs.nvidia.com/parallelforall/inside-pascal/

Ich bin ratlos...wie passt das zusammen?

M4xw0lf

2016-04-06, 15:12:45

€: Und vom NV Devblog:

Source: https://devblogs.nvidia.com/parallelforall/inside-pascal/

Ich bin ratlos...wie passt das zusammen?
Verkuppeln wir halt 2 FP32-Einheiten und nennen es eine FP64-Einheit. Oder unsere FP64-Einheit kann mit doppelter Rate FP32 und wir zählen sie als zwei FP32-Einheiten. Oder sowas.

Nightspider

2016-04-06, 15:13:33

FinFET scheint jedenfalls gut einzuschlagen wenn man die Größe (610mm²), die Taktraten und die scheinbar bessere Qualität vom Prozess im Vergleich zu 28nm zu Anfangszeiten betrachtet.

Pascal wird sich sicherlich wahnsinnig gut übertakten lassen. Könnte endlich mal wieder ein Grund sein einen Wasserkühler auf die GPU zu schrauben.

GP104 mit ~~1,5Ghz Boost und ~1,8Ghz bei Übertaktung wird sicherlich extrem abgehen.

Wenn GP100 schon 610mm² wiegt erwarte ich bei GP104 320-360mm² und locker 20-30% mehr Leistung als bei einer 980ti. Mit OC könnten das dann schon 30-50% schneller als eine 980ti werden.

Zwei Kärtchen davon und sebst Star Citizen dürfte in VR flüssig laufen. :D

Hoffentlich kann GP104 auch 4K+120Hz bzw. 5K +60Hz in h.265 encodieren. :)

Edit:

NVLink wird es nicht im normalen Consumer Bereich geben oder? Wäre für SLI/Triple-SLI/Quad-SLI sicherlich eine geile Sache.

iuno

2016-04-06, 15:25:08

Es gibt eine nette Folie, welche darstellt wie FP64 funktioniert.
Link?

Warum sollte Nvidia dann die FP64 ALUs extra einzeichnen und auch noch extra so benennen? Es waere ja eine Weiterentwicklung, die sie so 'verheimlichen'.

NVLink wird es nicht im normalen Consumer Bereich geben oder? Wäre für SLI/Triple-SLI/Quad-SLI sicherlich eine geile Sache.
Glaube ich nicht, es sei denn in einer dual GPU Karte, falls Notwendigkeit besteht (also AMD was in die Richtung bringt).
Waere auf jeden Fall nett, mit Async Copy und 80 GiB/s bidirektional :eek:
Wobei schon nicht klar ist, ob GP102/GP104 NVLink haben (eher nicht). Und 2xGP100 auf einem Board muessten auf einem Board wohl ordentlich mit dem Takt runter. Zumal bis so ein Produkt plausibel waere wohl eher schon Volta kommt. Scheint mir insgesamt keine gute Idee

aufkrawall

2016-04-06, 15:33:11

Und obendrein steigt das Taktpotential von 1075 MHz Boost-Takt bei der GTX 980 Ti auf mindestens 1480 MHz
Die 980 Ti boostet gerne auf 1150Mhz:
http://www.computerbase.de/2015-06/geforce-gtx-980-ti-test-nvidia-titan/3/#abschnitt_die_turbotaktraten

Ich weiß gar nicht, warum einige hier so wegen der hohen Taktrate ausflippen und da noch riesiges OC-Potenzial wittern.
Es wurde schon oft angedeutet, dass mit FF der Qualitätsunterschied zwischen den Chips geringer sein soll, und dass ab einer bestimmten Taktrate auch schnell einfach Schluss sein kann.
Kann auch sein, dass gar nicht nennenswert mehr als die 1,5Ghz gehen werden und btw. bräuchte man für 20% OC schon 1,8Ghz.

Edit: Man stelle sich einfach mal einen doppelten Hawaii mit 1,5Ghz vor, schon ist GP100 ziemlich lame.

Nakai

2016-04-06, 15:39:09

Link?
Warum sollte Nvidia dann die FP64 ALUs extra einzeichnen und auch noch extra so benennen? Es waere ja eine Weiterentwicklung, die sie so 'verheimlichen'.

http://pics.computerbase.de/7/1/5/8/3/9-1080.3618039559.jpg

Verkuppeln wir halt 2 FP32-Einheiten und nennen es eine FP64-Einheit. Oder unsere FP64-Einheit kann mit doppelter Rate FP32 und wir zählen sie als zwei FP32-Einheiten. Oder sowas.

Dann hätte man eine Rate von 1:4.

Sind es nur 32 FP64-Einheiten und eine Issue-Rate von 2clk, dann ist es 1:4. Das geht nur, wenn es 64 FP64-Einheiten sind, um den vollen Durchsatz zu erreichen.

Ich sage es nochmal, eine der beiden Folien ist Mist. Oder ich lege etwas völlig falsch aus.

Schaffe89

2016-04-06, 15:42:32

Das sieht ja katastrophal aus, was Nvidia da liefern will, da wird AMD recht einfaches Spiel haben.

BigKid

2016-04-06, 15:47:55

Das sieht ja katastrophal aus, was Nvidia da liefern will, da wird AMD recht einfaches Spiel haben.
Ich war versucht zu fragen auf was genau sich deine Aussage begründet und ob du vlt. mehr ins Detail gehen könntest... Dann hab ich deinen Avatar gesehen und die Sache hatte sich für mich erledigt...

Troyan

2016-04-06, 15:56:41

http://pics.computerbase.de/7/1/5/8/3/9-1080.3618039559.jpg

Dann hätte man eine Rate von 1:4.

Sind es nur 32 FP64-Einheiten und eine Issue-Rate von 2clk, dann ist es 1:4. Das geht nur, wenn es 64 FP64-Einheiten sind, um den vollen Durchsatz zu erreichen.

Ich sage es nochmal, eine der beiden Folien ist Mist. Oder ich lege etwas völlig falsch aus.

(Rudimentäres Wissen): Es sind nur 16 DP Einheiten pro Warp Scheduler. Da 32 Threads in einem Warp sind, bräuchte man 2 Takte, um einen Warp ab arbeiten zu können.

Schaffe89

2016-04-06, 16:00:43

Ich war versucht zu fragen auf was genau sich deine Aussage begründet und ob du vlt. mehr ins Detail gehen könntest... Dann hab ich deinen Avatar gesehen und die Sache hatte sich für mich erledigt...

:rolleyes:

Das Avatar ist nicht auf Nvidia, sondern auf die GTX 970 bezogen, die ich damals hatte.:wink:
Für mich sieht das nach einem PrePreview aus, nicht nach einem fertigen Produkt. 610mm² in 16nm FF, da dreht man ja am Rad.
AMD wird mit einem erheblich kleineren Chip und 4096 Shadern kommen, vll 350mm² wenns hoch kommt und wahrscheinlich ähnlich viel leisten können.

Ich frage mich nur wieso geht Nvidia auf 300 Watt TDP, das dürfte doch normalerweise völlig unnötig sein. Ich kann mir nicht vorstellen, dass die Karte im sweet spot läuft.
Für mich sieht das danach aus, als würde man alles in die Waagschaale werfen, was möglich ist. Nur bleibt dann eigentlich kein Spielraum für Verbesserungen, denn die die Größe ist ja schon ausgereizt.

Erinnert mich irgendwie an Fermi 2010, das sieht nach Holzhammer aus und auch damals hat man sehr früh schon so getan als ob alles fertig wäre und das kommt so überraschend irgendwie.
Sie wollen ne MAssenfertigung bereits gestartet haben... mit welchem HBM2 eigentlich?

Nakai

2016-04-06, 16:05:14

(Rudimentäres Wissen): Es sind nur 16 DP Einheiten pro Warp Scheduler. Da 32 Threads in einem Warp sind, bräuchte man 2 Takte, um einen Warp ab arbeiten zu können.

Siehe B3D. Damit macht es Sinn, ja.

NVs Blockdiagramm ist diesbezüglich sehr verwirrend, wenn man es als 2x8 interpretieren möchte.

€:
:rolleyes:

Das Avatar ist nicht auf Nvidia, sondern auf die GTX 970 bezogen, die ich damals hatte.:wink:
Für mich sieht das nach einem PrePreview aus, nicht nach einem fertigen Produkt. 610mm² in 16nm FF, da dreht man ja am Rad.
AMD wird mit einem erheblich kleineren Chip und 4096 Shadern kommen, vll 350mm² wenns hoch kommt und wahrscheinlich ähnlich viel leisten können.

Ich frage mich nur wieso geht Nvidia auf 300 Watt TDP, das dürfte doch normalerweise völlig unnötig sein. Ich kann mir nicht vorstellen, dass die Karte im sweet spot läuft.
Für mich sieht das danach aus, als würde man alles in die Waagschaale werfen, was möglich ist. Nur bleibt dann eigentlich kein Spielraum für Verbesserungen, denn die die Größe ist ja schon ausgereizt.

Erinnert mich irgendwie an Fermi 2010, das sieht nach Holzhammer aus.

Man darf den Takt nicht außer acht lassen. AMD wird ein gutes Stück darunter fallen, weil man wohl eher die Packdichte erhöht, als den Takt inkrementiert.

Das ist auch völlig typisch nvdianisch.