nVidia - Pascal - GP100 - 2016 - 3D-Memory HBM, NVLINK, Mixed Precision [Archiv] - Seite 8

Sunrise

2016-01-12, 22:54:38

...Wofür man die vielen Pins braucht, ist natürlich fraglich. Vielleicht irgendwelche neuen IO-Geschichten für VR?
Im Prinzip für alle Teile des Chips, die versorgt werden müssen. Kann alles Mögliche sein, das Speicherinterface sollte den Großteil einnehmen (daher die Annahme, weil wir ja schon mit GDDR5X spekulieren) der Chip wird aber insgesamt auch deutlich komplexer/dichter.

Nunja, wenn sie es schaffen 35-50% SP-Leistung auf GM204 unter 300mm^2 bei bis zu ca. 150W TDP zu liefern (Partnerkarten nicht eingerechnet), kann man damit ordentlich Geld verdienen.

Ich gehe da auch eher wie bei Kepler von kleinerer Chipgröße und hohen Frequenzen aus, soweit das bei der erhöhten Dichte möglich ist. Sollte es aber, da FinFETs verwendet werden.

GP102 sollte dann wie GM204 zu GM200 alles um genau 50% erhöhen.

AnarchX

2016-01-12, 23:00:33

Nunja, wenn sie es schaffen 35-50% SP-Leistung auf GM204 unter 300mm^2 bei bis zu ca. 150W TDP zu liefern (Partnerkarten nicht eingerechnet), kann man damit ordentlich Geld verdienen.

Ich sehe schon die Balken mit den "effective" TFLOPs, wo so ein 2048SPs ~1,3GHz Chip mit dem Titan X gleicht zieht, weil man da 25-33% FP16-Anteil für kommende Titel annimmt. :ulol:

Dural

2016-01-12, 23:14:16

Das wird schon der gp106 sein, schon nur wegen dem power bugdet. Wie so spricht nimand mehr vom 42,5x42,5mm chip der mal aufgetaucht ist?

Troyan

2016-01-12, 23:15:34

Den HPC Chip hat nVidia doch schon längst in den Labs.

HOT

2016-01-13, 00:41:00

Also bezüglich GP102 denke ich eher, dass dieser die gleiche SP-Rechenpower bieten wird wie der GP100.
Also eher sowas:
GP100 -> 4k Shader 500-600mm² (DP/SP 1/2) -> 4096Bit HBM, NVLink
GP102 -> 4k Shader 450mm² (DP/SP 1/32) -> 384Bit 8GBps GDDR5 o. GDDR5X
GP104 -> 2,5k Shader 300mm² -> 256Bit 8GBps GDDR5
GP106 -> 1,5k Shader 180mm² -> 128Bit 8GBps GDDR5
GP107 -> 768 Shader 100mm² -> 128Bit DDR

EInfach alles ignorieren. :D

Die einzig, interessante Zahl sind die 8TFLOPs bei "GPUs".

Verbaut werden da wohl Pascal-GPUs mit 2048SPs und 1000MHz. Entweder GP106 oder GP104 und der große hat dann 4048SPs.

Genau so seh ich das auch. Das sind zwei auf 80W getrimmte Mobile-Salvage-GP104 mit je 2k Shadern @ 1GHz. Ich bezweifle, dass die Tegra-Grafik in die 8TFLOPs eingerechnet wird. Damit werden die beiden GPUs gemeint sein.

horn 12

2016-01-13, 01:01:41

Und Performance technisch würdest die Pascal GPU Chips dann mit GTX 980TI als Referenzkarte, oder gar Titan X wo exakt einordnen, bitte?

GP 104 knapp über Titan X mit stolzen 8GB GDDR5 Speicher?
OC mässig sollte nicht allzuviel machbar sein, oder etwa vielleicht doch?

HOT

2016-01-13, 01:04:22

GP104 wird 980Ti @Referenztakt sicherlich überflügeln. Die Takte sind sicherlich höher als bei Maxwell. Ob das auf die OC-Reserve geht kann man schlecht sagen. Kommt alles auf den Prozess an.

horn 12

2016-01-13, 01:07:25

Was heist nahe kommen, überflügeln um 10 bis 15%,-
oder doch nur ein Kopf an Kopf Rennen, dafür aber doppelt soviel Speicher!

sudey

2016-01-13, 01:11:33

And how do you this scenario -

GP104 release on GDDR5X, and then again only this time on HBM. Make two lines of video cards have been Kepler (600 and 700). GP104 should come out stronger than TITAN X. GP 104 is to keep steadily on high settings at a resolution of 4k 50-60 fps

Ailuros

2016-01-13, 06:22:19

Erstmal muss die Frage geklärt werden, welche Pascal-GPUs auf PX2 verbaut werden. Das Board zeigt zwei GM204-Chips, welche im MXM-Format etwa 100W verbrauchen. Ein GM204-Full wird etwas mehr schlucken. Ich würde mich mal auf ~75W festlegen, da viele andere Komponenten ebenfalls Strom verbrauchen.

Ein PX2-Modul hat zwei solcher GPUs verbaut, dazu noch zwei SOCs, welche auch etwas Strom benötigen dürften. Die 250W sind damit ziemlich gut getroffen.

Und nun, wie kommt man auf diese seltsamen Zahlen beim Drive PX2? 24 DL TOPs? Das ist Faktor 3 mehr als die angegeben FLOP-Zahl. Wie kommt NV auf diese Wunderzahlen? Mehrere Theorien:

1) Alles auf die beiden GPUs: Kurz 4 TFLOPs für eine GPU. Was wird hier genau benannt? Ist es FP32? Oder schon FP16? FP16 ist für ANNs und DL anscheinend ausreichend. Ergo wird es sich hierbei um FP32 handeln.
4 TFLOPs für eine GPU sind etwa 2000SPs bei 1GHz. Das würde gut zu einem GM204 in Finfet passen, welcher dann GP106 heißt. Das wurde hier schon besprochen. Passt die angegebene TDP diezbezüglich? Wohl eher nicht. Ist es also doch GP104 der auf PX2 kommt?

2 x 2000 SPs x 2 FP32-FMA = 8 TFLOPs

2) 2 SOCs und 2 GPUs bieten diese TFLOP-Zahl. Tegra X2 (ich nenn den mal so) wird etwa 1 TFLOP FP32 bei 1GHz und 512 SPs bieten. Ergo nur 3 TFLOPs pro GPU dann, was etwa 1500 SPs sind. Eine GPU mit 75W mit Finfet und 1500SPs? Unwahrscheinlich. Oder seeeehr seltsam.

2 x 1500 SPs x 2 FP32-FMA + 2 x 512 SPs x 2 FP32-FMA = 8 TFLOPs

3) 24 DL TOPs für das Modul, was Faktor 3 der angegebenen 8 TFLOPs ist. FP32 zu 2x FP16 ist wahrscheinlich, ergo wären 16 DL TOPs korrekter. Wo kommen die zusätzliche 8 FL TOPs her? Von den Tegra-SOCs? Hier müsste jeder Tegra SOC etwa 4 DL TOPs liefern, was bei einem Split von FP32 zu 2xFP16 und prognoszierten 512 SPs pro SOC insgesamt nur 20 DL TOPs sind.

Was versteht NV unter DL TOPs? FP16 OPs?

4) Pascal secretsauce: Wenn NV wirklich den Begriff DL TOP haben möchte, dann bitte schön.

Ein künstliches Neuron berechnet sich so:

act(∑ w⋅x + b)

Eine Summe der gewichteten Vorgängerwerte mit einem zusätzlichen Bias-Wert. Das wird in einer Aktivierungsfunktion eingespeist, welche zB ReLu, logistische oder die hyperbolische Aktivierungsfunktion sein kann. Derzeit benutzt man hauptsächlich noch die ReLu weil am einfachsten.

Die Summe kann man über einer Baumstruktur summieren und hier benötigt man viele Additionen. Ich könnte mir vorstellen, dass NV die Pascal-SPs ein FMA + ADD ausführen lassen kann. Ergo man führt zusätzliche DL OPs ein.
Dadurch hätte man den Faktor 3, wenn man alles sehr naiv rechnet.;)

€: Ahja, damit wären wohl die Pascal SPs deutlich fetter als erwartet. Irgendwas stimmt hier gar nicht.

5) Oder man ein Tegra SOC kann 4 DL OPs pro einem FLOP?

IMHO DL TOPs = Integer OPs. Die naechste Frage waere dann natuerlich wieso bei theoretischen INT8 es nicht 32 DL TOPs sind aber dazu kann ich auch nur die Schulter zucken. Im Grund ist es aber auch ziemlich egal; wichtiger waere zu wissen was man genau pro ALU parallel pro Takt ausfuehren kann in Pascal.

-----------------------------------------------------------------------------------------------------------------------------------------------------

Sonst zur restlichen Klugscheisserei: es ist zwar schoen und gut zu denken dass IHVs jetzt wo sie endlich FinFET Prozesse haben ihre Hosen total runterziehen werden, aber 10FF hat einen ziemlich grossen Abstand und es muesste noch etwas fuer zumindest noch eine followup Familie unter 16/14FF uebrig bleiben.

Godmode

2016-01-13, 07:36:15

Sonst zur restlichen Klugscheisserei: es ist zwar schoen und gut zu denken dass IHVs jetzt wo sie endlich FinFET Prozesse haben ihre Hosen total runterziehen werden, aber 10FF hat einen ziemlich grossen Abstand und es muesste noch etwas fuer zumindest noch eine followup Familie unter 16/14FF uebrig bleiben.

Was ähnliches habe ich auch schon gedacht. Sie bringen jetzt erstmal kleinere Chips (Highend bis maximal 500mm2) und später dann nochmal neue Chips, wo dann auch der Prozess maximal ausgereizt wird.

GP102 -> 4k Shader 450mm² (DP/SP 1/32) -> 384Bit 8GBps GDDR5 o. GDDR5X

Mit GDDR5 wäre das Ding dann aber schon stark am Limit, wenn dann nur mit GDDR5X. Eher glaube ich aber an 2 HBM Stacks, damit auch die Effizienz wieder passt.

Ailuros

2016-01-13, 08:05:42

Es macht auch auf mehreren Ebenen mehr Sinn; Herstellung wird in der Zukunft zunehmend billiger sein und natuerlich auch yields um einiges besser. Haelt man es beim Prozess-kickstart innerhalb Grenzen wird es sowohl billiger und es geht auch schneller.

Dural

2016-01-13, 09:27:34

GP102 ohne HBM ist lächerlich, zudem das Gegenstück von AMD zu 100% HBM haben wird.

Den HPC Chip hat nVidia doch schon längst in den Labs.

Ich meine nicht den HPC Chip mit 55x55mm, ziemlich zeit gleich tauchte ja auch ein 42,5x42,5mm chip auf.

Nakai

2016-01-13, 13:38:09

IMHO DL TOPs = Integer OPs. Die naechste Frage waere dann natuerlich wieso bei theoretischen INT8 es nicht 32 DL TOPs sind aber dazu kann ich auch nur die Schulter zucken. Im Grund ist es aber auch ziemlich egal; wichtiger waere zu wissen was man genau pro ALU parallel pro Takt ausfuehren kann in Pascal.

-----------------------------------------------------------------------------------------------------------------------------------------------------

Ich wüsste jetzt nicht wo man bei DL, also neuronale Netze, Integer OPs benötigen würde/könnte. Ich kenn mich etwas mehr mit ANNs (Artificial Neural Networks) aus und der typische Trainingsalgorithmus (Gradient-Descent Backpropagation) verwendet keine INT OPs.

Eine andere Sache wäre, dass Tegra X2 keine FP32-ALUs hat, sondern nur FP16. Das ist extreeeem unwahrscheinlich, praktisch unmöglich.

Da bräuchte jeder Tegra 2048 FP16-SPs, um das zu schaffen.:freak:

Ich vermute wirklich langsam, dass die bei Pascal die SPs deutlich mehr tun können. Also nicht nur FP32:FP16 1:2, sondern eher 1:3.

Nakai

2016-01-13, 13:58:00

Ist etwa nicht jede ALU mixed precision?

Ich jongliere im Kopf, wie man auf diese OP-Zahl kommt. Von 8 => 24 ist ein Faktor 3.

Womöglich werden wir von dieser Zahl eh nie wieder etwas hören.

Sunrise

2016-01-13, 14:05:14

Ich jongliere im Kopf, wie man auf diese OP-Zahl kommt. Von 8 => 24 ist ein Faktor 3.

Womöglich werden wir von dieser Zahl eh nie wieder etwas hören.
Das ist doch einer der springenden Punkte, warum Pascal (ausgenommen Takt) schneller sein wird als Maxwell, da beide binärkompatibel sein werden. Wieso gehst du davon aus, dass wir davon nichts mehr hören?

Oder verstehe ich deinen Satz "dass wir von dieser Zahl nie wieder etwas hören" falsch?

Dass die Pascal-ALUs mehr können als die Maxwell-ALUs ist doch ein offenes Geheimnis inzwischen. Jensen deutet das auch mit einem kleinen Satz an, der aber sehr geschickt "nicht technisch" ausgedrückt ist, sondern er sagt sinngemäß nur "Maxwell fehlen die neuen Befehlssätze für die hohe Geschwindigkeit, die für die hohen DL TOPS notwendig sind". Und da der "mixed precision" hint keiner mehr ist (Tegra) kann das eigentlich nur eines bedeuten.

Nakai

2016-01-13, 15:18:20

Naja wenn jeder SP drei DL OPs ausführen kann, sind es wohl FP16 Vec3 OPs Peak.

Der GD Backprop Algorithmus besteht pro Iteration aus einem Forward Pass, Fehler Berechnung E (Cost) an den Ausgängen, und einem Backwardpass bei welchem der Ausgangsfehler auf die Gewichte und Neuronen abgebildet wird. Dementsprechend wird ein Delta berechnet, mit welchem die Parameter, also Gewichte und Bias angepasst wird. Es ist ein Optimierungsalgorithmus. Er benutzt im Grunde nur aus Muls und Adds und wenig SFs. Die ReLu ist eine sehr einfache OP, deren Derivative auch einfach berechenbar ist.

3:1 ist diesbezüglich nahe am Optimum der Ressourcennutzung (Multiplizierer). Die ALUs wird das dennoch aufblähen und es ist für generelle Anwendungen nicht wirklich brauchbar.

Sunrise

2016-01-13, 15:41:35

...Die ALUs wird das dennoch aufblähen und es ist für generelle Anwendungen nicht wirklich brauchbar.
Da Pascal ja für mehrere Anwendungsfelder benötigt wird (Mobile, Automotive, Gaming, Professional, HPC) und auch für mehrere Marktsegmente (Low-End, Mid-End und Performance und absolutes High-End), wird das durch eine erhöhte Dichte auf FinFET abgefangen werden müssen, weshalb man wohl auch Volta verschoben hat, um dies so umzusetzen, da man ansonsten Unmengen an Fläche benötigt hätte, die brach liegt. Ebenso gab es keine Komponenten für noch deutlich schnelleren Speicher, was vor allem für das professionelle Segment notwendig gewesen wäre.

Das heißt wahrscheinlich, dass wir keine ALU-Erhöhung sehen werden, sondern aufgebohrte ALUs, nochmals bessere Speicherkompression und höherer Takt, damit dies (siehe Apple bei den A9 Twister-Kernen) dennoch sehr gut durchschlägt. Denn Takt bei gleichzeitig niedrigerem Verbrauch ist durch nichts zu ersetzen. Billiger kommt man denke ich nie weg.

Volta sollte demnach eine mehr oder weniger starke Erhöhung der ALUs bringen mit dem Groundwork das Pascal von Volta geerbt hat.

Daher gehe ich auch davon aus, dass GDDR5X wohlmöglich ausreicht, ausgenommen GP100.

Denn wenn wir einen GP104 mit 256bit-GDDR5X-Interface bekommen und wir 50% draufrechnen bei identischer Architekturbasis, dann reichen für den 50% größeren Chip auch 384bit-GDDR5X aus. Das wäre von der Skalierung her nämlich identisch mit GM204 zu GM200.

Oder sagen wir es anders:
Kommt GP104 mit GDDR5X an einem 256bittigem Interface, dann hätte ein Chip mit einer 50%igen Erhöhung der Einheiten den gleichen Flaschenhals wie GP104.

Ich bin mal gespannt, ob GP100 nur deshalb größer ist, weil er die Einheiten wohl auf 4096 ALUs erhöht, das GDDR5X-Interface mit HBM tauscht und NVLink mit an Board hat oder ob NV da bzgl. Double Precision etwas hinzugefügt hat.

Nakai

2016-01-13, 15:54:28

Sunrise

2016-01-13, 16:00:05

Godmode

2016-01-13, 16:26:38

Beiträge über HBM verschoben nach: http://www.forum-3dcenter.org/vbulletin/showthread.php?t=506896&page=10

Nakai

2016-01-13, 17:52:39

Ja, die Roadmap meine ich. MixedPrecision und eine stärkere Vektorisierung der SPs wird nicht wenig Kosten. Alleine MixedPrecision einzubauen wird etwa 20% mehr kosten, zusätzliche DL Instruktionen nochmal extra. Wenn es von Maxwell auf Pascal nur 40% mehr SP-Performance ist, und Sgemm ist ein guter Indikator, dann sieht es eher nach einem Fokus auf Compute aus. Das hat NV auch nötig.

Man sollte den Faktor HBM auch nicht unterschätzen. Weniger Mem Verbrauch -> höher taktbar. NV lässt Maxwell auch nicht am Limit takten, von daher kann man das bei Pascal liefern.

Sunrise

2016-01-13, 18:06:43

Wenn es von Maxwell auf Pascal nur 40% mehr SP-Performance ist, und Sgemm ist ein guter Indikator...
OK, aber wie kommst du da jetzt genau auf 1.4x mehr ALUs als bei Maxwell? Wie schlüsselst du das auf? Welche Hinweise gibt dir SGEMM, sodass du auf mehr ALUs schließt? Oder fehlt hier was schriftlich, was du aber im Kopf schon berücksichtigt hast?

Auf die 40% Mehrleistung bei SP kommt man doch auch, wenn man durch aufgebohrte ALUs bzw. über MixedPrecision die Instructionen aufsplitten kann und dann noch die mögliche höhere Frequenz berücksichtigt, da sollte doch 40% überhaupt kein Thema sein.

Apple ging von 1.4GHz (TSMC 20 SoC) auf 1.85GHz (TSMC 16nm FF+ bzw. Samsung 14nm LPE), das waren allein durch den Takt schon 32% mehr, ohne überhaupt Änderungen im Chip zu berücksichtigen bei besserem Verbrauch und geringerem Throttling, sprich, da ist eine ganze Menge an Spielraum da.

Bei etwa 280-330mm² mit ~3072 komplexeren ALUs (und der anderen Einheiten, ausgenommen ROPs), einem aufgebohrten Speicherinterface, höherem Takt, da wäre man annähernd doppelt so schnell wie GM204, was mich dann schon fast wieder an GDDR5X zweifeln lassen würde.

Allerdings würde das gut zum PinOut passen...

Nakai

2016-01-13, 18:20:21

Sgemm ist rein fp32, ebenso wie dgemm rein fp64 ist. Wenn ich die ALUs splitte, dann bringt mir das keine höhere FP32 Effizienz, eher das Gegenteil, da solche ALUs größer sind und weniger gut taktbar sind.

fondness

2016-01-13, 18:57:51

Ich bin gespannt, ob NV das "Mixed Precision" auch nach oben hin zusammenbringt, oder ob man hier weiterhin getrennt Einheiten benötigt. Genial wäre natürlich eine ALU die 1xFP64 oder 2xFP32 oder 4 x FP16 rechnen könnte. AMD hat ja defacto "Mixed Precision" eine Etage höher mit 1xFP64 oder 2xFP32 aber halt auch nur 2 x FP16.

AnarchX

2016-01-13, 19:34:12

Eine Alu Erhöhung werden wir sehen. Wohl eher um den Faktor 1,4. Siehe NV Pascal Roadmap. Die Multiprecision ALUs werden wohl schon ein gutes Stück größer werden. Ich rechne mal mit dem Faktor ~1,33, siehe Paper für Multiprecision FPUs. Vor allem wenn noch mehr Funktionalität eingebettet wird. Ich stelle mir GP104 mit 20~24 SMs vor, und GP102 mit 30~36 SMs. Den Rest wird man mit Takt erledigen. Ahja da NV SPs 6 Takte Latenz haben, sollte die Taktbarkeit nicht sehr darunter leiden.

Nimmt man diese 1,33 an landet ein hypothetischer Pascal-GM204 bei knapp 500mm², da der Core nicht nur Shader sind. Dazu vielleicht noch ein paar andere Ergänzungen: Denver-Cores? ;D
Und man ist bei einer Packdichtensteigerung von 1,8-1,9 halt bei den ~280mm², die man für das 35x35mm Package spekulieren kann.
Wie Ailuros schon schrieb, will man da vielleicht noch etwas Luft für den 2. 16nm-Schub, wie bei Maxwell, lassen.

Ailuros

2016-01-13, 20:01:34

Ich wüsste jetzt nicht wo man bei DL, also neuronale Netze, Integer OPs benötigen würde/könnte. Ich kenn mich etwas mehr mit ANNs (Artificial Neural Networks) aus und der typische Trainingsalgorithmus (Gradient-Descent Backpropagation) verwendet keine INT OPs.

Eine andere Sache wäre, dass Tegra X2 keine FP32-ALUs hat, sondern nur FP16. Das ist extreeeem unwahrscheinlich, praktisch unmöglich.

Da bräuchte jeder Tegra 2048 FP16-SPs, um das zu schaffen.:freak:

Ich vermute wirklich langsam, dass die bei Pascal die SPs deutlich mehr tun können. Also nicht nur FP32:FP16 1:2, sondern eher 1:3.

Ich hab Dir eine PM geschickt, damit das OT nicht zu weit geht.

Ich bin gespannt, ob NV das "Mixed Precision" auch nach oben hin zusammenbringt, oder ob man hier weiterhin getrennt Einheiten benötigt. Genial wäre natürlich eine ALU die 1xFP64 oder 2xFP32 oder 4 x FP16 rechnen könnte. AMD hat ja defacto "Mixed Precision" eine Etage höher mit 1xFP64 oder 2xFP32 aber halt auch nur 2 x FP16.

Beide Loesungen brauchen mehr Logik als wenn man nur bei FP32 bleiben wuerde; je hoeher das DP:SP ratio desto teurer wird es. Dedizierte Einheiten verbrauchen etwas mehr Logik, sollen aber weniger Strom verbrauchen. Wieso muessen wir den ausgelutschten Kaugummi immer und immer wieder wiederholen? Weil AMD je bis jetzt mit 4:1 oder 2:1 (je nach Fall) je eine bessere perf/W fuer DP hatte als NV?

Ailuros

2016-01-17, 09:52:30

Ich leg zwar nicht mein Hand ins Feuer dass es stimmt, aber alle meine bisherigen Fragen bezueglich der 24 DL TOPs waren in etwa in der Richtung:

https://forum.beyond3d.com/posts/1891845/

For computing neural networks you need multiplication and addition, don't expect a magical new special operation.
Typically the neuron outputs are 8 bit unsigned and the neural net weights are 8 bit signed.
For fully connected layers of say 1024 inputs and 1024 outputs, you have a 1024x1024 matrix in between.
All computation goes into multiplying a 1024 vector with a 1024 x 1024 matrix.
In case of 8 bit 'special' hardware can speedup this by doing for example n0*w0 + n1*w1 + n2*w2 + n3*w3
and accumulate this with a 32-bit accumulator, the multiplications being 8 bit. Hence the mixed precision.

To wow the crowds, sure 24 tera Deep Leanrning operations per second sound more impressive then 24 tera 8-bit mixed precision operations.

AnarchX

2016-01-17, 10:37:55

Troyan

2016-01-17, 10:42:06

Bei genau 0%.

Ailuros

2016-01-17, 12:52:16

Im Endeffekt sind die Pascal Cluster wohl ziemlich aufgebohrt, was sich möglicherweise eben auch im Transistorbedarf widerspiegeln wird.
Integer-OPs waren doch auch hilfreich für diverse Coin-Geschichten. ;D

Wie stehen eigentlich die Chancen, dass es Denver in einen Pascal (GP100) schafft?

Exophase@B3D hat sogar frisch nachgefragt; Troyan hat Gott sei Dank recht.

Sonst soooo "aufgebohrt" sind die cluster nun wirklich auch nicht; alles unter FP32/INT32 duerfte verdammt billig sein in hw. Wie Dally immer und immer wieder wiederholt ist der eigentliche Kopfschmerz wie man die diversen Einheiten eigentlich fuettert. Ich kann mir als Laie vorstellen dass sie hauptsaechlich in Datenpfaden von FP32 und abwaerts investiert haben und weiterhin zumindest auch fuer diese "Generation" bei dedizierten FP64 SPs geblieben sind; ist aber alles nur mein Bauchgefuehl und ich lass mich gerne eines besseren belehren.

AnarchX

2016-01-17, 13:17:09

Exophase@B3D hat sogar frisch nachgefragt; Troyan hat Gott sei Dank recht.

Ein Pascal der ohne Host-CPU für sich selbständig in einen großen Verbund rechnen kann, wäre nicht so verkehrt gewesen. Aber das hebt man sich wohl für die Zukunft auf und für Prototyping muss erstmal Parker reichen.

Sonst soooo "aufgebohrt" sind die cluster nun wirklich auch nicht; alles unter FP32/INT32 duerfte verdammt billig sein in hw. Wie Dally immer und immer wieder wiederholt ist der eigentliche Kopfschmerz wie man die diversen Einheiten eigentlich fuettert. Ich kann mir als Laie vorstellen dass sie hauptsaechlich in Datenpfaden von FP32 und abwaerts investiert haben und weiterhin zumindest auch fuer diese "Generation" bei dedizierten FP64 SPs geblieben sind; ist aber alles nur mein Bauchgefuehl und ich lass mich gerne eines besseren belehren.

Beim Shared Memory/L1 und Register File könnte man wohl mit GK210 gleichziehen. Und bei der Concurrent Ausführung gibt es wohl auch etwas Nachholbedarf.

Ailuros

2016-01-17, 16:45:02

Ein Pascal der ohne Host-CPU für sich selbständig in einen großen Verbund rechnen kann, wäre nicht so verkehrt gewesen. Aber das hebt man sich wohl für die Zukunft auf und für Prototyping muss erstmal Parker reichen.

Dass sie es bis jetzt nicht integriert haben sagt mir meinem Bauchgefuehl:

1. Herstellungsprozesse sind schlimmer als sie sich je vorgestellt haetten.
2. Der Drang fuer was-auch-immer einen oder mehrere CPU cores auf dem GPU die zu haben ist wohl heutzutage nicht mehr so gross; eventuell haben sie fuer zukuenftige hexascale hw eine effizientere Loesung gefunden?

Sonst fuer Denver spezifisch bezweifle ich dass man mit nur einem Denver core auf einem hypothetischen GP100 auskommen wuerde und obwohl ich es noch nicht bestaetigen konnte, "kostet" ein einzelner heutiger Denver core unter 16FF+ eine gesunde mm2 Zahl ueber der zweistelligen Grenze.

Nakai

2016-01-17, 18:06:16

Ich leg zwar nicht mein Hand ins Feuer dass es stimmt, aber alle meine bisherigen Fragen bezueglich der 24 DL TOPs waren in etwa in der Richtung:

https://forum.beyond3d.com/posts/1891845/

Ja, das klingt sehr plausibel. Ich ging bei meiner FPGA-Implementierung aber nicht weiter runter, als 16Bit Fixpoint (Integer).

https://en.wikipedia.org/wiki/Rectifier_(neural_networks)

Für ReLU Neuronen ist das ganz plausibel. Man muss nur sicherstellen, dass man keine Underflows und Overflows bekommt.

Sunrise

2016-01-17, 18:53:45

Mal zum Mitschreiben, wenn wir uns auf 8bittige OPs beziehen:

GP104 - 32bit FP ALUs
32/16/8 -> 1:2:4 facher Durchsatz? (daher die 4fachen DL TOPs ggu. FP32)

GP100 - 64bit FP ALUs oder wie bei GP104 + dedizierte FP64 ALUs
64/32/16/8 -> 1:2:4:8 facher Durchsatz?

Sollte für Pascal das Transistorbudget ungenügend sein, wäre also bei Volta die größte Ergänzung der finale Sprung von dedizierten FP64 ALUs auf nur noch FP64 ALUs für alle FP-OPs?

Da man auf 10nm (bei TSMC) nochmal beträchtlich mehr Area gewinnt, könnte man also bei Volta dann endlich auf einen Breakeven kommen und man hätte hinsichtlich Perf/W und Perf/mm2 dennoch einen Sprung gemacht?

GP102 wäre dann GP104 +50% damit man diesen Ballast nicht rumschleppen muss. Der dürfte dann aber recht spät nachgeschoben werden und erst als Pascal-Nachschieber kommen, ansonsten wären die Kosten für den Chip beträchtlich und über die Ausbeute reden wir lieber auch erstmal nicht.

Ailuros

2016-01-17, 18:54:55

Ja, das klingt sehr plausibel. Ich ging bei meiner FPGA-Implementierung aber nicht weiter runter, als 16Bit Fixpoint (Integer).

https://en.wikipedia.org/wiki/Rectifier_(neural_networks)

Für ReLU Neuronen ist das ganz plausibel. Man muss nur sicherstellen, dass man keine Underflows und Overflows bekommt.

https://forum.beyond3d.com/posts/1891894/

Novum

2016-01-17, 22:17:42

Ich verstehe die Diskussion gerade nicht. Auf irgendwas muss man entwickeln und die Zugänglichkeit von GPUs ist immer noch höher als die von FPGAs.

NVidia zielt eher nicht darauf ab GPUs für neuronale Netze für die Massenproduktion zu verkaufen.

Und für bestimmte Märkte lohnt es sich nicht für die Anwendung FPGAs zu programmieren oder noch extremer einen ASIC produzieren zu lassen. Vor allem wenn man flexibel sein will.

Dural

2016-01-18, 10:53:22

wenn das so kommt werden wir eventuell GP100 gar nie gross im Desktop Bereich sehen. Vielleicht auf einer "Titan" mit sinnlos viel Speicher (16GB) der rest wird durch GP102 (8GB) abgedeckt.

Godmode

2016-01-18, 13:53:55

Split der Diskussion über autonomes Fahren nach: http://www.forum-3dcenter.org/vbulletin/showthread.php?t=570275

Nakai

2016-01-19, 15:51:30

SKHynix Graphics Memory Databook listet noch kein HBM2 auf. Ergo Q2 für GP100 frühestens.

H2 in diesem Jahr werden die Chips ausgerollt.

Godmode

2016-01-19, 15:56:28

SKHynix Graphics Memory Databook listet noch kein HBM2 auf. Ergo Q2 für GP100 frühestens.

H2 in diesem Jahr werden die Chips ausgerollt.

Samsung startete die Massenproduktion schon, siehe anderer Thread: http://www.forum-3dcenter.org/vbulletin/showpost.php?p=10918060&postcount=206

Nakai

2016-01-19, 19:09:57

Ich weiß, deswegen schrieb ich es auch diesbezüglich. Und selbstverständlich wird es HBM2 von SKHynix schon geben. Nur für den Massenmarkt wird es noch dauern.

Ich verstehe die Diskussion gerade nicht. Auf irgendwas muss man entwickeln und die Zugänglichkeit von GPUs ist immer noch höher als die von FPGAs.

NVidia zielt eher nicht darauf ab GPUs für neuronale Netze für die Massenproduktion zu verkaufen.

Und für bestimmte Märkte lohnt es sich nicht für die Anwendung FPGAs zu programmieren oder noch extremer einen ASIC produzieren zu lassen. Vor allem wenn man flexibel sein will.

Nvidia drängt mit ihren GPUs in den Bereich für neuronale Netze, allen voran CNNs. Neuronale Netze können gut mit einer niedrigeren Präzision arbeiten. Ich selber konnte ANNs mit 16Bit-Fixpoint trainieren und ausführen. Die Präzision ist ausreichend.

GPUs sind derzeit noch auf FP-Operationen ausgelegt. GCN kann 32Bit INTs nur in DP-Rate operieren. <=24 Bit INTs in SP-Rate. NV wird das wohl mit Pascal ändern. Wenn man MixedPrecision wirklich von unten bis oben durchzieht, also FP16:FP32:FP64 - 4:2:1 und eine deutlich höhere INT-Rate, also 3 INT-OPs (8Bit) pro SP (passt gut zu einer 1 Bit Sign + 23 Bit Mantisse), anstrebt, dann werden die SPs definitiv deutlich größer werden.

Es ist für einige Machine
Learning-Algorithmen und Deep
Learning-Algorithmen völlig ausreichend, wenn INTs verwendet werden. FPGAs und ASICs sind energieffizienter und schneller. Womöglich sogar billiger, wenn man den Drive PX2 als Referenz sieht.

€: Es gibt für ADAS schon spezialisierte Hardware:

http://toshiba.semicon-storage.com/ap-en/application/automotive/safety-assist/image-recognition.html

http://www.renesas.com/applications/automotive/adas/solution_kits/adas_surround_view_kit/index.jsp

Das Ziel wird es definitiv sein, dedizierte und spezialisierte Hardware diesbezüglich anzubieten. NV wittert seine Chance. Dazu sollten sie einen Tegra-SOC für dieses Segment einmal entwickeln, evlt einen reinen Automotive-SOC.

Gipsel

2016-01-19, 19:30:00

GPUs sind derzeit noch auf FP-Operationen ausgelegt. GCN kann 32Bit INTs nur in DP-Rate operieren.Eigentlich nur Multiplikationen, Anderes geht genauso wie Bitmanipulationen mit voller SP-Rate.
NV wird das wohl mit Pascal ändern. Wenn man MixedPrecision wirklich von unten bis oben durchzieht, also FP16:FP32:FP64 - 4:2:1 und eine deutlich höhere INT-Rate, also 3 INT-OPs pro SP (passt gut zu einer 1 Bit Sign + 23 Bit Mantisse), anstrebt, dann werden die SPs definitiv deutlich größer werden.Und wo sollen die Operanden für bis zu 3 (32bit?) Int-Ops pro SP und Takt herkommen? Nur dafür baut niemand Registerfiles mit mehr Ports ein, das wäre viel zu teuer. Drei 32bit Operanden pro Takt und (32bit-)SP und ein 32bit-Ergebnis sind recht wahrscheinlich der Sweetspot. Die 4:2:1 Rate von FP16:FP32:FP64, die man so im Prinzip auch bei den SIMD-Einheiten von CPUs beobachten kann, betonen schon die Wichtigkeit der Limitierung durch die Registerports/Operanden-Bandbreite (mehr Ports sind überproportional teuer und kosten auch recht viel Energie). Auf die Logiklimitierung optimierte Varianten sehen bei mixed precision-Einheiten von den Raten tendentiell eher so aus wie bei AMDs VLIW-Einheiten bzw. Tahiti.

Nakai

2016-01-19, 19:32:14

Eigentlich nur Multiplikationen, Anderes geht genauso wie Bitmanipulationen mit voller SP-Rate.

Ja, ich wühlte nochmal im WhitePaper und da stand nichts diesbezüglich. In der GCN-Präsentation wurde das dann unterschieden.

Und wo sollen die Operanden für bis zu 3 (32bit?) Int-Ops pro SP und Takt herkommen? Nur dafür baut niemand Registerfiles mit mehr Ports ein, das wäre viel zu teuer. Drei 32bit Operanden pro Takt und (32bit-)SP und ein 32bit-Ergebnis sind recht wahrscheinlich der Sweetspot. Die 4:2:1 Rate von FP16:FP32:FP64, die man so im Prinzip auch bei den SIMD-Einheiten von CPUs beobachten kann, betonen schon die Wichtigkeit der Limitierung durch die Registerports/Operanden-Bandbreite (mehr Ports sind überproportional teuer und kosten auch recht viel Energie). Auf die Logiklimitierung optimierte Varianten sehen bei mixed precision-Einheiten von den Raten tendentiell eher so aus wie bei AMDs VLIW-Einheiten bzw. Tahiti.

Ich meinte 3 8 Bit INT-OPs.

Gipsel

2016-01-19, 19:35:00

Ah, okay.

Hübie

2016-01-20, 00:47:14

Also sind die "Deep learning" Ops INT8 und belegen jeweils zu Dritt eine FP32-Unit oder wie darf ich das verstehen? :redface: Denn das wäre plausibel wie man dann auf deren Berechnung kommt.

Nakai

2016-01-20, 13:45:33

Eine FP32-Unit (IEEE-754 (https://de.wikipedia.org/wiki/IEEE_754#Zahlenformate_und_andere_Festlegungen_des_IEEE-754-Standards)) hat 23 Bit für die Mantisse und 1 Bit Vorzeichen. Die internen Einheiten der Mantisse sind sehr ähnlich zu INT-Einheiten.

z.B.:
Addiert man zwei FP32-Zahlen, müssen erst die Exponenten angeglichen werden, also wird die Mantisse dementsprechend geshiftet und dann werden die Mantissen einfach addiert.

Multipliziert man zwei FP32-Zahlen, werden die Exponenten addiert und die Mantissen multipliziert und danach wird die Mantisse und Exponent dementsprechend nochmal angepasst.

Im Endeffekt sind die Berechnungen der FP32-Units intern auch nichts anderes als binäre Recheneinheiten, welche eben Operationen gemäß dem IEEE-754-Format ausführen. Die basischen Berechnungseinheiten für die Mantisse unterscheiden sich nicht sehr den von einer INT24-Unit. Das schöne an Integer-Logik ist, dass sie kaskadierbar ist. Ergo könnte man eine INT24-Unit in eine 3 INT8-Units aufspalten, wenn man das wirklich wünscht (oder in INT16 und INT8, etc...).

AMD GCN kann pro SP auch eine 24Bit INT MUL und eine 24Bit INT ADD ausführen (ja, ich weiß, sogar 32 Bit ADD :D). Die Mantisse+Sign ist genau 24Bit groß, weswegen man hierbei davon ausgehen sollte, dass es auf diese Einheit ausgeführt wird.

Das schöne bei ANNs oder CNNs ist, dass man nicht dividieren muss, außer man nimmt eine Logistische Aktivierungsfunktion (Sigmoid). Dann braucht man auch eine Spezialfunktion.

Sonstige:
https://en.wikibooks.org/wiki/Artificial_Neural_Networks/Activation_Functions

Populäre RELU:
https://en.wikipedia.org/wiki/Rectifier_(neural_networks)

Man geht eher auf ReLUs, denn diese sind sehr einfach zu berechnen. Keine transzedenten Berechnung, kein DIV, sondern einfach nur 0 oder linear.

horn 12

2016-01-21, 14:07:34

http://wccftech.com/nvidia-flagship-pascal-gpu-2h-2016/

August 2016 frühestens bei Hynix

Hübie

2016-01-23, 02:59:08

Huch. Fiel mir eben zum ersten Mal auf:

http://abload.de/img/nvlinkbcsjh.png (http://abload.de/image.php?img=nvlinkbcsjh.png)

AnarchX

2016-01-24, 18:12:10

Die Quellen von Notebookcheck sehen Pascal Mobile erst zum Jahresende:
but all our sources are still expecting the upcoming GPU generation ("Pascal") by the end of 2016/start of 2017.
http://www.notebookcheck.net/Nvidia-No-GTX-970MX-and-980MX-GPUs-are-in-the-works.158349.0.html
Bei GM204 lag da nur knapp ein Monat zwischen Desktop und Mobile.

Da könnte die Massenproduktion wohl erst im späten Q2 starten, fragt sich ob es bei AMD ähnlich aussieht, wobei da schon mehr Samples unterwegs zu sein scheinen und man wahrscheinlich mit Multi-Foundry mehr Waferkapazitäten sichern kann.

=Floi=

2016-01-24, 18:30:22

da blieb man auch auf 40nm. sind die Mobile chips vom prozess her eigentlich gleich?
denke die selektieren die m chips erst aus und warten bis die produktion richtig gut läuft.

AnarchX

2016-01-24, 18:52:56

Es war schon 28nm und natürlich war GM204 pin-kompatibel zu GK104.
Aber gerade im Mobile-Bereich sollten die Chips sehr attraktiv sein und mit Intels GT4e gibt es zumindest im Low-End-Bereich ernste Konkurrenz. Im Endeffekt sollte man wohl vom Herbst ausgehen für Desktop.

Undertaker

2016-01-24, 19:09:45

Aber gerade im Mobile-Bereich sollten die Chips sehr attraktiv sein und mit Intels GT4e gibt es zumindest im Low-End-Bereich ernste Konkurrenz.

Eine GT4e wird ziemlich sicher nicht in Low-End-Geräten landen. ;) Bzgl. Perf/Watt ist ja auch schon die GT3e in den 15W Modellen extrem gut dabei, aber ebenfalls einfach zu teuer und damit exotisch, um Nvidia ernsthaft unter Zugzwang zu setzen.

AnarchX

2016-01-24, 19:16:38

Low-End natürlich aus Sicht der dedizierten GPUs, wobei das in Mobile eher Mainstream/Performance entspricht. Mit KabyLake sollte 14nm doch so reif sein, dass selbst ein >200mm² Die entsprechend attraktiv angeboten werden kann. Wobei eine i3 + GM206-Cutdown/Polaris/GP107-Kombination es GT4e wohl ziemlich schwer machen könnte.

Undertaker

2016-01-24, 19:53:11

Möglich wäre es vielleicht schon, aber nach den Erfahrungen mit Intels bisheriger Preisgestaltung sehe ich die GT4e maximal wieder im MacBook Pro und ein paar kaum günstigeren Exoten. Leider, muss man sagen.

Ravenhearth

2016-01-24, 20:48:11

Die GT3e gibt es bisher auch nur im Surface Pro 4. So wird das einfach nichts. Dabei würden die sicherlich viele gerne in einem Ultrabook sehen, das nicht von Apple kommt, und selbst von denen gibts noch kein Skylake.

Guest83

2016-01-26, 23:09:53

http://techfrag.com/2016/01/25/nvidia-2014-2017-gpu-roadmap-pascal-titan-gp100-to-debut-in-april-gtx-1080-in-june-and-volta-in-2017/

Unicous

2016-01-27, 00:09:42

Das ist doch nur Gestocher im Nebel bzw. reine Spekulation. Diese Folien sind doch von so einem japanischen Forum. Die machen das mit jeder GPU Generation. Bin mir nicht sicher, ob die überhaupt mal einen Treffer hatten.

edit: Der Typ hat ja noch nicht einmal die Quelle gepostet.:mad:

Hübie

2016-01-27, 00:36:23

Ja vor allem halte ich April für zu optimistisch wenn wir hier von einer Titan X Nachfolgerin sprechen.

Dural

2016-01-27, 09:58:26

GP100 wird so wie so zuerst als Tesla kommen, wenig später ein Titan Ersatz mit 16GB und nächstes Jahr ein voller GP100 mit 32GB.

Godmode

2016-01-27, 11:05:14

Ich verstehe nicht, warum jetzt die neuen Fertigungsverfahren, plötzlich so schnell verfügbar sein sollten? Es sollte mittlerweile jeder mitbekommen haben, dass selbst Intel massive Probleme hat. Wie soll da ein Volta 2017 erscheinen können?

Ich bleibe dabei, dass wir Endkunden im Jahr 2016 nur GP104 sehen werden und sicher nicht GP100/GP102. Was die Profimärkte betrifft, kann es schon gut sein, dass GP100 noch 2016 verkauft wird. Ob wir noch was kleineres als GP104 in 2016 sehen werden, kann ich allerdings nicht einschätzen.

Troyan

2016-01-27, 11:40:01

Konkurrenzkampf. TSMC und Samsung kämpfen um Apple. Und die wollen das neuste vom neusten haben, um ihre SoCs weiterhin an die Grenze bringen zu können. Das ist der einzige Vorteil, den Apple gegenüber der Billigkonkurrenz hat.

Edgecrusher86

2016-01-27, 12:39:32

Nur GP104 GTX für 2016 ist sicher nicht im Sinn von NV, denn dann hätte AMD mit "Polaris 11" wieder mehrere Monate die schnellste GPU am Markt. Mit grob 17-18 Mrd. Transistoren gegen vermutlich 8-9 Mrd. Transistoren für GP104 dürften es locker 30% Leistungsunterschied sein, selbst von AMD niedrige Taktraten fahren würde (bei GP104 vermute ich um die 1,4 GHz Max. Boost).

Dass mit GDDR5X auch krumme Bestückungen möglich sind, lese ich auch zum ersten Mal - interessant, wenn auch nicht für mich, denn GP104 lohnt persönlich betrachtet einfach nicht. ;)
http://www.forum-3dcenter.org/vbulletin/showpost.php?p=10923126&postcount=1035
Ja, dann wäre ein GTX 980 Nachfolger mit 6GB und weiterhin 256-bit in der Tat möglich und vermutlich auch recht wahrscheinlich. 8GB dürften es wohl nicht werden, wenn man bedenkt, dass die nächste Ti vermutlich mit 8GB HBM Gen 2 aufschlagen dürfte und TITAN halt mit der doppelten Menge.

Mal sehen, ob es zur GDC Mitte März und GTC in der ersten Aprilwoche Neuigkeiten gibt - zumindest Techdemos würden sich ja anbieten. Falls GP100/102 grob Mitte des Jahres kommt, wäre das ja auch schon in etwa ein Jahr nach dem GP100 Tapeout.

NV braucht doch 2017 eigentlich nur genug Volta GPUs wohl in der Hauptsache für Summit & Sierra (in Q3?) ausliefern, wie damals K20X für TITAN (18688 Nodes: 1x K20X + 1x 16 Core Opteron pro Node; 4 Nodes pro Mainboard). Summit soll 3400 Nodes bei 150-300 PFLOP/s bekommen und Sierra etwas über 100 PFLOP/s schaffen...also sagen wir mal grob die Hälfte der Nodes haben - evtl. um die 5k Stück für beide. Macht also mindestens die gleiche Anzahl an Volta GPUs, die dann geliefert werden müssen.

Volta GTX "TITAN/SUMMIT/SIERRA (?)" wird sicherlich nicht vor Q1 2018 für die Enthusiasten aufschlagen.
Ich könnte mir aber vorstellen, dass NV Q3 2017 einen GV104 für den Desktop-Markt bringt, um GP104 zu beerben.

Hübie

2016-01-27, 13:10:12

Godmode

2016-01-27, 13:15:50

Die Release-Zyklen für Titanen war bisher in der Tat ein Jahr. War mir gar nicht so bewusst. Titan Feb '13 -> Titan Black Mar '14 -> Titan X Feb '15 ->???? Mar '16 könnte also doch was dran sein. Wäre ein Schlag ins Gesicht.

Die Titan Black zählt aber nicht, da das genauso eine GK110 GPU war. Ich wäre ja froh wenn ich im März schon zuschlagen könnte, weil die TX ist selbst mit 1500 MHz oft noch zu langsam.

Ich bereue es etwas, mein SLI verkauft zu haben. :freak:

Edgecrusher86

2016-01-27, 13:44:58

TITAN Black wurde offiziell im Februar, die X offiziell zur GTC am 17.03. vorgestellt (inoffiziell bei EPIC auf der GDC am 05.03.) - die Verfügbarkeit war Ende März/Anfang April gegeben.
Vor der GTC 2016 (04.04.-07.04.) (http://www.gputechconf.com/) wird man wohl eher nichts sehen.

Hm, könnte denn Samsung überhaupt schon so früh HBM Gen 2 in ausreichenden Mengen liefern? Bei SK Hynix startet die Massenproduktion wohl erst im August. Es wäre natürlich in der Tat eine positive Überraschung, käme vor H2 schon der dicke Pascal. :biggrin:

Eigentlich brauche ich ja den dicken Pascal idR noch nicht, wenn SLI funktioniert. Ist dies aber nicht der Fall, wäre ein ordentlicher Boost auch nicht schlecht - dann könnte ich hier und da wohl auch in 5K DSR spielen (abseits Titeln wie DIII RoS). :freak:

E: Was mich jedenfalls positiv stimmt, ist die Tatsache, dass NV iirc seit Mai 2012 immer zur GTC eine Enthusiasten-Karte vorgestellt hat. :cool:

2012: GTX 690
2013: GTX TITAN
2014: GTX TITAN Z (Release aber erst im Sommer^^)
2015: GTX TITAN X

Vll. bringt man 2017 ja "GTX TITAN VR" (Pascal Z-Nachfolger). ;D

E: Worstcase wäre wohl Dual-Maxwell zur GTC gegen die Fury X2/Gemini. Aber damit kann man auch keinen Enthusiasten mehr hinter dem Ofern hervor locken.

AffenJack

2016-01-27, 14:09:43

Ich glaube nicht an GP100 vor H2 als Titan. Auch wenn ich von einer Vorstellung auf der GTC ausgehe, das Anfangsvolumen dürfte man gesamt für HPC brauchen. Q3 könnte da schon funktionieren. Jeweils HPC und Titan wird es sowieso keinen Vollausbau geben erstmal, da der Yield zu schlecht sein dürfte. Dann kann man in 1 Jahr dann den Vollausbau als nächste Titan bringen und irgendwo dazwischen dann den Ableger für normalere Leute. Volta ist erst 2018 Zeug, ich glaube nicht, dass wir da irgendwas 2017 sehen. Es gab auch schon irgendwo Präsentationen wo Summit und Sierra schon für 2018 und nicht mehr 2017 eingeplant waren.

Zettabit

2016-01-27, 14:40:39

Hm, könnte denn Samsung überhaupt schon so früh HBM Gen 2 in ausreichenden Mengen liefern? Bei SK Hynix startet die Massenproduktion wohl erst im August. Es wäre natürlich in der Tat eine positive Überraschung, käme vor H2 schon der dicke Pascal. :biggrin:
Warum nicht einen GP104 als Testballon mit GDDR5X?

Klar, die ersten Chips in 16nm werden extrem teuer sein, der GP104 aufgrund seiner Größe aber längst nicht so teuer wie ein GP100, dazu kein HBM. Einfach ein LowVolumne-Produkt mit hohem Preis (999US$ oder gar mehr).

Das könnte für NVIDIA durchaus rechnen, auf jeden Fall Marketingmäßig.

Dann kann man im Laufe des Jahres den GP100 im professionellen Sektor ausrollen und für GTC 2017 gibt es eben die Titan mit GP100 im Vollausbau :cool:

Dural

2016-01-27, 14:46:11

ehm die xx104 Version ist in den letzten zwei Generationen immer VOR xx100 im Desktop Bereich auf den Markt gekommen, ich sehe keinen Grund wie so es diesmal anders sein soll.

N0Thing

2016-01-27, 14:55:35

Die Titan Black zählt aber nicht, da das genauso eine GK110 GPU war. Ich wäre ja froh wenn ich im März schon zuschlagen könnte, weil die TX ist selbst mit 1500 MHz oft noch zu langsam.

Ich bereue es etwas, mein SLI verkauft zu haben. :freak:

Eigentlich wäre es schon eine gute Leistung, wenn Nvidia den Rhythmus von zwei Jahren einhalten könnte und die Titan Y im Frühjahr 2017 aufschlägt.
Bei den hohen Herstellungskosten und dem Bedarf an einer leistungsstarken HPC-Lösung im Portfolio von Nvidia, kann ich mir einen GP100/2 auf einer Geforce-Karte in diesem Jahr nur schwer vorstellen.

Nakai

2016-01-27, 18:27:49

Mixed und DL-Precision wird definitiv die Kerne aufblähen. Womöglich verbaut man noch mehr Cache, auch weil es für DL Vorteile bietet.

Wenn Finfet einen doppelte Packdichte ermöglicht, und ein SM mit diesen Änderungen 10~20% mehr Transistoren benötigt, ist ein Pascal-SM 50~60% so groß wie ein Maxwell-SM.

Zusätzliche Änderungen, wie NV-Link werden ebenso etwas mehr Fläche verbrauchen. Der generelle Bedarf an Bandbreite geht nach oben, weil man mehr Leistung hat.

Wenn GDDR5X etwa 40% mehr Bandbreite als GDDR5 bringt, wird das ein Richtwert für die Performance sein. Besseres DCC wird natürlich auch seinen Nutzen haben, was natürlich auch mehr Fläche benötigt. Viele Punkte gelten auch für AMD natürlich.

Wenn man für Finfet eine zweite Runde an Refresh erwarten kann, dann wird man für die erste Runde erstmal keine maximalen Sprünge erwarten dürfen.
Finfet ist auch noch teurer pro Transistor als 28nm.

Mich würde es nicht wundern, wenn die Pascal-GPUs diesbezüglich eher eine Evolution als eine Revolution sind.

Für GP104 würde ich GDDR5X und etwas mehr SMs erwarten. Die zusätzliche Bandbreite und ein paar mehr SPs, sollten schon einen kleineren Boost bringen. Ich kann mir mehr als 300mm² nicht vorstellen. Ergo sollte man irgendwas zwischen 2500~3000 SPs erwarten können. Wenn man 6 SMs pro GPC verbaut (bei 4 GPCs), wird man so ziemlich auf GM200-Niveau kommen. Mit 8GB-RAM und etwas mehr Takt, sollte man eine GTX980Ti übertrumpfen könnnen.

GP106 wird ein halber GP104 werden.

GP100 wird keine GPU-Bestandteile haben, sondern ein reiner Compute-Chip.

GP102 wird ein GP100 mit GPU-Funktionalitäten und wird eher in 2017 kommen. Man wird wohl eine ähnliche Infrastruktur, wie GP100 verwenden können. Eventuell ein paar SMs weniger, um die GPU-Funktionalitäten auszugleichen.

Ergo die GTX1080 wird ein GP104,

GTX1180 ein GP102.

Ailuros

2016-01-27, 18:51:30

Zu viel gewidmete Transistoren fuer nur compute unterhalb von GP100 waere eine ziemlich schlechte Design-Entscheidung.

Irgendwie hab ich das Gefuehl dass Du die Geschichte womoeglich irgendwo ueberschaetzt; natuerlich sind die zusaetzlichen Datenstroeme fuer 24 DL TOPs nicht umsonst, aber es hat uns auch NV nirgendwo erzaehlt dass der Holzschrauben-Pascal-chip im PX2 parallel 4 GFLOPs FP32 und 8 GFLOPs FP16 und 12 DL TOPs ausfuehren kann. Marketing und peak Werte sind stets eine schoene Sache aber mir faellt es schwer zu glauben dass sie so viel Logik in chips gegossen haben die hauptsaechlich fuer 3D gaming verkauft werden.

Nakai

2016-01-27, 19:29:32

Marketing und peak Werte sind stets eine schoene Sache aber mir faellt es schwer zu glauben dass sie so viel Logik in chips gegossen haben die hauptsaechlich fuer 3D gaming verkauft werden.

Mixed-Precision und DL OPs werden wohl definitiv für GP104 und darunter erwartbar sein. Im Endeffekt ist das sogar nicht mal schlecht für die Perf/Watt wenn es explizit verwendet wird. Dedizierte Hardware ist selbstverständlich immer besser.

natuerlich sind die zusaetzlichen Datenstroeme fuer 24 DL TOPs nicht umsonst, aber es hat uns auch NV nirgendwo erzaehlt dass der Holzschrauben-Pascal-chip im PX2 parallel 4 GFLOPs FP32 und 8 GFLOPs FP16 und 12 DL TOPs ausfuehren kann.

Selbstverständlich ist es jedesmal ein ODER.

Das Maxwell-Pulver ist doch eh schon verfeuert. Pascals bessere Perf/Watt wird wohl hauptsächlich durch den Finfet-Prozess erreicht, was bestenfalls 70% sind.

Ailuros

2016-01-27, 19:54:38

AnarchX

2016-01-27, 20:36:15

Das Maxwell-Pulver ist doch eh schon verfeuert. Pascals bessere Perf/Watt wird wohl hauptsächlich durch den Finfet-Prozess erreicht, was bestenfalls 70% sind.

Mixed-Mode FP16 soll doch verbrauchsneutral sein. Da kann die Pro-Watt-Leistung in "ausgewählten Szenarien", auch Gaming, beträchtlich steigen.

Wenn sie den Prozess komplett ausreizen wuerden, koennte es sogar mehr als jeglicher bisher behaupteter theoretischer peak sein. Ist aber auch nicht der wirkliche Schmerzpunkt hier; wenn ein Pascal performance chip in etwa GM200 Leistung erreicht (welches vedammt wahrscheinlich klingt), gibt es wohl nicht besonders viel zu meckern ausser vielleicht den obszoenen MSRPs die die IHVs womoeglich anlegen werden.

$499 mit fallender Tendenz wäre doch nicht so verkehrt für GM200/Fiji-Leistung und könnte wohl eintreten, wenn beide Hersteller etwa gleichzeitig damit ankommen.

Sunrise

2016-01-27, 20:47:27

Wenn sie den Prozess komplett ausreizen wuerden, koennte es sogar mehr als jeglicher bisher behaupteter theoretischer peak sein. Ist aber auch nicht der wirkliche Schmerzpunkt hier; wenn ein Pascal performance chip in etwa GM200 Leistung erreicht (welches vedammt wahrscheinlich klingt), gibt es wohl nicht besonders viel zu meckern ausser vielleicht den obszoenen MSRPs die die IHVs womoeglich anlegen werden.
Das wird auch den Preis für GP104 erstmal begrenzen, mehr als $649-699 US werden es ohnehin nicht werden, da AMD dieses Mal (hatten wir eine gefühlte Ewigkeit nichtmehr) zuerst auf neuer Fertigung mit Polaris kommen wird. Ansonsten wird man sich maximal an den Preisen der Ti orientieren. Der Rest ist einfach zu groß und kommt später. Hier wird NV dann wohl erstmal wieder deaktivierte Dies bringen, die sukzessive schneller als die Ti werden. Dann muss man auch keine Preise anpassen und die Margen bleiben sehr hoch.

Im Grunde zumindest was Leistung angeht recht langweilig. Bei AMD erwarte ich Ähnliches. Viel kleinerer Die aber Fury X-Leistung und deutlich mehr VRAM. Alles was noch größer ist hat wenig Chancen noch 2016 zu erscheinen.

@Nakai
Das klingt schon besser. Gefährlich nahe war meine Einschätzung.

Ailuros

2016-01-28, 06:07:42

Mir macht der Speicher ueberhaupt keine Sorge sondern die Herstellungskosten von allem FF. Ich will hoffen dass beide IHVs lang genug gewartet haben und es keine unerwarteten Ueberraschungen geben wird.

AnarchX

2016-01-28, 07:23:32

Sunrise

2016-01-28, 08:44:39

Hier hatte ich ein paar interessante Daten aus 2015 zu Design/Wafer-Kosten gefunden: http://www.forum-3dcenter.org/vbulletin/showthread.php?p=10924065#post10924065
Schlussendlich sollte aber die Ausbeute bei einem ~300mm² 16FF Die doch höher sein als bei 600mm² 28nm?
Bei einem >5 Jahre alten Prozess gegen einen recht neuen Prozess will ich das am Anfang stark bezweifeln, aber es wird dennoch nach etwa 6 Monaten deutlich besser werden, das sah man damals auch schon bei Tahiti, der aber noch sehr konservativ ausgelegt wurde (Fläche) und auch bei Polaris wird das ähnlich sein.

NV hat das gleiche "Problem", ich will nicht wissen, bei einem >450mm² Die, wie da anfangs die Yields aussehen, wenn die Dichte bei dieser Komplexität auch dermaßen hoch ist wie auf FinFET. FinFET macht es zwar dichter, aber die Fehler sind ja dennoch anfangs komplett über den Wafer verteilt.

Wenn man da nichtmal ein Dutzend richtig voll-funktionierende Chips überhaupt rausbekommt ist das eher nicht so toll. Da würde sich soviel "Müll" ansammeln, dass man die Einführung lieber erstmal verschiebt, bis sich das weiter stabilisiert hat. Es sei denn man kann es sich leisten und die Großabnehmer bezahlen Summen, sodass man hier mit der Fab einen Vertrag aushandeln kann, dass man zu Anfang dennoch produziert, denn die Fab hat ja davon auch was, die verbessern ihre Prozesse anhand von den Erfahrungen der Chips (bzw. Wafer) die dort vom Band laufen.

Wie das genau mit den Verträgen gehandhabt wird ist nie so richtig klar (ist ja ein Geschäftsgeheimnis), aber TSMC wird sich darum bemühen (Samsung wird das sicher auch so machen), dass viele Kunden zu ihnen kommen, um den Prozess so schnell als möglich auch verbessern zu können.

Ailuros

2016-01-28, 11:07:33

Nakai

2016-01-28, 17:00:33

Mixed-Mode FP16 soll doch verbrauchsneutral sein. Da kann die Pro-Watt-Leistung in "ausgewählten Szenarien", auch Gaming, beträchtlich steigen.

Das denke ich auch. Werden explizite FP16-Ops verwendet, wird der Stromverbrauch auch geringer ausfallen. Da es sich aber wohl um FP16-Vec2-OPs handelt, also pro SP ist deren Nutzen nur in Fällen möglich, wenn es explizit genutzt wird. Gameworks ahoi.

Woher der höhere Pincount bei kleinerem Package kommt=? kA. GDDR5X? NVLink?

HBM sehe ich für GP104 ehrlich gesagt nicht. HBM ist teuer, HBM wurde von NV noch nicht adaptiert, HBM wird erstmal problematisch sein. Ein Performance-Chip wird das erstmal nicht haben.

Ein GP104 mit 2560~3072 SPs klingt sehr gut.

Novum

2016-01-28, 18:42:55

Wieso Gameworks? AMD war frueher dran mit FP16, Fury kann es schon.

fondness

2016-01-28, 18:45:13

Wenn AMD zum Jahresende einen ~300mm² Zen mit >3Ghz Takt bauen kann, dann sollten große GPus auch kein unlösbares Problem sein.

AffenJack

2016-01-28, 19:25:00

Wenn AMD zum Jahresende einen ~300mm² Zen mit >3Ghz Takt bauen kann, dann sollten große GPus auch kein unlösbares Problem sein.

Außerdem laufen die Prozesse mittlerweile schon ziemlich lange. 14LPE läuft seit einem Jahr und produziert vor sich hin. 14LPP sollte da nicht so einen großen Unterschied in der Yieldrate machen. Bei TSMC läuft 16FF+ auch schon länger als 6 Monate. Die Prozesse sind jeweils in der Massenproduktion und dürften über die Zeit deutlich verbessert worden sein und zumindest bei den kleinen DIEs macht es nun keinen so großen Unterscheid ob da ein A9X mit 150 mm² vom Band läuft oder vielleicht ne GPU mit 200 mm². Eigentlich sind die beiden noch nie auf so ausgereifte Prozesse gewechselt wie dieses mal. Zumindest AMD war ja sonst immer einer der ersten Hauptabnehmer. Ich würde mir um Yields keine so großen Sorgen machen. Waferkosten sind da ne andere Sache.

iuno

2016-01-28, 20:53:25

Wenn AMD zum Jahresende einen ~300mm² Zen mit >3Ghz Takt bauen kann, dann sollten große GPus auch kein unlösbares Problem sein.
Weisst du da mehr als wir?
300 mm² ist Vishera-Niveau. Skylake 4C+GT2 hat gerade mal 122 mm², wobei die IGP etwa so gross ist wie die 4 Kerne. Haswell-E hat 356mm² (in 22nm) mit 4 Speicherkanaelen und vermutlich auch sonst mehr Kram. Ich denke nicht, dass der 8C FX soo viel groesser wird als Skylake.
Ich denke schon, dass sich 300 mm² Chips bauen lassen, aber das halte ich nun fuer keine wirklich gute Begruendung.

igg

2016-01-28, 21:23:30

Sollte GP104 wirklich erst Q4/Q1 kommen, sollte doch eigentlich noch ein kleines Maxwell-Upgrade erscheinen. Hinweise auf solche Karten gibt es meines Wissens nicht, was doch eher für Q2/Q3 spricht.

iuno

2016-01-28, 21:30:10

Nein.
Was stellst du dir darunter vor? Moeglicherweise bringt ein Hersteller die x-te super-super-superclocked Karte, das hat aber mit Maxwell an sich nichts zu schaffen. Die GPUs bleiben selbstverstaendlich bis Pascal kommt.

Ailuros

2016-01-29, 07:23:13

Außerdem laufen die Prozesse mittlerweile schon ziemlich lange. 14LPE läuft seit einem Jahr und produziert vor sich hin. 14LPP sollte da nicht so einen großen Unterschied in der Yieldrate machen. Bei TSMC läuft 16FF+ auch schon länger als 6 Monate. Die Prozesse sind jeweils in der Massenproduktion und dürften über die Zeit deutlich verbessert worden sein und zumindest bei den kleinen DIEs macht es nun keinen so großen Unterscheid ob da ein A9X mit 150 mm² vom Band läuft oder vielleicht ne GPU mit 200 mm². Eigentlich sind die beiden noch nie auf so ausgereifte Prozesse gewechselt wie dieses mal. Zumindest AMD war ja sonst immer einer der ersten Hauptabnehmer. Ich würde mir um Yields keine so großen Sorgen machen. Waferkosten sind da ne andere Sache.

Das vorige galt fuer alles bisher; vor H2 wird kein GPU chip auf einem FF Prozess auf einem Ladentisch erscheinen. Es ist eben dann schon so dass beide IHVs rein zufaellig zur FF Massenproduktion erst dann gehen wenn die yields bzw. Herstellungskosten sich um einiges ausgebuegelt haben, welches auch etliche Monate nach der ersten 16FF/14FF SoC Herstellung liegt.

Uebrigens stimmt das obrige schon, aber der SoC vs. GPU Vergleich hinkt dann an anderen Stellen. SoCs haben mit binning yields nichts am Hut und sind auch ganz andere Tiere als ein GPU chip.

Sonst insgesamt werden auch Mitte dieses Jahres =/>300mm2 chips unter FF Prozessen nicht besonders billig sein. Bis sich die Herstellungskosten auf logischere Werte sinken wird nochmal fast ein Jahr vergehen. Es war auch nirgends von "unloesbar" die eigentliche Rede; nur eher die Moeglichkeit dass performance GPUs nicht unbedingt besonders billig sein werden. So lange der Endverbraucher immer noch kauft ist gar nichts unloesbar.

Dural

2016-01-29, 09:15:39

NV ist jetzt die letzte Firma die einen Chip auf den Markt bringt wo die Yieldrate so schlecht ist das der Chip nicht rentabel ist.

Hat man in der Vergangenheit ja schon öfter gesehen und AMD musste in den sauren Apfel beissen.

HOT

2016-01-29, 10:42:11

Die Polaris-Chips werden es sehr sicher noch dieses HJ schaffen. Da laufen schon große Mengen Samples durch die Gegend.

Botcruscher

2016-01-29, 11:52:56

In welcher Welt soll AMD denn unrentable Chips hergestellt haben? 40nm lief mit der 4770 mies weil TSMC einfach nicht liefern konnte. Gleiches gilt für die 5870 unter 28nm.

Hübie

2016-01-29, 12:44:35

Die Polaris-Chips werden es sehr sicher noch dieses HJ schaffen. Da laufen schon große Mengen Samples durch die Gegend.

Warum ist die offizielle Abkürzung wohl nicht HJ? X-D SCNR

Ich bin mir sicher dass Jensen seine Truppe ca 4-6 Monate hinter Raja's Mannschaft hinterher ist. Aber alles on track wie es scheint.

kdvd

2016-01-29, 13:12:26

In welcher Welt soll AMD denn unrentable Chips hergestellt haben? 40nm lief mit der 4770 mies weil TSMC einfach nicht liefern konnte. Gleiches gilt für die 5870 unter 28nm.

Passt doch. AMDs Dinner for One, why not? :weg:

iuno

2016-01-29, 13:17:48

Ich bin mir sicher dass Jensen seine Truppe ca 4-6 Monate hinter Raja's Mannschaft hinterher ist. Aber alles on track wie es scheint.
Und was macht dich da so sicher? Dass Charlie es sagt?

Obwohl Q4 natuerlich viel wichtiger ist als Q3 kann ich mir kaum vorstellen, dass Nvidia AMD Vorsprung gibt. Es war ja klar, wann die Prozesse so weit sind, ich kann nicht glauben, dass Nvidia das Design nicht rechtzeitig gebacken bekommen hat.

Sunrise

2016-01-29, 13:47:50

Es war ja klar, wann die Prozesse so weit sind, ich kann nicht glauben, dass Nvidia das Design nicht rechtzeitig gebacken bekommen hat.
Das ist auch nicht unbedingt so, aber die letztendlich dann kaufbaren oder verkauften Produkte haben unterschiedliche Prioritäten für diverse Segmente, die immer von bestimmten Marktfaktoren geleitet sind.

NV hatte bereits Verträge mit HPC-Großabnehmern unterschrieben, lange bevor AMD überhaupt Polaris gezwitschert hat. Demzufolge sind auch NVs Prioritäten im HPC (u.a. auch weil im Gaming/Workstation-Markt mehr als konkurrenzfähig und die Margen sehr gut sind) und Automobile-Markt, inkl. dem Ökosystem, was NV in den Markt drückt.

AMD sah sich dem entgegen, unbedingt mehr Effizienz aus Bestehendem herausholen zu müssen und zwar aus GCN selbst, weil sie genau das schon seit Hawaii mitschleppen und das allein mit HBM nicht zu lösen ist. Demzufolge ist auch AMDs Planung ausgelegt, deshalb kommen auch zuerst bestimmte sehr effiziente Polaris-GPUs, die großflächig eingesetzt werden können.

Zwei Firmen mit teilweise sehr stark unterschiedlicher Verteilung der Prioritäten.

Wenn hier einige also von "hintendran" schreiben, dann ist das eher die Wahrnehmung, denn wirklich wissen, wie weit NV intern mit den jeweiligen Produkten ist, tun wir nicht.

NV gibt sich allerdings alle Mühe, es so aussehen zu lassen, dass sie aktuell außer GP100 noch stark am rumbasteln sind, da schlichweg noch nichts Lauffähiges gezeigt wurde, im Gegensatz zu AMD. Und natürlich immer wieder den unfreiwilligen Running-Gag, etwas zu präsentieren, aber dann nicht das zu zeigen, was sie eigentlich gerade anpreisen.

Grabhopser

2016-01-29, 13:48:06

Und was macht dich da so sicher? Dass Charlie es sagt?

Vmtl. die Tatsache, dass man im Dezember lauffähige Karten gezeigt hat und die Samples verschiedener Chips inzwischen zu dutzenden durch die Gegend fliegen.

Edit: Sunrise war schneller

woodsdog

2016-01-29, 14:11:01

In welcher Welt soll AMD denn unrentable Chips hergestellt haben? 40nm lief mit der 4770 mies weil TSMC einfach nicht liefern konnte. Gleiches gilt für die 5870 unter 28nm.

Tahiti aka 7970 war die erste 28nm GPU? :confused:

Mandalore

2016-01-30, 14:38:24

http://www.tweaktown.com/news/49956/nvidia-launch-hbm2-powered-geforce-gtx-titan-successor-april/index.html

Laut TweakTown gibts die Titan X II mit HBM2 zum April, kurze Zeit später die Nachfolger zu 980Ti bzw. 980.

Wie verlässlich sind die Quellen von TT?

AnarchX

2016-01-30, 14:49:42

Bis auf ein Pre-NDA-Review ist mir bei TT nichts in Erinnerung. Was man als Vorarbwissen behauptet, waren Versanddaten von Zauba und zu GDDR5X gab es auch schon zeitig PDFs, wenn auch der Fokus damals noch mehr auf HBM lag.

Dass man GP100 auf der GTC im April zeigen kann, steht wohl außer frage. Aber die von TT spekulierten GeForce Versionen sind eher sehr fraglich. Wenn man wirklich von einer Titan X2 gehört hat, könnte das auch ein Dual-GM200 sein, der schon länger spekuliert wird und relativ einfach umsetzbar ist.

Sunrise

2016-01-30, 15:05:32

Wie verlässlich sind die Quellen von TT?
Wenn du verlässliche Quellen willst, dann bist du bei Tweaktown am Weitesten davon weg.

Die Schlussfolgerungen und Träumereien bei denen haben immer was von Malen nach Zahlen mit einer Mischung aus Fuad-Comedy-Logik. Absolut einzigartig.

Kartenlehrling

2016-01-30, 15:24:28

Mir sind die Australierer auch nur in erinnern von brechen mehrere Verschwiegenheitsvereinbarung,
wofür sie abgestraft wurden in dem sie keine Unterlagen und Einladunge mehr bekommen haben und danach rumheult es wär nicht so gewesen.

y33H@

2016-01-30, 15:43:01

Vor allem ist abseits der Headline alles "should" und "could" und "would". Eine vernünftige Quelle gab's da offenbar nicht.

Dass im April die GTC stattfindet und dort Nvidia über Pascal sprechen wird, ist öffentlich einsehbar.

Spasstiger

2016-01-30, 16:46:56

Es würde überhaupt nicht mehr zu Nvidias Produktpolitik passen, den Topdog einer neuen Generation als erstes Consumer-Modell auf den Markt zu lassen.
Ich kann mir eher vorstellen, dass NV für diesen Zeitraum die Vorstellung der neuen Tesla-Karten vorbereitet.

R.I.P.

2016-01-31, 09:52:31

Das ist doch wieder mal Propaganda pur. Erst wieder ne Attrappe in die Kamera halten, dann, nachdem alle mehr oder weniger seriösen Quellen sagen, dass AMD zeitlich vorne steht mit der neuen Generation Falschinfos streuen. Sollte AMDs Polaris wirklich früher kommen, wird man sagen: "Ach wartet doch, Pascal kommt in einer Woche raus". Kunde verarscht und dieser lächelt trotzdem glücklich und zufrieden wie immer...

Oder TT hat wiede mal was falsch verstanden:D

fondness

2016-01-31, 09:55:29

Naja, ich sehe schon eine unterschiedliche Herangehensweise. AMD kommt wohl zuerst mit Lowend und Performance und erst 2017 mit dem big-Teil. NV kommt anscheinend wirklich zuerst mit GP100, was natürlich auch irgendwo Sinn macht, da man dort im professionellen Segment wohl zurzeit die größte Flanke zu schließen hat. So gesehen kommt jeder im jeweiligen Segment zuerst.

AnarchX

2016-01-31, 10:56:51

Mit Maxwell lebt es sich halt auch noch bequem in 2016. Aber im Herbst sollte dann schon auch ein zweiter Pascal-Chip marktreif sein.

dildo4u

2016-01-31, 11:03:20

AnarchX

2016-01-31, 11:09:01

8GiB@Performance wird es wohl erst mit Pascal geben, wenn überhaupt. Mit GDDR5X sind ja auch 6GiB@256-Bit (mit voller Bandbreite) möglich.
Eher könnte ich mir einen R9 470X (Polaris10)-Konter - GTX 965 mit ~1280SPs@256-Bit 4GiB vorstellen.

Kriton

2016-01-31, 17:01:51

AffenJack

2016-01-31, 18:09:06

In der neuen PCGH steht das Polaris kein DX12.1 untersützt da kann NV wirklich gemütlich weiter Maxwell 2.0 verkaufen.Ich würde nur endlich eine 970 mit 8GB bringen die Karte sollte alle Verkaufsrekorde brechen.

Und das soll keiner außer PCGH mitbekommen haben und ne Onlinemeldung wars ihnen auch nicht wert? Kannst du bitte den Wortlaut davon posten, woher PCGH das wissen will. Am besten im AMD Thread da es die ja hauptsächlich betrifft.

y33H@

2016-01-31, 18:24:05

"Hindeuten" ungleich "Fakt"!
Laut AMD habe sich für Programmierer bei Polaris jedoch nicht viel geändert, was zusammen mit unveränderten Raster- und ROP-Blöcken darauf hindeutet, dass weiterhin DX12 mit FL 12_1 angeboten wird.

AffenJack

2016-01-31, 19:28:02

Und selbst da lehnt sich PCGH ganz schön aus dem Fenster. Maxwell 1.0 zu Maxwell 2.0 hat DX 12.1 bekommen. Aber für die Programmierer hat sich trotzdem nicht viel verändert und Nv hat auch nicht thematisiert, dass dies großer Änderungen bedurfte.

Leonidas

2016-02-01, 03:20:31

Die Änderungen hierfür (DX 12 -> 12.1) dürften so gering sein, das man das wohl nebenbei mitmachen kann. Nicht mitmachen muß - kann.

Locuza

2016-02-01, 03:41:57

FL12.0 --> FL12.1

Die Hardware-Änderungen für ROVs scheinen kein Klacks zu sein.
Conservative Rasterization kann man vielleicht leichter umsetzen.
Beides hätte man allerdings als Key-Features auf eine Folie schreiben oder sogar als "new" betiteln können.

Bei Pascal stellt sich dieses grundlegende Problem Gott sei Dank schon einmal nicht, aber ob es Verbesserungen an dieser Stelle geben wird.
Bessere ROV-Performance?
Conservative Rasterization Tier 2 oder 3?
Und eben auch die anderen Dinge der Spezifikation.

dildo4u

2016-02-01, 13:28:02

AMD wusste ja schon vor 4 Jahren das sie die GPU's in den Konsolen haben,das macht es für sie Sinn 12.1 wegzulassen,da die meisten Entwickler sich nicht die Arbeit machen Extras für den PC einzubauen.Das Meiste was Heute passiert sind besseres LOD,Texturen und Gameworks Effekte.

Locuza

2016-02-01, 13:36:37

Troyan

2016-02-01, 13:39:01

Das ist der Grund, wieso nVidia "Gameworks" entwickelt hat. Die können nun gezielt Effekte umsetzen, die optimal auf deren Hardware laufen und müssen nicht auf einzelne Entwickler warten.

AMD hat keine andere Wahl. Wenn die kein FL12_1 unterstützen, können die ihre GPU-Sparte gleich dicht machen.

Kartenlehrling

2016-02-01, 13:50:36

Scheiße ist es dennoch wenn man Key-Features von einem neuen Standard nicht anbietet, die die Konkurrenz hat.
Weil eben dennoch Spiele erscheinen, welche davon Gebrauch machen werden.

Aber es heist im umkehrschluss aber nicht, wenn die neueste AMD Karte FL12_1 kann, diese auch im Spiel aktivieren darf.
BatmanAK ist doch ein gutes Beispiel mit seinem Gameworks FLEX, da wurde AMD einfach ausgesperrt obwohl die PhysX Fähigkeit im einzeln noch in den Batman davor funktionierten.

Locuza

2016-02-01, 14:35:10

Wenn die kein FL12_1 unterstützen, können die ihre GPU-Sparte gleich dicht machen.
Gleich dicht machen natürlich nicht, aber für ein Segment hätten sie es wahrscheinlich wieder verschissen.

Aber es heist im umkehrschluss aber nicht, wenn die neueste AMD Karte FL12_1 kann, diese auch im Spiel aktivieren darf.
BatmanAK ist doch ein gutes Beispiel mit seinem Gameworks FLEX, da wurde AMD einfach ausgesperrt obwohl die PhysX Fähigkeit im einzeln noch in den Batman davor funktionierten.
Fast garantiert heißt es das.
Wenn die Sachen mit FL12.1 umgesetzt werden, wird es unter jeder FL12.1 GPU laufen, außer es gibt ein Vendor-Lock, so etwas kann auch mal vorkommen, ist aber absolut selten.

GameWorks Flex ist über PhysX und dann über das CUDA-Backend realisiert.
Das hat mit dem DX Support dann nichts mehr zu tun.

Unicous

2016-02-01, 15:09:02

Was soll dieser FUD? Und was soll er in diesem Thread?

HOT

2016-02-01, 15:21:06

Das ist ne gute Frage. Es wurden von beiden Herstellern des öfteren mal kein x.1-Featureset unterstützt und geschadet hat das eigentlich nie, was für ein Blödsinn. Da werden sich die Entwickler dann sowieso nicht drauf einlassen. Das könnte auch ganz schnell den Niedergang für entsprechende GW-Features bedeuten.
Ob GP100 wirklich ein Grafikchip ist, oder die GP102-Theorie greift, ist auch nicht vom Tisch, nur weil da ein Asiate ne Roadmap gebastelt hat. Und ne Titan X2 hört sich für mich eher sehr stark nach einem VR-Titan mit GM200-Chips an. Den könnt ich mir für April durchaus vorstellen. Da wurden wieder Sachen vermischt, die nicht zusammen passen.

Locuza

2016-02-01, 15:35:46

Was soll dieser FUD? Und was soll er in diesem Thread?
Berechtigte Ängste darstellen und die Sexyness von Pascal, als einzige Kaufoption, falls die Konkurrenz eben weiterhin nicht die Features unterstützt.

Das ist ne gute Frage. Es wurden von beiden Herstellern des öfteren mal kein x.1-Featureset unterstützt und geschadet hat das eigentlich nie, was für ein Blödsinn. Da werden sich die Entwickler dann sowieso nicht drauf einlassen. Das könnte auch ganz schnell den Niedergang für entsprechende GW-Features bedeuten.

Nur ist die Vergangenheit kein Gesetz für die Gegenwart bzw. Zukunft.
Just Cause 3 und F1 2015 werden wir bald mit ROVs und CR-Features erleben.
Dann kann man neu beurteilen.
Wenn die Features optisch exklusiv sind oder von der Performance her attraktiv sind, weiß man schon welche Negativschlagzeilen man erwarten darf, wenn Polaris kein Support dafür bietet.

Unicous

2016-02-01, 15:51:36

AMD hat sich noch nicht ausführlich zu den Architekturänderungen sondern nur Verbesserungen angekündigt.

Im Übrigen befinden wir uns im Pascal-Thread sehe daher die Relevanz nicht. Einen entsprechenden Polaris-Thread gibt es.

Und künstlich Ängste schüren ist mMn ziemlich daneben. Man kann sich darüber echauffieren, wenn entsprechende Erkenntnisse vorliegen.

Man kann auch darüber spekulieren, aber "Wenn die kein FL12_1 unterstützen, können die ihre GPU-Sparte gleich dicht machen." als legitimes Szenario durchgehen zu lassen ist einfach nur...:rolleyes:

edit:

Charlie lehnt sich mal wieder weit aus dem Fenster und behauptet, dass Nvidia noch kein Silizium aus der Fab zurück hat. Bin mir nicht sicher, dass er da wirklich richtig liegt, ich schätze eher, dass das bring up Gedöns für einen anderen Chip gedacht ist.

http://semiaccurate.com/2016/02/01/news-of-nvidias-pascal-tapeout-and-silicon-is-important/

y33H@

2016-02-01, 17:16:33

Dennoch ausführlich begründet, besagten Punkt aber (un)bewusst unterschlagen.

Mancko

2016-02-01, 17:17:33

Scheiße ist es dennoch wenn man Key-Features von einem neuen Standard nicht anbietet, die die Konkurrenz hat.
Weil eben dennoch Spiele erscheinen, welche davon Gebrauch machen werden.

Ebenso sollte man mit der Möglichkeit rechnen, dass wenn man die Features nicht unterstützt, die Konkurrenz das besonders ausnutzen wird.
Und schon hat man wieder die Enthusiasten und die Mund-Propaganda-Sache gegen einen sprechen.

Naja aber das Problem haben ja beide immer mal wieder und es ist auch ziemlich einfach erklärbar wieso. Beide entwickeln ihre Architekturen in einem gewissen eigenen Fahrplan. Das sind sehr komplexe Projekte in denen viel ineinander laufen muss, gerade auch vom Timing. Parallel dazu gibt es Diskussionen mit M$ was in spezifischen DX Versionen enthalten sein sollte und was nicht. Jeder versucht da seine Themen mit reinzubringen und M$ muss am Ende des Tages entscheiden und hat zudem auch einen eigenen Fahrplan. Dazu gesellt sich dann parallel die ganze Veranstaltung noch mal in Richtung OpenGL.

Im Grunde ist es doch für die IHVs fast kaum machbar immer alles exakt punktgenau zu treffen. Wenn M$ dann sich entschließt und irgendetwas noch mit aufnimmt in eine DX Version, man selber aber mit dem Design bereits sehr weit fortgeschritten ist, dann lässt sich manches halt einfach nicht mehr implementieren und man muss Kosten/Nutzen abwägen. Da würde ich grundsätzlich keinem der beiden einen Vorwurf machen. Beide befinden sich in einer Wettbewerbssituation und keiner von beiden wird immer punktgenau das gleiche wie der andere machen. Das ist einfach unrealistisch. Insofern gibt es auch für beide IHVs genügend Beispiele, wo der jeweils andere in dem Punkt mal besser und mal schlechter unterwegs war.

Grundsätzlich glaube ich aber, dass Nvidia die richtigen Schlüsse daraus gezogen hat. Im Grunde muss die Devise lauten: Bei DX und OpenGL mit dabei sein und den großen Teil unterstützen, also wie gehabt und eben in Kauf nehmen, dass man manchmal besser und manchmal schlechter dasteht. Parallel dazu ist es aber extrem zielführend Geld in die Hand zu nehmen und das zu fördern, was man selber 100%ig im Griff hat und zwar ohne Konkurrenz und ohne Microsoft und ohne irgendein Konsortium. Und die Antwort darauf ist das Gameworks Programm. Differenzierung ist Trumpf und das geht nur mit eigenem Invest. Kein Konsortium und kein M$ wird das für einen selber lösen. Insofern erwarte ich hier insbesondere bei Nvidia eher noch steigende Ausgaben und eine weitere Vergrößerung in exakt dieser Sparte.

fondness

2016-02-01, 17:53:39

Gleich dicht machen natürlich nicht, aber für ein Segment hätten sie es wahrscheinlich wieder verschissen.

NV macht das seit Jahren und es stört keinem.

aufkrawall

2016-02-01, 18:01:38

Weil man auf nichts verzichten musste.

Ailuros

2016-02-01, 18:22:40

http://semiaccurate.com/2016/02/01/news-of-nvidias-pascal-tapeout-and-silicon-is-important/

...und meine Antwort: http://semiaccurate.com/forums/showpost.php?p=253684&postcount=10

AnarchX

2016-02-01, 18:32:24

Wenn man selbst nichts zu berichten hat... ;D

Timbaloo

2016-02-01, 18:58:45

http://semiaccurate.com/2016/02/01/news-of-nvidias-pascal-tapeout-and-silicon-is-important/

...und meine Antwort: http://semiaccurate.com/forums/showpost.php?p=253684&postcount=10

If you'd do some further digging you'd see that the GM206 doesn't have a ~55*55 package
;D

Troyan

2016-02-01, 19:09:55

Minute 16:
http://images.nvidia.com/events/sc15/SC5102-path-exascale-computing.html

"It's implemented on the Pascal chips sitting in the labs right now[...]"

Und das war im November.

N0Thing

2016-02-01, 19:21:33

Ist Charlie angepisst, weil er hier im Forum keinen makellosen Ruf hat? Oder kennt sein Übersetzungs-Tool einfach die Wörter angeblich, gerüchteweise, unverifizierbar nicht??

aufkrawall

2016-02-01, 19:23:47

Ich glaube, er haut einfach nur gerne mit viel Testosteron in die Tasten.

AffenJack

2016-02-01, 19:29:23

Charlies Problem ist, er hat einfach keine Quellen mehr bei Nv. Wer auch immer ihm immer viel Zeug zugesteckt hat vor paar Jahren, ist nicht mehr da oder hält jetzt die Klappe.

Ailuros

2016-02-01, 21:07:31

Charlies Problem ist, er hat einfach keine Quellen mehr bei Nv. Wer auch immer ihm immer viel Zeug zugesteckt hat vor paar Jahren, ist nicht mehr da oder hält jetzt die Klappe.

IHVs haben sich generell in letzten Jahren um einiges geschlossen. Einen besonderen Zweck hat es nicht unbedingt denn sobald etwas nach aussen sickern koennte kann der direkte Konkurrent sowieso nicht mehr besonders reagieren. Irgendwie ist es im guten Ganzen schon gut, denn das ganze Affentheater ist sowieso nur immer laecherlich gewesen.

Hübie

2016-02-02, 11:49:13

HOT

2016-02-02, 15:24:59

Wir wissen:
- Im Juni gab es ein Tapeout in 16nm (von was auch immer, ein Testchip oder SoC vielleicht?)
- später im Herbst bestätigte man, dass man am Pascal-Silizium arbeitet (an was auch immer man arbeitet sagen die ja nicht...).
- im Januar versprach man Pascal und Pascal-SoCs bei dem Fahrzeugmodul, fakte jedoch mit aktuellen SoCs und Maxwell.

Zudem ist eine ganze Liste an Chips bekannt (GP108 - GP100) und das GP100-NV-Link-Modul war für Q2/2016 angekündigt (vielleicht will man da dessen Sepcs bekanntgeben). Zudem gibts noch einige wenige Lieferungen von irgendwelchen PCBs, die strenggenommen auch mit Maxwell-Refreshs bestückt sein können.

Im Grunde war es das.

Bei AMD weiss man wenigstens, dass es Tapeouts von Baffin und Ellesmere bei GloFo gab, welche heute als Polaris11 und 10 bezeichnet werden und seit der Präsentation weiss man, dass es schon PCBs dafür gibt, dass sie grundsätzlich laufen und das die offenbar kein HBM haben.

Godmode

2016-02-02, 16:35:17

Im Grunde genommen hast du recht, denn die Welt dreht sich trotz alle dem weiter. Charlie hin oder her. Es kommt kein Pascal vor Jahresmitte. Ich frage mich eigentlich nur ob GP104 GDDR5X haben wird und welcher nun der Gamerchip ist: GP100 oder GP102? Ich tippe zu 99% auf letzteren und darauf dass ein Gamer nie einen GP100 sehen wird.

Falls sie mit Pascal wirklich die Segmente auftrennen, wäre für den Spielerchip wohl eine messbar größere Leistungssteigerung möglich, als nur der neue Prozess alleine bieten würde. Das selbe natürlich auch für den HPC Chip, wenn dort alles was 3D angeht, weggelassen wird.

Ob sie wirklich schon diese Runde so weit gehen, kann aber wohl niemand sagen, ich würde es aber begrüßen. Ich würde gerne einen GM200 Nachfolger ohne DP, etc. sehen, aber trotzdem mit 500-600m2 Die. Hoffentlich kommen sie nicht auf die Idee und verkaufen uns Spielern nur mehr kleinere Dies <500mm2.

Hübie

2016-02-02, 16:54:43

Ich denke nicht dass man alles für 3D im HPC weglässt und vice versa. Das trägt sich noch nicht.

Timbaloo

2016-02-02, 16:57:32

Hoffentlich kommen sie nicht auf die Idee und verkaufen uns Spielern nur mehr kleinere Dies <500mm2.
Da müssten die Fertigungskosten >500mm^2 aber wirklich explodieren damit sich ein solcher Chip überhaupt lohnen würde. Denn so einen Chip könnte man auch als teildeaktivierte Variante vom Fetten Chip bauen. Und den Performancevorteil resultierend aus der Trennung von Gaming und Computing nur für den Computing-Chip zu nutzen erscheint mir wenig sinnvoll.

Aber gut, bei NV weiss man nie :freak:

woodsdog

2016-02-02, 17:26:21

Ich würde gerne einen GM200 Nachfolger ohne DP, etc. sehen, aber trotzdem mit 500-600m2 Die. Hoffentlich kommen sie nicht auf die Idee und verkaufen uns Spielern nur mehr kleinere Dies <500mm2.

Dann musst du aber auch an das Märchen "10nm in 2017 für GPUs" glauben. Ich tuh es nicht.

IMO werden sich sowohl AMD als auch NV hüten im ersten Durchgang schon das Die-Size Pulver zu verschießen. Wenn wir Pech haben, sehen wir 16nm die nächsten 3-4 Jahre.

AnarchX

2016-02-02, 18:15:08

GV100 als Eintrag für die CUDA-Entwicklung existiert ja schon.
Ist die Frage ob sich GV100@10nm in 2017 allein für den Profi-Markt lohnt.
Nimmt man vielleicht 200 Mio. USD direkt auf GV100 bezogen Kosten um den Chip in die Serienfertigung zu bekommen und dann vielleicht noch 500 USD pro brauchbarem Die, dann kann man sicherlich für $10.000 pro "Tesla V200" Gewinn machen, wenn man ein Absatzziel von >30.000 schafft, und hat halt einen 7 TFLOPs DP / 50 DL TOPS Chip in Angebot.

Nakai

2016-02-02, 18:17:16

An 2017 glaube ich erst, wenn ich es sehe. Eventuell wird Volta erstmal ein kleinerer HPC-Chip, wenn man sehr früh auf dem Markt kommt.

stinki

2016-02-02, 18:27:23

Dann musst du aber auch an das Märchen "10nm in 2017 für GPUs" glauben. Ich tuh es nicht.

IMO werden sich sowohl AMD als auch NV hüten im ersten Durchgang schon das Die-Size Pulver zu verschießen. Wenn wir Pech haben, sehen wir 16nm die nächsten 3-4 Jahre.
An 10nm GPUs in 2017 glaube ich auch nicht, aber an 10nm SoCs in 2017 und dann GPUs in 2018

AnarchX

2016-02-02, 18:28:33

GV100 soll ja im Summit noch 2017 verbaut werden und 2018 soll das Volta-Line-Up gelauncht werden.
Insofern stehen die Chancen vielleicht nicht so schlecht im H2 2017 einen 16GB GP100 als ~$700 GeForce erwerben zu können.;D

Godmode

2016-02-02, 18:47:17

Ich denke nicht dass man alles für 3D im HPC weglässt und vice versa. Das trägt sich noch nicht.

Ich könnte das nicht beurteilen, da ich keine Zahlen habe.

Dann musst du aber auch an das Märchen "10nm in 2017 für GPUs" glauben. Ich tuh es nicht.

IMO werden sich sowohl AMD als auch NV hüten im ersten Durchgang schon das Die-Size Pulver zu verschießen. Wenn wir Pech haben, sehen wir 16nm die nächsten 3-4 Jahre.

Ich schrieb nirgendwo, dass ich das glaube. Ich schrieb ganz deutlich "wünsche". Wie ich schon vor x Seiten schrieb, gehe ich auch von eher kleineren 16nm Dies aus, damit eben ein eventuell zweite Aufguss möglich wird. An 10nm für GPUs im Jahr 2017 glaube ich absolut nicht.

Hübie

2016-02-04, 16:39:37

Godmode

2016-02-04, 16:50:45

10 nm Strukturen in 2017 sind schon utopisch. Das macht weder wirtschaftlich noch technisch Sinn. Ob Volta nun wirklich auf 10 nm kommt ist doch auch noch nicht ganz klar. Die 10 nm könnten ebenso eine marketing-Angabe sein.

Volta wird wohl auf den 10nm Prozess angewiesen sein, wie auch schon Pascal auf 16nm angewiesen ist. Wenn 10nm nicht verfügbar ist, wird eben wieder sowas wie Maxwell eingeschoben. Selber Prozess, aber doch einige Verbesserungen, die eigentlich erst für Volta vorgesehen sind. NV/AMD wissen sicher genauer Bescheid, wann welche Prozesse verfügbar sein werden, unabhängig was das Marketing von TSMC, Glofo, ... öffentlich blubbert.

Ich selber beschäftige mich nicht mit Halbleiterfertigungsprozessen, daher habe ich keine Ahnung wie es in Zukunft weiter geht. Ich kann nur das nachbeten was alle sagen, dass eben die Fertigung immer problematischer und somit kostenintensiver wird.

F4USt

2016-02-04, 19:59:26

Ich frage mich welche Zukunft G-Sync noch hat.

Es ist doch anzunehmen, dass die neuen Grafikkarten DisplayPort 1.3/1.2a unterstützen werden oder? Dann wäre auch eine Unterstützung für FreeSync (Adaptive Sync) gegeben und G-Sync überflüssig.

Oder bietet G-Sync mehr als FreeSync? Man kann auch beides unterstützen, aber nur G-Sync kann ich mir nicht vorstellen als Laie.

maguumo

2016-02-04, 20:05:15

Adaptive Sync ist optional, zumindest bei DP1.2a (wird bei 1.3 wohl nicht anders sein). Ob sie das mit neuen GPUs unterstützen hängt einzig und allein davon ab ob sie das wollen.

F4USt

2016-02-04, 20:13:13

Verstehe. Schade eigentlich. Dennoch vielen Dank für die schnelle Antwort.

AnarchX

2016-02-08, 18:58:28

40 Stück des 37.5x37.5mm Chips für einen Preis von ~200 USD pro Stück (GM204 lag damals bei 80 USD):
19-Jan-2016 85423100 IC (INTEGRATED CIRCUIT) PI-FCBGA (CHF) (37.5*.37.5) 2152 DEVICE:W9Z3X LOT NO : P6U755.009 S.PN:BRH3737B / NOT FOR SALE Taiwan Banglore Air Cargo NOS 40 533,854 13,346
Und wohl nochmal 25 Stück einige Tage davor:
16-Jan-2016 85423100 INTEGRATED CIRCUITS PN BRH3737B PI-FCBGA(CHF) AS PER INVOICE Taiwan Banglore Air Cargo NOS 25 342,102 13,684

Godmode

2016-02-08, 19:20:40

Ailuros

2016-02-08, 19:44:22

Vom großen Package schwirren nicht so viele auf Zauba herum, wenn ich das richtig im Kopf habe? Somit dürfte die Wahrscheinlichkeit sehr hoch sein, dass GP104 oder was immer das kleinere Ding ist, früher kommt, als der Große.

Bei den Preisen macht auch nichts anderes Sinn fuer desktop. Ich frage mich immer noch fuer welchen MSRP sie eine SKU mit GP104 verkaufen wollen wenn der chip selber schon 2.5x Mal so teuer zu sein scheint.

Godmode

2016-02-08, 19:49:53

Bei den Preisen macht auch nichts anderes Sinn fuer desktop. Ich frage mich immer noch fuer welchen MSRP sie eine SKU mit GP104 verkaufen wollen wenn der chip selber schon 2.5x Mal so teuer zu sein scheint.

Wenn er 20% auf eine 980 Ti drauflegen kann, dann wohl um 700 €. :freak: Ich muss nur stark bleiben und mir den kleinen Chip diesmal sparen.

Mortalvision

2016-02-08, 19:54:27

Naja, die 970 hat bei Einführung auch keinen Titan Preis gehabt. Oh, der GM104 war ja die 980. dann kommst hin...

Godmode

2016-02-08, 20:08:25

Vor allem war bei GM204 der Prozess schon relativ günstig und "reif".

Sunrise

2016-02-08, 20:14:10

Bei den Preisen macht auch nichts anderes Sinn fuer desktop. Ich frage mich immer noch fuer welchen MSRP sie eine SKU mit GP104 verkaufen wollen wenn der chip selber schon 2.5x Mal so teuer zu sein scheint.
Passt doch? Das ist ein GM204-Ersatz, also auch problemlos >GM204 und die 980 Ti hatte NV ja geschickt zwischen Titan X und 980 geschoben, das will sich NV natürlich jetzt bei besserer Leistung vergolden lassen. FinFET wird generell teuerer, das will NV natürlich abfedern. Interessant wird, ob der größere Polaris tatsächlich etwa auf 980 TI-Niveau kommen wird, alles andere wäre äußerst kurios.

Hier werden noch einige mit den Ohren schlackern, wenn der/die Großen von NV kommen, der Trend ist ja klar erkennbar.

Zettabit

2016-02-08, 20:19:30

Bei den Preisen macht auch nichts anderes Sinn fuer desktop. Ich frage mich immer noch fuer welchen MSRP sie eine SKU mit GP104 verkaufen wollen wenn der chip selber schon 2.5x Mal so teuer zu sein scheint.
Titan-Nachfolger, 999US$ MSRP - warum sollte das nicht möglich sein?

Sicherlich nicht das Margenwunder. Aber ein krasser Coup, um später die kleineren und günstigeren Brüder zu verkaufen.

horn 12

2016-02-08, 20:37:04

20% über einer GTX 980 TI sind die Custom Design,vielleicht paar Prozent schneller ist der GP 104 Pascal doch als die Custom´aber das war es dann auch Heuer!
So wie es scheint sind die Kunden welche die GTX 980TI, Fury X und auch Fury gekauft haben die Weisesten gewesen wenn es dieses Jahr eben sehr teuer wird. Immer Warten nützt eben kaum bis garnicht!
Preise um, bzw. über GTX 980TI werden wir wohl zum Launch sehen, eher mehr als jene kostet und dies eben geschuldet durch den Neuen Prozess!

igg

2016-02-08, 23:15:21

Immer Warten nützt eben kaum bis garnicht!
Preise um, bzw. über GTX 980TI werden wir wohl zum Launch sehen, eher mehr als jene kostet und dies eben geschuldet durch den Neuen Prozess!
Das wäre für eine Gtx1080 viel... Warten hätte sich gelohnt wenn Dx12.1, Async Shader, kein Vram Bug, 8Gb Vram bzw. mehr Bandbreite

Godmode

2016-02-08, 23:16:28

Titan-Nachfolger, 999US$ MSRP - warum sollte das nicht möglich sein?

Sicherlich nicht das Margenwunder. Aber ein krasser Coup, um später die kleineren und günstigeren Brüder zu verkaufen.

Wird reden von GP104, das wird der Nachfolger von GM204. Der Nachfolger der Titan X wird GP102 bzw. GP100.

Ailuros

2016-02-09, 06:07:37

Wenn er 20% auf eine 980 Ti drauflegen kann, dann wohl um 700 €. :freak: Ich muss nur stark bleiben und mir den kleinen Chip diesmal sparen.

Ich lass mich zwar gerne angenehm ueberraschen, aber fuer +20% erscheint mir das Geruest zu klein. Wie dem auch sei die Margen werden aus verstaendlichen Gruenden fuer einige Zeit diametrisch kleiner sein.

Triniter

2016-02-09, 07:06:52

Korvaun

2016-02-09, 08:12:28

Ich hoffe doch nicht das AMD&NV versuchen werden gleichen Speed zum gleichen Preis (wie aktuelles High-End) zu verkaufen, und das mit "superduper 16nm" rechtfertigen... Wer soll das dann ernsthaft kaufen?

Godmode

2016-02-09, 09:30:42

Ich lass mich zwar gerne angenehm ueberraschen, aber fuer +20% erscheint mir das Geruest zu klein. Wie dem auch sei die Margen werden aus verstaendlichen Gruenden fuer einige Zeit diametrisch kleiner sein.

Wenn das Ding nur so schnell wie eine 980 Ti wird, kann man es aber schlecht um 700 Euro verkaufen. Vor allem sinkt dadurch die potentielle Kundschaft um einen guten Faktor, IMHO. Oder glaubst du, dass die 980 Ti Käufer wegen ein paar Watt Stromverbrauch umsteigen, ich eher nicht.

Dural

2016-02-09, 09:57:14

just4FunTA

2016-02-09, 12:08:06

Ihr macht euch zu viele Gedanken, und überhaupt wie so sollte ein 980Ti Käufer auf einen GP104 umsteigen?!? Der wird doch zu 99% auf GP102 oder GP100 (je nach dem was NV plant) oder sogar Volta warten.weil die 970er Käufer eher nicht bereit sind 700€ für ne Graka auszugeben also wären die potentiellen Kunden schon die 980ti Käufer, aber da die bereits eine 980ti haben müsste die neue Graka schon einen großen Mehrwert bieten damit sie nochmals 700€ ausgeben. Wären sie gleichschnell wäre es ja sinnlos umzusteigen.

Das wäre schon enttäuschend wenn das so kommen würde, entweder drastisch preis senken mit ähnlicher Performance oder mehr Performance bieten wenn sie schon 700€ haben wollen..

Ravenhearth

2016-02-09, 12:09:46

Die 28nm-Generation hatte am Anfang auch keinen Vorteil bei Perf/€.

maguumo

2016-02-09, 16:11:50

Die 28nm-Generation hatte am Anfang auch keinen Vorteil bei Perf/€.

Aber einen deutlichen Performancesprung...

Nakai

2016-02-09, 16:27:34

*hust*
Das ein bestimmter Beitrag wegen HBM, Pascal und AMD wieder gelöscht wurde, gehe ich mal davon aus, dass es FUD oder pure Absicht war.

Hbm und GDDR5x ist für diese Gen extrem wichtig. Eine höhere Bandbreite ist notwendig, um eine gesunde Performance-Steigerung zu erreichen. Für GP104 ist Gddr5x noch ausreichend, wenn er eine Rohleistung ähnlich zu GM200 besitzt. Ein GP104 mit einem 384bit SI?

GP100 - 4 HBM - ~5000 SPs 10 GPCs
GP102 - 384Bit GDDR5X oder 2/4 HBM - ~4500SPs 9 GPCs
GP104 - 256/384 Bit GDDR5X - ~3072 SPs 6 GPCs
GP106 - 256 Bit GDDR5X - ~2048 SPs 4 GPCs
GP107 - 128 Bit GDDR5X - ~1024 SPs 2 GPC

Die Designs müssen auch ausgewogen sein.

Raff

2016-02-09, 16:33:49

Eigentlich ist HBM nicht zwingend notwendig, 8-Gbps-GDDR5 an 512 Bit könnte die gleiche Transferrate wie HBM1 (512 GByte/s) feingranularer erzielen.

MfG,
Raff

Godmode

2016-02-09, 16:40:54

Eigentlich ist HBM nicht zwingend notwendig, 8-Gbps-GDDR5 an 512 Bit könnte die gleiche Transferrate wie HBM1 (512 GByte/s) feingranularer erzielen.

MfG,
Raff

Ein 512 Bit SI @8-Gbps-GDDR würde wohl verdammt viel Strom verbrauchen.

AnarchX

2016-02-09, 16:44:51

8Gbps GDDR5 gibt es ja schon länger, aber wegen den 4GHz Datentakt schreckt man davor wohl eher zurück. Da ist GDDR5X mit 3,5GHz bei 14Gbps auf dem Papier unproblematischer.

Bei B3D hat man bei Zauba auch noch ein paar PCBs gefunden, welche zu NVs Namenschema passen: https://forum.beyond3d.com/posts/1894551/
Und eine GPU die in Südkorea (Samsung?) gefertigt wurde.

Hbm und GDDR5x ist für diese Gen extrem wichtig. Eine höhere Bandbreite ist notwendig, um eine gesunde Performance-Steigerung zu erreichen. Für GP104 ist Gddr5x noch ausreichend, wenn er eine Rohleistung ähnlich zu GM200 besitzt. Ein GP104 mit einem 384bit SI?

Gehen wir nicht davon aus, dass GP104 nur um die ~300mm² groß ist? Pins hätte man natürlich genug.

Zettabit

2016-02-09, 16:47:53

Herrje, auf was für plumpes Trolling manche reinfallen :rolleyes:

Ein 512 Bit SI @8-Gbps-GDDR würde wohl verdammt viel Strom verbrauchen.
Mit der Leistungsaufnahme hat NVIDIA aber kein großes Problem. Und kostenmäßig dürfte sich das 512bit SI und HBM nicht viel geben - dafür deutlich weniger Produktionsprobleme und bessere Verfügbarkeit.

Warum für GP104 keine 384bit bei ~4GHz? Wäre deutlich mehr als 50%+ ggü der 980.

Ravenhearth

2016-02-09, 16:50:28

Aber einen deutlichen Performancesprung...

GTX 680 und HD 7970 waren bei Release vielleicht 20% schneller als die GTX 580 @stock. Ein GP104 mit 3072 SPs und >1,3 GHz könnte das ggü der Titan X und 980 Ti auch erreichen, wenn man nicht gegen die OC-Versionen vergleicht.

Warum für GP104 keine 384bit bei ~4GHz? Wäre deutlich mehr als 50%+ ggü der 980.

Oder 256 bit bei 10-12 Gbps GDDR5X? Würde auch reichen für 320-384 GB/s.

Nakai

2016-02-09, 16:50:47

GDDR5x würde da auch helfen. HBM ist nur im oberen Segment wirklich sinnvoll. Alles darunter bekommt GDDR5x oÄ.

GP104 hat anscheinend ein größeres Package, was für ein größeres SI spricht.

Man sollte auch einfach mal die Diesizes vom Maxwell betrachten. GM204 ~400mm2, würde gut einem ähnlichem Chip unter Findet mit ~200mm2 entsprechen, also GP106. Das gleiche würde für GP107 gelten, also GM206-Niveau unter Findet.

@AnarchX: ich stimme dir da zu. Ein 256 Bit SI wäre da wahrscheinlicher. Aber evtl ist GP104 größer, also eher 350mm2. Das SI wird definitiv Fläche benötigen.

Botcruscher

2016-02-09, 16:53:29

AnarchX

2016-02-09, 16:54:58

GP104 hat anscheinend ein größeres Package, was für ein größeres SI spricht.

Nein:

GK104/GM204: 1745 40x40
GK110/GM200: 2397 45x45
GK106/GM206: 1428 35x35
GP100?: 2621 55x55
GP104?: 2152 37.5x37.5

160 zusätzliche Pins kämen wohl durch GDDR5X (190 statt 170 Pins pro Modul) bei 256-Bit zustande.

Entweder hat man da bei GP104 das Package möglichst klein gestaltet: Mobile/Drive-Designs und Konkurrenz gegen mögliche HBM-Designs von AMD - oder der Chips ist äquivalent zu den bisherigen Packagegrößen eher 300mm² oder kleiner.
Dagegen steht halt momentan noch der astronomische Preis von ~200 USD pro Chip.

Nakai

2016-02-09, 16:56:44

Gut das macht Sinn

Godmode

2016-02-09, 17:16:53

Dagegen steht halt momentan noch der astronomische Preis von ~200 USD pro Chip.

Ailuros meinte ja, dass die neue Chips 2,5 mal so teuer sind, als noch die 28nm Chips. Das könnte dann schon hinkommen.

AnarchX

2016-02-09, 17:24:33

Die GM204-Sample-GPUs waren damals nur mit 80 USD bewertet.
Wenn man jetzt annimmt, dass der Chip 30% kleiner ist, dann ist entweder das Yield unterirdisch oder die Wafer 3-mal so teuer.

Troyan

2016-02-09, 17:25:40

Oder es sind Fantasiewerte.

Godmode

2016-02-09, 17:27:57

Als GM204 vom Band lief, war ja 28nm schon lange am Markt und sehr reif. Oder könnte die 200$ für Package+GPU+Interposer+Speicher gemeint sein? Das wäre dann allerdings sehr günstig.

Oder es sind Fantasiewerte.

Weiß nicht ob man beim Zoll einfach Fantasiewerte angeben darf?

Troyan

2016-02-09, 17:38:14

Anhand des Wertes werden die Gebühren berechnet. Ergo tangiert es dem Zoll kaum, wenn der Wert höher angegeben wird als er tatsächlich ist.

M4xw0lf

2016-02-09, 17:40:29

*hust*
Das ein bestimmter Beitrag wegen HBM, Pascal und AMD wieder gelöscht wurde, gehe ich mal davon aus, dass es FUD oder pure Absicht war.
Vielleicht wurde auch ein NDA gebrochen. :upara:

Gipsel

2016-02-09, 18:19:17

Eigentlich ist HBM nicht zwingend notwendig, 8-Gbps-GDDR5 an 512 Bit könnte die gleiche Transferrate wie HBM1 (512 GByte/s) feingranularer erzielen.
Ein 512 Bit SI @8-Gbps-GDDR würde wohl verdammt viel Strom verbrauchen.
Mit der Leistungsaufnahme hat NVIDIA aber kein großes Problem.Dann hätten sie eins. Godmode hat da schon ganz recht. Es kann sich kaum jemand erlauben, einfach mal so 50-100W zusätzlich für den Speicher zu verbraten (denn über die Größenordnung reden wir). Daß GDDR5@8GBps die gleiche Bandbreite wie HBM1 erzielt, ist vielleicht zum Anfang ein passender Vergleich, aber für das Highend wird in Zukunft wohl eher die mit HBM2 erreichbare Bandbreite von 1TB/s bei 4 Stacks das Limit darstellen (falls nicht jemand sogar 6 Stacks auf den Interposer quetscht, könnte auch bei Profi-Karten wegen der höheren möglichen Kapazität erfolgen und dann z.B. auch mit 1,6GBps Speedbin-Stacks bestückt werden, falls man mit 1,5TB/s nicht so viel anfangen kann). Deswegen sind GDDR5X und/oder HBM natürlich wichtig für kommende GPU-Generationen beider Hersteller.

Ailuros

2016-02-09, 19:39:56

Anhand des Wertes werden die Gebühren berechnet. Ergo tangiert es dem Zoll kaum, wenn der Wert höher angegeben wird als er tatsächlich ist.

Bis jetzt gibt NV immer und ueberall den eingeschaetzten Wert der verschickten Gute an. Selbst wenn sie einem reviewer z.B. eine GPU schenken sollten, steht zwar auf der Schachtel engineering sample drauf, aber beim Zoll wird der zeitige Strassenpreis angegeben. Ich hab irgendwo ein altes engineering sample noch im Keller.

Und wieso sollten die Preise in irgend einer Weise gefaelscht sein? GM204 hat nicht mehr als $80 unter 28HP so spaet gekostet und 2.5x Mal so viel ergo "hypothetisch" $200 fuer 16FF+ hingegen klingen auch nicht unrealistisch. Bis die 16FF+ in Massenproduktion kommen reduzieren sich schon etwas die Herstellungskosten, aber zu glauben dass das Ding weniger als $150 kosten wird ist verdammt naiv.

Als GK110 in die Massenproduktion fuer den desktop ging unter 28HP kostete der volle chip immer noch ganze $120 und zu dem Zeitpunkt war 28nm schon wie lange am laufen? Ja natuerlich ist GK110 ein gutes Stueck groesser, aber am Ende des Tages kostet die Herstellung unter FF Prozessen auch nicht nur "etwas" mehr....

Timbaloo

2016-02-09, 20:16:29

Deswegen sind GDDR5X und/oder HBM natürlich wichtig für kommende GPU-Generationen beider Hersteller.
Und es gab ja bereits Folien (von NV glaube ich sogar) die zeigen, dass auch HBM recht zügig (~2 GPU-Generationen) an die Grenze der (praktikablen) Leistungsaufnahme geht.

Sunrise

2016-02-09, 20:31:05

Und es gab ja bereits Folien (von NV glaube ich sogar) die zeigen, dass auch HBM recht zügig (~2 GPU-Generationen) an die Grenze der (praktikablen) Leistungsaufnahme geht.
Es wird weitere Iterationen von HBM geben, zumindest laut Joe Macri. Warum NV da gleich wieder Panik schiebt, obwohl sie wieder mal keinen Cent beigetragen haben, muss man eigentlich nicht kommentieren.

Die sollten ihre Energie lieber darauf konzentrieren, nach einer Alternative zu suchen, als schon vorher rumzuposaunen, dass etwas, was sie noch nichtmal nutzen bald am Limit ist. Das ist auch absolut nichts Neues, jede Speicheriteration ist irgendwann am Limit.

NV verhält sich da ziemlich parasitär.

Kartenlehrling

2016-02-09, 20:44:40

@Timbaloo
Natürlich können die Prognose stimmen, aber meinst du nicht das es genauso gut ein Marketingzug war um die Anleger und
Kunden aufzuzeigen das HBM nicht das einzige ist worauf sich Nvidia verlässt,
warscheinlich will man sogar die Enttäuschung schmälern das Nvidia nicht mit HBM Speicher umsich wirft.

Timbaloo

2016-02-09, 20:45:47

@Sunrise:
Gut, man kann natürlich eine technische Diskussion gleich wieder mit Fanboymundschaum garnieren...

@Kartenlehrling:
Dann wären besagte Folien aber kontraproduktiv, weil DDR5 dabei ja sogar deutlich schlechter wegkommt.

Sunrise

2016-02-09, 20:55:36

@Sunrise:
Gut, man kann natürlich eine technische Diskussion gleich wieder mit Fanboymundschaum garnieren...
Dir fehlt scheinbar der Hintergrund, warum ich das geschrieben habe. Keine Ahnung, wo du da einen Fanboy siehst.

Wie geschrieben, ist das, was NV da behauptet auf die aktuellen am Markt befindlichen HBM-Iterationen bezogen. Was genau willst du denn technisch noch weiter erörtern? Du hast eine Aussage von NV ins Forum gestellt, die ich etwas entwerten wollte, weil sie aus meiner Sicht nur NVs Unvermögen ausdrückt, etwas Eigenes mit der Industrie (offener Standard) zu entwickeln.

Wenn du das anderst siehst, ist das halt so. Wenn du eine Diskussion erhoffst, wären ein paar Gegenargumente oder deine Meinung dazu gut.

Wir haben von NV noch nichtmal ein HBM-Design gesehen und HBM ist schon am Ende. DDR war auch am Ende, was lustigerweise aber jetzt als Grundlage für HBM genutzt wird. GDDR5 war auch schonmal am Ende, jetzt kommt aber GDDR5X. Das ist einfach der natürliche Lauf der Dinge.

Fiji ist derzeit das einzige in Massenproduktion befindliche Design, und wo NV derzeit ist, wissen wir nicht, mangels Fakten.

Ailuros

2016-02-10, 06:50:06

Godmode

2016-02-10, 08:59:45

Mal von all dem obrigen abgesehen, auf rein sachlicher Ebene (und verdammt uebervereinfacht) wissen wir alle dass man in designs entweder in die Breite gehen oder die Frequenzen erhoehen kann. Beides ist gleichzeitig moeglich aber es wird immer zusatzlich in Stromverbrauch kosten.

Ich bin zwar genauso zuversichtig dass die Speicher-hersteller es in Zukunft auf die eine oder andere Art regeln werden, dass sollte aber nicht heissen dass nichts wahres an NV's Behauptungen liegt.

Nochmal es gibt fuer den Inhalt im slide zwei Perskeptiven: entweder hat Volta brutal wenig Bandbreite oder Pascal brutal zu viel. Ich sehe beim GM200 immer noch 336.5 GB/s Bandbreite und wenn darauf basierende SKUs immer noch innerhalb Grenzen damit auskommen koennen, dann duerfte Pascal auch nicht wirklich 1 TB/s an Bandbreite fuer die Mehrzahl der Faelle brauchen.

Man könnte es auch so auslegen, dass die bisherigen Chips für HPC immer zu wenig Bandbreite hatten. Ein K40 kommt auf 1,4~TFlop/s FP64 bei 288 GB/s Speicherbandbreite. Wenn jetzt unser hypothetischer GP100 um die 4,0~ TFLop/s FP64 leistet, dann wären die genannten 1 TB/s sicher nicht verkehrt. Falls Volta dann wirklich nur etwas über 1 TB/s Speicherbandbreite haben sollte, wäre das in der Tat etwas seltsam. Andererseits ist Volta noch so weit weg, da kann wohl noch so einiges passieren.

Zettabit

2016-02-10, 10:15:10

Dann hätten sie eins. Godmode hat da schon ganz recht. Es kann sich kaum jemand erlauben, einfach mal so 50-100W zusätzlich für den Speicher zu verbraten (denn über die Größenordnung reden wir). Daß GDDR5@8GBps die gleiche Bandbreite wie HBM1 erzielt, ist vielleicht zum Anfang ein passender Vergleich, aber für das Highend wird in Zukunft wohl eher die mit HBM2 erreichbare Bandbreite von 1TB/s bei 4 Stacks das Limit darstellen
Nein, hat NVIDIA nicht. Worüber reden wir denn aktuell? Erstmal über den GP104, Performancechip.

Werden wir einen GM204 (256bit) in doppelt sehen? Sicherlich nicht. Eher einen GM200 in 16nm FinFet. Und da haben wir exakt 384bit, wie ich oben schon genannt hatte. Das hat ein GM200 heute bereits, hat über 300GB/s Bandbreite und verbraucht unter 250W.

Wo hat NVIDIA da also ein Problem, das in 16nm zu fertigen? Da nähert man sich, wie schon mit GK104/GM204, der 175W.

Ein bisschen mehr Takt als heute beim GM200, eventuell eine optimierte, weiter verbesserte Texturkompression und die Sache ist geritzt, da brauchst keine 512bit Speicherbandbreite gegenüber GM204 und auch keine 50-100W mehr.

Und der GP104 ist eben der Grafikchip, da sind 1 TB/s völliger Overkill. Fiji kann seine Bandbreite gegenüber GM200 auch nicht ausfahren, im Gegenteil. Was bringt einem irgendeine Speicherbandbreite auf dem Papier, wenn sie schlichtweg nicht genutzt wird?

Hübie

2016-02-10, 10:26:02

Zettabit

2016-02-10, 10:42:15

Du denkst allen ernstes dass man die gewonnene Effizienz dem neuen VRAM opfert? Oder habe ich jetzt deinen Beitrag einfach falsch verstanden? Denn das meinte Gipsel. Wenn man GDDR5X bei 512 Bit voll ausfährt, kommt man eben je nach Zugriff mal auf 80-90 Watt für 8 GB. GDDR5 liegt mit 8 GB bei 60-70 Watt (okay es wird selten ständig der komplette VRAM hin und her bewegt...).
Nochmal: Was für einen Monsterchip soll NVIDIA bauen, der ein 512bit Speicherinterface benötigt?

Heute werden, als Maxwell2, einmal Chips mit 2048 und 3072 Shader und mit jeweils 256 bzw 384 bit SI verkauft.

Ein potentieller 512bit Chip müsste also Richtung 4096 Shader gehen - haltet ihr das für realistisch? Ich nicht.

Des weiteren: Wenn GP104 nun nach Performance und Leistungsaufnahme mit GM200 gleich gesetzt werden soll, wo steht dann GP102? Bei 300 Watt? Oder auch bei 250 wegen HBM(2)? Dann verkaufst du deine Kunden für dumm. Ne, ne du.
Ähm, lies doch bitte, was ich schreibe: "Eher einen GM200 in 16nm FinFet."

Heißt: GP104 = 3072 Shader mit 384bit Speicherinterface

Das Ganze in 16nm FinFet tendiert deutlich unterhalb von 200W und liefert GM200 Performance plus Steierungen durch Optimierungen, eventuell Mehrtakt etc. pp.

Ein GP102 kann dann eben größer werden, Richtung 250W, mit welcher Art SI... gute Frage. Eventuell ja einfach GDDR5X und man spart sich HBM nur für den Profi-Compute-Chip auf.

Hübie

2016-02-10, 10:48:42

Die 512 Bit waren nicht meine These. ;) Es ging um die Abwegigkeit. Ich denke auch nicht dass man so ein Interface sehen wird. Wozu auch? Frisst dir wie ich sagte die Perf/W weg.

Zettabit

2016-02-10, 10:51:36

Dann sind wir einer Meinung. Mehr als 384bit werden wir garantiert nicht sehen. Eventuell 256bit mit GDDR5X. Aber 512 ist schlicht Overkill.

Es ist ja nicht so, als wären die Maxwell-Karten großartig Bandbreiten-limitiert im Gaming.

AffenJack

2016-02-10, 11:09:47

Auch 384Bit wirst du nicht sehen bei GP204. Der Chip wird einfach zu groß dann. Ich glaube wie AnarchX an weniger als 300mm² und dann muss das SI auf jeden Fall auf 256Bit runter. Mit GDDR5X macht das ganze dann am meisten Sinn.
Mit Microns Ankündigung der Massenproduktion im Sommer scheint es, dass Polaris kein GDDR5X bekommen wird, wenn beide Chips schon im Sommer erscheinen.
Dann wäre eine Möglichkeit, dass Nvidia erst in Q4 mit ihren Chips ankommt, da man auf GDDR5X wartet.

hasebaer

2016-02-10, 12:40:36

@Affenjack

Also wenn im Sommer noch was kommt, dann kann das kein Chip mit GDDR5X sein. Ergo würde es dann entweder der Topdog mit HBM oder ein PG106 mit noch GDDR5 werden?!

Hübie

2016-02-10, 12:50:07

Wieso kann es kein Chip mit GDDR5X sein?:|

HOT

2016-02-10, 12:51:53

Sunrise

2016-02-10, 13:04:53

Man könnte es auch so auslegen, dass die bisherigen Chips für HPC immer zu wenig Bandbreite hatten. Ein K40 kommt auf 1,4~TFlop/s FP64 bei 288 GB/s Speicherbandbreite. Wenn jetzt unser hypothetischer GP100 um die 4,0~ TFLop/s FP64 leistet, dann wären die genannten 1 TB/s sicher nicht verkehrt. Falls Volta dann wirklich nur etwas über 1 TB/s Speicherbandbreite haben sollte, wäre das in der Tat etwas seltsam. Andererseits ist Volta noch so weit weg, da kann wohl noch so einiges passieren.
Nicht unbedingt, denn abseits von Spitzenlasten bzw. speicherbegrenzten Algorithmen/Aufgaben, welche die GPU auszuführen hat, sollte das aufgrund der maximal zur Verfügung stehenden Spitzenleistung der FP-Einheiten relativ ausgeworden gewesen sein. Nicht vergessen, dass man ja vor allem auch flächenlimitiert war unter 28nm. Nur ist NVs aktuelle Maßgabe nun plötzlich die, dass sie Intel im HPC schlagen müssen. Das ist eine immer größere Schere, die da ggü. Gaming-Anforderungen entsteht.

Dementsprechend haben sie scheinbar sehr hohe Anforderungen, vor allem natürlich auch an den angebundenen Speicher. Wenn wir uns jetzt überlegen, dass (wie du schon richtig schreibst, sie wollen ihre DP-FLOPS in nur einer Generation plötzlich vervielfachen), NV da ganz andere Größenordnungen bei Double Precision und Mixed Precision anpeilt, dann will NV da scheinbar alles mit einem Chip erschlagen, insofern könnte ich mir vorstellen, dass dieser Chip äußerst unausgewogen aufgebaut ist und zwar soweit, dass er eben auch nur noch dort (maximal noch im Workstation-Sektor) verkauft wird.

Dieser Chip muss nicht nur enorm große Caches haben, sondern auch starke Treiber, damit man die hohen Taktraten von Samsungs HBM2 (bis zu 1.6GHz anstatt der bisherigen 1GHz) fahren kann, weil es aktuell so aussieht, als würden wir für eine Weile noch einen passiven Interposer benötigen.

NV wird sich dann scheinbar (um Intel nicht wieder zuviel Zeit zu lassen) sofort auf Volta stürzen, weshalb man dann natürlich wieder mehr Bandbreite braucht.

Mir stellt sich bei HPC einfach die Frage, warum NV hier außer NV-Link nicht in Forschung für schnelleren Speicher investiert, so wie es AMD und Intel machen und stattdessen so eine Präsentation raushaut. Bei NV ist doch ganz klar absehbar, dass sie immer mehr am Prozess und an der Speicherbandbreite hängen werden. Wenn sie jetzt schon rumposaunen, dass HBM eine Sackgasse ist, dabei aber überhaupt nicht erwähnen, dass sie sich eigentlich bereits in der Sackgasse befinden, wenn es nicht andere gäbe, die ihre Anforderungen für sie erfüllen.

HMC wuchs ja auch nicht auf Bäumen, sondern kam von Intel und Micron, vor allem weil sie sonst Knights Landing (und Nachfolger) so nicht hätten realisieren können.

Ich gehe ja auch nicht in einen Laden und will mir einen 911er Porsche Turbo kaufen, wenn ich aber nur Geld für einen Audi hab, das passt einfach nicht zusammen. Entweder ich muss mehr dafür arbeiten, ich schraube meine Ansprüche herunter oder ich muss meine Strategie überdenken. Aber genug dazu, ich denke ich habe meine Meinung nun etwas verständlicher rübergebracht.

Um genau zu wissen, wie oder warum NV bei Pascal soviel Bandbreite benötigt, werden wir hoffentlich bald mehr Details sehen.

iuno

2016-02-10, 13:15:06

Wieso kann es kein Chip mit GDDR5X sein?:|
Also wenn im Sommer noch was kommt, dann kann das kein Chip mit GDDR5X sein.
Weil im Sommer ueberhaupt erst die Massenproduktion startet.
Warum NV diese bescheuerte HBM-Präsentation gemacht hat ist doch sonnenklar, die wollen von eigenen Fehlentwicklungen ablenken.
Was fuer alternative (Fehl-)Entwicklungen hat Nvidia denn in der Zeit getaetigt?
Es ist Unsinn, Nvidia hier so zu bashen. In meinen Augen war das ein ganz normaler Ausblick auf die Zukunft. Dass auch HBM in dieser Form seine Grenzen hat, sollte voellig klar sein und dann muss eben wieder was Neues her. Verstehe das Problem hier ueberhaupt nicht.
Haetten sie gesagt, HBM sei unbrauchbar, waere das was anderes. Soweit ich mich erinnere, wurde aber nichts dergleichen gesagt.

r-or

2016-02-10, 13:15:55

DDR war auch am Ende, was lustigerweise aber jetzt als Grundlage für HBM genutzt wird.
Das Prinzip von DRam wird wohl nie wirklich am Ende sein. Ladung wird in Caps gespeichert. Ob diese Caps wiederum Gates sind oder molecular caps ändert am Prinzip nichts...

Egal welche Technologie benutzt wird, um einen state zu speichern - E-Feld wie in Caps oder Flipflops oder Thyristoren (http://www.hotchips.org/wp-content/uploads/hc_archives/hc19/3_Tues/HC19.05/HC19.05.02.pdf), alles gebitche bringt nix, der Speicher muss näher an den Chip, idealerweise auf den Chip selbst. Auf dem Weg dahin gehen nur Interposer.

Insofern geht es nicht darum, dass 'HBM' irgendwann am Ende ist und evl. sogar DRam. Es geht um den Interposer.

Egal was die entsprechenden Marketingabteilungen herunterbeten.

Blediator16

2016-02-10, 13:54:27

Kriton

2016-02-10, 14:21:44

Ich sehe das vor allem als marketing gegen die Fury.

Hübie

2016-02-10, 14:31:30

Weil im Sommer ueberhaupt erst die Massenproduktion startet.

Ah, okay. Danke für die Info. Ist an mir vorbei gegangen. Dann kommt im Sommer halt kein Produkt mit GDDR5X. :D

Godmode

2016-02-10, 14:37:40

Warum NV diese bescheuerte HBM-Präsentation gemacht hat ist doch sonnenklar, die wollen von eigenen Fehlentwicklungen ablenken. Denn rein sachlich/technisch gibt es einfach keinen Grund HBM niederzumachen, denn HBM ist immer besser als GDDR5(X) beim Stromverbrauch und eine Alternative war von NV nicht zu hören. Fazit: Rein destruktives Verhalten seitens NV, daraus folgt: man hat Schwierigkeiten bei HBM.

Welche Fehlentwicklung? Es wird auch nirgendwo HBM niedergemacht, sondern nur gesagt, dass man mit HBM, HBM2 und selbst mit effizienterem HBM2 wieder "bald" am Limit sein wird. GP100 kann nur mit HBM kommen, alles andere würde viel zu viel von der TDP für den Speicher abzwacken.

IMHO interpretiert ihr da zuviel in diese Folie.

http://i.imgur.com/pD249za.jpg?1

Meine Interpretation:

HBM2 mit 4 Stacks für 1 TB/s benötigt ca. 60W
HBM2 mit 8 Stacks für 2 TB/s benötigt ca. 120W was schon zuviel ist, weil dann für den Chip alleine nur mehr 130W überbleiben, bei einer Gesamt TDP von 250W

Das einzige was man kritisieren könnte, wäre der gelbe Smilie, weil dort sieht HBM2 gegen GDDR5 natürlich toll aus, wenn man Bandbreite und Stromverbrauch vergleicht.

iuno

2016-02-10, 14:42:54

Naja bisher ist nur von NV bekannt HBM bereits jetzt, obwohl sie nichts am Markt haben, so schlecht zu reden. Dass das als normal empfunden werden soll ist doch extrem lächerlich.
Was definitiv extrem laecherlich ist, ist diese Interpretation. Wo redet Nvidia bitte HBM schlecht? :rolleyes:

Ich sehe das vor allem als marketing gegen die Fury.
Wo denn?
Ausserdem gaebe es da weitaus bessere Angrifsspunkte als HBM, den man selber einsetzen wird, niederzumachen. So bloed ist die Marketingabteilung von Nvidia nun wirklich nicht.

Es wird auch nirgendwo HBM niedergemacht, sondern nur gesagt, dass man mit HBM, HBM2 und selbst mit effizienterem HBM2 wieder "bald" am Limit sein wird.
[...]
IMHO interpretiert ihr da zuviel in diese Folie.
so sieht es aus

Blediator16

2016-02-10, 14:48:25

Was definitiv extrem laecherlich ist, ist diese Interpretation. Wo redet Nvidia bitte HBM schlecht? :rolleyes:

Weil es doch vollkommen normal ist, dass Technologien irgendwann an ihre Grenzen kommen und die Firmen, die HBM einsetzen, dies mit Sicherheit wissen. Wieso gerade dann Nvidia mit einer negativ angehauchten Folie eine Präsentation halten muss, ist doch irgendwie ziemlich dreist.

Undertaker

2016-02-10, 15:08:21

Wo ist da etwas negativ angehaucht? Wenn die Zahlenwerte richtig sind (davon gehe ich mal aus), dann kommt da ganz objektiv ein Problem auf uns zu. Die Vorteile von HBM in der Anfangsphase werden ebenso aufgezeigt. Manche lesen wohl wieder einfach das heraus, was sie gerne haben möchten.

Kriton

2016-02-10, 15:18:01

Undertaker

2016-02-10, 15:22:01

Warum sollten sie dann gerade AMDs HBM1 als sparsamsten Speicher darstellen sollen, wenn ein Seitenhieb zur Konkurrenz das Ziel gewesen wäre? :freak:

Godmode

2016-02-10, 15:22:06

Na ja, sie bringen das ungefähr zu deim Zeitpunkt wo ihr Konkurrent seine ersten Produkte mit dieser Technik bringt, während sie weiterhin (noch) auf GDDR5 setzen.
Das kann man schon so lesen, dass sie dem "Ist was Neues, also was Geiles"-Faktor etwas entgegensetzen wollen.

Es war eine rein technische Präsentation und man muss die Folie auch im Kontext der anderen Folien sehen. IIRC ging es in dem Vortrag um Energieeffizienz. Was anderes wäre es gewesen, wenn man auf der Dream Hack rum posaunen würde, wie schlecht HBM doch ist und wir mit GDDR5 super fahren und die GTX970 doch so günstig ist.

Ich denke diese Diskussion können wir beenden, da GP100 sowieso mit HBM kommt. Wer etwas anderes glaubt, glaubt wohl auch an den Untergang dieser Firma.

RLZ

2016-02-10, 15:25:03

Zettabit

2016-02-10, 15:26:46

Na ja, sie bringen das ungefähr zu deim Zeitpunkt wo ihr Konkurrent seine ersten Produkte mit dieser Technik bringt, während sie weiterhin (noch) auf GDDR5 setzen.
Das kann man schon so lesen, dass sie dem "Ist was Neues, also was Geiles"-Faktor etwas entgegensetzen wollen.
Die Überschrift lautet schon "Looming Memory Power Crisis" - da steht nix von "HBM suckzzz!1111elf" :rolleyes:

Es war ein technischer Vortrag auf der SuperComputer15 und wenn es da eben, auch mit HBM2, in den nächsten Generationen Probleme in Sachen EE gibt, warum sollte man das nicht ansprechen?

Gerade für Supercomputer ist die Energieeffizienz höchst kritisch, viel kritischer als für uns Gamer.

HOT

2016-02-10, 15:29:49

Weil im Sommer ueberhaupt erst die Massenproduktion startet.

Was fuer alternative (Fehl-)Entwicklungen hat Nvidia denn in der Zeit getaetigt?
Es ist Unsinn, Nvidia hier so zu bashen. In meinen Augen war das ein ganz normaler Ausblick auf die Zukunft. Dass auch HBM in dieser Form seine Grenzen hat, sollte voellig klar sein und dann muss eben wieder was Neues her. Verstehe das Problem hier ueberhaupt nicht.
Haetten sie gesagt, HBM sei unbrauchbar, waere das was anderes. Soweit ich mich erinnere, wurde aber nichts dergleichen gesagt.
Ein normaler Ausblick in die Zukunft bei einer selber eingesetzten Technologie sieht ganz anders aus, dann hätten sie HBM in den Himmel gelobt und Intel offiziell als Gegner aufgetan. Genau das ist aber nicht geschehen.
Und die Fehlentwicklung ist die, dass sie HBM eben doch nicht mal eben so hinbekommen (16nm offenbar ja ebenfalls nicht). Das ist nicht als Bashing gedacht, sondern eine Interpetation der Ereignisse. Ich bin gespannt auf bessere Interpretationen.
Es ist einfach verdächtig still im Pascal geworden. NV war selten so "leise", wenn es neue Produkte geben wird.
Die Überschrift lautet schon "Looming Memory Power Crisis" - da steht nix von "HBM suckzzz!1111elf" :rolleyes:

Es war ein technischer Vortrag auf der SuperComputer15 und wenn es da eben, auch mit HBM2, in den nächsten Generationen Probleme in Sachen EE gibt, warum sollte man das nicht ansprechen?

Gerade für Supercomputer ist die Energieeffizienz höchst kritisch, viel kritischer als für uns Gamer.
Ob Supercomputer oder Gamer, man wird im Normalfall Technologien, die man einzusetzen gedenkt und als state-of-the-Art verkaufen will, ganz bestimmt nicht in ein schlechtes Licht rücken. Das ist einfach verdächtig, wenn jemand sowas tut und das ja auch noch ohne jede vernünftige Grundlage, denn was künftig bei Samsung + SKHynix ablaufen wird, wird NV ganz bestimmt nicht orakeln können, der tut das nicht ohne Grund.

Timbaloo

2016-02-10, 15:33:57

Godmode

2016-02-10, 15:35:35

Und die Fehlentwicklung ist die, dass sie HBM eben doch nicht mal eben so hinbekommen (16nm offenbar ja ebenfalls nicht). Das ist nicht als Bashing gedacht, sondern eine Interpetation der Ereignisse. Ich bin gespannt auf bessere Interpretationen.
Es ist einfach verdächtig still im Pascal geworden. NV war selten so "leise", wenn es neue Produkte geben wird.

Wenn du dir mal die letzten Präsentation von NV ansehen würdest, hättest du dir den Post sparen können.

GP100 kommt mit HBM, das ist fix. Wenn er nicht mit HBM kommen würde, könnten sie GP100 gleich einstampfen. Wann war es bitte laut um Produkte die noch nich angekündigt wurden? Vor allem bei Pascal wurde sehr viel vorher schon bekannt geben, das war in der Vergangenheit eher nicht der Fall. Schön langsam kann ich Ailuros verstehen... :rolleyes:

N0Thing

2016-02-10, 15:36:32

Die Folie ist schon seltsam markiert. Bei GDDR ist der Stromverbrauch stetig größer geworden, die Bandbreite dabei im Vergleich aber kaum gewachsen. Mit HBM und HBM2 werden massive Zugewinne bei der Speicherbandbreite erzielt, der Stromverbrauch steigt absolut gesehen zwar deutlich an, skaliert aber dennoch deutlich besser als GDDR.

Wenn man mal den Totenkopf und den traurigen Smiley weglassen würde, könnte man aus der Folie aus heraus lesen, dass man mit HBM2 ziemlich gut dran ist. Und man dann als Maßstab nicht wie auf der Folie die maximal mögliche Bandbreite nimmt, sondern eher den sweet spot, dürfte es auch für die künftigen HBM-Lösungen deutlich freundlicher aussehen.

Dural

2016-02-10, 15:50:12

HBM wird kaum ein Strom ersparnis bringen, sondern deutlich mehr Bandbreite.

iuno

2016-02-10, 15:59:01

Wenn man mal den Totenkopf und den traurigen Smiley weglassen würde, könnte man aus der Folie aus heraus lesen, dass man mit HBM2 ziemlich gut dran ist. Und man dann als Maßstab nicht wie auf der Folie die maximal mögliche Bandbreite nimmt, sondern eher den sweet spot, dürfte es auch für die künftigen HBM-Lösungen deutlich freundlicher aussehen.
Darum geht es aber auf der Folie nicht. Es geht darum, dass man ein Limit hat und eben nicht mal eben 160 Watt fuer Speicher verbraten kann. Ja, wenn man keine Obergrenze hat, kann man die Markierungen selbstverstaendlich weglassen - und sich zudem den kompletten Ausblick sparen.

Und die Fehlentwicklung ist die, dass sie HBM eben doch nicht mal eben so hinbekommen (16nm offenbar ja ebenfalls nicht). Das ist nicht als Bashing gedacht, sondern eine Interpetation der Ereignisse.
Und was fuer Ereignisse sollen das sein? Das ist doch (beides) reine Spekulation. Dass es kein Kinderspiel ist, ist klar, das hat mit der Folie aber absolut nichts zu tun.

Kriton

2016-02-10, 16:52:23

Ich denke diese Diskussion können wir beenden, da GP100 sowieso mit HBM kommt. Wer etwas anderes glaubt, glaubt wohl auch an den Untergang dieser Firma.

Deshalb das "noch" - ich denke auch, dass Pascal (zumindest teilweise) mit HBM kommen wird.

Nakai

2016-02-10, 17:01:28

HBM wird kaum ein Strom ersparnis bringen, sondern deutlich mehr Bandbreite.

Wenn man Bandbreite x für Performance y braucht, dann kann man mit Hbm ein Ersparnis z erreichen. Kurz, GBperS/Watt ist bei Hbm trotzdem besser als bei Gddr-Technologien.

Zettabit

2016-02-10, 17:13:28

Kurz, GBperS/Watt ist bei Hbm trotzdem besser als bei Gddr-Technologien.
Siehe die NVIDIA-Folie:

GDDR5 nimmt primär Leistung beim I/O auf, HBM aber dauerhaft ("column power" - ich würde es mal als Grundlast bezeichnen, je mehr Stacks, desto höher)

So mag HBM zwar in GB/W sehr gut da stehen, deutlich besser als GDDR5, aber das relativiert sich eben, wenn HBM (siehe Fiji) vor sich hin dümpelt und eigentlich völlig oversized ist. Dann schrumpft der Vorteil massiv dahin.

Nakai

2016-02-10, 17:26:17

Sunrise

2016-02-10, 17:28:31

...Das einzige was man kritisieren könnte, wäre der gelbe Smilie, weil dort sieht HBM2 gegen GDDR5 natürlich toll aus, wenn man Bandbreite und Stromverbrauch vergleicht.
Ich verstehe nicht, was NV da rechnet und warum das bei NV so schlecht ggü. HBM dargestellt wird.

Ich habe alles Mögliche durchgerechnet und HBM hat immer Vorteile. Und ganz sicher ist HBM2 (der erste Balken) nicht langsamer als GDDR5(X).

Wie NV auf eine Bandbreite von 1500GB/s bei GDDR5(X) kommen will, müssen sie mir mal erklären. Ich bin gespannt. Ebenso, dass dieser dann plötzlich stromsparender sein soll, als HBM2, wo HBM2 gerade mal 1,2v pro Modul hat und GDDR5 selbst bei GDDR5X noch 1,35v, man aber ungleich mehr Module benötigt. Über den Stromverbrauch vom Interface (PHY, Treiber) reden wir erst garnicht.

Noch dazu wird die Fertigung besser und wir haben gerademal 20nm bei HBM2.

Also entweder hat NV da einfach nur Grütze gerechnet, oder es stellt HBM einfach unnötig in zu schlechtem Licht da. Das muss eigentlich nicht sein, fraglich, warum sie das so zur Schau stellen.

ndrs

2016-02-10, 17:28:52

Siehe die NVIDIA-Folie:

GDDR5 nimmt primär Leistung beim I/O auf, HBM aber dauerhaft ("column power" - ich würde es mal als Grundlast bezeichnen, je mehr Stacks, desto höher)

So mag HBM zwar in GB/W sehr gut da stehen, deutlich besser als GDDR5, aber das relativiert sich eben, wenn HBM (siehe Fiji) vor sich hin dümpelt und eigentlich völlig oversized ist. Dann schrumpft der Vorteil massiv dahin.
HBM ist genau so DRAM, wie (G)DDRx. Die Speicherzellen sind die gleichen und brauchen deshalb wenn kein Zugriff stattfindet auch die gleichen Refreshes. Der Stromverbrauch dabei hängt allein an der Fertigung und Kapazität und hat mit dem Übertragungskanal nichts zu tun. Wenn man sich die Grafik anschaut steigt Column Power auch so ziemlich linear mit der Bandbreite. Ausnahme ist "1.5x Efficient HBM2", wo der Foliendesigner wohl einen neuen Fertigungs-Node unterstellt.

Die Zahlen auf der Folie gelten garantiert nur für den Volllast-Betrieb. Alles andere ergäbe keinen Sinn.

Wie NV auf eine Bandbreite von 1500GB/s bei GDDR5(X) kommen will, müssen sie mir mal erklären.
Die schwarze Linie ist die Bandbreite. Die Balken sind nur für die Leistungsaufnahme.

Undertaker

2016-02-10, 17:32:23

Ich verstehe nicht, was NV da rechnet und warum das bei NV so schlecht ggü. HBM dargestellt wird.

Ich habe alles Mögliche durchgerechnet und HBM hat immer Vorteile. Und ganz sicher ist HBM2 (der erste Balken) nicht langsamer als GDDR5(X).

Wie NV auf eine Bandbreite von 1500GB/s bei GDDR5(X) kommen will, müssen sie mir mal erklären. Ich bin gespannt. Ebenso, dass dieser dann plötzlich stromsparender sein soll, als HBM2, wo HBM2 gerade mal 1,2v pro Modul hat und GDDR5 selbst bei GDDR5X noch 1,35v, man aber ungleich mehr Module benötigt.

Noch dazu wird die Fertigung besser und wir haben gerademal 20nm bei HBM2.

Also entweder hat NV da einfach nur Grütze gerechnet, oder es stellt HBM einfach unnötig in zu schlechtem Licht da. Das muss eigentlich nicht sein, fraglich, warum sie das so zur Schau stellen.

Ich glaube du hast das Diagramm noch nicht so ganz verstanden. ;) Die Bandbreite ist die Linie, nicht die Balken...

Zettabit

2016-02-10, 17:41:30

Und ich sehe in der Folie nur die Vorteile von Hbm. Das Verhältnis zwischen Bandbreite und Leistungsaufnahme ist deutlich besser als bei Gddr, selbst bei den späteren Hbm Generationen, welche eine hohe Leistungsaufnahme besitzen. Dass man keinen Totenkopf bei Gddr hinmalt ist schon ein Hohn. Gddr könnte niemals dieses Verhältnis bieten.
Du darfst da gern Vorteile sehen, der Totenkopf sagt nur aus, dass die Nutzung von HBM bei einer Leistungsaufnahme >100W schlicht keinen Sinn ergibt, weil dann der TDP-Headroom für die GPU zu gering ist. Nicht mehr, nicht weniger.

Und wenn du die von HBM gelieferte Bandbreite nicht nutzen kannst, dann ist die Ersparnis auch nicht mehr gegeben, siehe Fiji.

HBM ist genau so DRAM, wie (G)DDRx. Die Speicherzellen sind die gleichen und brauchen deshalb wenn kein Zugriff stattfindet auch die gleichen Refreshes. Der Stromverbrauch dabei hängt allein an der Fertigung und Kapazität und hat mit dem Übertragungskanal nichts zu tun. Wenn man sich die Grafik anschaut steigt Column Power auch so ziemlich linear mit der Bandbreite. Ausnahme ist "1.5x Efficient HBM2", wo der Foliendesigner wohl einen neuen Fertigungs-Node unterstellt.
Trotzdem besteht die Leistungsaufnahme bei GDDR5 zu 70-80% aus der I/O Power, bei HBM aber aus Column Power.

Würde durchaus Sinn ergeben. GDDR5 hat eine hohe Anzahl Chips mit langen Leitungswegen -> hohe Leistungsaufnahme für I/O. HBM hat eine geringe Anzahl Chips und sehr kurze Leitungswege -> niedrige Leistungsaufnahme für I/O.

Dass die Leistungsaufnahme von GDDR5 bei niedriger Nutzung sinkt, sollte auch klar sein. Sonst würden die Karten im Idle ja 50W+ schlucken.

Complicated

2016-02-10, 17:41:43

Siehe die NVIDIA-Folie:

GDDR5 nimmt primär Leistung beim I/O auf, HBM aber dauerhaft ("column power" - ich würde es mal als Grundlast bezeichnen, je mehr Stacks, desto höher)

So mag HBM zwar in GB/W sehr gut da stehen, deutlich besser als GDDR5, aber das relativiert sich eben, wenn HBM (siehe Fiji) vor sich hin dümpelt und eigentlich völlig oversized ist. Dann schrumpft der Vorteil massiv dahin.
Das ist missinterpretiert. HBM kann die Rows und Columns unabhängig ansprechen. Zudem nutzt HBM Dual Command. Dies führt dazu, dass Speicherzellen praktisch nicht angesprochen werden wenn nicht benötigt.
Siehe Hotchip Präsentation Seiten 14-17: http://www.hotchips.org/wp-content/uploads/hc_archives/hc26/HC26-11-day1-epub/HC26.11-3-Technology-epub/HC26.11.310-HBM-Bandwidth-Kim-Hynix-Hot%20Chips%20HBM%202014%20v7.pdf

Lastet man alles voll aus, entsteht die Grafik wie bei Nvidia in der Präsentation.

Zumal hier in der Folie bitte acht gegeben werden sollte auf die Beschriftung der Linien. Besonders Interessant die schwarze Linie die mit "Bandwith" beschriftet ist. Denn diese zeigt den Durchsatz - und der liegt bei dem höchsten GDDR5 Balken bei ca. 500 GB/s, während HBM2 schon 1000 GB/s überschritten hat - eine Region die GDDR5 überhaupt nicht erreicht.

Die Grafik täuscht darüber hinweg, dass GDDR5 in diesem Bild noch nicht mal die Bandbreite vom ersten HBM Balken erreicht, weil die Stromdarstellung kleiner ist und rechts in der Achse Bandbreite steht - die Schwarze Linie markiert diesen Wert in GB/s.

Edit: ups zu langsam

Sunrise

2016-02-10, 17:42:29

Die schwarze Linie ist die Bandbreite. Die Balken sind nur für die Leistungsaufnahme.
Ach du Scheiße, danke für die Aufklärung. Die Beschriftung auf der rechten Seite (Bandwidth und dann die 1000er Zahlen) macht mich fertig...:usad:

Nakai

2016-02-10, 17:50:07

Als ob Fiji ein gutes Hbm Design wäre. Hbm ist besser als bisherige Speichertechnologien, ist aber auch nicht unproblematisch. Mehr gibt es dazu nicht zu sagen. Es zeigt aber auch, dass zukünftige Architekturen deutlich besser an das Speichersystem angepasst werden müssen. Da werden wir noch deutliche Entwicklungen in Zukunft sehen.

Zettabit

2016-02-10, 17:59:07

Das ist missinterpretiert. HBM kann die Rows und Columns unabhängig ansprechen. Zudem nutzt HBM Dual Command. Dies führt dazu, dass Speicherzellen praktisch nicht angesprochen werden wenn nicht benötigt.
Sagt aber null über die Skalierung aus.

Und wenn die Anzahl der Stacks ("column") teurer ist, als die Anzahl der Schichten ("row"), ergibt das auch ziemlich viel Sinn. Von daher sehe ich hier kein Problem.

Die Grafik täuscht darüber hinweg, dass GDDR5 in diesem Bild noch nicht mal die Bandbreite vom ersten HBM Balken erreicht, weil die Stromdarstellung kleiner ist und rechts in der Achse Bandbreite steht - die Schwarze Linie markiert diesen Wert in GB/s.
Tut sie höchstens für die Leute, die die Achsen-Beschriftung nicht richtig deuten ;)

Das HBM-Problem ist, dass von dem Energieeffizienz-Faktor 3, mit dem gern geworben wird, nicht viel übrig bleibt, wenn man die Bandbreite nicht nutzen kann.

N0Thing

2016-02-10, 17:59:20

Darum geht es aber auf der Folie nicht. Es geht darum, dass man ein Limit hat und eben nicht mal eben 160 Watt fuer Speicher verbraten kann. Ja, wenn man keine Obergrenze hat, kann man die Markierungen selbstverstaendlich weglassen - und sich zudem den kompletten Ausblick sparen.

Es ging mir darum, dass man in der Praxis HBM(2) ja nicht nur mit der maximalen Taktrate betreiben muss, sondern je nach Bedarf auch niedrigere Frequenzen anlegen kann und dann auch deutlich weniger Strom verbraucht. Nicht, dass man keine Obergrenze haben würde. Auch dort wohl man viel Wert auf die Speicherbandbreite legt, nämlich im HPC Bereich, wird der Speicher nicht maximal ausgefahren, wenn man sich mal die Werte von Tesla K40 und der Titan Black anschaut.

Die Folie sollte eine bestimmte Aussage transportieren und das waren sicher nicht die Vorzüge von HBM.

ndrs

2016-02-10, 20:33:05

Dass die Leistungsaufnahme von GDDR5 bei niedriger Nutzung sinkt, sollte auch klar sein. Sonst würden die Karten im Idle ja 50W+ schlucken.
Und genau das gleiche trifft für eine Karte mit HBM zu.
Stacks ("column") [...] Schichten ("row")
Ist die Zuordnung dein Ernst? Wenn ja empfehle ich dringend ein paar Grundlagen über DRAM. Wenn das metaphorisch sein soll, habe ich es nicht verstanden, was du damit aussagen willst.

Gipsel

2016-02-10, 21:29:43

GDDR5 nimmt primär Leistung beim I/O auf, HBM aber dauerhaft ("column power" - ich würde es mal als Grundlast bezeichnen, je mehr Stacks, desto höher)Falsch, ganz falsch.
Kleiner Tipp: Lies mal nach, wie ein Speicherzugriff bei DRAM abläuft! Dann erschließt sich Dir vielleicht auch, was mit Column- und Row-Power gemeint ist. Und das fällt auch nur an, wenn man wirklich auf den Speicher zugreift. Nix mit "Grundlast".
Aber da HBM natürlich immer noch DRAM ist und an den Speicherarrays selber eigentlich nichts tut (außer die Core-Spannung etwas zu verringern), skaliert das natürlich munter weiter mit der Bandbreite (wegen der geänderten Spannungen und etwas [aber nicht fundamanetal] anderer interner Organisation nicht ganz proportional, aber GDDR5x läuft ja z.B. auch mit reduzierter Spannung). Der Hauptunterschied bei HBM ist eben, wie die Daten zwischen den Speicherchips/-stacks und dem Prozessor (egal welcher) übertragen werden. Und dies ist mit HBM dramatisch effizienter als bei GDDR5 (deutlichst reduzierte IO-Power, was bei hochgetaktetem GDDR5 nunmal der größte Anteil ist).

edit:
Hach, sehe gerade, daß ndrs Dir ja ebenfalls schon eine Recherche zu DRAM-Grundlagen ans Herz gelegt hat. Recht hat er!

Nakai

2016-02-10, 21:39:21

Wenn man den letzten Balken bei Gddr5 mit dem ersten Balken bei Hbm vergleicht, erkennt man das row und column gut mit der Bandbreite skaliert. Und wie schon angemerkt ist hbm nichts anderes wie Dram. Ergo wieso sollten die Speicherzellen weniger verbraten? Die IO Power wurde schon mal damit gelöst, an der zugrundeliegenden Technologie hat sich nix geändert. Es bräuchte eine andere Speichertechnologie diesbezüglich.

Ahja der ganz große Hbm Balken mit 160w. 40w pro 1TB/s finde och jetzt nicht sonderlich mies.

Hübie

2016-02-10, 23:14:53

edit:
Hach, sehe gerade, daß ndrs Dir ja ebenfalls schon eine Recherche zu DRAM-Grundlagen ans Herz gelegt hat. Recht hat er!

Fairerweise verlinke ich doch einfach mal das Video (http://images.nvidia.com/events/sc15/SC5125-energy-efficient-architectures-exascale-systems.html) für die jenigen, welche es noch nicht kennen. Hier wird der Zusammenhang auch klar.

Es sind übrigens nur erwartete Werte. Diese basieren nicht auf Messungen.

Gipsel

2016-02-10, 23:51:27

Fairerweise verlinke ich doch einfach mal das Video (http://images.nvidia.com/events/sc15/SC5125-energy-efficient-architectures-exascale-systems.html) für die jenigen, welche es noch nicht kennen. Hier wird der Zusammenhang auch klar.Bei den Punkten zwischen Minute 6 und 10 ist ganz lustig, daß sich Vieles an den Konzepten der alten Vektorrechner orientiert (die konnten auch schon variable Vektorlängen), auf denen AMD bereits bei der GCN-Vorstellung so rumgeritten ist. Und der letzte Punkt in der genannten Zeitspanne sieht schon verdammt danach aus, als hätte nV vor, auch sowas wie die skalare Einheit bei GCN zu implementieren, mitsamt skalarem Registerfile (auf welches die Vektoreinheit dann auch Zugriff hat, also im Prinzip wie bei GCN). Ist ja auch sinnvoll.
http://abload.de/img/nv_scalar_opscpb6d.png