nVidia - Pascal - GP100 - 2016 - 3D-Memory HBM, NVLINK, Mixed Precision [Archiv] - Seite 9

Ailuros

2016-02-11, 06:24:43

Man könnte es auch so auslegen, dass die bisherigen Chips für HPC immer zu wenig Bandbreite hatten. Ein K40 kommt auf 1,4~TFlop/s FP64 bei 288 GB/s Speicherbandbreite. Wenn jetzt unser hypothetischer GP100 um die 4,0~ TFLop/s FP64 leistet, dann wären die genannten 1 TB/s sicher nicht verkehrt. Falls Volta dann wirklich nur etwas über 1 TB/s Speicherbandbreite haben sollte, wäre das in der Tat etwas seltsam. Andererseits ist Volta noch so weit weg, da kann wohl noch so einiges passieren.

Neben den paar guten Punkten von Sunrise in seiner Antwort darauf: wuerde es HBM nicht geben muesste sich ein GP100 mit etwas mehr als der Haelfte der ihm heute zugesprochenen Bandbreite auskommen.

Wie schon erwaehnt sie entwickeln auch mit dem was die Konkurrenz bringen wird im Hinterkopf, nur ist der Haken hier dass die Konkurrenz solchen Bandbreiten-relativen Kopfschmerzen auch nicht entgehen wird.

Uebrigens waere NV nicht die die area ausgegangen unter 28nm fuer GM200, haette der TFLOP Wert auch irgendwo dazwischen liegen muessen, eben aber leider wieder mit den "nur" <340 GB/s Bandbreite die heute noch moeglich waren. Eventuell koennte man noch sagen dass sie hypothetisch auf GM200 auch noch einen 512bit bus einlegen koennen, rechnet man aber die zusaetzliche die area dafuer und die um einiges mehr ROPs noch mit, passt dann diese nette Summe auch nicht mehr in eine 250W TDP portofolio, selbst wenn sich 20SoC verhalten haette wie man anfangs erwartete.

---------------------------------------------------------------

Sonst zum Rest: es wurden mal wieder etliche Seiten verschwendet fuer angebliche Konspirations-thesen. Ich wuerde diese halbwegs einsehen wenn NV ueberhaupt keinen HBM Speicher benutzen wuerde. Auf sachlicher und objektiver Ebene wuerde ich mich eher fragen ob doch wahres an dem Zeug liegt, denn wenn es der Fall sein sollte wird es alle IHVs betreffen und nicht nur einen. Wenn man sich aber zu rot oder zu gruen angestreicht hat, kann man wohl so etwas auch nicht erwarten.

HOT

2016-02-11, 08:43:46

Hübie

2016-02-11, 09:12:16

Bei den Punkten zwischen Minute 6 und 10 ist ganz lustig, daß sich Vieles an den Konzepten der alten Vektorrechner orientiert (die konnten auch schon variable Vektorlängen), auf denen AMD bereits bei der GCN-Vorstellung so rumgeritten ist. Und der letzte Punkt in der genannten Zeitspanne sieht schon verdammt danach aus, als hätte nV vor, auch sowas wie die skalare Einheit bei GCN zu implementieren, mitsamt skalarem Registerfile (auf welches die Vektoreinheit dann auch Zugriff hat, also im Prinzip wie bei GCN). Ist ja auch sinnvoll.
http://abload.de/img/nv_scalar_opscpb6d.png

Ist ein Skalar in der Grafik idR oder generell nicht eine Ganzzahl (INT)? Kann mir nur schwer vorstellen dass man jetzt einen extra Register dafür einschiebt, sondern eher einen geteilten Registerspace eventuell mit tagging verwendet. Oder was denkst du? nVidia versucht ja so wenig wie möglich und nur soviel wie nötig an Bits zu übertragen. Wenn ich jetzt daran denke dass ein Vektor für eine Multiplikation auf das Skalar zugreifen muss, und dieses dann in einem gesonderten Bereich der GPU sitzt, muss da ja erst einmal wieder ein Bit nach dem anderen über das GPC Network transferiert werden. Das kostet.

horn 12

2016-02-11, 09:19:39

Somit wird dieses Jahr wohl weitaus unspektakülärer als es viele haben woll(t)en
Ob man Fury X sprich GTX 980TI Leistung wirklich übertreffen, bzw. mindestens gleichziehen wird, sei mal dahingestellt.

Hübie

2016-02-11, 09:39:28

Wart mal ab. Vor allem was Effizienz angeht.

ShinyMcShine

2016-02-11, 09:53:59

Ich kann mir auch nicht vorstellen, dass NV mit Fury X bzw. GTX 980TI nicht zumindest gleichzieht. Man muss das neue Produkt ja auch in den Benchmarks über den alten sehen!

Godmode

2016-02-11, 10:14:06

Ich kann mir auch nicht vorstellen, dass NV mit Fury X bzw. GTX 980TI nicht zumindest gleichzieht. Man muss das neue Produkt ja auch in den Benchmarks über den alten sehen!

Vor allem wenn man mit der 28nm Generation vergleicht, sollte das durchaus möglich sein. Zwischen GK104 und GM204 lagen ca. 100mm2 Unterschied in der Größe des Chips. Laut Computerbase (http://www.computerbase.de/2014-09/geforce-gtx-980-970-test-sli-nvidia/6/) legte die 980 auf die 770 ca 58% drauf und dabei war die 770 ja schon die zweite Revision von GK104. Wenn man jetzt von 28nm auf 16nm geht, sollte deutlich mehr rauskommen, als der 100mm2 Unterschied in 28nm, selbst wenn GP104 kleiner als 300m2 ausfallen sollte. IIRC waren es von 28nm auf 16nm eine um 100% erhöhte Transistordichte. Wenn also der 400mm2 GM204 in 16nm nur mehr 200mm2 groß wäre, kann man sich schon ausdenken was ein potenzieller GP104 mit 250-300mm2 leisten könnte. Man darf nicht vergessen, dass die Dinger wohl auch etwas mehr Takt drauflegen werden.

Eines noch: Die letzten Tage habe ich irgendwo gelesen, dass mit FinFet die Schwankungsbreite in der Chipgüte abnehmen soll. Wenn ich das richtig interpretiere, könnte das in weniger OCing Spielraum münden, da der IHV den Chip genauer auf die Zielfrequenz bringen kann. Ist diese Interpretation richtig?

Hübie

2016-02-11, 10:23:49

Die Dichte in den Rechenwerken liegt bei Faktor 2,05. Vieles drum herum skaliert jedoch nicht 1:1 mit. Das PHY z.B. lässt sich nur geringfügig shrinken. Da musst du echt in die Trickkiste greifen.

Palpatin

2016-02-11, 10:27:23

Bei der Verwendung von GDDR5X reichen 256 bit ja auch.
Ich rechne mit normalen GDDR5 und etwa 15-25% mehr Speichertakt zur 980.

Timbaloo

2016-02-11, 10:40:52

Wie unterschiedlich wären denn die Interfaces für GDDR5 und GDDR5X? Wäre es möglich, dass man ein Interface baut was beides bedienen kann? Weil dann könnte man ein Szenario ähnlich 680->770 sehen.

BlacKi

2016-02-11, 10:46:36

wenn die neuen speicher nicht verfügbar wären, hätte ich das portfolio wie bei maxwell von unten aufgerollt.

AnarchX

2016-02-11, 11:28:41

Mit GM206 hat man im unteren Segment eine perfekte GPU, die man erstmal nicht ersetzen muss.

Die grobe Designrichtung für GDDR5X sollte wohl schon Anfang 2015 vorgelegen haben, nimmt man nun ein GP104-Tapeout gegen Ende 2015 an, wäre da eine Implementierung wohl durchaus denkbar. Da wie gesagt NV/AMD die Hauptabnehmer sind, sind diese wohl schon länger im Design involviert. Die GDDR5X-Spezifikation hat wohl auch diverse Freiheitsgrade, wo es dann auf den GPU-Hersteller ankommt.
Wenn man GDDR5X nicht zur Verfügung hat, kommt wohl halt Plan B: 8Gbps GDDR5. 14% mehr Bandbreite als eine GTX 980 bei vielleicht 30-50% mehr GPU-Leistung machen wohl kein schlechtes Produkt, wenn auch wohl dann bei ~200W TDP.

Godmode

2016-02-11, 11:30:40

Die Dichte in den Rechenwerken liegt bei Faktor 2,05. Vieles drum herum skaliert jedoch nicht 1:1 mit. Das PHY z.B. lässt sich nur geringfügig shrinken. Da musst du echt in die Trickkiste greifen.

Wen das PHY eine Konstante ist, kann man sie ja ignorieren, sie bleibt ja immer annähernd gleich.

Sunrise

2016-02-11, 12:00:10

...Wenn man GDDR5X nicht zur Verfügung hat, kommt wohl halt Plan B: 8Gbps GDDR5. 14% mehr Bandbreite als eine GTX 980 bei vielleicht 30-50% mehr GPU-Leistung machen wohl kein schlechtes Produkt, wenn auch wohl dann bei ~200W TDP.
Wie kommst du denn plötzlich von 165W TDP auf 200W TDP, ein Schreibfehler?

GP104 muss am Interface sparen, dafür schnellen Speicher verbauen und die Kompression wird evtl. noch weiter verbessert. Selbst wenn NV mehr ALUs und andere Einheiten im ähnlichen Verhältnis dazubaut und den Takt hochzieht, ist der Fertigungsvorteil von 16nm FinFET immens, gerade bei "High-End" (auf den Prozess bezogen) GPUs.

Wenn NV da plötzlich stark über 165W TDP landet, dann stimmt was nicht.

AnarchX

2016-02-11, 12:04:28

Wenn man schon so ein ~40W Speicherinterface hat, kann man auch gleich in die Vollen gehen und den GPU-Takt auf >1,3GHz Base bringen. Mit einem vernünftigen NV-High-End-Kühler kann man das ganze auch brauchbar kühlen. So kommt man dann auch über 10 TFLOPs ("effektiv").

BlacKi

2016-02-11, 12:05:18

Mit GM206 hat man im unteren Segment eine perfekte GPU, die man erstmal nicht ersetzen muss.
das loch zwischen 960 und 970(auf höhe 380(X) ) könnte man aber stopfen mit einem kleinen chip mit "langsamen" speicher.

AnarchX

2016-02-11, 12:15:42

Dafür ist 16nm wohl Anfangs noch zu teuer, GK107 hat man ja auch zuerst in Notebooks verkauft, während erst später 40nm GT 6xx Karten auf GK107 umgestellt wurden. Beim 960/970-Loch ist es wohl NV durchaus Recht, dass hier der Käufer zu nächsten Lösung 100€ drauflegen muss. Vielleicht kommt im Sommer zum Polaris-Launch noch eine weitere GM204-Variante.

BlacKi

2016-02-11, 12:48:33

aber fängt man in neuen fertigungsprozessen nicht besser mit kleinen chips an um mehr ausbeute zu haben? naja, wir werden es sehen...

Ravenhearth

2016-02-11, 13:58:59

HBM ist auf 4gb begrenzt und damit jetzt schon am ende. das ist sicherlich nicht die bessere technologie. Teuer und unflexibel.

;D

Ich rechne mit normalen GDDR5 und etwa 15-25% mehr Speichertakt zur 980.

Mehr als 8 Gbps (+14%) gibts doch gar nicht, zumal das für sicherlich 50% mehr ALUs sehr knapp wäre...

AnarchX

2016-02-11, 14:04:14

Mehr als 8 Gbps (+14%) gibts doch gar nicht, zumal das für sicherlich 50% mehr ALUs sehr knapp wäre...
Bei Samsung gibt es als Customer Sample 9Gbps: +28%.

aber fängt man in neuen fertigungsprozessen nicht besser mit kleinen chips an um mehr ausbeute zu haben? naja, wir werden es sehen...
Es ist wohl eine komplizierte Entscheidung, die auf Waferkapazitäten und Vermarktbarkeit der Lösungen basiert. Mit GP104 hat man wohl einen eher kleinen Chip, der aber fast 3-mal so teuer wie GM204 zu sein scheint. Da fährt man mit 28nm im unteren Segment wohl vorerst besser. Geplant GP107 und GP107 wohl aber weiterhin.
Bei Zauba gibt es ja auch einen Chip mit 18x18mm Package, der momentan mit auch fast 200 USD bewertet wird. Aber das könnte ein Tegra sein, das Bringup-Equipment wie bei GP104/GP100 fehlt da.

Ravenhearth

2016-02-11, 14:10:04

Oh, das war mir neu. Der Stromverbrauch dürfte dabei aber explodieren.

Hübie

2016-02-11, 17:17:46

Ich erinnere mich noch an einen Artikel über GDDR5X wo ein fallback beschrieben wurde, wenn die Auslastung nicht hoch ist. Ausgehend von dieser Information und der Tatsache dass viele Funktionen gleich sind, denke ich dass ein PHY nicht sehr viele Anpassungen erfahren muss um auch GDDR5X voll anzusprechen.
Ich müsste jetzt noch mal genau schauen wo das war, aber vielleicht weiß das jemand auch so.

Dural

2016-02-11, 19:58:43

Ravenhearth

2016-02-12, 00:55:43

Chips in 10nm wird es vor 2017 nicht geben, entsprechende GPUs in 2018 könnte aber hinkommen. Nvidia bringt ja grob alle zwei Jahre eine neue Architektur raus.

BlacKi

2016-02-12, 01:12:28

Es ist wohl eine komplizierte Entscheidung, die auf Waferkapazitäten und Vermarktbarkeit der Lösungen basiert. Mit GP104 hat man wohl einen eher kleinen Chip, der aber fast 3-mal so teuer wie GM204 zu sein scheint. Da fährt man mit 28nm im unteren Segment wohl vorerst besser.

mag sein, aber gm200 ist ebenfalls nicht 3x so teuer wie gm204, also bräuchte man auch gm200 durch gp104 ersetzen. das es zuerst im mobilen sektor sinn macht sollte man dabei auch nicht vergessen und gp104 wird man wohl nicht 2016 im notebook finden.

Rampage 2

2016-02-12, 01:17:57

Mal zu GDDR5X: Da Micron selbst erst jetzt Muster bekommt, wird diese Speichertechnologie wohl kaum schon in bald erscheinenden GPUs Anwendung finden. Die Spezifikation ist ja auch erst seit September frei :freak:. Da ist mal wieder heftig was zeitlich durcheinandergeschmissen worde.

GDDR5X werden wir erst in GPUs sehen, die künftig Tapeout haben. Vorher gibts nur GDDR5 - das braucht ja ein neues Speicherinterface.

Ich habe zwar nicht viel Ahnung von der Materie, aber GDDR5X und GDDR5 sind sich von Aufbau und Funktionsweise her sehr ähnlich - natürlich, soweit ich das verstanden habe. Hier ein Artikel von Anandtech dazu (sorry, falls es hier schon bereits verlinkt wurde):

GDDR5X Standard Finalized by JEDEC: New Graphics Memory up to 14 Gbps (http://www.anandtech.com/show/9883/gddr5x-standard-jedec-new-gpu-memory-14-gbps)

Implementation
While internally a GDDR5X chip is different from a GDDR5 one, the transition of the industry to GDDR5X is a less radical step than the upcoming transition to the HBM (high-bandwidth memory) DRAM. Moreover, even the transition from the GDDR3/GDDR4 to the GDDR5 years ago was considerably harder than transition to the GDDR5X is going to be in the coming years.

The GDDR5X-compliant memory chips will come in 190-ball grid array packaging (as compared to 170-ball packaging used for current GDDR5), thus, they will not be pin-to-pin compatible with existing GDDR5 ICs or PCBs for modern graphics cards. But while the GDDR5X will require development of new PCBs and upgrades to memory controllers, everything else works exactly like in case of the GDDR5: the interface signal training features and sequences are the same, error detection is similar, protocols have a lot of resemblances, even existing GDDR5 low and high speed modes are supported to enable mainstream and low-power applications. BGA packages are inexpensive, and they do not need silicon interposers nor use die-stacking techniques which HBM requires.

Implementation of GDDR5X should not be too expensive both from R&D and production perspectives; at least, this is something that Micron implied several months ago when it revealed the first details about the technology.

R2

Dural

2016-02-12, 09:06:03

Chips in 10nm wird es vor 2017 nicht geben, entsprechende GPUs in 2018 könnte aber hinkommen. Nvidia bringt ja grob alle zwei Jahre eine neue Architektur raus.

derzeit geht man davon aus das Apple das neue iPhone mit 10nm Chip bringt, und das kommt traditionell im Herbst auf den Markt.

Godmode

2016-02-12, 09:40:26

derzeit geht man davon aus das Apple das neue iPhone mit 10nm Chip bringt, und das kommt traditionell im Herbst auf den Markt.

Wenn TSMCs 10nm Fertigung wirklich schon so weit ist, dass sie im Herbst damit iPhone 7 SoCs herstellen können, ist das sicherlich ein gutes Zeichen. Eventuell sind ja alle Sub 16nm Prozesse jetzt weiter, weil 16nm so extrem verzögert wurde. Die Entwicklung der andere Prozesse wurde deswegen ja nicht pausiert.

Zwischen den iPhone 6s und den ersten verfügbaren GPUs mit 16nm FF werden wohl ca. 1 Jahr liegen, wenn man von einem September Launch ausgeht. Wenn es mit 10nm ähnlich läuft, dann würde man in Q3-Q4 2017 10nm GPU Produkte sehen.

Edit: Volta ist ja laut den aktualisierten Roadmaps eher auf 2018 gerutscht, somit könnte es wirklich sein, dass es heuer nur GP104 zu sehen gibt, zumindest für Consumer. 2017 dann Titan und 1080 Ti. Das war eigentlich meine ursprüngliche Überlegung für den Releasecycle von Pascal.

HOT

2016-02-12, 10:47:34

Ich habe zwar nicht viel Ahnung von der Materie, aber GDDR5X und GDDR5 sind sich von Aufbau und Funktionsweise her sehr ähnlich - natürlich, soweit ich das verstanden habe. Hier ein Artikel von Anandtech dazu (sorry, falls es hier schon bereits verlinkt wurde):

GDDR5X Standard Finalized by JEDEC: New Graphics Memory up to 14 Gbps (http://www.anandtech.com/show/9883/gddr5x-standard-jedec-new-gpu-memory-14-gbps)

R2
Steht doch sogar in dem verlinkten Text: der Mem-Ctr. braucht ein Upgrade, ergo wird ein neuer Chip fällig.

Ravenhearth

2016-02-12, 12:41:01

derzeit geht man davon aus das Apple das neue iPhone mit 10nm Chip bringt, und das kommt traditionell im Herbst auf den Markt.

Wer ist "man" und aus welchen Gründen geht der davon aus? TSMC sagt selber, dass die 10nm-Produktion erst gegen Ende 2016 anlaufen soll, was auf einen Start 2017 hindeutet. Bei den Volumen, die Apple braucht, halte ich 10nm dieses Jahr für unrealistisch.

Dural

2016-02-12, 12:55:43

http://english.etnews.com/20160211200003

Ailuros

2016-02-12, 16:11:33

http://english.etnews.com/20160211200003

Die Quelle ist genauso "zuverlaessig" wie Du; es wurde schon im relevanten Apple thread besprochen: http://www.forum-3dcenter.org/vbulletin/showthread.php?t=513454&page=139

Ich weiss jetzt zwar nicht was Apple's SoC Herstellung mit NV's GPU Herstellung zu tun haben soll, aber 16FF+ GPU chips von NV kommen fast ein Jahr spaeter aufs Laufband als Apple's 16FF+ SoCs und dieses hauptsaechlich aus Kosten-Gruenden.

HOT

2016-02-13, 10:06:57

Der A10 schon in 10nm im herbst, Pascal / 16nm könnte ziemlich schnell geschichte sein. Da kann man 2018 ziemlich sicher mit volta / 10nm rechnen.

Ich kann mich gar nicht daran erinnern wann zuletzt eine architektur / herstellungsprozess so kurzlebig war. Es sei den 10nm taugt für gpus nicht, da kommt volta halt in 16nm.
Das Samsung sich nicht um 10nm kümmert und sich direkt auf 7nm konzentriert sagt mir, dass sie den Prozess schlicht so uninteressant finden, dass man dafür keine großen Marktchancen sieht, denn handwerklich würde Samsung das ohne Zweifel ebenfalls hinbekommen.
Und auch die Prognosen sind sehr schlecht, da der Prozess wenig mehr Leistung bringt (wie 20nm) und irre viel mehr kostet. Ich geh ganz stark davon aus, dass beide Hersteller 10nm überspringen werden (wie 20nm).

@Ailuros die sind später dran als 1 Jahr nach Apple.

Knuddelbearli

2016-02-13, 11:52:44

also von ehemals jeden halfnode mitnehmen jetzt nur noch jeden 2ten fullnode ...

Rampage 2

2016-02-13, 20:44:47

Steht doch sogar in dem verlinkten Text: der Mem-Ctr. braucht ein Upgrade, ergo wird ein neuer Chip fällig.

Ja, aber die nötigen Modifikationen werden sehr geringfügig sein - Profi-Chipentwickler wie NV und AMD werden so etwas doch bestimmt hinbekommen!?

R2

uweskw

2016-02-14, 08:24:24

also von ehemals jeden halfnode mitnehmen jetzt nur noch jeden 2ten fullnode ...

Jepp, das ist das Resultat wenn die Marktführer in den Fachmedien hochgejubelt und bei den Mitbewerbern das Haar in der Suppe dramatisiert wird.

Greetz
US

Hübie

2016-02-14, 09:43:44

Genau das wirds sein... NOT! :facepalm:

HOT

2016-02-14, 11:02:23

Ja, aber die nötigen Modifikationen werden sehr geringfügig sein - Profi-Chipentwickler wie NV und AMD werden so etwas doch bestimmt hinbekommen!?

R2
Nur mit einer neuen Maske, der nach dem Bekanntwerden der Specs fertiggestellt wurde.
Es gibt also 2 Optionen:
- Es gibt schon GP104 Silizium und der hat 384Bit GDDR5
- GP104 hat erst später Tapeout (so März/April, was ich eher glaube) und bringt schon 256Bit GDDR5X mit

Complicated

2016-02-14, 11:17:06

Ich denke nicht dass eine Entwicklung erst nach fertiger Spezifikation beginnt. Wäre dem so, wäre HBM noch auf keinem Produkt verbaut.

Hübie

2016-02-14, 11:21:20

Bei jeglichen Specs kommen Taktraten ziemlich zum Schluß. Die Hardware gibts schon seit einer Ewigkeit und du glaubst ja wohl nicht, dass irgendein DRAM erscheint der nicht mit entsprechender Hardware getestet wurde. Ich will damit sagen, dass es mit absoluter Sicherheit schon Prototypen mit GDDR5X gab, die auch richtig laufen. Wir erfahren die Specs immer am Ende eine Projektes. So und nun rechne dir die Wahrscheinlichkeit aus, dass wir dieses Jahr ein Produkt mit GDDR5X sehen werden. :D

robbitop

2016-02-14, 14:23:51

So ist es. Mit der 4870 kam für die Öffentlichkeit GDDR5 auch völlig aus dem Nichts. Für sowas gibt es Prototypen und Specs für die IHVs schon lange vorher.

Hübie

2016-02-14, 14:30:38

Scheint für manche unvorstellbar ;D

uweskw

2016-02-14, 23:55:49

Genau das wirds sein... NOT! :facepalm:

Von Marktwirtschaft verstehst du offensichtlich nicht wirklich viel.
Solange der Wettbewerb stark ist ist die Zielsetzung durch Innovationen und Marketing Maßnahmen Marktanteile zu gewinnen. Da hat auch der Kunde etwas davon.
Ist der Markt erst mal aufgeteilt/die Konkurenz bedeutungslos, dann geht es um Gewinn Maximierung. Das geht zu Lasten des Kunden.

Und hier sollten unsere Fachmedien die Kunden einfach besser aufklären. Aber es ist halt einfacher sein Fähnchen in den Wind zu hängen.
Weder NV noch Intel waren jemals so viel besser wie es die Marktanteile wiederspiegeln.

greetz
US

Rampage 2

2016-02-15, 01:00:16

- Es gibt schon GP104 Silizium und der hat 384Bit GDDR5

Ich dachte, ein 384Bit SI wurde hier schon ausgeschlossen?

Aber dass ein GP104 Vollausbau mit 3072SPs kommen wird, ist doch immer noch realistisch, oder?

R2

Ailuros

2016-02-15, 07:43:40

=/> ?
Wenn der GP104 tape out erst im Maerz waere, sollte man nicht vor November fuer die Massenproduktion rechnen. Das Ding war fuer einen Q3 15' projeziert und wenn dem so war und keine Speicherknappheit im Weg steht schaffen sie Anfang Sommer schon noch damit.

horn 12

2016-02-15, 09:11:43

Und Performance mässig wo schätzt Du den GP104 ein
Knapp über GTX 980TI, also etwa knappe Custom´s GTX 980 TI Performance

HOT

2016-02-15, 09:53:29

Ich dachte, ein 384Bit SI wurde hier schon ausgeschlossen?

Aber dass ein GP104 Vollausbau mit 3072SPs kommen wird, ist doch immer noch realistisch, oder?

R2
Gar nix wurde ausgeschlossen. Aber eine GPU mit 3k Shadern braucht 384Bit. GDDR5X wäre in dem Fall ja schlicht keine Option, da unbekannt zu dem Zeitpunkt des designs.

=/> ?
Wenn der GP104 tape out erst im Maerz waere, sollte man nicht vor November fuer die Massenproduktion rechnen. Das Ding war fuer einen Q3 15' projeziert und wenn dem so war und keine Speicherknappheit im Weg steht schaffen sie Anfang Sommer schon noch damit.

Verspätungen von 1/2 Jahr wären ja durchaus üblich in der Branche. Ein Respin mit neuer Maske und das halbe Jahr ist weg...

Und Performance mässig wo schätzt Du den GP104 ein
Knapp über GTX 980TI, also etwa knappe Custom´s GTX 980 TI Performance

Wird wohl auf GM200 + x hinauslaufen, wobei mit x die Erweiterung des Frontendes für volle DX12-Funktionalität in Hardware gemeint wäre.

Timbaloo

2016-02-15, 09:56:46

@ horn 12:
Alles andere als > 980ti OC wäre Quatsch, da schwer vermarktbar in den Preisregionen in welchen sich Gx104 (Full) seit einer Weile bewegt.

Ailuros

2016-02-15, 09:59:00

Ohne tape out schwirrt auch kein Zauba Material rum. NV's groesste Kopfschmerzen sind momentan TSMC Kapazitaeten und/oder GDDR5X. Sind die ersten nach wie vor blockiert dank QCOM/Apple Buchungen, ist das zweite dann auch irrelevant.

Thunder99

2016-02-15, 10:13:40

Meine konservative Prognose lautet eher knapp über Ti Stock oder Titan X Stock, damit nvidia genügend Raum für ein Refresh haben. Unter 6GB VRAM brauchen die gar nicht erst kommen. Da müssen 8GB her, so oder so (da 300er Serie von AMD ja schon vorgelegt hat)

Ein Modbios, sofern möglich, könnte dann einen guten Abstand wenigstens ermöglichen (wie bei 980Ti).

Preispunkt, da neuer Prozess und neues Design >600€ :freak: und Salvage Part mit beschnitten Speicherinterface? >400€

scully1234

2016-02-15, 10:30:54

Mit einer dreifach höheren Leistung im Vergleich zum aktuellen Rechner des CCRT wird der Bull-Supercomputer ab Mitte 2016 im Rechenzentrum der CEA (TGCC) in Bruyères-le-Châtel (Essonne) installiert. Dadurch hilft Bull, dem wachsenden Industriebedarf nach digitalen Simulationen gerecht zu werden.

Der neue Supercomputer namens COBALT bietet eine Spitzenrechenleistung von etwa 1,4 Petaflops und ist dreimal leistungsstärker und energieeffizienter als der derzeitige Rechner des CCRT. Anwender können damit Daten in einem privaten, rechnerexternen Speichersystem mit einer Kapazität von 2,5 Petabyteund einer Geschwindigkeit von 60 Gigabyte pro Sekunde speichern.

Der Supercomputer nutzt 2.304 Intel-Xeon-Prozessoren mit insgesamt 32.256 E5-Broadwell-Kernen mit 2,4 Ghz Taktfrequenz und 18 Hybridknoten auf Basis von Nvidia-Pascal-Prozessoren für die Remote-Berechnung .... (http://www.computerpartner.at/sites/dynamic.pl?id=news20080805131659924)

der Grosse scheint also auf der Zielgeraden zu sein zumindestens was die Tesla Sparte betrifft

Troyan

2016-02-15, 11:08:52

Hübie

2016-02-15, 11:26:31

Von Marktwirtschaft verstehst du offensichtlich nicht wirklich viel.
Solange der Wettbewerb stark ist ist die Zielsetzung durch Innovationen und Marketing Maßnahmen Marktanteile zu gewinnen. Da hat auch der Kunde etwas davon.
Ist der Markt erst mal aufgeteilt/die Konkurenz bedeutungslos, dann geht es um Gewinn Maximierung. Das geht zu Lasten des Kunden.

Und hier sollten unsere Fachmedien die Kunden einfach besser aufklären. Aber es ist halt einfacher sein Fähnchen in den Wind zu hängen.
Weder NV noch Intel waren jemals so viel besser wie es die Marktanteile wiederspiegeln.

greetz
US

Das alles ist nicht Teil deiner Aussage. Die besagte nur dass nVidia bejubelt wird und man bei AMD jeden Fitzel kritisiert. Das stimmt nicht. Ebenso wenig wie dein unqualifiziertes Kommentar über mein Verständnis zu Marktwirtschaft. Zumal deine Aussage bzgl. Strategien nicht ganz korrekt ist. Es gibt mehrere Strategien und du nimmst die teuerste (hat AMD wohl partiell auch so realisiert).

deekey777

2016-02-15, 12:00:46

Guter fund. Hier mal die Hauptquelle: http://www.bull.com/ccrt-boosts-industrial-innovation-petascale-supercomputer-bull

Jemand eine Idee wieviel FLOPs die 32.256 Kerne der CPUs schaffen? Dann kann man es schön auf Pascal herunterechnen.
Welche Xeon-Broadwells sollen das eigentlich sein? Ich tippe auf Xeon E5-2690 v4, https://en.wikipedia.org/wiki/List_of_Intel_Xeon_microprocessors#E3-V4

scully1234

2016-02-15, 12:33:54

Xeon E5-2690 v4

Ob das nicht eher Brickland ist als Unterbau mit Xeon E7-8890 v4???

Timbaloo

2016-02-15, 12:36:50

Welche Xeon-Broadwells sollen das eigentlich sein? Ich tippe auf Xeon E5-2690 v4, https://en.wikipedia.org/wiki/List_of_Intel_Xeon_microprocessors#E3-V4
Kann ja eigentlich nur der 2690 sein bei 14 Kernen und 2.4GHz.

AffenJack

2016-02-15, 12:39:11

Guter fund. Hier mal die Hauptquelle: http://www.bull.com/ccrt-boosts-industrial-innovation-petascale-supercomputer-bull

Jemand eine Idee wieviel FLOPs die 32.256 Kerne der CPUs schaffen? Dann kann man es schön auf Pascal herunterechnen.

Die machen die 1,4 Pflops. Pascal liefert da keine große Rechenleistung. Da Pascal da auch für Visualisierung verbaut ist, können das auch keine Teslas sein, sondern müssen Quadros sein. Tesla kann doch gar keine Videoausgabe oder versteh ich das "with Nvidia Pascal processors, for remote computing and visualisation" falsch?

Troyan

2016-02-15, 12:47:13

"remote computing and visualisation".

Ich kann nicht glauben, dass Broadwell so effizient ist, dass man eine dreimal so gute Energieeffizienz erreicht.

Timbaloo

2016-02-15, 12:47:39

Visualisierung an einem Supercomputer? Kommt da der Sachbearbeiter und darf sich die Strömungssimulation live angucken und ggf. ausdrucken? :)

scully1234

2016-02-15, 12:48:47

Das kann auch nur eine Quadro Karte sein fuer die Schnittstelle und der Rest alles Teslas

Hübie

2016-02-15, 12:52:06

Eine Tesla rendert remote, Ausgabe lokal am gewünschten Gerät. Tesla hat alle Funktionsblöcke aktiviert. Nur haben die halt keinen Display-scanout.

Troyan

2016-02-15, 12:56:56

Visualisierung an einem Supercomputer? Kommt da der Sachbearbeiter und darf sich die Strömungssimulation live angucken und ggf. ausdrucken? :)

Das ist das jetzige System:
http://www-ccrt.cea.fr/fr/moyen_de_calcul/index.htm

AffenJack

2016-02-15, 13:14:29

Hier ein Vergleichssystem:
http://www.top500.org/system/178446
94000 Kerne ergaben 3,8 Pflops. Das passt wie gesagt zu den 32000 Kernen und 1,4 Pflops und Pascal als Dekoration.

scully1234

2016-02-15, 13:17:55

18 Knoten sind gewiss keine ''Dekoration'' da sind schon einige Module installiert, deren Rechenleistung nicht unerheblich ist

Bei EP Boards(was der wahrscheinliche Unterbau sein koennte fuer die Hybriden) passen da immerhin bis zu 7 Karten in das Rack

Troyan

2016-02-15, 13:30:27

Das jetzige System hat 36 K20 Karten.

Complicated

2016-02-15, 18:17:05

Da Pascal da auch für Visualisierung verbaut ist, können das auch keine Teslas sein, sondern müssen Quadros sein. Tesla kann doch gar keine Videoausgabe oder versteh ich das "with Nvidia Pascal processors, for remote computing and visualisation" falsch?
http://www.nvidia.com/content/PDF/remote-viz-tesla-gpus.pdf

Das ist lediglich virtualisierte Bildausgabe der Daten-Analysen für Remoteclients. Da wird keine Rechenleistung gefordert für das Computing. Daher auch lediglich 18 nodes mit Pascal.

Godmode

2016-02-16, 21:57:28

Troyan

2016-02-16, 22:04:53

Wäre doppelter GM200. Macht Sinn. 16nm erlaubt dies im selben Budget.

Locuza

2016-02-16, 22:07:33

12 TF SP-Leistung bei 1024 GB/s, what a beast. :)
Aber 4 TF DP-Leistung erscheinen krude.

Troyan

2016-02-16, 22:08:41

Warum? GM200 mit 1/3 läge bei 2TFLOPs.

Locuza

2016-02-16, 22:13:47

Troyan

2016-02-16, 22:16:13

Wer sagt, dass nVidia keine dedizierten DP-Einheiten verbauen wird? Sie tun dies doch bei den heutigen Maxwell-Chips auch.

Godmode

2016-02-16, 22:18:05

12 TF SP-Leistung bei 1024 GB/s, what a beast. :)
Aber 4 TF DP-Leistung erscheinen krude.

Mit 6144 SPs, 980 MHz würde man genau auf die 12 SP bzw. 4 DP TFlop/s kommen. Oder sonst halt weniger SPs und mehr Takt. Ich weiß allerdings nicht genau, wer dieser Manuel Ujaldon sein soll, eventuell ist das auch nur eine Einschätzung seinerseits. 6144 klingt fast etwas viel. Eventuell erhöhen sie ja die GPCs von 6 bei GM200 auf 8 oder 10 bei GP100, mit je 512 SPs/GPC. 8 würde perfekt zu den 4 HBM Stacks passen, btw.

Hing das Speicherinterface bei GM200 an den GPCs oder war das über eine Crossbar entkoppelt?

Troyan

2016-02-16, 22:28:28

Crossbar in Zusammenhang mit dem L2-Cache.

Locuza

2016-02-16, 22:36:01

Wer sagt, dass nVidia keine dedizierten DP-Einheiten verbauen wird? Sie tun dies doch bei den heutigen Maxwell-Chips auch.
Allerdings in einem geraden Verhältnis von 1:32 und gerade war es auch bei Kepler mit 1:3.

Die Folien von Nvidia suggerieren auch eine durchgängige Verschaltung:
http://cdn.wccftech.com/wp-content/uploads/2015/03/Screenshot-95.png
http://www.3dcenter.org/dateien/abbildungen/nVidia-Pascal-GP100-Feature-Ueberblick.jpg
http://cdn.wccftech.com/wp-content/uploads/2015/11/NVIDIA-Pascal-GPU-Mixed-Precision.jpg

Ganz ausschließen tun es die Folien aber nicht.
Bisher erwarte ich aber einen durchgehenden Teiler, ähnlich wie bei ARM:
http://www.anandtech.com/show/8234/arms-mali-midgard-architecture-explored/5

Also wenn 1:3 am Ende wahr sind und Pascal weiterhin 128-ALUs pro Cluster behält, dann wäre ich auf jeden Fall überrascht.

Nakai

2016-02-17, 02:38:43

Ich kann 1:3 auch nur schwer glauben.

Ich lasse meine Gedanken kreisen:

- Evtl sind es 1:2 mit niedrigerem Takt.

- Evtl sind nicht alle SMs DP-fähig
Ergo statt alle 48 SMs (~6144 SPs), können nur 32 SMs DP:SP-1:2

- SMs sind wieder auf 192 SPs gewachsen.
=> 32 SMs

- Pro SM sind eine krumme Zahl an DP SIMDs verbaut

Hübie

2016-02-17, 03:35:18

Punkt zwei und vier waren auch meine Gedanken dazu.
Ein SMM könnte nach wie vor einen Scheduler pro Knoten haben haben, also in diesem Falle 6 bei nicht mehr 128, sondern 192 ALUs. Oder halt einfach dedizierte DP-Units aber dann halt immer mit Teiler 3. Hmmm :|

Ailuros

2016-02-17, 06:16:16

Wenn es wie bei Maxwell bei 128-ALUs pro Cluster bleibt und jetzt verwendet Nvidia Mixed-Precision ALUs, dann ist ein Ratio von 1:3 halt schief.
Kepler hat 192 ALUs pro Cluster, die DP-Units sind aber dediziert, dennoch hat es Nvidia in einem "passenden" Verhältnis skaliert.
1:3 im Falle von GK100.

Der Haarspalterei zu Liebe, es gab keinen GK100 :P Ja GK110 hat 64 FP64 SPs/cluster; steht irgendwo dass 48 SPs/cluster als reines Beispiel irgendetwas brechen wuerden? Das was Nakai als "krumm" oben empfindet waere in diesem rein hypothetischen Fall dann eben 3*SIMD16. Unter der Logik ist 1:3 genauso "krumm" :P

Mit 6144 SPs, 980 MHz würde man genau auf die 12 SP bzw. 4 DP TFlop/s kommen. Oder sonst halt weniger SPs und mehr Takt. Ich weiß allerdings nicht genau, wer dieser Manuel Ujaldon sein soll, eventuell ist das auch nur eine Einschätzung seinerseits. 6144 klingt fast etwas viel. Eventuell erhöhen sie ja die GPCs von 6 bei GM200 auf 8 oder 10 bei GP100, mit je 512 SPs/GPC. 8 würde perfekt zu den 4 HBM Stacks passen, btw.

Hing das Speicherinterface bei GM200 an den GPCs oder war das über eine Crossbar entkoppelt?

Koennten auch locker "nur" 40 clusters insgesamt sein (40 * 128 = 5120 *2 OPs *1.175GHz= 12 TFLOPs :P ) eben zu dem Punkt wo sie halt gemacht haben. Du solltest aber auch nicht vergessen dass es eher wahrscheinlich ist dass zumindest fuers erste Jahr ein Vollausbau schwer erscheinen wird. Sonst hab ich auch noch das Gefuehl dass man fuer die Folie nett aufgerundet hat. 12000 / 250W = 48.

40 clusters sind uebrigens 66.67% mehr als beim GM200 :biggrin:

N0Thing

2016-02-17, 06:32:54

Gerade auf B3D gesehen:

Eventuell doch 1:3 DP:SP wie ich schon im Nov (http://www.forum-3dcenter.org/vbulletin/showpost.php?p=10852565&postcount=1376) schrieb?

http://i.imgur.com/LK2CtAI.png
https://forum.beyond3d.com/posts/1894774/

http://ccoe.ac.upc.edu/_media/5_stackeddram-v41-4x1.pdf

Ist die Frage, was bei der Präsentation von Nvidia stammt und was seine eigenen Vermutungen sind. Dass die Daten nicht komplett aktuell sind, sieht man unter anderem an der Roadmap, wo für Maxwell noch Unified Memory angegeben ist. Auf der neueren Version (http://www.pcgameshardware.de/Nvidia-Geforce-Grafikkarte-255598/Specials/Nvidia-Roadmap-Pascal-Maxwell-Nachfolger-1115002/) ist Unified Memory erst für Pascal zu sehen. Von daher würde es mich wundern, wenn Nvidia ihm da schon keine aktuelle Folie geliefert hat, er dann aber die Konfiguration des nächsten Top Dogs schon vor dem 02.06.2015 bekommen haben soll.

Ich gehe davon aus, dass die Folien, die man noch nicht kennt, aus der Feder des Authors stammen und seine eigenen Spekulationen enthalten. Kann natürlich trotzdem richtig sein.

scully1234

2016-02-17, 08:54:07

Ailuros

2016-02-17, 09:17:56

Die original Quelle der geleakten Pdfs ist ein Ji Hoon Chun,also n Koreaner wenn der Name jemanden was sagt in der Branche

https://www.icloud.com/keynote/000-oJJ9_Z8mkHNjW-08KaA3Q#NVIDIA_GPU_roadmaps

dort ist die betreffende Folie mit 04.2014 gekennzeichnet

Folie 22 zeigt eine Pascal Tesla mit 235W TDP. Wohl mit knapp unter 10 TFLOPs SP, <3 TFLOPs DP fuer den Anfang.

scully1234

2016-02-17, 09:38:01

15.5.2016 waere dann aber reichlich spaet, wenn das Datum das aussagen soll ,was man am ehesten damit interpretiert

http://www.gputechconf.com/

Oder gibt's da noch ne geheime Messeveranstaltung, fuer solch eine Praesentation?

horn 12

2016-02-17, 09:47:09

Ailuros

Wie schnell schätzt Du bitte in etwa den Nvidia GP 104 ein, und GP 100 für nächstes Jahr?

Ailuros

2016-02-17, 10:06:42

Ailuros

Wie schnell schätzt Du bitte in etwa den Nvidia GP 104 ein, und GP 100 für nächstes Jahr?

Es ist schon das zweite Mal dass Du aehnliches fragst und es wird wohl guten Grund geben wieso ich mich schon zum zweiten Mal weigere darauf zu antworten.

Thunder99

2016-02-17, 10:19:20

GP100 wird wohl 3x verkauft werden, wie damals GK110. So kann wirtschaftlich den Prozess reifen lassen und gute DIEs sammeln.

Dank den "dummen" (bitte nicht ernst nehmen^^) Usern am Markt kaufen die ja fast alles was nvidia so bringt zu fast jedem Preis. Bring AMD eine Karte die deutlich schneller als GP104 ist wird nvida schneller GP100 in den Consumer Markt entlassen (Ende 2016/Anfang 2017). Erst als Titan Serie, dann als GTX. Falls nicht sehen wir wohl erst Mid 2017 so langsam GP100 (sofern GP104 ab Q3 kommt).

Durch die gute Position im Profi Markt können sie jetzt schon GP100 verkaufen und entsprechend skalieren. Besser kanns gar nicht laufen. AMD ist noch schwach vertreten und bei Intel verzögert sich deren Profi Chip

Godmode

2016-02-17, 14:18:25

Koennten auch locker "nur" 40 clusters insgesamt sein (40 * 128 = 5120 *2 OPs *1.175GHz= 12 TFLOPs :P ) eben zu dem Punkt wo sie halt gemacht haben. Du solltest aber auch nicht vergessen dass es eher wahrscheinlich ist dass zumindest fuers erste Jahr ein Vollausbau schwer erscheinen wird. Sonst hab ich auch noch das Gefuehl dass man fuer die Folie nett aufgerundet hat. 12000 / 250W = 48.

40 clusters sind uebrigens 66.67% mehr als beim GM200 :biggrin:

Die Clusteranzahl ist dann auch egal und kann man nur raten, wenn man keine handfesten Informationen dazu hat. Die einzige was als Konstant gilt, sind die 4 TFLop/s DP Rechenleistung, die schon mehrmals auf den Roadmaps aufgetaucht ist. Das wir zu Anfang keinen Vollausbau sehen werden, kann man wohl annehmen.

Noch was anderes: Irgendwo habe ich gelesen, dass bei Finfet weniger Toleranzen bei der Zielfrequenz einberechnet werden müssen. Das könnte dann bedeuten, dass sich Pascal schlechter übertakten lässt, als Maxwell.

scully1234

2016-02-17, 14:30:43

Ob das bei den Geforce Derivaten gleich bleibt dank hoeherem Taktspielraums, hier geht's ja erstmal nur explizit um die Tesla/Quadro Ausfuehrungen auf den Folien

Mehr SP im Geforce Chip aufgrund hoeherer Taktung und beschnitten in DP koennte auch vorkommen, falls sowas wie ne ''Titan'' auch anfaenglich mit raus gedrueckt wuerde

Irgendwo habe ich gelesen, dass bei Finfet weniger Toleranzen bei der Zielfrequenz einberechnet werden müssen. Das könnte dann bedeuten, dass sich Pascal schlechter übertakten lässt, als Maxwell.

Oder in Summe gar besser ,wenn die Vcore gleichmaessiger skalliert mit dem Takt

Nakai

2016-02-17, 14:50:41

Der Haarspalterei zu Liebe, es gab keinen GK100 :P Ja GK110 hat 64 FP64 SPs/cluster; steht irgendwo dass 48 SPs/cluster als reines Beispiel irgendetwas brechen wuerden? Das was Nakai als "krumm" oben empfindet waere in diesem rein hypothetischen Fall dann eben 3*SIMD16. Unter der Logik ist 1:3 genauso "krumm" :P

Wissen wir überhaupt wie groß die SIMDs bei Maxwell/Kepler sind/waren? Sind es 16er SIMDs? Falls ja, deine 3*SIMD16 wollte ich nicht nennen, aber ich habe es mir gedacht.

Die TFLOPs-Zahlen die NV angibt können ja sehr schön geschönt sein. Ich würde mit bei den 12 TFLOPs FP32 und den 4 TFLOPs FP64 erstmal nicht soviel geben. Die Werte werden darum liegen, aber wie genau die SMs aufgebaut sind, das werden wir sehen.

Logisch betrachtet, sind gemischte SMs ziemlich unwahrscheinlich. Es macht keinen Sinn zwei ähnliche aber doch verschiedene Logikblöcke in ein Design zu integrieren. Ich gehe mit dem 3x SIMD16 Ansatz mit.

Anandtech hat hier eine nette Grafk zu Maxwell...

http://images.anandtech.com/doci/7764/SMMrecolored.png

...welche ich mal für Pascal ausgebaut habe...

http://fs5.directupload.net/images/160217/bpgkkcfu.png

Pro SM 128 FP32-Units und 48 FP64-Units, also 0,375-Verhältnis. Pro zwei Crossbars wird eine FP64-SIMD "geshared".

Bei 1 GHz und 48 SMs sind das 4,6 TFLOPs FP64 und 12 TFLOPs FP32.
Bei 1,1 GHz und 40 SMs sind das 4,2 TFLOPs FP64 und 11,2 TFLOPs FP32.

Evtl boostet GP100 bei FP64-Workload niedriger und man ist hier eher bei den 4 TFLOPs.

BlacKi

2016-02-17, 15:20:02

hieß es nicht hbm2 wirds im gp104 nicht geben, weil hbm2 nicht serienreif bis zum release sein wird? wieso hat gp100 dann stacked dram obwohl er früher erwartet wird?

Timbaloo

2016-02-17, 15:42:12

hieß es nicht hbm2 wirds im gp104 nicht geben, weil hbm2 nicht serienreif bis zum release sein wird? wieso hat gp100 dann stacked dram obwohl er früher erwartet wird?
Es hieß eigentlich eher dass HBM2 zu teuer für Produkte basierend auf GP104 wäre. Und evtl. noch dass man HBM2 für GP104 schlicht nicht braucht.

Botcruscher

2016-02-17, 16:01:40

HBM 2 ist lange serienreif.

Timbaloo

2016-02-17, 16:29:30

A propos HBM2, hat man mittlerweile was gehört von wem NV den Speicher nun einkauft? Da das mit HBM ja keine einfache Bestückungsvariante ist sollte das ja schon feststehen. Also, Hynix oder Samsung?

BlacKi

2016-02-17, 16:43:20

ja stimmt, da ging es nur um gddrx.

aber wie kann man einen 2,5x so teuren chip bringen der dann letzten endes an der transferrate mit normalem gddr5@256bit speicher verhungert. da könnte man doch genauso die 980ti weiterbauen und den gp104 einfach weglassen.

total unsexy, da muss sich nv mehr anstrengen dass 980ti user wechseln. würde der volle gp104 mit hbm2 kommen, dann würde ich vermutlich schwach werden.

Ailuros

2016-02-17, 17:18:47

Wissen wir überhaupt wie groß die SIMDs bei Maxwell/Kepler sind/waren? Sind es 16er SIMDs? Falls ja, deine 3*SIMD16 wollte ich nicht nennen, aber ich habe es mir gedacht.

Ich dachte selber anfangs dass es seit Kepler SIMD32 sind, wurde aber informiert dass es sich um [6*(2*SIMD16)] handelt. Maxwell wie bekannt [4*(2*SIMD16)].

Die TFLOPs-Zahlen die NV angibt können ja sehr schön geschönt sein. Ich würde mit bei den 12 TFLOPs FP32 und den 4 TFLOPs FP64 erstmal nicht soviel geben. Die Werte werden darum liegen, aber wie genau die SMs aufgebaut sind, das werden wir sehen.

Mehr als ~3 TFLOPs DP bei irgendwo 235W TDP wuerde ich von der ersten Tesla zugegeben nicht erwarten.

Pro SM 128 FP32-Units und 48 FP64-Units, also 0,375-Verhältnis. Pro zwei Crossbars wird eine FP64-SIMD "geshared".

Ich bin zu faul darueber zu spekulieren weil ich womoeglich wieder falsch liegen werde.

AnarchX

2016-02-17, 17:40:03

Ist die Frage, was bei der Präsentation von Nvidia stammt und was seine eigenen Vermutungen sind. Dass die Daten nicht komplett aktuell sind, sieht man unter anderem an der Roadmap, wo für Maxwell noch Unified Memory angegeben ist. Auf der neueren Version (http://www.pcgameshardware.de/Nvidia-Geforce-Grafikkarte-255598/Specials/Nvidia-Roadmap-Pascal-Maxwell-Nachfolger-1115002/) ist Unified Memory erst für Pascal zu sehen. Von daher würde es mich wundern, wenn Nvidia ihm da schon keine aktuelle Folie geliefert hat, er dann aber die Konfiguration des nächsten Top Dogs schon vor dem 02.06.2015 bekommen haben soll.

Ich gehe davon aus, dass die Folien, die man noch nicht kennt, aus der Feder des Authors stammen und seine eigenen Spekulationen enthalten. Kann natürlich trotzdem richtig sein.
Sehr alte Folien die noch auf Kepler-Basis rechnen. Die aktuelleren Mixed Precision-Präsentationen zeigen ja wo es hin geht: 1/2.
Trotz allem wäre es nicht verwundlich, wenn da auf Basis der Taktraten ein etwas höheres Verhältnis von vielleicht 0,4-0,33 herauskommt.

Nakai

2016-02-17, 18:19:33

Ob die Folien aussagekräftig sind? Möglicherweise wurde einfach das DP:SP-Verhältnis von Kepler auf Maxwell übertragen. 1/3 ist bei der derzeitigen SM-Konfiguration jedenfalls nicht erreichbar. Es muss ein Verhältnis sein, was architekturell möglich ist. Mixed-Precision spricht für ein Verhältnis von 1:2, wenn vollständige MP-Einheiten verbaut werden. Eventuell sind es auch wieder nur dedizierte DP-Einheiten, dann ist dennoch kein Verhältnis von 1:3 möglich.

Womöglich erhielt man nur eine faktische DP-Rate von 4 TFLOPs und spekuliert auf 1:3. 1:3 ist so betrachtet ziemlich genau im Sweetspot, von Fläche und Durchsatz.

Ich dachte selber anfangs dass es seit Kepler SIMD32 sind, wurde aber informiert dass es sich um [6*(2*SIMD16)] handelt. Maxwell wie bekannt [4*(2*SIMD16)].

Gut.:)
Bei Kepler gab es noch einen globalen Crossbar, während Maxwell pro 2 Dispatcher eben 2 SIMD16, 1 SFU SIMD8 und 1 LD/ST SIMD8 besitzt.

Ich bin zu faul darueber zu spekulieren weil ich womoeglich wieder falsch liegen werde.

Niemand zwingt dich. :)

----

Ich lass das mal noch hier:

http://www.hardware.fr/articles/928-23/gm204-smm-nouveautes.html

Eventuell hat jemand noch eine andere Idee.

Agent117

2016-02-17, 18:43:27

Bei Kepler gab es noch einen globalen Crossbar, während Maxwell pro 2 Dispatcher eben 2 SIMD16, 1 SFU SIMD8 und 1 LD/ST SIMD8 besitzt.

Dem Unterschied wird ja auch die deutlich gesteigerte Leistung/Shader von Maxwell ggü. Keppler zugesprochen.
Wäre mal interessant zu wissen, ob die Crossbar wirklich nur eine Crossbar ist.

Ailuros

2016-02-17, 20:27:48

Ich lass das mal noch hier:

http://www.hardware.fr/articles/928-23/gm204-smm-nouveautes.html

Eventuell hat jemand noch eine andere Idee.

Da Damien gezielte Fragen an IHVs stellt, bin ich so frech und behaupte dass seine Diagramme wohl am naehesten an der Realitaet liegen.

Rampage 2

2016-02-18, 01:08:15

Pro SM 128 FP32-Units und 48 FP64-Units, also 0,375-Verhältnis. Pro zwei Crossbars wird eine FP64-SIMD "geshared".

Bei 1 GHz und 48 SMs sind das 4,6 TFLOPs FP64 und 12 TFLOPs FP32.
Bei 1,1 GHz und 40 SMs sind das 4,2 TFLOPs FP64 und 11,2 TFLOPs FP32.

Evtl boostet GP100 bei FP64-Workload niedriger und man ist hier eher bei den 4 TFLOPs.

Kann es sein, dass NV einfach die Taktraten deutlich höher gesetzt hat, weil die Leistungsaufnahme (welcher bei 28nm dann über die Decke schiessen würde) durch den Vorteil der 16nm-Fertigung trotzdem noch in einem akzeptablen Bereich bleibt?

Wenn so etwas machbar ist, dann würde NV schlicht 96 FP32-SPs + 32 FP64-SPs pro SM (= 128 SPs pro SM) bestücken und dann 40SMs (5120SPs) für den GP100/102 verbauen und das Teil mit 1,5+ GHz Base Clock (Boost irgendwo zwischen 1,7 und 2GHz :freak: ) rausbringen.

Das wären dann 3840:1280 SP/DP x 1,5+ GHz Base Clock

= 11,5+ GFlops SP und 3,85+ GFlops DP

Ich stelle diese Behauptung einfach mal nach der Frage der Machbarkeit her auf;)

R2

N0Thing

2016-02-18, 01:59:45

Rampage 2

2016-02-18, 02:40:54

Halte ich eher für unwahrscheinlich, gerade bei einem großen Chip auf einer ganz neuen Fertigungsstufe. Eine High-End GPU ist was anderes und wird auch anders benutzt als ein Smartphone SoC, wo der Boost von 2Ghz nur für ein paar Sekunden anliegen muss.

Bei einer neuen Fertigungsstufe wie 14/16nm hat man entweder Vorteile beim Takt, oder bei der Leistungsaufnahme, oder bei der Packdichte. AMD und Nvidia suchen sich dabei den Sweet Spot für ihre Chips, aber man bekommt einfach nicht 50% Flächenreduzierung, zusammen mit 30% Stromersparnis, kombiniert mit 40% Taktsteigerung pro Transistor auf einmal hin.

Rein rechnerisch betrachtet sind 1.5GHz nicht 40% sondern 33% Erhöhung - der Minimaltakt einer GTX 980 ist 1127MHz. Überhaupt habe ich das Gefühl, dass NV nicht nur die TX sondern auch die 980 etwas zu niedrig getaktet auf den Markt gebracht hat - bei einer 980 wären 1,2+ GHz als Minimaltakt angemessen und bei einer TX 1,1+ GHz.

R2

N0Thing

2016-02-18, 03:51:56

Das waren Beispiele, keine exakten Zahlen aus den Ankündigungen von TSMC. Es bleibt dabei, man kann nicht gleichzeitig die idealen Verbesserungen bei den Taktraten mit der idealen Flächen- und Leistungsaufnahmereduktion kombinieren.

Ailuros

2016-02-18, 06:09:38

Rein rechnerisch betrachtet sind 1.5GHz nicht 40% sondern 33% Erhöhung - der Minimaltakt einer GTX 980 ist 1127MHz. Überhaupt habe ich das Gefühl, dass NV nicht nur die TX sondern auch die 980 etwas zu niedrig getaktet auf den Markt gebracht hat - bei einer 980 wären 1,2+ GHz als Minimaltakt angemessen und bei einer TX 1,1+ GHz.

R2

Frequenzen sollten immer konservativ auf einer high end GPU sein, eben damit Partner und/oder Endverbraucher den Luftraum haben zu uebertakten. Es wuerde mich sehr ueberraschen wenn NV nicht hauptsaechlich in Packdichte und Stromspar-Massnahmen investiert hat.

Leonidas

2016-02-18, 08:33:49

Man bedenken die Taktraten der früheren Tesla-Chips (GK110-Basis):

K20X: 735 MHz
K40: 745-845 MHz

Hübie

2016-02-18, 09:04:52

Kann es sein, dass NV einfach die Taktraten deutlich höher gesetzt hat, weil die Leistungsaufnahme (welcher bei 28nm dann über die Decke schiessen würde) durch den Vorteil der 16nm-Fertigung trotzdem noch in einem akzeptablen Bereich bleibt?

Wenn so etwas machbar ist, dann würde NV schlicht 96 FP32-SPs + 32 FP64-SPs pro SM (= 128 SPs pro SM) bestücken und dann 40SMs (5120SPs) für den GP100/102 verbauen und das Teil mit 1,5+ GHz Base Clock (Boost irgendwo zwischen 1,7 und 2GHz :freak: ) rausbringen.

Das wären dann 3840:1280 SP/DP x 1,5+ GHz Base Clock

= 11,5+ GFlops SP und 3,85+ GFlops DP

Ich stelle diese Behauptung einfach mal nach der Frage der Machbarkeit her auf;)

R2

Klingt zumindest plausibel genug um es nicht direkt abzulehnen. Gefällt mir sogar besser als die Vorstellung eine crossbar in zwei Varianten zu implementieren, denn diese bräuchte einmal 3 und einmal 4 issue-ports und der Scheduler muss ja auch "wissen" dass er nicht jede Instruktion einfach jedem Multiprozessor zuordnen darf. Das backend im MP dürfte dann auch asymmetrisch sein, wenn wir davon ausgehen dass es halt drei Cluster á 16 FP64 Units sind.

Da finde ich die Vorstellung von 96 FP32 und 32 FP64- Units schon romantischer. :D

Ailuros

2016-02-18, 09:12:11

Da finde ich die Vorstellung von 96 FP32 und 32 FP64- Units schon romantischer. :D

Dein Blumenstrauss sieht dann aber nicht mehr so toll aus wenn man die noch mal hoehere cluster Anzahl bedenkt :P Mir klingen schon heute jegliche TMU Anzahlen von 320 bis 384 zu viel....

Hübie

2016-02-18, 09:31:30

Keine Ahnung ob die TMUs / TAUs jetzt schon ausgelastet werden oder tatsächlich zuviel sind, aber ein SM rechnet ja x Anzahl an Quads, welche ja auch in den jeweiligen TMUs gefiltert und zugeordnet werden (machen die ALUs auch die Kompression?:confused: Müsste eher Aufgabe der ROPs sein).

PS: Ich mal mir meine Blumenwiese halt gerne bunt :D Übrigens blickt man als 980 Ti User erst mal entspannt drein, egal was da kommt.

Ailuros

2016-02-18, 10:18:08

Vor 2017 sehe ich fuer Deinen Fall sowieso keinen nennenswerten upgrade. Sonst kann mich vielleicht jemand aufklaeren ob man mit dem zusaetzlichen FP16 throughput vielleicht doch so viel mehr TMUs am Ende brauchen koennte? An Bandbreite mangelt es ja erstmal mit Sicherheit nicht fuer die TMUs :biggrin:

Godmode

2016-02-18, 10:29:38

Zum Thema FP16/Int8 habe ich einen extra Thread eröffnet. Vielleicht könnte da mal der eine oder andere was dazu schreiben: http://www.forum-3dcenter.org/vbulletin/showthread.php?t=570989

Mandalore

2016-02-18, 12:40:57

Hi,

bin mal kurz durch die letzten SEiten durchgewühlt.

Wie ist jetzt der aktuelle Stand?

GP102 (Top-Dog) spätestens November?
GP104 Mitte des Jahres?

DerVengeance

2016-02-18, 15:46:07

Ich denke, dass die Pascal GPUs alle ungefähr 2 Jahre nach ihren Maxwell Pendants erscheinen. Also in diesem Jahr kommt noch der Performance Chip und im nächsten Jahr dann Highend und Midrange

Nakai

2016-02-18, 16:07:42

ICh erwarte Big-Pascal auch nicht so schnell für Consumer. Man wird erstmal die ganzen HPC-Verträge bedienen.

GP104 wird es erstmal für Consumer geben, mit etwa ~GM200-Performance+.
Mehr sollte man sich vorerst nicht einbilden.

Ist GP100 etwa 500mm² groß und hat HBM2, dann könnt ihr euch die Kosten ausmalen. Unter 1000€ wird das Ding erstmal nicht auf den Markt erscheinen.
Dementsprechend gehe ich von einem GP102 mit nur zwei HBM2-Stacks und kleinerer Diesize aus. Nochmal, wenn GP100 für Consumer nicht erträglich ist, wieso ihn mit Rasterizer und anderer FF-Logik für Graphics ausstatten? GP102 sieht verdächtig nach einem Consumer-Highend-Brocken aus.

Thunder99

2016-02-18, 16:27:44

Wenn sich einer das leisten kann dann nvidia, never AMD in seiner derzeitigen wirtschaftlichen Lage!

Zettabit

2016-02-18, 17:55:55

Wenn man dieses Jahr in größeren Mengen die HPC bedient - dann kann man auch mit einem beschnittenen Chip die Consumer als Titan bedienen, um den "Abfall" los zu werden.

Godmode

2016-02-18, 17:58:19

Wenn man dieses Jahr in größeren Mengen die HPC bedient - dann kann man auch mit einem beschnittenen Chip die Consumer als Titan bedienen, um den "Abfall" los zu werden.

Oder man verkauft wieder zuerst Mainstream als Highend: 2016 GP104 und 2017 GP102, falls GP100 wirklich HPC vorbehalten ist.

kdvd

2016-02-18, 18:44:17

Oder man macht beides.

GP104 als x70er & x80er -Ti mit GDDR5 im Sommer, und im Okt./Nov. zwei beschnittene Big Pascal als x80Ti und neue Titan (2016).

Die 80er -Ti wird ne Idee schneller als eine 980Ti heute.
Die x80Ti dann nochmal +25% und die Titan 2016 +35% schneller.

Ein gutes Pferd und so, ihr kennt den Spruch.

N0Thing

2016-02-18, 19:00:17

Sofern AMD nicht die Preisstruktur von Nvidia stört, spricht nichts dafür, dass Nvidia von ihrer inzwischen etablierten Methode abweicht.
Für HPC wird der GP100 als Tesla ausgeliefert, der GP104 ersetzt die 980Ti und Titan X mit etwas mehr Performance und später folgt GP100 als Quadro und nächstes Jahr dann als Titan XY. Eine Ti folgt dann, wenn die Verkäufe der Titan zurück gehen und man genug Chips für einen Launch zusammen hat. Und dazwischen und danach gibt es evtl. noch Ergänzungen von kleineren Chips aus der Pascal Familie.
GP102 würde ich erst deutlich später erwarten, wenn man nochmal etwas Performance nachschieben muss. Sollte GP100 wirklich nur als Tesla kommen, dann auch früher, ich halte es aber für unwahrscheinlich, dass sich dies für Nvidia rechnen würde.

Ailuros

2016-02-18, 19:21:39

Na ich will hoffen dass wo immer sie GDDR5X benutzen, dieser nicht durch Knappheit irgend etwas aufhaelt,

Hübie

2016-02-18, 19:58:43

Wieso geht eigentlich jeder davon aus, dass GDDR5X knapp sein wird? :confused: Weder das Herstellungsverfahren, noch die Kapazität ist knapp. Das ist simpler DRAM (auf die Zellen bezogen).

Godmode

2016-02-18, 20:06:03

Wieso geht eigentlich jeder davon aus, dass GDDR5X knapp sein wird? :confused: Weder das Herstellungsverfahren, noch die Kapazität ist knapp. Das ist simpler DRAM (auf die Zellen bezogen).

Frage ich mich auch die ganze Zeit. Vor allem wird niemand so blöd sein, was zu bestellen, was dann nicht lieferbar ist.

Hübie

2016-02-18, 20:10:18

Die Nachfrage bestimmt letztendlich die Kapazität, denn es ist alles fertig. Ist ja nicht so dass da erst Masken usw. neu aufgelegt werden müssen.

Dural

2016-02-18, 21:04:37

Vorallem die gpus sicher auch mit gddr5 kompatibel sind.

Hübie

2016-02-19, 00:15:02

GDDR5X hat ja wie gesagt einen fallback auf GDDR5. Dann wird das Interface auch gar nicht so stark modifiziert sein.
In manchen Köpfen ist noch drin, dass es working silicon ist über das wir sprechen... Speicher entwickelt sich nicht in einer Simulation und wird dann einfach nicht produziert. ;)

Ailuros

2016-02-19, 06:09:41

Hat sich etwas an der Projektion fuer die GDDR5x Massenproduktion geaendert?

Hübie

2016-02-19, 11:46:19

Nö. Aber es wurde ausdrücklich gesagt, man habe bereits working silicon und dies bedeutet, dass alles ready to rumble ist. DRAM hat idR hohe yieldrates und sollte schon bei einigen 1000 Stk pro Tag schnell die Rampe hochschießen. ;)

AffenJack

2016-02-19, 11:46:21

Hat sich etwas an der Projektion fuer die GDDR5x Massenproduktion geaendert?

Mitte des Jahres, also auf Karten im Herbst.

Ailuros

2016-02-19, 11:59:38

Mitte des Jahres, also auf Karten im Herbst.

Hilft aber nicht wenn ein GP104 mit 5X besser auskommen wuerde und diese schon Anfang Sommer theoretisch produziert werden koennte.

Thunder99

2016-02-19, 12:14:45

Hmm, evt auch GQDR5X für GP106? Man bleibt dann bei 128bit Interface :D Oder ist es schon sicher das HBM für GP104 kommt? Für GP100/102 sollte es ja klar sein

AffenJack

2016-02-19, 12:17:23

Die Produktionszeit für GDDR5X wird geringer sein als bei 16FF GPUs. Diese brauchen 3 Monate vom Wafer zum Chip. Daher wenn beides gleichzeitig in Produktion geht passt das schon. Nach Abschluss der Waferproduktion dann noch 1 Monat für Kartenproduktion und Verteilung.

Ailuros

2016-02-19, 12:21:08

Ich Dackel dachte wir wuerden schon Mitte Jahres GPUs auf Regalen sehen :freak:

Godmode

2016-02-19, 12:35:53

Ich Dackel dachte wir wuerden schon Mitte Jahres GPUs auf Regalen sehen :freak:

Schön wärs, vor allem ist jetzt schon länger nichts neues mehr vorgestellt worden. 980Ti müsste bei NV das letzte Produkt gewesen sein. Alles unter der 970 zählt für mich sowieso nicht.

scully1234

2016-02-19, 12:49:51

Alles unter der 970 zählt für mich sowieso nicht.

Das ist aber nicht Gesellschaftskompatibel :tongue:

Ailuros

2016-02-19, 13:26:44

Ein sehr schoener Post bei B3D:

https://forum.beyond3d.com/posts/1895652/

Problem is with the initial run of Finfet the limiting factor is easily going to be yields, not power. The fmax curve for finfets is so sharp that trying to drum up power efficiency doesn't get you much, increasing the frequency is going to hit you with a bad exponential power curve no matter what you do. Though funny enough this is also going to apply to trying increase density, as efficiency versus frequency drops off the other way as well. So you can produce a huge die and run at lower frequency, but with efficiency dropping off exponentially the other way you're not going to get much that way either.

Really with such a sharp curve the efficiency use of hardware EG output v. frequency would be the best optimization you could expect for the current gen of finfets, and perhaps future ones as well. And yes, if you "phrase that right" it might sound like power efficiency and output efficiency are the same thing. But while they're linked, you can still concentrate on getting less power draw v frequency in ways that don't necessarily output more useful work (think IPC) per clock cycle, which is exactly what Nvidia did with Maxwell and let them run at high frequencies on 28nm. But that's less useful on finfet.

Still, it brings up the question of what TDPs the first Finfet GPUs can hit. There is still wiggle room within the curve, so while power efficiency gains are a bit less useful it certainly isn't useless.

Nur zur Erinnerung fuer diejenigen die sich zu extravagante Frequenzen von FF Prozessen erhoffen.

Nakai

2016-02-19, 13:28:13

NV kann auch nicht einfach so mal seine Lager räumen. Die Chips werden erstmal abverkauft. NV fängt damit ja schon langsam an.

Godmode

2016-02-19, 13:29:23

Das wird dann wohl wirklich für ziemliche Ernüchterung sorgen. Ich habe meine Erwartungshaltung schon ziemlich zurück geschraubt, vor allem in Hinblick auf Overclocking.

Sunrise

2016-02-19, 13:45:45

NV kann auch nicht einfach so mal seine Lager räumen. Die Chips werden erstmal abverkauft. NV fängt damit ja schon langsam an.
Das wird NV je nach aktueller Fertigungs-Situation aber weniger tangieren, denn AMD müsste weit schneller sein und NV kann ja relativ deutlich anhand der AMD-Aussagen antizipieren, wann es bei AMD los geht.

Wegen der Taktfrequenzen:

Wir wissen ja, dass 14nm bei GloFo wahrscheinlich sehr gut die TDP drückt, aber das wird wohl auch den Takt begrenzen, da die Dichte bei diesem Prozess auch relativ hoch ist. Also vor allem Power- und Area optimiert, damit AMD die GPU möglichst billig fertigen kann.

Da wird es spannend, wenn AMD mit einer GPU bei TSMC 16nm FF nachzieht, wie die sich im Vergleich verhält, denn die Architektur sollte identisch sein mit Ausnahme von vielleicht HBM.

Nakai

2016-02-19, 15:59:14

Das wird NV je nach aktueller Fertigungs-Situation aber weniger tangieren, denn AMD müsste weit schneller sein und NV kann ja relativ deutlich anhand der AMD-Aussagen antizipieren, wann es bei AMD los geht.

NV wird auch keine vollen Lager gefüllt mit GM200 einfach mal so abschreiben. GM200 ist etwa ein Jahr alt. Da sollte noch ordentlich Stock vorhanden sein.

Ebenso spricht es eindeutig gegen einen Consumer-Launch von GP100. Wenn wir GP100 oder irgendwas in dieser Region in diesem Jahr sehen, dann fress ich einen Besen.

Und wenn GP100 mal so 500mm² groß ist und HBM dabei hat, dann wird das Ding einfach bescheuert teuer werden. Das erstmal im professionellen Bereich zu bringen, ist verdammt intelligent. Ein voller GM200 liegt mal bei 1000€ und eine GTX980Ti auch mal bei 650€. Selbst ein Salvage GP100 würde ich niemals unter 1000€ schätzen.

NV wird wohl tatsächlich versuchen einen GP102 auf den Markt zu schmeißen, um diesen Bereich abzudecken. Der kommt aber auch nicht vor 2017.

€:
Wir wissen ja, dass 14nm bei GloFo wahrscheinlich sehr gut die TDP drückt, aber das wird wohl auch den Takt begrenzen, da die Dichte bei diesem Prozess auch relativ hoch ist. Also vor allem Power- und Area optimiert, damit AMD die GPU möglichst billig fertigen kann.

Da wird es spannend, wenn AMD mit einer GPU bei TSMC 16nm FF nachzieht, wie die sich im Vergleich verhält, denn die Architektur sollte identisch sein mit Ausnahme von vielleicht HBM.

Fiji ist bei TSMC und Fiji hat HBM. Ich denke man hat mit Fiji eine Fertigungslogistik für HBM errichtet. Ebenso ist derzeit Apple bei TSMC und Samsung der Kunde #1. Mich würde es nicht wundern, wenn Apple auf 10FF umschwenkt und Ressourcen bzgl 14/16FF freigibt, dass AMD und NV dann hier in die Kerbe gehen. Kurz, ich erwarte wirklich erst ab Q3 höheres Volumen seitens NV. AMD wählte ja GF, was ein guter Schachzug gewesen sein könnte. Dafür sind das aber eher LP-GPUs.

Und ja, ich sehe nur Vega10+HBM derzeit bei TSMC für AMD. NV wird wohl alles auf TSMC setzen und diesbezüglich erst in H2 mit ihrem Launch beginnen. Das macht auch Sinn, bzgl Maxwell. Maxwell war ein guter Refresh, zu seiner Zeit, was auch für einen späteren Launch für Pascal spräche.

Knuddelbearli

2016-02-19, 16:40:08

Ein sehr schoener Post bei B3D:

https://forum.beyond3d.com/posts/1895652/

Nur zur Erinnerung fuer diejenigen die sich zu extravagante Frequenzen von FF Prozessen erhoffen.

Interessant ich spekuliere ja schön länger bei NV sogar auf sinkende Frequenzen ( bei den Top Modellen und da vor allem bei den Haus OC Karten )

Hübie

2016-02-19, 18:49:08

Also auf erreichbare 1,5 GHz würde ich hier ebenfalls nicht tippen :D Mal zur Erinnerung: Meine machte aus dem Stand stabile und konstante 1405 MHz (gekauft, ausgepackt, eingebaut und gestaunt).

Godmode

2016-02-19, 19:03:19

Das ist aber nicht Gesellschaftskompatibel :tongue:

Naja im falle meines 4k Monitors ist eigentlich alles unter GM200/Fiji unbrauchbar, außer man dreht die Settings völlig in den Keller. Ich hoffe das sich mit GP102/GP100 das 4k Problem endlich lösen wird.

@FF+ Clocks: Ich bin echt gespannt was die Karten dann in freier Wildbahn leisten werden. In meinem Fall gilt es, eine TX @1,5~GHz zu schlagen. Wenn die Taktraten wirklich so begrenzt sein werden, wie oben geschrieben, dann könnte GP104 schon ein Problem haben, meine TX zu schlagen. Ein Upgrade erscheint erst sinnvoll, ab 30-40% Mehrleistung, IMHO. Für 4k@60Hz sollten es wohl deutlich mehr sein.

woodsdog

2016-02-19, 19:36:02

Am Ende kaufen gewisse TX Besitzer doch sowieso wieder weil NV 15% druff gepackt hat... funktionierte doch prima, funktioniert wieder. ;)

AffenJack

2016-02-19, 20:33:03

Ich Dackel dachte wir wuerden schon Mitte Jahres GPUs auf Regalen sehen :freak:

AMD vielleicht, bei Nv glaube ich nicht dran;)

Ein sehr schoener Post bei B3D:
https://forum.beyond3d.com/posts/1895652/
Nur zur Erinnerung fuer diejenigen die sich zu extravagante Frequenzen von FF Prozessen erhoffen.

Er basiert seine ganze Aussage darauf:
http://www.extremetech.com/wp-content/uploads/2016/01/Polaris3.jpg
http://www.extremetech.com/gaming/220302-amds-next-generation-polaris-gpu-architecture-unveiled

Aber nur weil AMD da die Kurve bei Finfet früher enden lässt, heisst das nicht, dass da keine Luft mehr nach oben ist und wie man sieht sollte bei gleichen Taktraten der Verbrauch schon deutlich geringer als bei 28nm sein. Finfet sieht bei mittleren Frequenzen am effizientesten aus, was Notebooks helfen sollte, aber niemand wird dran gehindert höher mit den Frequenzen zu gehen. Nach allem was man im SoC Bereich sieht, dürften die Taktraten mit Finfet ansteigen. Ich gehe von +10% aus die wir sehen werden, bei AMD tendenziell mehr, da sie bisher niedrigere Taktraten gehabt haben.

kdvd

2016-02-19, 20:59:42

Hängt die Frequenz nicht auch unter Finfet von der Packdichte ab, oder gilt das plötzlich nicht mehr?

Hübie

2016-02-20, 01:16:26

Wenn ich mal daran erinnern darf: Meine GTX 580 hatte 772 MHz und ging auf 950 MHz rauf. Eine 780 Ti hat 876 MHz und ging gerne mal auf 1200+ und eine 980 Ti hat sogar nur 1002 MHz und geht gerne mal auf 1450+ MHz.
Was gebinned wird und was der User dann machen kann sind also zwei Welten. Daran wird auch FinFet nicht viel ändern. Ich denke da an Ivy, wo die GPU ebenfalls gut zu übertakten war.

Thunderburne

2016-02-20, 01:36:16

Botcruscher

2016-02-20, 11:14:06

Hängt die Frequenz nicht auch unter Finfet von der Packdichte ab, oder gilt das plötzlich nicht mehr?

Was am Ende geht hängt von einem ganzen Korb von Entscheidungen ab. Die ganze Diskussion ist relativ fruchtlos. Was hier zählt sind die Entscheidungen der Entwickler und was diese letztendlich daraus realisieren. Aus der Ecke wird aber ganz sicher nichts leaken.

Troyan

2016-02-21, 20:04:23

http://cdn.overclock.net/a/a5/900x900px-LL-a54aa404_gp100.PNG
http://www.overclock.net/t/1591058/bitsandchips-nvidia-pascal-lineup-and-launch-dates/400#post_24917718

Kann natürlich fake sein.

AffenJack

2016-02-21, 20:09:07

Was soll daran neu sein? Dass es angeblich nen NDA gibt?

Troyan

2016-02-21, 20:09:47

Das sie HBM das erste Mal benennen.

AnarchX

2016-02-21, 20:11:11

Eine eher minder qualitative Folie, die den HBM nicht als HBM2 bezeichnet.
Die wohl ziemlich alt ist: neuere Folien sprechen ja nur von 16GB/80GB/s NV-Link. Diese Folie ist dann eher von Ende 2014/Anfang 2015.

AffenJack

2016-02-21, 20:16:43

Das sie HBM das erste Mal benennen.

Ähemm:
http://image.slidesharecdn.com/02-oberlin-slides-140925042800-phpapp01/95/how-the-end-of-moores-law-scaling-is-changing-the-machines-you-use-the-way-you-code-and-the-algorithms-you-use-19-638.jpg?cb=1411619527

http://de.slideshare.net/ultrafilter/how-the-end-of-moores-law-scaling-is-changing-the-machines-you-use-the-way-you-code-and-the-algorithms-you-use

Das haben sie schon 2014.

Troyan

2016-02-21, 20:21:40

Cool, danke. Wieder was gelernt.

scully1234

2016-02-22, 00:46:06

Wenn die Uebersetzung richtig ist, plant Lenovo schon optionale Ausstattung mit mobilen Pascal Chips beim Modell Yoga 710, das besagte Modell soll im Mai an den Start gehen

https://translate.google.de/translate?hl=de&sl=ja&tl=de&u=http%3A%2F%2Fpc.watch.impress.co.jp%2Fdocs%2Fnews%2Fevent%2F20160222_744640.ht ml

Ailuros

2016-02-22, 06:26:09

Kann auch irgend ein daemliches rebranding sein.

AnarchX

2016-02-22, 07:39:47

Andere Seiten berichten von einer 940MX.
Auf einen Maxwell@16/14nm scheint man ja diesmal zu verzichten, anders als noch bei GF117 oder GT21x als Tests für den neuen Prozess.

Ailuros

2016-02-22, 09:03:32

Timbaloo

2016-02-22, 09:13:09

Also die Option zwei Dies auf einem Interposer kam mir schon oft in Gedanken, aber für die "erste Generation" Interposer war mir das immer zu extrem. Sowas hätte ich frühestens zu einem Pascal-Refresh erwartet.

Sollte es je so sein wie Ext3h andeutet, würde es die Diskussion um GP100<->GP102 nochmal interessanter machen...

iuno

2016-02-22, 09:30:04

NVLink spricht er ja nur als Randnotiz an, im Grunde genommen geht es um ein MCM auf einem Interposer. NVLink ist ja eher PCIe Ersatz fuer mehrere Karten und/oder die Kommunikation mit der CPU gedacht. Ein MCM, das sich nach aussen wie ein einzelner Chip verhaelt, faellt dann aber nochmal eine ganz andere Klasse.
AMD hat sowas definitiv vor und dort wurde das Thema auch schon besprochen (u.A. z.B. auch die max. denkbaren Groessen fuer Interposer usw.). Denkbar ist es sicherlich, ich glaube auch, dass es irgendwann so kommt. Allerdings ist das vielleicht so aus dem Nichts mit der 1. Generation auf Interposer etwas zu frueh.
Dass "GP100" tatsaechlich etwa zwei GP102 auf einem Interposer sind, kann ich mir dagegen schlecht vorstellen. Dann laege auf dem GP102 wohl einiges brach, was fuer die Kommunikation notwendig ist. Das MCM sollte schon nach Aussen als eine GPU wahrgenommen werden, sonst kann man es wirklich auch gleich mit NVLink und ohne gemeinsamen "mega-Interposer" machen und hat dafuer weiterhin die typischen mGPU "Probleme".
edit: oder GP102 funktioniert fuer sich alleine gar nicht, sondern nur als "Slave(s)" :eek: fuer GP100 oder gar einen extra master-/balancing Chip? :D

Hübie

2016-02-22, 09:51:33

Dann musst du NVLink noch zusätzlich in die 250 Watt reinpacken. NOT gonna happen. Und ohne perfekt integrierte Logik opfert man noch mal Skalierung und somit Effizienz. Klingt nicht plausibel. 17,8 Mrd Transistoren schaffen wohl 12.000 GFLOPS wenn 8,1 ~7 GFLOPS bringen. ;)

Und nein man braucht keine 800-900 sqmm.

AffenJack

2016-02-22, 10:32:15

https://forum.beyond3d.com/posts/1895844/

Klingt mir irgendwie uebertrieben. Meinungen?

***edit: die Idee auf spekulativer Basis ist alles anderes als Neu, ich hab lediglich meine Zweifel dass NVLink dafuer wirklich geeignet ist.

Ich hoffe wir bleiben nächstes mal nicht solange auf einem Prozess, denn die Theorien die wir mittlerweile über die Leistungsfähigkeit von den Finfet Prozessen hören werden ja immer kruder. Wie kommt er darauf, dass Finfet nur bei gleicher Density wie 28nm seine Leistungsvorteile hat? Apple und andere zeigen, dass dies nicht der Fall ist und sonst kennt man doch schon Prozessumstiege und deren Leistungsangaben zu genüge. Wieso soll diesmal alles anders und unglaublich anders in den Charakteristika sein?

scully1234

2016-02-22, 10:39:29

Wenn sie an Taktpotential nicht so viel einbuesen sollte das doch machbar sein aus dem Gp100 die noetige Leistung zu pressen

In Anlehnung an Intels Finfet Prozess waren deren Haswell Chips ja auch keine wirklichen ''Taktkruecken'' nur schwer zu kuehlen im oberen Drittel

iuno

2016-02-22, 11:18:45

Ivy waren auch schon FinFET, die gingen iirc. auch noch etwas besser als Intels 14 nm (Haswell)?

Godmode

2016-02-22, 11:37:54

edit: oder GP102 funktioniert fuer sich alleine gar nicht, sondern nur als "Slave(s)" :eek: fuer GP100 oder gar einen extra master-/balancing Chip? :D

GP100 könnte dann ein GP102 + 4 Flop/s DP Co-Prozessor auf einem Interposer sein. :freak: Jetzt müsste es nur so große Interposer geben. Für mich hört sich das alles recht unwahrscheinlich ein.

Nakai

2016-02-22, 13:03:58

Womöglich hat dem guten Ext3h ein Vögelchen getweetert. Bevor man so eine Art von Chip liefert, wird man erstmal den 3D-Ballast loswerden wollen. SMs ohne TMUs, keine Rasterisierer. Das Frontend vom 3D-Ballast befreien, ergo keinen CP für Grafik, dann die Display-PHYs rausschmeißen. JE nachdem wie der Interconnect zum Speicher läuft, auch die ROPs entfernen...etcetcetc

Wer sich einen modernen Die einer GPU anschaut, merkt schnell, wieviel man dadurch sparen könnte. Und alles kostet Energie und man würde damit die Energie-Charakteristika deutlich beeinflussen können. Und viel wichtiger ist auch die Flächeneinsparung.

Dural

2016-02-22, 13:51:44

Vor allem diese Gerüchte seit gefühlten 10 Jahren immer wieder auftauchen :rolleyes:

Wenn man zwei Dies zusammen klebt hat das in der regel nur einen Grund, man hat aktuell nichts besseres und ist im Rückstand gegenüber der Konkurrenz. Besser war es noch nie! Zudem ich starke Zweifel habe ob es in grösseren Stückzahlen überhaupt wirtschaftlich wäre.

iuno

2016-02-22, 14:02:22

Jetzt müsste es nur so große Interposer geben. Für mich hört sich das alles recht unwahrscheinlich ein.
Das hatte ich ja auch angesprochen

Vor allem diese Gerüchte seit gefühlten 10 Jahren immer wieder auftauchen :rolleyes:

Wenn man zwei Dies zusammen klebt hat das in der regel nur einen Grund, man hat aktuell nichts besseres und ist im Rückstand gegenüber der Konkurrenz. Besser war es noch nie! Zudem ich starke Zweifel habe ob es in grösseren Stückzahlen überhaupt wirtschaftlich wäre.

Aber jetzt hat man erstmals sowieso einen si-Interposer fuer den HBM. Da war es wohl noch nie so 'einfach', die Chips breitbandig miteinander zu verdrahten.
Ich denke bei so einem Monster steht die Wirtschaftlichkeit ausser Frage, Sofern das stacking auch funktioniert, da ja der Preis auch entsprechend ausfaellt. Ein einziger riesiger Chip ist schliesslich auch nicht billig und erzeugt mehr Ausschuss. Der Interposer ist eh da, muss halt etwas groesser werden, bei der Strukturbreite laesst das aber nicht die Kosten explodieren.

Godmode

2016-02-22, 14:30:03

Das hatte ich ja auch angesprochen

Eine Frage die sich mir auch noch stellt: Gewinnt man überhaupt was durch zwei Chips, außer vielleicht bessere Yields, weil die Dies kleiner ausfallen können? Ich muss dann nämlich entweder in beiden Chips einen eigenen Speichercontroller haben und auch ein entsprechendes Cache-Kohärenz Protokoll. Wenn nur ein Chip einen Speichercontroller hat, müssten die beiden Chips sehr breit miteinander verbunden sein. Ich weiß nicht wie sich so ein Gespann und die dazugehörige Kommunikation über den Interposer auf die Energieeffizienz auswirken würde.

IMHO kommen die wildesten Gerüchte immer dann, wenn sonst gerade nichts zum Spekulieren da ist.

iuno

2016-02-22, 14:40:02

Ja, da wird es hauptsaechlich um yields gehen bzw. sogar um "resultierende" Chipgroessen, die sich auf normalem Wege gar nicht realisieren lassen (wobei dann ja der/die :ulol: Interposer zum Problem wird). Haette man ein 'base'/master Chip (mit PCIe, Display, CP, ...) und 1-n 'slave' Chips (SPs, SI, ...), koennte man damit eine ganze Produktreihe auflegen, muesste dafuer trotzdem insgesamt weniger Chips auflegen und koennte da wieder was sparen. Aber das ist denke ich noch ganz leise toenende Zukunftsmusik oder gar komplettes Wunschdenken ;)
Irgendwas wird aber dran sein, sonst wuerde AMD nicht in diese Richtung Ueberlegungen anstellen (sofern diese Infos ueberhaupt stimmen). Wobei es da wohl erstmal auch um APUs geht...

Hübie

2016-02-22, 14:58:35

Godmode

2016-02-22, 16:08:47

Im Grunde ist eine GPU modular. Die VCE z.B. im Fermi kam gar nicht von nVidia. Wie das heute ist weiß ich nicht. Aber etliche Technologien kommen nicht nur aus der Feder der inhouse Designer. ;)
Wie man allerdings einem separaten Chip voller ALUs mit einem seelenlosen Chip voller Logik verheiraten will ist mir dabei nicht klar. Zumal man doch bei AMD sieht was bei raus kommt wenn Front- und Backend nicht skalieren.

Das ist uns schon klar. Uns ging es einzig darum, den Die kleiner zu bekommen, ohne die Leistung zu verlieren. Also statt einem 500mm2 Chip, hätte man dann zwei mit 250mm2 oder vier mit 125mm2. Wenn man es irgendwie hinbekommen würde, dass die Inter-Chip-Kommunikation nicht total aufwendig wäre und die Energieeffizienz kaputt machen würde, wäre das wohl eine sehr elegante Lösung.

Ich denke aber, dass das alles noch Zukunftsmusik ist.

Locuza

2016-02-22, 16:17:34

Im Grunde ist eine GPU modular. Die VCE z.B. im Fermi kam gar nicht von nVidia. Wie das heute ist weiß ich nicht.
VCE kenne ich als Abkürzung für die Video Encoder bei AMD.
Ist etwas anderes gemeint oder eine klassische Hübie-Verwechslung? ;)

Hübie

2016-02-22, 16:47:29

Damit ist allgemein Videoencoder gemeint ;) Mir fiel der Name nicht ein.

@Godmode: Du hast da eh ein komplexes Netzwerk. Bei AMD sogar "schlimmer" als bei nVidia. Ich bezweifel dass man das so einfach modifizieren kann.

Ailuros

2016-02-23, 06:15:12

Ich hoffe wir bleiben nächstes mal nicht solange auf einem Prozess, denn die Theorien die wir mittlerweile über die Leistungsfähigkeit von den Finfet Prozessen hören werden ja immer kruder. Wie kommt er darauf, dass Finfet nur bei gleicher Density wie 28nm seine Leistungsvorteile hat? Apple und andere zeigen, dass dies nicht der Fall ist und sonst kennt man doch schon Prozessumstiege und deren Leistungsangaben zu genüge. Wieso soll diesmal alles anders und unglaublich anders in den Charakteristika sein?

Mir faellt es schwer den Prozess-relativen Teil zu glauben; mich interessiert hauptsaechlich die stacked die These. Nuechtern gesehen klingt es mir noch viel zu frueh, aber fuer die Zukunft sehe ich als Laie momentan keinen anderen Ausweg.

Hübie

2016-02-23, 07:22:47

Das geht nur mit ULP, da die Abwärme sonst durch den kompletten Die diffundiert. Es gibt Ansätze mit Minikapillaren so etwas zu dämpfen bzw. dadurch mehr Spielraum zu erhalten, aber marktreif halte ich davon noch keinen Ansatz (nicht verwechseln mit technisch ausgereift).

Ailuros

2016-02-23, 07:54:54

Hübie

2016-02-23, 08:34:40

Ich zweifel vorweg schon an der Sinnhaftigkeit bei GPUs solche Maßnahmen ergreifen zu müssen. Bei ASIC kann es mal sein, wenn Platz bzw. Volumen wichtig ist (Luft- und Raumfahrt oder Robotik).

reaperrr

2016-02-23, 21:19:06

Ich halte das mit den zwei Chips für Quark.

Für sehr, SEHR viel wahrscheinlicher halte ich, dass NV mit Pascal wieder zum superskalaren Ansatz von Consumer-Fermi und Kepler zurückkehrt, also pro SM wieder 192 ALUs verbaut, von denen 64 software-seitige Optimierungen brauchen um voll ausgelastet zu werden.

Dann würden nämlich z.B. 32 Shader-Module in 8 GPCs reichen um auf 6144 ALUs zu kommen, man bräuchte also von allem anderen außer eben den ALUs nur 33% mehr. So ließen sich 100% mehr ALUs in grob geschätzt vielleicht ~50% mehr Transistoren unterbringen.
Das würde vor allem auch die kolportierte 1:3 DP-Rate erklären, die ist bei 128 ALUs pro SM rein rechnerisch nämlich gar nicht möglich.

ndrs

2016-02-23, 21:44:28

reaperrr

2016-02-23, 22:04:32

Was hat denn die ALU-Zahl mit der DP-Rate zu tun? Wenn ich bei 128 ALUs pro SM nun 48 dedizierte DP-ALUs reinpacke oder alternativ die dreifache Zeit für einen Loop benötige geht das selbstverständlich.
128 / 48 ist nicht 3.

Das mit den Loops mag theoretisch gehen, hat es bisher bei Grafikkarten aber noch nicht gegeben (jedenfalls nicht im Verhältnis 1:3), daher halte ich etwas bereits dagewesenes wie den Kepler-Ansatz einfach für wesentlich wahrscheinlicher.

ndrs

2016-02-23, 22:52:26

128 / 48 ist nicht 3.

Äh, ja. Brainfart :D

Leonidas

2016-02-24, 04:24:59

Allerdings ist das DP/SP-Verhältnis von 1:3 auch nirgendwo festgeschrieben. Es kann auch ein ungerader Teiler sein, wie 1:3,18 oder 1:2,89 .... wir wissen ja letztlich nur: Grob 4TF DP und grob 12TF SP. Die Zahlen selber wurden so grob angegeben, das niemand genau sagen kann, das da ein perfekter Teiler von 1:3 herauskommen muß.

Sprich: Zum derzeitigen Stand sind Shader-Cluster mit 128 SE und (beispielsweise) 48 DP-SE weiterhin noch möglich.

Hübie

2016-02-24, 08:29:34

Dann setzt das unterschiedliche Taktdomains voraus. Ob das sinnvoll ist weiß ich gerade nicht da man so jedoch vollständig power gaten könnte.

Complicated

2016-02-25, 02:57:47

https://forum.beyond3d.com/posts/1895844/

Klingt mir irgendwie uebertrieben. Meinungen?

***edit: die Idee auf spekulativer Basis ist alles anderes als Neu, ich hab lediglich meine Zweifel dass NVLink dafuer wirklich geeignet ist.
Ich möchte eine weitere Überlegung hinzufügen:
Pascal und HBM werden eigentlich immer nur in Zusammenhang mit NVlink erwähnt durch Nvidia. Daher könnte es sein, dass nur der GP100 Stacked-RAM erhält und dieser auch nur für HPC gebaut wird.
http://www.planet3dnow.de/vbulletin/threads/422742-Warum-ist-Nvidias-Performance-Watt-besser?p=5022012&viewfull=1#post5022012
2013 ist allerdings ca. 2 Jahre nachdem AMD mit HBM angefangen hat zu entwickeln. Dies hat 2011 angefangen.
Das passt zeitlich zur kompletten Umkrempelung der Roadmap:
http://www.heise.de/newsticker/meldung/Nvidia-Entwicklung-gebremst-Volta-wohl-noch-vor-2020-2160743.html
Die Entwicklung von Maxwell gleicht dabei einer Leidensgeschichte: Ursprünglich wurde die GPU im Jahr 2010 für 2013 angekündigt. Im Januar 2011 versprach Nvidias General Manager Michael Rayfield, dass Maxwell-Grafikchips sogar integrierte ARM-Rechenkerne (http://www.heise.de/newsticker/meldung/Nvidia-bestaetigt-Auf-Maxwell-GPUs-sitzen-auch-ARM-Prozessorkerne-1172923.html) mitbringen sollen. Dann kam 2013 der Umschwung: schließlich sollte erst Volta (http://www.heise.de/newsticker/meldung/GTC-2013-ARM-Kerne-auf-Desktop-GPUs-erst-ab-Volta-1826893.html) integrierte ARM-Kerne bieten und Maxwell erst 2014 statt 2013 herauskommen, aber mit Unified Virtual Memory und aus der 20-nm-Fertigung. Nun bieten die ersten "Maxwell"-Abkömmlinge nichts von alledem, arbeiten aber immerhin effizienter.
Vor dieser Umstellung war Volta mit 3D-Stacking in der Roadmap verzeichnet. Und diese Präsentation aus dieser Zeit spricht ausschließlich über HMC und kein Wort über HBM bei der Volta-basierenden 3D-Stacking Technologie: http://icpp2013.ens-lyon.fr/GPUs-ICPP.pdf
Edit: Das obige Foto ist übrigens in dem PDF enthalten und zeigt HMC. Auf Seite 20 zu finden und auf Seite 23 wird es detaillierter als HMC beschrieben.

Das ist auch der Grund warum Volta nach hinten verschoben wurde und nicht weil Nvidia auf HBM2 wartet - sie haben auf das falsche Pferd gesetzt, oder wie soll es erklärbar sein, dass nun ca. 18 Monate keine neue GPU mehr kommt von Nvidia?
Das wiederum könnte bedeuten, dass Nvidia für alles was in den Desktop kommen soll eine kostengünstigere Variante gewählt hat und für GP104 und abwärts GDDR5X als ausreichend erachtet. Erscheint mir eine passende Strategie zur Überbrückung bis Volta mit HMC.

Ailuros

2016-02-25, 06:46:21

Dieser Ext3h Kerl bei B3D weiss wo es langgeht oder er spekuliert nur aus seinem Hintern. Sonst koennte er sich nicht so "sicher" sein dass Pascal tape outs auf 16FF und nicht 16FF+ waren.

AffenJack

2016-02-25, 08:16:31

Dieser Ext3h Kerl bei B3D weiss wo es langgeht oder er spekuliert nur aus seinem Hintern. Sonst koennte er sich nicht so "sicher" sein dass Pascal tape outs auf 16FF und nicht 16FF+ waren.

Hintern, schau doch auf seine Argumente. Er sagt 16FF+ wurde beim Tapeout noch nichtmal angekündigt und deshalb muss es 16FF sein. Er hat keinen Plan.

Ailuros

2016-02-25, 08:26:43

Hintern, schau doch auf seine Argumente. Er sagt 16FF+ wurde beim Tapeout noch nichtmal angekündigt und deshalb muss es 16FF sein. Er hat keinen Plan.

Siehe meinen Post@B3D; ich hab Nebu gebeten den Ausschnitt aus seinem Artikel aufzuklaeren und er wird sich wohl auch bald dazu melden. Hoechstwahrscheinlich wurde und wird unter 16FF gar nichts hergestellt.

Hübie

2016-02-25, 08:56:07

Kannst du das mal bitte verlinken :) Bin am Blödphone. Zu fummelig X-D

Ailuros

2016-02-25, 09:03:33

Kannst du das mal bitte verlinken :) Bin am Blödphone. Zu fummelig X-D

https://forum.beyond3d.com/threads/nvidia-pascal-speculation-thread.55552/page-16

....Du mit Deinem Maeusekino :P

***edit: Andrei/Nebu meldete sich ziemlich schnell https://forum.beyond3d.com/posts/1896176/ ;)

Sunrise

2016-02-25, 10:58:08

***edit: Andrei/Nebu meldete sich ziemlich schnell https://forum.beyond3d.com/posts/1896176/ ;)
Hatte TSMC ja auch bekannt gegeben. Im Grund war B3D die einzige Quelle für 16FF, und das muss noch nichtmal falsch gewesen sein, weil das wohl noch im Wandel in Richtung 16FF+ war (aufgrund der gigantischen Volumen, die SoC-Hersteller bei TSMC angefragt hatten). Wichtig ist, dass man bei NV anscheinend auch intensiv Zeit investiert, dass sie von den Yield-Verbesserungen auf 16FF+ profitieren und deshalb wohl auch mehrere Revisions von GP100 nötig werden, denn 16FF+ war ja anscheinend erst frühestens im August auf diesem endgültigen Stand und Optimierungen fließen ja in der Regel sowieso hauptsächlich nur noch in die genutzten Prozesse, nicht in welche, die keine Kunden haben.

Wenn GP100 sowieso nicht für Endkunden kommt und man GP102 als zweite GPU im absoluten High-End baut, dann erwarte ich da für Endkunden aber vor 1H/2017 nichts. Im April werden wir allerdings sicherlich stark geteasert, das wäre sonst kontraproduktiv für NV.

Von AMD rechne ich auch nicht mit derart großen GPUs bis Ende 2016, das wäre wirklich überraschend.

Ailuros

2016-02-25, 11:16:51

Ausser ich hab irgend etwas verpasst tauchte in Zauba transports nichts bis jetzt auf dass einem GP102 entsprechen wuerde. Wenn etwas in der Richtung erscheinen sollte kann man halt ~6 Monate zurueckrechnen fuer dessen moeglichen tapeout.

Das Zeug mit den tapeouts ist auch eine ziemlich daemliche Geschichte die zu oft falsch verstanden wird. Nur zur Erinnerung und es steht natuerlich offen fuer moegliche Fehler:

* Wenn NV engineering "design done" behauptet, dann ist A0 silicon fehlerfrei.
* "tape out" steht fuer A1 silicon.
* design done ---> mass production (ohne zusaetzliche spins) = 9-10 Monate (bei FF Prozessen kommen noch ein paar Wochen dazu).
* metal spins = +3-4 Monate fuer jeden spin zusaetzlich zum vorigen

Wenn jetzt jemand "tape out" fuer einen GeForce chip hoeren sollte, waere es angebraucht zu fragen ob "design" gemeint wird oder nicht, denn es kommt je nach Fall mal so oder so rueber ;)

scully1234

2016-02-25, 12:04:43

Ist da doch was dran mit den Notebookchips
http://www.pcgameshardware.de/Nvidia-Pascal-Hardware-261713/News/Veroeffentlichung-Computex-Gaming-Notebooks-1187262/

Ailuros

2016-02-25, 12:12:41

Ist da doch was dran mit den Notebookchips
http://www.pcgameshardware.de/Nvidia-Pascal-Hardware-261713/News/Veroeffentlichung-Computex-Gaming-Notebooks-1187262/

Sollte die 16-nm-Fertigung für Probleme sorgen, sei eine Verschiebung oder ein Paper-Launch wahrscheinlich.

ROFL :biggrin: ....da brauch ich nicht wirklich weiterlesen ;)

Hübie

2016-02-25, 12:19:11

https://forum.beyond3d.com/threads/nvidia-pascal-speculation-thread.55552/page-16

....Du mit Deinem Maeusekino :P

***edit: Andrei/Nebu meldete sich ziemlich schnell https://forum.beyond3d.com/posts/1896176/ ;)

:P DANKE!

Vom metal spin gehe ich nicht aus, da dies base layer sind und schon grob fahrlässig wäre. Okay neue rules, neuer Prozess. Aber bei der Expertise die man jetzt schon hat... Hm. Man hat Maxwell ja schon in 20 nm und 16 FF lehnt sich in puncto dual pattering ja daran an.
Aber okay, dass ist Stochastik. :D

Mandalore

2016-02-26, 14:57:08

AffenJack

2016-02-26, 15:07:46

Wir stehen jetzt eigentlich kurz vor Pascal und Polaris.

Kann mir einer erklären wieso Volta damals verschoben wurde, da dieser eigentlich alles bieten sollte, was heute Pascal anbieten wird. Was wird an Volta so besonders sein im Vergleich zu Pascal? Oder wird Pascal was "komplett" Neues und Volta dementsprechend einfach darauf aufbauen und Verbesserungen mitbringen?

Grüße:smile:

Maxwell war mal als 20nm Design geplant und Volta dann als "echtes" 16nm Design. Nun wurde Maxwell aber auf 28nm gebracht aufgrund der Prozessverschiebung. Bei Volta ist unklar ob dieser auf den 10nm Prozess (der dem früheren 16nm entspricht) kommt oder noch auf 16FF. Wenn er erst auf 10nm kommt, dann mag die Architektur und die Features einfach mehr Platz brauchen, weshalb man beim ursprünglichen Node bleibt. Bei Volta erwartet man große Veränderungen. Pascal dagegen scheint eher eine leichte Evolution von Maxwell zu sein. Aber genaueres weiß man natürlich nicht bisher.

Nakai

2016-02-26, 15:18:08

Haha, wenn das stimmt mit dem Canceln des 16FF-Prozess. Ein paar Gedanken meinerseits:

- alle NV-Chips bei TSMC sind 16FF und keine 16FF+, was die Effizienzvorteile bei Packdichte und den Stromverbrauch nicht komplett auslastet. Ob die Chips für die Tonne sind, glaube ich nicht.

- AMD ist bedingt in die Falle getappt, wenn man den Change von Greenland auf Vega10 anschaut.

- GP102 macht dann auch wieder mehr Sinn, aus vielen Gründen. Entweder ein GP100 unter 16FF+, weil GP100 unter 16FF ist. Oder Volta wird der erste 16FF+ Chip für NV. Falls NV in die 16FF-Falle getappt ist, gibt es einen Refreshzyklus unter 16FF+.

- GP100 könnte ein MCM sein. Dann wäre die Ratio bzgl DP:SP-1:3 gut möglich. Ich halte es für eine nicht naheliegende Möglichkeit.

- Wenn Polaris bei GF/Samsung gefertigt ist, dann kommen die Chips sehr bald (1~3 Monate)

bananenmann

2016-02-26, 15:27:29

iuno

2016-02-26, 15:50:48

Dazu gibt es nichts neues. Ich glaube nicht, dass Pascal etwas in der Art wie ACEs hat.
Fatal waere daran aber erstmal gar nichts, Nvidia bleibt ja konkurrenzfaehig. Man muss sich im klaren sein, dass eine 980 Ti immer noch klar in der Naehe einer Fury X liegt, obwohl die Fury 45% mehr SPs hat. Gut, die Ti wiegt einiges davon an Takt auf aber wenn eine Fury X auch mal schneller sein kann als die Ti, ist das nur normal.
Und es ist ja moeglich, dass Nvidia frueher grosse Chips raus haut als AMD. Das bleibt abzuwarten. Jedenfalls gibt es keinen Grund zur Panik

AffenJack

2016-02-26, 16:04:42

Haha, wenn das stimmt mit dem Canceln des 16FF-Prozess. Ein paar Gedanken meinerseits:

- alle NV-Chips bei TSMC sind 16FF und keine 16FF+, was die Effizienzvorteile bei Packdichte und den Stromverbrauch nicht komplett auslastet. Ob die Chips für die Tonne sind, glaube ich nicht.

Oh Gott, wie kommst du denn wieder darauf. 16FF ist schon sehr lange tot und zwar vor allem weil die ganzen Kunden kein 16FF haben wollten und dieses zu schlecht war. Deshalb hat TSMC 16FF abgesägt. Aber NV wird da früh genug informiert worden sein, ebenso wie andere Kunden, falls sie denn überhaupt mit 16FF geplant haben. Und nein, es gibt keinen Refreshzyklus von 16FF auf 16FF+. 16FF ist schlicht nicht existent.

Nakai

2016-02-26, 16:20:50

Oh Gott, wie kommst du denn wieder darauf. 16FF ist schon sehr lange tot und zwar vor allem weil die ganzen Kunden kein 16FF haben wollten und dieses zu schlecht war. Deshalb hat TSMC 16FF abgesägt. Aber NV wird da früh genug informiert worden sein, ebenso wie andere Kunden, falls sie denn überhaupt mit 16FF geplant haben. Und nein, es gibt keinen Refreshzyklus von 16FF auf 16FF+. 16FF ist schlicht nicht existent.

Selbstverständlich ist 16FF tot. Das steht außer Frage. Und kein Pascal-Chip bei NV ist ein 16FF-Chip. Die kommen alle über den 16FF+-Prozess.

PHuV

2016-02-26, 16:48:12

Oh Gott, wie kommst du denn wieder darauf. 16FF ist schon sehr lange tot...
Definiere "lange". :confused:

bananenmann

2016-02-26, 17:32:16

@iono
Kennst Du noch nicht die neuen Benchmarks von Ashes Of Singularity? Die Fury X zieht der 980ti um 25% davon und ne Radeon 380x ist so schnell wie die 100 Euro teurere 970er. Ich fürchte das wird mit DX12 kein Einzelfall...

AffenJack

2016-02-26, 17:40:55

Selbstverständlich ist 16FF tot. Das steht außer Frage. Und kein Pascal-Chip bei NV ist ein 16FF-Chip. Die kommen alle über den 16FF+-Prozess.

Dann verstehe ich deine merkwürdigen Theorien von wegen GP100 ist auf 16FF und Volta wird ein 16FF+ refresh usw noch weniger.

Definiere "lange". :confused:

Mehr oder weniger öffentlich angekündigt wurde es Herbst 2014. Jetzt nicht richtig, aber es war der Grund für die Finfet Produktionsverschiebung von Q1 2015 auf Q3 2015. Du kannst von ausgehen, dass die Hersteller es früher wussten. Also zu einer Zeit wo GM200 gerade mal sein Tapeout hatte. So richtig offiziell hat TSMC den Tod von 16FF nie gemacht, deswegen ja sogar hier noch die Unsicherheiten. Aber es ist einfach schlechtes Marketing, wenn ein Prozess gecancelt wird, weil niemand diesen haben will. Nvidia und alle anderen wussten da schon, dass TSMC einen zweiten Prozess haben wird, der besser sein soll. Dementsprechend gehe ich auch eher von aus, dass man relativ früh auf 16FF+ geplant hat.

Godmode

2016-02-26, 17:42:56

Kennst Du noch nicht die neuen Benchmarks von Ashes Of Singularity? Die Fury X zieht der 980ti um 25% davon und ne Radeon 380x ist so schnell wie die 100 Euro teurere 970er. Ich fürchte das wird mit DX12 kein Einzelfall...

Und wo siehst du hier ein Problem? Es wäre wünschenswert, wenn AMD wieder mal einen Volltreffer landen würde. NV war jetzt die letzten Jahre immer vorne, also wäre ein Führungswechsel wieder mal angebracht.

Hübie

2016-02-26, 17:50:18

Schaut mal in den entsprechenden Thread. War ja klar dass plötzlich alle Durchfall bekommen :rolleyes:

bananenmann

2016-02-26, 17:52:30

Ja. Es wäre schön für AMD - aber für mich Kacke. Weil ich bei NVidia bleiben will und schon deshalb gezwungenermaßen immer mehr zahle. Wenn jetzt noch nicht mal die Leistung stimmt, dann ist das Mist.

P.s.
Kein Durchfall, sondern Brechdurchfall 😅

Knuddelbearli

2016-02-26, 18:53:50

Hallo,

hab den Thread länger nicht mehr verfolgt. Gibt es vielleicht Anlass zur Hoffnung, dass Pascal Asynchronous Compute beherrschen wird? Laut meinem damaligen Kenntnisstand ist Pascal nur ein optimierter Maxwell in kleinerer Strukturbreite mit HBM (wie es jetzt ja scheint auch das nur teilweise). Demzufolge wäre die Antwort "NEIN"?

Wäre das nicht Fatal, wo AMD jetzt doch so derart hoch bei DX12 zulegt?

Bis es genug dx 12 games gibt ( die sich dann auch in Testparcours wiederfinden ) dauert es noch lange. Bis dahin haben die meisten nerds hier schon wieder neues Spielzeug, und der einfache User ist zu "dumm" zu bemerken wie er von Nv verarscht wird. Siehe 970.

Kriton

2016-02-26, 22:30:45

Triskaine

2016-02-26, 23:54:24

Screemer

2016-02-27, 00:01:13

Der interposer dafür wäre großer als die maximale belichtungsgröße bei umc, wenn denn hbm genutzt würde.

Triskaine

2016-02-27, 00:04:12

Das ist kein Problem, der Interposer ist schon bei Fiji deutlich größer als das maximale Reticle der Optik. Durch aneinandergereihte mehrfache Belichtung können für relativ einfache Strukturen prinzipiell beliebig große Chips gefertigt werden.

Screemer

2016-02-27, 00:07:27

Das ist kein Problem, der Interposer ist schon bei Fiji deutlich größer als das maximale Reticle der Optik.
Dort aber ohne Logik und ohne belichtete Strukturen. Nur der hbm steht quasi über diesen Rand über. Herstellbar ist das sicher aber kostet alles Geld.

sulak

2016-02-27, 00:26:47

Ein Nvidia Paper von der ISSCC 2016 erwähnt eine 675mm² GPU in einem 16nm Prozess. Kann sich natürlich auch um einen Testchip handeln, wobei das schon ungewöhnlich groß wäre. Leute mit IEEE Zugang können hier (http://ieeexplore.ieee.org/xpl/articleDetails.jsp?arnumber=7417954) einen Blick darauf werfen.

Auf die Größe kommt man ggf. wenn neben der GPU das HBM liegt und der Heatspreader gemessen wurde, +600mm² GPUs wird man nicht mehr sehen.

Godmode

2016-02-27, 05:01:18

Ein Nvidia Paper von der ISSCC 2016 erwähnt eine 675mm² GPU in einem 16nm Prozess. Kann sich natürlich auch um einen Testchip handeln, wobei das schon ungewöhnlich groß wäre. Leute mit IEEE Zugang können hier (http://ieeexplore.ieee.org/xpl/articleDetails.jsp?arnumber=7417954) einen Blick darauf werfen.

Wenn das stimmt, dann ist die Packdichte aber extrem niedrig. IIRC. schwirren für GP100 ja 17 Mrd. Transistoren herum. Bist du sicher, dass du das mit den 675mm2 richtig interpretierst? Für die erste Generation von 16FF+ Chips, gehen fast alle von deutlich kleineren Chips aus, verglichen mit der 28nm Fertigung.

Hübie

2016-02-27, 07:28:01

Selbstverständlich handelt es sich nicht um ein einzelnes Stück Silizium. ;) Der Die selber kommt wohl bei ~470 raus. Packdichte soll irgendwo bei 37 Mio liegen.

Spasstiger

2016-02-27, 17:37:57

Was ist eigentlich aus dem Thema Stitched Interposer, also aus mehreren zusammengesetzten Interposer-Dies geworden? So könnte man auch zwei große GPUs mitsamt 8 HBM-Stacks in einem Package inklusive extrem breiten Interconnect zwischen den Dies unterbringen. Transparentes Multi-GPU ohne SLI oder Crossfire.

Der Trick ist, dass man den Interconnect und die HBM-Interfaces z.B. auf zwei Interposer verteilt und die GPUs über die Trennstelle zwischen den Interposern hinweg platziert. Der Fertigungsprozess ist sichelich eine Herausforderung.

HOT

2016-02-27, 19:31:51

Bis es genug dx 12 games gibt ( die sich dann auch in Testparcours wiederfinden ) dauert es noch lange. Bis dahin haben die meisten nerds hier schon wieder neues Spielzeug, und der einfache User ist zu "dumm" zu bemerken wie er von Nv verarscht wird. Siehe 970.
Denke ich nicht. Schon dieses Jahr kommen ja einige namhafte Tital auf den Markt - von Hitman über QB bis Mass Effect.

dildo4u

2016-02-27, 19:42:17

Soll Pascal nich im Sommer kommen?Scheint mir ein ziemlich idealer Zeitpunkt zu sein um neue Karten zu verkaufen,es scheint noch ne weile zu dauern bis die großen Entwickler(EA,Ubisoft) auf DX12 umsteigen.Division und das neue Need for Speed kommen z.b noch mit DX11.

Knuddelbearli

2016-02-27, 20:19:46

Denke ich nicht. Schon dieses Jahr kommen ja einige namhafte Tital auf den Markt - von Hitman über QB bis Mass Effect.

Nur aktualisieren die meisten Seiten ihren Testdurchlauf ja nur jedes Jahr. Und auch dann werden seltenst die neusten Spiele genommen sondern schon solche die Fertig gepatcht sind damit sich bei Patches nichts mehr verändert. Dx12 wird man also frühestens 2017 in den Tests durchgängig sehen und selbst da werden sie nur 10-20% der Tests ausmachen. Bestenfalls!

Ailuros

2016-02-28, 19:32:41

Definiere "lange". :confused:

So lange dass es nie der Grund sein wird fuer eine moegliche Pascal Verspaetung.

Selbstverständlich handelt es sich nicht um ein einzelnes Stück Silizium. ;) Der Die selber kommt wohl bei ~470 raus. Packdichte soll irgendwo bei 37 Mio liegen.

Als ich das letzte Mal fragte bekam ich lediglich eine Schaetzung von irgendwo 35Mio/mm2, ist aber auch scheissegal da hier einfach etwas nicht stimmen kann. GM200@28HP hat eine Packdichte von fast 13.5, wobei 35Mio eine Steigerung von 2.6x enspricht und dann 37Mio von ueber 2.7x. Ich spiele schon seit Wochen mit dem Gedanken dass der die tatsaechlich etwas kleiner als 500mm2 aber in diesen einfach NICHT 17Mrd. Transistoren stecken.

HOT

2016-02-29, 09:09:51

Nur aktualisieren die meisten Seiten ihren Testdurchlauf ja nur jedes Jahr. Und auch dann werden seltenst die neusten Spiele genommen sondern schon solche die Fertig gepatcht sind damit sich bei Patches nichts mehr verändert. Dx12 wird man also frühestens 2017 in den Tests durchgängig sehen und selbst da werden sie nur 10-20% der Tests ausmachen. Bestenfalls!
Die werden das aktualisieren, wenn es notwendig ist. Denn man darf ja nicht vergessen, solche Seiten sind Presse und Presse verkauft vor allem das was Quote bringt.

Hübie

2016-02-29, 09:31:38

So lange dass es nie der Grund sein wird fuer eine moegliche Pascal Verspaetung.

Als ich das letzte Mal fragte bekam ich lediglich eine Schaetzung von irgendwo 35Mio/mm2, ist aber auch scheissegal da hier einfach etwas nicht stimmen kann. GM200@28HP hat eine Packdichte von fast 13.5, wobei 35Mio eine Steigerung von 2.6x enspricht und dann 37Mio von ueber 2.7x. Ich spiele schon seit Wochen mit dem Gedanken dass der die tatsaechlich etwas kleiner als 500mm2 aber in diesen einfach NICHT 17Mrd. Transistoren stecken.

Na wer weiß wie die Zählung ist. Gibt da viel Interpretationsspielraum. Ist mit Chip z.B. das Package gemeint? Sind mit 17,8 Mrd Transistoren der Die oder das gesamte Konstrukt inkl HBM und Interposer gemeint? Usw...
Es kann halt auch 35 und 480 sein oder 581 und 30,6 :D *verwirr*

Ailuros

2016-02-29, 09:57:26

Wie viele Transistoren koennten denn maximal ausserhalb vom eigentlichen GPU chip liegen?

Godmode

2016-02-29, 10:59:25

Wie viele Transistoren koennten denn maximal ausserhalb vom eigentlichen GPU chip liegen?

Warum sollten Transistoren außerhalb des Chips liegen? :confused:

iuno

2016-02-29, 11:23:00

HBM/MCM
bei DRAM ist das pro Bit schonmal ein Transistor. Bei 16 GiB HBM waeren also schonmal deutlich > 128 Mrd. :P Das wird das ganz sicher nicht mitgezaehlt.

Godmode

2016-02-29, 12:31:02

Eventuell meint Ailuros ja sowas wie den NVIO Chip, den es früher mal gab oder NVLINK2PCIE-Bridge. Oder könnte im Interposer Logik stecken? IMHO ist dieser du grob gefertigt, dass sich das effizienztechnisch rentieren würde.

Complicated

2016-02-29, 13:36:35

Nakai

2016-02-29, 13:56:30

Als ich das letzte Mal fragte bekam ich lediglich eine Schaetzung von irgendwo 35Mio/mm2, ist aber auch scheissegal da hier einfach etwas nicht stimmen kann. GM200@28HP hat eine Packdichte von fast 13.5, wobei 35Mio eine Steigerung von 2.6x enspricht und dann 37Mio von ueber 2.7x. Ich spiele schon seit Wochen mit dem Gedanken dass der die tatsaechlich etwas kleiner als 500mm2 aber in diesen einfach NICHT 17Mrd. Transistoren stecken.

Entweder die Packdichte ist so hoch, denn immerhin nennt GF eine sehr heftige Steigerung der Packdichte.

http://www.planet3dnow.de/vbulletin/threads/423353-AMD-s-Arctic-Islands-GPUs-Greenland-Baffin-Ellesmere?p=5070710&viewfull=1#post5070710

Und klar, dass ist ein LowPower-Prozess und es ist ein kleiner Cortex A9 ohne jegliche PHYs. Und jegliche CPU-Kerne bestehen aus viel Cache. Und selbst die PAckdichtenerhöhung bei TSMC sollte bei SRAM-Zellen um den Faktor 2,5x ansteigen.

Selbstverständlich ist das nicht auf TSMC übertragbar, aber selbst TSMC vergleicht sein 16FF immer mit 28HPM. Ich halte maximal 2,5x für denkbar.

17 Milliarden bei 480mm² sind etwa 35 Mio Transistoren/mm². Das wäre eine Packdichtenerhöhung von ziemlich genau 2,7x, wenn man von 13 Mio Transistoren/mm² für Maxwell ausginge.

Dennoch, 17 Milliarden bei 480mm² ist eine sehr positive Schätzung. Wäre es eine gute Option. wenn man jegliche PHYs und RAMDAC auf einen extra DIE , wie damals beim G80, auslagert? Da stellt sich wieder die Frage, wie groß der Interposer wird und was man technisch erreichen möchte.

Eher wird GP100 weniger Transistoren haben und die 500mm² nicht überschreiten.

Hübie

2016-02-29, 14:31:24

Es gibt neue SRAM Technologien wo man noch mal ~30% Fläche spart. Zufällig auch noch von nVidia entwickelt... Ich guck nachher mal was ich davon auf dem privaten PC habe. War ganz interessant.

Skysnake

2016-02-29, 21:08:03

Warum sollten Transistoren außerhalb des Chips liegen? :confused:
Weil du z.B. bei einem aktiven Interposer da einfach den ganzen I/O Kram unterbringen kannst, der eh beschissen skaliert mit den neuen Nodes. ;)

iuno

2016-02-29, 21:13:02

Welche Vorteile wuerden sich dadurch ergeben?
Ist es wirklich denkbar zu sagen, wo wir eh einen Interposer brauchen kann auch noch xy dort rein? Kann es dann sogar Sinn machen, den Interposer in einer kleineren Strukturbreite zu fertigen?
Oder noch was extra, keine Ahnung, vielleicht iVRMs so wie bei Haswell? :ugly:

ndrs

2016-02-29, 22:28:54

Naja, du tauscht halt teure Chipfläche im teuren Prozess gegen günstige auf dem Interposer. Ich weiß jetzt nicht wieviele Metal-Layer der Interposer hat aber das wäre ein Punkt der kompliziertere Strukturen verhindern könnte. Aber die sollten ja eh auf dem eigentlichen Chip bleiben.

Edit: und wenn es Teile sind, die sowieso nicht skalieren braucht man auf dem Interposer nicht mal wirklich mehr Fläche, denn die wird ja sowieso gebraucht wenn oben drüber ein Chip sitzen würde, der die I/O-Sachen drin hat.

Ailuros

2016-03-01, 06:46:41

Tatsächlich wird bei HBM ein großer Teil des Speicherinterfaces auf den Logic-Die des HBM-Stacks "ausgelagert" - nur wer zählt die dann noch zu einem GPU-Die?
Ich denke das war eine ironisch gemeinte Frage.

Bei Jensen und seinen jeweiligen Uebertreibungen ist es mehr als oefters tragische Ironie :biggrin: Ich hab lediglich mit dem Gedanken gespielt dass er vielleicht alles kreativ mitgerechnet hat; Sinn macht es zwar nicht, aber mir sitzen die 17Mrd einfach nicht so leicht bei so kleiner hypothetischer Flaeche.

Entweder die Packdichte ist so hoch, denn immerhin nennt GF eine sehr heftige Steigerung der Packdichte.

http://www.planet3dnow.de/vbulletin/threads/423353-AMD-s-Arctic-Islands-GPUs-Greenland-Baffin-Ellesmere?p=5070710&viewfull=1#post5070710

Und klar, dass ist ein LowPower-Prozess und es ist ein kleiner Cortex A9 ohne jegliche PHYs. Und jegliche CPU-Kerne bestehen aus viel Cache. Und selbst die PAckdichtenerhöhung bei TSMC sollte bei SRAM-Zellen um den Faktor 2,5x ansteigen.

Selbstverständlich ist das nicht auf TSMC übertragbar, aber selbst TSMC vergleicht sein 16FF immer mit 28HPM. Ich halte maximal 2,5x für denkbar.

17 Milliarden bei 480mm² sind etwa 35 Mio Transistoren/mm². Das wäre eine Packdichtenerhöhung von ziemlich genau 2,7x, wenn man von 13 Mio Transistoren/mm² für Maxwell ausginge.

Dennoch, 17 Milliarden bei 480mm² ist eine sehr positive Schätzung. Wäre es eine gute Option. wenn man jegliche PHYs und RAMDAC auf einen extra DIE , wie damals beim G80, auslagert? Da stellt sich wieder die Frage, wie groß der Interposer wird und was man technisch erreichen möchte.

Eher wird GP100 weniger Transistoren haben und die 500mm² nicht überschreiten.

13.5Mio/mm2 um genau zu sein fuer GM200 und wenn man ganz genau sein will duerfte es fast eine Steigerung von 2.8x sein ;)

Complicated

2016-03-01, 07:39:11

Naja bei Nvidia ergeben im Marketing auch 2xCPU Leistung + 3x GPU Leistung gleich 5x Mehrperformance bei Tegra. Daher warum dann nicht die Transistoren der RAMs gleich mit zählen ;) 3,5+0,5 gibt ja auch 4GB. Gelogen ist es ja nicht, nur seltsam addiert...:)

Godmode

2016-03-01, 10:51:47

Weil du z.B. bei einem aktiven Interposer da einfach den ganzen I/O Kram unterbringen kannst, der eh beschissen skaliert mit den neuen Nodes. ;)

OK verstehe. Können die PHYs in der GPU dadurch kleiner ausfallen, oder können die komplett wegfallen?

So ein aktiver Interposer würde aber wohl deutlich mehr kosten, als ein passiver? Reicht dort dann noch 65nm wie es AMD bei Fiji vormacht?

Interessant wäre in diesem Zusammenhang, dass es für GP100 zB. zwei verschiedene Interposer geben könnte:
1.) Variante HPC mit NVLINK drauf, aber ohne den ganzen Display Engine Kram
2.) Variante Gaming mit PCIe Interface + Display Engine

Nakai

2016-03-01, 13:43:30

Es könnte auch sein, dass wir deutlich mehr Caches sehen werden. Bei Maxwell ging NV schon auf 2 MB für GM107/204. Das sollte wohl nochmal ein Stück zulegen. Ein Finfet-Chip mit 250mm² und nur einem 256Bit SI wird definitiv auch schon an seine Bandbreitengrenzen kommen. GDDR5X wird das zwar etwas entzerren, dennoch wird diese Generation nur von HBM2 einen exorbitanten Bandbreitenschub erreichen. GDDR5X wird niemals die prophezeiten Bandbreitenverbesserungen erreichen, jedenfalls NICHT am Launch. Ergo wird man vieles versuchen, um die Bandbreiteausnutzung zu verbessern. Mehr und bessere Caches und bessere DCC.

Rampage 2

2016-03-02, 00:26:59

Ein Finfet-Chip mit 250mm² und nur einem 256Bit SI wird definitiv auch schon an seine Bandbreitengrenzen kommen. GDDR5X wird das zwar etwas entzerren, dennoch wird diese Generation nur von HBM2 einen exorbitanten Bandbreitenschub erreichen. GDDR5X wird niemals die prophezeiten Bandbreitenverbesserungen erreichen, jedenfalls NICHT am Launch. Ergo wird man vieles versuchen, um die Bandbreiteausnutzung zu verbessern. Mehr und bessere Caches und bessere DCC.

1.) Ich dachte, GP104 wird um die 300mm^2 Die-Fläche beanspruchen und nicht bloss 250?

2.) Sind 12Gbps immernoch zu optimistisch für GDDR5X-Launchprodukte (GP104, GP106, ...)? Immerhin hat Micron ja kürzlich behauptet, dass sie selbst überrascht darüber waren, sich dem Endziel (14-16Gbps) so früh genähert zu haben... (jetzt schon lauffähige Chips mit 13Gbps)

3.) Gibt es irgendwelche Neuigkeiten/Konkretisierungen bzgl. des Launchtermins von GP104?

R2

Ailuros

2016-03-02, 06:03:35

Selbst 11Gbps entsprechen 352GB/s Bandbreite. Entspricht einer Steigerung gegenueber einer 980 SKU von 57% stets alles auf Papier. Wieso jetzt ploetzlich ein hypothetischer GP104 weit ueber 400GB Bandbreite haben "muesste", muss mir jemand mal erklaeren.

Mortalvision

2016-03-02, 06:26:34

Wieso jetzt ploetzlich ein hypothetischer GP104 weit ueber 400GB Bandbreite haben "muesste", muss mir jemand mal erklaeren.

400Gigabit Bandbreite? Habe ich das letzte Millennium verschlafen, oder ist die TitanX mit 512 bit breiten Speicherinterface dann Alteisen? :freak:

Ailuros

2016-03-02, 06:58:51

400Gigabit Bandbreite? Habe ich das letzte Millennium verschlafen, oder ist die TitanX mit 512 bit Speicherinterface dann Alteisen? :freak:

Mal sehen bei wem der Rechner wirklich kaputt ist: wenn 7Gbps@256bit 224GB/s Bandbreite entsprechen, dann entsprechen 14Gbps@256bit genau wieviel? Ja guten Morgen....:freak:

Theoretisch wird GDDR5X womoeglich die 14Gbps mit der Zeit erreichen koennen. Micron behauptet 13Gbps schon erreicht zu haben in fruehen samples, ergo sagte ich dass selbst 11Gbps auf einem 256bit bus (352GB/s Bandbreite) ausreichen wuerden.

Hübie

2016-03-02, 07:09:30

Es ist übrigens kein Zufall dass diese Samples in München getestet wurden...

Mortalvision

2016-03-02, 07:13:33

Och Ailuros, du alter Neunmalklug und Spaßverderbniserreger :D GB ist nun mal nicht GB/s :)

Ailuros

2016-03-02, 07:35:04

Och Ailuros, du alter Neunmalklug und Spaßverderbniserreger :D GB ist nun mal nicht GB/s :)

Wenn Bandbreite direkt danach steht, dann sind so manche Sachen selbstverstaendlich. Sonst ha ha ha

Es ist übrigens kein Zufall dass diese Samples in München getestet wurden...

Bayrischer Speicher schmeckt besser? :confused:

Sunrise

2016-03-02, 07:41:33

400Gigabit Bandbreite? Habe ich das letzte Millennium verschlafen, oder ist die TitanX mit 512 bit breiten Speicherinterface dann Alteisen? :freak:
In welchem Paralleluniversum hat GM200 ein 512bit Speicherinterface?

Mortalvision

2016-03-02, 09:12:43

In welchem Paralleluniversum hat GM200 ein 512bit Speicherinterface? Ja, "nur" 384 bit. Und das mit der Bandbreite war natürlich klar, ach, ihr seid alle so nüchtern heute morgen :freak:

Spaß beiseite, bayerische Chips/Bauteile sind natürlich nicht zwangsläufig besser. Aber eine Fertigung in Deutschland/westliche Welt kann natürlich strategische Vorteile bieten, die man in China/Südostasien nicht bekommt. Zumindest ist das bei uns im Sektor Wälzlager so. Die Herrschaften in China bekommen es nur mit westlicher Anleitung auf die Reihe, auf westlichem Niveau zu produzieren, der menschliche Faktor und die kulturellen Unterschiede hauen bei bestimmten Produkten wie z.B. in AeroSpace voll rein, und da hat es in der Vergangenheit leider ab und an Abschreibungen in zweistelliger Millionenhöhe geben müssen...

Lady Edith: Ach, nur das Testen. Ich gehe dann besser mal meinen Schlafentzug auskurieren ^^