PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : nVidia - Pascal - GP100 - 2016 - 3D-Memory HBM, NVLINK, Mixed Precision


Seiten : 1 2 3 4 5 6 [7] 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26

Ailuros
2015-11-26, 11:22:35
Weiß man den wie Maxwell FP16 genau berechnet? Wird da einfach die FP32 ALU genutzt?


So sieht es bei der X1 GPU aus: http://www.anandtech.com/show/8811/nvidia-tegra-x1-preview/2

Ist es dann bei Pascal gleich oder vergleichbar, packen sie wohl auch dort identischen FP16 Befehle in Vec2 Form fuer jegliche einzige FP32 SP zusammen.

Ist so am wahrscheinlichsten, da zwei FP16 wohl mehr Datenpfade benötigen würden um eine 32 Bit Operation auszuführen. Und ein Groß ist nun mal FP32. Unsicher bin ich nach wie vor beim Thema dedizierte 64-Bit-ALUs...

Ich bin nicht der einzige der die relevante Debatte bei B3D mitverfolgt. Fuer diejenigen die es noch nicht wissen Tridam = Damien Triolet @hardware.fr. Er hat nochmal wiederholt dass er das Maxwell Diagramm so gut wie moeglich entwickelt hat mit den relativ wenigen Informationen die er dafuer von NVIDIA bekam. Er scheint sich aber sicher zu sein dass es sich nicht ueber waschreine SIMD32 ALU handelt sondern 2*SIMD16 wofuer dann: https://forum.beyond3d.com/posts/1883066/

....und dabei bin ich persoenlich schon wieder am Punkt wo ich ziemlich Bahnhof verstehe. Das einzige was ich kapiert habe ist dass das config wie im Diagramm illustriert bei wenigen FP64 SPs auch Sinn macht. Bei einer diametrisch hoeheren Anzahl von FP64 SPs innerhalb eines jeglichen clusters gibt es wohl dann ganz andere Latenz-bedingte u.a. Kopfschmerzen....

Godmode
2015-11-26, 11:30:22
Aja hier steht es sogar sehr genau:

There are several special cases here, but in a nutshell NVIDIA can pack together FP16 operations as long as they’re the same operation, e.g. both FP16s are undergoing addition, multiplication, etc. Fused multiply-add (FMA/MADD) is also a supported operation here, which is important for how frequently it is used and is necessary to extract the maximum throughput out of the CUDA cores.

http://www.anandtech.com/show/8811/nvidia-tegra-x1-preview/2

Beim normalen Desktop Maxwell wird also FP16 über die FP32 ALU berechnet, wobei dort dann nicht zwei FP16 Werte berechnet werden können, wenn ich das jetzt richtig verstanden habe. Somit ist die FP16 Berechnung auf Desktop Maxwell genau so teuer, wie eine FP32 Berechnung.

Hübie
2015-11-26, 12:58:00
Doch, aber nur wenn es die gleichen Operationen sind.

Godmode
2015-11-26, 13:03:11
Doch, aber nur wenn es die gleichen Operationen sind.

Also für mich ließt sich das so, als wäre das nur beim X1 möglich, nicht aber bei den Desktop Maxwells:

As with Kepler and Fermi before it, Maxwell only features dedicated FP32 and FP64 CUDA cores, and this is still the same for X1. However in recognition of how important FP16 performance is, NVIDIA is changing how they are handling FP16 operations for X1. On K1 FP16 operations were simply promoted to FP32 operations and run on the FP32 CUDA cores; but for X1, FP16 operations can in certain cases be packed together as a single Vec2 and issued over a single FP32 CUDA core.

Troyan
2015-11-26, 13:19:56
Nur Tegra X1 kann doppelt soviele FP16 Operationen ausführen. Erst mit Pascal kommt diese Funktion auf den Desktop.

Hübie
2015-11-26, 13:20:36
Nein. K1 konnte es nicht. Fermi und Kepler auf Desktop ebenso wenig. Maxwell kann dies, wenn der Operand gleich ist. Zumindest habe ich dies aus einigen Beiträgen von Codern so herausgelesen. 6,4 TFLOPs @FP16 hatten die gemessen. Sucht mal auf devtalk.nvidia.com...

Godmode
2015-11-26, 13:35:20
Nein. K1 konnte es nicht. Fermi und Kepler auf Desktop ebenso wenig. Maxwell kann dies, wenn der Operand gleich ist. Zumindest habe ich dies aus einigen Codern so herausgelesen. 6,4 TFLOPs @FP16 hatten die gemessen.

Mit was haben sie 6,4 TFLops gemesen? Wenn du GM200 meinst, dann erreiche ich mit dem typischen Boost von 1,075 GHz und 3072 SPs die theoretischen 6,4 TFLop/s in FP32. Ich weiß jetzt nicht was das Ding in der Praxis schafft, aber 6,4 deuten schon darauf hin, dass FP16 nur gleich schnell wie FP32 auf Maxwell Desktop ist. Wenn du recht hast, steht aber im Anand Artikel Bullshit.

Edit:

Techreport schreibt auch das Int8 und FP16 auf Maxwell Desktop nur der selben Rate wie FP32 Operation berechnet werden. Nur X1 ist anscheinend zu 2xFP16 fähig.


Nvidia's current-gen GPU architecture, Maxwell, is limited to fp32 operation, meaning that int8, fp16, and fp32 operations are all processed internally at the same rate. The Maxwell GPU in the Tegra X1 SoC adds the abillity to operate in fp16 mode, which can effectively double its throughput.

http://techreport.com/news/27978/nvidia-pascal-to-feature-mixed-precision-mode-up-to-32gb-of-ram

Dural
2015-11-26, 14:15:34
Nur der Tegra kann dies bis jetzt, NV hat das mehrfach bestätigt.

Hübie
2015-11-26, 15:14:44
Mit was haben sie 6,4 TFLops gemesen? Wenn du GM200 meinst, dann erreiche ich mit dem typischen Boost von 1,075 GHz und 3072 SPs die theoretischen 6,4 TFLop/s in FP32. Ich weiß jetzt nicht was das Ding in der Praxis schafft, aber 6,4 deuten schon darauf hin, dass FP16 nur gleich schnell wie FP32 auf Maxwell Desktop ist. Wenn du recht hast, steht aber im Anand Artikel Bullshit.

Edit:

Techreport schreibt auch das Int8 und FP16 auf Maxwell Desktop nur der selben Rate wie FP32 Operation berechnet werden. Nur X1 ist anscheinend zu 2xFP16 fähig.



http://techreport.com/news/27978/nvidia-pascal-to-feature-mixed-precision-mode-up-to-32gb-of-ram

Hatte n brainfart, vergiss es :redface:Müsste ja schon doppelte Rate sein um die Auslastung bei FP16 zu erhöhen.

Skysnake
2015-11-26, 21:13:20
Doch, aber nur wenn es die gleichen Operationen sind.
Was ja eh immer der Fall sein muss. Also egal bei welchen Operationen, weil du bei unterschiedlichem Code auf einer Wavefront ja sequenzialisierst...

Also von daher ist das keine neue Einschränkung.

Hübie
2015-11-27, 00:52:47
War aber eh im falschen Film ;D Mein Hirn hat das mit FP64 1:1 verwurstet. Doppelte Leistung wäre dann 2*FP16 in einer FP32 ALU, aber ist ja nur einmal FP16 pro FP32 ALU.

Steh heute eh neben mir und verabschiede mich jetzt mal X-D Gn8

Skysnake
2015-11-27, 07:00:04
Selbst mit 2*FP16 pro FP32 ALU ändert sich da nichts. Das ist einfach das Grundkonzept von GPUs. Da werden nicht an jede ALU andere Instructionen geschickt,

Ailuros
2015-11-27, 07:16:10
Selbst mit 2*FP16 pro FP32 ALU ändert sich da nichts. Das ist einfach das Grundkonzept von GPUs. Da werden nicht an jede ALU andere Instructionen geschickt,

Ich stelle mir vor dass man zumindest auf SIMD Level keine gemischten Befehle schicken kann oder? Anders Maxwell hat 2*SIMD16 pro ALU ergo wenn man einen Batzen an FP16 OPs in eine SIMD16 schickt, werden wohl nicht mehr gleichzeitig an die gleiche SIMD auch noch FP32 OPs verschickt. Der Vorteil vom 2*FP16/SP ist dann eben einfach dass man doppelt so viele restlichen SIMDs frei hat fuer FP32 als im Fall wo 1:1 FP16/FP32.

Der Kaese mit dem theoretischen doppelten throughput fuer FP16 ist einfacher marketing-BS. Ja rein theoretisch auf Papier bekommt man von einer GM20b@Tegra X1 1TFLOP FP16 oder von der Apple A9X GPU 720 GFLOPs FP16, aber wir wissen wohl alle dass diese Raten NIE bis extrem selten errreicht werden in Echtzeit.

Skysnake
2015-11-27, 16:06:25
Das ist halt immer die Frage, welche Seiteneffekte so etwas hat.

Bei x86 gibt/gab es z,B, die Situation, dass du immer FP64/FP80 rechnest, egal was du rein steckst, und das nur entsprechen dann getrimmt wird, wie ich die Woche in nem Reference Guide gelesen habe.

Wenn man das umstellen will, muss man z.B. ein Flag setzen, und die Pipeline leeren.

so etwas in der Art kann es auch bei GPUs geben, wobei ich da eher nicht davon ausgehe. Man kann aber davon ausgehen, dass alle! ALUs einer Wavefront eben die gleiche Instruction ausführen müssen. Das Pipeline leeren eher nicht, weil die GPUs da eher flexibel sind und weniger Wert auf möglichst kurze Latenzen legen.

Was aber natürlich noch sein kann ist, das man beim Wechsel zwischen SP und DP bei den Decodern in Limits läuft, oder dass die Daten eben auch auf eine besondere Art im Speicher liegen müssen, kein Swizzel möglich ist auf der Ebene oder weiß der Teufel was.

Hübie
2015-11-27, 16:20:02
Warum müssten die, die selbe Instruktion ausführen, wenn es zwei unabhängig ansteuerbare Einheiten wären (Scheduler->Arbiter, dem voran geht ja auch noch ein op-collector in Maxwell, weil man ja eben genau der Beschränkung unterliegt).
Es macht zwar durchaus Sinn gleiche Instruktionen zu sammeln, aber wenn das nicht der Fall ist, könnten doch dennoch zwei unterschiedliche ausgeführt werden, unter der Prämisse dass es jeweils dedizierte FP16 ALUs sind die dann loopen oder zusammen geschaltet werden wenn >16.
Wäre das überhaupt sinnvoll oder nicht?
Unter SIMD verstehe ich, dass die Anweisung (move, ex, copy, blah) die gleiche ist und nur die Parameter geändert werden oder habe ich da ein falsches Verständnis von? Sorry, vielleicht ist das ja auch ne dumme Frage :D

Skysnake
2015-11-27, 22:48:17
ja, es wird bei SIMD immer die gleiche Instruction ausgeführt, daher heist es ja auch SingleInstructionMultipleData ;)

Es macht einfach keinen sinn, da nochmals einen Decoder hin zu packen, der das ermöglichen würde. In dem Fall könntest du dann auch einfach die SIMD-Breite für die höheren FPs halbieren.

Der Punkt ist, GPUs sind schlank, sehr schlank. Du willst wenig Kontrollfluss, einfach weil es eine Stream-Architektur ist. Die Art der Probleme, die du überhaupt auf GPUs schmeisen willst, haben eine gewisse Struktur in ihren Daten. Das nutzt du aus, indem du möglichst viel bei der Hardware weg lässt. Das liefert dann am Ende des Tages auch so einiges an Effizienz.

sulak
2015-11-28, 23:21:40
Ja, bei Künstlichen Neuronalen Netzen ist das so eine Sache. Deren Anforderungen an numerische Präzision ist relativ gering, wenn man bedenkt, dass selbst Implementierungen mit fix-point 8bit sogar existieren.

€: Deep CNNs, mit denen sich NV profiliert, sind eh gut für GPGPUs geeignet. Ich denke NV setzt auf ein interessantes Pferd in diesem Bereich.
`
Neuronale Netze = Intelligente Autos?

Zur Produktion, TSMC sieht 16nm doch nur als Zwischenschritt da es anscheinend mit 10nm gut voran geht. Zumindest für kleine Chips ala ARMs für Apple. Mich wundert, das man noch keine Mobile GPU in 16nm gesehen hat, bzw. keine Ankündigung oder man sieht was auf der CES2016? Apple kann ja nicht alle Produktionsstraßen belegen.

Werewolf
2015-12-23, 12:53:18
Ist Pascal ein verbesserter Maxwell oder eine komplett neue Gen die dann mit Volta verbessert bzw. refreshed wird?

Ailuros
2015-12-23, 17:11:39
`
Zur Produktion, TSMC sieht 16nm doch nur als Zwischenschritt da es anscheinend mit 10nm gut voran geht. Zumindest für kleine Chips ala ARMs für Apple. Mich wundert, das man noch keine Mobile GPU in 16nm gesehen hat, bzw. keine Ankündigung oder man sieht was auf der CES2016? Apple kann ja nicht alle Produktionsstraßen belegen.

Es ist eher ein Kostenproblem fuer alles FinFET heutzutage als alles andere.

Ist Pascal ein verbesserter Maxwell oder eine komplett neue Gen die dann mit Volta verbessert bzw. refreshed wird?

Eher das erste; bedenke (wie schon oefters erwaehnt) dass Volta um eine Prozess-generation verschoben wurde und man Pascal zwischen Maxwell und Volta fuer 16FF+ quetschte. Zeit fuer etwas mehr als einen quasi refresh gab es wohl nie.

Werewolf
2015-12-23, 17:22:45
Danke :)

Novum
2015-12-23, 18:56:19
Warum müssten die, die selbe Instruktion ausführen, wenn es zwei unabhängig ansteuerbare Einheiten wären (Scheduler->Arbiter, dem voran geht ja auch noch ein op-collector in Maxwell, weil man ja eben genau der Beschränkung unterliegt).
Es macht zwar durchaus Sinn gleiche Instruktionen zu sammeln, aber wenn das nicht der Fall ist, könnten doch dennoch zwei unterschiedliche ausgeführt werden, unter der Prämisse dass es jeweils dedizierte FP16 ALUs sind die dann loopen oder zusammen geschaltet werden wenn >16.
Wäre das überhaupt sinnvoll oder nicht?
Unter SIMD verstehe ich, dass die Anweisung (move, ex, copy, blah) die gleiche ist und nur die Parameter geändert werden oder habe ich da ein falsches Verständnis von? Sorry, vielleicht ist das ja auch ne dumme Frage :D
Das ganze Konzept von parallelen Prozessoren wie GPUs beruht darauf, dass man die gleiche Instruktion auf viele Operanden auf einmal ausfuehrt. Der Grund ist, dass man die Steuer-Logik und so weiter drumherum nur einmal haben muss und das spart viel Energie und Platz.

CPUs machen genau das was du meinst, da wird in einem Fenster von ungefaehr 100 Instruktionen gesucht was gerade moeglich ist auszufuehren und auf mehrere Ausfuehrungseinheiten verteilt. Sogar nicht in der selben Ordnung wenn es moeglich ist.

Hübie
2015-12-23, 19:17:21
Mal aus Neugier: hat eine GPU eigentlich so etwas wie Branch prediction? :confused:

robbitop
2015-12-23, 19:42:08
IIRC seit Shader Model 3 (DX9c).

Hier ein Thread der ggf für dich interessant ist:
https://dev.beyond3d.com/threads/dany-shader-3-0-and-branching.8477/

Novum
2015-12-23, 20:50:44
Mal aus Neugier: hat eine GPU eigentlich so etwas wie Branch prediction? :confused:
Nein, es gibt keine spekulierte Ausfuehrung auf GPUs. Latenzen werden rein durch SMT (wie "Hyperthreading" nur wesentlich simpler) versteckt. Das heisst es werden normalerweise abwechselnd Instruction-Bundles von anderen Thread-Gruppen ausgefuehrt.

Falls alle Thread-Gruppen in einem Sub-Prozessor ("Compute Unit", "SMX") auf Ergebnisse oder Speicher warten dreht dieser Daeumchen.

IIRC seit Shader Model 3 (DX9c).

Hier ein Thread der ggf für dich interessant ist:
https://dev.beyond3d.com/threads/dany-shader-3-0-and-branching.8477/
Branch Prediction != Branching.

`
Neuronale Netze = Intelligente Autos?
Neuronale Netze haben in den letzten Jahren riesige Fortschritte gemacht. Die ganze Spracherkennung die auf einmal funktioniert basiert darauf. Wofuer man die Rechenleistung primaer braucht ist aber fuer das trainieren des Netzes, das evaluieren ist nicht so rechenintensiv.

Hübie
2015-12-23, 21:12:18
Danke, Novum :up: Edit: Wo wird diese Thread-Gruppe dann eigentlich "geparkt"? Im L1D$?

@robbitop: Das Branching ist doch eher so etwas wie "in die Wege leiten und verfolgen". Also Arbeit auf die Einheiten verteilen und sich merken wer was abarbeitet um es am Ende wieder in ein Quad zu stecken - mal für jemanden wie mich einfach ausgedrückt. Keine spekulative Voraussage, in dem Sinne, wie ich es aus CPU-Designs kenne.

fondness
2015-12-23, 21:18:25
Die Sprungvorhersage in einem modernen CPU-Design ist nach wie vor ein sehr aktives Forschungsgebiet, wo man sich noch am meisten Potential für die Zukunft erhofft. Dass das nicht trivial ist, liegt auf der Hand. Ich kann mir nicht vorstellen, dass davon etwas wesentliches in einen GPU vorhanden ist, vielleicht so primitives Zeug wie beim PentiumPRO mit Lookup-Table oder dergleichen.

Novum
2015-12-23, 22:19:11
Danke, Novum :up: Edit: Wo wird diese Thread-Gruppe dann eigentlich "geparkt"? Im L1D$?
Die Logik kann natuerlich alle Thread-Gruppen verwalten und die Register muessen in das Register-File passen. Das limitiert auch oft die maximale Anzahl an Gruppen, was ein Performance-Problem ist, deshalb ist FP16 auch dafuer gut - weniger Register-Platz.

AnarchX
2015-12-30, 18:59:34
Pascal für GRID (Geforce Now Game Streaming) wohl erst 2017 laut einer aktuellen Präsentation: http://netgames2015.fer.hr/presentations/FranckDiard.pdf

iuno
2015-12-30, 20:23:09
Das laesst aber kaum weitere Schluesse zu.
Dort ist Maxwell auch erst fuer 2016 genannt. Zum Einsatz kommt dabei die Tesla M60 (2xGM204), ich wusste bisher gar nicht, dass es solch eine Karte gibt.
GM204 ist ja seit ueber einem Jahr auf dem Markt. Wenn man eine aehnliche "spezialloesung" von Pascal fuer GRID verwendet, wundert es nicht, dass es erst irgendwann 2017 so weit ist

AffenJack
2015-12-30, 20:23:23
Ist ja auch logisch, wenn Maxwell bei Geforce Now erst 2016 eingeführt wird;)

AnarchX
2015-12-30, 20:31:47
Auf der anderen Seite ist Geforce Now aber auch ein Prestige-Projekt von NV. Und gerade mit den kompakten HBM-Karten könnte man pro Server Knoten die GPU-Zahl deutlich erhöhen. CPU-Leistung haben die großen Xeons genug.

Unicous
2015-12-30, 20:34:09
@AffenJack


*hust*

http://www.anandtech.com/show/9574/nvidia-announces-grid-20-tesla-m60-m6-grid-cards

http://www.nvidia.com/object/nvidia-grid-buy.html

*hust*

Wüsste jetzt auch nicht, warum du explizit Geforce Now erwähnst.

horn 12
2015-12-30, 21:15:35
Ja, dies mit dem HBM Speicher wird sich nicht umsonst von AMD bezahlt machen.
So viel wie man in jene Entwicklung gesteckt hat (Über Jahre) wird Nvidia nicht so schnell um´s Eck daherschießen.

AffenJack
2015-12-30, 22:27:45
Auf der anderen Seite ist Geforce Now aber auch ein Prestige-Projekt von NV. Und gerade mit den kompakten HBM-Karten könnte man pro Server Knoten die GPU-Zahl deutlich erhöhen. CPU-Leistung haben die großen Xeons genug.

Bei der geringen Nutzerzahl bisher ist das einfach unnötig. Außerdem wurde M60 ja auch zum Herbst eingeführt, bei Gf-Now stehts bei 2016. Genauso könnte Pascal da auch im Herbst kommen, aber die relavante Umrüstung erst 2017 erfolgen. Außerdem stellt sich die Frage ob der M60 Nachfolger überhaupt mit HBM kommt. Bei 2xGP104 könnte es auch ohne HBM hinkommen.

@AffenJack
http://www.anandtech.com/show/9574/nvidia-announces-grid-20-tesla-m60-m6-grid-cards
http://www.nvidia.com/object/nvidia-grid-buy.html
Wüsste jetzt auch nicht, warum du explizit Geforce Now erwähnst.
Mir bekannt.
Wüsste jetzt auch nicht, wieso du überhaupt auf meinen Post antwortest, wenn du AnarchX link nicht anschaust. Denn dann wäre dir wohl klar wieso ich das geschrieben habe.

Unicous
2015-12-30, 22:36:27
Dann habe ich es falsch interpretiert, entschuldige. Ich dachte du meintest auch generell GRID.

AnarchX
2015-12-31, 09:07:18
Ein nächsten Anhaltspunkt könnte es vielleicht zur ISSCC am 31. Januar geben, wenn SK Hynix und Samsung HMB2 vorstellen: http://english.etnews.com/20151223200003

AffenJack
2015-12-31, 10:23:52
Man kann ja auch noch immer einen Funken Hoffnung haben,dass auf der CES zumindest noch irgendwas neues genannt wird, auch wenn es unwahrscheinlich ist. Im Hinterzimmer könnte es da aber vielleicht zu ersten Briefings kommen und im Anschluss danach zu ersten Leaks.

Troyan
2015-12-31, 10:39:56
Wenn Parker noch existiert, sollte er dort vorgestellt werden. Und dann wissen wir auch, wie Pascal aussieht.

Andererseits: Das letzte Mal, dass nVidia etwas auf der CES gezeigt hat, war Fermi vor 6 Jahren.

AffenJack
2015-12-31, 11:16:29
Parker wird bestimmt vorgestellt, aber Parker wird höchstwahrscheinlich auch Maxwell sein und nicht Pascal. Huang hat nicht umsonst angekündigt, dass man bei Tegra nur alle 2 Jahre die GPU Architektur verändern will. Bei Parker sind die CPU Kerne mit Denver wieder dran. GPU schätze ich wird einfach 3 Cluster Maxwell. Aber stimmt schon, seit Jahren gabs da nix zu GPUs und wahrscheinlich wirds wieder nur um Tegra und Autos gehen.

Unicous
2016-01-05, 04:07:16
Nvidia stellt gerade Drive PX2

http://www.theverge.com/2016/1/4/10712634/nvidia-drive-px2-self-driving-car-supercomputer-announces-ces-2016

und der Bullshit Bingo Level steigt meiner Meinung nach ins Unermessliche.

https://syllabus.vox-cdn.com/uploads/photo/image/21786/Nvidia-CES-2016-226.JPG

http://www.techpowerup.com/img/16-01-05/13a.jpg

http://www.techpowerup.com/img/16-01-05/13C.jpg
http://www.techpowerup.com/218922/nvidia-announces-drive-px-2-mobile-supercomputer.html


Die Leute von The Verge scheinen von der Präsentation auch nicht gerade angetan zu sein, sonst wäre der Live-Ticker sicherlich etwas sachlicher:

https://live.theverge.com/nvidia-ces-2016-live-blog/


edit:

While these guys blather on, let's imagine how this presentation came together.

Team presents a four-hour graduate seminar on optical physics as they relate to the history and practice of developing automated driving technology.

Jen-Hsun Huang to team: "This is ridiculous. You are going to have to cut at least ... five minutes out of this."


OH MY GOD. Nvidia got an event done in about an hour.

This is a CES miracle. This is a dark omen. This is the end times.

:freak:

MartinB
2016-01-05, 04:18:39
Die Präsentation war sehr interessant (hatte Neural Nets in der Uni), aber vermutlich im Rahmen der CES etwas fehl am Platz.

Vikingr
2016-01-05, 04:53:02
Joa, ich hab' die letzten 15 min. auch noch mitbekommen, weil auf Twitter sah, dass wohl irgendein Nvidia Event gerade stattfindet, da sehr viel Aktivität.
http://blogs.nvidia.com/blog/2016/01/03/ces-las-vegas-event

Werd mir das Video evtl. noch nachträglich runterladen und im Schnelldurchlauf anschauen.

AnarchX
2016-01-05, 06:05:37
Nvidia stellt gerade Drive PX2

http://www.theverge.com/2016/1/4/10712634/nvidia-drive-px2-self-driving-car-supercomputer-announces-ces-2016

und der Bullshit Bingo Level steigt meiner Meinung nach ins Unermessliche.

https://syllabus.vox-cdn.com/uploads/photo/image/21786/Nvidia-CES-2016-226.JPG

http://www.techpowerup.com/img/16-01-05/13a.jpg

http://www.techpowerup.com/img/16-01-05/13C.jpg
http://www.techpowerup.com/218922/nvidia-announces-drive-px-2-mobile-supercomputer.html


Die Leute von The Verge scheinen von der Präsentation auch nicht gerade angetan zu sein, sonst wäre der Live-Ticker sicherlich etwas sachlicher:

https://live.theverge.com/nvidia-ces-2016-live-blog/


edit:






:freak:

Das sind doch mindestens 4 Packages in diesem Gebilde?
2x Tegra mit (4xA57/2xDenver) + 2x GM106/GM104? 2x 768 GFLOPs + 2x 3,25 TFLOPs?


Scheint ein ~250mm² Chip zu sein mit möglicherweise 256-Bit GDDR5. zu zeitig: Bei GDDR5-Basis (12x14mm) sind es natürlich über >400mm² und laut Anandtechs Bilder wohl nur GM204-Dummys.

dildo4u
2016-01-05, 07:52:11
2 Pascals = 8 Tflops also ist der Low End Pascal jetzt im Bereich der 970?


NVIDIA @ CES 2016 Pressekonferenz.
http://www.ustream.tv/channel/fWbQyaEMfbh

Kartenlehrling
2016-01-05, 10:11:16
Hehe, die Testfahrt sind ja in Deutschland gemacht worden in Kalsruhe, hat Nvidia das nicht schon letztes Jahr gezeigt ?

AffenJack
2016-01-05, 10:22:20
Scheint ein ~250mm² Chip zu sein mit möglicherweise 256-Bit GDDR5.

So groß? kommt mir kleiner vor, aber kann das nicht wer ausrechnen anhand des Gddr5?
http://images.scribblelive.com/2016/1/5/4806e9a3-bbf2-4a5a-8cf8-04bb14fcf8a2_800.png
http://live.cnet.com/Event/Nvidia_CES_2016_press_conference?Page=2

Dural
2016-01-05, 10:26:59
Das sind doch einfach zwei GM204 :confused:

Zudem es widersprüchliche Infos gibt, die einen sagen Maxwell GPUs und die anderen Pascal. Ganz komische Vorstellung, was soll das?

Edit:
Laut NV 8x A57 und 4x Denver Core :confused::confused::confused:
Sind da neue Tegras verbaut?! und das schon mit Pascal GPUs?

Troyan
2016-01-05, 11:24:17
Widersprüchlich? :freak:

http://images.scribblelive.com/2016/1/5/63c18fd1-3dc0-4e32-9a40-d6b982d5aa96_800.png

http://www.smartredirect.de/redir/clickGate.php?u=lnwCExJb&m=1&p=3d26AYJ0k7&t=p09f7K1v&st=&s=&splash=2&url=http%3A%2F%2Flive.cnet.com%2FEvent%2FNvidia_CES_2016_press_conference%3FPage %3D2&r=http%3A%2F%2Fwww.forum-3dcenter.org%2Fvbulletin%2Fshowthread.php%3Fp%3D10902519%26posted%3D1%23post1090 2519

Ailuros
2016-01-05, 11:25:06
Das sind doch einfach zwei GM204 :confused:

Wo?

Zudem es widersprüchliche Infos gibt, die einen sagen Maxwell GPUs und die anderen Pascal. Ganz komische Vorstellung, was soll das?

Edit:
Laut NV 8x A57 und 4x Denver Core :confused::confused::confused:
Sind da neue Tegras verbaut?! und das schon mit Pascal GPUs?

Es ist ein Monster Modul dass 250W verbraucht, mit Wasserkuehlung ausgestattet ist und es hat 2* Tegra Parker SoCs und 2 (low end) Parker GPUs alles unter 16FF+ TSMC hergestellt. Jeder Parker SoC hat 2 Denver und 4 A57 cores und eine GP20b ULP SoC GPU. Da Du angeblich zu faul bist die links um Tegra thread aufzuschlagen und sie durchlesen, hoffen wir dass Du es beim dritten Versuch verstehst.

Das Ding ist hoechstwahrscheinlich fuer automotive deep learning und nicht unmittelbarer Integrierung gedacht.

Fuer's Thema hier eine Bestaetigung dass sowohl Parker als auch GP1xx auf 16FF+ TSMC hergestellt werden.

Hübie
2016-01-05, 11:31:52
GDDR5 hat afaik 14 x 16 mm. Bin am Smartphone, also kann sich gerne wer anders damit beschäftigen. 250 kommt gut hin. Etwas mehr würde ich sogar sagen.

mboeller
2016-01-05, 13:02:35
GDDR5 hat afaik 14 x 16 mm. Bin am Smartphone, also kann sich gerne wer anders damit beschäftigen. 250 kommt gut hin. Etwas mehr würde ich sogar sagen.

250?

Also bei dem Bild von Computerbase ist ein DDR5 Chip 49 Pixel breit und die GPU 73 Pixel. Bei der Höhe sind es 41 Pixel zu 71 Pixel.

Umgerechnet hätte dann eine Pascal-GPU die 2,57-fache Fläche eines DDR5 Chips, also 577mm² ... kann wohl nicht stimmen. ???

Quelle: http://pics.computerbase.de/6/9/7/5/9/4-1080.3327115835.jpg

hasebaer
2016-01-05, 13:07:12
Ganz komische Vorstellung, was soll das?

Du brauchst nur eine Seite zurück gehen, da steht alles in korrekter Form.

Troyan
2016-01-05, 13:08:30
Nimm besser das Bild von oben, da dort ein "reales" Produkt gezeigt wird.
Das Bild von Computerbase ist ein PR-Bild, dass nicht der Realität entsprechen muss.

/edit: Anandtech hat ein viel besseres Bild:
http://images.anandtech.com/doci/9903/PX2GPUs.jpg
http://www.anandtech.com/show/9903/nvidia-announces-drive-px-2-pascal-power-for-selfdriving-cars

Hübie
2016-01-05, 13:28:46
250?

Also bei dem Bild von Computerbase ist ein DDR5 Chip 49 Pixel breit und die GPU 73 Pixel. Bei der Höhe sind es 41 Pixel zu 71 Pixel.

Umgerechnet hätte dann eine Pascal-GPU die 2,57-fache Fläche eines DDR5 Chips, also 577mm² ... kann wohl nicht stimmen. ???

Quelle: http://pics.computerbase.de/6/9/7/5/9/4-1080.3327115835.jpg

Ich war vorhin mal kurz am Desktop und kam ebenfalls auf 506 :eek: Hab allerdings auch nicht nachgesehen ob die Maße vom GDDR5 VRAM stimmen, welche ich im Kopf habe (14 x 16 mm = 224 mm^2). Hab leider auch keine Zeit das näher zu untersuchen. Vielleicht meldet sich ein freiwilliger :D

Edit: Ich habe mit Sicherheit falsche Dimensionen im Kopf. 11 x 11,5 war jetzt wohl richtig :D So würde ich auf ~225 mm^2 kommen.

mboeller
2016-01-05, 14:24:16
Ich war vorhin mal kurz am Desktop und kam ebenfalls auf 506 :eek: Hab allerdings auch nicht nachgesehen ob die Maße vom GDDR5 VRAM stimmen, welche ich im Kopf habe (14 x 16 mm = 224 mm^2). Hab leider auch keine Zeit das näher zu untersuchen. Vielleicht meldet sich ein freiwilliger :D

Edit: Ich habe mit Sicherheit falsche Dimensionen im Kopf. 11 x 11,5 war jetzt wohl richtig :D So würde ich auf ~225 mm^2 kommen.


Auch bei dem Bild von Anandtech komme ich auf die 1.7fache Breite und die 1,45fache Höhe... also selbst wenn ich 11x11,5mm als Maßstab nehme immer noch auch über 300 mm²

Besser, aber bei 16FF sind 300mm² ziemlich viel. und dafür sind dann sie 8TFlops für das ganze PX2-Board wieder ziemlich gering, IMHO!


die einzigen Abmessungen die ich selbst finden konnte waren für ein 170BGA Package mit 9x15mm ... und die Abmessungen passen nicht zu den Bildern.

Hübie
2016-01-05, 14:29:33
Ich weiß nicht womit du das machst, aber skaliere das Bild mal hoch und vergleiche dann. Ich kann heute Abend gerne noch mal schauen falls sich niemand findet der das übernimmt. Hast du auch an die Schatten und Randflächen gedacht? 300 ist wohl eindeutig zuviel, wenn da nicht gerade ein fettes Interface drunter steckt. ;)

Ailuros
2016-01-05, 14:32:33
Entweder brauch ich wohl doch endlich ne Brille oder ich hab das Gefuehl dass die GPU chips auf dem modul im Grund kleiner sind als die Tegra Parker chips?

=Floi=
2016-01-05, 14:33:35
zumindest ist nun auch bestätigt, dass die kleinen pascal KEIN (so tolles :D ) HBM2 bekommen werden.



edit
das wird hald nur ein toller heatspreader sein. (damit das teil passiv läuft und für die kamera gut aussieht.)

Ailuros
2016-01-05, 14:38:25
Vielleicht hilft es so:

http://pics.computerbase.de/6/9/7/5/9/4-1080.3327115835.jpg

Die GPU chips sehen nicht aus als dass sie groesser waeren als ein Parker SoC und will ernsthaft bezweifeln dass der letzte groesser ist als irgendwo 120mm2@16FF+

stinki
2016-01-05, 14:44:54
Laut Micron haben GDRR5 Chips im 170FBGA Package eine Größe von 12mm x 14mm.

https://www.google.de/url?sa=t&rct=j&q=&esrc=s&source=web&cd=3&cad=rja&uact=8&ved=0ahUKEwi9otrS45LKAhXIvBoKHUGYAO8QFggtMAI&url=https%3A%2F%2Fwww.micron.com%2F~%2Fmedia%2Fdocuments%2Fproducts%2Fdata-sheet%2Fdram%2Fgddr5%2F4gb_gddr5_sgram_brief.pdf&usg=AFQjCNFM-GQtMAosYP5iU2M3R1zjG6veFA&bvm=bv.110151844,d.bGQ

stinki
2016-01-05, 14:49:48
Vielleicht hilft es so:

Die GPU chips sehen nicht aus als dass sie groesser waeren als ein Parker SoC und will ernsthaft bezweifeln dass der letzte groesser ist als irgendwo 120mm2@16FF+

Die Frage ist wohl eher was unter dem Heatspreader alles noch ist ausser dem Tegra SoC...

BlacKi
2016-01-05, 14:53:25
Hab allerdings auch nicht nachgesehen ob die Maße vom GDDR5 VRAM stimmen, welche ich im Kopf habe (14 x 16 mm = 224 mm^2). Hab leider auch keine Zeit das näher zu untersuchen. Vielleicht meldet sich ein freiwilliger :D
12x14mm, habs mit dem zollstock nachgemessen.

stinki
2016-01-05, 14:55:20
12x14mm, habs mit dem zollstock nachgemessen.

Deckt sich mit den Angaben von Micron :smile:

Ailuros
2016-01-05, 14:58:22
Deckt sich mit den Angaben von Micron :smile:

Ergo ist jeglicher GPU die schaetzungweise wie gross? Ihr werdet entschuldigen aber ich bin sehr schlecht mit dem Zeug.

stinki
2016-01-05, 15:01:06
Die 8GFLOPS machen 4GFLOPS pro Chip also ca. 970 Performance.
Das passt doch ganz gut zu einem möglichen GP106.

BlacKi
2016-01-05, 15:04:41
21,3x 20,5,3=437,36mm², ein gddr5 hat 168mm².

http://www2.pic-upload.de/img/29334050/nvidia.png (http://www.pic-upload.de/view-29334050/nvidia.png.html)

edit: fail, da altes maxwell system.

Troyan
2016-01-05, 15:10:37
Zoomt man beim Anandtech-Bild rein, dann steht als Produktionsdatum beim rechten Chip "1503A1".

Imo ist es Maxwell und nicht mit Pascal bestückt.

BlacKi
2016-01-05, 15:17:59
Zoomt man beim Anandtech-Bild rein, dann steht als Produktionsdatum beim rechten Chip "1503A1".

Imo ist es Maxwell und nicht mit Pascal bestückt.
hajo, toll umsonst gerechnet^^

stinki
2016-01-05, 15:20:53
Zoomt man beim Anandtech-Bild rein, dann steht als Produktionsdatum beim rechten Chip "1503A1".

Imo ist es Maxwell und nicht mit Pascal bestückt.

Dann sehen wir da wohl zwei GM204 ;D

Troyan
2016-01-05, 15:23:01
Jo, hier mal GM204 von der GTX980:
http://pics.computerbase.de/6/0/1/2/3/6-630.3876694097.jpg
http://www.computerbase.de/2014-09/geforce-gtx-980-970-test-sli-nvidia/

Zieht exakt gleich aus.

Dural
2016-01-05, 15:25:20
Ich habe ja gleich gesagt das es GM204 sind ;D

NV wird mit ihren Produkte Präsentationen immer wie unsympathischer.

stinki
2016-01-05, 15:28:28
Also sind wir zurück bei ca. 4GFLOPs für kommenden GP106 bei unbekannter Größe, unbekanntem Takt und unbekanntem Verbrauch...ganz großes Kino...
na gut wir wissen 2xGP106 + 2xParker <= 250W Verbrauch...

Dural
2016-01-05, 15:32:37
Wer sagt den das die 250Watt stimmen? Wenn offensichtlich noch keine Chips vorhanden sind... Und jetzt kann man sich auch die Frage stellen ob da wirklich schon die neuen Tergras drauf sind und nicht nur der X1 :rolleyes:

Sehr schwach von NV, wie so tuen die das? Das Produkt dürfte wohl erst in einem Jahr lieferbar sein und ob die Angaben die jetzt gemacht wurden noch stimmen muss sich erst noch zeigen. :rolleyes:

HOT
2016-01-05, 15:35:06
Also sind wir zurück bei ca. 4GFLOPs für kommenden GP106 bei unbekannter Größe, unbekanntem Takt und unbekanntem Verbrauch...ganz großes Kino...
na gut wir wissen 2xGP106 + 2xParker <= 250W Verbrauch...
Wir wissen gar nix. Das sind dann Chips mit gerigen Taktraten und vermutlich sehr geringen Spannungen. Und das sind dann auch keine GP106 sondern sicherlich eher GP104.

kdvd
2016-01-05, 15:36:33
Ich habe ja gleich gesagt das es GM204 sind ;D

NV wird mit ihren Produkte Präsentationen immer wie unsympathischer.

Wenn die Leistung des GP106 dem GM204 entspricht, dann sind die aktuellen MXM Module mit GM204, einfach Vorserien-Platzhalter für die kommenden Serienprodukte mit GP106.

Ailuros
2016-01-05, 15:39:13
Ich habe ja gleich gesagt das es GM204 sind ;D

NV wird mit ihren Produkte Präsentationen immer wie unsympathischer.

Ich bin eigentlich der dagegen staenkern sollte nach dem was andere von mir erwarten LOL :biggrin:

Ich find es harmlos so lange das Endresultat equivalente Leistung bieten wird; anders wenn sie GM204 benutzt haben, dann werden sie wohl auch irgend etwas in der GP106 Region am Ende liefern. Machten sie beim KAYLA uebrigens auch schon.

Wir wissen gar nix. Das sind dann Chips mit gerigen Taktraten und vermutlich sehr geringen Spannungen. Und das sind dann auch keine GP106 sondern sicherlich eher GP104.

Wenn sie heute als Platzhalter GM204 cores auf dem Modul haben, dann kannst Du Gift drauf nehmen dass dafuer eigentlich zumindest ein GP106 dafuer gemeint ist. NV richtet sich in solchen Faellen nach der vergleichbaren Endleistung des Platzhalter-chips.

Dural
2016-01-05, 15:41:20
Ja klar ist es ein Platzhalter weil zu wenige oder noch keine Chips vorhanden sind.
Falls es mit dem GP106 kommt finde ich ca. 90-100Watt pro GPU übrigens recht viel.

kdvd
2016-01-05, 15:42:55
GP106 wird auch keine 100W verbraten, dass ist FUD.

Troyan
2016-01-05, 15:43:31
Die Pascal-MXM Module liegen wohl bei ~100W für 4TFLOPs.
GTX965M hat ca. 70W bei 1,99TFLOPs.

AffenJack
2016-01-05, 15:44:36
Wer sagt den das die 250Watt stimmen? Wenn offensichtlich noch keine Chips vorhanden sind... Und jetzt kann man sich auch die Frage stellen ob da wirklich schon die neuen Tergras drauf sind und nicht nur der X1 :rolleyes:

Sehr schwach von NV, wie so tuen die das? Das Produkt dürfte wohl erst in einem Jahr lieferbar sein und ob die Angaben die jetzt gemacht wurden noch stimmen muss sich erst noch zeigen. :rolleyes:

In Q2 sollen die Autohersteller Samples bekommen stand glaube bei Anandtech. Richtige Auslieferung dann Q4.
Ansonsten muss ich aber zustimmen, dass war für mich von allen Nv Keynotes/Präsentationen die ich mal gesehen habe glaube ich die Schwächste. Alles eher in die Richtung, wir haben nix was wir wirklich zeigen können. Wir gehen jetzt mal tiefer in die Auto/Deep Network Geschichte rein um irgendwie wenigstens die Zeit zu füllen. Dazu dieses Mockup, da wären ja sogar dämliche Slides besser.

GP106 wird auch keine 100W verbraten, dass ist FUD.

GM206 ist auch bei 100W, das ist das was man erwarten kann.

Troyan
2016-01-05, 15:46:33
Ist doch nichts neues. Man hat eben nicht jedes Jahr auf der CES was. Schau dir mal den Rest der Branche an. AMD muss ja sogar ihre neue Grafikkartengeneration präsentieren, um interessant zu sein...

Die Zeiten sind vorbei, wo nVidia mit Tegra 2, Tegra 3, Tegra 4 und Tegra K1 noch auf dem Consumerweg war.

Dural
2016-01-05, 15:46:39
Ja, ich tippe auch auf den GP104, da sehen 100Watt mit nicht so viel Takt und eventuell etwas weniger Einheiten wieder ganz OK aus.

stinki
2016-01-05, 15:47:31
Finally, NVIDIA also announced that they have lined up their first customer for PX 2: Volvo. In 2017 the company will be outfitting 100 XC90 SUVs with the PX 2, for use in their ongoing self-driving car development efforts.

Unsere Kollegen von Volvo wollen das wirklich in ihre Autos bauen...

Troyan
2016-01-05, 15:48:48
Die Konfiguration der Chips entspricht GM204 - 2048 Recheneinheiten.
Klingt mir nicht nach GP104...

kdvd
2016-01-05, 15:51:05
GM206 ist auch bei 100W, das ist das was man erwarten kann.

Aber sicher nicht in der Config für autonommes Fahren.
Das Zeug muss ewig und drei Tage halten in einem Fahrzeug, da nimmt man keine Taktraten wie auf GTX 960 Gaming Karten.

igg
2016-01-05, 15:53:41
Sehr schwach von NV, wie so tuen die das? Das Produkt dürfte wohl erst in einem Jahr lieferbar sein und ob die Angaben die jetzt gemacht wurden noch stimmen muss sich erst noch zeigen. :rolleyes:
Damit die Käufer nach der AMD Vorstellung wissen dass von NV auch noch was kommt?

Ailuros
2016-01-05, 15:54:18
Die Konfiguration der Chips entspricht GM204 - 2048 Recheneinheiten.
Klingt mir nicht nach GP104...

=/>13 SMMs kann nur =/<GP106 sein. Wenn sie aber bei ~3 TFLOPs pro Pascal GPU liegen dann heisst es wiederrum auch dass Parker wieder eine dual cluster GPU bei 1GHz womoeglich hat.

HOT
2016-01-05, 15:55:19
[...]
Wenn sie heute als Platzhalter GM204 cores auf dem Modul haben, dann kannst Du Gift drauf nehmen dass dafuer eigentlich zumindest ein GP106 dafuer gemeint ist. NV richtet sich in solchen Faellen nach der vergleichbaren Endleistung des Platzhalter-chips.
Nein, dann kannst du Gift darauf nehmen, dass das GP104 sind, denn ein GP106 wird niemals das termische Budget erreichen, dass für das Modul offenbar spezifiziert ist. NV hat ja auch GM204 gewählt und GM206 als Platzhalter. Das sind die Mobilvarianten, scheint offenbar vergessen zu werden.

Die Konfiguration der Chips entspricht GM204 - 2048 Recheneinheiten.
Klingt mir nicht nach GP104...

Nein, GTX980M. Die nehmen dafür doch keine Desktop-Chips. Also 1536 Shader à 100W TDP, das passt also gut.

Troyan
2016-01-05, 15:57:09
nVidia gibt 8 TFLOPs mit FP32 verteilt auf 2 GPUs an. Und ich denke, dass Tegra hier als CPU-Ersatz mit Input dienen.

kdvd
2016-01-05, 15:59:48
Nein, dann kannst du Gift darauf nehmen, dass das GP104 sind,
Unlogisch, weil dann würde Nvidia Leistungsmässig auf der Stelle tretten.

denn ein GP106 wird niemals das termische Budget erreichen, dass für das Modul offenbar spezifiziert ist.

Es geht hier um ein Auto, dass muss in Dubai bei 50°C im Schatten, den ganzen Tag in der Sonne stehen und darf dann nicht 30s nach dem Start plötzlich ausfallen, weil die Elektronik überhitzt ist.

HOT
2016-01-05, 16:02:00
Unlogisch, weil dann würde Nvidia Leistungsmässig auf der Stelle tretten.


Es geht hier um ein Auto, dass muss in Dubai bei 50°C im Schatten, den ganzen Tag in der Sonne stehen und darf dann nicht 30s nach dem Start plötzlich ausfallen, weil die Elektronik überhitzt ist.
NV vergibt doch schon für den GM204 mobil 100W, das werden die beim GP104 ebenfalls tun. Die müssen die veranschlage Rechenleistung ja auch irgendwie erreichen, das geht besser mit heruntergetakteten, größeren Chips und schlechter mit auf Kante getriebenen GP106. NV hat für die Präsentation wie gesagt auch zwei GM204 Mobil gewählt und nicht GM206.

stinki
2016-01-05, 16:11:45
NV vergibt doch schon für den GM204 mobil 100W, das werden die beim GP104 ebenfalls tun. Die müssen die veranschlage Rechenleistung ja auch irgendwie erreichen, das geht besser mit heruntergetakteten, größeren Chips und schlechter mit auf Kante getriebenen GP106. NV hat für die Präsentation wie gesagt auch zwei GM204 Mobil gewählt und nicht GM206.

GM206 würde niemals 4GFLPOS pro Core schaffen, also kann man den nicht übergangsweise als Platzhalter auf den MXM Modulen benutzen wenn man schon mal spätere Leistung simmulieren will.

stinki
2016-01-05, 16:15:45
Aber die Angaben stimmen irgendwie hinten und vorne nicht...
Wie schon richtig beschrieben schafft die GTX980M schon heute laut Nvidia 3.2 GFLOPS bei 100W...da sind 4GFLOPS bei 100W für eine Pascal GPU nicht wirklich stimmig...
oder wir rechnen alle falsch und der Parker Soc braucht jeweils 50W ;-)...

Ailuros
2016-01-05, 16:27:16
Aber die Angaben stimmen irgendwie hinten und vorne nicht...
Wie schon richtig beschrieben schafft die GTX980M schon heute laut Nvidia 3.2 GFLOPS bei 100W...da sind 4GFLOPS bei 100W für eine Pascal GPU nicht wirklich stimmig...
oder wir rechnen alle falsch und der Parker Soc braucht jeweils 50W ;-)...

Dann sollte man bedenken dass NV's marketing stets zu uebereifrig kreativ ist. Ebenso wie sie die TDP einer Tesla GPU mit deren CPU mit der gedrosselten Echtzeit-leistung eines Tegra verglichen hatten und darauf kamen dass das letzte in einem imaginaeren Vakuum ploetzlich um >20x Mal besser ist :freak:

Unter irgend einer verkorksten Logik wird das Ganze schon stimmen.

nVidia gibt 8 TFLOPs mit FP32 verteilt auf 2 GPUs an. Und ich denke, dass Tegra hier als CPU-Ersatz mit Input dienen.

Moment ich dachte bis jetzt dass es jeweils 3 TFLOPs von jeder "Pascal" GPU waere und 1 TFLOP von jeglicher GP20A GPU in jedem Parker?

stinki
2016-01-05, 16:36:34
Moment ich dachte bis jetzt dass es jeweils 3 TFLOPs von jeder "Pascal" GPU waere und 1 TFLOP von jeglicher GP20A GPU in jedem Parker?

Tja wenn man das wüste wie Nvidia das gerechnet hat...
entweder 4 TFLOPS von jeder "Pascal" GPU und SoCs nicht mit eingerechnet oder so wie du geschrieben hast jeweils ca. 1 TFLOP von den GPUs in den Parker SoCs und nur 3 TFLOPS pro "Pascal" GPU...man weiß es nicht...

Ich dachte immer die GPU in Parker wäre GP10B...woher kommt GP20A???

Ailuros
2016-01-05, 16:45:29
Tja wenn man das wüste wie Nvidia das gerechnet hat...
entweder 4 TFLOPS von jeder "Pascal" GPU und SoCs nicht mit eingerechnet oder so wie du geschrieben hast jeweils ca. 1 TFLOP von den GPUs in den Parker SoCs und nur 3 TFLOPS pro "Pascal" GPU...man weiß es nicht...

Ich dachte immer die GPU in Parker wäre GP10B...woher kommt GP20A???

Tippfehler vom alten GK20A ausgehend; ignore.

Gut Ryan macht auch Fehler aber....

http://www.anandtech.com/show/9903/nvidia-announces-drive-px-2-pascal-power-for-selfdriving-cars

As a result the DRIVE PX 2 is a very powerful – and very power hungry – design meant to offer much greater compute performance than the original DRIVE PX. Based around NVIDIA’s newly disclosed 2016 Tegra (likely to be Parker), the PX 2 incorporates a pair of the SoCs. However in a significant departure from the original PX, the PX 2 also integrates a pair of Pascal discrete GPUs on MXM cards, in order to significantly boost the GPU compute capabilities over what a pair of Tegra processors alone could offer. The end result is that PX 2 packs a total of 4 processors on a single board, essentially combining the two Tegras’ 8 ARM Cortex-A57 and 4 NVIDIA Denver CPU cores with 4 Pascal GPUs.

Angenommen sie rechnen die FP32 FLOPs der Parker GPUs mit, dann sind diese zumindest 2 TFLOPs schwer (wenn jede 4 SMMs hat wie ich erwarte). Anders 3+3+1+1 oder sie beziehen sich nur auf die beiden zusaetzlichen GPUs ergo dann 4+4.

Dural
2016-01-05, 17:04:12
ja vielleicht hat der Tegra jetzt 50Watt ;D

Man kann es rechnen wie man will, aber die Zahlen von NV sind und bleiben "etwas" komisch.

Die Zeit wird es zeigen ;)

AffenJack
2016-01-05, 17:08:45
Mir kommt 8 Tflops nur aus den Gpus passender vor aufgrund der Angabe von diesen merkwürdigen DL TOPS, die bei 24 sein soll. DL wird FP 16 benutzt, also würde man aus 8 Tflops 16 TOPS bekommen, aber woher kommen die zusätzlichen 8 her? Nur aus Cpus macht kein Sinn und noch zusätzliche von Shadern etc? Alles merkwürdig. Vielleicht kommen die anderen 8 aus den CPU+Tegra GPU Teilen.
Außerdem passen 4 Tflops auch besser zu den ~100W Verbrauch pro GPU. 3 Tflops bei 100 W in 16FF wäre ganz schön schlecht für Pascal. Wir sollten den scheiß einfach mal wieder beiseite lassen und auf mehr Infos warten.

Troyan
2016-01-05, 17:14:15
Pascal ist auf neurale Netzwerke optimiert. Neben FP16 wird es noch andere Überarbeitungen geben (Speichermanagement etc.).

Skysnake
2016-01-05, 17:55:02
Finally, NVIDIA also announced that they have lined up their first customer for PX 2: Volvo. In 2017 the company will be outfitting 100 XC90 SUVs with the PX 2, for use in their ongoing self-driving car development efforts.

Unsere Kollegen von Volvo wollen das wirklich in ihre Autos bauen...
BOAH krass ganze 100 Stück verkaufen die.

Damit machen Sie ja mindestens DRÖLF Milliarden Dollar, wenn nicht gar noch mehr. Klar das man sich daher nicht mehr mit Mobile abgibt bei den Margen....

Wer Ironie findet darf Sie behalten... -.-

mboeller
2016-01-05, 18:32:12
Zoomt man beim Anandtech-Bild rein, dann steht als Produktionsdatum beim rechten Chip "1503A1".

Imo ist es Maxwell und nicht mit Pascal bestückt.

..jetzt fehlen nur noch die Holzschrauben. Dann wäre es eine perfekte Nvidia-Präsentation. ;D

Tja, Pascal kommt dann wohl erst in Q4 2016 für PX2, die Vorabmodelle in Q2 werden damit wohl auch mit den alten Maxwell-Modellen ausgestattet werden. Andernfalls hätten sie ja schon Chips aus der Fabrik zurück gehabt und die präsentiert.

kdvd
2016-01-05, 18:47:37
Wer Ironie findet darf Sie behalten... -.-

Welche Ironie?
Dein Spam ist weder ironisch, noch sonstwie in irgendeiner Weise geistreich.

Ansonst finde ich es schon gut, wenn man weiß wo was verbaut ist.
Denn Volvo hat ja schon angesagt das sie die Haftung übernehmen, wenn in Zukunft eines ihrer autonom fahrenden Autos, Schäden verursachen.

http://www.golem.de/news/auto-volvo-will-haftung-beim-autonomen-fahren-uebernehmen-1510-116790.html
Volvo will 100 Stück des SUV Volvo XC90 als Pilotfahrzeuge ab 2017 in Göteborg hochautomatisiert fahren lassen.

Den Autoversichern bricht da ihr Geschäftsmodell weg.

Troyan
2016-01-05, 18:54:32
..jetzt fehlen nur noch die Holzschrauben. Dann wäre es eine perfekte Nvidia-Präsentation. ;D

Tja, Pascal kommt dann wohl erst in Q4 2016 für PX2, die Vorabmodelle in Q2 werden damit wohl auch mit den alten Maxwell-Modellen ausgestattet werden. Andernfalls hätten sie ja schon Chips aus der Fabrik zurück gehabt und die präsentiert.

Warum sollten sie Chips einer zukünftigen Modelpalette präsentieren, die Ewigkeiten entfernt sind? Das war nichts weiter wie eine Messeattrappe.

Wir reden von 4-6 Monaten bis zur Verfügbarkeit.

Ailuros
2016-01-05, 19:28:08
Welche Ironie?
Dein Spam ist weder ironisch, noch sonstwie in irgendeiner Weise geistreich.

Ansonst finde ich es schon gut, wenn man weiß wo was verbaut ist.
Denn Volvo hat ja schon angesagt das sie die Haftung übernehmen, wenn in Zukunft eines ihrer autonom fahrenden Autos, Schäden verursachen.

http://www.golem.de/news/auto-volvo-will-haftung-beim-autonomen-fahren-uebernehmen-1510-116790.html


Den Autoversichern bricht da ihr Geschäftsmodell weg.

Mal etwas anderes: http://www.businessinsider.com/volvo-drive-me-autonomous-self-driving-cars-2015-2

Sind es jetzt die gleichen 100 Karren die Volvo in 2017 auf die Strasse bringen wird oder epxerimentiert Volvo mit jeweils 100-er Mengen mit der einen oder anderen Loesung herum? (ehrliche Frage).

basix
2016-01-05, 19:40:46
Tippfehler vom alten GK20A ausgehend; ignore.

Gut Ryan macht auch Fehler aber....

http://www.anandtech.com/show/9903/nvidia-announces-drive-px-2-pascal-power-for-selfdriving-cars

Wenn ich die GPUs von deinem Link mit den GDDR5-Packages vergleiche (12x14mm), schätze ich die GPU um 300mm2 herum. Dies sollte meiner Meinung nach GP104 sein.


http://images.anandtech.com/doci/9903/PX2GPUs.jpg

AnarchX
2016-01-05, 19:44:33
Bei Nvidias Frontal Foto sind es ~ 21x21 mm, was ziemlich genau GM204 entspricht. Ebenso haben die Bauteile um den Die das Layout von GM204.
(Die Package-Size von GDDR5 sollte man wohl mal als Sticky hier im Speku-Forum posten. ;D)

Ailuros
2016-01-05, 19:50:17
Wenn ich die GPUs von deinem Link mit den GDDR5-Packages vergleiche (12x14mm), schätze ich die GPU um 300mm2 herum. Dies sollte meiner Meinung nach GP104 sein.


http://images.anandtech.com/doci/9903/PX2GPUs.jpg

Egal ob 3 oder 4 TFLOPs FP32, fuer einen performance 16FF+ chip waere es verdammt enttaeuschend. Das Bild hilft auch nicht besonders viel da die chips relativ winzig aussehen im Vergleich zu Jensen's Wurschtfinger :D

AnarchX
2016-01-05, 20:11:38
Aber die Angaben stimmen irgendwie hinten und vorne nicht...
Wie schon richtig beschrieben schafft die GTX980M schon heute laut Nvidia 3.2 GFLOPS bei 100W...da sind 4GFLOPS bei 100W für eine Pascal GPU nicht wirklich stimmig...
oder wir rechnen alle falsch und der Parker Soc braucht jeweils 50W ;-)...
Oder die Änderungen in Pascal (Mixed-Precision) sind ziemlich teuer, sodass vom 16FF Vorteil nicht so viel ankommt. Schon vor einige Zeit sprach ja NV von nur 40% besserer FP32-Pro-Watt-Leistung von GP100 gegenüber GM200: http://www.3dcenter.org/news/nvidias-big-chips-gk210-gm200-gp100-bestaetigt

Natürlich könnte der Faktor Gaming-Leistung/Watt deutlicher gestiegen sein.

Nakai
2016-01-05, 20:18:15
Das wird GM204 sein. Das passt auch zu den Daten.

Ailuros
2016-01-05, 20:20:56
Oder die Änderungen in Pascal (Mixed-Precision) sind ziemlich teuer, sodass vom 16FF Vorteil nicht so viel ankommt. Schon vor einige Zeit sprach ja NV von nur 40% besserer FP32-Pro-Watt-Leistung von GP100 gegenüber GM200: http://www.3dcenter.org/news/nvidias-big-chips-gk210-gm200-gp100-bestaetigt

Natürlich könnte der Faktor Gaming-Leistung/Watt deutlicher gestiegen sein.

http://i.imgur.com/Mbc9Ghm.jpg?1

AnarchX
2016-01-05, 20:21:54
Das wird GM204 sein. Das passt auch zu den Daten.

Auf den Bildern sicherlich. Aber im finalen Produkt wäre ein 28nm Maxwell bei der Ankündigung doch lächerlich. Zumal laut NV im AlexNet-Benchmark das ganze ja 6x so schnell wie ein Titan X ist.

kdvd
2016-01-05, 20:34:24
Sind es jetzt die gleichen 100 Karren die Volvo in 2017 auf die Strasse bringen wird oder epxerimentiert Volvo mit jeweils 100-er Mengen mit der einen oder anderen Loesung herum? (ehrliche Frage).

Ich weiß es nicht, aber das hört sich für mich alles so an, als ob es nur dieses eine 100er Pilotprojekt gibt.

Hübie
2016-01-05, 20:37:21
Mal etwas anderes: http://www.businessinsider.com/volvo-drive-me-autonomous-self-driving-cars-2015-2

Sind es jetzt die gleichen 100 Karren die Volvo in 2017 auf die Strasse bringen wird oder epxerimentiert Volvo mit jeweils 100-er Mengen mit der einen oder anderen Loesung herum? (ehrliche Frage).

Das ist die Vorstufe. Der XC90 kam jetzt auf den Markt und ist bis dahin eine etablierte Plattform. Hatte dir ja mal geschrieben dass es Gespräche mit Volvo und nVidia gibt. Da hat man sondiert und stellte schnell fest, dass nVidia allein auf weiter Flur mit einer Lösung da steht. Es wird jetzt erst einmal still bleiben, da Volvo nicht zu hohe Wellen schlagen möchte. Aber die Mühlen rattern und die Räder drehen sich.
Übrigens sagte der Chef von Volvo, Olof Persson, als einziger aller Stellvertreter der jeweiligen Automobilhersteller auf einer Konferenz zu autonomous driving dass Volvo die volle Verantwortung im auto-driving-mode übernimmt, sollte es zu einem Verkehrsunfall führen.
Sollen die anderen mal ihre ollen deutschen Karren weiter schieben. Volvo ist dort Zuhause, wo die testen ;):D

Edit: Wie schmal ist eigentlich die Denkweise einiger Mitglieder hier? :facepalm:

tm0975
2016-01-05, 22:08:48
Edit: Wie schmal ist eigentlich die Denkweise einiger Mitglieder hier? :facepalm:

sehr schmal, wenn für mache sogar volvo das maß aller dinge im automobilbau ist.

mal was anderes. gibt es bereits spekulationen, wann mit der 16 nm finfet generation von nvidia zu rechnen ist? evtl . im vergleich zum "sommer", also amds start in den markt mit glofo.

Hübie
2016-01-05, 22:16:41
sehr schmal, wenn für mache sogar volvo das maß aller dinge im automobilbau ist.

Und das entnimmst du an genau welcher Stelle des Textes? :rolleyes: Ich meinte btw. mehrere Punkte hier (z.B. HBM2...).

mal was anderes. gibt es bereits spekulationen, wann mit der 16 nm finfet generation von nvidia zu rechnen ist? evtl . im vergleich zum "sommer", also amds start in den markt mit glofo.

AMD+3 Monate.

Unicous
2016-01-05, 22:22:17
AMD+3 Monate.

Deine Spekulation oder hast du näher gehende Infos? Ich würde nämlich sonst sagen, dass beide IHVs im Rahmen oder im Dunstkreis der Computex erste Chips vorstellen. Ich sehe bislang nicht, dass Nvidia sich verspätet.

Hübie
2016-01-05, 22:31:46
Reden wir von kaufen oder vorstellen? Ich rede von kaufen. Es ist reine Spekulation. nVidia is ontrack. Aber das heißt nicht dass deren Straße zuerst zu den Gamern führt.

Unicous
2016-01-05, 22:38:33
Deine AMD+3 sind dafür aber "oddly specific". Aber gut.

cR@b
2016-01-05, 22:41:08
Aber das heißt nicht dass deren Straße zuerst zu den Gamern führt.

Wieso auch... die kann man noch durch den gm200 ausreichend melken "ugly"

Hübie
2016-01-05, 22:51:16
Nein, die sind nicht so nachtragend. ;)

=Floi=
2016-01-06, 00:02:03
Nein, die sind nicht so nachtragend. ;)

ernste frage. wer aus dem thread hier fährt volvo?
der hersteller ist so relevant wie tesla. Ich kann auch den sarkasmus mit den 100 fahrzeugen verstehen, weil es für den arkt und für uns irrelevant ist.
Das ist ein kleiner einblick in das R&D von volvo und deren ambitionen im autonomen fahren.

nebenbei wird auch der preis die stückzahlen dieser autos wie die elektroautos klein halten. Wir brauchen keine träumereien, sondern fakten!
Das zeigte doch alleine das heutige foto vom GM204 wieder...

kdvd
2016-01-06, 00:30:12
@=Floi=

Ab wann beginnt denn Relevanz?
Bei welchem Autobauer, ab welcher Stückzahl und ab wievielen Forenmitgliedern die Fahrzeug XY tatsächlich fahren?

Tesla verkauf pro Jahr knapp 50.000 Fahrzeuge, Volvo verkauf knapp 500.000 Fahrzeuge im Jahr.
Und das ein Pilotprojekt auf 100 Einheiten beschränkt ist, liegt in der Natur der Sache.

Hübie
2016-01-06, 00:52:59
ernste frage. wer aus dem thread hier fährt volvo?
der hersteller ist so relevant wie tesla. Ich kann auch den sarkasmus mit den 100 fahrzeugen verstehen, weil es für den arkt und für uns irrelevant ist.
Das ist ein kleiner einblick in das R&D von volvo und deren ambitionen im autonomen fahren.

nebenbei wird auch der preis die stückzahlen dieser autos wie die elektroautos klein halten. Wir brauchen keine träumereien, sondern fakten!
Das zeigte doch alleine das heutige foto vom GM204 wieder...

Dann schau dir mal viele AAA-Filme aus Hollywood an und achte auf die Volvos. Glaub mir: die haben Relevanz. Deutschland ist für ausländische Hersteller grundsätzlich wegen des Lobbyismus schwierig zu erschließen, aber ich kann dir Geschichten über deutsche Hersteller erzählen das du für 100 Jahre beten müsstest wenn du die vertreten würdest. Die Schweden haben uns ausgelacht als sich alle wegen E10 ins Hemd gemacht haben, da E85 in Schweden Gang und Gäbe ist. Der US-Markt z.B. ist ein ganz anderer als hier. Ebenso Asien. Das könnten wir hier seht ausweiten, aber gehört nicht hier rein. Für mich wird es jetzt interessant, da man sich mit nVidia zusammen getan hat. :naughty:
Ich hatte bisher drei Volvos und wechsel so schnell nirgends hin (okay bin da biased).

Sorry 4 OT.

Dural
2016-01-06, 09:10:24
und überhaupt, die (Pascal) Hardware wird sicher nicht in Massen in Serien Fahrzeugen verbaut, wenn dann irgend eine klein Serie. Es ist der Anfang um was aufzubauen.

Für die Masse muss was kleineres her, mit Volta oder sogar was komplett anderes / neueres.

Hübie
2016-01-06, 09:38:44
Was definierst du als Masse? Das sind für mich die ganzen Leasing-Fahrzeuge in Deutschland. Das dürften vorrangig Opel Astra, VW Passat, Audi A4, Mercedes C-Klasse und BMW 3er sein. Eh dort solche Prozessoren ankommen haben wir genullt.
Afaik planen bisher alle Automobilhersteller nur in der Ober- und Premiumklasse autonomes Fahren. Also ab Audi A6 / BMW 5er / Mercedes E. Volvo XC90 und S90 sind vorerst dafür geplant. Der XC90 als Testplattform, da groß und geräumig (Messequippment frisst Platz und Gewicht).

Arcanoxer
2016-01-06, 09:55:53
OK, wer hat schon wieder mit den Autovergleichen angefangen? :upara:

Dural
2016-01-06, 09:56:55
hmm gute Frage, wenn man es in der Preisliste für sagen wir mal 4000.- dazu haben kann. Ich denke da kann man dann von "Masse" sprechen

Ich denke nicht das wir das Pascal Modul jemals in einer Preisliste zu einem Vernünftigen Preise sehen werden.

mboeller
2016-01-06, 10:43:33
AMD+3 Monate.

die Nvidia-Präsentation habe ich auch so verstanden. Pascal in Q4 2016 (laut Anandtech)... in sehr geringen Stückzahlen für die Autoindustrie.

Die Vorab-PX2 für die Evaluierung werden wohl noch die GM204 besitzen, ansonsten hätte die CES-Präsentation mit den GM204 keinen Sinn gemacht.

Damit könnte der Vorsprung von AMD sogar >3 Monate sein, da sie ihren Lowend-Polaris ja schon im Dezember vorgestellt haben und wahrscheinlich dann im Juni auf der Messe die ersten Notebooks mit der Karte stehen werden (meine Erwartung).

Da ich nicht glaube, dass Nvidia bei 16FF gepennt hat werden sie wohl eine oder zwei zusätzliche Schleifen drehen müssen weil die ersten GPU nicht gut genug liefen, oder sie haben sich auf NG-Tegra konzentriert.

noch was zu den autonomen Autos:
http://www.wsj.com/articles/gm-invests-500-million-in-lyft-plans-system-for-self-driving-cars-1451914204

da stecken inzwischen alle Hersteller viel Geld rein. Solche Taxies könnten die Zukunft werden, und damit der Umsatz mit Autos massiv nach unten gehen.

Hübie
2016-01-06, 10:52:07
OK, wer hat schon wieder mit den Autovergleichen angefangen? :upara:

Wer kommt desinformiert hier rein und stellt eine blödsinnige Frage? :rolleyes:
Falls es dem Herrn nicht aufgefallen ist kommt Pascal in der Automobilindustrie vor. Lesen, verstehen, posten. Danke.

@Dural: Als Infotainment-Chip durchaus denkbar. Warum nicht? Gibt doch auch Tegra 3/4 in Fahrzeugen.

AffenJack
2016-01-06, 10:54:46
die Nvidia-Präsentation habe ich auch so verstanden. Pascal in Q4 2016 (laut Anandtech)... in sehr geringen Stückzahlen für die Autoindustrie.


Nö, dass ist deine eigene Interpretation. Das hat Anandtech nie geschrieben. Das Drive PX 2 Modul Q2 in Samples und Q4 Auslieferung schreibt Anandtech. Nehmen wir nun an, dass liegt an der Pascalgpu, so wäre Tapeout Q1, Auslieferung Q4 zwar durchaus anzunehmen. Aber da gehts nur um diese eine spezielle GPU, wahrscheinlich GP106 denke ich. Daraus kannst du aber keine Rückschlüsse auf GP104,GP107 etc ziehen. GP100 läuft ja auch schon seit Monaten im Labor und ich bin immer noch überzeugt von einer Vorstellung auf der GPU Tech Conf im April.

Hübie
2016-01-06, 11:21:03
Tesla wird wohl wieder als erstes das Rennen machen. Desktop (GeForce) wie gesagt AMD+3 Monate. Vielleicht auch etwas weniger. Warum ich darauf spekuliere ist einfach erklärt: man hat ein gutes bis sehr gutes Produkt am Markt und kann so in Ruhe zuschauen was die Konkurrenz kann. Nun richtet man seine Strategie u.U. anders aus oder fährt den Masterplan so ab. Es ist ja nicht so dass nVidia um ein vielfaches flexibler ist als AMD (...es war?). Die neue RTG ist noch nicht gut einzuordnen bzw. einzuschätzen. Es wäre fatal den Gegner zu unterschätzen.

Einfach gesagt: nVidia ist nicht im Zugzwang und AMD muss etwas liefern was Pascal die Stirn bieten kann.

fondness
2016-01-06, 12:39:48
Tesla wird wohl wieder als erstes das Rennen machen. Desktop (GeForce) wie gesagt AMD+3 Monate. Vielleicht auch etwas weniger. Warum ich darauf spekuliere ist einfach erklärt: man hat ein gutes bis sehr gutes Produkt am Markt und kann so in Ruhe zuschauen was die Konkurrenz kann. Nun richtet man seine Strategie u.U. anders aus oder fährt den Masterplan so ab. Es ist ja nicht so dass nVidia um ein vielfaches flexibler ist als AMD (...es war?). Die neue RTG ist noch nicht gut einzuordnen bzw. einzuschätzen. Es wäre fatal den Gegner zu unterschätzen.

Einfach gesagt: nVidia ist nicht im Zugzwang und AMD muss etwas liefern was Pascal die Stirn bieten kann.

Es bringt allerdings auch nichts zu warten, die Chips müssen schon lange vorher fertig sein, man kann maximal noch mit der Keule den Takt anpassen.

Also laut meinen Infos ist Nvidia vor AMD am Markt. Da gab es sogar mal öffentlich eine ziemlich verräterische Aussagen eines AMD VPs, die ich dahingehend interpretiere. Aber wie immer: Wir werden sehen.

Leonidas
2016-01-06, 13:09:34
Insbesondere beim Drive PX2 wird zusätzliche Evaluierungszeit draufgehen - da darf es im Gegensatz zu Gamer-Grafikkarten wirklich keinerlei Fehler geben. Q4 dafür bedeutet eigentlich, das GP106 schon früher fertig sein muß.

Hübie
2016-01-06, 15:49:18
Es bringt allerdings auch nichts zu warten, die Chips müssen schon lange vorher fertig sein, man kann maximal noch mit der Keule den Takt anpassen.

Also laut meinen Infos ist Nvidia vor AMD am Markt. Da gab es sogar mal öffentlich eine ziemlich verräterische Aussagen eines AMD VPs, die ich dahingehend interpretiere. Aber wie immer: Wir werden sehen.

Letzteres seh ich auch so. Wir werden sehen.
Wenn die Chips fertig sind kann man die schon getrost an die Partner schicken. Ohne BIOS läuft allerdings nix. Keine Lagerkosten, aber dennoch kann man mal abwarten was die Konkurrenz treibt. Man muss ja nicht zwangsläufig hochtakten. Man kann auch runter.
Das ein AMD Produktmanager mehr weiß bezweifel ich ebenfalls an der Stelle. :D

horn 12
2016-01-06, 18:18:34
Die Frage wird wohl sein wieviel Leistung sie auf Fury X bzw. hier fürs Forum GTX 980TI Stock drauflegen können mit diesen beiden Midrgange bis Performance GPU Chips Karten
Rechne 10-15% über Fury X Ohne HBM Speicher auf Beiden Seiten.

Die echten Nachfolger Karten der Fury (X) Serie und GTX 980 TI (TitanX) dann wohl erst Anfang Jahr bis Cebit 2017.

hasebaer
2016-01-07, 11:45:25
Rechne 10-15% über Fury X Ohne HBM Speicher auf Beiden Seiten.
Für GP104 wird das in der ersten Revision so kommen, es muss ja auch noch Luft für ein Refresh überbleiben.

HOT
2016-01-07, 14:18:39
Insbesondere beim Drive PX2 wird zusätzliche Evaluierungszeit draufgehen - da darf es im Gegensatz zu Gamer-Grafikkarten wirklich keinerlei Fehler geben. Q4 dafür bedeutet eigentlich, das GP106 schon früher fertig sein muß.
Glaub nicht, dass da extra Evalurierungszeit für den Chip draufgeht. Eher noch mal extra für das gesamte Modulsystem. Und das werden auch keine GP106, sondern GP104 - ich halte die GP106-Therie für eine grandiose Fehleinschätzung wenn ich ehrlich bin. Dass da im Moment GM204 drauf sind ist ja nicht der Rechenleistung geschuldet, die wird eh erst mit Pascal erreicht - das kann Maxwell ja gar nicht leisten bei den veranschlagten 250W schon wegen der Fertigung, das ist ja im Moment ein reines Entwicklermodul und braucht entsprechend repräsentative Chips mit ähnlichem Verbrauch für die Evaluierungsphase. Wie gesagt werden das eh Mobilvarianten mit je 100W sein, um das thermische Budget auch auszuschöpfen, dass dann später GP104 ausschöpfen wird. Es ist ja auch nicht gesagt, dass da dann mal voll aktivierte GP104 zum Einsatz kommen werden, es ist ja viel schlauer GP104-salvage zu nehmen und den Takt und damit den Verbrauch berechenbar zu halten als GP106 auf Kante zu betreiben.
Und ich glaube liebe Leute, einige von euch überschätzen GP106 auch stark. Das wird ja kein Chip mit der Größe eines GM206, sondern NV wird da versuchen im Rahmen von 170-180mm² zu bleiben, um die Wirtschaftlichkeit zu gewährleisten. GP104 wird ganz sicher auch kein 400mm²-Monster wie GM204, sondern dürfte sich eher um die 300mm² einpendeln.
GP106 -> ca. 1500 Shader
GP104 -> ca. 2500-3000 Shader
(GP102 -> ca. 5000 Shader?)
(GP100 -> HBM Testballon)
(nach Maxwell-Lesart)

Warum verschwendet Ihr immer noch Eure Zeit mit ihm? Es sollte doch klar sein dass sich ein Geistfahrer ueber die anderen wundert....
So ein respekloses Asigelaber kannst du dir bitte mal abgewöhnen, wie scheisse ist das denn bitte?

Godmode
2016-01-07, 15:46:01
Glaub nicht, dass da extra Evalurierungszeit für den Chip draufgeht. Eher noch mal extra für das gesamte Modulsystem. Und das werden auch keine GP106, sondern GP104 - ich halte die GP106-Therie für eine grandiose Fehleinschätzung wenn ich ehrlich bin. Dass da im Moment GM204 drauf sind ist ja nicht der Rechenleistung geschuldet, die wird eh erst mit Pascal erreicht - das kann Maxwell ja gar nicht leisten bei den veranschlagten 250W schon wegen der Fertigung, das ist ja im Moment ein reines Entwicklermodul und braucht entsprechend repräsentative Chips mit ähnlichem Verbrauch für die Evaluierungsphase. Wie gesagt werden das eh Mobilvarianten mit je 100W sein, um das thermische Budget auch auszuschöpfen, dass dann später GP104 ausschöpfen wird. Es ist ja auch nicht gesagt, dass da dann mal voll aktivierte GP104 zum Einsatz kommen werden, es ist ja viel schlauer GP104-salvage zu nehmen und den Takt und damit den Verbrauch berechenbar zu halten als GP106 auf Kante zu betreiben.
Und ich glaube liebe Leute, einige von euch überschätzen GP106 auch stark. Das wird ja kein Chip mit der Größe eines GM206, sondern NV wird da versuchen im Rahmen von 170-180mm² zu bleiben, um die Wirtschaftlichkeit zu gewährleisten. GP104 wird ganz sicher auch kein 400mm²-Monster wie GM204, sondern dürfte sich eher um die 300mm² einpendeln.
GP106 -> ca. 1500 Shader
GP104 -> ca. 2500-3000 Shader
(GP102 -> ca. 5000 Shader?)
(GP100 -> HBM Testballon)
(nach Maxwell-Lesart)


GP102 muss auch mit HBM kommen, außer man will einen Bandbreitenkrüppel verkaufen.

hasebaer
2016-01-07, 15:50:23
Wenn ein 300mm^2 GP104 als Spielerkarte wieder um die 150W hat, dabei GTX980ti + X erreicht und bei 100W immernoch GTX970 level, wäre das alles auch völlig OK.

Ailuros
2016-01-07, 19:51:17
Hab ich schon irgendwie verdaechtigt mit den DL TOPs:

https://forum.beyond3d.com/posts/1890418/

I found some info regarding the mysterious Deep Learning OPs.
Apparently Pascal can do processing on 8-bit integers.
It's easy to understand that can be up to 4 times faster compared to 32-bit floating point operations.
See: http://www.eetimes.com/author.asp?section_id=36&doc_id=1328609&
"The NVIDIA deep learning algorithms can use specialized mixed precision instructions as low as 8-bit integer to deliver up to 24 trillion operations per second. The 8-bit integer operations are new in the Pascal GPU."

Kein Wunder IMG hat bei der CES ploetzlich 4x Mal so grossen INT8 support aufgetischt fuer compute und u.a. automotive.

Mit INT8 kommt man locker auf 24 trillion ops/sec.

Hübie
2016-01-07, 19:53:31
Wurde doch schon vor einigen Seiten hier gesagt, dass man da nicht sehr viel braucht. Also hat man wohl FP16-Units verbaut.

Ailuros
2016-01-07, 19:56:56
Wurde doch schon vor einigen Seiten hier gesagt, dass man da nicht sehr viel braucht. Also hat man wohl FP16-Units verbaut.

Dedizierte FP16 SPs sind zwar saubillig, aber es ist kein Zwang dafuer. Ich koennte mir auch locker vorstellen dass es eine logische Aufteilung der integer pipeline sein koennte, wobei INT32 oder 2*INT16 oder 4*IND8 (nur ein Beispiel).

NV gibt fuer PX2 selber 8 GFLOPs FP32 oder 16 GFLOPs FP16 oder 24 DL OPs INT8 an.

Novum
2016-01-07, 20:26:19
8 Bit ist ziemlich unnuetz fuer Grafik und fast alles andere. Das ist fuer Neuronale Netze, da reichen 8 Bit fuer die Gewichte.

Ailuros
2016-01-07, 20:31:16
8 Bit ist ziemlich unnuetz fuer Grafik und fast alles andere. Das ist fuer Neuronale Netze, da reichen 8 Bit fuer die Gewichte.

Die DL OPs oben stehen fuer "deep learning ops".

Hübie
2016-01-07, 20:44:26
Die Frage ist ja was mehr Datenpfade "verbrät". Daran wird sich der Designer ja orientieren.

Nightspider
2016-01-07, 20:55:06
Ich habe mal eine Frage da ich hier seit Monaten nicht mehr eingeschaut habe:

Gab es Hinweise in letzter Zeit ob Pascal ACEs besitzen wird?

Hübie
2016-01-07, 21:15:46
Nein, dafür ist es zu früh. Pascal soll sich stark an Maxwell anlehnen, also schließe ich es erst einmal aus, um ggf. positiv überrascht zu werden. Die ACEs sind jedoch einer der Gründe warum die Effizienz bei Radeons nicht besser ist als bei Maxwell.

Nightspider
2016-01-07, 21:20:24
Die ACEs sind jedoch einer der Gründe warum die Effizienz bei Radeons nicht besser ist als bei Maxwell.

Es hieß doch immer das gerade mit den ACEs zukünftig die Effizienz der AMD GPUs deutlich gesteigert werden kann. :confused:

Wobei es mir noch mehr um VR geht da die ACEs ja wohl helfen sollen die Latenzen zu senken.

Bin mal gespannt welche GPUs Mitte 2016 für VR besser geeignet sein werden.

-/\-CruNcher-/\-
2016-01-07, 21:26:22
Die Industrie sieht es ziemlich eindeutig vor allem Hollywood ;)

Siehe Lumiere Award an AMDs LiquidVR R&D Chefin

http://www.amd.com/en-us/press-releases/Pages/lumiere-award-2015oct05.aspx

Hübie
2016-01-07, 22:01:25
Es hieß doch immer das gerade mit den ACEs zukünftig die Effizienz der AMD GPUs deutlich gesteigert werden kann. :confused:

Wobei es mir noch mehr um VR geht da die ACEs ja wohl helfen sollen die Latenzen zu senken.

Bin mal gespannt welche GPUs Mitte 2016 für VR besser geeignet sein werden.

Wenn man sich Ashes of Singularity ansieht kommt es durchaus hin. Heißt aber nicht dass es die beste Lösung in puncto Perf/W ist. Ich meinte mit meiner Aussage den Ist-Zustand.
Dafür das GeForce-Pendants immer einen context switch machen müssen läuft es ja nicht wesentlich schlechter (wobei ich keine aktuellen Zahlen kenne).

Leonidas
2016-01-08, 03:37:16
Und ich glaube liebe Leute, einige von euch überschätzen GP106 auch stark. Das wird ja kein Chip mit der Größe eines GM206, sondern NV wird da versuchen im Rahmen von 170-180mm² zu bleiben, um die Wirtschaftlichkeit zu gewährleisten. GP104 wird ganz sicher auch kein 400mm²-Monster wie GM204, sondern dürfte sich eher um die 300mm² einpendeln.
GP106 -> ca. 1500 Shader
GP104 -> ca. 2500-3000 Shader
(GP102 -> ca. 5000 Shader?)
(GP100 -> HBM Testballon)
(nach Maxwell-Lesart)



Nicht unwahrscheinlich. AMD geht mit kleinen Chipgrößen ran - das wird einen Grund haben. Eventuell wollen beide Chipentwickler am Anfang der 14/16nm-Generation nicht die Endpreise extrem nach oben treiben und kontern damit die teurere Fertigung mit kleineren Chips.

AnarchX
2016-01-09, 10:30:15
Date HS Code Description Origin Country Port of Discharge Unit Quantity Value (INR) Per Unit (INR)
29-Dec-2015 90309090 S-FCBGA 37.5X37.5-M52X52-0.7-2152 THERMAL HEAD, 21202640 Taiwan Banglore Air Cargo NOS 3 690,564 230,188
https://www.zauba.com/import-sfcbga-hs-code.html
restlichen Teile: https://www.zauba.com/import-m52x52-2152-hs-code.html

Das könnte wohl GP104 sein. Scheint ein etwas kleinerer Die als GM204 zu sein, der trotzdem auf einem ziemlich großen Package sitzt und fast 400 Pins mehr hat als GM204.
Vielleicht doch HBM abseits von GP100 und NVLINK, letzeres wäre für eine zeitnahe Dual-GPU-Karte sicherlich nicht vekehrt.

Da kann man nur hoffen, das NV das ganze schnell zum finalen Produkt bringt, ähnliche Teile für GP100 wurden schon im Juni letzten Jahres versendet.
Ausgehend von dem Erscheinen dieser Versendungen für GM204 kann man da wohl 5-6 Monate (Sommer / BTS) annehmen, wenn nichts dazwischen kommt. Bei Big-P wird man wohl das ganze etwas länger reifen lassen.

Godmode
2016-01-09, 10:39:01
Ich ging für GP104 immer von HBM aus. Ohne HBM müssten sie auf GDDR5X setzen, was ich aus Gründen der Energieeffizienz für sehr unwahrscheinlich halte. Wenn alles gut läuft, sollte NV in 6-7 Monaten einen Launch schaffen.

horn 12
2016-01-09, 10:44:33
Nun, vor etwa August 2016 sollte man keine gute Verfügbarkeit erwarten dürfen, zumal da wiederum das Sommerloch nahe ist!
Ähnlich dem AMD Launch damals im Juni 2015.

AnarchX
2016-01-09, 10:46:22
Ich ging für GP104 immer von HBM aus. Ohne HBM müssten sie auf GDDR5X setzen, was ich aus Gründen der Energieeffizienz für sehr unwahrscheinlich halte. Wenn alles gut läuft, sollte NV in 6-7 Monaten einen Launch schaffen.

Ist hat die Frage, wie weit sich GDDR5X auf den Pin-Count auswirkt. Laut Micron sollte es keine Auswirkung haben. Dann gibt es noch solche Varianten wie 320-Bit GDDR5(X) - 400GB/s+.

Pin-Counts:
GK104/GM204: 1745
GK110/GM200: 2397
GP100?: 2621
GP104?: 2152

Dieser ~1400 Pin Chip auf dem relativen großen Package, dürfte wohl Parker gewesen sein, wenn man sich die Bilder von PX2 anschaut und da die GM204 Dummy als Maßstab nimmt.

Nun, vor etwa August 2016 sollte man keine gute Verfügbarkeit erwarten dürfen, zumal da wiederum das Sommerloch nahe ist!
Ähnlich dem AMD Launch damals im Juni 2015.
Ja, die Back-to-School Saison im Spätsommer könnte wohl ein Ziel für beide Hersteller sein.
GP100 könnte wohl lauffähig zur GTC gezeigt werden, aber wie gewohnt mit späterer Verfügbarkeit.

Wer jetzt eine Grafikkarte braucht, sollte wohl kaufen.

horn 12
2016-01-09, 10:52:52
Also GP100 nur knappe 20% über GTX 980TI, sprich mit GTX 980TI @1500 Mhz gleichzusetzen ?

Godmode
2016-01-09, 10:59:20
Also GP100 nur knappe 20% über GTX 980TI, sprich mit GTX 980TI @1500 Mhz gleichzusetzen ?

In AnarchX Beitrag gehts um die Anzahl der Kontakte nicht um 3D-Marks oder Leistung. Wie kommst du auf 20%? 20% Leistungsplus erwarte ich von GP104 verglichen mit GM200.

Ist hat die Frage, wie weit sich GDDR5X auf den Pin-Count auswirkt. Laut Micron sollte es keine Auswirkung haben. Dann gibt es noch solche Varianten wie 320-Bit GDDR5(X) - 400GB/s+.

Pin-Counts:
GK104/GM204: 1745
GK110/GM200: 2397
GP100?: 2621
GP104?: 2152

Dieser ~1400 Pin Chip auf dem relativen großen Package, dürfte wohl Parker gewesen sein, wenn man sich die Bilder von PX2 anschaut und da die GM204 Dummy als Maßstab nimmt.



Danke für Aufstellung. Der 1400 Pin Chip passt dann wirklich gut zu Parker und die mehr Pins bei GP104/GP100 zu HBM/NV-Link, IMHO. GP104 könnte dann zb. nur zwei HBM-Stacks besitzen.

AnarchX
2016-01-09, 10:59:37
Natürlich, weil sich ja auch die Leistung aus den Pins (Kontakte zur Hauptplatine) ableitet. :ulol:

Wenn GP100 für den Endkunden erscheint, dann würde ich ihn bei ~10 TFLOPs / 256-224 TMUs / 1TB/s sehen und eventuelle Game-Works-Optimierungen für die FP16-ALUs erwarten, wodurch das Gesamtpaket bestimmt wieder bei >50% gegenüber Titan X liegt.

Interessant könnte auch sein, ob es einen neuen Anti-Aliasing-Modus gibt, der die Unmenge an Bandbreite vielleicht nutzen kann. Eventuell auch hier 16-Bit OPs für FXAA und Co.

In AnarchX Beitrag gehts um die Anzahl der Kontakte nicht um 3D-Marks oder Leistung. Wie kommst du auf 20%? 20% Leistungsplus erwarte ich von GP104 verglichen mit GM200.
.
GP104 könnte vielleicht auch wieder tiefer eingestuft sein, immerhin wurde GP102 schon genannt. Die 104er GPUs waren ja klassischerweise keine >200/300€ Lösungen, wie es nun bei GK104/GM204 der Fall war, sodass man mit Pascal das ganze vielleicht anpasst.

HOT
2016-01-09, 11:44:59
https://www.zauba.com/import-sfcbga-hs-code.html
restlichen Teile: https://www.zauba.com/import-m52x52-2152-hs-code.html

Das könnte wohl GP104 sein. Scheint ein etwas kleinerer Die als GM204 zu sein, der trotzdem auf einem ziemlich großen Package sitzt und fast 400 Pins mehr hat als GM204.
Vielleicht doch HBM abseits von GP100 und NVLINK, letzeres wäre für eine zeitnahe Dual-GPU-Karte sicherlich nicht vekehrt.

Da kann man nur hoffen, das NV das ganze schnell zum finalen Produkt bringt, ähnliche Teile für GP100 wurden schon im Juni letzten Jahres versendet.
Ausgehend von dem Erscheinen dieser Versendungen für GM204 kann man da wohl 5-6 Monate (Sommer / BTS) annehmen, wenn nichts dazwischen kommt. Bei Big-P wird man wohl das ganze etwas länger reifen lassen.
Vielleicht brauchte das GP100 rev. 2 Package einfach ein paar pins mehr. Oder man hat HBM aufgegeben und bindet wieder extern Speicher an.
Und das schaffen die nicht bis Sommer, das ist vollkommen illusorisch. Ich rechne immer noch damit, dass Pascal Q4 frühestens kommt. AMD ist einfach früher dran dieses Jahr. Die haben ja auch keinen Zugzwang, warum sollten sie das jetzt übers Knie brechen?

Godmode
2016-01-09, 11:52:25
Oder man hat HBM aufgegeben und bindet wieder extern Speicher an.


:facepalm: :freak:

Liest du eigentlich was du selber schreibst? Glaubst du ernsthaft, man kann einfach ein HBM Interface mir nichts dir nichts gegen ein GDDR Interface austauschen? HBM ist für GP100 zu 100% bestätigt, das kannst du sogar schon auf der Nvidia Website nachlesen: http://blogs.nvidia.com/blog/2015/03/17/pascal/

Dural
2016-01-09, 11:55:45
Auf gp102 würde ich nicht viel geben, die xx2 chips tauchten in der gerüchteküche immer wieder auf, neben g92 ist nie einer gekommen.

Ich denke für nv ist dies nur der plan b, sollte AMD was starkes bringen hat man einen grossen only gaming chip in der hinterhand.

AnarchX
2016-01-09, 12:04:09
Auf gp102 würde ich nicht viel geben, die xx2 chips tauchten in der gerüchteküche immer wieder auf, neben g92 ist nie einer gekommen.

Wenn die CUDA-DLL sie nennt, sind die Chips in Entwicklung. Wie auch GK210 dann doch noch kam. Die großen 40nm GT21x wurden halt gecancelt, obwohl es da wohl schon Testkarten gab, wie die damaligen Treiber verrieten. AMD hat da ja eine ähnliche Historie.

=Floi=
2016-01-09, 12:50:58
:facepalm: :freak:

Liest du eigentlich was du selber schreibst? Glaubst du ernsthaft, man kann einfach ein HBM Interface mir nichts dir nichts gegen ein GDDR Interface austauschen? HBM ist für GP100 zu 100% bestätigt, das kannst du sogar schon auf der Nvidia Website nachlesen: http://blogs.nvidia.com/blog/2015/03/17/pascal/

warum sollte es nicht gehen? wäre eine billige und einfache abstufung. anderes PCB und BIOS und schon hat der chip GDDR5.
wenn ich mir zB auch die preisoptimierungen der 970er anschaue, dann wird NV beim nachfolger ebenfalls alle register ziehen, damit die karte sehr günstig in der herstellung wird.

AnarchX
2016-01-09, 12:59:51
Ein GP100 der sowohl 4096-Bit HBM und 384-Bit mitbringt, hätte wohl keine 3072SPs mehr und muss unter 150W bleiben, da er nicht genügend Masse-Pins für die Stromversorgung hätte.
HBM und GDDR5 Interfaces sind nicht kompatibel und müssten parrallel verbaut werden.

GP100 wird auf den HBM2 Speicher warten bzw. auch zu nicht Endkunden-fähigen Preisen verwenden. Darunter wird es interessant.
Eventuell ist GP104 eine sichere GDDR5(X)-Variante mit ~300mm² Die-Size. Wenn man da auf 320-Bit gehen würde, könnte man 320 (8Gbps GDDR5) bis 560GB/s (14Gbps GDDR5X) erreichen. Gegenüber den 224GB/s bei der GTX 980 mehr als ausreichend. GP102 könnte dann vielleicht die optimierte HBM2-Variante sein und im H1/2017 starten.

=Floi=
2016-01-09, 13:56:54
GP100 ist auch nicht die preisklasse für GDDR5. Wenn da die gamerkarte 100€ teurer wird interessiert es diese kundschaft auch nicht. Im HPC-bereich sowieso nicht.
Ich meinte schon die version darunter. Die 970er ist für nv einfach ein großer erfolg und sicherlich eine cash cow.

ich bin auch gespannt, wie viel HBM2 bei nv brigen wird.

ich hoffe eher auf 3072 SPs für einen 104er chip. da hat man ja bisher wieder massiv abgebaut im vergleich zur generation davor. (und trotzdem haben die karten massiv mehr power dank dem breiten frontend.)

BlacKi
2016-01-09, 15:03:10
Also GP100 nur knappe 20% über GTX 980TI, sprich mit GTX 980TI @1500 Mhz gleichzusetzen ?
die verdoppelung der transistoren soll in nur 20% mehr performance enden? lächerlich selbst ohne hbm sollten mindestens 50% drinn sein.

iuno
2016-01-09, 15:38:54
Pin-Counts:
GK104/GM204: 1745
GK110/GM200: 2397
GP100?: 2621
GP104?: 2152
Frage: Es geht hier schon um die Pins der fertigen Packages oder?
Fuer GDDR5 braucht es ja ausser dem Datenbus nochmal etwa gleich viele Pins fuer address- und command-bus. Man spart also mit HBM ggue. einem 384-Bit GDDR5 SI hier etwa 768 Pins am Package ein, wohingegen die Zahl der Kontakte direkt am die zum Interposer natuerlich groesser wird, weil die Busbreite mit HBM viel groesser ist.
Dann kommt vermutlich noch NVLink dazu, aber was sonst?
Ein GP100 der sowohl 4096-Bit HBM und 384-Bit mitbringt, hätte wohl keine 3072SPs mehr und muss unter 150W bleiben, da er nicht genügend Masse-Pins für die Stromversorgung hätte.
Warum braucht man eigentlich so viele Pins fuer die Stormversorgung?

Skysnake
2016-01-09, 16:31:34
Damit du die benötigten Ampere auf den Chip bekommst ohne das dir die Dinger wegrauchen im Extremfall (Ohmsche verluste minimieren natürlich auch damit).

Und natürlich auch noch für eine gleichmäßige Spannungsversorgung. Gerade GND ist da ziemlich wichtig, das für IO die Rückkanäle möglichst nah an den Signalpins ist.

Hübie
2016-01-09, 16:46:33
Schön dass hier immer wieder Produkt, Chips und Leistungsfähigkeit zusammengewürfelt wird. GP104 hat garantiert nicht doppelt soviel Transistoren wie GM200 oder umgekehrt hat GP100 nicht nur 20% mehr Leistung. Dafür setzt keiner eine Produktion auf. Und wenn GM204 cutdown genannt wird, dann bitte doch nicht blödsinnigerweise mit GP104 sondern dem Salvage-part vergleichen.
Und irgendwer faselte was von 200-300 Euro. Die 970 gibt es aktuell bestenfalls im Angebot für 300 Eier ansonsten ist die lange, lange Zeit immer näher an den 350€ dran gewesen. GP104 salvage wird sich eventuell auch daran orientieren, aber 100%ig nicht mit HBM.

Godmode
2016-01-09, 16:52:48
warum sollte es nicht gehen? wäre eine billige und einfache abstufung. anderes PCB und BIOS und schon hat der chip GDDR5.
wenn ich mir zB auch die preisoptimierungen der 970er anschaue, dann wird NV beim nachfolger ebenfalls alle register ziehen, damit die karte sehr günstig in der herstellung wird.

HOT schrieb ja von GP100, daher der Facepalm von mir. Für GP104 könnte GDDR5X schon möglich sein. Die Frage die sich mir hier stellt ist, ob GDDR5X bei hohen Bandbreiten noch effizient genug ist? Von welcher Bandbreite reden wir bei GP104 überhaupt? 2 HBM Stacks mit je 4 GB würden für 512 GB/s sorgen und dabei verdammt wenig Strom verbrauchen. Ein 256 Bit GDDR5X Interface mit 10 GHz Speicherchips würde ja nur 320 GB/s bringen und wohl deutlich mehr Strom verbrauchen.

Sunrise
2016-01-09, 17:17:21
...Eventuell ist GP104 eine sichere GDDR5(X)-Variante mit ~300mm² Die-Size. Wenn man da auf 320-Bit gehen würde, könnte man 320 (8Gbps GDDR5) bis 560GB/s (14Gbps GDDR5X) erreichen. Gegenüber den 224GB/s bei der GTX 980 mehr als ausreichend.
Das halte ich auch für das Wahrscheinlichste, da das die größte Flexibilität zulässt und sich hier die Partner dann auch wieder austoben können. Man kann hier sowohl sehr weit runter (Notebooks) als auch wieder ordentliche Performance-SKUs bauen. Im Prinzip also nichts Neues.

Bei wieder um die 300mm^2 sollte man auch preislich wieder mehr Flexibilität haben, was mit HBM im aktuellen Marktumfeld nicht möglich wäre.

GP102 könnte dann vielleicht die optimierte HBM2-Variante sein und im H1/2017 starten.
Das wäre zusammen mit der "GP100" für Consumer-Spekulation eine zweite Möglichkeit. Allerdings steht die 2 am Ende IMHO eher für die Leistungsklasse, was abseits von der wohl sündhaft teuren 100er-Klasse mit klarem Fokus auf HPC/DL dann doch eher für einen für Consumer optimierten Chip (kleiner) spricht, der da anfängt wo GP104 aufhört.

GP100 mit NVLink und sämtlichem Schnickschnack passt mir einfach nicht ins Consumer-Segment. Das Ding muss nicht nur schnellstmöglich gegen Intel ran, sondern auch die Vormachtstellung von CUDA weiter ausbauen und NV benötigt den zusätzlich nicht nur intern für ihre DL-Infrastruktur, sondern für alle professionellen Systeme die vor allem mächtig Durchsatz brauchen.

GP104 würde also erstmal wieder ausreichen, GP102 muss nachkommen (nach GP100) und in Consumer-freudigen Mengen und Preisen, die NV sicher nicht durch die Decke explodieren lassen will.

AnarchX
2016-01-09, 18:32:17
Ich vermute, dass sich mit Pascal GP104 und GP102 etwas anders darstellen werden. Die 104er Chips sind in ihrer Preisklasse immer höher gerückt und GM204 hatte schon etwas zu viel Abstand zu GM206. Das könnte mit Pascal korrigiert werden.

Ausgehend dass GP104 bei 300mm² bzw. vielleicht gar noch knapp darunter liegen könnte. Sind es hier vielleicht doch nur 5 GPC / 20 SMP ~ 2560CC, kombiniert mit maximal 320-Bit GDDR5(X). Mit einer möglichen Taktsteigerung durch 16FF, kommt man da wohl trotzdem auf ein gesundes Plus gegenüber GM204 und kann zu den GM200-Karten aufschließen. Als GTX 1080 10GiB für $549 im Spätsommer sicherlich kein schlechtes Angebot, was Titan X und dem möglicherweise kommenden Titan X² noch etwas Luft geben würde, bis zum nächsten Titan.

Hübie
2016-01-09, 18:38:41
Ich kann mir seht gut vorstellen dass sich die Nomenklatur jetzt ändert. 1080 klingt blöd. :freak:

@AnarchX: Wenn 300 sqmm stimmen klingt alles logisch und plausibel was du abschätzt. Und GP100 wird imo der erste HPC-Only Chip. Deutet zumindest viel drauf hin.

mksn7
2016-01-09, 18:49:29
Ist nicht GK210 schon der erste HPC only Chip?

Hübie
2016-01-09, 18:53:25
Ähm. Jein. Ist ja im Grunde GK110 mit mehr Cache und leicht modifizierter Cache-Anbindung und irgendwas war da noch.. Der wurde halt mit heißer Nadel gestrickt.

AnarchX
2016-01-09, 18:53:33
@AnarchX: Wenn 300 sqmm stimmen klingt alles logisch und plausibel was du abschätzt. Und GP100 wird imo der erste HPC-Only Chip. Deutet zumindest viel drauf hin.
Pascal hat im Endeffekt doch so viel Potential: 16FF, schnelle 16-Bit Ops und GDDR5X-Verfügbarkeit - da muss man nicht gleich die großen Geschütze auffahren. Es sein denn AMD übt da mit Polaris deutlich mehr Druck aus und sorgt für eine deutlichere Leistungssteigerung pro Euro. Rein über Features und vergleichbar gute Produkte kann AMD im aktuellen Markt offensichtlich nicht verkaufen.

Ist nicht GK210 schon der erste HPC only Chip?
Ja, wäre wohl auch für Gaming geeignet gewesen. Aber zum Zeitpunkt der Verfügbarkeit war der modernere/kostengünstigere GM204 schon Bereit.
Hätte es GK180 zur Marktfähigkeit geschafft, hätte man diesen 2013/14 wohl auch für GeForce veröffentlicht.

kdvd
2016-01-09, 18:55:25
Ich kann mir seht gut vorstellen dass sich die Nomenklatur jetzt ändert. 1080 klingt blöd. :freak:

Ja das klingt so nach nur FullHD (ten-eighty)... ich wäre ja einfach für einen Trennstrich statt der Null.
Also GTX 1-80 (one - eighty).

Hübie
2016-01-09, 19:03:38
Hm. Bin herzlich wenig kreativ um mir da was einfallen zu lassen, aber letztendlich sind Namen wie immer Schall und Rauch. Pascal werde ich mit hoher Wahrscheinlichkeit überspringen. Okay, habe ich schon zu Maxwell gesagt, aber dieses Mal wohl wirklich. :freak:

Ailuros
2016-01-09, 20:16:03
Ähm. Jein. Ist ja im Grunde GK110 mit mehr Cache und leicht modifizierter Cache-Anbindung und irgendwas war da noch.. Der wurde halt mit heißer Nadel gestrickt.

Wo aber man den Gedanken locker weiterentwickeln kann:

* Egal wie "klein" die Aenderungen erscheinen es ist alles andere als billig einen neuen chip nur fuer so etwas aufzulegen.

* Wenn man schon so weit geht ist man schon auf der Haelfte vom eigentlichen Weg da eigentlich nur noch die zusaetzlichen Entwicklungskosten dazukommen fuer groessere Aenderungen als beim GK210.

Hier bleibt aber nach wie vor das Fragezeichen ob der GK210 ein quasi Anteil vom Pascal-Pflaster sprich Zwischenschieber war. Volta wurde um eine Generation verschoben und man verteilte dass was hauptsaechlich original fuer Maxwell gedacht war auf Maxwell und Pascal, wobei GK210 eher als albernes Pflaster fuer die fehlenden FP64 im GM200 dienen sollte.

Es spricht aber nach wie vor nichts gegen obrige These fuer dedizierte HPC chips. Fuer die gamers waere es so oder so eine reine Eulogie endlich mal etwas non 3D Ballast loszuwerden.

BlacKi
2016-01-09, 21:06:16
Hm. Bin herzlich wenig kreativ um mir da was einfallen zu lassen, aber letztendlich sind Namen wie immer Schall und Rauch. Pascal werde ich mit hoher Wahrscheinlichkeit überspringen. Okay, habe ich schon zu Maxwell gesagt, aber dieses Mal wohl wirklich. :freak:
ich bin was namen angeht immer ziemlich einfach gestrickt. ich würde direkt pascal im namen verwenden zb: Nvidia Pascal 50-90, danach Nvidia Volta 150-190.

ich wusste schon vor dem kauf von maxwell das ich pascal definitiv kaufen würde, und maxwell nicht wäre was länger drinn bleibt. ein neuer fertigungsprozess ist halt schon ein sprung. hbm sollte aber schon drinn sein. bin gespannt wien flitzebogen.

Rampage 2
2016-01-10, 16:26:10
Ich vermute, dass sich mit Pascal GP104 und GP102 etwas anders darstellen werden. Die 104er Chips sind in ihrer Preisklasse immer höher gerückt und GM204 hatte schon etwas zu viel Abstand zu GM206. Das könnte mit Pascal korrigiert werden.

Ausgehend dass GP104 bei 300mm² bzw. vielleicht gar noch knapp darunter liegen könnte. Sind es hier vielleicht doch nur 5 GPC / 20 SMP ~ 2560CC, kombiniert mit maximal 320-Bit GDDR5(X).

An ein 384Bit (= bis zu 6GB VRAM) oder gar 512Bit (= bis zu 8GB VRAM) SI für GP104 mit jeweils 6-8Gbps (= 384 - 512GB/sek.) GDDR5 ohne X hat Niemand gedacht? Bei nur 6-8Gbps würde ja der Stromverbrauch nicht gleich über die Decke schießen...

320GB/sek. für GP104 sind doch viel zu wenig - der GM200 hat schon 336GB/sek...

R2

Edit: in diesem Fall würde ich ein 512Bit SI für sinnvoller/wahrscheinlicher halten - weil sich dann ein 8GB VRAM-Ausbau ergibt; das Ganze @ 6-7Gbps würde dann auch energieeffizienter sein als ein GDDR5X mit 256Bit SI und 10-14Gbps, und die Rohleistung für einen GP104 reichen...

Godmode
2016-01-10, 16:28:07
Die Chipfläche ist zu klein für mehr als 256bit, IMHO.

Rampage 2
2016-01-10, 17:00:16
Die Chipfläche ist zu klein für mehr als 256bit, IMHO.

Ah sorry, stimmt ja - SI ist im Chip integriert.

Nun gut, dann kommen wirklich nur GDDR5X und HBM in Frage. Was spricht nochmal gegen ein 2048 oder 4096Bit HBM/HBM2-Interface? Soweit ich in Erinnerung habe, sind beim HBM2-Interface bei gleich großem SI auch größere VRAM-Ausbaustufen (1024Bit mit 4 & 8GB bzw. 2048Bit mit 8 & 16GB VRAM) möglich - dann könnte NV ein 2048Bit HBM2-Interface mit 8GB VRAM anbinden und hätte 512GB/sec. Bandbreite.

Einziger "Nachteil" wäre dann, dass NV nur eine einzige Ausbaustufe anbieten kann... nämlich 8GB VRAM und nicht weniger - aber weniger macht bei GP104 auch keinen Sinn. Und eine 16GB-Ausbaustufe wird NV nicht anbieten/verbieten, um Big Pascal Luftraum zu lassen...

R2

BlacKi
2016-01-10, 17:14:42
"hbm2" ist glaub ich noch nicht soweit um in serie zu gehen, deswegen muss wenn gp104 als erster an den start geht noch mit gddr vertröstet werden, wenn ich das richtig mitbekommen hab. stromverbrauchsprobleme sollte der highend chip allerdings trotz gddr nicht haben, dank 16nm. wäre halt etwas schade, und der vorteil wären halt wohl nur 8gb vram und etwas schneller zu sein als eine 980ti, kein grund von der ti zu wechseln.

ndrs
2016-01-10, 17:24:45
Hängt GM200 so sehr an der Bandbreite, dass GP104 unbedingt so viel mehr benötigt?

AnarchX
2016-01-10, 17:33:01
Hängt GM200 so sehr an der Bandbreite, dass GP104 unbedingt so viel mehr benötigt?
Eher limitiert momentan die Rechenleistung gegenüber der GTX 980. Spätestens mit 10Gbps GDDR5X hätte selbst ein 256-Bit GP104 ein ausreichendes Polster.
Sollte Micron es nicht schaffen den GDDR5X bereitzustellen, hätte man noch die Option auf GDDR5 mit 8Gbps (9Gbps bietet Samsung als Sample). Da ist der Bandbreitenzuwachs natürlich nicht mehr so gigantisch.
Im Vergleich zu aktuellen Angeboten, könnte man da wohl trotzdem ein attraktives Paket schnüren: ~980Ti Leistung @ <200W, 8GiB und die interessanten Pascal Features für wohl ~$499. Wenn AMD das kontert, wäre dafür auch ein MSRP von $399 im Herbst denkbar.

Troyan
2016-01-10, 17:34:47
<200W? GTX980TI verbraucht 225W im Referenzdesign...

AnarchX
2016-01-10, 17:36:14
Eben die 160-170W der 980-Referenz, bei pessimistischer Prognose.

Troyan
2016-01-10, 17:42:06
Äh, das wäre gerademal eine Reduktion um 27% gegenüber der GTX980TI...

AnarchX
2016-01-10, 17:48:39
Wenn man wie AMD die Taktraten auf unter 900MHz festsetzt, wie bei der Polaris Demo, kann man da sicherlich auch mehr erzielen. Deswegen das ganze auch als pessimitische Schätzung (http://www.3dcenter.org/news/nvidias-big-chips-gk210-gm200-gp100-bestaetigt).

Da Apple unter 16FF durchaus Taktgewinne verbuchen konnte, würde mich das auch bei Pascal nicht verwundern. Die Karte könnte vielleicht mit 1,2GHz Base starten und dann häufig in Richtung 1,5GHz boosten. Mit etwas geopferter Effizienz kann man halt auch die Ausbeute bei teuren 16FF Wafern erhöhen.

Troyan
2016-01-10, 17:50:40
Trotzdem wären 170W viel zu viel. Das wäre schlechter als der Gewinn von Maxwell zu Kepler:
GTX980 - 165W
GTX780TI - 225W

Und dabei ist die GTX980 ca. 10% schneller und in vielen neueren Spielen sogar noch mehr...

Godmode
2016-01-10, 18:28:51
Nun gut, dann kommen wirklich nur GDDR5X und HBM in Frage. Was spricht nochmal gegen ein 2048 oder 4096Bit HBM/HBM2-Interface? Soweit ich in Erinnerung habe, sind beim HBM2-Interface bei gleich großem SI auch größere VRAM-Ausbaustufen (1024Bit mit 4 & 8GB bzw. 2048Bit mit 8 & 16GB VRAM) möglich - dann könnte NV ein 2048Bit HBM2-Interface mit 8GB VRAM anbinden und hätte 512GB/sec. Bandbreite.

Einziger "Nachteil" wäre dann, dass NV nur eine einzige Ausbaustufe anbieten kann... nämlich 8GB VRAM und nicht weniger - aber weniger macht bei GP104 auch keinen Sinn. Und eine 16GB-Ausbaustufe wird NV nicht anbieten/verbieten, um Big Pascal Luftraum zu lassen...

R2

Sie könnten schon 2 Stacks mit je 4 GB verbauen und für eine abgespeckte Version dann nur mehr einen Stack. Die Frage ist wirklich, ob das in diesem Preissegment rentabel ist. HBM2 wird wohl anfangs sicherlich nicht ganz billig sein. IMHO hängt alles davon ab, wann der Titan X Nachfolger erscheint. Sollten wir diesen noch in diesem Jahr sehen, könnte ein GP104 etwas langsamer ausfallen. Ich gehe aber davon aus, dass wir Endkunden unsere Titan XX erst nächste Jahr sehen werden. Falls der schnellere GDDR5X ähnlich viel Strom verbraucht wie GDDR5, wird mit ziemlicher Sicherheit GDDR5X auf einem 256 Bit SI eingesetzt werden. Man müsste mal recherchieren, was zb. der Interposer für HBM kostet und was die einzelnen HBM Stacks kosten und im Vergleich dazu, die kosten für GDDR5X.

"hbm2" ist glaub ich noch nicht soweit um in serie zu gehen, deswegen muss wenn gp104 als erster an den start geht noch mit gddr vertröstet werden, wenn ich das richtig mitbekommen hab. stromverbrauchsprobleme sollte der highend chip allerdings trotz gddr nicht haben, dank 16nm. wäre halt etwas schade, und der vorteil wären halt wohl nur 8gb vram und etwas schneller zu sein als eine 980ti, kein grund von der ti zu wechseln.

Samsung will 2016 die Massenproduktion für HBM2 für Grafikkarten starten:
http://www.eteknix.com/samsung-to-start-mass-production-of-hbm2-in-2016/

Hängt GM200 so sehr an der Bandbreite, dass GP104 unbedingt so viel mehr benötigt?

Ein übertakteter GM200 hängt stark an der Bandbreite, wenn ich das richtig in Erinnerung habe. Ein 1500 MHz GM200 profitiert schon deutlich von 4000 MHz VRAM Takt.

Eher limitiert momentan die Rechenleistung gegenüber der GTX 980. Spätestens mit 10Gbps GDDR5X hätte selbst ein 256-Bit GP104 ein ausreichendes Polster.
Sollte Micron es nicht schaffen den GDDR5X bereitzustellen, hätte man noch die Option auf GDDR5 mit 8Gbps (9Gbps bietet Samsung als Sample). Da ist der Bandbreitenzuwachs natürlich nicht mehr so gigantisch.
Im Vergleich zu aktuellen Angeboten, könnte man da wohl trotzdem ein attraktives Paket schnüren: ~980Ti Leistung @ <200W, 8GiB und die interessanten Pascal Features für wohl ~$499. Wenn AMD das kontert, wäre dafür auch ein MSRP von $399 im Herbst denkbar.

Gibt es eigentlich irgendwo Daten, wie sich GDDR5X auf den Stromverbrauch auswirkt? Weil wenn dieser Speicher bei 10 Gbps ähnlich effizient ist, wie zb. GDDR5 bei 7 Gbps, wäre schon viel gewonnen und man könnte sich HBM2 für GP104 wirklich sparen. Mit 10 Gbps käme man immerhin auf eine Bandbreite von 320 GB/s. Die schnellere 12 Gbps Variante käme dann schon auf 384 GB/s. 10-12 Gbps ist das Ziel für die ersten Chips, laut dieser Folie:

https://www.techpowerup.com/217027/gddr5x-puts-up-a-fight-against-hbm-amd-and-nvidia-mulling-implementations.html
https://www.techpowerup.com/img/15-10-26/94a.jpg



Wenn man wie AMD die Taktraten auf unter 900MHz festsetzt, wie bei der Polaris Demo, kann man da sicherlich auch mehr erzielen. Deswegen das ganze auch als pessimitische Schätzung (http://www.3dcenter.org/news/nvidias-big-chips-gk210-gm200-gp100-bestaetigt).

Da Apple unter 16FF durchaus Taktgewinne verbuchen konnte, würde mich das auch bei Pascal nicht verwundern. Die Karte könnte vielleicht mit 1,2GHz Base starten und dann häufig in Richtung 1,5GHz boosten. Mit etwas geopferter Effizienz kann man halt auch die Ausbeute bei teuren 16FF Wafern erhöhen.

Ich erwarte definitiv höhere Takraten. Boost bis 1,5 GHz hört sich dabei sogar realistisch an, wenn man mit der 28nm Generation vergleicht.

Trotzdem wären 170W viel zu viel. Das wäre schlechter als der Gewinn von Maxwell zu Kepler:
GTX980 - 165W
GTX780TI - 225W

Und dabei ist die GTX980 ca. 10% schneller und in vielen neueren Spielen sogar noch mehr...

Die Frage ist, wie sie GP104 dieses mal wirklich positionieren? AnarchX meinte ja ein paar Seiten vorher, dass GP104 wieder dorthin kommt, wo die x04 GPUs normalerweise waren. Dass Nvidia einen x04 Chip im unteren bzw. sogar oberen Highend-Segment verkauft, ist ja erst mit der GTX 680 passiert, früher waren diese Chips immer etwas darunter angesiedelt. Die TDP hängt IMHO somit wirklich sehr stark vom Leistungssegment ab.

Troyan
2016-01-10, 18:33:20
Bei einem reinen Shrink ohne große Anpassung sollte sich GP106 (GM204@16nm) so verhalten wie GM206 zu GK104. Also ca. 85W für ca. 90% der GTX980TI Leistung.

AnarchX
2016-01-10, 18:49:36
Bei einem reinen Shrink ohne große Anpassung sollte sich GP106 (GM204@16nm) so verhalten wie GM206 zu GK104. Also ca. 85W für ca. 90% der GTX980TI Leistung.
Damit wäre die Leistung pro Watt aber fast 2,5-mal so hoch. Das schafft vielleicht AMD unter 16/14FF, ausgehend von den GCN2/3-Architektur.
Aber bei Nvidia gibt es diverse Roadmaps und eben den Link von oben, welche die FP32-Leistung um 40-70% wachsen sehen.
Der Mixed-Mode und bessere Concurrent-Fähigkeiten könnte da ihren Tribut zollen, aber langfristig, wenn in Spiele implementiert deutliche Steigerungen ermöglichen.

Gibt es eigentlich irgendwo Daten, wie sich GDDR5X auf den Stromverbrauch auswirkt? Weil wenn dieser Speicher bei 10 Gbps ähnlich effizient ist, wie zb. GDDR5 bei 7 Gbps, wäre schon viel gewonnen und man könnte sich HBM2 für GP104 wirklich sparen. Mit 10 Gbps käme man immerhin auf eine Bandbreite von 320 GB/s. Die schnellere 12 Gbps Variante käme dann schon auf 384 GB/s. 10-12 Gbps ist das Ziel für die ersten Chips, laut dieser Folie:

Demnach soll der Verbrauch pro übertragenem Bit sinken: https://www.techpowerup.com/img/15-10-26/94b.jpg
Zumal der 10Gbps GDDR5 wohl nur mit 1,25/2,5GHz läuft könnte da der Energieverbrauch im Speicherkontroller auch sinken.

Troyan
2016-01-10, 18:59:11
Damit wäre die Leistung pro Watt aber fast 2,5-mal so hoch. Das schafft vielleicht AMD unter 16/14FF, ausgehend von den GCN2/3-Architektur.

16nm FF schafft eine Stromreduzierung von ca. 40% (http://www.tsmc.com/english/dedicatedFoundry/technology/16nm.htm) bei gleicher Transistorenanzahl. Damit verringert sich der Verbrauch von 160W auf 96W. Erlaubt der Prozess eine höhere Taktung (z.B. 15%) gegenüber 28nm, dann reduziert sich der Abstand zur GTX980TI auf ca. 10%.
Das ist "ohne" Architekturanpassung.

Godmode
2016-01-10, 19:01:10
Damit wäre die Leistung pro Watt aber fast 2,5-mal so hoch. Das schafft vielleicht AMD unter 16/14FF, ausgehend von den GCN2/3-Architektur.
Aber bei Nvidia gibt es diverse Roadmaps und eben den Link von oben, welche die FP32-Leistung um 40-70% wachsen sehen.
Der Mixed-Mode und bessere Concurrent-Fähigkeiten könnte da ihren Tribut zollen, aber langfristig, wenn in Spiele implementiert deutliche Steigerungen ermöglichen.


Demnach soll der Verbrauch pro übertragenem Bit sinken: https://www.techpowerup.com/img/15-10-26/94b.jpg
Zumal der 10Gbps GDDR5 wohl nur mit 1,25/2,5GHz läuft könnte da der Energieverbrauch im Speicherkontroller auch sinken.

Dann spricht wirklich nichts mehr gegen GDDR5X auf GP104. GP102 als 1080 Ti könnte dann mit 2x4GB HBM2 Stacks auskommen und hätte immerhin 512 GB/s. Eine Titan auf GP102 Basis könnte 4x4 GB HBM2 Stacks besitzen. GP100 könnten sie mit 4x4GB HBM2 Stacks bestücken, was 1 TB/s an Bandbreite ergeben würde. Die Abstufungen wären allerdings ziemlich groß.

horn 12
2016-01-10, 19:29:17
Wer unbedingt auf HBM umsteigen will muss wohl bis Herbst 2016 zur Konkurrenz wechseln.
GTX 980TI 1300 bis 1400 Mhz Performance wird´s wohl werden zur Back To School, aber da sind wir bei weitem Nicht bei 60 Bilder unter 4K, ein Wunsch welcher noch lange (Mindestens 1 Jahr) auf sich warten lassen wird.

Nun, jene welche sich eine GTX 980TI gekauft haben, hatten sind nicht umsonst belohnt worden.

Hübie
2016-01-10, 20:51:38
16nm FF schafft eine Stromreduzierung von ca. 40% (http://www.tsmc.com/english/dedicatedFoundry/technology/16nm.htm) bei gleicher Transistorenanzahl. Damit verringert sich der Verbrauch von 160W auf 96W. Erlaubt der Prozess eine höhere Taktung (z.B. 15%) gegenüber 28nm, dann reduziert sich der Abstand zur GTX980TI auf ca. 10%.
Das ist "ohne" Architekturanpassung.

An welcher Stelle dieses Marketing-Geblubber liest du das genau? :confused:

TSMC's 16FF+ (FinFET Plus) technology can provide above 65 percent higher speed, around 2 times the density, or 70 percent less power than its 28HPM technology. Comparing with 20SoC technology, 16FF+ provides extra 40% higher speed and 60% power saving.

Troyan
2016-01-10, 20:55:00
70% weniger Verbrauch.
Das sind entweder nur noch 30% von 100% 28nm oder aber 58% von 100% 28nm.

Hübie
2016-01-10, 21:16:32
Da steht "oder". Also entweder doppelte Dichte oder ...

Troyan
2016-01-10, 21:18:18
Richtig. Bei gleicher Anzahl an Transistoren verringert sich der Verbrauch um 70%.

Hübie
2016-01-10, 21:36:01
Sorry, ich blicks nicht. Wo kommen die 58% her? :redface: Steh echt gerade auf dem Schlauch. X-D

Troyan
2016-01-10, 21:46:21
70% weniger:
Entweder es sind 30% von 100% - 160W -> 48W oder
es sind 58% (1 / 1,7) von 100% - 160W -> 93W.

TSMC macht keine richtige Angabe.

/edit: Wobei natürlich der Gewinn geringer ist, da Bandbreite ebenfalls Strom benötigt.

Hübie
2016-01-10, 21:51:21
:facepalm: Ja, jetzt seh ichs. Sorry. Steh heut echt aufm Schlauch :redface:

Godmode
2016-01-11, 08:38:11
http://www.3dcenter.org/news/nvidias-gp104-chip-geht-derzeit-anscheinend-seine-testphase

Damit ist eigentlich bestätigt, dass GP104 keinen HBM/HBM2 Speicher haben wird, das Package ist einfach viel zu klein dafür.

Dural
2016-01-11, 09:38:10
Wie so ist das ein Beweis dafür?
GP104 hätte so wie so höchstens nur 2 HBM Die und wenn der GP104 Die etwas rechteckig ist dürfte das immer noch passen.

Aber ja, sieht wirklich nicht nach HBM aus, eventuell stimmt die Theorie mit GP102 halt doch. Aber wenn GP104 256Bit hat, wie so sollte man den Chip kleiner machen als es noch der GM204 war? Und was ist mit dem anderen Chip der ja grösser war passiert?

Godmode
2016-01-11, 09:52:41
Wie so ist das ein Beweis dafür?
GP104 hätte so wie so höchstens nur 2 HBM Die und wenn der GP104 Die etwas rechteckig ist dürfte das immer noch passen.

Aber ja, sieht wirklich nicht nach HBM aus, eventuell stimmt die Theorie mit GP102 halt doch. Wenn GP104 256Bit hat, wie so sollte man den Chips kleiner machen als es noch der GM204 war?

GM206 war rechteckig. Weiß man wie groß das Package eines GM206 ist? Der Chip selber hatte ja nur 227mm2.

Kleiner macht man den Chip aus Kostengründen, denke ich mal. Für GP104 wird ja eine Flache von ~300mm2 spekuliert.

robbitop
2016-01-11, 10:35:51
Die Chipfläche ist zu klein für mehr als 256bit, IMHO.

256 bit gingen auch bei G71 mit knapp unter 200 qmm. 384 bit sollten bei 300 qmm kein Problem darstellen, wenn es dir hierbei um die pad limitierung geht.

Je nach Verfügbarkeit von gddr5xwürde ich aus Preisgründen aber auch eher auf 256 bit gddr5x tippen. Aber 384 bit gddr5 mit 6gb wären ebenso möglich.

An dem HBM Preisproblem ist nicht nur der Speicher schuld sondern (und vor allem) der Interposer der noch oben drauf kommt.

ndrs
2016-01-11, 11:23:33
An dem HBM Preisproblem ist nicht nur der Speicher schuld sondern (und vor allem) der Interposer der noch oben drauf kommt.
Ich kann mir nicht vorstellen, dass der sooo viel kostet. In welchem Prozess werden die denn gefertigt? 65nm? 90nm? Das Sollte ja vollkommen ausreichen. Ein Preistreiber wird mMn noch das zusammenfügen sein.

Kriton
2016-01-11, 11:48:29
Aber wenn GP104 256Bit hat, wie so sollte man den Chip kleiner machen als es noch der GM204 war?

Kosten - hast ja schließlich bessere Packdichte, so dass man dennoch mehr Transistoren verwenden kann.

Godmode
2016-01-11, 12:03:06
256 bit gingen auch bei G71 mit knapp unter 200 qmm. 384 bit sollten bei 300 qmm kein Problem darstellen, wenn es dir hierbei um die pad limitierung geht.

Je nach Verfügbarkeit von gddr5xwürde ich aus Preisgründen aber auch eher auf 256 bit gddr5x tippen. Aber 384 bit gddr5 mit 6gb wären ebenso möglich.

An dem HBM Preisproblem ist nicht nur der Speicher schuld sondern (und vor allem) der Interposer der noch oben drauf kommt.

Ich finde 384 bit einfach sehr unwahrscheinlich bei einem so kleinen Chip.

robbitop
2016-01-11, 13:56:23
Ich kann mir nicht vorstellen, dass der sooo viel kostet. In welchem Prozess werden die denn gefertigt? 65nm? 90nm? Das Sollte ja vollkommen ausreichen. Ein Preistreiber wird mMn noch das zusammenfügen sein.

Ein Wafer ist teuer und die Größe der Interposer ist relaitv groß (Fijiis war >1000 sqmm). Hinzu kommen die notwnedigen Prozesschritte für die mBumps. Das ist neustes Know How und neuste Fertigungstechnik die nicht ansatzweise abgeschrieben ist. Beides kommt on top.
Ich finde 384 bit einfach sehr unwahrscheinlich bei einem so kleinen Chip.

Das werden die Kosten und die Verfügbarkeit entscheiden. Technisch gesehen sind 300sqmm ausreichend für 384 bit. Nur darum, ging es mir. Ich persönlich tippe auch auf 256 bit. Das hat nur technisch nichts mit der Chipgröße sondern mit der preisbildung und der Gewinnspanne zu tun in diesem Fall.

Dural
2016-01-11, 14:16:46
Also ich kann mir beim besten willen nicht vorstellen das ein Chip mit 1TB/s kommt und die Gaming Version darunter nur 256Bit GDDR5 hat.

Wie gesagt finde ich da die Theorie mit dem GP102 HPM deutlich sinnvoller und da wäre ein GP104 mit 256Bit wahrscheinlich auch "eine stufe kleiner" als es noch GM204 und GK104 war. Ähnlich wie G92 / G94

Wobei ich immer noch davon ausgehe das es nicht der GP104 Chip ist ;)

sudey
2016-01-11, 14:20:07
Hi, everybody!!! Excuse me for bad English.I from Russia

I think that full-fledged GP104 will compete with TITAN X OC. Will be approximately so - GP 104 OC = 980sli.

On GP104 there will be no HBM2. You don't forget that Nvidia Maxwell have a technology memory compression. There where 220-256 GB/s become real 280-300 GB/s. It would be good if at gp 104 is 384 GDDR5X, but will be only 256 GDDR5X.

Nvidia PASCAL can leave at the end of Q2 2016 of year to begin before sale than AMD. gp 104 can detain an exit only one-GDDR5x

Godmode
2016-01-11, 14:50:30
Das werden die Kosten und die Verfügbarkeit entscheiden. Technisch gesehen sind 300sqmm ausreichend für 384 bit. Nur darum, ging es mir. Ich persönlich tippe auch auf 256 bit. Das hat nur technisch nichts mit der Chipgröße sondern mit der preisbildung und der Gewinnspanne zu tun in diesem Fall.

Laut Zauba hat das Ding um etwa 400 Pins mehr als der alte GM204. Das könnte dann schon ein Indikator für ein Speicherinterface mit mehr als 256 Bit sein. Ein GDDR5 Chip hat laut Micron 170 Kontakte davon sind 36 Daten Pins und 10 Adress Pins, der Rest ist Ground und Spannungsversorgung. Falls die alte SLI-Bridge übern Haufen geworfen wird, könnten ein paar der mehr Kontakte auch für NVLink reserviert sein. Im Falle eines GP104 dann aber nur mit 1-2 Links und nicht 4 wie bei GP100.

Also ich kann mir beim besten willen nicht vorstellen das ein Chip mit 1TB/s kommt und die Gaming Version darunter nur 256Bit GDDR5 hat.

Wie gesagt finde ich da die Theorie mit dem GP102 HPM deutlich sinnvoller und da wäre ein GP104 mit 256Bit wahrscheinlich auch "eine stufe kleiner" als es noch GM204 und GK104 war. Ähnlich wie G92 / G94

Wobei ich immer noch davon ausgehe das es nicht der GP104 Chip ist ;)

Der Gamingchip braucht auch nicht solche hohe Bandbreiten. die 1TB/s sind ja nur für die sehr hohen DP Leistungen von Nöten.

Von allem hallo!!! Ich aus Russland entschuldigen Sie für mein Deutsches

Ich denke dass so-vollwertig der Chip GP204 wird wird mit TitanX von einem Wort 1080=TitanX OC oder 980sli=1080 OC wetteifern.

Auf GP204 wird HBM2 nicht. Sie vergessen Sie nicht, dass es bei Nvidia Maxwell solche Technologie wie die Kompressionen des Gedächtnisses gibt. Und dort wo 220-256 GB/s nach der Gegenwart 280-300 GB/s. Natürlich wäre es wünschenswert damit es bei GP204 384 GDDR5X war, aber wird 256 GDDR5X.


Nvdia kann PASCAL in der Mitte - Ende Q2 2016 ausgeben, um früher zu beginnen, als AMD Polaris zu verkaufen. Den Ausgang aufhalten kann nur ein - GDDR5X

If possible, use english language, because - as you said - auto translation to german doesn't work very well.

ndrs
2016-01-11, 15:55:21
Ein Wafer ist teuer und die Größe der Interposer ist relaitv groß (Fijiis war >1000 sqmm). Hinzu kommen die notwnedigen Prozesschritte für die mBumps.
Bei den µBumps gebe ich dir recht. Das hatte ich in meinem Kopf komischerweise dem Zusammensetzen zugeordnet.
Was die Dies an sich angeht, wäre ich mir da nicht so sicher. Waferpreise sind erst in den letzten Prozessgenerationen so stark gestiegen. Man erinnere sich an GT200, der teilweise für unter 150€ verramscht wurde. Darin enthalten war aber noch die gesamte Karte und der Chip war ebenfalls noch wesentlich komplexer (mehr Metal-Layer usw) Einen Interposer für ein 300sqmm DIE und zwei HBM-Stacks würde ich auf ähnliche Größe schätzen wie GT200.

Hat jemand ne grobe Übersicht über die Entwicklung der Wafer-Preise?

Rampage 2
2016-01-11, 16:35:06
256 bit gingen auch bei G71 mit knapp unter 200 qmm. 384 bit sollten bei 300 qmm kein Problem darstellen, wenn es dir hierbei um die pad limitierung geht.

Je nach Verfügbarkeit von gddr5xwürde ich aus Preisgründen aber auch eher auf 256 bit gddr5x tippen. Aber 384 bit gddr5 mit 6gb wären ebenso möglich.


Ich hoffe nicht, dass es ein 320Bit-Krüppel wird - ich hasse diese ungeraden Speicherausbauten.

zu GDDR5X: Micron hat ja behauptet, dass 10-12Gbps das Initialziel ist - ist das Letztere (12Gbps) genauso realistisch wie 10Gbps? 10Gbps (GDDR5X) ist einfach zu geringer Abstand zu 8Gbps (GDDR5)...

Meine Hoffnung ist ein GP104 mit 256Bit SI @ 12Gbps GDDR5X - 384GB/sek. Bandbreite sollten definitiv für einen Pascal Performance-Chip ausreichen und wären immerhin fast 15% mehr als beim GM200...

R2

Godmode
2016-01-11, 16:44:49
Ich hoffe nicht, dass es ein 320Bit-Krüppel wird - ich hasse diese ungeraden Speicherausbauten.

zu GDDR5X: Micron hat ja behauptet, dass 10-12Gbps das Initialziel ist - ist das Letztere (12Gbps) genauso realistisch wie 10Gbps? 10Gbps (GDDR5X) ist einfach zu geringer Abstand zu 8Gbps (GDDR5)...

Meine Hoffnung ist ein GP104 mit 256Bit SI @ 12Gbps GDDR5X - 384GB/sek. Bandbreite sollten definitiv für einen Pascal Performance-Chip ausreichen und wären immerhin fast 15% mehr als beim GM200...

R2

Was hast du für ein Problem mit 320 Bit? Solange es nicht so dämlich gelöst ist, wie bei der GTX 970, ist es überhaupt kein Problem. Vor allem wären damit 10 GB VRAM möglich, außer sie sind wieder geizig und verbauen nur 5 GB, was alles anderes als zeitgemäß wäre.

256 Bit mit 10-12 Gbps GDDR5X klingt für mich am wahrscheinlichsten, wie ich schon ein paar Seiten vorher schrieb.

sudey
2016-01-11, 16:45:11
Meine Hoffnung ist ein GP104 mit 256Bit SI @ 12Gbps GDDR5X - 384GB/sek. B

Let's not forget about memory compression yet. I she even think it will become better than at Maxwell

Godmode
2016-01-11, 17:44:12
Let's not forget about memory compression yet. I she even think it will become better than at Maxwell

Yes that's possible, if they add more patterns for their delta color compression. I wouldn't expect too much, because the high yielding tweaks were already made in previous generations.

HOT
2016-01-11, 19:18:23
Ist GDDR5X überhaupt JEDEC-spezifiziert? Ich glaub eher, dass NV ganz normal GDDR5 verbauen wird, ist die Frage ob 8GB/sec mit 256 Bit (würde für 2,5k Shader reichen) oder gleich 384Bit. Die Pinanzahl würd für zweiteres sprechen. Dass GP104 irgendwo zwischen 2,5 und 3K Shader liegen muss nach Maxwell-Rechnung sollte denke ich klar sein.
Hätt nicht gedacht, dass NV das jetzt so forciert, respekt. Die wollen um jeden Preis am Ball bleiben und scheuen keine Kosten.
Die brauchen den Chip ja auch für Auto-Gedöns wie wir wissen ;).

AnarchX
2016-01-11, 19:31:07
Wie wäre es mit Suchen? https://www.jedec.org/standards-documents/results/GDDR5X

Micron hat den GDDR5X für den Spätsommer angekündigt. Alternativ kann Samsung vielleicht bis dahin auch 9Gbps GDDR5 liefern.
Für eine Cost-Down-Version des kleinen Pascal würde mich auch 8Gbps GDDR5 erstmal nicht wundern.



Aber Leo hat das im Hauptseiten-Artikel nochmal gut aufbereitet, es ist wohl doch nur ein 37.5x37.5mm Package, die außeren Maße ist der Wasserkühler.

Um das nochmal zur vervollständigen:
GK104/GM204: 1745 40x40
GK110/GM200: 2397 45x45
GK106/GM206: 1428 35x35
GP100?: 2621 55x55
GP104?: 2152 37.5x37.5

Die Pin-Dichte ist da ziemlich hoch.

Godmode
2016-01-11, 19:31:11
Also laut Micron soll er 2016 für GPUs verkauft werden.

Kartenlehrling
2016-01-11, 20:04:47
Die Franzosen behaupten das uns Nvidia beschissen hat bei der Präsentation.

http://www.extremetech.com/gaming/220818-nvidias-drive-px-2-prototype-allegedly-powered-by-maxwell-not-pascal
Nvidia’s Drive PX 2 prototype allegedly powered by Maxwell, not Pascal

Troyan
2016-01-11, 20:08:00
Verdammt, diese Franzosen. Wären wir nur so schlau. ;D
Schau ein paar Seiten vorher. Haben wir auch schon entdeckt.

Godmode
2016-01-11, 20:09:15
Das haben wir schon vor ein paar Seiten geschrieben, IIRC.

Kartenlehrling
2016-01-11, 20:19:25
aahh ja 10 Seiten, soo weit schau ich nicht zurück.

Ailuros
2016-01-11, 20:26:07
Verdammt, diese Franzosen. Wären wir nur so schlau. ;D
Schau ein paar Seiten vorher. Haben wir auch schon entdeckt.

Rache ist Blutwurst (sprich es gibt stets schlimmeres) http://semiaccurate.com/2016/01/11/nvidia-pascal-over-a-year-ahead-of-1416nm-competition/

uhhhmmmm bon apetit :weg:

dildo4u
2016-01-11, 20:27:53
Deshalb nennt sich das Prototype,das Ding wird vermutlich nich vor 2017 in ein Finales Auto gebaut werden genug zeit Maxwell durch Pascal zu ersetzen.Davon ab lässt Heute das auch noch gar kein Gesetzgeber zu komplett Autonom zu fahren,das kann sich bis 2018 oder 2020 ziehen.

Ailuros
2016-01-11, 20:42:59
Deshalb nennt sich das Prototype,das Ding wird vermutlich nich vor 2017 in ein Finales Auto gebaut werden genug zeit Maxwell durch Pascal zu ersetzen.Davon ab lässt Heute das auch noch gar kein Gesetzgeber zu komplett Autonom zu fahren,das kann sich bis 2018 oder 2020 ziehen.

Man kann unter Prototyp viel verstehen wenn man's auch eifrig verteidigen will, aber da NVIDIA keine Handtaschen herstellt und es sich nicht um ein aesthetisches Vorzeige-Dingsbums handelt muss es wohl eine technischer Prototyp sein wobei dieser mit dem Endprodukt ein weitgehend identisches Versuchsmodell sein sollte; im strengen Sinn steht Prototyp fuer ein Vorserien-Modell. Man drueckt dann halt das eine Auge zu und vergisst die "tollen" 24 DL TOPs je gesehen zu haben und ein weiteres Auge zum eingeschaetzen Stromverbrauch denn ein Pascal chip der 3 oder 4 TFLOPs FP32 liefern kann wird wohl schwer so viel Strom verbrauchen wie ein GM204. Im jeglichen anderen Fall ist es eher eine Attrappe bzw. Phantom.

Was wahr ist ist dass die meisten bis zur Integrierung in finalen Geraeten sich an das Zeug gar nicht mehr erinnern werden. Ich hab zwar persoenlich nicht gegen solche Vorstellungen wie ich schon sagte, aber ein guter Schuss Albernheit ist schon dabei.

basix
2016-01-11, 22:06:38
Rache ist Blutwurst (sprich es gibt stets schlimmeres) http://semiaccurate.com/2016/01/11/nvidia-pascal-over-a-year-ahead-of-1416nm-competition/

uhhhmmmm bon apetit :weg:

Haha ich lach mich schlapp ;D Da hat Charlie den Nagel auf den Kopf getroffen

Skysnake
2016-01-11, 22:28:54
Charlie schlachtet solche Sachen schon immer sehr genüsslich aus. ;D

Wobei er es hier schon fast zu weit treibt für meinen Geschmack. Irgendwann ist es dann nicht mehr lustig.

prinz_valium
2016-01-11, 22:40:38
sollen sie halt bilder / render zeigen :D
oder sagen, dass die platform so aussehen wird, es aber noch nicht den finalen chips / Spezifikationen entspricht

Sunrise
2016-01-11, 22:40:43
Charlie schlachtet solche Sachen schon immer sehr genüsslich aus. ;D

Wobei er es hier schon fast zu weit treibt für meinen Geschmack. Irgendwann ist es dann nicht mehr lustig.
Meinste?

Also ich bin ja sehr angetan von der Art wie NV immer zeigt, dass sie die Geilsten sind, nur sollte man sich dann nicht ins eigene Knie schießen.

Ich bin mir nichtmal sicher, ob NV das mittlerweile extra macht um die Presse zu belustigen. Also echt jetzt, vielleicht, nunja... ;)

NV würde es gut stehen, insbesondere Jensen, wenn er nicht immer einen auf Mr. Superserious machen würde. Steve Jobs hats vorgemacht.

So ein Ausrutscher lässt sich doch immer gut als Anspielung nutzen, dann bleibt die Vorstellung wenigstens im Gedächtnis. Scheint ihnen aber wohl irgendwie peinlich zu sein. Dabei haben sie das eigentlich nicht nötig.

Troyan
2016-01-11, 22:45:04
sollen sie halt bilder / render zeigen :D
oder sagen, dass die platform so aussehen wird, es aber noch nicht den finalen chips / Spezifikationen entspricht

Die hätten den Pascal-Mockup von 2014 drauf bauen sollen. :freak:

Aber immer wieder lustig, wie Leute sich über so etwas aufregen und das dann immer wieder tun - selbst wenn die Zukunft vollkommen anders kommt. :rolleyes:

sudey
2016-01-12, 00:23:43
GP 204
We should expect
2500-3200 cores of CUDA REFRESH
6-8 gigabytes of video of memory
GDDR5X 256 bit-70%. If it is optimistical to look there can to be GDDR5X 384 bit-15%. GDDR5 384 BIT of 15%

If Nvidia wants to exploit from 16nm, perhaps we can receive good productivity. Whether we will receive productivity - whether Nvidia depends on that will do the second line of Pascal?

Schaffe89
2016-01-12, 03:09:03
Did they improve color compression? Maxwell as GM 204 is a little bit bandwidth limited.
So my humble optionion which specs should be expected:
GTX 1080

3072 cuda cores
8 GDDR5x
256bit interface
<=448 GB/s
1:16 DP Rate
96 ROPs
192 TMUs
~1200mhz
200 Watt TDP

GTX 980 Ti + 30% ~334mm² die size

Watercooled version ~1400mhz 275 Watt TDP to compete against greenland.

Release mid September 2016

GP102 in Q2 2017 for HPC market

sudey
2016-01-12, 05:15:21
Did they improve color compression?

In principle, have to improve compression of memory on comparison with Maxwell. I think if at Maxwell compression of memory reached at 50gb/s, perhaps they will improve to 100gb/s.

There is a question.
Why on GP104 memory HBM because of that WILL not be POSSIBLE that she is dear or because of for that that on in deficiency?

Ailuros
2016-01-12, 06:42:39
Charlie schlachtet solche Sachen schon immer sehr genüsslich aus. ;D

Wobei er es hier schon fast zu weit treibt für meinen Geschmack. Irgendwann ist es dann nicht mehr lustig.

Erste Reaktion zum obrigen war mich in die Zunge zu beissen; da ich aber keine Gewissensbisse haben will: LOOK WHO'S TALKING!!! :freak: ;D

Meinste?

Also ich bin ja sehr angetan von der Art wie NV immer zeigt, dass sie die Geilsten sind, nur sollte man sich dann nicht ins eigene Knie schießen.

Ich bin mir nichtmal sicher, ob NV das mittlerweile extra macht um die Presse zu belustigen. Also echt jetzt, vielleicht, nunja... ;)

NV würde es gut stehen, insbesondere Jensen, wenn er nicht immer einen auf Mr. Superserious machen würde. Steve Jobs hats vorgemacht.

So ein Ausrutscher lässt sich doch immer gut als Anspielung nutzen, dann bleibt die Vorstellung wenigstens im Gedächtnis. Scheint ihnen aber wohl irgendwie peinlich zu sein. Dabei haben sie das eigentlich nicht nötig.

Das fettgedruckte ist dann eben der Nagel auf den Kopf getroffen.

horn 12
2016-01-12, 07:39:45
@Schaffe

Woher stammen diese "Infos"
Falls es so kommen sollte, in etwa leistungstechnisch wie eine GTX 980TI übertaktet auf etwa 1600 Mhz.
aber dann sollte der Preis nicht unter 649+ Dollar rauskommen.

Würde die 1080 Karte eher auf GTX 980TI Performance sehen für 449 bis 499 Dollar.
Dafür aber auch die 8GB Speicher!

Ailuros
2016-01-12, 08:04:13
@Schaffe

Woher stammen diese "Infos"
Falls es so kommen sollte, in etwa leistungstechnisch wie eine GTX 980TI übertaktet auf etwa 1600 Mhz.
aber dann sollte der Preis nicht unter 649+ Dollar rauskommen.

Würde die 1080 Karte eher auf GTX 980TI Performance sehen für 449 bis 499 Dollar.
Dafür aber auch die 8GB Speicher!

Ιch weiss zwar nicht woher das Zeug kommen soll, aber nur zu Erinnerung wird KEIN IHV so bloed sein und auf einem FF Prozess sowohl die Packdichte bis fast zum maximum ausnutzen und gleichzeitig die Frequenzen brutal erhoehen.....

-----------------------------------------------------------------------------------------------------------------------------------------

Kleine Unterbrechung fuer Werbung und Amuesierung:

http://www.3dcenter.org/news/nvidias-gp104-chip-geht-derzeit-anscheinend-seine-testphase
>>>
http://wccftech.com/nvidia-gp104-pascal-zauba/ (wobei komischerweise ploetzlich 3DCenter zu Beyond3D wurde....die Kerle sind nicht nur verdammt schlampig beim abschreiben sondern auch strohdumm...
>>>
http://videocardz.com/58101/nvidia-gp104-and-first-polaris-gpu-supposedly-spotted-on-zauba schwer zu glauben dass es der Abschreibfehder von WhyCry entgangen waere....Junge haben die Webseiten dort draussen "Quellen".....

und als Kirsche auf die heutige Sahnetorte: http://wccftech.com/nvidia-pascal-trouble/ Pascal hat Probleme. Wenn Ihr es bis jetzt nicht wusstet, dann habt Ihr selbstverstaendlich auch nicht die Haelfte des IQs der wccftech Authoren :P

:weg:

Schaffe89
2016-01-12, 11:50:32
Das entspricht etwa einer verdreifachten GTX 960, wo du hier bei 1200mhz hohe Frequenzen siehst, ist mir schleierhaft.
Packdichte dürfte, wenn man das kleinere Interface und ein paar GPGPU Befindlichkeiten abzieht doch hinkommen.
Bin mir ziemlich sicher, dass es genau 3072 Shader sein werden, grob gesagt ein schlankerer GM100.
Auf einem der Zauba Einträge war auch ein Eintrag mit einer Wasserkühlung, könnte auf einen schnelleren Chip hindeuten, damit man Greendland schlagen kann, denn ich denke ähnlich wie damals bei der 7970ghh vs GTX 680 dass man an AMD mit dem kleineren Chip knapp scheitert.

Das dürften realistische Specs sein, mit nur 1000mhz Chiptakt wird man es an einer 980 Ti mit einem 300 bis 350 mm² Die nicht weit vorbeischaffen.
Die großen Effizienzverbesserungen kamen mit Maxwell, Pascal wird da nicht soviel drauflegen können, nur ein Zwischenschritt mehr oder weniger gleiche µarchitektur.

HBM packt man sowieso nicht mit rein, das dürfte alles auf GDDR5x rauslaufen, wenn es nach meinem bescheidenen Verständnis geht, dann lohnt sich HBM sowieso keine Spur, zumindest bei Gamingkarten.

Nakai
2016-01-12, 20:27:40
Erstmal muss die Frage geklärt werden, welche Pascal-GPUs auf PX2 verbaut werden. Das Board zeigt zwei GM204-Chips, welche im MXM-Format etwa 100W verbrauchen. Ein GM204-Full wird etwas mehr schlucken. Ich würde mich mal auf ~75W festlegen, da viele andere Komponenten ebenfalls Strom verbrauchen.

Ein PX2-Modul hat zwei solcher GPUs verbaut, dazu noch zwei SOCs, welche auch etwas Strom benötigen dürften. Die 250W sind damit ziemlich gut getroffen.

Und nun, wie kommt man auf diese seltsamen Zahlen beim Drive PX2? 24 DL TOPs? Das ist Faktor 3 mehr als die angegeben FLOP-Zahl. Wie kommt NV auf diese Wunderzahlen? Mehrere Theorien:

1) Alles auf die beiden GPUs: Kurz 4 TFLOPs für eine GPU. Was wird hier genau benannt? Ist es FP32? Oder schon FP16? FP16 ist für ANNs und DL anscheinend ausreichend. Ergo wird es sich hierbei um FP32 handeln.
4 TFLOPs für eine GPU sind etwa 2000SPs bei 1GHz. Das würde gut zu einem GM204 in Finfet passen, welcher dann GP106 heißt. Das wurde hier schon besprochen. Passt die angegebene TDP diezbezüglich? Wohl eher nicht. Ist es also doch GP104 der auf PX2 kommt?

2 x 2000 SPs x 2 FP32-FMA = 8 TFLOPs

2) 2 SOCs und 2 GPUs bieten diese TFLOP-Zahl. Tegra X2 (ich nenn den mal so) wird etwa 1 TFLOP FP32 bei 1GHz und 512 SPs bieten. Ergo nur 3 TFLOPs pro GPU dann, was etwa 1500 SPs sind. Eine GPU mit 75W mit Finfet und 1500SPs? Unwahrscheinlich. Oder seeeehr seltsam.

2 x 1500 SPs x 2 FP32-FMA + 2 x 512 SPs x 2 FP32-FMA = 8 TFLOPs

3) 24 DL TOPs für das Modul, was Faktor 3 der angegebenen 8 TFLOPs ist. FP32 zu 2x FP16 ist wahrscheinlich, ergo wären 16 DL TOPs korrekter. Wo kommen die zusätzliche 8 FL TOPs her? Von den Tegra-SOCs? Hier müsste jeder Tegra SOC etwa 4 DL TOPs liefern, was bei einem Split von FP32 zu 2xFP16 und prognoszierten 512 SPs pro SOC insgesamt nur 20 DL TOPs sind.

Was versteht NV unter DL TOPs? FP16 OPs?

4) Pascal secretsauce: Wenn NV wirklich den Begriff DL TOP haben möchte, dann bitte schön.

Ein künstliches Neuron berechnet sich so:

act(∑ w⋅x + b)

Eine Summe der gewichteten Vorgängerwerte mit einem zusätzlichen Bias-Wert. Das wird in einer Aktivierungsfunktion eingespeist, welche zB ReLu, logistische oder die hyperbolische Aktivierungsfunktion sein kann. Derzeit benutzt man hauptsächlich noch die ReLu weil am einfachsten.

Die Summe kann man über einer Baumstruktur summieren und hier benötigt man viele Additionen. Ich könnte mir vorstellen, dass NV die Pascal-SPs ein FMA + ADD ausführen lassen kann. Ergo man führt zusätzliche DL OPs ein.
Dadurch hätte man den Faktor 3, wenn man alles sehr naiv rechnet.;)

€: Ahja, damit wären wohl die Pascal SPs deutlich fetter als erwartet. Irgendwas stimmt hier gar nicht.

5) Oder man ein Tegra SOC kann 4 DL OPs pro einem FLOP?

Troyan
2016-01-12, 20:41:22
EInfach alles ignorieren. :D

Die einzig, interessante Zahl sind die 8TFLOPs bei "GPUs".

Verbaut werden da wohl Pascal-GPUs mit 2048SPs und 1000MHz. Entweder GP106 oder GP104 und der große hat dann 4048SPs.

AnarchX
2016-01-12, 21:02:21
Schätzung 8 TFLOPs:

Tegra: 2x 384SPs @ 0.8GHz = 1.2 TFLOPs
Pascals: 2x ~2048SPs @ 0.85GHz = 6.8 TFLOPs

Taktraten und Spannungen wohl etwas konservativer für Automotive.

Power Budget 300W:
Tegra: 2x 20W
GDDR5: 2x 16W
Pascals: 2x ~80W
Boards/IO: ~18W

Der Mixed Mode und die Zusatz ALUs für DLOPS kosten hier vielleicht doch mehr Die-Size und Verbrauch, sodass GP104 auf dem ersten Blick wie ein geshrinkter GM204 aussieht.

Godmode
2016-01-12, 21:13:16
EInfach alles ignorieren. :D

Die einzig, interessante Zahl sind die 8TFLOPs bei "GPUs".

Verbaut werden da wohl Pascal-GPUs mit 2048SPs und 1000MHz. Entweder GP106 oder GP104 und der große hat dann 4048SPs.

4096 wäre gegenüber GM200 doch etwas schwachbrüstig. Das wäre nur eine Steigerung von Faktor 1,3. Wenn du noch 10% mehr Takt einrechnest, wäre man gerade mal bei Faktor 1,43 und das trotz neuem Prozess. Damit wir in der Praxis wieder unsere 60% Mehrleistung erhalten, muss das Ding auf dem Papier mindestens 70-80% schneller sein. Also entweder mehr SPs oder deutlich mehr Takt oder bessere SPs.

AnarchX
2016-01-12, 21:27:44
4096 wäre gegenüber GM200 doch etwas schwachbrüstig. Das wäre nur eine Steigerung von Faktor 1,3. Wenn du noch 10% mehr Takt einrechnest, wäre man gerade mal bei Faktor 1,43 und das trotz neuem Prozess. Damit wir in der Praxis wieder unsere 60% Mehrleistung erhalten, muss das Ding auf dem Papier mindestens 70-80% schneller sein. Also entweder mehr SPs oder deutlich mehr Takt oder bessere SPs.
GameWorks wird es wohl richten müssen und den Mixed Mode entsprechend ausnutzen.:ulol: Aber der Faktor 1,4 (http://www.3dcenter.org/news/nvidias-big-chips-gk210-gm200-gp100-bestaetigt) FP32 ist ja kein unbekannter.

Die rohen Zahlen für PX2 und die zahlreichen Umbauten die NV angekündigt hat mit Folgen, könnten da wohl die Erwartungen an die Rohleistung etwas dämpfen.

Vielleicht sieht es wirklich so aus:
GP100 - 500mm² - 4096SPs / 32SMP / 4096-Bit
GP102 - 400mm² - 3072SPs / 24SMP /4096-Bit (zwei 2048-Bit Interposer Varianten zur Yield-Steigerung, H2 2017 dann auch mit 4096-Bit)
GP104 - 280mm² - 2048SPs /16SMP / 256-Bit GDDR5(X)
GP106 - 200mm² - 1280SPs /10SMP /192-Bit GDDR5(X)
GP107 - 100mm² - 768SPs / 6SMP /128-Bit GDDR5(X)

GPU-Taktraten auf Referenzkarten bei 1,2-1,5GHz.

horn 12
2016-01-12, 21:58:06
Kannst noch bitte die Performance Gewinne ergänzen/ andeuten für die jeweiligen GPU Chips in etwa, wohin die Reise in etwa bitte geht ?

AnnoDADDY
2016-01-12, 22:07:25
GameWorks wird es wohl richten müssen und den Mixed Mode entsprechend ausnutzen.:ulol: Aber der Faktor 1,4 (http://www.3dcenter.org/news/nvidias-big-chips-gk210-gm200-gp100-bestaetigt) FP32 ist ja kein unbekannter.

Die rohen Zahlen für PX2 und die zahlreichen Umbauten die NV angekündigt hat mit Folgen, könnten da wohl die Erwartungen an die Rohleistung etwas dämpfen.

Vielleicht sieht es wirklich so aus:
GP100 - 500mm² - 4096SPs / 32SMP / 4096-Bit
GP102 - 400mm² - 3072SPs / 24SMP /4096-Bit (zwei 2048-Bit Interposer Varianten zur Yield-Steigerung, H2 2017 dann auch mit 4096-Bit)
GP104 - 280mm² - 2048SPs /16SMP / 256-Bit GDDR5(X)
GP106 - 200mm² - 1280SPs /10SMP /192-Bit GDDR5(X)
GP107 - 100mm² - 768SPs / 6SMP /128-Bit GDDR5(X)

GPU-Taktraten auf Referenzkarten bei 1,2-1,5GHz.

kann ich mir nicht vorstellen, das bei der neuen Fertigung in der ersten Generation nur im besten Fall 30% performancevorteil von gp104 zu gm204 raus kommt das ist in meinen Augen zu pessimistisch.
Ich denke:
gp104 3072shader
gp102 4096+ shader
gp106 2048 shader
gp107 1280 shader
So viel Fläche wird mixed precision auch nicht fressen.
Und gp100 hat dann eher 5120+ shader

Troyan
2016-01-12, 22:12:14
Mixed-Precision wird über die vorhandenen 32FP Einheiten realisiert. Das sollte fast ein Nullsummenspiel sein - siehe Tegra X1.