nVidia - Volta - 2017/2018 (GV100, Xavier, ...) [Archiv] - Seite 4

cat

2017-05-30, 20:47:14

Ja hat Volta, in der V100 sind die FP32-Cores nichtmehr INT32-fähig.
Dafür kann jetzt INT32 und FP32 simultan/gleichzeitig im SM ausgeführt werden.

Es ist möglich, dass die FP32-Cores noch FP16 können aber ich halte es auch für möglich, dass FP16 nurnoch in den Tensor-Cores geht. ERGÄNZUNG: Also könnte evtl. auch die Hälfte der Tensor-Cores erhalten bleiben.

Volta hat aber eine neue ISA, also Programier-Sprache.

Ich kann nur raten in wie weit der Punkt der Scheduler-Verdopplung und LD/ST-Verdopplung umgesetzt wird.
Ich bin mir aber 100% sicher, das die Zusammenlegung der Shared/Tex/L1-Caches kommt, weil es gleichzeittig mit einfacherem Programmieren auchnoch die Performance von Anwendungen erhöht die den Shared-Cache nie genutzt haben.
siehe Seitenmitte:
Enhanced L1 Data Cache and Shared Memory
https://devblogs.nvidia.com/parallelforall/inside-volta/
SM in der Volta V100
http://images.anandtech.com/doci/11367/volta_sm.png

gravitationsfeld

2017-05-30, 20:53:54

Ich bin skeptisch was separate Int-Einheiten in einem Consumer-Chip angeht. Andererseits sind Int-ALUs ziemlich klein. Vielleicht war es insgesamt ein Gewinn es zu trennen. Machen CPUs ja auch.

cat

2017-05-31, 00:24:31

wie gesagt neue ISA bei der V100, aber evtl. bleibt im Consumer-Bereich alles wie bei Maxwell und Pascal inkl. der simplen steigerung der SM pro GPC und die Fähigkeit der Cores in einem von 3 verschiedenen Modi zu operieren INT/FP32/2xFP16

- Zumindest für eine Änderung von 1 zu 2 SM pro TPU wie das im GP100 gemacht wurde spricht die erwähnung des Begriffs TPU (TexturProcessingUnit) auch in Folien zur Consumer GP104 und GP102

- Dazu würde eine Umgestaltung der SM selbst nach 2 Generationen quasi SM-Baugleichheit schon Sinn machen wenn sie Vorteile bringt.

- Einer der Vorteile wäre z.B. die Cache-Änderung

- Eine Einheitliche neue ISA für ALLE Volta-Chips bedingt auch das sie grundlegend gleich aufgebaut sind

- Die nach Maxwell weitere Simplifizierung der Scheduler könnte tatsächlich die feste Trennung von INT32 und FP32 und FP16 zur Bedingung haben, wer weiß :confused:

gravitationsfeld

2017-05-31, 04:48:19

FP16 sind paired instructions die auf den FP32-Einheiten laufen. Ich bezweifle dass sie das aendern. Das bedingt schon das register file (16k x "32 bit").

Hübie

2017-05-31, 13:21:14

Das ist doch schon save. Aber bei INT wäre ich mir auch nicht so sicher, was consumer chips betrifft. Beim GV100 ist es durchaus sinnvoll die separat zu schalten, was auch irgendwie die Fläche erklären würde.
Hab neulich eine Liste der Größen von SRAM-Zellen in den verschiedenen Prozessen gesehen (inkl. Gate-Distanz). Weiß zufällig jemand was ich meine und wo das ist. Hab's mir nicht gespeichert. :(

gravitationsfeld

2017-05-31, 18:02:57

Die Flaeche von GV100 ist eher den Tensor-Einheiten und FP64 zuzuschreiben.

Troyan

2017-05-31, 18:07:21

Die Fläche wächst, weil es mehr Einheiten gibt. Der Chip ist 33% größer bei 50% mehr Ausführungseinheiten. Im Grunde ist Volta viel effizienter als Pascal, da auch der L2 Cache um 50% vergrößert wurde.

Hübie

2017-05-31, 18:32:18

Die Flaeche von GV100 ist eher den Tensor-Einheiten und FP64 zuzuschreiben.

Die Summe aus allen Teilen ;)
Ob die Tensor-Einheiten nicht gezielt verschaltete Blöcke der Recheneinheiten (also der normalen ALUs) sind steht ebenfalls noch offen im Raum. Angesichts der Prozessmetriken, dem Zuwachs an ALUs, TMU, ROPs und bekannten neuen Features ist es sogar ziemlich wahrscheinlich.

gravitationsfeld

2017-05-31, 18:32:41

cat

2017-06-02, 13:19:54

Eine Alternative wäre folgendes, mit den üblichen INT/FP switch Einheiten wie in Maxwell und Pascal
Sozusagen GP100-Style TPC mit 2xSM aber dann mit der Volta-Cacheänderung [Ergänzung: Hier allerdings nur je 64KB wie in GP100 SMs, eine Consumer Karte mit 256KB Cache pro TPC wäre wohl overkill.]

Der einzige Punkt der mich hier umtreibt ist, dass zwar bei Maxwell schon die Aussage getroffen wurde, dass 1 der 2 Dispatcher pro 32-Core-Array diese alleine versorgen könnte ABER was ist mit dem Versorgen der LD/ST-Einheiten ?
Stemmen die einzelnen Dispatcher in Volta das? ... Ist die Leistung von LD/ST unabhängig vom Dispatcher ? soo viele Fragen ...
http://img.techpowerup.org/170602/volta-tpc.png

Hübie

2017-06-02, 15:08:16

INT-ALUs sind winzig gegenueber den Float-Einheiten. Vor allem gegenueber FP64. Eine FP64 ist nicht doppelt so gross wie FP32. Eher 3-4x.

Falls jemand ne Quelle braucht: http://research.ijcaonline.org/volume94/number17/pxc3896184.pdf

Netter Fund. Auf der Abbildung 23 und 24 sieht man die Größenunterschiede, aber 3-4 mal so groß sieht das nicht aus, wenn man für beide gleiche Skala annimmt. Ich kann mir vorstellen, dass mittlerweile auch der Aufbau bzw. die Anordnung schon leicht angepasst wurde. So etwas deutete mal ein Ingenieur an (~2015 muss das gewesen sein).
@cat: Ich bin mir nicht sicher ob ich dich richtig verstanden habe, aber der Durchsatz der LD/ST Einheiten steigt ja mit dem Takt, welcher wiederum mit den ALUs korreliert.

cat

2017-06-02, 16:32:31

gravitationsfeld

2017-06-02, 17:06:00

Netter Fund. Auf der Abbildung 23 und 24 sieht man die Größenunterschiede, aber 3-4 mal so groß sieht das nicht aus, wenn man für beide gleiche Skala annimmt. Ich kann mir vorstellen, dass mittlerweile auch der Aufbau bzw. die Anordnung schon leicht angepasst wurde. So etwas deutete mal ein Ingenieur an (~2015 muss das gewesen sein).
@cat: Ich bin mir nicht sicher ob ich dich richtig verstanden habe, aber der Durchsatz der LD/ST Einheiten steigt ja mit dem Takt, welcher wiederum mit den ALUs korreliert.
Es ist nicht die gleiche Skala. FP64 ist 3.12mm2, FP32 0.93mm2.

Skysnake

2017-06-02, 17:47:22

Und euch ist schon aufgefallen, dass das Werte von nem 180nm Prozess sind?

Das kann man nur sehr bedingt auf etwas aktuelles übertragen

gravitationsfeld

2017-06-02, 18:43:53

Was soll der Prozess daran viel aendern? Der Gate-Count ist 3-4x so hoch.

Skysnake

2017-06-02, 20:27:27

Der gate counte sagt nur nicht mehr so viel aus wie bei 180nm in Bezug auf die Fläche und den Stromverbrauch.

Zudem kann sich der gate Count auch ändern durch den fanout

Hübie

2017-06-03, 00:14:16

Ich hab mich gefragt (ohne mich vorher zu informieren) ob der/die Dispatcher einen LOAD oder STORE veranlassen.
Bei den Varianten würde ein Dispatcher verantworlich sein für:
V100:
8xFP64, 16xINT, 16xFP32, 2xTensorCore, 8xLD/ST, 4xSFU

mein Bild 2:
1xFP64, 32xFP32, 8xLD/ST, 8xSFU
(FP64 wie üblich nicht eingezeichnet)

SOLLTE EINER ALLEINE PACKEN ODER?

Im Vergleich zu Maxwell und Pascal:
Anzahl der Scheduler pro 32er-Array bleibt gleich
Anzahl der Dispatcher pro 32er-Array von 2 auf 1

WEITERHIN:
Gesamtmenge Cache pro TPC:
Maxwell/Pascal: (2x24KB)+96KB = 144KB
mein Bild 2: 2x64KB = 128KB

Registermenge pro TPC gleich

Ich denke bei Volta kann man das auch noch gar nicht sagen, da ein Dispatcher ja auch mehr issue ports haben kann, statt z.B. 2*dual issue 1*quad issue (2 load, 2 store von jeweils 2 warps pro cycle) oder so ähnlich. Bin da auch nicht so in der Materie. :freak:
Edit: Auf die schnelle noch was gefunden->GF106 (GTX 560 Ti) konnte statt 2 instruction dispatches pro 2 cycles gleich derer 4 dispatcher alle 2 clock cycles. Kepler behielt dies iirc auch bei und bei Maxwell oder Pascal kann ich es dir einfach nicht beantworten, da ich mich nie mit deren Architektur so wirklich auseinander gesetzt habe. Wahrscheinlich wird sich da nicht viel getan haben.
Aber mal aus Neugier: Warum bemisst du dem so viel Bedeutung bei? Gab es da in der Vergangenheit bekannte Schwächen oder Lücken?

Es ist nicht die gleiche Skala. FP64 ist 3.12mm2, FP32 0.93mm2.

Dachte ich's mir schon irgendwie. Fiel mir am Tablet nur nicht auf. :redface: Dennoch mal interessant in so eine ALU hinein zu blicken. Was war noch mal Barrel Shifter? Kenne nur einen Funnel Shifter... ähneln die sich oder ist es nur der Wortlaut?

Der gate counte sagt nur nicht mehr so viel aus wie bei 180nm in Bezug auf die Fläche und den Stromverbrauch.

Zudem kann sich der gate Count auch ändern durch den fanout

Was ist fanout? :D Und meinst du mit Gate count die Anzahl der Gates oder die Distanz?

Skysnake

2017-06-03, 09:34:54

Fanout ist die Anzahl der Transistoren die man mit einem Transistor treibt.

Bei den alten nodes war das eine gute Größe da man den interconnect vernachlässigen konnte. Heute ist das nicht mehr so, weil der interconnect etwa den gleichen Anteil am loads hat. Zudem ist die Gefahr von congestion deutlich größer. Sieht man an der 64 bit Alu btw auch gut. Das wird viel mehr geroutet ls in der 32 bit Version

Edit sagt:
Jeder funnel Shifter kann auch einen barrel shifter ersetzen aber nicht umgekehrt.

Der funnel Shifter hat also mehr Funktionalität als ein barrel shifter

dildo4u

2017-06-03, 11:54:24

Schätze mal damit könnte man Mainstream Volta noch 2017 bringen.

https://www.computerbase.de/2017-06/gddr5x-16-gbps-gddr6-2018-micron/

cat

2017-06-03, 19:39:05

Ich bemesse keiner einzelnen Sache zuviel Aufmerksamkeit, es geht darum, das nach Maxwell nun weiteroptimiert wird. Ich will hier niemanden mit "Klein-Klein" nerven. sorry

Es geht um Architekturveränderungen, die quasi die IPC und vermutlich auch den maximalen Takt noch weiter steigern könnten, bei weiter gesteigerter Energieeffizienz.

https://devblogs.nvidia.com/parallelforall/5-things-you-should-know-about-new-maxwell-gpu-architecture/

The Maxwell SM retains the same number of instruction issue slots per clock and reduces arithmetic latencies compared to the Kepler design.

Each warp scheduler still has the flexibility to dual-issue
(such as issuing a math operation to a CUDA Core in the same cycle as a memory operation to a load/store unit),
but single-issue is now sufficient to fully utilize all CUDA Cores.

Hübie

2017-06-03, 19:52:35

Oh nein, so war es gar nicht gemeint. Du nervst keineswegs damit. Ist ja sogar interessant sich mal die einzelnen Bausteine genauer anzusehen um Performancegewinne abschätzen zu können. :)

dildo4u

2017-06-08, 17:18:17

Inside Volta Tech pdf

http://on-demand.gputechconf.com/gtc/2017/presentation/s7798-luke-durant-inside-volta.pdf

Troyan

2017-06-19, 13:08:18

nVidia hat V100 für PCIe genauer spezifiert: https://www.nvidia.com/en-us/data-center/tesla-v100/

14 TFLOPs in 250W. Das ist rund 47% höher als bei P100 mit 9,5 TFLOPs.

dildo4u

2017-06-20, 18:03:05

Volta Architektur Whitepaper

http://images.nvidia.com/content/volta-architecture/pdf/Volta-Architecture-Whitepaper-v1.0.pdf

Hübie

2017-06-20, 23:10:00

"Whitepaper" :D

ndrs

2017-06-20, 23:20:05

Der Hintergrund ist weiß. Wo ist dein Problem? :P;D

Hübie

2017-06-21, 00:13:52

Nix nix. Alles gut. Gibt ja durchaus ein paar nette Infos wie z.B. das nun 48 Clients auf einer GPU hängen können oder das hier von Seite 33:

Although Unified Memory in Pascal GP100 improved CUDA programming in many ways, Volta GV100 further improves efficiency and performance of Unified Memory. A new Access Counter feature keeps track of the frequency of access that a GPU makes to memory located on other processors. Access Counters help ensure memory pages are moved to the physical memory of the processor that is accessing the pages most frequently. The Access Counters feature can work
in either NVLink- or PCIe-connected GPU-CPU or GPU-GPU architectures, and can work with different types of CPUs including Power 9, x86, and others.

Nette Bettlektüre. :D

cat

2017-06-21, 21:05:07

Ich hab mir gestern das ganze Whitepaper gegeben und bin jetzt 100% sicher, dass:
Die Gaming-Karten vom SM-internen-Aufbau exakt wie die V100 abzüglich Tensor-Cores sein werden.

Das komplett flexibilisierte INDEPENDENT THREAD SCHEDULING
"jeder Thread bekommt einen ProgramCounter und Call-Stack" System.

Macht es geradezu erforderlich, dass die INT- und FP-Einheiten getrennt werden. Wegen massenhafter Addressgenerierung in INT, jetzt gleichzeitig zu FP möglich.

Die INT-Einheiten können INT32, INT16, (wahrscheinlich auch INT8 4xSpeed)
Die FP-Einheiten können FP32 und FP16
jeweils mit verdoppelnder Geschwindigkeit.

Es macht bestechenden Sinn, dass jedes Viertel eines SM 1 FP64-Einheit bekommt und wie V100 4 SFU hat.

Das wird sehr effizient und sehr schnell Games rendern können.

Hübie

2017-06-21, 21:23:23

Ich bin mir gar nicht sicher ob es in dem Ausmaß für Gaming-Karten nötig ist und auch ob man 64 FP32 pro SM nebst dedizierten INT32 ALUs beibehalten wird stelle ich mal in Frage.
Dazu können andere hier aber sicherlich mehr sagen als ich es je beurteilen könnte. Ist nur so aus der Hüfte heraus geschossen.
Über getrennte workloads sind wir uns einig. Man nähert sich GCN in einigen Teilaspekten an. Preisfrage: Was genau mach die SFU bzw. in wie fern haben die sich seit Kepler geändert?

Rampage 2

2017-06-21, 23:31:32

Ich hab mir gestern das ganze Whitepaper gegeben und bin jetzt 100% sicher, dass:

Die Gaming-Karten vom SM-internen-Aufbau exakt wie die V100 abzüglich Tensor-Cores sein werden.

Besteht denn nicht noch die Möglichkeit, dass die Gamer/Consumer-Varianten von Volta noch mehr Recheneinheiten spendiert bekommen - wenn der HPC-Ballast wegfällt, bleibt Platz für zusätzliche FP32-SPs übrig.

GV100 soll 896 (14 x 64) SPs pro GPC haben - ich hatte bei GV104/102/106 auf 1024 (16 x 64) SPs pro GPC gehofft. Etwa so:

GV106: 2048 SPs
GV104: 4096 SPs
GV102: 6144 SPs

Hatte NV beim GM200 ja auch so gemacht...

R2

Hübie

2017-06-21, 23:58:22

Rampage 2

2017-06-22, 00:43:26

Wer sagt dass dies nicht so kommen wird? :| Vergleiche mal GP100 mit GP102, schau auf die Die-area und sage mir dann dass man nicht irgendwo bei 6 GPC á 8 SMs mit je 128 FP32 ALUs heraus bringen könnte. ;)

Ich weiß es ja nicht - beim GM200 hat es einen professionellen Ableger ja nie gegeben, bei dem das Verhältnis des GPCs hätte anders sein können. Ich lese halt immer seit Jahren, dass bei NV die Consumer-Varianten dieselbe Anordnung bzw. dasselbe Verhältnis aufweisen, wie die Profi-Varianten. Der GP100 hat ja dieselbe Anzahl und dasselbe Verhältnis an SPs, ROPs und TMUs - mit dem Unterschied, dass bei GP100 ein SM-Cluster 64 statt 128 SPs enthält und stattdessen die Anzahl der SMs exakt doppelt so viel ist wie bei GP102, um an die gleiche Anzahl an Recheneinheiten zu kommen...

Aber falls doch, dann:

GV102: 6144 SPs @ 2GHz und 24GB GDDR6 @ 768GB/sek. Bandbreite, yay! :ujump2:

R2

Gipsel

2017-06-22, 00:54:35

Das komplett flexibilisierte INDEPENDENT THREAD SCHEDULING
"jeder Thread bekommt einen ProgramCounter und Call-Stack" System.

Macht es geradezu erforderlich, dass die INT- und FP-Einheiten getrennt werden. Wegen massenhafter Addressgenerierung in INT, jetzt gleichzeitig zu FP möglich.Das hat überhaupt nichts miteinander zu tun. Das ist unabhängig.

Hübie

2017-06-22, 01:31:30

Ich weiß es ja nicht - beim GM200 hat es einen professionellen Ableger ja nie gegeben, bei dem das Verhältnis des GPCs hätte anders sein können. Ich lese halt immer seit Jahren, dass bei NV die Consumer-Varianten dieselbe Anordnung bzw. dasselbe Verhältnis aufweisen, wie die Profi-Varianten. Der GP100 hat ja dieselbe Anzahl und dasselbe Verhältnis an SPs, ROPs und TMUs - mit dem Unterschied, dass bei GP100 ein SM-Cluster 64 statt 128 SPs enthält und stattdessen die Anzahl der SMs exakt doppelt so viel ist wie bei GP102, um an die gleiche Anzahl an Recheneinheiten zu kommen...

Aber falls doch, dann:

GV102: 6144 SPs @ 2GHz und 24GB GDDR6 @ 768GB/sek. Bandbreite, yay! :ujump2:

R2

GM200 gibt es als Quadro M6000 und Tesla M40. :wink: 2GHz halte ich für etwas zu optimistisch. Genau wie 24 GB GDDR6. Aber wir dürfen ja hier wild spekulieren.

Rampage 2

2017-06-22, 05:03:05

GM200 gibt es als Quadro M6000 und Tesla M40. :wink:

Nun, die TXM war genauso aufgebaut wie der QM6000 (96/192/3072 ROPs/TMUs/SPs) und TXp ist genauso aufgebaut wie QP6000 (96/240/3840 ROPs/TMUs/SPs) bis auf die 64 statt 128 SPs pro SM - dafür wurde die Anzahl der SMs angeglichen, um auf dieselbe Anzahl an SPs zu kommen wie die TXp...

Hältst du es trotzdem noch für möglich, dass NV bei den Consumer-Voltas die Anzahl der Recheneinheiten pro GPC erhöht? (durch Entfallen von HPC-Ballast)

2GHz halte ich für etwas zu optimistisch. Genau wie 24 GB GDDR6. Aber wir dürfen ja hier wild spekulieren.

Zumindest bei der Speichermenge würde es mich nicht wundern, wenn NV sich diesmal an den Eiern packt und dem GV104 bzw. GV102 gleich volle 16 bzw. 24GB VRAM spendiert - schließlich kauft man sich eine GV102 weniger wegen dem zusätzlichen VRAM, sondern eher wegen dem Zusatz an Leistung:wink:

R2

Fragman

2017-06-22, 08:48:47

Zumindest bei der Speichermenge würde es mich nicht wundern, wenn NV sich diesmal an den Eiern packt und dem GV104 bzw. GV102 gleich volle 16 bzw. 24GB VRAM spendiert - schließlich kauft man sich eine GV102 weniger wegen dem zusätzlichen VRAM, sondern eher wegen dem Zusatz an Leistung:wink:

ich glaub die 24gb kann man gleich wieder in die schublade packen. nachdem was bei pascal lief, wird das sicher nicht passieren. ich geh auch nicht von 16gb aus, mit glueck werdens 12 werden, eventuell auch nur 11?

nv hat sich offenbar dazu entschieden, gaming und pro noch deutlicher zu trennen. und beim gaming muss man leider sagen, das 12 ausreichend sind, zumindest fuer 4k. den rest bedient dann das voellig ueberteuerte x100 silizium. ich koennte mir aber ne titan v vostellen die 16 haben koennte, so als semi pro loesung, wie bisher halt. preislich wird die nochmals teurer, da die user das gerne ausgeben (auch aufgrund mangels alternativen und nein, vega ist keine, da kein cuda).

Hübie

2017-06-22, 09:06:54

Die Anzahl an Recheneinheiten pro GPC stieg in der Vergangenheit konstant an, während die Anzahl an Rasterizer bei 5 (GK110) bzw. 6 (GM200, GP102) blieb. Ausschließen würde ich es halt nicht.
Volta soll ziemlich effizient sein, wenn man erste Munkeleien glauben kann. Was da in die 150-165-Watt-Klasse passt dürfte ziemlich interessant werden.

cat

2017-06-22, 21:10:35

2080 Ti , 5376 FP32 Cores (+ 5376 INT32 Cores) eine 2080 non-Ti käme auf 3584 Cores je FP32 und INT32
http://img.techpowerup.org/170622/gtxvoltablockdiagram.png

http://img.techpowerup.org/170622/gtx-volta-sm.png

Rampage 2

2017-06-22, 21:50:28

2080 Ti , 5376 FP32 Cores (+ 5376 INT32 Cores) eine 2080 non-Ti käme auf 3584 Cores je FP32 und INT32

Bleibt denn kein Platz übrig für noch ein paar SMs im GPC, wenn man den HPC-Kram entfernt? (was bei Consumer-Voltas wohl der Fall sein wird...)

R2

Digidi

2017-06-22, 21:57:55

Bleibt denn kein Platz übrig für noch ein paar SMs im GPC, wenn man den HPC-Kram entfernt? (was bei Consumer-Voltas wohl der Fall sein wird...)

R2

Nop 800mm2 Chip ist viel zu teuer deshalb wird man das bei den 5376 Shadern lassen und auf 600mm2 gehen. Man wird vielleicht noch 1-2 Rasterizer einfügen um die Shader besser auszulasten.

Hinzu kommt das die Tensor Cores nicht so groß sind das da viel Fläche frei wird.

Rampage 2

2017-06-22, 22:04:39

Nop 800mm2 Chip ist viel zu teuer deshalb wird man das bei den 5376 Shadern lassen und auf 600mm2 gehen. Man wird vielleicht noch 1-2 Rasterizer einfügen um die Shader besser auszulasten

Wenn man beim GV102 von 800mm2 auf 600m2 runtergeht, dann passen da 6 GV100-GPCs definitiv nicht rein - da müsste NV dann definitiv die Anzahl der SMs pro GPC ändern... aber nicht nach oben, sondern nach unten;D

R2

Hübie

2017-06-22, 22:08:52

Auch wenn es möglich wäre ist mein Tipp letztendlich auch exakt wie cat's Idee vom kommenden Top Dog. Wobei gerade nicht erwiesen ist, dass die INT-Leistung so massiv benötigt wird. Sonst passt's.
Ich seh das Bild schon auf einschlägigen News-Seiten. :D

Troyan

2017-06-25, 13:17:19

nVidias "Inside Volta" Präsentation der GTC ist nun auch als Video verfügbar: http://on-demand.gputechconf.com/gtc/2017/video/s7798-olivier-giroux-inside-volta.mp4

HOT

2017-06-26, 14:36:18

http://www.tomshardware.de/pascal-volta-gtx2000,news-258178.html

Nanu, 12nm Shrinks von Pascal und das wars?
Das könnte durchaus plausibel sein, da Pascal ja schon sehr effizient ist für seinen Einsatzzweck. Nächste Spieleachitektur gäbe es dann erst wieder in 7nm.

Statt GVxxx würde es dann wohl nur GP206, 204 und 202 geben, alle in 12FFN und mit GDDR5X betrieben. Der Rest bleibt ja eh 14LPP.

dildo4u

2017-06-26, 14:53:29

Macht kein Sinn NV hat extra Tensor Core's verbaut um besser Performance bei Machine Learning zu haben.Die Volta Core's sind ganz klar für den allgemeinen Einsatz gedacht.

Gipsel

2017-06-26, 15:01:30

Macht kein Sinn NV hat extra Tensor Core's verbaut um besser Performance bei Machine Learning zu haben.Die Volta Core's sind ganz klar für den allgemeinen Einsatz gedacht.Das Argument ergibt keinen Sinn (nV hat extra Tensor Cores für Machine-Learning eingebaut und deswegen sind sie ganz klar für den allgemeinen Einsatz gedacht :confused:). Bitte etwas ausführen, was Du genau meinst.

Timbaloo

2017-06-26, 15:02:20

Macht kein Sinn NV hat extra Tensor Core's verbaut um besser Performance bei Machine Learning zu haben.Die Volta Core's sind ganz klar für den allgemeinen Einsatz gedacht.
:confused:

Es geht hier doch um Consumer-Karten. Oder meinst du kleinere Teslas?

Ich verfolge den Faden nicht sondernlich, aber war es nicht so, dass Volta kaum für Gaming relevante Neuerungen brachte? Und so gesehen ergibt das durchaus Sinn.

Troyan

2017-06-26, 15:03:26

Du meinst abseits der 50% besseren Perf/Watt Leistung gegenüber Pascal?

Der Artikel basiert auf Unsinn von Fudzilla, die nicht begriffen haben, was nVidia seit Pascal macht.

Screemer

2017-06-26, 15:08:12

die 50% für die SMs kann ich mir ehrlich gesagt nicht so recht vorstellen, wenn die tensorcors raus fliegen. der sprung von maxwell auf pascal war schon groß und jetzt sollen noch mal 50% kommen? <- wertfreie aussage.

Troyan

2017-06-26, 15:13:02

Die 50% sind exakt für die SMs ohne TensorCores. Mit TensorCores ist der Gewinn doch x-fach höher.

Hübie

2017-06-26, 15:15:55

Das halte ich zwar für grundsätzlich möglich, nur ergibt es keinen richtigen Sinn. Man hat an einer Mikroarchitektur Namens Volta gearbeitet, Erkenntnisse gewonnen und kommt am Ende mit nur einem Chip? Eher nicht. Was sein kann: Volta wird für Consumer nach hinten verschoben, weil man in einer extrem komfortablen Position ist, wo man die Salamischeibe dünner machen kann.
In etwa so:
GP102, 104 & 106 -> shrink, beginnend im Q1 '18 (edit: Oder auch schon dieses Jahr). Mehr Takt für GPU und VRAM, weniger OC Spielraum, +15% Leistung bei 10% weniger Verbrauch.
Oktober 2018 geht's dann mit Titan Volta los. Daran glaube ich zwar nicht, aber hier sitzt keiner hinter Jensen und wer die Geschichte kennt, weiß dass er immer für ne Überraschung zu haben ist (positiv wie auch negativ :D).

HOT

2017-06-26, 15:16:38

Es gibt da aber noch mehr Argumente, die für diese "Theorie" sprechen. Und zwar wird R&D und vor allem das Maskendesing für 7nm extrem teuer und man braucht deutlich mehr Zeit um die Masken fertigzuentwickeln. Wenn man als 7nm in Anfang 2019 fertig haben will, muss man das R&D quasi jetzt schon abgeschlossen haben. Ich denke es blieb einfach keine Zeit für einen Zwischenschritt; NV hat ja auch nicht unendlich Manpower und man kämpft ja auch an immer mehr Fronten. Man hat eben sehr viel R&D in den GV100 gesteckt und für Pascal halt nur die 3 neuen Masken für 12FFN designt in gleicher Architektur. Damit schafft man ja auch 20% mehr würd ich mal schätzen, zumal auch die Bandbreite stark steigen kann durch 14-16 Gbps GDDR5X und man nicht so limitiert ist in hohen Taktraten (>2GHz) dadurch. Das wäre also ein echter Refresh, der auch seinen Namen verdient (nicht wie Polaris oder sowas).

Hübie
Das ist genau der Punkt, NV hat das beim GP100 im Prinzip ähnlich gemacht, auch diese Architektur gibt es nur für den GP100. GV100 ist ne Weiterentwicklung davon, beide haben nur sehr wenig mit dem Consumer Pascal zu tun. Irgendjemand schrieb mal, dass Consumer-Pascal näher an Maxwell dran ist als am GP100. Das ist einfach nicht brauchbar als Consumerprodukt, das wird der ganze Witz sein. Sicherlich gibt es auch hier Erkenntnisse, die dem zugute kommen könnten, aber lohnt sich das wirklich? Der Gamingmarkt ist in 2017 stark eingebrochen und lebt derzeit vom Mining-Hype. NV muss dem Rechnung tragen, es war absehbar, dass das nicht ewig so weitergehen kann bei den Mondpreisen.

Ich wette, dass NV an einer puren Gamingarchitektur ganz abseits von Volta und Pascal und abseits der Profiarchitekturen arbeitet für die 7nm Generation.

Screemer

2017-06-26, 15:22:49

Die 50% sind exakt für die SMs ohne TensorCores. Mit TensorCores ist der Gewinn doch x-fach höher.
Ich sag ja nur, dass ich mir das nicht vorstellen kann. Ohne tensor-Cores hat man außerdem weniger Fläche pro sm und das führt zu schlechterer Kühlbarkeit. Alles imho.

AffenJack

2017-06-26, 15:30:49

:confused:

Es geht hier doch um Consumer-Karten. Oder meinst du kleinere Teslas?

Ich verfolge den Faden nicht sondernlich, aber war es nicht so, dass Volta kaum für Gaming relevante Neuerungen brachte? Und so gesehen ergibt das durchaus Sinn.

Wieso sollte man Gamingsachen bei Teslaprodukten anpreisen? Das wird dann gemacht wenn Gaming kommt. Ansonsten hat z.B. Anandtech bestimmt nicht umsonst von dem größten Architektursprung seit Fermi gesprochen.

Zur News, Fudzilla BS wie immer. Fudzilla versteht nicht, dass wenn man die Tensor Cores und DP rausschmeißt es zwar im SM Diagramm ähnlich aussehen kann wie Pascal, aber trotzdem total unterschiedlich sein kann.

HOT

2017-06-26, 15:32:42

Troyan

2017-06-26, 15:33:34

Ich sag ja nur, dass ich mir das nicht vorstellen kann. Ohne tensor-Cores hat man außerdem weniger Fläche pro sm und das führt zu schlechterer Kühlbarkeit. Alles imho.

Hä? Das PCIe Produkt von GV100 hat 14TFLOPs bei 250W. Das PCIe Produkt von GP100 hat 9,56TFLOPs bei 250W.

Die 50% sind real. Dafür hat man auch die Architektur umgebaut. Das ganze geht dann auch in die normalen Geforce-Produkte über.

Screemer

2017-06-26, 15:36:58

Die hast du schon gekauft? Rück raus mit den benches. Du kannst dur mal Worte wie soll und könnte angewöhnen.

Troyan

2017-06-26, 15:38:16

Ist okay.

AffenJack

2017-06-26, 15:43:10

Gemeint sind doch die Tensorcores, die für Gaming unbrauchbar sind. Auch Gaming-Volta reichen FP32-Einheiten. Da könnte man dann an deren Stelle höchstens FP16 einbauen - das ist aber kein Muss, wenn man genug Bandbreite hat. Und wo sind wir da? Genau bei Consumer-Pascal - oh Überraschung.

Ja genau. Jetzt wo ich es durch deine Augen betrachte sind GP100 und GCN ja auch das gleiche. 64SP pro SM. Ist also genau die gleiche Architektur.:freak:

Screemer

2017-06-26, 15:46:17

Hä? Das PCIe Produkt von GV100 hat 14TFLOPs bei 250W. Das PCIe Produkt von GP100 hat 9,56TFLOPs bei 250W.

Also quadro p100 ist schon mal mit 10,3tflops bei 235w angegeben. P6000 mit 12 tflops für 250w. So stets jeweils bei pny auf der Produktseite. Wo du deine 9,56 her hast könntest du auch dazu sagen.

dildo4u

2017-06-26, 15:49:20

Screemer

2017-06-26, 15:53:08

http://www.pcgameshardware.de/Pascal-Codename-265448/News/Tesla-P100-GP100-PCI-Express-1199216/

Na dann guggt mal bei de quadros und dort speziell quadros p100:

http://www.pcgameshardware.de/Pascal-Codename-265448/News/Nvidia-Quadro-GP100-HBM2-1220106/

Troyan

2017-06-26, 15:54:31

AffenJack

2017-06-26, 15:54:42

Also quadro p100 ist schon mal mit 10,3tflops bei 235w angegeben. P6000 mit 12 tflops für 250w. So stets jeweils bei pny auf der Produktseite. Wo du deine 9,56 her hast könntest du auch dazu sagen.

Es gibt keine Volta Quadros, daher kann man nicht wissen wie die takten. Aber es gibt von V100 als auch P100 die Tesla Versionen in SMX und PciE Format. Ne V100 Quadro macht später vielleicht 16,17 TF, wer weiß das schon.

GP100 GV100
PCiE 9,3 TF 14 TF 50% Steigerung
SMX 10,6 TF 15 TF 40%

http://www.nvidia.de/object/tesla-p100-de.html

Daher sind bei den direkten Nachfolgeprodukten Steigerungen von 40-50% drin.

dildo4u

2017-06-26, 15:55:34

Na dann guggt mal bei de quadros und dort speziell quadros p100:

http://www.pcgameshardware.de/Pascal-Codename-265448/News/Nvidia-Quadro-GP100-HBM2-1220106/
Zur Zeit kann man nur HPC PCI-E vs HPC PCI-E Karte vergleichen.Die Consumer/Quadro Volta Karten takten vermutlich wieder höher.

Screemer

2017-06-26, 15:59:05

Hä? Das PCIe Produkt von GV100 hat 14TFLOPs bei 250W. Das PCIe Produkt von GP100 hat 9,56TFLOPs bei 250W. Deine Behauptung war doch, dass pcie Versionen mit p100 bei 250w "nur" 9,53tf schaffen würden. Ich hab dir nur gezeigt, dass dem nicht so ist. Auch gibt es keine Einschränkung auf sie produktkategorien. Aber wie du schon sagtest: ist okay. War klar, dass man nicht mal sagen kann was man denkt ohne blöd angemacht zu werden. Was muss man denn noch dazu schreiben?

Gipsel

2017-06-26, 16:05:00

Hä? Das PCIe Produkt von GV100 hat 14TFLOPs bei 250W. Das PCIe Produkt von GP100 hat 9,56TFLOPs bei 250W.

Die 50% sind real. Dafür hat man auch die Architektur umgebaut.Wieviel davon ist Architektur und wieviel der Schritt von 16FF zum 12FFN-Prozeß von TSMC?

Ich weiß, schwer zu beantworten. Aber weißt Du, wo Pascal in 12FFN landen würde?

Troyan

2017-06-26, 16:06:15

Ich habe sehr wohl das verglichen, was zu vergleichen möglich ist. Du hast mich dann angefahren und erst im nächsten Posting auf die Quadro-Karte gezeigt. Ich weiß sehr wohl, dass die Karte besser liegt. Aber das tut sie auch gegenüber der P100. So what?

BTW: Selbst AMD hat die Tesla P100 Karte für ihren MI25 Vergleich herangezogen. Gut, GP100 als Quadro ist auch effizienter als die MI25. :lol:

Screemer

2017-06-26, 16:20:08

Warum kommst du jetzt mit AMD und mi25? Was die mähen ist doch für den Start der Diskussion belanglos. Es ist immer wieder lustig wie die nvidiaboyz versuchen mich als amdfanboy darzustellen.

Das nächste mal gibts statt "wertfreie Aussage" ein IMHO davor und danach.

Troyan

2017-06-26, 16:27:41

Ich habe auf deine "wertfreie Aussage" genauso wertfrei geantwortet - nämlich mit der Wiedergabe von den Daten von nVidia: https://www.forum-3dcenter.org/vbulletin/showpost.php?p=11412793&postcount=807

Keine Ahnung, wieso dich das so aufregt.

Screemer

2017-06-26, 17:48:34

und noch mal. IMHOich glaub nicht an 50% höhere perf/w bei consumer voltasIMHO. kannst du das jetzt dann hoffentlich auch mal unkommentiert lassen.

Hübie

2017-06-26, 23:20:14

Wieviel davon ist Architektur und wieviel der Schritt von 16FF zum 12FFN-Prozeß von TSMC?

Ich weiß, schwer zu beantworten. Aber weißt Du, wo Pascal in 12FFN landen würde?

Ist ein guter Punkt den du ansprichst. TSMC hat afaik nichts offizielles zum verwendeten 12-nm-Prozess verlautbaren lassen. Die TFLOPs beziehen sich ja auch nur auf (MUL, MADD?) FP16, 32 & 64 und nix mit Tensor Cores, Effektivität vom Frontend usw. usf.
Daher dienen die bestenfalls als grobe Einordnung, aber für mehr nicht. Wie gesagt halte ich es für sehr unwahrscheinlich dass man Volta vorbeiziehen lässt. Mal davon ab: Tensor cores würden höchstwahrscheinlich eh nicht im Consumer Produkt landen, weil es sicherlich keinen Funktionsaufruf via API gibt. Des weiteren steckt in Volta schon deutlich mehr Veränderung um es als Pascal + X zu bezeichnen. So viel ich weiß kommt mit Volta eine deutlich erweiterte ISA. Dies bezog sich nicht nur auf GV100.

dildo4u

2017-06-26, 23:24:25

Man muss auch sagen das Volta GPU's natürlich mehr Cores hat,die eigentlichen Verbesserungen werden sich unter 5% pro Jahr bewegen wie bei den CPU's.

Leonidas

2017-06-27, 07:06:19

Ich rechne mit ~17 TFLOPs (FP32) für den Vollausbau vom GV102, wenn er denn so heißt.

Die Anzahl an Recheneinheiten pro GPC stieg in der Vergangenheit konstant an, während die Anzahl an Rasterizer bei 5 (GK110) bzw. 6 (GM200, GP102) blieb. Ausschließen würde ich es halt nicht.

2080 Ti , 5376 FP32 Cores (+ 5376 INT32 Cores) eine 2080 non-Ti käme auf 3584 Cores je FP32 und INT32

Lustigerweise hatte ich vor einiger Zeit bereits ähnlichgehend spekuliert:
https://www.3dcenter.org/news/wie-nvidias-volta-gaming-chips-unter-der-12nm-fertigung-aussehen-koennten

http://www.tomshardware.de/pascal-volta-gtx2000,news-258178.html

Nanu, 12nm Shrinks von Pascal und das wars?
Das könnte durchaus plausibel sein, da Pascal ja schon sehr effizient ist für seinen Einsatzzweck. Nächste Spieleachitektur gäbe es dann erst wieder in 7nm.

Statt GVxxx würde es dann wohl nur GP206, 204 und 202 geben, alle in 12FFN und mit GDDR5X betrieben. Der Rest bleibt ja eh 14LPP.

Nein, das lese ich anders. Es kommt weiterhin GV102, GV104 & GV104. Nur wird deren Architektur weniger denn Volta sein als beim GV100. Volta ist auch als Architektur eben nicht mehr für Gaming gedacht, daher sind viele Volta-Ideen fürs Gaming nicht nutzvoll, müssen gestrichen werden und Gaming-Voltas somit komplett neu gedacht werden. Die Änderungen der Gaming-Voltas werden wohl deutlich kleiner ausfallen, so das es ideel wohl eher denn Pascal v2 (oder Maxwell v3) ist. Technisch wird man es trotzdem GV102 bis GV106 nennen, es ist voraussichtlich auch nicht verschoben oder sonstwas. Gaming- und Profi-Architekturen trennen sich hier einfach, obwohl es nVidia noch unter demselben Namen laufen läßt (vorerst).

Hübie

2017-06-27, 08:36:43

Wenn ich mich jetzt richtig erinnere sagt TSMC voraus, dass 7 nm ca. 60% Flachenvorteil bei 15% mehr Performance oder 30% weniger Energie ggü. 16FF+. Dann wird 12-nm irgendwo dazwischen liegen (ist das vielleicht auch einfach der vormals genannte 10-nm-Prozess???). Flächenvorteil vielleicht 20%, bei gleicher Performance und etwas weniger Energie (sagen wir 10%).
Was meint ihr? Bin mir aber auch nicht sicher ob meine Zahlen stimmen. :redface:

robbitop

2017-06-27, 09:48:50

Pirx

2017-06-27, 10:09:40

Kann auch in erster Linie Marketing sein, um die "14 nm" der Konkurrenz zu unterbieten. Etwas besser wird er schon sein.

robbitop

2017-06-27, 11:10:17

Besser ja - kleiner: praktisch wohl nein.

Hübie

2017-06-27, 11:57:03

"Shrink" ist bei 12nm schon übertrieben. Die Transistordichte ist bei GV100 praktisch die gleiche wie bei Pascal. Wenn es stimmt, was man überall ließt, ist 12nm eigentlich nur 16nm++.
Allerdings könnten Power/Performance besser sein (bzw wäre der Prozess sinnfrei, wenn sie es nicht wären).

Stimmt da hätte ich auch mal drauf kommen können. 25,9 Mio/mm² bei Volta sind so marginal mehr ggü. 25,5 dass es die Rede nicht wert ist. Also kein Flächenvorteil.

Kann auch in erster Linie Marketing sein, um die "14 nm" der Konkurrenz zu unterbieten. Etwas besser wird er schon sein.

Ja mag gut möglich sein, nur ist keiner von den, die es nutzen so doof und glaubt da an irgendwas Reelles bei den Zahlen. :biggrin: Solche Stunts macht man ja für die B0bs (consumer).

pixeljetstream

2017-07-01, 10:55:03

... daher sind viele Volta-Ideen fürs Gaming nicht nutzvoll, müssen gestrichen werden und Gaming-Voltas somit komplett neu gedacht werden.
Das wäre imo relativ große Geldverschwendung. Es kostet ja nicht wenig Geld, compiler Infrastruktur, profiling, testing usw... klingt meiner Meinung nach auch nach nem großem Novum, bisher waren die SM Designs eigentlich immer relativ inkrementell, mit mal größeren oder kleineren Schritten.
Wie Hübie, meinte kann man die Schritte, im ISA ein bißchen nachvollziehen: http://docs.nvidia.com/cuda/cuda-binary-utilities/index.html#instruction-set-ref (cuda 9 variante mit volta ist noch nicht voll öffentlich)

Wenn man GP100 mit GP10x vergleicht, oder GM10x mit GM20x, so wurde hier im "ersten" Chip jeweils die StreamingMultiprocessor Architektur verbessert, und im zweiten kamen dann die grafiklastigen Features dazu, ohne jetzt die SM Architektur über Bord zu werfen, oder rückzubauen. Wenn man sich die Voltaänderungen hier anguckt https://devblogs.nvidia.com/parallelforall/inside-volta/ so klingt das meiste doch generell "sinnvoll", egal für welche "shader", nur der tensor-core ist relativ special purpose.

Unhabhängig von der Architektur kann man ja immer noch die Anzahl der Units an den Anwendungsfall anpassen, wie es bei den compute-lastigen Chips mit "double" ja schon lange der Fall ist, oder Tegra schon länger mehr fp16 hatte, während Desktop nicht.

-/\-CruNcher-/\-

2017-07-01, 11:05:01

Ist ein guter Punkt den du ansprichst. TSMC hat afaik nichts offizielles zum verwendeten 12-nm-Prozess verlautbaren lassen. Die TFLOPs beziehen sich ja auch nur auf (MUL, MADD?) FP16, 32 & 64 und nix mit Tensor Cores, Effektivität vom Frontend usw. usf.
Daher dienen die bestenfalls als grobe Einordnung, aber für mehr nicht. Wie gesagt halte ich es für sehr unwahrscheinlich dass man Volta vorbeiziehen lässt. Mal davon ab: Tensor cores würden höchstwahrscheinlich eh nicht im Consumer Produkt landen, weil es sicherlich keinen Funktionsaufruf via API gibt. Des weiteren steckt in Volta schon deutlich mehr Veränderung um es als Pascal + X zu bezeichnen. So viel ich weiß kommt mit Volta eine deutlich erweiterte ISA. Dies bezog sich nicht nur auf GV100.

Zumal die Anzahl von Studios die Code hätten der infered werden könnte wohl sogut wie noch nicht existent ist ;)

Hübie

2017-07-01, 11:38:19

Du meinst Code, der Tensor-Cores nutzt? Die Frage ist: "Brauchen Renderfarmen in Studios so etwas überhaupt?" Davon verstehe ich halt nichts und kann nichts verwertbares vorbringen.

Wenn ich tippen müsste: Consumer Volta wird von FP16-64 über INT8-32 alles abdecken. FP64 wohl wieder mit ausreichenden 1:32, INT8 mit 1:8 und FP16 eben 2:1. Man wird die MMUIO vom big brother übernehmen und sicher auch an der async-compute Geschichte feilen, dass man preemption und concurrent execution hat (just guessing). Die ISA wird weitgehend neu geschrieben was einen neuen Treiber erfordert (eventuell sehen wir die neue UI hier ebenfalls).
TMUs haben meiner Einschätzung nach nicht mehr so viel Bedeutung, da AF ausgereift ist und genug Durchsatz / Bandbreite erreicht wird. Einzig aktuelle Kompressionsverfahren könnte ich mir hier vorstellen (GCN unterstützt hier iirc mehr Formate).

Den Rest habe ich oben schon genannt. :smile:

pixeljetstream

2017-07-01, 12:02:31

Was ist AF für Dich? rate mal: Aggregated Fetch oder so?

Hübie

2017-07-01, 12:13:16

Sorry. Nein ich meinte den anisotropen Filteralgorithmus wenn der über die TMU statt ALU läuft. :redface: Macht Aggregated Fetch in dem Zusammenhang überhaupt Sinn? Bin da nicht so drin.
Kannst du eigentlich sagen ob im aktuellen CUDA 8.0 schon alles für Volta GV100 drin ist?

pixeljetstream

2017-07-01, 12:28:47

Entropy

2017-07-01, 12:32:47

Sorry. Nein ich meinte den anisotropen Filteralgorithmus wenn der über die TMU statt ALU läuft.
Du hast Recht, TMUs sind in eigentlich "Fertig", jedoch sind immer noch "Fixed Function". Der nächste Schritt ist, dass minimale Programmierbarkeit verbaut wird, wo ein paar Bits gemixt werden können, aber das würde schon riesen Möglichkeiten zulassen.

Kannst du eigentlich sagen ob im aktuellen CUDA 8.0 9.0 schon alles für Volta GV100 drin ist? :)

BlacKi

2017-07-01, 12:37:38

"Shrink" ist bei 12nm schon übertrieben. Die Transistordichte ist bei GV100 praktisch die gleiche wie bei Pascal.
ich habe zweifel das man die transistordichte von gv100 mit gp100 vergleichen kann, denn gp100 hat keine tensor cores. ich würde darauf tippen das man mit den tensor cores mehr platz braucht, als mit dem restlichen shader cores.

es muss zwar nicht so sein, aber vl sind 10-20% shrink schon drinn nur werden die durch die tensorcores aufgebraucht.

Hübie

2017-07-01, 13:34:32

Ich hatte TMU also texturefetch interpretiert, und da im blog post von Volta zu sehen war, dass der generelle memory fetch über L1 flotter wurde, dachte ich du beziehst Dich darauf ;)
Afaik ist Cuda 9 erst Volta fähig, steht auch so in den blog posts, wenn man cuda registered developer ist, müsste man eigentlich auch ein preview schon kriegen denke ich.

Das mit dem L1 habe ich zugegebenermaßen noch nicht gelesen. Bin noch nicht sehr weit im "whitepaper" gekommen. Werd ich nachholen.

Du hast Recht, TMUs sind in eigentlich "Fertig", jedoch sind immer noch "Fixed Function". Der nächste Schritt ist, dass minimale Programmierbarkeit verbaut wird, wo ein paar Bits gemixt werden können, aber das würde schon riesen Möglichkeiten zulassen.

:)

Ist es eigentlich ein Nachteil dass es eine FFU ist? Der Algorithmus ist doch eh immer gleich oder? Ist für mich total unbekannt. Was würde man z.B. gewinnen, wenn man Bits mixt???
Ps: Danke für die Korrektur. Natürlich meine ich CUDA 9.0. Ich schau mal ob ich Preview laden kann.

ich habe zweifel das man die transistordichte von gv100 mit gp100 vergleichen kann, denn gp100 hat keine tensor cores. ich würde darauf tippen das man mit den tensor cores mehr platz braucht, als mit dem restlichen shader cores.

es muss zwar nicht so sein, aber vl sind 10-20% shrink schon drinn nur werden die durch die tensorcores aufgebraucht.

Was bringt dich zu dem Schluss, die Tensor Cores bräuchten mehr Fläche? Als Oberfläche der (Rechen-) Einheit absolut ja, aber Transistordichte sehe ich keinen Anlass zur Annahme. Möglicherweise taktet diese Einheit sogar weniger.
Wie muss ich mir so einen Tensor Core eigentlich vorstellen? Ist es so etwas wie (Vec)MIMD? Wahrscheinlich ne doofe Frage. :redface:

Captain Future

2017-07-01, 13:37:11

ich habe zweifel das man die transistordichte von gv100 mit gp100 vergleichen kann, denn gp100 hat keine tensor cores. ich würde darauf tippen das man mit den tensor cores mehr platz braucht, als mit dem restlichen shader cores.

es muss zwar nicht so sein, aber vl sind 10-20% shrink schon drinn nur werden die durch die tensorcores aufgebraucht.
Bist du sicher, dass du weißt, was Transistordichte überhaupt bedeutet?

Hübie

2017-07-01, 14:01:47

Im Grunde ist es ja egal wofür man einen Transistor verwendet. Wo man mehr Platz braucht ist halt das OCN und IMC. Einige Displayunits brauchen ebenfalls mehr Platz, aber wie die aufgebaut sind ist weitgehend unbekannt (zumindest hier draußen). Caches haben eine ziemlich fixe Größe die mit jedem Prozess skaliert (glaube es war sogar so ziemlich linear, aber das sage ich nur nach Bauchgefühl ohne Zahlen zu prüfen).

BlacKi

2017-07-01, 14:02:53

Was bringt dich zu dem Schluss, die Tensor Cores bräuchten mehr Fläche? Als Oberfläche der (Rechen-) Einheit absolut ja, aber Transistordichte sehe ich keinen Anlass zur Annahme. Möglicherweise taktet diese Einheit sogar weniger.
Wie muss ich mir so einen Tensor Core eigentlich vorstellen? Ist es so etwas wie (Vec)MIMD? Wahrscheinlich ne doofe Frage. :redface:
ich wollte sagen das die tensor packdichte "anders" ist als bei den cudacores, könnte also größer oder kleiner sein.

man gibt sich mühe die richtige packdichte bei den cudacores zu finden, und dann kommen komplett neue cores "extra" dazu und ihr "schert" alle cores über einen kamm.

IMO wird die transistor dichte des gv102/gv104 definitiv von dem gv100 abweichen. wieviel? KA

Captain Future

2017-07-01, 14:09:13

GV100 wird auch mehr Cache haben als GP100 und der ist bei gleicher struktur/aufbau dichter zu packen als sonstwas.

Und soviel anders sind die Tensors auch nicht. Addierer, Multiplizierer in FP16 und FP32. Nur eben "billig" verschaltet, weil sie ja nicht so flexibel sein müssen. IMO also eher dichter packbar als die normalen CUDA Cores.

Hübie

2017-07-01, 14:13:53

ich wollte sagen das die tensor packdichte "anders" ist als bei den cudacores, könnte also größer oder kleiner sein.

man gibt sich mühe die richtige packdichte bei den cudacores zu finden, und dann kommen komplett neue cores "extra" dazu und ihr "schert" alle cores über einen kamm.

IMO wird die transistor dichte des gv102/gv104 definitiv von dem gv100 abweichen. wieviel? KA

Die Packdichte beinhaltet ja als Überschlag ALLES. Da allein wäre schon ein Fehler zu suchen, aber im Mittel passt es sehr gut um Prozesse miteinander zu vergleichen.
Also ist deine Argumentation imo nicht schlüssig.

BlacKi

2017-07-01, 14:29:22

wir werden sehen um wieviel die transistordichte abweicht. ich schätze die die ohne die tensor cores auf 600-650mm²

zitat: "Der Senior VP of GPU Engineering erläuterte anschließend, dass die neuen Tensor-Cores, die unter anderem für die drastisch gestiegene FP16-Rechenleistung verantwortlich sind, viel Platz benötigen. Relative Angaben wollte Alben aber lieber keine machen."

https://www.golem.de/news/nvidias-gv100-chip-wir-sind-am-limit-des-technisch-moeglichen-1705-127773.html

Hübie

2017-07-01, 14:57:57

Das ist auf den absoluten Wert bezogen. Sollte eigentlich klar sein. Natürlich brauchen die viel Platz. Man hat auch die SFU zum großen Teil "geopfert" und kommt dennoch auf 815 mm^2.

Entropy

2017-07-01, 15:09:01

Ist es eigentlich ein Nachteil dass es eine FFU ist? Der Algorithmus ist doch eh immer gleich oder?Ja, z.Z. ist das alles gleich, da macht FFU nur Sinn, wie damals zu 3dfx Zeiten die fixen "Combiner Stages" Sinn machten. Aber jetzt wo das perfektioniert ist, ist Zeit für "TextureShader 1.0"

Ist für mich total unbekannt. Was würde man z.B. gewinnen, wenn man Bits mixt???
Irgendwann: Wenn du frei programmieren könntest, könntest du z.B. DCT transformierte Texturen ablegen, quasi JPG mit statischem Kompressionsratio.

Anfangs: Kannst du eigene Formate erstellen. z.Z. gibt es Kompressionen für vorbestimmte Verwendungszwecke, wie:
-DXT = LDR-Color
-BC5 = Tangent Space Normals
-BC6 = HDR-Color
usw.
aber wenn du was anderes willst wie z.B. Object Space Normals, Blend Layer, Fonts, usw. dann musst du auf ein suboptimales Format zurückfallen.

Das Problem ist, dass du schon gefilterte Resultate bekommst (z.B. AF). Du kannst also nicht z.B. 1 Bit pro Texel ablegen um zu Signalisieren, dass ein Texel z.B. die Normale in die gegenrichtung hat, um Object Space Normals zu erhalten, denn nach dem AF sind 64 Texel zusammengemischt und das Bit hat garkeinen Informationsgehalt mehr den du auswerten kannst.

Deswegen wären programmierbare TMUs, wo du Daten vor dem Samplen aufbereiten kannst, wirklich ein Schritt der neue Möglichkeiten bieten würde.

Setsul

2017-07-01, 18:03:43

Entropy

2017-07-01, 19:10:14

Samsung 14LPPweisst du, was Samsungs 14LPP genau ist?
Ist 10nm bei Apples neuem SOC 10nm? (Sorry für Off-Topic, könntest ja im anderen Thread antworten :) )

Setsul

2017-07-01, 20:56:39

14LPP ist auch nicht 14nm.
TSMC treibt die Lächerlichkeit halt auf die Spitze wenn der gleiche Prozess je nachdem ob FinFETs oder nicht und Anzahl der Transistoren pro SRAM-Zelle 20, 16 oder 12nm heißen kann.
Samsung plant aber auch "10nm+" als 8nm zu verkaufen. Die Zahlen haben schon lange ihre Bedeutung verloren.

Aber hier war anscheinend einigen noch nicht klar, dass 12nm bei TSMC exakt das gleiche wie 16nm ist und deshalb die Packdichte gar nicht höher sein kann.

Hübie

2017-07-01, 21:06:09

TSMC CLN12FFC ist einfach CLN16FFC mit 6T SRAM statt 7.5T oder 9T.
Für nVidia ist das Ganze dann wieder aufgebohrt weil FFC eigentlich für low power gedacht ist.
Also ja, da ist wirklich einfach nur 16nm++ mit weniger Transistoren pro SRAM-Zelle. Reines Marketing weil es kleiner ist als z.B. Samsung 14LPP. 12 oder 16nm ist beides nicht, alles sowieso 20nm Backend.

Das klingt zumindest plausibel, da Volta mehr SRAM-Zellen, sprich Caches, hat (sind Register nicht eigentlich auch wie eine SRAM-Zelle?) und dennoch nicht deutlich mehr an Packdichte ausgemacht werden konnte.
Ich nehme an, dass du da irgendwie mehr drin bist, als wir. Gibt es dazu was offizielles? Google spuckt jedenfalls mit meinen Schlagwörtern nichts verwertbares, abseits der Medien die immer das Gleiche plappern, aus. :redface:

@Entropy: Das klingt ja mal verdammt nach Bedarf auf Entwicklerseite. Wurde das nicht schon mal mit Nachdruck gefordert? Bei mir hat was im Hinterkopf *klick* gemacht. Danke für deine Erklärung.
Flexibilität hat ja immer so seinen Preis. Was wäre der Nachteil bzw. warum hat man das bisher nicht angefasst?

Setsul

2017-07-02, 11:43:04

So auf die Schnelle: https://www.semiwiki.com/forum/content/6662-tsmc-talks-about-22nm-12nm-7nm-euv.html
Absatz unter dem zweiten Bild.

Register Files sind einfach viele SRAM-Zellen mit noch viel mehr Verbindungen drumherum.

pixeljetstream

2017-07-02, 12:39:01

Flexibilität hat ja immer so seinen Preis. Was wäre der Nachteil bzw. warum hat man das bisher nicht angefasst?

schlechteres pipelining, plötzlich sitzt wieder was dazwischen was die Latenz erhöht, was Befehle interpretieren muss, die variable Dauer haben könnten, kostet Energieeffizienz usw.
Das Ding leistet ja zwei Sachen: einmal das Dekodieren des formats, und einmal das filtering.

Um ein Gefühl dafür zu kriegen, kann man in compute das ganze emulieren, und via shared memory (fungiert dann als programmierbarer texture cache) ein texture tile selbst dekodieren, samplen/filtern usw. dann sieht man was wieviel performance kostet.

Langfristig denke ich aber auch dass immer mehr FFU durch re-use der programmierbaren Einheiten vereinfacht werden. Das Problem ist nur den Datenfluss dann immer noch so schön hinzukriegen, und man ist ja in jedem Fall erstmal schlechter was Effizienz angeht. Erst wenn Leute Dinge machen die vorher nicht möglich waren, und damit dann in der Gesamteffizienz (trotz des Verlusts durch die Programmierbarkeit) über der alten Lösung liegen, wird's interessant.

Es geht bei sowas eigentlich immer darum, wer kann rechtfertigen (mit Aussicht auf $ oder Verlust von diesen hehe) solche Änderungen zu machen, weil es ja immer auf Kosten von anderen Ideen geht. Entwicklungszeit, Fläche, Verlust der "out of the box" Effizienz, Abhängigkeit durch Dritte (benutzen es die Entwickler am Ende, deswegen gehen die IHVs auch bei den großen Studios immer wieder mit "konkreteren Ideen" vorbei um zu testen wie bereit die Entwickler wären) usw. Die Ideen und Visionen welche die Hersteller und Forscher haben sind nicht das Problem, sondern was man sich "leisten/verantworten" kann. Es ist ein spannender Entscheidungsprozess mit einer unendlich langen Listen an Vorschlägen der verschiedenen Teams/Bausteine des Chips etc...

Hübie

2017-07-03, 02:23:06

Es gibt sicher auch einen internen Konkurrenzkampf diverser Teams. So kenne ich es jedenfalls noch aus meiner Zeit bei einem Institut die eng mit euch zusammen arbeiten. Sind so interne Rennen, wenn man es so salopp bezeichnen darf. Letzten Endes ist alles ein Spagat und am Ende zählt was heraus kommt. Ich erinnere da mal am Motherfucking Antialiasing (oder so ähnlich). Nette Idee, lieblos Umsetzung, da jede App es implementieren muss oder zumindest der Treiber für jedes Spiel darauf angepasst werden muss.
Sind die ROP Caches eigentlich transparent? Wurden die mit Maxwell eingeführt oder was war eigentlich der Grund, dass Kepler MFAA nicht konnte? :confused:

Ich danke für die Antworten und den Link @Setsul. So etwas greift die Presse mal wieder nicht auf. To put it in a nutshell: 10% Perf oder 25% weniger Energiebedarf bei verringerter Fläche der SRAM-Zellen.

basix

2017-07-03, 18:17:16

To put it in a nutshell: 10% Perf oder 25% weniger Energiebedarf bei verringerter Fläche der SRAM-Zellen.

Wahrscheinlich kommt nicht komplett alles von den kleineren SRAM-Zellen. Würde mich ein wenig wundern.

Hübie

2017-07-03, 18:34:52

Du meinst den Flächengewinn? Doch der kommt laut eigenen Angaben von TSMC ausschließlich davon (33% weniger Transistoren pro Zelle). Höherer Takt bei weniger Spannung kommt bei vielen Designs im Laufe eines Zyklus durch Prozessoptimierungen, wobei ich zu wenig Ahnung habe um konkret zu sagen, was innerhalb eines (Belichtungs-)Prozesses verbessert werden kann. ;)

basix

2017-07-03, 18:37:34

Der Flächengewinn kommt sicher zum allergrössten Teil vom SRAM. Performance-Boost und weniger Stromverbrauch sicher auch zum Teil, aber nicht mit den genannten Werten. Kann ich mir nicht vorstellen. Das schreibst du ja selber mit "Prozessoptimierungen".

Zu Volta: Was wird eigentlich vom grossen Volta erwartet? 5120 Shader und 384 bit SI @ 14-16 Gbit? Gibt es abgesehen von mehr Einheiten auch was zu Architekturänderungen? Tensor Cores werden es ja eher nicht werden.

Entropy

2017-07-03, 18:38:29

Das Problem ist nur den Datenfluss dann immer noch so schön hinzukriegen
Kommt auf die Realisierung an. Wenn es dedizierte Shadereinheiten in der TMU sind, sollte es einfach sein. Falls die CU/SM das abarbeiten sollen, wäre es tatsächlich ein ziemliches Problem.

und man ist ja in jedem Fall erstmal schlechter was Effizienz angeht.Nicht zwingend, manchmal sind Spezialeinheiten sehr redundant, z.B. kannst du nur ein Textureformat dekomprimieren, vielleicht liegt 90% der anderen Transistoren brach. Ich glaube so hat NVidia damals mit dem "Software Radio" bei Tegra argumentiert: http://www.extremetech.com/wp-content/uploads/2013/01/NV-softy.jpg

Ich denke die haben eher Angst, dass es etwas neues ist was schwer zu emulieren ist und deswegen die nächsten 10 Jahre noch in Hardware bleibt, wenn sie es einmal einbauen.

Entropy

2017-07-03, 18:44:55

Zu Volta: Was wird eigentlich vom grossen Volta erwartet? 5120 Shader und 384 bit SI @ 16 Gbit?
Von der Vergangenheit projeziert wird der GV104 (oder wie auch immer das Ding genannt wird), in etwa die Specs von Titan Xp bzw. 1080 Ti haben.

Gibt es abgesehen von mehr Einheiten auch was zu Architekturänderungen?
Die SM können nun die Warp-Threads unabhängig voneinander ausführen, das sollte die Auslastung verbessern.

Tensor Cores werden es ja eher nicht werden.
Da stimme ich zu, aber wird half-float verbaut, wie bei Vega?

Hübie

2017-07-03, 18:52:06

Es gibt afaik nichts offizielles zu Consumer Volta, aber es wird gemunkelt dass man auch "mixed precision" anbieten wird. Und unsere erfahrenen Hasen haben hier schon mehrfach erwähnt, dass der Aufwand zur Implementierung sich in Grenzen hält. Das macht fp16 um so wahrscheinlicher. :smile:

scully1234

2017-07-03, 18:53:51

Für was für Szenarios z.B?

Hairworks, Waveworks ec pp?

Gipsel

2017-07-03, 19:05:30

TSMC CLN12FFC ist einfach CLN16FFC mit 6T SRAM statt 7.5T oder 9T.Die Angaben 6T, 7.5T oder 9T haben nicht mit der Anzahl der Transistoren in den SRAM-Zellen zu tun (7,5 Transistoren wären ja auch schlecht möglich, oder? ;)). Dies gibt im Prinzip an, wie groß ("hoch", die Fins geben ja eine Vorzugsrichtung vor) man die Logikzellen macht (als Vielfaches der Fingröße, vereinfacht gibt es in einer 9T-Zelle 9 parallele Fins, in einer 6T-Zelle eben nur 6 [eventuell auch Paare aus n- und p-dotierten Fins; um auf die 7,5T zu kommen, paart man dann 7 n- mit 8 p-Fins oder umgedreht, da kenne ich mich nicht nicht genau genug aus]). Die Einheit "T" steht für "Tracks". Je größer die Zahl, desto höher jeweils die Standard-Logikzellen (das ist ein eindimensionales Scaling). Deswegen erreicht man mit 7.5T-Bibliotheken eine höhere Packdichte als mit 9T-Bibliotheken. Ermöglicht wird dies dadurch, daß man die Performance der Transistoren leicht erhöht hat, so daß man z.B. 9T Logikzellen durch 7.5T Zellen ersetzen kann, ohne daß die Performance leidet.
Das ist zumindest mein Verständnis.

Edit:
Nochmal gesucht: 5T-Zellen haben 1 Fin pro FET, 6T-Zellen haben 2 Fins pro FET, 7.5T-Zellen 3 Fins, 9T-Zellen 4 Fins und 10.5T-Zellen 5 Fins pro FET. Mehr Fins bedeuten höhere Ströme und damit schnellere Zellen, aber eben auch höheren Platzbedarf und Verbrauch. Erhöht man die Stromstärke I_on eines Fins, kommt man natürlich mit weniger in einer Zelle aus und kann das Ganze kleiner machen. Ein Track ist also ein Maß für die Höhe der Logikzellen (in Einheiten des Finpitches oder sowas) und diese skaliert nicht ganz linear mit der Anzahl der Fins (es gibt einen Basiswert und pro Fin kommt naturgemäß eine gewisse Höhe dazu).
Edit 2: Angeblich gibt 1 Track den Minimalabstand zwischen Leitungen im Layer 1 an.

Skysnake

2017-07-03, 19:43:07

Pmos ist eigentlich immer 1,3 bis 1,5 mal so breit wie nmos wegen der niedrigeren Mobilität

pixeljetstream

2017-07-03, 19:44:05

Kommt auf die Realisierung an. Wenn es dedizierte Shadereinheiten in der TMU sind, sollte es einfach sein. Falls die CU/SM das abarbeiten sollen, wäre es tatsächlich ein ziemliches Problem.
...
Ich denke die haben eher Angst, dass es etwas neues ist was schwer zu emulieren ist und deswegen die nächsten 10 Jahre noch in Hardware bleibt, wenn sie es einmal einbauen.

Etwas zweites programmierbares neben der SM zu installieren, wäre relativ ungünstig. Wenn dann willst Du ja dass die Entwickler so arbeiten wie bisher auch, gleiche shader compiler, tools...
Man will ja auch vom globalen load balancing profitieren und nicht die (nun größeren) units rummliegen haben die in anderen Fällen nicht genutzt werden.

Irgendwann in den 10 Jahren kommt das bestimmt ;)

Entropy

2017-07-03, 20:41:51

Etwas zweites programmierbares neben der SM zu installieren, wäre relativ ungünstig. Das kommt wirklich ganz auf die Spezialisierung an. Wenn es ein paar einfache int-ALUs sind, kann das Sinn machen. Bei PixelShader 1 waren es auch nur 8 ALU Instruktionen, wenn die statt 12 Bit vielleicht 32 Bit bieten, wären viele custom Formate möglich.
Die richtigen Shader wären überdimensioniert, denn du willst bei den TMUs auch nicht unmengen Latenz aufbauen.

Wenn dann willst Du ja dass die Entwickler so arbeiten wie bisher auch, gleiche shader compiler, tools...
Man will ja auch vom globalen load balancing profitieren und nicht die (nun größeren) units rummliegen haben die in anderen Fällen nicht genutzt werden. Wenn darüber auch die bisherigen BC, ASTC, usw. laufen, würde es ja benutzt werden. FF und ProgrammierbareF zu haben würde ich dir zustimmen, wäre zu redundant.

Irgendwann in den 10 Jahren kommt das bestimmt ;)Das Jetzt klingst du wie einer von "denen" :D

Entropy

2017-07-03, 20:43:34

Für was für Szenarios z.B?

Hairworks, Waveworks ec pp?Für alles für das du kein float brauchst ;). Vieles von der Beleuchtung, Color Blending, usw. ginge mit half. Es gibt vermutlich keinen sinnvollen Shader der 100% in half auszuführen wäre.

scully1234

2017-07-03, 20:51:34

Setsul

2017-07-03, 21:12:26

@Gipsel:
Das Zitat passt nicht ganz, aber ich sehe worauf du hinaus willst.
Ich habe das Ganze stark vereinfacht, weil ich nicht so viel schreiben wollte.
Richtig, es ist die Höhe in Tracks, das hat aber auch erstmal wieder nicht direkt mit der Anzahl der Finnen zu tun. Dann kann man das Ding auch wieder so breit machen wie man will und mehr oder weniger Transistoren pro Zelle verwenden. Das Endergebnis ist einfach nur der SRAM wird kleiner (wenn überhaupt), wenn man einen Haufen Logik hat wie bei GPUs ändert sich insgesamt nicht viel und die Packdichte bleibt auch ziemlich gleich.

In der wunderbaren Welt der FinFETs ist alles etwas komplizierter.
http://pc.watch.impress.co.jp/img/pcw/docs/671/062/8.jpg
http://pc.watch.impress.co.jp/img/pcw/docs/671/062/11.jpg
https://image.slidesharecdn.com/lecture14-150827110900-lva1-app6892/95/lecture14-15-638.jpg?cb=1440673756

Bei der Zellengeometrie kann jeder wieder sein eigenes Süppchen kochen, inklusive Anzahl der Transistoren.

Hübie

2017-07-03, 21:47:26

Mal für einen Laien wie mich: Ein Metal Track ist sozusagen, die Stromleitung und ein Fin-Pitch die zu überwindende Kapazität um das Gate "auszulösen"? Ich kenne zwar den schematischen Aufbau von 6T-SRAM-Zellen, aber finde da auf dem Bild nur mit Fantasie die Bit-/Wordlines. :D Liege ich da richtig?

Gipsel

2017-07-03, 21:50:37

Setsul

2017-07-04, 00:34:10

Ah, ich müsste halt lesen, was ich geschrieben habe. Ja, das SRAM gehört raus, da wollte ich eigentlich noch etwas schreiben, aber das hätte dann zu lange gedauert.

Wiring gibts halt auch noch und bei Logik müssen auch gewisse Taktraten eingehalten werden. Wenn irgendetwas längs der Zellen muss dann muss das genauso weit egal ob die Transistoren 2 Finnen bekommen oder 4. Die Länge ändert sich nicht. Aber irgendwo muss der drive current herkommen. Und von 9T auf 6T nur durch Prozessoptimierungen zu kompensieren wird schwierig.
Es gibt Gründe wieso nVidia nicht CLN16FFC für GPUs verwendet. Beim SRAM hat man noch am ehesten Chancen das zu kompensieren.

Leonidas

2017-07-04, 08:13:10

Gibts da eventuell auch schon belastbare Aussagen der Spieleschmieden, was sie wie gerne umsetzen möchten mit halber Präzision,bzw wie leicht/schwer das adaptierbar wäre in ihre bestehenden Engines?

Ich mein wenn da beide IHVs drauf hin steuern mit ihren Architekturen , müsste da in den Kreisen doch schon Bewegung aufkommen

Verwundert mich genauso. Man könnte fast vermuten, das die Spiele-Studios im Endeffekt meinen, das sich das nicht lohnt zu implementieren, weil es ja nur auf neuen GPUs was bringt - die sowieso schnell genug für die Spiele sind.

Interessanter würde das für eine neue Konsolen-Generation werden, denn da gehen deren Programmierer gern im Laufe der Zeit noch die Reserven an. Das bedeutet dann allerdings 2020+++. Für PS4Pro und XBOX nutzt es nix, weil dort ja PS4 und XBO als kleinerster gemeinsamer Nenner dastehen, eine resourcenschonende Programmierung für die schnelleren Modelle kaum lohnt.

pixeljetstream

2017-07-04, 10:15:34

Verwundert mich genauso. Man könnte fast vermuten, das die Spiele-Studios im Endeffekt meinen, das sich das nicht lohnt zu implementieren, weil es ja nur auf neuen GPUs was bringt - die sowieso schnell genug für die Spiele sind.

Interessanter würde das für eine neue Konsolen-Generation werden, denn da gehen deren Programmierer gern im Laufe der Zeit noch die Reserven an. Das bedeutet dann allerdings 2020+++. Für PS4Pro und XBOX nutzt es nix, weil dort ja PS4 und XBO als kleinerster gemeinsamer Nenner dastehen, eine resourcenschonende Programmierung für die schnelleren Modelle kaum lohnt.

wenn erstmal GPUs im mainstream mit den features ankommen und die Compiler die Registerersparnis dafür ordentlich drauf haben, denke ich auch dass die Entwickler das nutzen werden. Wie Entropy erwähnt hat, und ich denke auch id software hat sich mal so geäußert, kann man diverse Operationen bei post processing, etc. in half ausführen. Im Moment ist oft jedoch nicht ALU in diesen Szenarien das Problem sondern Memory, und dann hilft's eher weniger Register zu brauchen, als "schneller" zu sein. Andererseits gibt's ja auch den Trend relativ gesehen mehr Register zu bekommen. Daher ist in der Tat nicht offensichtlich wie stark es genutzt wird am Ende.

Troyan

2017-07-23, 23:00:48

NVidias Huang gibt GV100 einfach mal so ein paar Leuten auf einer AI Messe: https://blogs.nvidia.com/blog/2017/07/22/tesla-v100-cvpr-nvail/

Digidi

2017-07-23, 23:06:02

NVidias Huang gibt GV100 einfach mal so ein paar Leuten auf einer AI Messe: https://blogs.nvidia.com/blog/2017/07/22/tesla-v100-cvpr-nvail/
Dachte GV100 ist schon längst ausgeliefert. Wieso werden jetzt erst die ersten GV100 überreicht?
Interessant das man die Übergabe auch noch in Hawai macht. Ein Schelm der Böses dabei denkt.

pixeljetstream

2017-07-23, 23:42:30

Dachte GV100 ist schon längst ausgeliefert. Wieso werden jetzt erst die ersten GV100 überreicht?

Die Produkte wurden bei der GTC für q3/4 angekündigt.

Digidi

2017-07-23, 23:47:38

Danke für die Info Pixeljetstream. Da bin ich wohl einem Fehler aufgesessen. Also hat man Praktisch ein paar Werbegeschenke Verteilt um sich damit schon mal vertraut zu machen :D Nichts weltbewegendes, aber ein guter Marketingschachzug.

Obwohl ich Sagen muss das mir mittlerweile diese Marketingblindheit mancher Forenteilnehmer echt auf den Keks geht.

scully1234

2017-07-24, 00:01:06

NVidias Huang gibt GV100 einfach mal so ein paar Leuten auf einer AI Messe: https://blogs.nvidia.com/blog/2017/07/22/tesla-v100-cvpr-nvail/

Dann gibts wohl bald erste Ergebnisse im Internet , oder gab es da NDA Maulkörbe?

Digidi

2017-07-24, 00:08:30

Dann gibts wohl bald erste Ergebnisse im Internet , oder gab es da NDA Maulkörbe?

Willst du Doktorarbeiten lesen? Das ist eine Tesla Karte. Keine quadro oder gar eine GTX. :facepalm:

scully1234

2017-07-24, 00:10:00

Willst du Doktorarbeiten lesen? Das ist eine Tesla Karte. Keine quadro oder gar eine GTX. :facepalm:

Das ist mir durchaus bewusst Mst Eingeschnappt, also steck deinen Facepalm wieder weg:cool:

Auch Pro Karten können Einblicke geben in die Architektur , falls das noch nicht zu dir durchgedrungen sein sollte

N0Thing

2017-07-24, 01:23:24

NVidias Huang gibt GV100 einfach mal so ein paar Leuten auf einer AI Messe: https://blogs.nvidia.com/blog/2017/07/22/tesla-v100-cvpr-nvail/

Wow, das ist eigentlich wirklich krass, daß schon fertige Karten ausgeliefert werden. Oder hab ich dazu irgend etwas verpaßt? Ich hab da ehrlich gesagt eher mit Q4 mit der Auslieferung und nur für die großen Systemhäuser gerechnet.

Die Aktion ist dazu natürlich PR vom feinsten, im Besonderen, daß die Kleidung von Jensen beschrieben wird. "...said Jensen, clad in a short sleeve dress shirt, white jeans and vans," No leather jacked involved. ;D

scully1234

2017-07-24, 01:44:01

likened the signed V100 box to a bottle of fine wine.

https://blogs.nvidia.com/wp-content/uploads/2017/07/tesla-v100-cvpr-nvail-researchers-honolulu.jpg

Macht das Nvidia jetzt auch im Direktvertrieb so wie bei der Titan X, und nicht mehr für die Teslas über Fujitsu als Partner?

Troyan

2017-07-24, 01:50:31

Wow, das ist eigentlich wirklich krass, daß schon fertige Karten ausgeliefert werden. Oder hab ich dazu irgend etwas verpaßt? Ich hab da ehrlich gesagt eher mit Q4 mit der Auslieferung und nur für die großen Systemhäuser gerechnet.

Laut nVidia ist GV100 in "full production". Q3 steht für die eigenen Systeme und bestimmt Cray und ab Q4 kommen auch die Systempartner an die Reihe.

In einem Kommentar bei Seekingalpha habe ich gelesen, dass es Gerüchte aus Taiwan gäbe, dass nVidia sich bei TSMC bemüht noch mehr Kapazitäten für GV100 zu bestellen, weil die Nachfrage so hoch läge.

Hübie

2017-07-24, 02:22:28

Dem ist tatsächlich so. Wundert mich dass so etwas nach außen dringt. Volvo ist einer der größeren Abnehmer bzw. die nicht direkt. :D Schade dass man hier auch schon wieder daran arbeitet das Niveau zu senken. :(

@N0Thing: Eigentlich war August anvisiert, von daher ist es wirklich schon "krass", aber es handelt sich hier wohl um einzelne Fertigungen und keine Serie. Das kann man also wahrscheinlich eher als Marketingstunt, als bare Münze nehmen.

N0Thing

2017-07-24, 03:40:29

Okay, dann hatte ich das ja nicht komplett falsch in Erinnerung.

So sehr ich AMD als Underdog die Daumen drücke, daß sie an beiden Fronten auf Augenhöhe zurück kommen, so muß man vor Nvidia auch den Hut ziehen, daß sie so einen großen Chip quasi gleichzeitig mit Vega fertig bekommen haben.

Skysnake

2017-07-24, 08:41:40

Ich hoffe man sieht mit Volta endlich mal Mess6ngen zu NVLink. Bei Pascal gab es da ja nichts.

pixeljetstream

2017-07-24, 09:45:21

Ich hoffe man sieht mit Volta endlich mal Mess6ngen zu NVLink. Bei Pascal gab es da ja nichts.

https://www.pugetsystems.com/labs/hpc/NVIDIA-Quadro-GP100-Tesla-P100-power-on-your-desktop-893/

hier hat jemand 145 gb/s von den 160 gb/s (bidirectional) theoretischen maximum gemessen. bin mir sicher wenn man bissl mehr sucht findet man auch mehr im Netz. Wir haben hier selbst im Kontext von VR-SLI mit der Karte experimentiert, da man ja das Bild eines Auges zurück auf die Karte schieben muss die am HMD hängt. Quadro GP100 ist aber die "langsamere" Grafikkarte (Rasterization, bei Raytracing ist sie flotter) wegen des geringeren clocks als die P6000 mit GP102.

GV100 hat 25 gb/s pro lane, GP100 hatte 20 gb/s, NVLink 2.0 in GV100 ist auch glaub ich bissl verbessert und so näher am theoretischen maximum dran. Mal sehen ob ein Kollege mir die Zahlen geben kann für das gleiche Szenario wie oben.

Hübie

2017-07-24, 09:45:50

Das stimmt nicht. Ich hatte das auch hier irgendwo gepostet. Das sind reale Werte!

Grendizer

2017-07-24, 12:11:05

Was verbraucht so eine Karte eigentlich ?

Troyan

2017-07-24, 12:12:47

Maximal 250W als PCIe-Version und 300W als SXM2 Version.

scully1234

2017-07-24, 12:21:01

Dem ist tatsächlich so. Wundert mich dass so etwas nach außen dringt. Volvo ist einer der größeren Abnehmer bzw. die nicht direkt. :D

Was macht Volvo denn mit dem GV100 Flottenmanagement?

Grendizer

2017-07-24, 13:55:43

Was macht Volvo denn mit dem GV100 Flottenmanagement?

https://www.media.volvocars.com/at/de-at/media/pressreleases/209929/volvo-und-autoliv-entwickeln-mit-nvidia-software-fur-selbstfahrende-autos

scully1234

2017-07-24, 14:14:00

Na da gehts ja in erster Linie um die Systeme vor Ort auf der Strasse also primär die schon bekannten Drive PX Module

Der große GV100 muss da schon anderswo Verwendung finden(daher zentrales Flottenmanagement per Server vielleicht...???), falls er überhaupt dafür angedacht wurde bei Volvo

Vielleicht auch als Entwicklungsbasis für die neuronalen Netze, die man dort etablieren möchte...

AffenJack

2017-07-24, 14:52:44

Vielleicht auch als Entwicklungsbasis für die neuronalen Netze, die man dort etablieren möchte...

Training der neuronalen netze passt schon.
Siehe:https://blogs.nvidia.com/wp-content/uploads/2016/01/ces-end-to-end-deep-learning-cars-web.gif
https://blogs.nvidia.com/blog/2016/01/04/drive-px-ces-recap/

DrivePX wird wahrscheinlich nur Interference ausführen.

Skysnake

2017-07-24, 16:56:25

https://www.pugetsystems.com/labs/hpc/NVIDIA-Quadro-GP100-Tesla-P100-power-on-your-desktop-893/

hier hat jemand 145 gb/s von den 160 gb/s (bidirectional) theoretischen maximum gemessen. bin mir sicher wenn man bissl mehr sucht findet man auch mehr im Netz. Wir haben hier selbst im Kontext von VR-SLI mit der Karte experimentiert, da man ja das Bild eines Auges zurück auf die Karte schieben muss die am HMD hängt. Quadro GP100 ist aber die "langsamere" Grafikkarte (Rasterization, bei Raytracing ist sie flotter) wegen des geringeren clocks als die P6000 mit GP102.

GV100 hat 25 gb/s pro lane, GP100 hatte 20 gb/s, NVLink 2.0 in GV100 ist auch glaub ich bissl verbessert und so näher am theoretischen maximum dran. Mal sehen ob ein Kollege mir die Zahlen geben kann für das gleiche Szenario wie oben.

Es geht aber insbesondere auch um die kleinen buffer Größen und welche Bandbreiten man da erreicht.

Die hot Chips Präsentation zu nvlink ist inzwischen auch online. Danach sollte man aber 256 Byte die Peak Bandbreite erreichen können. Ich glaube nur nicht dran

pixeljetstream

2017-07-24, 18:36:43

du meinst diese slides https://www.hotchips.org/wp-content/uploads/hc_archives/hc28/HC28.22-Monday-Epub/HC28.22.10-GPU-HPC-Epub/HC28.22.121-Pascal-GPU-DanskinFoley-NVIDIA-v06-6_7.pdf

was genau ist der Kontext dafür?
Du meinst jetzt nicht auf api seite N x 256 bytes transferieren (API vulkan, cuda etc.), sondern random mäßig auf Daten in der anderen GPU mit 256 byte Granularität irgendwas im shader lesen (cuda bzw vulkan's device group mit peer accessible memory)?

Skysnake

2017-07-24, 19:01:09

Nein ich meine, das man theoretisch bereits ab 256B Messagesize die volle Link Bandbreite erreichen sollte, weil auf der link Seite kein Package größer als eben 256B payload sein kann.

Das ist fundamental besser als das was PCIE liefert. Von normalen GPUS weiß man das man zich MB übertragen muss um die Peak Bandbreite zu erreichen. Bei KByte hat man nur einige MB/s an Bandbreite typischerweise. Deshalb sind kleine buffer auch eher ungeschickt. Also der overhead für wenig Arbeit ist halt sehr hoch. Daher muss man grob granulare Probleme haben. Wobei sich dann die Frage stellt ob man die time to solution senken kann im Vergleich zu Cluster Lösungen mit CPUs und MPI

mczak

2017-07-24, 20:01:51

Das ist fundamental besser als das was PCIE liefert. Von normalen GPUS weiß man das man zich MB übertragen muss um die Peak Bandbreite zu erreichen. Bei KByte hat man nur einige MB/s an Bandbreite typischerweise.
Quelle?
Das sollte jedenfalls nicht an PCIE liegen. Die maximale Payload beim Link Layer die überhaupt definiert ist sind 4096 Bytes, und viele Geräte unterstützen auch bloss weniger - 128 Bytes sind wohl recht häufig. Damit erreicht man auch schon 86% der theoretischen Effizienz.
Kann natürlich sein dass manche GPUs da vor einem Transfer noch Cache-Flush oder was auch immer benötigen, das hat dann aber nicht wirklich mit der erreichbaren Bandbreite über PCIE zu tun. (Und wenn du bloss ein 64Byte Paket nach dem anderen anfragst und immer zuerst auf die Antwort wartest hast du natürlich tiefere Bandbreite wegen der Latenzzeit.)

Skysnake

2017-07-30, 20:49:44

Ich habe das selbst schon oft gebencht mir der unterschiedlichsten Hardware. Das ist zum Teil mein Job.

Infiniband liefert meist ab 100kB oder so die volle Bandbreite und da muss man ja noch übers eigentliche Netzwerk. Bei GPUS sieht es aber ganz anders aus
Da braucht man einige MB für Peak Bandbreite.

Interessant ist auch folgendes. Habe ich im Hintergrund auch schon gehört, aber jetzt kommt es halt auch von einer bekannten Seite. Vorher war es halt immer höheren sagen.

https://www.nextplatform.com/2017/07/28/supercomputing-slump-hits-hpc/
The supercomputer slowdown has a lot of vectors, we think, and the delayed Skylake launch, which was anticipated for around September 2016, and difficulties in getting “Pascal” and now “Volta” GPU accelerators from Nvidia are just part of it.
Ungaro ist jetzt auch kein Unbekannter. Das ist immerhin der CEO von CRAY :ugly:

crux2005

2017-07-30, 20:57:00

Ungaro.

Bei Ungarn muss ich an ein Land denken wo AMD die Vega "showcased" hat. :frown:

Skysnake

2017-07-30, 22:18:35

Boah diese drecks Autokorrektur am Handy 😑

scully1234

2017-08-04, 19:07:05

Showeffekt schön und gut mit dem verschenken, doch Nvidia beliefert bereits erste Kunden

https://www.pcgamesn.com/nvidia/nvidia-volta-release-date

Skysnake

2017-08-04, 19:10:46

Und wieviel waren das? 10 Stück?

Das kannste nicht vergleichen mit ner Firma die eher tausende will.

Und einfach so sagt ein CEO von einer der bekanntesten HPC Firmen derartiges nicht.

scully1234

2017-08-04, 19:15:19

Und wieviel waren das? 10 Stück?

Going faster than last year

Despite the fact that Jensen introduced the Volta architecture and the V100 GPU, the company has only just managed to ship the first batch of products. (http://www.fudzilla.com/news/graphics/44197-nvidia-just-started-shipping-volta)

Wird wohl ein Bisschen mehr als "10 Stück" sein, wenn sie so davon reden

Skysnake

2017-08-04, 19:19:55

Es ging ums "verschenken"...

scully1234

2017-08-04, 19:24:51

Das verschenken hat doch zu der News hier gar keinen Bezug?

Es ging lediglich darum, das die 10 gespendeten Karten, nicht das einzige war was sich bewegt.

http://oakridgetoday.com/tag/nvidia-volta-gpus/

“The first of Summit’s cabinets arrived Monday, and our team is in the process of uncrating and putting them in place,” McCorkle said in response to questions from Oak Ridge Today. [Read more…]

Das dürften zusammen mit der DGX Station Lieferungen oben, doch schon so einige V100 Chips sein

Hier Hewlett Packard

https://twitter.com/i/web/status/885536965134766080

https://community.hpe.com/t5/Servers-The-Right-Compute/Advancing-Deep-Learning-Capabilities-with-Next-Generation-HPC/ba-p/6970407#.WYS3xIjyhhE

Skysnake

2017-08-04, 20:20:32

Ok, dann haben wir aneinander vorbei geredet.

Und klar liefern die welche aus, aber scheinbar nicht genug und zumindest für p100 hatte ich auch den Eindruck, daß es nicht sooo viele gibt in freier Wildbahn.

Hübie

2017-08-04, 20:29:13

Dem ist auch so. Da es noch ein Risikomarkt ist, produziert man nicht auf Halde. Es wird hier also ähnlich verfahren wie bei Autoherstellern: ein paar für den showroom und der Rest auf Bestellung. Wobei ja auch viele Reseller bestellen (http://www.nvidia.com/object/partner-locator.html).
Also wenn du eine willst, bestell und du erhälst eine. Engpässe haben sich bisher nicht gebildet. Volta wird noch mit der Ausbeute zu kämpfen haben. Gerade heute wurde das CUDA 9 SDK als RC veröffentlicht. Das wird meistens ganz bewusst getimed, also kann man sich das als Warmlaufen vorstellen. ;)

Skysnake

2017-08-04, 21:09:47

In der Halbleieterbranche wird nicht auf Zuruf produziert. Die Maschinen umzurüsten kostet und man hat auch Kosten für andere Dinge die beliebig lange haltbar sind.

Und wie gesagt, wenn ein CEO von so einer Firma so was sagt, dann muss da etwas dran sein

Hübie

2017-08-04, 21:49:54

Deshalb sagte ich so ähnlich. Die Menge für den Showroom ist halt eine konstante, die einerseits auf Erfahrungswerte, andererseits auf kalkulatorischer Basis beruht. Große Bestellungen erhalten ein Zeitfenster in dem diese abgehandelt werden sollen. Ich rede zudem auch von Komplettsystemen, nicht nur GPUs.

Skysnake

2017-08-04, 22:04:11

Naja...

Bedenklich ist das schon. Cray ist ja nicht irgend ein PC Hersteller sondern ein wichtiger Partner von nvidia im hpc Umfeld.

Ok man hat jetzt IBM als wichtigen Partner aber cray hat über viele Jahre einige große Installationen mit GPUS ausgestattet. Zudem hat Cray mit OpenACC nvidia geholfen.

Das empfinde ich schon als Bedenklich. Da scheint es im Gebälk zu knirschen. Wobei ich ehrlich sagen muss, das ich da noch nie wirklich etwas in die Richtung je gehört habe.

Gut mit Titan sollst mal recht viele Ausfälle der GPUs gegeben haben aber das wurde nie bestätigt.

Ich bin mal gespannt wie sich das im nächsten Jahr entwickelt. Bezüglich IBM+nVidia hört man ja auch widersprüchliches. Also das es nicht so ganz rund läuft.

Das wirkt alles nicht gerade beruhigend, wenn man sich in die Situation von jemanden versetzt der dutzende Millionen auf den Tisch legt für die nächsten 3+x Jahre

AffenJack

2017-08-04, 23:14:06

Nun leider ist die Aussage von Cray und Ungaro nie gefallen. Deine vorne zitierte Aussage ist von den Autoren von NextPlattform, auch wenn sie schön zwischen Ungaros Aussagen platziert ist. Auf Cray hat diese aber keinen direkten Bezug. Ungaro hat sich nur positiv über Nvidia auf dem Conference Call geäußert.

Es ist eine generelle Aussage, dass der schwächelnde Supercomputingmarkt nach Next Plattforms Ansicht auch mit der Verfügbarkeit von GP100 und Volta zusammen hängen könnte. Aber auch diese Aussage zeigt keinen Grund für die Knappheit auf. Es kann aufgrund von schlechten Yield nicht soviel ankommen oder aber der Bedarf ist einfach so groß, dass Nvidia diesen nicht decken kann, weil man nicht so schnell rampen kann. Schaut man sich die explodierenden Verkaufszahlen von Nvidias Datacenter GPUs an tendiere ich zu letzterem. Aber da werden wir dieses und vor allem nächstes Quartal durch Nvidias Zahlen mehr zu sagen können.

Hübie

2017-08-05, 00:27:32

Es wird ein Mix aus Kapazitäts- und Yield-Problem bei steigender Nachfrage sein. Die GTC München wird da auch noch mal ein wenig ankurbeln.

Edit: Wobei Problem hier im Sinne von Luxusproblem ist. :D

scully1234

2017-08-08, 17:20:53

Noch ein paar mehr V100 verschenkt

https://blogs.nvidia.com/blog/2017/08/07/ai-researchers-tesla-v100-nvail-isml/

N0Thing

2017-08-09, 00:11:33

Jetzt müssen sie die schon verschenken, weil sie keiner kaufen will. :ugly:

Wirklich eine coole Sache für die beglückten Wissenschaftler. Würde mich nicht wundern, wenn dadurch das Interesse an Nvidias AI Labs program massiv zulegen wird.

Skysnake

2017-08-09, 00:50:44

Naja, das Ai labs Programm ist so lala. Also diese qwiklabs. Ich habe welche gemacht und war alles nur nicht überzeugt.

Im Prinzip ist das alles klicki bunti du musst nichts denken wir nehmen dir alles ab... Für mich hat das nichts mit wissenschaftlichem arbeiten zu tun...

Aber das scheint eh zu 99% der Standardfall zu sein bei allem was sich um deep Learning dreht.

Die Lösungstrategie sieht da eigentlich immer so aus. Wir nehmen mal was schmeißen unsere Daten drauf evaluieren das Ergebnis ändern dann irgendwas und fangen von vorne an...

Ich habe mit einigen Leuten gesprochen die ihren Dr. Machen und wahr entsetzt!

Sind aber halt auch alles keine Mathematiker. Das ist wahrscheinlich das Problem...

scully1234

2017-08-09, 02:10:44

Würde mich nicht wundern, wenn dadurch das Interesse an Nvidias AI Labs program massiv zulegen wird.

Das ist gewiss auch Ziel des Marketings

Naja, das Ai labs Programm ist so lala. Also diese qwiklabs. Ich habe welche gemacht und war alles nur nicht überzeugt.

..

wäre ja auch ein Wunder bei dir ,wenn da jetzt was anderes gekommen wäre, wie das^^

ist ja schließlich Nvidia...

Skysnake

2017-08-09, 07:49:49

Naja, wenn du die Labs machst und Sie NICHT! funktionieren mit den vorgegebenen Anleitungen, dann ist das ähm ja...

Also bei mir war es z.B. so, das ich bei einem Lab 3 mal den Inputdatensatz neu generieren musste um eine konvergierende Lösung zu erhalten.

Und bei einem anderen Lab haben die "Verbesserungen" nur zu schlechteren Ergebnissen geführt. :ugly:

Und das war jetzt nicht so, das man da viel denken musste. Ganz im Gegenteil, das war mehr die Art: "Klicken Sie bitte auf die Schaltfläche 'XY' unten rechts, und danach tippen Sie 'qewrtz' ein und klicken auf 'Z' oben links.

Wenn bei so was die Sachen nicht funktionieren, dann bin ich wirklich nicht begeistert. Vor allem wenn das Zeug NEU ist.

Für nen eigenen CUDA Kurs den ich gehalten habe, hatte ich mir den Arsch aufgerissen, um zu verifizieren, dass die Übungen funktionieren...

Und auch für dich, ich habe drei Sichten auf nVidia

1. Kunde: Empfinde ich so manche Praktiken und die Firmenphilosophie als schlecht. Dennoch habe ich aktuell ne GTX1060 mit 6GB im Rechner
2. Als Investor: ALTER gute Firma weiter so, aber die Zukunft nicht aus den Augen verlieren. Alle Bestrebungen sich vom Gamer Markt unabhängig zu machen sind eigentlich kein echter Erfolg geworden. Man tritt seit Jahren auf der Stelle, weil es in einem Bereich nach vorne geht und in einem anderen wieder zurück. Das macht etwas Bauchschmerzen
3. Als Großkunde/Wissenschaftler: Mir missfallen so manche Sachen und ich habe auch schon schlechte Erfahrungen gemacht, allerdings bietet nVidia auch einige Möglichkeiten bezüglich Software Support, die so keine richtige Konkurrenz haben. Allerdings habe ich bei nVidia immer den Vendor-Lockin.... MAN bin ich froh das ich keine Entscheidung in diesem Bereich fällen muss, denn da kannst du quasi nur falsch liegen.

Der Punkt ist ja, das ich schon öfters mit nVidia zusammen gearbeitet habe, und im Allgemeinen verfestigt/bestätigt sich meine kritische Haltung ihnen gegenüber. Das ist ja das traurige an sich. Es beruht nicht auf Vorurteilen, sondern auf first hands experience. Nur kann man über die Sachen nicht reden, da man ja an NDAs gebunden ist....

Und ja, bei AMD, IBM, Intel usw usf. hat man auch Probleme/Ärger. Eigentlich muss man traurigerweise sagen, das man eigentlich mit den meisten Firma Stress und Ärger hat, wenn man ihre Produkte benutzt. Das Problem ist, das man sich öfters mal einfach an die Stirn fässt, was da abgeht. Viele der Probleme müsste es nicht geben, wenn man nicht auf jedweden Scheis NDAs noch und nöcher packt...

Aber dann wären die ganzen Probleme halt öffentlich bekannt. So sehen die Firmen ziemlich gut aus, und das Zeug funktioniert am Desktop auch ganz gut, aber wenn man es wirklich richtig hart tritt bei größeren Skalen, dann rennt man mal um mal in Probleme. Die goldene Fassade blättert da ziemlich schnell und zwar bei allen... Man muss eigentlich nur schauen, das man das geringere Übel erwischt und sich nicht auf einen Anbieter festlegt, um von dem wie eine Zitrone ausgepresst zu werden. Das machen Sie nämlich alle gern. Und genau da ist nVidia mit ihrem Vendor-Login leider ein echter Dorn im Auge. Man muss sich immer fragen, ob die Vorteile jetzt die Nachteile in ein paar Jahren wenn man eine neue Maschine braucht rechtfertigen. Man produziert halt viel toten Code, wenn man nVidia nutzt und der wird von Jahr zu Jahr mehr, was den Umstieg immer schwieriger macht. An sich doch ganz verständlich, das man das ziemlich uncool findet oder?

Hübie

2017-08-09, 08:23:24

Ganz Unrecht hast du nicht, aber ist es nicht überall so dass man irgendwie toten Code generiert oder es vorkommt dass Funktionen nicht oder nicht richtig aufgerufen werden können, weil diese nicht oder nicht richtig implementiert sind. Wie sieht das vergleichsweise mit Google's TPU aus? OpenCL..? Wie schnell gibt es da Adaptionen vom kommenden Vega und wie zuverlässig wird das sein? Gibt es ausreichend Dokus? Etc etc. Die kochen alle mit Wasser. ;)
Es ist jedoch nicht richtig dass NVIDIA stagniert. Afaik wächst jeder Bereich: Geforce, Tesla, Quadro, Grid und Tegra. Müsste da jetzt aber Zahlen suchen. ;);)

Kriton

2017-08-09, 09:23:43

Die Dokus bei AMD sollen doch besser sein als bei Nvidia?

Hübie

2017-08-09, 09:31:33

pixeljetstream

2017-08-09, 09:45:41

nv high level

http://docs.nvidia.com/cuda/cuda-binary-utilities/index.html#axzz4pF2w5R7P
http://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#maximize-instruction-throughput

vs

amd low level (so dass man z.b. open source Treiber programmieren kann)

http://32ipi028l5q82yhj72224m8j.wpengine.netdna-cdn.com/wp-content/uploads/2016/08/AMD_GCN3_Instruction_Set_Architecture_rev1.1.pdf

Kriton

2017-08-09, 09:54:50

Von der ISA, ja. ;) NVIDIA gibt da wenig heraus und wenn nur mit NDA. Das meiste wird mittels CUDA abstrahiert. Ich sprach generell von Pendants zum CUDA-SDK. ;) Ich kenne mich da nicht so gut aus, daher kann ich nur das wiedergeben was bis 2015 immer auftauchte: Produktivität stieg mit NV/CUDA massiv an, da vieles schon da war (ist). In zwei Jahren tut sich aber bestimmt viel...
Google mit seinen ASICs kann z.B. nix mit graphics oder compute taskloads abseits von DL.

Ich könnte jetzt böse argumentieren und sagen, dass es klar ist, dass bei "schlechter" Doku natürlich die Produktivität steigt, wenn ich eine Schicht darüber lege, die weniger Doku braucht, weil sie abstrahierter ist (und man deswegen weniger "Fehler" machen kann).

Die Frage ist insoweit auch: Bräuchte es CUDA wenn man eine bessere Doku auf geringerem Level hätte? Da sind wir vermutlich bei derselben Thematik wie bei DirextX12/Vulkan im Vergleich zu DX11.

@ pixeljetstream: Ich ignoriere Dich nicht, kann das aber technisch nicht beurteilen, daher kann ich nur abstrakt argumentieren.

scully1234

2017-08-09, 12:09:34

Müsste da jetzt aber Zahlen suchen. ;);)

Am Donnerstag gibt es neue

Hübie

2017-08-09, 13:07:15

Ich könnte jetzt böse argumentieren und sagen, dass es klar ist, dass bei "schlechter" Doku natürlich die Produktivität steigt, wenn ich eine Schicht darüber lege, die weniger Doku braucht, weil sie abstrahierter ist (und man deswegen weniger "Fehler" machen kann).

Die Frage ist insoweit auch: Bräuchte es CUDA wenn man eine bessere Doku auf geringerem Level hätte? Da sind wir vermutlich bei derselben Thematik wie bei DirextX12/Vulkan im Vergleich zu DX11.

@ pixeljetstream: Ich ignoriere Dich nicht, kann das aber technisch nicht beurteilen, daher kann ich nur abstrakt argumentieren.

Das sind auch Dinge wie Syntax oder Semantik. So etwas wie CUDA braucht man immer oder willst du jedem Mediziner, Umwelttechniker etc. jetzt auch noch das Programmieren von Hardware beibiegen? Das ist keine gute Idee, glaub mir das bitte einfach. :D

Pirx

2017-08-09, 13:46:30

Wir brauchen offene Standards, das ist alles.

scully1234

2017-08-09, 13:49:52

"offene Standards" um die sich niemand kümmert braucht keiner :wink:

Pirx

2017-08-09, 14:29:04

"offene Standards" um die sich niemand kümmert braucht keiner :wink:
Davon hat niemand gesprochen.

Complicated

2017-08-09, 14:34:46

Geschlossene Standards um die sich niemand kümmert sind noch weniger nützlich und ebenso weit verbreitet. ;)

Hübie

2017-08-09, 14:41:30

Diese Diskussion können wir gerne auslagern. Es hat beides Vor- und Nachteile, soviel ist sicher. Die Gewichtung der Kriterien entscheidet letzten Endes für Nutzen zum Zweck.
Meine Erfahrung: Man zahlt Geld mehr, erhält mehr Ergebnisse zurück und hat in der Regel höhere Wertstabilität oder Langlebigkeit im Sinne von Support. Da spreche ich nicht nur von NV vs AMD. ;)

Complicated

2017-08-09, 14:49:34

Geschlossene Standards sind wesentlich kurzlebiger im Support. Das ist belegt und muss wirklich nicht diskutiert werden. Die Entscheidung darüber ob der Support die Jahre überdauert ist untrennbar mit dem Wohlergehen des Unternehmens verbunden. Bei offenen Standards spielt es keine Rolle wer sich darum kümmert.
Eine lesenswerte und neutrale Studie am Beispiel von Andoid vs. iOS:
http://www.derdualstudent.de/fallstudie-offene-vs-geschlossene-systeme-risikoanalyse-am-beispiel-android-und-iphone-os.html#Schlussbetrachtung

Die Ergebnisse lassen sich jedoch nicht direkt auf offene und geschlossene Systeme übertragen. Bei Durchführung der Fallstudie wurde festgestellt, dass iPhone OS nicht als komplett geschlossenes sondern eher als halboffenes System betrachtet werden kann. Zudem basieren einige Risiken von Android nicht auf typische Eigenschaften von offenen Systemen sondern auf Richtlinien und Beschränkungen die Google dem System auferlegt. Somit konnte das Ziel der Fallstudie, einen Risikovergleich zwischen einem offenen und einem geschlossenen System durchzuführen, nicht erreicht werden. Dennoch konnte aufgezeigt werden, dass je offener ein System ist, die Risiken für Entwickler sinken.

Troyan

2017-08-09, 14:55:20

Was soll das für eine Studie sein? Es gibt einen offenen Standard. Der nennt sich OpenCL. Es gibt darüber hinaus weitere Standards wie OpenACC, die ebenfalls für jeden zugänglich sind.

CUDA wird seit 10 Jahren supportet. In diesem Zeitraum hat AMD eigene, propritäre Schnittstellen begraben, neue gepusht und weitere eingeführt.

Logisch, dass CUDA sich durchgesetzt hat.

Complicated

2017-08-09, 14:57:42

Hä?
Eine lesenswerte und neutrale Studie am Beispiel von Andoid vs. iOS:
Auch mal einen Beitrag lesen bevor man reflexartig irgendetwas dazu schreibt. Ist aber Offtopic.

Troyan

2017-08-09, 15:03:08

Der Artikel hat keinen Nutzen für dieses Thema. Android ist ein viel größerer Markt als iOS. OpenCL spielt keine Rolle mehr, da selbst Apple diesen aufgegeben hat.

Offene APIs machen nur dort Sinn, wo der Endkunde als Konsument angesprochen wird. Wer Grafikkarten für Deep Learning verwendet, interessiert sich nicht ob Cuda oder OpenCL. Die wollen eine Leistung anbieten (z.B. Bildsuche). Auch dem Kunden am anderen Ende tangiert das Rechensystem nicht.

Bäckerbetriebe sind auch nicht angewiesen ihre Rezepte zu veröffentlichen.

cat

2017-08-09, 15:07:13

Mir kommt es immer so vor als ob nur 2 Möglichkeiten bestehen, diese aber auf verschiedenen Ebenen Pros und Contras haben.

Die Einen wollen und könne mit mehr Zugriff und Analyse umgehen.
Die Anderen können oder wollen es komplett garnicht.
Und wieder Andere wollen Zugriff und Analyse nur bis zu einem bestimmten Grad und darunter sollen Netze und doppelte Böden als Sicherheit bleiben.

Manche Hersteller lassen mehr zu andere weniger.

DX9 ist mit Abstraktion-Layer bis heute bei Low-Budget-Studios das Go-To.
Vulkan und DX12 bzw. der Grad an Zugriff und Analyse der grundsätzlich vorgesetzt wird und vom Anwender erfüllt werden muss ist anscheinend eine deutliche Hürde die schnelle Adaption in der Branche verlangsamt.

Ich weiß nicht wieviel Basis-Aufwand-Steigerung im Raum steht ob ein Game in DX9 bis DX11 programmiert wird oder in Vulkan bzw. DX12.

Aktuell bietet Microsoft ihr PIX-Analyse-Tool und AMD der Radeon-GPU-Profiler um die nötige Analyse besser zu machen.
Hier geht es mehr um Optimierung, aber auch Fehlersuche.

Auf der anderen Seite wird in Vulkan an verschiedenen Ansätzen für Abstraction-Layer gearbeitet.
Das senkt die Verantwortungs- und Verständnis-Hürde und bietet wahrscheinlich simpleren Zugang zu Vulkan und spart den Studios Zeit und Geld.

Auch im Profibereich und Computing etc. steht immer Blackbox vs. Eigenverantwortung.

Complicated

2017-08-09, 15:07:14

Ist aber Offtopic.
Wie interpretierst du diesen Satz von mir?
Es geht allgemein um offene und geschlossene Standards in der Studie. Genau dieses Fanboy-Gehabe wollte ich vermeiden indem ich eine Studie gewählt habe die nichts mit Nvidia oder AMD zu tun hat - erfolglos, daher auch gerne kein weiteres Wort dazu.

Um beim Thema GPUs zu bleiben:
Wie ein geschlossener Standard wie z.B. DX bremst haben wir zur genüge an dem Eiertanz um DX12 gesehen. Da musste AMD Mantle ins Leben rufen und öffentlich behaupten, dass es kein weiteres DX geben wird nach DX11, um Microsoft aus der Reserve zu locken die sich gerne etwas länger Zeit gelassen hätten um DX12 Win10 Exklusiv zu machen.

Nightspider

2017-08-10, 13:20:47

Sorry für die blöde Frage aber soll nun eigentlich Anfang 2018 eine Volta Karte für Gamer kommen?

Hübie

2017-08-10, 13:31:40

Ja.

Rampage 2

2017-08-10, 15:17:19

Ja.

"Anfang 2018" oder "Frühling 2018"? ;)

R2

Iruwen

2017-08-10, 19:47:06

Ja.

Soll wie in "hätte ich gerne" oder wie in "offiziell angekündigt"?

Hübie

2017-08-10, 20:18:31

Weder noch... ;) Man ist auf Kurs und es wird keine Verzögerungen oder hastige Launches geben (siehe Intel). Ein Zeitfenster kenne ich nicht, aber erahnen kann man es.

prinz_valium

2017-08-10, 22:20:36

die 1070/1080 kam vor 2 Jahren dann
es ist ziemlich sicher Volta zu dem Zeitpunkt zu erwarten

ganz zu schweigen davon, dass volta für Profis doch schon da ist

Dural

2017-08-10, 22:25:01

Volta könnte schneller da sein als man erwartet ;)

Irgend wie habe ich das gefühl das sogar noch was in 2017 kommt.

BoMbY

2017-08-10, 22:34:23

Nein, da kommt nichts für Gamer/Endanwender ohne GDDR6. Mai 2018 wahrscheinlich. Wobei da ehh kein so großer Sprung zu erwarten ist wie bei 980 zu 1080, selbst mit Wechsel zu 12FFC.

Dural

2017-08-10, 23:17:39

GDRR5X kam auch aus dem nichts, ich kann mich noch gut daran erinnern das 2 wochen vor der 1080 einige davon ausgingen das noch monate lang nichts kommt.

Der sprung dürfte in etwa kepler zu maxwell sein, also nicht wenig.

scully1234

2017-08-10, 23:18:35

Afaik wächst jeder Bereich: Geforce, Tesla, Quadro, Grid und Tegra. Müsste da jetzt aber Zahlen suchen. ;);)

https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=60792&d=1502399158

ganz frisch

Sorry für die blöde Frage aber soll nun eigentlich Anfang 2018 eine Volta Karte für Gamer kommen?

Es würde sicher auch nicht verwundern ,wenn man zum umsatzstarken Weihnachtsgeschäft, schon etwas in petto hätte

So wie man derzeit bereits V100 ausliefert könnten da im Oktober wieder Ressourcen frei werden,wenn nicht Apple wieder alles belegt

Hübie

2017-08-10, 23:32:10

Danke scully1234. :up: Ich hatte nichts aktuelles und offizielles gefunden.

scully1234

2017-08-10, 23:35:21

nix mit Stagnation

mit dem Q2 bereits das umsatzstärkste Q4 des Vorjahres pulverisiert

Troyan

2017-08-11, 00:15:55

Laut Huang hat man viele Spielzeuge für Gamer für die Zukunft im Petto und kein Volta für Geforce in diesem Jahr.

scully1234

2017-08-11, 00:20:46

kein Volta für Geforce in diesem Jahr

zählt man die Titan nun noch zur Geforce Sparte, oder ist die eigenständig...

Die TXP hat ja kein Geforce Branding mehr, so würde sich Huang ein Hintertürchen offen halten, und hätte keinesfalls gelogen

Hübie

2017-08-11, 00:28:47

Du bist echt hartnäckig. :D Geh mal davon aus, dass weder Titan noch Geforce in 2017 mit einem Volta-Chip aufschlagen werden.

scully1234

2017-08-11, 00:34:00

Ich will kompromisslose 4k Performance zu Weihnachten , sonst klau ich ihm die Lederkutte

N0Thing

2017-08-11, 00:41:12

Der sprung dürfte in etwa kepler zu maxwell sein, also nicht wenig.

Warum gehst du von so einem großen Sprung aus, wenn sich das Fertigungsverfahren noch nicht einmal um einen half node verbessert?

zählt man die Titan nun noch zur Geforce Sparte, oder ist die eigenständig...

Die TXP hat ja kein Geforce Branding mehr, so würde sich Huang ein Hintertürchen offen halten, und hätte keinesfalls gelogen

Das würde aber mit der sehr erfolgreichen Strategie brechen, zuerst die kleinen Gx104 für großes Geld zu bringen, dann mit der Titan nochmal einen bei Preis und Leistung einen drauf zu setzen und dann mit der Ti die Resterampe abzugrasen.

aufkrawall

2017-08-11, 00:48:37

Warum gehst du von so einem großen Sprung aus, wenn sich das Fertigungsverfahren noch nicht einmal um einen half node verbessert?

Maxwell war auch nur 28nm, und das neue "16nm" lässt offenbar noch deutlich größere Chips zu. Wobei sogar auch im gleichen Prozess noch Luft vorhanden wäre.

HisN

2017-08-11, 00:49:19

ganz frisch

Und ich dachte NV macht seine Kohle mit "Profis" wie Data-Centern, Supercomputern ..... jedenfalls wird einem das dauernd erzählt, das wir Gamer das Ende der Fahnenstange sind.

Hübie

2017-08-11, 00:53:05

Sagt wer? :|

HisN

2017-08-11, 00:58:33

Der Tenor in den Foren^^

N0Thing

2017-08-11, 01:01:00

Maxwell war auch nur 28nm, und das neue "16nm" lässt offenbar noch deutlich größere Chips zu. Wobei sogar auch im gleichen Prozess noch Luft vorhanden wäre.

Von Kepler zu Maxwell gab es ja eine ganze Reihe von Änderungen. Die Frage bleibt, warum dies auch mit Volta zu erwarten ist.

Hübie

2017-08-11, 01:04:55

Ich denke wir werden die üblichen 30% sehen. Perf/W wird wahrscheinlich noch mal ordentlich zulegen - und das will schon was heißen.

scully1234

2017-08-11, 01:08:13

Das würde aber mit der sehr erfolgreichen Strategie brechen, zuerst die kleinen Gx104 für großes Geld zu bringen, dann mit der Titan nochmal einen bei Preis und Leistung einen drauf zu setzen und dann mit der Ti die Resterampe abzugrasen.

Ich weiss nicht ob die Titan da überhaupt tangiert , mit ihrem Preisgefüge kommt sie da doch niemanden in die Quere,weder zeitlich noch finanziell

Den kleinen GV104 bekommen sie doch so oder so für viel Geld verkauft, da eben der Spielraum so groß ist

Der Tenor in den Foren^^

wer die Quartalszahlen verfolgt hat über die Jahre,kann sich den falschen Tenor doch schenken

Gaming ist u bleibt ein Standbein von Nvidia

N0Thing

2017-08-11, 01:15:34

Ich weiss nicht ob die Titan da überhaupt tangiert , mit ihrem Preisgefüge kommt sie da doch niemanden in die Quere,weder zeitlich noch finanziell

Den kleinen GV104 bekommen sie doch so oder so für viel Geld verkauft, da eben der Spielraum so groß ist

Gerade hier im Forum wird gerne mal von der letzten Ti zur nächsten Gx104 aufgerüstet und später wieder zur Ti. Würde die Titan gleichzeitig kommen, würden viele wohl direkt dahin wandern.
An den Quartalszahlen seit der Einführung des aktuellen Schemas sieht man ja, daß es gut funktioniert.

scully1234

2017-08-11, 01:33:05

Würde die Titan gleichzeitig kommen, würden viele wohl direkt dahin wandern.
.

Meinst du nicht das da der Einstiegspreis schon mit Bedacht so hoch angesetzt ist, das nicht all zu viele auf diese Idee kommen würden?

N0Thing

2017-08-11, 02:48:05

Wie gesagt, wenn man in den letzten Jahre hier im Forum sehen konnte, wie viele einfach aus Ungeduld von einer 104er GPU zu einer Titan gewechselt sind, weil die jeweils zu ihrer Zeit die schnellste GPU waren spielt der Preis dabei offensichtlich eine untergeordnete Rolle. Die Salamischeibentaktik von Nvidia geht doch seit Jahren wunderbar auf. Solange AMD nicht mithalten kann, wäre Nvidia doch schlecht beraten etwas am etablierten System zu ändern.

Die "Masse" kauft natürlich im Bereich des Salvage 104er, aber diese Gruppe würde eh nicht im mehr als $500 ausgeben, wenn überhaupt.

TheAntitheist

2017-08-11, 06:06:09

Von Kepler zu Maxwell gab es ja eine ganze Reihe von Änderungen. Die Frage bleibt, warum dies auch mit Volta zu erwarten ist.
genau das Gegenteil ist der Fall, Pascal ist Maxwell enhanced... Volta sollte der größere Sprung sein (node unabhängig)

Skysnake

2017-08-11, 08:00:06

wer die Quartalszahlen verfolgt hat über die Jahre,kann sich den falschen Tenor doch schenken

Gaming ist u bleibt ein Standbein von Nvidia

Ja und das ist echt ein Problem an sich.

An sich bleibt es auch weiterhin so aber immerhin sollen die anderen Geschäftsbereiche auf ein vernünftiges Maß wachsen.

Ist nur die Frage ob es wirklich so kommt und vor allem ob der data Center Bereich konstant bleibt oder es nur ein Peak von den großen hpc Deals ist. Das wäre nämlich nicht nachhaltig

AffenJack

2017-08-11, 08:38:42

Ich fasse mal nochmal das interessantere zu Volta aus dem Earnings Call zusammen:

But what I can tell you is that we shipped a lot of Voltas. We shipped a lot of Voltas, and Volta is fully ramped.

And so the price of Volta is driven by the fact that, of course, the manufacturing cost is quite extraordinary. These are expensive things to go and design. The manufacturing cost itself, you guys can estimate it, is probably in the several hundred dollars to close to $1,000.

Volta for gaming, we haven't announced anything. And all I can say is that our pipeline is filled with some exciting new toys for the gamers, and we have some really exciting new technology to offer them in the pipeline. But for the holiday season for the foreseeable future, I think Pascal is just unbeatable.

https://seekingalpha.com/article/4097782-nvidia-nvda-q2-2018-results-earnings-call-transcript?part=single

Man hat also ne Menge Voltas schon in Q2 geliefert. Sieht so aus, als wenn man dieses Jahr eher sogar noch ~ 2Monate früher als letztes mit Pascal dran ist. GP100 nach 10 Monaten so abzulösen ist schon ambitioniert.

Die zweite Aussage ist mal interessant zu hören, da sich Firmen sonst ja eigentlich nie zu ihren Produktionskosten äußern. Bei dann ~900$ pro GPU kann man ja auch grob die Yields ausrechnen. Man müsste nur halbwegs wissen, was der HBM und Rest so kostet.

Jo und das dritte ist wie Troyan schon geschrieben hat die Bestätigung, dass dieses Jahr nix mehr in Sachen Gaming kommt.

@Skysnake
Die großen HPC Deals machen da doch gar nicht viel aus. Das ist gar nix im Vergleich zum Rest. Würde man den Summit Deal in 1 Quartal quetschen, wäre das 25% von Nvs Datacenter Umsatz. Das Wachstum da ist von ganz andern Sachen getrieben.

Hübie

2017-08-11, 09:01:26

Das war letztes Jahr schon klar:

*räusper*

Egal was da 2017 von Volta kommen mag: Es wird nicht zum Daddeln deiner Lieblingsspiele sein.

Das war halt auch so geplant. Man verspätet sich nirgends und hat auch keine Lieferschwierigkeiten (bisher), was zumindest auf stabile, wenn auch nicht gute, yieldrates hindeutet. Wenn ich raten müsste: 30% der Voltas kommen als Chip auf ein Package und da hat man auch noch mal Verluste. Just my tip-off...
Soviel sollte auch klar sein: HBM2 wird auch diese Runde nicht von NV an Gamer gerichtet sein. Man sieht zwar das Potenzial, aber deckt das mit GDDR6, der ja aus GDDR5X hervor ging, effektiv ab. Deutlich höhere Kapazitäten, bessere yields und daraus resultierend günstigere EK lassen das auch logisch erscheinen.

Edit: Vega wird bzgl Speicher wohl etwas mehr den Weg ebnen - vermute ich einfach mal.

Skysnake

2017-08-11, 09:02:54

Es sind wenn ich mich recht erinnere aber mindesze 2 große Deals. Und selbst wenn es nur 10% sind. Wenn die wegfallen tut das schon weh.

Gerade auf top500.org gelesen das Summit später kommt als geplant.

https://www.top500.org/news/ornl-begins-construction-of-summit-supercomputer/

Jetzt ist halt die Frage warum das Ding später kommt. IBM oder nVidia als Ursache?

Mellanox würde ich ausschließen. Die haben da keinen neuen ungetesteten shit drin.

Ich bin da ja mal echt gespannt was da noch bei rum kommt. Man hat, sofern ich mich erinnere, von 4 auf 6 GPUs pro node hochgezogen und einige Anforderungen reduziert. Und jetzt kommt das Ding bis zu einem Jahr später in den Produktion Status? WTF?

Eigentlich sollte Summit ja Ende diesen Jahres stehen. Ich meine man hätte sogar noch mit nem TOP500 Rank Ing dieses spätestens nächstes Jahr gerechnet. Danach sieht es aber wohl nicht mehr aus.

@Pascal:
Kommt es nur mir so vor oder ist die Marktdurchdringung von Pascal p100 nicht so toll wie bei den Vorgängern?

Gibt es dazu Zahlen wieviele Karten verkauft wurden?

In der Cloud sollte das Ding ja richtig einschlagen. Aber der eine Anbieter der hier mal verlinkt war, hatte keine mehr im Angebot als ich mir das anschauen wollte...

Dural

2017-08-11, 09:14:54

Welcher P100 Vorgänger?

So wie man das mitbekommt, haben die meisten so wie so auf V100 gewartet.

HOT

2017-08-11, 09:15:46

NV hat jetzt viel Kohle mit Minern gemacht... offenbar konnte man einfach viel größere Kontingente absetzen als AMD das konnte.

Hübie

2017-08-11, 09:17:05

Baidu z.B.? Was verstehst du unter "groß"? ;) Wenn das mit Volvo klappt hat man auch einen festen Partner. Volvo plant die Grenze von 800.000 PKW per anno 2020 zu erreichen. Iirc steht man aktuel zwischen 500.000 bis 600.000 Stück.

Wobei bei Volvo noch nicht klar ist ob man DrivePX auch wirklich einsetzen möchte. 2020 ist LIDAR 5 am Start, welcher iirc einen ASIC onboard für Inference hat.

Dural

2017-08-11, 09:19:12

Was ja mal wieder sehr interessant ist, in den News und Forum kommt bei Minern immer nur AMD, da sieht man mal wieder was für quatsch die ganze Zeit geschrieben wird.

AMD war mal wieder offensichtlich zu doof, die nötigen Stückzahlen zu liefern, NV sprang dafür sicher gerne ein ;)

Skysnake

2017-08-11, 09:24:09

Ist nvidia eigentlich im Fiskaljahr 2017 oder 2018?

Ich dachte nur Q2.17 wären echte Zahlen im der verlinkten Tabelle und der Rest Forcast. Aber nach dem Artikel auf cb bin imir da nicht mehr sicher, wobei da auch die Zahlen nicht zusammen passen.

Dural

2017-08-11, 09:24:33

2018

Hübie

2017-08-11, 09:25:42

Gerade auf top500.org gelesen das Summit später kommt als geplant.

https://www.top500.org/news/ornl-begins-construction-of-summit-supercomputer/

Jetzt ist halt die Frage warum das Ding später kommt. IBM oder nVidia als Ursache?

Mellanox würde ich ausschließen. Die haben da keinen neuen ungetesteten shit drin.

Wieso zu spät? :confused: Geplant war: Integration 2017, Testing Q4'17-Q2'18 und dann eben erste Durchläufe während parallel das System erweitert / komplettiert wird. Verfügbarkeit für Nutzer dann Anfang 2019. Kann mich gerade nicht erinnern, dass es anders geplant war. :confused:

@Pascal:
Kommt es nur mir so vor oder ist die Marktdurchdringung von Pascal p100 nicht so toll wie bei den Vorgängern?

Gibt es dazu Zahlen wieviele Karten verkauft wurden?

In der Cloud sollte das Ding ja richtig einschlagen. Aber der eine Anbieter der hier mal verlinkt war, hatte keine mehr im Angebot als ich mir das anschauen wollte...

GP100 war und ist von Anfang an als Pipecleaner entstanden, da man vom Zyklus des DOE abhängig ist. Dachte das war dir klar. Im ORNL ist der nur als Vorbereitung auf Volta reingekommen. Damit eignet man sich eine Menge know-how an und verkürzt den Umstieg zu Volta. Auch für die Erfahrung mit den Produktionsschritten konnte GP100 gebrauchen. Glaube kaum dass der sein R&D drin hat...

Skysnake

2017-08-11, 09:25:59

Ah...

Danke. Dann muss ich nochmals auf die Daten schauen.

Denn für 18 war ja nen ziemlicher Sprung drin.

mksn7

2017-08-11, 09:46:00

Hübie

2017-08-11, 09:46:20

Na ja der wird ja 2018 so weit fertig gestellt sein, nur ist er dann eben noch nicht buchbar. Die Evaluation stelle ich mir schon sehr aufwändig vor. Du brauchst 100%ig reproduzierbare Ergebnisse, wenn du wissenschaftliche Belege haben willst. Ich rechne zudem noch mit ein paar Ausfällen hier und da. Grundsätzlich also gut, dass die sich soviel Zeit einräumen.
Viele Projekte haben einen absurden Zeitplan und am Ende kommt Scheiße raus. Kennst das ja selber. ;)

Skysnake

2017-08-11, 09:50:07

Ok ich bin mal die top500 durchgegangen. Damit sollte man ca 36 Mio gemacht haben wenn man von 5k pro GPU ausgeht.

Da fast man sich schon wo die Stückzahlen hin sind. Müssen ja um die 250k GPUS gewesen sein.

Wobei die verkaufen ja auch ganze Server mit dgx. Hmm...

On dann müssen da schon einiger weniger gewesen sein. Dennoch fragt man sich da, wo das alles gelandet ist. Alles bei den big5+x?

Wenn ja ist das ziemlich heiß. Den dann hat man nur eine Hand voll von Kunden die auch mal ganz schnell weg sind. Aber man hat auch das große Geld wenn sie bei einem kaufen.

Ich bin mal gespannt wie sich das mit der TPUv2, Knights Mill und dem DL Chip von Fujitsu entwickelt.

@hübie
Ne 2019 war nie geplant. Ich müsste jetzt ziemlich rutschen, aber eigentlich sollte das Ding Ende 2017 Anfang 2018 fertig werden und dann bis spätestens Mitte 2018 in Produktion gehen.

Klar Aufbau und in Betrieb nahme dauert einige Monate und dann will man auch noch linpack laufen lassen was einige Tage dauert. Aber man lässt nicht über ziehst Monate ein fertiges System rumstehen mit sehr begrenztem Zugriff wodurch es wohl leer läuft.

Hübie

2017-08-11, 09:58:38

AffenJack

2017-08-11, 10:01:35

Die Verbreitung von P100 ist für mich gefühlt auch geringer als bei den Kepler Karten. Liegt sicher auch dran dass die wesentlich teurer sind. Volta wird eher nicht billiger und auch keine größeren Stückzahlen haben... Da bräuchs schon fast eine budget variante für HPC-Hardware, für kleinere Rechenzentren die nur ein bisschen testen wollen.

Bei der Intelvariante von den drei großen amerikanischen Maschinen, Aurora, scheint aber auch nicht mehr das zu werden was es mal sollte. Gerüchten zufolge soll es ein reines AI system werden, mit wenig DP Flops, also vielleicht Knights Hill durch Knights Mill ersetzt. Anderen Gerüchten zufolge wird die Xeon Phi linie auch nicht mehr fortgesetzt.

Wenn nvidia beschließen würde, dass sich kleine Stückzahlen super teurer Rießenchips nicht lohnen, kommt dann vielleicht das Ende einer kurzen Phase von dedizierter HPC-Hardware?

Die Budget Variante wird denke ich GP100 werden. Man wird Volta nicht billig verhöckern, aber GP100 kann man ruhig im Preis senken. Die GPU wird nicht gleich auslaufen.

Die Gerüchte, dass Phi nicht mehr weiterläuft höre ich zum ersten Mal und ergibt irgendwie nur mäig Sinn für mich. Man ist doch mittlerweile halbwegs im Markt angekommen, wieso sollte man das fallenlassen? Der große Schritt wird Knights Crest, aber bis dahin dauert es noch.

Wie kommst du darauf, dass sich das nicht lohnen sollte? Nvidias Zahlen zeigen genau das Gegenteil. GP100 dürfte alleine bei >700 Mio$ Umsatz für ein Jahr sein, von den 500 Mio$ Reingewinn sind. Lässt man das Ding noch preislich etwas tiefer neben Volta laufen, kriegt der locker seine Kosten rein. Aber selbst wenn nicht, Volta wird nicht nur 12 Monate aktuell bleiben wie Pascal und bestimmt gut Gewinn machen. So klein sind die Stückzahlen ja auch nicht. Das macht grob 100k GPUs.

Hübie

2017-08-11, 10:04:30

Afaik ist GP100 schon EOL.

AffenJack

2017-08-11, 10:06:30

Afaik ist GP100 schon EOL.

Nagut :wink:
Dann anscheinend doch keine günstigere HPC Lösung.

Hübie

2017-08-11, 10:09:28

Sieh es mal so: Man nimmt sich Kapazitäten weg, die man mit einem Chip belegt, der länger in der Pipeline sein kann und mehr Marge verspricht.

Cyphermaster

2017-08-11, 10:40:06

Ich muß -nebenbei- sagen, daß ich die starke Steigerung von Perf./Watt und die 30% Steigerung nicht unbedingt sehe. Ich vermute Volta eher bei 20, maximal 25%. Zum Einen wegen der schon hohen Taktungen der aktuellen Karten, zum Anderen wegen der durch das Nicht-Gleichziehen von Vega mit der 1080Ti-Klasse verführerischen Aussicht, nochmal einen Zyklus lang gewinnoptimierter zu fahren, statt auf technologischer Kante genäht. Moderatere Taktungen und geringere Perf./Watt-Steigerungen verbessern die Yields und verringern die Entwicklungs- sowie Einkaufskosten (keine superteuren BAT-Speichermodule nötig).

Skysnake

2017-08-11, 10:47:56

Hast Recht. Da hab ich mich getäuscht. Nun steht auf der Seite des ORNL jedoch noch 2018:

https://www.olcf.ornl.gov/summit/

Frage ist nun wer da mehr weiß und ob es da nicht Missverständnisse gibt. Ich hatte immer 2019 im Kopf :uponder:

Edit: Hast eigentlich schon von Graphcore gehört? :D
Ja ich Araber auch nochmals nachgeschaut. Allerdings auf der. Handy...

Von 1 bis 3 Quartale Verzögerung kann man wohl ausgehen. Man hat sich schon recht früh recht große Puffer eingebaut.

Ich schau mal ob ich zeit a. Ps finde das systhematisch von 2015 an zu durchsuchen im Netz

Es gibt ein PDF zu nem User Meeting auf
Dem das ausgetreten wird.

Je nachdem wie man die Sachen interpretiert kommt man halt zu sehr unterschiedlichen Ergebnissen.

Irgendwie ist das fishy. Vor allem die lange Übergangszeit zwischen early science und final User Phase.

Complicated

2017-08-11, 11:03:09

AffenJack

2017-08-11, 11:34:20

On dann müssen da schon einiger weniger gewesen sein. Dennoch fragt man sich da, wo das alles gelandet ist. Alles bei den big5+x?

Guck dir an was für Firmen etwas mit Deap Learning machen, das sind hunderte. Du kannst von Ausgehen, dass ein großer Teil davon bei sich nen Pascal stehen hat. GP100 ist in DL Speed einfach konkurenzlos gewesen. Ob dabei am Ende was rauskommt ist für Nv ja auch egal. Wichtig ist, die Leute glauben an DL und kaufen sich dann Nvidia, weil es keine alternativen gab. Das wird sich diese Generation ändern. Da gibts Konkurrenz und die Projekte müssen auch was bringen, sonst wird nicht zu Volta aufgerüstet.

Skysnake

2017-08-11, 11:43:30

Ja aber die kleinen klatschen die sich 1-4 Kisten hinstellen machen das mal aber rüsten nicht ständig auf. Zudem wird wohl eine größere Anzahl von denen pleite gehen.

Wenn man mal off record mit Leuten redet die success stories bringen, dann hört sich das meist ziemlich anders an und lässt massiv daran zweifeln das man das weiter betreibt.

Da sieht man halt das typische Problem beispielsweise Firmen. Wenn man etwas anfängt und einiges an Geld reinsteckt, dann muss es ein Erfolg sein. Zur Not eben in den Forcasts.

Das ist auch die eigentlich Bewährung. Nur wenn etwas dauerhaft benutzt wird ist es ein echter Erfolg. Weil dann muss unterm Strich ein Plus stehen.

Aber jetzt laufen wir wieder in das Problem das man das wegen NDAs nicht verifizieren kann....

Mancko

2017-08-11, 13:23:50

Jo und das dritte ist wie Troyan schon geschrieben hat die Bestätigung, dass dieses Jahr nix mehr in Sachen Gaming kommt.

Oder wenn er von Pascal als unbeatable spricht lässt er sich ggf. eine Hintertür offen um noch mal hier und da in ausgewählten Segmenten einen kleinen Pascal Refresh vom Stapel zu lassen. Das wäre für Vega bei Gaming der komplette Sargnagel.

Skysnake

2017-08-11, 13:44:38

Welcher P100 Vorgänger?

So wie man das mitbekommt, haben die meisten so wie so auf V100 gewartet.

K20x. Was neueres gibt es ja nicht mit DP Leistung

vinacis_vivids

2017-08-11, 13:53:36

Oder wenn er von Pascal als unbeatable spricht lässt er sich ggf. eine Hintertür offen um noch mal hier und da in ausgewählten Segmenten einen kleinen Pascal Refresh vom Stapel zu lassen. Das wäre für Vega bei Gaming der komplette Sargnagel.

Wie jedes Wort der Lederjacke hier auf die goldene Waage gelegt wird. Echt Hardcore fanboinism. Dass Vega beim Gaming nichts reisst, ist totaler Humbug.

Skysnake

2017-08-11, 13:56:18

Die Verbreitung von P100 ist für mich gefühlt auch geringer als bei den Kepler Karten. Liegt sicher auch dran dass die wesentlich teurer sind. Volta wird eher nicht billiger und auch keine größeren Stückzahlen haben... Da bräuchte es schon fast eine budget variante für HPC-Hardware, für kleinere Rechenzentren die nur ein bisschen testen wollen.
Ja das zeug ist schon ganz schön teuer. Und dann muss der work load auch passen. Denn wenn man die GPUS nicht vernünftig oder gar Gar nicht nutzen kann dann werden die Kisten verdammt langsam. Das tut dann schon weh. Man muss sich also sehr genau überlegen was man machen will.

Bei der Intelvariante von den drei großen amerikanischen Maschinen, Aurora, scheint aber auch nicht mehr das zu werden was es mal sollte. Gerüchten zufolge soll es ein reines AI system werden, mit wenig DP Flops, also vielleicht Knights Hill durch Knights Mill ersetzt. Anderen Gerüchten zufolge wird die Xeon Phi linie auch nicht mehr fortgesetzt.

Also soweit ich das verstanden habe ist das ursprüngliche System eingestampft. Das Budget dafür ist wohl auch nicht mehr vorhanden.

Das mit dem Einstellen der xeonphi Linie liegt wohl an gewissen Gerüchten die es seit einem halben Jahr bis Jahr gibt. Für mich aber noch zu unsicher um da etwas dazu zu sagen. Keine Ahnung wie breit das schon gesickert ist...

Wenn nvidia beschließen würde, dass sich kleine Stückzahlen super teurer Rießenchips nicht lohnen, kommt dann vielleicht das Ende einer kurzen Phase von dedizierter HPC-Hardware?
Kann sein.

In der Branche ist man nicht unbedingt sehr begeistert von den deep Learning zeug in Volta.

Das deep Learning Zeug will man nämlich nicht unbedingt haben. Alles andere leidet halt darunter.

BoMbY

2017-08-11, 17:48:00

Wie ich schon sagte wird das wohl nichts mit Volta in 2017 (Edit: Ich meinte natürlich dieses Jahr, nicht nächstes):

Hans Mosesmann - Rosenblatt Securities, Inc.
As a follow-on, when can we expect Volta in the consumer gaming market? Thanks.

Jen-Hsun Huang - NVIDIA Corp.
Volta for gaming, we haven't announced anything. And all I can say is that our pipeline is filled with some exciting new toys for the gamers, and we have some really exciting new technology to offer them in the pipeline. But for the holiday season for the foreseeable future, I think Pascal is just unbeatable. It's just the best thing out there. And everybody who's looking forward to playing Call of Duty or Destiny 2, if they don't already have one, should run out and get themselves a Pascal.

Wohl Auszug aus Nvidia's Earning Call - von hier (https://forums.anandtech.com/threads/nvidia-volta-rumor-thread.2499125/page-7#post-39027396), keine Ahnung wo das Transkript her ist.