nVidia - Volta - 2017/2018 (GV100, Xavier, ...) [Archiv] - Seite 2

HOT

2017-03-12, 21:37:24

Deswegen verstehe ich den Pessimismus einiger User zu Volta nicht ganz. 4 Jahre sind in der IT eine große Zeitspanne. Das ist sehr viel Zeit um die Architektur zu überarbeiten und neue Technologien zu entwickeln. Das selbst gesetzte Ziel von Nvidia ist Perf/Watt noch einmal deutlich zu erhöhen bei Volta. Bei Maxwell haben sie das teilweise durch Tiled Cache Renderer erreicht. Und der lange Zeitraum zwischen Maxwell und Volta sollte doch eigentlich ausreichen um neue Technologien entwickeln zu können.
Das wird ja auch gelingen, aber eben nicht in dem Maß, wie es bei Maxwell möglich war. NV muss hier auch einen großen Haufen neuer Technologie einbauen, die u.U. eben nicht direkt für jedes DX11-Spiel sofort massive Vorteile bringt, für DX12/Vulkan und SM6 und auch Compute aber entscheidend wichtige Weiterentwicklungen sind, z.B. die Flexbilität der ALUs, wie sie bei Vega jetzt realisiert wird, hier hat NV Nachholbedarf. So ein revolutionärer Sprung, wie der, den der Tile based Rasterizer brachte, der so direkte Vorteile bei vorhandener Software brachte, wist du aber so schnell nicht wieder sehen denke ich.

matty2580

2017-03-12, 21:56:48

Ich wollte nicht den Eindruck erwecken, dass ich deine Skepsis nicht verstehe, die teile ich auch teilweise.
Leicht wird es nicht werden die selbst gesetzten Ziel bei Nvidia umzusetzen.
Aber sie hatten viel Zeit dafür, über 3 Jahre.
Und AffenJack hat es ja geschrieben, im Mai wissen wir mehr.
Dann dürfte dieser Thread auch wieder belebter sein, wo teilweise wochenlang nichts geschrieben wurde.

Ich selbst schreibe ja relativ wenig hier, meistens auf PCGH.
Die Gründe dafür will ich jetzt nicht aufführen.
Aber ich lese bei euch gerne mit. ^^

Hübie

2017-03-13, 00:26:58

Es mag zwar naiv klingen, aber ich sehe auf Xavier trotz gleichem Herstellungsprozess doppelt so viel SPs in der GPU als bei Parker. Wuerde ich jetzt wissen dass die Flaeche der Volta GPU nicht sehenswert groesser ist als die der Pascal GPU im Parker dann waeren wir vielleicht schon ein Stueck weiter.

Afaik hat Pascal etwa 26 mm² vom gesamten Parker-Die eingenommen. Volta in Xavier demnach ~50. Ziehen wir nun in Betracht welche CPU-Cores man in Xavier verwendet und wie weit man I/O oder andere PHYs schrumpfen konnte würde ich sagen, die Die Size bleibt beinahe gleich. Ist aber mehr so ins Blaue gestochert.

Rampage 2

2017-03-13, 02:28:46

GV100 wird nicht auf 10FF hergestellt und dieses wird sich auch nicht mehr aendern koennen.

Das heißt also im Umkehrschluss, dass KEINE einzige Volta-SKU (egal ob 100,102 oder 104) in 10nm (oder 12nm) kommt...? Bei GV104 könnte ichs ja noch nachvollziehen, aber GV100/102? Wie will NV das hinkriegen?:freak:;D

Pascal war halt nur ne kleine Weiterentwicklung in die das alles nicht mehr rein konnte, aber Volta wird nach 4 Jahren wieder ne große Änderung. Das gute ist ja, dass wir wohl schon im Mai die Grundrisse von Volta sehen werden.

+1

Sollte aber GV104 "nur" in 16FF+ kommen, dann wirds doch ein bisschen eng... bei maximal ~ 400mm^2 kann ich mir nicht mehr als 3072 bis 3200SPs vorstellen - bei Letzterem (3200SPs) müsste NV wohl auch die Anordnung der SMs ändern (weil 800SPs pro GPC nicht durch 128 teilbar sind) -> ergo die Anzahl der SPs pro SM von 128 auf 160 erhöhen (160x5x4 = 3200).

Die andere Frage wäre dann, ob NV mit der Anzahl der SPs auch gleichzeitig den Takt weiter steigern kann - um die geringe Steigerung der Recheneinheiten (nur 20 bzw. 25%) auszugleichen, müsste der Base-Clock mindestens bei 2GHz liegen (mit OC dann bei ~ 2.5GHz;D).

Die resultierende Rechenleistung von 15-16 Tflops (mit OC) in Kombination mit einer überarbeiteten Architektur sollte dann auch reichen für 50-70% Mehrleistung zur 1080:cool:

R2

Ailuros

2017-03-13, 06:44:01

Das heißt also im Umkehrschluss, dass KEINE einzige Volta-SKU (egal ob 100,102 oder 104) in 10nm (oder 12nm) kommt...? Bei GV104 könnte ichs ja noch nachvollziehen, aber GV100/102? Wie will NV das hinkriegen?:freak:;D

Das angebliche "12nm" ist lediglich eine weitere 16FF Prozess-Variante bei TSMC (wenn das Zeug ueberhaupt existiert). Koennte sein dass wenn es 12FF wirklich gibt, dass die gesamte Volta Familie auf diesem hergestellt wird macht es aber nicht weniger einen 16FF Prozess.

Bei GV100 haben sie womoeglich ueberfluessige Logik fuer HPC und co. weggelassen und alles darunter darf dann eben noch einen guten Schuss groesser sein als die heutigen Pascal SKUs, ausser man glaubt dass die 471mm2 der Rand des Herstellungsprozesses sind. Bis zu =/>16 Mrd. Transistoren wird man schon fuer einen hypothetischen GV102 benutzen koennen, weiss der Geier ob Volta noch irgendwelche Architektur-bedingten Effizienz-Steigerungen mitbringt und u.v.a. ob sie doch noch etwas am Takt (mit mehr der bekannten Transistoren-Polsterei) geschraubt haben. Die gleiche Frage hatten wie uebrigens vor dem Maxwell launch.

Sollte aber GV104 "nur" in 16FF+ kommen, dann wirds doch ein bisschen eng... bei maximal ~ 400mm^2 kann ich mir nicht mehr als 3072 bis 3200SPs vorstellen - bei Letzterem (3200SPs) müsste NV wohl auch die Anordnung der SMs ändern (weil 800SPs pro GPC nicht durch 128 teilbar sind) -> ergo die Anzahl der SPs pro SM von 128 auf 160 erhöhen (160x5x4 = 3200).

Siehe oben die These von 16Mrd. Transistoren ergo 33% mehr, sagen wir mal eine konservative Effizienzsteigerung pro cluster bei gleichem Takt im Vergleich zu Pascal von +30% und eine Taktsteigerung von nochmal 15%....im Durchschnitt kommt da locker ein =/>50% Unterschied zu Pascal raus.

Die andere Frage wäre dann, ob NV mit der Anzahl der SPs auch gleichzeitig den Takt weiter steigern kann - um die geringe Steigerung der Recheneinheiten (nur 20 bzw. 25%) auszugleichen, müsste der Base-Clock mindestens bei 2GHz liegen (mit OC dann bei ~ 2.5GHz;D).

Ich hab oben mit frei erfundenen Zahlen mit 1850+MHz gerechnet.

Die resultierende Rechenleistung von 15-16 Tflops (mit OC) in Kombination mit einer überarbeiteten Architektur sollte dann auch reichen für 50-70% Mehrleistung zur 1080:cool:

R2

Theoretisch eben ja; ob es wirklich dann auch so aussehen wird weiss wohl noch keiner.

Afaik hat Pascal etwa 26 mm² vom gesamten Parker-Die eingenommen. Volta in Xavier demnach ~50. Ziehen wir nun in Betracht welche CPU-Cores man in Xavier verwendet und wie weit man I/O oder andere PHYs schrumpfen konnte würde ich sagen, die Die Size bleibt beinahe gleich. Ist aber mehr so ins Blaue gestochert.

Klingt mir zu wenig fuer den Xavier GPU block. Aufgerundet auf 7Mrd. Transistoren mit der Packdichte eines GP102 von ca. 25.5Mio/mm2 sind wir bei ca. 275mm2@16FF+ TSMC. ~50mm2 waeren nur ~18% des insgesamten die estates des SoC und was so brutal gigantisches soll der SoC genau haben dass es noch ganze 225mm2 bzw. ~5.7Mrd. Transistoren kosten soll? Es wuerde auch zusaetzlich heissen dass der Volta GPU block in diesem lediglich etwas unter 1.3 Mrd. Transistoren wiegen wuerde. Was verpass ich gerade?

Rampage 2

2017-03-13, 07:41:51

Siehe oben die These von 16Mrd. Transistoren ergo 33% mehr, sagen wir mal eine konservative Effizienzsteigerung pro cluster bei gleichem Takt im Vergleich zu Pascal von +30% und eine Taktsteigerung von nochmal 15%....im Durchschnitt kommt da locker ein =/>50% Unterschied zu Pascal raus.

Bei einer Die-Fläche zwischen 550-600mm^2 könnte man auch 6 GPCs (mit je 768 SPs) in 16FF+ bequem reinbekommen (insgesamt 4608 SPs) - insofern könnte NV auch den GV102 im exakt gleichen Verhältnis zum GV104 abgrenzen, wie bei Pascal (+50% auf alles). 4800 SPs würden wohl auch noch gehen, aber da könnte es eng werden - dafür müsste NV dann wohl Abstriche bei den Taktfrequenzen hinnehmen.

Ich hab oben mit frei erfundenen Zahlen mit 1850+MHz gerechnet.

Auf den GV102 bezogen? Für GV104 wäre ein Base-Clock von 1850MHz etwas zu wenig - schon eine 1080 (non-Ti) kann man mit Glück auf ~ 11 Tflops dauerhaft betreiben. Die 1080Ti kriegt man mit Glück auf über 14 Tflops. Dabei muss ein GV104 schneller sein als die 1080Ti - bei 1850MHz hätte sie aber "nur" ~ 12 Tflops.

Insofern fände ich einen Base-Clock von ~ 2GHz für GV104 und ~ 1.8 GHz für GV102 nicht unsinnig.

Du sagtest, dass man durch "Polsterung" höhere Taktraten erreichen kann - heißt das soviel wie "etwas weniger SPs und stattdessen jeden einzelnen SP mit etwas mehr Transistoren zu polstern, um höhere Taktraten zu ermöglichen" ?

R2

Hübie

2017-03-13, 07:53:20

Ailuros

2017-03-13, 08:31:51

Ich hab nur die SMs hochgerechnet fällt mir auf. :redface: Wieviel der Kram drum herum ausmacht ist schwer festzustellen. Auch wie groß die acht A-57 @16FF sind konnte ich auf die schnelle nicht googlen. Also hast du erst mal nix übersehen. Wie kommst auf 275mm^2? Waren es nicht eher 300 für Xavier?

7 Mrd. Transistoren durch eine Packdichte von 25.5Mio/mm2 (GP102) = 274.5mm2. Mit 24Mio/mm2 bist Du bei 292mm2. Ich hab lediglich den heute besten Fall genommen. Stimmen die 275mm2 dann wird die GPU nicht kleiner als 90+mm2 und >2.3 Mrd schwer sein.

Bei einer Die-Fläche zwischen 550-600mm^2 könnte man auch 6 GPCs (mit je 768 SPs) in 16FF+ bequem reinbekommen (insgesamt 4608 SPs) - insofern könnte NV auch den GV102 im exakt gleichen Verhältnis zum GV104 abgrenzen, wie bei Pascal (+50% auf alles). 4800 SPs würden wohl auch noch gehen, aber da könnte es eng werden - dafür müsste NV dann wohl Abstriche bei den Taktfrequenzen hinnehmen.

Ich hab mit Absicht mit Transistoren-Anzahl gerechnet (+33%) mit einer Effizienz-Steigerung von konservativen +30%. Ohne zu wissen wie Volta clusters ausgelegt sind und deren Effizienz sind sterile Zahlen auf Pascal basierend verdammt nutzlos. Zu den Frequenzen weiter unten.

Auf den GV102 bezogen? Für GV104 wäre ein Base-Clock von 1850MHz etwas zu wenig - schon eine 1080 (non-Ti) kann man mit Glück auf ~ 11 Tflops dauerhaft betreiben. Die 1080Ti kriegt man mit Glück auf über 14 Tflops. Dabei muss ein GV104 schneller sein als die 1080Ti - bei 1850MHz hätte sie aber "nur" ~ 12 Tflops.

Wobei ich nirgends eine Anzahl von Einheiten erwaehnt habe, noch irgendwelche Effizienz pro FLOP. Hat man auf dem gleichen Prozess +33% Transistoren, +30 insgesamte Effizienz und dazu auch noch +15% bei einem ohnehin schon hohen Takt ist das letzte alles andere als "wenig", ueberhaupt wenn man auch noch Luftraum fuer vendor/User Uebertaktungen lassen will.

Du sagtest, dass man durch "Polsterung" höhere Taktraten erreichen kann - heißt das soviel wie "etwas weniger SPs und stattdessen jeden einzelnen SP mit etwas mehr Transistoren zu polstern, um höhere Taktraten zu ermöglichen" ?

R2

Ueberhaupt nichts "weniger". Um die sehr hohen Frequenzen auf Pascal zu erreichen haben sie so manches "transistor padding" angewendet. Vereinfacht wird so manches "gepolstert" bzw. isoliert falls es einfacher klingt damit hoehere Frequenzen moeglich sind ohne dass die Hitze zu hoch wird bzw. der Stromverbrauch.

HOT

2017-03-13, 08:53:41

Solche Träumereien gabs bei Pascal auch, hinterher kam sehr viel weniger dabei rum. Nur eben mehr Takt.

Ailuros

2017-03-13, 09:23:56

Solche Träumereien gabs bei Pascal auch, hinterher kam sehr viel weniger dabei rum. Nur eben mehr Takt.

Ich hab nirgends aehnliches fuer Pascal erwartet eher das brutale Gegenteil und nie einen so hohen Takt, welches wohl sehr geringen Erwartungen entsprach.

AnnoDADDY

2017-03-13, 09:32:20

Ich hab nirgends aehnliches fuer Pascal erwartet eher das brutale Gegenteil und nie einen so hohen Takt, welches wohl sehr geringen Erwartungen entsprach.
Von Pascal als Zwischenschieber konnte man realistisch gesehen auch kaum was erwarten. Dafür hat der ziemlich eingeschlagen. Aber Volta ist doch dachte ich ne komplett neue Architektur? Oder hat sich da was geändert?

Ailuros

2017-03-13, 10:20:04

Von Pascal als Zwischenschieber konnte man realistisch gesehen auch kaum was erwarten. Dafür hat der ziemlich eingeschlagen. Aber Volta ist doch dachte ich ne komplett neue Architektur? Oder hat sich da was geändert?

Volta duerfte eine neue Architektur sein (wobei "komplett neu" auch ziemlich relativ sein sollte), aber es koennte auch sein dass die ziemlich grosse Taktsteigerung bei Pascal einen Brocken davon mitgenommen hat. Anfangs war ja Volta als Nachfolger von Maxwell bestimmt.

HOT

2017-03-13, 12:08:15

Seh ich nicht so. Das wird schon eine komplett neue Architektur, eben moderner und flexibler als Pascal/Maxwell.

Ailuros

2017-03-13, 12:23:50

Seh ich nicht so. Das wird schon eine komplett neue Architektur, eben moderner und flexibler als Pascal/Maxwell.

Noch vor zwei Posts waren Einschaetzungen von konservativen +50% (insgesamt) "Traeumereien" :freak:

HOT

2017-03-13, 12:49:22

Noch vor zwei Posts waren Einschaetzungen von konservativen +50% (insgesamt) "Traeumereien" :freak:
Bezug? Das eine hat mit dem anderen wenig zu tun.

Ailuros

2017-03-13, 13:10:38

Bezug? Das eine hat mit dem anderen wenig zu tun.

Wenn Du in Deinem letzten beiden vorigen Posts keinen Widerspruch sehen kannst, dann loese es gefaelligst alleine mit Deinem alter ego.

HOT

2017-03-13, 14:23:05

Wer sagt denn, dass eine starke Erneuerung der Architektur sofort immer in erheblicher Mehrleistung niederschlagen muss? Es kommt ja auch darauf an, wie das eingesetzt wird.
Es ist ja außer Zweifel, dass Volta einen großen Effizienzsprung machen wird, aber 50% ist bei gleichem Prozess und ähnlicher TDP einfach nur Träumerei.
50% bei gleichem Prozess mit erheblich mehr Die-Fläche und erheblich erhöhter TDP wiederum ist durchaus denkbar - wenn dann so - und so wird das mMn auch kommen. Man wird die 1080Ti mit dem GV104 genau schlagen (auch Customs) aber eben nicht umsonst.

Ailuros

2017-03-13, 17:23:55

Wer sagt denn, dass eine starke Erneuerung der Architektur sofort immer in erheblicher Mehrleistung niederschlagen muss? Es kommt ja auch darauf an, wie das eingesetzt wird.

Wer zum Teufel ist so bloed und entwickelt eine neue Architektur die nur um 10% effizienter ist?

Es ist ja außer Zweifel, dass Volta einen großen Effizienzsprung machen wird, aber 50% ist bei gleichem Prozess und ähnlicher TDP einfach nur Träumerei.

Es war ein spekulatives Beispiel fuer 33% mehr Transistoren, 30% hoehere Effizienz und 15% hoehere Frequenzen (mit noch mehr "padding"). Daran liegt nichts besonders absurdes fuer ein spekulatives +50% bei den Zahlen.

50% bei gleichem Prozess mit erheblich mehr Die-Fläche und erheblich erhöhter TDP wiederum ist durchaus denkbar - wenn dann so - und so wird das mMn auch kommen. Man wird die 1080Ti mit dem GV104 genau schlagen (auch Customs) aber eben nicht umsonst.

Es sind heute immer noch +55% in 1080p zwischen einer 980Ti und einer 780Ti auf dem gleichen Prozess. 35% mehr Effizienz davon kamen laut NV pro cluster bei gleichem Takt https://www.computerbase.de/thema/grafikkarte/rangliste/#diagramm-performancerating-1920-1080

scully1234

2017-03-13, 19:06:45

Anfangs war ja Volta als Nachfolger von Maxwell bestimmt.

Ob man da irgendwann nochmal erfährt ,was der Grund war, für Pascal first?

Wahrscheinlich eher nicht

Aber aufgrund dessen, das Volta mehr umkrempeln soll, und länger Zeit hatte im "Entwicklungsofen" durchgebacken zu werden,länger wie es Pascal konnte, sollten da schon Minimum solche Steigerungen kommen, wie Maxwell vs Pascal

crux2005

2017-03-13, 19:10:15

Wenn du dir 2017 eine Volta GeForce in deinen PC schrauben kannst, bekommst du von mir einen runden Keks mit abgebissenen Ecken. :freak: (Not gonna happen).

OK ;)

Wollte auch AMD nicht die Radeon Pro Duo (Fiji x2) bis ende 2015 bringen? Am ende war es April 2016.

Kann also gut sein das erst im Januar/Februar die Volta Consumer Karten auf den Markt kommen.

Ailuros

2017-03-13, 19:15:39

Ob man da irgendwann nochmal erfährt ,was der Grund war, für Pascal first?

Wahrscheinlich eher nicht.

Wenn Pascal in der Zukunft nicht mehr relevant ist und man trifft einen insider der Plauder-freudig ist schon.

scully1234

2017-03-13, 19:27:21

Wenn Pascal in der Zukunft nicht mehr relevant ist und man trifft einen insider der Plauder-freudig ist schon.

Vielleicht lößt Cheffe ja irgendwann wieder selbst auf so wie beim Fermi Desaster

https://video.golem.de/games/3800/nvidia-chef-jen-hsun-huang-ueber-fermis-technische-schwierigkeiten.html

Ailuros

2017-03-13, 19:59:08

Vielleicht lößt Cheffe ja irgendwann wieder selbst auf so wie beim Fermi Desaster

https://video.golem.de/games/3800/nvidia-chef-jen-hsun-huang-ueber-fermis-technische-schwierigkeiten.html

Blah.....das hier ist um einiges besser:

https://forum.beyond3d.com/posts/1490952/

It's not going to change the opinion of the gullible, but 3 years after the fact, it's probably time to settle this once and for all: the issue in GF100-A01 was in a back-end bus that fed the memory controllers. It was not even in the general xbar that interconnects the usual agents. There was a custom designed cell that with a timing violation that was not picked up during characterization.

The net result was a broken MC system (no transactions to external memory at all), but not a bricked chip: major parts could be verified by rendering to PC memory over PCIe. A02 fixed all known bugs, but not those that were hiding behind MC specific paths, so A03 was needed.

GF100-A01 had no issues at all with distributing geometry across GPCs. Distributed geometry never comes up in discussions about power. I don't think it should surprise anyone with a bit of a brain that SMs+TEX are where the power is.

Also: don't fret so much about crossbars in general. It's under control.

(Crawling back into my bear cave...)

Mehr von ihm:

Changes in SM is much easier then changes in geometry flow because you can keep interfaces similar or even same. GT200 was smaller change but took longer then planned because it was not high priority project initially. Fermi was as big a change as G80. Very complex. Maybe a bit too much in one go. Kepler was easier.

scully1234

2017-03-13, 20:38:36

Im Nachhinein muss man sich bei Pascal auch fragen, wie sie das Design so schnell ready hatten, nachdem klar wurde das Volta noch nicht an dem Punkt ist für einen Launch.

Ist doch eigentlich auch ungewöhnlich , das zwei Architekturen fast quasi parallel soweit sind, das eine die andere mal mir nix dir nix ersetzt?

Oder hat Fermi 1.0 da soviel negativen Eindruck hinterlassen , das man hier auf Redundanz aus war...

TheGood

2017-03-13, 22:27:08

Ob man da irgendwann nochmal erfährt ,was der Grund war, für Pascal first?

Wahrscheinlich eher nicht

Aber aufgrund dessen, das Volta mehr umkrempeln soll, und länger Zeit hatte im "Entwicklungsofen" durchgebacken zu werden,länger wie es Pascal konnte, sollten da schon Minimum solche Steigerungen kommen, wie Maxwell vs Pascal

Die Frage ist eher ob nicht der hohe Taktmöglichkeit des Pascal Designs am Ende ein Problem für Volta wird um Pascal deutlich zu schlagen. Wir werdens sehen.

Rampage 2

2017-03-14, 02:25:32

Wobei ich nirgends eine Anzahl von Einheiten erwaehnt habe, noch irgendwelche Effizienz pro FLOP. Hat man auf dem gleichen Prozess +33% Transistoren, +30 insgesamte Effizienz und dazu auch noch +15% bei einem ohnehin schon hohen Takt ist das letzte alles andere als "wenig", ueberhaupt wenn man auch noch Luftraum fuer vendor/User Uebertaktungen lassen will.

Ach stimmt ja, höhere Effizienz - die GTX 980 war ja auch 60-80% schneller als die GTX 770, obwohl sie nur 33% mehr Recheneinheiten hatte. Aber diesbezüglich ist mir einiges unklar: wurde die Effizienz *der Recheneinheiten selbst* auch erhöht oder aber entstand die Leistungssteigerung primär durch die Bandbreitensteigerung, aufgebohrten Front-End* und TBDR? Wenn ich mich jetzt nicht falsch erinnere wurden die Recheneinheiten selbst hauptsächlich nur deswegen effizienter, weil das Front-End verstärkt wurde - so stand es AFAIR zumindest bei Anandtech.

* = mit "Front-End" sind doch die ROPs, der Rasterizer und die Geometry-Engines gemeint, oder? Bevor ich jetzt hier Unsinn geschrieben habe... und was ist dann nochmal das "Back-End"?

Ueberhaupt nichts "weniger". Um die sehr hohen Frequenzen auf Pascal zu erreichen haben sie so manches "transistor padding" angewendet. Vereinfacht wird so manches "gepolstert" bzw. isoliert falls es einfacher klingt damit hoehere Frequenzen moeglich sind ohne dass die Hitze zu hoch wird bzw. der Stromverbrauch.

Pascal ist die erste Nvidia-Generation, die in 16FF+ gefertigt wird und Du hattest selbst geschrieben, dass die Yields immer noch schlecht seien - wenn dem wirklich so ist, dann sollte die 16FF+ bis Frühjahr 2018 ausgereift sein. Ich hatte bis jetzt immer in Erinnerung, dass eine ausgereifte Fertigung noch höhere Taktraten (10-20%) ermöglicht (neben höheren Yields). Maxwell wurde schließlich ja auch in derselben Fertigung entwickelt wie Kepler und liess sich aber 20% höher takten...

Außerdem hat Nvidia bis Q2/2018 genügend Zeit, um zu experimentieren und die Chips für 16FF+ optimieren - wer weiss, welches Taktmonster sie dann wieder aus dem Hut zaubernX-D

Wer sagt denn, dass eine starke Erneuerung der Architektur sofort immer in erheblicher Mehrleistung niederschlagen muss? Es kommt ja auch darauf an, wie das eingesetzt wird.

Wie soll Volta denn sonst die geforderte Mehrleistung erbringen? Wenn die Sache mit dem Cancel von 10nm sich wirklich bestätigen sollte, dann kann NV die Anzahl der Recheneinheiten nicht drastisch erhöhen - also muss stattdessen der Takt weiter gesteigert werden und die Effizienz massiv erhöht werden...

50% bei gleichem Prozess mit erheblich mehr Die-Fläche und erheblich erhöhter TDP wiederum ist durchaus denkbar - wenn dann so - und so wird das mMn auch kommen. Man wird die 1080Ti mit dem GV104 genau schlagen (auch Customs) aber eben nicht umsonst.

Genau das war doch meine Anregung - für GV104 die Die-Fläche auf +- 400mm^2 erhöhen (und dann mit entsprechend viel SPs vollstopfen) und beim GV102 dann ans absolute Limit (+- 600mm^2) gehen;)

R2

crux2005

2017-03-14, 03:00:28

* = mit "Front-End" sind doch die ROPs, der Rasterizer und die Geometry-Engines gemeint, oder? Bevor ich jetzt hier Unsinn geschrieben habe... und was ist dann nochmal das "Back-End"?

AFAIK Geometry processors, rasterizer etc. = front-end, ROPs = back-end. Deswegen werden (Z/Stencil ROPs + caches) auch RBEs (Render Back Ends) genannt.

Troyan

2017-03-14, 09:45:17

Laut Digitimes habe nVidia Bestellungen für TSMCs "12nm" aufgegeben: http://www.digitimes.com/news/a20170313PB201.html

Ailuros

2017-03-14, 11:28:36

Ach stimmt ja, höhere Effizienz - die GTX 980 war ja auch 60-80% schneller als die GTX 770, obwohl sie nur 33% mehr Recheneinheiten hatte. Aber diesbezüglich ist mir einiges unklar: wurde die Effizienz *der Recheneinheiten selbst* auch erhöht oder aber entstand die Leistungssteigerung primär durch die Bandbreitensteigerung, aufgebohrten Front-End* und TBDR? Wenn ich mich jetzt nicht falsch erinnere wurden die Recheneinheiten selbst hauptsächlich nur deswegen effizienter, weil das Front-End verstärkt wurde - so stand es AFAIR zumindest bei Anandtech.

Ein Punkt wo Maxwell gegen Kepler punktete war die besser uebersehbaren clusters. Von 6*32SPs/cluster im Kepler gingen sie auf 4*32SPs/cluster und es wuerde mich auch nicht im geringsten wundern wenn GP100 mit 2*32SPs/cluster vorgemacht hat fuer die Zukunft. IMHO ist AMD's 64SPs/cluster nahezu ideal fuer die heutlichen Verhaeltnisse.

Pascal ist die erste Nvidia-Generation, die in 16FF+ gefertigt wird und Du hattest selbst geschrieben, dass die Yields immer noch schlecht seien - wenn dem wirklich so ist, dann sollte die 16FF+ bis Frühjahr 2018 ausgereift sein.

Ich hatte auch damit gerechnet dass die die 1080Ti mit einem $899 MSRP verkaufen werden. Bei $200 weniger sind die yields offensichtlich um einiges besser, gravierend besser als heute werden sie wohl schwer werden.

Ich hatte bis jetzt immer in Erinnerung, dass eine ausgereifte Fertigung noch höhere Taktraten (10-20%) ermöglicht (neben höheren Yields).

Wohl eher durch eine neue chip revision (metal spin) unter normalen Umstaenden bei einem reiferen Prozess.

Maxwell wurde schließlich ja auch in derselben Fertigung entwickelt wie Kepler und liess sich aber 20% höher takten...

Dank Optimierungen fuer die chips selber um hoehere Frequenzen tolerieren zu koennen.

Außerdem hat Nvidia bis Q2/2018 genügend Zeit, um zu experimentieren und die Chips für 16FF+ optimieren - wer weiss, welches Taktmonster sie dann wieder aus dem Hut zaubernX-D

Es wird eine 16FF Prozess-Variante sein fuer Volta, aber wohl nicht 16FF+. Das angebliche 12FF TSMC ist nur eine umbenannte Variante von 16FF mit hoffentlich leicht besseren Konstanten als 16FF+.

Wie soll Volta denn sonst die geforderte Mehrleistung erbringen? Wenn die Sache mit dem Cancel von 10nm sich wirklich bestätigen sollte, dann kann NV die Anzahl der Recheneinheiten nicht drastisch erhöhen - also muss stattdessen der Takt weiter gesteigert werden und die Effizienz massiv erhöht werden...

10FF war zumindest fuer GV100 nie geplant, ergo gibt es keine Stornierung sondern nur extrem beschissene yields mit noch hoeheren Herstellungskosten fuer 10FF die wohl keiner der beiden IHVs in Kauf nehmen will.

AFAIK Geometry processors, rasterizer etc. = front-end, ROPs = back-end. Deswegen werden (Z/Stencil ROPs + caches) auch RBEs (Render Back Ends) genannt.

Oder PBE (pixel back end) je nachdem wen jeglicher IHV genau nerven will :P

Hübie

2017-03-15, 20:30:12

Laut Digitimes habe nVidia Bestellungen für TSMCs "12nm" aufgegeben: http://www.digitimes.com/news/a20170313PB201.html

Kann auch Xavier sein...

Troyan

2017-03-15, 20:41:33

Xavier kommt in 16nmFF. Jedenfalls hat nVidia das auf die Folie geschrieben. :D

Ailuros

2017-03-15, 20:48:59

Xavier kommt in 16nmFF. Jedenfalls hat nVidia das auf die Folie geschrieben. :D

https://blogs.nvidia.com/blog/2016/09/28/xavier/

Packed with 7 billion transistors, and manufactured using cutting-edge 16nm FinFET process technology, a single Xavier AI processor will be able to replace today’s DRIVE PX 2 configured with dual mobile SoCs and dual discrete GPUs — at a fraction of the power consumption.

Falls es 12FF werden sollte, hat NV nirgends gelogen.

scully1234

2017-03-15, 21:03:06

Falls es 12FF werden sollte, hat NV nirgends gelogen.

schon interessant wie inflationär man mittlerweile mit der Bezeichnung des Prozesses umgeht

Hübie

2017-03-16, 00:39:02

Ist doch bei Mercedes und Co genau so. Fahrzeug heißt 350, hat aber einen 2000 cm³ Hubraum von PSA (nicht mal das machen die mehr). Bei Prozessen halt 12 nm weil man es so schön rechnet. :D

Ailuros

2017-03-16, 06:59:03

Ist doch bei Mercedes und Co genau so. Fahrzeug heißt 350, hat aber einen 2000 cm³ Hubraum von PSA (nicht mal das machen die mehr). Bei Prozessen halt 12 nm weil man es so schön rechnet. :D

Nach 65nm benutze ich persoenlich meistens Beschreibungen wie 40G, 28HP, 16FF, 14FF usw. Ich werde mich wohl irren aber wenn man streng mit nm rechnen wuerde duerften 16FF Prozess-Varianten (12FF inkl.) @TSMC auf 17nm (oder waren es mehr?) liegen.

AffenJack

2017-03-16, 08:19:30

Streng nach nm hat auch intels prozess nix mehr mit der Realität zutun glaube ich. Im Vergleich zu Intel kannst du das Ding vll 17 oder 18nm nennen und Gf dann 16nm.

TSMC hat ja angekündigt, dass der Prozess auch eine etwas höhere density schafft. Wenn man jetzt mal annimmt, dass er 15-20% mehr Transistoren/Fläche schafft als 16FF+ (einfach um Gf und Samsung zu schlagen, die da gerade nen kleinen Vorteil haben) dann könnte das für GV100 doch schon passen.

Ailuros

2017-03-16, 08:39:00

TSMC hat ja angekündigt, dass der Prozess auch eine etwas höhere density schafft. Wenn man jetzt mal annimmt, dass er 15-20% mehr Transistoren/Fläche schafft als 16FF+ (einfach um Gf und Samsung zu schlagen, die da gerade nen kleinen Vorteil haben) dann könnte das für GV100 doch schon passen.

GP102 liegt ungefaehr bei 25.5Mio/mm2; +20% wuerde fast 31Mio/mm2 wobei man bei 600-610mm2 dann auf 18-19Mrd Transistoren kommt. Fuer die 7.2 TFLOPs DP (zumindest) wuerden sie schon 25% mehr DP SPs haben im Vergleich zum P100 oder +16% mehr DP SPs und einer >1.6GHz boost Frequenz.

kdvd

2017-03-18, 22:12:07

Ermöglicht dieser 12nm Prozess auch nochmal >deutlich< schnellere Schaltzeiten und damit Frequenzen (> 2,4GHz ) ggü. 16FF?

Ich mein, 15-20% mehr Transistoren allein klingt nicht so, als ob ein GV104 einen GP102 schlagen könnte, wenn GV104 wieder nur 300-350mm^2 klein ist.

AffenJack

2017-03-18, 22:20:52

Und was hindert Nv daran den Chip etwas größer zu machen? Taktbarkeit wird sich kaum ändern. Generell dürfte der Takt kaum mehr höher gehen. Genauso wie man bei CPUs die Taktwand erreicht hat, gehe ich bei GPUs vom gleichen aus. Bei den nächsten Prozessen wird der Takt der Chips wahrscheinlich sogar runter gehen.

kdvd

2017-03-18, 22:41:33

Und was hindert Nv daran den Chip etwas größer zu machen?

Es kostet halt mehr.

Bisher war zwar jeder 104er zumindest eine Idee schneller als ein 100/102er eine Gen zuvor, aber 12nm klingt nur wie ein Zwischenschritt.

Ich frage mich, ob ein Vollausbau GV104 das Potential hätte, meine Maxwell Titan X um wenigsten +80% zuschlagen.

Linmoum

2017-03-18, 22:45:11

12nm ist auch nichts anderes als optimiertes 16nm. Klingt halt marketingtechnisch besser.

Skysnake

2017-03-20, 12:19:30

Mal wieder eine Meldung das Volta in 12nm kommen soll:
https://www.top500.org/news/moores-law-is-breaking-down-but-thats-ok/

Tarkin

2017-04-17, 16:31:07

https://hardforum.com/threads/geforce-20-series-to-be-released-this-year-volta.1930060/ Volta in Q3?

horn 12

2017-04-17, 16:43:51

Volta noch vor Vega, dies wäre ja Hammer!

maximus_hertus

2017-04-17, 17:06:07

https://hardforum.com/threads/geforce-20-series-to-be-released-this-year-volta.1930060/ Volta in Q3?

Ich lege mich fest - Nein. Wird nicht passieren.

Wir müssten dann schon länger Infos aus Indien haben, ein Tape Out und damit sickernde Infos schon Anfang 2017.

Tarkin

2017-04-17, 17:09:15

Volta noch vor Vega, dies wäre ja Hammer!

Vega kommt Q2

Wie auch immer, höchst unrealistisch... warum sollte nvidia da jetzt noch die Titan XP und 1080ti bringen - das ergibt absolut keinen Sinn.

Es sei denn sie haben wirklich Bammel bzgl. Vega ... und selbst dann wärs komplett sinnfrei gewesen jetzt ti und ne neue titan auf den markt zu werfen (bei offenbar ziemlih hohen Lagerbeständen).

Vl. Volta in q3 nur für Data Center?

Hübie

2017-04-17, 17:34:26

So ähnlich. Aber Q3 finde ich da gerade etwas knapp / optimistisch. Ich tippe eher auf Oktober, aber keinesfalls für Gamer.

iuno

2017-04-17, 17:52:54

12nm ist auch nichts anderes als optimiertes 16nm. Klingt halt marketingtechnisch besser.
Ja, TSMC ging es wohl ziemlich auf den Sack, dass Samsung/GF einen vergleichbaren Prozess als "14 nm" verkauft, waehrend man selbst "nur" "16 nm" liefern kann.

Wir müssten dann schon länger Infos aus Indien haben, ein Tape Out und damit sickernde Infos schon Anfang 2017.
Da bin ich nicht mal so sicher, aber auch die Argumente scheinen mir sehr fragwuerdig.
Es soll doch sowieso wieder GV100 zuerst kommen oder? Dann macht die Info ueber einen vorgezogenen Launch wegen Preiskampf und stagnierender Nachfrage ueberhaupt keinen Sinn. Alles ueber der 1060 ist momentan konkurrenzlos.

reaperrr

2017-04-17, 18:50:50

Ich tippe eher auf Oktober, aber keinesfalls für Gamer.
Wenn GV100 der erste Chip ist, gebe ich dir Recht. Wenn GV104 der erste Chip ist, dürften die Gamer zuerst dran sein.

Kriton

2017-04-17, 19:40:56

https://hardforum.com/threads/geforce-20-series-to-be-released-this-year-volta.1930060/ Volta in Q3?

Der nächste Post ist Gold wert:

Hmm, I'm kind of skeptical since it's not coming from videocardz or wccftech :)

Botcruscher

2017-04-17, 20:02:44

Wenn GV104 der erste Chip ist, dürften die Gamer zuerst dran sein.
Warum sollte GP104 ersetzt werden? Abseits von Vega besteht da überhaupt kein Kostendruck und "12"nm dürfte nun nicht billiger sein. Der Profibereich hat dagegen immer Bedarf und zahlt auch entsprechend. Irgendwann in Q3 also erste Demosysteme+ Ankündigung mit späterer Lieferung. Die Spieler werden dann irgendwann Q1/Q2 beglückt. Da hat sich Pascal und die Ti mindestens 9 Monate abverkauft.

Screemer

2017-04-17, 21:52:58

Mancko

2017-04-17, 22:28:56

Der datacenter- und workstationumsatz lag aber bei ca. 1/2 der gamingsparte. Auch wenn nvidia immer gerne ihre profi-Ambitionen in Rampenlicht stellt ist der part eher das kleine Licht. Die Kunden finden huang und seine Jacke einfach toll und die keynotes von NV gaben ja auch was. Imho melken die die die 14nm Kuh noch so lange bis der der Euter abgefault ist und steigern so weiterhin ihren Überschuss.

Vom Umsatz ist das in der Tat das kleinere Segment. Allerdings das am stärksten wachsende und es werden weniger GPU Modelle in Summe benötigt. Sprich der Umsatz wird mit zwischen 1 bis 3 GPU Varianten gemacht. Wenn Nvidia wie bei Pascal vorgeht, starten sie zu erst mit dem dicken Teil für den HPC/AI Markt. Auf Grund von Verträgen kann es auch sein, dass sie da in Lieferpflichten sind. Solche Konstellationen gibta bei AddIn GPUs für Gaming nicht.

dildo4u

2017-04-23, 21:12:33

High-End Karten mit GDDR6 kommen Anfang 2018.

https://www.computerbase.de/2017-04/sk-hynix-gddr6-2018/

Botcruscher

2017-04-23, 21:21:14

Wenn sich die Preise einigermaßen entwickeln, war AMD mit HBM 3 Generationen zu früh dran.

Godmode

2017-04-23, 22:48:30

Wenn sich die Preise einigermaßen entwickeln, war AMD mit HBM 3 Generationen zu früh dran.

Es kann gut sein, dass AMD die eingesparte TDP beim HBM-Speichercontroller braucht. Ihre ALUs sind ja bisher nicht so effizient wie die vom Konkurrenten.

Blediator16

2017-04-23, 23:11:01

Es kann gut sein, dass AMD die eingesparte TDP beim HBM-Speichercontroller braucht. Ihre ALUs sind ja bisher nicht so effizient wie die vom Konkurrenten.

Jup, vorausgesetzt sie haben die GPU Entwicklung eingestellt.

Hübie

2017-04-23, 23:12:27

Weniger die ALUs als das Scheduling / Mapping. Das mit GDDR6 überrascht mich jetzt nicht, baut dieser doch AFAIK so ziemlich auf GDDR5X auf. 16 Gbps erreichte man auch schon mit diesem. ;) NV hat hier imo marktwirtschaftlich betrachtet die bessere Strategie. Ob HBM je mainstream-tauglich wird bezweifle ich aufgrund der Kosten für die Herstellung immer noch.

Timbaloo

2017-04-23, 23:25:02

Jup, vorausgesetzt sie haben die GPU Entwicklung eingestellt.
AMD ist diesbezüglich seit Kepler deutlich hinter NV. So gesehen hat AMD die Entwicklung tatsächlich eingestellt, wenn du es so plakativ bezeichnen willst.

Blediator16

2017-04-23, 23:54:25

AMD ist diesbezüglich seit Kepler deutlich hinter NV. So gesehen hat AMD die Entwicklung tatsächlich eingestellt, wenn du es so plakativ bezeichnen willst.

Ab Maxwell, dann stimme ich dir zu. Kepler sag ich mal nichts zu :freak:

iuno

2017-04-23, 23:55:36

Oh, jetzt gibt es das OT Gequatsche auch in die andere Richtung :D

Zum Thema: wuerde mal noch nicht soo darauf gehen was Hynix sagt. Die hatten z.B. iirc auch HBM Karten fuer 2014 vorhergesagt.
Was unterscheidet jetzt eigentlich GDDR6 konkret von GDDR5X?

Hübie

2017-04-23, 23:57:44

Takt und Prozess. Ansonsten muss ich mal in die JEDEC Spec gucken. Hab leider nur wenig Zeit und von daher könnte es etwas dauern. :D

iuno

2017-04-24, 00:06:31

Also dieselben Probleme wie mit 5X?
Computing Chips werden weiterhin HBM benutzen (muessen), somit ist die Aussage bzgl. AMD auch Quatsch.

Hübie

2017-04-24, 00:10:14

Probleme? :|

iuno

2017-04-24, 00:53:42

over-fetch Probleme. Eine 1080 ist in manchen computing Sachen deutlich lahmer als eine 1070

Hübie

2017-04-24, 07:16:56

Aha. Ist mir gar nicht bekannt. Kannst du das mal näher erläutern? NV bietet für compute in Zukunft eh nur noch dedizierte Produkte an. Das wird so schnell nicht wieder zusammen wachsen wie es wohl aussieht.

robbitop

2017-04-24, 07:49:41

Die Nachricht könnte ggf ein Zeichen für GV104 sein. Anfang 2018 wäre gar so unwahrscheinlich, oder?

AffenJack

2017-04-24, 08:20:52

GV102, 384 Bit sagt da schon einiges aus. Mit +40% mehr Bandbreite als GP102 ein schöner Nachfolger.

Mancko

2017-04-24, 09:19:39

Die Nachricht könnte ggf ein Zeichen für GV104 sein. Anfang 2018 wäre gar so unwahrscheinlich, oder?

Tippe ich auch drauf. Mehr wird Nvidia bewusst gar nicht wollen. Die wollen Geld verdienen :). Mit GV104 zu Beginn und gleichem Ablauf wie bei Pascal können sie schön scheibchenweise den Markt melken. Wenn die GV104 in Q1/Q2 2018 bringen wird das für AMD happig. Ich bin nicht überzeugt, dass AMD mit Vega GP102 stehen lässt und in Q1/Q2 hat AMD definitiv keinen Refresh mit Prozesswechsel am Start. Dafür reicht deren R&D nicht mehr.

GDDR6 ist auch eine gute Nachricht und richtige Entscheidung. Das Thema Speicherstrategie ist bei Nvidia definitiv besser gelöst worden. Teures HBM2 für den Profibereich und GDDR5X bzw. 6 für Consumer. HBM2 behalten die sich maximal als Trumpf in der Hinterhand aber so wie es aussieht wird man das im Consumberbereich vorerst gar nicht benötigen, da die maximal verfügbare Bandbreite nicht mit entsprechenden Daten durch die GPU ausgereizt werden kann. Dafür sind die GPUs zu lahm. Sieht man ja auch bei Vega wo AMD aller Voraussicht nach auf eine Stackkonfiguration setzt die eben nicht alle Bandbreitenmöglichkeiten ausreitzt und dann ist eben außer niedrigerem Energieverbrauch auch kein so richtig überzeugender Vorteil für HBM(2) gegeben.

robbitop

2017-04-24, 10:10:30

Ich hatte die 384 bit nicht beachtet. GV104 wäre wohl 256bit anzunehmen.

iuno

2017-04-24, 10:33:52

@Hübie: bin nur mobil, aber im Dokument von Micron steht sogar drin, dass das problematisch sein kann und es daher einen pseudo 32 bit Modus gibt

Jupiter

2017-04-24, 10:37:41

Wird der Strombedarf von GDDR6 etwa so hoch wie der von GDDR5X sein oder steigert sich dieser?

Nightspider

2017-04-24, 11:32:10

Der Strombedarf dürfte im Gegensatz zu GDDR5X steigen wenn die gleiche Technik mit höheren Frequenzen genutzt wird.

GV104 mit 250mm^2 und 256 Bit SI würde auf 512 GB/s kommen und könnte dank 10nm wieder schneller als der GP102 in der Titan XP werden.

Mal sehen ob die Taktraten dann gegen 2,5Ghz gehen werden.

robbitop

2017-04-24, 11:47:29

Soll Volta nicht in 16FF (bzw Marketingsprech "12nm") kommen?

HOT

2017-04-24, 11:52:57

Dann hat GV104 ja wieder nur 8GB RAM, das ist ja blöd. 384Bit wäre dann ja nur GV100/102. Sind ja nur 8Gbit Speicher.
Die 10nm sind denke ich vom Tisch. Das Teil wird ja offenbar "12nm" welcher "nur" ein 16FF+ mit geringfügig größerer Packdichte ist.

Botcruscher

2017-04-24, 14:59:25

Es gibt für NV überhaupt keinen Grund mehr auf einer Performancekarte zu verbauen.

Zum Thema: wuerde mal noch nicht soo darauf gehen was Hynix sagt. Die hatten z.B. iirc auch HBM Karten fuer 2014 vorhergesagt.

Mit dem Ausfall von 22nm und der Verzögerung bei 14/16nm hat ja auch keiner in dem Umfang gerechnet. Fury wurde dann eben noch 7/15 nachgeschoben. Abweichungen von einem Jahr sprechen dann wirklich nicht gegen GDDR6.

Hübie

2017-04-24, 15:20:39

Ich bin mir ziemlich sicher, dass jemand wie HOT, dennoch erstaunt sein wird was man für Energieeinsparungen hat. Projektionen sind bei NV ja nix unbekanntes, aber kommen ~1 Jahr vor Veröffentlichung ganz gut hin (man möge mich korrigieren falls ich was übersehen habe). ;)

HOT

2017-04-24, 16:20:57

Hübie

2017-04-24, 16:42:27

Dein "nur" in 12 nm deutete in diese Richtung. Woher kommt wohl ein Gros an Einsparung? :|

Timbaloo

2017-04-24, 16:43:21

Wo ist das Problem bei 8GB? Oder "explodiert" der Resourcenbedarf wegen "Konsolen" mal wieder? Wegen der Switch vielleicht? Oder doch wegen Sonnenwinden? Oder 4K?

HOT

2017-04-24, 16:54:03

Dein "nur" in 12 nm deutete in diese Richtung. Woher kommt wohl ein Gros an Einsparung? :|
Wenn die Performance gleichbleiben soll und nur Kosten sinken und Packdichte steigen bringt der Prozess keine nennenswerten Performancevorteile oder Einsparungen, das kommt dann wohl durch die Architektur. Ist doch irgendwie logisch oder? Ich hab das doch gar nicht bewertet, sondern nur geschrieben, dass 10nm ziemlich sicher ausscheidet. NV kann doch dennoch durch die Architektur zaubern, das schloss ich doch gar nicht aus.

Wo ist das Problem bei 8GB? Oder "explodiert" der Resourcenbedarf wegen "Konsolen" mal wieder? Wegen der Switch vielleicht? Oder doch wegen Sonnenwinden? Oder 4K?

Switch ist komplett irrelevant und Scorpio bekommt 12GB, das Entwicklerkit gar 24GB - um zu sehen, dass die 8GB relativ schnell knapp werden muss man wahrlich kein Prophet sein - zudem möchtest du ja auch mal irgendwann in UHD zocken oder etwa nicht? Wenn GV104 mit 8GB kommt darf sich jedenfalls keiner über die 8GB bei V10 beschweren... - für mich scheiden damit einfach beide aus.

basix

2017-04-24, 18:59:36

Der Strombedarf dürfte im Gegensatz zu GDDR5X steigen wenn die gleiche Technik mit höheren Frequenzen genutzt wird.

Wahrscheinlich sinkt zumindest die Spannung ein bisschen. Steigen darf sie auf gar keinen Fall.

Wie sieht eigentlich der Duty Cycle vom VRAM aus? Es gibt ja so einen Schlafmodus und Low Performance Modus, wo weniger Energie benötigt wird. Könnte man mit mehr Cache / Tiling oder was auch immer mehr On-Chip machen und den Speicher so oft es geht schlafen legen / runtertakten? Bei Bedarf taktet man den dann entpsrechen rauf (sozusagen den CPU Turbo Modus auf VRAM angewandt). Dann wäre die Peak Bandbreite eben so hoch, das keine Hänger etc. entstehen. Die durchschnitts Bandbreite und Last liegt aber darunter und somit der durchschnittliche Stromverbrauch.

unl34shed

2017-04-24, 19:12:40

lohnt nicht, das kostet zu viel Zeit bis der RAM hochtaktet und zu viel Fläche auf dem Chip, denn die Chipfläche ist begrenzt, kostbar und gerade Caches (SRAM) sind relative grobe Strukturen.

Hübie

2017-04-24, 19:12:48

Wenn die Performance gleichbleiben soll und nur Kosten sinken und Packdichte steigen bringt der Prozess keine nennenswerten Performancevorteile oder Einsparungen, das kommt dann wohl durch die Architektur. Ist doch irgendwie logisch oder? Ich hab das doch gar nicht bewertet, sondern nur geschrieben, dass 10nm ziemlich sicher ausscheidet. NV kann doch dennoch durch die Architektur zaubern, das schloss ich doch gar nicht aus.

Kam dann hier falsch rüber, aber meinte es ja auch nicht böse oder herab lassend. Schwamm drüber. :biggrin:

Switch ist komplett irrelevant

Das war wohl nicht so bierernst gemeint ;) Aber lass uns doch mal knapp definieren. Für mich bedeuted dies: Man spürt Unterschiede während des Spielens. Für andere heißt dies: Man sieht Unterschiede im Graphen.

aceCrasher

2017-04-24, 19:23:47

Wo ist das Problem bei 8GB? Oder "explodiert" der Resourcenbedarf wegen "Konsolen" mal wieder? Wegen der Switch vielleicht? Oder doch wegen Sonnenwinden? Oder 4K?

Als Besitzer einer 1080 mit 8GB, werde ich definitiv keine schnellere Karte kaufen, die auch nur 8GB hat, in 4K is die Speicherauslastung teilweise echt böse. In so späßchen wie Skyrim mit mods knall ich jetzt schon an die 8GB Grenze, und der Speicherbedarf wird in Zukunft definitiv nich sinken, zudem habe ich bei einer High end Karte keine Lust mir irgendwelche Gedanken über VRAM zu machen. :freak:

Timbaloo

2017-04-24, 19:27:27

Dann solltest du evtl. auch High-End kaufen?

Hübie

2017-04-24, 19:31:18

Es gibt Leute die denken, nur weil etwas einen bestimmten Preis hat sei es high end. X-D
SCNR!

aceCrasher

2017-04-24, 19:57:15

Dann solltest du evtl. auch High-End kaufen?

Wenn man auf ner HD5870 sitzt, weil einem die 290x verreckt und die 1080 die schnellste Consumer Karte ist, ist das für mich high end, auch wenns technisch nur n performance Chip ist.

scully1234

2017-04-25, 19:58:02

Um noch mal auf den Hynix Leak zu kommen

Wenn wir bei 384bit breiten Bus, mit GDDR6 bestückt, für Anfang 2018(CES/Cebit???), mal konsequent davon ausgehen, das das hier die nächste "Titan" Karte ist, und wir die Releasepolitik von Pascal zu Grunde legen,dann wäre GV 104 für das Weihnachtsgeschäft durchaus im Rahmen des Möglichen

Mai hat man den kleinen entlassen,und im August folgte der 384bit breite Titan....summa summarum 4 Monate Vorlauf

AffenJack

2017-04-25, 20:36:15

Unter Umständen möglich, aber könnte mit GDDR6 schwierig werden so früh und von GDDR5X wird man wahrscheinlich nix schnelleres als 12GBps mehr sehen, auch wenn das früher mal angekündigt war.

Aber die Releasepolitik muss ja nicht wie bei Pascal sein. Bei Pascal war es dem Prozess geschuldet, dass eh erst der kleine Chip kommen musste und der große lange nicht vernünftig herstellbar wird. Bei Volta kann es auch sein, dass man mit dem Big Chip anfängt, da man einfach nicht weiß wie Vega wird und man für den Fall der Fälle die Krone schnell zurück haben will. Eine Titan kann man auch sofort zum Produktionsstart von GDDR6 mit genügend Ram versorgen. Dann mit steigender Verfügbarkeit könnte man GV104 usw bringen.

scully1234

2017-04-25, 20:51:11

und von GDDR5X wird man wahrscheinlich nix schnelleres als 12GBps mehr sehen, auch wenn das früher mal angekündigt war.

Gesetz dem Fall sie haben bei der Komprimierung nochmals irgendwo Hand angelegen können, könnte das mit der letzten Iteration von GDDR5X sich vielleicht noch ausgehen von der Bandreite

Hübie

2017-04-25, 21:34:26

Find Pascal nicht mit GP100 an? :| :whistle: :sneak:

scully1234

2017-04-25, 21:36:40

Chips für die "hot volee" mal außen vor

Nur den Geforce betrachtend

Der GV100 dürfte doch Sampelweiße bald in Umlauf sein,will man nicht Vertragsbrüchig werden , auf Summit schiel...

Hübie

2017-04-25, 23:44:26

September / Oktober. Bisher kam aber nix über ein tapeout ans Tageslicht oder? Wo ist eigentlich unser Ailuros? :|

Ailuros

2017-04-26, 06:32:39

September / Oktober. Bisher kam aber nix über ein tapeout ans Tageslicht oder? Wo ist eigentlich unser Ailuros? :|

*schnarch* huh? :wave: wer genau soll ueber einen tape out berichten? Charlie? :P

horn 12

2017-04-26, 06:42:24

Na da iss er ja, der gute, "alte" Mann :-)

Hübie

2017-04-26, 07:09:33

*schnarch* huh? :wave: wer genau soll ueber einen tape out berichten? Charlie? :P

Heeeeyyy. Schön das du da bist. Ich weiß nicht wer sonst immer berichtete, aber dafür, dass man einen Launch für Q1'18 anvisiert, ist es zu still. Oder ich bekomme das einfach nicht mit (fange mein Bachelor Projekt an :naughty:).

Ailuros

2017-04-27, 18:00:09

Heeeeyyy. Schön das du da bist. Ich weiß nicht wer sonst immer berichtete, aber dafür, dass man einen Launch für Q1'18 anvisiert, ist es zu still. Oder ich bekomme das einfach nicht mit (fange mein Bachelor Projekt an :naughty:).

Dann frag einfach da nach wo Du sonst immer nachfragst LOL; afaik laeuft alles nach Plan zumindest mit GV100.

scully1234

2017-04-27, 18:03:36

Dann wirds wohl zur nächsten Messe (http://www.gputechconf.com/) was ausführlicheres geben "befürchte" ich

Und nicht nur wieder der selbe Deep Learning Random Trallala

Dann darf Demerjian auch wieder Geschichten verbreiten:P

Ailuros

2017-04-27, 18:06:48

Dann wirds wohl zur nächsten Messe (http://www.gputechconf.com/) was ausführlicheres geben "befürchte" ich

Mich wuerde es sehr ueberraschen wenn NV auf jeden Fall vor Ende Fruehling nicht irgend einen "preview" der Volta Artiktur veroeffentlichen wuerde.

Troyan

2017-04-27, 18:38:05

GTC is nur Deep Learning und AI. Volta wird, wenn überhaupt, nur für diesen Bereich präsentiert werden.

scully1234

2017-04-27, 18:55:44

Qak Ridge , Sandia National Lab, Nasa, Lockheed Kuratoren vor Ort

Zu mindestens bei ersteren würde ich da schon was mit Volta Know How erwarten,oder Jensen machts wieder selbst,vorzugsweisse in Rindsleder...

Troyan

2017-04-27, 18:57:01

Wir werden 100% etwas zu Volta hören. Xavier soll ja auch schon in Q4 kommen.

Aber man sollte nicht darauf vertrauen, dass wir mehr als den üblichen DL und AI Kram erhalten.

Hübie

2017-04-27, 19:32:49

Gerade dass ist doch interessant. :uponder:

Ailuros

2017-04-30, 08:34:59

Gerade dass ist doch interessant. :uponder:

Als ob sie fuer GV100 spezifisch ueber etwas anderes reden wuerden :rolleyes:

Leonidas

2017-05-01, 10:38:30

Wenn GV104 mit 8GB kommt darf sich jedenfalls keiner über die 8GB bei V10 beschweren... - für mich scheiden damit einfach beide aus.

GDDR5X lässt auch "krumme" Speichberbestückungen zu, könnte bei GDDR6 genauso sein. Sprich, nicht 8 GB, sondern 12 GB bei GV104. Und dann 18 GB bei GV102. Theoretisch.

AffenJack

2017-05-01, 10:55:30

Wir werden 100% etwas zu Volta hören. Xavier soll ja auch schon in Q4 kommen.

Aber man sollte nicht darauf vertrauen, dass wir mehr als den üblichen DL und AI Kram erhalten.

Nvidia hat die letzten Jahre eigentlich immer die Daten von einem Chip auf der GTC präsentiert. Also würde ich da schon auch konkreteres erwarten. Wenn GV100 im Herbst kommt, kann ich mir gut vorstellen, dass sie den präsentieren oder alternativ halt Xaviers genauen Aufbau.

Keynote ist übrigens nächsten Mittwoch um 18 Uhr deutscher Zeit.

iuno

2017-05-01, 11:30:47

Theoretisch

Theoretisch geht viel, nur muss es halt auch endlich mal jemand bauen.

HOT

2017-05-01, 13:07:35

GDDR5X lässt auch "krumme" Speichberbestückungen zu, könnte bei GDDR6 genauso sein. Sprich, nicht 8 GB, sondern 12 GB bei GV104. Und dann 18 GB bei GV102. Theoretisch.
In der Praxis hat SKHynix aber 8Gbit-Chips angekündigt, ergo 8 GB bei 256 Bit und 12 GB bei 384 Bit

Mandalore

2017-05-07, 12:31:18

Was können wir denn von der GTC erwarten? Gibts schon irgendwelche konkreten Gerüchte?

Hübie

2017-05-07, 13:25:14

In Bezug worauf? Du wirst ne Menge Algorithmen sehen, die scence based recognition beinhalten, Neuigkeiten bzgl. neural networks, neue Techniken zur Erkennung in schlechten Witterungsverhältnisse usw. usf.
In Bezug auf Hardware wird man definitiv mehr von Drive PX sehen und sicherlich auch etwas von Volta. Ob Gamer-Volta erwähnt wird bezweifel ich jedoch stark.

Bemerkenswert ist dass immer mehr Europäer und vorrangig deutsche Unternehmsvertreter dort einen talk oder workshop abhalten. ;)

scully1234

2017-05-07, 23:10:38

Ob Gamer-Volta erwähnt wird bezweifel ich jedoch stark.

Ist ja nun auch nicht unbedingt die Messe für selbigen.

Aber big Volta als sneak peak ist ja auch nicht unbedingt "so langweilig"

iuno

2017-05-07, 23:19:35

Wird Volta eigentlich nur "mehr vom Selben" (mehr HBM(2), mehr Shader, mehr NVLinks, ...) oder gibt es noch was wirklich neues? Viel wurde ja durch Pascal schon vorweggenommen. Womoeglich distanziert sich GV100 als HPC Chip noch mehr von den anderen GPUs?

Hübie

2017-05-07, 23:35:09

iuno

2017-05-07, 23:36:10

danke :up: dann koennte es ja doch interessant werden ;p

Hübie

2017-05-08, 00:43:16

Man wird wohl in puncto Energieeffizienz noch mal gut zulegen können, wenn das stimmt. Es bleibt jedenfalls spannend. Pascal war ja eher so was wie eine Interimslösung (wenn auch eine ziemlich Gute).

Locuza

2017-05-08, 00:46:15

Volta wird vermutlich das Daten-Management allgemeiner gestalten, in DX12-Sprech erwarte ich da Resource Binding Tier 3 und das Nvidia die Beschränkungen mit dem Constant Buffer eliminiert.
Ansonsten gab es vor einigen Jahren ein paar Forschungsthemen die Nvidia angesprochen hat, wie variable Threadgroup-Größen und eine Scalar-Unit, ähnlich wie sie AMD seit GCN besitzt.
Vom Bauchgefühl her erwarte ich wieder etwas Größeres.

gravitationsfeld

2017-05-08, 01:31:53

Falls sie das wirklich bringen bin ich schon sehr zufrieden.

AffenJack

2017-05-08, 09:17:53

Es wird definitiv einige Neuerungen geben. Sowohl was die Schaltungen angeht als auch Design. Mehr von allem wird's natürlich auch geben. Nachdem was man bisher so hörte oder las wird Seit Kepler (oder wenn man's so will auch Fermi) kräfitg umgekrempelt. Das kann sich aber auch 'nur' auf den GV100 beziehen, wenn man GP100 & 102 mal vergleicht...

Auch die Spielechips werden sicher gehörig umgekrempelt. Prinzipielle Architekturverbesserungen werden da ja genauso einfließen und vieles was für compute gut ist, ist auf fürs gaming gut wo der einsatz von compute immer größer wird.

Eine der Hauptfragen wird auch wieder sein, ob GV100 überhaupt noch eine GPU ist? Bei GP100 wurde das schon spekuliert, aber am Ende ist es ne vollwertige GPU, die auch in der Quadroreihe zum Einsatz kommt. Aber wenn GV100 auf 16nm kommt, dann muss da auch irgendwie der Platz für die Verbesserungen gefunden werden, denn die Diegröße ist am Limit. Also fliegen vielleicht diesmal wirklich GPU-relevante Sachen raus und wir sehen den ersten echten HPC Accelerator von Nvidia.

Klevapalis

2017-05-08, 09:56:13

Mehr Infos wird es wohl am Mittwoch geben, in Jensens GTC-Keynote?

AffenJack

2017-05-08, 11:08:59

Hoffentlich schon, Mittwoch 18Uhr.

Es gabs ja schon öfter Überlegungen, wieso Nv kein HBM im Consumerbereich benutzt, sondern G5X und bei Volta wohl G6 Ram mit 16Gb/s und 384Bit. Laut den Folien die oft geposted wurden ist bei herkömmlichen Ram die I/O Power das größte Problem von GDDR.
http://static1.gamespot.com/uploads/original/92/929129/3027242-4368030567-NV-HB.png

Aber hat Nvidia das Problem mit Ground-Reference-Signaling nicht stark verringert, weshalb HBM sich für Nv vielleicht kaum lohnt im Moment?
Zur Erklärung was das ist:

http://images.nvidia.com/events/sc15/SC5102-path-exascale-computing.html
Ab 16:10.

https://research.nvidia.com/publication/054-pjb-20-gbs-ground-referenced-single-ended-short-reach-serial-link-28-nm-cmos

Paper dazu:
http://ieeexplore.ieee.org.sci-hub.cc/document/6601723/

Aus dem Paper:
Reference [3] predicts I/O power for 1 TB/s could approach 50% of processor TDP by 2020. To keep I/O power to 10% of TDP requires an efficiency of 1.7 pJ/bit for 1 TB/s at 135W. This work achieves even better efficiency by changing the assumptions about packaging and signal-system design. At 135W, our link would consume about 3.2% of TDP for 1 TB/s.

Ich bin nur ein Laie und hab keine Ahnung wieviel das von der I/O Power bei der Kommunikation mit dem Ram ist. Vielleicht kann ja wer der sich mehr mit sowas auskennt was dazu sagen. Das kann vielleicht erklären wieso Nvidia keine Probleme mit GDDR hat. Zusätzlich könnte das auch AMDs zögern bei G5X erklären. Wenn ihnen die I/O Power ohne sowas total hochschießt, macht eine Implementierung für etwas mehr Bandbreite auch keinen Sinn.
Oder muss das jeweils vom Ram und der GPU implementiert sein und auf einem Package sein? Dann wäre das natürlich eher was für die Zukunft und vor allem für MCMs. Aber Nvidia hätte das wohl kaum auf der Supercomputing und benutzten Testchips gezeigt, wenn das nicht demnächst mal implementiert werden soll.

Iruwen

2017-05-08, 20:49:10

/e: ups.

Hübie

2017-05-08, 21:37:00

Hoffentlich schon, Mittwoch 18Uhr.

Es gabs ja schon öfter Überlegungen, wieso Nv kein HBM im Consumerbereich benutzt, sondern G5X und bei Volta wohl G6 Ram mit 16Gb/s und 384Bit. Laut den Folien die oft geposted wurden ist bei herkömmlichen Ram die I/O Power das größte Problem von GDDR.
http://static1.gamespot.com/uploads/original/92/929129/3027242-4368030567-NV-HB.png

Aber hat Nvidia das Problem mit Ground-Reference-Signaling nicht stark verringert, weshalb HBM sich für Nv vielleicht kaum lohnt im Moment?
Zur Erklärung was das ist:

http://images.nvidia.com/events/sc15/SC5102-path-exascale-computing.html
Ab 16:10.

https://research.nvidia.com/publication/054-pjb-20-gbs-ground-referenced-single-ended-short-reach-serial-link-28-nm-cmos

Paper dazu:
http://ieeexplore.ieee.org.sci-hub.cc/document/6601723/

Aus dem Paper:

Ich bin nur ein Laie und hab keine Ahnung wieviel das von der I/O Power bei der Kommunikation mit dem Ram ist. Vielleicht kann ja wer der sich mehr mit sowas auskennt was dazu sagen. Das kann vielleicht erklären wieso Nvidia keine Probleme mit GDDR hat. Zusätzlich könnte das auch AMDs zögern bei G5X erklären. Wenn ihnen die I/O Power ohne sowas total hochschießt, macht eine Implementierung für etwas mehr Bandbreite auch keinen Sinn.
Oder muss das jeweils vom Ram und der GPU implementiert sein und auf einem Package sein? Dann wäre das natürlich eher was für die Zukunft und vor allem für MCMs. Aber Nvidia hätte das wohl kaum auf der Supercomputing und benutzten Testchips gezeigt, wenn das nicht demnächst mal implementiert werden soll.

Ah, du bist mein Held des Tages. Das Video von Bill Dally hab ich schon ewig gesucht, aber mir ist der Name entfallen. :biggrin:

Dieser Chart von HBM hat ja das klare Ziel GDDR so schlecht es geht darzustellen. Dem ist ja mittlerweile nicht mehr so und die Projektionen für HBM(2) kommen ebenfalls nicht mehr so hin.

Die verlinkte Arbeit von Dally & Co bezieht sich auf NVLINK, wenn ich das richtig verstehe.

Locuza

2017-05-08, 22:39:42

[...]
Dieser Chart von HBM hat ja das klare Ziel GDDR so schlecht es geht darzustellen.
Das leitest du woher ab?

Dem ist ja mittlerweile nicht mehr so und die Projektionen für HBM(2) kommen ebenfalls nicht mehr so hin.
Soweit ich weiß ist GDDR5 immer noch GDDR5. ;)
GDDRX5 senkt ein wenig die Spannung und GDDR6 wird es vermutlich ebenso tun, die Effizienz kann aber prinzipbedingt nicht viel höher ausfallen.

Unicous

2017-05-08, 23:00:23

Hübie

2017-05-09, 00:46:17

Locuza

2017-05-09, 00:57:25

Hübie

2017-05-09, 01:05:34

Ist doch egal wer das präsentiert. Man will ja das hervorheben, was man als Verkaufsargument anführt. Darin ist NV eh besonders gut. Man muss natürlich wirklich sagen, dass GP100 echt allein auf weiter Flur steht. Zwei Quadro P100 mit NVLINK sind mit 15k $ zwar sau teuer, aber wenn man überlegt wieviel Karten man damit ersetzt, plus gesteigerte Arbeitsleistung, plus weniger Energieverbrauch...
NVIDIA sagt selber dass HBM eher eine Interimslösung der nächsten Jahre ist. Das wird schon seinen Grund haben, wie du siehst.

Wir können unsere Gedanken zu HBM gerne im anderen Thread austauschen. ;)

Unicous

2017-05-09, 01:11:00

Hübie, villeicht kommst du ja auch noch im Laufe der Jahre zu der Erkenntnis, dass sowohl GDDR5X als auch GDDR6 nichts weiter als Produktpflege ist und die Effizienz-"Verbesserungen" zum Großteil Prozessverkleinerungen zu verdanken sind und nicht etwa jahrzehntelanger Forschungsarbeit.

Und diese Verbesserungen kommen natürlich auch HBM zu Gute wenn die Hersteller auf die kleineren Prozesse umstellen.

Locuza

2017-05-09, 01:11:05

@ Hübie

Da wird aber HBM gar nicht als Verkaufsargument angeführt.
Es geht ebenso wenig darum GDDR5 so schlecht wie möglich darstellen zu lassen.

HBM kann gerne eine Zwischenlösung darstellen, nichts hält für ewig, aus der Sicht kann man GDDR1-6 alle als Zwischenlösungen ansehen.
Aber was verbirgt sich hinter dem Horizont was HBM beim Thema Perf/Watt ablösen soll?
GDDR6 wird es gewiss nicht sein.

Hübie

2017-05-09, 01:18:16

Da gibt es einige Ansätze, aber wird hier OT und übersteigt meinen Horizont. ;)
@Unicous: Guter Punkt. Welchen gate-pitch hat GDDR5X eigentlich? 2x nm?

gravitationsfeld

2017-05-09, 02:38:35

GDDR5X spezifiziert keinen Herstellungsprozess.

StefanV

2017-05-09, 06:53:15

Dieser Chart von HBM hat ja das klare Ziel GDDR so schlecht es geht darzustellen. Dem ist ja mittlerweile nicht mehr so und die Projektionen für HBM(2) kommen ebenfalls nicht mehr so hin.
Liest du eigentlich auch das, was andere schreiben? Insbesondere Skysnake...

Denn das Problem bei 'Far RAM' wie GDDR ist ja, dass du deutlich mehr Treiberleistung brauchst, eben weil der Weg um Universen länger ist als bei 'Near RAM' wie HBM...

Eigentlich sollte es ziemlich einleuchtend sein, dass auch der Speicher näher zum Chip wandern muss, um überhaupt noch Vorteile bringen zu können.

Und da ist klassischer On PCB Speicher einfach mal ausgelutscht bzw erhöht die Verlustleistung nicht unerheblich.

Der nächste Schritt wäre natürlich (wieder) die komplette Integration in das GPU Die, wie man es ja schon in der Vergangenheit ein paar mal gehört und gesehen hat. Wie zum Beispiel Playstation 2, Gamecube/Wii, XBox 360...

Hübie

2017-05-09, 07:27:58

Was hat das mit wirtschaftlicheren Lösungen zu tun? Mir sind solche Dinge bewusst, aber ist die Ausbeute nach wie vor ziemlich bescheiden um solche Technologien gangbar zu machen. Langfristig wird Speicher in die GPU wandern, dass wurde schon mehrere Male untersucht und für sinnvoll befunden. Du musst doch aber zugeben, dass HBM bisher nicht den erwarteten Erfolg hatte und man sicher nicht umsonst Anstrengungen in Richtung GDDR5X/6 unternimmt. Man nimmt also den Mehrverbrauch in Kauf um wirtschaftlicher zu bleiben und dennoch Bandbreitengewinne zu erzielen. Win-win. Der slide würde mich mit dem aktuellen Ist-Zustand mal interessieren. ;)

Ich sagte es schon mehrere Male und wiederhole mich gerne: Ob wir HBM in Consumer-Karten sehen ist immer noch offen. Prosumer / Enthusiast lief ja bisher schleppend. Versteh auch gar nicht warum da alle plötzlich vom Sitzplatz aufspringen und Tomaten auf mich werfen. :|

Ps: Läuft die CPU sauber? :) Muss dich noch bewerten.

StefanV

2017-05-09, 08:00:40

Ob wir HBM in Consumer-Karten sehen ist immer noch offen.
Naja, not really. Bei kleinen Chips kann mans direkt auf das DIE packen, ohne Interposer. Oder man integriert das gleich ganz in den Chip. Aber es ist einfach Alternativlos ;)

Ps: Läuft die CPU sauber? :) Muss dich noch bewerten.
Ja, läuft ohne Probleme in dem MSI X79A-GD45 PLUS.
Irgendwie ärgerts mich, nicht die 130€ mehr fürs Big Bang gezahlt zu haben...

Klevapalis

2017-05-09, 10:01:44

Ich sagte es schon mehrere Male und wiederhole mich gerne: Ob wir HBM in Consumer-Karten sehen ist immer noch offen. Prosumer / Enthusiast lief ja bisher schleppend. Versteh auch gar nicht warum da alle plötzlich vom Sitzplatz aufspringen und Tomaten auf mich werfen. :|
Sehe ich sehr ähnlich. Zumal HBM nun mal nicht zwingend notwendig ist, wie NVIDIA zeigt. "alternativlos" ist einfach dämliches Geschwafel.

Würde es durchaus für möglich halten, dass vielleicht der nächste TopDog mit Volta HBM2 erhält, könnte mir aber genauso gut eine GDDR6-Basis vorstellen.

Cyphermaster

2017-05-09, 10:13:17

Du musst doch aber zugeben, dass HBM bisher nicht den erwarteten Erfolg hatte und man sicher nicht umsonst Anstrengungen in Richtung GDDR5X/6 unternimmt.Daß AMDs Fury-Reihe nur eher durchschnittlich gelaufen ist, war garantiert kein großer Eisbrecher.

Ich sehe das eher so: GDDR hat gegenüber HBM den großen Vorteil, daß Kosten und Aufwand sehr viel größere Planungssicherheit haben. HBM ist zwar -imho- an der Grenze, wo der große Durchbruch jederzeit kommen kann, aber Absatzmengen und daran gekoppeltes Preis- bzw. Ertragsgefüge sind mit sehr viel mehr Fragezeichen versehen. Das kann also auch noch ordentlich in die Hose gehen, ökonomisch. Dieses Risiko muß nVidia deutlich weniger eingehen als AMD, zumal man in der Architektur relativ zu GCN deutlich weniger am Speicher hängt.

So lange man in der Leistungsspitze noch gut vorne dran ist, kann man also problemlos abwarten, ob HBM2 mehr Erfolg hat, und ggf. in der Nachfolgegeneration (und dann wieder mit weniger Unwägbarkeiten bzw. gesunkenen Preisen) Richtung HBM umschwenken.

Kriton

2017-05-09, 10:26:40

Aber was verbirgt sich hinter dem Horizont was HBM beim Thema Perf/Watt ablösen soll?
GDDR6 wird es gewiss nicht sein.

AMD hat auf seiner Roadmap-Folie für Navi ja bereits einen anderen Speicher als HBM erwähnt.

https://www.heise.de/newsticker/meldung/AMD-verspricht-Ausblick-auf-Vega-Grafikchips-3585671.html

https://1.f.ix.de/scale/geometry/695/q75/imgs/18/2/1/1/6/0/3/8/AMD-Vega-Roadmap-092f6e3480369073.jpeg

Cyphermaster

2017-05-09, 11:33:00

Ich hab's schon anderswo erwähnt: So eine Folie ist fernab jeglicher Belastbarkeit.

Kriton

2017-05-09, 11:39:50

Sie zeigt jedenfalls, dass AMD bereits mit etwas jenseits von HBM(2) plant (Realisierung ist dann etwas anderes).

Hübie

2017-05-09, 13:22:45

Ich bin mir jedenfalls ziemlich sicher, dass Volta ebenfalls kein HBM in einen großen Markt bringen wird. Und wenn AMD next memory statt HBM3 schreibt könnte dies schon ein Ende bedeuten.
Mal ne Idee dir mir so vorschwebt:
4-8 GB wandern als großer Cache in die GPU (vielleicht ein HBM-Derivat). NVRAM dient als großer Datenpool und Flashmemory als externer Festspeicher mit geteiltem Adressraum vom NVRAM. Letzterer wird mittels Interconnect von außen, auf dem PCB sitzend, angebunden. Ähnlich den Cache-Steckkarten beim Ur-Pentium. So ähnlich deutete AMD es ja bereits an.

Kriton

2017-05-09, 15:37:19

Ich fürchte wir sind nicht mehr ganz bei Volta, aber zu Deinem Aufbau:
Wäre das nicht ein Szenario für HSA?

Hübie

2017-05-09, 17:13:53

Na ja NV hat ja auch einen "universelle" Adressraum mit CUDA 6.0 (glaub ich) eingeführt. Die werden auch früher solche Ansätze verfolgen.

scully1234

2017-05-09, 21:18:20

Hat wer schon einen Video Link aufgetan für die Keynote morgen?

Skysnake

2017-05-09, 22:47:02

Das Teil ist eben alt und beinhaltet kein GDDR5X (doppelte Datenrate bei besserer Effizienz durch geringeren Takt und weniger Spannung). Dazu eben die Tatsache dass HBM2 nicht wie da mit 1 TB/s arbeitet aber power envelope nicht im gleichen Maße gesunken ist. GP100 ist ein kleiner Schluckspecht bei Speicherintensiven Anwendungen.
Hübie wie oft noch? Der relevante Takt also der bezüglich der Daten verringert sich nicht, sondern NUR der Takt der synchronen Clk. Das wars auch. Alles andere steigt eben. Und selbst die Clk sinkt nur zwischen den Chips. Innerhalb der Chips muss natürlich immer noch irgendwo die Clk mit der vollen Datenrate laufen, bzw der halben, wenn man statt level Edge getriggerte FlipFlops hat.

Was hat das mit wirtschaftlicheren Lösungen zu tun? Mir sind solche Dinge bewusst, aber ist die Ausbeute nach wie vor ziemlich bescheiden um solche Technologien gangbar zu machen. Langfristig wird Speicher in die GPU wandern, dass wurde schon mehrere Male untersucht und für sinnvoll befunden. Du musst doch aber zugeben, dass HBM bisher nicht den erwarteten Erfolg hatte und man sicher nicht umsonst Anstrengungen in Richtung GDDR5X/6 unternimmt. Man nimmt also den Mehrverbrauch in Kauf um wirtschaftlicher zu bleiben und dennoch Bandbreitengewinne zu erzielen. Win-win. Der slide würde mich mit dem aktuellen Ist-Zustand mal interessieren. ;)

Ich sagte es schon mehrere Male und wiederhole mich gerne: Ob wir HBM in Consumer-Karten sehen ist immer noch offen. Prosumer / Enthusiast lief ja bisher schleppend. Versteh auch gar nicht warum da alle plötzlich vom Sitzplatz aufspringen und Tomaten auf mich werfen. :|

Ps: Läuft die CPU sauber? :) Muss dich noch bewerten.
Die HBM IP, die nVidia eingekauft hat ist wohl auch kaputt und erreicht daher gar nicht die angepeilten Frequenzen.

Ich würde mich daher bezüglich Effizienz zurückhalten was die Technologie an sich betrifft...

Digidi

2017-05-09, 22:56:49

Wenn HBM so schlecht ist wieso kommt er dann bei GP100 zum Einsatz? Sollten manche hier Mal darüber nachdenken.

Troyan

2017-05-09, 23:34:34

Hynix zeigt GDDR6 auf der GTC: https://videocardz.com/69304/sk-hynix-showcases-first-gddr6-wafer-at-gtc-2017

Muss nichts heißen. Hynix hat auch HBM2 vor zwei Jahren auf der GTC gezeigt.

Oh und gerade in der Conference Call gehört:
Frage: Warum ist das Inventar angestiegen?
Huang: Ist wegen neuen Produkten angestiegen. Hm, mehr kann ich zur Zeit nicht sagen. Kommt morgen zur Keynote, sollte sehr interessant werden.

Spoiler? ;D

Hübie

2017-05-09, 23:37:31

Hübie wie oft noch? Der relevante Takt also der bezüglich der Daten verringert sich nicht, sondern NUR der Takt der synchronen Clk. Das wars auch. Alles andere steigt eben. Und selbst die Clk sinkt nur zwischen den Chips. Innerhalb der Chips muss natürlich immer noch irgendwo die Clk mit der vollen Datenrate laufen, bzw der halben, wenn man statt level Edge getriggerte FlipFlops hat.

Stimmt natürlich. Ist auch definitiv eher dein Fachgebiet. ;)

Die HBM IP, die nVidia eingekauft hat ist wohl auch kaputt und erreicht daher gar nicht die angepeilten Frequenzen.

Ich würde mich daher bezüglich Effizienz zurückhalten was die Technologie an sich betrifft...

Spekulationen deutet darauf hin, dass Vega ebenfalls weit weg von 1 TB/s ist. Ist deren IP auch kaputt? :redface:

Wenn HBM so schlecht ist wieso kommt er dann bei GP100 zum Einsatz? Sollten manche hier Mal darüber nachdenken.

An welcher Stelle genau hast du gelesen, dass HBM schlecht ist? :confused: Es ist lediglich nicht der heilige Grahl, wie es gerne hingestellt wird und das zeigt NV gerade am Markt. Manche denken nur weil HBM drauf ist erledigen sich die Bandbreiten-Probleme und es kommt genug Performance bei herum (überzogen ausgedrückt).

Skysnake

2017-05-09, 23:44:48

Spekulationen deutet darauf hin, dass Vega ebenfalls weit weg von 1 TB/s ist. Ist deren IP auch kaputt? :redface:

Keine Ahnung. Ich weiß nicht, welche IP die verwenden.

Im Endeffekt kann es auch durchaus ein Problem wie bei PCI-E 3.0 sein, dass die Einzelteile also funktionieren, aber nicht beim Zusammenspiel zwischen unterschiedlichen IP Anbietern. Wer da was wann wo einsetzt ist leider nicht klar.

Genaues wird man wohl erst wissen, wenn AMD und XXX dieses Jahr auch noch Produkte mit HBM2 rausbringen. Einer davon ist gefährdet auch die 7xx MHz von nVidia zu fahren. Mal schauen, wie es dann aussieht. Sind auf jeden Fall deutlich weniger als 7 Monate noch. Mal schauen. Wir wissen wohl bis spätestens mitte November bescheid.

Leonidas

2017-05-10, 08:48:24

Hübie wie oft noch? Der relevante Takt also der bezüglich der Daten verringert sich nicht, sondern NUR der Takt der synchronen Clk. Das wars auch. Alles andere steigt eben. Und selbst die Clk sinkt nur zwischen den Chips. Innerhalb der Chips muss natürlich immer noch irgendwo die Clk mit der vollen Datenrate laufen, bzw der halben, wenn man statt level Edge getriggerte FlipFlops hat..

Leider wird das Prinzip zu selten wirklich gut und einfach erklärt.

Mein Verständnis zu QDR ist bisher, das die Taktrate des Signals zwischen Chip und Speicher bei 4000 MHz liegt (bei 16 Gbps ergo Topvariante) und eben 4 Datenpakete pro Takt übertragen werden.

Wenn nein, dann müssten irgendwo im Grafikchip ja gleich 8000 MHz anliegen, da das Speicherinterface mit dem Takt des Signals taktet. Doch wären 8 GHz wirklich möglich bei so einem flächenmäßig nicht gerade kleinem Interface?

ndrs

2017-05-10, 10:02:53

Mein Verständnis zu QDR ist bisher, das die Taktrate des Signals zwischen Chip und Speicher bei 4000 MHz liegt (bei 16 Gbps ergo Topvariante) und eben 4 Datenpakete pro Takt übertragen werden.

Wenn nein, dann müssten irgendwo im Grafikchip ja gleich 8000 MHz anliegen, da das Speicherinterface mit dem Takt des Signals taktet. Doch wären 8 GHz wirklich möglich bei so einem flächenmäßig nicht gerade kleinem Interface?
Wenn du mehr bits auf eine einzelne Signalleitung legst, geht das nur indem man sie hintereinander schickt. Wie willst du die da rauslesen ohne häufiger hinzuschauen?
https://upload.wikimedia.org/wikipedia/commons/8/81/SDR_DDR_QDR.svg
https://en.wikipedia.org/wiki/Quad_data_rate
Man kommt nicht drum rum bei jedem roten Punkt einmal etwas zu tun und auf dem Bild hat QDR nunmal doppelt so viele Punkte wie DDR.

y33H@

2017-05-10, 10:07:33

Nach der Keynote ist übrigens noch Q&A und dann Volta Deep Dive.

grauenvoll

2017-05-10, 10:23:32

Ich sehe das eher so: GDDR hat gegenüber HBM den großen Vorteil, daß Kosten und Aufwand sehr viel größere Planungssicherheit haben. HBM ist zwar -imho- an der Grenze, wo der große Durchbruch jederzeit kommen kann, aber Absatzmengen und daran gekoppeltes Preis- bzw. Ertragsgefüge sind mit sehr viel mehr Fragezeichen versehen. Das kann also auch noch ordentlich in die Hose gehen, ökonomisch. Dieses Risiko muß nVidia deutlich weniger eingehen als AMD, zumal man in der Architektur relativ zu GCN deutlich weniger am Speicher hängt.

Der eigentliche Charme von HBM ist der geringe Platzbedarf. Auf dem Desktop hält sich der Gewinn durch HBM in Grenzen und AMD fängt sich am Anfang wahrscheinlich mehr Probleme ein als nVidia. Nur agiert AMD aber auch in etwas anderen Märkten als es nVidia macht. In Notebooks hätte HBM klare Vorteile und in Kombination mit Vegas HBCC käme man auch mit relative wenig HBM-Speicher aus. Dem hätte Intel relativ wenig entgegen zu setzen und der Markt dürfte viel mehr abwerfen als High-End-Desktopgrafikkarten. Vor diesem Hintergrund macht AMDs Wahl auf HBM schon Sinn, während für nVidia GDDR5/6 die bessere Wahl ist.

BoMbY

2017-05-10, 10:32:34

Nach der Keynote ist übrigens noch Q&A und dann Volta Deep Dive.

Na, ich hoffe mal die werden nicht zu tief sinken ...

Leonidas

2017-05-10, 10:58:06

Wenn du mehr bits auf eine einzelne Signalleitung legst, geht das nur indem man sie hintereinander schickt. Wie willst du die da rauslesen ohne häufiger hinzuschauen?
https://upload.wikimedia.org/wikipedia/commons/8/81/SDR_DDR_QDR.svg
https://en.wikipedia.org/wiki/Quad_data_rate
Man kommt nicht drum rum bei jedem roten Punkt einmal etwas zu tun und auf dem Bild hat QDR nunmal doppelt so viele Punkte wie DDR.

Nun ja, das sagt ja klar aus - Takt bleibt gleich bei QDR (bei doppelter Bandbreite gegenüber DDR).

Hat wer schon einen Video Link aufgetan für die Keynote morgen?

https://www.twitch.tv/nvidia

Locuza

2017-05-10, 11:05:15

Nach der Keynote ist übrigens noch Q&A und dann Volta Deep Dive.
Also nicht nur ein wenig Marketing und Automotive, sondern auch Architekturdetails?

Na, ich hoffe mal die werden nicht zu tief sinken ...
http://i3.kym-cdn.com/photos/images/masonry/000/922/014/7e4.jpg

Cyphermaster

2017-05-10, 12:04:25

Der eigentliche Charme von HBM ist der geringe Platzbedarf. Auf dem Desktop hält sich der Gewinn durch HBM in Grenzen und AMD fängt sich am Anfang wahrscheinlich mehr Probleme ein als nVidia. Nur agiert AMD aber auch in etwas anderen Märkten als es nVidia macht. In Notebooks hätte HBM klare Vorteile und in Kombination mit Vegas HBCC käme man auch mit relative wenig HBM-Speicher aus. Dem hätte Intel relativ wenig entgegen zu setzen und der Markt dürfte viel mehr abwerfen als High-End-Desktopgrafikkarten. Vor diesem Hintergrund macht AMDs Wahl auf HBM schon Sinn, während für nVidia GDDR5/6 die bessere Wahl ist.Auch bei hochpreisigen Desktop-Karten (egal ob Gaming- oder Profisegment) kann die Platzersparnis durchaus relevante Auswirkungen haben. Eines der Schlüsselprobleme bei der Kühlung solcher Karten ist ja die Blockierung des Luftstroms von Axiallüfter-Kühlern durch das PCB, was dann durch die ersatzweise notwendige Bauhöhe Slots kostet. Stellt man sich als Gedankenbeispiel eine Karte mit kompaktem LP-PCB vor, auf das man einen Kühler in aktueller Standardgröße packt, ist so viel mehr freie Abstromfläche vorhanden, daß man -je nach Abwärme und Design- einen oder sogar zwei Slots flacher bauen kann, ohne in der Kühlleistung einzubüßen.

Nightspider

2017-05-10, 12:05:13

Könnte HBM(3?) in Zukunft dann nicht auch QDR nutzen um die Bandbreite pro Pin zu verdoppeln?

ndrs

2017-05-10, 12:57:04

Nun ja, das sagt ja klar aus - Takt bleibt gleich bei QDR (bei doppelter Bandbreite gegenüber DDR).

Nein, das sagt es überhaupt nicht aus. Wie gesagt: Zähle einfach die roten Punkte pro Zeit. Zum Auswerten brauchst du einen Takt. Anders geht es nicht!

Hübie

2017-05-10, 13:30:29

Und genau da lag ja mein Denkfehler. :redface:

r-or

2017-05-10, 13:31:48

Nein, das sagt es überhaupt nicht aus. Wie gesagt: Zähle einfach die roten Punkte pro Zeit. Zum Auswerten brauchst du einen Takt. Anders geht es nicht!
Die Frage ist ja eher, ob die Grafik nur die CLK Leitung zeigt, oder ob Daten auch mit 2 Leitungen übertragen werden. In dem Fall hätten wir dann doppelt so viele Signale, was B.S. ist, denn dann könnten wir einfach die Interface Breite verdoppeln.

Insofern: 2 x CLK mit halbem Takt, Signalleitungen voller Takt.

Hübie

2017-05-10, 13:38:15

Guckt doch einfach in den spec sheet auf jedec.org ;) ;)

Skysnake

2017-05-10, 13:48:16

Leider wird das Prinzip zu selten wirklich gut und einfach erklärt.

Mein Verständnis zu QDR ist bisher, das die Taktrate des Signals zwischen Chip und Speicher bei 4000 MHz liegt (bei 16 Gbps ergo Topvariante) und eben 4 Datenpakete pro Takt übertragen werden.

Wenn nein, dann müssten irgendwo im Grafikchip ja gleich 8000 MHz anliegen, da das Speicherinterface mit dem Takt des Signals taktet. Doch wären 8 GHz wirklich möglich bei so einem flächenmäßig nicht gerade kleinem Interface?
Leonidas, das ist an sich sehr einfach.

Du darfst den Daten und den clk Takt einfach nicht in Beziehung setzen. ;)

Wenn man es genau nehmen will, sollte man aber nicht von Takt sprechen, sondern von Frequenz. Im Englischen spricht man meist auch von data rate oder frequency. Da kommt man eigentlich nie in die Situation dass das missverständlich wird.

Der einzige Sinn von QDR ist es dadurch Energie zu sparen, das man eine CLK mit niedrigerem Takt verwendet. Das wars. Den Signalen auf den Datenleitungen ist es erstmal vollkommen scheis egal, was auf der CLK Leitung passiert. Das kann man völlig entkoppeln.

Am Ende vom Tag läuft das immer auf die Frage hinaus, wie die FlipFlops designt sind, die man verwendet. Bei SDR hatte man level gesteuerte FlipFlops. Das heist, man hat einen halben Takt (meist clk high) den Wert des FlipFlops ändern können und bei (clk low) war dann der Ausgang vom FlipFlop unabhängig vom Eingang. Man hat also den Wert "gespeichert". Das nutzt man um aus FlipFlops FIFOs zu bauen. Für SDR sollte man eigentlich D-FlipFlops verwenden, wenn ich das richtig im Kopf habe.

Der nächste Schritt ist dann, das man nicht mehr die CLK Pegel verwendet, womit man pro Takt (also high+low Pegel = 1 periode) ein Bit "lesen" kann, sondern Die Taktflanken. Damit kann man dann 2 Bits pro Takt Periode "lesen" Einmal von low auf high und dann nochmals von high auf low. Das kann man, wie gesagt, wenn ich mich recht erinnere, mit einem JK-FlipFlop erreichen, wenn man CMOS Schaltungen verwendet, oder einfach mit einem CML FlipFlop (hier spricht man von Latch...

Soweit alles klar oder?

Damit hat man dann aber alle eindeutigen Positionen während einer Periode des Takt signales erreicht. Man kann also das CLK-Signal nicht nutzen, um die Schaltungen mit einer höheren Frequenz zu triggern, um die Daten auf den Datenleitungen zu erfassen mit den FlipFlops.

Der Ausweg QDR ist dabei an sich kein echter. Man benutzt intern noch immer DDR. Mehr geht ja auch wie oben gezeigt einfach nicht... Was man aber macht, man halbiert den Takt für das taktsynchrone Interface...

Intern TX 1 Bus 1/2 Intern RX 1*2

Man halbiert also zuerst auf der Senderseite den internen Takt, packt ihn dann als CLK Signal auf die CLK Leitung und verdoppelt ihn dann wieder auf der Empfängerseite.

WIE genau man das macht ist an sich scheis egal. Man kann mit dealay elementen arbeiten, man kann einen Multiplier nehmen usw usf. Also da ist man völlig frei.

Am Ende braucht man aber eben wie gesagt für die Schaltungen die die Signale Abstansten aber mindestens einen Takt, der halb so hoch ist wie die Datenrate. Und das eben auch nur, wenn man Flankengesteuerte FlipFlops verwendet. Bei Pegelgesteuerten braucht man die volle Datenrate als Clk Frequenz....

Das man von QDR spricht liegt REIN daran, das man ein Taktsynchrones Interface hat. Bei asynchronen Interfaces macht das an sich nicht mehr wirklich sooo viel Sinn, wobei man das teils auch findet. Da schickt man aber eben GAR KEIN! explizites Taktsignal mit, sondern extrahiert das aus dem Datenstrom über einen Flankendetektor aus den Signalflanken der Daten....

Und wenn man doch von xDR spricht, dann meist eben zur Unterscheidung zwischen Flanken und Pegelgesteuerten FlipFlops, oder wegen Marketingbullshit, wo man technisch höchstens noch damit argumentieren kann, das man irgendwo Taktmultiplier hat..... Aber darauf würde ich nicht viel geben. Am Ende vom Tag ist das aber auch völlig egal....

Soweit verstanden, oder gibt es noch Fragen?

Blediator16

2017-05-10, 17:54:29

http://www.ustream.tv/gpu-technology-conference

Gleich sollte es los gehen :)

scully1234

2017-05-10, 18:04:40

https://www.twitch.tv/nvidia

Danke Leo!

Mmmh sollte der Stream nicht wie zu lesen war um 18.00 starten?

Klevapalis

2017-05-10, 18:05:42

Los geht der Nerdgasm! :ugly:

Blediator16

2017-05-10, 18:06:51

Danke Leo!

Mmmh sollte der Stream nicht wie zu lesen war um 18.00 starten?

Kein Problem, läuft aber auf der IBM Streamingplatform Ustream.

Nakai

2017-05-10, 18:07:02

Oh Gott, was für ein Pathos.

Kartenlehrling

2017-05-10, 18:14:26

http://www.ustream.tv/gpu-technology-conference

Traxx

2017-05-10, 18:16:20

Wird auch auf der Homepage übertragen:

http://www.nvidia.com/page/home.html#

scully1234

2017-05-10, 18:18:32

Irgendwie hab ich hier in Frankreich kein Glück ist wohl zu viel Bandbreite für den Hotelrouter:freak:

Kartenlehrling

2017-05-10, 18:23:01

selbst 360p bzw. 260p nicht?

Blediator16

2017-05-10, 18:27:10

hahahaha ;D Was ist da los

w0mbat

2017-05-10, 18:27:30

Nvidia bekommt echt nix hin, jedes Mal das gleiche peinliche Gelabere und die "coolen" Sachen die dann nicht klappen...

scully1234

2017-05-10, 18:27:55

selbst 360p bzw. 260p nicht?

ne hackt ständig mmmpf

Wake

2017-05-10, 18:28:18

Christian pls :facepalm:

d2kx

2017-05-10, 18:30:26

Christian pls :facepalm:

Der arme Christian... letztes Jahr wurde Jensen Huang aber deutlich ausfälliger, als sein Helferlein mit dem Folienumschalten zu schnell war.

Hübie

2017-05-10, 18:33:07

Oh Gott, was für ein Pathos.

Same procedure as every year. :biggrin:

@scully: Du bist nicht zufällig in Toulouse?

Wake

2017-05-10, 18:35:03

Der arme Christian... letztes Jahr wurde Jensen Huang aber deutlich ausfälliger, als sein Helferlein mit dem Folienumschalten zu schnell war.

War ja auch der Gründer (https://en.wikipedia.org/wiki/Christian_von_Koenigsegg) von Koenigsegg und nicht nur ein Nvidia-peon ;)

Atma

2017-05-10, 18:41:16

Nvidia bekommt echt nix hin, jedes Mal das gleiche peinliche Gelabere und die "coolen" Sachen die dann nicht klappen...
Atme mal locker durch die Hose, so ist das eben bei Live Veranstaltungen. Da kann immer mal was schiefgehen :rolleyes:

Klevapalis

2017-05-10, 18:44:18

Atme mal locker durch die Hose, so ist das eben bei Live Veranstaltungen. Da kann immer mal was schiefgehen :rolleyes:
NVIDIA kriegt halt nix hin. Naja, außer AMD mal so richtig vorzuführen in den letzten Jahren ;D

scully1234

2017-05-10, 18:45:16

Der arme Christian... letztes Jahr wurde Jensen Huang aber deutlich ausfälliger, als sein Helferlein mit dem Folienumschalten zu schnell war.

Tom ist aber auch manchmal ein sehr "jung gebliebener" Charakter ,und das passte damals nunmal nicht unbedingt, in eine Jensen Vorführung.

Wenn man so lange in der Firma ist, sollte man den Perfektionismus seines CEO eigentlich kennen

Atma

2017-05-10, 18:45:16

NVIDIA kriegt halt nix hin. Naja, außer AMD mal so richtig vorzuführen in den letzten Jahren ;D
This (y)

Nakai

2017-05-10, 18:45:17

Und schon wieder ein Auto. Und ich sehe meine Hardware...

scully1234

2017-05-10, 18:46:14

@scully: Du bist nicht zufällig in Toulouse?

Nein in Flers Normandie

Troyan

2017-05-10, 18:58:39

815mm^2. Wow.

w0mbat

2017-05-10, 18:59:31

>800mm², 15B 21B Transitoren, 16GB HBM2@900GB/s

scully1234

2017-05-10, 19:00:55

>800mm², 15B Transitoren

die kriegen gar nix hin ,nicht mal nen kleinen Seitenhieb :P

fondness

2017-05-10, 19:02:23

die kriegen gar nix hin ,nicht mal nen kleinen Seitenhieb :P

Da schwitzt wohl eher die Foundry, aber alles eine Frage der Yields. Man muss ja keine voll aktivierten Dies verkaufen.

Kartenlehrling

2017-05-10, 19:03:26

das teil was er in der hand hatte war aber doch um 90° gedreht?

fondness

2017-05-10, 19:03:35

NVIDIA kriegt halt nix hin. Naja, außer AMD mal so richtig vorzuführen in den letzten Jahren ;D

Alles andere wäre mit derart überlegenen Ressourcen auch peinlich.

Klevapalis

2017-05-10, 19:03:38

Da schwitzt wohl eher die Foundry, aber alles eine Frage der Yields. Man muss ja keine voll aktivierten Dies verkaufen.
Man könnte auch mal zugeben, dass NVIDIA da etwas ziemlich krasses entwickelt hat. Aber manche können das natürlich nicht.... :P

Alles andere wäre mit derart überlegenen Ressourcen auch peinlich.
Ganz ehrlich: Peinlich ist gerade dein Gehabe.

Troyan

2017-05-10, 19:04:00

Da schwitzt wohl eher die Foundry, aber alles eine Frage der Yields.

Musst du ja wissen. Immerhin kann AMD nicht mal einen 500mm^2 16nm Chip produzieren. ;D

Wow. Dagegen sieht Vega aus wie von gestern. Also eigentlich das vorgestern aus 2016. :eek:

Klevapalis

2017-05-10, 19:06:02

"that's a great leather jacket" ;D

scully1234

2017-05-10, 19:08:39

kommt da noch was über den Aufbau von GV100?

Stream ist schon wieder off:mad:

Kartenlehrling

2017-05-10, 19:10:46

http://www.anandtech.com/show/11360/the-nvidia-gpu-tech-conference-2017-keynote-live-blog

scully1234

2017-05-10, 19:11:35

danke

Schaffe89

2017-05-10, 19:12:39

Ziemlich beeindruckender Shit, HBM2 fast komplett ausgereizt.
Bei dem fortgeschrittenen 14nm Prozess könnte das mit einigermaßen soliden yields klappen.
Mit den Interposern kann man ja theoretisch bis auf ~1000mm² hochgehen, bisschen Luft ist also noch.

Edit:

Wie der wieder mit seinen Mitarbeitern umgeht, der Klassiker bei jeder Präsentation.

Wake

2017-05-10, 19:13:45

Inside Volta: The World’s Most Advanced Data Center GPU
(https://devblogs.nvidia.com/parallelforall/inside-volta/?ncid=so-twi-vt-13918)

Kartenlehrling

2017-05-10, 19:18:01

genau das teil hat er in der Hand gehalten und nicht wie auf der Folie.

https://devblogs.nvidia.com/parallelforall/wp-content/uploads/2017/05/image11-300x193.jpghttp://images.anandtech.com/doci/11360/ssp_404_575px.jpg

yamamoto_dc

2017-05-10, 19:19:06

Grasses Teil, gibt es ein Release Date?

w0mbat

2017-05-10, 19:22:44

Das sind die genauen Daten.

iuno

2017-05-10, 19:23:11

Man könnte auch mal zugeben, dass NVIDIA da etwas ziemlich krasses entwickelt hat. Aber manche können das natürlich nicht.... :P

Ganz ehrlich: Peinlich ist gerade dein Gehabe.
Weiss nicht, warum man sich hier schon wieder gegenseitig anfahren muss.
Dass Volta mat4 madd in einem Zyklus macht ist z.B. beeindruckend, auch wenn Google das schon seit einer Weile hat (eine TPU von denen macht ~90 TOPS).
Die schiere Die-Groesse aber eher nicht. Das ist einfach eine Ressourcenfrage, aehnlich wie bei Intel mit Knights Landing wird hier einfach haufenweise Kohle auf das Problem geschmissen.

Mich wundert es etwas, dass es immer noch eine GPU ist und sich grundsaetzlich fast nichts aendert.

@Kartenlehrling: P100 oder was? ;D

Hübie

2017-05-10, 19:27:10

815 mm². Puh. So viel zu der von uns erdachten Grenze bei ~650 mm². Heftig. Wie machen die das? Die yield rate muss unterirdisch sein.

@iuno: Das kannst du im Grunde nicht vergleichen. ;) Aber beeindruckend, dass dennoch TMUs etc drin sind. Krass.

crux2005

2017-05-10, 19:27:24

DGX-1 delivered in Q3 2017:

https://i.gyazo.com/5a04efe6c8da712691198f9bc612bcce.jpg

Klevapalis

2017-05-10, 19:29:19

Krass, daher der Kommentar im Conference Call ;D

scully1234

2017-05-10, 19:30:33

DGX-1 delivered in Q3 2017:

https://i.gyazo.com/5a04efe6c8da712691198f9bc612bcce.jpg

Q3:confused:

Dann gibts ne Titan zu Weihnachten:P

Digidi

2017-05-10, 19:35:28

Was sind Tensor Cores?

w0mbat

2017-05-10, 19:36:05

FP8?

Kartenlehrling

2017-05-10, 19:37:00

Was sind Tensor Cores?

https://devblogs.nvidia.com/parallelforall/wp-content/uploads/2017/05/image4.png
Tensor Core 4x4x4 matrix multiply and accumulate.
https://devblogs.nvidia.com/parallelforall/inside-volta/

Hübie

2017-05-10, 19:37:14

Die HBM IP, die nVidia eingekauft hat ist wohl auch kaputt und erreicht daher gar nicht die angepeilten Frequenzen.

Scheint doch nicht so kaputt zu sein. Vega wird mit zwei HBM-Chips aktuell auf 512 GB/s spekuliert. Vier können offenbar einfach nicht mit vollen Takt ausgefahren werden. Dann passt es doch einigermaßen. Ich habe mit ~800+ GB/s gerechnet.

Troyan

2017-05-10, 19:37:27

Grasses Teil, gibt es ein Release Date?

Q3 in den nVidia-Boxen. Q4 für die Systemhersteller.

Wow. Das ist ja fast Pre-2000. Wo alle 6 Monate was neues rauskam. :eek:

crux2005

2017-05-10, 19:37:28

Was sind Tensor Cores?

Tensor operation isntruction in Volva. A*B+C into a FP32 result
http://images.anandtech.com/doci/11360/ssp_408.jpg

Liquaron

2017-05-10, 19:37:48

Hübie

2017-05-10, 19:38:58

Skysnake hatte glaub ich mal spekuliert, dass man mehr in Richtung eines Vektor-Computers geht. Das ist also der erste Ansatz.

@Liquaron: Vermutlich Anfang '18. Februar bis März sagt mein Bauchgefühl. Kann mir wirklich nur sehr schwer vorstellen, dass man so kurz nach der GP102 schon den Dampfhammer heraus holt. ;)

scully1234

2017-05-10, 19:40:27

ich denke das liegt nur an Hynix wann die ihren GDDR6 soweit haben

Troyan

2017-05-10, 19:41:26

Okay, mal als totaler Kacknoob....wann darf ich voraussichtlich Volta in meinen Heim PC einbauen? Dann baue ich mir ein neues System zusammen :)

Wieviel schneller wird Volta voraussichtlich ggü. einer GTX 1070/80 sein?

Naja, Volta als Architektur ist fertig. Ich denke mal, die werden in März 2018 die ersten Geforce-Produkte ankündigen. Bis dahin wird man warten bis "12"nm gereift ist.

Liquaron

2017-05-10, 19:42:40

Naja, Volta als Architektur ist fertig. Ich denke mal, die werden in März 2018 die ersten Geforce-Produkte ankündigen. Bis dahin wird man warten bis "12"nm gereift ist.

Alles klar, danke.

Dann werde ich mir vorher ein 8 Kerne System bauen und dann Anfang nächsten Jahres mit Volta nachrüsten.

iuno

2017-05-10, 19:47:40

Vega wird mit zwei HBM-Chips aktuell auf 512 GB/s spekuliert. Vier können offenbar einfach nicht mit vollen Takt ausgefahren werden. Dann passt es doch einigermaßen. Ich habe mit ~800+ GB/s gerechnet.
Das ergibt doch ueberhaupt keinen Sinn. Nicht nur jeder Stack, sondern jeder Kanal steht doch eh fuer sich alleine.

@iuno: Das kannst du im Grunde nicht vergleichen. ;)
Natuerlich kann ich das vergleichen. Selbe Anwendung, selbe Anforderungen. Nur dass NV halt noch mehr abdeckt mit dem Produkt. Dass sie es jetzt nicht als extra Produkt rausnehmen, wo es eh schon eigene Blocks mit viel Platzverbrauch hat, ist ja das was mich wundert.

Uebrigens auch, dass keine 32 GiB HPC Variante angekuendigt ist.

G3cko

2017-05-10, 19:49:14

815mm² ist natürlich eine Ansage und funktioniert nur bei einer Monopolstellung im DC Bereich.

Auch lustig, dass selbst im Profi Bereich das gleiche Prinzip wie bei den Endverbrauchen angewendet wird. Erst gibts die Dinger nur in den Nvidia Boxen. Quasi als Foundersedition mit großem Aufpreis. Später in den üblichen Serversystemen. So kann man natürlich die Marge erhöhen bzw noch früher auch bei geringen Yields an den Start gehen. Sowas kann sich AMD bei den geringen Marktanteilen schlicht nicht erlauben.

scully1234

2017-05-10, 19:54:41

der 815mm² Tesla Chip braucht nur 150 Watt

iuno

2017-05-10, 19:55:10

In der "Nano" halt. Die normale liegt wie gehabt bei 300.

Hübie

2017-05-10, 19:55:39

Das ergibt doch ueberhaupt keinen Sinn. Nicht nur jeder Stack, sondern jeder Kanal steht doch eh fuer sich alleine.

Sind doch beides 4-Hi á 1 GB und jeweils zwei bzw vier Chips. V100 also 4096 Bit Bus und V10 2048 Bit Bus. Wieso ergibt das keinen Sinn? :|
Ein Kanal war iirc 128 Bit.

iuno

2017-05-10, 19:59:41

Ja.
Es ergibt keinen Sinn, dass man 2 Stacks mit 1 Gbps laufen lassen koennen soll, 4 aber nicht.

Ob Vega mit 1 Gbps kommt muss sich auch ueberhaupt erst noch zeigen, das ist aber hier OT.

crux2005

2017-05-10, 20:02:53

Xavier in Toyota Cars

https://i.gyazo.com/8bf5a8fb8042d248715a809e00d9ac15.png

AffenJack

2017-05-10, 20:03:06

Ja.
Es ergibt keinen Sinn, dass man 2 Stacks mit 1 Gbps laufen lassen koennen soll, 4 aber nicht.

Ob Vega mit 1 Gbps kommt muss sich auch ueberhaupt erst noch zeigen, das ist aber hier OT.

Jo sieht eher nach Fertigungsschwierigkeiten bei Samsung aus. Volta wurde originall ja mit 32Gb und 1Gb/s angekündigt. Anscheinend ist 8-High verdammt schwierig und man schafft auch 1Gb/s erstmal nicht.

Schaffe89

2017-05-10, 20:05:04

Troyan

2017-05-10, 20:07:33

Laut nVidia hat TSMC extra für nVidia Anpassungen am 12nm Prozess vorgenommen. Wow. Die sind nun im Grunde auf einer Stufe mit Apple, wenn es um Priorität geht...

Schaffe89

2017-05-10, 20:10:11

Laut nVidia hat TSMC extra für nVidia Anpassungen am 12nm Prozess vorgenommen. Wow. Die sind nun im Grunde auf einer Stufe mit Apple, wenn es um Priorität geht...

Was sollen die 12nm denn überhaupt sein? Weiterhin 16nmFF?
Oder 16nmFF++Hyper?

Blediator16

2017-05-10, 20:12:57

Ich frage mich wieso man nach so vielen Jahren das Risiko eingeht auf "12nm" einen unglaublich riesigen Chip zu bauen.

crux2005

2017-05-10, 20:17:13

Was sollen die 12nm denn überhaupt sein? Weiterhin 16nmFF?
Oder 16nmFF++Hyper?

Edit: Ja, FF++

Hübie

2017-05-10, 20:18:18

Hast du die Prognosen nicht mitbekommen? :D

Schaffe89

2017-05-10, 20:20:47

Ich frage mich wieso man nach so vielen Jahren das Risiko eingeht auf "12nm" einen unglaublich riesigen Chip zu bauen.

Weils keine 12nm sind, sondern ein umbenannte 16nm die für Kunden günstiger sein sollen.

https://www.golem.de/news/auftragsfertiger-tsmc-plant-neues-altes-12-nm-herstellungsverfahren-1611-124782.html

Wobei es für den gleichen Herstellungsprozess nochmal 40% mehr Effizienz oben drauf schon extrem schwer für AMD´s Vega wird.
Vega muss demnach mehr als etwa doppelt so effizient wie Polaris werden um mitzuhalten.

Troyan

2017-05-10, 20:28:58

Das sind etwa 43% mehr Shader. Das Gamingprodukt kommt bestimmt mit GDDR6 dann Anfang 2018 und könnte dann etwa 40% schneller sein als eine heutige Titan X bei wohl ~650 mm².
Haut mich jetzt eher weniger vom Hocker.

GV100 hat 50% mehr Ausführungseinheiten als GP100. Dazu zusätzliche Cores in Form von INT32 und TensorCores.

Der GP102+ Nachfolger wird wohl die 50% FP32 Leistung bei weniger als 25% Mehrfläche erreichen.

Raff

2017-05-10, 20:31:49

GV100 hat im Vollausbau mit 84 SMs satte 5.376 ALUs (SP) – heftig, sieht aber irgendwie falsch aus. :ugly: 40 Prozent mehr als eine Titan Xp. Um die 15 TFLOPS SP der Tesla V100 – wieder ein beschnittenes Produkt – zu erreichen, muss eine GTX 1080 Ti respektive Titan X-ohne-p mit rund 2,1 GHz arbeiten, eine Titan Xp nur mit 1.950 MHz. "GV102" wird dann gewiss auf den Tensor-Krempel verzichten und dafür besser zu fertigen sein.

MfG,
Raff

iuno

2017-05-10, 20:45:17

Denkt ihr, dass die kleineren Karten diesmal schneller nachkommen? Bei Pascal hat es für das ganze lineup ja jetzt fast ein Jahr gedauert, da war 16ff aber auch neu.

Troyan

2017-05-10, 20:46:02

Ein Jahr? Mai bis Oktober sind 5 Monate gewesen...

Digidi

2017-05-10, 20:48:17

Pascal ist also ein gekürzter Volta. Sieht nach dem selben Frontend aus nur die SMs wurden erweitert und Caches angepasst.

6 Rasterizer füttern bei Volta 5120 Shader. Mal sehen wo der Engpass ist bei Volta. Ich vermute das Frontend.

Mancko

2017-05-10, 21:11:51

Alles andere wäre mit derart überlegenen Ressourcen auch peinlich.

Die hat man sich selber erfolgreich erarbeitet. Nvidia war mal genauso groß wie ATI. Mehr muss man dazu ja dann wohl nicht sagen. Nvidia hat auch noch immer den gleichen CEO. Wieviele CEOs bei der Konkurrenz verschlissen wurden sparen wir uns auch lieber.

@Topic
Krasses Teil. Ich habe nicht damit gerechnet, dass die auf so eine Größe gehen. Das ist schon echt heftig. Habe mit 600 bis 700 gerechnet. Eins ist sicher. Geht der Launch reibungslos über die Bühne wird die DataCenter/AI Sparte nochmal brutal wachsen bei irrsinnigen Margen. Das wird der gesamten Konkurrenz einschließlich Intel Kopfschmerzen bereiten zumal Nvidia immer mehr Einfluss auf ganze Infrastrukturen / Plattformen nimmt. Erst die Software nun seit geraumer Zeit zunehmend ganze eigene Hardware samt Management Software.

crux2005

2017-05-10, 21:24:15

Die hat man sich selber erfolgreich erarbeitet. Nvidia war mal genauso groß wie ATI. Mehr muss man dazu ja dann wohl nicht sagen. Nvidia hat auch noch immer den gleichen CEO. Wieviele CEOs bei der Konkurrenz verschlissen wurden sparen wir uns auch lieber.

ATi war größer als nVidia.

Klevapalis

2017-05-10, 21:46:12

ATi war größer als nVidia.
AMD und ATI zusammen erst Recht.

Inzwischen beides zusammen in Sachen Umsatz nur noch die Hälfte.

BoMbY

2017-05-10, 22:05:26

Also von den Rohdaten her ist Tesla V100 nicht mehr als ein größerer Tesla P100 mit besserer Performance/Watt (15/300=0.05 TFlops/Watt vs. 10.6/300=0.035 TFlops/Watt).

Wenn die Angaben für die MI25 von AMD soweit stimmen, dann ist AMD möglicherweise mit Vega in der gleichen Liga mit 12.5/300=0.042 bis 12.5/225=0.055 TFlops/Watt, wobei dann natürlich noch die Frage ist ob Vega die Rohleistung deutlich besser auf die Straße bekommt mit dieser Generation.

Könnte ein interessantes Rennen werden zwischen Vega und Volta.

Edit: Naja, bis auf den Speicher. Da ist VoltaV100 mit scheinbar 4 Stacks wohl etwas schneller als Vega...

Grabhopser

2017-05-10, 22:09:31

Das ganze 12nm zu nennen wir echt langsam lächerlich.... keine 26Mio/mm²
Ich mach mir den Node widde widde wie er mir gefällt.

Wird aber sicher interessant, wie sie die 815 mm² stemmen wollen!

BiZiNiZz

2017-05-10, 22:10:39

Troyan

2017-05-10, 22:15:12

Vega kann soweit bekannt ist kein DP. Und Volta kommt noch mit extra TENSOR Cores daher, keine Ahnung was die genau bringen.

Vega ist technisch auf GP102 Niveau. Volta bietet dermaßen viel Unsinn gegenüber GP102, dass es einfach sinnbefreit ist, diese Chips miteinander zu vergleichen.

Wer nur FP32 benötigt, muss auf GV102 warten. Der wird dann die 18TFLOPs+ auch in 250W erreichen.

Fragman

2017-05-10, 22:18:20

Die hat man sich selber erfolgreich erarbeitet.

jup, irgendwie wird das immer vergessen. was sich nv in den letzten 10 jahren aufgebaut hat (die jahre davor ja auch schon), zeigt, das sie massiv in die zukunft investiert haben. die wollen halt chips verkaufen und sie haben erkannt, das es nur geht, wenn man die techs selber entwickelt und dann kunden dafuer sucht. und auch hier wieder, auf die firmen zugehen, bei der entwicklung helfen und 2 jahre spaeter verkauft man halt 100k chips mehr.

den zug hat ati komplett verpasst. denn nv wird natuerlich deren ecosystem bei all den partnern unterbringen, ati bleibt dann aussen vor, im schlimmsten fall.

und mit groesse und resourcen brauch mir keiner zu kommen. wie schon erwaehnt, nv hat mal sehr klein angefangen. aber sie haben das potential erkannt und auch ueber den tellerrand geschaut, waehrend man bei ati die scherben von misswirtschaft zusammengekehrt hat.

am ende traurig, da deren produkte ja nicht schlechter sind. fuer den endkunden ist das eh nicht gut, das ist klar. nur den schuh muss man sich bei ati anziehen.