Midrange-Grafikkarte mit GDDR5X oder HBM? [Archiv]

Archiv verlassen und diese Seite im Standarddesign anzeigen : Midrange-Grafikkarte mit GDDR5X oder HBM?

defi231

2016-10-17, 12:26:40

Hi all,

ich wollte einmal nachfragen wie warscheinlich es ist das mid range Grafikkarten(~300€) mit GDRR5x oder HBM auf dem Markt erscheinen oder ob sich die Technik in der Preissparte garnicht lohnt. mfg

dildo4u

2016-10-17, 12:29:51

Es soll ab 2019 eine billigere HBM Lösung geben.

http://arstechnica.com/gadgets/2016/08/hbm3-details-price-bandwidth/

AMD's Navi könnte es schon 2018 nutzen schätze aber erstmal im High-End.

Hübie

2016-10-17, 12:33:26

Und ich frage noch einmal: Woher habt ihr das mit 2019? Steht da nirgends. HBM3 kommt 2019. Samsung sagt die haben damit herumgespielt was für mich impliziert, dass man es bereits hat und somit eher auf HBM2 basiert. MAn lässt im Grunde "nur" den Buffer-layer weg.

BlacKi

2016-10-17, 12:53:22

StefanV

2016-10-17, 18:43:42

Die Frage sollte doch nicht sein, wie wahrscheinlich das ist sondern schlicht wann das kommen wird.
Und da würde ich sagen, dass das in den nächsten 10 Jahren passieren wird...

HBM ist noch sehr jung(fräulich) und braucht noch einige Zeit, um wirklich interessant zu werden.

Aber spätestens mit Samsungs 'low cost HBM' wird das auch im unteren Bereich Verbreitung finden...

An GDDR5x würde ich mich nicht allzu sehr aufhängen. Das schaut eher nach 'nem MoSys MDRAM, Mitsubishis 3DRAM oder die ganzen anderen Dinger ansehen, die sich nicht wirklich durchsetzen werden, da es andere/bessere Alternativen gibt...

HBM wird bleiben und weiterentwickelt werden. Klassische DRAM Chips werden über kurz oder lang verschwinden.

Hübie

2016-10-17, 22:37:48

das die 1080 gddr5x hat und die 1070 nicht, hat wohl mehr damit zu tun, das es nicht genug gibt. sobald gddr5x ausreichend verfügbar wird (vl nächstes jahr mit dem refresh) dann wird wohl auch gp107 gddr5x erhalten.
gddr6 wird aber auch bald ein thema.

Das glaubst du doch selbst nicht. Die yields sind gut und man könnte ruck zuck umrüsten. :rolleyes:

GDDR5X wird bis zur kosteneffizienten Herstellung von GDDR6 eine gute Brücke schlagen. Ich wäre wenige überrascht wenn GDDR6 quasi einer besseren Iteration von GDDR5X entsprechen würde. Immerhin spricht man im Falle von GDDR5X über 14 Gbps maximal und ebenfalls 14 Gbps bei GDDR6 (wohl ausbaufähig - ähnlich dem Vorgänger).
Low cost HBM räume ich ebenfalls gute Chancen ein, wobei dieser schätzungsweise später im 300-Euro-Preissegment ankommen wird. Immerhin ist die Herstellung hier aufwändiger.

StefanV

2016-10-18, 09:08:00

Low cost HBM räume ich ebenfalls gute Chancen ein, wobei dieser schätzungsweise später im 300-Euro-Preissegment ankommen wird. Immerhin ist die Herstellung hier aufwändiger.
Wenn man die auf den Organischen Träger basteln kann, nicht nennenswert.

Zumal man sich auch 'nen ganzen haufen auf dem PCB spart, das dadurch deutlich kleiner und einfacher gestaltet werden kann -> nur noch PCIe, Displays + Stromversorgung von nöten.

Hübie

2016-10-18, 09:19:51

Das Zusammensetzen ist ja nach wie vor Dreh- und Angelpunkt. Diese µBumps sind nach wie vor nicht so einfach zu handhaben, genau so wie das wiring der TSV. Die yields liegen halt immer noch deutlich unter denen von normalen silicon-DRAM-chips ohne TSV. AMD dürfte hier mit seinen Partnern einen gehörigen Vorteil haben. GP100 ist nach wie vor unterirdisch... Täte mich wenig verwundern wenn demnächst salvage-parts von GP100 auf PCIe vorgestellt werden (Tesla / Quadro). :D

iuno

2016-10-18, 09:53:25

Die Tesla P100 wurde doch längst mit PCIe vorgestellt

Hübie

2016-10-18, 10:03:41

Aber nicht als salvage vom salvage und reduzierter Kapazität :P

Edit: Ums deutlich zu machen: Chip-cutdown & Speicherbeschneidung.

BlacKi

2016-10-18, 10:26:37

Das glaubst du doch selbst nicht. Die yields sind gut und man könnte ruck zuck umrüsten. :rolleyes:
zu dem zeitpunkt an dem man sich entscheiden musste aber wohl nicht.

warum hat denn nv für die letzten generationen auf alle denselben speicher mit derselben takt geschwindigkeit geschraubt? ich weiß es nicht, langsamerer speicher ist normalerweiße günstiger, warum man den nicht nutzt ist mir ein rätsel. vl kannst du mir das erklären.

HOT

2016-10-18, 12:13:21

Dass NV beim GP100 einen Stack deaktiviert bei der PCIe P100 12GB könnte auch bei V10 dann Schule machen, also V10 XT -> 16GB und V10 Pro -> 12GB.

Aber ich seh das ähnlich wie Stefan, externer GPU-DRAM langfristig verschwinden oder bei echten Low-End-Chips verbleiben. Schon die 3 Volta-Chips werden mMn alle mit HBM2 bestückt, Vega und Navi sowieso, und bei den neueren Mainstreamprodukte wird man auf billig-HBM setzen. HBM ist Jedec-Standard (HBM-billig wird sicherlich bald einer sein :rolleyes:), die Interposer wird kurzfristig auch jeder fertigen können und es gibt mehrere Speicherhersteller dafür.

Hübie

2016-10-18, 12:19:59

zu dem zeitpunkt an dem man sich entscheiden musste aber wohl nicht.

warum hat denn nv für die letzten generationen auf alle denselben speicher mit derselben takt geschwindigkeit geschraubt? ich weiß es nicht, langsamerer speicher ist normalerweiße günstiger, warum man den nicht nutzt ist mir ein rätsel. vl kannst du mir das erklären.

Du mischst jetzt einfach bunt um deine lose Argumentation zu rechtfertigen. Was hat GDDR5 an der Kotzgrenze mit GDDR5X am Anfang zu tun? :rolleyes: Das PHY der 1070 ist exakt genau so fähig doubled prefetch zu beherrschen. Das ist eine reine Entscheidung zur Produktdifferenzierung. Was meinst du wieviel sonst noch eine 1080 kaufen würden? Sei nicht so naiv.

@HOT: Der low-cost HBM ist afaik noch kein JEDEC-Standard. ;)

Edit: Gerade nachgesehen->Ist noch nicht spezifiziert oder eingereicht worden. Da man 4942 µBumps hat, wovon 684 NC sind bleiben 4258 pro Stack die korrekt verbunden sein müssen. Das hier mal was schief geht und man höchst wahrscheinlich günstiger fährt, dass Ding als 12-GB-Variante zu verkaufen, liegt auf der Hand. Also wird es AMD wohl auch so machen.

ndrs

2016-10-18, 13:22:55

Edit: Gerade nachgesehen->Ist noch nicht spezifiziert oder eingereicht worden. Da man 4942 µBumps hat, wovon 684 NC sind bleiben 4258 pro Stack die korrekt verbunden sein müssen.

Redest du gerade von der Verbindung der DRAM-Slices untereinander oder dem Aufbringen des Stacks auf dem Interposer? Bei letzterem würde es mich überraschen, wenn man Bumps auf einem organischen Interposer (bei LowCost-HBM) so dicht packt.

Das hier mal was schief geht und man höchst wahrscheinlich günstiger fährt, dass Ding als 12-GB-Variante zu verkaufen, liegt auf der Hand. Also wird es AMD wohl auch so machen.
Das deutet darauf hin, dass du vorher die Verbindung mit dem Interposer meintest, denn ansonsten würde man sicherlich jeden Stack schon vor dem Auflöten testen.

Hübie

2016-10-18, 14:04:45

Das deutet darauf hin, dass du vorher die Verbindung mit dem Interposer meintest, denn ansonsten würde man sicherlich jeden Stack schon vor dem Auflöten testen.

Eher nicht. Das ist ein Massenprodukt. Es werden auch nicht alle Zahnstocher oder Ohrenstäbchen getestet. ;)
Das gute am PHY ist ja, dass es ohne Komplikationen on/off gehen kann. Kannst ja mal Speicherchips die an einem Kanal hängen ablöten und schauen was passiert... Karte bootet normal. Problematisch wirds dann nur mit dem BIOS, dass ja mehr erwartet.

https://abload.de/img/bumpsvwbrn.png (http://abload.de/image.php?img=bumpsvwbrn.png)

ndrs

2016-10-18, 14:39:48

Eher nicht. Das ist ein Massenprodukt. Es werden auch nicht alle Zahnstocher oder Ohrenstäbchen getestet. ;)
[...]
https://abload.de/img/bumpsvwbrn.png (http://abload.de/image.php?img=bumpsvwbrn.png)
Also dass man einen HBM-Stack nicht im ganzen testet kann ich mir überhaupt nicht vorstellen. Jeder popelige BGA wird getestet bevor er auf's PCB gelötet wird. Da sollte man das doch bei einem doch recht teuren HBM-Stack auch machen.

Was zeigt das Bild?

Hübie

2016-10-18, 14:46:50

Korrigiere mich wenn du mehr weißt: Wenn so ein BGA vom Band fällt, wird nur kurz getestet ob elektrische Signale bei Takt XY rein und raus gehen. Die vollständige Speicherfunktion wird nicht getestet. Wäre viel zu aufwändig bei einem so repetitiven Bauteil im sub-Dollar-Bereich. Auch bei HBMs wird es nicht anders sein. Edit: Denn es macht keinen Sinn den Speicher zu stapeln, auf das Package im Falle der PCIe-Tesla zu löten um dann festzustellen dass es gar nicht funktioniert und man nur 12 GB aktiv lässt. ;) Denn die einfachste Nacharbeit dürfte HBM auf Package sein. Schwieriger ist da eine fehlerhafte TSV-connection.
Das Bild zeigt den pinout des baselayers eines stacks. Ist eine Excel-Tabelle :freak:

StefanV

2016-10-18, 15:47:44

Das Zusammensetzen ist ja nach wie vor Dreh- und Angelpunkt.
Bei Low Cost HBM, auf dem Package selbst?!
SRYSLY?!

Diese µBumps sind nach wie vor nicht so einfach zu handhaben, genau so wie das wiring der TSV.
Und deswegen sind die DRAM Hersteller ja auch auf TSV statt Bonding umgestiegen, bei ihren Multi Stack RAM und ROM Packages...
z.B. hier erwähnt (http://www.samsung.com/semiconductor/products/dram/server-dram/)...
Bei den anderen findest aber ähnliches...

Die yields liegen halt immer noch deutlich unter denen von normalen silicon-DRAM-chips ohne TSV.
Das weißt du jetzt woher genau?
Zumal das ganze sich ja auch mit den ganzen Ankündigungen der DRAM Hersteller widerspricht, die ja durch die Bank TSV DDR-4 SDRAM Stacks oder ähnliches angekündigt haben...

Aber das ganze ändert auch nichts daran, dass es DRAM on Package schon seit urzeiten gibt.
Die ersten Chips, an die ich mich aktiv erinnern kann, sind etwa 15 Jahre alt, die das gemacht haben...

Außerdem hat man ja immer noch die Möglichkeit des '3D Stackings', ergo man kann die DRAM einfach auf den Prozessor selbst packen. Das ist bei High End Chips nicht unbedingt möglich. Bei Chips, die man aber auf effizienz trimmt, die ohne eigenen Stromstecker auskommen, schaut es aber anders aus. Da ist das sehr wohl eine Möglichkeit, das ganze zu realisieren.

Von daher verstehe ich nicht, was du gerade von Interposer redest. Denn der ist ja eben NICHT unbedingt notwendig, wenn man HBM mit nur 512bit Datenpfaden nutzt.

Und was du mit JEDEC hast, guggsu:
https://en.wikipedia.org/wiki/High_Bandwidth_Memory#Future

both Samsung and Hynix announced the next generation HBM memory technologies.
Ich habe mal das wichtigste markiert...

Es spielt also gar keine Rolle (mehr), ob das nun JEDEC Standard wird, oder nicht, wenn schon mehrere daran arbeiten und es auch anbieten werden!

Was ein Irrweg ist, ist hingegen GDDR5X!
Denn DAS gibt es nur von einem Hersteller!

Wie es mit GDDR6 ausschaut, bleibt abzuwarten. Würde aber nicht davon ausgehen wollen, dass es besonders weit verbreitet sein wird...

Denn 'externer Speicher' ist einfach in diesen Tagen kaum noch praktikabel.

ndrs

2016-10-18, 15:54:40

Mehr wissen tue ich nicht. Ich leite nur von dem ab, was mir ehemalige Kollegen, die jetzt Testingeniuer bei IC-Herstellern (Analog- und Mixed Signal-ICs, also nicht ganz so hohe Stückzahlen) so beim Bier erzählen.

Aber nach deinem Edit bin ich mir nicht mehr ganz sicher, ob wir nicht leicht aneinander vorbei geredet haben. Daher nochmal zum klarstellen, wie ich dich vor deinem letzten Post verstanden habe:
1. jeder DRAM-Layer wird aus dem Wafer geschnibbelt und nicht getestet
2. DRAM und Base-Layer werden gestapelt und der entstandene Stack wird nicht getestet
3. die Stacks werden auf den Interposer gepappt und erst jetzt wird getestet und notfalls deaktiviert

Den letzten Punkt lese ich aus deinem vorigen Post anders heraus. Korrigiere mich bitte, wenn ich was falsch aufgefasst habe.

Meine Aussage war halt, dass ich darauf wetten würde, dass bei Punkt 2 noch ein Test stattfindet.

Edit: Auf den Post von Hübie bezogen. StefanV hat sich reingedrängelt :D

Hübie

2016-10-18, 16:01:20

@StefanV: Mir fällt echt nix mehr zu deinen Gebaren ein. Du meinst allen ernstes weil Samsung und Hynix daran arbeiten ist es ein Industriestandard bzw. das dieser nicht benötigt wird? Omfg!

Und ob man nun zwei Chips stapelt oder gleich derer 4 bzw. 8 ist ein kleiner Unterschied. Kannst dir ja stochastisch ausrechnen um welches Vielfache das Risiko eines Defekts ansteigt. DDR4 hat zudem eine simplere Struktur für clockcounter, pll etc. Das sind lächerliche 78 Kontakte.

Mit Zusammensetzen meinte ich natürlich die Stacks des Speichers, denn die Zellen sind weitgehend identisch. Der baselayer könnte ebenfalls ein Schwachpunkt für schlechtere yields sein.

Zuletzt: Mal sehen was du sagst wenn AMD ein Produkt mit GDDR5X bringt, was passieren wird.

Und bitte hör auf mit selektiven zitieren. Das ist Schrott.

@ndrs: Die reinen memory-layer werden mit ziemlicher Sicherheit nicht alle einzeln getestet (fraglich ob das überhaupt ginge). Beim base-die macht es Sinn. ;) Man hat ja einen gewissen Erfahrungswert. Im Nebel alles stacken macht genau so wenig Sinn. Die goldene Mitte. Man könnte es sicher herausfinden wenn man sich mal die Specs der Maschinen ansieht.

Edit: Noch zur Anmerkung: Ich rede vom Testen auf Funktion der Speicherzellen. ;) Also ob man wirklich darin etwas 'ablegen' kann. Redundanz haben die ja eh alle.

iuno

2016-10-18, 18:58:15

Aber nicht als salvage vom salvage und reduzierter Kapazität :P

Edit: Ums deutlich zu machen: Chip-cutdown & Speicherbeschneidung.

Was ist an 3.584 statt 3.840 und 3 statt 4 Stacks ist das fuer mich nicht salvage?

Der low-cost HBM ist afaik noch kein JEDEC-Standard. ;)
"Low Cost HBM" ist diesbezueglich genausowenig wie "HBM2" etwas Besonderes. Das ist alles durch die Spezifikation abgedeckt. Das Base Layer ist ja nur optional.

Hübie

2016-10-18, 19:18:38

Hast Recht. Eben noch mal nachgesehen:

The HBM DRAM assembly is not defined by this standard. The shape and materials of the die to die interfaces between the die in the HBM DRAM are not defined in this standard and the shape (Annular, Cone, Cylinder, etc.) and materials (Cu, W) are not defined or restricted in this standard. However these interfaces must fit within the electrical requirements of the channel interface.

Der baselayer muss natürlich da sein, aber die Funktion kann beschnitten sein. Wichtig ist wie da steht dass das elektrische Interface kompatibel ist. Dann wird man low-cost HBM wohl ohne weiteres nutzen können.

Über das Testen steht da ebenfalls etwas. Über einige Ports werden grundlegende Funktionen getestet, aber nicht jede Zelle beschrieben und geleert. Es gibt Redundanz-Leitungen die man dann eben im Register umändern muss, wenn was kaputt ist (JESD235A, Seite 135 ff.).

Interessant ist, dass ein 8-Hi-Stack ~21 Watt typical consumption hat. Kommt mir gerade viel vor. :|

Edit: Die P100-Karte mit 12 GB hat doch auch Vollausbau oder irre ich mich gerade?

Edit2: Okay http://images.nvidia.com/content/tesla/pdf/nvidia-tesla-p100-PCIe-datasheet.pdf Ist also schon doppelter cutdown.

StefanV

2016-10-18, 19:45:54

Edit: Die P100-Karte mit 12 GB hat doch auch Vollausbau oder irre ich mich gerade?
Wie willst 12GB mit HBM hin bekommen?

Ein 3k Interface schaut jetzt nicht soo sinnvoll aus, ergo muss da was beschnitten sein.

AnarchX

2016-10-18, 19:48:49

Per BIOS den adressierbaren Speicher begrenzen, hatte AMD bei seiner 12GiB 512-Bit FirePro S9100 auch getan.
Aber die 12GiB P100 scheint wohl wirklich nur 3 aktive Interfaces zu haben, was bei der Yield-Rate eines 600mm² 16nm Chips wohl durchaus Sinn macht.

ndrs

2016-10-18, 20:09:03

Im Nebel alles stacken macht genau so wenig Sinn. Die goldene Mitte.
Ok, dann sind wir uns hier einig. Es kam bei mir in den vorigen Posts etwas anders rüber :)

Rabiata

2016-10-21, 19:57:08

Wie willst 12GB mit HBM hin bekommen?

Ein 3k Interface schaut jetzt nicht soo sinnvoll aus, ergo muss da was beschnitten sein.
Wieso nicht?

Es gab bei GDDR5 auch schon 384-Bit Speicherinterfaces, zum Beispiel die Radeon HD 79xx-Serie. Ist praktisch das Gegenstück in konventionell.

Ein 3k Interface würde zu einem etwas kleineren und preiswerteren Chip als Fiji passen. Dank des technischen Fortschritts (HBM2 und 14 nm Prozeß) könnte dieser dennoch schneller als Fiji sein.

Ich spekuliere mal:
Vega 11 ("Klein-Vega") mit 2048 Bit HBM2 und um die 3000 Shader-Einheiten.
Wenn ich den Performance-Index aus dem 3dCenter Marktüberblick von der RX 480 hochrechne, könnten damit schon 700-800% drin sein und damit eine GTX 1070-Konkurrenz. Vielleicht auch mehr, je nachdem was Vega an IPC noch drauflegt.

Vega 10 ("Groß-Consumer-Vega") mit 3048 Bit HBM2 und mindestens 4096 Shader-Einheiten.
Das wäre dann das GTX 1080 Niveau + X.

Gipsel

2016-10-21, 20:51:23

Interessant ist, dass ein 8-Hi-Stack ~21 Watt typical consumption hat. Kommt mir gerade viel vor. :|Ist auch viel, und zwar zu viel. Wo hast Du die Zahl denn genau her?
Edit: Etwa vom maximal programmierbaren transmit driver current?

Hübie

2016-10-21, 22:02:59

Aus einer Tabelle in der PDF-Datei. Da hab ich einfach mal auf doof P = U * I gerechnet. :redface: 1.2 Volt und durchschnittlich 17.8 Ampere.

Gipsel

2016-10-21, 22:57:15

Aus einer Tabelle in der PDF-Datei. Da hab ich einfach mal auf doof P = U * I gerechnet. :redface: 1.2 Volt und durchschnittlich 17.8 Ampere.In welcher pdf-Datei?

Hübie

2016-10-22, 01:01:22

JESD235 PDF-Datei. Abver, vergiss es. Hab jetzt noch mal in Ruhe drauf geguckt und schäme mich das jetzt hier zu schreiben. :redface: