Diskussion zu: Hardware- und Nachrichten-Links des 20./21. Juni 2020 [Archiv]

Anmelden

Archiv verlassen und diese Seite im Standarddesign anzeigen : Diskussion zu: Hardware- und Nachrichten-Links des 20./21. Juni 2020

Leonidas

2020-06-22, 09:53:17

Link zur News:
https://www.3dcenter.org/news/hardware-und-nachrichten-links-des-2021-juni-2020

Gast #2

2020-06-22, 10:58:51

Ein paar Anmerkungen zum HBM SI.

Die HBM Stacks werden mittels Interposer mit dem CPU-Die verbunden. Das CPU-Die wird mit seinen Metal-Layern direkt nach unten durchkontaktiert. Diese werden senkrecht durchkontaktiert. Sie werden nicht mittels Golddrähten wie anno dunnemals nach aussen auf eine größere Fläche gezogen.

Die HBM Stacks wurden mit der Zeit nicht viel kleiner, im Gegensatz zur CPU.

Um 1024, 2048 oder gar 4096 Kontakte herzustellen, die

a) kaum Widerstand haben
b) an den HBM Stack angepasst sind
c) am Interposer angepasst sind

wird weiterhin eine große Fläche benötigt, die direkt unter der CPU liegt. Man kann dort kaum neue oder andere Einheiten in die Fläche integrieren, selbst wenn das SI mit kleineren Strukturen schrumpft, denn diese "freie" Fläche wird immer noch vom Interposer für den HBM Stack benutzt. Daher können dort keine Metal-Layer die neuen Einheiten mit Strom versorgen oder deren Signale abgreifen.

Würde der Interposer mehr Lagen für den Kontakt mit dem HBM bieten, dann könnte die Fläche des SI drastisch verkleinert und für andere Funktionseinheiten verwendet werden.

Leonidas

2020-06-22, 14:11:47

Danke für die Detail-Infos.

Gast

2020-06-22, 14:50:41

Bei den Flächenvergleichen muss hier noch berücksichtigt werden, dass hier immer nur die Fläche des PHY betrachtet wird.

Das ist im Prinzip das physische Interface, also die realen Datenleitungen die zwischen GPU-DIE und den jeweiligen Speicherchips liegen.

Das physische kann sich mit der Fertigungstechnologie der GPU kaum ändern und damit auch kaum Größenunterschiede zeigen, egal welche Fertigungstechnologie verwendet wird.

Das physische Interface ändert sich aber durchaus mit neueren Speichertechnologien und schrumpft dann in der Regel auch, bei gleicher Speichertechnologie und Interfacebreite wird man aber kaum unterschiede sehen können.

Das bedeutet aber, dass wir hier beim Unterschied zwischen GDDR und HBM hier nur die Flächenunterschiedes des physischen Interfaces sehen. Hier hat HBM den Vorteil deutlich kleinerer Kontakte, umgekehrt sind aber für die extrem breiten Interfaces auch viel mehr Kontakte notwendig.

Was wir hier aber nicht sehen sind die Unterschiede vom Speichercontroller selbst. Einerseits skaliert dieser durchaus mit der Fertigung des DIEs und andererseits sollte hier HBM weitere Vorteile aufweisen.
Der Flächenvorteil sollte von HBM also insgesamt deutlich größer sein, als was wir hier sehen.

Eldoran

2020-06-22, 18:38:04

Ich glaube da werden jetzt ein paar Dinge verwechselt. So wie ich das verstanden habe, sind die PHY für PCIe, RAM etc. die analogen Schaltungen, die die die Eingangs und Ausgangsströme verarbeiten, die bei dann aus dem die herausgleitet werden. Das ganze hat mit den eigentlichen Leitungen fast nichts zu tun - die werden zumindest auf der CPU/GPU ganz normal bis an die Oberfläche geleitet. Das besondere von HBM zu (G)DDRx etwa liegt darin, dass die Verbindung vom Die zum Interposer/Substrat viel kleinere Kontaktpunkte hat. Bis hier sind TSV völlig irrelevant. Allerdings sind die Kontaktpunkte zum Substrat beim Interposer naturgemäss auf der Rückseite, dafür verwendet man dann die TSV. Das ist übrigens auch der Punkt, weshalb intels EMIB mutmasslich günstiger sind, es sind da nicht die reinen Kosten des Siliziums, sondern, da diese nur am Rand für die Verbindung zwischen den Dies gesetzt sind, liegt der Rest des Dies direkt am Substrat auf und kann "normal" mit Lötpunkten etc. geführt werden (man vermeidet also TSVs). Bei den eigentlichen HBM Stapel liegt die Angelegenheit aber anders, diese werden bisher über TSV verbunden. An dieser Stelle kommt es dann auch zu den Kosten und Problemen die mit TSV zusammenhängen. An dieser Stelle erzeugen die TSV tatsächlich einen Flächenverbrauch. Bei 3D Flash gibt es die gleichen Probleme für die Leitungen zu den verschiedenen Lagen, die mit steigender Lagenzahl für einen immer deutlicheren Flächenverbrauch sorgen.
Beispiel Grafik von AMD:
https://www.semiaccurate.com/assets/uploads/2015/05/HBM_stack_diagram.jpg

Gast

2020-06-22, 22:11:35

Man kann eigentlich davon ausgehen, dass zwischen SKU 2 und SKU 3 ersterer auch mehr takt und Powerlimit hat und dementsprechend der Vorsprung größer als die Differenz in Shaderunits ist und damit auf jeden Fall über 20% und nicht darunter.

Leonidas

2020-06-23, 04:03:32

Was wir hier aber nicht sehen sind die Unterschiede vom Speichercontroller selbst..

Exakt. Das ergab sich schon durch die letzten Die-Shots, wo immer der Speichercontroller extra eingezeichnet wurde - sprich, kein Teil des eigentlichen Speicherinterfaces ist.

Man kann eigentlich davon ausgehen, dass zwischen SKU 2 und SKU 3 ersterer auch mehr takt und Powerlimit hat und dementsprechend der Vorsprung größer als die Differenz in Shaderunits ist und damit auf jeden Fall über 20% und nicht darunter.

Stimmt. Allerdings kommen dann auch Skalierungseffekte ins Spiel, womit aus +20% Shader-Einheiten sowieso nicht +20% Performance herauskommen. Ergo dürfte, eingerechnet den Mehrtakt und die Skalierungseffekte, die +20% wohl doch stimmen. Bei GTX1070/1080 hat NV aus +33% Shader-Einheiten und Mehrtakt auch nur +23% Performance herausgeholt.

Gast

2020-06-23, 18:24:08

Allerdings kommen dann auch Skalierungseffekte ins Spiel, womit aus +20% Shader-Einheiten sowieso nicht +20% Performance herauskommen. Ergo dürfte, eingerechnet den Mehrtakt und die Skalierungseffekte, die +20% wohl doch stimmen. Bei GTX1070/1080 hat NV aus +33% Shader-Einheiten und Mehrtakt auch nur +23% Performance herausgeholt.

Leigt mitunter wohl auch da dran das der Speicherdruchsatz von 1070 zu 1080 nur um 25% gewachsen ist.

Wenn man Fakten zum Speicherdurchsatz von GA102 hätte wüste man recht genau weiviel mehr Rohleistung man erwarten kann.
So ist es stochen im Blauen,es gibts halt ein ordentlicher Unterschied zwischen 768Gb/s bei 16@384 zu 1008Gb/s bei 21@384.

Selbst im Falle von Höchstwert muss man sich fragen ob die 31% mehr Speicherdurchsatz zu TU 102 reichen würden 30% oder mehr Rohleistung auf die 2080Ti an den Kunden auch in FPS weiter zu geben????

Bin gespannt wer am Ende nur leere Floskeln tortz vermeindlicher Quellen verbreitet hat.

Gast

2020-06-23, 19:39:45

Stimmt. Allerdings kommen dann auch Skalierungseffekte ins Spiel, womit aus +20% Shader-Einheiten sowieso nicht +20% Performance herauskommen. Ergo dürfte, eingerechnet den Mehrtakt und die Skalierungseffekte, die +20% wohl doch stimmen. Bei GTX1070/1080 hat NV aus +33% Shader-Einheiten und Mehrtakt auch nur +23% Performance herausgeholt.

Allerdings bei gleichem Speicherinterface, und beim Durchschnitt mitgerechnet mit den Fällen in denen ein partielles CPU-Limit vorliegt.

Hier haben wir auch eine Skalierung des Speicherinterfaces und vermutlich auch unterschiedliche Taktraten.

Wenn man nur die Fälle betrachtet auf die es ankommt, nämlich diejenigen die auch auf der schnelleren Grafikkarte im GPU-Limit liegen sollte da schon mindesten 25%, vielleicht auch 30% Skalierung vorliegen, aber auf jeden Fall über der reinen Skalierung der Recheneinheiten.

Leonidas

2020-06-24, 03:53:48

Allerdings bei gleichem Speicherinterface, und beim Durchschnitt mitgerechnet mit den Fällen in denen ein partielles CPU-Limit vorliegt.

Hier haben wir auch eine Skalierung des Speicherinterfaces und vermutlich auch unterschiedliche Taktraten.

Nein, da liegst Du etwas falsch. Ampere wird unterschiedliche Speichertaktraten haben, gewiß, auch eine Differenz beim Interface. Dies dürfte letztlich passend zur Rechenleistung herauskommen. Bei GTX1070/1080 gab es noch den Unterschied GDDR5 zu GDDR5X. Gleiches Interface, aber deutlich andere Bandbreite: +25%! Fast soviel wie es Mehr-Shader gab.

Genaue Zahlen zu GTX1070 zu GTX1080:
Rohleistung (Boosttakt): +37,3%
Bandbreite: +25,0%
4K-Performance: +23,4%

Da sehe ich doch eindeutige Skalierungsverluste. Teilweise aus gleich großen Chipteilen bedingt (gleiche Anzahl Raster-Engines, gleiche Anzahl ROPs, genauso viel L2), teilweise ist es wirklich reiner Skalierungsverlust. Performance-Werte vom Launch, heuer könnte die Differenz leicht größer herauskommen.