Diskussion zu: nVidia forscht an MCM-basierten Grafikchips [Archiv]

Anmelden

Archiv verlassen und diese Seite im Standarddesign anzeigen : Diskussion zu: nVidia forscht an MCM-basierten Grafikchips

Leonidas

2017-07-06, 16:40:30

Link zur News:
https://www.3dcenter.org/news/nvidia-forscht-mcm-basierten-grafikchips

Gast Ritis

2017-07-06, 17:25:35

Etwas seltsames Konzept den L2 nur über die X-Bars den Shadern anzubieten. Das könnte zu langsam sein, es sei denn man will ein gleichmäßig langsames Verhalten erreichen.
Bei Vega hängt gemäss Schaubild der L2 zwischen den Einheiten und dem Controller. Was dort bei Vega seltsam war ist, dass die für den L2 nach extern i/o angedeutet haben, parallel zum Controller. Ich gehe momentan noch davon aus, dass man mit Vega20 solche MCM oder Dual-GPU Boards sehen wird.

Der nVidia Vorstoss sieht ein bisschen wie MeToo aus. Aber nVidia war/ist auch Teil des HT-Konsortiums. Die werden etwas für solche Interkonnects gelernt haben. Die Krux ist aber die unterschiedlichen Latenzen des gemeinsamen VRAM zu maskieren, e.g. größere L1 Caches, mehr Flexibilität beim Scheduling. Wenn nVidia soetwas droppt geht es nach meiner Erinnerung nicht sehr lange bis die Produkte ankündigen.... reine Theorie ist das wahrscheinlich schon nicht mehr.

Gast

2017-07-06, 21:35:35

MultiChip-Lösungen gab es bereits mit Voodoo1:
http://tdfx.de/ger/obsidian100sb_4440v.shtml

Gast

2017-07-06, 23:04:31

Die Frage ist viel eher ob das Konzept energieeffizient sein kann, viel weniger ob die Produktion damit effizienter wird.
Je weiter der Weg ist den die Daten zurücklegen müssen desto ineffizienter wird das ganze nämlich.
Da kann es eventuell sogar sinnvoller sein, dass man den Großteil des RAM-Inhaltes trotzdem spiegelt, um die Zugriffe über die anderen Chips zu verringern.

Der Hauptgrund für die Energieeffizienz seit Maxwell ist ja eine möglichst hohe Datenlokalität zu erreichen, einerseits natürlich durch das Einsparen externer Bandbreite, aber auch innerhalb der GPU ist der Datenfluss auf möglichst kurze Wege getrimmt.
Das Konzept steht dem eigentlich total entgegen.

Gast

2017-07-06, 23:24:13

Was ist daran neu?
Selbst ich als Amateur, der nicht in der Chipentwiclung arbeitet, habe schon vor ner halben Ewigkeit hier im Forum geschrieben, dass die Entwicklung von Multi-Chip-Lösungen weg von SLI/XF gehen muss und wird. Und letztendlich die hier "GPU Module" genannten Chips weder alle gleich groß sein, noch eine feste Zahl haben müssen.
Man nimmt halt eine 'monolitische GPU' in nicht herstellbarem Monster-Format und zersägt sie. Und je nach dem, ob eine x80TI oder x60 bei raus kommen soll, nimmt man halt entsprechend viele Module und säbelt ggf. auch bei "I/O & Co." noch was ab. Ganz so, wie es weitestgehend schon seit Jahren als Single-Chip passiert. Der Interconnect wird das entscheidende werden.

MrSpadge

2017-07-06, 23:47:55

@Ritis: für (nVidia) GPUs ist es normal, den L2 nahe an den Speichercontrollern zu haben. Und die Latenzen spielen schon eine Rolle, können aber durch die unwahrscheinlich hohe Anzahl unabhängiger Berechnungen (Pixel) bestens versteckt werden. Eine höhere Latenz kostet somit "nur" größere Puffer, um mehr Threads in der Bearbeitung haben zu können. Und schnelle Verbindungen können sie natürlich, egal ob mit oder ohne HT-Konsortium. Innerhalb des Chips brauchen sie die, für NV-Link, für den VRAM etc.

Selbst die angestellten Performance-Aussagen, wonach man mit dem MCM-System bis nahe an die Performance eines regulären "monolithischen" Grafikchips kommen würde, basieren allein auf Simulationen – ohne aber das man zum derzeitigen Zeitpunkt ahnen kann, welche Probleme und Überraschungen insbesondere die XBar-Interfaces zwischen den Einzelchips mit sich bringen könnten.
Leo, das ist kein Hexenwerk. Hochgeschwindgkeits-Datenübertragung zwischen Chips wird schon seit Jahrzehnten gemacht. Innerhalb der Chips gibt's auch Verbindungen zwischen den SMs etc. Jetzt muss man "nur" simulieren, wie ein bestehender Chip reagiert, wenn man diese Verbindungen etwas verlangsamt. Oder anders herum: wie schnell müssen meine externen Verbindungen sein, damit der Chip noch rund läuft? Das ist im Prinzip der gleiche Test, den nVidia auch für die internen Verbindungen machen muss. Nur halt mit ein paar mehr Randbedingungen, dass die externen Verbindungen zusätzlich Stromverbrauch und Latenz erhöhen.

Mit NV-Link ist nVidia direkt zu 20 GBit/s pro pin übergegangen, in Gen 2 zu 25 GBit/s. Ich kenne kein elektrisches Interface, das heutzutage signifikant schneller wäre. Auch beim HBM2 für P100 haben sie's "einfach gemacht". Das war sicher jeweils viel harte Arbeit, aber man wusste ziemlich genau, worauf man sich da einlässt. Solange die Foundry und Packaging das liefern, was sie versprochen haben, klappt das schon.

Auch dass nVidia jetzt damit kommt ist sicher kein Zufall:

- im Bereich "advanced packaging" gab's in den letzten Jahren rasante Fortschritte (z.B. Intel EMIB)
- die normale Transistorskalierung kommt an immer härtere Grenzen. Es geht zwar weiter, wird aber empfindlich teurer
- sie sind mit GV100 am reticle-Limit angekommen (eine Vergrößerung dieses Limits steht sicher außer Frage). Noch mehr Chipfläche geht nur mit MCM.
- Im Compute-Bereich wird ihnen alles aus den Händen gerissen, was +x% Rechenleistung für +2x% Preis bietet

MrS

MadManniMan

2017-07-06, 23:51:32

Hm ... werden jetzt Latenzen wegen der Signallaufzeiten zu einem Problem?

HPVD

2017-07-07, 09:46:20

ich gebe zu in dem Bereich sehr unwissend zu sein, daher trau ich mich mal zu fragen:

Warum ist das bei GPUs soviel schwieriger zu machen als bei CPUs (Stichwort Epyc) ?

Ist das nicht ein Vorteil für AMD dass sie das bei CPUs schon können?

MrSpadge

2017-07-08, 14:39:29

@Manni: nicht direkt Problem, aber es ist wahrscheinlich der Hauptgrund dafür, dass sie mit einem solchen MCM nicht ganz die volle Geschwindigkeit eines monolithischen Chips simuliert haben. Die Bandbreite kann man einstellen, solange man Platz für genug Pins hat, aber die Signale brauchen einfach etwas länger (sowohl durch die Entfernung als auch den xbar).

@HPVD: eigentlich ist es mit GPUs sogar einfacher, weil man dort wie gesagt die zusätzlichen Latenzen besser verstecken kann, da man an Millionen Pixeln zugleich und unabhängig von einander arbeiten kann. Warum es bisher nicht gemacht wurde stelle ich mir so vor:

- es war nicht nötig, da man auch schon mit den 500 - 600 mm² großen Chips in's Power Limit kam (zumindest in den letzten Generationen) und es noch keinen Markt für GPUs jenseits der 500$ gab (entstand erst mit den letzten Generationen und vor allem GP-GPU)

- die Kosten für so ein Packaging waren damals noch höher, während die Kosten für die Chips geringer waren als heute

- die Verbindungen zwischen den Chips kosten Energie und Chipfläche

MrS

Gast

2017-07-09, 11:07:00

Warum ist das bei GPUs soviel schwieriger zu machen als bei CPUs (Stichwort Epyc) ?

Weil man für GPUs wesentlich höhere Bandbreiten zwischen den einzelnen Chips braucht.