Diskussion zu: AMD arbeitet am technischen Unterbau von MultiChip-Grafiklösungen [Archiv]

Leonidas

2021-01-05, 17:51:26

Link zur News:
https://www.3dcenter.org/news/amd-arbeitet-am-technischen-unterbau-von-multichip-grafikloesungen

Gast Ritis

2021-01-05, 19:24:35

Auf Wccftech lief das schon früher, es wurde zuvor getwittert.
Die 4 vollwertigen GPUs erinnern stark an die von Imagination Technologies angekündigte bzw. als Design erhältliche IMG B-Series multi core GPU.

Benutzername

2021-01-05, 19:25:34

cross link? Sieht für mich eher nach einem ring link aus. ;) Aber war ja zu erwarten, daß AMD sowas machen würde nach Ryzen.

Ich frage mich ob verteilte GPU-Chips sich besser kühlen lassen als ein großer Chip? Bei Ryzen ist die exzentrische Anordnung ja ein bisschen ein Problem für manche Kühler, aber für Grakas wird der Kühler ja nicht von der Stange gekauft sondern für jedes Grakamodell entworfen.

anddill

2021-01-05, 19:45:49

Die Kühlfähigkeit ergibt sich ja aus der wegzukühlenden Leistung und der zu kühlenden Fläche (und noch jeder Mange anderer Details, die hier aber konstant sein sollten). Wenn die Links viel Fläche im Chip belegen und die Leistungsdichte unter der der Recheneinheiten liegt dann wird die Kühlung einfacher.

Geldmann3

2021-01-05, 21:18:38

Das Ding ist eher, dass man den Takt herunterfahren und die Anzahl der Kerne erhöhen könnte. Ganz billig Milchmädchen gerechnet sinkt die Leistungsaufnahme um den Faktor 4, wenn man den Takt halbiert. Würde man also eine GPU mit der vierfachen Anzahl an Kernen aber nur dem halben Takt aufsetzen, käme man auf die doppelte Rechenleistung bei gleicher Leistungsaufnahme.

Später mal bieten GPUs so auch enorm viel Potenzial durch 3D Stacking. Aktuell würde solch ein Konstrukt viel zu heißt werden, um gekühlt zu werden. Wenn man den Takt allerdings enorm weit herunterfährt und dafür mit sehr viel mehr Kernen arbeitet, wäre es wiederum möglich die Performance so enorm zu steigern, sofern man nur genug Chips produzieren kann.

CPUs hingegen eignen sich weniger für diesen Ansatz, da man einen hohen Takt braucht, um auf ordentlich Single-Thread-Performance zu kommen. Bei GPUs dagegen ist es weniger wichtig, ob man die Leistung am Ende über eine hohe Multicore oder Singlecore performance erzielt.

Man muss bedenken, dass heutige Chips nur wenige Mikrometer dick sind. Wir könnten viele Millionen Schichten übereinander stapeln, bis wir einen Würfel haben und auch entsprechend die Leistung steigern.
Die größte Herausforderung daran wird für die Menschheit das Massen-produzieren. Doch, wenn es physikalisch möglich ist, werden wir es eines Tages schaffen.

MiamiNice

2021-01-05, 21:21:44

Würde man also eine GPU mit der vierfachen Anzahl an Kernen aber nur dem halben Takt aufsetzen, käme man auf die doppelte Rechenleistung bei gleicher Leistungsaufnahme.

Ich habe da meine Zweifel das das derart skaliert.

Gast Ritis

2021-01-05, 21:24:46

cross link? Sieht für mich eher nach einem ring link aus. ;) Aber war ja zu erwarten, daß AMD sowas machen würde nach Ryzen.

Ich frage mich ob verteilte GPU-Chips sich besser kühlen lassen als ein großer Chip? Bei Ryzen ist die exzentrische Anordnung ja ein bisschen ein Problem für manche Kühler, aber für Grakas wird der Kühler ja nicht von der Stange gekauft sondern für jedes Grakamodell entworfen.

Nein, die selbst gemachte Skizze ist natürlich Quark. In der Patentschrift hat jede GPU 4 Links für alle drei anderen GPUs und noch wohl zum Host via PCIe wie bei Zen1 auch. Also wie das bei den EPYCs lief. Muss man halt nachlesen.

Sweepi

2021-01-05, 21:28:24

sondern viel eher der maximale Stromverbrauch – wenn die aktuellen Spitzen-Grafikkarten schon bei (deutlich) über 300 Watt Realverbrauch stehen.
Möchte mich da Gelbmann anschließen und leichten Wiederspruch einlegen.

Geldmann3

2021-01-05, 21:30:03

Ich habe da meine Zweifel das das derart skaliert.

Deshalb habe ich geschrieben, dass es ganz billig Milchmädchen-gerechnet sei.

Gast Ritis

2021-01-06, 00:02:05

Der Leistung pro Watt Effekt ist bei dem Ansatz ein anderer, so wie bei Zen1.

Es sind für sich vollwertige GPUs die in eins bis vier Einheiten alle Leistungsklassen abdecken können sollen. Also kann der einzelne für die Fertigung im Sweetspot der Fläche vs. notwendiger Spannung dimensioniert und hoffentlich hohen Taktspitzen laufen. Also eine GPU mit genug Shader für Einstiegssegment, die für Mittelklasse als Pärchen oder Triple verklebt werden. Per Binning können besonders gute Chips relativ sparsame und schnelle Quad GPUs fürs High End ermöglichen. Für Single GPUs sind 0,3v mehr fast wieder egal. Im Multichip sorgen unterschiedliche Taktdomains oder gar Clock Gating für weniger Verbrauch bei Teillast, dafür frisst das Fabrik wie bei den ersten Threadrippern mehr Energie.

Es geht nicht primär um Verdoppelung der Leistung per se, sondern ums Überflügeln der Konkurrenz bei günstigerer Herstellung mit mehr Optionen.

Wenns am Ende nicht ganz reicht ist halt wieder der Kühler grösser als bei der Konkurrenz. Da lässt keiner der Hersteller was anbrennen wie auch Nvidia nach langer Zeit beweisen musste.

Platos

2021-01-06, 00:30:54

Hmm also halbe Taktrate fordert für die selbe Leistung die doppelte Fläche. Damit ist der Kostenvorteil von Chiplets vermutlich dahin.

Wenn, dann muss man die Energieeffizienz steigern (also eben bei selber Leistung). Das führt dann aber normalerweise auch dazu, dass die Leistung weniger starkt zunimmt, wie sonst. Entweder man geht auf Energieeffizienz oder auf Leistung bzw. geht halt nicht beides gleich gut in der selben Zeit.

Also aus meiner Sicht ist das Chiplet-Design hauptsächlich dazu da, um die Kosten zu senken und techinsche Limitierungen zu beheben (TSMC's 3nm soll ja max. 429mm2 grosse Dies zulassen (vorerst)) und nicht etwa, um ausbleibende Fortschritte bei TSMC auszugleichen. Damit kann man dann auch eher auf neuere Prozesse setzen und dadurch kommt dann wieder der Fortschritt. Also der Fortschritt wird aus meiner Sicht weiterhin üblich durch Architekturverbesserungen und neue Fertigungsprozesse zustande kommen. Da diese aber immer teurer werden und die maximalgrösse auch noch arg beschränkt wird, kann man sich somit keine grossen Dies mehr leisten, ergo braucht es Chiplets.

Mit Chiplets bräuchte man auch nicht mehr mehrere Grafikchips aufzulegen. Dann gibt es nur noch 1-2 Chips, auf denen alles basiert und dadurch spart man auch enorm Geld (was wiederum dazu führt, dass man sich die teuren Prozesse leisten kann).

Ich sehe eher da der Sinn von Chiplets. Irgendwann kommts vermutlich soweit, dass man jede Aufgabe auf Chiplets aufteilt. Also man macht aus RT-Cores eigene Chiplets, aus Tensor-Cores usw. (spezialisierte Chiplets eben). Dann könnte man sogar "Branchenübergreifend" die gleichen Chiplets verwenden (Gaming und professionell) und trotzdem an beiden Orten sehr individuell entwickeln. Wie ein Baukastensystem eben. Über sowas hat ja auch Intel beim Architekturday gesprochen.

Also das Chiplet-Design ist eher smarter wirtschaften, denke ich.

Nightspider

2021-01-06, 01:33:46

Wir brauchen ja jetzt nicht die Milchmädchenrechnung zerdenken.

Es reicht ja Chiplets in einem modernen Fertigungsprozess viel näher am Sweetspot betreiben zu können und holt durch mehr Chiplets, bei gleichem oder günstigeren Preis dann eben auch die Leistungskrone.

Leonidas

2021-01-06, 04:58:00

Die 4 vollwertigen GPUs.

Die Anzahl ist bei AMD wohl beliebig.

cross link? Sieht für mich eher nach einem ring link aus. ;)

Andere Darstellungen im Patent zeigen auch eher auf eine Kreuz-Verbindung hin.

Nein, die selbst gemachte Skizze ist natürlich Quark. In der Patentschrift hat jede GPU 4 Links für alle drei anderen GPUs und noch wohl zum Host via PCIe wie bei Zen1 auch.

Also die CPU-Verbindung soll nur der Master haben. Zu den Links untereinander: Wie würde ich die Skizze besser machen? Würde das gern korrigieren.

Gast Ritis

2021-01-06, 09:05:56

Also die CPU-Verbindung soll nur der Master haben. Zu den Links untereinander: Wie würde ich die Skizze besser machen? Würde das gern korrigieren.

Wie bei EPYC von Zen1. Auf die FIG.5 des Patentes achten, beschrieben auf Seite 3 der Schrift im letzten Absatz bi Seite 4. Die durchnummerierten PHY der HBX werden jeweils miteinander verbunden. Ein HBX geht jew. auf den lokalen L3. Die Verbindung CPU-GPU ist separat über den Scalable Data Fabric des Infinity Fabric (IF=SDF+ControlFabric)

Der Host muss dennoch bei jeder GPU über den VRAM-Controller schreiben können. Nur dass das von einer Master GPU bzw. einem Chiplet die Anfragen der CPU entgegen genommen werden, für die Bit-Übertragung wird dann die Adresse des betreffenden Slave GPU Memory and die CPU gegeben und via Master GPU übertragen. Das geht über den passiven Crosslink (118). Aus der Sicht der CPU bleibt es diese eine Master GPU die dort sicherlich nur auf den SDF durchschaltet. Das meiste geht ja zwischen den GPUs für den Speicherzugriff.

Also du hast jew. L3 der am HBX Crosslink hängt und bei der Master GPU wird der SDF auf den Crosslink überbrückt damit die CPU mit dem Verbund via dem Master sprechen kann. Auch der Master L3 wird über den HBX zum eigenen SDF an die CPU verbunden.

Das Patent beschreibt auch mehr als 4 GPUs, explizit Penta GPUs und Arrays, bei der dann aber eben andere Chiplets wohl mit mehr der HBX PHY für den passiven Crosslink verbaut sind.

Legendenkiller

2021-01-06, 09:57:27

Ich sehe das auch so wie Platos es beschreiben hat.
Der Hauptvorteil ist schlicht Fertigungspreis / Ausbeute und bessere Skalierbarkeit.

Ich glaub nicht das AMD da "vollwertige" z.b. Navi 22 zusammenschalten will. Also SLI on Bord. Sondern wie beim Zen.
Kleine Chiplets die so allein nicht laufen würden und dann nach Baukasten zu Produkten nach Wunsch zusammengestellt.

Statt mehrere Chipsorten machen sie 1 "Core-Chip" und die Einsteigskarte bekommt dann z.b. 1 , Midrange 2 , Highend dann 3-4 und Enthusiast noch mehr.
Aber ebend immer der selben vergleichsweise kleinen dummen Chip.
Ram Art un Menge kann man dann auch wieder wie gewüscht über ein eigenens I/O machen und mit einer beliebig Anzal der Core-Ships kombinieren.

also auf aktuelle 6xxx Karten umgemünzt:

6900XT -> 8 chiplets a 10 Core + 256bit IO
6800XT -> 8 chiplets a 9 Core + 256bit IO
6800 -> 6 chiplets a 10 Core + 256bit IO
6700 -> 4 chiplets a 10 Core + 192bit IO
6600 -> 4 chiplets a 8 Core + 128bit IO

die Kunden wollen eine 6700XT... kein problem
6700XT -> 6 chiplets a 8 Core

Mehr RT Leistung ...kein problem
6800RT -> 6 chiplets a 10 Core + 2 pure RT Core

usw.

Leonidas

2021-01-06, 10:56:31

Wie bei EPYC von Zen1.

Ich hab mich zu sehr von der einen Abbildung leiten lassen, wo der HBX durch das Chiplet durch zum nächsten ging. Neu-Vorschlag:

https://i.imgur.com/7NpWgJG.png

foenfrisur

2021-01-06, 13:37:11

ich stecke natürlich bei weitem nicht so in der Materie, aber könnte man nicht auch den Slave-Chiplets jeweils verschiedene Aufgaben zuordnen, die Sie bearbeiten?

Die Chiplets müssen vermutlich nicht mal unbedingt identisch sein.

also wenn man viel RT benötigt, kommt ein spezieller zusätzlicher Chiplet zum Einsatz.
Auch wenn natürlich immer ein Teil brach liegt, der nicht benötigt wird, aber so ist es ja heute auch.

Also da bin ich echt mal gespannt, wann und wie dieser Ansatz umgesetzt wird.

mfg

Gast

2021-01-06, 14:24:00

Ich frage mich ob verteilte GPU-Chips sich besser kühlen lassen als ein großer Chip? Bei Ryzen ist die exzentrische Anordnung ja ein bisschen ein Problem für manche Kühler, aber für Grakas wird der Kühler ja nicht von der Stange gekauft sondern für jedes Grakamodell entworfen.

Die exzentrische Anordnung ist nicht das große Problem, zumindest bei einem Kühler mit ausreichend großer Coldplate.

Das Problem ist extrem viel Hitze in einem extrem kleinen DIE.

Also nein, die GPU-Chips werden sich garantiert nicht besser kühlen lassen, ganz im Gegenteil, ein größerer DIE wird immer leichter zu kühlen sein.

Gast Ritis

2021-01-06, 14:58:10

Ich hab mich zu sehr von der einen Abbildung leiten lassen, wo der HBX durch das Chiplet durch zum nächsten ging. Neu-Vorschlag:

https://i.imgur.com/7NpWgJG.png
Sehr abstrakt ja.

Aber eigentlich eher wie hier
https://www.hardwareluxx.de/images/cdn01/ACAB60EDEC664EAEB0216CEFC0EB88C5/img/97563BBA30B649C6A28B59DEB1BCAF95/AMD-NextHorizonE3-TomLey-005_97563BBA30B649C6A28B59DEB1BCAF95.jpg

bzw. wie hier
https://www.techpowerup.com/img/wxr6wz3w5QhbjpO4.jpg

Die HBX entsprechen den IF GMI PHY in rot bzw. grün im zweiten Bild. Die HBX sind auf der Plane des Chiplets der eigene L3 und das SI hängen aber nicht direkt an der Plane sondern auch nur an einem HBX. Also 1x OnChip HBX an L3+SI und 3x OffChip HBX an HBX der umliegenden GPU-Chiplets.

Wichtig ist an dem Patent, dass die GPUs ihr eigenens IF-ähnliches Konstrukt haben, der IF auf der GPU ist dann wieder extra zwischen den eigentlichen Komponenten.

Ich wüde das so malen
https://postimg.cc/dhkfCpLz

Gast

2021-01-06, 15:47:18

Das Ding ist eher, dass man den Takt herunterfahren und die Anzahl der Kerne erhöhen könnte. Ganz billig Milchmädchen gerechnet sinkt die Leistungsaufnahme um den Faktor 4, wenn man den Takt halbiert. Würde man also eine GPU mit der vierfachen Anzahl an Kernen aber nur dem halben Takt aufsetzen, käme man auf die doppelte Rechenleistung bei gleicher Leistungsaufnahme.

Das ist aber per se kein Vorteil der Chiplets.
Du kannst genauso gut eine 4x so breite GPU mit halbem Takt bauen.

Der einzige Vorteil von Chiplets sind die Kosten, alles weitere sind nur Nachteile.

Und auch wenn man durch geringeren Takt Energie einsparen kann, muss man auf der anderen Seite durch die massiv gestiegene Off-Die-Kommunikation wieder eine Menge Energie aufwenden, jene Energie die man gerade bei AMD durch den Infinity Cache zu großen Teilen einsparen konnte.

Später mal bieten GPUs so auch enorm viel Potenzial durch 3D Stacking. Aktuell würde solch ein Konstrukt viel zu heißt werden, um gekühlt zu werden. Wenn man den Takt allerdings enorm weit herunterfährt und dafür mit sehr viel mehr Kernen arbeitet, wäre es wiederum möglich die Performance so enorm zu steigern, sofern man nur genug Chips produzieren kann.

CPUs hingegen eignen sich weniger für diesen Ansatz, da man einen hohen Takt braucht, um auf ordentlich Single-Thread-Performance zu kommen. Bei GPUs dagegen ist es weniger wichtig, ob man die Leistung am Ende über eine hohe Multicore oder Singlecore performance erzielt.

Man muss bedenken, dass heutige Chips nur wenige Mikrometer dick sind. Wir könnten viele Millionen Schichten übereinander stapeln, bis wir einen Würfel haben und auch entsprechend die Leistung steigern.
Die größte Herausforderung daran wird für die Menschheit das Massen-produzieren. Doch, wenn es physikalisch möglich ist, werden wir es eines Tages schaffen.[/QUOTE]

Gast

2021-01-06, 15:58:32

Die Anzahl ist bei AMD wohl beliebig.

[/B]

Kann zumindest bei einem X-Bar Interface nicht sein, da hier jeder mit jedem verbunden wird, und die Anzahl der Interfaces pro DIE nicht unendlich sein kann, kann man damit auch nur eine definierte endliche Zahl an DIEs verbinden.

Damit steigt auch der Aufwand pro DIE, da immer mehr Transistoren und vor allem Fläche für das PHY für das Interface aufgewendet werden müssen.

So wie ich es verstehe bekommt auch jeder DIE sein eigenes RAM Interface, und jeder DIE kann auf den RAM der anderen nur über den L3 des jeweiligen anderen DIEs zugreifen.
Im Grunde ähnlich wie Zen(+) EPYC, bevor mit Zen2 der dedizierte IO-Die verwendet wurde, und hier hat man je nach Software doch deutliche Probleme gesehen.

Der mögliche Erfolg des Ganzen hängt viel weniger von der Hardware, als von der Software ab.

Der Treiber muss das ganze Paket so ansteuern, dass jeder DIE möglichst unabhängig arbeiten kann mit möglichst wenig Kommunikation nach Außen und dabei noch eventuell abwägen ob es besser ist gewisse Dinge jeweils pro DIE zu machen oder ob es effizienter ist die Daten über den X-Bar laufen zu lassen.

Ansonsten wird das entweder leistungstechnisch, oder verbrauchstechnisch ein Albtraum, oder gar beides.

Gast

2021-01-06, 16:12:50

ich stecke natürlich bei weitem nicht so in der Materie, aber könnte man nicht auch den Slave-Chiplets jeweils verschiedene Aufgaben zuordnen, die Sie bearbeiten?

Könnte man, ist aber wohl höchstens in Ausnahmefällen sinnvoll.

Damit ein derartiges Design halbwegs effizient ist gilt es die Kommunikation zwischen den Chiplets so gering wie möglich zu halten.

Quasi eine Aufteilung der Renderingpipeline zwischen den Chiplets ist also kontraproduktiv da damit zwangsläufig die Ergebnisse einer Stufe als Input zur nächsten von einem Chiplet zum nächsten geschoben werden muss.

Viel effizienter wäre es, wenn jedes Chiplet eine vollständige GPU ist, und nach Möglichkeit vollkommen autark rechnen kann und lediglich das Endergebnis als Pixel irgendwann mal rausschreiben muss.

Für bestimmte Aufgaben wären aber eventuell durchaus Spezialchiplets denkbar.

Beispielsweise für den Videoprozessor, es wäre nicht unbedingt sinnvoll den in jedes Chiplet einzubauen, oder für die ganze Displaylogik.
Es sei denn man will diese Dinge auch skalieren, dann könntest du beispielsweise mit pro Chiplet 2 Monitore anschließen und 1 Videostream De/Encodieren.
Mit mehreren Chiplets könnte man dann entsprechend mehrere Monitore anschließen und/oder parallele Videostreams En/Decodieren.

Denkbar wäre auch beispielsweise fürs Raytracing einen dedizierten BVH-Builder in einem eigenen DIE zu verbauen. Da dieser eh unabhängig vom Rest arbeiten könnte.
Sowas wäre auch bei einer grundsätzlich monolithischen GPU denkbar.

Die Chiplets müssen vermutlich nicht mal unbedingt identisch sein.

also wenn man viel RT benötigt, kommt ein spezieller zusätzlicher Chiplet zum Einsatz.
Auch wenn natürlich immer ein Teil brach liegt, der nicht benötigt wird, aber so ist es ja heute auch.

Also da bin ich echt mal gespannt, wann und wie dieser Ansatz umgesetzt wird.

mfg[/QUOTE]

Leonidas

2021-01-06, 17:15:09

Ich wüde das so malen
https://postimg.cc/dhkfCpLz

Danke für Deine Anmerkungen. Darf ich obige Grafik mit Verweis auf den Urheber in diese News einbinden?

Gast Ritis

2021-01-06, 17:21:35

Diese Darstellung gefällt mir besser, weil eine mögliche Chiplet-Anordnung berücksichtigt ist und auffällt, dass man wie bei EPYC/TR einen komplexen Interposer mit mehreren Layern und langen Lanes benötigt, was bei den mit IO Die nicht der Fall ist.

https://postimg.cc/gX3qKQ5j

Externer IO mit einer Anbindung je Chiplet an solch ein zentrales Die mit Routing/Switching wie ab Zen2 ist schon besser, aber nicht vom Patent berücksichtigt.

Gast Ritis

2021-01-06, 17:23:58

Danke für Deine Anmerkungen. Darf ich obige Grafik mit Verweis auf den Urheber in diese News einbinden?
Nur zu, die sind CC.

Gast Ritis

2021-01-06, 18:02:23

Kann zumindest bei einem X-Bar Interface nicht sein, da hier jeder mit jedem verbunden wird, und die Anzahl der Interfaces pro DIE nicht unendlich sein kann, kann man damit auch nur eine definierte endliche Zahl an DIEs verbinden.

Damit steigt auch der Aufwand pro DIE, da immer mehr Transistoren und vor allem Fläche für das PHY für das Interface aufgewendet werden müssen.

So wie ich es verstehe bekommt auch jeder DIE sein eigenes RAM Interface, und jeder DIE kann auf den RAM der anderen nur über den L3 des jeweiligen anderen DIEs zugreifen.
Im Grunde ähnlich wie Zen(+) EPYC, bevor mit Zen2 der dedizierte IO-Die verwendet wurde, und hier hat man je nach Software doch deutliche Probleme gesehen.

Der mögliche Erfolg des Ganzen hängt viel weniger von der Hardware, als von der Software ab.

Der Treiber muss das ganze Paket so ansteuern, dass jeder DIE möglichst unabhängig arbeiten kann mit möglichst wenig Kommunikation nach Außen und dabei noch eventuell abwägen ob es besser ist gewisse Dinge jeweils pro DIE zu machen oder ob es effizienter ist die Daten über den X-Bar laufen zu lassen.

Ansonsten wird das entweder leistungstechnisch, oder verbrauchstechnisch ein Albtraum, oder gar beides.

Weitestgehend stimme ich zu.

Das Patent sieht im gegenüberliegenden Eck ein weiteres HBX für die X-Links vor und spricht explizit von einer möglichen 5-Chip Lösung. Darüber hinaus auch noch von Array Anordnungen. Dann wäre das via Hops und weiteren Latenzen schon möglich, dann aber eher Compute und nicht Echtzeit-Gaming. Genauer ist Array nicht beschrieben.

In den GPU Chiplets ist der Crosslink-Controller eine art MMU, die einfach ggü. der CPU den Speicherbereich in den Chiplet-Teilern verwaltet. Die getrennten GPUs entsprechen mal grob den getrennten Shader Engines einer RDNA2. Die Chiplet-Interkommunikation müsste das entsprechend abwickeln können. Für den bisherigen Code könnte das transparent sein mit abweichenden Latenzen.

Mit der Anzahl Chiplets wird das SI skaliert, das macht schon sehr viel Sinn.

Letztlich bleibt die Frage ob AMD dann plant, dass die zentralen Scheduler einer GPU (Geometry, Graphics Command, 4 ACEs, HWS, DMA) bis zu 3 oder mehr Chiplets mitbedienen können, oder ob diese Einheiten in ein extra externes Chiplet mit den Multimedia und Display Controllern wandern sollen und der Master keinen PCIe Link hat sondern per IF an solch einen Control-Die geht. Die sind im Patent nicht behandelt. Beides wäre möglich, evtl. bei deaktivierten Controlern in den Slaves könnten die besser takten.

Bin mal gespannt ob ImgTech versuchen wird prior art geltend zu machen.

Gast

2021-01-06, 19:14:54

Auch zu RayTracing wurde schon viele Jahre hin- und herspekuliert – bis es dann mittels "Turing" im Jahr 2018 tatsächlich in Silizium gegossen wurde.

Das geschah schon Jahre vorher z.B. 2013 mit dem R2500(2x50 MRays/s) und 2016 mit dem GR6500 (300 MRays/s). Bereits 2016 reichte es immerhin schon für rauschfreie 20fps in 1080p (100% raytraced) (https://www.youtube.com/watch?v=uxE2SYDHFtQ).

Rechner-Tester

2021-01-06, 23:51:25

Leo: Warum verwendest du die Begriffe Master und Slave obwohl diese in der Vorlage gar nicht vorkommen?
(Fast) die ganze IT-Welt hat im letzten Jahr Gedanken gemacht, wie rassistische Begriffe durch neutrale und präzisere Begriffe ersetzt werden können. (https://www.heise.de/news/Nichtrassistische-Sprache-Abschied-von-Blacklist-und-Whitelist-4784291.html).

Grüße Rechner-Tester

Gast

2021-01-07, 00:55:49

So what?
Selbst ich habe vor geraumer Zeit hier im Forum ähnliches vorhergesagt. Nur dass ich von einem Basechip, der alle 'Uncore'-Teile enthält, ausging und laut Patent der Teil in allen Chiplets vorhanden, aber nur im Masterchip genutzt wird.

Nicht ohne Grund ist DG2 zwar nicht die wichtigste (schon gar nicht jeweils persönlich), aber spannendste für 2021 angekündigte Gamer-Hardware. Die angeblich bis zu 5 Chips skalieren von den Werten her so synchron, dass die Tiles nicht sowas wie Chiplets werden. Ok, vielleicht nur im HPC- und nicht Gaming-Bereich.

Leonidas

2021-01-07, 04:03:29

Leo: Warum verwendest du die Begriffe Master und Slave obwohl diese in der Vorlage gar nicht vorkommen?
(Fast) die ganze IT-Welt hat im letzten Jahr Gedanken gemacht, wie rassistische Begriffe durch neutrale und präzisere Begriffe ersetzt werden können. (https://www.heise.de/news/Nichtrassistische-Sprache-Abschied-von-Blacklist-und-Whitelist-4784291.html).

Erstens mal bin ich gegen diese "Säuberung der Sprache". Es ist unnötiges Herumdoktern an Symptomen.* Wer Sprache säubert, säubert am Ende auch Menschen.

Zweitens weiss jeder im IT-Bereich, was mit Master/Slave gemeint ist. Insbesondere nicht-englisch-Sprecher haben da normalerweise keine Sklaven-Assoziationen.

Und drittens wird diese Wortwahl von der Schrift selber so getätigt:

As a general operational overview, the processing system 500 utilizes a master-slave topology in which a single GPU chiplet in direct communication with the CPU 102 (i.e., GPU chiplet 106-1) is designated as the master chiplet (hereinafter, primary GPU chiplet or host GPU chiplet). The other GPU chiplets communicate with the CPU 102 indirectly via the passive crosslink 118 and are designated as the slave chiplets (hereinafter, secondary GPU chiplet(s)). Accordingly, the primary GPU chiplet 106-1 serves as the singular entry point from the CPU 102 to the entire GPU chiplet array.

* Ich komme aus einer Kultur, wo es richtig Ärger gegeben hätte, wenn jemand was rassistisch gemeintes gesagt hätte (und wo solches Gedankengut auch nicht üblich war). Trotzdem hatten wir Negerküsse und Mohrenköpfe - ohne das jemand auch nur daran gedacht hätte, das umzubenennen.

Nur zu, die sind CC.

Ich habe beide Diagramme mit eingebunden. Leider ohne Urheber (da mir nicht klar bekannt, stammen die von Dir?) und somit nur mit Quellen-Nachweis.

MasterElwood

2021-01-07, 04:48:56

Leo: Warum verwendest du die Begriffe Master und Slave obwohl diese in der Vorlage gar nicht vorkommen?
(Fast) die ganze IT-Welt hat im letzten Jahr Gedanken gemacht, wie rassistische Begriffe durch neutrale und präzisere Begriffe ersetzt werden können. (https://www.heise.de/news/Nichtrassistische-Sprache-Abschied-von-Blacklist-und-Whitelist-4784291.html).

Grüße Rechner-Tester

Weil das eine NIX mit dem anderen zu tun hat - egal wie viele Leute meinen die Welt mit "Säuberung der Sprache" retten zu müssen? :facepalm:

Früher hatte man Porno-Jäger - jetzt hat man Wort-Jäger :freak:

Gast Ritis

2021-01-07, 09:45:07

Leo: Warum verwendest du die Begriffe Master und Slave obwohl diese in der Vorlage gar nicht vorkommen?
(Fast) die ganze IT-Welt hat im letzten Jahr Gedanken gemacht, wie rassistische Begriffe durch neutrale und präzisere Begriffe ersetzt werden können. (https://www.heise.de/news/Nichtrassistische-Sprache-Abschied-von-Blacklist-und-Whitelist-4784291.html).

Grüße Rechner-Tester
Aus dem Patent
"As a general operational overview the processing system utilizes a master-slave topology in which a single GPU chiplet in direct communication with the CPU is designated as the master chiplet."

Nur weil clean washing der Sprache in sachfremden Themen modern ist um wohl die Kulturgeschichte der Menschheit aus dem Bewusstsein zu tilgen und in diesem FAll das zur Geheimsprache in SM Zimmern degradiert wird sollte man in IT nicht die leicht verständliche Analogien tilgen. Schon der Gendering-BS der letzten Jahre hat nur davon abgehalten sich aufs Wesentliche - die Technik - zu konzentrieren.