PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Interconnects | Mesh, Ring, IF, Foveros | Was ist was?


CrazyIvan
2020-04-14, 18:31:38
Eigentlich wollte ich nur im Zen3-Thread ein wenig darüber spekulieren, ob der Einsatz von TSMCs CoWoS neben dem naheliegenden Anwendungsgebiet der Grafikkarten möglicherweise auch für künftige Zen-Modelle infrage kommen könnte - siehe https://wccftech.com/tsmc-cowos-production-at-full-capacity-as-demand-skyrockets-nvidia-amd-and-more-trying-to-get-their-hands-on-interposers/

Nach einigem Rumgooglen zur aktuellen physischen Implementierung bei Zen2 musste ich jedoch für mich feststellen, dass ich mir gar keine qualifizierte Meinung bilden kann. Das mag sicher damit zu tun haben, dass ich kein Elektro-/Informationstechniker bin. Aber auch in den üblichen Quellen (WikiChip, Anandtech, etc.) ist die Informationslage irritierend bis widersprüchlich.
Vielleicht mag der ein oder andere Wissende mir - und damit sicher auch vielen anderen - ein wenig bei der Strukturierung helfen, sodass darauf aufbauend qualifiziert über weitere Entwicklungen auf dem Sektor spekuliert werden kann.

Interconnects
In verschiedensten Threads wird dieser Tage über Interconnects geschrieben, was in direktem Zusammenhang mit deren wachsender Bedeutung steht: Chiplets, der allgemeine Trend zu mehr Kernen, der Bedarf und auch Energieverbrauch für die Kommunikation der Teilnehmer unter einander, Verbindung von Chips mit heterogener Funktion, etc. pp.
Gängige Buzzwords sind “Ring”, “Mesh”, "Infinity Fabric" (IF) und "Foveros". Dumm nur, dass die Buzzwords nicht für unterschiedliche Lösungen des gleichen Problems stehen, sondern unterschiedliche Teile des Gesamtkomplexes “Interconnect” angehen. Daher ein Versuch der Strukturierung:

Topologien
“Ring” und “Mesh” sind erst einmal nur Topologien - sie zeigen also das Schema auf, mit dem die Teilnehmer verbunden sind. Die Infinity Fabric beispielsweise stellt weder selbst eine Topologie dar, noch scheint sie eine konkrete Topologie vorzuschreiben. Welche Topologie wird also beispielsweise bei Ryzen2 implementiert?

Protokolle
Infinity Fabric verstehe ich am ehesten als Protokoll. Da bei ihm weder Topologie noch physische Implementierung (IF on Die, IF on Package , IF inter Socket [IFIS]) vorgeschrieben ist. Gut denkbar ist für mich aber auch, dass IF nur ein reiner Marketing-Begriff ist, der den Anschein einer Homogenität trotz verschiedenster Technologien erwecken soll. Wenn dem so ist, betrachten wir dann die proprietären Protokolle der Hersteller als “Black Box”, die sich hinsichtlich Effizienz wohl mehr oder minder gleichen?

[I]Physische Implementierung
On-Die-Verbindungen sind hier erst einmal “trivial”. Sie dürften aufgrund der geringen Strukturbreiten und -längen die mit Abstand geringste Latenz und auch den geringsten Energieverbrauch aufweisen. Wie aber verhält es sich mit einem “klassischen” Interposer/Package? Und worin genau liegen die Vorteile “neuer” Interposer-Technologien wie CoWoS (TSMC) und Foveros (Intel)?

Standard
PCI-Express ist nach meinem Kenntnisstand wohl ein gutes Beispiel für einen Standard: Er definiert anscheinend sowohl, Topologie, Protokoll als auch physische Implementierung. Ist eines der genannten Buzzwords ebenfalls dergestalt einzuordnen?

Ich hoffe auf reges Interesse am Thema und signifikanten Wissenszuwachs meinerseits :wink:

More to come… Next Stop: Topologien

CrazyIvan
2020-04-14, 22:13:12
Topologien bedienen meinen Fetisch für Graphentheorie - nicht, dass ich darin besonders gut wäre, ch finde es nur spannend.

Ring
Wie der Name schon sagt, ein Ring halt (https://de.wikipedia.org/wiki/Topologie_(Rechnernetz)#Ring-Topologie).
Meines Wissens ist er bei Intel bidirektional ausgeführt, sodass ein Teilnehmer mit nur einem Hop seine beiden benachbarten Teilnehmer erreichen kann.
Anzahl Verbindungen: n (n = Anzahl Teilnehmer)
Der Ring kommt mit sehr wenigen Verbindungen aus, um alle Teilnehmer mit einander zu verbinden. Je nach Implementierungsform ein großer Kostenvorteil. Noch weniger geht nur mit dem Halb-Ring - siehe unten - ist die Ersparnis aber in meinen Augen nicht wert.
Mittlere Anzahl Hops (AKA Latenz): ca. n/4
Die weiteste Strecke in einem Ring von 12 Teilnehmern (man stelle sich ein Ziffernblatt vor) ist die zur gegenüberliegenden Seite, also 6 Hops. Im Mittel sind es also 3 Hops.

Halb-Ring
Der Halb-Ring ist eigentlich eher eine Gerade - ihm fehlt im Vergleich zum Ring genau ein Glied.
Anzahl Verbindungen: n - 1
Mittlere Anzahl Hops (AKA Latenz): ca. 3*n/8
Die weiteste Strecke in einem Halb-Ring von 12 Teilnehmern ist der eine direkte Nachbar hinter dem fehlenden Glied. Damit hat man im Maximum n - 1 Hops und im Mittel die Hälfte.

Mesh
Als Mesh bezeichnet Intel ein Grid von Halbringen (sieht ungefähr so aus wie das Straßennetz einer typischen US-Stadt).
Siehe https://en.wikichip.org/wiki/intel/mesh_interconnect_architecture
Anzahl Verbindungen:
Der Einfachheit halber nehmen wir ein quadratisches Mesh an. Die Kantenlänge beträgt also i = Wurzel(n). Für jeden Halbring benötigt man i-1 Verbindungen. Und man hat in Summe 2*i Halbringe (also jeweils i horizontal und i vertikal). Ergibt 2*n-Wurzel(n)
Oder einfach gesagt: ca. 2*n
Da das Mesh umso effizienter ist, je quadratischer es ist, hat es erheblichen Einfluss auf das physische Layout der zu verbindenden Teilnehmer (vor allem on-die).
Mittlere Anzahl Hops (AKA Latenz):
Wieder angenommen, wir haben ein quadratisches Mesh. Dann ist die Maximalanzahl 2*i = 2*Wurzel(n) (von links oben nach rechts unten). Ich habe jetzt keine Lust, durchzurechnen oder nachzuschlagen, ob die hier eine Gleichverteilung vorliegt, aber intuitiv dürfte hier Wurzel(n) eine hinreichend genaue Näherung sein.

Zen2-Topologie
Ehrlich gesagt kenne ich die konkrete Topologie nicht und habe auch keine Quelle dafür gefunden. Aus diversen Infos und Latenzdiagrammen wie dem nachfolgenden von Anandtech kann man aus meiner Sicht folgendes schließen:

Da die Latenz zwischen allen Kernen im gleichen CCX gleich ist, kommunizieren diese bestimmt via L3 und sind im engeren Sinne aus der Topologie-Diskussion raus. Einwände zu dieser These?
Es ist bekannt, dass zur CCX-übergreifenden Kommunikation über das IO-Die gegangen wird, auch wenn die Cores auf dem gleichen Die (CCD) liegen.
Die Latenz zwischen zwei Cores auf unterschiedlichen CCD ist länger als die Latenz zwischen zwei Cores auf gleichem CCD, jedoch unterschiedlichen CCX. Das bedeutet für mich, dass im IO-Die ein weiterer Hop anfällt, wenn es nicht zum gleichen CCD zurückgeht.


https://images.anandtech.com/doci/15708/3950x.png


Nachfolgend eine Visualisierung der Topologie, wie ich sie mir vorstelle: https://drive.google.com/file/d/1GQzH3IUhYoSzwA6pRZi8UTi-cdOjmOiA/view?usp=drivesdk

Wir reden also möglicherweise eher von einer n-Stern-Topologie, bei der mittels IO-Die mehrere Sterne verbunden werden können.

Shootout
Für einen hypothetischen Prozessor mit 8 Kernen ergeben sich folgende Aussagen:

Das Mesh hat doppelt so viele Verbindungen wie der Ring, also doppelt so hohe Kosten.
Die mittlere Anzahl Hops im Mesh ist bei nur 8 Kernen 40% höher als bei einem Ring (2,8 vs. 2 Hops)
Die Zen2-Topologie hat nur halb soviele Verbindungen wie das Mesh - benötigt aber als “Spoke” einen neunten Teilnehmer
Die mittlere Anzahl Hops ist bei Zen2-Topologie 2. Also Gleichstand mit dem Ring und ebenfalls 40% weniger als Mesh. Falls es nicht sofort auffällt. Hier ist die Anzahl der Hops immer 2 - egal von welchem Kern zu welchem anderen Kern gesprungen wird. Allerdings habe ich hier bewusst die Hops zwischen zwei Kernen im selben CCX außen vor gelassen.


P.S.
Bei Gelegenheit mache ich mal noch ein Diagramm, welches den Vergleich der Kennzahlen mit der Anzahl Teilnehmer auf der x-Achse aufzeigt.

Der_Korken
2020-04-14, 22:26:52
Wenn du auf verrückte Topologien stehst, solltest du mal in das von Complicated verlinkte Paper (S.21-24) reinschauen: https://www.forum-3dcenter.org/vbulletin/showthread.php?p=12279094#post12279094


Halb-Ring
Der Halb-Ring ist eigentlich eher eine Gerade - ihm fehlt im Vergleich zum Ring genau ein Glied.
Anzahl Verbindungen: n - 1
Mittlere Anzahl Hops (AKA Latenz): ca. n/2
Die weiteste Strecke in einem Halb-Ring von 12 Teilnehmern ist der eine direkte Nachbar hinter dem fehlenden Glied. Damit hat man im Maximum n - 1 Hops und im Mittel die Hälfte.

Ich glaube die ist etwas besser als n/2, weil das die erwartete Latenz der beiden Randknoten ist. Der in der Mitte hat nur n/4. Müsste auf 3n/8 rauskommen (Mittelwert zwischen n/2 und n/4).

Edit: Ich bin auch nicht so sicher, ob die Latenzen zwischen CCX auf dem selben und auf unterschiedlichen Dies wirklich so unterschiedlich sind. Hier zwei Gegenbeispiele:

https://3dnews.ru/990367/obzor-amd-ryzen-9-3900x
https://www.igorslab.de/amd-ryzen-3900x-und-3700x-im-test-igorslab/5/ (keine Tabelle, sondern nur die Aussage im Text, dass beide Latenzen in etwa bei 70ns liegen)

In der Tabelle von Anandtech ist zudem komisch, dass die Latenzen innerhalb von CCX0 (85ns) geringer sind als innerhalb von CCX1 (~105ns).

amdfanuwe
2020-04-15, 00:58:02
Mal sehn, ob ich etwas weiterhelfen kann.






Protokolle
Infinity Fabric verstehe ich am ehesten als Protokoll. Da bei ihm weder Topologie noch physische Implementierung (IF on Die, IF on Package , IF inter Socket [IFIS]) vorgeschrieben ist. Gut denkbar ist für mich aber auch, dass IF nur ein reiner Marketing-Begriff ist, der den Anschein einer Homogenität trotz verschiedenster Technologien erwecken soll. Wenn dem so ist, betrachten wir dann die proprietären Protokolle der Hersteller als “Black Box”, die sich hinsichtlich Effizienz wohl mehr oder minder gleichen?

Ist schon ein Protokoll. Denk mal ans Internet. Dem HTTP Protokoll ist es auch egal, ob es über Glasfaser, Klingeldraht, Ethernetkabel oder WLAN zu dir nach Hause kommt.
Man braucht halt die entsprechenden Sender und Empfänger.
Dementsprechend haben IF on Die, IFOP und IFIS an die jeweiligen Bedingungen angepasste Sender und Empfänger.
Wobei IFIS und zukünftig die GPU Anbindungen über die PCIe Leitungen laufen.
Ich nehme an, dabei wird das PCIe Protokoll in den oberen Schichten durch das IF Protokoll ersetzt.
Man bedenke auch die Aufgabe des IF: Sicherstellung der Speicher Kohärenz zwischen Heterogenen Devices innerhalb eines Systems.

[I]Physische Implementierung
On-Die-Verbindungen sind hier erst einmal “trivial”. Sie dürften aufgrund der geringen Strukturbreiten und -längen die mit Abstand geringste Latenz und auch den geringsten Energieverbrauch aufweisen. Wie aber verhält es sich mit einem “klassischen” Interposer/Package? Und worin genau liegen die Vorteile “neuer” Interposer-Technologien wie CoWoS (TSMC) und Foveros (Intel)?

Fangen wir mit einer herkömmlichen Platine an: Man kann die Leiterbahnen, Layer, Kontaktierungen und Durchkontaktierungen nicht beliebig verkleinern.
Der Package Träger ist im Prinzip auch nur eine Platine.
Interposer ist ein ein großer Siliziumchip bei dem nur ein paar Leitungslayer geätzt werden.
Dadurch können die Leitungen, Kontakte etc. wesentlich kleiner gefertigt werden. Man kann mehr Leitungen mit weniger Energieaufwand betreiben. Deshalb ist für HBM ein Interposer notwendig um die vielen Leitungen und Kontakte handeln zu können. Oder Intels EMIB, der nur so groß ist, dass er die Verbindungen zwischen 2 nebeneinander liegenden Chips aufnimmt.

CoWoS ist im Prinzip auch nur ein Interposer. Jedoch hat TSMC eine Technik um diesen bis zu 1700mm² Größe zu fertigen und spezielle Techniken für die Kontaktierungen und TSVs.

Foveros ist Intels Technik um mehrere Chips zu stapeln.

Alles dient nur dazu um die Leitungen kürzer und somit die Kommunikation schneller und energieeffizienter zu bewerkstelligen.

Bei Billiarden von Bits, die in der Sekunde bewegt werden macht sich jedes bisschen Energieersparnis im Gesamtverbrauch bemerkbar.

Um zukünftig noch mehr Compute Leistung zur Verfügung zu stellen sind neue Technologien notwendig. Deshalb Interposer, EUV, 3D Stapeltechnik und neue Protokolle wie AMD eigenes IF. Eventuell wird das mal abgelöst durch ccix, gen-z oder opencapi. https://www.openfabrics.org/images/eventpresos/2017presentations/213_CCIXGen-Z_BBenton.pdf Die sind aber noch nicht soweit.
AMD arbeitet bei allen 3 Standards mit, Nvidia bei OpenCapi während ich INTEL bei den Member Companies nicht entdecken kann.

ndrs
2020-04-15, 10:31:29
Ring

Hier könnte man noch die Nutzung mehrerer Ringe erwähnen, wie es Intel bei den ersten 12-Kernern gemacht hat.
Hier z.B. beschrieben. (https://www.anandtech.com/show/8423/intel-xeon-e5-version-3-up-to-18-haswell-ep-cores-/4)
Das ganze in den Varianten, dass ein Core Zugang zu zwei Ringen hat oder die Ringe über separate Switches verbunden sind.

Zen2-Topologie

Deine selbsterstellte(?) Visualisierung wird bei mir nicht angezeigt. Das Bild oben drüber sagt mir ohne Beschreibung nichts. Das kann ich nicht einordnen, was die Farben und Zahlen darstellen sollen.
Hubs and Spokes
Man könnte auch Stern schreiben, dann weiß jeder gleich was gemeint ist.
Dazu würde ich auch die CCX-interne Kommunikation über den L3 zählen. Hier ist der Knotenpunkt halt der Cache, die Struktur ist aber gleich.

basix
2020-04-15, 14:32:33
Coole Thread-Idee ;)

Sobald ich Zeit habe, widme ich mich dem Thema ein bisschen.

robbitop
2020-04-15, 14:43:51
Crossbar wurde als Topologie glaube ich noch nicht genannt.

CrazyIvan
2020-04-15, 17:50:59
Deine selbsterstellte(?) Visualisierung wird bei mir nicht angezeigt. Das Bild oben drüber sagt mir ohne Beschreibung nichts. Das kann ich nicht einordnen, was die Farben und Zahlen darstellen sollen.

Dämlicher Murks - "früher" konnte man bei Google Drive gehostete Bilder mal direkt einbetten - anscheinend möchte Google das nicht mehr. Ich passe den Link an.
Das Bild darüber ist eine Latenz-Matrix. Es zeigt auf, welche Latenz bei einem Ping zwischen zwei Kernen bzw. Threads auftritt. Daraus kann man Rückschlüsse auf den Interconnect und die Topologie ziehen Black Box Methode halt.

Opprobrium
2020-04-15, 17:58:40
Dämlicher Murks - "früher" konnte man bei Google Drive gehostete Bilder mal direkt einbetten - anscheinend möchte Google das nicht mehr. Ich passe den Link an.
Das Bild darüber ist eine Latenz-Matrix. Es zeigt auf, welche Latenz bei einem Ping zwischen zwei Kernen bzw. Threads auftritt. Daraus kann man Rückschlüsse auf den Interconnect und die Topologie ziehen Black Box Methode halt.

Ich stelle mir da eigentlich noch je ein IF Link auf dem CCD und den CCX, mit dem die CCX sowohl untereinander als auch mit dem I/O Die kommunizieren.

robbitop
2020-04-15, 18:08:05
Zu deiner Grafik - du ziehst einzelne IF Links zu jedem individuellen Core.

Ich denke, dass es pro CCX einen Link zum I/O gibt und im CCX eine andere, schnellere Topologie verwendet wird (Crossbar, Butterfly, Ring?) - also im Prinzip 2 Topologien miteinander kombiniert sind. Entsprechend kann man die richtigen Stärken dort einsetzen wo sie wichtig sind (wenig Latenz und begrenzte Teilnehmeranzahl und Strecke zwischen den Teilnehmern innerhalb eines CCX und große Skalierbarkeit und große Strecke mit Latenzeinbußen außerhalb der CCX).

Der_Korken
2020-04-15, 20:20:39
Zwei Fragen, die ich mir bei Intercore-Topologien stellen:

1. Macht es einen Unterschied, ob eine Verbindung uni- oder bidirektional ist? Einen Ring bspw. kann man ja in beiden Varianten aufbauen, was sowohl bei der Anzahl Verbindungen als auch bei erwarteter und maximaler Distanz einen großen Unterschied macht.

2. Wenn man unidirektionale Verbindungen gesondert behandelt, ist es außerdem ein Unterschied, ob man die Distanz von A nach B klein haben will oder die Distanz von A nach B und wieder nach A zurück. Der erste Fall würde einer Detektion entsprechen, ob Daten im Cache sind. Da man aber davon ausgehen kann, dass der Cache eine Hitrate von deutlich über 50% hat, ist der zweite Fall eigentlich deutlich relevanter.

Am Beispiel eines Rings (wenn mir jemand sagt, wie man Spalten separiert mach ich die Tabelle schön):

Topologie Verbindungen E(miss) Max(miss) E(hit) Max(hit)
Ring n n/2 n-1 n n
Doppelring 2n ~n/4 n/2 ~n/2 n

CrazyIvan
2020-04-15, 21:28:33
Ich glaube die ist etwas besser als n/2, weil das die erwartete Latenz der beiden Randknoten ist. Der in der Mitte hat nur n/4. Müsste auf 3n/8 rauskommen (Mittelwert zwischen n/2 und n/4).

Du hast absolut recht - da war ich in der Abschätzung zu denkfaul. Deine Funktion ist zwar meines Erachtens auch nur eine Näherung - aber auf jeden Fall eine deutlich bessere. Eine kurze Suche im Netz hat erstaunlicherweise keine konkrete Funktion zutagebefördert.
Fix mal mit 5 Teilnehmern durchgerechnet: Mittlere Anzahl Hops = 2
Korrigiere oben auf Deine Näherung.


Edit: Ich bin auch nicht so sicher, ob die Latenzen zwischen CCX auf dem selben und auf unterschiedlichen Dies wirklich so unterschiedlich sind. Hier zwei Gegenbeispiele:

https://3dnews.ru/990367/obzor-amd-ryzen-9-3900x
https://www.igorslab.de/amd-ryzen-3900x-und-3700x-im-test-igorslab/5/ (keine Tabelle, sondern nur die Aussage im Text, dass beide Latenzen in etwa bei 70ns liegen)

Seltsam. Zumal Anandtechs Review des EPYC 7F52 (gestern erschienen) wieder das gleiche Bild zeichnet:

Thread to Thread in same core: 8 nanoseconds
Core to Core in same CCX: doesn't apply
Core to Core in different CCX on same CPU in same quadrant: ~110 nanoseconds
Core to Core in different CCX on same CPU in different socket quadrant: 130-140 nanoseconds
Core to Core in a different socket: 250-270 nanosecons

https://www.anandtech.com/show/15715/amds-new-epyc-7f52-reviewed-the-f-is-for-frequency/2

Der_Korken
2020-04-15, 21:41:22
Seltsam. Zumal Anandtechs Review des EPYC 7F52 (gestern erschienen) wieder das gleiche Bild zeichnet:

Das ist noch kein Widerspruch:
"Core to Core in different CCX on same CPU in same quadrant" heißt, die CCX lagen im selben Quadranten und ein Quadrant = 2 CCDs. Ob die CCX auf dem selben CCD oder auf unterschiedlichen lagen, wird hier gar nicht differenziert. Da könnte man theoretisch reininterpretieren, dass es innerhalb eines Quadranten keinen Unterschied macht. Und noch weiter könnte man spekulieren, dass sich ein Ryzen in etwa so verhält wie ein Quadrant auf einem Epyc :D.

CrazyIvan
2020-04-15, 22:09:06
Man könnte auch Stern schreiben, dann weiß jeder gleich was gemeint ist.
Dazu würde ich auch die CCX-interne Kommunikation über den L3 zählen. Hier ist der Knotenpunkt halt der Cache, die Struktur ist aber gleich.
Ja, ich ändere das in Stern - ist im Topologie-Kontext der treffendere Begriff.
Die CCX-interne Kommunikation habe ich bzgl. Topologie außen vorgelassen, weil die erforderlichen Verbindungen auch ohne Inter-Core-Kommunikation vorhanden wären. Ihr Primärzweck ist der Zugriff auf den L3 - die Kommunikation zu anderen Kernen eher Recycling. Aber ja, ist ein absoluter Graubereich. Frage ins Plenum: Wie ist das Meinungebild?

CrazyIvan
2020-04-15, 22:12:31
Crossbar wurde als Topologie glaube ich noch nicht genannt.
Jo, hast Du nen schönen Link?

CrazyIvan
2020-04-15, 22:15:02
Ich stelle mir da eigentlich noch je ein IF Link auf dem CCD und den CCX, mit dem die CCX sowohl untereinander als auch mit dem I/O Die kommunizieren.
Die CCX können nicht direkt miteinander kommunizieren - weder auf demselben Die noch auf unterschiedlichen. Jegliche Kommunikation läuft über das IO-Die. Oder habe ich Dich falsch verstanden? Kannsts ja gern mal skizzenhaft in das Schaubild reinmalen.

CrazyIvan
2020-04-15, 22:22:00
Zu deiner Grafik - du ziehst einzelne IF Links zu jedem individuellen Core.

Ich denke, dass es pro CCX einen Link zum I/O gibt und im CCX eine andere, schnellere Topologie verwendet wird (Crossbar, Butterfly, Ring?) - also im Prinzip 2 Topologien miteinander kombiniert sind. Entsprechend kann man die richtigen Stärken dort einsetzen wo sie wichtig sind (wenig Latenz und begrenzte Teilnehmeranzahl und Strecke zwischen den Teilnehmern innerhalb eines CCX und große Skalierbarkeit und große Strecke mit Latenzeinbußen außerhalb der CCX).
Ja, darüber habe ich auch nachgedracht. Die Frage ist für mich, ob so etwas anhand einer anderen Latenzcharakteristik erkennbar sein müsste. Bzw. welche Vorteile das gegenüber direkt nach außen gelegten Verbindungen vor dem Hintergrund hätte, dass man eine gewissen Bandbreite pro Kern (waren es nicht 40 GByte/s oder so?) garantieren will?

ndrs
2020-04-16, 02:09:42
Es sind 42GB/s pro CCX. Siehe wikichip (https://en.wikichip.org/wiki/amd/infinity_fabric). Daraus wird eigentlich auch klar, dass es genau einen IF-Link (IFOP) pro CCX gibt.
Schaut man weiter in den Zen Artikel, findet man dieses Blockschaltbild (https://en.wikichip.org/wiki/File:zen_soc_block.svg). Es zeigt, dass der IF direkt an den L3 des CCX angebunden ist und die Kommunikation aussschließich darüber erfolgt (sofern die Grafik akkurat ist)

robbitop
2020-04-16, 11:35:41
Ja, darüber habe ich auch nachgedracht. Die Frage ist für mich, ob so etwas anhand einer anderen Latenzcharakteristik erkennbar sein müsste. Bzw. welche Vorteile das gegenüber direkt nach außen gelegten Verbindungen vor dem Hintergrund hätte, dass man eine gewissen Bandbreite pro Kern (waren es nicht 40 GByte/s oder so?) garantieren will?
Naja Verdrahtungsaufwand würde sinken.