Diskussion zu: Navi 31 & Navi 32 im Chiplet-Design unter 5/6nm, jedoch nicht vor ... [Archiv]

Leonidas

2021-05-30, 15:08:41

Link zur News:
https://www.3dcenter.org/news/geruechtekueche-navi-31-navi-32-im-chiplet-design-unter-56nm-jedoch-nicht-vor-dem-dritten-quart

Platos

2021-05-30, 15:32:34

Also ist der MCD nur sowas wie ein Last Level Cache oder vermutlich eher sowas wie ein Infinity Fabric für GPUs? Oder wie muss man das verstehen? Oder soll das wirklich nur reiner Cache sein? Hiess es nicht mal, es gibt ein Haupt GPU Chiplet und die anderen sind alle untergeordnete Chiplets?

D.h eine GPU im Multi-Chiplet-Design hat immer mindestens 3 Chiplets?

Also ein Master-Chiplet, ein Slave-Chiplet und dann noch ein MCD Chiplet

BTW. irgendwas stimmt nicht mit dem RDNA3 Launch ganz unten. H1 2021 wird doch niemand je behauptet haben? Das wäre ja in einem Monat zu ende:D

Leonidas

2021-05-30, 16:09:58

Sollte "2022" sein, wird gleich gefixt.

Convertible

2021-05-30, 17:51:43

die angebliche Zeitspanne von Tape-Out im März 2020 bis Release Anfang 2022 für einen Grafikchip vergleichsweise extrem lang wäre.

Für ein monolitsches Design vielleicht. Hier muss man die Chips ja noch mit einander verbinden. Außerdem kann man ja mit dem Design ja auch früher fertig werden, aber erst später Launschen, wenn die Kapazitäten vom Fertiger zur Verfügung stellen. Bei so einem neuen Ansatz wie dem Chiplet-Ansatz bei GPUs würde es sogar Sinn machen, wenn AMD sich hier etwas mehr Puffer lässt, um eventuell noch eine zusätzliche Optmierungsschleifen drehen zu können. Buchen muss man die Kapazitäten ja schon vorher. Wenn man zu wenig Puffer lässt, steht einem der Fertiger im Nacken, der die Fertigung nach Plan hoch fahren will...

AffenJack

2021-05-30, 18:25:12

Bei den Punkten Navi32 zwecklos, wegen der gleichen Shaderanzahl betrachtest du nicht die Speicheranbindung. So könnten die Chipletgpus vll HBM bekommen und Navi33 bleibt bei GDDR6. Z.b. N31, 4 HBM ~1,8Gb/s Bandbreite, N32 2 HBM 920 Gb/s Bandbreite, N33 256Bit GDDR6, 512Gb/s. Um die Lücke zwischen N32 und N33 nicht zu groß werden zu lassen, könnte man N33 ein paar Shader mehr spendieren. Vor allem sind diese in 5nm von der größe nicht gerade groß.

Gast Ritis

2021-05-30, 18:47:50

Wenn es nach wie vor Leapfrog Design-Teams wie bei Zen auch bei RDNA geben soll ist es nicht realistisch, dass noch gar kein Tape Out für ein CU Chiplet erfolgt ist. Ich denke da hat jemand einfach großzügig 18 Monate auf RDNA2 Launch drauf gerechnet und den Rest zusammengereimt.
Wichtiger wäre darauf zu achten was die Führung von AMD sagt, oder aber noch nicht sagt.
Wie ist denn da der Stand im Vergleich zu den letzten beiden Gens?

Piefkee

2021-05-30, 19:53:01

Warum muss Navi 33 unbedingt etwas mit RDNA3 zu tun haben ? Vielleicht ist es einfach ein simpler N21 refresh

maximus_hertus

2021-05-30, 20:48:34

Noch ein Punkt zu Navi 32: da ja nur der Compute Teil in 5nm in dem Chiplet drin sein soll, müsste dieser doch klar kleiner raus kommen im Vergleich zum monolithischen Navi 33 (bei gleicher CU).

Auch eine Möglichkeit: 32 und 33 kommen nicht gleichzeitig, sondern ersetzen sich.

A) Erst 32, um möglichst viele Chips in 5nm zu bekommen. Sobald es genug Fertigungskapazitäten in 5nm gibt, kommt 33 und 32 läuft aus.

B) Umgekehrt: Erstmal sicherer Hafen monolithisches Design und später Ablösung durch 32.

Ob das Sinn macht? Auf den ersten Blick eher nicht, aber noch ist es ja lange hin, wenn man nicht mit einem Launch vor dem Sommer 2022 rechnet.

Oder wie Piefkee schrieb: 33 ist ein Refresh und könnte als Lückenfüller schon im Frühling kommen, bevor dann im Herbst 31 und 32 übernehmen.

Damit hätte man auch die beiden unterschiedlichen Launchdaten erklärt.

amdfanuwe

2021-05-30, 20:55:28

Weil auf der letzten AMD Gaming GPU Roadmap Navi 3x unter RDNA3 steht. Das ganze im "Advanced Node" noch 2022.
Einen Refresh bezweifle ich da mal.
https://www.pcgameshardware.de/screenshots/1280x1024/2021/02/AMD-GPU-Roadmap-pcgh.PNG

edit:
Nach den Patenten haben ist der Speichercontroller auf den Compute Chiplets.
Aber wie steht es mit PCIe Anbindung zur CPU und anderen Einheiten, Media, Video ... die man nur einmal benötigt?
Auf dem Master, der auch als eigenständige GPU verwendbar ist? Oder ist der MCU doch complexer?
Kommt der monolithische N33 in 5nm oder in 6nm und nur die Compute Chiplets in 5nm?
Zuerst Master (N33) und Chiplet Versionen später?
Bleibt spannend bis AMD das Geheimnis lüftet.

Gast

2021-05-30, 21:43:26

Vielleicht unterscheiden sich Navi 31 und 32 eigentlich nur im MCD, nutzen aber das gleiche GCD. Ausserdem kann eines von beiden oder beides bei einem Package auch beschnitten sein. Nehmen wir mal an man wuerde zwei unterschiedliche MCDs fertigen bei dem einer nur die haelfte des Caches hat. In Kombination mit einem um 20CU beschnittener GCD wuerde das definitiv eine eigene Nummer rechtfertigen, eben aufgrund des unterschiedlichen MCDs.

FarCry

2021-05-30, 22:08:19

... jedoch nicht vor dem dritten Quartal 2022

ÄCHZ. Muss ich jetzt wirklich noch 1,5 Jahre mit meiner 580er rumgurken? :(

Gast

2021-05-30, 23:20:22

SI auf 5nm im compute die lohnt nicht wirklich, da es ja bekannterweise schlecht skaliert. Und das si müsste dann 2x 256 bit sein, 128 sollte wahrscheinlich nicht ausreichen. Ausser man würde es zur Vergrößerung des compute dies nehmen, um diesen besser kühlen zu können. Viel mehr Sinn würde der mcu mit cache, pcie, si, video decode/encode und infinity fabric like Anbindung zu dem compute die, der lediglich die Recheneinheiten, l1, l2, womöglich l3 und das if beinhaltet. Dann gibt's keine doppelten Einheiten, die man nicht braucht, im compute die. Vielleicht noch if zwischen den compute dies?
Die Größe der compute dies ist natürlich ein misterium. Vielleicht n31 2x 100-120 cu/compute die, n32 2x80 und n33 monolitisch 1x80?

spotz

2021-05-31, 00:59:03

Ich wundere mich nur ob man wirklich ein extra Die mit der gleichen Anzahl an CUs braucht nur um das drei- oder viermal anzuschliessen. Ist das auch bei AMD Ryzen Prozessoren so?

Als so ne Kombi mit Navi 31 2x60/80 CUs und Navi 32 mit 3x/4x 60/80 CUs. Wenn die Anzahl der CUs gleich ist, kann man dann nicht einfach das gleiche Die nicht nur zweimal, sondern auch dre- oder viermal dazu packen?

Leonidas

2021-05-31, 03:40:58

Bei den Punkten Navi32 zwecklos, wegen der gleichen Shaderanzahl betrachtest du nicht die Speicheranbindung. So könnten die Chipletgpus vll HBM bekommen und Navi33 bleibt bei GDDR6. Z.b. N31, 4 HBM ~1,8Gb/s Bandbreite, N32 2 HBM 920 Gb/s Bandbreite, N33 256Bit GDDR6, 512Gb/s. Um die Lücke zwischen N32 und N33 nicht zu groß werden zu lassen, könnte man N33 ein paar Shader mehr spendieren. Vor allem sind diese in 5nm von der größe nicht gerade groß.

Interessanter Gedankengang, dem ich zustimme. Ich schreibe einen Nachtrag hierzu.

Mr.Smith

2021-05-31, 08:24:17

MCD in 6nm macht auch Sinn, günstig, und gutes Stück kleiner als 7nm und dazu keine Produktionskapazitäten klauen von 5nm.

Wegen der Überschrift war ich erstmal verwirrt, da Navi31/32 in 6nm keinen Sinn gemacht hätte.

Nightspider

2021-05-31, 08:37:57

Für N6 gibt's aber keine Angaben zum Scaling von SRAM oder IO Interface.
Hätte erwartet dass es kaum 5% besser wird als 7nm.

Gast

2021-05-31, 08:54:59

SI auf 5nm im compute die lohnt nicht wirklich, da es ja bekannterweise schlecht skaliert. Und das si müsste dann 2x 256 bit sein, 128 sollte wahrscheinlich nicht ausreichen. Ausser man würde es zur Vergrößerung des compute dies nehmen, um diesen besser kühlen zu können. Viel mehr Sinn würde der mcu mit cache, pcie, si, video decode/encode und infinity fabric like Anbindung zu dem compute die, der lediglich die Recheneinheiten, l1, l2, womöglich l3 und das if beinhaltet.
Sehe ich auch so, sonst hätte man wieder das Problem, dass ein Chiplet nicht auf den Ram eines anderen zugreifen kann. Am Schluss endet man dann wieder bei Crossfire, und da will man ja nicht hin.
Daher sehe ich auch das SI beim LL Cache, Video Einheit und Co. L1 und L2 könnten hingegen auch in den Compute Chiplets sein, um die gut auslasten zu können.
Und eventuell ist ja auch der Unterschied zwischen N31 und N32 im Bereich Raytracing. Vielleicht bietet N31 da deutlich mehr Leistung als N32, vielleicht auch nur durch 3 Chiplets von denen eines dann ganz für RT abgestellt wird.

Mr.Smith

2021-05-31, 09:10:44

Für N6 gibt's aber keine Angaben zum Scaling von SRAM oder IO Interface.
Hätte erwartet dass es kaum 5% besser wird als 7nm.

Es gibt ein generelles Area-Scaling von ~18% 6N vs 7N
Kann natürlich für verschiedene Teile unterschiedlich gut skalieren.

Mr.Smith

2021-05-31, 09:18:07

Für N6 gibt's aber keine Angaben zum Scaling von SRAM oder IO Interface.
Hätte erwartet dass es kaum 5% besser wird als 7nm.

und hä? du willst 7nm Äpfel mit N6 TSMC vergleichen? :freak::confused:

RitterRost

2021-05-31, 09:56:59

Woher kommt dieser Satz?
"They haven't been taped out yet, so the specifications are not known."

Ich finde das nicht im Twitter von diesem vegeta @Broly_X1

Wie geschrieben, steht der Satz ja in direktem Widerspruch zu früheren Leaks.

Edit: das ist anscheinend aus einem früheren Tweet von ihm - vom 8.Mai
https://twitter.com/Broly_X1/status/1390908012886253570

Leonidas

2021-05-31, 11:06:56

Woher kommt dieser Satz?
"They haven't been taped out yet, so the specifications are not known."

Hier (30. Mai):
https://twitter.com/Broly_X1/status/1398932672697626629

Nightspider

2021-05-31, 11:32:01

Ws gibt ein generelles Area-Scaling von ~18% 6N vs 7N

Das gilt aber nur für Logic.

RitterRost

2021-05-31, 12:04:57

Hier (30. Mai):
https://twitter.com/Broly_X1/status/1398932672697626629

Danke.

Die Lösung liegt evtl. hier:
GCD: Graphics Core Die - noch kein tape-out
MCD: Multi Cache Die - tape-out war schon
https://forum.beyond3d.com/threads/amd-rdna-3-speculation-rumours-and-discussion.62092/page-20#post-2206836

Gast

2021-05-31, 14:48:02

Sehe ich auch so, sonst hätte man wieder das Problem, dass ein Chiplet nicht auf den Ram eines anderen zugreifen kann. Am Schluss endet man dann wieder bei Crossfire, und da will man ja nicht hin.
Daher sehe ich auch das SI beim LL Cache, Video Einheit und Co. L1 und L2 könnten hingegen auch in den Compute Chiplets sein, um die gut auslasten zu können.
Und eventuell ist ja auch der Unterschied zwischen N31 und N32 im Bereich Raytracing. Vielleicht bietet N31 da deutlich mehr Leistung als N32, vielleicht auch nur durch 3 Chiplets von denen eines dann ganz für RT abgestellt wird.

Also ich denke auch dies wäre ohne crossfire like Technik möglich Compute die mit SI und IF und dann beide Compute dies mittels IF mit dem MCD verbunden. Wobei das absolut keinen Sinn Für das MCD ergibt, speziell nicht es dann in 6nm fertigen, da es wahrscheinlich extrem klein wäre.

Leonidas

2021-05-31, 16:19:45

Die Lösung liegt evtl. hier:
GCD: Graphics Core Die - noch kein tape-out
MCD: Multi Cache Die - tape-out war schon
https://forum.beyond3d.com/threads/amd-rdna-3-speculation-rumours-and-discussion.62092/page-20#post-2206836

Danke für den Hinweis!

Wo siehst Du aber im Beyond3D-Forum, welcher der beiden Chipslets schon Tape-Out hatte?

RitterRost

2021-05-31, 16:55:17

Danke für den Hinweis!

Wo siehst Du aber im Beyond3D-Forum, welcher der beiden Chipslets schon Tape-Out hatte?

Steht da nicht.
Und, Du hast Recht. Die Aussagen könnten sich auf die Anzahl der CUs (GCD) oder die Art der Speicheranbindung (MCD) beziehen.
80 CUs pro GCD/Chiplet wurde ja schon länger behauptet - dann existiert es also evtl. schon? Was macht AMD mit dem GCD ein Jahr lang ohne das MCD, wo es rauf soll?
Wenn das GCD also nicht nur ungenutzt im Schrank liegt, könnte schon eine Menge Treiber-Arbeit erledigt worden sein. Damit könnten auch MCD tape-out und Veröffentlichung der Grafikkarte zeitlich näher beisammen liegen.

Was würde AMD ein Jahr lang mit dem MCD machen? Den Cache testen? Die Speicheranbindung optimieren? Oder das aufeinander-packen der Chips testen bzw. die Massenproduktion vorbereiten... macht ohne die Chips zum draufpacken ja auch keinen Sinn?

Gast

2021-05-31, 17:23:03

Also ich denke auch dies wäre ohne crossfire like Technik möglich Compute die mit SI und IF und dann beide Compute dies mittels IF mit dem MCD verbunden. Wobei das absolut keinen Sinn Für das MCD ergibt, speziell nicht es dann in 6nm fertigen, da es wahrscheinlich extrem klein wäre.
Und man hätte eine extrem schlechte Latency für solche Zugriffe und damit vermutlich einen extremen Performance Verlust. Auch müsste man den Infinity Cache dann in die Compute dies verschieben, sonst müsste man die Daten vom Speicher über das Compute Die und IF in den MCD schieben. Dann könnte man sich das MCD auch sparen. Insofern macht es nur Sinn, das SI in den MCD zu packen, um darin den IC zu füllen. Von dort kommen die Daten dann in die Compute Dies und werden dort verarbeitet und abschließend vielleicht noch mal im MCP zur Bildausgabe finalisiert und ausgegeben.

Mr.Smith

2021-05-31, 18:50:10

Das gilt aber nur für Logic.

ich geh mal schwer davon aus, dass das irgendwie gemittelt ist, sonst wäre die Aussage mit 18% ja Falsch, und es müsste heißen, "bis zu 18% in Abhängikeit von was"
und ob nicht Logic bei der Fläche exakt gleich bleibt ist auch unklar.

Leonidas

2021-05-31, 19:09:16

Steht da nicht.

Ich wollte nur sichergehen, das ich nix übersehen hab.

Denn natürlich hast Du Recht mit der Annahme, das wenn das MCD früher fertig ist. Wahrscheinlich nichtmal mit besonderem Grund, es ist wohl schlicht einfacher zu designen und fertigzustellen.

Nightspider

2021-05-31, 19:20:41

ich geh mal schwer davon aus, dass das irgendwie gemittelt ist, sonst wäre die Aussage mit 18% ja Falsch, und es müsste heißen, "bis zu 18% in Abhängikeit von was"
und ob nicht Logic bei der Fläche exakt gleich bleibt ist auch unklar.

Ist aber so. N5 ist bei Logik 80-84% dichter und bei SRAM nur 25-30% im Vergleich zu N7.

Die 18% bei N6 gelten für Logik. Mit Glück sind es bei SRAM schon 10 oder im Extremfall 15% aber ich finde keine offiziellen Aussagen dazu.

Deswegen schrumpfen die CPU Kerne auch nur noch so langsam. Der Großteil der CPU Kerne besteht aus Cache und damit aus vers. SRAM Arten.

iamthebear

2021-06-01, 02:12:11

Eine Möglichkeit wäre schon die 80/160/240 Aufteilung nur dass die Größe bzw. Performance einer CU etwas niedriger ausfällt. Das könnte dann ca. so aussehen:

Monolitisch 1x80 => Performance einer 6800 mit 60 CU, Preis einer einer 6700 XT

Chiplet 2x80 => Performance von 1.5x 6900 XT mit gesamt 120CU, selber Energiebedarf dank 5nm, Preis einer 6900 XT

Chiplet 3x80 => Performance von 2x 6900 XT mit gesamt 180 CU aber niedriger getaktet wegen Verlustleistung, Preis um die 2K+

Dazwischen kann es noch diverse Salvage Lösungen geben. Bis runter zu 60 CU/Chip macht alles irgendwie Sinn.

Was ich nicht glaube ist dass der angepriesene Wunderchip mit 3 facher Performance bei selbem Preis und Verlustleistung wie die 6800 XT kommt.

Dafür sieht es gar nicht so schlecht um die Realisierbarkeit eines DLSS Konkurrenten ohne Tensor Cores aus. Das ist zwar nicht die versprochene AMD Lösung allerdings hat AMD mitgewirkt:
https://www.reddit.com/r/hardware/comments/nozuvo/testing_unreal_engine_5_temporal_super_resolution/

Gast

2021-06-01, 06:43:28

Und man hätte eine extrem schlechte Latency für solche Zugriffe und damit vermutlich einen extremen Performance Verlust. Auch müsste man den Infinity Cache dann in die Compute dies verschieben, sonst müsste man die Daten vom Speicher über das Compute Die und IF in den MCD schieben. Dann könnte man sich das MCD auch sparen. Insofern macht es nur Sinn, das SI in den MCD zu packen, um darin den IC zu füllen. Von dort kommen die Daten dann in die Compute Dies und werden dort verarbeitet und abschließend vielleicht noch mal im MCP zur Bildausgabe finalisiert und ausgegeben.
Sehe ich auch so. Ich sagte nur, dass es theoretisch auch anders gehen würde. Macht jedoch keinen Sinn.

Gast

2021-06-01, 06:45:46

Eine Möglichkeit wäre schon die 80/160/240 Aufteilung nur dass die Größe bzw. Performance einer CU etwas niedriger ausfällt. Das könnte dann ca. so aussehen:

Monolitisch 1x80 => Performance einer 6800 mit 60 CU, Preis einer einer 6700 XT

Chiplet 2x80 => Performance von 1.5x 6900 XT mit gesamt 120CU, selber Energiebedarf dank 5nm, Preis einer 6900 XT

Chiplet 3x80 => Performance von 2x 6900 XT mit gesamt 180 CU aber niedriger getaktet wegen Verlustleistung, Preis um die 2K+

Dazwischen kann es noch diverse Salvage Lösungen geben. Bis runter zu 60 CU/Chip macht alles irgendwie Sinn.

Was ich nicht glaube ist dass der angepriesene Wunderchip mit 3 facher Performance bei selbem Preis und Verlustleistung wie die 6800 XT kommt.

Dafür sieht es gar nicht so schlecht um die Realisierbarkeit eines DLSS Konkurrenten ohne Tensor Cores aus. Das ist zwar nicht die versprochene AMD Lösung allerdings hat AMD mitgewirkt:
https://www.reddit.com/r/hardware/comments/nozuvo/testing_unreal_engine_5_temporal_super_resolution/

80 cu Navi 3x monolitisch langsamer als 80cu Navi2x? Das macht keinen Sinn.

konkretor

2021-06-01, 07:38:11

NV legt aber auch gerade nach beim Thema MCM

https://arxiv.org/pdf/2104.02188.pdf

https://twitter.com/Underfox3/status/1399593110984921088?s=20