AMD/ATI - RDNA5 bzw. UDNA1 (Navi 5X, Radeon RX 10000 Serie, MCM, 2026) [Archiv]

Leonidas

2023-10-01, 08:13:21

Eigentlich gibt es zu RDNA5 noch gar nicht viel zu berichten. Allerdings bringt die weitgehende Streichung der RDNA4-Chips jenes nachfolgende GPU-Projekt nunmehr stärker in den Blickwinkel. Wird AMD mittels RDNA5 wieder angreifen können?

3DCenter News-Index zu RDNA5:
https://www.3dcenter.org/news/amd-rdna5

Leonidas

2023-10-01, 08:26:47

Wichtigste Meldung zu RDNA5 derzeit kommt von RedGamingTech:
https://www.3dcenter.org/news/news-des-9-august-2023
RDNA 5 is now the multi compute die (originally it was RDNA 4, but issues scuppered things)
Earliest launch of RDNA 5 is Q4 2025, but that is optimistic. Min of 6 quarters after RDNA 4 debut.

horn 12

2023-10-01, 09:49:31

Dann müsste RDNA4 Bis spätestens Juni 2024 releast werden.

reaperrr

2023-10-01, 22:10:33

Dann müsste RDNA4 Bis spätestens Juni 2024 releast werden.
Ob jetzt ein Juli'24-Release von RDNA4-Midrange einen Dezember '25-Release von RDNA5-HighEnd kategorisch ausschließt, sei mal dahingestellt.

Aber grundsätzlich müsste das bedeuten, dass AMD den Release der beiden RDNA4-Midrange/Mainstream Chips für Mitte 2024 anpeilt, ja.

HOT

2023-10-02, 07:52:21

Die Dinger hatten vor Wochen Tape Out. Juni ist ein guter Termin.
Und RDNA5 wird jetzt eh eher RDNA 4.5 werden. Die Struktur wird gleich bleiben wie bei N4x, die Komponenten neuer.
Ich hatte ja eh den Verdacht, dass rt wieder zu kurz gekommen wäre, das wird sich jetzt sicherlich ändern.

AffenJack

2023-10-02, 09:25:35

Wichtigste Meldung zu RDNA5 derzeit kommt von RedGamingTech:
https://www.3dcenter.org/news/news-des-9-august-2023

Also, obwohl alle jetzt eine Fokussierung auf AI sehen, denkt sich AMD, ach nee, wir setzen unsere Ressourcen jetzt mit Fokus auf GPUs ein und lassen AI links liegen? Denn nur dann könnte man RDNA5 so vorverschieben, außer wenn RDNA5 praktisch nur RDNA4+ wird und man nur 2 Chips bringt. Das Canceln von den großen RDNA4 Chips hilft da nämlich nicht, da in einer völlig anderen Designstage.

Sind für mich die üblichen Meldungen, wie schon bei RDNA3, was auch viel früher releasen sollte gemäß "Leaks" der üblichen Verdächtigen. Am Ende sehen wir sowieso einen Mitte-Ende 2026 Release mit üblicher Kadenz.

reaperrr

2023-10-02, 14:31:36

Also, obwohl alle jetzt eine Fokussierung auf AI sehen, denkt sich AMD, ach nee, wir setzen unsere Ressourcen jetzt mit Fokus auf GPUs ein und lassen AI links liegen? Denn nur dann könnte man RDNA5 so vorverschieben, außer wenn RDNA5 praktisch nur RDNA4+ wird und man nur 2 Chips bringt. Das Canceln von den großen RDNA4 Chips hilft da nämlich nicht, da in einer völlig anderen Designstage.

Sind für mich die üblichen Meldungen, wie schon bei RDNA3, was auch viel früher releasen sollte gemäß "Leaks" der üblichen Verdächtigen. Am Ende sehen wir sowieso einen Mitte-Ende 2026 Release mit üblicher Kadenz.
Warum vorverschieben? Wer sagt, dass RDNA5 für später geplant war?

Und natürlich hilft das. Wenn du Ingenieure, die bisher noch verzweifelt versucht haben die großen RDNA4 zu retten, jetzt stattdessen auf die (noch lange) ToDo-Liste von RDNA5 ansetzt, dann bringt das schon was. Ist nicht so, dass jeder Ingenieur bei denen nur eine bestimmte Sache kann und in allen anderen Stages unbrauchbar ist.

RDNA4 - bzw. die gecancelten großen Chiplet-RDNA4 - waren wegen Problemen bereits spät dran, wie schon RDNA3.
Man arbeitet bei AMD mit mindestens 2 Teams parallel, während ein Team bereits mit der Fertigstellung von RDNA4 beschäftigt war, arbeitete das nächste schon längst an RDNA5.
Wenn sich RDNA4 verspätet, RDNA5 aber nicht, kommt es halt zu einer ähnlichen Situation wie bei RDNA1->RDNA2, wo zwischen zwei Gens nur 15-18 Monate liegen.
Versteh nicht, was daran so unglaubwürdig sein soll.

Und dass sie AI deswegen links liegen lassen ist auch nicht gesagt, bloß das ist kurzfristig eher Thema für die MI-Reihe, und wir wissen nicht, wieviele Mitarbeiter darauf angesetzt sind. Vielleicht sind auch ein paar der von RDNA4 abgezogenen Ingenieure zum MI-Team gewechselt, ist nicht ausgeschlossen. Wobei ich schon denke, dass zwischen den Teams bei Themen wie AI eh ein Austausch herrscht.

HOT

2023-10-02, 14:50:33

Das ist reine Spekulation. Bisher ist die einzige bisher belastbare Aussage, dass AMD N3 für andere Produkte benötigt und daher RDNA4 gecancelt wurde. Die brauchen sämltliche N3-Fertigung für MI und Zen5c. Alles weitere ist N4, sogar 2025er APUs wie Kracken Point..

basix

2023-10-02, 17:29:59

Sehe gar nicht so ein Problem mit N4. N3 gibt vor allem bessere Density.

Nvidia zeigt, was man mit N4 machen kann. AMD schafft vielleicht mehr als das ;)

ryan

2023-10-03, 01:59:43

Wichtigste Meldung zu RDNA5 derzeit kommt von RedGamingTech:
https://www.3dcenter.org/news/news-des-9-august-2023

Lag der eigentlich schonmal richtig? Ich kann mir nur an falsche Vorhersagen von ihm erinnern. Seine frühestens Q4 2025 Aussage ist auch wieder clever, dazu braucht es keine Insider Infos. Vor Q4 2025 kann man praktisch ausschließen und bei allem danach liegt er nicht falsch.

Seine bescheidenen Schlagwörter in den Video Überschriften sind auch köstlich.

HISTORIC Performance Gains
IS INSANE
Nvidia's MONSTER
A Budget Gaming MONSTER
ABSURDLY Powerful
Huge Leap
DESTROY Everything
KILLS Budget GPUs
Perf Are MONSTROUS
Will Absolutely DESTROY Everything
ABSOLUTE MONSTER
CRAZY FAST

MLID liegt wenigstens manchmal richtig oder shared manchmal wirklich Insider Folien wie zuletzt für Zen 5 und Zen 6. RedGamingTech dagegen sieht nach einem reinen Hype channel aus. Umso mehr Hype er generieren kann mit interessanten Vorhersagen und Hype Titeln, desto mehr clicks kann er generieren.

Linmoum

2023-10-03, 04:15:21

Clicks generiert hier vor allem MLID und spielt immer die beleidigte Leberwurst, wenn er falsch lag und Leute ihm das vorhalten. Ein Adored war genauso. Leaker, die sich angegriffen fühlen, weil sie falsche Infos verbreitet haben (wie es jeder bei gefühlten 25438 Gerüchten eben tut), sind dann irgendwann an einem Punkt, wo sie von vielen Leuten aufgrund ihrer Art nicht mehr ernst genommen werden.

RGT hat nachweislich seine Quellen und das definitiv auch in irgendeiner Form bei AMD. Die (finale) RDNA3-Config mit nur einem GCD kam zuerst von ihm, 2020 hat er als erstes exklusiv vom IF$ bei RDNA2 berichtet. Etwas, was damals niemand glauben wollte/konnte, bis sich dann immer mehr herausgestellt hat, dass das wahr ist.

Am Ende des Tages liegt kein Leaker immer richtig. Wie auch? Ein Kopite hat genauso genug Zeugs dabei, was dann am Ende nicht so kommt. Das sind trotzdem Leute, die zu den glaubwürdigen Quellen in der Gerüchteküche zählen, weil sie eben nachweislich welche haben.

reaperrr

2023-10-03, 04:21:19

Das ist reine Spekulation. Bisher ist die einzige bisher belastbare Aussage, dass AMD N3 für andere Produkte benötigt und daher RDNA4 gecancelt wurde. Die brauchen sämltliche N3-Fertigung für MI und Zen5c. Alles weitere ist N4, sogar 2025er APUs wie Kracken Point..
Äh, nein, eigentlich nicht, die Aussage wäre mir neu.
Es hieß eher, dass es um die zu knappen Packaging/CoWoS-Kapazitäten ging und man hier MI300+400 sowie CPUs wegen der hohen Nachfrage nach KI-Beschleunigung und Server-CPUs priorisiert.
Was nicht heißt, dass die N3-Kapazitäten keine Rolle gespielt haben, nur war das meines Wissens nicht die Aussage der entsprechenden Gerüchteküchen.

Dass die Mainstream-RDNA4 in N4(P) kommen, wird in erster Linie Time-to-Market, Kosten- und Yield-Gründe haben (wobei man natürlich gern mitnimmt, mehr N3E-Wafer für Epyc und die nächsten MI zu haben).

N3E macht wegen der höheren Wafer-Preise und nur mäßig besseren elektrischen Eigenschaften ohnehin hauptsächlich für Produkte Sinn, wo man zwingend den Flächen-Shrink braucht, um sie platzmäßig überhaupt umsetzen zu können (was hauptsächlich für die großen Epycs, MIx00 usw. gilt).

Die Mainstream-RDNA4 wären in N3E sowieso kaum schneller, weil der elektrische Vorteil von N3E ggü. N4P so gering ist, dass kaum höhere Taktraten möglich wären, da die Abwärme je mm² in N3E eher steigen würde (Logik-Transistordichte steigt viel deutlicher als deren Effizienz).
Die stagnierende SRAM-Dichte tut wegen IF$, L2, wachsenden L0 und L1 sowie Registern dann ihr übriges, dass sich 3nm für Desktop-GPUs erst ab N3P wieder halbwegs lohnen, wenn Performance und Packdichte sich ggü. N3E nochmal etwas verbessern.

Bei Nvidia mag der Fall wegen der HighEnd-GPUs anders gelagert sein, aber dann auch dort eher wegen Packdichte als elektrischen Vorteilen.

horn 12

2023-10-03, 06:20:25

Wie schnell werden die Midrange laut dir dann im Sommer 2024
Erreichen maximal 7900XT oder gar die XTX ?

HOT

2023-10-03, 09:17:23

Äh, nein, eigentlich nicht, die Aussage wäre mir neu.
Es hieß eher, dass es um die zu knappen Packaging/CoWoS-Kapazitäten ging und man hier MI300+400 sowie CPUs wegen der hohen Nachfrage nach KI-Beschleunigung und Server-CPUs priorisiert.
Was nicht heißt, dass die N3-Kapazitäten keine Rolle gespielt haben, nur war das meines Wissens nicht die Aussage der entsprechenden Gerüchteküchen.

Dass die Mainstream-RDNA4 in N4(P) kommen, wird in erster Linie Time-to-Market, Kosten- und Yield-Gründe haben (wobei man natürlich gern mitnimmt, mehr N3E-Wafer für Epyc und die nächsten MI zu haben).

N3E macht wegen der höheren Wafer-Preise und nur mäßig besseren elektrischen Eigenschaften ohnehin hauptsächlich für Produkte Sinn, wo man zwingend den Flächen-Shrink braucht, um sie platzmäßig überhaupt umsetzen zu können (was hauptsächlich für die großen Epycs, MIx00 usw. gilt).

Die Mainstream-RDNA4 wären in N3E sowieso kaum schneller, weil der elektrische Vorteil von N3E ggü. N4P so gering ist, dass kaum höhere Taktraten möglich wären, da die Abwärme je mm² in N3E eher steigen würde (Logik-Transistordichte steigt viel deutlicher als deren Effizienz).
Die stagnierende SRAM-Dichte tut wegen IF$, L2, wachsenden L0 und L1 sowie Registern dann ihr übriges, dass sich 3nm für Desktop-GPUs erst ab N3P wieder halbwegs lohnen, wenn Performance und Packdichte sich ggü. N3E nochmal etwas verbessern.

Bei Nvidia mag der Fall wegen der HighEnd-GPUs anders gelagert sein, aber dann auch dort eher wegen Packdichte als elektrischen Vorteilen.

NV wird GB2xx auch nicht in N3 bringen, aus dem gleichen Grund. Es ist immer die knappste Ressource die N3-Fertigung, das ist für AMD wie für NV so. Klar, das Packaging verzögert sich in der Masse auch für AMD entsprechend, wenn man viel MI braucht. Noch ein Grund mehr - Navi4x ist im Grunde nur verschoben, die Entwicklung der Chiplets und es wird einen neuen Namen geben.

ryan

2023-10-03, 13:23:46

RGT hat nachweislich seine Quellen und das definitiv auch in irgendeiner Form bei AMD. Die (finale) RDNA3-Config mit nur einem GCD kam zuerst von ihm, 2020 hat er als erstes exklusiv vom IF$ bei RDNA2 berichtet. Etwas, was damals niemand glauben wollte/konnte, bis sich dann immer mehr herausgestellt hat, dass das wahr ist.

Das macht ihn also zu einem zuverlässigen leaker, sehr gut. Müsste es nicht MLID dann nicht zu einem besonders zuverlässigen Leaker machen?

Am Ende des Tages liegt kein Leaker immer richtig. Wie auch? Ein Kopite hat genauso genug Zeugs dabei, was dann am Ende nicht so kommt. Das sind trotzdem Leute, die zu den glaubwürdigen Quellen in der Gerüchteküche zählen, weil sie eben nachweislich welche haben.

Das erwartet keiner. Es kommt darauf an, wie seriös jemand auftritt, wie oft jemand richtig oder falsch liegt. RGT ist mir sehr negativ aufgefallen, alleine die reißerischen Titel wirken unseriös. Ich habe mir jetzt mal den schon älteren Leak Tracker angesehen, in dem RGT mit am schlechtesten abschneidet, wobei es eine große Dunkelziffer an unverified claims bei ihm gibt und die nicht mitzählen, von 106 claims sind es letztlich nur 25 verifizierte Treffer. Bei so vielen claims kann auch mal ein Zufallstreffer dabei sein. Auch MLID hat ein weit besseres Verhältnis zwischen verifizierten Treffern und Gesamt claims, bei AMD etwa 50% und bei Intel eher 60-70%. RGT liegt mit 25% weit darunter.

w0mbat

2023-10-03, 15:48:12

Gibt einfach keine guten Tech Kanäle in der 3DC Nische.

reaperrr

2023-10-03, 16:01:47

Navi4x ist im Grunde nur verschoben, die Entwicklung der Chiplets und es wird einen neuen Namen geben.
Äh... nö, eher nicht.

RDNA5 wird so umgesetzt, wie es schon vor N4x geplant war, nur dass die von N4x abgezogenen Ingenieure dabei helfen sollen, dass wenigstens RDNA5 pünktlich kommt und man Probleme rechtzeitig bis zum geplanten Launch-Zeitraum lösen kann.

Da wurde nix verschoben, die Chiplet-RDNA4 werden schlicht ausgelassen, um sich auf die Chiplet-RDNA5 konzentrieren zu können und den Worst-Case zu vermeiden, dass das Fixen von N41/42 zu einem weiteren N31-artigen "zu wenig und zu spät" geführt und zusätzlich auch noch RDNA5 verzögert hätte.

HOT

2023-10-03, 16:44:02

RDNA5 ist jetzt mehr ein RDNA4.5.

reaperrr

2023-10-04, 19:55:06

RDNA5 ist jetzt mehr ein RDNA4.5.
XD

Davon, dass du es wiederholst, wird es nicht richtiger...

Nochmal, die einzige Änderung ist, dass man Chiplet-RDNA4 gecancelt hat, um die Ingenieure darauf ansetzen zu können, RDNA5 in geplanter Form schneller umsetzen zu können, damit wenigstens der mal gut und pünktlich wird.

horn 12

2023-10-04, 20:40:42

Nun, alle tun so als ob Projekt RDNA 3 so extrem schlecht ist.
Ist nicht Perfekt und die Effizienzbombe geworden aber trotzdem gut Genug um Paroli zu bieten mit der 4080 und auch mal mit RTX 4090

HOT

2023-10-04, 22:11:45

XD

Davon, dass du es wiederholst, wird es nicht richtiger...

Nochmal, die einzige Änderung ist, dass man Chiplet-RDNA4 gecancelt hat, um die Ingenieure darauf ansetzen zu können, RDNA5 in geplanter Form schneller umsetzen zu können, damit wenigstens der mal gut und pünktlich wird.

Ist halt ein Dilemma. Ich gehe davon aus, dass AMD Chiplet-RDNA4 nur um ein Jahr verschoben hat und die Chiplets um RDNA5-Technik einfach erweitern wird. Bisher gab es ja eh kein fertiges Silizium, die Entwicklung geht halt weiter ;). Warum sollte man die Entwicklungsarebeit, die man bisher da hineingesteckt hat, einfach wegschmeißen? Das ergibt keinen Sinn.

reaperrr

2023-10-05, 01:46:13

Ist halt ein Dilemma. Ich gehe davon aus, dass AMD Chiplet-RDNA4 nur um ein Jahr verschoben hat und die Chiplets um RDNA5-Technik einfach erweitern wird.
Was für einen Sinn soll das machen?

Wozu einen halbgaren Frankenstein erschaffen, wenn man die Ingenieure nutzen kann, um nur ein halbes Jahr später gleich was richtig neues, noch besseres rausbringen zu können?

Für RDNA5 wird man eh andere (höhere) Spezifikationen anpeilen, die RDNA4-Chiplet-Designs sind dann weitgehend wertlos, weil schon N52 wahrscheinlich ca. N41-Raster-Perf, aber mit besserem RT und weniger Verbrauch bieten wird.

Bisher gab es ja eh kein fertiges Silizium, die Entwicklung geht halt weiter ;).
Nein, tut sie eben nicht, jedenfalls nicht für konkrete RDNA4-Chiplet-Designs und auch keinen RDNA4.5-Hybrid, wie du ihn dir vorstellst.
Und bevor jetzt kommt, "gibt es dazu Beweise, Aussagen o.ä.", nö, genauso wenig wie für deine "Entwicklung geht weiter"-Theorie ;)
RDNA4 und RDNA5 sind/waren unterschiedliche Teams, auch wenn das Team, das an der nächsten Gen sitzt, die Verbesserungen der vorherigen natürlich übernimmt, soweit es Sinn macht.

Warum sollte man die Entwicklungsarebeit, die man bisher da hineingesteckt hat, einfach wegschmeißen? Das ergibt keinen Sinn.
Natürlich ergibt das Sinn, wenn das aktuelle Design noch so viele Probleme hat, dass noch nicht absehbar ist, wieviel Zeit und Geld man in das Ausmerzen aller ernsthaften Probleme stecken müsste, nur um dann wieder spät dran und noch dazu gegen Blackwell trotzdem chancenlos zu sein und die konkurrenzfähigere RDNA5-uArch dadurch auch noch verschieben musste.

Übrigens:
"Weggeschmissen" werden selbst fast fertige (oder gelegentlich sogar fertige) Designs in der GPU-Entwicklung immer mal wieder. Heißt nicht, dass das was man aus den Designs gelernt hat oder einzelne Baublöcke nicht weiter von Nutzen sind.
Aber "Wegschmeißen" von Designs, die nicht wie geplant funktionieren, oder die nicht in ein geändertes Marktumfeld passen, ist Gang und Gäbe.

HOT

2023-10-05, 08:50:42

Du gehst von völlig anderen Annahmen aus als ich, daher ist das auch so absurd, dass wir darüber diskutieren. Ich denke nämlich keineswegs, dass das Design Probleme hatte, sondern, dass man ein wenig mehr Zeit für die Optimierung gebraucht hätte. Wenn man diese Grundannahme mal weglässt, dass alles so furchtbar war mit dem Chiplet-RDNA, ergibt es keinerlei Sinn ein Design, das funktioniert, wegzuschmeißen. Vor allem, wie sich bereits andeutete, wenn man weiß, wo die Probleme lagen, da AMD ja offenbar erst jetzt RT wirklich ernst nimmt. Dann wäre auch Chiplet RDNA4 sehr sicher nicht konkurrenzfähig gewesen bei RT, das kann man jetzt verändern mit der Verschiebung.

Das Ding ist aus meiner Sicht sehr sicher nicht wegen Problemen sondern aus rein wirtschaftlichen Gründen gecancelt worden. Man wird das Projekt wieder aufnehmen, wenn man entsprechend RDNA weiterentwickelt hat, um RT vernünftig zu beherrschen. Das heißt natürlich nicht, dass das Ding dann 1:1 kommt, man wird die Erfahrungen aus MI300 und der Entwicklung von MI400 da schon einfließen lassen.
Und man darf das auch nicht mißverstehen, wenn ich RDNA4.5 schreibe, meine ich natürlich nicht wörtlich RDNA4.5, sondern, dass, um das Projekt zu beschleunigen, die Chiplet-Technik, die für die RDNA4-Generation entwickelt wurde, weiterverwendet wird. Nur die Compute-Chiplets an sich dürften sehr große Änderungen zu RDNA4 erfahren. Sieh es ein bisschen wie Zen5, der jetzt neue RDNA5 macht mehr intern, weniger an Topopogie und Infrastruktur. Die ist ja schon größtenteils für RDNA4 und MIxxx entwickelt worden. Ein RDNA5, der Ende 2025 erscheint, sieht natürlich anders aus, als ein RDNA5, der erst Ende 26 oder besser in 27 erschienen wäre, wenn es Chiplet-RDNA4 gegeben hätte.

basix

2023-10-05, 09:18:11

RDNA4 mit Chiplets hat den Nachteil, dass die Packaging Fabs einfach voll sind. Diese Kapazitäten verwendet man lieber für MI300/400. Und gerade dieser Sektor boomt enorm. Aus dieser Sicht also sicher ein marktwirtschaftlicher Entscheid. Und mMn der doppelt richtige, wenn damit zusätzlich RDNA4 "monolithisch" + RDNA5 in der Entwicklung beschleunigt werden können.

Beispiel:
- RDNA4 GPUs kommen in H1/2024 raus. Deutlich vor Blackwell (3-6 Monate)
- Die schnellere GPU ist in etwa so schnell wie eine 7900XTX/4080. Damit kann man >95% des GPU-Marktes adressieren
- Bei ca. 200W und 16/18 GByte VRAM wäre auch für 4K & RT genug Performance sowie Speicher da (~4080 Niveau?)
- Für ~600-650$ würde P/L schonmal gut steigen (vs. RDNA3 und Lovelace) und AMD würde gleichzeitig wohl mehr als bei N31 & N32 verdienen
- Diese Preisklasse wäre für viele noch erschwinglich

Kann AMD also früh, mit guter Effizienz & Performance sowie gutem P/L liefern, wäre das mMn mehr Wert als einen RDNA4 Top Dog zu liefern. Bringt AMD mehr, bringt mehr Spielern was.

Im Idealfall wäre RDNA4 mit N43 ein leichtes Stück schneller als die 4090 (für kurze Zeit die schnellste GPU am Markt), das ist aber wohl etwas zu viel des Guten ;)

HOT

2023-10-05, 09:47:52

Mit 60-64CUs denke ich wird man zwsichen 7900XT und XTX rauskommen mit N48. RT mehr Leistung, da Hardware bhv, aber trotzdem deutlich weniger als AD103; Raster in FHD und QHD konkurrenzfähig, in UHD fehlt Bandbreite. Wenn man das Ding 8700XT nennen würde passt das mMn gut zu BW.

amdfanuwe

2023-10-05, 09:55:29

Mit 60-64CUs denke ich wird man zwsichen 7900XT und XTX rauskommen mit N48.
7900XT hat 82CU. Ich denke nicht, dass N48 mit 64CU das erreicht.

HOT

2023-10-05, 09:58:09

Mit RDNA4-CUs >3GHz, doch das klappt.

amdfanuwe

2023-10-05, 12:22:01

Wieviel schneller sollte RDNA3 gegenüber RDNA2 damals sein? Und was ist dabei rausgekommen?
Ich schraub da die Erwartungen mal lieber nicht zu hoch.

maximus_hertus

2023-10-05, 12:45:24

- RDNA4 GPUs kommen in H1/2024 raus. Deutlich vor Blackwell (3-6 Monate)
- Die schnellere GPU ist in etwa so schnell wie eine 7900XTX/4080. Damit kann man >95% des GPU-Marktes adressieren
- Bei ca. 200W und 16/18 GByte VRAM wäre auch für 4K & RT genug Performance sowie Speicher da (~4080 Niveau?)
- Für ~600-650$ würde P/L schonmal gut steigen (vs. RDNA3 und Lovelace) und AMD würde gleichzeitig wohl mehr als bei N31 & N32 verdienen
- Diese Preisklasse wäre für viele noch erschwinglich

- Blackwell soll doch erst 2025 starten, ergo wären 3-6 Monate vor Blackwell dann Herbst - Frühwinter 2024. Was imo auch realistischer wäre. H1 wäre zu früh bzw. man will sicher erstmal N32 verkaufen / abverkaufen.
- Mit den kolportierten 64 CUs sehe ich nicht, wie man die 7900 XTX erreichen soll. Imo könnte man eher 20-30% auf die 7800XT drauf legen. Ergo wäre man dann knapp unterhalb der 7900 XT bzw. mit RT dann ggf. vorne.
- 200W halte ich für unwahrscheinlich, da man mit den 64 CUs sicher beim Takt recht weit nach oben muss, ergo nicht im Sweetspot laufen wird.
- 699 USD / aktuell rund 750-770 Euro als MSRP / UVP für eine 8800XT auf knapp 7900Xt Niveau würde ich für realistisch erachten
- N48 Salvage dann etwas schneller als die 7800XT bei dann 200W, deutliche RT Vorteile und entweder die gleichen 499 USD MSRP oder ggf. 549 USD. Also 550 - 600 Euro UVP (8700 XT).
- N44 Full dann Raster ca. 6700XT Performance bei 150-160W, RT sogar mehr. Raster dann knapp unter der 4060 Ti, RT auf Niveau der 4060. Preislich 299-349 USD, ergo 330-380 Euro UVP (8600 XT).
- N44 Salvage, etwas schneller als die 7600, max 130W, 249 USD bzw. 270-280 Euro UVP (8600)

Ergo: N48 Full konkurriert mit der 4070 Ti, Salvage mit der 4070. N44 mit der 4060 (Ti). Die RT Schwäche wird man wohl einigermaßen aufholen (nicht komplett) und einen Vorteil bei Raster haben.

Alles ganz nett, aber keine Revolution. nV würde dann ggf. einzelne Modelle im Preis (inoffiziell) senken und gut ist, wenn überhaupt.

HOT

2023-10-05, 13:13:30

Wieviel schneller sollte RDNA3 gegenüber RDNA2 damals sein? Und was ist dabei rausgekommen?
Ich schraub da die Erwartungen mal lieber nicht zu hoch.
Das hat nichts mit hochgeschraubten Erwartungen zu tun, sondern, was AMD plant. Es ist ja offensichtlich, dass man N31 mit N48 ersetzen möchte und N32 mit N44. Die Kosten müssen halt runter, dafür der ganze Stunt. Und N48 wird eben auch nicht als UHD-Produkt vermarktet sondern als Enthusiastenklasse nach AMDs Definition, was QHD-Spieler ist. XTX-Leistung wird man mMn nicht ganz knacken, eher XT-Raster und >XTX bei RT, aber irgendwo deutlich unter der 4080 bei heavyRT-Loads.

Statt
N31
N32
N22
N33
N24

wird das Lineup dann

N48
N44
N33
N24

sein. Alle anderen gehen EOL.

amdfanuwe

2023-10-05, 14:50:15

Das hat nichts mit hochgeschraubten Erwartungen zu tun, sondern, was AMD plant. Es ist ja offensichtlich, dass man N31 mit N48 ersetzen möchte und N32 mit N44.
Wenn hier einer wüsste was AMD plant, müssten wir uns nicht mit ein paar Gerüchten zufriedengeben.
Und offensichtlich scheint mir eher, dass N32 60CU mit N48 64CU und N33 16CU mit N44 20CU jeweils einen stärkeren Nachfolger bekommen, sofern dieses Gerücht sich nicht nur als Luftblase entpuppt.
https://www.3dcenter.org/news/news-des-28-september-2023

Edit:
Wobei ich mir eigentlich nicht vorstellen kann, dass AMD nur max.12 GB bei einer 8800 verbaut.

AffenJack

2023-10-05, 18:15:27

Warum vorverschieben? Wer sagt, dass RDNA5 für später geplant war?

Es ist ein typischer Zyklus volle Gens alle 2 Jahre zu bringen. Anderes lohnt sich wegen Entwicklungskosten einfach nicht, da man die nicht wieder rein kriegt. Es sind eigentlich nur weniger, wenn vorher nur teilweise Generationen releast wurden, wie zb bei RDNA1.

Von RDNA4 hat man aber schon gehört, dass es eine komplette Gen werden sollte, daher ist es äußerst unwahrscheinlich, dass es nicht mit 2 Jahren Abstand geplant war.

Und natürlich hilft das. Wenn du Ingenieure, die bisher noch verzweifelt versucht haben die großen RDNA4 zu retten, jetzt stattdessen auf die (noch lange) ToDo-Liste von RDNA5 ansetzt, dann bringt das schon was. Ist nicht so, dass jeder Ingenieur bei denen nur eine bestimmte Sache kann und in allen anderen Stages unbrauchbar ist.

Ein Ingenieur hat sein Aufgabengebiet und macht das in verschiedenen Projekten. Es hilft dir überhaupt nicht einen Ingenieur ne komplett andere Rolle zu geben, bei der er erstmal 6 Monate Einarbeitungszeit hat. Die Leute die die Architektur designen, sind andere als die, die die Implementierung und Verifikation übernehmen und so weiter. Die

RDNA4 - bzw. die gecancelten großen Chiplet-RDNA4 - waren wegen Problemen bereits spät dran, wie schon RDNA3.
Man arbeitet bei AMD mit mindestens 2 Teams parallel, während ein Team bereits mit der Fertigstellung von RDNA4 beschäftigt war, arbeitete das nächste schon längst an RDNA5.
Wenn sich RDNA4 verspätet, RDNA5 aber nicht, kommt es halt zu einer ähnlichen Situation wie bei RDNA1->RDNA2, wo zwischen zwei Gens nur 15-18 Monate liegen.
Versteh nicht, was daran so unglaubwürdig sein soll.

Woher kommt die Annahme, dass RDNA4 Probleme hatte? Es gibt keinerlei Anzeichen, dass irgendwelche Ingenieure von RDNA4 zu RDNA5 geschoben wurden wegen Problemen bei RDNA4. Packagingkapazitäten machen viel mehr Sinn. Das basiert alles komplett auf deinen Annahmen. Ich bin da bei Hot. Wenn RDNA5 früh kommen sollte, dann nur weil es ein abgespecktes RDNA5 Design, also RDNA4.5 wird.

- RDNA4 GPUs kommen in H1/2024 raus. Deutlich vor Blackwell (3-6 Monate)
- Die schnellere GPU ist in etwa so schnell wie eine 7900XTX/4080. Damit kann man >95% des GPU-Marktes adressieren
- Bei ca. 200W und 16/18 GByte VRAM wäre auch für 4K & RT genug Performance sowie Speicher da (~4080 Niveau?)
- Für ~600-650$ würde P/L schonmal gut steigen (vs. RDNA3 und Lovelace) und AMD würde gleichzeitig wohl mehr als bei N31 & N32 verdienen
- Diese Preisklasse wäre für viele noch erschwinglich

N48 wird nicht so früh kommen. Die einzige GPU die ne Chance hat früh zu kommen ist N44. Alleine aus der Historie, dass man sich für ein N48 Design wohl erst mit dem Canceln der großen Chips entschieden hat wird zu einer Verschiebung nach Hinten führen, selbst wenn N43 für N1/24 geplant gewesen wäre. Ich gehe von N4 aus bei den monolithischen RDNA4 GPUs, daher glaube ich nicht an 7900XTX Leistung, außer bei RT, da könnte man den durchaus schlagen.

- Blackwell soll doch erst 2025 starten, ergo wären 3-6 Monate vor Blackwell dann Herbst - Frühwinter 2024. Was imo auch realistischer wäre. H1 wäre zu früh bzw. man will sicher erstmal N32 verkaufen / abverkaufen.

Die Leaker, auf deren Infos im Moment alle Blackwellinfos basieren sagen beide es gab keine Verschiedung und Blackwell kommt 2024.

HOT

2023-10-06, 10:50:42

Beide sollen bereits auf dem Weg sein, die kommen offenbar gleichzeitig.

Man sollte sich davon verabschieden, dass man sich Mitte 2023 plötzlich dazu entschieden hat RDNA4 zu canceln, N48 beweist, dass das schon Anfang des Jahres oder gar Ende letztend Jahres entschieden wurde. Das ist aber erst vor ein paar Wochen durchgesickert.

reaperrr

2023-10-06, 12:08:44

Es ist ein typischer Zyklus volle Gens alle 2 Jahre zu bringen. Anderes lohnt sich wegen Entwicklungskosten einfach nicht, da man die nicht wieder rein kriegt. Es sind eigentlich nur weniger, wenn vorher nur teilweise Generationen releast wurden, wie zb bei RDNA1.

Von RDNA4 hat man aber schon gehört, dass es eine komplette Gen werden sollte, daher ist es äußerst unwahrscheinlich, dass es nicht mit 2 Jahren Abstand geplant war.
Die Planung ist grundsätzlich immer, die nächste Gen so schnell wie möglich marktreif zu kriegen.
Das hat auf Seiten AMDs in letzter Zeit halt nur bei RDNA2 so geklappt, wie man sich das im Idealfall wünscht.

Kürzere Entwicklungsdauer = niedrigere Entwicklungskosten und man kann sich früher auf die Gen danach fokussieren.

Woher kommt die Annahme, dass RDNA4 Probleme hatte? Es gibt keinerlei Anzeichen, dass irgendwelche Ingenieure von RDNA4 zu RDNA5 geschoben wurden wegen Problemen bei RDNA4.
Grundsätzlich sind sämtliche Aussagen und Spekulationen zu Chips, die noch nicht draußen sind, erstmal Annahmen. Das gilt für eure Aussagen aber genauso. Wie kommt ihr zu der Annahme, dass AMD Chiplet-RDNA4 einfach verschiebt oder streicht, obwohl es keine Probleme gab und es an und für sich besser wäre, N31 schleunigst durch was Besseres zu ersetzen?
Und wie sollten diese Anzeichen denn deiner Meinung nach sonst aussehen, außer eben, dass Gerüchteküchen, die schon häufiger Recht hatten, davon berichten, dass es so ist?
Und genau das hat MLID halt getan. Dass er auch schon bei Themen danebengelegen hat ändert nix dran, dass er bei solchen Gerüchten auch schon oft genug Recht behalten hat. Womit er sich teils in die Nesseln setzt ist eher, dass er sich auf Grundlage von richtigen Informationen zu weit aus dem Fenster lehnt, was zukünftige Konsequenzen angeht. Das ändert aber nix daran, dass seine Infos oft richtig oder dicht an der Realität sind.

Ein Ingenieur hat sein Aufgabengebiet und macht das in verschiedenen Projekten. Es hilft dir überhaupt nicht einen Ingenieur ne komplett andere Rolle zu geben, bei der er erstmal 6 Monate Einarbeitungszeit hat. Die Leute die die Architektur designen, sind andere als die, die die Implementierung und Verifikation übernehmen und so weiter.
Und wenn die Implementierung und Verifikation der kleinen RDNA4-Chips fertig und die der großen abgebrochen wird, sitzen die Implementations-Ingenieure erstmal ein Jahr rum und drehen Däumchen, bis es für RDNA5 wieder was zu tun gibt, schon klar;D

Entweder RDNA5 ist schon so weit fortgeschritten, dass die dort schon von Nutzen sind (man fängt mit der Implementation von Designs ja nicht erst ein Jahr vor Release an), oder sie erledigen Arbeiten, die vielleicht nicht ihrem Spezialgebiet entsprechen, wo sie aber zumindest genug Ahnung von haben, dass sie das Haupt-Team unterstützen können. Weiß jetzt nicht, was daran so abwegig ist.

N48 wird nicht so früh kommen. Die einzige GPU die ne Chance hat früh zu kommen ist N44. Alleine aus der Historie, dass man sich für ein N48 Design wohl erst mit dem Canceln der großen Chips entschieden hat wird zu einer Verschiebung nach Hinten führen, selbst wenn N43 für N1/24 geplant gewesen wäre.
Welche Historie?

Und nein, nur weil der Chip N48 heißt, bedeutet das noch lange nicht, dass sie mit dem erst vor einigen Wochen, als die Chiplet-RDNA4 endgültig gestrichen wurden, angefangen haben.

Ich denke, dass ursprünglich die Chiplets den Bereich N41-43 abdecken sollten und nur N44 von vornherein in N4(P) und monolithisch geplant war, man sich aber schon etwas früher in der Entwicklung entschieden hat, Chiplet-N43 zu streichen und stattdessen einen auf N44-Basis hochskalierten monolithischen Chip mit rund doppelten N44-Specs zu machen. Und weil 8 das Doppelte von 4 ist, hat man den N48 genannt. Und ja, reine Speku, aber in welchen Forum sind wir hier nochmal?;)

Wenn RDNA5 früh kommen sollte, dann nur weil es ein abgespecktes RDNA5 Design, also RDNA4.5 wird.
Es ist zum wahnsinnig werden mit euch ;D

Zum dritten Mal:
Wenn RDNA4 (im Idealfall) immer für H1/24 geplant war, dann war RDNA5 auch immer für spätestens H1/26, im Idealfall schon Q4/25 geplant.

Mit "früh kommen" ist nichts weiter gemeint, als dass die Implementations-Ingenieure von RDNA4 jetzt wegen der Streichung der Chiplet-RDNA4 schon früher bei RDNA5 helfen können, um den vielleicht 3-6 Monate früher in einen Release-tauglischen Zustand zu kriegen, als das sonst der Fall gewesen wäre.

Das hat doch alles überhaupt nix mit der Architektur als solcher zu tun, warum sollte man jetzt einen abgespeckten RDNA4.5 bringen? Wie kommt ihr auf sowas? Da müssten nur für eure Frankenstein-Hybrid-uArch eigene Treibereinträge gemacht werden usw.

HOT

2023-10-06, 12:10:41

Chiplet RDNA4 wird frühestens Q4 24 angepeilt gewesen sein, eher Anfang 25 - wie kommst du auf H1 24? Das ist total absurd. Daraus wird jetzt Ende 25, Anfang 26, also "RDNA4.5", gleiche Topologie, neuere Chips, ist doch eigentlich logisch. N44 und 48 wurden als Ersatzprodukte für diese Generation entwickelt und sind nicht vollständig RDNA4 - interne Topologie nach wie vor eher RDNA2, deshalb sind die auch so früh dran. Man erinnere sich an N33 - auch gleiche Topologie wie RDNA2, nur CUs sind RDNA3, dieser war auch vor den N31/2 fertig, obwohl er als letztes Tape Out hatte. AMD verzögerte nur den Launch so stark, weil noch so viel 7nm im Stock war und N7 scheisse billig war für AMD. AMD wäre sicherlich in der Lage gewesen, N33 im August/September spätestens zu starten.

reaperrr

2023-10-06, 12:29:24

7900XT hat 82CU. Ich denke nicht, dass N48 mit 64CU das erreicht.
Mit 20% mehr Takt - bei N4P, monolithischem Design (IF$ und SI in 4nm, kein zusätzlicher Verbrauch durch Chiplet-Kommunikation mehr), optimierter uArch und etwas höherer TDP als eine 7800 XT absolut denkbar - und ca. 10% mehr IPC je CU würde man exakt bei der nominellen Rohleistung einer 7900 XT landen, bloß dass Takt idR besser skaliert als zusätzliche CUs.

Der_Korken

2023-10-06, 12:44:02

Chiplet RDNA4 wird frühestens Q4 24 angepeilt gewesen sein, eher Anfang 25 - wie kommst du auf H1 24? Das ist total absurd.

Ist RDNA3 nicht bereits später schienen als geplant? AMD hat afaik nie gesagt, dass sie eine 2-Jahres-Kadenz anpeilen. 24H1 wären (bis zu) 42 Monate nach RDNA2, d.h. zeitlich wären da zwei Gens absolut im Rahmen.

reaperrr

2023-10-06, 12:58:44

Chiplet RDNA4 wird frühestens Q4 24 angepeilt gewesen sein, eher Anfang 25 - wie kommst du auf H1 24?
RDNA4 war sogar mal für Ende 23/Anfang 24 geplant. Hat nur zum Teil wegen der Verzögerungen bei RDNA3, zum Teil wegen Schwierigkeiten mit dem Chiplet-Ansatz der größeren RDNA4 selbst nicht im Ansatz geklappt.

Daraus wird jetzt Ende 25, Anfang 26, also "RDNA4.5", gleiche Topologie, neuere Chips, ist doch eigentlich logisch.
Da ist überhaupt nichts logisch, das ist total absurd. Die streichen jetzt RDNA5 in seiner ursprünglich geplanten Form, und bringen lieber auf Gedeih und Verderb einen RDNA4+ mit einigen RDNA5-Verbesserungen, sonst aber mit exakt dem Aufbau, den sie schon für RDNA4 nicht rechtzeitig in den Griff bekommen haben? Warum sollten sie das tun?
Ich hab's schonmal gesagt (wenn auch etwas anders formuliert), du interpretierst in die Aussage von RGT, dass der GCX-Ansatz jetzt erst mit RDNA5 kommt, zu viel rein.

Das bedeutet nicht, dass da jetzt ein RDNA4.5 kommt, sondern dass die Chiplet-RDNA4 gestrichen sind und übersprungen werden, und dadurch halt RDNA5, der ohnehin ebenfalls Chiplet gewesen wäre, jetzt halt die erste veröffentlichte Architektur wird*, die den GCD noch weiter aufsplittet. Das heißt nicht, dass sich an RDNA5 durch die N41-43-Streichung irgendwas geändert hätte, außer dass AMD hofft, dass es durch die zusätzlichen drauf angesetzten Ingenieure etwas schneller geht.

*Wenn die nicht auch wieder irgendwas zum Opfer fallen, natürlich.

horn 12

2023-10-06, 14:13:23

N43 wäre im Idealfall knapp an einer 7900XTX dran
und RDNA 5 kommt Frühestens Herbst September/ Oktober 2025,- kann man dies beides so Unterstreichen ?

Mangel76

2023-10-06, 16:32:41

"Die streichen jetzt RDNA5 in seiner ursprünglich geplanten Form, und bringen lieber auf Gedeih und Verderb einen RDNA4+ mit einigen RDNA5-Verbesserungen, sonst aber mit exakt dem Aufbau, den sie schon für RDNA4 nicht rechtzeitig in den Griff bekommen haben? Warum sollten sie das tun? "

Das ist genauso an eine reine Vermutung. Dennoch gibt es durchaus die Möglichkeit, den Featurestop etwas früher anzusetzen, weil ein Nachfolger für RDNA3 früher gebraucht wird als es der Fall gewesen wäre, wenn RDNA4 vollständig released worden wäre. So ist es dann doch so etwas wie RDNA4.5. Wir sind hier im Spekuforum und keiner von ums weiß, wie es wirklich ist.

AffenJack

2023-10-06, 16:53:02

Die Planung ist grundsätzlich immer, die nächste Gen so schnell wie möglich marktreif zu kriegen.
Das hat auf Seiten AMDs in letzter Zeit halt nur bei RDNA2 so geklappt, wie man sich das im Idealfall wünscht.

Kürzere Entwicklungsdauer = niedrigere Entwicklungskosten und man kann sich früher auf die Gen danach fokussieren.

Nein, die Planung ist so, dass man das maximale aus seinen Ressourcen macht und am meisten Geld verdient. Das haben Firmen so an sich. Entwicklungszyklen ergeben sich daraus nur sekundär. Durch immer schlechter skalierende Prozesse gibt es aber immer weniger Anreize oft neue Produkte zu bringen. Kürzere Entwicklungszyklen erhöhen die Entwicklungskosten und senken das ROI. Du musst mehr Ingenieure am gleichen Projekt beschäftigen und hast dazu noch weniger Zeit Gewinn einzufahren. Unternehmerisch macht das anders keinen Sinn. Deshalb hat sich die Industrie auch etwa auf 2 Jahreszyklen bei GPUs eingestellt in der gleichen Klasse, weil es unheimlich schwierig ist nennenswerte Architekturfortschritte ohne Prozessschritte in kurzer Zeit zu entwickeln. Die Zyklen sind nur kürzer, wenn unvollständige Generationen launchen, siehe RDNA1 zu RDNA2.

Grundsätzlich sind sämtliche Aussagen und Spekulationen zu Chips, die noch nicht draußen sind, erstmal Annahmen. Das gilt für eure Aussagen aber genauso. Wie kommt ihr zu der Annahme, dass AMD Chiplet-RDNA4 einfach verschiebt oder streicht, obwohl es keine Probleme gab und es an und für sich besser wäre, N31 schleunigst durch was Besseres zu ersetzen?
Und wie sollten diese Anzeichen denn deiner Meinung nach sonst aussehen, außer eben, dass Gerüchteküchen, die schon häufiger Recht hatten, davon berichten, dass es so ist?
Und genau das hat MLID halt getan. Dass er auch schon bei Themen danebengelegen hat ändert nix dran, dass er bei solchen Gerüchten auch schon oft genug Recht behalten hat. Womit er sich teils in die Nesseln setzt ist eher, dass er sich auf Grundlage von richtigen Informationen zu weit aus dem Fenster lehnt, was zukünftige Konsequenzen angeht. Das ändert aber nix daran, dass seine Infos oft richtig oder dicht an der Realität sind.

Am Ende eine Frage der Glaubwürdigkeit. Für mich ist MLID und RGT so oft daneben gelegen in letzter Zeit, dass ich eher Bitsandchips glaube, die rein wirtschaftliche Gründe sehen.

Und wenn die Implementierung und Verifikation der kleinen RDNA4-Chips fertig und die der großen abgebrochen wird, sitzen die Implementations-Ingenieure erstmal ein Jahr rum und drehen Däumchen, bis es für RDNA5 wieder was zu tun gibt, schon klar;D

Entweder RDNA5 ist schon so weit fortgeschritten, dass die dort schon von Nutzen sind (man fängt mit der Implementation von Designs ja nicht erst ein Jahr vor Release an), oder sie erledigen Arbeiten, die vielleicht nicht ihrem Spezialgebiet entsprechen, wo sie aber zumindest genug Ahnung von haben, dass sie das Haupt-Team unterstützen können. Weiß jetzt nicht, was daran so abwegig ist.

Oder sie machen das, was für ein Unternehmen das wirtschaftlich sinnvollste ist und gehen zu MI400 rüber, der gerade die Leute gebrauchen kann. Denn MI400 ist schon deutlich weiter als RDNA5 und hat Potential wesentlich mehr einzubringen. Aber wahrscheinlich hat AMD noch nichts davon mitbekommen, dass es sich vielleicht lohnen könnte seine AI Projekte zu beschleunigen.

Welche Historie?

Und nein, nur weil der Chip N48 heißt, bedeutet das noch lange nicht, dass sie mit dem erst vor einigen Wochen, als die Chiplet-RDNA4 endgültig gestrichen wurden, angefangen haben.

Ich denke, dass ursprünglich die Chiplets den Bereich N41-43 abdecken sollten und nur N44 von vornherein in N4(P) und monolithisch geplant war, man sich aber schon etwas früher in der Entwicklung entschieden hat, Chiplet-N43 zu streichen und stattdessen einen auf N44-Basis hochskalierten monolithischen Chip mit rund doppelten N44-Specs zu machen. Und weil 8 das Doppelte von 4 ist, hat man den N48 genannt. Und ja, reine Speku, aber in welchen Forum sind wir hier nochmal?;)

Das ist am Ende ne Frage der Grundannahme, wieso es das Canceln gab.

A: Canceln wegen Problemen bei RDNA4, spätestens Januar 2023, falls man in H1 24 mit nem neuen Projekt N48 launchen will in einer Phase, wo es noch keine Zeitverzögerung gibt.

B: Canceln aufgrund wirtschaftlicher Erwägungen mit Beginn KI Boom. Das wäre eher April und erzeugt definitiv 3-6 Monate Verzögerung bei N48 im Vergleich zum gestrichenen N43, weil zu kurz vorm Tapeout.

Wir werden ja sehen, wo wir dann am Ende landen. Falls es N48 gar nicht gibt, sondern nur N44,N43 ist der Zeitpunkt des Cancelns eh egal.

Es ist zum wahnsinnig werden mit euch ;D

Zum dritten Mal:
Wenn RDNA4 (im Idealfall) immer für H1/24 geplant war, dann war RDNA5 auch immer für spätestens H1/26, im Idealfall schon Q4/25 geplant.

Mit "früh kommen" ist nichts weiter gemeint, als dass die Implementations-Ingenieure von RDNA4 jetzt wegen der Streichung der Chiplet-RDNA4 schon früher bei RDNA5 helfen können, um den vielleicht 3-6 Monate früher in einen Release-tauglischen Zustand zu kriegen, als das sonst der Fall gewesen wäre.

Das hat doch alles überhaupt nix mit der Architektur als solcher zu tun, warum sollte man jetzt einen abgespeckten RDNA4.5 bringen? Wie kommt ihr auf sowas? Da müssten nur für eure Frankenstein-Hybrid-uArch eigene Treibereinträge gemacht werden usw.

Wir gehen einfach von völlig unterschiedlichen Annahmen aus. Ich gehe davon aus, dass AMD N41 bei 3nm bringen wollte. Das ist vor vornerein immer klar, dass das erst in H2 24 möglich sein wird. Ein N43 in 4nm ist davon unberührt. Dementsprechend ist ein Nachfolger in 2nm in H2 26 möglich. Die Entwicklung ergibt sich ganz einfach aus den Prozessen von TSMC heraus.

Ein 3nm Chip in H1 24 ist nicht realistisch, genausowenig wie ein 2nm Chip in H1 26. Also ist der von dir erwartete Prozess für RDNA5 3nm?
Tatsächlich halte ich dadurch dann ein nach vorne Schieben von RDNA5 für möglich. Durch das Canceln seiner 3nm Chips macht ein späterer 3nm RDNA5 wieder Sinn. Das wäre aber wie gesagt dann ein nach vorne schieben von RDNA5 für 3nm und würde eine andere Architektur als RNDA5 in 2nm für mich bedeuten.

Altehardware

2023-10-07, 20:30:50

Natürlich geht jede Firma vom Besten Kosten Nutzen Faktor aus. Und je teurer man ein Produkt verkaufen kann bei geringsten Kosten dessen desto besser.
Nur leider ist so eine Vorgehensweise nur Monopolisten gegeben allen anderen richten sich nach dem Markt.
Und bei gpu zählt Leistung pro euro und das vermehrt im profi Bereich.
Der aktuelle hype mit ai und die fehlende Konkurrenz ist es das was die preise so hoch werden ließ.
Amd hängt min eine gen an gpu hinterher und will einfach die priese nicht danach anpassen damit nvidia nachziehen muss.

Rdna4 wird lediglich rdna3 gefixt in n4x werden.
rdna5 nicht vor q4 2026 kommen da man auf n2 setzen wird.

Sicher ist nur das rdna5 etwa 16 Monate nach rdna4 kommt. wenn rdna4 q2 2024 kommt wäre man in q4 2026 soweit
Was dann rdna5 sein wird ist völlig offen da nicht klar ist was amd da plant das planare mcm ist Geschichte man wird vermutlich 3d stacking nutzen wollen. das wird aber tsmc erst in n1,8 realisieren bzw bis dahin nur mit tsv mit sram umsetzen können.

n2x bietet sich da an das man die chips quasi halbieren kann durch gaa und darüber die mcd setzt.
Das bedingt aber eine Taktstagnation aktuell wird durch den designfehler nur 2,4-2,6ghz erreicht gefixt in n4x sind es 3,55ghz
Dabei bleibt es auch mit n2x maxed 400mm² mit gestapelten mcm chips oben drauf
Das begrenzt aber die maxed alu pro chip auf 7680 alu 378mm² bei 3,5ghz
Ergibt als n51 min 62tf (derzeit ist das 37tf mit n31)
mit n2x reduziert sich die Fläche auf 189mm² also können theoretisch dreifache alu drin sein mit 360mmn aus 7680 wird 23040 mal 3,55ghz= 188tf

Darum sehe ich nicht das amd rdna5 vor n2x bringt eher wird es nen refresh als rdna4+ geben mit höherem Takt in n3 node +- 395mm² 7680alu 256bit wie n31 in planar mcm mit maxed 3,5ghz (62tf) in q4 2026
rnda 5 wird dann frühestens q1 2028 geben

Nur stellt sich dir frage was nvidia bis dahin hat.

blackwell wird ada refresh quasi mit geändertem gpc design der Nachfolger wird auch radikal anders werden. Da gibt es derzeit keine infos.
So nebenbei
gb202 soll 14gpc haben = 224sm zu je 64+64 (16+8) =88fp32 per sm =120tf (q2 2025)

Der Nachfolger kann dann entweder beibehalten werden und auf Takt gehen (3,9ghz) oder geändert werden in hopper ähnlichen design mit 128 +64 werden = 152 fp32 per sm oder 96+64 = 120fp32 (sehr wahrscheinlich)

Aus ego Sicht (bloß keine gen herausbringen die langsamer Taktet als die alte) wäre das ada design weiterzuführen und auf maxed Takt zu gehen sinnvoller.
Unklar ist nur wie man dxr verbessern will bisher skalieren die rt cores nur mit Anzahl und nicht mit Takt.

reaperrr

2023-10-08, 07:31:56

Durch immer schlechter skalierende Prozesse gibt es aber immer weniger Anreize oft neue Produkte zu bringen (...) weil es unheimlich schwierig ist nennenswerte Architekturfortschritte ohne Prozessschritte in kurzer Zeit zu entwickeln.
Grundsätzlich zwar richtig, aber dass RDNA3 nicht so der Burner wird, muss für AMD schon länger absehbar gewesen sein, und die großen RDNA4 hätten mit N3E für die GCx und vermutlich einem N5-Klasse-Prozess für die MCDs die jeweils für längere Zeit letzten größeren Prozessverbesserungen gebracht (nach N3E wird lange nix merklich schnelleres mehr kommen, nach N5 wird lange nix merklich kleineres für die Interface+SRAM-Kombi mehr kommen).

Das mit ROI usw. trifft zu, wenn du ne gute Marge hast und gleichzeitig das Produkt attraktiv genug ist, um über die Menge gute Gewinne einzufahren, das ist bei RDNA3 aber perspektivisch höchst fraglich.

AMD hat Glück, dass NV momentan andere Prioritäten als einen Preiskampf mit Consumer-Grakas hat, in dem wäre AMD mit RDNA3 nämlich völlig chancenlos, da sie viel mehr Silizium, Strom und teilweise auch Speicher für die jeweilige Performance brauchen.

Deshalb hat sich die Industrie auch etwa auf 2 Jahreszyklen bei GPUs eingestellt in der gleichen Klasse
Das war bei AMD jetzt gerade mal eine Generation, nachdem man aus dem Mining-Rausch noch haufenweise überproduzierte N2x übrig hatte und zumindest N31 wohl auch Kinderkrankheiten hatte.

Übrigens wäre auch Ada schon locker ein halbes Jahr früher rausgekommen, wenn NV nicht das gleiche Problem mit den Ampere-Restbeständen gehabt hätte. Fertig waren die nämlich schon länger.
Ohne den Doppelwhopper aus Ende des Mining-Booms + Kriegsauswirkungen auf die Nachfrage hätten zwischen den 2020er und 2022er Gens eben keine 2 Jahre gelegen, nicht bei Nvidia und zumindest bei N32 vs. N22 und N33 vs. N23 auch nicht bei AMD.

Am Ende eine Frage der Glaubwürdigkeit. Für mich ist MLID und RGT so oft daneben gelegen in letzter Zeit, dass ich eher Bitsandchips glaube, die rein wirtschaftliche Gründe sehen.
Also in dem einen Tweet, den ich auf die Schnelle gefunden habe, schreiben sie nur, dass AMD Next-Gen GPUs zugunsten von FPGAs und MIxxx opfern. Das widerspricht nicht meiner Aussage bzw. den Gerüchten, dass es primär um CoWoS-Kapazitäten geht und die eingesparten N3E-Wafer eher Bonus waren, denn diese Produkte setzen ja mittlerweile allesamt auf Chiplets.

Dass das Wirtschaftliche keine Rolle spielt, habe ich außerdem auch nie behauptet.

Oder sie machen das, was für ein Unternehmen das wirtschaftlich sinnvollste ist und gehen zu MI400 rüber, der gerade die Leute gebrauchen kann. Denn MI400 ist schon deutlich weiter als RDNA5 und hat Potential wesentlich mehr einzubringen.
MI400 ist meiner Einschätzung nach weitgehend durch und wartet hauptsächlich auf Validierungsergebnisse und die Massenproduktion der jeweiligen Chiplets, fraglich ob da so viel zusätzliche Ingenieure überhaupt noch von Nutzen wären.
Dass zumindest ein paar zu MI400 abgestellt wurden habe ich außerdem ebenfalls nicht ausgeschlossen.

Wir gehen einfach von völlig unterschiedlichen Annahmen aus. Ich gehe davon aus, dass AMD N41 bei 3nm bringen wollte.
Tun wir nicht, denn davon, dass die N4x-GCDs/-GCX in N3E produziert werden sollten, bin ich auch ausgegangen (von Anfang an sogar).

Das ist vor vornerein immer klar, dass das erst in H2 24 möglich sein wird.
Die Massenproduktion von N3E geht (ging?) in diesem Halbjahr los. Da wäre Ende Q2 2024 als Launchtermin absolut möglich gewesen, wenn AMD ihre N4x-Chiplets rechtzeitig fertig gehabt und der KI-Boom nicht gekommen wäre.

genausowenig wie ein 2nm Chip in H1 26. Also ist der von dir erwartete Prozess für RDNA5 3nm?
Ja, N3P, und m.E. von AMD auch immer so angedacht gewesen.

Navi4x Chiplets in N3E und mit verhältnismäßig moderaten Specs, um trotz relativ unerprobtem Prozess gute Yield zu erreichen, und dann takt-mäßig so weit hochgeprügelt, wie möglich oder nötig (je nach Konkurrenzsituation), Navi5x dann ~18-22 Monate später im etwas schnelleren und bis dahin wohl auch günstigeren und ausgereifteren N3P mit etwas ambitionierteren Chiplet-Specs und größeren Architekturverbesserungen, um trotz kleinem Fertigungssprung deutlich schneller zu sein.

Schon in 2026 mit irgendeinem 2nm-Prozess für ein Consumer-Produkt zu planen, wäre m.E. zu riskant gewesen und hat AMD deshalb meiner Ansicht für RDNA5 auch nicht getan.

rdna5 nicht vor q4 2026 kommen da man auf n2 setzen wird.

Sicher ist nur das rdna5 etwa 16 Monate nach rdna4 kommt. wenn rdna4 q2 2024 kommt wäre man in q4 2026 soweit
(...)
rnda 5 wird dann frühestens q1 2028 geben

16 Monate nach RDNA4 wäre Q4 2025, wenn RDNA4 in Q2 2024 kommt :wink:

Damit hast du für RDNA5 drei Termine verteilt auf einen Zeitraum von fast 3 Jahren genannt...^^'

Rdna4 wird lediglich rdna3 gefixt in n4x werden.
Äh, nein.
RDNA4 wird schon trotzdem noch ne neue Architektur. Soll sogar mehr Architektur-Verbesserungen gegenüber RDNA3 haben, als RDNA3 gegenüber RDNA2.

Und die kommen zu 99,9% in N4P, nicht N4X. N4X schafft nur ~5 Prozent mehr Maximaltakt, auf Kosten von deutlich höheren Leckströmen und damit Hitze/Verbrauch. Das mag für teure "Nur Geschwindigkeit zählt" Server-/KI-Produkte noch Sinn machen, aber nicht für Mainstream-GPUs die auch noch Laptop-tauglich sein sollen.

rdna5 nicht vor q4 2026 kommen da man auf n2 setzen wird.
Nein, wird man meines Erachtens nicht. N2 wird anfänglich - ähnlich wie N3 - in der ersten Version kaum bis garnicht mehr Takt am oberen Ende als N3P schaffen, die Wafer werden teurer und knapper sein und die Ausbeute schlechter.
N2 wird zu Anfang nur für Apple, Zen6c-Chiplets, MI500 oder MI600 und Nvidia's GH100-Nachfolger sein, weil man dort die Flächeneinsparungen und die Energieeinsparungen in niedrigen Taktbereichen braucht.

RDNA5 wird mit hoher Wahrscheinlichkeit in N3P kommen (nein, nicht N3X, aus den gleichen Gründen wie N4P für RDNA4), deshalb ist auch ein Zeitraum zwischen Ende 2025 und Mitte 2026 realistisch.

horn 12

2023-10-08, 11:03:31

Und da Soll Navi 31 7900XTX bis dahin durchhalten wenn N44 /48 nur 7900XT Leistung erzielen könnte.
Dies wären mindestens 3 komplette Jahre!

HOT

2023-10-08, 11:21:12

Genau wir AMD mit der 5700XT überlebt hat ;).

Altehardware

2023-10-08, 19:34:07

Nun wie kome ich auf drei unetrschiedliche zeiträume
Nun das ergibt asich aus den Schlussfolgerungen
n43 und n48 sind Monolithen also quasi n33 portiert auf n4x nix anderes macht sinn
n3e oder generell n3 wird durch die ai schiene (mi400) blockiert folglich gehe ich nicht davon aus das man vor q2 q3 2026 soweit ist
n43 dürfte frühestens q2 2024 soweit sein spätestens q4 2024 das hängt primär vom release der ps5 pro ab.
Wäre also dann frühestens n51 q4 2025 aber da dann keine Kapazitäten frei sind nehme ich an das man eher auf n2 setzen wird da dieser Prozess deutlich bessere Taktraten verspricht.
3d chips sind auch im Gespräch aber wie gesagt ist das ein Risiko das es fehlschlägt und tsmc kann aktuell nur tsv Verbindungen herstellen quasi wie bei cpu 3dcache oben drauf. Und das auch nur im gleichen node.
Man spart dadurch keinen cent ein. das geht erst mit n1,8 und n2x bietet gaa was die chipfläche halbiert
Der Takt indes steigt schon ab n2 node +25% oder 50% energieeffizienter als n3
Allerdings verliert man Fläche aus 830mm² aktuell gehen nur noch 430mm²
Es macht also durchaus sinn bis n2x noch monolithisch weitere gpu zu planen
Das mcm von amd hatte nur den Vorteil das man quasi high end günstiger fertigen kann das schlug fehl weil man einen Fehler im design hat das die zusätzlichen fp32 Ausführungen verhindert und sogar Fehler verursachen beim sram. Daten werden korrupt um das zu vermeiden haut man viel voltage rein damit die daten konsistent bleiben.
Eine folge vom versuch den sram zu verkleinern in 6nm und 5nm
Das wird mit n4x behoben darum meine Annahme von 3,55ghz und keiner Flächenreduktion.
Das dürfte das problem was rdna3 hat lösen ob das dann rdna4 heißt spielt keine rolle ich nehme auch an das man gddr7 nutzen wird und das Si kürzt womit dann 64bit (12gb) n43 und 96bit (18gb) n48 sein wird
n43 32cu 3,55ghz 12gb an 64bit 36gbps =288gb/s +109gb/s effektiv 397gb/s mit grob 18tf ab 300$
n48 54-64cu 3,55ghz an 96bit 36gbps =432+163 effektiv 595gb/s mit grob 31tf ab 549$

zum vergleich das entspricht der rx7900gre bis rx7900xt

Und das schon q2 2024 bis q4 2024 das hängt wie gesagt von den Konsolen ab.
Diese soll zwischen q2 und q4 2024 erscheinen mit dem n48 chip

horn 12

2023-10-08, 19:48:17

Nur 7900XT für N48 ;- dann würde bis Ende 2025 die 7900XTX ihren 3 Jährigen Tribut feiern
und man könnte eine 4080 TI immer schneller als die XTX promoten.

Altehardware

2023-10-09, 08:38:26

So sieht es aus nvidia hat quasi freie bahn bis q2 2027 amd Zukunft ist nicht so rosig wie es scheint aber danach also ab 2027 könnte amd in Führung gehen das bedingt aber das dass MCM design voll einschlägt und funktioniert.

Indizien gibt es bei den patenten amd Ansatz ist gewagt benötigt aber zwingend ein 3d chip mit aktiven interposer und den sehe ich frühestens 2029.
Also muss man über den Takt gehen
n51 ~3,55ghz maxed 1800cu 390mm² n3e 95,6tf 2026
n61 ~4,7ghz maxed 180cu 330mm² n2 2027 126tf

nvidia zu der zeit
gb202 ~3,10ghz maxed 180sm sku bis 160sm 87tf 2025 (quadro only)
gb203 ~3,1ghz maxed 142sm 77tf 2025
gx102 ~4,0ghz maxed 288sm 202tf sku ab 240sm 2028

Platos

2023-10-09, 08:57:05

MCM hilft genau null, in Führung zu gehen. Denn sie brauchen dafür nicht nur Rohpower, sondern auch den entsprechenden Preis, RT-Perfomance, besseres FSR und Framegen usw. Bisher haben sie recht gut bewiesen, dass sie nichts davon liefern können/wollen.

2027 sind 3-4 Jahre. Da wird RT vermutlich im Mainstream brauchbar werden bei nvidia. Und bei allen "Features" (Dlss und co.) sind sie Meilenweit hinterher.

Abgesehen davon könnte nvidia in der Generation nach Blackwell auch im Gaming Chiplets einsetzen. Von daher...

basix

2023-10-09, 09:32:22

Abgesehen davon könnte nvidia in der Generation nach Blackwell auch im Gaming Chiplets einsetzen. Von daher...

Sobald man auf N2P umsteigt, gibt es entweder max. 416mm2 Chips oder eine Mehrzahl davon (High-NA-EUV halbiert die Reticle Size). Chiplets und/oder 2.5D/3D-Stacking sind also zwingend, wenn man grosse Chips bauen will. Einzige Alternative: Sowas wie Cerebras, wo man theoretisch je nach Wafer-Dicing 1, 2, 3, 4x zusammenhängende Chips rausbekommt. Das hätte den Vorteil, dass die Chips bereits auf dem Wafer verbunden wären, hätte aber seine eigenen Limitationen (Yield-Nachteile, Chip-Binning & 3D-Stacking nur schwer möglich). Oder man baut halt nur noch kleine Chips für Consumer (monolithisch).

Mit ~400mm2 Nutzfläche für Shader Arrays / GPCs kann man aber bereits sehr schnelle Chips bauen, wenn man das auf ein Base-Die stacked. Die 12x GPCs von AD102 sind ~330mm2 gross. Etwas in dieser Grössenordnung oben drauf stacken und im Base Die L2$ (Nvidia) / L3$ (AMD), Memory Interfaces & Display/Multimedia, was in etwa gleich viel Fläche beanspruchen wird wie das oben drauf gestackte Die. Alles was kleiner ist (siehe AD103 mit 379mm2), könnte man prinzipiell monolithisch belassen.

Mir gefällt allerdings der Ansatz von einem der letztens aufgetauchten Patente von AMD nochmals besser: Wie oben beschrieben ein Die auf ein Base Die gestacked. Allerdings kleiner und man kann mehrere davon zusammenschalten.

MCM hilft genau null, in Führung zu gehen. Denn sie brauchen dafür nicht nur Rohpower, sondern auch den entsprechenden Preis, RT-Perfomance, besseres FSR und Framegen usw. Bisher haben sie recht gut bewiesen, dass sie nichts davon liefern können/wollen.

2027 sind 3-4 Jahre. Da wird RT vermutlich im Mainstream brauchbar werden bei nvidia. Und bei allen "Features" (Dlss und co.) sind sie Meilenweit hinterher.
Ja, AMD hinkt von den Features her hinterher. Dass AMD nicht liefern kann oder will, finde ich aber zu hart ins Gericht gegangen. DLSS ist ein starker Gegner und FSR war bei erscheinen das zweitbeste AA & Upsampling Verfahren, das es gab. Und nur knapp hinter DLSS, ausser bei Disocclusion. Mittlerweile ist TSR der UE5 vermutlich besser, kostet aber auch mehr Performance und ist UE5-only.

Und man muss auch sehen, dass RDNA verglichen mit Zen & APUs weniger Priorität hat. Auch wenn mittlwerweile mehr Budget da ist, wird es innerhalb der Firma vielleicht an 3. Stelle kommen und deutlich weniger sein als bei Nvidia. Dafür schlägt sich RTG eigentlich ganz gut.

Ich hoffe aber, dass AMD bei RDNA4 Release mit dem heutigen Featurestand von Nvidia gleichziehen kann (qualitativ wie quantitativ):
- FSR Upsampling
- FSR Frame Generation
- FSR Ray Reconstruction
- RT-Acceleration (BVH Traversal, Micromaps, ...)
- Video Encoder/Decoder
- ML/AI Acceleration (HW & SW Support)

HW designen kann AMD, da habe ich weniger Bedenken. Doch ob sie genug Budget für die ganzen SW-Themen haben, ist bei mir noch ein Fragezeichen.

HOT

2023-10-09, 09:34:24

N2P. N2 ist noch klassisch EUV.

basix

2023-10-09, 09:35:36

N2P. N2 ist noch klassisch EUV.
fixed ;)

basix

2024-04-29, 16:24:36

Neues Futter aus dem RDNA4 Thread:
https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13532431#post13532431
-> https://twitter.com/All_The_Watts/status/1784561456694046744

Wenn man >144WGP und >384bit für N50 nimmt, landet man unweigerlich bei 512bit SI. Irgendwie unwahrscheinlich aber ich habe mir überlegt, ob das irgendwie klappen könnte. Unten ein Mockup von mir anhand einer 7900XT(X) und ja, es könnte gehen. Die grün markierten GDDR-Packages sind die, die neu dazugekommen sind und die GPU wurde etwas länger ;)
https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13532724#post13532724

Leonidas

2024-04-29, 17:01:54

Ich denke, AMD wird womöglich erst einmal die Technik von N40 beim N50 realisieren, nur eben bereits mit RDNA5-Architektur. Sprich, technisch spricht der Leaker von "größer als 144 WGP", aber es könnte auch exakt auf das hinauslaufen: 3 Chiplets, 144 WGP, 384-bit. Das würde immerhin diese Abstufungen ergeben:

N50: 288 CU, 384-bit
N51: 192 CU, 256-bit
N52: 96 CU, 128-bit
N48: 64 CU, 256-bit
N44: 32 CU, 128-bit

Entweder N52 oder N48 könnte man hier auf der Kippe betrachten, da zu nahe zusammenliegend. Da aber die Technik für N52 sowieso existiert, könnte N48 bei diesem Portfolio-Aufbau eventuell EOL gehen. Werden die GCDs von RDNA5 hingegen größer, könnten beide Chips nebeneinander bestehenbleiben. Mit mehr als 3 Chiplets braucht man aber bei Chiplets > als 96 CU kaum rechnen. Auch bei GCD = 96 CU sind die Chancen auf 4 Chiplets eher gering. Und nur das würde ein 512-Bit-Interface ermöglichen.

basix

2024-04-29, 17:55:17

Ich sehe das Portfolio wie du. Die 512bit Variante wäre nur was, was man theoretisch noch oben drauf packen könnte. So als Halo Produkt (Fury Label?) oder Blackwell-Next Konter. Aber auch mit "nur" 288 CU wäre das ein ziemlicher Brocken von einer GPU.

Neurosphere

2024-04-29, 18:25:12

Rage Fury Maxx Revival!!!!!

Bringt aber halt nur was wenn man dann auch wettbewerbsfähig ist.

robbitop

2024-04-30, 10:09:01

Ob die gestackten MCDs bei RDNA3 ggf für N36 waren? Mit der Verdopplung der LLC Menge brauchte man ggf. auch nicht mehr als 384 bit. Das kann ggf. auch für RDNA5 gelten. Dass man bei 384 bit aufhört und dann einfach nur mehr SRAM stackt. Gerade die SRAM chiplets (siehe VCache) sollten nicht so teuer sein (klein, kein bleeding edge node, sehr hoher yield).

mboeller

2024-04-30, 10:37:02

Wenn man >144WGP und >384bit für N50 nimmt, landet man unweigerlich bei 512bit SI. Irgendwie unwahrscheinlich aber ich habe mir überlegt, ob das irgendwie klappen könnte.

Sind die MCD wirklich notwendig?

RDNA4 sollte, wenn die 130mm2+32MB IF$ und 240mm2+64MB IF$ wirklich so kommen doch gut aufzeigen dass das Speicherinterface + MALL nicht wirklich viel Platz brauchen kann.

Bei einem hypothetischen RDNA5 würden 128bit + 32 od. 64MB IF$ per Base-DIE doch wahrscheinlich auch nicht so viel mm2 fressen kann.

AffenJack

2024-04-30, 11:25:40

Sind die MCD wirklich notwendig?

RDNA4 sollte, wenn die 130mm2+32MB IF$ und 240mm2+64MB IF$ wirklich so kommen doch gut aufzeigen dass das Speicherinterface + MALL nicht wirklich viel Platz brauchen kann.

Bei einem hypothetischen RDNA5 würden 128bit + 32 od. 64MB IF$ per Base-DIE doch wahrscheinlich auch nicht so viel mm2 fressen kann.

3nm shrinkt SRAM nicht und IO glaube auch nicht. Nur Logik skaliert. Bei den Waferkosten von N3 also ein deutlicher Produktionskostensprung. Gerade bei N3 machen MCD in 5nm Sinn.

nordic_pegasus

2024-04-30, 11:40:57

Sind die MCD wirklich notwendig?

ist die Chiplet-Architektur bei Zen wirklich notwendig? Viel mehr hat der Chiplet-Ansatz doch auch Nachteile z.B. beim Idle-Verbrauch, hohe Energiedichte oder Kommunikation zwischen den CCDs.

AMD setzt halt alles auf modulare Chiplets, damit man Produkte aus dem Baukasten erstellen kann. Gleichzeitig steigt der Yield durch Mini-Chips. Gleiches Spiel will AMD auch bei GPUs fahren.

Ich finde es nebensächlich, solange am Ende ein gutes Produkt entsteht. Navi31 hat nicht wie erhofft abgeliefert, Navi41 wurde eingestampft. Ich bin gespannt, ob AMD mit RDNA5 die Kurve bekommt. Die Euphorie, die hier im Thread schon wieder entsteht, kann ich nicht teilen.

basix

2024-04-30, 17:49:31

Zwingend notwendig sind MCDs natürlich nicht. Aber unter dem Strich wird die GPU mit MCDs vermutlich günstiger werden und man spart sich N3 Wafer-Kontingente für MI400 und Zen 5c. MCDs wären auch in N6 noch tip top. Und es wäre eine konsistente Weiterführung von RDNA1 -> 2 (Infinity Cache) -> 3 (MCDs) -> 4 (Chiplet GCD gecancelt) -> 5 (Chiplet GCD)

Zossel

2024-04-30, 18:55:50

ist die Chiplet-Architektur bei Zen wirklich notwendig? Viel mehr hat der Chiplet-Ansatz doch auch Nachteile z.B. beim Idle-Verbrauch, hohe Energiedichte oder Kommunikation zwischen den CCDs.

Das ist eher ein Entwicklungspfad aufgrund von Beschränkungen die sich schon länger in der Herstellung von Chips abzeichnen.

Wenn man auf ein Base-Die auch stromhungrige Chiplets vergleichbar dem 3D-Cache für Massenprodukte hinbekommt die auf dem gewöhnlichen Computerstrich verhökert werden können, werden sich einige Probleme der bisherigen Chiplet-Architekturen egalisieren.
Das HPC/KI Monsterteil von AMD zeigt da schon gut die Richtung an, für die 3D-Cache Teile taugt die Technik bzgl. der Kosten ja schon für Erika Mustermann.

DrFreaK666

2024-06-14, 23:33:14

Neues Patent aufgetaucht.
AMD ist gibt Chiplets nicht auf
https://www.tomshardware.com/pc-components/gpus/amd-patents-configurable-multi-chiplet-gpu-illustration-shows-three-dies

Der_Korken

2024-06-15, 00:29:48

Neues Patent aufgetaucht.
AMD ist gibt Chiplets nicht auf
https://www.tomshardware.com/pc-components/gpus/amd-patents-configurable-multi-chiplet-gpu-illustration-shows-three-dies

Ist das nicht das gleiche, was schon vor nem halben Jahr im RDNA4-Thread durchgekaut wurde? Aka, der gecancelte N41+Ableger?

reaperrr

2024-06-15, 06:39:01

Ist das nicht das gleiche, was schon vor nem halben Jahr im RDNA4-Thread durchgekaut wurde? Aka, der gecancelte N41+Ableger?
Ja, wobei RDNA5 nach bisheriger Info-Lage das gleiche Konzept, nur mit mehr Chiplets für HighEnd verwenden wird.

iamthebear

2024-06-15, 15:16:49

Man sollte in solche Patente nicht zu viel hinein interpretieren. Patentiert wird im Vorhinein alles was zumindest in der Theorie funktionieren könnte. Das bedeutet nicht, dass es auch sinnvoll ist.

RDNA5 sollte in ca. 2-3 Jahren kommen. Da wird AMD doch nicht erst jetzt Patente zu den verwendeten Technologien anmelden. Da ist das Risiko doch viel zu groß, dass in der frühen Planungsphase etwas leaked und dann irgendein Mittbewerber oder Patenttroll schneller ist.

Leonidas

2024-06-15, 18:24:52

Patent wurde Dez 2022 eingereicht, da könnte der alte Plan noch aktuell gewesen sein. So oder so müssen Patente raus, weil gerade damit verhindert man Patenttrolle. Nachbauen kann es sowieso keiner, auf Herstellungs-Seite muß man da weniger Angst haben vor Seiten-Einsteigern.

Nightspider

2024-06-15, 18:30:29

Ich würde sagen man bremst auch die Konkurrenz aus, wenn man die offensichtlichsten Lösungsansätze schon mal mit Patenten "blockiert".

Leonidas

2024-06-15, 18:59:02

AMD & NV blockieren sich (angeblich) eher weniger. Aber Herausforderer werden effektiv verhindert.

3DC-Senf zum Patent hier:
https://www.3dcenter.org/news/amd-patentantrag-zeigt-mcm-grafikchip-aus-13-einzel-chips
https://www.3dcenter.org/dateien/abbildungen/AMD-Grafikchip-MultiChip-Design-aus-13-Einzelchips.preview.png

iamthebear

2024-06-16, 23:41:26

Ich würde sagen man bremst auch die Konkurrenz aus, wenn man die offensichtlichsten Lösungsansätze schon mal mit Patenten "blockiert".

Ich denke es ist eher umgekehrt: Man patentiert schon einmal im Vorhinein alles was eventuell irgendwann einmal Sinn machen könnte dass einem niemand anderer zuvor kommt.
Mittbewerber sind hier weniger das Problem, sondern eher Patenttrolle, die versuchen damit lästig genug zu sein um etwas Geld abstauben zu können.

basix

2024-06-17, 08:02:27

Nicht nur zuvorkommen ist ein Thema. Patente werden auch als Verhandlungsmasse verwendet, z.B. für einen Patentaustausch. Mehr Patente sind da dann besser.

Patenttrolle sind da wirklich ätzend. Die liefern keinen Mehrwert für die Gesellschaft.

robbitop

2024-06-17, 09:28:35

Deshalb sind offene Patente so eine schöne Sache. Kann jeder nutzen aber weiteres Trolling wird blockiert. IIRC hatte Tesla das so gemacht (keine Ahnung ob sie da mittlerweile davon weg sind).

Es ist leider ein Zielkonflikt zwischen dem Schutz von Gedankengut und dem Voranbringen von Innovation (die ja auch Wettbewerb braucht). Und zusätzlich wird es dann noch von Patenttrolls ausgenutzt.

Neurosphere

2024-06-17, 10:09:48

Schönes Beispiel in die andere Richtung ist Rambus.

Deren Einkommen in der Vergangenheit basierte viel auf Lizenzgebühren für Patente die auch nur aus diesem Grund eingereicht wurden.

TheAntitheist

2024-06-17, 20:10:08

Ich denke es ist eher umgekehrt: Man patentiert schon einmal im Vorhinein alles was eventuell irgendwann einmal Sinn machen könnte dass einem niemand anderer zuvor kommt.
Mittbewerber sind hier weniger das Problem, sondern eher Patenttrolle, die versuchen damit lästig genug zu sein um etwas Geld abstauben zu können.
wenn man Patente in den USA aber gar nicht nutzt, dann verfallen diese aber auch ziemlich schnell, oder sagen wir eher, man kann dann dagegen klagen weil es nur ein Patenttroll ist.

Und das Patent zeigt ja nichts besonderes

Altehardware

2024-06-18, 02:29:18

Diese idee mit 13 chips kann irreführend sein da dies latenztechnisch ne Katastrophe ist
Was es sein kann ist das sich amd hier mehrere Optionen wie man den chip aufbaut absichert
zuerst die idee mit den chip auf chip Aufbau verbunden mit nenn passsiven interposer die dann in reihe geschaltet auf dem Si sitzt
quasi unterste ebene passiver interposer darüber Si und darauf die alu mit nenn LLc mit tsv oben drauf. Das ist ein 3d chip design auf maximum designt
Das geht schlicht nicht da mit jeden chip ne latenz zum anderen chip bekommt. und sich die ipc teilt
aus 25% von 2 +2 werden mit 2 chips 2,25 aus 4 2,125 6 nur noch 2,04, 8 2,02, 10 2,035, 12 2,029, 13 2,026

aber auch jeweils um ein cylce mehr zeit. faktisch frame.
GPu sind linear zeit ist essentiell ein frame lässt sich noch ausgleichen aber mehr als 3 wird es kritisch
Daher machen mehr als 3 chips kein Sinn mit 2 chips hat man ein frame Verlust
Um das zu vermeiden muss der chip quasi ne direkte Verbindung zum anderen chip haben ohne Latenz quasi druckt man die chips auf dem wafer komplett und teilt diese auf
Das aber würde sehr schlechte yields bedeuten ließe sich aber besser aufteilen da das Si nicht mehr beschädigt wird und somit die alu einfach per fiimware ein abschalten lassen.
Das dürfte die idee sein das maximum rein aus tdp dürfte das maxed aktuell bei 4 chips sein also 2,25 ein dual chip mit 80cu bisherige rdna Struktur
und somit rdna5 dann 160cu im voll Ausbau ohne abgeschalteten cu real sind es 144cu bei 3,9ghz =80tf quasi auf level der rtx5090
Dem folgt mit rdna6 ein Jahr später 216cu 6 chips in n2 node =121tf
darauf mit a16 node ne Verdoppelung der alu da man das design auf 80cu verdoppelt =432cu 242tf
Die Latenz Verkürzung dürfte dann sich egalisieren also aus 5 frames Verlust werden nur noch 1 frame da nur alle zwei chips getrennt wird. Später alle drei
Daher macht es Sinn das man rdna4 gecancelt hatte da mit n4 node nur 2 chips passen und die perf kaum größer wäre als mit nenn monolithischen rdna3 es gab.
Siehe n48

Das si wird in n6 komplett gebraucht als Auflage also ist man Flächen begrenzt da würde ich 450mm² ansetzen was in etwa 512bit entspräche
Darum wird man mit n3 bei rdna5 anfangen dann n2 mehr chips unterbringen können -40% oder +2 chips dafür muss nur das Si um 10% größer werden.
Um dann in a16 mit gaa auf -50% die alu zu verdoppeln.
Das klingt nach nenn plan

rdna5 erste gen 4 chips ein design 3 sku
Voll Ausbau 144cu rx9950xt 80tf (rtx5090 level)
teildeaktiviert 128cu rx9900xt 71tf (rtx5080ti level)
maximal deaktiviert 112cu rx9800xt 62tf (rtx4090 level)
keine sku darunter
das besondere das 512bit Si bei allen also mit mit 28gbps dann 1792gb/s

low/mid end ab rdna5 ist also nur noch apu die mit n3 node am desktop kommt mit dann 64cu =39tf (physisch 80cu)
Und bei n2 den Takt erhöht auf 4,5ghz =45tf und dann a16 128cu verdoppelt
90tf
Vorstellbar mit zen7 und 64cu zen8 mehr Takt zen9
kein wunder also das amd all in bei apu gehen wird.

Die Luft für nvidia wird Dünn ab 2026 und 2028

stinki

2024-06-19, 08:44:43

Interessant finde ich, dass im Single GPU Mode nur ein Command Processor für alle 9 Shader Dies zuständig ist (Figur 5, First Mode). Aber das geht wahrscheinlich anders technisch auch gar nicht.
[0026] beschreibt, dass das Multimedia Die nur mit einem Front-End Die verbunden ist und alle Kommunikation dann durch die Bridge Chips zwischen den Front-End Dies geht.
Das zeit-kritischste ist eigentlich die Kommunikation zwischen den Front-End Dies. Da müssen alle Commands und alle Speicherzugriffe durch, wenn Daten vom Hauptspeicher oder vom Grafik-RAM in anderen Front-End Dies gebraucht werden.
Die Shader Dies werden ja mit TSVs mit den Front-End Dies verbunden sein, da dürfte keine zusätzliche Latenz entstehen.

basix

2024-10-14, 14:28:17

Ich verlinke das hier auch mal: Review des Beelink SER9 Mini PC mit HX 370
https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13630296#post13630296

Zusammen mit LPDDR6 bei den NextGen APUs könnte man im optimistischen Fall auf ~RTX4060 Niveau landen.

Der_Korken

2024-10-14, 18:39:49

Ich verlinke das hier auch mal: Review des Beelink SER9 Mini PC mit HX 370
https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13630296#post13630296

Zusammen mit LPDDR6 bei den NextGen APUs könnte man im optimistischen Fall auf ~RTX4060 Niveau landen.

Müsste bei den APUs nicht erstmal RDNA4 statt RDNA5 kommen?

reaperrr

2024-10-14, 20:29:21

Müsste bei den APUs nicht erstmal RDNA4 statt RDNA5 kommen?
Aktuell ist der Gerüchtestand, dass man im Mobile-Bereich RDNA4 überspringt, RDNA3.5 quasi das nächste Vega2 ist, in Medusa weiterverwendet wird (natürlich mit mehr CUs, mehr Takt usw., wird ja mindestens in N3P gefertigt werden).

mksn7

2024-10-15, 16:27:48

Man sollte in solche Patente nicht zu viel hinein interpretieren. Patentiert wird im Vorhinein alles was zumindest in der Theorie funktionieren könnte. Das bedeutet nicht, dass es auch sinnvoll ist.

Viele Patente werden nie umgesetzt, aber man bekommt zumindest einen Eindruck in welche Richtung eine Firma denkt. Es würden ja keine Patente bei rauskommen, wenn nicht in die Richtung geforscht wird.

basix

2024-11-12, 06:38:04

Kepler_L2 behauptet, gfx13 = RDNA5 wird bereits UDNA sein:
https://forums.anandtech.com/threads/zen-5-speculation-epyc-turin-and-strix-point-granite-ridge-ryzen-9000.2607350/page-889#post-41337257

Grundsätzlich würde das Sinn machen, wenn man sich CDNA4/CDNA5 Features anschaut und was man für RDNA5 erwartet:
- Die Stacking
- Multi-Chiplet
- Matrix Cores

Wäre mMn aber früher als erwartet.

mksn7

2024-11-12, 10:50:57

Sind die gfx Level nicht vor allem eine ISA Version? Die dürfte am wenigsten vom packaging (die stacking, multi chiplet) betroffen sein.

HOT

2024-11-12, 11:28:14

Kepler_L2 behauptet, gfx13 = RDNA5 wird bereits UDNA sein:
https://forums.anandtech.com/threads/zen-5-speculation-epyc-turin-and-strix-point-granite-ridge-ryzen-9000.2607350/page-889#post-41337257

Grundsätzlich würde das Sinn machen, wenn man sich CDNA4/CDNA5 Features anschaut und was man für RDNA5 erwartet:
- Die Stacking
- Multi-Chiplet
- Matrix Cores

Wäre mMn aber früher als erwartet.

Dann kann man sich getrost 2025 auch aus dem Kopf schlagen. Das wird dann frühstens Ende 26 was mMn.

mboeller

2024-11-12, 12:06:28

Dann kann man sich getrost 2025 auch aus dem Kopf schlagen. Das wird dann frühstens Ende 26 was mMn.

wie kommst du auf 2025?

RDNA4 wird Anfang 2025 vorgestellt. + 20-24 Monate (mindestens) = Anfang 2027 für RDNA5 ... zusammen mit ZEN6 wie man inzwischen gerüchtemäßig hört

Nightspider

2024-11-12, 12:13:18

Nein, RDNA4 kommt später als geplant war und es hieß das RDNA5 schneller auf RDNA4 folgen soll, weil man alle schnellen RDNA4 Varianten gestrichen hat.

Das wäre dann vielleicht 4q25 geworden.

Altehardware

2024-11-12, 12:17:00

Das wäre Unsinnig da man rdna4 mcm chip cancelt hatte wegen rdna5 was mit cowos produziert wird.
Wenn rdna5 cancel ist dann ist udna erst 2027 da das wäre ein loch bis q3 2027 daran glaube ich nicht amd hat rdna5 im plan daher der release schon q3 q4 2025
rdna4 ist seit min 4 Monaten produktionsreif das wird im Januar ein hardlaunch

reaperrr

2024-11-12, 12:20:48

Dann kann man sich getrost 2025 auch aus dem Kopf schlagen. Das wird dann frühstens Ende 26 was mMn.
Dass RDNA5 eher ein 2026-Produkt ist, war auch vorher abzusehen.
Ende 25 war selbst laut MLID & Co. immer der absolute "alles exakt nach Plan oder noch besser"-Best-Case, und so gut ist es auch bei AMD außer vllt. bei RDNA2 eigentlich nie gelaufen.

Bloß was genau an diesen Punkten jetzt für dich den Ausschlag gibt bzw. der Grund für nen späteren Release sein sollte, würde mich interessieren.

wie kommst du auf 2025?

RDNA4 wird Anfang 2025 vorgestellt. + 20-24 Monate (mindestens) = Anfang 2027 für RDNA5 ...
So wie RDNA2 20 Monate nach den Mainstream-Only RDNA1 kam? :rolleyes:

Kann ja alles eintreten, bloß die Begründung ist Quark.
RDNA5 wird von nem anderen Team entwickelt als RDNA4, und AMD hat nach der Streichung der Chiplet-RDNA4 frühzeitig Ingenieure zu RDNA5 verschoben, um eben diese so früh und gut wie möglich fertigzukriegen.

Und dass RDNA4 erst Anfang 25 kommt, ist hauptsächlich den RDNA3-Restbeständen (v.a. von N31) geschuldet bzw. der Tatsache, dass das Weihnachtsgeschäft wohl die letzte Chance ist, die noch ohne fette Händler-Rabatte loszuwerden.
N48 und die RDNA4-Treiber wären für einen früheren Launch bereit gewesen, letztere sollen bereits in deutlich besserem Zustand sein, als es die RDNA3-Treiber zu diesem Zeitpunkt in 2022 waren.

basix

2025-02-17, 14:25:32

Was spricht eigentlich dagegen, beim kleinsten RDNA5 Ableger auf Quad-Channel LPDDR6 zu setzen anstatt 128bit GDDR7?

- 4-ch LPDDR6-10'667 = 512 GB/s
- 128bit GDDR7 32Gbps = 512 GB/s

LPDDR6 dürfte günstiger als GDDR7 sein. Und wäre ohne Clamshell gut für 8...16 GByte.
Die Chipfläche dürfte nicht wesentlich anders ausfallen (GDDR7 PHY dürften etwas kleiner sein).

Wenn ich den Gedanken so weiterspinne:
Wieso nicht gleich für alle GPUs? LPDDR6X soll bis 17'066 MT/s raufgehen. Hätte also noch Luft für eine Nachfolge-Generation. Da bei Quad-Channel bereits mit LPDDR5X bis zu 128GByte Kapazität möglich sind (siehe Strix Halo), hätte man sehr viel Luft für lokale ML/AI-Accelerators und Profi-Karten basierend auf den Gaming-GPUs. Ausserdem gäbe es da R&D Synergie-Effekte zwischen dGPUs und APUs, da selbe GPU IP und mit LPDDR6 auch gleich noch selbe Memory-IP.

Und auch eine PS6 / Xbox-Next könnte mit LPDDR6 was anfangen. Günstiger ist immer gut.

reaperrr

2025-02-17, 14:50:56

Was spricht eigentlich dagegen, beim kleinsten RDNA5 Ableger auf Quad-Channel LPDDR6 zu setzen anstatt 128bit GDDR7?

- 4-ch LPDDR6-10'667 = 512 GB/s
- 128bit GDDR7 32Gbps = 512 GB/s

LPDDR6 dürfte günstiger als GDDR7 sein. Und wäre ohne Clamshell gut für 8...16 GByte.
Die Chipfläche dürfte nicht wesentlich anders ausfallen (GDDR7 PHY dürften etwas kleiner sein).
Was genau meinst du mit "4-ch"?

Laut dieser News (https://www.heise.de/en/news/Ever-faster-DDR6-LPDDR6-GDDR7-HBM4-and-PCIe-7-0-in-the-works-9762099.html) wären das gerade mal 128 GByte/s.

Und ob die PHYs für LP6 bei der für 512GB/s benötigten Breite noch klein genug für Mainstream sind, ist fraglich.

Grundsätzlich versuchen sowohl AMD als auch N eigentlich immer, die Chipfläche so gering wie möglich zu halten. Das wird mit GDDR7 garantiert einfacher als mit LPDDR6.
Und LP6 mag pro GB vielleicht etwas günstiger werden, aber ob 16GB LP6 dann noch günstiger sind als 12GB in Form von 4x3GB GDDR7 ist schon wieder arg zweifelhaft, v.a. wenn man das schmalere G7-Interface berücksichtigt.

tl;dr: Ich seh's nicht kommen, wenn sowas Sinn machen würde, hätten AMD und/oder NV es wahrscheinlich schon bei LP5X vs. G6 gemacht.

basix

2025-02-17, 15:35:31

Du musst auf LPDDR6 x96 schauen. Das ist ein einzelner Speicher-Channel, wie wir User es kennen ;)

Ein DDR5 DIMM hat 64bit und eine APU mit 2-ch LPDDR5 hat 128bit Breite (2x 64bit oder 8x 16bit Subchannels). In der Auflistung von Heise ist es etwas missverständlich und nicht klar ausgeführt, was das für den User heisst.

Ein paar detailliertere Infos:
https://www.jedec.org/sites/default/files/Brett%20Murdock_FINAL_Mobile_2024.pdf
https://www.anandtech.com/show/21487/jedec-plans-lpddr6-camm-ddr5-mrdimm-specifications

Ein Channel von 24bit Breite ist also nur ein Subchannel. LPDDR6 packt da 1.5x gegenüber dem Vorgänger drauf (16bit Breite) Ein ganzer "User-Channel" hat bei LPCAMM2 / LPDDR6 96bit und bei DDR5 / LPDDR5 / DDR6 64bit (1x DIMM, 1-ch für den User). Du hast bei LPDDR6 10'667 insgesamt (inkl. Overhead und Error Correction) 28.5 GByte/s pro 24bit-Subchannel. Macht bei Quad-Channel (4 x 96 bit) und somit 16x Subchannels 456 GByte/s Nutzbandbreite.

Edit:
Ich habe anhand vom Strix Point Die nachgemessen.
- 128bit (2ch) LPDDR5X PHY ~14mm2
- 256bit (4ch) LPDDR5X PHY wären somit ~28mm2

Blackwell GDDR7 PHY:
- 128bit ~30mm2

Das wäre also vergleichbar gross von der Die Size her. Zumindest auf die PHY bezogen. Ob das bei LPDDR6 aufgrund 1.5x Channel-Breite grösser wird? Weiss ich nicht.

Der Speichercontroller scheint bei Strix Point im Verhältnis aber einiges grösser zu sein als der 64bit GDDR7-Speichercontroller bei Blackwell.

Edit 2:
Die Speicherorganisation ist typischerweise in x8 unterteilt. Also ein Speicherchip ist mit 8bit Breite angebunden. Deswegen kommt man bei Strix Halo mit 32Gbit Chips und Quad-Channel (=256bit) LPDDR5X auf insgesamt 128 GByte Speichermenge (256/8 * 32/8). Da man bei LPDDR6 auf 1.5x Channel-Breite hochgeht, wären unter Umständen auch 1.5x so viel Speichermenge denkbar. Mir ist aber nicht klar, ob bei LPDDR6 die Speicherbausteine auf x12 hoch gehen oder bei x8 bleiben. Habe dazu keine Infos gefunden.

Nightspider

2025-03-12, 13:36:26

Und dass RDNA4 erst Anfang 25 kommt, ist hauptsächlich den RDNA3-Restbeständen (v.a. von N31) geschuldet bzw. der Tatsache, dass das Weihnachtsgeschäft wohl die letzte Chance ist, die noch ohne fette Händler-Rabatte loszuwerden.

So im Nachhinein würde es mich auch nicht wundern, wenn AMD auf die Fertigstellung von FSR4 warten wollte.

FSR4 ist einfach ein sehr guter selling point und RDNA4 zusammen mit FSR4 kann jetzt einfach extrem überzeugen.

basix

2025-03-31, 22:15:45

Weitere AMD Patente zu RT. Die meisten ~Mitte 2023 rum. Allenfalls was für RDNA5. Auch HW BVH Traversal ist dabei: https://forums.anandtech.com/threads/rdna-5-udna-cdna-next-speculation.2624468/page-10#post-41425030

DrFreaK666

2025-05-03, 20:44:12

AMD Speeds Up RT Efforts By Intensifying Patent Activity & Hiring Spree; Plans To Level the Competition With NVIDIA
https://wccftech.com/amd-udna-5-gaming-gpus-could-bridge-the-rt-performance-gap-with-nvidia/

Leonidas

2025-05-22, 08:41:39

https://x.com/All_The_Watts/status/1919533952768811023
https://x.com/Purksia/status/1919549537472909769

NAVI
VEGA
VEGA II

RDNA 1-4

Next gen GPU architecture with a name of a star.

CDNA 1-3 have used Arcturus, Aldeberan, Aqua Vanjaram (not a star but a fish). The return to Star names suggests AMD will go ahead with UDNA unifying their consumer and datacentre microarchitectures.

davidzo

2025-06-13, 18:13:17

https://wccftech.com/amd-instinct-mi400-accelerator-doubles-compute-40-pflops-432-gb-hbm4-memory-2026-launch/

40Pflop FP4
20Pflop FP8

432GB HBM4

19,6TB/s

300gb/s scale out Bandwidth

Die scale out Bandbreite ist ja unterirdisch wenn ich mich nicht Irre?
Blackwell hat 1,8tb/s bzw 900gb/s unidirektional.
Da hat ja sogar ein 2P Epyc System mehr an Infinity fabric link Bandbreite oder?
Und ich dachte MI-300X hat jetzt schon mehr offchip Bandbreite und das problem ist eher dass es kein Gegenstück zu NVswitch gibt?

Vielleicht denkt AMD das die Modelle nicht wachsen und man mit 432gb das meiste abdeckt und daher kein Scale-out macht.

Aber stimmt das wirklich? Gibt es die größten Blackwell Gewinne nicht erst bei NVL72 indem man die Modelle je nach Anforderung einfach skalieren kann?

Meinem Eindruck nach muss AMD etwas an der Rackscale Lösung machen. Und ein Rückfall auf mickrige 300gb/s pffchip ist sicher nicht die richtige Richtung.

samm

2025-06-13, 19:27:17

Meinem Eindruck nach muss AMD etwas an der Rackscale Lösung machen. Und ein Rückfall auf mickrige 300gb/s pffchip ist sicher nicht die richtige Richtung.Rackscale sind 43 TB/s - ist das pro GPU gerechnet nicht mehr als bei Vera Rubin?

basix

2025-06-13, 20:08:25

1.5x mehr bei selber Anzahl GPUs, ja.

Bitte scale-out und scale-up nicht verwechseln. Letzteres ist innerhalb des Racks (260 TB/s, gleich viel wie Blackwell). Scale-out ist Ethernet/Netzwerk ausserhalb des Racks. Dort wie gesagt potenter als Blackwell und auch Rubin (aber soweit ich weiss 400GbE anstatt 800GbE DPUs Blackwell und MI400 mit 800 GbE, Rubin mit 1600GbE).

Und on der Präsentation hatte Lisa Su ganz klar einen Infinity Fabric Switch gezeigt ;)

KarlKastor

2025-06-13, 20:54:46

Nvidia verbindet auch Racks untereinander mit NV-Link.

davidzo

2025-06-13, 21:40:46

Dann frage ich mich wieso AMD das erwähnt und eben nicht die Scale up Bandbreite pro Chip?
Wenn es ein viel schnelleres fabric innerhalb des Racks gibt ist es doch ziemlich uninteressant ob chip noch ein zusätzliches Ethernet Interface haben oder nicht. Viel sinnvolle als mit einzelnen Chips würde man sich doch mit dem Switch verbinden. Also eine Art Uplink, bzw. kann man auch port aggregated uplinks machen. Wenn AMD Infinity Fabric switches hat, dann ist es imo viel sinnvoller hier anzusetzen und immer ein paar Fabric lanes frei zu lassen als einzelne low bandwidth verbindungen zwischen einzelnen chips verschiedener Racks.

Naja und man kann AMD auch nicht ganz trauen wenn sie sagen gleich viel Bandbreite wie Blackwell. Bisher hat AMD auch so getan als wenn Antares / Vanjaram die gleichen 450gb/s Scaleup Bandbreite wie Hopper haben. In Wirklichkeit sind es aber nur 64gb/s mal 8 GPUs, was eben viel schlechter skaliert. Und Infinity fabric switches von AMD/Broadcom sollen nicht vor 2027 kommen.

gedi

2025-06-13, 22:11:46

Wurde bereits erwähnt, dass UDMA1 auf MI400 aufbaut? Dies finde ich tatsächlich erstaunlich!

davidzo

2025-06-13, 22:13:44

Ich habe sogar schon UDMA33 bei mir zuhause.

gedi

2025-06-13, 22:39:20

Offizielle Nachricht von AMD und lesen, zu viel für dich? Dann bist auf noch niedrigem Level als mein Nachbar...

basix

2025-06-13, 23:33:04

Dann frage ich mich wieso AMD das erwähnt und eben nicht die Scale up Bandbreite pro Chip?
Wenn es ein viel schnelleres fabric innerhalb des Racks gibt ist es doch ziemlich uninteressant ob chip noch ein zusätzliches Ethernet Interface haben oder nicht. Viel sinnvolle als mit einzelnen Chips würde man sich doch mit dem Switch verbinden. Also eine Art Uplink, bzw. kann man auch port aggregated uplinks machen. Wenn AMD Infinity Fabric switches hat, dann ist es imo viel sinnvoller hier anzusetzen und immer ein paar Fabric lanes frei zu lassen als einzelne low bandwidth verbindungen zwischen einzelnen chips verschiedener Racks.

Naja und man kann AMD auch nicht ganz trauen wenn sie sagen gleich viel Bandbreite wie Blackwell. Bisher hat AMD auch so getan als wenn Antares / Vanjaram die gleichen 450gb/s Scaleup Bandbreite wie Hopper haben. In Wirklichkeit sind es aber nur 64gb/s mal 8 GPUs, was eben viel schlechter skaliert. Und Infinity fabric switches von AMD/Broadcom sollen nicht vor 2027 kommen.

Naja, viel deutlicher geht es ja nicht:
- 260 TB/s scale-up, macht 3.6 TB/s pro GPU (gleich wie Rubin)
- Bild und Animation vom Infinity Fabric Switch https://youtu.be/5dmFa9iXPWI?t=6869
https://pics.computerbase.de/1/1/7/9/8/8-ca37b084ddb93044/27-2160.c0947e31.png
Ach ja, Helios setzt auf 800GbE (Vulcano), dachte das wäre noch 400GbE (Pollara). MI400 kann 3x 800GbE bedienen, Rubin "nur" 2x 800GbE. Deswegen 1.5x scale-out Bandbreite für MI400.
Die DPUs können hierbei direkt an die GPU angeschlossen werden oder auch via PCIe Switch gemuxed werden.

Nakai

2025-06-14, 01:24:44

Ich bin mal gespannt wie UDNA1 aussehen wird. Ich habe die Vermutung man geht eher wieder in Richtung GCN, aber mit dem Support von Wave32 und adäquaten Ausführungseinheiten. Vielleicht gibt es sogar Wave16 und man nimmt GCN in der Rohfassung her und kann dann dynamisch pro Takt schedulen, je nachdem was gerade frei ist.

horn 12

2025-06-15, 23:18:50

Wann sollten die Karten UDNA - RDNA 5 dann käuflich sein
Herbst 2026 bis Anfang Dezember 2026 maximal ?

dargo

2025-06-15, 23:29:07

Ach Horni... ist es für dich jetzt neu, dass jede GPU-Generation zwei Jahre benötigt? :freak: Mach besser Anfang 2027 draus und bis das Affentheater vorbei ist (keine Karten zur UVP lieferbar, außer man schläft mit seinem Rechner) hast du schon Sommer bis Herbst 2027. :ulol:

OgrEGT

2025-06-20, 11:05:34

https://videocardz.com/newz/amds-next-gen-radeon-gpus-to-support-hdmi-2-2-with-up-to-80gbit-s-bandwidth
AMD’s next-gen Radeon GPUs to support HDMI 2.2 with up to 80Gbit/s bandwidth

Neurosphere

2025-06-22, 10:55:10

AMD’s Next-Gen UDNA Architecture For Radeon GPUs, PlayStation-Next & Xbox-Next To Be 20% Faster In Raster, 2x In RayTracing & AI (https://wccftech.com/amd-next-gen-udna-architecture-radeon-gpus-playstation-xbox-20-percent-faster-raster-2x-raytracing-ai/)

Das wäre schon ziemlich nett. Kommt also nur drauf an wie breit AMD die Chips macht.

horn 12

2025-06-22, 13:15:24

20% über N48
Wäre gerade mal 5080 TI / 4090 Performance wenn man die aktuellen Treiber berücksichtigt
N48 ist dato 20 bis 30% hinter einer 4090,- und wenn Treiber mal richtig Final sind wohl nur mehr 20% von der 4090 entfernt.
Da hat NV leichtes Spiel die 5090 mit der 6090 auszustechen!

robbitop

2025-06-22, 14:32:59

Die Architektur ist 20% schneller und 2x RT. Nicht ein konkreter Chip. Entsprechend wäre das basierend auf einer normierten Metrik zB pro WGP oder pro TFLOP oder pro mm2 oder pro Transistor etc.

Neurosphere

2025-06-22, 14:54:06

Pro CU, steht auch im Artikel bzw den Posts von Kepler.

OgrEGT

2025-06-22, 16:54:53

20% über N48
Wäre gerade mal 5080 TI / 4090 Performance wenn man die aktuellen Treiber berücksichtigt
N48 ist dato 20 bis 30% hinter einer 4090,- und wenn Treiber mal richtig Final sind wohl nur mehr 20% von der 4090 entfernt.
Da hat NV leichtes Spiel die 5090 mit der 6090 auszustechen!
Da wäre ich mir nicht so sicher... die 5090 zeigt ja schon dass die Architektur in eine Sackgasse geraten ist... das mehr an Recheneinheiten Speicherbandbreite und Leistungsaufnahme steht in keinem Verhältnis zum Performance Plus im Vergleich zur 4090... für die 6090 muss sich NV auch wieder etwas neues einfallen lassen...

Sunrise

2025-06-22, 17:03:15

Wäre gerade mal 5080 TI / 4090 Performance wenn man die aktuellen Treiber berücksichtigt
Was gemessen am Schnitt wohl absolut ausreichend ist. Ich kaufe mir lieber die alte Gen als NV diese horrenden Margen zu bezahlen.

Nakai

2025-06-22, 17:11:00

Spekulierte Prozentzahlen bzgl. IPC-Uplift oder Performancesteigerungen für die Nextgen sind bei AMD bisher immer in die Hose gegangen. Woher soll der Uplift kommen? Das ist doch viel wichtiger.

robbitop

2025-06-22, 18:12:55

Bei RDNA1 und RDNA3 und RDNA4 stieg die Leistung pro CU/WGP taktnormiert ggü. ihren Vorgängern. Bei RDNA2 blieb sie gleich aber es gab dafür deutlich mehr Takt.

gedi

2025-07-03, 22:30:56

Anscheinend scheint RDNA5 aka UDMA1, bereits auf MI400x basieren. Wie wahrscheinlich ist es, dass HBM wieder Einzug erhält? Gerade gelesen, dass die nächste Gen an Huawei-Smartphones auf HBM setzen wird.

robbitop

2025-07-04, 06:00:17

Das hängt vom Preis (des Speichers und der zusätzlichen Packaging cost) und der Verfügbarkeit ab. Bis dato war gddr günstiger und AI hat alles an hbm weggekauft. Die technisch bessere / sparsamere Lösung ist HBM.
Die Wahl des Speichers ist allerdings nicht unbedingt an die ISA (udna) geknüpft. Der IMC IP Block ist schon relativ separat.

bbott

2025-07-04, 16:41:11

Anscheinend scheint RDNA5 aka UDMA1, bereits auf MI400x basieren. Wie wahrscheinlich ist es, dass HBM wieder Einzug erhält? Gerade gelesen, dass die nächste Gen an Huawei-Smartphones auf HBM setzen wird.
AMD würde dann von GDDR6 auf HBM wechseln und GDDR7 links liegen lassen? Eher unwahrscheinlich, zumal der Preis immer noch sehr exklusiv ist.
Die Bandbreie sollte mit 384/512 bit und GDDR7 auch ausreichend sein. NVs 5000er nutzt die Bandbreit ja nicht wirklich aus.
Die Paar Nerds die wegen HBM zu AMD greifen dürfe die, Mehrkosten nicht rechtfertigen :freak:

AffenJack

2025-07-04, 17:17:45

Anscheinend scheint RDNA5 aka UDMA1, bereits auf MI400x basieren. Wie wahrscheinlich ist es, dass HBM wieder Einzug erhält? Gerade gelesen, dass die nächste Gen an Huawei-Smartphones auf HBM setzen wird.

Überhaupt nicht wahrscheinlich, dafür ist HBM viel zu teuer.

Huawei ist ne ganz andere Sache, weil die an Sanktionen vorbei versuchen selbst zu produzieren. Da weiß man aber nicht, wieviel das ganze überhaupt noch mit HBM zutun hat, wie er sonst spezifiziert ist. Kann völlig anderer gestapelter Speicher sein, der viel mehr auf Preis optimiert ist.

HBM bei Hynix und Konsorten ist im Moment ohne Rücksicht auf Preis auf Bandbreite und Kapazität hochgezüchtet und wird mit jeder Ausbaustufe teurer pro GB.

The_Invisible

2025-07-04, 17:34:06

Gddr7 reicht locker, mit 512bit kommt man da auf über 2tb/s wenn man will. Hbm bei AMD war damals technisch schon interessant aber die 1tb/s hat noch keine GPU gebraucht

robbitop

2025-07-04, 20:36:37

Ggf jetzt mal eine kurze Modeerscheinung wo Nvidia bei Samsung HBM abgesprungen ist weil die nicht in der geforderten Güte liefern können. Entsprechend müssen die an den Mann gebracht werden. :)

TMF

2025-07-15, 17:16:28

Ich will mal spekulieren mit welchen VRAM AMD in der nächsten Generation antritt, da diese Generation (RDNA4) für AMD denke ich durch ist. Ich glaube ja, da 8gb für die Einstiegskarten bei den Testern verbrannt sind, wird AMD bei der Einstiegskarten mit den 3gb GDRR7 Bausteinen eine 12gb Karte anbitten. Darauf aufbauend wird es glaube ich dann gestaffelt dann 24gb/36gb und 48gb geben, wenn AMD bei UDNA wieder eine High-end Grafikkarte anbitten wird. Was meint ihr? Ist das zu optimistisch oder denk ihr AMD wird bei den 2gb GDRR7 bleiben.

Der_Korken

2025-07-15, 17:28:58

Imho haben 2GB-Bausteine ein zu schlechtes Verhältnis von Kapazität und Durchsatz. Man sieht bereits bei der 9070, dass 20Ghz@256bit genügend Durchsatz bieten und die 16GB fast schon eher limitieren. Wenn man durch GDDR7 den Durchsatz nochmal um 50% erhöht, wird das Missverhältnis ja sogar noch größer, so wie bei Blackwell. Man braucht eigentlich 3GB-Chips, um das aktuelle Verhältnis beizubehalten.

Wie genau die Einteilung in irgendwelche Modelle aussehen wird, ist aktuell völlig unklar. Wir haben ja noch nichtmal Anhaltspunkt und ob und inwiefern AMD auf Chiplet-Lösungen setzen wird.

basix

2025-07-16, 10:42:12

Bei schmalen Karten ist das sicher richtig. Aber 16GB bei 256bit sind jetzt kein Showstopper und spätestens ab 384bit ist 2GB pro Package für Gamer genug.

Der_Korken

2025-07-16, 10:46:11

Bei schmalen Karten ist das sicher richtig. Aber 16GB bei 256bit sind jetzt kein Showstopper und spätestens ab 384bit ist 2GB pro Package für Gamer genug.

384bit SI mit GDDR7 wäre mehr als doppelt so viel wie eine 9070XT aktuell an Bandbreite hat. Da bräuchtest du eine GPU vom Kaliber eines GB102, damit die nicht in Bandbreite ersäuft und dann sind 24GB auch nicht mehr so üppig.

basix

2025-07-16, 11:32:43

Dann erzähl uns bitte, wo 24 GByte in irgendeiner Form limitieren. Bei Gaming, wie ich bereits angemerkt hatte. ML/AI sind andere Themen.

Ich habe eine 24GB Karte und selbst bei 8K und Pathtracing ist nicht 24GByte das Problem, sondern die Performance. Bei 4K sind 24GB nirgends auch nur annähernd komplett belegt.

Hey, ich sage nicht nein zu mehr Speicher. Nehme ich gerne. Aber ausserhalb von sehr speziellen Szenarien sind 24GByte genug. Ob 384bit und 24GByte oder 256bit und 24GByte sind mal egal. 16GByte dürften für das allermeiste auch ausreichen, auch in 2026/2027 und 4K. Würde ich 2026/2027 eine neue 16GByte Karte für 4K kaufen? Vermutlich nicht, wenn ich sie 3-4 Jahre behalten will. Habe ich heute bereits eine 16GB Karte: Wird ganz OK sein.

Raff

2025-07-16, 11:36:16

Imho haben 2GB-Bausteine ein zu schlechtes Verhältnis von Kapazität und Durchsatz. Man sieht bereits bei der 9070, dass 20Ghz@256bit genügend Durchsatz bieten und die 16GB fast schon eher limitieren. Wenn man durch GDDR7 den Durchsatz nochmal um 50% erhöht, wird das Missverhältnis ja sogar noch größer, so wie bei Blackwell. Man braucht eigentlich 3GB-Chips, um das aktuelle Verhältnis beizubehalten.

Wie genau die Einteilung in irgendwelche Modelle aussehen wird, ist aktuell völlig unklar. Wir haben ja noch nichtmal Anhaltspunkt und ob und inwiefern AMD auf Chiplet-Lösungen setzen wird.

Das ist 'ne reine Balancing-Frage. RDNA 4 holt wirklich enorm viel aus der geradezu lächerlichen Speichertransferrate heraus. AMDs Ingenieure haben hier IMHO sehr Großes geleistet, was die Cache-Hierarchie angeht. Werden die Caches noch fetter, braucht man wohl selbst mit einem verdoppelten Navi 44 keinen GDDR7 - zumindest nicht für Spiele. Ich finde diese Generation ja wirklich spannend, da es mal anders herum ist: Nvidia klotzt mit hohen Transferraten, die (beim Gaming) nix bringen, wie einst AMD (HBM, hi! :D).

MfG
Raff

basix

2025-07-16, 11:44:38

Vom Schiff aus betrachtet ist die Bandbreiteneffizienz von RDNA4 etwa vergleichbar mit Lovelace und Blackwell. Also schon mal ziemlich gut. RDNA5 dürfte da noch was drauflegen: "Richtige" out of order execution, shared/merged L0 (zumindest pro WGP), neues VOPD3 Encoding welches fast immer appliziert werden kann was die IPC steigern wird (weniger Instruktionen pro Task = verbesserte Register- und Cacheauslastung / höhere Bandbreiteneffizienz)

GDDR7 ist allerdings schon nice. Es erlaubt flexiblere Produktgestaltung in Richtung einer sinnvollen Konfiguration (Busbreite, 2/3GByte Packages). 8GByte sind 2025 nicht mehr zeitgemäss.

Damit kann man z.B. sowas machen:
- 128bit = 12GB
- 192bit = 18GB
- 256bit = 24GB
- 384bit = 24GB
- 512bit = 32GB

Nirgends zu wenig. Nirgends "zu viel".

Raff

2025-07-16, 12:07:03

Perfekte Mengen, in sofern natürlich Full Ack. Warum hat das eigentlich niemand bei GDDR6 gebaut?

MfG
Raff

dargo

2025-07-16, 12:20:45

GDDR7 ist allerdings schon nice. Es erlaubt flexiblere Produktgestaltung in Richtung einer sinnvollen Konfiguration (Busbreite, 2/3GByte Packages). 8GByte sind 2025 nicht mehr zeitgemäss.

Damit kann man z.B. sowas machen:
- 128bit = 12GB
- 192bit = 18GB
- 256bit = 24GB
- 384bit = 24GB
- 512bit = 32GB

Nirgends zu wenig. Nirgends "zu viel".
Nur weil man was machen kann heißt es noch lange nicht, dass es sich wirtschaftlich lohnt. Wir haben seit einem halben Jahr GDDR7 im Gamingsektor und nirgends sieht man 3GB Speicherchips verbaut.

The_Invisible

2025-07-16, 12:25:35

Nur weil man was machen kann heißt es noch lange nicht, dass es sich wirtschaftlich lohnt. Wir haben seit einem halben Jahr GDDR7 im Gamingsektor und nirgends sieht man 3GB Speicherchips verbaut.

Doch RTX5090 Mobile und RTX 6000 Pro ;)

mboeller

2025-07-16, 12:26:52

Nur weil man was machen kann heißt es noch lange nicht, dass es sich wirtschaftlich lohnt. Wir haben seit einem halben Jahr GDDR7 im Gamingsektor und nirgends sieht man 3GB Speicherchips verbaut.

Notebooks: RTX5090 sind soweit ich weiß die einzigen mit 3Gbit Speicherchips

dargo

2025-07-16, 12:29:46

Doch RTX5090 Mobile und RTX 6000 Pro ;)
Überraschung... anderes Preissegment. :rolleyes:

Notebooks: RTX5090 sind soweit ich weiß die einzigen mit 3Gbit Speicherchips
Ja... weil du dort die Kosten besser unterbringen kannst. Viel interessanter ist es wann das in das günstige dGPU Segment kommt. Also bsw. bei einer 128Bit 5060/9060. Dort wird das dringend benötigt um von dem Quatsch @8GB weg zu kommen. Auch eine 5070/9070GRE würde mit 18GB einiges interessanter erscheinen.

Windi

2025-07-16, 12:33:47

Warum hat das eigentlich niemand bei GDDR6 gebaut?

Man fängt halt nicht mit der Produktion an, wenn die Kunden (Nvidia, AMD, ....) es nicht verbauen wollen.

Das kommt ja jetzt nur, da der Endkunde sie dazu zwingt.

basix

2025-07-16, 12:40:06

Nur weil man was machen kann heißt es noch lange nicht, dass es sich wirtschaftlich lohnt. Wir haben seit einem halben Jahr GDDR7 im Gamingsektor und nirgends sieht man 3GB Speicherchips verbaut.

Das ändert sich Ende 2025 / Anfang 2026. Bei den Blackwell Super Refreshes wird ja von 3GB Bausteinen gesprochen. Werden wir also schon noch zu Gesicht bekommen ;)

Wenn Nvidia glaubt, dass man 2025 noch 8GB Karten für 400$ und 12GB Karten für 600$ verkaufen kann, ist dass ihre Einschätzung. 2026 wird das anders aussehen, der "zu wenig VRAM Gegenwind" ist deutlich zu spüren. Bei Reviewern wie auch bei Kunden.

Der_Korken

2025-07-16, 13:06:04

Dann erzähl uns bitte, wo 24 GByte in irgendeiner Form limitieren. Bei Gaming, wie ich bereits angemerkt hatte. ML/AI sind andere Themen.

Ich habe eine 24GB Karte und selbst bei 8K und Pathtracing ist nicht 24GByte das Problem, sondern die Performance. Bei 4K sind 24GB nirgends auch nur annähernd komplett belegt.

Hey, ich sage nicht nein zu mehr Speicher. Nehme ich gerne. Aber ausserhalb von sehr speziellen Szenarien sind 24GByte genug. Ob 384bit und 24GByte oder 256bit und 24GByte sind mal egal. 16GByte dürften für das allermeiste auch ausreichen, auch in 2026/2027 und 4K. Würde ich 2026/2027 eine neue 16GByte Karte für 4K kaufen? Vermutlich nicht, wenn ich sie 3-4 Jahre behalten will. Habe ich heute bereits eine 16GB Karte: Wird ganz OK sein.

Ich finde es relativ schwer den Speicherverbrauch richtig einzuschätzen, da er nicht so richtig mit der Rechenleistung skaliert, sondern eher mit den Spielen und dem Content. Bisher habe ich noch nirgendwo Beschwerden vernommen, dass die 9070XT mit 16GB unterversorgt wäre. Die neulich getestete 9070GRE ist ziemlich genau 3/4 so schnell wie eine 9070XT und hat auch 3/4 des Speichers, aber sie fällt in den Reviews trotzdem deutlich sichtbar ab durch ihren zu kleinen Speicher. Die 9060XT kommt auf knapp 60% der Leistung der 9070XT im harten GPU-Limit, aber würde man sie mit den ihr rechnerisch zustehenden 9,6GB ausstatten, würde sie in der Luft zerrissen werden, so wie das 8GB-Modell. Am liebsten hätte man heute am liebsten 16GB - von Lowend wie Highend.

Das liegt sicher auch daran, dass in der Regel mit vollen Details spielt (d.h. volle Sichtweite, Objekte und Texturen) und die Leistung über die Auflösung und Upscaling-Qualität anpasst. Letzteres kostet aber bei weitem nicht so viel Speicher wie es Rechenleistung kostet. Wenn ich jetzt 384bit GGDR7 mit 30Gbps ansetze, dann ist das die 2,25x-fache Bandbreite der 9070XT. Eine entsprechend schnelle GPU läge (abseits von Pathtracing) etwa 20% oberhalb einer 5090. In heutigen Spielen würde man mit 24GB sicherlich auskommen, da man die ganze Rechenleistung in die Auflösung oder Raytracing stecken kann. Man wird damit aber noch jahrelang gut in Spielen unterwegs sein, aber bis dahin sind die 24GB wahrscheinlich überholt.

dargo

2025-07-16, 13:12:46

Das ändert sich Ende 2025 / Anfang 2026. Bei den Blackwell Super Refreshes wird ja von 3GB Bausteinen gesprochen. Werden wir also schon noch zu Gesicht bekommen ;)

Pfff... erstmal die Preise der Karten damit abwarten. Du sprichst da gerade von Nvidia. ;) Nur zur Erinnerung... 5070 und 5070TI trennen ganze 250€ aktuell. So wie ich Nvidia kenne werden die sich die 18GB bei einer 5070 fürstlich bezahlen lassen, ist ja auch genug Platz im Preissegment vorhanden.

memory_stick

2025-07-16, 14:21:08

Ich hätte die 9070XT auch lieber mit 24GB gehabt, aber gibts nunmal momentan nur mit GDDR7... Nur weil die Leute bei den 16GB nicht abhaten bedeutet nicht das mehr (20-24GB) nicht angemessener für die Rechenleistung und Auflösungen wären.
Dazu kommt, wenn flächendeckend mehr Speicher verfügbar ist die studios diesen auch zu nutzen wissen. Und wenns nur zur Minimierung der Traversal stutters dient

mczak

2025-07-16, 16:52:13

Eigentlich sind ja auch 24 gbit Chips eher noch zu klein, zumindest bei low-end Karten.
Falls AMD bei UDNA1 eine Einstiegslösung anbieten will die nicht allzu viel schneller als N44 ist (war ja ziemlich gross für den kleinsten Chip, aber man hatte halt auch bloss 2), dann würde dafür von der Bandbreite her ja auch 96 bit 32 gbps gddr7 reichen (+20% Bandbreite gegenüber 128 bit 20 gbps gddr6). Man möchte ja auch nicht unnötig Fläche im SI verballern. Damit wären aber selbst bei 24 gbit Chips bloss 9GB möglich (ansonsten wiederum Clamshell-Lösung mit dann 12 bzw 18 GB bei Verwendung von 16 / 24 gbit Chips).
Von 32 gbit Chips ist ja ausser in den Spezifikationen von gddr7 noch nirgendwo die Rede (finde es sowieso ganz interessant dass die 24 gbit Chips die Samsung offensichtlich verkauft offiziell im Produktkatalog noch nicht mal existieren, auch nicht mit Sampling-Status).
Wird allerdinsg wohl kaum passieren (AMD hat eigentlich auch noch nie Chips mit "schrägen" SIs angeboten, mit Ausnahme von 384 bit bei High-End Chips).
Allenfalls wenn man "zuviel" Bandbreite hat könnte man natürlich den LLC etwas verkleinern, dass man sonst bei Bandbreitenoptimierung zurückrudert ist wohl auszuschliessen.

Der_Korken

2025-07-16, 17:33:47

Beim Cache frage ich mich ja schon seit RDNA2 wie sehr die GPUs von der höheren effektiven Bandbreite profitieren und wie sehr durch die kleineren durchschnittlichen Latenzen. Bei GPUs hat man immer gesagt, dass Latenzen keine Rolle spielen, weil man so viel parallele Arbeit hat, dass man Speicherzugriffe immer verstecken kann. Man sieht allerdings an AD102 und besonders GB102, dass die großen GPUs Probleme haben ihre PS auf die Straße zu bekommen. Das kann natürlich daran liegen, dass sie im Gegensatz zu den kleineren Chips nicht gut für Gaming-Last ausbalanciert sind. Es könnte aber auch sein, dass die Chips nicht genügend Threads generieren oder vorhalten können, um die SMs durchgängig zu beschäftigen. Hier würden kleinere Speicherlatenzen enorm helfen, weil man dann weniger Threads braucht, um die gleiche Hardware auszulasten. Mehr Bandbreite würde dagegen nur verpuffen. Afaik hatte man damals bei der Radeon VII die Performance durch VRAM-OC erhöhen können, obwohl das Teil völlig überversorgt mit Bandbreite war (doppelt so viel wie die gleichschnelle 1080Ti und die 25% langsamere Vega 64).

basix

2025-07-16, 19:23:36

Pfff... erstmal die Preise der Karten damit abwarten. Du sprichst da gerade von Nvidia. ;) Nur zur Erinnerung... 5070 und 5070TI trennen ganze 250€ aktuell. So wie ich Nvidia kenne werden die sich die 18GB bei einer 5070 fürstlich bezahlen lassen, ist ja auch genug Platz im Preissegment vorhanden.

Preise werden steigen, das ist klar. Momentan sind 850$ für die 5070TiS und 1150$ für die 5080S im Gespräch. Beides nicht wirklich attraktiv, verglichen zu den 16GByte Vorgängern.

Die 5070S mit 18GB dürfte bei bestenfalls 600$ landen. Mehr darf sie aber eigentlich auch nicht kosten, da sie die 9070 und 9070XT als Konkurrenz hat.

robbitop

2025-07-16, 19:31:14

Beim Cache frage ich mich ja schon seit RDNA2 wie sehr die GPUs von der höheren effektiven Bandbreite profitieren und wie sehr durch die kleineren durchschnittlichen Latenzen. Bei GPUs hat man immer gesagt, dass Latenzen keine Rolle spielen, weil man so viel parallele Arbeit hat, dass man Speicherzugriffe immer verstecken kann. Man sieht allerdings an AD102 und besonders GB102, dass die großen GPUs Probleme haben ihre PS auf die Straße zu bekommen. Das kann natürlich daran liegen, dass sie im Gegensatz zu den kleineren Chips nicht gut für Gaming-Last ausbalanciert sind. Es könnte aber auch sein, dass die Chips nicht genügend Threads generieren oder vorhalten können, um die SMs durchgängig zu beschäftigen. Hier würden kleinere Speicherlatenzen enorm helfen, weil man dann weniger Threads braucht, um die gleiche Hardware auszulasten. Mehr Bandbreite würde dagegen nur verpuffen. Afaik hatte man damals bei der Radeon VII die Performance durch VRAM-OC erhöhen können, obwohl das Teil völlig überversorgt mit Bandbreite war (doppelt so viel wie die gleichschnelle 1080Ti und die 25% langsamere Vega 64).

Ist aber auch eine Frage der Parallelisierung ab einem gewissen Punkt die SMs/CUs alle auszulasten. Nicht umsonst werden viele Transistoren investiert, den Takt zu erhöhen oder pro SM/CU mehr herauszuholen. Ansonsten wäre es billiger gewesen, CUs/SMs endlos hochzuskalieren.

dargo

2025-07-16, 19:38:13

Ist aber auch eine Frage der Parallelisierung ab einem gewissen Punkt die SMs/CUs alle auszulasten. Nicht umsonst werden viele Transistoren investiert, den Takt zu erhöhen oder pro SM/CU mehr herauszuholen. Ansonsten wäre es billiger gewesen, CUs/SMs endlos hochzuskalieren.
Wie meinst du das? CUs/SMs hochskalieren kostet Fläche. Und je kleiner der Node umso teurer gleichgroße Fläche. Ich kann mir nicht vorstellen, dass dieser Weg billiger wäre.

robbitop

2025-07-16, 20:36:26

Die CUs/SMs kosten von Gen zu Gen oft immer mehr Transistoren. Oftmals ordentlich viel mehr. In Summe mehr als hätte man zB nur die alten höher zu skalieren (transistornormiert hätte man oft mehr tflops mit mehr alten CUs/SMs erreichen können). ZB hätte man mit dem Transistorbudget von N31 sicherlich auch einfach 2xN21 machen können - also 160 CUs - hätte aber nicht so toll funktioniert - Auslastung. Oder statt AD102 hätte es für 2,7x GA102 gereicht. Also 226 SMs. Gleiches bei Kepler -> Maxwell -> Turing -> Volta. Aber Auslastung ist ab einem gewissen Punkt ein Thema weswegen Transistoren oftmals überproportional in die CUs/SMs selbst investiert werden um mehr Takt und IPC zu holen.

Der_Korken

2025-07-16, 21:20:05

Ist aber auch eine Frage der Parallelisierung ab einem gewissen Punkt die SMs/CUs alle auszulasten. Nicht umsonst werden viele Transistoren investiert, den Takt zu erhöhen oder pro SM/CU mehr herauszuholen. Ansonsten wäre es billiger gewesen, CUs/SMs endlos hochzuskalieren.

Das verstehe ich. Ich frage mich nur inwiefern es hilft überhaupt weniger Daten anfassen zu müssen, damit die CUs/SMs genug zu tun haben. Theoretisch müsste eine kleinere Speicherlatenz sogar den Registerdruck etwas senken, weil ich pro CU/SM weniger Threads zum durchswappen brauche, oder? Aber ich glaube ich schweife hier etwas vom Thema ab :freak:.

gedi

2025-07-16, 22:23:59

Was Sachliches: X geht davon aus, dass MI400 und UDNA (annähernd) zeitgleich released werden.

samm

2025-07-17, 08:45:43

Was Sachliches: X geht davon aus, dass MI400 und UDNA (annähernd) zeitgleich released werden.MI400 und UDNA? D.h. MI400 wird *nicht* UDNA sein, sondern noch CDNA sein? Würde ja das "U" ad absurdum führen, wenn nur RDNA einfach durch UDNA ersetzt würde, aber CDNA CDNA bleibt.

HOT

2025-07-20, 08:28:47

https://wccftech.com/amd-rdna-5-udna-gpus-up-to-96-compute-units-256-bit-memory-bus-64-32-cu-variants/

Scheinen alle monolithisch zu sein. 384Bit GDDR7 wäre als 36GB-Config denkbar.

robbitop

2025-07-20, 08:45:05

Anscheinend ist der chiplet Ansatz für GPUs (noch) zu teuer (packaging) und hat zu starke Nachteile in der Energieeffizienz (auch wenn dank modernem Packaging die zusätzlichen Kosten in pJ/bit klein sind, sind die Bandbreiten die da genutzt werden so hoch, dass es dann eben doch ins Gewicht zu fallen scheint)

HOT

2025-07-20, 09:12:07

Ich glaube eher, dass das ein Kapazitätsproblem ist. Die Instincts sind ja heftig auf Chiplets und die CPUs und APUs brauchen auch Kapazitäten, die PS6 kommt auch hinzu, ich denke, man wird einfach nicht alles auf eine Karte setzen wollen. So groß ist der Grafikkartenmarkt nicht für AMD. RDNA3 hat bewiesen, dass es funktioniert, die Probleme bei der Architektur sind ja die fressenden CUs, nicht die Chiplets. Aber es wird einfach ein Kapazitätsproblem sein.

robbitop

2025-07-20, 09:26:34

Kapazitätsproblems = Kosten. Weil Nachfrage / Angebot den Preis bestimmen.

PS6: das sind early rumors - warten wir erstmal ab. Aber selbst wenn: das ist ein simpler Interconnect zwischen CCD und GPU. Da gibt es verglichen zu dem wenn du eine GPU aufspalten willst keine großen Bandbreitenanforderungen und der dort verwendete Interconnect wird sicherlich auch weniger komplex.

RDNA3 und der Rückgang bei RDNA4 hat eher gezeigt, dass es eine potentielle Fehlentscheidung war. Und dessen Energieeffizienz war auch nicht gerade ein Musterbeispiel.
Weiterhin hat N31/32 gerade mal den billig Interconnect Info-R benutzt und die GPU nicht richtig aufgespalten sondern nur den IMC und IF$ ausgelagert. Also eher easy mode. Der heilige Gral auf den seit Navi2 spekuliert wird ist es GCDs zu skalieren. Und das ist nochmal eine ganz andere Nummer.

Zur Klarstellung: all das ist ein moving target da sich Technolgien entwickeln und Kosten senken. Das muss also nicht in Stein gemeißelt sein. Aber noch scheint eine disaggreggierung einer Gaming GPU nicht sinnvoller zu sein.

dildo4u

2025-07-20, 09:45:40

N3 könnte gut genug für den Zen 6 Block sein aber nicht UDNA was diesen Aufbau erklärt.
Die Konsole läuft eh nicht mit 7 GHz was vermutlich nur mit N2P/X machbar ist.

robbitop

2025-07-20, 09:49:49

Naja ist auch alles eine Frage der Kosten. HW darf nicht teuer sein in Konsolen. Ökonomie ist ein primärer Faktor.
Und das mit den 7 GHz bei Zen 6 -> ich finde da darf man skeptisch bleiben. Nicht dass der hype train wieder (wie so oft) entgleist. Nodes allein haben große Taktsprünge seit Generationen nicht mehr ermöglicht bei CPUs.

dildo4u

2025-07-20, 10:03:51

Ja klar es geht nicht eine spezielle GHz Zahl sondern darum das die Konsole deutlich effizienter läuft als Desktop Zen.
Strix ist schon aktuell konversativ um 5 GHz was vermutlich reichen würde für eine geschlossene Box.

Badesalz

2025-07-20, 10:09:38

Zur Klarstellung: all das ist ein moving target da sich Technolgien entwickeln und Kosten senken. Das muss also nicht in Stein gemeißelt sein. Aber noch scheint eine disaggreggierung einer Gaming GPU nicht sinnvoller zu sein.Ich sehe das auch nicht kommen, weil es imho keinen Schuh gibt was hier ausreichend drückt. Das ist nicht mehr weit bis auch GFX so ausentwickelt ist wie es ein Zen7 oder TitanCove ausentwicklet sind. Danach wir vieles, jedenfalls heimich, wayne sein. Da ja kaum jemand Bock auf 8k hat werden Auflösungen auch nicht weiter antreiben.
Das gleiche gilt für die Pseudonerds. Die bewegen den Markt nicht und die Monitorhersteller machen schon ne Weile keinen mehr verrückt. 144 und gut ist.

Wenn das allerdings eh auf UDNA Instinct basiert, dann kann das wiederum "billig" werden, weil ahh... Randabfall-Produkt :tongue: Die PS6 wird das nicht haben, wird aber eindeutig so ballern.

Selbst wenn wir den Ansatz komplett auf links drehen (Bolt "Zeus"?) scheint das nicht notwendig.

HOT

2025-07-20, 12:14:23

Kapazitätsproblems = Kosten. Weil Nachfrage / Angebot den Preis bestimmen.

PS6: das sind early rumors - warten wir erstmal ab. Aber selbst wenn: das ist ein simpler Interconnect zwischen CCD und GPU. Da gibt es verglichen zu dem wenn du eine GPU aufspalten willst keine großen Bandbreitenanforderungen und der dort verwendete Interconnect wird sicherlich auch weniger komplex.

RDNA3 und der Rückgang bei RDNA4 hat eher gezeigt, dass es eine potentielle Fehlentscheidung war. Und dessen Energieeffizienz war auch nicht gerade ein Musterbeispiel.
Weiterhin hat N31/32 gerade mal den billig Interconnect Info-R benutzt und die GPU nicht richtig aufgespalten sondern nur den IMC und IF$ ausgelagert. Also eher easy mode. Der heilige Gral auf den seit Navi2 spekuliert wird ist es GCDs zu skalieren. Und das ist nochmal eine ganz andere Nummer.

Zur Klarstellung: all das ist ein moving target da sich Technolgien entwickeln und Kosten senken. Das muss also nicht in Stein gemeißelt sein. Aber noch scheint eine disaggreggierung einer Gaming GPU nicht sinnvoller zu sein.

Vollkommen richtig. RDNA3 ist in Kapazitätsprobleme und dadurch zu hohe Kosten gelaufen, daher konnte AMD hier auch keinen Boden gutmachen, obwohl N32 konkurrenzlos war. Daher erhält man sich die Flexibilität, die man mit zwar größeren, aber monolithischen Dies hat, man kann, selbst wenn man in die Grenzen der Packagefertigung stößt, einfach weiterproduzieren.
Ich denke aber auch, dass UDNA N3P ist, sowohl auf der Playsi als auch im GPU-Markt. NV wird auf keinen Fall auf N2 setzen so früh im Consumerbereich und N3P ist einfach billiger, wahrscheinlich grade für die großen Chips.

robbitop

2025-07-20, 13:00:45

Ich sehe das auch nicht kommen, weil es imho keinen Schuh gibt was hier ausreichend drückt. Das ist nicht mehr weit bis auch GFX so ausentwickelt ist wie es ein Zen7 oder TitanCove ausentwicklet sind. Danach wir vieles, jedenfalls heimich, wayne sein.
Finde ich einen interessanten Gedanken. Es kommt immer auf die subjektive. Vorlieben und Wahrnehmung an. Aber meine persönliche Sicht bis dato: RT kostet fast immer deutlich überproportional mehr als die subjektiven BQ Gewinne es rechtfertigen. Und da gibt es noch viel mehr Verschwendungen in der Frametime in modernen Spielen. Da wird dann HW Leistung verballert in Zeiten wo dessen Geschwindigkeitswachstum und Wachstum in P/L so schlecht ist wie nie zuvor. Interactive Threads (ein YouTube Kanal von einem zugegeben überkritischen Entwickler nimmt öfter mal Frametimes moderner vs 10 Jahre alter Spiele auseinander und zeigt auf was es optisch bringt. Gerade oft UE5 Titel wirken da ziemlich verschwenderisch).

Wenn man Gamesettings etwas optimiert verliert man oft kaum BQ gewinnt aber deutlich Leistung. Und dank modernem NN Upsampling spart man nochmal und erhält gleichzeitig gutes AA. Dank FG gibt es ausgehend von hohen zweistelligen Bildraten auch nochmal mehr Flüssigkeit. Wenn man das alles nutzt, kann man schon mit Midrange HW oder auch älterer HW super spielen. Selbst eine 2080ti in Kombination mit Optiscaler kommt bei vielen Spielen noch gut nach vorn (DLSS und OptiFG oder FSR FG), eine 3080 (hier muss man Texture Details eine Stufe runter stellen) oder 6800xt um so mehr (6800 dann mit fsr3.1 oder xess.
Solange man obiges nutzt und technischen Müll vermeidet kommt man immer noch gut klar. Ansonsten mit modernen Midrange GPUs mit noch weniger Einschnitten.

IMO sieht Spielegrafik aber auch schon eine Weile lang so gut aus, dass es dem Spielspaß nicht mehr im Wege steht. Klar besser geht immer aber IMO ist gutes Gameplay wichtiger. Sieht man ja auch auf der Switch 2. Hübsch genuge Spiele, und auch sehr gute Spiele. Mir macht es jedenfalls nicht mehr Spaß wenn ich path Tracing aktiviere (dank Blackwell möglich - aber mich kitzelt es nicht lange. Klar es gibt einen kurzen Wow Moment und dann hat man sich wieder dran gewöhnt - der tiefe Performance Hit hingegen bleibt)

Ein Stück weit wirkt es manchmal so dass manche Spiele dann wieder die HW Verkäufe ankurbeln sollen.

Jetzt könnt ihr mich steinigen X-D

Zossel

2025-07-20, 15:56:57

Jetzt könnt ihr mich steinigen X-D

Es gibt ja immer diese Vergleichsbilder mit oder ohne $FOO. Einfach mal die diese Vergleichsbilder als Doppelblindtest bewerten lassen.

Badesalz

2025-07-20, 16:58:56

@robbi
Also das Thema was schon gut genug ist, was es schon gab, hab ich weniger. Ich meinte eher 6er NVs oder halt UDNA.

basix

2025-07-21, 16:45:34

Ein paar weitere Hinweise von Kepler_L2 zu VOPD3 auf RDNA5:
https://forums.anandtech.com/threads/rdna-5-udna-cdna-next-speculation.2624468/page-22#post-41479801
Yeah, I do expect them to change the advertised core count with RDNA5, since VOPD will go from best-case scenario to average-case-unless-something-weird-happened scenario.

Im guten Fall können wir sowas wie Turing zu Ampere erwarten. Also 1.3x mehr Performance pro CU pro Cycle. In Anwendungen mit viel FP könnten wir deutlich öfter bei 2x landen (mehr auf App-Acceleration bezogen, weniger auf Gaming).

robbitop

2025-07-21, 19:25:06

Wobei man CU vs SM taktnormiert IIRC (außerhalb PT) jetzt schon mit RNDA4 schon minimal vornliegt ggü Blackwell.

OgrEGT

2025-07-22, 13:11:11

https://www.techpowerup.com/339101/amds-upcoming-udna-rdna-5-gpu-could-feature-96-cus-and-384-bit-memory-bus

AMD's Upcoming UDNA / RDNA 5 GPU Could Feature 96 CUs and 384-bit Memory Bus
Mass Produktion Q2 2026
Es werden auch 64CU 256bit und 32CU 128bit Ableger genannt... ob das auf 32CU Chiplets hindeutet...?

robbitop

2025-07-22, 13:18:42

IIRC wohl alle monolithisch. Stand IIRC in dem ursprünglichen leak (der jetzt ja auch schon ein paar Tage alt ist)

OgrEGT

2025-07-22, 13:20:00

IIRC wohl alle monolithisch. Stand IIRC in dem ursprünglichen leak (der jetzt ja auch schon ein paar Tage alt ist)
Sorry übersehen...

BavarianRealist

2025-07-22, 13:21:24

Alleine wenn man sich die Preisentwicklung von TSMCs 4nm- und 3nm-Wafer ansieht, ergibt sich, dass eine 3nm-GPU günstiger (und wertvoller, da performanter/effizienter) ausfallen dürfte, weil die Dichte 1,5-fach ist, der Preis aber eher nur 1,25mal so hoch.

Schon alleine hieraus drängt sich mir der Gedanke auf, dass AMD sich für einen weitgehenden "einfachen" Shrink von RDNA4 entschieden haben könnte, da man so recht schnell eine leistungsfähigere GPU hinbekommen würde, die sich besser verkauften dürfte und am Ende selbst mit 96CU kaum mehr kosten dürfte, als die aktuelle N48. Weil man vermutlich kaum Verbesserungen einbringt, könnte man das Ding dann doch RDNA5 nennen statt UDNA...

KarlKastor

2025-07-22, 13:44:23

Die Logikdichte ist 1.6x. Analog aber maximal 1.1x und SRAM schiebt ne Nullnummer.
Eine GPU wird dann etwa nen Faktor 1.3x sein. Und das ist im Vergleich zu N5. Im Vergleich zu N4 sind dann <1.25.

Zossel

2025-07-22, 14:18:35

Die Logikdichte ist 1.6x. Analog aber maximal 1.1x und SRAM schiebt ne Nullnummer.
Eine GPU wird dann etwa nen Faktor 1.3x sein. Und das ist im Vergleich zu N5. Im Vergleich zu N4 sind dann <1.25.

Das Thema Cache auf separaten Dies würde ich auch auch nicht als abgeschlossen betrachten.

Orko

2025-07-22, 14:36:24

Das Thema Cache auf separaten Dies würde ich auch auch nicht als abgeschlossen betrachten.

Darauf hoffe ich auch.

Der Chiplet Ansatz mit RDNA3 war wohl etwas suboptimal, mit der Aufsplittung des Caches auf viele Chips und den energieintensieven Chip/Chip Verbindungen.

Das Ryzen 5 Setup sehe ich da als besser geeignet an:
(Infinity) Cache Chip unten, Graphik-Compute-Chip oben
Wenn es Thermisch machbar ist, auch die Memory Controller im unteren Chip.

Aber wenn sowas kommt, ist immer noch die Frage wann genau.

BavarianRealist

2025-07-22, 15:14:42

...Das Ryzen 5 Setup sehe ich da als besser geeignet an:
(Infinity) Cache Chip unten, Graphik-Compute-Chip oben
Wenn es Thermisch machbar ist, auch die Memory Controller im unteren Chip.

Aber wenn sowas kommt, ist immer noch die Frage wann genau.

Hat AMD das dazu nötige KnowHow nicht schon weitgehend in Mi300/355 realisiert? Im Idealfall würde das verbleibende N5x-Die recht klein (<200mm²) und das Cache/I/O-Die dann evtl. gleich groß, sodass beide perfekt übereinander passen...

Der_Korken

2025-07-22, 15:15:51

Das Ryzen 5 Setup sehe ich da als besser geeignet an:
(Infinity) Cache Chip unten, Graphik-Compute-Chip oben
Wenn es Thermisch machbar ist, auch die Memory Controller im unteren Chip.

Aber wenn sowas kommt, ist immer noch die Frage wann genau.

Ist halt die Frage, ob man genug zum Auslagern in den unteren Chip hat. Die MCDs von N48 waren 150mm² groß, wobei hier noch was für die Offchip-Verbindung abziehen müsste. Vielleicht so 130mm² insgesamt. Zieht man all das von N48 ab, bleiben rechnerisch 220mm² übrig, wobei wir hier N6 vs N4 vergleichen. D.h. die ausgelagerten Sachen sind tendenziell etwas kleiner und der Rest (d.h. SEs, Display Out, Video Engine, PCIe) kommt vllt. eher bei 240mm² raus. Das ist schon eine große Diskrepanz. Theoretisch könnte man die mit noch mehr Cache auffüllen, aber damit ist ein Design irgendwann auch gesättigt. Zudem hat AMD die GDDR7-Karte noch nicht gespielt, womit bei gleichem SI theoretisch Raum für 96 CUs vorhanden wäre. Eigentlich müsste alles bis auf die SEs in den unteren Die, dann könnte es halbwegs passen. Aber, wie du schon sagst, wer weiß ob und wann sowas kommt, denn bisher hat AMD nur einen vorhandenen Cache durch Stacking erweitert. Logik auszulagern ist da sicherlich deutlich komplexer.

BavarianRealist

2025-07-22, 15:33:40

...Aber, wie du schon sagst, wer weiß ob und wann sowas kommt, denn bisher hat AMD nur einen vorhandenen Cache durch Stacking erweitert. Logik auszulagern ist da sicherlich deutlich komplexer.

Da wäre ja noch das Patent von AMD, das Coreteks hier gut beschreibt (https://www.youtube.com/watch?v=MEhYEEXGN3A). Demnach würde AMD daran schon länger arbeiten, ich würde schätzen, dass diese Entwicklung parallel zu RDNA4 gelaufen sein könnte, aber eben für RDNA4 noch nicht fertig war.

Zossel

2025-07-22, 16:26:37

Aber, wie du schon sagst, wer weiß ob und wann sowas kommt, denn bisher hat AMD nur einen vorhandenen Cache durch Stacking erweitert. Logik auszulagern ist da sicherlich deutlich komplexer.

Die Dinger bei RDNA3 sind doch ein reinrassiger LastLevelCache direkt vorm DRAM, Kohärenzthemata sind da eher nicht zu erwarten.

robbitop

2025-07-22, 17:15:21

Ein Speichercontroller steckt jeweils auch im MCD mit drin.

Zossel

2025-07-22, 19:33:41

Ein Speichercontroller steckt jeweils auch im MCD mit drin.

Die 3D-Cache CPUs gehen ab gut 220 Flocken los, daher ist das dieses Packaging wahrscheinlich nicht der exorbitante Kostenfaktor.

Also ein Die zum rechnen im fancy, latest and greatest Prozess zum rechnen on top auf einem weiteren Die mit Cache, Display-Kram, DRAM-Interface, PCIe, etc. im good-enough Prozess liegt IMHO nicht außerhalb der realen Möglichkeiten.
Genug Kontakte für einen breiten und daher sparsamen Datentransfer für den u.a. Cache-Zugriff sind da möglich.

Und man braucht keinen Switch der Strom säuft wie in dem Video oben, das Video klingt daher eher nach KI-Kram.
Welche Bandbreiten hat den der LLC bei den AMD-GPUs?

HOT

2025-07-22, 19:52:36

5500X3D incoming, wird weit weniger als 220€ kosten.

Lehdro

2025-07-23, 15:15:30

Welche Bandbreiten hat den der LLC bei den AMD-GPUs?
Kommt immer darauf an wie breit du den ansprichst. Zahlen für RDNA2 & 3 kannst du hier finden (https://chipsandcheese.com/p/microbenchmarking-amds-rdna-3-graphics-architecture).

basix

2025-07-23, 16:39:10

Wobei man CU vs SM taktnormiert IIRC (außerhalb PT) jetzt schon mit RNDA4 schon minimal vornliegt ggü Blackwell.

Das stimmt so nicht. 9060XT und 9070 sind ca. 1.05x langsamer pro FLOPS gegenüber 5060 Ti und 5070. Auch eine 5070 Ti ist 1.05x schneller als eine 9070XT, wenn man auf FLOPS normiert. Erst ein 5080 macht daraus eine glatte 1.0x verglichen mit einer 9070XT.

Zahlen sind dabei von CB (Taktraten = FLOPS sowie relative Raster-Performance).

Vielleicht sind 1.3x IPC-Erhöhung durch VOPD3 utopisch. Aber mehr IPC als bei Lovelace und Blackwell sollte definitiv drin liegen.

gedi

2025-07-23, 17:46:48

IIRC wohl alle monolithisch. Stand IIRC in dem ursprünglichen leak (der jetzt ja auch schon ein paar Tage alt ist)

Würde mich sehr wundern.

robbitop

2025-07-23, 18:27:24

Das stimmt so nicht. 9060XT und 9070 sind ca. 1.05x langsamer pro FLOPS gegenüber 5060 Ti und 5070. Auch eine 5070 Ti ist 1.05x schneller als eine 9070XT, wenn man auf FLOPS normiert. Erst ein 5080 macht daraus eine glatte 1.0x verglichen mit einer 9070XT.

Zahlen sind dabei von CB (Taktraten = FLOPS sowie relative Raster-Performance).

Vielleicht sind 1.3x IPC-Erhöhung durch VOPD3 utopisch. Aber mehr IPC als bei Lovelace und Blackwell sollte definitiv drin liegen.
IIRC gab es zum Launch auch reviews die es umgekehrt gezeigt haben. Aber 5% sind ehrlich gesagt die Diskussion nicht wert wenn man die Variabilität die zu erwarten ist in Betracht zieht (boost taktraten, grade des jeweiligen siliziums, hersteller tdps, treiber, spiele, szene usw). Sie sind außerhalb von RT/PT on par. Bei RT/PT kommt die fixed function HW von Nv zum Tragen die genau dafür gedacht ist.

robbitop

2025-07-23, 18:27:42

Würde mich sehr wundern.

Warum?

basix

2025-07-23, 21:27:06

IIRC gab es zum Launch auch reviews die es umgekehrt gezeigt haben. Aber 5% sind ehrlich gesagt die Diskussion nicht wert wenn man die Variabilität die zu erwarten ist in Betracht zieht (boost taktraten, grade des jeweiligen siliziums, hersteller tdps, treiber, spiele, szene usw). Sie sind außerhalb von RT/PT on par. Bei RT/PT kommt die fixed function HW von Nv zum Tragen die genau dafür gedacht ist.

Die Performancedaten sind von den CB Launchreviews der RDNA4 Karten bei Rasterizing only ;)

Anyways, gross ist der Unterschied nicht. Aber Nvidia macht trotzdem mehr aus den FLOPS. Mit den allerletzten Treibern (siehe verschiedene Meldungen, RDNA4 legte etwas zu und Blackwell wurde minimal langsamer) kommt bestenfalls Gleichstand raus.

Wenn man sich RDNA Code-Kompilate anschaut, sind VOPD Befehle allerdings immer noch eher rar gesät. Dort schlummert schon noch Potenzial.

gedi

2025-07-23, 22:04:50

Weil dies HBM-Vram voraussetzen würde. Ich tippe beim Big-Fish auf 8 MCDs mit GDDR6. Zudem erscheinen mir 96CUs als ziemlich mickrig...

HOT

2025-07-23, 22:28:32

Knapp 200 SMs bei 600W sind eben auch nicht so pralle. Wenn man bei 96CUs bleibt und um die 300W+ ist das völlig ok.

robbitop

2025-07-24, 09:01:50

Die Performancedaten sind von den CB Launchreviews der RDNA4 Karten bei Rasterizing only ;)

Gibt auch noch andere reviews als CB. :)
Aus Interesse: Von was genau hast du dir den kompilierten Shadercode angeschaut und wie hast du statistisch bewertet, dass es dual issue selten zum Einsatz kommt?
IIRC hat mksn7 bei RDNA3 festgestellt, dass der shadercompiler zunehmend wave64 ausspuckt (wo es ja weniger restriktionen für vopd gibt)

Die Frage ist wie oft es bei Blackwell zum Tragen kommt. mksn7 hat damals ja mal etwas mit Ampere herum gespielt und herausgefunden, dass auch dort sie 128x FP pro SM längst nicht immer zum Tragen kommen (vor allem im Vergleich zu Pascal).

Wahrscheinlich ist AMDs VOPD restriktiver aber am Ende scheint es bei beiden noch ordentlich Luft nach oben zu geben.

dildo4u

2025-07-25, 08:01:39

Gaming und Professionelle RDNA5 Modelle
Fertigung angeblich 3nm

uLsykckkoZU

HOT

2025-07-25, 08:02:02

Es sieht so aus, als würde AMD das NV-Spiel spielen, einen übertriebenen Riesenchip und einen Mainstreamchip. Außerdem soll es noch einen kleinen Chip geben.

Der Top-Chip heißt AT0, für Gaming soll der 154 CUs (von 192 CUs) haben und 384Bit 24Gbit also 36GB. Lt Tom hat ist jeweils ein WGP in einer SE deaktiviert, bei 184CUS hat der also offenbar 4 SEs, nicht mehr, mit jeweils 24WGPs oder 48CUs, sehr strange.

Der 2. (AT2) hat 64CUs und 192Bit, würde 18GB ergeben und soll der Nachfolger von N48 sein.

Alle werden mit 36Bit/s GDDR7 betrieben, AT2 soll auch bei Magnus zum Einsatz kommen und Magnus soll die neue PC-XBox sein. Magnus soll N3P sein, dann ist es wahrscheinlich, dass die ganze Serie N3P ist.

Ich könnt mir sehr gut vorstellen, dass bei AT0 die MCDs wiederkommen, denn warum sollte man sonst eine Variante mit 512Bit und alle anderen nur mit 384Bit anbieten?

AT0: 192CUs+512/384Bit (MCDs?)
AT2: 64CUs+192Bit mon
AT3: 32CUs+128Bit mon

robbitop

2025-07-25, 08:34:52

Was ich interessant finde, ist dass AMD ihr Cachesystem deutlich zu überarbeiten scheint und zwar in Richtung Ada/Blackwell. Kein L3/IF$ mehr sondern ein großer L2. Aber auch nur 64 MiB wie N48 - deshalb braucht es ordentlich mehr Bandbreite (gddr7 und 384 bit).

HOT

2025-07-25, 08:40:54

Was auch interessant ist: Sie sollen ein eigenes IOD bekommen für DP, HDMI, Videoprozessor und PCIe. Das nährt meine MCD-Theorie...

Mal was anderes:
Vielleicht ist Magnus einfach nur Medusa-Point mit deaktivierten CUs plus AT2 und das wars.

robbitop

2025-07-25, 09:12:19

Naja sowas ist kaum eine signifikante Separierung der GPU. IIRC hatte bereits G80 einen extra Chip für displayout und die Media Engine. PCIe bridges gab es auch schon immer. Bedeutungsvoll wird es wenn bandbreitenhungrige Teile disaggregiert werden. Also ganze GCDs skaliert werden. Selbst das mit den MCDs in rdna3 war dagegen nich Kindergeburtstag.

HOT

2025-07-25, 09:15:53

Das ist für AMD sicherlich kein Problem, die Erfahrung ist da. Es ist einfach die Frage wie wirtschaftlich das ist. Ich hab den Verdacht ja auch nur beim AT0, nicht bei den kleineren Chip. Es ist aber wie gesagt nur ein Verdacht meinerseits, das kann grundfalsch sein.

robbitop

2025-07-25, 09:20:00

Kosten/Verfügbarkeit für das Packaging und aber auch der erhöhte Energiebedarf sprechen dagegen. Für 3D Grafik gibt es bis dato keinen einzigen Präzedenzfall dafür insofern halte ich das Statement es sei „kein Problem für AMD“ für deutlich übertrieben.
Und 3D Grafik ist in der Hinsicht was ganz anderes als irgendwelche GPC/Compute/AI Chips die über SI skaliert werden. Einfach weil es da aufgeund viel kleinerer Interdependenz ein viel geringeren Bedarf an Bandbreite zwischen GCDs gibt/gäbe.

So oder so ist das zumindest im Moment anscheinend nicht die Vorzugslösung. Ggf irgendwann mal wenn sich die Randbedingungen deutlich verändern.

Hinzu kommt dass der 3D Markt verglichen mit Compute und Server immer kleiner wird. Dementsprechend sind auch die Prioritäten was leading edge und rnd angeht wohl eher bei Instinct und Epyc.
Und es hat sich mit RDNA4 ja wieder gezeigt dass Ökonomie wichtiger denn je ist. Der Entwicklungspartner Sony sieht das sicherlich ähnlich.

Klar wird es auch Chiplets und stacking und co geben wo sie Sinn machen. Aber GCD Skalierung wäre ich erstmal skeptisch.

Neurosphere

2025-07-25, 09:27:08

Was ich interessant finde, ist dass AMD ihr Cachesystem deutlich zu überarbeiten scheint und zwar in Richtung Ada/Blackwell. Kein L3/IF$ mehr sondern ein großer L2. Aber auch nur 64 MiB wie N48 - deshalb braucht es ordentlich mehr Bandbreite (gddr7 und 384 bit).

Muss nicht sein das L3 / Infinity komplett wegfällt, evtl. wird es hier nur nicht erwähnt. Vergleicht man mit den 128 MB L2 von GB202 erscheinen die maximal 64 MB hier doch als zu gering.

Wenn AMD das ganze aber wirklich ähnlich wie bei den CPUs handhabt, sollte es möglich sein einen ordentlichen Cache nochmal unter die GPU zu kleben. Als extra chip erklärt das auch warum sowas nicht in dieser Übersicht vorkommen muss.

Wie die 64MB Infinity Cache bei N48 agieren weiß aber auch nicht wirklich jemand, oder? Nachdem man bei RDNA2/3 da noch die Werbetrommel für gerührt hat habe ich diesmal nicht wirklich was mitbekommen.

robbitop

2025-07-25, 09:33:41

Für einen zusätzlichen IF$ ist der L2 viel zu groß und der Gewinn an externer Bandbreite relativ zu N48 viel zu hoch. IMO ist das nicht wirklich schlüssig.

Beim IF$ - das sollte ein L3 Victim Cache sein.

basix

2025-07-25, 09:59:42

Gaming und Professionelle RDNA5 Modelle
Fertigung angeblich 3nm

https://youtu.be/uLsykckkoZU

Hauptinfo aus dem Video

Zum L2: Evtl. macht es AMD eher wie Nvidia. Grosser gemeinsamer L2$ und keinen IF$/L3$ mehr.

Kepler_L2 sagt, dass die Folie real ist. Allerdings seien zum Teil die Anzahl CUs leicht falsch (vermutlich absichtlich, um Leaks aufzuspüren). Ich vermute 192 oder 144 CU für das Topmodell. Und anscheinend 6x/8x 24 CU. AT2 hat vermutlich 72 CU und nicht 64. Würde auch besser mit dem Magnus Leak übereinstimmen, dort wird anscheinend das selbe Die verwendet (192bit, ~70 CU).

Was mich etwas wundert: Es scheinen nur 2x Chips für Gaming zu sein. Laut MLID soll es noch AT3 geben (vermutlich 32/36 CU / 128bit?)

dildo4u

2025-07-25, 10:14:18

Du kannst RDNA4 für Low End weiterführen GDRR6 ist massiv billiger wenn RDNA5 wirklich dem schnellsten GRRD7 braucht da an Speicherinterface gespart wird.
Alles unter 1000€ wird nur 192 Bit haben egal ob Konsole oder Desktop GPU.

basix

2025-07-25, 10:28:50

Zu den 192 CU von AT0 und 72 CU von AT2:
I think they are gargantuan SAs instead, 4 SE x 2 SA x 12 WGP for AT0 and 2 SE x 2 SA x 9 WGP for AT2

HOT

2025-07-25, 10:37:06

Außerdem sollte man bedenken, dass diese Liste nur ein Beispiel für Produkte ist, die mit den beiden Chips möglich sind, nicht, was hinterher damit real angestellt wird. Ich möchte an die Spekus zu BW erinnern, der finale 5090 sah auch anders aus als vorher spekuliert.

Aber die Eckdaten sind schonmal spannend.

davidzo

2025-07-25, 10:41:47

Was auch interessant ist: Sie sollen ein eigenes IOD bekommen für DP, HDMI, Videoprozessor und PCIe. Das nährt meine MCD-Theorie...

Mal was anderes:
Vielleicht ist Magnus einfach nur Medusa-Point mit deaktivierten CUs plus AT2 und das wars.

Die größte Unbekannte ist imo weiter wie das gemeinsame Memory Interface funktioniert und performt und welche Extra-Fläche das verbraucht. Man braucht ja cache Kohärenz und niedrige latenzen für die CPU-Seite sowie eine Art CPU-Priorisierung und muss den Memory Pool für Windows irgendwie aufteilen.

Bei Navi31 war der Flächenoverhead ja massiv.
Bei Strix Halo weniger, aber der kommt ja auch mit lediglich 256gb/s aus und nicht 800+gb/s wie Magnus.

Bei AI workloads kann man volle Benefits von zero copy haben da man eh den Code spezifisch kompiliert, aber ich bezweifle dass das bei Windows so einfach möglich ist. Da ist AMD ja schonmal mit Trinity gegen einen Roadblock gefahren und seitdem existieren zwar DMA, GPU-direct etc in DirectX, aber ein genereller Durchbruch wie unter MacOS ist das nicht.

Ich habe keine Zweifel dass AMD die Aufteilung Hardwareseitig irgendwie hinbekommt. So wie bei Strix Halo eben, nur drei bis viermal soviel Bandbreite.
Nur fallen mir dazu folgende Dinge auf:
- Strix Halo hat LPDDR. Der hat eine wesentlich bessere Latenz, was für die CPU kritisch ist. GDDR7 wird sich negativ auf die CPU performance auswirken.
- Der LLC am Speicherinterface wird bei Strix Halo nur von der GPU und Media engine genutzt, nicht von der CPU. Er dient also nicht als extra L3 um die CPUlatenz gegenüber dem GDDR7 zu verringern.
- Die INFO Links zur Anbindung des Speicherinterface an die CPU müssen bei jedem AT2 DIE vorhanden sein und verbrauchen Fläche die nicht genutzt wird.
- Zudem denke ich dass auch ein Latenzoverhead und jedenfalls DIE Overhead vorhanden ist wenn der Speichercontroller und Cache Controller dafür eingerichtet ist mehrere Clients zu bedienen. Das ist also suboptimal, bzw Siliziumverschwendung für die diskrete GPU.

robbitop

2025-07-25, 10:42:06

Wäre es nicht ein bisschen spät um jetzt noch inkonkrete Konfigurationen für kommende rdna5 gpus zu haben?

Was den L2 angeht - ggf eine Hoffnung dass zukünftige APUs deutlich mehr Cache haben werden. Ggf dann sowas wie 16 mib für 16 cus oder so.

HOT

2025-07-25, 10:50:32

Nach längerem Nachdenke glaube ich auch, dass auch das große Ding ein Monolith ist.
Der wird dann halt 600mm²+, macht NV ja auch so. Wenn AMD dafür einen Markt sieht, wirds den auch so geben. Der Cache wird sicherlich nicht aus dem GCD herauswandern, bei der geringen Menge wäre das dämlich.

basix

2025-07-25, 11:03:04

Ist vermutlich kein monolithisches Die. Aber nahe dran. Es sollte ein MID (Multimedia Interface Die) geben, welches Media Engines, Display Engines und PCIe beinhalten wird. AT2 / Magnus zeigt sowas ja auf.

Noch ein interessantes Patent:
Lokales pro WGP scheduling und thread launching. Wenn man super fette SE/SA macht, wird sowas wohl nötig, damit der Chip noch skaliert.
https://patentscope.wipo.int/search/en/detail.jsf?docId=WO2025144455&_cid=P21-MCPWUB-70374-1

Edit:
Als Abschätzung wäre der grosse Brummer mit 192 CUs ~700mm2 gross, wenn die 264mm2 von "Magnus" mit 72 CU stimmen.
- 192 / 72 CU = 2.67x
- 512 / 192 bit = 2.67x
- 64 / 24 MByte L2$ = 2.67x

2.67 * 264mm2 = 704mm2

Zossel

2025-07-25, 16:53:57

Ist vermutlich kein monolithisches Die. Aber nahe dran. Es sollte ein MID (Multimedia Interface Die) geben, welches Media Engines, Display Engines und PCIe beinhalten wird. AT2 / Magnus zeigt sowas ja auf.

Erinnert sich noch jemand daran?
https://www.reddit.com/r/pcgaming/comments/dopv3h/what_happened_to_all_the_hype_surrounding_multi/

Die meisten Spiele laufen doch sowieso auf irgendeiner Standard-Engine, würde es dann reichen wenn die Engine das implementiert?

aceCrasher

2025-07-25, 17:19:55

Edit:
Als Abschätzung wäre der grosse Brummer mit 192 CUs ~700mm2 gross, wenn die 264mm2 von "Magnus" mit 72 CU stimmen.
- 192 / 72 CU = 2.67x
- 512 / 192 bit = 2.67x
- 64 / 24 MByte L2$ = 2.67x

2.67 * 264mm2 = 704mm2
Wie kommst du auf ein 512-bit Speicherinterface? Bisher war doch die Rede von einem 384-bit Interface mit 24Gbit Speicherchips.

mczak

2025-07-25, 18:08:17

- Strix Halo hat LPDDR. Der hat eine wesentlich bessere Latenz, was für die CPU kritisch ist. GDDR7 wird sich negativ auf die CPU performance auswirken.
Der Unterschied ist doch gar nicht so gross? LPDDR5 hat ja auch schon schlechtere Latenz als DDR5. Wobei ich kenne jetzt die Zahlen nicht für gddr7. Wird doch eh überschätzt, klar bringen schnellere Latenzen etwas aber notfalls verbaut man halt grösseren L3 in der CPU.

- Der LLC am Speicherinterface wird bei Strix Halo nur von der GPU und Media engine genutzt, nicht von der CPU. Er dient also nicht als extra L3 um die CPUlatenz gegenüber dem GDDR7 zu verringern.
Im chipsandcheese Interview hat AMD aber klar gesagt dass das bloss eine Firmware-Entscheidung ist, der Chip kann das durchaus (und CPU-Lesezugriffe werden auch jetzt schon aus dem LLC bedient wenn die Daten dort sind). Macht ja auch Sinn weil die CPU-Dies eh schon je 32MB L3 haben, und der LLC eben für die GPU wirklich essenziell ist.
Bei anderen Cache-Grössen (sowohl des LLC wie auch des L3 der CPU) könnte es dann natürlich durchaus sinnvoll sein sich anders zu entscheiden.

HOT

2025-07-25, 18:31:37

Wie kommst du auf ein 512-bit Speicherinterface? Bisher war doch die Rede von einem 384-bit Interface mit 24Gbit Speicherchips.

Ist im MLID-Leak mit drin. Die größte Variante hat 512Bit mit 32Gbit-Chips (gibt also auch 4GB pro GDDR7-Modul dann) x2 pro Kanal = 128GB VRAM.

mironicus

2025-07-25, 19:04:04

AMD soll auch mal endlich wieder GPUs für Laptops bringen.

robbitop

2025-07-25, 19:05:53

Hatten sie zB mit N33 und N24. Wurde aber nicht/kaum von den OEMs verbaut.

Zossel

2025-07-25, 21:21:23

- Strix Halo hat LPDDR. Der hat eine wesentlich bessere Latenz, was für die CPU kritisch ist. GDDR7 wird sich negativ auf die CPU performance auswirken.

LDDRx hat schlechtere Latenzen als DDRx

Latenzen im Browser messen: https://jsmemtest.chipsandcheese.com/
Und für die einen Compiler bedienen können: https://github.com/ChipsandCheese/Microbenchmarks

Die Kisten von Apple haben doch LDDRx, also lasst das mal laufen, am besten das C-Compilat.
Wenn der Compiler rausbombt kann ich versuchen zu helfen, gcc + gnu-tools wären wahrscheinlich schmerzfreier als das native Apple-Zeug.

Zossel

2025-07-25, 21:25:39

Der Unterschied ist doch gar nicht so gross? LPDDR5 hat ja auch schon schlechtere Latenz als DDR5. Wobei ich kenne jetzt die Zahlen nicht für gddr7. Wird doch eh überschätzt, klar bringen schnellere Latenzen etwas aber notfalls verbaut man halt grösseren L3 in der CPU.

Hier gibt es auch Daten für GDDRx:

https://jsmemtest.chipsandcheese.com/latencydata

amdfanuwe

2025-07-26, 13:50:16

Hab mir mal ein paar Gedanken zu AT0 gemacht:
Sieht mir nach einem halben MI400 aus, mit anderem Base Die natürlich.
Die GCD könnten dann 48CU (3SE*16CU) enthalten. Für AT0 werden gesalvagede Chips verwendet mit 46CU, wie bei MI300 bei der jeweils 2 CU pro GCD abgeschaltet wurden.
Gaming scheint sensibler zu sein, da werden pro SE 2 CU abgeschaltet -> 3SE*14CU = 42CU.
Zudem werden Chips mit defekter SE verwendet -> 2SE * 14CU = 28CU.
Die ganz guten Chips gehen in die MI400.

Ergäbe folgende Konfigurationen:
GCD1|GCD2|GCD3|GCD4|CUgesamt
46|46|46|46|184
46|46|46||138
42|42|42|28|154

Wahrscheinlich kommen noch Varianten bei denen es zu einem Fehler bei einem Chip im Stacking gibt. Eventuell noch mit 256 Bit Speicherinterface.
GCD1|GCD2|GCD3|GCD4|CUgesamt
42|42|42|28|154
42|42|42||126
42|42||28|112
42|42|||84
Da wird AMD aber erst mal lange sammeln müssen, bis sich das lohnt.

Die geringe TDP Unterschiede zwischen AT0 und monolitisch AT2 deuten für mich darauf hin, dass AT0 mit geringem Takt kommt während AT2 ziemlich hochgeprügelt wird.

robbitop

2025-07-26, 14:31:17

Wäre cool. Aber ich tippe eher auf monolitische Konfiguration. Ob sich das mit dem Packaging lohnt und ob man die Nachteile im Verbrauch durch die inter chip Kommunikation mit den deutlich höheren Bandbreiten bei 3D Grafik da nicht zum Nachteil gereichen…?
Und ob es da nicht auch einen Bottleneck für die Kapazität der packagaginf Kapazität gibt, der dann dazu führen kann, dass man weniger Instinc SKUs bauen kann (die ja profitabler sind als 3D Grafik)?
AMD wurde eigentlich vom Markt für Halo GPU SKUs der kommerzielle Erfolg versagt wohin gegen ein Mainstream konzentiriertes Portfolio erfolgreicher war (Polaris, RDNA1, RDNA4).

Alles kann - nichts muss. Aber ich würde eher auf monolithisch tippen. Aber ggf überrascht uns AMD ja :)

amdfanuwe

2025-07-26, 14:50:44

Monolithisch kann ich mir die Salvage Varianten nicht erklären. Würde man dann anders lösen. Die Packaging Kapazitäten werden ja schon hochgefahren und mit gestackten GCD auf einem Base Die dürfte es auch keine Probleme mit der Bandbreite geben.
Hätte halt den Vorteil, dass die GCD in Massen mit sehr gutem Yield in teurem N2 Node produziert werden können.
Die Gaming Variante als Halo scheint ja auch mehr ein Abfallprodukt zu sein. Das AMD da bisher keinen großen Erfolg hatte, lag auch an dem Featureset (RT, AI, DLSS) mit dem AMD hinterher hinkte. Da haben sie mit RDNA4 doch schon gut aufgeholt.

basix

2025-07-26, 21:46:34

Die Zahlen in der Tabelle sind wohl bewusst "etwas falsch", um Leaks aufzudecken. Bei den SKUs sind es zum Teil krumme Werte, die nicht richtig harmonieren. Zudem steht unten an der Folie noch was zu "Harvesting" / Salvage, was nicht mit der Liste zusammenpasst.

AT2 und AT3 sollten die Nachfolger von N44 und N48 sein.
Chip|CU|SI Breite|L2$|SE Organisaton|Bemerkungen
AT0|192|512bit|64 MByte|4x SE // 1x SE = 2x SA // 1x SA = 12x WGP|Für Gaming SKUs max. 384bit
AT1|96|256bit|32 MByte|2x SE // 1x SE = 2x SA // 1x SA = 12x WGP|Entweder gecancelt (vermutlich) oder (unwahrscheinlich) AT0 = 2x AT1
AT2|72|192bit|24 MByte|2x SE // 1x SE = 2x SA // 1x SA = 9x WGP|AT0 für Gaming mit 384bit könnte (unwahrscheinlich) 2x AT2 sein
AT3|36|128biit|16 MByte|1x SE // 1x SE = 2x SA // 1x SA = 9x WGP||

Die Chips sind dabei nicht komplett monolitisch, sondern verwenden ein MID (Multimedia Interface Die). Die paar GB/s für PCIe und Display kann man wohl mit standarad Packaging/Substrat erreichen (ergo nichts was teuer ist).
Chip|VCN|PCIe|Bemerkungen
MID0|4|6.0|PCIe 5.0 und halbierte Anzahl VCN auf Gaming SKUs
MID1|1|5.0|

Vom Portfolio her sähe das in etwa so aus:
Chip|CU|SI Breite|L2$|SE Organisaton|VRAM|Bemerkungen
AT0 + MID0|184|512bit|64 MByte|4x SE // 8x SA // 1x SA = 11x WGP|96 / 128 GByte|ML/AI
AT0 + MID0|184|384bit|48 MByte|4x SE // 8x SA // 1x SA = 11x WGP|24 / 36 GByte|Gaming (optional)
AT0 + MID0|144|384bit|48 MByte|3x SE // 6x SA // 1x SA = 12x WGP|24 / 36 GByte|Gaming
AT0 + MID0|132|384bit|48 MByte|3x SE // 6x SA // 1x SA = 11x WGP|24 GByte|Gaming (optional)
AT2 + MID1|72|192bit|24 MByte|2x SE // 4x SA // 1x SA = 9x WGP|18 GByte|Gaming
AT2 + MID_XBOX_Next|68|192bit|24 MByte|2x SE // 4x SA // 1x SA = 8/9x WGP|24 GByte|Gaming / Konsole (XBox Next) -> Magnus
AT2 + MID1|64|192bit|24 MByte|2x SE // 4x SA // 1x SA = 8x WGP|18 GByte|Gaming
AT2 + MID1|54|160bit|20 MByte|2x SE // 3x SA // 1x SA = 9x WGP|15 GByte|Gaming
AT3 + MID1|36|128bit|16 MByte|1x SE // 2x SA // 1x SA = 9x WGP|12 GByte|Gaming
AT3 + MID1|32|128bit|16 MByte|1x SE // 2x SA // 1x SA = 7x WGP|12 GByte|Gaming

HOT

2025-07-26, 23:55:02

MID_XBOX_NEXT ist mMn einfach Medusa1...

robbitop

2025-07-27, 11:36:52

Die Chips sind dabei nicht komplett monolitisch, sondern verwenden ein MID (Multimedia Interface Die). Die paar GB/s für PCIe und Display kann man wohl mit standarad Packaging/Substrat erreichen (ergo nichts was teuer ist).

Ja technisch gesehen wäre das nicht monolitisch. Aber der wesentliche Teil bzw die wesentlichen Teile sind alle in einem monolithischen die.
Den Display und PCIe Teil auszulagern ist Kindergeburtstag - das bräuchte nicht einmal auf dem gleichen Package zu sein. Externe Display und Media Engine gab es 2006 IIRC schon mit G80. Und PCIe controller Chips gibt es auch schon ewig.
IMO ist das fast nicht einmal der Erwähnung des Begriffes Chiplets wert (weil man heutzutage mit dem Begriff deutlich bedeutendere Anwendungen assoziiert).

amdfanuwe

2025-07-27, 12:48:57

Die Zahlen in der Tabelle sind wohl bewusst "etwas falsch", um Leaks aufzudecken.
Nicht unbedingt. Habe nur Problenme mit den 44CU bei AT2.
Ich hatte noch einen Denkfehler drin, 3 SE pro GCD passen nicht. Lassen wir mal die SA und WGP (gibt es die überhaupt bei CDNA?) ausser acht. Relevant sind eigentlich nur die SE und die CU/SE. Die Anzahl der CU sollte in allen SE gleich sein.
dann komm ich auf folgendes:
SE|CU/SE|CUgesamt|disabled
8|24|192|
8|23|184| 1 CU/SE
6|23|138| 1 CU/SE , 2 SE weniger
7|22|154| 2 CU/SE , 1 SE weniger
Wenn das mit GCD Chiplets realisiert würde, hätte ein GCD 2SE und 24CU/SE.
GCD1 GCD2 GCD3 GCD4 CUgesamt
46 46 46 46 184
46 46 46 138
44 44 44 22 154

davidzo

2025-07-27, 15:34:54

LDDRx hat schlechtere Latenzen als DDRx

Wo habe ich DDR geschrieben? Die Rede ist von GDDR7 und GDDR hat bekanntlich rund doppelt so hohe Latenzen wie LPDDR, der bekanntlich rund 30-50% höhere Latenzten als DDR hat.
Der Ryzen Z1 Extreme mit LPDDR5-6400 hat rund 120ns DRAM Latenz, in etwa soviel wie Arrow/Meteorlake mit DDR5. GPU liegen bei 250+ ns, große Datacenter GPUs sogar weit über 300.

basix

2025-07-27, 15:39:41

Wenn das mit GCD Chiplets realisiert würde, hätte ein GCD 2SE und 24CU/SE.

Alle Leaks und Spekus gehen momentan in die Richtung, dass es separate Chips sind. 100%ig sicher ist das natürlich nicht, aber nach RDNA4 sind Multi-GCD GPUs für Gaming doch unwahrscheinlich geworden.

Ja technisch gesehen wäre das nicht monolitisch. Aber der wesentliche Teil bzw die wesentlichen Teile sind alle in einem monolithischen die.
Den Display und PCIe Teil auszulagern ist Kindergeburtstag - das bräuchte nicht einmal auf dem gleichen Package zu sein. Externe Display und Media Engine gab es 2006 IIRC schon mit G80. Und PCIe controller Chips gibt es auch schon ewig.
IMO ist das fast nicht einmal der Erwähnung des Begriffes Chiplets wert (weil man heutzutage mit dem Begriff deutlich bedeutendere Anwendungen assoziiert).

Natürlich ist das eine ganz andere Grössenordnung, als das was RDNA3 macht. Prinzipiell ist es ja nicht viel mehr als das, was man bei einem CPU IOD sieht.

Nichtsdestotrotz sind es ~50mm2, welche beim Hauptchip entfallen. Und es erlaubt so Sachen wie "Magnus", wo man Chips von dGPUs für vermutlich eine Konsole zweitverwertet. Evtl. verwendet das MID auch N4 und nicht N3, was ebenfalls ein Vorteil sein könnte (Wafer Allokationen, Kosten). Dazu noch die Wiederverwertbarkeit des MID über mehrere Chips (AT1...AT3).

mboeller

2025-07-27, 17:46:28

Nichtsdestotrotz sind es ~50mm2, welche beim Hauptchip entfallen. Und es erlaubt so Sachen wie "Magnus", wo man Chips von dGPUs für vermutlich eine Konsole zweitverwertet. Evtl. verwendet das MID auch N4 und nicht N3, was ebenfalls ein Vorteil sein könnte (Wafer Allokationen, Kosten). Dazu noch die Wiederverwertbarkeit des MID über mehrere Chips (AT1...AT3).

trotzdem... IMHO eine seltsame Aufteilung.

Wenn schon, dann doch richtig?

zB: N48 mit 357mm2; Shader-Engine, L2, Command-Prozessor etc... sind zusammen ca. 180-190mm2

Der Rest, also L3, Speicherinterface und MID sind auch noch mal 170-180mm2 ... und vor allem L3+Speicherinterface sollten sogar in 6nm noch gleich groß sein wie in N4 (ich habe mal N21 als Basis genommen und bin überschlägig auf 185mm2 in 7/6nm gekommen, incl. 128MB L3 + 192bit GDDR7 Speicherinterface)

Also wenn schon Chiplet-Design dann eher L3, MCD, MID als extra Chiplet im günstigen 6nm Prozess unter dem Main-GPU Chiplet (wie X3D für Zen5)

ich verstehe nicht, warum sich AMD nicht dafür entschieden hat, vor allem da die Schere in den mm2-Kosten zw. den Highend-Prozessen wie N2/3 und den "Mainstream"-Prozessen wie N6/7 inzwischen stark auseinander geht.

robbitop

2025-07-27, 20:00:43

Weil die Bandbreite die erforderlich dafür ist, relativ hoch ist. Entsprechend bessere Packagingtechnologien braucht es. Die sind teuer und knapp. Und es kostet zusätzlich mehr Energie für den inter Chip transfer. Das fällt bei hohem Datenaufkommen umso schwerer ins Gewicht. Memorycontroller und LLC aufzutrennen haben sie ja bereits mit N32 und N31 gemacht mit dem MCD. Offenbar mit nicht zufriedenstellenden Ergebnissen aus den obigen Nachteilen heraus. Ansonsten hätten wir schon bei RDNA4 eine Fortsetzung dessem gesehen.

amdfanuwe

2025-07-28, 00:22:23

Alle Leaks und Spekus gehen momentan in die Richtung, dass es separate Chips sind.
Du meinst, dass AT0 monolithisch ist.
Wird ein dicker Brummer.

Mein Gedanke kommt da eher vom MI350 her.
Base Die ~500mm² + 4 * GCD je 36CU ~110mm² = 940mm².
Also die Technik 4 GCD auf einen IOD zu stacken macht AMD jetzt schon.
Vornehmlich ist AT0 auch für ML/AI gedacht, Gaming bekommt da eher die schlechteren Chips ab.

@Robbitop
Man sieht ja, wie MI300, MI350 etc an Bandbreite verhungern und dass 3D Stacking teuer und knapp ist entnimmt man woher?
Mir ist bisher keine Verknappung von Ryzen X3D aufgefallen und der Aufpreis lohnt offensichtlich für AMD. Bei GPUs die im Pro Segment > $5000 erziehlen oder für Gaming GPU im ~$2000 Segment, wird sich das schon rechnen.

Aber warten wir mal ab, ist ja noch über 1 Jahr hin, da kann wieder viel passieren und verworfen werden.

KarlKastor

2025-07-28, 05:28:02

Ryzen x3d ist SoIC und kein CoWoS.
TSMC hat gesagt, dass sie trotz erhöhter Kapazitäten die Nachfrage für advanced Packaging dieses Jahr nicht komplett bedienen können und das erst im Laufe des nächsten Jahres der Fall sein wird.

Zossel

2025-07-28, 06:10:36

Weil die Bandbreite die erforderlich dafür ist, relativ hoch ist. Entsprechend bessere Packagingtechnologien braucht es. Die sind teuer und knapp. Und es kostet zusätzlich mehr Energie für den inter Chip transfer. Das fällt bei hohem Datenaufkommen umso schwerer ins Gewicht. Memorycontroller und LLC aufzutrennen haben sie ja bereits mit N32 und N31 gemacht mit dem MCD. Offenbar mit nicht zufriedenstellenden Ergebnissen aus den obigen Nachteilen heraus. Ansonsten hätten wir schon bei RDNA4 eine Fortsetzung dessem gesehen.

Rote Autos gehen schneller kaputt als braune Autos. Muss wohl an der Farbe liegen.
Korrelation != Kausalität, insbesondere bei einer Stichprobe mit der Menge 1.

robbitop

2025-07-28, 07:25:26

@Robbitop
Man sieht ja, wie MI300, MI350 etc an Bandbreite verhungern und dass 3D Stacking teuer und knapp ist entnimmt man woher?
Mir ist bisher keine Verknappung von Ryzen X3D aufgefallen und der Aufpreis lohnt offensichtlich für AMD. Bei GPUs die im Pro Segment > $5000 erziehlen oder für Gaming GPU im ~$2000 Segment, wird sich das schon rechnen.

Aber warten wir mal ab, ist ja noch über 1 Jahr hin, da kann wieder viel passieren und verworfen werden.
Fürdie Skalierung von GPCs braucht es kein Stacking (das wäre thermisch problematisch - deshalb stackt man eher Kombinationen von 1x hohe Energiedichte und 1x niedrige Energiedichte - also wie bei ryzen dann die CPU und den SRAM aber auch dort versuchte man als die Logik unten war unter dem SRAM chiplet auch nur SRAM zu haben und keine Logik). Das bei Ryzen eingesetzte Verfahren ist ganz offenbar nicht so knapp und teuer.

Was es für die Disaggregarion von GPUs braucht sind 2,5D Verfahren. Bei hohen Bandbreiten braucht es dann einen stark miniatursierten und dichten Unterconnect. Silicon Interposer oder sowas wie Info-LSI.

Und das sieht man aktuell primär in Produkten mit viel höheren Preisbereichen.

Ich habe auch nicht gesagt, dass MI300 an Bandbreite verhungert. Es geht sehr spezifisch um das Bandbreitenbedürfnis zwischen verschiedenen Funktionsblöcken wenn man eine GPU disaggregieren möchte bzw ganze GPCs skalieren möchte für 3d Grafik, so dass das transparent zur Anwendung läuft. Und das ist für 3D Grafik eine ganz andere Nummer. Da ist an leichtim Bereich von mehreren TB/s. Die Anwendung hat ein ganz anderes Level an Interdependenz. Wohin gegen der typische HPC / Compute / AI Anwendungsfälle in der Regel sehr wenig Interdependenz hat. Da kann man mehrere GPUs problemlos über PCIe typische Bandbreiten und Latenzen und oft sogar über Netzwerktechnik skalieren. Die Anforderung von Skalierung und Disaggregierung ist nicht annähernd vergleichbar weshalb man nicht von Instinct auf Radeon schließen kann.

Und bei N32/31 hat man versucht ein noch relativ einfaches Level (verglichen mit der Skalierung von GCDs selbst) an Disaggregarion zu probieren. Und selbst das war offenbar unterm Strich nicht erfolgreich ansonsten hätte N48 das fortgeführt.

Das kann sich alles ändern mit der Entwicklung von Technologie usw. Die Disaggration von GPUs ist etwas was man schon seit Jahrzehnten probiert und weiter probieren will aber es ist (um hier auch ökonomisch und vom Produkt her erfolgreich ggü einem Monolithen zu sein) sehr sehr schwierig.

Nvidia betreibt hier übrigens auch eine Menge Forschung (gibt ja auch immer eine Menge an Patenten) und setzt es im HPC Sektor ja auch ein und dennoch ist man im 3d Bereich nach wie vor sehr überzeugt davon, dass monolitisch für GPUs im Moment noch die beste Lösung ist.

basix

2025-07-28, 10:29:14

Du meinst, dass AT0 monolithisch ist.
Wird ein dicker Brummer.

"Quasi-Monolithisch" wegen MID ;)

Aber ja, etwa 650mm2 oder sogar etwas mehr dürfte AT0 werden, wenn AT2 wirklich 264mm2 gross ist.

amdfanuwe

2025-07-28, 12:41:31

Ryzen x3d ist SoIC und kein CoWoS.
TSMC hat gesagt, dass sie trotz erhöhter Kapazitäten die Nachfrage für advanced Packaging dieses Jahr nicht komplett bedienen können und das erst im Laufe des nächsten Jahres der Fall sein wird.

CoWoS ist Chip on Wafer on Substrate. Da ist der Wafer der Interposer.
Bei MI300 und folgende werden erst mal die GCD auf mittels SoIC, Silicon on IC, auf einen Base Die gestacked. Dieses Paket wird dann in mehrfacher Ausführung mit HBM auf einen Interposer (CoWoS) platziert.

Wenn wir nur einen Base Die mit 4 GCD gestacked haben, braucht es dafür nur SoIC. CoWoS braucht es nicht, da ja kein HBM oder weitere Pakete miteinander verbunden werden müssen. Für einen eventuellen Media I/O Chip dürfte dann auch Info oder FanOut Package zur Anbindung reichen.

@Robbitop
Schau dir mal MI300 an, da sind 2 GCD auf einem Base Die gestacked, oder MI350, da werden 4 GCD auf einem Base Die gestacked.

Ich würd nicht so sehr auf N32/31 gucken. Das war ein Testlauf für FanOut Package. Gab damals auch GPUs mit HBM. Wird halt immer mal etwas neues ausprobiert.
Bei MI300 sollte wohl auch FanOut Package eingesetzt werden statt Silicon Interposer.
Jetzt debütiert FanOut Package erst mal bei Strix Halo und zukünftig wohl bei Medusa Point/Halo, ZEN6 Desktop, ZEN6 Server der Anbindung der ZEN6 Chiplets.

basix

2025-07-28, 13:02:38

Wenn wir nur einen Base Die mit 4 GCD gestacked haben, braucht es dafür nur SoIC. CoWoS braucht es nicht, da ja kein HBM oder weitere Pakete miteinander verbunden werden müssen.
Ja, CoWoS braucht es nicht. Aber SoIC Kapazität ist ebenfalls nicht unendlich verfügbar. Das ist bei X3D CPUs und HPC/ML/AI momentan wohl besser aufgehoben. Wenn die Angaben von MLID stimmen, sind die SE Untergruppierungen nicht identisch, d.h. kein Chiplet Re-Use bei AT0 und AT2 möglich. Damit würde SoIC generell nicht sinnvoll erscheinen.

Für einen eventuellen Media I/O Chip dürfte dann auch Info oder FanOut Package zur Anbindung reichen.
Für reines Media I/O reicht auch normales Substrat. Bandbreiten, Latenzen und Mehrverbrauch sind dort ziemlich unkritisch. PCIe 6.0 wäre 256 GByte/s (bidirektional) und die Display Outputs sind nicht der Rede wert (HDMI 2.2 mit 96 Gbps wären 12 GByte/s). Ähnliche Chip-to-Chip Bandbreiten haben wir seit Zen 1 (Epyc) oder Zen 2 (Desktop). Bei ~2pJ/bit (Zen 1 Variante IFOP) machen 256 GByte/s gerade mal 4W Verbrauch aus.

davidzo

2025-07-28, 13:11:34

Für reines Media I/O reicht auch normales Substrat. Bandbreiten, Latenzen und Mehrverbrauch sind dort ziemlich unkritisch. PCIe 6.0 wäre 256 GByte/s (bidirektional) und die Display Outputs sind nicht der Rede wert (HDMI 2.2 mit 96 Gbps wären 12 GByte/s). Ähnliche Chip-to-Chip Bandbreiten haben wir seit Zen 1 (Epyc) oder Zen 2 (Desktop). Bei ~2pJ/bit (Zen 1 Variante IFOP) machen 256 GByte/s gerade mal 4W Verbrauch aus.

Bisher profitiert das media i/o die aber erheblich von dem Infinitycache und spart so Idle power weil so im Desktopmode bei Videeowiedergabe nicht der GDDR hochgetaktet werden muss. 4W extra Verbrauch im Desktop/Idle sind schon etwas ärgerlich.

basix

2025-07-28, 13:27:19

Die Daten kann man ja immer noch im Cache vorhalten. Das verschwindet ja nicht. Man schiebt die Daten einfach vom grossen L2-Cache zum MID.

2pJ/bit sind zudem immer noch deutlich weniger als 6-8 pJ/bit im VRAM (GDDR6) sowie das hochtakten des gesamten Memory-Interfaces (Memory Controller, VRAM-Takt). Und die 2pJ/bit sind IFOP von 2017 mit 10mm oder so Distanz. RDNA5 erscheint frühestens 2026 und dort wird vielleicht 1mm zwischen den zwei Die liegen. 2pJ/bit ist also eher Worst Case denn realistisch.

Und wieso sollen 4W dazu kommen für Media IO? Die 4W sind volle 256 GByte/s (PCIe 6.0 x16, eine Consumer GPU wird nur PCIe 5.0 haben und bidirektional read/write wird selten bis nie ausgelastet).
Und HDMI 2.2 sind nur 12 GByte/s (oder 0.2W bei 2pJ/bit).

mboeller

2025-07-28, 14:20:10

Weil die Bandbreite die erforderlich dafür ist, relativ hoch ist.

Naja, im Vergleich zu GDDR7 ist der Unterschied nicht mehr so hoch.

Chart:
https://substackcdn.com/image/fetch/$s_!axdc!,f_auto,q_auto:good,fl_progressive:steep/https:%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fa6a58a68-4006-4e6a-a4e3-5a4792ed3036_1411x586.png

https://chipsandcheese.com/p/microbenchmarking-amds-rdna-3-graphics-architecture

amdfanuwe

2025-07-28, 14:24:59

d.h. kein Chiplet Re-Use bei AT0 und AT2 möglich.
Da liegt wohl ein Missverständnis vor. Habe AT2 immer als monolithischen N48 Nachfolger gesehen.
Chiplet reuse seh ich eher bei MI400-AT0.
MI400 mit 12 GCD und somit 552 activen CU würde gut zu den bisherigen Angaben passen.
Braucht es nur noch 2 unterschiedliche Base Dies um den ganzen HPC, AI/ML, High End Gaming Markt abzudecken.

Hab mal meine Vorstellung visualisiert:
https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=93746&stc=1&d=1753705252

davidzo

2025-07-28, 14:40:24

Und wieso sollen 4W dazu kommen für Media IO? Die 4W sind volle 256 GByte/s (PCIe 6.0 x16, eine Consumer GPU wird nur PCIe 5.0 haben und bidirektional read/write wird selten bis nie ausgelastet).
Und HDMI 2.2 sind nur 12 GByte/s (oder 0.2W bei 2pJ/bit).

deswegen:

Die Daten kann man ja immer noch im Cache vorhalten. Das verschwindet ja nicht. Man schiebt die Daten einfach vom grossen L2-Cache zum MID.

Der große Effizienzsprung bei der video dekodierung und idle power Navi kommt in erster Linie dadurch dass die mediacodecs massiv den Infinitycache nutzen. Auch bei strix halo ist das ein Rezept für geringere power beim webbrowsing/desktop use btw. Auch Apple weiß dass Videocodecs nicht zimperlich sind was den Bandbreitenbedarf angeht. Nicht ohne Grund haben nur die M-Chips mit größerem SI und Cache das doppelte Set an Media Encodern-/ Decodern. Pre-Navi 2x hat es nicht ausgereicht den DRAM bei idle Power zu betreiben, man braucht mehr Bandbreite und lässt ihn bei Video workloads hochtakten. Das wurde erst durch den IFcache behoben.
Da muss also reichlich Bandbreite vorhanden sein um den MID mit dem Haupt-DIE zu verbinden wenn dort die Media engines verbaut sind, der Cache aber im haupt-DIE. Wieviel das extra an Energie kostet hast du dir ja selber beantwortet.

basix

2025-07-28, 14:58:32

Da liegt wohl ein Missverständnis vor. Habe AT2 immer als monolithischen N48 Nachfolger gesehen.
Chiplet reuse seh ich eher bei MI400-AT0.
MI400 mit 12 GCD und somit 552 activen CU würde gut zu den bisherigen Angaben passen.
Braucht es nur noch 2 unterschiedliche Base Dies um den ganzen HPC, AI/ML, High End Gaming Markt abzudecken.

Hab mal meine Vorstellung visualisiert:
https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=93746&stc=1&d=1753705252

Ah OK.

MI400 verwendet laut Gerüchten 2x Base Die. Das würde deiner ersten Variante entsprechen. Dazu noch 2x MID welche an die Base Die angeflanscht sind, wo man Infinity Fabric Links, PCIe und VCN etc. unterbringen wird.

Deine zwei MI400 Variantem kombiniert (6x HBM Die pro Base Die, 3x Base Die) wird vermutlich zu MI500 werden.

3D-Stacking ist bei AT0 denkbar, halte ich aber für relativ unwahrscheinlich. AT0 ist noch deutlich unterhalb des Reticle-Limits und 600W wollen auch gekühlt werden. Stacked man das, ist die Kühlfläche für hochtaktende Designs mit dann sehr hoher Energiedichte/mm2 wohl zu gering. Lieber ~650mm2 grosses N3P Die, das ist dann auch mit 600W und Luftkühlung kompatiblel.

deswegen:
Was macht ~1W Mehrverbrauch für den Datentransport auf 10W Idle aus? Richtig, fast nichts. Auch bei einem abgesetzten MID kann man den VRAM schlafen lassen. Dass die Chips 30-40W für 4K/120/HDR brauchen liegt eher nicht am Datentransport bei Video-Decodierung. Oder gibt es da Messwerte für IF$ Auslastung?

Edit:
Eine 6700XT ist kaum sparsamer als eine 5700XT bei Idle und auch YT-Wiedergabe. So gross kann der Vorteil durch IF$ also nicht sein, zumindest nicht bei einer dGPU. Und eine 5700XT hat ein 256bit SI, wohingegen die 6700XT nur 192bit hat. Eine 6600XT ist dann sparsamer. Aber wie viel ist hier 128bit anstatt 256bit SI und wie viel IF$?
https://www.computerbase.de/artikel/grafikkarten/amd-radeon-rx-6700-xt-test.75743/seite-4#abschnitt_leistungsaufnahme_spiele_youtube_desktop

w0mbat

2025-07-28, 15:06:49

Hab mal meine Vorstellung visualisiert

Wie machst du das denn? Sieht sehr cool aus!

amdfanuwe

2025-07-28, 16:25:05

Ah OK.

MI400 verwendet laut Gerüchten 2x Base Die.
...
Deine zwei MI400 Variantem kombiniert (6x HBM Die pro Base Die, 3x Base Die) wird vermutlich zu MI500 werden.

3D-Stacking ist bei AT0 denkbar, halte ich aber für relativ unwahrscheinlich. AT0 ist noch deutlich unterhalb des Reticle-Limits und 600W wollen auch gekühlt werden. Stacked man das, ist die Kühlfläche für hochtaktende Designs mit dann sehr hoher Energiedichte/mm2 wohl zu gering. Lieber ~650mm2 grosses N3P Die, das ist dann auch mit 600W und Luftkühlung kompatiblel.

Edit: Sorry, hatte nicht richtig gelesen. Hatte nicht mehr im Kopf, dass die 2 Base Die Variante praktisch schon getzt ist und deshalb beide Varianten aufgeführt.
Die 3 Base Die Variante wird es wohl auch als MI500 nicht werden. MI500 müsste eigentlich für 2027 auf dem Plan stehen, eventuell mit A14 oder effizienterem N2 Node fürs GCD mit mehr CU sowie mehr Speicher?
Edit Ende

MI 350 verwendet schon 2 x Base Die mit je 4 GCD.
MI 400 ist mit doppelter FP Leistung zu MI300 und 432GB HBM von AMD geleakt.
https://pics.computerbase.de/1/1/7/9/8/8-ca37b084ddb93044/28-1080.719c32e9.png

Das entspricht 12 x HBM Stacks a 36GB. 12 GCD mit 552 CU gesamt würden dazu passen und die Leistung bringen.
MI355X ist mit TBP von 1400W angegeben.
Ein AT0 entspricht nur der Hälfte eines MI355X. Da sind 700W für AMD anscheinend kein Problem.
Dementsprechend ist der AT0 für Gaming noch abgespeckt und wahrscheinlich niedrig getaktet um unter 400W zu bleiben.

Ich denke, MI400 kommt erst Ende 2026, anschließend AT0 Anfang 2027 und AT2 ab April 27?

Wie machst du das denn? Sieht sehr cool aus!
Mit Paint.

basix

2025-07-28, 20:05:53

AT0 inkl. 3D Stacking wäre viel kleiner als die Hälfte von MI355X. Wie gesagt, wenn AT2 264mm2 gross ist, dürfte AT0 ~650...700mm2 gross sein. Und das in N3P "monolithisch). 3D Stacking isch schlichtweg nicht nötig.

MI400 ist für 2026 angekündigt. AMD will das aber sicher pushen. Ich tippe deswegen auf Mitte 2026, sonst hätte AMD auch H2/2026 auf die Folie schreiben können.

Wieso denkst du, dass 3x Base Die für MI500 nichts werden? Natürlich könnte AMD eine optimierte / neue Version der XCDs liefern und allenfalls eine optimierte Version des Base Die. Macht Nvidia bei Rubin -> Rubin Ultra allenfalls auch (obwohl die Chips vermutlich fast identisch sein werden). AMD sollte aber zwingend mehr HBM4-Stacks verbauen, da 2027 der Gegenspieler Rubin Ultra mit 16x HBM-Stacks sein wird. 3x Base Die mit je 6x HBM-Stacks wären hier ideal, macht 18x HBM-Stacks in der Summe für MI500. AMD kann damit den Speichermengenvorteil behalten. Mit dem aufsplitten in Base Die + XCD sowie MID bei MI400 legt AMD die Basis für eine "einfache Skalierung" mit der Anzahl Base Die. Bei MI400 sind es mal 2x. Bei MI500 vermute ich 3x. Und bei MI600 könnten es 4x sein (ähnlich wie Rubin Ultra), wer weiss.

Edit:
Irgendwie zeigt TSMCs Packaging Roadmap genau AMDs Designs :D
https://www.techpowerup.com/337960/tsmc-prepares-copos-next-gen-310-x-310-mm-packages
https://www.techpowerup.com/336064/tsmc-outlines-roadmap-for-wafer-scale-packaging-and-bigger-ai-packages

- MI300 = 2x Reticle + SoIC (N5 on N6) + 8x HBM
- MI400 = 2x Reticle + SoIC (N2 on N3) + 2x MID + 12x HBM
- MI500(?) = 4x Reticle + SoIC (A16 on N3) + 4x MID + 12x HBM (mit PIM, um Bandbreite zu sparen?)

amdfanuwe

2025-07-28, 22:17:50

AT0 inkl. 3D Stacking wäre viel kleiner als die Hälfte von MI355X. Wie gesagt, wenn AT2 264mm2 gross ist, dürfte AT0 ~650...700mm2 gross sein. Und das in N3P "monolithisch). 3D Stacking isch schlichtweg nicht nötig.

Denke nicht dass das "viel" kleiner wird. Bei AT0 steckt ja noch viel ML/AI sowie mehr En-Dekoder drin. Wer weiß, ob AMD das nicht nutzt.
Und wir wissen ja auch nicht, wie sich das rechnet großer Monolith vs stacking. Immerhin haben sie ja schon die Erfahrung mit MI355X, kennen die Yields und Kosten.
Aber wie gesagt, ist nur eine Idee von mir und AMD ist meinen Ideen selten gefolgt :freak:

MI400 ist für 2026 angekündigt. AMD will das aber sicher pushen. Ich tippe deswegen auf Mitte 2026, sonst hätte AMD auch H2/2026 auf die Folie schreiben können.

Also AMD schreibt auch 2026 auf die Folien wenn sie erst am 31.12 vorstellen. Da wurde mein Optimismus schon öfter enttäuscht. Kann aber auch noch einiges schief gehen, PCIe 6.0, GDDR7.

Wieso denkst du, dass 3x Base Die für MI500 nichts werden?

Nur so, sind lange Wege für den Datenaustausch der äußeren Dies.

Edit:
Irgendwie zeigt TSMCs Packaging Roadmap genau AMDs Designs :D
https://www.techpowerup.com/337960/tsmc-prepares-copos-next-gen-310-x-310-mm-packages
https://www.techpowerup.com/336064/tsmc-outlines-roadmap-for-wafer-scale-packaging-and-bigger-ai-packages

- MI300 = 2x Reticle + SoIC (N5 on N6) + 8x HBM
- MI400 = 2x Reticle + SoIC (N2 on N3) + 2x MID + 12x HBM
- MI500(?) = 4x Reticle + SoIC (A16 on N3) + 4x MID + 12x HBM (mit PIM, um Bandbreite zu sparen?)
Jup, denke auch AMD wird mit zu den ersten gehören, die die neuen Packaging Technologien ausprobieren. Wird 2027/28 spannend was AMD bei SOW-X einfällt.

dargo

2025-08-05, 17:43:14

Gaming und Professionelle RDNA5 Modelle
Fertigung angeblich 3nm

https://youtu.be/uLsykckkoZU
Irgendwie machen die Daten der Spekulation für mich keinen Sinn.
https://youtu.be/uLsykckkoZU?si=HtpXPyG2eXM7v5sa&t=1133

Die RX 10070XT soll also nur 20% schneller sein als die RTX 4080, was wiederum +~20% vs. RX 9700XT bedeutet. Bei 275W fände ich das schon wieder ziemlich enttäuschend für 3nm und maximal *gähn* für N48 Besitzer. Und wie die RX 10090XT mit gigantischen 154 CUs (vs. 64 CUs) "nur" auf 380W dann kommen soll weiß auch niemand. Dafür müsste AMD mit der Frequenz bei AT0 massiv runter. Was wiederum keinen Sinn ergibt. Denn mit mehr Frequenz die logischerweise zu mehr Performance führt (+ Verbrauch natürlich) kann AMD auch mehr Geld verlangen. Und wo bleibt der Salvage von AT0? Gibt es diesmal keinen weil schon der TopDog ein Salvage ist? Auch das wäre maximal langweilig für den dGPU Markt.

btw.
Auch die RX 10060XT mit angeblich 210W sieht ganz schön schwach aus vs. RTX 5060TI - RTX 5070.

basix

2025-08-18, 21:00:33

CDNA5 / MI400 Launch für H1/2026 oder evtl. sogar Q1/2026 angekündigt:
https://www.reddit.com/r/AMD_Stock/comments/1mp3awv/according_to_an_amd_svp_mi400_will_launch_in/

The MI350 series, including Instinct MI350X and MI355X GPUs, delivers a fourfold generation-on-generation increase in AI compute and a 35-time leap in inference. “We are working on major gen-on-gen improvements,” Boppana says. “With the MI400, slated to launch in early 2026 and purpose-built for large-scale AI training and inference, we are seeing up to 10 times the gain in some applications. That kind of rapid progress is exactly what the agentic AI era demands.”

horn 12

2025-08-18, 22:53:34

und sollte RDNA 5 dann fast zeitgleich kommen
Wäre überraschend, wenn die Karten bereits in nicht mal einem Jahr kommen sollten?

basix

2025-08-18, 23:20:55

RDNA5 ist immer noch für Ende 2026 im Plan. CDNA Release-Zyklen dürften entkoppelt sein von RDNA. ML/AI-Beschleuniger haben mittlerweile ganz andere Iterationsraten.

Dafür gibt es Gerüchte, dass Xbox Next zum 25 Jahr Jubiläum Ende 2026 erscheinen soll und CoD MW 6 bereits auf einem Xbox Next Developer Kit am laufen sein: https://forums.anandtech.com/threads/xbox-next-speculation.2622059/page-2#post-41493984
- Notiz: Das Developer Kit könnte auch auf N48 basieren

dargo

2025-08-19, 07:56:53

und sollte RDNA 5 dann fast zeitgleich kommen
Wäre überraschend, wenn die Karten bereits in nicht mal einem Jahr kommen sollten?
Komme bitte in der Realität an Horni. :) Warum sollten Gamingchips zeitgleich mit Profichips kommen? Letzteres generiert deutlich mehr Geld. Da schießt man sich doch nicht selbst ins Knie. Du wirst einen RDNA5 nicht vor Ende 2026 kaufen können. Und selbst das ist schon sehr optimistisch. Im schlimmsten Fall eher Q1 2027. Dann stürzt sich die ganze, ungeduldige Meute drauf, was wieder zu völlig überzogenen Preisen führt. Bis die Normalität bei den Preisen wieder ankommt hast du Sommer 2027.

dargo

2025-08-22, 14:50:06

Öhm... AT3 soll bei nur 48CUs (angeblich ist eine RDNA5 CU 10% schneller als RDNA4 CU) gleich ein gigantisches 384Bit SI bekommen? :|
https://youtu.be/K0B08iCFgkk?si=b7XaI4-CP8m6pA-F&t=778

AT3 soll angeblich bei ca. Performance einer RX 9070 non XT rauskommen (Raster). Wofür für so einen kleinen "Pups" gleich so ein breites SI? Kommt mir sehr unglaubwürdig vor. Oder ist so ein breites SI an einem LPDDR6 wiederum extrem sparsam?

Edit:
PTX anstatt RX ab RDNA5 wäre in der Tat ein schöner Seitenhieb Richtung Nvidia. :D

dildo4u

2025-08-22, 14:53:34

Als APU du musst dort noch die CPU füttern.
Nicht vergessen das Ding bekommt Low Power Notebook Ram kein GDDR7.

Er spekuliert auf 10GB/Sek LPDDR5X, GDDR7 kann 30GB/Sek

dargo

2025-08-22, 15:00:11

Da steht was von Discrete GPU bei AT3.

mboeller

2025-08-22, 16:04:51

Da steht was von Discrete GPU bei AT3.

... mit LPDDR6! Deshalb das breite Interface

wahrscheinlich hat die Karte die Bandbreite wie Strix-Halo + ~66%, also so 425GB/sec

LPDDR6 schafft zwar in Theorie die doppelte Bandbreite von LPDDR5x aber erst in einigen Jahren. Am Anfang kommt LPDDR6 mit 10.667er Geschwindigkeit und erst später dann mit 14400er Geschwindigkeit (und wäre dann 2x so schnell wie LPDDR5x mit 9600Gbps)

und ja, ist ungewöhnlich GPUs mit LPDDR5/6 zu bringen und nicht auf GDDR6/7 zu setzen. Aber dadurch kann man das Die dann als Chiplet für APUs und Konsolen verwenden.

Info zu LPDDR6: https://www.jedec.org/sites/default/files/Brett%20Murdock_FINAL_Mobile_2024.pdf

robbitop

2025-08-22, 16:19:01

MLID sagt LPDDR ist wohl günstiger und besser verfügbar als top of the line GDDR. Und breiteres SI mit weniger Takt ist bandbreitennormiert energieeffizienter als ein schmales SI mit hohem Takt.

dargo

2025-08-22, 16:21:10

... mit LPDDR6! Deshalb das breite Interface

Das ist mir schon klar. Mich verwundert nur, dass man so ein breites SI für so eine kleine SKU nimmt. In der Regel bedeutet breites SI viel Stromverbrauch, HBM jetzt mal außen vor.

MLID sagt LPDDR ist wohl günstiger und besser verfügbar als top of the line GDDR. Und breiteres SI mit weniger Takt ist bandbreitennormiert energieeffizienter als ein schmales SI mit hohem Takt.
Ok... wenn AMD stark mit der Frequenz runter geht könnte der Plan wieder aufgehen. :uponder: Mehr Die Size frisst aber so ein breites SI dann trotzdem. 48CUs das ist eigentlich eher was für 128Bit @GDDR7. Oder AMD geht hier hauptsächlich auf Nummer sicher zwecks VRAM-Verfügbarkeit, wäre natürlich auch möglich.

robbitop

2025-08-22, 16:41:53

Es scheint ja auch nur für die kleinen GPU SKUs und APUs zu sein. Also AT3+4. Da wo dann mehr Punch erforderlich ist (AT2+1+0) dann vermutlich GDDR.
Ich tippe auch darauf, dass das ein bisschen die size kostet. Aber am Ende ist ja nur der Gesamtpreis der SKU entscheidend. Wenn der Speicher in Summe deutlich mehr spart als das SI mehr kostet, wäre es ja okay.

dargo

2025-08-22, 16:44:13

Ich tippe auch darauf, dass das ein bisschen die size kostet. Aber am Ende ist ja nur der Gesamtpreis der SKU entscheidend. Wenn der Speicher in Summe deutlich mehr spart als das SI mehr kostet, wäre es ja okay.
Genau... und ich gehe auch davon aus, dass sich AMD absichert, dass es nicht zu Engpässen kommt wenn alles SKUs im Portfolio GDDR abbekämen.