Anmelden

Archiv verlassen und diese Seite im Standarddesign anzeigen : AMD/ATI - RDNA5 bzw. UDNA1 (Navi 5X, Radeon RX 10000 Serie, MCM, 2026)


Seiten : 1 [2]

davidzo
2025-08-22, 17:28:14
Dann wurden unsere Gebete ja endlich erhört.

Hier im Forum sprechen wir uns spätestens seit Navi24 für die Rückkehr von DDR bzw. LPDDR in den entrylevel GPU Markt aus. Früher konnten die entrylevel GPUs meist Schritthalten mit den Midrange Modellen wenn es um die VRAM Ausstattung ging, was für die Entwickler einfach war weil die Texturen nicht in X verschiedenen Auflösungen vorliegen müssen und man eher mit LOD etc. arbeiten konnte um die Komplexität der Szene zu reduzieren. Seit 3-4 Generationen ist das nicht mehr der Fall und statt einfach alle Texturen in den VRAM zu laden gibt es aufwändige Textur streaming Verfahren.

AMD war eigentlich prädestiniert dafür das schon viel früher zu machen, da sie die LPDDR eh breitflächig in APUs verwenden. Auch unterhalb von N33 hatte ich sowas eigentlich erwartet.

Dass AMD in 2026 auch den midrange (4060 level) mit LPDDR abdeckt ist nur konsequent, litten die vergangenen Midrangekarten doch seit der 3060 immer wieder massivst unter VRAM Mangel.
Anfangs lag das tatsächlich am Preis für schnellen GDDR6 (rund 30$ für 8GB). GDDR7 dürfte aktuell in ähnlichen gefilden liegen. Mittlerweile hat nvidia das als effektive Upselling Methode entdeckt obwohl die preise unter 20$/8Gb gesunken sind, zumindest für GDDR6.

basix
2025-08-22, 18:24:05
Fixfertige DDR5-DIMMs gibt es ja zum Teil mit ~2$/GByte im Handel. Da ist Vendor- und Händler-Marge auch schon drauf.

LPDDRx soll etwas teurer als deren Geschwister sein, aber das dürfte nicht viel sein. Es kann insgesamt also gut sein, dass LPDDR5X/LPDDR6 ca. 2/3 so teuer sind wie GDDR6/GDDR7. Dann bekäme man 12 GByte für 8 GByte und 16 GByte für 12 GByte und wäre somit ideal für Mainstream-GPUs (AT4 mit 12 GByte und AT3 mit 16 GByte). Bei 10'667...17'066 MT/s und 2-ch Interface erreicht man doch 256...409.6 GB/s Bruttotransferrate. Bei einem 4-ch Interface (AT3) wären es 512...819.2 GB/s. Eine 9070XT hat auch nur 640 GB/s.

robbitop
2025-08-22, 20:04:13
Wobei der LLC und dessen hitrate mit betrachtet werden muss und nicht nur die externe Bandbreite. Wenn es deutlich weniger LLC gibt braucht es mehr externe Bandbreite für die gleiche Performance.

davidzo
2025-08-22, 20:39:53
LPDDRx soll etwas teurer als deren Geschwister sein, aber das dürfte nicht viel sein. Es kann insgesamt also gut sein, dass LPDDR5X/LPDDR6 ca. 2/3 so teuer sind wie GDDR6/GDDR7.

Preis ist eben auch eine Stückzahlenfrage. LPDDR hat mittlerweile vergleichbare bis größere Stückzahlen gegenüber non mobile DRAM. Der Consumer DDR Markt (PCs, labtops) ist schon seit Jahrzehnten weitaus kleiner als der Consumer markt für mobile DRAM (Telefone, mittlerweile auch Notebooks). Bislang hat das Wachstum in den Rechenzentren es aber immer noch rausgerissen für DDR5 und Co. Da Rechenzentren aber aktuell vermehrt in GPUs und HBM investieren und bei klassischen Servern nur noch konsolidieren, könnten DDR5 und DDR6 die Verlierer sein.

Möglicherweise ist in der nächsten Generation also LPDDR6 die am meisten gehandelte Commodity und nicht mehr DDR6.

HOT
2025-08-26, 18:47:31
Zeit für ne Liste:

AT0 -> 192CUs 4x2x12 WGP, 512Bit GDDR7, N2P (N3P wäre völlig sinnlos für den Chip, zumal AMD ja eh schon erfolgreich mit N2P arbeitet und jeder mm² zählt bei der Größe)
AT2 -> 72CUs 3x12 WGP, 192Bit GDDR7, N3P
AT3 -> 48CUs 2x12 WGP, 256Bit LPDDR5x oder 384Bit LPDDR6, N3P
AT4 -> 24CUs 1x12 WGP, 128Bit LPDDR5x, N3P

horn 12
2025-08-26, 19:32:33
Dies wäre dass ja nur 15 bis 20% über einer 9070 XT wenn man AT2 hernimmt
Wenn es hochkommt,- da wäre man knapp an einer 4090

HOT
2025-08-26, 19:49:05
Würd auch sagen, der kommt knapp >4090 raus.

basix
2025-08-27, 08:12:24
AT0 -> 192CUs 4x2x12 WGP, 512Bit GDDR7, N3P
AT2 -> 72CUs 3x12 WGP, 192Bit GDDR7, N3P
AT3 -> 48CUs 2x12 WGP, 256Bit LPDDR5x oder 384Bit LPDDR6, N3P
AT4 -> 24CUs 1x12 WGP, 128Bit LPDDR5x oder 192Bit LPDDR6, N3P
Leichte Anpassungen in fett, wie ich das erwarten würde ;)

horn 12
2025-08-27, 08:56:02
Und AT0 kommt für Endkunden, oder nur für AI udg.
oder wird dies eine Titan wie bei NV werden.

dargo
2025-08-27, 08:58:31
Boah... bitte nicht den gleichen bullshit bei AMD jetzt auch wie schon bei Nvidia. :facepalm: Damit meine ich den riesen Abstand zwischen AT0 und AT2.

HOT
2025-08-27, 09:11:44
Leichte Anpassungen in fett, wie ich das erwarten würde ;)
Vielleicht theoretisch, aber es gibt keinen Grund das praktisch umzusetzen. Das war schon absicht, dass ich das weggelassen habe. Und wie ich schon schrieb, N3P für den AT0 ergibt überhaupt keinerlei Sinn.

basix
2025-08-27, 09:43:58
Ach ja?
- Der mit Abstand grösste Chip im noch unerprobtesten Prozess? Selbst Zen 6 und MI400 nutzen N2P nur für relativ kleine Chiplets
- Die ganze RDNA5 IP von N3P auf N2P portieren? Alle anderen Produkte (dGPUs wie auch APUs, vermutlich auch NextGen Konsolen) nutzen N3P bei den Chips, wo RDNA5 drauf ist

N2P wäre für AT0 aus leistungstechnischer Sicht sicher schön. Aber es gibt schwerwiegende Gründe (Kosten, R&D Aufwand, Risiko) welche dagegen sprechen.


Boah... bitte nicht den gleichen bullshit bei AMD jetzt auch wie schon bei Nvidia. :facepalm: Damit meine ich den riesen Abstand zwischen AT0 und AT2.
AT1 gäbe es noch dazwischen (256bit, 96 CU). Der wurde aber anscheinend gecancelt.

AT0 wie auch GB202 würde es in dieser Form gar nicht geben, wenn es nicht ML/AI gäbe. Die wären sonst auf 384bit und 75...80% der SMs reduziert. Als Top Dog Käufer kann man das aus gewisser Sichtweise sogar begrüssen, da man fettere GPUs bekommt (zu einem natürlich höheren Preis).
99% der Gamer wird das aber wenig interessieren ob der grösste Chip noch fetter und teurer wird, wenn eine 5080 bereits 1000$ kostet und AT2 wohl auch ~600$ kosten wird. Da ist der relative Abstand zum grössten Chip nicht so relevant.

Ihr (und 99% von Gamern) solltet euch lieber auf folgendes freuen:
- AT2 mit 18/24 GByte, ~5080...4090 Performance für ~600/700$
- AT3 mit 16 GByte, ~5070 Ti / 9070 XT Performance für ~400$
- AT4 mit 12 GByte, ~5060 Ti / 9060 XT Performance für ~250$

Und obendrauf aufgebohrtes Featureset für verbessertes Pathtracing, Neural Rendering usw.

dargo
2025-08-27, 09:56:29
AT1 gäbe es noch dazwischen (256bit, 96 CU). Der wurde aber anscheinend gecancelt.

Was es gäbe juckt hier nicht, es hilft dem PC-Gaming Markt in keinster Weise.



Ihr solltet euch lieber auf folgendes freuen:
- AT2 mit 18/24 GByte, ~5080...4090 Performance für ~600/700$
- AT3 mit 16 GByte, ~5070 Ti / 9070 XT Performance für ~400$
- AT4 mit 12 GByte, ~5060 Ti / 9060 XT Performance für ~250$
Was gibt es hier zu freuen? Wo ist der Anreiz bei RDNA5 für einen N48 Besitzer? AT0 für teures Geld und mit hoher Wahrscheinlichkeit auch viel Durst ansonsten auf RDNA6 warten? Lol...

basix
2025-08-27, 09:58:39
+50% Performance, mehr Speicher und deutlich schnelleres Pathtracing (was mMn bei PS6 / Xbox Next zum Standard werden wird) sind für dich also keine Argumente?

Wenn du deine 9070XT verkaufst, bezahlst du nichtmal so viel obendrauf ;)

Und wenn es dich nicht interessiert: Es gibt andere Leute, die es interessieren wird ;)
Es gibt viele Leute, die noch keine Karte mit N48 Performance haben. Für 400$ wäre das mMn ein ansprechender Deal.

HOT
2025-08-27, 09:59:17
Wenn die wirklich AT3 und 4 mit LPDDR5x bringen haben die auch nicht nur so wenig RAM...
Da dürfte AT4 dann 16GB und AT3 24GB haben und auch bei AT2 würde ich nicht von 18GB ausgehen, bis dahin wird es 32Gbit-Module geben, was auch 24GB wären.

@basix N2 hatte die ganze Zeit sehr gute Yields, es gab keinen Grund nicht auf den Prozess zu setzen für AMD, erst recht nicht wenn man wichtigster Kooperationspartner mit Exklusivdeal war. Natürlich ist AT0 aus meiner Sicht N2P, N3P ergibt keinen Sinn bei dem Hintergrund. Außerdem wirst du eine Menge salvage haben (immerhin sämtliche Consumerchips).

basix
2025-08-27, 10:01:30
Wieso sollten sie mehr VRAM draufpacken als nötig? Oder hast du die 8GB 5060 / 5060 Ti / RX 9060 und 9060XT vergessen?

dargo
2025-08-27, 10:01:34
Ich erwarte keine +50% bei AT2. Wie kommt man überhaupt auf solche Zahlen? Vielleicht einzelne, rausgepickte Rosinen aber bestimmt nicht im Schnitt der Spiele.


Es gibt viele Leute, die noch keine Karte mit N48 Performance haben. Für 400$ wäre das mMn ein ansprechender Deal.
Du hast da imo viel zu optimistische Erwartungen an die Performance und Preise. Letzteres insbesondere unter dem Aspekt eines noch teureren Fertigungsprozesses mit RDNA5.

basix
2025-08-27, 10:04:24
Ich erwarte keine +50% bei AT2. Wie kommt man überhaupt auf solche Zahlen?

Educated guess ;)

dargo
2025-08-27, 10:06:03
Entschuldige bitte, aber mir ist da noch zu viel wildes Spekulatius in deiner Prognose. ;)

dildo4u
2025-08-27, 10:09:46
Kommt drauf ob sie es ernst meinen Path Tracing Konsolen zu bauen du willst was in Bereich der 5080, was eine realistische Performance für die 6070 Klasse in 2027 wäre.


3080 waren z.b 300 Watt und 4070 200 Watt was ins Konsolen TDP passt.

HOT
2025-08-27, 10:15:47
Wieso sollten sie mehr VRAM draufpacken als nötig? Oder hast du die 8GB 5060 / 5060 Ti / RX 9060 und 9060XT vergessen?

Das wird einfach Standard sein. Siehe NV: 5070S -> 18GB 5070TiS -> 24GB
Da kannst nicht mehr mit solchen pipimengen auflaufen... das wird so nicht kommen, du wirst mindestens 16GB sehen, erst recht mit LPDDR-RAM.



AT2 soll ja 10% mehr IPC als RDNA4 haben, zudem dürfte der Takt auf 3,5GHz steigen, da kommst bei 72CUs sicherlich irgendwo knapp über der 4090 raus. Mit 24GB 36GT/s GDDR7-RAM haste auch ausreichend Bandbreite, aber ein nativ-UHD-Chip ist das dann natürlich wieder nicht.

horn 12
2025-08-27, 10:33:47
Hier:

https://videocardz.com/newz/amd-rdna5-rumors-point-to-at0-flagship-gpu-with-512-bit-memory-bus-96-compute-units

Kepler gepostet
Dies würde Sinn machen und ein Update für 9070XT rechtfertigen
Plus 50 bis 60% sollten machbar sein

basix
2025-08-27, 10:40:46
Das wird einfach Standard sein. Siehe NV: 5070S -> 18GB 5070TiS -> 24GB
Da kannst nicht mehr mit solchen pipimengen auflaufen... das wird so nicht kommen, du wirst mindestens 16GB sehen, erst recht mit LPDDR-RAM

Jetzt vermischt du aber etwas an meiner Aussage. AT2 wird in 18 & 24 GByte Konfigurationen daherkommen. Das bestreite ich nicht und macht für den Performance-Bereich auch Sinn. Es ging mehr um AT3 und AT4, welche nicht mit "masslosen" VRAM-Mengen daherkommen werden. LPDDRx ist günstiger aber was bringen dir 24 GByte auf einer AT3 Karte? Du zahlst als Kunde mehr aber wirst faktisch nie was davon haben (bei reinem Gaming Use Case). Über 16 GByte bei AT4 kann man noch reden, aber das wird ein 1x SE / 24 CU Mini-Chip werden (~100mm2 ohne MID).

Vielleicht also sowas, um meine "Vision" klarzustellen ;)
- AT2 = 18GB & 24 GByte Varianten
- AT3 = 16 GByte
- AT4 = 12GB & 16 GByte Varianten

Nur weil es günstiger LPDDRx Speicher ist, wird man nicht plötzlich per Giesskanne riesige Speichermengen verbauen. So funktioniert betriebswirtschaftliche Arbeit nicht, auch wenn wir Kunden das gerne anders hätten.
Bei den Profi-Karten sowie allfälligen ML/AI Use Cases sieht das natürlich anders aus. Da können AT3 und AT4 aus dem Vollen schöpfen und 128 GByte oder mehr verbauen.

dargo
2025-08-27, 10:45:03
AT2 soll ja 10% mehr IPC als RDNA4 haben, zudem dürfte der Takt auf 3,5GHz steigen...
Bei welcher Gaming-Last? :tongue: Ich kann auch einen N48 schon spielend auf 3,xGhz hochjagen, nur wird dann das Teil zur Saufziege bei höheren Heizlast.

HOT
2025-08-27, 10:45:12
basix
Das interessiert doch keinen. Das Ding hat billige 24GB, das wird gekauft. Ist doch total egal ob die das brauchen oder nicht (zumal das wieder mal sehr optimistisch ist von dir ;). Wir reden hier von ab Mitte 27).

Bei welcher Gaming-Last? :tongue: Ich kann auch einen N48 schon spielend auf 3,xGhz hochjagen, nur wird dann das Teil zur Saufziege.

RT ist komplette Wildcard, keine Ahnung wie das abschneiden wird, das weiß niemand. Ich rede bei sowas immer nur von Raster. Und ob UDNA bei 3,x GHz saufen wird wird sich zeigen.

basix
2025-08-27, 10:46:14
Mit 16 GByte ist es noch billiger ;)

HOT
2025-08-27, 10:49:00
Vergiss nicht immer das Marketing... Außerdem reden wie von Mitte 27 folgend, da ist 16GB wie 12GB jetzt oder viel schlimmer...

dargo
2025-08-27, 10:49:31
Hier:

https://videocardz.com/newz/amd-rdna5-rumors-point-to-at0-flagship-gpu-with-512-bit-memory-bus-96-compute-units

Kepler gepostet
Dies würde Sinn machen und ein Update für 9070XT rechtfertigen
Plus 50 bis 60% sollten machbar sein
Hä? Da steht was von 96CUs für AT0. Wie zum Teufel kommt basix auf 192CUs? :freak: Außerdem AT2 nur 40CUs. ;D

basix
2025-08-27, 11:52:13
Vergiss nicht immer das Marketing... Außerdem reden wie von Mitte 27 folgend, da ist 16GB wie 12GB jetzt oder viel schlimmer...

Wie viel hat Marketing gebracht, als Nvidia die 5060 Ti 8GB rausgebracht hat? Ja, Tests sind negativ aber die meisten PC Pre-Builts nutzen die 8GB Variante.

Und 12 GByte sind Ende 2026 / Anfang 2027 mit hoher Wahrscheinlichkeit langlebiger als 8 GByte heute. Solange man bei 1080p bleibt.
Und eben, wenn es noch eine 16 GByte Variante gibt hat der Kunde die Wahl. Die gibt AMD den Kunden mit der 9060XT 8GB auch :D

Hä? Da steht was von 96CUs für AT0. Wie zum Teufel kommt basix auf 192CUs? :freak: Außerdem AT2 nur 40CUs. ;D
Beim schnellen zeichnen WGP mit CU verwechselt. Das kann auch Kepler_L2 passieren ;)
Oder was willst du mit 96CU an einem 512bit GDDR7 Interface machen? ;)

40 WGP / 80 CU wäre ein denkbare Variante von AT2, wenn 36 WGP / 72 CU vom Chip-Layout nicht optimal wären. Würde dann aber auch 4x SE anstatt 3x SE bedeuten (wie es Kepler auch eingezeichet hat).
Da der Xbox Next Chip mit AT2 spekuliert wird und ~66...70 CU tragen soll (66 CU wären bei 72 CU und 3x SE meine Wahl, -1x WGP pro SE), ist 72 CU wahrscheinlicher. Sonst wäre der Verschnitt bei der Xbox Next zu gross.

davidzo
2025-08-27, 12:24:48
Hä? Da steht was von 96CUs für AT0. Wie zum Teufel kommt basix auf 192CUs? :freak: Außerdem AT2 nur 40CUs. ;D

Es ist ein komplett neues Gerücht, dass den bisherigen MLID Angaben widerspricht.
Dementsprechend sind die IPC Angaben von MLID auch nicht übertragbar. 96 und 40CU klingt aber eher nach AMD und dass Infinity-cache wieder im Spiel (L2 wird umbenannt?) ist klingt imo auch realistischer.

Gleichzeitig sind es dieselben Namen wie MLID geleakt hatte. Bei den Chip-Bezeichungen lag er also richtig. In dem neuen Kepler Leak gibt es widerrum nichts was nach offiziellen Infos klingt, sondern eher mehr nach educated Guess seitens Kepler womit er in der Vergangenheit auch häufiger mal falsch lag.

mboeller
2025-08-27, 13:20:36
Hä? Da steht was von 96CUs für AT0. Wie zum Teufel kommt basix auf 192CUs? :freak: Außerdem AT2 nur 40CUs. ;D

nt ... hat basix schon beantwortet

basix
2025-08-27, 13:36:48
Bei den Chip-Bezeichungen lag er also richtig. In dem neuen Kepler Leak gibt es widerrum nichts was nach offiziellen Infos klingt, sondern eher mehr nach educated Guess seitens Kepler womit er in der Vergangenheit auch häufiger mal falsch lag.

Ist nicht viel mehr als ein "Schizopost", siehe hier die Originialquelle ;)
https://forums.anandtech.com/threads/rdna-5-udna-cdna-next-speculation.2624468/page-40#post-41496872

Und hier eine tabellarisch aufgestellte Form von dem:
https://forums.anandtech.com/threads/rdna-5-udna-cdna-next-speculation.2624468/page-40#post-41497579

2x old CU / WGP / New CU:
Wird alles durcheinandergewürfelt, bedeutet aber das selbe. Einzel CUs gibt es bei RDNA4 per Definition nicht. Die kleinste Einheit pro SE ist ein WGP mit 2x CU (in RDNA1...4 Sprech). Bei RDNA5 soll die CU jetzt anscheinend doppelt so gross werden (1x RDNA5 CU = 2x RDNA4 CU = 1x RDNA4 WGP)

Edit:
Weiter im Thread noch eine interessante Speku: RDNA5 und CDNA5 gehen in Richtung Apple M3+ Cache Design?
https://forums.anandtech.com/threads/rdna-5-udna-cdna-next-speculation.2624468/page-40#post-41497615
https://forums.anandtech.com/threads/rdna-5-udna-cdna-next-speculation.2624468/page-40#post-41497616
https://forums.anandtech.com/threads/rdna-5-udna-cdna-next-speculation.2624468/page-40#post-41497631

CDNA4 is 32KB L0 + 160KB LDS, CDNA5 is 448KB Shared L0/LDS
-> Zusammenfassung von L0$, LDS und vielleicht auch Registerfile zu einem grossen unified/shared Cache?!

Hier ab Minute 11:37
https://developer.apple.com/videos/play/tech-talks/111375/

Dynamische Register-Allokation hat AMD bei RDNA4 bereits eingeführt. Sieht so aus, also könnten sie hier noch näher an Apples Design-Ansatz ranrücken (unified CU cache, dynamic/OoO scheduling).
Eine effektivere Nutzung der Caches innerhalb der CUs und SE kann natürlich eine Erklärung sein, wieso ein etwas grösserer L2$ ausreicht gegenüber L2$ + MALL.

AffenJack
2025-08-27, 16:27:38
Es ist ein komplett neues Gerücht, dass den bisherigen MLID Angaben widerspricht.
Dementsprechend sind die IPC Angaben von MLID auch nicht übertragbar. 96 und 40CU klingt aber eher nach AMD und dass Infinity-cache wieder im Spiel (L2 wird umbenannt?) ist klingt imo auch realistischer.

Gleichzeitig sind es dieselben Namen wie MLID geleakt hatte. Bei den Chip-Bezeichungen lag er also richtig. In dem neuen Kepler Leak gibt es widerrum nichts was nach offiziellen Infos klingt, sondern eher mehr nach educated Guess seitens Kepler womit er in der Vergangenheit auch häufiger mal falsch lag.

Kepler hat schon häufiger bzgl RDNA5 Sachen geposted, die nicht zu MLID Aussagen passten. Ich hab das nur am Rand mitbekommen, aber fand das ja immer spannend, dass hier MLID als zuverlässiger als Kepler gesehen wird.

MLID lag in der Vergangenheit auch verdammt oft falsch.

HOT
2025-08-28, 07:23:27
Hä? Da steht was von 96CUs für AT0. Wie zum Teufel kommt basix auf 192CUs? :freak: Außerdem AT2 nur 40CUs. ;D

Das ist so ne Sache mit den CUs. Ich vermute, dass sowohl Kepler als auch MLID recht haben und das wie basix schon ausführte tatsächlich nur Definitionssache sein könnte, denn es kann sein, dass AMD die WGPs jetzt einfach als CUs bezeichnet, denn die werden bei UDNA ja noch mehr Synergien ausnutzen.

AT0 -> 192CUs 8x2x6 WGPs/CUs, 512Bit GDDR7, N2P, (384Bit und ca.84WGP/CU) 48GB 36Gbit/s 16Gbit GDDR7 (Doppelseitig) (Radeon AI290)
AT2 -> 80CUs 4x2x5 WGPs/CUs, 192Bit GDDR7, N3P, 36GB 36Gbit/s 24Gbit GDDR7 (Doppelseitig) (Radeon AI280)
AT3 -> 48CUs 2x2x6 WGPs/CUs, 256Bit LPDDR5x oder 384Bit LPDDR6, N3P, 24GB LPDDR5x 10667 (Radeon AI270)
AT4 -> 24CUs 1x2x6 WGPs/CUs, 128Bit LPDDR5x oder 192Bit LPDDR6, N3P, 16GB LPDDR5x 10667 (Radeon AI260)

Über salvage braucht man sich bei den diskreten GPUs keine Gedanken mehr machen, dafür gibts ja die APUs/Magnus und der N3P-Yield soll wahnsinnig gut sein. Vielleicht gibts noch ne GRE oder sowas.
Nochmal an basix Speicherkonfiguration: Die Speicherausstattung wäre knapp, die neuen Konsolen sollten alle mindestens 24GB RAM bekommen wegen AI, selbst das PS Handheld, denn die Developer brauchen mindestens 10GB ausschließlich für AI. Jetzt hat man auch den wahren Grund, warum die alle LPDDR benutzen, denn das trifft die PS6+Handheld offenbar beide, nur Magnus nicht.

robbitop
2025-08-28, 09:06:51
AMD spricht IIRC auch schon relativ lange primär von WGPs und kaum noch von CUs (seit RDNA1 schon). Das kann dann auch schnell mal verwechselt werden. Ich denke auch dass Kepler WGPs meint.

dargo
2025-08-28, 09:32:46
Bei den neuen Konsolen kommen hoffentlich 32GB. Auch dort kann AMD wunderbar den LPDDR5x verwenden.

robbitop
2025-08-28, 09:35:48
Also ich empfand schon PS5 und PS5PRO als enttäuschend was RAM angeht. Die RAM Preise sind ja glücklicherweise gesunken und nun kann es auch endlich mal einen Sprung beim RAM geben.
Und wenn Laptop RAM dabei hilft -> warum nicht?
Die Frage ist nur ob bei Konsolen der Tradeoff genauso greift (dank kleinerer Taktfrequenz des Laptop RAMs muss man mehr Breite und/oder mehr Cache akzeptieren was Kosten des PCBs und kosten des dies (wird größer) beeinflusst). Aber wenn das bei AT3/4 so funktioniert - warum nicht auch in der Konsole.
Die Rumors sind ja dass einer der ATs (AT3?) sogar in der nächsten Xbox verbaut wird.

Exxtreme
2025-08-28, 09:44:19
Konsolen werden eher GDDR7 als RAM verwenden weil sich die CPU und der Grafikchip den RAM teilen. Und da ist die viel höhere Bandbreite wichtiger auch wenn man hohe Latenzen inkauf nehmen muss. Vielleicht werden die Konsolen aber auch einen X3D-Cache bekommen um die hohen Latenzen ein wenig zu egalisieren.

robbitop
2025-08-28, 09:50:26
IMO muss man sehen was für eine Bandbreite von X am günstigsten ist. Und das kann man mit GDDR erreichen aber auch mit LPDDR. Je nach Breite und Cache. Egal ob für eine GPU oder eine APU.
Wenn das für eine Konsole keinen Sinn machen würde, warum tut man es dann für die großen APUs die ja auch ähnlich sein werden? (Medusa Halo / mini)

Exxtreme
2025-08-28, 12:00:04
GDDR7 hat ca. 3,8x so viel Bandbreite wie DDR5-SDRAM. Das auszugleichen wird sehr schwer. Da müsste man die Busbreite vervierfachen. Und das erhöht die Produktionskosten beträchtlich. Und die Margen sind bei Konsolen extrem dünn, oft sogar negativ.

HOT
2025-08-28, 12:40:03
Man wird einfach entsprechend mehr Bandbreite verwenden. Bei AT4 und AT3 ist das ja schon so - AMD baut GPUs mit LPDDR, falls du das nicht mitbekommen hast.
Die PS6 hat ja auch offenbar nur 48CUs, da wird 384Bit LPDDR6 reichen. Das PS Handheld hat offenbar LPDDR5x, wie es aussieht, das scheint aber auch ein Jährchen früher zu erscheinen. Und Magnus setzt ja nach wie vor auf GDDR7, aber eben mit recht wenig Bandbreite von nur 192Bit.

ChaosTM
2025-08-28, 12:52:10
Der Junge von Moore's Law Is Dead (https://www.youtube.com/watch?v=x-A3Bl2hXoQ&t=1358s) spricht von 24-32GB beim Canis Handheld und 32-40 bei der Orion Variante für die PS6.
Vorher zufällig gesehen. K.a. ob das hinkommen kann/wird.

HOT
2025-08-28, 13:10:18
Von der PS4 8GB zur PS5 16GB zur PS6 32GB, kann schon gut sein. Er meint auch, das Handheld soll mindestens 24GB bekommen.

robbitop
2025-08-28, 18:12:56
GDDR7 hat ca. 3,8x so viel Bandbreite wie DDR5-SDRAM. Das auszugleichen wird sehr schwer. Da müsste man die Busbreite vervierfachen. Und das erhöht die Produktionskosten beträchtlich. Und die Margen sind bei Konsolen extrem dünn, oft sogar negativ.
LP-DDR6 ist aber nicht DDR5. Letzterer ist bis 17 GT/s spezifiziert. GDDR6 zumindest gibt es bis 20 GT/s. GDDR7 ist natürlich nochmal schneller - aber wer sagt denn dass man das braucht? N48 kommt mit 20GT/s und ist gleich schnell wie die 5070ti die 28GT/s braucht (und die 4080 ist genauso schnell und die hat auch nur GDDR6 mit 20 GT/s).

Und das macht natürlich nur Sinn, wenn es im Endeffekt günstiger ist. Was MLID meinte ist dass GDDR deutlich teurer ist als LPDDR. Im Gegenzug wird das PCB etwas komplexer und der die ein bisschen größer. Aber es scheint sich bandbreitennormiert sich kommerziell zu lohnen ansonsten erklärt es nicht warum AT3 und 4 mit LPDDR kommen sollen und warum Strix Halo heute schon LPDDR nutzt anstatt GDDR.

iamthebear
2025-08-28, 22:00:01
Kepler hat schon häufiger bzgl RDNA5 Sachen geposted, die nicht zu MLID Aussagen passten. Ich hab das nur am Rand mitbekommen, aber fand das ja immer spannend, dass hier MLID als zuverlässiger als Kepler gesehen wird.

MLID lag in der Vergangenheit auch verdammt oft falsch.

Afaik zieht Kepler seine Leaks ausschließlich aus den öffentlich zugänglichen Sources für AMDs Linux Treibern. Insiderquellen hat er soviel ich weiß keine und lag schon mindestens genauso oft falsch wie MLID. Er war sich zu 100% sicher, dass Navi 31 AD102 (den Full Die) in Grund und Boden stampft bzw. behauptet Zen 5 ist 52% schneller in spec int (waren in der Realität glaube ich 15%)

basix
2025-08-29, 11:13:37
Aus dem Anandtech-Forum ein paar Angaben zu den Low-Level Caches von RDNA5 und CDNA5:
https://forums.anandtech.com/threads/rdna-5-udna-cdna-next-speculation.2624468/page-42#post-41498114
https://forums.anandtech.com/threads/rdna-5-udna-cdna-next-speculation.2624468/page-42#post-41498140

L0$ und LDS sollen bei CDNA5 zusammengelegt werden und in der Grösse anwachsen (448kByte anstatt 128kByte LDS und 32kByte L0$). Das dürfte die Datenlokalität stark erhöhen. Wenn man das auf RDNA5 überträgt, sollte das insbesondere auch für Raytracing von Vorteil sein (z.B. BVH Stack-Management geht über den LDS). Zudem wird auch parallele Ausführung von Vektor, RT und Matrix Operationen von dem profitieren. Aber auch generell dürfte man mehr Threads / Waves in-flight halten können. Zusammen mit out-of-order memory accesses und dem vermutlich kommenden out-of-order Thread / Wave processing sollte die Auslastung der Recheneinheiten und somit die "IPC" ein gutes Stück zulegen können.

Vielleicht stutzt man die 448kByte von CDNA5 auf 224kByte bei RDNA5 zusammen. Aber selbst in diesem Fall hat man mehr L0$+LDS als RDNA4 und man kann es flexibler nutzen / sharen.

Hinsichtlich Zusammenlegung der Caches gibt es bei RDNA5 auch Indizien anhand Treibereinträge:
https://forums.anandtech.com/threads/rdna-5-udna-cdna-next-speculation.2624468/page-42#post-41498299

Und von Seiten AMD gibts auch enstprechende Patente dazu:
https://forums.anandtech.com/threads/rdna-5-udna-cdna-next-speculation.2624468/page-42#post-41498359
"As described herein, a unified flexible cache can be a large cache structure that can replace various smaller cache structures, which can simplify design and fabrication and improve yield during manufacturing. In addition, the unified flex cache can be used for various types of caches, such as various levels of processor and/or accelerator caches, and other cache structures for managing a cache hierarchy, such as a probe filter. Because the flex cache can be partitioned into various sized partitions, the cache types are not restricted to a particular size (e.g., limited by the physical structure). Thus, the flex cache can be reconfigured to provide more efficient cache utilization based on system needs."

basix
2025-08-29, 15:01:03
Samsung legt nochmals schnelleren LPDDR5X auf: 12'700 MT/s
https://www.tomshardware.com/pc-components/dram/samsung-extends-lpddr5-to-12-7-gt-s-next-gen-devices-enjoy-a-nice-speed-boost

Damit wäre man nicht mehr weit weg vom langsamsten LPDDR6, was Bandbreite pro Channel anbelangt.
Interessant für AT3 und AT4.

Exxtreme
2025-08-29, 15:32:29
LP-DDR6 ist aber nicht DDR5. Letzterer ist bis 17 GT/s spezifiziert. GDDR6 zumindest gibt es bis 20 GT/s. GDDR7 ist natürlich nochmal schneller - aber wer sagt denn dass man das braucht? N48 kommt mit 20GT/s und ist gleich schnell wie die 5070ti die 28GT/s braucht (und die 4080 ist genauso schnell und die hat auch nur GDDR6 mit 20 GT/s).


Man wird die Bandbreite wohl doch brauchen. Will man die Performance einer RX9070XT dann braucht man knapp 650 GB/s, wahrscheinlich aber eher 800 - 900 GB/s da die CPU auch noch was haben will. Dafür reicht ein 256 Bit Speicherinterface wenn man GDDR7 nimmt. Mit LPDDR6 wird man eher 1024 Bit brauchen für die gleiche Bandbreite. Ist wohl auch deshalb der Grund warum die PS5(Pro) mit GDDR6 läuft.

basix
2025-08-29, 15:53:49
Es wird interessant werden, ob wir in Zukunft mehr LPDDR Designs sehen werden.

GB10 hat ~300 GByte/s bei 31 TFLOPS und 24 MByte L2$.
Eine 5070 hat 672 GByte/s und 48 MByte L2$ bei etwa selber Rechenleistung.

Da bin ich also gespannt auf Benchmarks und Vergleiche.

robbitop
2025-08-29, 15:55:21
Man wird die Bandbreite wohl doch brauchen. Will man die Performance einer RX9070XT dann braucht man knapp 650 GB/s, wahrscheinlich aber eher 800 - 900 GB/s da die CPU auch noch was haben will. Dafür reicht ein 256 Bit Speicherinterface wenn man GDDR7 nimmt. Mit LPDDR6 wird man eher 1024 Bit brauchen für die gleiche Bandbreite. Ist wohl auch deshalb der Grund warum die PS5(Pro) mit GDDR6 läuft.
Also eine 9070XT hat 640 GB/s. Ein moderner Zen mit 6000er DDR5 hat gerade mal 96 GB/s. Da käme man also nur auf 738 GB/s raus. UDNA soll ja auch eher bandbreiteneffizienter werden und in Konsolen gibt es auch eigentlich immer weniger Bandbreite als im PC (und ich denke auch nicht dass ein moderner Zen Prozessor die Bandbreite in Games wirklich ausreizt die er mit DDR5-6000 hat - da ist es eher ein Latenzlimit - würde mich überhaupt nicht wundern, wenn die Hälfte locker ausreicht - sieht man ja bei Intels CPUs wo DDR4 und DDR5 vorhanden ist und letzterer kaum etwas bringt).
Ich denke dass < 738 GB/s reichen wird. Wahrscheinlich sogar ~600 GB/s.

Für die 738 GB/s wären es bei 256 bit also 23 GT/s (das ist fast GDDR6 Terretorium) die notwendig wären. Bei 600 GB/s wären es sogar nur 18 GT/s. Das ist Massen GDDR6 RAM.

Bei 384 bit wären es bei 738 GB/s gerade mal <16 GT/s was im Spektrum von LPDDR6 (und GDDR6) liegt.
Bei 600 GB/s wären es dann gerade mal 12,5 GT/s was dann sogar mit der Einstiegs LPDDR6 Spec möglich ist.

Wie du da auf 1024 bit kommst, ist mir nicht ganz klar. Man braucht eher sowas wie 50% mehr Breite - nicht 4x.

Exxtreme
2025-08-29, 16:18:54
Ich komme deshalb drauf weil ich mal unterstelle, dass man mit neuen Konsolen viel mehr Wumms haben will als beim Vorgänger. ;) Es würde mich schwer wundern wenn es ausgerechnet diesmal anders laufen würde. Und die PS5 kommt schon auf 448 GB/s. Und ich habe als Referenz diese Auflistung genommen:
https://www.heise.de/news/Superschnelles-RAM-PCI-Express-DDR6-LPDDR6-GDDR7-HBM4-und-PCIe-7-0-9760640.html

Aber jetzt fällt mir auf, dass die die Bus-Anbindung wild vermischt haben bei den Zahlen. Denkfehler inc. :crazy:

Ich rechne das nochmal durch.

robbitop
2025-08-29, 16:31:18
Naja die PS5 PRO hat die GPU deutlich größer gemacht und gerade einmal 576 GB/s an RAM Bandbreite hinzugefügt.
Und wenn das mit den 40 RDNA5 CUs stimmen sollte (die pro CU gerade mal 5-10% schneller in Raster sein sollen als RDNA4 CUs) bei gleichzeitiger Steigerung der Bandbreite, sehe ich nicht, wo mehr Bandbreitenbedarf für die GPU herkommen soll.

basix
2025-08-29, 16:42:55
Die RDNA5 CUs sind aber wohl das, was bei RDNA4 eine WGP war. Wir sprechen hier von 10 TFLOPS bei der PS5 gegenüber ~50 TFLOPS FP32 bei der PS6.

192bit GDDR7 mit 32 Gbps ist gut für 768 GByte/s. Dazu noch ein grosser LLC (vermutlich 24 MByte L2$). Die CPU spielt da sicher nicht eine grosse Rolle, macht sie bandbreitentechnisch am PC auch nicht. Ausserdem dürfte der CPU LLC deutlich anwachsen, von 2x 4 MByte auf vermutlich 16 MByte. Die GPU dürfte zudem generell effizienter mit Bandbreite umgehen.

Wenn man in nur ~1080p rendert und auf 4K upscaled, reichen die 24MByte LLC der GPU für 2x oder evtl. sogar etwas mehr an Bandwidth-Amplification. Effektiv 1536 GByte/s vs. 448 GByte/s bei effizienterer Bandbreitennutzung der CUs sieht schon mal etwas anders und ziemlich vernünftig aus ;)

Nimmt man LPDDR6, wären 384bit (Quad-Channel) mit ~12.8...14.4 Gbps wohl auch ausreichend (614....691 GByte/s abzüglich ~10% Encoding-Overhead aufgrund 256/288 Byte Payload).
Ich denke das wäre aber etwas knapp (AT3 mit 24 "New-CU" hat bereits Quad-Channel LPDDR6). Da müsste wohl schon Hexa-Channel her.

Exxtreme
2025-08-29, 16:50:37
Naja die PS5 PRO hat die GPU deutlich größer gemacht und gerade einmal 576 GB/s an RAM Bandbreite hinzugefügt.
Und wenn das mit den 40 RDNA5 CUs stimmen sollte (die pro CU gerade mal 5-10% schneller in Raster sein sollen als RDNA4 CUs) bei gleichzeitiger Steigerung der Bandbreite, sehe ich nicht, wo mehr Bandbreitenbedarf für die GPU herkommen soll.

Das ist korrekt. Leider ist es schwer rauszufinden wieviel mehr Leistung der größere Chip und die etwas höhere Bandbreite bringt. Viele Spiele sind auf 60 fps festgetackert und man hat die höhere Leistung in Bildqualität gesteckt. Nur weiss man auch nicht wieviel mehr Leistung die bessere Bildqualität braucht da die PS5Pro auch noch PSSR kann, was besser als FSR3 ist. Und RT ist auf RDNA3 auch effizienter.

Und ich erwarte da schon mindestens doppelt so viel Bandbreite als bei der PS5. Und da wäre man bei nahe 800 GB/s.

HOT
2025-08-31, 16:31:37
Die RDNA5 CUs sind aber wohl das, was bei RDNA4 eine WGP war. Wir sprechen hier von 10 TFLOPS bei der PS5 gegenüber ~50 TFLOPS FP32 bei der PS6.

192bit GDDR7 mit 32 Gbps ist gut für 768 GByte/s. Dazu noch ein grosser LLC (vermutlich 24 MByte L2$). Die CPU spielt da sicher nicht eine grosse Rolle, macht sie bandbreitentechnisch am PC auch nicht. Ausserdem dürfte der CPU LLC deutlich anwachsen, von 2x 4 MByte auf vermutlich 16 MByte. Die GPU dürfte zudem generell effizienter mit Bandbreite umgehen.

Wenn man in nur ~1080p rendert und auf 4K upscaled, reichen die 24MByte LLC der GPU für 2x oder evtl. sogar etwas mehr an Bandwidth-Amplification. Effektiv 1536 GByte/s vs. 448 GByte/s bei effizienterer Bandbreitennutzung der CUs sieht schon mal etwas anders und ziemlich vernünftig aus ;)

Nimmt man LPDDR6, wären 384bit (Quad-Channel) mit ~12.8...14.4 Gbps wohl auch ausreichend (614....691 GByte/s abzüglich ~10% Encoding-Overhead aufgrund 256/288 Byte Payload).
Ich denke das wäre aber etwas knapp (AT3 mit 24 "New-CU" hat bereits Quad-Channel LPDDR6). Da müsste wohl schon Hexa-Channel her.

https://wccftech.com/amd-next-gen-rdna-5-radeon-gaming-gpus-pack-over-12k-cores-128-cores-per-compute-unit/

Leonidas
2025-09-03, 18:26:43
gfx13 codenames are from Transformers
Alpha Trion, (Ultra) Magnus, Orion (Pax)
https://forums.anandtech.com/threads/rdna4-cdna3-architectures-thread.2602668/page-469#post-41500592

Alpha Trion is for the whole GMD lineup, Magnus is for Xbox and Orion for PS6
https://x.com/Kepler_L2/status/1963275078302302272

HOT
2025-09-03, 18:36:18
Also genau das was MLID vorher geleakt hat.