Diskussion zu: News des 22. August 2025 [Archiv]

Archiv verlassen und diese Seite im Standarddesign anzeigen : Diskussion zu: News des 22. August 2025

Leonidas

2025-08-23, 09:15:08

Link zur News:
https://www.3dcenter.org/news/news-des-22-august-2025

dildo4u

2025-08-23, 10:00:34

Laut MLID hat die Gameing Version nur 154 CU wäre damit nicht wirklich anders als 5080 vs 5090.

Die Gameing Version ist rot in der Liste.

https://www.club386.com/rdna-5-specs-leak-suggests-amd-is-cooking-up-a-proper-high-end-gpu/

Aroas

2025-08-23, 12:35:55

Gameing Version

Gameing Version

"Gaming" wird ohne e geschrieben.

Tigerfox

2025-08-23, 12:53:04

Die Speicherinterfaces der kleineren Lösungen wirken ersteinmal fake.

Wenn ich aber LPDDR6X richtig verstanden habe, dann hat ein Speicherbaustein nun einen 24Bit-Kanal statt 2x16Bit oder 1x32Bit. Mit den für den Anfang kolportierten 10.677MT/s liegt die Bandbreite pro Baustein bei 32GB/s, bei einem 384Bit-Interface kann ich mit 16 Bausteinen also 512GB/s erreichen - dazu bräuchte ich 32Gbps GDDR7 an 128Bit oder 21,3Gpbs GDDR6 an 192Bit. Dann müssten die LPDDR6X-Bausteine aber auch in 1GB-Größe erhältlich sein, sonst hab ich ja auf eine so kleinen Karte 32GB.

Hab ich das richtig gerechnet?

Mit LPDDR5X an 128Bit (AT4) oder 256Bit (AT3) erreiche ich aber bei 8.533MT/s nur ~137-273GB/s - bedeutend bzw. etwas weniger als momentan mit GDDR6 an 128Bit.

Nun geht der Trend in den letzten Jahren bei Consumer-Karten nicht ohne Grund zu schnellerem Speicher an kleinerem Interface: AFAIK verschlingen die Speichercontroller überproportional viele Transistoren und Platz und schrumpfen nicht so stark mit kleineren Prozessen.
Da frage ich mich, ob nun reine LPDDR-Controller simpler und kleiner und damit billiger sind. Sonst ergäbe das keinen Sinn.

AT2 mit etwas mehr CU als Navi44, etwas kleinerem SI, aber schnellerem Speicher mach Sinn als Ersatz für die 9070er. Allerdings kommt mir die Zahl von 70CUs etwas komisch vor - die einzige GPU, die seit RDNA1 eine nicht durch 8 teilbare Anzahl CUs hatte, ist NAVI32.

Der riesige Abstand zwischen AT2 und AT0 wirkt aber unrealistisch, da gehört noch ein AT1 mit 256Bit und 96-128CUs hinein. Es wäre völlig unwirtschaftlich, den riesigen AT0 auf diese wichtige Leistungsstufe (~4090-Niveau) zusammenzuschrumpfen.

Zusammen mit den CPU-Gerüchten wirkt mir das aber wie zuviel Spekulatius.

crnkoj

2025-08-23, 18:07:17

CCCP

2025-08-23, 18:30:00

Das mit dem lpddr5x / 6 macht Sinn wenn es als shared/unified Memory macht. 32GB würden sich besser machen als die 8GB Krücken.

Gast

2025-08-23, 20:54:17

Also zwischen AT0 und AT2 passt irgendwie noch ein 1er.

Grafikspachtel

2025-08-23, 21:15:30

"Gaming" wird ohne e geschrieben.
Aber mit y. :ulol:

basix

2025-08-24, 01:18:57

Also der lpddr5x/6 Speicher macht doch Sinn mit dem Medusa halo. Man kann ein gpu chiplet entweder für eine stand alone gpu oder für eine apu nutzen.
AMDs machst dich schon mit strix Halo ähnlich, apple mit den mX genauso und nvidia mit dem Arm chip auch.

Genau. Und es gibt Kombi-PHY: https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13801705#post13801705

Und das Argument Bandbreite verstehe ich nicht. Quad-Channel LPDDR6 mit 14.4 Gbps erreicht ~700 GByte/s und somit mehr als eine 9070XT. Dito Dual-Channel LPDDR6 verglichen mit einer 9060XT.

Selbst wenn man initial nicht ganz so schnellen LPDDR6 verwendet, spielt da immer noch die vermutlich verbesserte Bandbreiteneffizienz von RDNA5 mit rein. Kepler_L2 hat ins Blaue +20% IPC für RDNA5 geschätzt. Kommen da noch +10% Takt dazu, dann wären AT3 und AT4 ziemlich genau gleich schnell wie eine 9070XT respektive 9060XT. Mit LPDDR6 und dessen Bandbreitenmöglichkeiten ist das nicht unrealistisch.

Deswegen kann ich dem folgenden Absatz aus dem Artikel nicht zustimmen. Auch mit LPDDR sind schnelle GPUs möglich und das evtl. sogar etwas günstiger als mit GDDR7 ;)
[...] dies mag schön billig sein, jedoch kann man damit keine (performanten) Desktop-Grafikkarten erstellen.

AT2 dürfte dann etwas überhalb der RTX 5080 zu liegen kommen.

==============================================
Generell zum Thema LPDDR5X / LPDDR6 bei AT3 und AT4
Damit kann man gleich mehrere Marktsegmente mit nur zwei Chips bedienen:
- dGPU für Gamer (Low End bis Mittelklasse)
- Premium APUs (Medusa Halo klein und gross)
- Workstation GPUs mit viel VRAM (EDA Tools, Simulationen, ...) -> AT3 dürfte <225W benötigen was für professionelle Karten gut ist (single 8P PCIe Power Connector, DHE-Kühler)
- Workstation ML/AI Accelerator mit extrem viel VRAM (256 GByte anyone?)
- Server ML/AI Accelerator mit extrem viel VRAM. AT3 dürfte mit etwas Taktreduktion in 150W zu bändigen sein -> Single Slot -> Hohe Einbaudichte im Server-Rack (und da Bandbreite / TFLOPS nicht so hoch sind, umgeht man noch US Export-Restriktionen nach China)

Mit LPDDR5X / LPDDR6 kann man nun für alle Marktsegmente skalieren. 8...256 GByte sind definitiv möglich. Mit LPDDR6 evtl. sogar 512 GByte. Würde man GDDR7 nehmen, würde das niemals so funktionieren. Neben der Speichermenge ist LPDDR auch günstiger als GDDR.

Und nur mal als Vergleich:
AT3 und AT4 mit LPDDR6 haben bei 12'800 MT/s etwa gleich viele ML/AI TFLOPS pro Bandbreite wie eien RTX 5090. Ich glaube niemand beschwert sich, die RTX 5090 hätte zu wenig Bandbreite. An der Bandbreite wird es also nicht scheitern ;)

davidzo

2025-08-24, 10:04:30

mit der Ausnahme des Speicherinterfaces von AT3, welches mit 256-bit LPDDR5X oder 384-bit LPDDR6 eigentlich viel zu groß aussieht.

jedoch kann man damit keine (performanten) Desktop-Grafikkarten erstellen.

Lol, was denn nun? Ist das Speicherinterface zu groß für die Menge an CUs oder fehlt es an Bandbreite? Du musst dich schon entscheiden. :freak:

Rechnerisch passt die Bandbreite zu einem Chip zwischen Navi44 bis über Navi48 performance.

256bit LPDDR5X 10700 sind 342,4gb/s während 384bit LPDDR6 14400 ganze 690gb/s ergeben, mehr als die 9070XT. Selbst mit langsameren 10700er LPDDR6 wären es immer noch 513gb/s. Für einen mobile Chip mit Taktraten um die 1.-1,5Ghz wäre das Verschwendung. Das wäre mehr als genug für einen 48CU @ 3,5Ghz Desktop Chip.

Wo soll hier die performance für den Desktop fehlen von der du sprichst? 192bit GDDR7 wie bei der 5070 wäre wohl eher langsamer, wegen der schlechteren Latenzen.

Auch zu 24CU von AT4 passt das 128bit LPDDR5X Interface mit 186gb/s eigentlich ganz gut. Hier wäre aber 192bit LPDDR6 noch besser für eine hochtaktende Desktopversion.

Was eher verwirrt ist der angebliche Wegfall des LLC und die geringe Menge an L2.

190-200 CU @ 512-bit GDDR7

Wo kommt die neue 190-200 Zahl her? Nicht aus den Videos jedenfalls. Dort ist AT0 mit maximal 186CUs gelistet.

xAT2 nur als gewisse Verbesserung des aktuellen Navi-44-Chips

Ich glaube du verwechselst hier navi44 und Navi48.

Rabiata

2025-08-24, 13:39:41

Lol, was denn nun? Ist das Speicherinterface zu groß für die Menge an CUs oder fehlt es an Bandbreite? Du musst dich schon entscheiden. :freak:

Auf die Gefahr hin, Leo falsch zu interpretieren: Ich vermute daß er an die Kosten für das große Speicherinterface als solches denkt. In der Richtung hat sich Leo schon öfter geäußert.

Um wieviel teurer Platine und Sockel (bei Desktop APU) im Preis wären, weiß ich allerdings auch nicht.

Leonidas

2025-08-24, 14:14:41

Ich glaube du verwechselst hier navi44 und Navi48.

In der Tat. Gefixt.

Auf die Gefahr hin, Leo falsch zu interpretieren: Ich vermute daß er an die Kosten für das große Speicherinterface als solches denkt.

Genau das meinte ich. Nominell ist das viel Platz der verballert wird, was auf den ersten Blick nicht passend aussieht. Am Ende kann es dennoch stimmen, weil es auf die Gesamtkalkulation mit dem billigeren Mobile-Speicher ankommt. Aber so die großen Wahrscheinlichkeits-Werte hat das Ding nicht.

ChaosTM

2025-08-24, 14:21:46

Aber mit y. :ulol:
Gayming?

Die APUs werden auf jeden Fall immer interessanter, wenn man nicht unbedingt 600 Watt High End Hardware will/braucht.

Gast

2025-08-24, 22:09:44

Genau das meinte ich. Nominell ist das viel Platz der verballert wird, was auf den ersten Blick nicht passend aussieht. Am Ende kann es dennoch stimmen, weil es auf die Gesamtkalkulation mit dem billigeren Mobile-Speicher ankommt. Aber so die großen Wahrscheinlichkeits-Werte hat das Ding nicht.
Laut deiner Tabelle ist das doch ein Chiplet Design. Dann kann ja das SI auch auf externen Chiplets ausgelagert sein, mit speziellem Node. Damit relativieren sich dann die Kosten durch den Platzbedarf.
Denkbar wäre natürlich auch, dass man die MC Chiplets wechselt und für Desktop Modelle dann GDDR6/7 anbindet.

Leonidas

2025-08-25, 04:33:01

Das wäre eine nochmals härtere Stufe von Chiplets, was auch die besprochene Problematik lösen würde. Lassen wir uns überraschen, ob es dazu kommt.

Dort ist AT0 mit maximal 186CUs gelistet.

Im ersten Video steht die Annahme, dass dies die max. Config des AT0 wäre. Die 186 CU sind ein Produkt, nicht der maximale Chip.

basix

2025-08-25, 07:42:52

RDNA4 SEs sollen 24 CUs haben. Deswegen macht für die Chips folgendes Sinn:
- AT4 = 24 CU
- AT3 = 48 CU
- AT2 = 72 CU
- AT0 = 192 CU

256bit LPDDR5X 10700 sind 342,4gb/s während 384bit LPDDR6 14400 ganze 690gb/s ergeben, mehr als die 9070XT. Selbst mit langsameren 10700er LPDDR6 wären es immer noch 513gb/s. Für einen mobile Chip mit Taktraten um die 1.-1,5Ghz wäre das Verschwendung. Das wäre mehr als genug für einen 48CU @ 3,5Ghz Desktop Chip.
Gut dass du das ansprichst. Eventuell kommen die mobilen Ableger mit LPDDR5X anstatt LPDDR6. Das spart kosten und die Bandbreite dürfte immer noch ausreichen (vor allem mit max. 10'700er LPDDR5X)

Was eher verwirrt ist der angebliche Wegfall des LLC und die geringe Menge an L2.
Naja, das nennt sich Evolution ;)

RDNA5 scheint die CUs, die SE sowie das Work-Scheduling stark zu überarbeiten. Und irgendwie scheint AMD damit einen Weg gefunden haben, effizienter mit Bandbreite umzugehen.

Rabiata

2025-08-25, 20:11:34

Genau das meinte ich. Nominell ist das viel Platz der verballert wird, was auf den ersten Blick nicht passend aussieht. Am Ende kann es dennoch stimmen, weil es auf die Gesamtkalkulation mit dem billigeren Mobile-Speicher ankommt. Aber so die großen Wahrscheinlichkeits-Werte hat das Ding nicht.
Beim zweiten Nachdenken drängt sich mir der Vergleich zu Grafikkarten auf. Alte Modelle wie die RX 580 sind zuweilen unter 200 Euro zu bekommen, trotz 256bit Speicherinterface. Zumindest was die Platine als solche angeht, scheint die Kostensituation also nicht so schlimm zu sein.
Von daher ist es vielleicht eher "wir lassen uns das Alleinstellungsmerkmal gut bezahlen." Und laut einem YouTube-Video, das ich gesehen habe, ist Strix Halo bei KI tatsächlich nahe an einer High End Grafikkarte. Also wieso für poplige 500 Euro in den Massenmarkt entlassen?

crnkoj

2025-08-25, 22:37:33

Laut deiner Tabelle ist das doch ein Chiplet Design. Dann kann ja das SI auch auf externen Chiplets ausgelagert sein, mit speziellem Node. Damit relativieren sich dann die Kosten durch den Platzbedarf.
Denkbar wäre natürlich auch, dass man die MC Chiplets wechselt und für Desktop Modelle dann GDDR6/7 anbindet.
Bei strix halo ist der mem controller ja auch in dem gpu Chiplet und die core Chiplet sind dann mit dem verbunden. Ich bezweifle, dass das geändert wird, insbesondere, da die zen CPUs mittlerweile ganz gut kit den höheren Latenzen zurechtkommen, die gpus aber nicht (siehe Navi 32 und 31).

Gast

2025-08-26, 07:30:57

Ich bezweifle, dass das geändert wird, insbesondere, da die zen CPUs mittlerweile ganz gut kit den höheren Latenzen zurechtkommen, die gpus aber nicht (siehe Navi 32 und 31).

Ähm prinzipbedingt kommen GPUs immer gut mit Latenzen klar, da sie tausende Threads parallel bearbeiten die Latenzen wunderbar verstecken.

CPUs, speziell in single threaded loads leiden dagegen immer unter Latenzen.