AMD/ATI - RDNA3 (Navi 3X, Radeon RX 7000 Serie, tlw. Chiplets, 5/6 nm, 2022) [Archiv] - Seite 9

HOT

2022-05-18, 13:34:43

WedgeAntilles

2022-05-18, 13:45:22

Nightspider

2022-05-18, 13:46:43

Speicher kostet Geld

Ja, und zwar immer weniger.

Linmoum

2022-05-18, 13:49:03

Ja, und zwar immer weniger.Seit wann denn das? Die Preise für GDDR6 sind dem vernehmen nach eigentlich immer weiter gestiegen.

Nightspider

2022-05-18, 14:15:07

"Schweinezyklus", würde ich mal in den Raum werfen.

Die letzten 3 Jahre haben die Halbleiterproduzenten schon mittlere dreistellige Milliardenbeträge investiert, schon bevor die richtige Knappheit losging und das wurde dann nochmal massiv aufgestockt in den vergangenen 15 Monaten.
Samsung, SK Hynix und Micron haben doch alle Rekordinvestitionen schon teils vor 2 Jahren angekündigt.
Ich kann zwar nicht genau sagen, wenn welche neue Fab mit der Massenproduktion startet aber ich kann mir nicht vorstellen, dass Speicher nicht deutlich günstiger wird in den
kommenden 12-18 Monaten.
Dazu steht ja EUV auch auf der Roadmap bei vielen Fabs, die Speicherdichte pro Wafer wird weiter ansteigen.

DRAM und Flash ist ja schon stark im Preis gefallen.
https://winfuture.de/news,129492.html

https://www.computerbase.de/2021-09/jetzt-auch-bei-analysten-preise-fuer-arbeitsspeicher-werden-wieder-fallen/

Wie The Register mit Bezug auf ein Memo der Analysten von Gartner berichtet, erwarten die Marktforscher Ende 2022 einen „deutlichen Preisverfall“. Hier werden die Gründe genannt, die auch in anderen Bereichen vorkommen sollen: Zuerst wird es zu einer Entspannung im Markt kommen, später folgen Überkapazitäten am Markt mit entsprechenden Preisnachlässen im Schlepptau.

Natürlich muss man solche Prognosen mit Vorsicht genießen aber es deutet sich zumindest an.

Und ja, da geht es um DDR Speicher und Flash Speicher und nicht um GDDR6 aber da ist es nur eine Frage die Verteilung.
Auch bei GDDR6 werden die Produzenten die Speicherdichte weiter erhöhen können.

Und 12 GB werden jetzt auch nicht viel teurer sein als 8GB aber machen eine Menge aus, was die Langlebigkeit der Grafikkarte betrifft.
4GB mehr GDDR6 wird auf den Gesamtpreis der Grafikkarte nicht viel ausmachen.

Aber 50% mehr VRAM sind viel unkritischer und zukunftssicherer.

Der Tenor ist aktuell dass man eine Grafikkarte mit mindestens 8GB kaufen solle. Wieso sollte man nicht eine Karte mit 8GB anbieten? 100€ weniger und dafür die Texturen eine Stufe herunter regeln? Von mir aus
(16GB wären natürlich schon besser, da RT auch Speicher frisst. Kommt am Ende auf das P/L-Verhältnis an)

Du erklärst es dir quasi selber. :D

N33 hat viel Power aber ist für niedrige Auflösungen gemacht. Die Power braucht man zukünftig auch für bessere Effekte, die eben auch mehr Speicher fressen.
Bisher ist ja noch kein einziges richtiges NextGen Spiel aufgeschlagen. Wer weiß wie sich der Speicherverbrauch entwickeln wird.

Direct Storage wird vielleicht zu spät kommen für alle Spiele, vielleicht wird es ein paar Ausreißer geben, die extrem viel VRAM brauchen.

Und die Karten sollen ja mindestens bis 2024 reichen und nicht nur für heute und alte Titel.

Iscaran

2022-05-18, 14:42:37

Ich werfe erneut in den Raum:

Grundkonzept: 1 Core Die + x MCD + y GCDs wobei x/y = 2:1 sein MUSS (aus Gründen).

Core Die = 16 WGP + 192 Bit SI + 128 MB Cache (+ Kontroll-Logik und zentrale Bestandteile, ggf. Video-decoder usw.)
MCD = 64 MB Cache + 32 Bit SI
GCD = 16 WGPs

Der Core Die Muss ein SI und Cache enthalten da darüber die weitere Anbindung der Chiplets erfolgt.

N33 = Core Die = 16 WGP, 192 Bit, 128 MB => 12 GB ?
N32 = CCD +2 MCD +1 GCD = 32 WGP, 256 Bit, 256 MB => 16 GB?
N31 = CCD +4 MCD +2 GCD = 48 WGP, 320 Bit, 384 MB => 20 GB?

Unter Annahme der Shaderverdopplung pro CU ergeben sich so 4096, 8192 und 12288 Shader.

DrFreaK666

2022-05-18, 14:47:52

...Ja sicher :freak:. sonst noch was?...

Seltsam. Ich habe auf Youtube Gameplay mit einer 1070 gesehen und das sah im Ordnung aus. Wieviel GB hat eine 1070 nochmal?
Wahrscheinlich ist das Wunder-RAM-Management von Nvidia dafür verantwortlich oder er hat die richtigen Einstellungen gewählt.

Meine Prognose:
7600 8GB
7600XT 16GB

die 5500XT hat auch mehr RAM als die 5500

HOT

2022-05-18, 16:20:41

N33 XT wird die 7700 XT werden. Man kann einen Blick zurück nach GCN werfen. Cap Verde war 7700 (XT) Pitcairn war 7800 (XT), Tahiti war 7900 (XT).
Vielleicht wird ne salvage 8GB N33 dann die 7600XT.

Zossel

2022-05-18, 16:27:58

Wie The Register mit Bezug auf ein Memo der Analysten von Gartner berichtet, erwarten die Marktforscher Ende 2022 einen „deutlichen Preisverfall“. Hier werden die Gründe genannt, die auch in anderen Bereichen vorkommen sollen: Zuerst wird es zu einer Entspannung im Markt kommen, später folgen Überkapazitäten am Markt mit entsprechenden Preisnachlässen im Schlepptau.

Natürlich muss man solche Prognosen mit Vorsicht genießen aber es deutet sich zumindest an.

Gartner erzählt viel wenn der Tag lang ist.

bbott

2022-05-18, 16:33:04

Eine 8GB Version könnte ich mir sehr gut vorstellen. Speicher kostet Geld
Wann war AMD/ATI jemals so geizig? Fury mal außen vor. NV bekommt deswegen als sein Fett weg und AMD scheint bei gleicher Speicherausbau etwas mehr RAM zu benötigen, sodass es etwas häufiger zum Bottle Neck wird. Wäre mMn eine dumme Entscheidung.

bbott

2022-05-18, 16:35:44

Ja, und zwar immer weniger.

Und es ist immer noch GDDR6, nix neues und immer noch billiger als GDDR6X & Co.

unl34shed

2022-05-18, 17:05:03

N33 XT wird die 7700 XT werden. Man kann einen Blick zurück nach GCN werfen. Cap Verde war 7700 (XT) Pitcairn war 7800 (XT), Tahiti war 7900 (XT).
Vielleicht wird ne salvage 8GB N33 dann die 7600XT.

Und in der jüngeren Vergangenheit bei Navi2 stellt N21 die 6900 und 6800(XT), N22 die 6700(XT) und N23 die 6600(XT)... Und nun?

Neurosphere

2022-05-18, 17:42:08

Gartner erzählt viel wenn der Tag lang ist.

Ist aber prinzipiell nicht falsch wenn Angebot und Nachfrage so aus dem Gleichgewicht sind. Muss natürlich alles passen das die Produktion gesteigert werden kann. Stimmt das, wird die Produktion hochgefahren, und der Markt langsam gesättigt. Irgendwann kommt es zur Überproduktion und damit Angebotsüberhang und der Preis gibt nach um die Lager langsam leer zu bekommen.

Das muss nicht passieren, gerade weils in der Lieferkette ja immer mal irgendwo anders kneift derzeit.

DrFreaK666

2022-05-18, 18:13:26

Wann war AMD/ATI jemals so geizig? Fury mal außen vor...

5500 mit 4GB. 5600(XT) mit 6GB.

Sunrise

2022-05-18, 18:23:13

Navi 31 mit 384bit und 24GB?
https://mobile.twitter.com/greymon55/status/1526833191188762625?cxt=HHwWgsCogdWss7AqAAAA
Dann scheint es jetzt quasi bestätigt zu sein. Alle Angaben bei RGT waren realistisch, passt einfach zu gut.

Dampf

2022-05-18, 18:41:32

Ich hab gestern Ragnarök von AC:V angefangen auf ner 5700XT und das war kein Spass, nein, die Zeit von 8GB ist defintiv vorbei.

Dann ist das Speichermanagement deiner 5700XT nicht zureichend. Als ich AC Valhalla auf meiner 2060 gespielt hab, hatte ich nie Probleme mit Texturenmatsch oder geringer Performance in WQHD.

Ich denke mit RDNA3 wird sich das Speichermanagement nochmal deutlich verbessern.

mboeller

2022-05-18, 19:03:53

https://twitter.com/kopite7kimi/status/1526819565417943040

- Perf vs 6900XT: over 2x 4k gaming, over 3.5x RT

:rolleyes:

auf Beyond3D macht jemand das daraus:

Looking at DL2 frametimes is interesting.

6900xt at 4K = 54fps = 18.5ms
6900xt at 4K RT = 18fps = 55.6ms
RT cost = 37.1ms

7900xt at 4K = 54fps x 2 = 108fps = 9.3ms
7900xt at 4K RT = 18fps x 3.5 = 63fps = 15.9ms
RT cost = 6.6ms

7900xt = 37.1/6.6 = 5.6x faster than the 6900xt in pure RT. That would be amazeballs.

https://forum.beyond3d.com/threads/amd-rdna-3-speculation-rumours-and-discussion.62092/page-66#post-2253264

Zossel

2022-05-18, 19:42:28

Ist aber prinzipiell nicht falsch wenn Angebot und Nachfrage so aus dem Gleichgewicht sind. Muss natürlich alles passen das die Produktion gesteigert werden kann. Stimmt das, wird die Produktion hochgefahren, und der Markt langsam gesättigt. Irgendwann kommt es zur Überproduktion und damit Angebotsüberhang und der Preis gibt nach um die Lager langsam leer zu bekommen.

Das muss nicht passieren, gerade weils in der Lieferkette ja immer mal irgendwo anders kneift derzeit.

Oh, Gartner hat etwas entdeckt was es schon Jahrzehnte gibt und unter dem Namen Schweinezyklus bekannt ist.

Nur zur Erinnerung: Es ist noch besonders lange her das Intel eine Fab nicht fertig gebaut hat und diese erst mal eingemottet hat.

HOT

2022-05-18, 20:29:33

Dann ist das Speichermanagement deiner 5700XT nicht zureichend. Als ich AC Valhalla auf meiner 2060 gespielt hab, hatte ich nie Probleme mit Texturenmatsch oder geringer Performance in WQHD.

Ich denke mit RDNA3 wird sich das Speichermanagement nochmal deutlich verbessern.
nicht Valhalla, das braucht nur 6GB. Das neue Addon. Vieleicht liegts ja auch am Review-Treiber i.V.m. RDNA1, kann ja sein. Aber trotzdem sind es 8GB verbrauch und das reichte nicht und erzeugt stellenweise Texturmatsch. Wie auch immer, das ist nur ein kleins Beispiel, da muss man sich jetzt auch nicht drauf Festbeißen. Aber es ist klar, dass sich solche Fälle selbstverständlich häufen werden und dass man mit 8GB einfach keinen Blumentopf mehr gewinnen kann in den Leistungskategorien, die da jetzt kommen.

DrFreaK666

2022-05-18, 20:33:24

nicht Valhalla, das braucht nur 6GB. Das neue Addon.

Wie gesagt: es gibt eine Video auf Youtube mit einer 1070.
Und es ist auch klar, dass wenn man an der Grafikkarte spart, man an den Reglern spielen muss. Ich merke es auch an meiner 5500XT. Mehr Geld ging bei mir halt nicht -> Regler betätigen (vor allem Schatten).
Es muss auch Karten für Sparfüchse geben

edit: da soeben die Refreshes erschienen sind, ist sowieso fraglich ob N32 und N33 auch gleich zu Beginn erscheinen werden. Und wenn ja: wie werden die preislich einsortiert?

basix

2022-05-18, 21:00:41

https://twitter.com/kopite7kimi/status/1526819565417943040

2.0x vs. 3.5x wäre in etwa Ampere Niveau was RT angeht. Cyberpunk ist eine 3080/3090 etwa ~1.8x schneller wie eine 6800XT/6900XT

DrFreaK666

2022-05-18, 21:19:26

2.0x vs. 3.5x wäre in etwa Ampere Niveau was RT angeht. Cyberpunk ist eine 3080/3090 etwa ~1.8x schneller wie eine 6800XT/6900XT

3,5x schneller als eine 6900XT bei RT. Da hat eine 3090 keine Chance.
Die "2x" bezieht sich auf 4k-Performance

Der_Korken

2022-05-18, 21:31:51

3,5x schneller als eine 6900XT bei RT. Da hat eine 3090 keine Chance.
Die "2x" bezieht sich auf 4k-Performance

Ich glaube er meinte, dass das Verhältnis Rasterizer zu RT mit RDNA3 ähnlich sein wird wie bei Ampere, wenn die RT-Performance 1,75-mal so stark steigt wie Rasterizer.

Cyberfries

2022-05-18, 21:32:53

N31 @384bit und N32 @256bit wären schlecht für N33.

Mit den bisher vermuteten Daten war die Hoffnung da auf größere 3Gb oder 4Gb Speicherchips anstelle des bisherigen Maximums.
Mit größeren SIs erreicht man auch mit 2Gb bei N31 24Gb und bei N32 16Gb - wozu da noch eine Entwicklung anstoßen für den kleinsten RDNA3-Ableger?
Sollten sich diese SI-Spekulationen bewahrheiten sehe ich schwarz für N33 mit akzeptablen Speichermengen, bleibt die Hoffnung auf 192bit.

basix

2022-05-18, 21:54:06

3,5x schneller als eine 6900XT bei RT. Da hat eine 3090 keine Chance.
Ja, das war damit aber nicht gemeint. Korken hat es richtig verstanden:
Ich glaube er meinte, dass das Verhältnis Rasterizer zu RT mit RDNA3 ähnlich sein wird wie bei Ampere, wenn die RT-Performance 1,75-mal so stark steigt wie Rasterizer.

DrFreaK666

2022-05-18, 21:56:16

achso. ok

Nightspider

2022-05-18, 22:25:24

2.0x vs. 3.5x wäre in etwa Ampere Niveau was RT angeht. Cyberpunk ist eine 3080/3090 etwa ~1.8x schneller wie eine 6800XT/6900XT

nein sie ist 0.8x schneller als Navi21.

Ist das so schwer?

Platos

2022-05-18, 22:46:04

nein sie ist 0.8x schneller als Navi21.

Ist das so schwer?

0.8x so schnell wäre aber langsamer.

aufkrawall

2022-05-18, 22:48:53

nein sie ist 0.8x schneller als Navi21.

Faktoren kann man multiplizieren. Wenn man "0,8x" aber multipliziert, kommt dabei logischerweise weniger als die Basis raus. Halt ich hinsichtlich der Konventionen für keine gute Idee, imho ist das auch nicht üblich.
Ich hatte es glaub ich schon mal gesagt, dass man sich einfach den Komparativ verkneifen sollte. "xmal so schnell" ist viel weniger unmissverständlich als "xmal schneller". Wenn da nicht explizit der Komparativ steht, würd ich den auch nicht annehmen.

Nightspider

2022-05-18, 22:50:55

0.8x so schnell wäre aber langsamer.

korrekt.

aber 0.8x schneller heißt nun mal 80% schneller.

Das ist aber eh so bescheuert formuliert von ihm. Einzig korrekt ist das Karte A 80% vor Karte B liegt.

Nix mit "dazwischen liegen Wald und Wiese Faktoren"

Eine Prozentzahl ist eine relative Angabe. Zu sagen zwischen den beiden Karten liegen 80% ist irgendwie Banane. Dann noch mit Faktoren 1.8x und der Formulierung "schneller" kommen und ich krieg nen Würgreflex. :D

Platos

2022-05-18, 22:56:29

Nightspider

2022-05-18, 23:01:05

Allerdings finde ich die Schreibweise 0.8x schneller trotzdem unhantlich

Klar ist die Schreibweise bescheuert. Darauf wollte ich auch hinaus, weil man an 0.8x noch besser sieht wie bescheuert die Formulierung ist.

basix

2022-05-18, 23:01:33

1.8x halte ich in diesem Kontext für deutlich sinnvoller.

Dann gewöhne ich mir halt in Zukunft das "so schnell" an ;)

Umgangssprachlich ist "schneller" aber nicht unüblich :D

Platos

2022-05-18, 23:01:44

Klar ist die Schreibweise bescheuert. Darauf wollte ich auch hinaus, weil man an 0.8x noch besser sieht wie bescheuert die Formulierung ist.

Ahh... ;)

Und ja, habs gesehen. Irgendwas had nicht gestummen.:freak:

Nazar

2022-05-18, 23:03:34

korrekt.

aber 0.8x schneller heißt nun mal 80% schneller.

Das ist aber eh so bescheuert formuliert von ihm. Einzig korrekt ist das Karte A 80% vor Karte B liegt.

Nix mit "dazwischen liegen Wald und Wiese Faktoren"

Eine Prozentzahl ist eine relative Angabe. Zu sagen zwischen den beiden Karten liegen 80% ist irgendwie Banane. Dann noch mit Faktoren 1.8x und der Formulierung "schneller" kommen und ich krieg nen Würgreflex. :D

Es ist vollkommen egal, ob davor schneller steht oder nicht, da die Zahlen immer multipliziert werden. Oder glaubt jemand ernsthaft, wenn da 0.8x langsamer stehen würde, würde sich an der Art der logischen Herleitung etwas ändern?
Wenn ja, möge er/sie bitte die Formel hier einstellen. Danke schon einmal im Voraus. ;)
Das ist Mathematik und kein Deutschkurs.

bbott

2022-05-18, 23:03:43

nein sie ist 0.8x schneller als Navi21.

Ist das so schwer?
[Kluckscheiß Modus on]
Das würde aber bedeuten die 3080 erreicht nur 80% einer 68/900xt, dann wäre sie aber 20% langsamer. Und NV müsste +25% Performance drauflegen also 125% erreichen (ausgehend von 80%), um die 100% zu erhalten (80% * 125% = 100%).
0,8 = 80%
1,8 = 180% oder +80% (das meintest du, oder?)

Die Basis ist beim Faktor immer die eins (1x) bzw. die 100% beim Prozent (Bezugspunkt, nicht die Null). Werte kleiner der Basis langsamer, Größe wäre schneller.
Gerne wird es mit dem Plus X (Wert) verwechselt, welcher zur Basis als Addition zu werten. Ohne Plus ist es als Faktor/ Multiplikator zu lesen.
[Kluckscheiß Modus off]

P.S. Ich hoffe dich nicht falsch verstanden :freak:

Aber auch in einigen News Threads mWn ist das leztens häufiger falsch wiedergegeben worden.

basix

2022-05-18, 23:04:38

Das ist Mathematik und kein Deutschkurs.

Mathematik, die universale Sprache :D

Nightspider

2022-05-18, 23:05:53

Das ist Mathematik und kein Deutschkurs.

Du meinst wenn in einem deutschen Satz eine Zahl auftaucht wird daraus eine Gleichung?

Kuhl.

....

Alter....ich geh schlafen.

Ihr regt mich auf.

Slashman

2022-05-18, 23:25:24

Ich kann mir einfach nicht vorstellen das AMD von Navi 32 zu Navi 33 so einen Cut macht.

Als es noch so war:
256 Bit für Navi 31
192 Bit für navi 32
128 Bit für Navi 33

da hat die 128 Bit Anbindung mit 8 GB Vram ja noch sinn ergibt. Jetzt jedoch klingt das weniger sinnvoll.
Ich denke eher Navi 33 wird auch auf 192 Bit aufgestuft und dann 12 GB Vram haben.

Meine Idee klingt auch nicht so undenkbar.

Navi 33 mit bis zu 5120 Shadern und 192 Bit/12 GB GDDR6 Vram bei maximal 2,5 GHz Takt. Das langt dicke aus um die 6700 XT zu ersetzen.

Auch halte ich diese ganze 2x mehr Leistung geschichte für unwahrscheinlich. Um bei 5nm 2x mehr Leistung gegenüber 7nm zu erreichen muss die TDP stark steigen. Wozu. Es langt doch dicke wenn die RX 7700 XT bei 200-250 Watt bleibt. Die RX 7800 XT kann dann auf 270-300 Watt gehen und die 350 Watt kann sich dann die RX 7900 XT gönnen.

Ich nutze meine RX 5700 XT mit halber TDP. Bei mir schluckt der Chip nur 90 Watt (+40 Watt Vram und co). Es langt mir für 99,9% der Games in 4K bei normalen Settings aus. Dank FSR 1.0/2.0 sogar in höheren Details spielbar. Bei 90 Watt läuft es mit 1,5 GHz... bei 180 Watt mit 1,95 GHz... AMD sollte nicht um die spitze zu erreichen auf Nvidia Art reagieren. Wozu in einem Benchmark für 5% Mehr Leistung 30% höhere TDP in kauf nehmen.

Also ich werde jede GPU die ich kaufe in der TDP stark senken.
Früher schluckte eine Nvidia Geforce 7950GX2 mit 2x G72 Chips je 300mm² nur 110 Watt geschluckt... heute muss eine 220-300mm² GPU alleine 220-250 Watt schlucken...

basix

2022-05-18, 23:29:41

Ich wäre bei N33 ja bei 96/128bit und somit 12/8GByte Varianten:
- 96bit @ 24Gbps
- 128bit @ 18Gbps

Beides ergibt 288 GB/s. Die Transferraten sind hier aber nur Beispiele.

Slashman

2022-05-18, 23:41:50

Ich wäre bei N33 ja bei 96/128bit und somit 12/8GByte Varianten:
- 96bit @ 24Gbps
- 128bit @ 18Gbps

Beides ergibt 288 GB/s. Die Transferraten sind hier aber nur Beispiele.

Ne so ein Satz nach unten wohl kaum.

Navi 31 mit 384 Bit Bus
Navi 32 mit 256 Bit Bus
Navi 33 mit 192 Bit Bus

Später könnte AMD noch einen Navi 34 Chip mit 128 Bit Bus bringen.

DrFreaK666

2022-05-19, 00:53:34

...
...
Navi 33 mit bis zu 5120 Shadern und 192 Bit/12 GB GDDR6 Vram bei maximal 2,5 GHz Takt. Das langt dicke aus um die 6700 XT zu ersetzen...

Navi 23 war 6600, wieso soll Navi 33 7700 werden? Was ist mit den kleineren Karten? Gibt es zwischen 7800 und 7900 größere Unterschiede?

Zossel

2022-05-19, 05:51:08

Ach so, ja stimmt.

Allerdings finde ich die Schreibweise 0.8x schneller trotzdem unhandlich. Siehe Aufkrawalls' antwort.

Aber ja, er hätte schreiben müssen, dass es 1.8x so schnell ist oder um 80% schneller.

80% ist äquivalent zu 80/100 (Achtzig Hundertstel) ist äquivalent zu 0,8.
80 Promille ist äquivalent zu 80/1000 (Achtzig Tausendstel) ist äquivalent zu 0,08.

Implizite "off by one" durch die jeweilige sprachliche Formulierung schaffen nur unnötige Verwirrung.

Hier ein anderes typisch deutsches Verwirrspiel wenn es um Zahlen geht:

https://www.youtube.com/watch?v=L5YZSZTO2tk

Aber die Franzosen schaffen noch mehr Verwirrung:

https://www.youtube.com/watch?v=CNnxO4NcTHQ

Slashman

2022-05-19, 07:04:32

Navi 23 war 6600, wieso soll Navi 33 7700 werden? Was ist mit den kleineren Karten? Gibt es zwischen 7800 und 7900 größere Unterschiede?

Ebenso möglich wie aus einer RX 480 eine RX 590 wurde... Deiner Logik nach ist das unmöglich, aber es kam schon oft vor wo AMD und Nvidia das getan haben.

Es wird einen Chip mit 192 Bit geben müssen, wenn es eins mit 256 und 384 Bit gibt. Die 128 Bit für die Navi 33 würde eine etwas zu große Lücke lassen zum 256 Bit navi 32.

Bei den Chip kann AMD auch 4 Chips bringen, nicht alle gleich, aber warum nicht.
So in etwa stelle ich mir das auch vor.

ca. 600mm² und 384 Bit Bus (12k Shader)
ca. 450mm² und 256 Bit Bus (8192 Shader)
Ca. 320mm² und 192 Bit Bus (5120 Shader)
ca. 250mm² und 128 Bit Bus (3072 Shader)

4 Chips und für jeden was dabei... Momentan ist eh alles ein Gerücht, reine Spekulation, keiner außerhalb von AMD weiß was. Also ist alles möglich.

basix

2022-05-19, 07:43:35

Da gibt es zwei Möglichkeiten: N33 mit 96bit oder N32 mit 192bit.

Ansonsten gibt es noch N22/23. Evtl. kommt N33 standardmässig mit 16GB und Salvage mit 12GB. Unten dann mit RDNA2 abgerundet.

HOT

2022-05-19, 08:37:12

Ich versteh nicht, wass es an den 128Bit auszusetzen gibt:

16WGP -> 128Bit (16GB)
32WGP -> 256Bit (16GB)
48WGP -> 384Bit (24GB)

passt doch.

Darunter:

N22S -> 192Bit (12GB)
N23S -> 128Bit (8GB)
N24 -> 64Bit (4-8GB)

Ist doch ein super Lineup.

basix

2022-05-19, 10:26:08

Sehe ich auch so. Salvages von N31 und N33 sind auch nicht unwahrscheinlich. 20GB (320bit) und 12GB (96bit).

Cyberfries

2022-05-19, 12:48:23

Um die Diskussion zum Startdatum nochmal aufzugreifen, sofern Rdna3 wirklich ein Quartal früher als erwartet erscheint, also N33 in Q3
und N31 in Q4, wäre das gerade noch passend zum Weihnachtsgeschäft. In Abhängigkeit der Verfügbarkeit könnte es Sinn ergeben,
die N32-Lücke mit einer auf 32-36 WGP abgespeckten Variante von N31 zu überbrücken, vergleichbar nVidias 3050.

| 7600 | 7600 xt | 7800 xt | 7900 | 7900xt
Chip | N33 | N33 | N31 | N31 | N31
WGP | 13 | 16 (x1,23) | 32 (x2,0) | 40 (x1,25) | 48 (x1,2)

Das wäre ein denkbares "Weihnachts-Portfolio", bevor in Q1 2023 dann N32 als 7800xt (32), 7800 (26) und 7700xt (20-22) erscheint.

Ich versteh nicht, wass es an den 128Bit auszusetzen gibt:
16WGP -> 128Bit (16GB)
...
Ist doch ein super Lineup.

Scheitert an der Verfügbarkeit von ausreichend großen Speicherchips. Und eine Neuentwicklung nur für N33? - eher unwahrscheinlich.

Neurosphere

2022-05-19, 13:04:26

@Cyberfries, ich finde den Abstand in deiner Prognose zwischen 7800xt und 7900xt zu groß. Ich kann mich nicht vorstellen das AMD 1/3 des Chips deaktivieren möchte.

HOT

2022-05-19, 13:25:42

[...]
Scheitert an der Verfügbarkeit von ausreichend großen Speicherchips. Und eine Neuentwicklung nur für N33? - eher unwahrscheinlich.

Das halte ich für Unsinn. Kannst einfach doppelt bestücken, das ist kein Prob.

Ich wette, es wird wieder eine 7900 non-XT geben, damit hätte man doch ein gutes Lineup:

RX7900(XT) -> N31 -> 24GB
RX7800(XT) -> N32 -> 16GB
RX7700(XT) -> N33 -> 16GB
RX7600(XT) -> N22S -> 12GB
RX7500(XT) -> N23S -> 8GB
darunter -> N24

Cyberfries

2022-05-19, 13:39:27

@Cyberfries, ich finde den Abstand in deiner Prognose zwischen 7800xt und 7900xt zu groß. Ich kann mich nicht vorstellen das AMD 1/3 des Chips deaktivieren möchte.

Valider Punkt. Kommt eben auf Verfügbarkeit und Ausbeute an.
War, wie gesagt auch nur als Lückenfüller für ein Quartal gedacht, analog der 3050, wo ebenfalls 1/3 deaktiviert wurde.

Das halte ich für Unsinn. Kannst einfach doppelt bestücken, das ist kein Prob.

Doppelt bestücken bei einer Mittelklasse-Karte? Das führt sämtliche Einsparungen durch das kleine SI ad absurdum.
Da wären zusätzliche 15mm² für 192bit wohl eine günstigere (und sinnvollere) Alternative.

vinacis_vivids

2022-05-19, 14:01:46

16GB für ne Mittelklasse Chip ist zuviel und zu teuer. NV verkauft hauptsächlich 8-12GB. Das wird AMD auch machen.

128bit SI spricht für 8GB bei N33.
192bit SI 12GB gibs bei N32.
256bit SI 16GB dann bei N31. Bei N31 könnte AMD wenige Karten dann auch mit 32GB bestücken,sofern der Kampf gegen die Konkurrenz auch gewonnen werden kann.

16GB für ein Mittelklasse Chip 400mm^2 ist zuviel. Speicher gibs auch nicht geschenkt, sondern ist ein klarer Kostenfaktor.

KarlKastor

2022-05-19, 14:39:00

Die haben der 6700 schon 12 GB spendiert. Dann wird der Nachfolger eben etwas teurer.
Welchen Sinn macht es denn eine so schnelle Grafikkarte beim Speicher so stark zu kastrieren?
Der 3800 geht schon bei manchen Spielen der Speicher aus, vor allem mit RT.
Navi33 wir ja nicht langsamer. Da dann noch 2GB weniger würde sich schon deutlich negativ bemerkbar machen in den Reviews. Zukünftige Spiele werden ja auch nicht weniger anspruchsvoll.

HOT

2022-05-19, 14:42:35

[...]

Doppelt bestücken bei einer Mittelklasse-Karte? Das führt sämtliche Einsparungen durch das kleine SI ad absurdum.
Da wären zusätzliche 15mm² für 192bit wohl eine günstigere (und sinnvollere) Alternative.

Das ergibt einfach keinen Sinn, was du schreibst.
Die billigste Lösung ist ein möglichst kleines Speicherinterface. Für 256Bit bräuchtest du ja gleich viele Chips, das ändert doch gar nichts. 192Bit ist ja nett, aber das geben die Gerüchte bisher nicht her und alles Erkenntnisse über den Aufbau von RDNA3 resultieren ja aus den N33-Leaks. Die bestücken das einfach doppelt. Dann gibts halt ne Backplate, aber die gibts ja bei den meisten Obere-Mittelklasse-Karten mittlerweile auch so. Es gibt hier kein Problem, du machst nur eines daraus. Wir reden hier von 450€+-Produkten. Und wenn die 4070 mit 12GB kommt, danach sieht es ja aus, dann ist das ein zusätzliches Pfund, mit dem N33 wuchern kann, das ist die 6$ wert.

Gipsel

2022-05-19, 14:47:38

Wo ist das absurd? Speichermodule kosten kaum Strom, das Interface jedoch schon. Brauchst halt zwingend ne Backplate, aber das ist kein Problem.Warum sollte man eine Backplate benötigen? Viele (die meisten) davon sind eh aus Plastik oder benutzen keine Wärmeleitpads zwischen Backplate und Speichermodulen. Da ist eine Karte ohne Backplate dann besser gekühlt. Die werden in 90% der Fälle nur für die Optik verbaut (bei kleineren Karten sind es eher an die 100%).

Edit:
Hach, tut mir leid. War zu schnell.

robbitop

2022-05-19, 15:07:58

Mich wundert, dass VLIW2 für RDNA3 noch nicht diskutiert wird... :) (der neuste "Leak")

TheAntitheist

2022-05-19, 16:13:24

Mich wundert, dass VLIW2 für RDNA3 noch nicht diskutiert wird... :) (der neuste "Leak")
die Gerüchte gabs auch schon für RDNA1 https://www.reddit.com/r/Amd/comments/bu5mum/rdnanavi_is_vliw2supersimd/

AMD kündigt ja gerne Hardware features an die dann nicht funktionieren (Zumindest seit RDNA)
Das soll nicht heißen, dass der Reddit Post eine AMD Ankündigung ist...

Unicous

2022-05-19, 16:19:09

VLIW ist kein "Feature".:rolleyes:

Dein Verweis auf einen random reddit Post hilft dir da auch nicht dein "Argument" zu stützen.:rolleyes:

robbitop

2022-05-19, 16:38:18

Ggf sind es nach wie vor 2x 64er WGPs (also 64 pro CU) aber die FPUs setzen mittels VLIW2 eben jeweils 2 Instruktionen co-issuen können.

Gipsel

2022-05-19, 17:11:34

Das Co-Issuing ist höchstwahrscheinlich kein generelles Feature. Sonst würde der damit verbundene Verweis auf das VOPD-Instruktionsencoding unsinnig sein. GCN/RDNA haben alle mehrere mögliche Klassen an Instruktionsencodings für die Vektoroperationen: VOP1, VOP2, VOP3 (mit VOP3a, VOP3b und später VOP3p [packed math] Untervarianten, VOPC und mit RDNA3 dann offenbar noch VOPD). VOP3 Befehle können (bis zu) 3 Quell- und 1 Zieloperanden nutzen, VOP2 haben 2 Quelloperanden VOP1 nur maximal einen, VOPC, sind Vergleiche (die Skalaroperationen haben auch mehrere mögliche Encodings, welche logischerweise alle mit SOP anfangen ;)). VOP3-Befehle sind 64Bit groß (und erlauben noch weitere Dinge wie input und output modifier [Negation, Clamping, Multiplikation mit 0.5, 2.0 oder 4.0 und so), die anderen nur 32bit (die meisten Befehle, der nur 2 Quelloperanden benutzen, können trotzdem das VOP3-Format nutzen, um an die input/ouput modifier zu kommen [sinnvoll, wenn damit ein zusätzlicher Befehl gespart wird]).
VOPD wird wahrscheinlich auch 64Bits messen und quasi 2 VOP2-Befehle aneinanderhängen (mit ein paar umdefinierten Bits). Eine gewisse Auswahl an Instruktionen wird so abgesetzt werden können, aber längst nicht alle.
Wer weiß, vielleicht spekuliert man ja bald wieder über bridged FMAs, wo über die VOPD-Befehle voneinander unabhängige Multiplikationen und Additionen gleichzeitig an die FMA-Einheit rausgehen können (also die "Brücke" zwischen Multiplikations- und Additionsteil auch getrennt werden kann). Wenn dann noch bestimmte andere Sachen halbwegs gleichmäßig zwischen den beiden Teilpipelines aufgeteilt werden (Vergleiche, Formatkonversionen, whatever; duplizieren wird man vermutlich eher nichts [vielleicht mit RDNA4?]), dann ergeben sich eventuell ausreichend viele mögliche Befehlskombinationen, mit denen dual issue sinnvoll nutzbar wird.
Der Charme ist, daß die Scheduler-Ressourcen nicht groß aufgebläht werden müssen, da die Abhängigkeiten nur pro VOPD-Befehlspaket geprüft werden. Dafür muß aber der Compiler sicherstellen, daß nur unabhängige Operationen in so ein VOPD-Befehl gepackt werden (ist bei zweien aber wohl noch überschaubar). Wäre zumindest meine Idee.

Locuza

2022-05-19, 18:42:50

VODP könnte 128-Bit verwenden:
Refactor to pass a templatized size parameter to the decoder to allow wider than
64bit decodes in a later patch.

dp: "Overall looks fine, but I do not understand the context in which DecoderUInt128 will be used.
https://reviews.llvm.org/D125316

Gipsel

2022-05-19, 19:40:34

VODP könnte 128-Bit verwenden:

https://reviews.llvm.org/D125316Könnte. Eventuell kann man aber auch nur zwei unabhängige fp16-Instruktionen zusammen ausführen (also quasi Rapid Packed Math 2.0 als VLIW2 statt SIMD2 pro vALU-Lane), da ja auch "FeatureTrue16BitInsts" dazukommt und der SDWA-Kram wegfällt (mit dem man einzelne 16bit-Werte in einem 32bit Register ansprechen kann, ohne das würde RPM etwas unschöner). Würde auch passen (bisher vielleicht gar am besten, wäre aber für die Allgemeinheit wohl die langweiligste Alternative ;)).
Ach ja, technisch gesehen gibt es schon jetzt Vektor-Memory Image Instruktionen, die größer als 64bit sind (das Maximum liegt bei 160bit für die "non sequential address" Varianten).

reaperrr

2022-05-19, 20:53:01

Der bekommt standardmäßig 16GB. 8 sind total induskutabel, das war bei der 3070 schon grenzwertig - das kauft doch keiner, der bei Verstand ist, erst recht bei AMD. 8GB ist zu wenig in der Generation, Punkt. Für die kleinen FHD-Produkte kann man das noch machen, ist eigentlich auch schon zu wenig, aber alles darüber ist ein totales no-go und wird weder bei AMD noch bei NV passieren. Der Tenor ist mir Furzegal, das ist einfach Blödsinn 8GB in dem Bereich zu verbauen. Die NV Konkurrenz bekommt übrigens 12GB, aber AMD bleibt hier bei 8, ganz bestimmt :freak:.

Das halte ich für Unsinn. Kannst einfach doppelt bestücken, das ist kein Prob.

Ich wette, es wird wieder eine 7900 non-XT geben, damit hätte man doch ein gutes Lineup:

RX7900(XT) -> N31 -> 24GB
RX7800(XT) -> N32 -> 16GB
RX7700(XT) -> N33 -> 16GB
RX7600(XT) -> N22S -> 12GB
RX7500(XT) -> N23S -> 8GB
darunter -> N24
Du kannst versuchen es mit Gewalt herbeizuschreiben so viel du willst, ich wette mit dir: Die Standardvariante von N33XT wird nur 8 GB haben.

Als FHD-Karte der RDNA3-Generation will AMD die zu einem ähnlichen Preis wie die 6700/6750XT anbieten können, ohne Marge zu opfern. Da der Chip selbst bereits größer und damit teurer ist, geht das nur über Einsparungen bei den PCB- und vor allem Speicherkosten, das geht demnach nur mit 8GB.
Außerdem verschieben der 96 MB größere IF$ und die erstmals vollständige DCC durch die ganze Pipeline evtl. auch das Limit, ab dem es ruckelt, ggü. einer 6600XT oder 5700XT etwas nach oben.
Last but not least: An AMD's Stelle würde ich davon ausgehen, dass noch lange 98% aller Titel in FHD mit 8GB flüssig laufen, und der Rest FSR2.0 oder XeSS implementiert und so notfalls intern mit geringerer Auflösung laufen und trotzdem ca. FHD-Qualität bieten kann.

Eine zusätzliche 16GB-Variante will ich nicht ausschließen, aber ich gehe davon aus, dass die wenn, dann erst später und zu einem absichtlich schlechteren P/L als z.B. der N32-Salvage kommen wird.

Meine Prognose fürs Mittelfeld des Line-Ups:
RX7800XT -> N32XT -> 16GB -> 849-899$
RX7800 oder 7700XT -> N32XL (24-28 WGP, 192bit) -> 12GB -> 699$
RX7700XT oder 7600XT -> N33XT -> 8GB -> 499$

Lurtz

2022-05-19, 21:51:20

Last but not least: An AMD's Stelle würde ich davon ausgehen, dass noch lange 98% aller Titel in FHD mit 8GB flüssig laufen, und der Rest FSR2.0 oder XeSS implementiert und so notfalls intern mit geringerer Auflösung laufen und trotzdem ca. FHD-Qualität bieten kann.

Was so gut wie keinen VRAM einspart.

Meridian12

2022-05-19, 21:54:02

Oh man, wie geil ich auf richtige Tests der 4080/4090 und 7800/7900 bin :D

Dieser ganze Spekulationskram geht mir langsam auf den Keks. Will endlich Fakten,Fakten,Fakten sehen :D

TheAntitheist

2022-05-20, 05:12:50

VLIW ist kein "Feature".:rolleyes:

Dein Verweis auf einen random reddit Post hilft dir da auch nicht dein "Argument" zu stützen.:rolleyes:
oh wo sagte ich das es ein Feature sei? ich sagte nur das AMD schon oft Versprechen gebrochen hat. Dies habe ich mit den Primitive Shadern untermauert... Mein Post sagte nur das VLIW2 schon für RDNA1 die Gerüchterunde machte... also erst Lesen dann denken und DANN schreiben.

Unicous

2022-05-20, 06:07:47

Und schon wieder "Ungenauigkeiten" um es man wohlwollend auszudrücken. PS war für Vega angedacht und war dort ein Totalausfall, bei RDNA ging es dann, deine "Kritik" läuft also vollkommen ins Leere. Komischerweise hast du PS nicht einmal vorher erwähnt, man durfte also rumrätseln um welches ominöses Feature es sich handeln soll. Ich hatte schon den Maufzeiger auf einem weiteren :rolleyes: geparkt, weil ich mir genau gedacht habe welche Geschichtsklitterung du begehen möchtest.:wink:
Insofern weiß ich auch nicht worauf du mit deinen Trollposts überhaupt hinaus willst? :uponder:

Und nochmals: VLIW ist immer noch kein "Feature" sondern eine Architektur. Das wäre so als würdest du als Feature eines Akkustaubsaugers das Staubsaugen herausstellen und beim steckdosengebundenen Staubsauger den fehlenden Akku bemängeln.:rolleyes:

Statt hier rumzunölen hättest du dich konkret zum Thema äußern können bzw. Robbitops Frage beantworten können, aber nein du hast schnell nach "VLIW2" gegooglet weil du keinen blassen Schimmer hattest was es bedeutet und das dann als Anlass genommen den erstbesten reddit-Thread hier reinzuknallen um dann dann mit Kot zu werfen, deine anderen Beiträge hier im Thread schlagen ja in die gleiche Kerbe.

Rsioux

2022-05-20, 08:04:10

die Gerüchte gabs auch schon für RDNA1 https://www.reddit.com/r/Amd/comments/bu5mum/rdnanavi_is_vliw2supersimd/

AMD kündigt ja gerne Hardware features an die dann nicht funktionieren (Zumindest seit RDNA)
Das soll nicht heißen, dass der Reddit Post eine AMD Ankündigung ist...

Du hast zuerst VLIW2 erwähnt, und dann auf nicht erfüllten Features erwähnt. Da lässt sich schon raus schließen, dass du es als Feature ansiehst....

Beleidigen und rumschreien muss man da nicht.

DrFreaK666

2022-05-20, 08:20:22

Bleibt beim Thema und beleidigt weiterhin eure Arbeitskollegen.

Redneck

2022-05-20, 08:43:00

>AMD kündigt ja gerne Hardware features an die dann nicht funktionieren welche Versprechen

welche denn noch ausser den primitive shaders ?... wenn man mit Dreck um sich wirft muß man auch liefern können.

Mich erinnert diese Diskussion stark an das Thema Treiber... AMD Treiber seien so schlecht etc etc... und wenn man dann nachhakt heißt es dann man liest oder hört viel im Bekanntenkreis davon... viel heisse Luft die da gemacht wird

WedgeAntilles

2022-05-20, 09:02:28

Mich erinnert diese Diskussion stark an das Thema Treiber... AMD Treiber seien so schlecht etc etc... und wenn man dann nachhakt heißt es dann man liest oder hört viel im Bekanntenkreis davon... viel heisse Luft die da gemacht wird
Aha, die ganze Problematik mit der 5700XT hast du nicht mitbekommen?
Aber vermutlich sind HWU und Co ja alle bestochen, gell?
https://www.youtube.com/watch?v=79A95kYfEbU

Du hast recht, dass die AMD Treiberproblematik nicht mehr das ist, was sie früher mal war.
Jetzt aber so zu tun, als gäbe es keine Probleme und jeder der davon berichtet wäre nur zu doof, würde lügen oder sonstwas ist eben genauso unredlich.

Cyberfries

2022-05-20, 10:03:51

Bevor ihr euch jetzt zerfleischt, welches Feature und welcher Treiber wann kam und wie gut funktioniert hat.
Der Link von TheAntitheist bezog sich auf die SuperSimd, die für RDNA vermutet wurden, also Recheneinheiten,
die sowohl wie GCN, als auch Terascale nach VLIW arbeiten können sollten. Das war nie angekündigt, sondern nur ein Gerücht.

Wenn ich das richtig verstehe, hat das aktuelle Gerücht bzgl. VLIW2 damit nichts zu tun, sondern es geht darum die ALUs
mit längeren Instruktionen zu füttern und einen Hyperthreading ähnlichen Effekt zu erzeugen, also quasi die CU-Zahl zu verdoppeln.
(Bitte um Richtigstellung, sollte das nicht korrekt sein)

Damit einhergehend wird jetzt diskutiert, dass es bei 128 ALUs je WGP bleibt und N31 nicht 12288, sondern 6144 hat.
Das passt aber nicht wirklich zu der für N33 diskutierten Chipfläche und Shaderzahl, für nur 2048 sind 440mm² zu fett.
Andersrum (also virtuell 8192 für N33 und 24576 für N31) passt dann wiederum nicht zur erwarteten Leistung der Karten.
Insofern müsste entweder einer der prognostizierten Werte falsch sein, oder eben das Gerücht um GPU-Hyperthreading passt nicht.

Die billigste Lösung ist ein möglichst kleines Speicherinterface. Für 256Bit bräuchtest du ja gleich viele Chips, das ändert doch gar nichts. 192Bit ist ja nett, aber das geben die Gerüchte bisher nicht her

An den Gerüchten hat sich zuletzt so viel gedreht...

Rechenbeispiel: 128bit mit 16gb doppelt bestückt auf 440mm² vs 192bit mit 12gb auf 455mm²
Aus einem 300mm-Wafer lassen sich 124 bzw. 119 Chips gewinnen, bei 10000$ pro Wafer sind das 80,6$ bzw. 84$.
Bei 10$ pro GDDR6-Modul sind die Kosten in Summe 240,6$ bzw. 204$, eine Einsparung von 15% nur durch diese beiden Punkte.

Ist (natürlich) eine Milchmädchenrechnung, die genauen Kostenpunkte kennen wir nicht, aber die grobe Richtung sollte passen.

Dass 16gb interessanter wären als 12gb ist klar. Aber eine Doppelbestückung gab es (soweit ich weiß) in dem Segment noch nie.
Wann gab es das zuletzt bei nicht-Profi-Karten außer der 3090? Ich halte das für eher unrealistisch, dass AMD so etwas
in der Mittelklasse bringen will, nur um 15mm² Fläche zu sparen. Wo mehr als 8GB unnötig sind, lässt sich das SI immer noch beschneiden.

Gipsel

2022-05-20, 10:23:58

Vergeßt mal ganz schnell alle Bezüge auf "Hyperthreading"! Das hat nur der Typ von RGT (?) in seinem Video in den Raum geworfen und der hat keinen Schimmer, wie das funktioniert (sagt er selber). Kurz: Das hat mit SMT/Hyperthreading absolut Null zu tun. Auch nicht ungefähr oder im Ansatz oder sonst irgendwie. Der Begriff hilft nicht, er verwirrt höchstens (weil er etwas völlig Anderes bezeichnet).

Redneck

2022-05-20, 11:38:00

Aha, die ganze Problematik mit der 5700XT hast du nicht mitbekommen?
Aber vermutlich sind HWU und Co ja alle bestochen, gell?
https://www.youtube.com/watch?v=79A95kYfEbU

Du hast recht, dass die AMD Treiberproblematik nicht mehr das ist, was sie früher mal war.
Jetzt aber so zu tun, als gäbe es keine Probleme und jeder der davon berichtet wäre nur zu doof, würde lügen oder sonstwas ist eben genauso unredlich.

ne, habe ich nicht.. die 5700 war für mich nicht interessant und habe es daher nicht verfolgt. Ich scheine mit meinen ATI/AMD Grakas in den letzten 20 Jahren ja immer massiv Glück gehabt zu haben. Konnte mich nie über grobe Probleme beklagen aber selbst wenn ich 1x darunter gelitten hätte : welche Relevanz hat das mit der aktuellen Situation ?
Einmal Scheisse -> immer Scheisse ??
Was will man mit dem Verweis auf nicht eingehaltene Versprechen bezwecken ? Einmal Lügner = immer Lügner ?
das ist doch völlig daneben und daher mein Vergleich zur Treiber Geschichte

mksn7

2022-05-20, 11:56:52

GPUs betreiben quasi schon immer extremes Hyperthreading, je nach GPU bis zu 8-16 fach. VLIW2 nutzt ILP und würde die single thread Leistung erhöhen.

Gibt es überhaupt einen Unterschied zu dem was Maxwell/Pascal gemacht hat? Da wird im binary auch kodiert, welche 2er Bündel an Instruktionen zusammen im gleichen Takt schedulen dürfen. Der Unterschied zu klassischem VLIW2 ist höchstens im instruction encoding, dass ein leerer slot nicht als NOP kodiert wird.

vinacis_vivids

2022-05-20, 12:10:30

VLIW2 geht ja Richtung CPU-Integration in GPU`s. Was jetzt der große Unterschied derzeit ist die "Branch Prediction", die CPU-Exklusiv ist. Sollte AMD sowas in GPU`s Compute-Units einführen können, wäre das natürlich krass.

Gipsel

2022-05-20, 12:11:33

Gibt es überhaupt einen Unterschied zu dem was Maxwell/Pascal gemacht hat? Da wird im binary auch kodiert, welche 2er Bündel an Instruktionen zusammen im gleichen Takt schedulen dürfen. Der Unterschied zu klassischem VLIW2 ist höchstens im instruction encoding, dass ein leerer slot nicht als NOP kodiert wird.Im Detail mag es Unterschiede geben, aber im Prinzip hast Du vollkommen recht.
Die offene Frage ist momentan eigentlich, was das VOPD-"Dual Issue"-Befehlsencoding am Ende dann nun wirklich kann. Ist es allgemein (geht also für praktisch alle Befehle) oder nur eine Ergänzung für eine bestimmte Subklasse an Befehlen. Meiner Meinung nach sieht es momentan eher nach Letzterem aus.
Achja, das V in VLIW steht ja für "very". Im Fall von VOPD mit dual issue, wäre also eventuell LIW2 angebrachter. :lol:

mksn7

2022-05-20, 12:58:17

Hehe, das stimmt. Wenn man nur Befehle mit wenig Operanden zu kombiniert, muss man auch die Registerbandbreite nicht erhöhen.

Gipsel

2022-05-20, 13:25:58

VLIW2 geht ja Richtung CPU-Integration in GPU`s.Nein. Einfach nur nein.

OgrEGT

2022-06-04, 11:57:27

Basierend auf den aktuellen Gerüchten
N31 = N31 GCD (48WGPs) + 6 MCDs (384MB IF$)
N32 = N32 GCD (32WGPs) + 4 MCDs (256MB IF$)
jeweils auf CoWoS IO Fabric mit bis zu 4TB/s

https://videocardz.com/newz/amd-navi-31-gpu-now-rumored-to-feature-384-bit-memory-bus-24gb-gddr6-memory

Laut 3DC Prognose mit bis zu 3GHz (N31) bzw. 3,2GHz (N32) GPU Clock...

https://www.3dcenter.org/news/news-des-18-mai-2022

Gibt es da schon Anhaltspunkte wie da die Leistungsaufnahme ausfallen wird?

basix

2022-06-04, 12:46:22

vinacis_vivids

2022-06-04, 12:54:00

Einschätzung:
N33 ~ 200-250W
N32 ~ 350-400W
N31 ~ 450-500W

OgrEGT

2022-06-05, 11:13:56

All die Infos würde ich noch mit grosser Vorsicht geniessen. mMn ist 1x GCD + 6x MCD für N31 ein guter Ansatz, da relativ "simpel".

Auch die Taktraten sind in letzter Zeit nur eines: Gestiegen. Auch bei den Nvidia Lovelace Gerüchten.

Die Leistungsaufnahme ist etwas, was noch relativ kurz vor Release ändern kann. >300W für N31 sind wahrscheinlich zutreffend. Ob es gar in Richtung 400W oder darüber geht? Keine Ahnung. Hängt auch von dem ab, was Nvidia bringt.
Man muss auch so sehen: 3.0GHz @ 48WGP sind 3.3x Rohleistung einer 6900XT. Wenn das in nur leicht über 300W drin liegt, wäre das wahnsinnig gut. Entweder geht die Leistungsaufnahme also nach oben, oder diese hohen Taktraten sind nicht zutreffend.

This. Kann mir auch nicht vorstellen dass N31 bei nur 300W liegt. Das Design alleine von den Taktraten her scheint nicht so weit von N21 entfernt zu sein...
Den kann man auch am oberen Ende mit 2,7GHz takten bei 436W :freak:

https://www.computerbase.de/2021-12/amd-rx-6900-xt-xtx-review-test/2/#abschnitt_so_taktet_die_xfx_rx_6900_xt_merc_319_limited_black_gaming_im_test

Wenn man nun bedenkt dass TSMC 5nm vs 7nm 20% mehr Takt bei gleicher Lesitungsaufnahme bringt, wohlwissend, dass AMD sehr wahrscheinlich einen eigens angepassten Prozess verwendet, welcher da ggf. auch >20% zulässt und auch vom jeweiligen Betreibspunkt abhängt, käme man in die Nähe von 3,3GHz bei ggf. ~450W...

https://www.tsmc.com/english/dedicatedFoundry/technology/logic/l_5nm

basix

2022-06-05, 13:33:08

450W bei 80CU wäre das dann aber ;) Wir reden hier von 192CU für N31 (48 WGP).

Ich denke eher, dass 2.7 GHz realistisch sein könnten:
- 2x Energieeffizienz durch N5HPC (Iso Clock wie bei N7)
- Architekturverbesserungen, sagen wir mal 1.3x Effizienz
- 440W / (1.3 * 2.0) * 192CU / 80CU = 406W

Resultat: 400W bei 192CU @ 2.7 GHz --> Einigermassen realistisch. Das wäre verglichen mit einer 6900XT 2.2x effizienter, wenn man es auf die Rohleistung in TFLOPs bezieht.

Wie immer gilt: Milchmädchen ist nur für eine grobe Abschätzung gut.

OgrEGT

2022-06-05, 15:53:35

Cyberfries

2022-06-05, 17:27:01

Den kann man auch am oberen Ende mit 2,7GHz takten bei 436W
Bei durchschnittlichen Taktraten von 2,59 GHz, mit Ausreißern in einzelnen Titeln lässt sich keine Prognose anstellen.
Ohnehin passen die durchschnittlich 2,515 GHz bei 375w im gleichen Test ohne Brechstange viel besser zu den erwarteten 3,0 GHz.
Mit der 2,4-fachen Zahl an ALUs wären das für N31 so "nur" 900w.

Hier wird dann aber mit:
~450W...
oder:
400W bei 192CU @ 2.7 GHz
gerechnet, dank:
- 2x Energieeffizienz durch N5HPC
Wo kommt denn diese Zahl her? TSMC selbst gibt nur 40% an.

Da aber 3GHz für N31 und 3,2GHz für N32 im Raum stehen
Und wo kommen diese 3,2 GHz her? Wenn N33 und N31 beide nur auf 3,0 GHz oder weniger kommen sollen,
sind 3,2 GHz für N32 für ein im Vergleich zu N33 komplexeren Konstrukt mehrerer Chips etwas seltsam.

OgrEGT

2022-06-05, 17:33:36

Bei durchschnittlichen Taktraten von 2,59 GHz, mit Ausreißern in einzelnen Titeln lässt sich keine Prognose anstellen.
Ohnehin passen die durchschnittlich 2,515 GHz bei 375w im gleichen Test ohne Brechstange viel besser zu den erwarteten 3,0 GHz.
Mit der 2,4-fachen Zahl an ALUs wären das für N31 so "nur" 900w.

Hier wird dann aber mit:

oder:

gerechnet, dank:

Wo kommt denn diese Zahl her? TSMC selbst gibt nur 40% an.

Und wo kommen diese 3,2 GHz her? Wenn N33 und N31 beide nur auf 3,0 GHz oder weniger kommen sollen,
sind 3,2 GHz für N32 für ein im Vergleich zu N33 komplexeren Konstrukt mehrerer Chips etwas seltsam.

Hier die 3DC Prognose:
https://www.3dcenter.org/news/news-des-18-mai-2022

Hier die Angaben von TSMC:
https://www.tsmc.com/english/dedicatedFoundry/technology/logic/l_5nm

5nm vs 7nm
+20% Takt bei gleicher Leistungsaufnahme oder
-40% Leistungsaufnahme bei gleichem Takt

basix

2022-06-05, 18:29:56

KarlKastor

2022-06-05, 18:51:02

Ist ja auch der Vergleich von Standard N7. RDNA2 ist auf N7P.
Wobei 40% viel ist. In älteren slides hatte TSMC -30% angegeben.

robbitop

2022-06-05, 19:11:36

-40% = 1/0.6 = 1.66x effizenter. Und das ist der Standard N5 Prozess. AMD hat 2x bei der Zen 4 EPYC Vorstellung selbst angegeben.

Ob das dann 2.7GHz oder 2.5GHz werden spielt mMn keine grosse Rolle. 3.0GHz halte ich erst ab 500W für einigermassen realistisch. Und die 500W will ich lieber nicht sehen ;)
Naja Frequenz kann man aber auch durch besser geeignetes Design sehen. War ja bei rdna2 schon ein ordentlicher Sprung. Oder damals bei Pascal. Ggf war ja noch gut Potenzial da was die Ryzen Jungs und Mädels geholt haben. RDNA3 soll ja rein von der uArch nochmal einiges an Effizienz holen so dass man nicht nur auf die Vorteile des Fertigungsshrinks angewiesen ist.

basix

2022-06-06, 00:36:35

Du, mehr Frequenz sehe ich immer gerne (in Kombi mit hoher IPC), aber nur bei gemässigter Leistungaufnahme. RDNA2 war da bereits aussergewöhnlich gut.

Zossel

2022-06-06, 07:08:33

-40% = 1/0.6 = 1.66x effizenter.

Langsam wird das was hier im Forum mit der Mathematik bzw. der Bruchrechnung:-)

mboeller

2022-06-06, 12:43:38

ist das neu?

https://www.notebookcheck.com/Seasonic-leakt-neue-Details-zu-AMD-Radeon-RX-7000.625658.0.html

Denn Seasonic empfiehlt für ein System auf Basis der Radeon RX 7900 XT und der Radeon RX 7800 XT jeweils ein 750 Watt Netzteil, genau wie für die Radeon RX 6900 XT und die Radeon RX 6800 XT.

Die Radeon RX 7700 XT begnügt sich dagegen mit einem 650 Watt Netzteil.

Seasonic empfiehlt Netzteile, die den neuen 16-Pin-Stecker, der bis zu 600 Watt Strom liefern kann, noch nicht besitzen, was darauf hindeutet, dass AMD auf diesen Standard vorerst noch verzichten wird.

basix

2022-06-06, 13:02:57

Langsam wird das was hier im Forum mit der Mathematik bzw. der Bruchrechnung:-)

Prozentrechnung vs. Faktoren usw. ist leider schwer... ;)

reaperrr

2022-06-06, 13:21:29

ist das neu?

https://www.notebookcheck.com/Seasonic-leakt-neue-Details-zu-AMD-Radeon-RX-7000.625658.0.html

Könnten Platzhalter sein.

Wenn nicht, wird AMD wohl nicht weit über die bisherigen TDPs hinausgehen.
Dann wird's erst recht interessant ggü. Lovelace, wenn AMD das "Takt um jeden (TDP)-Preis"-Spiel nicht mitspielen sollte.

Cyberfries

2022-06-06, 14:16:47

ist das neu?

https://www.notebookcheck.com/Seasonic-leakt-neue-Details-zu-AMD-Radeon-RX-7000.625658.0.html

Etwas Kontext:
Für alles von der 6800xt (300w) bis zur 3090 (350w) setzt Seasonic 750w an.
650w sollen für die 6800 (250w) reichen, während Seasonic für die 3090ti (450w) immerhin 1000w sehen will.

Sollten diese Nennungen kein Platzhalter, sondern authentisch sein, so läge die 7900xt wahrscheinlich unter 400w .

Hier die 3DC Prognose:
https://www.3dcenter.org/news/news-des-18-mai-2022

Danke, die Prognose ist bekannt, hattest du bereits zuvor geteilt. Die Frage bleibt dennoch offen, woher diese 3,2GHz stammen.
Mir ist kein dieser Prognose vorausgehender Leak bewusst, wo diese Zahl bereits aufgetaucht ist.

aceCrasher

2022-06-06, 15:52:52

Die Frage bleibt dennoch offen, woher diese 3,2GHz stammen.
Mir ist kein dieser Prognose vorausgehender Leak bewusst, wo diese Zahl bereits aufgetaucht ist.

Ich glaube die Zahl kam daher dass plötzlich behauptet wurde dass Navi 31 nun doch ~12000FP32 mitbringt anstatt ~15000FP32, die Rohleistung jedoch gleich bleiben soll - ergo ist die erwartete Frequenz auf 3GHz angestiegen. Bei Navi32 dachte sich Leo - oder von wem auch immer die 3,2GHz für Navi32 stammen - dann vermutlich dass der kleinere Chip erwartungsgemäß auch höher takten wird als Navi31.

nordic_pegasus

2022-06-06, 16:43:25

ist das neu?

https://www.notebookcheck.com/Seasonic-leakt-neue-Details-zu-AMD-Radeon-RX-7000.625658.0.html

es wird ja spekuliert, dass Ada und RDNA3 vielleicht noch auf PCIe gen5 verzichten (weil niemand die Bandbreite gebrauchen kann). Aber das AMD auch den ATX3.0 Stecker verschmät, ergibt doch kaum Sinn. Denn hier kann man für alte NTs die Kabelpeitsche als Adapter beifügen.

Der "Vorteil" von ATX3.0 sind die zulässigen Peaks von 200% über Nennleistung. Also ein 750Watt ATX3.0 Netzteil muss Spitzen von 1500Watt leisten können für maximal 100ms(?). Darum genügt nominal ein kleineres Netzteil für die großen Grafikkarten.

amdfanuwe

2022-06-06, 17:42:04

es wird ja spekuliert, dass Ada und RDNA3 vielleicht noch auf PCIe gen5 verzichten (weil niemand die Bandbreite gebrauchen kann).
Macht auch irgenwie keinen Sinn. PCIe 5.0 ist bei den Boards noch zu wenig verbreitet.
Ich könnte mir eher vorstellen, dass ab der übernächsten Generation nur noch PCIe 5.0 x 8 auf den GPU Karten verbaut wird.

robbitop

2022-06-06, 17:49:47

Viel wichtiger wäre mir displayport 2.0

Über pcie 5.0 würde ich mich dennoch nicht windern. RDNA1 unterstützte PCIe 4.0 und das war als die AM4 Plattform mit pcie 4.0 gelauncht wurde. ADL wird PCIe5.0 zum rdna3 launch für 1 Jahr unterstützt haben und die neue AM5 Plattform ist dann auch schon eine Weile vorgestellt worden.

nordic_pegasus

2022-06-06, 19:08:46

aber bei AM5 wird doch in der ersten Runde nur der X670/E Chipsatz PCIe gen5 am PEG unterstützen. Für mich auch klarer Hinweis, dass AMD bei RDNA3 ohne gen5 launchen wird.

Linmoum

2022-06-06, 19:12:38

Warum sollte AMD eine Plattform mit PCIe 5.0 Support launchen, wenn die eigenen GPUs das nicht unterstützen? Das ist doch kompletter Käse.

Worüber man eher diskutieren kann, ob N33 und darunter 5.0 bieten werden. Das halte ich nicht unbedingt für zwingend. Aber N31 und N32? Definitiv.

nordic_pegasus

2022-06-06, 19:29:35

Warum sollte AMD eine Plattform mit PCIe 5.0 Support launchen, wenn die eigenen GPUs das nicht unterstützen? Das ist doch kompletter Käse.

warum beschneidet AMD die PCIe-Lanes von der CPU zur GPU auf B650 auf gen4, wenn gen5 vorhanden ist? Das ist kompletter Käse. Hallock hat mehrmals betont, das AMD PCIe gen5 derzeit vorrangig bei SSDs sieht in Kombination mit "SAS" (also dem RTX I/O Pendant von AMD).

Im Vergleich kann man bei Zen2/3 in Kombination mit B550 die direkten CPU-Lanes auch mit gen4 nutzen und nicht mit gen3, welches dem Feature-Set des B550 Chipsatz entspräche.

Das sind für mich alles Anzeichen, dass AMD bei RDNA3 ohne PCIe gen5 plant. Ich erinnere mich auch an Gerüchte zu Ada, dass hier Nvidia genauso ohne gen5 an den Start gehen wird.

amdfanuwe

2022-06-06, 19:32:48

Warum sollte AMD eine Plattform mit PCIe 5.0 Support launchen, wenn die eigenen GPUs das nicht unterstützen?
AMD hat ja auch noch FPGA im Programm und mal sehen, was da noch im Bereich ML kommt. Für Laborrechner mit solchen Beschleunigern könnte 2xPCIe 5.0 x8 bzw. 1x 16 interessant sein.

Zossel

2022-06-06, 19:47:38

Der "Vorteil" von ATX3.0 sind die zulässigen Peaks von 200% über Nennleistung. Also ein 750Watt ATX3.0 Netzteil muss Spitzen von 1500Watt leisten können für maximal 100ms(?). Darum genügt nominal ein kleineres Netzteil für die großen Grafikkarten.

Muss man jetzt diesen Unfug von den GPUs auf sämtliche Netzteile ausrollen?
Sollen doch die GPUs mit den entsprechenden Kondensatorenbänken kommen.

ChaosTM

2022-06-06, 20:05:30

Viel wichtiger wäre mir displayport 2.0

This !

PCIe 5.0 für Grakas seh ich noch nicht als ein Muss, schaden würde es aber auch nicht.

OT.: Intel hat 5.0 jetzt eine Weile, aber wie viele Gerätschaften (SSDs) gibt es bisher zu kaufen ?

nordic_pegasus

2022-06-06, 20:31:25

Muss man jetzt diesen Unfug von den GPUs auf sämtliche Netzteile ausrollen?
Sollen doch die GPUs mit den entsprechenden Kondensatorenbänken kommen.

sag das Nvidia. Die ATX3.0 Spec ist diesbezüglich eine Reaktion auf die 3090, welche wegen der Spikes viele ATX2.xx Netzteile zur Aufgabe gebracht hat. Der neue PCIe Stromstecker ist ja auch eine Umwandlung des Nvidia 16pin Steckers der RTX3000 Karten.

Ich finde die ganze Entwicklung auch sehr bedenklich, aber es ist anscheinend die mehrheitlich gewollte Zukunft.

OT.: Intel hat 5.0 jetzt eine Weile, aber wie viele Gerätschaften (SSDs) gibt es bisher zu kaufen ?

zumindest PCIe 5.0 SSD Controller wurden Ende Mai auf der Computex gezeigt, u.a. der Phison E26.

robbitop

2022-06-06, 21:39:11

aber bei AM5 wird doch in der ersten Runde nur der X670/E Chipsatz PCIe gen5 am PEG unterstützen. Für mich auch klarer Hinweis, dass AMD bei RDNA3 ohne gen5 launchen wird.
pcie 5.0 plattformen werden dann dank ADL seit 1 Jahr existiert haben. IMO ist es nicht zu früh dafür.

Nightspider

2022-06-06, 21:48:04

nordic_pegasus

2022-06-06, 21:52:53

zu früh nicht, aber außer das es die Kosten für die Boards erhöht wegen mehr PCB-Layern, (Re-)Drivern und gen5 kompatiblen Switchen. Aber mehr Leistung wird PCIe gen5 bei Grafikkarten noch auf absehbare Zeit nicht bringen.

Ich würde es begrüßen, wenn Nvidia/AMD dieses Jahr noch aussetzen mit diesem Gimmick. Dann lieber DP2.0 wie hier bereits angemerkt wurde und deutlich mehr Grafik-Performance. Hoffentlich lässt AMD auch wieder den Quatsch mit dem USB-C Anschluss.

vinacis_vivids

2022-06-06, 21:54:41

Bezüglich perf/Fläche:
Dazu musst AMD den IF-CLK gut hochtakten, vllt. synchron zum CU-CLK von 3,0-3,2Ghz. Wird schon recht anspruchsvoll dabei auch wenig Energie zu verbrauchen.

basix

2022-06-06, 22:20:29

Wie groß schätzt ihr den zentralen Compute Die von N31 in N5(P?) ein?

Wenn AD102 wirklich schneller werden solllte muss das ja ein Monsterchip werden.

Ich hoffe aber das AMD die RDNA3 Architektur noch weiter verbessern konnte so das mehr Perf. pro normierter Fläche herauskommt.

Die 80CU von N21 ohne IF$, IO usw. sind ~300mm2 gross. Jetzt ist N31 2.4x breiter und kommt in N4/5 daher. Ich würde daher N31 auf ~400mm2 schätzen. Nochmals in etwa die selbe Fläche mit den 6x MCDs.

Was aber auch schon hier im Thread angetönt wurde: Eigentlich wäre es sinnvoller, 6x GCD und 1x MCD zu haben. Das MCD besteht zum Grossteil aus Cache und kommt in N6, da wird der Yield sehr gut sein. Und die teuren 5nm GCDs wären dann entsprechend kleiner, jeweils 1x Shader Engine und ~60mm2. Diese GCDs dann 3D oben aufs MCD drauf. N32 hätte entsprechend einfach ein kleineres MCD. Und man bekäme den Vorteil, dass man mit den vielen GCDs entsprechend Binning betreiben kann, was ~10% mehr Takt versprechen sollte (anhand eines Papers zu dem Thema).

amdfanuwe

2022-06-06, 23:16:37

Eigentlich wäre es sinnvoller, 6x GCD und 1x MCD zu haben.
Hätte noch andere Vorteile.
Wie stellt sich ein Speicherzugriff dar?
Bei 1x GCD und 6x MCD müsste bei jedem Zugriff alle MCDs angesprochen werden, sonst geht doch die Bandbreite verloren.
Bei 6x GCD 1x MCD steht dem SE in einem GCD der komplette Infinity Cache zur Verfügung ohne auf die anderen GCDs zugreifen zu müssen.
Also weniger Datenverkehr nötig.

Egal ob jetzt 1x GCD oder umgekehrt. Bei der Verbindung zwischen MCD und GCD kommt es auf die Bandbreite zwischen IF$ und L2 an. Denke nicht, dass dazu stacking notwendig ist.

basix

2022-06-07, 00:03:52

N21 hat 4TB/s auf dem L2$. Bei N31 kann man sicher mindestens das doppelte davon annehmen. Ohne "monolithischem" Design (Single GCD) oder Stacking (Single MCD) geht das mMn nicht auf sinnvolle Weise. HBM3 schafft 1TB/s pro Stack mit 1024 Datenleitungen. Das Interface ist hier ca. 10mm2 gross. Macht bei 8TB/s bereits 80mm2. Da man das auf beiden Seiten haben muss, käme man auf total 160mm2. Klar, Optimierungen kann man anbringen und dann sind es evtl. <100mm2, aber es ist immer noch viel. Ich denke, dass hier irgendwo die PHYs irgendwann einfach zu viel Platz verbrauchen. Deswegen tendiere ich im Falle von Single MCD auf Stacking. Allerdings auf 2.5D und MCD = Aktiver "Interposer". Prinzipiell das, was Intel mit Ponte Vecchio macht.

- Single GCD + Multi MCD = Ausgelagerter IF$ sowei Speicherinterface
- Single MCD + Multi GCD = Ausgelagerte Shader Engines (bis und mit L1$)

Beim Single GCD könnte man evtl. auf InFO_LSI, InFO_SoIS oder CoWoS-L gehen. Ist dann auch 2.5D Stacking.

amdfanuwe

2022-06-07, 01:00:41

- Single MCD + Multi GCD = Ausgelagerte Shader Engines (bis und mit L1$)

Ich denke, dass auch noch L2 auf dem GCD wäre.
Die Bandbreite zum GCD muss nur ausreichen um ein SE auszulasten, also nicht höher als bei einem N24 mit ~250GB/s.

OK, nur ein paar Ideen meinerseits. Hab zu wenig Ahnung von der Speicherverwaltung, Bandbreiten, Cachebedarf etc. bei GPUs.
Bin gespannt, was letztendlich rauskommt.

OgrEGT

2022-06-07, 06:19:51

Hätte noch andere Vorteile.
Wie stellt sich ein Speicherzugriff dar?
Bei 1x GCD und 6x MCD müsste bei jedem Zugriff alle MCDs angesprochen werden, sonst geht doch die Bandbreite verloren.
Bei 6x GCD 1x MCD steht dem SE in einem GCD der komplette Infinity Cache zur Verfügung ohne auf die anderen GCDs zugreifen zu müssen.
Also weniger Datenverkehr nötig.

Egal ob jetzt 1x GCD oder umgekehrt. Bei der Verbindung zwischen MCD und GCD kommt es auf die Bandbreite zwischen IF$ und L2 an. Denke nicht, dass dazu stacking notwendig ist.

VRAM funktioniert doch auch so dass über das gesamte SI immer alle VRAM Chips parallel arbeiten.

OgrEGT

2022-06-07, 06:21:26

Die 80CU von N21 ohne IF$, IO usw. sind ~300mm2 gross. Jetzt ist N31 2.4x breiter und kommt in N4/5 daher. Ich würde daher N31 auf ~400mm2 schätzen. Nochmals in etwa die selbe Fläche mit den 6x MCDs.

Was aber auch schon hier im Thread angetönt wurde: Eigentlich wäre es sinnvoller, 6x GCD und 1x MCD zu haben. Das MCD besteht zum Grossteil aus Cache und kommt in N6, da wird der Yield sehr gut sein. Und die teuren 5nm GCDs wären dann entsprechend kleiner, jeweils 1x Shader Engine und ~60mm2. Diese GCDs dann 3D oben aufs MCD drauf. N32 hätte entsprechend einfach ein kleineres MCD. Und man bekäme den Vorteil, dass man mit den vielen GCDs entsprechend Binning betreiben kann, was ~10% mehr Takt versprechen sollte (anhand eines Papers zu dem Thema).
Wo wäre da dann der Command Processor der alle SEs ansteuert?

basix

2022-06-07, 08:26:07

Ich denke, dass auch noch L2 auf dem GCD wäre.
Die Bandbreite zum GCD muss nur ausreichen um ein SE auszulasten, also nicht höher als bei einem N24 mit ~250GB/s.

Grundsätzlich nicht abwegig. Näher an den SE dran, höhere Packdichte, höhere Energieffizienz auf dem GCD. Aber was machen die anderen 5x GCDs, wenn sie auf die anderen L2$-Slices zugreifen wollen? Ausserdem ist Cache ja gerade etwas, das schlecht skaliert. Bin da unschlüssig, was am Schluss die bessere Lösung wäre.

Wo wäre da dann der Command Processor der alle SEs ansteuert?
Auf dem MCD. Zentrale Steuerung des ganzen.

HOT

2022-06-07, 08:33:00

Wo wäre da dann der Command Processor der alle SEs ansteuert?
auf dem MCD. Nur die Shaderengines sind je einzeln auf GCDs dann. Das Ding wäre dann im Prinip ein N6-gefertigter monolithischer Grafikchip, wie bisher auch, nur dass die Shaderengines je einzelne Chiplets bekommen.

OgrEGT

2022-06-07, 08:50:17

basix

2022-06-07, 09:00:26

In meiner Idee wären die GCDs ja aufs MCD gestacked. Da hättest du dein Chip-to-Chip Interface in Form des MCD selbst.

Und wenn man nur die Shader Engines bis und mit L1$ auslagert, ist das auch nicht sehr komplex. Denn ab dort sind die Caches pro SE privat. Ein Problem entsteht eben dann, wenn man beginnt shared Resources zu splitten. Deswegen würde ich den L2$ aufs MCD packen.

Rein vom Aufbau her ist dieses Konstrukt mMn nicht wirklich komplexer alls wenn man ein single GCD hätte. Hätte aber potentiell Vorteile bei Kosten, Yield und Performance. Ein Problem kann aber sein, dass die verfügbare Kühlfläche sinkt.

HOT

2022-06-07, 11:01:29

Das wird ja eh komplett gemolded sein. Die GCDs lägen in dem Fall ja direkt am Kühler. Die GCDs müssten dann auf ihren L2$ und den IF$ gestacked werden. Das Frontend müsste mittig vielleicht per Siliziumdummy gekühlt werden. Das wäre schon ein komplexes Package, andererseits schafft Intel das ja auch noch deutlich komplexer. Das wären ein 500mm²+ N6 MCD + 6 GCDs + ein Dummy in der Mitte überm Commandprozessor.

basix

2022-06-07, 11:07:43

Auch wenn man 800mm2+ verbaut, ist die effektive Kühlfäche dann "nur" ~400mm2. Im besten Fall ist das MCD ja nur leicht grösser als die GCD-Chiplets. Das ist schon deutlich weniger, als wenn ein monolithisches Die dann 600mm2+ gross wäre (wie bei Nvidias AD102).

Aber sonst wäre es einfach TSMC CoWoS alike Packaging ohne extra Interposer. Somit seit ~5 Jahren im HPC Bereich standard. Und Ponte Vecchio ist dort mit deutlich höherer Komplexität (viel mehr Chiplets) ähnlich aufgebaut.

Cyberfries

2022-06-07, 11:34:44

6 GCD + 1 MCD hat seinen Charme, doch die Variante 1 GCD + 6 MCD sollte man nicht zu früh zu den Akten legen.
Derzeit sind SI + Inf$ außen um die SEs gruppiert, eine Abspaltung derselben ist näher am bisherigen Aufbau, kein radikaler Bruch.
Die Wege mit WGPs neben Command Processor und SI am Chiprand bleiben kürzer. Vor allem ersteres bereitet mir Bauchschmerzen.
Und war da nicht noch der Leaker, der von "1 GCD and a shitload of cache dies" sprach?

basix

2022-06-07, 11:48:43

Klar, 1x GCD + 6x MCD sind deutlich näher am heutigen Design und Aufbau des Chips. Im Prinzip her naheliegend, dass es zuerst in diese Richtung gehen wird. Wir sagen nur, dass es nicht die einzige einigermassen sinnvolle Lösung wäre ;)

Und was die Leaker angeht:
Naja, die letzten Monate sind sie gefühlt 5x um 180° im Wind gedreht.

Edit:
Zu WGPs neben Command Processor:
Das ändert sich mit einem Base-MCD ja nicht. Siehe folgende kurz zusammegeschusterte Grafik

Gipsel

2022-06-07, 14:02:06

Grundsätzlich nicht abwegig. Näher an den SE dran, höhere Packdichte, höhere Energieffizienz auf dem GCD. Aber was machen die anderen 5x GCDs, wenn sie auf die anderen L2$-Slices zugreifen wollen? Ausserdem ist Cache ja gerade etwas, das schlecht skaliert. Bin da unschlüssig, was am Schluss die bessere Lösung wäre.Der L2 ist ja klein (4MB sowohl bei Navi10 als auch bei N21) und genau wie der Infinitycache (oder die Speichercontroller) an Speicheradressen aligned (ein Cache-Tile pro Channel [32bit bis GDDR5, 16bit ab GDDR6]). An der Speicheradresse selber kann man also nicht nur ablesen, zu welchem Speichercontroller das muß, sondern genauso in welchem Tile des L2 (oder auch L3/Infinity-Cache) das gecached wird. Im Prinzip benötigt es also genau des gleichen Routing-Netzwerks, daß es bisher auch schon zwischen den SEs und dem L2 gibt.
Die einzige Frage ist, auf welchem Die man das platziert.
Im Falle eines GCDs mit 6 MCDs wäre es im GCD (und L2 vermutlich auch, weil man dadurch die Anforderungen an die Bandbreite zum GCD etwas verringert [ist aber auch anders möglich, den L2 dann auch auf die MCDs aufzuteilen, weil die Zuordnung ja anhand der Speicheradresse geschieht]). Bei einem großen MCD mit 6 GCDs würde ich es stark im MCD vermuten.

basix

2022-06-07, 14:08:31

Die einzige Frage ist, auf welchem Die man das platziert.
Im Falle eines GCDs mit 6 MCDs wäre es im GCD (und L2 vermutlich auch, weil man dadurch die Anforderungen an die Bandbreite zum GCD etwas verringert [...]). Bei einem großen MCD mit 6 GCDs würde ich es stark im MCD vermuten.

Exakt so würde ich mir das auch vorstellen (siehe meine anderen Posts). Den L2$ auf verschiedene Die zu splitten ist mMn schwierig, da Unified und man sich damit zusätzlichen Chiplet-to-Chiplet Traffic generiert.

Edit:
Was noch fehlt ist ein separates I/O Die, welches so Sachen wie Display, PCIe und Video beinhaltet.

Gipsel

2022-06-07, 15:10:17

Exakt so würde ich mir das auch vorstellen (siehe meine anderen Posts). Den L2$ auf verschiedene Die zu splitten ist mMn schwierig, da Unified und man sich damit zusätzlichen Chiplet-to-Chiplet Traffic generiert.Der läßt sich im Prinzip genau so splitten wie der Infinity-Cache und die Memorycontroller (weil jeder Tile des L2 genau einem Memory-Channel zugeordnet ist, also nur diesen einen cached). Bei RDNA2 gibt es nur einen Faktor 2 zwischen der Breite der Interfaces zu L2 und L3 (Infinitycache), also jetzt keinen riesigen Unterschied.
Aber der L2 ist ja recht klein, so daß es nicht viel kostet, den im etwas teureren N5-Prozeß auf einen potentiell einzigen GCD zu packen. Aber den könnte man auch auf die MCDs splitten, falls man das will.
Im Falle eines einzigen MCDs mit mehreren GCDs würde der L2 aber sehr wahrscheinlich mit auf das MCD kommen (der dann auch das Routing-Netzwerk enthalten würde).
Was noch fehlt ist ein separates I/O Die, welches so Sachen wie Display, PCIe und Video beinhaltet.Bei einem einzigen MCD wäre es die Frage, ob das noch Kostenersparnis bringt oder ob man das gleich mit auf den N6-MCD packt. Gibt es mehrere kleine MCD-Chiplets, dann ist es vermutlich wahrscheinlicher.
Am sinnvollsten erscheint mir eigentlich ein großes MCD quasi als aktiver Interposer (mit externen Interfaces und Infinitycache) für die GCD-Chiplets, die jeweils eine Shaderengine enthalten. Die GCDs wären dann klein und im teuren Prozeß gefertigt (und z.B. zwischen N31 und N32 wiederverwendbar), während der N6-MCD groß und im billigeren Prozeß gefertigt sein würde (und variiert pro Modell). Das maximiert die Yields und minimiert die Kosten eher, als das andersrum zu machen. Aber wer weiß, wie weit man mit dem Packaging ist und wie es dann wirklich aussieht.

HOT

2022-06-07, 15:30:42

2 MCDs, eben N31 und N32, eines für 6 GCDs und eines für 4. Die GCDs sind immer eine Shaderengine. Man braucht eben nur ein kleines N5-Chiplet zu designen und im teuren Prozess produzieren, der Effekt Perf/W ist dann optimal. Die N6-Chips sind dann halt die großen Chips, aber eben im günstigen N6 gefertigt und eine größere und eine kleinere Variante, angefüllt mit Schaltungen, die sich N5 kaum verkleinern läßt, Cache, analoge Bestandteile, Controller usw.

Edit:
https://www.pcgameshardware.de/Radeon-RX-7000-Grafikkarte-278190/News/RX-7000-Netzteilhersteller-erste-Watt-Empfehlungen-1396568/
Lt. Seasonic braucht die neue Gen nicht mehr Saft als die Alte. Ich vermute daher 7900XT wird bei 350W rauskommen, wie die 6950XT.

basix

2022-06-07, 17:35:40

Der läßt sich im Prinzip genau so splitten wie der Infinity-Cache und die Memorycontroller (weil jeder Tile des L2 genau einem Memory-Channel zugeordnet ist, also nur diesen einen cached). Bei RDNA2 gibt es nur einen Faktor 2 zwischen der Breite der Interfaces zu L2 und L3 (Infinitycache), also jetzt keinen riesigen Unterschied.
Aber der L2 ist ja recht klein, so daß es nicht viel kostet, den im etwas teureren N5-Prozeß auf einen potentiell einzigen GCD zu packen. Aber den könnte man auch auf die MCDs splitten, falls man das will.
Im Falle eines einzigen MCDs mit mehreren GCDs würde der L2 aber sehr wahrscheinlich mit auf das MCD kommen (der dann auch das Routing-Netzwerk enthalten würde).
Was mir bei L2$ auf mehreren GCDs weh tut: Ich hätte nur auf den lokalen Slice vorteilhaften Zugriff. Will ich auf Daten von allen anderen Slices zugreifen müsste ich vom GCD auf MCD auf ein anderes GCD und dann wieder zurück. Also verdopple ich hier die Anzahl der GCD <-> MCD Datentransmissionen (4x Übergänge anstatt 2x). Schlecht für die Energieffizienz und schlecht, da ich eine höhere Bandbreite zwischen GCDs und MCD brauche (IO Density). Lasse ich den L2$ im Base-MCD, entstehen diese Probleme gar nicht erst. Der L2$ liegt ebenfalls mehr oder minder direkt unter den GCDs und zwei GCDs

Evtl. als Beispiel:
Nehmen wir bei N31 total 12 TByte/s an L2$ Bandbreite an. Liegen der L2$ auf dem MCD, kann ich pro GCD ~2 TByte/s annehmen und das Interface zwischen GCD und MCD so auslegen. Wenn der L2$ auf den GCDs liegt, muss irgendwo mehr Bandbreite vorhanden sein, da andere GCDs aus dem L2$-Slice lesen wollen. Irgendwie komisch. Wenn ich den L2$ natürlich so designen kann, dass ich zu 99% nur aus dem lokalen eigenen L2$-Cache Slice lesen muss, dann OK. Packen wir das aufs GCD.

Was mich hier aber genau auf den Gedanken bringt: Was, wenn man den L1$ ein gutes Stück grösser macht und den Infinity Cache zum L2$ umfunktioniert? Ginge das? Hängen nicht die TMUs direkt am L2$? Nimmt man pro FLOP einen ähnlich grossen L2$ an wie bei N21, müsste N31 ~12MByte L2$ habe. Packt man nun z.B. 1 MByte L1$ aufs GCD (anstatt heute 2x 128kB pro Shader Engine), ist der L2$ evtl. gar nicht mehr nötig.

Bei einem einzigen MCD wäre es die Frage, ob das noch Kostenersparnis bringt oder ob man das gleich mit auf den N6-MCD packt. Gibt es mehrere kleine MCD-Chiplets, dann ist es vermutlich wahrscheinlicher.
Klar, die knapp 40mm2 für das IO und PCIe Zeugs sind nicht dramatisch. Aber könnte über alle Chips im Portfolio reused werden. Oder auch bei RDNA4 weiterverwendet werden.

Am sinnvollsten erscheint mir eigentlich ein großes MCD quasi als aktiver Interposer (mit externen Interfaces und Infinitycache) für die GCD-Chiplets, die jeweils eine Shaderengine enthalten. Die GCDs wären dann klein und im teuren Prozeß gefertigt (und z.B. zwischen N31 und N32 wiederverwendbar), während der N6-MCD groß und im billigeren Prozeß gefertigt sein würde (und variiert pro Modell). Das maximiert die Yields und minimiert die Kosten eher, als das andersrum zu machen. Aber wer weiß, wie weit man mit dem Packaging ist und wie es dann wirklich aussieht.
Das ist ja das, was ich hier die letzten Posts die ganze Zeit beschrieben habe ;)

Hier das leicht überarbeitete Diagramm von vorhin, inkl. L2$ Slices auf dem Base-MCD. Für N32 entsprechend adaptiert. Pro GCD jeweils eine einzelne Shader Engine bis und mit L1$

amdfanuwe

2022-06-07, 18:04:50

Ich komm da wohl mit der Bedeutung des L2 nicht ganz klar.
Bei RDNA1 wurde der L1 Cache neu eingeführt.
79558
https://www.amd.com/system/files/documents/rdna-whitepaper.pdf
Mit RDNA 2 dann noch der IF$.
Dann gibt es noch die Instruction und Konstantencahes neben den L0$.

Wer weiß, was AMD bei RDNA3 mit den Caches anstellt.

basix

2022-06-07, 21:24:13

Der L1$ hat laut AMD ~10-20 Agents (RDNA1 Whitepaper), welche Speicherzugriffe anfragen können. Beim L2$ wir das entsprechend reduziert auf nur noch 1x Agent pro L1$ / Shader Array (2x pro Shader Engine). Laut AMD vereinfacht das das Routing der Datenbusse (steht so im Whitepaper auf Seite 18 unter "L2 Cache and Memory"). Bei RDNA2 zwischen L2$ und LLC ist die Frage, ob das noch irgendwie pro Slice gehandhabt wird. Aber anhand des N10 Routing-Floorplans von der ISSCC 2020 (https://fuse.wikichip.org/news/3331/radeon-rx-5700-navi-and-the-rdna-architecture/) ist jeder L2$-Slice direkt an jede Shader Engine angebunden.

In meinen Augen vereinfacht der L2$ das Routing der Datenbusse. Auch bei RDNA2 mit Infinity Cache. Wenn man die GCDs aber auf ein Base-MCD stacked, wirkt ein L2$ mMn irgendwie etwas überflüssig. Die Daten liegen im Cache direkt unter dem GCD, wieso Umwege an einen separat platzierten L2$ machen?

Und auch so müsste das Ziel sein, möglichst wenig ausserhalb des GCDs Daten suchen zu müssen. Deswegen die Idee: Vergrösserte L1-Caches (privat pro Shader Engine oder Array) auf dem GCD, Infinity Cache = L2$ = LLC

Beispiel:
- GCD = 2x 512kB L1$ --> 4x grösserer L1$ bei 1.2x grösseren Shader Engines (in FP32 Recheneinheiten gerechnet) bei GCD vs. N21
- MCD = 96x 4MByte Slices L2$
- Dafür Wegfall des heutigen L2-Caches mit Infinity Cache als L3$

Den einzigen Vorteil, den ich in einem L2$ + LLC sehe: Der L2$ muss mit Chiptakt laufen. Bei einer dritten Stufe kann man den Takt etwas zurücknehmen. Hmm, evtl. bleibt es bei L2$ + LLC.

unl34shed

2022-06-08, 00:57:04

basix

2022-06-08, 09:05:50

Richtig, das ist eine Schwierigkeit. Bezüglich aktivem Interposer und 6x Chiplets on Top: Fällt euch bei folgendem Bild etwas auf? :D
https://www.eetimes.com/wp-content/uploads/2020/02/zen-4.png?resize=640%2C328
https://www.eetimes.com/isscc-2020-chiplets-5g-and-automotive-processors/2/

Ist von einer Präsentation auf der ISSCC 2020.
It was designed by CEA-Leti and fabricated by ST Micro.

Hier mehr dazu:
https://fuse.wikichip.org/news/3364/cea-leti-demos-a-6-chiplet-96-core-3d-stacked-mips-processor/

Thunder99

2022-06-08, 09:44:29

Seasonic gibt mit Platzhalter der neuen Karten schon Empfehlungen für die Netzteil Stärke aus. Könnte sich damit bestätigen, dass die Karten mehr verbrauchen als vorherige Generation

mboeller

2022-06-08, 10:27:40

Seasonic gibt mit Platzhalter der neuen Karten schon Empfehlungen für die Netzteil Stärke aus. Könnte sich damit bestätigen, dass die Karten mehr verbrauchen als vorherige Generation

eher das Gegenteil. Siehe meinen Beitrag vor ca. 2 Seiten.

davidzo

2022-06-08, 10:46:18

Ich sehe bei dem stacking von GCDs auf einem MCD "Interposer" das Problem die ganze Energie auf die zweite Ebene zu bekommen. Im Prinzip muss der ganze IF$ komplett mit fetten Power vias Durchzogen werden.

Genau, deswegen halte ich es auch nach wie vor für wahrscheinlicher dass man EFB oder eine Art 2.5d benutzt wo die DIEs etwas mehr nebeneinander als aufeinander liegen. Hat nicht nur für die Kühlung große Vorteile. Power Vias will man nicht durch den N6 DIE schicken, das kostet zu viel Fläche. die will man direkt mit copper pillars durchconnecten.

Es ist einfach nicht sinnvoll die Cache- und Power Vias gleichmäßig über den gesamten GCD gehen zu lassen. Das schränkt die Designmöglichkeiten zu stark ein, macht das Design in bestimmten Bereichen sehr kompliziert und geht zu lasten der Logic Density und der Latenzen.

Man wird es stattdessen machen wie beim 5800x3d oder beim Apple M1Ultra: Es gibt bestimmte Bereiche in denen Vias liegen. - Im großen Rest des Chips sind keine Vias, bzw. in getrennten Bereichen power Pads und Signal pads. Sowas muss man für die signalqualität sowieso abgrenzen und sortieren. Das ist vom Layout viel flexibler, außerdem hat AMD bereits bestätigt dass die Via density mehr als ausreichend ist ("2 times the density of Apples M1 Ultra interconnect"). Wozu das dann noch über den gesamten GCD verteilen?
Nehmt doch zum Bespiel den 5800x3d, der auf 41mm2 über 500gb/s (bi-direktional also 1tb/s) an Via Bandbreite unterbringt und selbst diese sind nur in mehreren schmalen reihen zwischen den cache-zellen untergebracht. Ein L3 Interface mit mehreren TB/s dürfte also selbst bei aktueller Density nur einen kleinen Teil des GCD bedecken.

basix

2022-06-08, 12:26:45

Du sprichst von EFB und 2.5D und gleichzeitig bringst du Interconnect Densities und Bandbreiten von 3D_SoIC (V-Cache). Passt nicht zusammen ;)

Hinsichtlich EFB und 2.5D sind HBM-Interfaces wohl deutlich naheliegender. Da schafft man bei HBM3 ~1TB/s pro Stack (~10mm2 Interfacefläche pro Seite).

Meiner Meinung nach gibt es drei denkbare Varianten:

1x GCD + 6x MCD: Interconnect via EFB oder InFO_LSI mit einem HBM-alike PHY Interface. Vorteile: Simpelste Variante, grosse Kühlfläche. Nachteile: Grosses GCD, +60mm2 PHY auf GCD und nochmals je +10mm2 auf den MCDs, total 120mm2!
1x MCD + 6x GCD: MCD als aktiver Interposer, GCDs oben drauf gestacked. Vorteile: Geringer Overhead für Interconnect PHYs, kleine GCDs. Nachteile: Power-Delivery der GCDs muss durch das MCD. Ausser die GCDs können das MCD überlappen.
1x Base Tile (aktiv) + Nx MCD + 6x GCD: Base Tile als aktiver Interposer mit PHYs und Spannungsversorgung, oben drauf gestacked separate MCD Stacks für den Infinity Cache sowie GCDs. Siehe Intel Foveros bei Ponte Vecchio und RAMBO Cache (Note: Base Tile ist dort in Intel 7 gefertigt, RAMBO Cache liegt neben den Compute Chiplets). Vorteile: Base Tile kann simpler gerouted werden, da kein Infinity Cache drauf. Bessere Möglichkeiten hinsichtlich Power Delivery. Nachteil: Komplexe Lösung.

Meine Einschätzung:
Die Big-GCD Variante ist zwar relativ simpel, kommt aber mit viel Interconnect Overhead daher. Die Small-GCD Variante hätte hier schon einen Vorteil (neben anderen wie Yield und GCD Binning). Ponte Vecchio Style halte ich für zu aufwendig.

Ponte Vecchio:
https://www.hardwareluxx.de/index.php/news/hardware/grafikkarten/58176-isscc-2022-wie-intel-fuer-ponte-vecchio-63-tiles-in-ein-package-bringt.html

PV Base Tile:
Der Base-Tile kommt auf eine Fläche von 646 mm² und stellt die Infrastruktur für PvC bereit. Dies beinhaltet auch die Speichercontroller, die Fully Integrated Voltage Regulators (FIVR), das dazugehörige Power Management und das 16 Lanes umfassende PCIe 5.0 bzw. CXL Host-Interface. Der Base-Tile besteht aus 17 Layern und wird in Intel 7 gefertigt.
Ein weiterer Bestandteil des Base-Tile sind jeweils 144 MB an L3-Cache sowie ein Memory Fabric (MF) mit einer komplexen geometrischen Topologie und einer Bandbreite von 4.096 Bytes pro Taktzyklus.
--> Der Base Tile von Ponte Vecchio bringt 4x die Bandbreite/clk wie er Infinity Cache von N21, welcher 1024 Bytes/clk bringt. Ist also absolut denkbar.

Der PV Base Tile ist also eigentlich genau das, was ich mir unter einem Big-Single-MCD für RDNA3 vorstelle. Speichercontroller + PHY, PCIe, Power Management, grosser L3$, Memory Fabric, Command Processor...

amdfanuwe

2022-06-08, 13:10:15

Meiner Meinung nach gibt es drei denkbare Varianten:

1x GCD + 6x MCD: Interconnect via EFB oder InFO_LSI mit einem HBM-alike PHY Interface. Vorteile: Simpelste Variante, grosse Kühlfläche. Nachteile: Grosses GCD, +60mm2 PHY auf GCD und nochmals je +10mm2 auf den MCDs, total 120mm2!
1x MCD + 6x GCD: MCD als aktiver Interposer, GCDs oben drauf gestacked. Vorteile: Geringer Overhead für Interconnect PHYs, kleine GCDs. Nachteile: Power-Delivery der GCDs muss durch das MCD. Ausser die GCDs können das MCD überlappen.
1x GCD + 6x MCD sollte doch MCM wie beim EPYC reichen, also Verbindung auf dem Träger.
1x MCD + 6x GCD würde ich eher auf EFIB tippen.

Das ganze soll ja auch nicht zu teuer werden, vor allem nicht für N32.

Gipsel

2022-06-08, 13:18:57

1x GCD + 6x MCD sollte doch MCM wie beim EPYC reichen, also Verbindung auf dem Träger.Die benötigten Bandbreiten sind wohl doch etwas größer.

basix

2022-06-08, 13:49:19

Prinizipiell wäre UCIe im Standardpackage denkbar. Aber ich bin nicht sicher, ob man hier die nötige Bandwidth Density heute schon erreichen würde:
https://www.anandtech.com/show/17288/universal-chiplet-interconnect-express-ucie-announced-setting-standards-for-the-chiplet-ecosystem

Ich bin mir bei den [B/mm2] Angaben in den Slides nicht ganz schlüssig, ob das nun Bit oder Bytes sind. Vermutlich aber Bytes.

Sind es Bytes: Dann schafft man 1TByte/s mit 8-50mm2 bei 110um Pitch. Das wäre also nur in der Nähe des Maximalausbaus mit 32GT/s pro Lane einigermassen sinnvoll. Unrealistisch. Vielleicht geht man auf 3TB/s für den IF$ zurück, dann macht das 500GB/s pro MCD. Dann sind es aber immer noch 16GT/s pro Lane. Nicht unmöglich aber bereits ziemlich hoch.

Mit dem Advanced Package (EFB, InFO_LSI, EMIB und Co.) landet man bei ~0.8-6mm2 für 1 TByte/s (45um Pitch). Schon deutlich realistischer und man verschwendet nicht wertvolle Fläche fürs Interface. Die oben genannten 10mm2 für ein entsprechendes HBM-Interface kann ich aber anscheinend auf die hier gezeigten 6mm2 reduzieren (bei 4GT/s). So viel PHY Overhead wie ich dachte hat man also nicht. Damit scheint die Single-GCD Variante wieder an Attraktivität gewonnen zu haben.

mboeller

2022-06-08, 13:56:34

1x GCD + 6x MCD:
1x MCD + 6x GCD:
1x Base Tile (aktiv) + Nx MCD + 6x GCD:

du versuchst immer noch krampfhaft die 7 Die für N31 "zu erreichen" ... inzwischen hat sich doch jede alte RDNA3 Info als falsch oder doch serh fragwürdig rausgestellt.

Warum nicht auch das mit den 7 Die?

basix

2022-06-08, 13:58:01

Ich verstehe gerade deine Frage nicht

mboeller

2022-06-08, 14:00:55

Ich verstehe gerade deine Frage nicht

3 MCD sind zB. doch wesentlich sinnvoller als 6 MCD.

basix

2022-06-08, 14:13:57

Kann man so machen, natürlich. Je nach Anordnung der MCDs rund um das GCD, könnten 6x Stück aber besser passen (seitliche Anordnung). Bei 3x MCDs hast du nur 1x Option: 2x MCDs lateral und 1x stirnseitig. Prinzipiell so, wie die letzten paar Nvidia Gx102 vom Speicherinterface her ungefähr angeordnet sind.

Cyberfries

2022-06-08, 14:29:07

1x MCD + 6x GCD: MCD als aktiver Interposer, GCDs oben drauf gestacked. ... GCDs können das MCD überlappen.

Die Variante funktioniert auch mit 1xGCD + 6xMCD.
Halte ich derzeit für die wahrscheinlichste: den Monolithen zerreißen und die Randstücke wieder teilweise unters GCD schieben.
Optimal für Wärmeabfuhr dank großer Oberfläche, Datenübertragung dank direkter Nachbarschaft und Energiezufuhr dank wenigen TSVs.

inzwischen hat sich doch jede alte RDNA3 Info als falsch oder doch serh fragwürdig rausgestellt.
Warum nicht auch das mit den 7 Die?

1+6 wurde mWn mit den neuen ALU-Zahlen nochmals bestätigt. Ergibt so auch mehr Sinn als zuvor.
384bit SI und 384mb Inf$ für N31 und 256bit/256mb für N32 passt perfekt zu 6xMCD für N31 und 4xMCD für N32.

basix

2022-06-08, 14:31:13

Die Variante funktioniert auch mit 1xGCD + 6xMCD.
Halte ich derzeit für die wahrscheinlichste: den Monolithen zerreißen und die Randstücke wieder teilweise unters GCD schieben.
Optimal für Wärmeabfuhr dank großer Oberfläche, Datenübertragung dank direkter Nachbarschaft und Energiezufuhr dank wenigen TSVs.

Auch eine Variante. Braucht dann noch Thermal Dummy Silicon als Füllmaterial auf den MCDs obendrauf.

Kann man das dann immer noch als EFB betiteln? Zumindest benötigt man die selben Copper Pillars wie bei CDNA2 und wäre somit verwandt. Si-Bridges sind die MCDs dann aber nicht.

amdfanuwe

2022-06-08, 14:32:34

Die benötigten Bandbreiten sind wohl doch etwas größer.
1MCD mit 64Bit GDDR6 über das Board, da sollen für den kurzen Abstand die doppelte Bandbreite durch IF$ über das Package nicht machbar sein?

basix

2022-06-08, 14:39:43

1MCD mit 64Bit GDDR6 über das Board, da sollen für den kurzen Abstand die doppelte Bandbreite durch IF$ über das Package nicht machbar sein?

Doppelt ist vermutlich etwas zu wenig ;) Vermutlich musst du eher etwas im Bereich 4-8x annehmen. 4x ist in etwa der Infinity Cache BW-Multiplikator @ 4K und bei N21 konnte der IF$ peak 4x die Offchip Bandbreite liefern (bei ~2x BW-Multiplikator @ 4K)

Und das Problem ist auch nicht die Bandbreite sondern die Interconnect Density. 384bit G6 @ 24 GT/s kommt auf 1.15TB/s. Hier reden wir von ~4-6TB/s. Auf viel kleinerem Raum. Wie vorhin gezeigt müsste man das Interface sehr hoch takten, damit das mit nur wenig "verschwendeter" Chipfläche geht. Da ist der von Cybrerfries genannte Ansatz mit MCDs leicht unter das GCD zu schieben deutlich einfacher und auch nicht extrem viel mehr Aufwand (Copper Pillars fürs GCD, Thermal Dummy Silicon auf die MCDs, Rest = Standard Flip-Chip Packaging). Evtl. muss man die MCDs noch dünn schleifen, das wäre noch sinnvoll.

amdfanuwe

2022-06-08, 15:19:44

Doppelt ist vermutlich etwas zu wenig ;)
Ja, hatte ich was falsches im Kopf.
Laut AMD sind es ja 3,25 gegenüber GDDR6.
https://www.amd.com/de/technologies/rdna-2

Nightspider

2022-06-08, 16:55:57

basix

2022-06-08, 18:30:41

Ja, hatte ich was falsches im Kopf.
Laut AMD sind es ja 3,25 gegenüber GDDR6.
https://www.amd.com/de/technologies/rdna-2

Dort werden noch die 512GB/s des GDDR6 Interfaces dazugezählt. Wann das so stimmt, gibt es da anscheinend einen "Read-Through" Modus, bei welchem es vom VRAM direkt in den L2$ gehen kann. Die 1.66TB/s sind dann das, was zwischen L2 <-> L3 transferiert werden soll.

Sind HBM Stacks selbst eigentlich teuer?
Soweit ich weiss: Ja ;)

Du musst das mit GDDR6 vergleichen: Single Chip in ein Plastic Molding. Dem gegenüber steht HBM mit TSVs, Die Stacking und zusäztlichem Interface Die (Bottom Base Die).

Aber ja, wenn man beim Packaging eh schon in die Richtung geht, wird HBM im Vergleich nicht mehr so teuer sein, da der zusätzliche Cost Adder geringer wird.

Cyberfries

2022-06-09, 09:49:51

HBM3 mit einem einzelnen 24GB Stapel, angebunden mit 819 GB/s ? Machbar wäre es, sieht bloß albern aus.
Allerdings hat AMD sich an HBM schonmal eine blutige Nase geholt, deshalb eher unrealistisch.

@greymon55
Navi3 will be in preproduction this month and is expected to be handed over to AIB after August for a final release in October/November.

https://nitter.net/greymon55/status/1534784133712461824#m

@Kepler_L2
This will be a fun comparison. Same TDP as Navi33, one full node ahead

https://nitter.net/Kepler_L2/status/1533386868720644097#m

@Kepler_L2
N33 is sub 400mm² and also on N6 which is almost half the price of N4.

https://nitter.net/Kepler_L2/status/1533590802563317761#m

Die neuesten Gerüchte zu N33 gehen von einer Veröffentlichung im Oktober/November aus.
N33 soll unter 400mm² liegen und mit der gleichen TDP wie die RTX4060 aufwarten.

edit: Unter 400mm² sind deutlich unter den bisher vermuteten bis zu 450mm².
Das entspricht ziemlich genau dem, was RDNA2 mit gleicher Anzahl an SI/Inf$/ALUs benötigen würde, was bedeutet dass RDNA3-WGPs nicht/kaum wachsen.

basix

2022-06-09, 11:36:42

Durch die Vergrösserung der WGPs erhält man fast automatisch ein verbessertes Verhältnis FP32 vs. Die Area oder Transistor. Siehe Ampere, siehe Hopper. Grund: Nicht alles rund um die FP32 Cores wird 1:1 mitskaliert. Ist jetzt nur die Frage, ob AMD die IPC pro FP32-Unit halten kann oder nicht.

Linmoum

2022-06-09, 22:36:49

Chiplets damit auch bestätigt offiziell, ist nur die Frage in welcher Form. ;) Dazu noch laut Wang "Even faster clockspeeds"
https://i.gyazo.com/93f7374df0f2107c3e007c2ab22151ea.jpg

Doch alles N5? Oder klammern sie die MCDs brav davon aus? :D
https://i.gyazo.com/08d6f0bb581478ebb5e5cb2b147f7026.jpg

prinz_valium_2

2022-06-09, 22:42:59

Glaube RNDA3 könnte wirklich mal wieder die komplett bessere Generation sein im Gegensatz zu Ada.

jedenfalls wenn die nVidia Gerüchte stimmen und diese metrics von AMD

Linmoum

2022-06-09, 22:51:16

amdfanuwe

2022-06-10, 01:42:55

Doch alles N5? Oder klammern sie die MCDs brav davon aus? :D
Bei Ryzen wird der I/O auch nicht angegeben.

Linmoum

2022-06-10, 01:57:06

Wobei dann aber immer noch N33 übrig bliebe. Ist ja schließlich auch RDNA3 und soll N6 sein.

HOT

2022-06-10, 06:34:47

Das war wohl auch ne Fehlinfo ;). Ergibt eigentlich auch keinen Sinn, da N33 ja die Top-Mobil-GPU werden wird. Die muss ja N5 sein.

Aber klar ist, dass es sich hier wohl doch eher um 1 GCD mit einigen MCDs handeln dürfte. Die Struktur ist weiterhin unklar, das 3D-Packaging scheidet aber leider aus.

Linmoum

2022-06-10, 14:33:42

Ich würde übrigens noch mal auf den LinkedIn-Eintrag eines AMD-Mitarbeiters von damals zurückkommen. Auf dessen Grundlage hatte man ja viel spekuliert und auch die genutzten Prozesse gemeint zu wissen.

Dort waren N31/N32 mit N5+N6 und N33 mit N6 angegeben. AMD hat für RDNA3 lange nur "Advanced Node" auf den Roadmaps angegeben. Jetzt ist es eindeutig und ausschließlich "5nm" geworden.

Warum ich noch denke, dass die Einträge von dem Mitarbeiter falsch waren: Mi300 war dort auch mit N6 angegeben. Wie wir seit gestern wissen, kommt CDNA3 aka Mi300 aber in N5. Die Angabe zum Prozess war hier also offensichtlich falsch.

Vielleicht also auch dasselbe bei RDNA3 und es ist tatsächlich alles nur in N5? Sowohl die MCDs, als auch N33. Wobei man die MCDs von der Angabe auf der Roadmap noch am ehesten ausklammern kann, ist ja schließlich per se nicht "RDNA3".

Ravenhearth

2022-06-10, 16:32:45

Es gibt auf jeden Fall zwei klare Keypoints für die Zukunft bei AMD, die Wang wiederholt betont hat: "Advanced packaging technologies" und "Perf/Watt execution".

Ich sehe daher auch weiterhin nicht, dass AMD auf >400W gehen wird. Auch, wenn Perf/Watt erstmal natürlich unabhängig vom absoluten Verbrauch ist.
Letzteres ist der Punkt. Eine hohe Effizienz und Leistungsaufnahme schließen sich nicht aus. Dann steigt die Performance eben entsprechend stärker. Die 2,5x erreicht man mit >50% bessere Perf/W auch nur durch einen stark steigenden Verbrauch.

vinacis_vivids

2022-06-10, 20:42:43

Interessant wieder, dass die Compute Units umgebaut werden.
Angesichts der relativ geringen Kritik an DLSS (Reduktion der BQ durch int8/fp8, smearing bei Bewegungsvektoren) wird AMD sich überlegen die fp16 Execution zugunsten FSR 2.0 (mixed precision) zu vervierfachen. Eine Verdopplung von 2:1 auf 4:1 Verhältnis fp16:fp32 halte ich für realistisch wobei der Umbau ich eher für RDNA4 realistisch halte. Würde mich überraschen wenn es bei RDNA3 schon kommt.

Der Umbau der CUs einhergehend und viel viel wahrscheinlicher ist die Verdopplung/Vervierfachung der "Ray Accerlerator" durch die Erhöhung der int8 und int4 Execution innerhalb der CUs sowie die direkte Anbindung an den IF$. Damit kann AMD auch für NV-RTX optimierte Spiele (ähnlich wie damals Tesselation) stark aufholen.

RDNA2 - RDNA3
fp32:fp16 - 1:2 -> 1:4
fp32:int8 - 1:4 -> 1:8
fp32:int4 - 1:8 -> 1:16

Die Anbindung der CU`s direkt am IF$ erlaubt außerdem den Cut am SI und somit eine deutlich bessere Perf/Watt Ausbeute.

"Next-Gen IF$" wäre einer Verdopplung richtig geil für N33 (der Geheime Cash-Cow), aber zu kostspielig. Die zusätzliche Anbindung der CUs am IF$ erhöht den Bedarf an IF$.
3584/4096 SP (sehr sehr realistisch)
2,8-3,2 GPU-CLK (sehr sehr realistisch)
192/192MB IF$ (256MB IF$ super optimistisch/unrealistisch)
128/128bit SI (sehr sehr realstisch)
8GB/16GB VRAM (realistisch)

Bei der steigenden Komplexität der CUs wird sicherlich auch die Salavage-Variante anfänglich höher sein.

Dass AMD sich beim MCM die höchste Geheimhaltung ausübt ist ebenfalls verständlich. An der Spitze will sich niemand in die Karten schauen lassen.

Langlay

2022-06-10, 21:03:17

Interessant wieder, dass die Compute Units umgebaut werden.
Angesichts der relativ geringen Kritik an DLSS (Reduktion der BQ durch int8/fp8, smearing bei Bewegungsvektoren) wird AMD sich überlegen die fp16 Execution zugunsten FSR 2.0 (mixed precision) zu vervierfachen. Eine Verdopplung von 2:1 auf 4:1 Verhältnis fp16:fp32 halte ich für realistisch wobei der Umbau ich eher für RDNA4 realistisch halte. Würde mich überraschen wenn es bei RDNA3 schon kommt.

RDNA2 - RDNA3
fp32:fp16 - 1:2 -> 1:4
fp32:int8 - 1:4 -> 1:8
fp32:int4 - 1:8 -> 1:16

Das ist Bullshit, auf den man nur kommen kann wenn man von Tuten und Blasen keinen blassen Schimmer hat. Ich kann eine FP32 Einheit so teilen das ich 2x FP16 ausführen kann, ich kann die Einheit aber nicht so teilen das ich 4xFP16 ausführen kann, dafür müsste die FP Einheit mindestens 64Bit breit sein und damit auch 2xFP32 können.

Das Verhältnis FP32 ->FP16 ist halt ich kriege maximal 2FP16 in einem FP32 abgelegt für mehr ist einfach kein Platz da, wenn ich 4xFP16 ablegen könnte könnte ich auch 2x FP32 ablegen ergo wäre das Verhältnis wieder 1:2. Bei den Int Sachen ist das das gleiche, 32:16 = 2 , 32:8=4 , 32/4=8.

Gott1337

2022-06-10, 21:23:16

robbitop

2022-06-10, 21:42:14

WedgeAntilles

2022-06-10, 21:42:50

Die 2,5x erreicht man mit >50% bessere Perf/W auch nur durch einen stark steigenden Verbrauch.

Falls die Performance um +150% steigen soll und man ca. 60% mehr Perf/W hat, braucht man ca. 56% mehr Verbrauch um auf die +150% Performance zu kommen.
(unterstellt, dass 10% mehr Verbrauch 10% Mehrleistung ergeben, es also linear ist - was eine äußerst optimistische (eher: unrealistische) Unterstellung ist)

Bei einer 6900XT mit 300W wären das für eine 7900XT also 468W. (ziemlich exakt das, was für eine 4090 gemunkelt wird.)

Bei +60% verbesserter Perf/W erscheint mir ein Leistungsplus von +150% also eher unrealistisch.
Entweder ist das Leistungsplus merklich kleiner oder die Perf/Watt Verbesserung ist deutlich größer.

Oder habe ich einen Denkfehler drin?

Der_Korken

2022-06-10, 22:20:57

Bei +60% verbesserter Perf/W erscheint mir ein Leistungsplus von +150% also eher unrealistisch.
Entweder ist das Leistungsplus merklich kleiner oder die Perf/Watt Verbesserung ist deutlich größer.

Oder habe ich einen Denkfehler drin?

Nein, du hast keinen Denkfehler drin. Die völlig überzogenen Performance-Prognosen gab es auch schon bei RDNA2, wo einige Leute sich was von 100CUs zusammenphantasiert haben, die linear zu den 40CUs skalieren sollten, dann noch 20% Takt und 15% IPC oben drauf für 3x Performance. Dass das mit den damals bereits bekannten +50% Perf/W niemals hinhauen konnte, hat diese Optimisten nicht gestört. Bei RDNA3 scheint es ähnlich weiterzugehen, weil sich die FP-Units pro WGP verdoppelt haben und deswegen einige denken, das geht 1:1 in Leistung, während gleichzeitig bei Ampere die Nase gerümpft wird, dass die Perf/Flop gegenüber Turing geschrumpft ist, weil nur die FP-Leistung aber nicht das drumrum vergrößert wurde.

Wenn AMD von 1.5x Perf/W spricht, dann sind es optimistisch vielleicht +60%. Bei 350W Limit sind es entsprechend 1,87x Leistung und bei 400W 2,12x Leistung. Ich würde eher den Call machen, dass die Rasterizing-Leistung sich vielleicht knapp verdoppelt, wenn überhaupt, aber dafür die RT-Leistung deutlich stärker steigt, so Richtung 2,5x und in Extremfällen auch 3x, nämlich in den Spielen wo RDNA2 aktuell stark zurückliegt.

Nightspider

2022-06-10, 22:51:43

Nach den Folien kann man jetzt eigentlich ziemlich sicher davon ausgehen, dass das GCD auf die "Next Gen Infinity Cache" Chips gestacked wird, wie auf dem CDNA3 Schaubild richtig?

https://pics.computerbase.de/1/0/3/8/0/5-98fecb1d38135f6e/9-1080.37907b0e.jpg

Linmoum

2022-06-10, 23:02:31

CDNA ist CDNA und RDNA ist RDNA. Es hat sicher seinen Grund, warum sie bei dem einen das Stacking hervorheben und bei dem anderen nicht. ;)

Da 3D Stacking nächstes Jahr mit CDNA3 debütiert, könnte das aber dann 2024 mit RDNA4 soweit sein.

vinacis_vivids

2022-06-10, 23:26:11

Wie oft soll dieser Schwachsinn noch verbreitet werden?

Dass du NV Fanboi bist ändert nichts am Smearing von DLSS. Bewegungsvektoren mit int8/fp8 zu berechnen ist einfach BS von Nvidia.

vinacis_vivids

2022-06-10, 23:38:12

Das ist Bullshit, auf den man nur kommen kann wenn man von Tuten und Blasen keinen blassen Schimmer hat. Ich kann eine FP32 Einheit so teilen das ich 2x FP16 ausführen kann, ich kann die Einheit aber nicht so teilen das ich 4xFP16 ausführen kann, dafür müsste die FP Einheit mindestens 64Bit breit sein und damit auch 2xFP32 können.

Das Verhältnis FP32 ->FP16 ist halt ich kriege maximal 2FP16 in einem FP32 abgelegt für mehr ist einfach kein Platz da, wenn ich 4xFP16 ablegen könnte könnte ich auch 2x FP32 ablegen ergo wäre das Verhältnis wieder 1:2. Bei den Int Sachen ist das das gleiche, 32:16 = 2 , 32:8=4 , 32/4=8.

Du laberst ein BS. Natürlich geht das. Das Verhältnis von fp32 zu fp16 ist bei MI250 schon längst über deiner Vorstellung hinaus.

https://abload.de/img/mi250fp16ldktt.png

Matrix fp32 zu Matrix fp16 beträgt bei MI200 95,7 : 383 = 4:1

Bitte vorher sich informieren, denken und dann schreiben.

Jetzt kann natürlich der Einwand kommen: Oh das wusste ich nicht, weil ich so viel Wissen habe :-D

AMD wird glücklicherweise ganz sicher nicht die Vektorberechnung (Bewegungsvektoren) verhunzen wie NV durch int8/fp8, sondern bei soliden Vektor fp16 bleiben. Und da ist der Umbau auf 4:1 sicherlich sehr sinnvoll.

Da im Gaming Bereich (mixed precision fp32/fp16) sich Spieler mit verringerter BQ relativ zufrieden geben zugunsten der fps (FSR 2.0, DLSS 2.X), ist davon auszugehen, dass fp16 Bedarf weiter steigen wird.

Nazar

2022-06-11, 00:41:01

Falls die Performance um +150% steigen soll und man ca. 60% mehr Perf/W hat, braucht man ca. 56% mehr Verbrauch um auf die +150% Performance zu kommen.
(unterstellt, dass 10% mehr Verbrauch 10% Mehrleistung ergeben, es also linear ist - was eine äußerst optimistische (eher: unrealistische) Unterstellung ist)

Bei einer 6900XT mit 300W wären das für eine 7900XT also 468W. (ziemlich exakt das, was für eine 4090 gemunkelt wird.)

Bei +60% verbesserter Perf/W erscheint mir ein Leistungsplus von +150% also eher unrealistisch.
Entweder ist das Leistungsplus merklich kleiner oder die Perf/Watt Verbesserung ist deutlich größer.

Oder habe ich einen Denkfehler drin?

Wenn es eine 6900XT wäre, dann hättest du recht, aber der neue Chip ist kein RDNA2.

Wenn ich mich richtig erinnere, war das bei der Ryzen 3 Vorstellung auch, dass sich das Performance-Plus, bei Leistung zu Watt, auch nur auf den Fertigungsprozess bezog und rein gar nichts mit den neuen Designänderungen zu tun hatte. :wink:

Langlay

2022-06-11, 01:51:09

Du laberst ein BS. Natürlich geht das. Das Verhältnis von fp32 zu fp16 ist bei MI250 schon längst über deiner Vorstellung hinaus.

Äh nein. Wieso MI250 nur 1:1 FP64 vs. FP32 kann weiss ich nicht jetzt, aber aus 1xFP64 4xFP16 zu machen ist jetzt keine Kunst.

Traditionell sind GPUs auf maximale Rechenleistung bei FP32, der sogenannten einfachen Genauigkeit, ausgelegt. MI100 verarbeitete Zahlen mit FP64, also 64 bit pro Zahl und deswegen doppelte Genauigkeit, nur mit halber Geschwindigkeit, um Register und damit Waferfläche zu sparen. Das Verhältnis von 1:2 zwischen FP32 und FP64 war trotzdem ein klares Zeichen für eine Server-GPU, arbeitete die verhältnismäßig aufgebohrte Consumer-GPU Radeon VII doch mit 1:4 und der Vorgänger Vega 64 mit 1:16.

Bei der MI200 ist das anders. Von Vorneherein wurden die ALUs für FP64 ausgelegt und verarbeiten FP64-Berechnungen im Verhältnis 1:1. Dafür wurden die Register so verbreitert, dass jede ALU direkt eine FP64-Zahl verarbeiten kann. Bei 128 ALUs pro CU macht das 128 FLOPS pro CU pro Clock, doppelt so viel wie bei MI100 und MI50.

https://www.computerbase.de/2021-11/amd-cdna-2-whitepaper-mehr-details-zum-compute-monster-instinct-mi200/

/edit

Rapid Packed Math kann FP32 weiter beschleunigen
Einen zusätzlichen Vorteil liefern die großen Register: Mittels Rapid Packed Math (RPM) können, bei angepasstem Code, zwei FP32-Berechnungen gleichzeitig pro ALU durchgeführt werden. Beispiele für die erforderliche Code-Anpassung gibt AMD im Whitepaper (PDF). Dadurch liegt die maximale FP32-Leistung nochmals doppelt so hoch wie von AMD auf den Folien angegeben. In den passenden Anwendungen liegt AMD damit teilweise extrem weit vor der Konkurrenz.

Weiter unten im Artikel dann wären wir auch bei FP32 zu FP16 wieder bei 1 zu 2.

robbitop

2022-06-11, 07:53:52

Dass du NV Fanboi bist ändert nichts am Smearing von DLSS. Bewegungsvektoren mit int8/fp8 zu berechnen ist einfach BS von Nvidia.

Du hast bis heute keine Quelle angeben. Und es ist inhaltlich Unsinn.

DrFreaK666

2022-06-11, 07:57:22

DLSS hat hier nichts verloren

BiG OnE

2022-06-11, 09:15:32

Aber doch nicht für v_v, es ist doch sein Job immer und überall gegen Nvidia zu stänkern!

iamthebear

2022-06-11, 13:45:32

Mal eine blöde Frage am Rande:

Sind HBM Stacks selbst eigentlich teuer?

Weil wenn man eh schon Stacking betreibt und den Interposer weglässt, vielleicht gibts da irgendwie auch Möglichkeiten (in Zukunft) gleich GDDR wegzulassen und HBM neben den Cache Chips zu stacken.
Zumindest ist die Energiebilanz ja noch besser, selbst von altem HBM ggü GDDR6.

Würde dann auch das Platinenlayout und dessen Größe deutlich vereinfachen,

Mit 3D Stacking bräuchte man überhaupt kein Interface mehr weder GDDRx noch HBM. Da stacked man den DRAM einfach auf den Die und b8ndet diesen ähnlich an wie man es auch mit SRAM machen würde.
Das Ganze nennt sich eDRAM und ist nicht unbedingt neu. Selbst die PS2 vor 22 Jahren hat das schon eingesetzt. Intel hat mit Broadwell einer Generation 128MB eDRAM als L4 Cache verpasst. Der Grund warum es sich nie durchgesetzt hat waren jedoch immer die Kosten.

Wenn das mit dem 3D Stacking massentauglich ist, dann ist meine Idee:
.) Stattden 4x64MB für die Navi32 MCDs gleich 4x1GB DRAM drauf stacken. Damit ist Speicherbandbreite genug da und alle regelmäßig verwendeten Daten liegen auf den MCDs. Latenz ist beim VRAM sowieso sekundär.
.) Dazu dann ein CPU typisches 128 Bit DDR5 Interface mit Pmem (z.B. Optane)

Durch die Vergrösserung der WGPs erhält man fast automatisch ein verbessertes Verhältnis FP32 vs. Die Area oder Transistor. Siehe Ampere, siehe Hopper. Grund: Nicht alles rund um die FP32 Cores wird 1:1 mitskaliert. Ist jetzt nur die Frage, ob AMD die IPC pro FP32-Unit halten kann oder nicht.

Der Grund warum die FP32 Einheiten bei Ampere so schlecht skaliert haben war, dass dafür die 64 INT Einheiten weggefallen sind und nun alle INT Operationen von den FP32 Einheiten erledigt werden müssen.
Im Schnitt sah es so aus:
Turing: 64FP + 23 INT arbeiten, 41 INT sind idle. Gesamt 87
Ampere: 94FP arbeiten an FP + 34 FP arbeiten an INT. Gesamt 128 oder 1.47x

3070: 46*128 = 5888 Operationen/Takt
2080 Ti: 68*87 = 5916 Operationen/Takt

Überraschung: Bis auf ein paar Prozent sind auch beide Karten gleich schnell

Ich würde übrigens noch mal auf den LinkedIn-Eintrag eines AMD-Mitarbeiters von damals zurückkommen. Auf dessen Grundlage hatte man ja viel spekuliert und auch die genutzten Prozesse gemeint zu wissen.

Dort waren N31/N32 mit N5+N6 und N33 mit N6 angegeben. AMD hat für RDNA3 lange nur "Advanced Node" auf den Roadmaps angegeben. Jetzt ist es eindeutig und ausschließlich "5nm" geworden.

Warum ich noch denke, dass die Einträge von dem Mitarbeiter falsch waren: Mi300 war dort auch mit N6 angegeben. Wie wir seit gestern wissen, kommt CDNA3 aka Mi300 aber in N5. Die Angabe zum Prozess war hier also offensichtlich falsch.

Vielleicht also auch dasselbe bei RDNA3 und es ist tatsächlich alles nur in N5? Sowohl die MCDs, als auch N33. Wobei man die MCDs von der Angabe auf der Roadmap noch am ehesten ausklammern kann, ist ja schließlich per se nicht "RDNA3".

Die 5nm GCD + 6nm MCD sind schon vorher geleaked. Der Post auf Linkedin wurde nur nochmal als finale Bestätigung angesehen. Es kann jedoch gut sein, dass sich das mittlerweile geändert hat. Es gibt verschiedene Erklärungen, die alle in sich irgendwie schlüssig sind.

Linmoum

2022-06-11, 13:58:34

robbitop

2022-06-11, 14:31:32

@iamthebear
Die INTs waren es nicht allein. Siehe Pascal. Man hat für 128fps ggü pascal nur halb so viele scheduler ports.

OgrEGT

2022-06-11, 20:10:59

Wenn perf/W um 50% steigen soll wäre natürlich die Frage auf welche perf/W von welcher N21 bei welchem Betriebspunkt sich das bezieht.

Wenn ich die Werte von Igor nehme für perf/W:
Karte / perf index 4k / Leistungsaufnahme / perf/W
6900xt / 112% / 360W / 0,31
6800xt / 100% / 319W / 0,31
6800 / 87% / 229W / 0,38

https://www.igorslab.de/radeon-rx-6950xt-rx-6750xt-und-rx-6650xt-im-test-mit-der-energetischen-brechstange-zum-klassensieg/

Wenn wir die 3DC Prognose nehmen, soll N31 zu N21 (6900xt) die 2-2,5fache Performance haben. Wenn wir perf/W von oben mit +50% zugrunde legen kommen wir für N31 auf eine theoretische Leistungsaufnahme:

Karte / perf/W (Basis 6900xt) / perf index 4k / Leistungsaufnahme
7900xt (N31) / 0,465 / 224% - 280% / 480 - 600W

Karte / perf/W (Basis 6800) / perf index 4k / Leistungsaufnahme
7900xt (N31) / 0,57 / 224% - 280% / 390 - 490W

Wenn die +50% perf/W ggü N21 also stimmen, dann müsste die Performance von N31 niedriger liegen als derzeit angenommen oder der Verbrauch wird entsprechend auch hoch sein...

fondness

2022-06-11, 20:36:40

Die Angabe ist größer 50% perf/Watt. Ich finde es übrigens interessant, dass sie als einen Grund für die höhere perf/Watt das chiplett packaging anführen, bisher ging man ja eher davon aus, dass das perf/Watt kostet durch die off Chip Kommunikation. Bin gespannt wie AMD das umsetzt bei Navi3.

OgrEGT

2022-06-11, 20:45:52

Arg viel mehr als +50% könnens nicht sein... wenns +60% wären hätte man das auf die Folie geschrieben...

Linmoum

2022-06-11, 20:49:41

Zen4 gibt AMD auch mit >15% ST an. In Spielen beispielsweise werden das aber dennoch deutlich mehr werden. Der Takt allein legt gegenüber Zen3 ja schon um 10-15% zu. Dazu 8-10% IPC, DDR5 und doppelter L2. Das summiert sich ordentlich.

Perf/Watt hängt am Ende des Tages entscheidend davon ab, wie hoch sie beim Endprodukt mit dem Takt gehen werden. Da ist ordentlich Spielraum. Dasselbe gilt auch für NV.

fondness

2022-06-11, 20:49:44

Arg viel mehr als +50% könnens nicht sein... wenns +60% wären hätte man das auf die Folie geschrieben...

Oder man will die Karten ähnlich wie bei zen4 damals noch nicht aufdecken.

Neurosphere

2022-06-11, 21:08:05

Arg viel mehr als +50% könnens nicht sein... wenns +60% wären hätte man das auf die Folie geschrieben...

Generell ja, aber ich denke es ist immer gut wenn man die Anleger überraschen kann.

Prinzipiell siehts aber so aus das man mit 50% mehr Perf/Watt und 450 Watt TDP, andere Verluste erstmal außen vor, bei den 2,25x mehr Leistung landen würde. Ich würde zumindest für Navi31 nicht erwarten das AMD bei 300 Watt halt macht, was die Hersteller der Karten dann machen steht auf einem anderen Blatt. Aber wie man bei NV sieht halten hohe Leistungsaufnahmen die Leute ja nicht vom Kauf ab.

WedgeAntilles

2022-06-11, 21:23:34

Oder man will die Karten ähnlich wie bei zen4 damals noch nicht aufdecken.
AMD müsste keine Zahlen nennen, wenn sie nicht wollten.
Würden sie Zahlen nennen, die mit der Realität nichts zu tun haben können sie es auch gleich lassen.
Es wird also sehr viel Näher bei +50% sein als bei +100%.

OgrEGT

2022-06-11, 21:45:50

Mit 375W wäre man dann so bei 1,7 - 2,1facher Leistung...

bbott

2022-06-11, 22:08:55

Linmoum

2022-06-11, 22:17:42

Können sie ja bei Cinebench, spielt da nur keine Rolle. Ich sprach ja explizit von Spielen.

Es wird also sehr viel Näher bei +50% sein als bei +100%.Also +74% würde ich auch nehmen. ;)

iamthebear

2022-06-12, 02:13:07

Nur weil irgendetwas leaked, ist es aber nicht richtig. Deswegen ja auch der Umstand, dass man aufgrund des Eintrages eines offiziellen Mitarbeiters von AMD relativ sicher war, dass dadurch auch die genutzten Prozesse bekannt sind. Nur wissen wir jetzt, dass N6 für CDNA3 nachweislich falsch war. RDNA3 wird von AMD seit vorgestern ausschließlich mit N5 angegeben.

Also darauf würde ich nicht allzu viel geben. Navi31 und 32 haben ja 5nm GCDs. Zen3 wurde auch als 7nm bezeichnet obwohl nicht alle Dies 7nm sind.

Unabhängig davon hat AMD bei Zen4 und selbst schon Zen5 auf der Roadmap auch klargestellt, dass hier zwei Prozesse genutzt werden für die verschiedenen Produkte.

Die einzige Möglichkeit wäre jetzt noch, dass entgegen bisheriger Spekulationen N33 ebenfalls auf eine "Chiplet Architecture" setzt und eben doch nicht Monolithisch ist. Was wiederum die Option N5 GCD + N6 MCDs offen halten würde. I/O der Zen-CPUs wird ja logischerweise auch nicht mit N6 als genutztem Prozess angegeben.

Aber rein N6 für N33 kann man jetzt auch endgültig ausschließen.

Ausschließen kann man es nicht. Ich würde sagen es gibt 3 Optionen die gleich wahrscheinlich sind:
.) 6nm monolithisch
.) 5nm monolithisch
.) 5+6 so wie der Rest

Allerdings würde sich 5+6 mit einigen bisherigen Leaks extrem spießen.

@iamthebear
Die INTs waren es nicht allein. Siehe Pascal. Man hat für 128fps ggü pascal nur halb so viele scheduler ports.

Ich weiß aber ich denke nicht, dass das bei nur 128 FP32/SM einen großen Einfluss auf die Performance hat.
68SM der 2080 Ti = 46 bei der 3070 d.h. 1 Ampere SM = 1.45 Turing SM
40SM der 2070 Super = 28 bei der 1080 Ti d.h. 1 Pascal SM = 1.4 Turing SM

Dass eine 3060 so schlecht gegen die 1080 Ti abschneidet liegt eher an den ROPs und der Speicherbandbreite. Eine 3060 Ti performed hier deutlich besser.

Wenn perf/W um 50% steigen soll wäre natürlich die Frage auf welche perf/W von welcher N21 bei welchem Betriebspunkt sich das bezieht.

Wenn ich die Werte von Igor nehme für perf/W:
Karte / perf index 4k / Leistungsaufnahme / perf/W
6900xt / 112% / 360W / 0,31
6800xt / 100% / 319W / 0,31
6800 / 87% / 229W / 0,38

https://www.igorslab.de/radeon-rx-6950xt-rx-6750xt-und-rx-6650xt-im-test-mit-der-energetischen-brechstange-zum-klassensieg/

Wenn wir die 3DC Prognose nehmen, soll N31 zu N21 (6900xt) die 2-2,5fache Performance haben. Wenn wir perf/W von oben mit +50% zugrunde legen kommen wir für N31 auf eine theoretische Leistungsaufnahme:

Karte / perf/W (Basis 6900xt) / perf index 4k / Leistungsaufnahme
7900xt (N31) / 0,465 / 224% - 280% / 480 - 600W

Karte / perf/W (Basis 6800) / perf index 4k / Leistungsaufnahme
7900xt (N31) / 0,57 / 224% - 280% / 390 - 490W

Wenn die +50% perf/W ggü N21 also stimmen, dann müsste die Performance von N31 niedriger liegen als derzeit angenommen oder der Verbrauch wird entsprechend auch hoch sein...

Es gibtbda so viele Variablen in der Angabe:
.) Welcher RDNA2 Die und welcher SKU gegen
.) Welchen RDNA3 Die und welchen SKU
.) Wird als Basis die theoretische Performance angenommen oder Gaming fps
.) Falls Gaming fps welche Auflösung bzw. mit/ohne RT
.) Wurden die RDNA3 Karten komplett ans Limit gepushed
.) Ist es bei einer Karte > 50% oder bei allen bzw. teilweise auch deutlich mehr?

Ich würde aber davon ausgehen, dass AMD die Angabe hier bewusst niedrig gewählt hat. Mit Analysten darf man sich nicht blöd spielen. Da kommt gleich eine Klage wenn man wissentlich zu hohe Angaben gemacht hat.

Arg viel mehr als +50% könnens nicht sein... wenns +60% wären hätte man das auf die Folie geschrieben...

Da bin ich mir nicht so sicher. AMD schreibt in letzter Zeit viel auf seine Folien, was keinenSinn ergibt.

DDR 5 und L2 werden in IPC enthalten sein.

AVX512 vermutlich auch wobei alles davon in erster Linie bei MT Workloads einen größeren Vorteil bringt.

HOT

2022-06-12, 07:44:48

Also RDNA2 ist bei gleichem Prozess vllt. 35% besser Perf/W als RDNA1. Mal sehen, wie das jetzt aussieht, ist ja immerhin ein neuer Prozess und neue WGPs. AMD schreibt ja immer 50% mehr Perf/W, bei Vega vs. RDNA traf das eher zu, bei RDNA2 vs. RDNA weniger. Mal sehen wie es diesmal ist. Wenn das Produkt nur bei 350W rauskommt, dann sind auch nicht mehr als 80% Leistungszuwachs zu erwarten. Bei RDNA2 waren es bestenfalls 65% bei 230W (6800 vs. 5700XT Referenz).

robbitop

2022-06-12, 08:43:41

Naja Spiele sind oft nicht fp32 limitiert. Aber mksn7 hat es mal nachgemessen. Da war es schnell sichtbar, dass Shedulerresources ein Problem sein können. Pascal hatte ja nicht ohne Grund die Schedulerresources die er hatte. Das war für Ampere halt nicht dein (im Transistorbudget). Ich würde mich nicht windern, wenn Ada die Shedulerresources wieder aufstockt pro SM und man pro SM auch schneller wird.
IMO war das schon mit ein Grund.

HOT

2022-06-12, 11:59:44

Aber das weisst er halt auch nicht und spekuliert nur rum. Wir werden es leider erst erfahren, wenn AMD Details verrät, wie sie diese Probleme angegangen sind.

OgrEGT

2022-06-12, 17:02:40

(...)

Es gibtbda so viele Variablen in der Angabe:
.) Welcher RDNA2 Die und welcher SKU gegen
.) Welchen RDNA3 Die und welchen SKU
.) Wird als Basis die theoretische Performance angenommen oder Gaming fps
.) Falls Gaming fps welche Auflösung bzw. mit/ohne RT
.) Wurden die RDNA3 Karten komplett ans Limit gepushed
.) Ist es bei einer Karte > 50% oder bei allen bzw. teilweise auch deutlich mehr?

Ich würde aber davon ausgehen, dass AMD die Angabe hier bewusst niedrig gewählt hat. Mit Analysten darf man sich nicht blöd spielen. Da kommt gleich eine Klage wenn man wissentlich zu hohe Angaben gemacht hat.

Da bin ich mir nicht so sicher. AMD schreibt in letzter Zeit viel auf seine Folien, was keinenSinn ergibt.

(...)

Ich hab aus dem Grund ja die perf/W bei 4K Gaming sowohl best als auch worst case im Bereich von 6800 bzw. 6900xt als Ausgangswert genommen und konservativ die +50% aufgeschlagen. 4K deshalb, da da die Karten ausgelastet sind. Alles andere wäre ja Mumpitz. Die 3DC Prognose unterscheidet ja auch Gaming und Rohleistung. Deshalb hab ich als Gamingleistung Prognose 2-2,5x gewählt und nicht 3-3,1x um die Leistungsaufnahme abzuschätzen.

Als Abschätzung reicht das mMn vorerst um allzu hohe Erwartungen bzgl. Performance und Leistungsaufnahme zu relativieren.

Exxtreme

2022-06-13, 11:52:36

AMD müsste keine Zahlen nennen, wenn sie nicht wollten.
Würden sie Zahlen nennen, die mit der Realität nichts zu tun haben können sie es auch gleich lassen.
Es wird also sehr viel Näher bei +50% sein als bei +100%.
Jein. Würden sie +100% mehr sagen dann würde das den Verkauf der jetzigen Karten komplett killen. Keiner würde sich jetzt eine kaufen sondern fast alle würden warten auf RDNA3.

Meridian12

2022-06-13, 12:37:09

Jein. Würden sie +100% mehr sagen dann würde das den Verkauf der jetzigen Karten komplett killen. Keiner würde sich jetzt eine kaufen sondern fast alle würden warten auf RDNA3.

Da hast du Recht. Es würde wenig Sinn machen die Karten mit zB 3 mal so schnell anzupreisen.

Wenn die so schnell wirklich wären (natürlich unrealistisch), würde keiner mehr die jetzige Generation kaufen.

Also sollen die Leute jetzt noch zuschlagen und wenn die neuen Karten dann wirklich 3 mal so schnell wären (wie gesagt, unrealistisch), würden viele eh dann doch noch die neuen kaufen.

Also Marketingtechnisch wäre es sinnvoll ganz tief zu stapeln,solange NVIDIA die neue Generation nicht vorgestellt hat.

OgrEGT

2022-06-13, 13:32:33

Wenn man wirklich tief stapeln wollte, dann würde man doch eher keine Zahlen veröffentlichen, zumal man derzeit gar keine Zahlen veröffentlichen muss...

vinacis_vivids

2022-06-13, 13:40:14

Bei einer 3-Fachen Leistung von Navi31, wird AMD auch den 2-3 Fachen Preis verlangen, spricht 1.999-2.999 USD pro Karte.

Nightspider

2022-06-13, 13:45:05

Abseits von Raytracing werden wir keine Werte in der Nähe von 3x sehen.

2,2x ist relativ realistisch +/- 20% je nach Anwendung.

Jetzt gibt es die 6800XT ja auch wieder zu kaufen für teils 800 Euro und weniger und wird wohl weiter sinken.

Eine 7800xt im 1399-1499€ Bereich wäre bestimmt interessant für viele.

Der Gebrauchtmarkt wird bestimmt noch weiter geflutet mit Mining-Karten.
Ethereum ist bei 1.146€ :D

Linmoum

2022-06-13, 13:46:03

Wenn man wirklich tief stapeln wollte, dann würde man doch eher keine Zahlen veröffentlichen, zumal man derzeit gar keine Zahlen veröffentlichen muss...AMD gibt auf dem FAD immer Ausblicke auf die kommenden Produkte bzw. Architekturen. Das ist primär eine Informationsverandtaltung für Investoren. Die wollen grob wissen, was die nahe Zukunft bringen wird. Hat ja schließlich einen direkten Einfluss auf AMD als Unternehmen und wie es an der Börse gehandelt wird.

WedgeAntilles

2022-06-13, 13:49:08

Wenn man wirklich tief stapeln wollte, dann würde man doch eher keine Zahlen veröffentlichen, zumal man derzeit gar keine Zahlen veröffentlichen muss...

Richtig.

Es ist marketingtechnisch erwiesenermaßen negativ, wenn man schlechte Zahlen nennt um später "positiv zu überraschen".

Der Mensch funktioniert so, dass er den ersten Eindruck abspeichert - und wenn der Eindruck: "mäh" ist, bleibt das Produkt "mäh", egal was nachher für echte Zahlen kommen.

Es existiert nach meinem Wissen keine erfolgreiche Marketingkampagne, die mit "positiver Überraschung" hantiert hat.
Eben weil die ziemlich primitive Psychologie des Menschen dem diametral entgegen steht.
Und beim Marketing geht es quasi immer um eine große Masse - wodurch man eben pattern prediction verwenden kann. Es geht nicht darum, was Individuum A oder B denkt sondern wie eine große Masse reagiert.
Und da gilt die Psychologie.

Wenn das neue Produkt "zu gut" ist bewirbt man es eben nicht ein halbes Jahr früher. Bzw. bringt keine exakten Daten sondern schwammiges (wie "freut euch drauf").

Aber wir werden sehen, vielleicht beweist AMD ja, dass die gesamte Marketing- und Psychologieforschung der letzten 100 Jahre falsch (oder zumindest reichlich irrelevant) ist.
H&M ist z.B. mit ihrer Schockwerbung auch einen Weg gegangen, der davor als Blödsinn betrachtet wurde. Und IIRC waren sie ziemlich erfolgreich.
Ein Lehrbuch gilt ja immer nur so lange, bis es jemand erfolgreich umschreibt.

Gipsel

2022-06-13, 13:57:18

Mit 3D Stacking bräuchte man überhaupt kein Interface mehr weder GDDRx noch HBM. Da stacked man den DRAM einfach auf den Die und b8ndet diesen ähnlich an wie man es auch mit SRAM machen würde.
Das Ganze nennt sich eDRAM und ist nicht unbedingt neu. Selbst die PS2 vor 22 Jahren hat das schon eingesetzt. Intel hat mit Broadwell einer Generation 128MB eDRAM als L4 Cache verpasst. Der Grund warum es sich nie durchgesetzt hat waren jedoch immer die Kosten.Genau. Das wäre dann ein Custom-(e)DRAM-Design, was außerhalb sehr großer Stückzahlen immer deutlich teurer kommt als die Verwendung standardisierter Komponenten, wie es ja auch HBM darstellt.
Wenn das mit dem 3D Stacking massentauglich ist, dann ist meine Idee:
.) Stattden 4x64MB für die Navi32 MCDs gleich 4x1GB DRAM drauf stacken.Darauf zu stacken dürfte insbesondere bei GPUs und den dort anliegenden Verlustleistungen auch in Zukunft problematisch sein. Cache als aktiver Interposer (oder als eine Art aktive elevated fanout bridge) dürfte da vermutlich besser geeignet sein. Und das funktioniert mit Standard-HBM wiederum nicht.
Der Grund warum die FP32 Einheiten bei Ampere so schlecht skaliert haben war, dass dafür die 64 INT Einheiten weggefallen sind und nun alle INT Operationen von den FP32 Einheiten erledigt werden müssen.
Im Schnitt sah es so aus:
Turing: 64FP + 23 INT arbeiten, 41 INT sind idle. Gesamt 87
Ampere: 94FP arbeiten an FP + 34 FP arbeiten an INT. Gesamt 128 oder 1.47xDas transportiert eine falsche Vorstellung, wie das funktioniert bzw. die Einheiten genutzt werden. Im Prinzip besteht jeder SM (egal ob Turing oder Ampere) aus 4 "Sektoren" mit eigenem Scheduler und Issue-Port. Jeder dieser Scheduler kann jeden Takt genau eine einzige Instruktion (für einen Warp, das ist ein Vektor aus 32 Werten) an eine der angeschlossenen Vektoreinheiten absetzen. Die Vektoreinheiten sind (für int/fp32) jeweils 16 Slots breit (also physisch 512bit, arbeiten aber Vektoren aus 32 Elementen [1024bit] ab), können also jeweils nur alle 2 Takte einen neuen Befehl erhalten.
Bei Turing hängt an jedem Scheduler genau eine int32 Vektoreinheit und eine fp32 Vektoreinheit (die nur jeden zweiten Takt einen neuen Befehl bekommen kann, der Scheduler hat also die Hälfte der Zeit die Möglichkeit, andere Instruktionen zu verarbeiten). Sehr vereinfacht gesprochen (abhängig von Occupancy und Verteilung der Befehlstypen im Code) sind also bis zu einem 1:1 Instruktionsmix aus INT:FP (genauer wäre *alles Andere als FP*:FP) die Integer-Instruktionen quasi "umsonst", die FP-Einheiten laufen also bei ALU-limitiertem Code am Anschlag (solange man nicht auf Speicheroperationen wartet). Mehr Integer-Instruktionen als FP-Instruktionen sind eher selten bei typischen Anwendungen.
Bei Ampere wurde die Integer-Einheit (ohne wesentliche Änderungen am Scheduler) so aufgebohrt, daß diese ebenfalls FP-Instruktionen annehmen kann. Prinzipiell kann jetzt also allein mit FP-Instruktionen der Scheduler voll ausgelastet werden und die theoretische Peak-FP-Leistung verdoppelt sich pro Scheduler. Allerdings geht jetzt jede andere Instruktion als FP von der FP-Leistung ab. Hat man also z.B. 70% FP-Instruktionen und 30% irgend was Anderes (Integer, Speicheroperationen oder was auch immer), dann erreicht man damit nur 70/50 - 1 = 40% Geschwindigkeitszuwachs gegenüber Turing (als Ideal ohne Stalls). Dafür hat aber deutlich weniger Vektoreinheiten, die einfach unnötig rumidlen (bei einer ansehnlichen Spanne an Instruktionsmixen) wie noch bei Turing.
Ganz allgemein als das, was man im Kopf behalten sollte: Jede Instruktion belegt immer eine komplette Vektoreinheit (jeweils 16 Slots für zwei Takte bei Turing und Ampere).

Meridian12

2022-06-13, 13:57:18

Bei einer 3-Fachen Leistung von Navi31, wird AMD auch den 2-3 Fachen Preis verlangen, spricht 1.999-2.999 USD pro Karte.

Wenn sie nur ein paar Karten verkaufen wollen, sollen sie es machen.

Geld verdient man dabei eher selten, wenn man Mondpreise verlangt.Zumal die Mining Spinner als Käufer ausfallen.

ChaosTM

2022-06-13, 14:17:33

Wenn Hersteller bei doppelter Leistung jedes mal das doppelte verlangt hätten, würden..

Bitte a bissl mitdenken. !

vinacis_vivids

2022-06-13, 14:23:11

Wenn sie nur ein paar Karten verkaufen wollen, sollen sie es machen.

Geld verdient man dabei eher selten, wenn man Mondpreise verlangt.Zumal die Mining Spinner als Käufer ausfallen.

Ich rede von N31. Da brauchst du auch nicht viele verkaufen, der Halo-Effekt ist da viel wichtiger.

Bei N33 kann AMD nach wie vor 499-599USD ansetzen, je nach Leistung, Ausstattung.

why_me

2022-06-13, 14:26:23

Und die 1,5-2,5 k€ dazwischen sollen sie dann mit 2-3 Modellen füllen? :facepalm:

Linmoum

2022-06-13, 14:27:25

100 Karten für 1500€ zu verkaufen ist deutlich sinnvoller als 50 für 2000€ oder 25 für 3000€.

Je höher der Preis, desto kleiner wird die Käufergruppe. Unternehmen wollen nicht einfach nur Halo-Produkte, sondern Geld verdienen. Nvidia wird auch nicht plötzlich 3000-4000$ verlangen, wenn die 4090 >doppelt so schnell ist. Diese Logik ist einfach kompletter Quatsch.

vinacis_vivids

2022-06-13, 14:30:33

Pro GPU kann man schon in 3-4 Modelle aufteilen, siehe N21 (XL, XT, XTX, XTXH)
Bei der N3X Serie sind das 3 x (3 bis 4) also 9 - 12 Modelle sind da locker drin.

Monsta

2022-06-13, 15:15:11

Pro GPU kann man schon in 3-4 Modelle aufteilen, siehe N21 (XL, XT, XTX, XTXH)
Bei der N3X Serie sind das 3 x (3 bis 4) also 9 - 12 Modelle sind da locker drin.

9-12 verschiedene Modelle, dazu noch die alten die nicht direkt vom Markt verschwinden. Das glaubst Du doch nicht selber.

GrimReaper85

2022-06-13, 15:25:16

Demzufolge:
https://www.3dcenter.org/news/news-des-18-mai-2022
Navi 32 (sei es 7700 XT oder 7800 XT) sollte 25-33 % schneller sein als 4080, während es etwa 350W verbraucht (unter der Annahme, dass N31 450W und N33 220W haben).
Und 4080 verbraucht 420W, das sind 20% mehr.
Das bedeutet auch, dass Nvidia einen reduzierten AD102 (wie 4080 Ti) benötigen würde, um mit N32 konkurrieren zu können.
Aber jede Karte außer 4070 wird so viel verbrauchen, dass ich den Sinn darin nicht sehe.

HOT

2022-06-13, 15:30:25

Das passt nicht zu den Seasonic-Netzteil-Daten. Die AMDs werden sicher deutlich unter 400W bleiben.

https://www.tomshardware.com/uk/news/seasonic-psu-wattage-calculator-includes-amd-radeon-rx-7000-series-gpus

Eher sind die GPUs dann eben nicht so schnell und bleiben eher am Sweetspot.

dargo

2022-06-13, 15:33:53

Autsch... diese Verbräuche tun schon beim lesen weh. :freak: Irgendwas passt da aber imho nicht. N33 soll doch so schnell sein wie N21 oder hat sich da was geändert? Und dann spart AMD nur 80W mit einer neuen GPU-Generation + 5nm vs. 7nm? Das wäre dann schon recht enttäuschend.

HOT

2022-06-13, 15:35:48

Das war offensichtlicher Blödsinn. N33 ist so schnell wie N21 und wird mMn maximal 230W haben, passend zu Seasonics 650W Netzempfehlung.

5700XT (N7) -> 6700XT (N7) -> 7700XT (N5), alle 230W TBP.

Daraus ableitbar N32:

6800XT (N7) -> 7800XT (N5), alle 300W.

und sicherlich

6950XT (N7) -> 7900XT (N5), alle 350W

Linmoum

2022-06-13, 15:36:08

Naja deutlich würde ich jetzt nicht sagen. Und wie ernst man das von Seasonic nehmen kann, weiß auch niemand.

Wenn wir mal von +50-60% Perf/Watt ausgehen, dann halte ich 375W-400W für realistisch bei doppelter Performance als Target bei AMD.

dargo

2022-06-13, 15:37:38

Das war offensichtlicher Blödsinn. N33 ist so schnell wie N21 und wird maximal 230W haben.

5700XT -> 6700XT -> 7700XT, alle 230W TBP.
Bäh... dann bin ich wirklich enttäuscht. Um signifikant (im besten Fall +80-100%) schneller als meine RX 6800XT zu werden müsste ich dann weit über 300W gehen. :down:

GrimReaper85

2022-06-13, 15:43:06

Moore's Law Is Dead sagt 180-230W für N33.
N33 ist nur 8 GB und PCIe x8 (ersetzt 6600 XT, aber doppelte Leistung), also wird N32 am interessantesten sein.

Wie erhalten sie für N31 die doppelte Leistung von N21, wenn P/W nur +50% beträgt? Das sollten 400W bei +50% sein.
Top-Modell wird sicherlich mehr als 400W sein.

HOT

2022-06-13, 15:48:18

Das mit den 8GB ist purer Unsinn, das sag ich schon von Anfang an. Ich weiss nicht, warum Leute da ein erotisches Verhältnis zu entwickeln, aber wäre strunzdumm sowas zu bringen. Die hat 16GB, Ende aus Mickey Maus.

Und nein, über 400W ist mit einer 750W-Empfehlung nicht zu machen. Vielleicht ist die 7900XT nur N31 salvage, dann würde das besser passen zu 350W. Eine voll aktivierte N31XTX wäre dann evtl 4x0W, das kann sein.

Vielleicht sieht das dann so aus: 7700XT (N33 Full) 230W, 7800XT (N32 Full) 300W, 7900XT (N31 salvage) 350W, Fury/7900XTX (N31 Full) 400W+

Megamember

2022-06-13, 15:53:03

Bäh... dann bin ich wirklich enttäuscht. Um signifikant (im besten Fall +80-100%) schneller als meine RX 6800XT zu werden müsste ich dann weit über 300W gehen. :down:

Dann zeig den Ingenieuren doch mal wie man doppelte Leistung erzeugt ohne den Verbrauch anzuheben.

Linmoum

2022-06-13, 16:00:36

Wenn er noch eine Gen wartet kriegt er das womöglich sogar bei 300W. Aber ja, aktuell ist das schlicht utopisch.

dargo

2022-06-13, 16:03:48

Ich mag die hohen Verbräuche einfach noch nicht glauben weil sie mir nicht plausibel erscheinen.

Eine RX 5700XT (210W) ist gleich schnell wie eine RX 6600XT (147W). Heißt 30% Powerersparnis für die RX 6600XT. RDNA1 und RDNA2 waren beides 7nm. Unter der Annahme N33 @230W = N21 Performance soll N33 dann nur noch 23% weniger Power brauchen bei einem neuen Fertigungsprozess? Ich hoffe wirklich die Spekulanten irren sich. :(

Moore's Law Is Dead sagt 180-230W für N33.

Die 180W fände ich wiederum sehr gut, wären dann -40% vs. N21. :)

GrimReaper85

2022-06-13, 16:04:20

dargo

2022-06-13, 16:08:43

Wat? 8GB Vram Ende 2022 bei N21 Performance? Was saufen die da gerade bei AMD? ;D Das wird mit 8GB ein Rohrkrepierer.

WedgeAntilles

2022-06-13, 16:10:37

Wenn der N32 Preis gut ist, z. B. 800-900 €, dann sehe ich kein Problem darin, dass 500-600€ N33 8GB hat.
.

Uff, du findest 500-600 Euro also einen guten Preis für eine 8GB LowMidrange Karte in 2022?
Ich hoffe nur, Nvidia und AMD lesen hier nicht mit.

Linmoum

2022-06-13, 16:15:32

Ich mag die hohen Verbräuche einfach noch nicht glauben weil sie mir nicht plausibel erscheinen.Du hast doch schon >50% Perf/Watt von offizieller Seite. Was ist denn jetzt noch nicht plausibel, wenn wir von doppelter Performance sprechen?

vinacis_vivids

2022-06-13, 16:16:02

Bei N31 XTX gehe ich von 450W aus.
+50%/W bedeutet:

N21 XTX : 100fps zu 300W
N31 XTX : 150fps zu 300W ~ 225fps zu 450W

Bei der Referenz sollte 2.25 - Fache Leistung rauskommen (UHD). Bei vielen uArch Verbesserungen sind auch 2.5 - Fache Leistung möglich.

Bei höheren Auflösungen dann sicherlich auch 3-Facher Leistungssprung. Allerdings ist dieser Aufgrund von fehlenden Monitoren mehr theoretisch als praktisch.

HOT

2022-06-13, 16:25:55

@HOT, N33 8GB Quellen:
https://videocardz.com/newz/amd-navi-31-gpu-now-rumored-to-feature-384-bit-memory-bus-24gb-gddr6-memory
https://www.youtube.com/watch?v=tefqiCaikGk&t=806s
"Limiting Navi 33 to 8GB was an intentional design decision. This is firmly a midrange or even lower midrange card."

Sie könnten eine 16GB Version machen, aber bisher keine Informationen. 128-bit und 16GB bezweifle ich sehr. Sie sollten es von Anfang an mit 192-Bit entwerfen und es hätte 12 GB.
Wenn der N32 Preis gut ist, z. B. 800-900 €, dann sehe ich kein Problem darin, dass 500-600€ N33 8GB hat.
Für diejenigen, die eine günstige 12-16GB Karte wollen und nicht mehr Leistung benötigen, haben Sie immer noch Ampere und RDNA 2 Karten. Oder 4070 12GB.
Es ist immer noch Bullshit, da kannst noch so viele "Quellen" (:freak:) drantackern. Ich würd da auch jede Wette eingehen, dass das BS ist. Bei 6nm waren sich auch alles sicher.

Wat? 8GB Vram Ende 2022 bei N21 Performance? Was saufen die da gerade bei AMD? ;D Das wird mit 8GB ein Rohrkrepierer.
Macht keiner, ist garantierter BS.

Cyberfries

2022-06-13, 16:28:32

Wann gab es jemals doppelte Leistung bei gleichem Verbrauch innerhalb einer Generation?
Die Forderung ist unrealistisch.

Am ehesten lässt sich noch N33 eingrenzen, bei gleicher Leistung wie N21 und +50% bis +60% Effizienz sinds 200 W bis 188 W.
Anders kommts nur, wenn entweder Leistung oder Effizienz deutlich vom bisher Angenommenen abweichen.

Und nein, über 400W ist mit einer 750W-Empfehlung nicht zu machen.

Sofern die Empfehlung korrekt ist.
Das ist vom Verhältnis etwas seltsam, dass eine mehr als doppelt so schnelle Karte nur eine 100 W höhere Empfehlung trägt.

Ich würd da auch jede Wette eingehen, dass das BS ist.

Genauso wie du dir 120% sicher warst, dass Zen 4 drei Chiplets neben dem IO-Die trägt, davon eines als GPU-Chiplet?

HOT

2022-06-13, 16:31:37

Netzteilhersteller machen Empfehlungen, die ja in allen Lebenslagen funktionieren müssen und möglichst all ihre Produkte umfassen. Daher ist die Empfehlung der Amperes, wie im Link erwähnt, etwas schwieriger.
Seasonic garantiert eben, dass eine 6900XT bei allen modernen (echten) Seasonic-Netzteilen mit 750W laufen Daran ist auch überhaupt nichts seltsam. Also kann die TBP bei einer 7900XT nicht wesentlich höher sein. Vielleicht riegelt die 7900XT nach oben hin besser ab, dann könnte sie auch mehr W haben. Mehr als 350W sind aber mit der Empfehlung mMn nicht zu machen, ergo wird sie auch in dem Bereich hineinfallen, was im Allgemeinen eine sehr gute Nachricht ist, denn ich hätte keine Lust auf einen 450W Brutwürfel.

AMD empfielt übrigens für eine 6900XT mindestens ein 850W-Netzteil offiziell.

dargo

2022-06-13, 16:37:56

Du hast doch schon >50% Perf/Watt von offizieller Seite. Was ist denn jetzt noch nicht plausibel, wenn wir von doppelter Performance sprechen?
Ich sags mal so... N31 interessiert mich nicht die Bohne weil das Teil jenseits der Vernunft saufen wird. Wichtig ist mir nur, dass N32 nicht über 300W (275W würden mir noch besser gefallen) geht dann ist das Ding gekauft. Mit der RX 6800XT habe ich auch eine etwas bessere Ausgangslage als wenn ich die RX 6900XT hätte wenn es um größere Performancesteigerung geht. :) Sind +80% bei N32 vs. N21 Salvage realistisch?

Edit:
Den endgültigen Verbrauch wird sowieso die Konkurrenz bestimmen. Also wie gut oder schlecht sich Nvidia gegenüber RDNA3 schlagen wird. Kommt Nvidia nicht ran braucht AMD die Brechstange bei den Frequenzen nicht ganz so stark ausholen.

GrimReaper85

2022-06-13, 17:07:15

Undervolten kann man immer. Das sollte jeder mit RDNA 2 und vor allem Ampere machen, aber ab jetzt wird nur noch Low End (N33 and 4060) einen zufriedenstellenden Verbrauch haben. Obwohl sogar 4060 angeblich mehr als 3070 verbraucht, also mehr als 220W.

Mein 6900XT:
310W - 173 FPS
1000 mV (245W) - 165 FPS (-5%)

Mit 3080 12 GB verliere ich 10% von 390W auf 240W (RT Spiele 265W). Also selbst unter Berücksichtigung von Undervolting würde ich keine Karte mit mehr als 350W kaufen.

mboeller

2022-06-13, 18:58:00

. Unter der Annahme N33 @230W = N21 Performance soll N33 dann nur noch 23% weniger Power brauchen bei einem neuen Fertigungsprozess? Ich hoffe wirklich die Spekulanten irren sich. :(

Nö, die Gerüchte von RGT besagen, das es von der N33 eine mobile Variante gibt. Diese mobile Variante hat dann die Leistung der N21. Die normale N33 soll ja trotz 128bit schneller sein als eine 6900XT. Ergo +100% (150w/300w bei gleicher Leistung)

die >50% Perf/watt sind wie üblich bei AMD der Worst-Case. Mobile ist natürlich der Best-Case.

Nightspider

2022-06-13, 19:00:38

Die Leaker lagen alle so oft daneben, allen voran MLID....ich gebe da gar nichts mehr auf die Gerüchte.

Cyberfries

2022-06-13, 19:56:12

Ergo +100% (150w/300w bei gleicher Leistung)

Mit den passenden Betriebspunkten sind auch Vega und Ampere effizient.
Trotzdem würde niemand so die Effizienz angeben, wenn man keinen Shitstorm produzieren will.

Mit den Werten drängt sich der Vergleich zu N22 aber förmlich auf, schließlich liegen die 6700 xt und 6800 m
bei Verbrauchswerten, die mit den für N33 prognostizierten nahezu übereinstimmen.
Der Leistungsunterschied zwischen 6700 xt und 6800 m ist sehr gering. Übertragen auf N33? Vielleicht so:

| 6700 xt | 6700 | 6800 m | 6900 xt | N33 xt | N33 | N33 m
TBP | 220 w | 175 w | 145 w | 300 w | 230 w ? | 180 w ? | 150 w ?
Leistung | 100 % | 85% ? | 90% | 150% | 165% ? | 135% ? | 150% ?
Leistung/Watt | 0.9 | 1.0 | 1.2 | 1.0 | 1.5 | 1.5 | 2.0

OgrEGT

2022-06-13, 20:33:40

AMD gibt auf dem FAD immer Ausblicke auf die kommenden Produkte bzw. Architekturen. Das ist primär eine Informationsverandtaltung für Investoren. Die wollen grob wissen, was die nahe Zukunft bringen wird. Hat ja schließlich einen direkten Einfluss auf AMD als Unternehmen und wie es an der Börse gehandelt wird.

Das könnte man auch ohne konkrete Zahlen zu nennen, bspw. (...) will be significantly and well higher (...)...

Linmoum

2022-06-13, 20:43:12

Davon kann sich aber niemand was kaufen. Sowas kann dann von +30% bis +100% alles bedeuten.

AMD hat es in der Vergangenheit auf dem FAD auch schon getan, insofern sehe ich das Problem jetzt nicht, einen solchen Ausblick zu geben.

OgrEGT

2022-06-13, 21:04:55

Ich sags mal so... N31 interessiert mich nicht die Bohne weil das Teil jenseits der Vernunft saufen wird. Wichtig ist mir nur, dass N32 nicht über 300W (275W würden mir noch besser gefallen) geht dann ist das Ding gekauft. Mit der RX 6800XT habe ich auch eine etwas bessere Ausgangslage als wenn ich die RX 6900XT hätte wenn es um größere Performancesteigerung geht. :) Sind +80% bei N32 vs. N21 Salvage realistisch?

Edit:
Den endgültigen Verbrauch wird sowieso die Konkurrenz bestimmen. Also wie gut oder schlecht sich Nvidia gegenüber RDNA3 schlagen wird. Kommt Nvidia nicht ran braucht AMD die Brechstange bei den Frequenzen nicht ganz so stark ausholen.

Wenn wir auch hier von der perf/W (auf Basis von Igor) +50% und der 3DC Prognose ausgehen, dann kommen wir auf folgendes:

Karte / perf index 4k / Leistungsaufnahme / perf/W
6900xt / 112% / 360W / 0,31
6800xt / 100% / 319W / 0,31
6800 / 87% / 229W / 0,38
6700xt / 67% / 226W / 0,30

Wenn wir die 3DC Prognose nehmen, soll N32 zu N22 (6700xt) die 2,4-3fache Performance haben. Mit perf/W +50%:

Karte / perf/W (Basis 6700xt) / perf index 4k / Leistungsaufnahme
7800xt (N32) / 0,45 / 162% - 202% / 360 - 450W

Karte / perf/W (Basis 6800) / perf index 4k / Leistungsaufnahme
7800xt (N32) / 0,57 / 162% - 202% / 284 - 354W

Da zweiteres plausibler ist, würde ich annehmen, dass AMD mit der perf/W am oberen Ende rechnet auf die sich die +50% beziehen...

Und somit auch für die 7900xt (N31)

Karte / perf/W (Basis 6800) / perf index 4k / Leistungsaufnahme
7900xt (N31) / 0,57 / 224% - 280% / 390 - 490W

Den Leistungsbereich könnte man mit Referenzmodell und OC (von / bis) verstehen...