nVidia Blackwell (Nachfolger von Hopper & Ada, 2025) [Archiv]

HPVD

2022-09-21, 12:57:06

da Ada nun (21.09.2022) schon ziemlich weit ausm Sack ist, wird es Zeit für nen neuen Speku Thread zum Thema Blackwell :smile:

was wissen wir?

nVidia Blackwell
- Nachfolger von Hopper und/oder Ada
- 2024
- 3nm TSMC (wahrscheinlich N3E)
- PCIe 5.0
(Hopper nutzt es bereits, Ada noch nicht (auch nicht in der Pro Variante RTX 6000 Ada))
- DP 2.0
(wenn Blackwell für Visual/Gaming ist, Ada nutzt es noch nicht (auch nicht in der Pro Variante RTX 6000 Ada))
- evtl noch monolitisch: https://twitter.com/kopite7kimi/status/1549382169302564865

Artikel auf 3dcenter.de die auf die Blackwell Generation Bezug nehmen:
https://www.3dcenter.org/news/nvidia-blackwell

Sunrise

2022-09-21, 13:08:00

Was wir wissen?

- DLSS4
- The more you buy, the more you save
- Jensen hat ne Brille auf und ne Lederjacke an

EDIT:
Weiterhin monolothisch laut Kopite, ich glaube aber nicht dran, denn da käme bei mir langsam die Frage auf (3nm wird verdammt teuer werden), ob das margenmäßig noch konkurrenzfähig zu AMD wäre, wenn da wieder so ein >600mm² Monster um die Ecke kommt.

HPVD

2022-09-21, 13:12:57

Was wir wissen?
- The more you buy, the more you save

:biggrin:

Edgecrusher86

2022-09-21, 13:21:45

Den 8-pol. Adapter kennen wir auch schon:

https://abload.de/img/neunschwanzige-katze-i1ia5.jpg

:biggrin:

Nightspider

2022-09-21, 15:38:34

Weiterhin monolothisch laut Kopite, ich glaube aber nicht dran, denn da käme bei mir langsam die Frage auf (3nm wird verdammt teuer werden), ob das margenmäßig noch konkurrenzfähig zu AMD wäre, wenn da wieder so ein >600mm² Monster um die Ecke kommt.

Nvidia war vor 2 Jahren noch "verstritten" mit TSMC und Samsung bietet keine Chiplet/Stacking Technologie wie TSMC.

Wenn eine neue Architektur rund 4 Jahre benötigt vom Entwurd bis zum fertigen Chip kann es sein das Nvidia vor 1-2 Jahren noch mit monolithischen Chips für die 2024er GPU Gen planen musste.

AMD forscht und arbeitet schon viele Jahre am Chiplet-Ansatz. Die Frage ist wie viel Grundlagen Nvidia sich da schon erarbeitet hat.

Platos

2022-09-21, 17:16:24

nvidia war "verstitten" mit tscm? Quelle ?

Lehdro

2022-09-22, 11:30:33

nvidia war "verstitten" mit tscm? Quelle ?
Verstritten ist viel zu hart als Beschreibung, aber ich denke er spielt auf folgendes an:

Gerüchteweise hat NV TSMC mit Samsung unter Druck setzen wollen um bessere Preise/Konditionen zu erlangen. Das hat nicht geklappt also ist NV mit seinem Ampere dGPU Ensemble zu Samsung. Zu bedenken bleibt folgendes: Der A100 verblieb bei TSMC - kann also nicht so schlimm gewesen sein. Und: Nur Samsung hatte in der Gen genug Kapazität für NV. TSMC war komplett ausgelastet mit AMD und NVs A100 + den Kram anderer Chipentwickler.

Zudem ist NV ziemlich öffentlich schon früher mal über TSMC hergezogen. (1 (https://semiaccurate.com/2010/09/23/nvidia-blames-tsmc-fermis-failures/)) (2 (https://www.extremetech.com/computing/123529-nvidia-deeply-unhappy-with-tsmc-claims-22nm-essentially-worthless))

Halt NV, business as usual.

Platos

2022-09-22, 19:10:13

Also wie ich gedacht hatte: Seine Aussage hat keine Substanz.

Edgecrusher86

2022-09-26, 11:20:13

Ich frage mich, wie das weiter geht. Also 4,5 Slots für die die 5090/5090 Ti FE sowie 2x16er Pol. würde mich ja nicht wundern - mindestens 140mm Lüfter und ein Paar Stützen bei 3-4kg Gewicht dazu.
Für die 5090 Ti könnte man dann ja auch bewerben -> World's First 1KW Graphics Card! :freak:

Ich denke mal, bis zu 192SMs (also 24576SPs), also 16SMs pro GPC (12 Stück wieder) wären in TSMC "N3" möglich - mehr ist wohl eher unwahrscheinlich - kann man ja mit Taktraten und Caches kompensieren.

Troyan

2022-09-26, 11:25:34

Einfach die 320W Karte kaufen. Bei Lovelace gibt es nun zusätzlich eine 450W Version, weil der Prozess es ermöglicht. AD102 hat 76 Mrd. Transistoren. Das ist 2,6x mehr als Ampere. Wenn man überlegt, dass 5nm auf Transistorenebene nur noch ca. 20% Effizienz bringt, dann ist es massiv, was nVidia realisieren konnte.

Edgecrusher86

2022-09-26, 11:29:37

Oder was Dickes und drosseln - so mache ich das immer. Es fühlt sich einfach besser an, wenn man weiß, dass bei Bedarf noch zweistellige fps-Sprünge möglich wären. Lieber viel Hubraum und Halbgas, als wenig und Volllast.
Meine 3090er etwa läuft im Alltag zumeist nur bei 140-180W, selten bis 230W. Das schickt hier für UWQHD + 50/60er Cap oder auch mal MP bei 80-100er Cap. Das volle PT (GB Gaming OC BIOS -> bis 390W) hab ich nur für meine grob vier dutzend Benches ausgenutzt.
In der Praxis nötig waren 350W(+) aber nur ab 5160er DSR aufwärts. :D

basix

2022-09-26, 11:47:41

Wenn man überlegt, dass 5nm auf Transistorenebene nur noch ca. 20% Effizienz bringt, dann ist es massiv, was nVidia realisieren konnte.

Erzähl keinen Blödsinn:
N5 technology provides about 20% faster speed than N7 technology or about 40% power reduction.
https://www.tsmc.com/english/dedicatedFoundry/technology/logic/l_5nm

Und das ist nur die Basisvariante und nicht Nvidias N4. Und ist Nvidia zudem nicht vom, laut deinen Aussagen extrem schlechten und ineffizienten, Samsung 8nm Prozess gewechselt? :rolleyes:

Dural

2022-09-26, 12:00:35

Wie das weiter geht?

Ganz einfach, die GPUs werden nicht mehr 50-80% schneller als ihr Vorgänger sein, sondern nur noch 10-30% wie wir es bei CPUs schon seit Jahren sehen. Komischerweise reklamiert da nie jemand "ist mir zu wenig" nur bei GPUs wird immer nach 100% verlangt.

Grafikkarten sind deutlich kosten intensiver als CPUs, genau das wird auch der Grund sein wie so Gaming immer wie mehr eine Nische wird, da die meisten Gamer nicht 2K und mehr für eine GPU ausgeben können, und schon gar nicht wenn diese nicht deutlich schneller als der Vorgänger ist.

Auch das reklamieren von immer wie mehr Leistungsaufnahme ist doch kaum an Lächerlichkeit zu überbieten. Genau die die immer nach weniger Watt schreien sind doch genau auch die die immer nach mehr Leistung verlangen. Wenn man mit der Leistungsaufnahme zurück geht, hat man unweigerlich auch weniger Leistung. Die kosten für das Produkt bleiben jedoch +/- dieselben.

Das Problem liegt somit nicht bei den Hersteller, sondern wie fast immer bei den Konsumenten (!!!)

Edgecrusher86

2022-09-26, 12:05:13

Von +10-30% würde ich jetzt nicht ausgehen. Plus 30-50% sollte weiterhin kein Ding darstellen bei gleicher Leistungsaufnahme dank neuen Fertigungsprozessen - alle 2 Jahre. Man muss halt konsequent das Upscaling mitverbessern.

HPVD

2022-09-26, 12:05:51

N3E is scheduled for around one year after N3, putting it firmly around the second half of 2023. As we noted earlier, N3E differs significantly enough from N3 to be treated as an entirely different migration path from N5. TSMC also makes its comparisons for N3E against N5 and not N3 for this very reason.
....

To that end, compared to N5, N3E is said to offer around a 1.6x density improvement in digital logic and around 1.1x improvement in analog logic. The slight density regression is noteworthy. TSMC says that N3E will enjoy higher yield from the get-go and offer better performance and power characteristics – 15-20% improvement in speed at ISO-power or, alternatively, 30-35% reduction in power at ISO-speed (both at nominal 0.75V). Both values are around 15% higher than N3.

https://fuse.wikichip.org/news/7048/n3e-replaces-n3-comes-in-many-flavors/

basix

2022-09-26, 12:08:20

30-35% Power Reduction = 1.5x Effizienz = 1.5x Performance ;)

Dural

2022-09-26, 12:28:57

Mit 3nm eventuell, danach eher nicht mehr.

basix

2022-09-26, 13:22:47

2nm kommt mit GAA, -25...30% Power vs. N3E:
https://www.anandtech.com/show/17453/tsmc-unveils-n2-nanosheets-bring-significant-benefits

Ist also ähnlich wie N5 -> N3E

Für GPUs ist aber eh die Frage, ob N5 die richtige Basis ist. N5HPC gibt es ja auch.

HOT

2022-09-26, 13:30:33

GPUs könnten auch wieder N5P sein. Schon N10 war es IIRC so mit N7P.

Neurosphere

2022-12-20, 00:20:09

Rumor: NVIDIA RTX 50 Series ‘Blackwell’ GPUs Will Bring Biggest Performance Leap In NVIDIA’s History

https://wccftech.com/rumor-nvidia-rtx-50-series-blackwell-gpus-will-bring-biggest-performance-leap-in-nvidias-history/?utm_source=dlvr.it&utm_medium=twitter

w0mbat

2022-12-20, 01:12:30

N3E is scheduled for around one year after N3, putting it firmly around the second half of 2023. As we noted earlier, N3E differs significantly enough from N3 to be treated as an entirely different migration path from N5. TSMC also makes its comparisons for N3E against N5 and not N3 for this very reason.
....

To that end, compared to N5, N3E is said to offer around a 1.6x density improvement in digital logic and around 1.1x improvement in analog logic. The slight density regression is noteworthy. TSMC says that N3E will enjoy higher yield from the get-go and offer better performance and power characteristics – 15-20% improvement in speed at ISO-power or, alternatively, 30-35% reduction in power at ISO-speed (both at nominal 0.75V). Both values are around 15% higher than N3.

https://fuse.wikichip.org/news/7048/n3e-replaces-n3-comes-in-many-flavors/
Das Problem ist, dass SRAM-Zellen nach N3E nicht mehr skalieren. Also nicht irgendwie "schlecht" oder so, sondern einfach keine Skalierung mehr.
Eine SRAM Bitzelle in N5P = 0.021µm² und eine SRAM Bitzelle in N3E = 0.021µm².

Mit Lovelace hat Nvidia ja angefangen wie AMD mehr cache zu verbauen, um den IMC zu unterstützen und nicht auf ein 512-bit SI gehen zu müssen. Blackwell wird trotz GDDR7 mehr Speicherbandbreite benötigen, also entweder 512-bit, was man vermeiden will, oder eben noch mehr cache. Wenn der jetzt aber 0,0% skaliert, nimmt der prozentual viel zu viel Platz weg.

Nvidia weiß ganz genau, dass chiplets der einzige Weg in die Zukunft sind.

Orko

2022-12-22, 17:18:28

Das Problem ist, dass SRAM-Zellen nach N3E nicht mehr skalieren.

N3 + Derivate mit FinFets
N2 + Derivate mit GaaFets

Mit GaaFets lässt sich die "Stärke" der Transistoren dann wieder kontinuierlich und nicht nur diskret (1 / 2 / 3 Fins) einstellen.
Auch wird ein geringerer Leckstrom angestrebt. Gerade für SRAM mit vielen parallelen SRAM Zellen an den Bitlines würde ich einen positiven Effekt erwarten.

Also erst mal abwarten was nach N3E so alles kommt.

Ich würde erwarten dass speziell TSMC beim Wechsel 3nm FinFet zu 2nm GaaFet die Pitches / Dimensionen etwa gleich lässt, und es erst beim nächten Node wieder kleiner wird. Analog dem damaligen Wechsel von 20nm planar auf 16nm FinFet.
Also gibt es wohl von N5x über N3x zu N2x eine gewisse Durststrecke bezüglich SRAM Skalierung.

Während ich aus heutiger Sicht für Blackwell TSMC N3x als wahrscheinlichten Kandidaten sehe, möchte ich N5x, N2x oder Samsung nicht ausschliessen.

Ansonsten gibts ja auch noch weiterführende Konzepte:
Forksheets, vertikale angeordnete Gaa-Transistoren, Stacking von Cache-Chips, ...

iamthebear

2022-12-23, 01:29:43

Meine Prognose:

RTX 5000 (2024):
Da selbst die Logic Density Verbesserungen von TSMC 5nm auf 3nm überschaubar sind und die Dies kaum größer werden denke ich, dass der Leistungsschub überschaubar sein wird. Dürften wohl maximal 50% Leistungssteigerung werden und diesen Bandbreitenbedarf kann man denke ich mit GDDR7 gut abfedern ohne den Cache zu vergrößern.

RTX 6000 (2026):
Wird wahrscheinlich ein 3nm Refresh, da 2nm wohl noch zu neu sein wird d.h. auch hier wird man keine zusätzliche Bandbreite brauchen

RTX 7000 (2028):
Wird dann vermutlich auf 2nm setzen aber viel Density gibt es hier ja auch nicht und bis dahin sollte GDDR7 schon etwas höhere Taktraten liefern können. Zur Not muss man den Cache eben auf 128MB vergrößern. Das wäre jetzt auch nicht so das Drama

RTX 8000 (2030):
Das ist dann schon zu weit in der Zukunft als dass man noch viel dazu sagen könnte. Bis dahin kann dann schon viel passieren.

Die Gerüchte von "Blackwell vs. Lovelace ist der größte Sprung jemals" sind offensichtlich Schwachsinn. Das müssten nämlich mehr als 3x sein (8800 Ultra vs. 7900 GTX).
Ich vermute, dass man mit einer 4090 die nächsten Jahre sehr gut eingedeckt ist, was auch wohl der Grund sein, warum Nvidia präventiv schon solche Mondpreise angesetzt hat. Mit einer 700 Euro 4090 würden sie sehr lange Zeit nicht mehr viel verkaufen.

Gott1337

2022-12-23, 03:59:34

Ich denke eher das der Leistungssprung sich auf RT bezieht.

Edgecrusher86

2022-12-23, 10:46:05

GeForce GTX TITAN [2680SP FP32] - 6GB @ 6 Gbps G5 [288 GB/s] (2013)
GeForce GTX TITAN Black [2880SP FP32] - 6GB @ 7 Gbps G5 [336 GB/s] (2014)
GeForce GTX TITAN X (Maxwell) [3072SP FP32] - 12GB @ 7 Gbps G5 [336 GB/s] (2015)
TITAN X (Pascal) [3584SP FP32] - 12GB @ 10 Gbps G5X [480,4 GB/s] (2016)
TITAN Xp (Pascal) [3840SP FP32] - 12GB @ 11,5 Gbps G5X [547,6 GB/s] (2017)
TITAN RTX (Turing) [4608SP FP32] - 24GB @ 14 Gbps G6 (2018) [672 GB/s] (2018)
GeForce RTX 3090 (Ampere) [10496SP FP32] - 24GB @ 19,5 Gbps G6X [936 GB/s] (2020)
GeForce RTX 3090 Ti (Ampere) [10752SP FP32] - 24GB @ 21 Gbps G6X [1008 GB/s] (2022)
GeForce RTX 4090 (Ada Lovelace) [16384SP FP32] - 24GB @ 21 Gbps G6X [1008 GB/s] (2022)
GeForce RTX 4090 Ti (Ada Lovelace) [18176SP FP32?] - 24GB @ 23-24 Gbps G6X? [1104 - 1152 GB/s?] (2023/2024)

...........................................................Spekulation.......... .................................................

GeForce RTX 5090 [22708SP FP32?] - 48GB @ 23-26 Gbps G7? [1104 - 1248 GB/s?] (2024)
GeForce RTX 5090 Ti [24756SP FP32?] - 48GB @ 26 - 28 Gbps G7? [1248 - 1344 GB/s?] (2025/2026?)

24576SP FP32 für den Blackwell Vollausbau könnte unter Umständen Sinn ergeben - 4 Tiles a 6144SP FP32, so mein Gedanke - das wäre dann auch +50% auf Ada Lovelace.
Das wäre in Kombination mit etwas höheren Taktraten wohl zwischen + 40 - 50% fps auf Ada Lovelace. Den riesigen Performance-Sprung sehe ich dann auch eher für DLSS3+.

In der Regel stieg die Bandbreite ja nicht so extrem - in den letzten Jahren markiert Ampere den eindeutig größten Sprung. Ada skaliert auch wegen den großen Caches ja extrem gut, obwohl die Bandbreite gleich zur 3090 Ti blieb.
Also es würde mich nicht wundern, wenn wir wieder zum Beispiel maximal + 5-6 Gbps mit der neuen Generation sehen werden und man die Caches noch etwas ausbaut.

Ich gehe davon aus, dass wir die vollen 36 Gbps G7 erst in drei bis vier Generationen brauchen. Vermutlich dürfte die RTX 5090 wieder Clampshell bekommen und erst 2026 32Gbit (4GB) zur Verfügung stehen, sodass die RTX 6090 die 48GB auf der PCB-Vorderseite spendiert bekommen dürfte.

Mandalore

2022-12-23, 16:01:48

Meine Prognose:

RTX 5000 (2024):
Da selbst die Logic Density Verbesserungen von TSMC 5nm auf 3nm überschaubar sind und die Dies kaum größer werden denke ich, dass der Leistungsschub überschaubar sein wird. Dürften wohl maximal 50% Leistungssteigerung werden und diesen Bandbreitenbedarf kann man denke ich mit GDDR7 gut abfedern ohne den Cache zu vergrößern.

RTX 6000 (2026):
Wird wahrscheinlich ein 3nm Refresh, da 2nm wohl noch zu neu sein wird d.h. auch hier wird man keine zusätzliche Bandbreite brauchen

RTX 7000 (2028):
Wird dann vermutlich auf 2nm setzen aber viel Density gibt es hier ja auch nicht und bis dahin sollte GDDR7 schon etwas höhere Taktraten liefern können. Zur Not muss man den Cache eben auf 128MB vergrößern. Das wäre jetzt auch nicht so das Drama

RTX 8000 (2030):
Das ist dann schon zu weit in der Zukunft als dass man noch viel dazu sagen könnte. Bis dahin kann dann schon viel passieren.

Die Gerüchte von "Blackwell vs. Lovelace ist der größte Sprung jemals" sind offensichtlich Schwachsinn. Das müssten nämlich mehr als 3x sein (8800 Ultra vs. 7900 GTX).
Ich vermute, dass man mit einer 4090 die nächsten Jahre sehr gut eingedeckt ist, was auch wohl der Grund sein, warum Nvidia präventiv schon solche Mondpreise angesetzt hat. Mit einer 700 Euro 4090 würden sie sehr lange Zeit nicht mehr viel verkaufen.

Was nein?

Ich kann mich noch sehr gut an den G80 erinnern, und der war im besten Fall (nicht abwertend gemeint) 2.5x mal schneller.

Ada ist erst die zweite Generation die etwas Ähnliches schafft - solche vorbeigezogenen Balken hast du lange nicht mehr beobachten können!

Und damals war der Vorgänger die problematische 7000er GTX Serie, diesmal war es die bis dato schnellsten Chips mit der RTX 30 (Ampere) Serie, darf man auch nicht vergessen!

bbott

2022-12-23, 16:33:35

Ich denke eher das der Leistungssprung sich auf RT bezieht.
Und wahrscheinlich DLSS 4 mit 2x -4x fps Generierung im Vergleich zu DLSS 3.

Sardaukar.nsn

2022-12-23, 17:18:29

Ich kann mich noch sehr gut an den G80 erinnern, und der war im besten Fall (nicht abwertend gemeint) 2.5x mal schneller.

Ada ist erst die zweite Generation die etwas Ähnliches schafft - solche vorbeigezogenen Balken hast du lange nicht mehr beobachten können!

Das ist ja auch der Grund warum recht viele Leute bereit sind 2 Riesen für eine Grafikkarte auf den Tisch zu legen. Wenn die Leistung stimmt, ist auch der Preis gerechtfertigt. https://www.3dmark.com/compare/spy/29595315/spy/33420218 in meinem Fall +120% zur Vorgänger Generation.

Cubitus

2022-12-23, 17:39:42

Was wir wissen?

- DLSS4
- The more you buy, the more you save
- Jensen hat ne Brille auf und ne Lederjacke an

EDIT:
Weiterhin monolothisch laut Kopite, ich glaube aber nicht dran, denn da käme bei mir langsam die Frage auf (3nm wird verdammt teuer werden), ob das margenmäßig noch konkurrenzfähig zu AMD wäre, wenn da wieder so ein >600mm² Monster um die Ecke kommt.

Das Design klappt doch hervorragend und die Leute bezahlen es, NextStop mind 2500 Dollar MRSP..

Blackwell wird dann mit der schwarzen Master-Card bezahlt :freak:

dargo

2022-12-23, 19:05:35

Das Problem ist, dass SRAM-Zellen nach N3E nicht mehr skalieren. Also nicht irgendwie "schlecht" oder so, sondern einfach keine Skalierung mehr.
Eine SRAM Bitzelle in N5P = 0.021µm² und eine SRAM Bitzelle in N3E = 0.021µm².

Mit Lovelace hat Nvidia ja angefangen wie AMD mehr cache zu verbauen, um den IMC zu unterstützen und nicht auf ein 512-bit SI gehen zu müssen. Blackwell wird trotz GDDR7 mehr Speicherbandbreite benötigen, also entweder 512-bit, was man vermeiden will, oder eben noch mehr cache. Wenn der jetzt aber 0,0% skaliert, nimmt der prozentual viel zu viel Platz weg.

Nvidia weiß ganz genau, dass chiplets der einzige Weg in die Zukunft sind.
Nicht nur Nvidia, das Problem kennt jeder Hersteller.

vQ5JPqeFitM

iamthebear

2022-12-23, 21:43:15

Ich denke eher das der Leistungssprung sich auf RT bezieht.

Das haben wir bei Ampere und Ada auch schon gehört. In Wahrheit war die RT Steigerung nicht nennenswert höher als die Raster Steigerungen:

Eine 3070 ist gleich schnell wie eine 2080 Ti sowohl in Raster als auch in RT
Eine 4080 ist 18% schneller als eine 3090 Ti in 4K Native Raster und 20% schneller in RT.

Irgendwie zweifle ich daran, dass bei Blackwell dann auf einmal 1.5x Raster und 3x RT Performance kommen werden.

Ich kann mich noch sehr gut an den G80 erinnern, und der war im besten Fall (nicht abwertend gemeint) 2.5x mal schneller.

Ich habe Generation gegen Generation verglichen also die 8800 Ultra (die etwas später gekommen ist) gegen die 7900 GTX.

Im Computerbase Rating bei 1600x1200 mit AA/AF waren es 2.78x.

https://www.computerbase.de/2007-05/test-nvidia-geforce-8800-ultra/24/#abschnitt_performancerating_qualitaet

Ada ist erst die zweite Generation die etwas Ähnliches schafft - solche vorbeigezogenen Balken hast du lange nicht mehr beobachten können!

Und damals war der Vorgänger die problematische 7000er GTX Serie, diesmal war es die bis dato schnellsten Chips mit der RTX 30 (Ampere) Serie, darf man auch nicht vergessen!

Dafür gab es damals jedes Jahr eine neue Serie, nicht nur jedes zweite.
Aber mir ging es speziell um die Aussage, dass es der größte Generationssprung in der Nvidia Geschichte sein wird, was sehr unrealistisch ist. Selbst wenn wir die 8000er Serie außen vor lassen. Blackwell vs. Ada wird auch weniger sein als Ada vs. Ampere (nicht vergessen der Full AD102 ist ja noch nicht released).

Und wahrscheinlich DLSS 4 mit 2x -4x fps Generierung im Vergleich zu DLSS 3.

Selbst bei DLSS3 fällt es mir sehr schwer von "doppelter Performance" zu sprechen. Also ich habe mit der Pendulum Demo den Test gemacht: Ab ca. 45fps sehe ich keinen Unterschied mehr mit FreeSync Display. Alles was sich darüber noch flüssiger anfühlt ist rein der Input Lag und der wird schlechter statt besser.

Einmal abgesehen davon sehe ich das eher von einer anderen Seite:
Eine neue GPU Generation bringt mir nicht mehr fps sondern mehr Bildqualität bei derselben Framerate, da ich dann die Bildqualität hoch schraube.
Jetzt stelle ich die Frage was es bringt Spiele mit zusätzlichen RT Effekten voll zu pumpen nur damit die Reflexionen noch ein bisschen besser aussehen wenn man auf der anderen Seite Features nutzen muss, die die Bildqualität senken. DLSS3 löst Probleme, die man ohne RT gar nicht hätte und im Fall der 4090 gilt das auch für DLSS2.

Nicht nur Nvidia, das Problem kennt jeder Hersteller.

https://youtu.be/vQ5JPqeFitM

Es wird kein Hersteller den Cache noch weiter vergrößern wenn dieser nicht mehr skaliert. Man wird die Probleme anders lösen.
.) Im CPU Bereich reicht es vollkommen aus wenn man ein N6 Cache Die oben drauf stacked. Mit einmal 80mm² N6 Chip sollte man um 128MB L3 raus bekommen. Viel mehr wird man in absehbarer Zeit nicht brauchen. Das viel größere Problem im CPU Bereich ist ohnehin die mangelnde Parallelisierbarkeit des Codes. Gewisse Sprünge lassen sich nicht vorhersagen egal wie viele Transistoren man in die Branch Prediction steckt.
.) Im GPU Bereich ist die Lösung den RAM auf das GPU Package zu verlagern. Das muss nicht zwingend HBM sein, wo der Fokus eher war größere Speichermengen unter zu bekommen.

basix

2022-12-24, 11:19:41

Irgendwie zweifle ich daran, dass bei Blackwell dann auf einmal 1.5x Raster und 3x RT Performance kommen werden.
Nö, wird nicht passieren. Aber dass RT schneller als Raster "beschleunigt" wird war bei Ampere und Lovelace schon so. Das beschränkt sich aber auf Spiele mit starkem RT-Einsatz (Cyberpunk, DL2, Pathtracing Zeugs).

Und Ampere sowie Lovelace zeigt ebenfalls auf: Es werden weitere RT-Accelerators eingebaut. Motion Blur, Opacity Micromaps, Micromeshes, ...

Fürs Denoising würde es sich ebenfalls anbieten, da das ein grosser Brocken an der RT-Last ist. Ob via Tensor Cores oder spezialisierten Einheiten werden wir sehen.

Ich habe Generation gegen Generation verglichen also die 8800 Ultra (die etwas später gekommen ist) gegen die 7900 GTX.

Im Computerbase Rating bei 1600x1200 mit AA/AF waren es 2.78x.

Da war ich noch jung und hatte nicht das Geld für eine 8800GTX. Und ich hätte so gerne eine gehabt. Mit der 8800GT war ich dann aber glücklich :)

Es wird kein Hersteller den Cache noch weiter vergrößern wenn dieser nicht mehr skaliert. Man wird die Probleme anders lösen.
.) Im CPU Bereich reicht es vollkommen aus wenn man ein N6 Cache Die oben drauf stacked. Mit einmal 80mm² N6 Chip sollte man um 128MB L3 raus bekommen. Viel mehr wird man in absehbarer Zeit nicht brauchen. Das viel größere Problem im CPU Bereich ist ohnehin die mangelnde Parallelisierbarkeit des Codes. Gewisse Sprünge lassen sich nicht vorhersagen egal wie viele Transistoren man in die Branch Prediction steckt

IPC kann man anscheinend noch gut steigern (siehe M1). Beim Takt geht langfristig vermutlich deutlich weniger. Und ich freue mich bereits auf 7950X3D mit 256MByte L3$ :D

Bei den CPUs wird man mMn nochmals verstärkt auf Accelerators setzen. Das steigert die IPC / Anwendungsleistung punktuell wohl enorm.

.) Im GPU Bereich ist die Lösung den RAM auf das GPU Package zu verlagern. Das muss nicht zwingend HBM sein, wo der Fokus eher war größere Speichermengen unter zu bekommen.
HBM geht eigentlich vier Probleme miteinander an:
- Bandbreite
- Energieverbrauch pro übertragenes Bit
- Platzbedarf
- Skalierbarkeit der Speichermenge (keine 8GB Krüppel mehr...)

Der grosse Nachteil sind die Kosten von HBM. Es gab von Samsung ja mal eine Ankündigung von Low-Cost HBM, welcher nur 512bit breit angebunden wäre. Was dann ohne Si-Interposer klappen könnte (laut deren Aussagen). Wenn ich aber RDNA3 anschaue: HBM könnte man wohl mit InFO-R realisieren. Schlussendlich wird aber der Preis entscheiden. Und da wird GDDR7 und etwas an on-chip Cache mittelfristig die noch günstigere Wahl sein.

HOT

2022-12-24, 13:19:08

Meine Prognose:

RTX 5000 (2024):
Da selbst die Logic Density Verbesserungen von TSMC 5nm auf 3nm überschaubar sind und die Dies kaum größer werden denke ich, dass der Leistungsschub überschaubar sein wird. Dürften wohl maximal 50% Leistungssteigerung werden und diesen Bandbreitenbedarf kann man denke ich mit GDDR7 gut abfedern ohne den Cache zu vergrößern.

RTX 6000 (2026):
Wird wahrscheinlich ein 3nm Refresh, da 2nm wohl noch zu neu sein wird d.h. auch hier wird man keine zusätzliche Bandbreite brauchen

RTX 7000 (2028):
Wird dann vermutlich auf 2nm setzen aber viel Density gibt es hier ja auch nicht und bis dahin sollte GDDR7 schon etwas höhere Taktraten liefern können. Zur Not muss man den Cache eben auf 128MB vergrößern. Das wäre jetzt auch nicht so das Drama

RTX 8000 (2030):
Das ist dann schon zu weit in der Zukunft als dass man noch viel dazu sagen könnte. Bis dahin kann dann schon viel passieren.

Die Gerüchte von "Blackwell vs. Lovelace ist der größte Sprung jemals" sind offensichtlich Schwachsinn. Das müssten nämlich mehr als 3x sein (8800 Ultra vs. 7900 GTX).
Ich vermute, dass man mit einer 4090 die nächsten Jahre sehr gut eingedeckt ist, was auch wohl der Grund sein, warum Nvidia präventiv schon solche Mondpreise angesetzt hat. Mit einer 700 Euro 4090 würden sie sehr lange Zeit nicht mehr viel verkaufen.

26 wirst du N2-Produkte sehen, TSMC will N2 bis 2025 produktionsfertig haben, das passt schon.
Aber NV hat Veträge mit Samsung abgeschlossen, ich vermute, dass die nächste NV-Generation in 3GAP gefertigt werden wird und nur GB100 wieder von TSMC in N3e kommt.

iamthebear

2022-12-24, 15:38:09

Nö, wird nicht passieren. Aber dass RT schneller als Raster "beschleunigt" wird war bei Ampere und Lovelace schon so. Das beschränkt sich aber auf Spiele mit starkem RT-Einsatz (Cyberpunk, DL2, Pathtracing Zeugs).

Das wird immer von allen behauptet aber wenn man sich die Benchmarks ansieht spielt sich das alles innerhalb von 0-5% ab und das lässt sich teilweisedurch CPU Limitierung erklären.

Und Ampere sowie Lovelace zeigt ebenfalls auf: Es werden weitere RT-Accelerators eingebaut. Motion Blur, Opacity Micromaps, Micromeshes, ...

Fürs Denoising würde es sich ebenfalls anbieten, da das ein grosser Brocken an der RT-Last ist. Ob via Tensor Cores oder spezialisierten Einheiten werden wir sehen.

Auch hier habe ich schon viel gehört was nicht alles mit Ampere und Ada beschleunigt wird. In der Praxis sieht man davon aber nicht viel.

IPC kann man anscheinend noch gut steigern (siehe M1). Beim Takt geht langfristig vermutlich deutlich weniger. Und ich freue mich bereits auf 7950X3D mit 256MByte L3$ :D

IPC ist immer stark architekturabhängig. Das M1 Design mag mehr IPC haben, erreicht aber nie die Taktraten von Zen4 oder Raptor Lake.

Bei den CPUs wird man mMn nochmals verstärkt auf Accelerators setzen. Das steigert die IPC / Anwendungsleistung punktuell wohl enorm.

Accelerators schön und gut aber inwiefern hilft das z.B. beim Öffnen einer großen Excel Datei, beim Installieren von Windows Updates, beim Surfen im Internet usw.

HBM geht eigentlich vier Probleme miteinander an:
- Bandbreite
- Energieverbrauch pro übertragenes Bit
- Platzbedarf
- Skalierbarkeit der Speichermenge (keine 8GB Krüppel mehr...)

Der Energieverbrauch reduziert sich dadurch, dass man die Daten nicht mehr über die Packagegrenzen hinaus transportieren muss.

Der grosse Nachteil sind die Kosten von HBM. Es gab von Samsung ja mal eine Ankündigung von Low-Cost HBM, welcher nur 512bit breit angebunden wäre. Was dann ohne Si-Interposer klappen könnte (laut deren Aussagen). Wenn ich aber RDNA3 anschaue: HBM könnte man wohl mit InFO-R realisieren. Schlussendlich wird aber der Preis entscheiden. Und da wird GDDR7 und etwas an on-chip Cache mittelfristig die noch günstigere Wahl sein.

Weniger Bandbreite löst das Problem nicht. Gaming GPUs brauchen die Bandbreite von HBM ohne den Zwang gleich so hohe Speichermengen verbauen zu müssen. 8GB VRAM hört sich nicht toll an aber wenn man den Preis unter 500€ halten will bleibt da nichts Anderes übrig.

Im Fall von AMD:
Was spricht denn dagegen den VRAM einfach per Infinity Link anzubinden genauso wie aktuell die MCDs? Aktuelle RAM density ist um die 30MB/mm². Mit 6*75mm² rundherum würde sich platzmäßig ausgehen und ergibt schon 12GB. Dann stacked man noch mal eine Lage oben drauf und wir sind schon mehr als glücklich.

26 wirst du N2-Produkte sehen, TSMC will N2 bis 2025 produktionsfertig haben, das passt schon.
Aber NV hat Veträge mit Samsung abgeschlossen, ich vermute, dass die nächste NV-Generation in 3GAP gefertigt werden wird und nur GB100 wieder von TSMC in N3e kommt.

2025 fängt TSMC mit den ersten Probeaufträgen an. Bis zu einer Massenfertigung, die bei großen GPU Dies gute Yields hat und N3 bei Preis/Transistor schlagen kann ist es noch ein langer Weg.

Zum Vergleich die Roadmap:
https://www.servethehome.com/wp-content/uploads/2022/06/TSMC-Roadmap-Q2-2022.jpg

N5 war für 2019/20 eingezeichnet. Real eingesetzt wurde es ab Ende 2022 in Ada/RDNA3.

Leonidas

2022-12-26, 07:53:47

Die Gerüchte von "Blackwell vs. Lovelace ist der größte Sprung jemals" sind offensichtlich Schwachsinn. Das müssten nämlich mehr als 3x sein (8800 Ultra vs. 7900 GTX).

Zu bedenken wäre hier auch, das bei solchen frühen Aussagen man fast immer auf das zuerst entwickelte Produkt abzielt - den HPC-Chip GB100. Das sich hierbei Mißverständnisse zugunsten einer hohen Gaming-Performance entwickeln, läßt man wohlweislich im Raum stehen, ohne es zu korrigieren.

robbitop

2022-12-26, 12:09:41

Bei Ada ist ein großer Teil der RT HW darauf angewiesen vom Entwickler explizit und korrekt angesprochen zu werden, damit man den Speedup bekommt. Ansonsten ist die RT Performance relativ zu Raster ähnlich wie Ampere.

HOT

2022-12-26, 12:15:59

[...]

2025 fängt TSMC mit den ersten Probeaufträgen an. Bis zu einer Massenfertigung, die bei großen GPU Dies gute Yields hat und N3 bei Preis/Transistor schlagen kann ist es noch ein langer Weg.

Zum Vergleich die Roadmap:
https://www.servethehome.com/wp-content/uploads/2022/06/TSMC-Roadmap-Q2-2022.jpg

N5 war für 2019/20 eingezeichnet. Real eingesetzt wurde es ab Ende 2022 in Ada/RDNA3.

N5 ist kein Maßstab. Da war Mangel an allen Orten und hohe Preise, das nicht im Ansatz vergleichbar. Gegenbeispiel ist hier Navi10, N7 war Anfang 2018 produktionsreif, Ende 18 kam Apple, Mitte 19 dann die GPU.
Wenn TSMC Ende 24 oder Anfang 25 N2 fertigstellt, wird in 25 noch das entsprechende Apple-Produkt erscheinen und ein Jahr später dann andere Produkte, wie GPUs. AMD CPUs werden sicherlich erst Ende 26 dran sein. Vorausgesetzt natürlich, mit N2 läuft alles glatt. Aber TSMC ist ja nicht Intel, die haben auch schon recht früh kommuniziert, dass N3 nicht toll läuft.

AMD-CPU-Roadmap nach meinem Empfinden:
Mitte 22 -> ca. 5Q -> Anfang 24 -> ca. 5Q -> Ende 25 -> ca. 5Q -> Anfang 27.

Thunder99

2022-12-27, 12:32:20

Sehe die spekulierten 48GB auf der 5090(TI) als nicht realistisch an. Wenn kommt dies bei einer Titan zu einem exorbitanten Preis. Nvidia typisch halt.

Nach der durchaus ausgeglichen Ada Serie erwarte ich eher Stagnation was die VRAM Menge anbelangt.

basix

2022-12-27, 13:59:38

16-24 GByte beim High End sehe ich als ausreichend oder sogar mehr als genug an. Mir wäre wichtiger, wenn im bis ins Mittelfeld 12 GByte standard werden, also für 60er und 70er Karten.

1080p -> 8GB
1440p -> 12GB
4K -> 16GB oder mehr

Noch besser wäre, wenn die 50er und 60er nächste Generation in Richtung 12GB gehen und 70/80 auf 16GB und oben drüber dann die 24GB. Verglichen mit AD104/106 würde das etwas breitere Speicherinterface zusammen mit etwas schnellerem Speicher der "natürlichen" GPU-Skalierung auf dem nächsten Node entsprechen.
GPU|SMs|Speicherinterface|VRAM Speed|VRAM Menge|L2$
xx107|32|128bit|24 Gbps|8 GByte|32MB
xx106|48|192bit|21 Gbps|12 GByte|48MB
xx104|80|256bit|21 Gbps|16 GByte|64MB
xx103|112|256bit|24 Gbps|16 GByte|64MB
xx102|192|384bit|24 Gbps|24 GByte|96MB
Dadurch wären die Chips durch die Bank ~1/3 grösser. Prinzipiell einfach 16x SM pro GPC anstatt 12x. Dazu +10...20% Takt und evtl. mehr IPC und es wäre für eine nächste Generation ein realistisches Ziel. Chips eher etwas kleiner als heute, ausser der SM-Umbau würde viele Transistoren kosten. Wenn Nvidia stark IPC obendrauf legt (z.B. FP32 FLOPs können fast immer aktiviert werden), dann liegen theoretisch auch ~2x Performance-Sprung drin. Ob das dann noch so wenig wie Lovelace verbrauchen würde? Vermutlich nicht.

AMD-CPU-Roadmap nach meinem Empfinden:
Mitte 22 -> ca. 5Q -> Anfang 24 -> ca. 5Q -> Ende 25 -> ca. 5Q -> Anfang 27.
Bin ich ungefähr derselben Meinung, auch wenn ich "Anfang Jahr" gegen H1 eintauschen würde. April-Mai ist kein ungewöhnlicher Releaszeitraum für CPUs.

Prinzipiell müsste man neu auch nach Zen X und Zen Xc unterteilen. Zen Xc jeweils ca. 1/2 Jahr später und in einem kleineren Node.

Ist jetzt aber etwas OT.

HPVD

2023-04-02, 10:30:15

Die Gerüchte von "Blackwell vs. Lovelace ist der größte Sprung jemals" sind offensichtlich Schwachsinn. Das müssten nämlich mehr als 3x sein (8800 Ultra vs. 7900 GTX).

Zu bedenken wäre hier auch, das bei solchen frühen Aussagen man fast immer auf das zuerst entwickelte Produkt abzielt - den HPC-Chip GB100. Das sich hierbei Mißverständnisse zugunsten einer hohen Gaming-Performance entwickeln, läßt man wohlweislich im Raum stehen, ohne es zu korrigieren.

ich denke genau das ist der Schlüssel.

Für HPC Blackwell vs HPC HOPPER könnte es tatsächlich zu einem 10x kommen.
Das wäre der größte Sprung ever.

In welchem Bereich?
Inferenz (single-chip performance)
hint "Inferenz ist der Prozess der Verwendung des trainierten Modells, um Vorhersagen über Daten zu machen, die wir vorher nicht gesehen haben"

Ansatz?
nutze
- VS-Quant (Per-Vector Scaled Quantization) UND
- Octav (Optimally Clipped Tensors and Vectors)

Details und Background:
https://www.nextplatform.com/2023/03/31/a-peek-into-the-future-of-ai-inference-at-nvidia/

Voraussetzung: das dort beschriebene landet bereits in HPC Blackwell (GB-100)
Dafür spricht:
- öffentliche Publikationen gibt es mindestens seit gut 2 Jahren darüber https://www.semanticscholar.org/paper/VS-Quant%3A-Per-vector-Scaled-Quantization-for-Neural-Dai-Venkatesan/0c201c52260963665e0d30b3fe0fa31291af210b
- sie sprechen heute "auf großer Bühne" darüber (die theoretische/mathematische Möglichkeit) Bill Dally at GTC Spring 2023
- sie haben als proof einen Testchip für diese Funktionalität, und sprechen offen über diesen

iamthebear

2023-04-02, 11:13:01

Mittlerweile sind wir schon bei "nur" mehr 2x-2.6x angelangt:
https://youtu.be/e2pSyjH06bQ

Ich denke, dass hier nur wie bei RDNA3 versucht wird krampfhaft einen Hype zu erzeugen. Da waren wir am Anfang auch bei 3x und am Ende sind es 43% mehr fps geworden (4K im CB Test).

basix

2023-04-02, 11:37:57

@HPVD:
Danke für die Links.

Und Chiplets beim HPC Ableger nicht vergessen ;)

HOT

2023-04-02, 11:41:59

Bisher kann man nur 2 Dinge zu Blackwell Consumer ernsthaft spekulieren:

- N3e-Basis wahrscheinlich (NV wirds 3N nennen)
- wahrscheinlich letzter Monolith

Ich spinn mir jetzt mal was zusammen :D:
Dadurch, dass die PCBs eh schon 14-Lagig sind und NV die Speichercontroller sehr kompakt und sparsam hinbekommt, würde ich von anderen Speicherkonfigurationen ausgehen, als bisher.
Ich würde sagen BL102 dürfte 512Bit breit sein, weil man sicherlich auch den Cache nicht weiter vergrößern möchte (wäre dann in dem Falle 128MB L2$) und entsprechend 32GB GDDR6X 24GT/s mitbringen.
Dann zieht sich das weiter runter:
BL103 -> 384Bit (20-24GB)
BL104 -> 256Bit (16GB)
BL106 -> 192Bit (12GB)
BL107 -> 128Bit (8GB)

Mein Problem: Die Bandbreiten müssen her, erst recht, wenn soviel mehr Leistung freigesetzt werden soll, außerdem braucht viel mehr RT auch viel mehr Bandbreite. Zudem passen die Speichermengen ziemlich perfekt zur Generation. Möglich wär auch GDDR7, aber man hätte das Problem der Speichermengen mit 384Bit Controllern, die aber an sich sicherlich wieder mehr Fläche verbrauchen, weil GDDR7, der Spareffekt könnte verpuffen. Und ich frage mich, ob das dann nicht noch ein größerer Kostentreiber wäre als einfach mehr GDDR6X Controller.

iamthebear

2023-04-02, 12:15:16

Also 512Bit Speicherinterface würde ich einmal stark bezweifeln. Bei GDDR5 hat das noch funktioniert weil da der Abstand zwischen Die und VRAM noch deutlich größer war. Bei GDDR6/7 sitzen die Chips direkt neben dem GPU Die und da passen eben nicht so viele Chips hin.

Ich denke, dass GDDR7 und die vollen 96MB vollkommen ausreichen um den zusätzlichen Bandbreitenbedarf zu decken.

AffenJack

2023-04-02, 12:51:06

Es hat schon seinen Grund, wieso wir 512 Bit lange nicht gesehen haben. Ich glaube nicht, dass das heutzutage wirtschaftlich ist.

Ich erwarte GDDR7 oder was vergleichbares von Micron bei Nvidias Next-Gen. Wieso Micron? Weil es Micron wirtschaftlich so schlecht geht, dass man alles tun würde um einen Exklusivvertrag mit Nvidia zu kriegen, wie mit GDDR6X. Daher erwarte ich, dass Micron für Nvidia 3GB Chips produzieren wird. Das wäre für Nvidia perfekt, um die Speichergrößen (bei 96-192 Bit) um 50% zu erhöhen. Samsung dagegen ist eher in der Position zu sagen, nimm 2 GB oder 4GB, wir werden nicht anfangen Zwischengrößen zu produzieren.

Aber das ist alles noch viel zu lange hin. Wir haben noch nichtmal einen spekulierten Namen zu den Gaminggpus gehört oder? Blackwell dürfte nur HPC sein.

Edgecrusher86

2023-04-02, 14:09:59

96-bit @ 9GB
128-bit @ 12GB
160-bit @ 15GB
192-bit @ 18GB
224-bit @ 20GB
256-bit @ 24GB
320-bit @ 30GB
384-bit @ 36GB

Das wäre sicherlich etwas, das Jensen schmecken würde. Micron dürfte bestimmt auch einen zweistelligen Prozentsatz an Rabatt geben.
Mal sehen. Die Speichermenge würde für 8K+ dicke schicken (aus Gamer-Perspektive bis auf zum Beispiel alte Brute-Force Kamellen mitsamt MS/SG vielleicht, wo 48-64GB optimal wäre, wenn es Richtung 16K ginge).

Was dagegen sprechen würde: NV fährt eigentlich immer zwei bis drei Generationen dieselbe Speichermenge in jedem Segment.
Insofern würde es mich nicht wundern, wenn wir auch bei 5070 (Ti) und 5080 (Ti) weiterhin 12 bzw. 16GB zu sehen bekommen würden.

Eventuell könnte man darunter aber 10GB spendieren statt derweil 8GB.

In der Enthusiastenklasse dürfte es aber wieder mehr geben - sind die 24GB doch seit der TITAN RTX gesetzt.

bbott

2023-04-02, 18:13:21

Die 1,5er RAM Module werden nur 10-20% günstiger sein als die 2GB Module, nicht ohne Grund nutzt sie keiner ��

basix

2023-04-02, 20:53:24

Naja, $/GByte ist schon eine relevante Zahl. Und je nach Konfiguration kann man sich ein Package sparen (z.B. 96bit = 9GB vs. 128bit = 8GB) was die Kostenrechnung zusätzlich verbessert.

Wenn also nur schon pro 3 GByte Modul 10-20% hinsichtlich $/GByte eingspart werden können, ist folgender Kostenvergleich wahrscheinlich zutreffend wenn die Chip-SI-Breite in den meisten Fällen entsprechend mitskaliert:
- 9GB, 96bit < 8GB, 128bit
- 12GB, 128bit < 12GB, 192bit
- 15GB, 160bit ~ 12GB, 192bit
- 18GB, 192bit < 16GB, 256bit

Für die für Mainstream und Lower Highend relevanten Konfigurationen (9-15 GByte, wir reden hier vom Lovelace Nachfolger), wo der Kostendruck am höchsten ist, sieht das für mich positiv aus mit 3 GByte Modulen.
Bandbreite ist noch eine Ungewissheit: Reichen die schmaleren SI und etwas höher taktender GDDR6(X) aus oder muss der L2$ vergrössert werden? Letzeres würde die Chipkosten wieder nach oben treiben.

reaperrr

2023-04-02, 21:22:39

Ich würde sagen BL102 dürfte 512Bit breit sein, weil man sicherlich auch den Cache nicht weiter vergrößern möchte (wäre dann in dem Falle 128MB L2$) und entsprechend 32GB GDDR6X 24GT/s mitbringen.
Dann zieht sich das weiter runter:
BL103 -> 384Bit (20-24GB)
BL104 -> 256Bit (16GB)
BL106 -> 192Bit (12GB)
BL107 -> 128Bit (8GB)

Mein Problem: Die Bandbreiten müssen her, erst recht, wenn soviel mehr Leistung freigesetzt werden soll, außerdem braucht viel mehr RT auch viel mehr Bandbreite. Zudem passen die Speichermengen ziemlich perfekt zur Generation. Möglich wär auch GDDR7, aber man hätte das Problem der Speichermengen mit 384Bit Controllern, die aber an sich sicherlich wieder mehr Fläche verbrauchen, weil GDDR7, der Spareffekt könnte verpuffen. Und ich frage mich, ob das dann nicht noch ein größerer Kostentreiber wäre als einfach mehr GDDR6X Controller.
Bisher hat man bei fast jeder der letzten Generationen gedacht "das ist zu wenig Bandbreite für die Rohleistung", aber trotzdem hat es irgendwie dann doch für entsprechende Leistungszuwächse gereicht.

Dass nochmal eine Consumer-GPU auf 512bit SI geht, sehe ich nicht. Speicherinterfaces lassen sich kaum noch shrinken, und die PCBs werden dadurch auch teurer und komplexer.

Wahrscheinlicher ist eine Kombination aus GDDR7 sowie Verbesserungen am Cache-System.

Leonidas

2023-04-03, 12:07:12

Die 1,5er RAM Module werden nur 10-20% günstiger sein als die 2GB Module, nicht ohne Grund nutzt sie keiner ��

Bei jedem anderen Hersteller stimmt der Einwand. Aber nVidia hat noch ein anderes Pro-Argument: Man will bewußt nicht zu viel Speicher mitliefern. Damit die Karten eben nicht ewig halten.

Ergo wäre es NV zuzutrauen, auch nur 5% Preisvorteil mitzunehmen, wenn man dafür eine Verdopplung verhindern kann ;)

Wuge

2023-04-03, 13:05:36

Bisher hat man bei fast jeder der letzten Generationen gedacht "das ist zu wenig Bandbreite für die Rohleistung", aber trotzdem hat es irgendwie dann doch für entsprechende Leistungszuwächse gereicht.

Naa, bei der 3090 war Bandbreite satt vorhanden, bei der 4090 sieht das schon ganz anders aus. Also die aktuellen Chips können schon auch am SI hängen...

The_Invisible

2023-04-03, 14:11:26

Naa, bei der 3090 war Bandbreite satt vorhanden, bei der 4090 sieht das schon ganz anders aus. Also die aktuellen Chips können schon auch am SI hängen...

Dafür hat man ja einen fetten L2 Cache...

Aber kann man ja eh leicht testen, so 1000-1500mhz vram macht fast jede 4090er mit, so viel fps gewinnt man jetzt damit auch nicht.

Tesseract

2023-04-03, 14:22:28

GPUs skalieren mit cache zwar nicht so gut wie CPUs aber wenn die architektur lokalität halbwegs gut ausnutzt (was wohl der fall sein wird sonst hätten sie nicht so viel fläche dafür geopfert) ist es nicht unrealistisch dass die 12-fache cachegröße die effektive bandbreite mehr als verdoppelt.

Nightspider

2023-04-03, 14:32:25

Spricht die Gerüchteküche bei Blackwell von monolithischen oder Chiplet Designs?

w0mbat

2023-04-03, 15:48:58

Ich glaube die Küche spricht von nochmal monolithisch.

HPVD

2023-04-03, 15:56:47

Spricht die Gerüchteküche bei Blackwell von monolithischen oder Chiplet Designs?

Consumer RTX5 5x00: wahrscheinlich monolitisch
https://twitter.com/kopite7kimi/status/1549382169302564865

HPC GB100: wahrscheinlich chiplet

Altehardware

2023-04-03, 17:44:04

So erstmal Gutn tach
Bin neu
Dann mal, ich mag Spekulationen und ich kenne die Gerüchte zu Blackwell recht gut.
ich gehe davon aus das blackwell entweder in n3 kommt und als eine einzelnen gb102 chip gibt und alle anderen sku auf ada refresh basieren wird auf n4

Zu balckwell design
Möglich wäre
Eine anlehnung zu hopper design mit 128 fp32 +2fp64 +int32/fp64 hybrid +32 int32 dediziert +4tensor +2 fpu (4 mal fp32) + RT core Mit 3mb L2 4 tmu und 256bit gddr7 36gbps
Dazu etwa 10 gpc zu je 18sm =180sm zu je 128 fp32 = 60192 bei 2,2ghz ergeben min 120,3tf

Die Gründe, nun n3 ist teuer etwa 25000-30000$ pro wafer also kann man davon ausgehen das chips nicht wesentlich kleiner werden und somit sku Unterhalb von 1000$ nicht umsetzbar sind.
Nehme ich mein bsp an wäre der chip bei etwa 799mm² und würde min 390$ kosten
eine sku darunter also mit nur 8gpc wäre etwa bei 440mm² und bei etwa 215$ pro chip
Dies wäre noch als rtx5090 denkbar
Alles darunter sehe ich keine chance zwar sind sku umsetzbar bis hinab zu 500$ aber dann ist auch Schluss und ein gb107 mit nur einen gpc 18sm wäre quasi stagnation von 200-500$ das lässt die Konkurrenz nicht zu.
Bis dahin also 2025 sehe ich bei 200$ sku etwa 20tf
Ein blackwell gb107 erreicht gerade mal 13tf bei etwa 180$
Klar ist es noch sehr früh dafür aber die interessante sku wäre der gb106 mit 2 gpc 36sm etwa 26-30tf bei etwa 399$ mit 12gb gddr7 36gbps 96bits~432gb/s
Allerdings müsste man von derzeit 2,8ghz auf unter 2,5ghz runter was die performance deutlich reduziert und der chip vermutlich bei 20tf seine grenze erreicht und das ist zu dem Zeitpunkt nicht mehr konkurrenzfähig.

Ein ada refresh in n4 bietet sich da eher an n4 node dürfte um die 15000$ kosten nehme ich an das dann der ad104 als rtx5060 kommt wäre die sku deutlich billiger also ich gehe von einer uvp bei etwa 279-359$ aus.
bei gesenkten Takt und gleichen sm wie die rtx4070 46sm etwa 2,2-2,5ghz
Das dürfte auch der Konkurrenz rdna4 eher treffen diese wird mcm 2 gcd/gcx mit je 30cu =60cu 2,4 Operationen pro cu 3,6ghz = maxed 34tf für etwa 300-450$
natürlich wird amd dies maximiert beim preis anbieten also ab 450-600$
und im einstieg also nur 40cu aktiv 350$ bei 22tf
Das würde nvidia ad104 chip genau treffen mit 46sm und gesenkten Takt.
Die sku erwarte ich bei etwa 170w tbp mit die gleiche vram Bestückung also 12gb.
Die rtx4070 wird am 13,4 vorgestellt und wird um die 200w tbp haben mit maxed 2,8ghz laufen 22,6tf etwa dasselbe wie die rtx3080 beim gleichen preis 700€

Der Grund warum ich das annehme ist das nvidia kein andere Wahl hat mcm ist noch nicht soweit bzw nvidia hat das Latenzproblem nicht gelöst und will auf n2 mit 3d warten.

Amd mcm wird deutliche Fertigungsvorteile haben wenn 30cu pro gcx die chipfläche auf nur noch 112mm² sinkt (gesamter chip etwa 225mm²+ 4mcd zu je 25mm² = 350mm² akä n42)
Eine sku mit dieser perf wäre ab 70% margin bei 270$ einstieg bei vollen chip also 60cu und da nvidia nen Teufel tun wird und nicht die preise senken wird ist amd Fähnchen bei marginalen Anpassung auf 350€ für 20tf bereit
Den Startschuss ist noch offen ich sehe da eher intel vorpreschen beim preis.
Aber wir werden sehen die derzeitige stagnation bei P/L wird nicht anhalten.

Die neuen Konsolen(ps5 pro) kommen ab q2 q3 2024 und werden dann 20tf für 400€/500€ anbieten
Das wird nvidia zwingen min auf 350€ gehen zu müssen . Amd Fähnchen wird da folgen.
Aktuell ist es so

250€-300€ derzeit 9,0tf amd nvidia 8,2tf
350-400€ 13tf amd nvidai 11tf
450-550€ amd 18tf nvidia 16tf
700€ amd 26tf nvidia 22tf
850€ amd 32tf nvidia 30tf

was ich sehe ist ab 2024
200-300€ rtx5050 50ti ~12-18tf 8gb sku rx8500xt 30cu 15tf 8gb vs 8gb
350-450€ rtx5060 qausi rebrand rtx4070 amd rx8600xt 40cu ~24tf 12gb vs 16gb
550- 650€ rtx5070 quasi rebrand rtx4070ti amd rx8700xt 60cu 35tf 12gb vs 16gb

Die Si Schnittstellen werden sich nicht ändern und der neue low end chip wird ad107 bleiben und für maxed 120€ als rt5030 kommen und der chip auf Effizienz getrimmt . also nur noch 2,2ghz bei 5tf 50w 3gb 96bit =216gb/s 18gbps vram
Allerdings ist das fraglich da amd igp schon diese perf haben werden ob das so kommt.
möglich wäre es noch da amd phoenix point apu auf sich warten lassen. ryzen 8000g Modelle.
Es sollen da bis zu 16cu drin sein ergo 16*64*2,4*2,6=6,4tf

Rembrandt (7000g) hat 12cu bei etwa 55w tdp 5nm vs 6nm hat etwa 30% Effizienz Vorteil entweder die 12cu bleiben und steigen um 15% Takt was dann von derzeit 2,4ghz (4tf) auf 2,7gh wäre = 5,3tf oder eben 16 cu mit 2,4ghz und 6,4tf
Unter dem umständen bei Einstiegs preisen um die 200-400€ als apu hat ne kleine gpu sku keinen Sinn mehr
Die frage ist wann amd die apu für am5 bringt und welche, Remnbrandt bietet sich an sobald der laptopmarkt auf phoenix point umschwenkt ab q4 2023
Nun blackwell sehe ich ehrlich am desktop nicht kommen eher als quadro oder als titan

zur Erklärung ampere sowie ada haben folgende sm Struktur
64 fp32 +64 int32 die in 32 dediziete int32 und 32 hybrid 16 fp32 dediziert und 16 int32 die abwechselnd fp32 rechnen ergeben 80 fp32 pro sm + 2 fpu die 4 fp32 rechnen = 8fp32

ergeben dann 88 fp32 12sm pro gpc

ga107 2gpc aktiv 20sm vs ad107 24sm aktiv 24sm
ga106 4gpc 48sm 28sm aktiv vs ad106 34sm aktiv
ga104 6gpc 72sm aktiv 48sm vs ad104 60sm aktiv
ga102 8gpc 96sm aktiv 84sm vs ad103 8gpc 76sm aktiv

gb102 und gb103 sehe ich kommen der Rest wird ad117 ad116 ad114 Sein

reaperrr

2023-04-03, 18:02:28

Amd mcm wird deutliche Fertigungsvorteile haben wenn 30cu pro gcx die chipfläche auf nur noch 112mm² sinkt (gesamter chip etwa 225mm²+ 4mcd zu je 25mm² = 350mm² akä n42)
Nach jetziger Infolage wird bei RDNA4 ein GCX nur 48 CU (24 WGP) haben, und ob nun N3E oder doch nur N4P verwendet wird, wissen wir auch noch nicht mit Sicherheit.
Aber selbst wenn es N3E wird, da N3E null Packdichte-Vorteile bei SRAM hat und die CUs gerade bei SRAM mit RDNA3 ordentlich zugelegt haben (50% mehr Register, verdoppelter L0 und Global L1), glaube ich nicht, dass ein GCX so viel Rohleistung je mm² haben wird. 30 WGP in 112mm² seh ich beim besten Willen nicht. Und CU wirst du wohl nicht gemeint haben, dann hätte N42 weniger als N32...

Die MCDs sind in N6 37mm², selbst wenn AMD die für RDNA4 auf N5 shrinken würde kämen sie nicht auf 25mm² runter, so gut skaliert N5 bei SRAM und analogen (Interface) Transistoren nicht.
Außerdem sollen die neuen MCDs doppelt so viel IF$ bekommen. Kann per Stacking sein, aber ich bin mittlerweile skeptisch, ob sich Stacking unterm Strich finanziell gegenüber einfach nur größeren MCDs lohnt, außer sie packen N6-Cache auf einen N5-MCD, aber das kann elektrisch zu Limitierungen führen.
Außerdem wissen wir noch nicht, ob AMD bei den MCDs wirklich auf N5 runtergeht, oder sogar bei N6 bleibt, dann kämen sie erst recht nicht auf 25mm² runter.

basix

2023-04-03, 18:12:33

3*48=144
4*48=192 :D

Wenn AMD das Chiplet-Konstrukt ausweitet, kann das Ding schon einen riesen Sprung hinlegen. 48 CU sollten auch in N4 und neuen RDNA4-Features nicht grösser als 200mm2 ausfallen (N32 GCD soll ~200mm2 bei 60 CU messen) und bei N3E geht es eher in Richtung 150mm2

Wuge

2023-04-04, 12:18:19

Dafür hat man ja einen fetten L2 Cache...

Aber kann man ja eh leicht testen, so 1000-1500mhz vram macht fast jede 4090er mit, so viel fps gewinnt man jetzt damit auch nicht.

Der Cache kompensiert das nicht. Und die 4090 skaliert prozentual genauso mit dem Speichertakt wie mit OC der Shader-Clocks. D.h. die hängt schon an der Bandbreite. Bei Ampere war mit RAM-OC fast nichts zu holen jenseits vom Mining.

robbitop

2023-04-04, 12:26:18

Die 4090 hat auch etwas wenig Cache. Die Cachereduktion war stärker als die Reduktion der SMs ausgehend vom Full Chip. RDNA2/3 haben bei vergleichbarem Performancelevel zu Ada (zB N31 vs AD103) mehr Cache.

basix

2023-04-04, 12:37:08

Die 4090 skaliert sowieso nur mässig mit der Rohleistung. Das kann der etwas zu mickrige L2$ sein aber ich vermute zudem, dass die etwas unterdimensionierte on-chip Crossbar limitiert. Mit reduzierter Chipspannung sinkt dessen Takt, was direkten Einfluss auf die Performance hat. Ich vermute hier ein Latenzproblem. Deswegen reagiert die 4090 normalerweise gut auf Speicher-OC wenn man UV betreibt, da die Speicherbandbreite sowie Speicherlatenz sinken. Das kompensiert die langsamer gewordene Crossbar. Ein grösserer L2$ kann das vermutlich besser verstecken, eliminiert das Problem aber nicht ganz. Die 12 GPCs zu füttern zollt anscheinend ihren Tribut. Die 4080 kann ihre 7 GPCs deutlich effektiver auslasten.

Altehardware

2023-04-06, 14:16:36

Nvidia architekturen sind seit 2006 mit einfacher fp32 Genauigkeit
Da ist das subsystem für die Speicheraddresen egal da diese linear mit skaliert
ampere sowie ada sind quasi identisch auf sm ebene anders sieht das bei rt core und tensor core aus.
Ja die sind in einen sm intrigiert agieren aber separat von den fp32 Einheiten
Während der Rt core explizit den fp32 Arbeit gibt
Die einzige Einheiten die auf das spechersystem eher mehr leistung herausholt sind die fpu diese sind aktiv 2 per sm und können 4 fp32 ausführen

Da aber nvidia seit 2019 quasi ne blackbox um die wahre fp32 leistung macht und eher auf software fps drängelt auch mit leichten flunkern was die echte fp32 leistung ist. Zuletzt mit generiete fps
Sagt deutlich das nvidia keine andere Wahl mehr hat ohne fortschritt in 3d chips bzw mcm wird es keine Leistungssteigerung mehr geben unterhalb von 1000$ gpu

Das Licht ist n2 und kommt erst 2026 bei den gpu an Serienfertigung 2025
bis dahin sehe ich nur marginale Leistungssteigerungen ab 300$ gpu von nur +50%
Danach allerdings explodieren die Leistungen der Sku auch weil man es muss ps6 kommt q1-q3 2027

Zu amd Debakel ich habe nix gehört von mehr fp32 Einheiten in rdna4 eher wird man versuchen den fp64 Ansatz zu verfeinern und die latenz des Speichersystems zu verringern
Damit rdna3 ansatz mit 4 operationen pro fp32 erreicht werden kann derzeit sind es 2,34 mitn31 und mit n33 2,6 und geplant wohl 3,0 pro fp32 Einheit.
Erreicht werden kann das mit vorladen von daten im cache, daher sind die 4 operationen im Idealfall bei 3 Schluss.

Bei n31 ist zudem das problem der Latenz zwischen mcd und gcd zu sehen was sich auch nicht ändert, bis amd auf einen neuen interposer einigt oder die chip stapelt.
Was eher wahrscheinlich ist ab n2
Dies würde die Latenz Problem womit n31 geplagt ist aufheben und etwa dieselbe Auslastung haben wie n33 als Monolithen
Also wenn wirklich nur ein gcd gibt mit denselben cu pro gcd also 60 wovon ich ausgegangen bin dann wird das 60*6*2,6*64=35tf und den großen Ableger mit 96 cu eben 57tf geben

Die arch kann das, lediglich die Fertigung verhindert höheren Takt und die Latenz ist baubedingt so.
Wovon ich aber ausgehe ist das amd in ein gcd zwei gcx nebeneinanderlegt und diese per tsv verbindet quas fertig gedruckt ohne das diese einzeln in packaging gehen müssen.
Das hat den vorteil das je gcx der chip funktional ist und wen teile deaktiviert werden müssen die yield dennoch hoch bleibt da weniger unbrauchbar werden.
Als Bild kann man das sich wie puzzeln vorstellen wo m rand der gcx tsv verbunden sind und da wo geschnitten wird diese ungenutzt blieben aus nen 200mm³ chip wird dann 100mm² die man entweder in 100mm² splitet oder eben zu zweit.
So könnte ich mir vorstellen das dass design gedacht ist einzeln Ausschneidbar und funktionsfähig mit kontakt zu mcd unterm chip mit einen aktiven interposer derzeit passiv und die gcx einzeln nutzbar.

Und in eien package verbunden also 2 30cu gcx macht 60cu pro gcd
das gleiche mit dem dicken und 48cu mal 2
Der Sinn ist das damit der n3 node brauchbar wird. da weniger fehlerhafte chips.
amd wird alles dafür tund as 60cu die nächste high end sku wird und das bei etwa 4,0ghz
das ergibt dann 96*64*2,6*4=63tf
Der chip wird 108+50=158$ kosten mit 12 16gbit gddr7 36gbps =24gb und 1,7TB/s bandbreite +inf cache der nochmal verkleinert wird zugunsten des 384bit si
Kann auch sein das amd den inf cache vergrößert der sich leider nicht skalierbar verkleinern kann.
Darum sehe ich eher das man diesen verkleinert um überhaubt von n3 node kleinere chips zu bekommen. tsmc gibt an bis zu 50% tramnsistor shrink aber keine sram Verkleinerung und genau sram frisst Fläche
Neben dem problem das die alu zu heiß werden. Weniger Fläche für den wärmetransport.
also entweder takt runter oder sram weniger damit weniger spannung anliegt
Sram hat eine ferste spannung da könne die alu noch so weniger strom verbrauchen wenn neben diesen es warm wird überhitzt die cu und der Takt geht runter.

Die ganzen Probleme die amd derzeit hat mit rdna 3 sind physischer Natur und können nur durch bessere Fertigung gelöst werden und vor n2 und der Einführung des geänderten transistors sehe ich da keine chance.

Entweder geht amd mit mcm mehre gcx man redet von min 3 per gcd und verkleinerten inf cache oder man setzt wieder auf nen monolithen in günstigen Fertigung und macht 800mm² chips.
Das alleine schafft amd nicht wegen der wafer Kapazitäten
Darum nehme ich an min 2 gcx pro gcd mit quasi mcm per druck und 2 chips designs
30cu und 48cu in reihe.
So weit der plan ob das mit der Latenz zwischen den gcx gelöst wird ist offen aktuell hat man dies verworfen und hat eine monolithischen gcd wo die latenz nur beim zugriff auf die mcd gibt und das hat gezeigt das da was nicht stimmen kann.
Das design ist auf min 3,2ghz und maxed 3,6ghz ausgelegt ich gehe wie gesagt von 4 ghz rdna 4 aus.

Die bsp konfig mit 60cu und nur 3,6ghz wäre ein chip 15$ und maxed kombiniert 30 oder 45$ je nachdem wie amd die gcd designt
ob nun die Optimierung der Latenz also 2,6 bis 3,0 Operationen pro cu oder weiterhin 2,34 und dafür mehr cu per gcd also 144cu bei 3,2ghz wird ist offen.

n3 verspricht bis zu 30% Energie Effizienz und wenn die Probleme mit den sram beseitigt sind sehe ich da durchaus bei mehr cu 3,2ghz
144*3,2*64*2,34=69tf
und darunter min 39tf
und das schon 2024
Diese zwei Wege hat amd aktuell entweder fixed man das Stromproblem oder legt die gcx nebeneinander und lässt die mcd in ruhe bleibt bei 6nm pro chip

amd plan mit mcm kosten einzusparen macht Sinn. Das die Effizienz leidet liegt wirklich am packaging viele der Strom Einsparungen sind derzeit inaktiv was man auch an n33 sehen kann und der ist in 6nm und erreicht locker 2,8ghz/75w in nen laptop (perf des n22)
Denkt man sich die arch in 5nm wird daraus min 3,2ghz-3,6ghz

Das n31 so dermaßen enttäuscht liegt allein an der Fertigung und ich meine nicht tsmc 5nm sondern das zusammenbauen der chips und dessen Betriebsspannung.

Amd hat das sicher nicht geplant und länger warten war keine option
darum sehen wir auch n32 und n33 nicht vor q3/q4 2023 am desktop

irgendwie läuft das wie immer bei amd nie Rund
technik hui praxis pfui

HPVD

2023-04-06, 15:28:42

@altehardware

Vielen Dank für Deine Beiträge.
Ich bin wirklich interessiert an dem Thema, trotzdem tue ich mich sehr schwer damit Deine Beiträge zu lesen und erst recht zu verstehen.

Das liegt sicher teilweise an mir, teilweise aber auch an der Art wie Du die Beiträge schreibst:
sehr lang, wenig strukturiert und mit teilweise ziemlich kruden Satzbauten, Grammatik und Rechtschreibung.

Vorschlag:
Vielleicht können wir uns in der Mitte treffen:
ich übe und versuche es weiter und
vielleicht könntest Du Dir etwas mehr Zeit nehmen und/oder technische Hilfsmittel nutzen: z.B.
- Text vorher in Word kopieren und alles korrigieren, was angemarkert wird oder
- im Browser die kostenlose Erweiterung von diesem Tool installieren:
https://languagetool.org/de (ganz unten auf der Seite gibts die Browser Addons), dann hast Du die Unterstützung direkt bei der Eingabe.

Nicht böse sein, ist freundlich gemeint und besser als wenn Deine Beiträge einfach ignoriert werden.

The_Invisible

2023-04-07, 08:47:02

512bit memory interface? https://twitter.com/kopite7kimi/status/1644187488574124033?cxt=HHwWgsDRiejzqdEtAAAA

Wär schon "fett", würden auch 32GB dazupassen :D

AffenJack

2023-04-07, 08:56:57

512bit memory interface? https://twitter.com/kopite7kimi/status/1644187488574124033?cxt=HHwWgsDRiejzqdEtAAAA

Wär schon "fett", würden auch 32GB dazupassen :D

Das ist auch nur Spekulationen von ihm. Ich bleibe weiterhin überzeugt, dass wir bei monolithischen Dies keine größeren Interfaces sehen werden. Die Kosten sind einfach zu hoch.

Anders gestaltet es sich bei Multichip Konzepten, den dann kann das interface im günstigen Prozess produziert werden. Daher ist AMD viel eher der Kandidat für 512 Bit als Nvidia.

Altehardware

2023-04-07, 12:13:57

Der imc sitz im gcd also wird das nix mit mehr als 384bit Si

basix

2023-04-07, 12:37:41

Wenn es monolithisch bleibt, kann ich mir 512bit nicht vorstellen. Bei Chiplets mit z.B. 2x Chiplets mit je 256bit evtl. schon.

Das wäre sowas wie man nehme 2x AD103 und 1x AD102 zu machen. Dabei kann man sogar noch auf Salvage setzen um irgendwie sowas zu generieren:
- 1x Chiplet = 80 SM // 256bit
- 2x Chiplet = 160 SM // 512bit (Titan)
- 2x Chiplet = 128...144 SM // 384bit (Salvage, xx90er SKU)

PCIe, Video Engines etc. kann man auch salvagen. Aber ob das so kommt? Wohl eher nicht.

Altehardware

2023-04-07, 18:26:21

das problem das amd und nvidai haben ist die latenz
wie ich beschrieben habe könnte amd das umgehen indem man das design qiuasi vordruckt auf dem wafer das beide chips jeweils einzeln oder zusammen laufen ohne das es zum bga auf dem interposer zu ner Kommunikation braucht.
nvidia hat diesbezüglich noch gar nix.
Die gpu werden da über dem interposer verbunden und haben dieselben probleme wie mit sli
Die Zukunft wird 3d chips sein bis dahin sehe ich nur ds nvidai mehr Takt aus den chips pressen will.
realistisch sind n3 produzierte gpu bei etwa 3,2ghz
das einzige was nvidai sonst tu könnte wäre der sm aufbau an dem von hopper anlehnen
das senkzt den Takt aber wird dennoch schnellere chips liefern.
gb102 10gpc 180sm aktiv 144
gb103 8gpc 144sm aktiv eventuell 112sm
gb104 6gpc 108sm aktiv 96sm
gb106 4gpc 72sm aktiv 60sm
gb107 2 gpc 36sm aktiv 34sm

Ein 128fp32 +16fp32 int32 hybrid +2fpu 8 operationen =min 148 fp32 pro sm

Das wäre möglich aber die waferpreise verhindern sku unter dem gb104
Außer nvidia verkauft entsprechen erst ab dem gb104 als high end

edit
neue info n2 node maxed 400mm² das begrenzt das upscaling bei amd und nvidia
ich vermute das man wirklich auf das 3d Bauprinzip setzen muss ansonsten werden die sm cu stagnieren

basix

2023-04-10, 16:46:27

Von Red Gaming Tech kam das Gerücht, dass Blackwell BL102 wie AD102 immer noch auf 144 SMs setzen soll und die SMs neu strukturiert werden. Ich habe mich gefragt, was hier am sinnvollsten sein könnte und bin auf folgende Ideen gekommen. Basis ist der INT / FP32 Mix aus der Turing Präsentation

INT32 / FP32 Instruction Mix = 0.36
INT32 / FP32 Instruction Mix max. ~0.5+ (worst case)

Daraus folgernd habe ich versucht, die IPC pro SM zu erhöhen, ohne die Anzahl der Execution Pipes unnötig zu erhöhen:

4x Execution Pipes anstatt 2x wie bei den Vorgängern
+1x FP32 und +1x INT32 Execution Pipes
FP32 + shared INT32/FP32 bleiben wie bei Ampere und Lovelace bestehen

|Turing|Ampere|Lovelace|Blackwell v1|Blackwell v2
FP32 Pipe|1|1|1|2|3
INT32 Pipe|1|0|0|1|1
FP32+INT32 Pipe|0|1|1|1|0
|||||
INT32 Throughput @ Games|0.36|0.59|0.59|1.05|1.00
Shared FP/INT Pipe FP32 Througput|n.a.|0.41|0.41|0.95|n.a.
FP32 IPC|1.00|1.41|1.41|2.95|2.78
FP32 + INT32 IPC|1.36|2.00|2.00|4.00|3.78

Weitere Überlegungen:

1.5x FP32 Throughput reicht, um 2.0x IPC oder anders gesagt Performance in Spielen zu erreichen (verglichen mit Ampere und Lovelace)
3x FP32 + 1x INT32 ohne Shared Pipe sind nicht vorteilhaft (Blackwell v2). Im Durchschnitt ist es OK, aber bei einigen Spielen mit >1.5x INT+FP Instruction Mix, würde die FP32 IPC auf <2.0 sinken. Bei 0.5x INT/FP wäre man mit einer einzelnen Shared Pipe immer noch bei 2.75 IPC, womit man nicht viel schlechter wäre als die 2.95 bei 0.36x INT/FP Verhältnis. Die Performance wäre somit deutlich konsistenter. Man sieht auch bei Ampere und Lovelace, dass bei steigender INT Last die IPC sinkt. Anstatt 1.41 erreicht man bei 0.5x INT/FP Verhältnis nur noch 1.25 IPC bei FP32
2x FP32 + 1x INT32 sind afaik fürs Scheduling nicht ideal, da 3 Befehle nicht durch 2 teilbar sind. Das hätte man mit 4x Pipes schöner realisiert
Chipfläche des SMs von der oben präsentierten Lösung ist <2x, da primär die FP32-Pipes viel Fläche benötigen. INT32 ist von der Fläche her einiges kleiner. Deswegen könnte dieses Konstrukt 2x Performance bei z.B. nur 1.6x Fläche pro SM bedeuten

Der Vorteil dieser Lösung ist, dass man die bestehende FP32-Leistung deutlich besser auf den Boden bringt und im Durchschnitt auf nahezu 100% FP32 Utilization käme. Und bei Spielen mit hoher INT-Last sackt die IPC durch die Shared-INT/FP Pipe nicht zusammen.

Folgend obige Tabelle mit 0.5x INT/FP Instruction Mix anstatt 0.36x. Da sieht man die Vorteile von "Blackwell v1"
|Turing|Ampere|Lovelace|Blackwell v1|Blackwell v2
FP32 Pipe|1|1|1|2|3
INT32 Pipe|1|0|0|1|1
FP32+INT32 Pipe|0|1|1|1|0
|||||
INT32 Throughput @ Games|0.50|0.75|0.75|1.25|1.00
Shared FP/INT Pipe FP32 Througput|n.a.|0.25|0.25|0.75|n.a.
FP32 IPC|1.00|1.25|1.25|2.75|2.00
FP32 + INT32 IPC|1.50|2.00|2.00|4.00|3.00

Hatstick

2023-04-10, 17:52:47

Wann startet eigentlich im Fall zb. der 5000er Generation die Forschung/Entwicklung?
Werden da schon Sachen entschieden, bevor zb. die 4000er Reihe released wurde?
Ist das quasi eine komplett parallele Entwicklung bis zu dem Punkt, wo der Rahmen der 4000er steht und somit die Ressourcen zur 5000/6000er Entwicklung verschoben wird oder komplett anders?

basix

2023-04-10, 18:45:26

Irgendwo 3-5 Jahre zwischen Entwicklungsstart und Release. Und es ist relativ wahrscheinlich, dass einige Merkmale der Chips bereits vor Release der Vorgängergerneration definiert werden. Ist vermutlich nicht komplett parallel, da ja einige Merkmale und Technologien der Vorgängergeneration mitgenommen werden.

Man kann den Entwicklungsprozess in etwa so darstellen:
0) Vorentwicklung (Technologiestudien)
1) Architekturmerkmale definieren
2) Design & Simulation
3) Physical Design (Layout und Routing des Chips im entsprechenden Prozess)
4) Tapeout
5) Chip kommt von Fab zurück
6) Bring-Up und Firmware / Software Finalisierung

1) bis 2) wird sich im Idealfall mit 3) bis 6) der Vorgängergeneration überlappen. Damit wäre sichergestellt, dass man alle Features der Vorgängergeneration bei der initialen Architekturdefinition einbringen kann. In Realität ist es vermutlich nicht ganz exakt so getrennt, dafür müsste man dann allerdings 2 Architektur- & Designteams haben ("Leapfrogging") und während der Designphase 2) dürften bis zu einem gewissen Grad noch gewisse Änderungen ins Design einfliessen

0) ist komplett parallel zu allen Prozessen. Das ist mehr Grundlagen-Forschung und Design

robbitop

2023-04-10, 19:53:11

Wozu eine fixe Einteilung? Wenn alle Einheiten alles können ist das flexibler.

Ich frage mich, ob es sinnvoll ist mehr Einheiten pro SM zu haben. Bei Pascal vs Kepler hat man eher reduziert. Bei Volta/Turing nochmal.
Die Granularität sollte besser werden, wenn man lieber mehr SMs mit weniger Units hat. Kostet mehr Transistoren aber so sollte man mehr Leistung extrahieren können. Warum man jetzt den gegenteiligen Weg gehen sollte ist mir unklar weil man kann ja mit Ampere und Ada ja bereits sehen, dass sie Schwierigkeiten haben Leistunf pro Takt rauszuholen (rohleistongsnormiert zu Pascal).
Klar die Karten werden immer neu gemeischt und man nimmt von gen zu gen das was am Meisten punch pro Transistor bringt und das Verdoppeln der FP Kanäle bei Ampere war vermutlich billig.

Ggf geht es auch in eine andere Richtung: man bohrt die SMs auf (doppelte Scheduler resources und alle Units können alles und mehr Register - im Prinzip back to Pascal) und man hat mehrere 144 SM Chiplets. (auch wenn die Gerüchte dagegen sind - es sind ja noch sehr sehr frühe Gerüchte und da ist die Genauigkeit immer sehr sehr schlecht!).

Oder aber 144 SMs mit deutlich höherem Takt und deutlich höherer IPC führen zur Leistungssteigerung.

HOT

2023-04-10, 20:14:39

Was ist denn, wenn nv wieder den Weg wie bei Fermi gehen würde, also SMs mit mehr Takt als der Rest?

basix

2023-04-10, 20:41:46

Wozu eine fixe Einteilung? Wenn alle Einheiten alles können ist das flexibler.
Komplexität und Chipfläche. Man könnte sich ja fragen, wieso das bei Ampere nicht schon so war. War es aber nicht ;)

Und 4x FP32 sind definitiv deutlich fetter als 3x FP32 + 1x INT32

Und dann wäre da noch Effizienz und Auslastung:
- Bei Ampere ist eine der fetten FP32 Pipes während ~60% der Zeit leer. INT32 wird berechnet. Im Schnitt hat man also nur etwa 70% FP32 Utilization. Das ist eigentlich massive Verschwendung von Chipfläche
- Bei Blackwell v1 hat man bis und mit 0.33x INT/FP vollen FP32 Durchsatz, bei den meisten INT/FP Ratios (anhand der Turing Folie) >90% und selbst bei sehr hohen 0.6x INT/FP immer noch 83% des Maximums. Ampere hat dann noch 63% und kommt nur selten bei >75% raus (<0.3x INT/FP Ratio)

Ich frage mich, ob es sinnvoll ist mehr Einheiten pro SM zu haben. Bei Pascal vs Kepler hat man eher reduziert. Bei Volta/Turing nochmal.
Die Granularität sollte besser werden, wenn man lieber mehr SMs mit weniger Units hat. Kostet mehr Transistoren aber so sollte man mehr Leistung extrahieren können. Warum man jetzt den gegenteiligen Weg gehen sollte ist mir unklar weil man kann ja mit Ampere und Ada ja bereits sehen, dass sie Schwierigkeiten haben Leistunf pro Takt rauszuholen (rohleistongsnormiert zu Pascal).
Klar die Karten werden immer neu gemeischt und man nimmt von gen zu gen das was am Meisten punch pro Transistor bringt und das Verdoppeln der FP Kanäle bei Ampere war vermutlich billig.
Das ist das Problem: Transistor Scaling hat sich seit 2020 nochmals verlangsamt und die Nodes werden immer teurer. "Transistors for Free" ist definitiv gestorben. Und Gaming sowie HPC sind weiter auseinander als es noch bei Volta und Turing war. Spezialisierung und Optimierung ist das Stichwort. Und man sieht bei allen Architekturen (egal ob AMD, Nvidia, Intel, Gaming oder HPC), dass die Grundelemente eher breiter als schmaler werden. Damit erreicht man mehr Throughput pro Fläche. Scaling der SMs wird dann über Architekturkniffe und Software erreicht, damit man (zu) teure zusätzliche Logik sparen kann.

Ggf geht es auch in eine andere Richtung: man bohrt die SMs auf (doppelte Scheduler resources und alle Units können alles und mehr Register - im Prinzip back to Pascal) und man hat mehrere 144 SM Chiplets. (auch wenn die Gerüchte dagegen sind - es sind ja noch sehr sehr frühe Gerüchte und da ist die Genauigkeit immer sehr sehr schlecht!).
Das wäre ja mein Ansatz: Doppelte Scheduler Resources (wenn und wo nötig) & doppelte Execution Pipes. Aber nicht mehr SMs. AD102 skaliert verglichen mit AD103 und AD104 extrem schlecht.

Oder aber 144 SMs mit deutlich höherem Takt und deutlich höherer IPC führen zur Leistungssteigerung.
Siehe oben: Breitere und besser austarierte SMs, womit IPC/Area optimiert wird. Und dann noch >3GHz Takt, was halt mit N3E/X dann halt geht.

2x IPC pro SM & 1.1...1.2x Takt und wir wären in etwa bei der Performance-Prognose von Red Gaming Tech.

Was ist denn, wenn nv wieder den Weg wie bei Fermi gehen würde, also SMs mit mehr Takt als der Rest?
AMD hat mit RDNA3 genau das umgekehrte gemacht. Frontend höher getaktet als die Shader-ALUs ;) Ich glaube nicht, dass die Rohperformance das Problem ist. Alles ausgelastet zu kriegen ist schwer.

robbitop

2023-04-11, 06:06:04

Das Problem warum Ampere nicht die 128 fps ausnutzen kann sind vor allem die nur halbem Schedulerresources vs Pascal. Pascal bekommt 128 fps auch gefüllt. Dass int der größte Bottleneck ist, ist eine urbane Legende die sich hartnäckig hält.

Und nein ich meine keine breiteren SMs sondern einfach nur welche die die vorhandenen 128 fps auch nutzen können. Noch mehr fps pro SM werden potenziell in immer weniger Mehrleistung münden.
Ich würde annehmen, dass darüberh hinaus zusätzliche Chipfläche besser investiert wäre in entweder mehr Takt und/oder mehr SMs (ob nun über Chiplets oder monolithisch).

Auf die 144 SMs würde ich noch nicht viel geben. Frühe Gerüchte waren bis dato immer falsch oder wenigstens ungenau.

HOT

2023-04-11, 08:34:10

512bit memory interface? https://twitter.com/kopite7kimi/status/1644187488574124033?cxt=HHwWgsDRiejzqdEtAAAA

Wär schon "fett", würden auch 32GB dazupassen :D
Hab ich schon vor Seiten spekuliert. NV muss halt die Balance aus Bandbreite, Cache und Kosten im Auge behalten, wenn man keine Chiplets machen kann, aber viel RT-Leistung will, bleibt eigentlich keine große Wahl.
Ich vermute nämlich, dass 384Bit GDDR7 von Fläche und Kosten her deutlich teurer sind als 512Bit GDDR6X.

NV muss die Cache-Größe effizient gestalten und genug Speicherbandbreite zur Verfügung stellen. Außerdem muss NV flächenmäßich die Recheneinheiten so designen, dass man trotzdem ideal viel Leistung freisetzt. Daher ist meine Vermutung:

BL102
- 144 komplett neu gestaltete, aber nicht breitere, jedoch viel RT-potentere SMs mit 1/3 mehr Takt als der Rest des Chips, da ist der eigentliche Architektursprung
- 512Bit GDDR6X (32GB)
- 128MB L2$ (passend zum Speicherinterface)
- 600mm² vielleicht in einem N3e-Derivat (3N genannt) oder weiterhin noch mehr mm² in 4nm
- maximal 600W (5090Ti)

Vielleicht hat das Teil nicht mal 3nm ;). Kopite7kimi kam da ja mit nem Posting letztens. Dann hätten wir eher einen knapp 800mm²-Chip in 4N, also so ne Art Turing.

AMD hat hier einfach mehr Spielraum. Auch MLID meldete, dass NV bis auf weiteres monolithisch bleiben wird und lieber auf KI komplett umsteigt, als das aufzugeben. Klingt für mich danach, als hätte NV Chiplets einfach knallhart komplett verpennt und nun ist es zu spät. Bei Chiplets sind ja nicht die Chiplets das Problem sondern, wie man Chiplets a.) latenzfrei hält (siehe RDNA3) und b.) möglichst wenig Mehrverbrauch produziert (wie bei Zen4, hier reichts sogar für Mobil, ja ich weiss, hier kursiert immer noch das Märchen vom hoihen Idle-Verbrauch).

basix

2023-04-11, 20:55:00

Das Problem warum Ampere nicht die 128 fps ausnutzen kann sind vor allem die nur halbem Schedulerresources vs Pascal. Pascal bekommt 128 fps auch gefüllt. Dass int der größte Bottleneck ist, ist eine urbane Legende die sich hartnäckig hält.
Ampere kann alle 128 FP32 ausnutzen, ja. Aber nur bei 100% FP-Code. Sobald man einen FP/INT Mix hat, wird die zweite Pipe teilweise von INT belegt. Siehe meine Tabelle: Bei 0.36 INT/FP Mix erreicht Ampere im Schnitt nur noch ~70% des maximalen FP32 Throughputs (1.41 IPC anstatt 2.0). 1.4x passt auch ziemlich gut zum Performance Unterschied einer 3080 zur 2080 Ti (selbe Anzahl SMs, ähnlicher Takt).

Und nein ich meine keine breiteren SMs sondern einfach nur welche die die vorhandenen 128 fps auch nutzen können. Noch mehr fps pro SM werden potenziell in immer weniger Mehrleistung münden.
Ich würde annehmen, dass darüberh hinaus zusätzliche Chipfläche besser investiert wäre in entweder mehr Takt und/oder mehr SMs (ob nun über Chiplets oder monolithisch).
Drei Punkte:

Maximierte FP32-Performance geht nur, wenn man eine dedizierte INT-Einheit hat. Per Definition. Jetzt kannst du 2x FP + 1x INT realisieren. Diese Idee hatte ich auch schon. Nur sagen dann alle mit Ahnung, dass das nur schlecht machbar ist, da 3 Waves pro SM nicht gut mit den Scheduler-Mechanismen funktionieren. 1, 2, 4, 8, ... scheinen besser geeignet zu sein.
Hast du mal die AD102 Die Shot Analyse von Locuza angesehen? FP32 + Tensor etc. nimmt aufs gesamte SM gesehen relativ wenig Fläche ein. Wenn man die Leistung pro SM um 2x Steigern kann, wenn man mehr Execution Units verbaut, wird man deutlich mehr Perf/Fläche rausholen als mit mehr SMs. Dazu noch der Punkt, dass 12 GPCs bei AD102 nur schlecht skalieren gegenüber den 7 GPCs von AD103. Einzige Ausnahme: Pathraced Zeugs >= 4K
Mein "Blackwell v1" Ansatz geht genau in diese Richtung: Möglichst immer alle FP32 Einheiten auslasten, maximale Performance pro Fläche, möglichst geringer Overhead der GPC/SM

robbitop

2023-04-12, 06:39:06

Ich bin der Ansicht INT wurde total überbewertet. Turing war pro FP Unit (obwohl es genausoviele INT wie FPs zusätzlich gibt die nicht mitgezählt worden sind) praktisch kaum schneller als Pascal. Und Pascal musste INT eben von der FP Leistung „bezahlen“ weil die FPUs auch INT konnten.
Die INT story hält sich hartnäckig aber es waren vor allem die schedulerresources bei Ada und Ampere, die es schwerer machen die verdoppelte fp Leistung auf die Straße zu bekommen.

Aber ja die eigentlichen FPUs kosten kaum Fläche weswegen man bei Ampere die INT Unit auch FP fähig gemacht hat.
Will man jetzt aber die Units nochmal verdoppeln braucht man auch mehr von allem anderen: Datenpfade, Register, Kontrolllogik, dickerer Scheduler und IMO auch größere Caches. Ob das dann wieder so ein guter deal pro Transistor ist? Man muss ja dann mehr ausgeben und erhält noch weniger dafür (deminishing returns).

mksn7

2023-04-12, 10:44:09

Ich denke zusätzliche FP32 oder Int Einheiten sind weniger aufwändig zu implementieren als den scheduler wieder auf dual-issue aufzubohren. Da hängt ja auch das register file mit dran, was doppelte Bandbreite liefern müsste.

Dann eher zwei halb breite int/fp32 ports. Steigert nicht die Spitzenleistung bringt aber mehr Flexibilität. Diese "0.36x" werden völlig überbewertet. Es gibt genug shader die mehr int als fp instructions ausführen. Oder sehr phasenweise unterschiedliche mixes haben. Typisch sind am Anfang viel Int und loads, und danach FP.

robbitop

2023-04-12, 11:10:51

Ich denke zusätzliche FP32 oder Int Einheiten sind weniger aufwändig zu implementieren als den scheduler wieder auf dual-issue aufzubohren. Da hängt ja auch das register file mit dran, was doppelte Bandbreite liefern müsste.

Jap genau deshalb hat man das bei Ampere ja auch gemacht. :)

Die Frage ist wie bekommt man im nächsten Schritt noch mehr Leistung pro Transistor. Ggf. ist es jetzt Zeit dual issue aufzubohren und/oder noch mehr Takt oder mehr GPCs.

Man kratzt offenbar langsam an Limits was Parallelisierbarkeit angeht. Also muss man mehr ILP extrahieren und die Frequenz steigern.

IMO hat man das ja schon bei Maxwell und Volta/Turing (weniger FPs pro SM vs Kepler dafür aber mehr SMs) und Pascal und Ada (kaum Steigerung an SMs dafür große Taktsteigerung) gesehen. Einfach nur die Rohleistung über Einheiten hochprügeln (sowohl SM count als auch Units pro SM) da läuft man irgendwann bei aktuellem Code offenbar in Parallelisierungslimits. (wobei da ggf. der zusätzliche Compute durch immer aufwändigeres RT "aushelfen" kann)

Es bleibt spannend, weil sich die Limits pro Gen immer verschieben und dadurch immer eine andere Maßnahme am meisten Punch pro Transistor bringt.

Mein Bauchgefühl sagt mir, dass breitere SMs ggf. nicht die beste Lösung sein könnten. (back to Kepler? :D)

HOT

2023-04-12, 11:31:33

Für RT wäre es weit wichtiger die Latenzen zu verringern, das kann man durch mehr Takt am leichtesten erreichen. Größere Breite ist mMn ziemlich unwichtig, wenn BL hinterher durch den höheren SM-Takt nur 30% Rasterleistung gewinnt ist doch unerheblich. 50-60% RT-Leistung, das muss das Ziel sein. Das wäre i.Ü. auch ein Ziel, das man mit einem N4-Derivat erreichen kann. Ich glaube mittlerweile auch nicht, dass NV auf ein N3-Derivat wechseln wird. N3 selber ist zu schlecht und N3e ist einfach sehr knapp und sehr sicher zu teuer.

basix

2023-04-12, 11:36:41

Man kratzt offenbar langsam an Limits was Parallelisierbarkeit angeht. Also muss man mehr ILP extrahieren und die Frequenz steigern.

Bei Pathtracing klappt es wieder ganz gut ;) In CP2077 mit Pathtracing Overdrive sehen wir bei 1440p und 4K endlich die ~1.6x Rohleistungsunterschied zwischen 4090 und 4080 auch bei den FPS.

Und ist zudem fast perfekt linear von der Auflösung abhängig, was bei RZ oder RZ+RT Mix-Rendering in modernen Spielen weit weg von der Realität ist.

robbitop

2023-04-12, 11:44:19

Ja mit Pathtracing kann man wieder schön SMs skalieren. Aber noch ist die Performance nicht dort, wo man sie bräuchte. Aber in ein paar Generationen wird es ggf. relevant genug sein.

Tesseract

2023-04-12, 12:20:13

Bei Pathtracing klappt es wieder ganz gut ;) In CP2077 mit Pathtracing Overdrive sehen wir bei 1440p und 4K endlich die ~1.6x Rohleistungsunterschied zwischen 4090 und 4080 auch bei den FPS.

ein wesentlicher punkt ist halt die software die auf so starke hardware nicht zugeschnitten ist. völlig unabhängig von der architektur hatte die 1080Ti anfangs genau das gleiche problem und einige waren der meinung sie sei eine fehlkonstruktion und skaliert nicht weil sie kaum über der 1080 lag. 1-2 jahre später sah die sache gleich ganz anders aus.

basix

2023-04-12, 12:24:53

Klar, SW hat einen wesentlichen Beitrag am Scaling. Mit Pathtracing scheint es aber generell einfacher zu gehen als mit "Legacy" Rendering-Verfahren. Weil das zugrundelegende Verfahren eben inhärent auf massive Parallelisierbarkeit ausgelegt ist und man alles dynamisch berechnet.

Es gibt zudem Entwickleraussagen, dass ohne Pathtracing gewisse Sachen unabhängig von der Auflösung berechnet werden müssen. Was aber mit Pathtracing zum grössten Teil wegfällt. Somit nähert man sich wieder besser an eine lineare Performance-Skalierung mit der Anzahl Pixel heran.

basix

2023-04-16, 11:20:35

Von Red Gaming Tech kam das Gerücht, dass Blackwell BL102 wie AD102 immer noch auf 144 SMs setzen soll und die SMs neu strukturiert werden. Ich habe mich gefragt, was hier am sinnvollsten sein könnte und bin auf folgende Ideen gekommen. Basis ist der INT / FP32 Mix aus der Turing Präsentation

INT32 / FP32 Instruction Mix = 0.36
INT32 / FP32 Instruction Mix max. ~0.5+ (worst case)

Daraus folgernd habe ich versucht, die IPC pro SM zu erhöhen, ohne die Anzahl der Execution Pipes unnötig zu erhöhen:

4x Execution Pipes anstatt 2x wie bei den Vorgängern
+1x FP32 und +1x INT32 Execution Pipes
FP32 + shared INT32/FP32 bleiben wie bei Ampere und Lovelace bestehen

Note: Tabelle verglichen mit zitiertem Post korrigiert / angepasst
|Turing|Ampere|Lovelace|Blackwell
FP32 Pipe|1|1|1|2
INT32 Pipe|1|0|0|1
FP32+INT32 Pipe|0|1|1|1
||||
INT32 Throughput @ Games|0.36|0.53|0.53|1.06
Shared FP/INT Pipe FP32 Througput|n.a.|0.47|0.47|0.94
FP32 IPC|1.00|1.47|1.47|2.94
FP32 + INT32 IPC|1.36|2.00|2.00|4.00

[...]

Ich habe die IPC anhand des Instruction-Mixes mal geplotted. Man sieht mMn folgende Dinge:

Ampere hat den max. FP32 Througput gegenüber Turing stark erhöht. Damit Ampere das aber ausnutzen kann, muss primär FP32 Code vorhanden sein. In Spielen ist man im Schnitt weit entfernt von 2.0x Throughput
Blackwell würde bei meinem Konzept den FP32 Throughput gegenüber Ampere "nur" um 1.5x erhöhen (bei Iso Clock und gleicher Anzahl SMs). Sobald man aber in den Bereich des durchschnittlichen INT/FP Mix kommt, erreicht man 2.0x Throughput! Und bei sehr hohen INT/FP Ratios bleibt es bei diesen 2.0x, da man 2x INT Pipes zur Verfügung hat.
Verglichen zu Turing erreicht man wohl sehr oft 3.0x Throughput pro SM. Auch bei mixed INT/FP Workloads bleibt man nahe dran. Nur bei sehr viel INT gewinnt Turing dazu, doch Blackwell bringt im Extremfall immer noch 2.0x Througput pro SM
Blackwell könnte in sehr vielen Fällen die IPC/FLOP von Turing erreichen. Voraussetzung wäre allerdings, dass man die Execution Units auch füttern kann (Register, L1$, Scheduler-Ressourcen)
Blackwell wäre mMn Win-Win: Stark erhöhter FP32 Durchsatz von Ampere & Ada kann beibehalten und deutlich öfter auf den Boden gebracht werden. Man investiert 1.5x in FP32 und erreicht in vielen Fällen ~2.0x Steigerung des Durchsatzes. Dort wo Ampere schon extrem gut war (FP32) wird man "nur" 1.5x besser aber eben, Ampere war dort schon sehr gut. Verglichen zu Turing steigert man den FP32 Durchsatz enorm (Konzentration auf FP32 > INT32), ist aber gleichzeitig relativ gnädig falls man dann doch mal mehr INT-Workload stemmen muss, dort wo Ampere relativ schlecht abschneidet (z.B. am Anfang in der Pipeline bei vielen Load/Stores)

Ich sehe eigentlich nur Vorteile. Voraussetzung ist aber, dass die Strukturen rund um die Execution Units mitwachsen müssen (Register, L1$, Scheduler), damit man das auch auf den Boden bringen kann.

robbitop

2023-04-17, 08:16:43

Tja nur sind diese Durchsätze leider nichtssagend über das was auf die Straße kommt und was man alles an Logik, Register und Datenpfade drum herum bauen muss. Wenn es so simpel wäre, hätte man schon lange drölfzig FPUs verbaut pro SM. :)
Schon bei Keplers 192 FPs/INTs pro SM (die FPUs konnten beides) hat man Vorteile gesehen, die SMs auf 128 FPs einzudampfen (Maxwell, Pascal und jetzt auch Ampere und Ada - allerdings nur mit single issue scheduler bei Ampere/Ada) und lieber mehr SMs zu verbauen, weil die Auslastung immer schlechter wurde. Wäre ja full circle da jetzt wieder zu landen (oder noch extremer). :)

basix

2023-04-17, 12:31:09

Ohne die Infrastruktur innerhalb und ausserhalb der SMs zu skalieren geht das natürlich nicht ;)

Aber in vielen Fällen theoretisch 2x Performance/clk pro SM verglichen mit sehr wahrscheinlich <2x Transistormenge um das zu tragen (z.B. braucht es verdoppelte TMUs? Braucht man doppelt so viele SFU? Braucht man 2x Register und gleichzeitig 2x L1$ oder ginge bei beiden 1.5x auch?), scheint mMn sinnvoll zu sein. Man macht schlussendlich mehr Arbeit pro verwendeten Transistor. Zumindest ist das meine Einschätzung.

Man muss auch sehen:
Die SMs sind seit Turing vom Grundaufbau her nicht geändert. Man hat die 2. Execution Pipe auf FP+INT gepimpt sowie an Tensor Cores und RT-Cores rumgeschraubt und ist von 96kB auf 128kB L1$ hoch. Doch die Grundanordnung ist immer noch die selbe: 4x Processing Blocks mit separaten Registern und Schedulern, 4x TMU, 1x RT-Core, Shared L1$. Prinzipiell ginge man mit Blackwell ein wenig in Richtung Pascal, mit 2x Dispatch Unit pro Processing Block und 8x LD/ST Einheiten. Eine Verdopplung verglichen mit Ampere & Lovelace. Und mehr SMs bedeutet nicht, dass mehr Performance rumkommt. Siehe AD102 wo sehr schlecht skaliert im Vergleich zu AD103 oder auch GA102. Mehr SMs bedeutet, dass man die Threads auf mehr Sub-Einheiten verteilen muss. Bei breiteren Einheiten fällt das weg, man muss allerdings 2x Threads innerhalb des SMs verarbeiten können. Die (Daten)-Lokalität wird bei breiteren SMs zu 100% besser sein als bei doppelt so viele SMs oder 8x Processing Blocks pro SM (anstatt 4 wie bei Pascal - Ada) und man reduziert den Kommunikationsaufwand zwischen den SMs (da geringer in der Anzahl).
https://wolfadvancedtechnology.com/images/Articles/NVIDIA_GPU_SM_Diagrams_Pascal-Turing-Ampere.png

robbitop

2023-04-17, 14:55:41

Ja aber auch mit Infrastruktur nimmt das Scaling ab. Maxwell hatte pro SM 90% der Performance bei nur 66% der FP Units. Und das wird immer schlechter je mehr man in den SM reinpackt. Mehr GPCs und somit mehr SMs skalieren sicherlich besser.

iamthebear

2023-04-18, 00:19:47

Um ehrlich zu sein halte ich den Leak von RGT für ziemlichen Schwachsinn:

Bereits jetzt wird AD102 künstlich beschnitten, da es keinen Markt mehr dafür gibt. Da wird Blackwell im aktuellen Markt kaum größer werden.

Einmal abgesehen davon halte in einen 600mm²+ Die in 2024 für nicht sehr realistisch. kopite zweifelt das auch an.

Aber selbst wenn wir von einem 600mm² N3 Die ausgehen dann sind das vielleicht 40-50% mehr Transistoren als AD102. Und damit sollten ernsthaft 2-2.6x mehr Performance raus kommen?

Ich denke auch nicht, dass Nvidia die 128 FP32/SM ändert nachdem sich die Konfiguration nun sogar schon im Datacenter Lineup durchgesetzt hat.

Ich würde eher ausgehen von:
.) Shrink von 5nm auf 4nm inkl. leicht höherer Taktraten
.) Es wird der volle 102 Die verkauft
.) GDDR7 löst das Problem mit der Speicherbandbreite
.) Alle Dies unter dem 102 bekommen rücken um eine halbe Stufe nach oben
.) Dazu diverse Verbesserungen am Unterbau damit alles ab 80SM aufwärts besser skaliert

Für die 5090 dürften das dann um die 30% mehr Performance sein, darunter etwas mehr.

Das Lineup könnte in etwa so aussehen:
102: 140/144SM 384 Bit GDDR7 96MB L2: 5090 24GB 1500$
103: 92/96SM 256 Bit GDDR7 64MB L2: 5080 16GB 1000$
104: 72SM 160 Bit GDDR7 48MB L2: 5070 Ti 15GB 700$
104 Salvage: 60SM 128 Bit 40MB L2: 5070 12GB 600$
106: 44/48SM 128 Bit GDDR7 32MB L2: 5060 12GB 450$
107: 32SM 96 Bit GDDR7 24MB L2: 5050 9GB 350$

robbitop

2023-04-18, 06:57:02

Ich würde mich an gar kein Detail von irgendwelchen so frühen leaks orientieren. Das verwirrt nur und ist wahrscheinlich eh falsch. Wie oft stimmten so frühe leaks? IIRC nie.
Selbst späte leaks haben oft noch Fehlinformationen. Selbst kopite7kimi hatte iirc bei Navi3x noch lange dual gcds auf dem Schirm und zwar zu einer Zeit wo das konkrete Produkt schon sehr weit auf dem Weg war.
Und kann sich noch jemand an die 600W leaks von ad102 erinnern? Bis kurz vor dem Launch…

IMO sollte man da maximal skeptisch bleiben und sich da auf nichts stützen.

basix

2023-04-18, 09:29:35

IMO sollte man da maximal skeptisch bleiben und sich da auf nichts stützen.

Sicher, Skepsis ist immer angebracht. Doch es heisst nicht umsonst "Speku Forum" ;)
Wenn man nur auf Basis von gesicherten Informationen diskutiert, ist es keine Spekulation mehr. Die wichtigste Prämisse ist aber klar, dass man es auch als Spekulation akzeptiert und es nicht in eine Erwartungshaltung ummünzt. Denn dann wird man nur fehlgeleitet und oftmals entäuscht.

robbitop

2023-04-18, 09:52:18

Ja das stimmt schon. Ich sage ja auch nicht, dass man sie ignorieren sollte. Aber man sollte skeptisch sein, wenn es merkwürdig klingt. Deshalb zweifle ich die Stagnation der SMs an. Klingt einfach fishy.

reaperrr

2023-04-18, 11:11:55

Einmal abgesehen davon halte in einen 600mm²+ Die in 2024 für nicht sehr realistisch. kopite zweifelt das auch an.

Aber selbst wenn wir von einem 600mm² N3 Die ausgehen
Wenn BL102 wirklich noch monolithisch ist, schließen sich 600mm² und N3 gegenseitig aus, weil sich bei N3 das Reticle Limit auf ~408mm² halbiert und schon AD102 in Summe zu viel nicht skalierenden SRAM und kaum skalierendes SI hätte, um in N3 unter 400mm² zu kommen.

Das würden sie mMn nur schaffen, wenn sie die SM eher entschlacken, SI und/oder L2 schmaler machen (und über GDDR7 ausgleichen) und voll auf Takt gehen.

Nicht ausgeschlossen, wohlgemerkt.

basix

2023-04-18, 11:21:45

Bei N3 gilt das mit dem halbierten Reticle Limit noch nicht. Das kommt erst mit EUV High-NA (das gibt es noch gar nicht, laut ASML ~2025), was soweit ich weiss erst bei N2 ein Thema ist.

HOT

2023-04-18, 11:55:20

Der Chip enthält soviel I/O und Cache und Gedöns, da lohnen sich die Mehrkosten für N3 nicht, zumal N4X die gleiche Leistung bietet. Einzig die Mobilvarianten würden mMn von N3 oder N3e profitieren.
Bei AMD ist das was anderes, wenn man die GCDs von I/O und Cache weitgehend durch Stacking befreien kann, lohnt sich die Packdichte. Hier spielte Packdichte bei Navi3x ja schon eine entscheidende Rolle. Und bei kleinen GCDs halten sich die Mehrkosten auch deutlich im Rahmen, anders als bei den riesigen Monolithen, bei denen N4 in 24 ja deutlich bessere Yields bringen dürfte, erst recht N4X, im Gegensatz zu N3 und Derivaten.

KarlKastor

2023-04-18, 16:10:27

Sehe ich nicht so. Locuza hat das mal überschlagen, da waren das 359 mm2 Logik und 241 mm2 Analog+SRAM (komplett, nicht nur L2).
Wenn man dann noch annimmt, dass der L2 nicht vergrößert wird und GDDR7 für höheren Speicherdurchsatz genutzt wird, dann bekommt man da doch noch so einige GPC mehr unter.

Ansonsten gibt TSMC N4X mit +15% Performance gegenüber N5 an und N3E mit 15-20%. Effizienz gibt's für N4X keinen Angabe, N4P liegt bei -22% und N3E bei -30-35%. N4X liefert oben raus mehr ab, aber das ist für GPUs eh ungünstig da man sonst die TDP sprengt. Der wird mehr für AMDs CCD interessant.
In Summe ist zumindest auf dem Papier N3E doch erheblich vorteilhafter.

Wie das ganze preislich aussieht kann ich nicht einschätzen. Das Samsung 3GAP fertig hat bezweifle ich und 4LPP+++ wird wohl auch nichts taugen. Also gibt's keine Alternative zu TSMC.

Gouvernator

2023-04-19, 16:55:27

Um ehrlich zu sein halte ich den Leak von RGT für ziemlichen Schwachsinn:

Bereits jetzt wird AD102 künstlich beschnitten, da es keinen Markt mehr dafür gibt. Da wird Blackwell im aktuellen Markt kaum größer werden.

Einmal abgesehen davon halte in einen 600mm²+ Die in 2024 für nicht sehr realistisch. kopite zweifelt das auch an.

Aber selbst wenn wir von einem 600mm² N3 Die ausgehen dann sind das vielleicht 40-50% mehr Transistoren als AD102. Und damit sollten ernsthaft 2-2.6x mehr Performance raus kommen?

Ich denke auch nicht, dass Nvidia die 128 FP32/SM ändert nachdem sich die Konfiguration nun sogar schon im Datacenter Lineup durchgesetzt hat.

Ich würde eher ausgehen von:
.) Shrink von 5nm auf 4nm inkl. leicht höherer Taktraten
.) Es wird der volle 102 Die verkauft
.) GDDR7 löst das Problem mit der Speicherbandbreite
.) Alle Dies unter dem 102 bekommen rücken um eine halbe Stufe nach oben
.) Dazu diverse Verbesserungen am Unterbau damit alles ab 80SM aufwärts besser skaliert

Für die 5090 dürften das dann um die 30% mehr Performance sein, darunter etwas mehr.

Das Lineup könnte in etwa so aussehen:
102: 140/144SM 384 Bit GDDR7 96MB L2: 5090 24GB 1500$
103: 92/96SM 256 Bit GDDR7 64MB L2: 5080 16GB 1000$
104: 72SM 160 Bit GDDR7 48MB L2: 5070 Ti 15GB 700$
104 Salvage: 60SM 128 Bit 40MB L2: 5070 12GB 600$
106: 44/48SM 128 Bit GDDR7 32MB L2: 5060 12GB 450$
107: 32SM 96 Bit GDDR7 24MB L2: 5050 9GB 350$
24Gb VRAM? Never.
Die sind jetzt schon viel zu knapp. Uncharted 4 8K DLSS 22Gb.
Mit der Leistung von 5090 sind 24Gb, wie damals vor 10 Jahren 4Gb für 4K.
Theoretisch reicht die 5090 für 16K@30FPS - dann müssen so 50-60 VRAM verbaut werden.

rentex

2023-04-19, 19:33:52

@Gouvernator Gut geht es dir schon? 8K? Komplette Nische!

basix

2023-04-19, 23:46:32

Wenn man sich eine Titan B gönnen will, die hätte evtl. so viel Speicher

8K nativ ist mMn bei neueren Spielen mit DLSS2 oder FSR2 nicht sinnvoll (und wird es nie sein). Und bei älteren Spielen reichen auch 24GByte. Und bei noch mehr als 8K sehe ich für Gaming keinen Anreiz. Da ist man schon so weit in der abnehmenden Grenzertrag-Zone, da investiert man die Leistung besser in was anderes (z.B. realistische Physiksimulationen)

Gouvernator

2023-04-20, 01:58:59

Es muss ja nicht unbedingt nativ Auflösung sein. Streaming ist das Zauberwort. Das was ich mit GameStream in 8K auf meinen Kleingeräten sehe ist mehr als bombastisch. Es wäre nur logisch wenn NV die neuen Karten im neuen 8K Service promoten kann.

NC

2023-04-20, 08:51:50

Es muss ja nicht unbedingt nativ Auflösung sein. Streaming ist das Zauberwort. Das was ich mit GameStream in 8K auf meinen Kleingeräten sehe ist mehr als bombastisch. Es wäre nur logisch wenn NV die neuen Karten im neuen 8K Service promoten kann.
Welches "Kleingerät" kann 8k darstellen?

Korvaun

2023-04-20, 08:59:58

Ok, also 4K rendern, dann per DLSS auf 8k "Auflösung" hochpushen, dann fürs streamen compression drüberjagen und dann auf Handy/Tablet darstellen? Alles klar, genau das braucht die Menscheit ;)

Platos

2023-04-20, 13:41:37

Welches "Kleingerät" kann 8k darstellen?

Würde mich auch interessieren.

DrFreaK666

2023-04-20, 14:26:54

Welches "Kleingerät" kann 8k darstellen?

Er meinte wahrscheinlich kein Gerät :D

boxleitnerb

2023-04-20, 15:54:40

Was für ein Schwachsinn.

TobiWahnKenobi

2023-04-20, 21:51:18

was manche leuts für komische sachen machen. wenn ich am PC zocken will, dann bitte auf dem großen schirm. hendi oder tablett muss man mögen - ich gehöre da nicht zur zielgruppe. finde die switch schon völlig unbrauchbar ohne fernseher. aber ich trage auch vorsätzlich nie meine lesebrille.

(..)

mfg
tobi

iamthebear

2023-04-20, 22:05:58

Sehe ich nicht so. Locuza hat das mal überschlagen, da waren das 359 mm2 Logik und 241 mm2 Analog+SRAM (komplett, nicht nur L2).
Wenn man dann noch annimmt, dass der L2 nicht vergrößert wird und GDDR7 für höheren Speicherdurchsatz genutzt wird, dann bekommt man da doch noch so einige GPC mehr unter.

Sehe ich auch so. Auch wenn grob die Hälfte nicht mehr skaliert: Die andere Hälfte tut es noch und ob es sich auszahlt hängt stark davon ab wie sich die Preislage entwickelt. Beim aktuellen Markt wird sixh die Preislage wieder normalisieren.
Und die Investitionen in weotere Kapazitäten gehen ja aus politischen Gründen munter weiter.

Afaik sind die 15% der maximale Takt, da der Prozess über 1.2V noch besser skaliert. Ist die Frage wieviel davon bei GPU üblichen Spannungen noch ankommt.
Abgesehen davon habe ich so meine Zweifel, ob N4X in der Praxis bei der Density nicht ein paar Abstriche machen muss.
Wenn man 10% mehr Takt bekommt aber 10% Density und Energieeffizienz verliert steigt man am Schluss bei GPUs nicht besser aus.

[quote]In Summe ist zumindest auf dem Papier N3E doch erheblich vorteilhafter.

Die Frage ist wo bei N3E die Yieldraten für einen 600mm² Monolithen sein werden. Bei 5nm ist die Ausbeute ja sehr gut.

Wie das ganze preislich aussieht kann ich nicht einschätzen. Das Samsung 3GAP fertig hat bezweifle ich und 4LPP+++ wird wohl auch nichts taugen. Also gibt's keine Alternative zu TSMC.

Samsung 3GAP sehe ich eher auf einem Niveau mit N4 aber hätte den Vorteil, dass es vermutlich deutlich günstiger wäre.

24Gb VRAM? Never.
Die sind jetzt schon viel zu knapp. Uncharted 4 8K DLSS 22Gb.
Mit der Leistung von 5090 sind 24Gb, wie damals vor 10 Jahren 4Gb für 4K.
Theoretisch reicht die 5090 für 16K@30FPS - dann müssen so 50-60 VRAM verbaut werden.

Ich weiß nicht von welcher Performance du bei der 5090 ausgehst. Aktuell sind die 24GB der 4090 nicht einmal annähernd ein Problem.
Für 8K gibt es sowieso keinen wirklichen Markt:
Für Monitore ist 4K voll ausreichend. Im besten Fall vielleicht noch 5K aber spätestens dann wird man keinen Unterschied mehr feststellen.
Fernseher könnten sehr wohl von 8K profitieren aber diese bieten nur HDMI 2.1 womit maximal 4K120 drin sind. Kein High End Gamer wird auf 60Hz zurück gehen und dafür braucht man schon DSC. In der Praxis bedeutet das eher:
GPU generiert 4K Native in möglichst hoher Bildqualität mit RT, eventuell DLAA usw., gibt 4K120 auf den TV aus und dieser skaliert dies auf 8K hoch und schärft dabei das Bild nochmal etwas nach.

Gouvernator

2023-04-20, 22:44:40

Ich weiß nicht von welcher Performance du bei der 5090 ausgehst. Aktuell sind die 24GB der 4090 nicht einmal annähernd ein Problem.
Bei Uncharted 4 sind es 22gb mit einer 3090@30FPS. Die 4090 hätte Luft weiter nach oben Richtung 12K - aber 24Gb VRAM ist dafür schon zu klein. Die 5090 wäre ohne VRAM Begrenzung die erste echte 16K Karte wie einst 3090 für 8K.

aceCrasher

2023-04-20, 22:48:33

Die 5090 wäre ohne VRAM Begrenzung die erste echte 16K Karte wie einst 3090 für 8K.
Aber... wofür? Es gibt keinen einzigen spieletauglichen 8K Desktopmonitor, geschweige denn 16K. Bei den Fernsehern sieht es kaum besser aus. Ich war immer Auflösungsfetischist, aber bei 16K bin ich raus, da nehm ich lieber mehr fps mit. 8K->4K Downsampling könnte man ja noch drüber reden...

Gouvernator

2023-04-20, 22:49:17

Welches "Kleingerät" kann 8k darstellen?
Jedes Kleingerät welches H264/H265 in Hardware decoden kann. HDMI-Dummy in Host-PC stecken, Moonlight/GameStream einrichten und mit Custom-DSR-Tool per Wi-Fi5 16K zocken...

Gouvernator

2023-04-20, 23:11:11

So einfach geht 16K. Falls jemand denkt i bullshitting you. ;) Ob ein Laptop oder Tablet oder Smartphone.
7E0MMP7yBDA

Und das wird die erreichte Bildqualität wohl gut dokumentieren.
https://abload.de/thumb/uncharted8k5adht.jpg (https://abload.de/image.php?img=uncharted8k5adht.jpg)
sxVcb-yOKdQ

wolik

2023-04-20, 23:57:12

So einfach geht 16K. Falls jemand denkt i bullshitting you. ;) Ob ein Laptop oder Tablet oder Smartphone.
https://youtu.be/7E0MMP7yBDA

Und das wird die erreichte Bildqualität wohl gut dokumentieren.
https://abload.de/thumb/uncharted8k5adht.jpg (https://abload.de/image.php?img=uncharted8k5adht.jpg)
https://youtu.be/sxVcb-yOKdQ

Auf einem 65"-4K-Bildschirm in einem Meter Entfernung ist der Unterschied nach 4K x 2,25 DLDSR kaum spürbar.
Wofür 16K (!) auf einem "kleinen Gerät" (12" ?)?

=Floi=

2023-04-21, 00:39:17

höhere stromrechnung!

Der ist hald irgendwo mal falsch abgebogen. Die native auflösung reicht auf den meisten geräten wirklich gut aus.

robbitop

2023-04-21, 07:36:15

Die Kompression frisst die Details eh

Gipsel

2023-04-24, 16:45:44

Zurück zum Thema bitte!
Irgendwelche 16k-Fieberträume müssen hier nicht diskutiert werden.

Danke.

dildo4u

2023-04-28, 21:53:42

Blackwell wird angeblich weiterhin in 4nm gefertigt schätze mal NV wird nicht bis 25 warten.

https://wccftech.com/nvidia-next-gen-3nm-gpus-not-launching-until-2025-tsmc-report/

KarlKastor

2023-04-29, 04:50:19

Na da werden aber auch kräftig Gerüchte vermischt.
Wenn 3nm Produkte auf 2025 verschoben werden, kommen 2024 sicher keine neuen 4nm GPUs.
Das ist ein entweder oder.
Also entweder die nächste Generation kommt 2024/25 in 4nm und eine 3nm Generation dann 2026 oder man startet eben später in 2025 in 3nm.

Altehardware

2023-04-29, 09:38:16

Kurz nvidia hat blackwell verschoben und wird ada refreshen auf n4
Blackwell basiert auf hopper arch und da dort die fp32 verdoppelt sind passt das nicht mehr auf die Belichtungsmaske. etwa 1000mm² in n4
Daher wird auf n2 gewartet n3 verschiebt sich auf 2025 und n2 wird vermutlich 2026 kommen Womit erst n2 node mt blackwell realisiert wird und nvidia auf die 3d chips warten wird bzw gaa
Was zuerst kommt ist unklar die Stromversorgung für die 3d chips wird zuerst realisiert danach kommt gaa oder 3d stapeln mehrere chips aufeinander.
amd wird das anwenden das steht sicher ob nvidia so ein design in Planung hat ist unbekannt.
ich nehme eher an das man n2 und gaa den Takt massiv anheben wird. und die sm pro chip nicht steigen werden.

HOT

2023-04-29, 09:46:57

Blackwell wird angeblich weiterhin in 4nm gefertigt schätze mal NV wird nicht bis 25 warten.

https://wccftech.com/nvidia-next-gen-3nm-gpus-not-launching-until-2025-tsmc-report/

Das ist irreführend. NV fertigt im Moment in N5(!) und nennt das 4N. N4X jedoch ist ein einigermaßen leistungsfähigerer Prozess als N5, Intel z.B. nutzt diesen Prozess für Battlemage wie es aussieht, NV wird mMn genau den auch für BW nutzen.
Wahrscheinlich nutzt auch AMD diesen Prozess, nachdem klar wurde, dass AMD in 24 kein N3 nutzen wird.
N3 selbst bietet ein unheimlich schlechte Preis-/Leistungsverhältnis und ist weniger leistungsfähig als N4X, er bietet nur eine bessere Energieeffizienz.

KarlKastor

2023-04-29, 10:38:43

Bisher konnte noch niemand stichhaltige Beweise liefern ob 4N auf N5P oder N4 oder sonstwas basiert. Aber überall gibt's immer Leute die meinen es besser zu wissen.
Wie immer dann ohne Argument.

Mandalore

2023-04-29, 19:14:29

Abwarten! Ada und RDNA 3 waren am Ende auch ganz anders als in der Gerüchtküche diskutiert wurde...

ChaosTM

2023-04-29, 19:19:13

Bin schon gespannt, ob Blackwell wirklich der letzte Monolitische Nv Chip ist, oder ned.

rein von Platzverbrauch her könnte das fast noch funktionieren.

reaperrr

2023-04-29, 21:02:27

Das ist irreführend. NV fertigt im Moment in N5(!) und nennt das 4N. N4X jedoch ist ein einigermaßen leistungsfähigerer Prozess als N5, Intel z.B. nutzt diesen Prozess für Battlemage wie es aussieht, NV wird mMn genau den auch für BW nutzen.
Wahrscheinlich nutzt auch AMD diesen Prozess, nachdem klar wurde, dass AMD in 24 kein N3 nutzen wird.
N3 selbst bietet ein unheimlich schlechte Preis-/Leistungsverhältnis und ist weniger leistungsfähig als N4X, er bietet nur eine bessere Energieeffizienz.
Ich weiß ehrlich nicht, was alle mit N4X haben.

TSMC selbst gibt für N4P 11% und N4X 15% mehr Performance ( = Takt @ 1.2V) an im Vergleich zu N5, für N4X ggü. N4P sind das gerade mal 3,6% mehr Takt. Und das wird laut TSMC höchstselbst mit mehr Leakage und Overdrive Current, anders ausgedrückt mehr Verbrauch und Hitzeentwicklung selbst bei gleichem Takt/Spannung erkauft, und richtet sich deshalb explizit nur an bestimmte HPC-Produkte, wo die Effizienz zweitrangig bis egal ist.

Da zählen weder Intel's, noch Nvidia's, noch AMD's Consumer-GPUs zu. Zen5 mMn auch nicht, da die Perf/W auch im Server und HighEnd-Desktop noch wichtig genug ist, dass AMD für ~150-200 MHz mehr Maximal-Takt nicht die Effizienz auf niedrigeren Taktraten opfern würde.
Strix-Familie schon gar nicht, da primär Mobile.

Ich würde einiges drauf verwetten, dass keine AMD-CPU und keine AMD-Consumer-GPU N4X verwenden wird, Battlemage auch nicht und (Desktop-/Mobile-)Blackwell auch nicht. Maximal HPC-Blackwell und MI400, aber auch nur, wenn genug Kunden danach fragen, denen es wirklich um jedes Prozent Performance ohne Rücksicht auf Verbrauch geht, was wegen den Energiepreisen eher nicht die Mehrheit sein wird.

Der am häufigsten von Intel, AMD und Nvidia verwendete TSMC-Prozess der nächsten GPU/CPU-Generation wird mMn N4P sein, gefolgt von einigen Server-/HPC-Produkten in N3E (wegen der Packdichte/Chipgröße).

iamthebear

2023-04-29, 23:08:28

Der Vorteil von N4X ist, dass der Takt über 1.2V weiterhin sehr gut mit der Spannung skaliert. Das ist für Desktop CPUs ein großer Vorteil und auch für Notebooks, da man höhere Boosttakte liefern kann.

Im Datacenterbereich in der 64Kern+ Klasse oder bei GPUs wo die Probleme fast endlos parallelisierbar sind ist eher sinnvoller auf 3nm für die Compute Dies zu setzen, da man so auf gleicher Fläche bzw. der gleichen TDP fast 50% mehr Performance liefern kann und ohnehin nie über 1.2V geht.

Bei GPUs scheitert es aber vermutlich daran, dass die Yields nicht so prickelnd sind, dass man große Dies damit herstellen kann. Auch wird man vermutlich wie bei 5nm die Kapazitäten nur dann bekommen wenn man schon einige Jahre im Vorhinein bezahlt um den Ausbau zu finanzieren und hier fehlen AMD derzeit noch die Mittel.

Bei Nvidia stellt sich das Problem, dass sowohl die IO Teile (Speicherinterface, PCIe Anbindung etc.) als auch der L2 Cache nicht mehr skalieren. Diese nehmen bereits bei Ada einen großen Teil des Dies ein.
Bei großen Chips wie AD102 oder 103 ist das (sobald die Yields stimmen) kein Problem. Bei den kleineren Dies wie AD106 oder 107 machen die Logikteile aber nicht mehr viel vom Die aus und ein Shrink würde nicht mehr allzu viel an Flächenersparnis bringen.

Aber das Hauptproblem bei Nvidia dürften die bereits bezahlten 5nm Kapazitäten sein und TSMC diese sicher nicht so einfach in 3nm umwandeln wenn die 5nm Fabs dann leer stehen d.h. Nvidia is gezwungen Unmengen an 5nm Dies zu produzieren und auf Lager zu legen und die muss man irgendwann abverkaufen.

Meine Vermutung:
Blackwell kommt überhaupt nicht so schnell und man schiebt bei Bedarf einfach einen Ada Refresh nach und passt die Preise etwas an. Aus technologischer Sicht ist Ada ja top. Nur die Preislage ist das Problem.

amdfanuwe

2023-04-29, 23:47:10

hier fehlen AMD derzeit noch die Mittel.

woher nimmst du deine Weisheit?

iamthebear

2023-04-30, 12:33:41

Aus der Bilanz von AMD.

Ende 2021:
3.61 Mrd. $ cash und short term investments

Ende 2022:
5.85 Mrd.

Und davon muss man Investitionen für alle Sparten planen

Zum Vergleich Nvidia (mit ähnlichem Umsatz zu AMD in 2022)
2021: 21.2 Mrd
2022: 13.3 Mrd (10 Mrd. Aktienrückkauf in 2022)

Intel (ca. 2.5x Umsatz zu AMD/Nvidia)
2022: 28.3 Mrd.

Wobei Intel auch Fabs im Wert von knapp 100 Mrd. hat, die man bei Bedarf als Sicherstellung für kurzfristige Kredite verwenden könnte.

Die Priorität von AMD liegt derzeit klar im Servermarkt. Danach kommt der CPU Clientbereich. Danach kommen die Konsolen und irgendwann der PC Gamingmarkt.

amdfanuwe

2023-04-30, 12:39:56

Und wo gehen daraus die Zahlungsbedingungen seitens AMD an TSMC hervor?

Edit:
AMD and MediaTek are the two other preferred TSMC customers. They are mostly exclusive on the leading edge and therefore they do not deal with having to prepay large amounts for capacity. They get most the leading-edge wafer capacity they need, and the issues for their respective supply chain hinges on other aspects.
...
Due to Nvidia’s opportunistic switching between TSMC and Samsung, Nvidia doesn’t receive the same terms. Nvidia wants a lot of N5 capacity and 2.5D packaging capabilities next year and beyond as they prep launch for Hopper datacenter GPUs, Lovelace gaming GPUs, and continue to gain share in networking versus Broadcom. To secure this supply, Nvidia is prepaying billions to TSMC, something the previous 3 customers have not had to deal with. A big portion of this is also due to Nvidia’s growth at TSMC due to switching away from Samsung.

https://www.semianalysis.com/p/tsmc-the-drug-dealer-is-trying-to

Troyan

2023-04-30, 14:29:05

Ist nonsense. TSMC bevorzugt nur Apple, sonst niemanden.

basix

2023-04-30, 14:55:25

AMD ist ein strategischer Partner von TSMC. Nicht auf Augenhöhe Apple aber definitiv bevorzugter als Nvidia. TSMC & Nvidia hatten schon mehrmals nicht die gleichen Ansichten und die Beziehung ist weniger harmonisch als momentan TSMC & AMD.

Das sagt jetzt allerdings nicht wahnsinnig viel über die gezahlten Waferpreise aus. Nvidia musste sich aber einkaufen, damit die entsprechende Kapazität auch gesichert ist. Und wenn man die Kapazität nicht von TSMC abnimmt, kann man damit allenfalls schlechter fahren als gedacht. AMD musste sicher auch Zahlungen leisten (oder zumindest eine garantierte Abnahmemenge definieren), vermutlich nur mit deutlich geringerem Umfang da bereits länger partnerschafftlich so geplant (da eben strategischer Partner von TSMC). Nvidia kam recht kurzfristig mit ihrem Bedarf um die Ecke, zumindest scheint das so.

Troyan

2023-04-30, 15:08:36

Aha, "strategischer Partner". Interessant. Kannst du kurz darlegen sich das zeigt? Baut TSMC extra für AMD neue Fabriken (wie für Apple)? Oder angepaste Prozesse (wie für Apple und nVidia)?

Aktuell produziert nVidia vollständig Lovelace auf 5nm, Hopper, NVSwitch v3 etc. AMD dagegen produziert nicht nachgefragte Prozessoren und nicht nachgefragte GPUs.

Voller Erfolg für TSMC für ihre arschteure 5nm Fertigung.

HOT

2023-04-30, 16:04:38

TSMC baut kein extra Fabriken für Apple.

basix

2023-04-30, 16:11:26

Aha, "strategischer Partner". Interessant. Kannst du kurz darlegen sich das zeigt? Baut TSMC extra für AMD neue Fabriken (wie für Apple)? Oder angepaste Prozesse (wie für Apple und nVidia)?

Aktuell produziert nVidia vollständig Lovelace auf 5nm, Hopper, NVSwitch v3 etc. AMD dagegen produziert nicht nachgefragte Prozessoren und nicht nachgefragte GPUs.

Nur weil Nvidia ihr "12FFN" und "4N" marketingtechnisch verwertet, ist das nichts herausragendes. Nennt sich Design und Manufacturing Co-Optimization und machen alle grösseren Player. AMD nennt bei Zen 4 ebenfalls "customized N5P process", nur schreiben sie das weniger dick auf ihre Folien (weil es eben eh alle machen)

Und bezüglich N5/N4 Footprint bei TSMC:
- 2021: AMD 3rd biggest Customer https://www.tomshardware.com/news/amd-becomes-tsmc-third-largest-customer
- 2022: AMD 2nd biggest Customer for N5 https://www.tomshardware.com/news/amd-set-to-become-tsmc-no2-client-for-5nm-products
- 2022: AMD 2nd biggest Customer overall https://www.techpowerup.com/295808/amd-said-to-become-tsmcs-third-largest-customer-in-2023

Huch, AMD bestellt mehr Produkte bei TSMC als Nvidia. Sogar in N5/N4. Sind Nvidias Produkte somit noch weniger nachgefragt als die von AMD? Bitte justiere dein Weltbild, weg von Nvidia seien die grössten in allem...

Edit:
Ach schau, Nvidia mit grossem Inventory Problem. Deutlich grösser als das der Konkurrenten. Von wegen Nachfrage für Nvidia Produkte...
https://wccftech.com/nvidia-limiting-gpu-production-excess-inventory-lead-to-geforce-rtx-40-price-cuts/

Data Center ist eine andere Geschichte. Dort läuft es für Nvidia gut. Nur sind die Volumen (Anzahl Wafer) dort bei weitem nicht so hoch wie bei Consumer.

Troyan

2023-04-30, 16:18:29

TSMC baut kein extra Fabriken für Apple.

Apple finanziert es durch den Wunsch nach besseren Prozessen vor. Keine andere Firma wäre dazu in der Lage. TSMC baut wegen Apple die Fabriken und nicht wegen AMD.

Nur weil Nvidia ihr "12FFN" und "4N" marketingtechnisch verwertet, ist das nichts herausragendes. Nennt sich Design und Manufacturing Co-Optimization und machen alle grösseren Player. AMD nennt bei Zen 4 ebenfalls "customized N5P process", nur schreiben sie das weniger dick auf ihre Folien (weil es eben eh alle machen)

Lmao. Klar. Fakt ist: TSMC macht es für nVidia und nicht für AMD. Ende. Keine weitere Diskussion nötig.

Huch, AMD bestellt mehr Produkte bei TSMC als Nvidia. Sogar in N5/N4. Sind Nvidias Produkte somit noch weniger nachgefragt als die von AMD? Bitte justiere dein Weltbild, weg von Nvidia seien die grössten in allem...

AMD is said to become TSMC's single largest customer for its 5 nm node in 2023, although it's not clear from the report how large of a share of the 5 nm node AMD will have.

Müsste AMD dafür nicht auch Produkte verkaufen, die auf 5nm produziert werden? :freak:

Edit:
Ach schau, Nvidia mit grossem Inventory Problem. Deutlich grösser als das der Konkurrenten. Von wegen Nachfrage für Nvidia Produkte...
https://wccftech.com/nvidia-limiting-gpu-production-excess-inventory-lead-to-geforce-rtx-40-price-cuts/

Data Center ist eine andere Geschichte. Dort läuft es für Nvidia gut. Nur sind die Volumen (Anzahl Wafer) dort bei weitem nicht so hoch wie bei Consumer.

Ach das nVidia, was angekündigt hat in Q1 gegenüber Q4 zu wachsen? Oder reden wir über das AMD, was einen Schrumpfkurs hat? Immer schwierig mit dir. Wirklich.

basix

2023-04-30, 16:26:03

Keine weitere Diskussion nötig.

Ja, ich steige aus.

Mit dir macht es nämlich keinen Sinn zu diskutieren. Ausser populistischem Geschwafel (Nvidia = Beste, alles andere mit nicht stichhaltigen Argumenten kleinreden) kommt von dir nichts.

Ciao. Wünsche dir alles Gute und dass du die Hilfe bekommst, die du benötigst.

reaperrr

2023-04-30, 16:29:12

Lmao. Klar. Fakt ist: TSMC macht es für nVidia und nicht für AMD. Ende. Keine weitere Diskussion nötig.
Jeder Foundry-Prozess lässt sich zu einem gewissen Grad nach Kundenwünschen konfigurieren, was von größeren Kunden einschl. AMD auch definitiv genutzt wird. Das Einzige, was TSMC bei Nvidia "anders macht", ist dass sie NV erlauben, ihrer Konfiguration eigene Marketingnamen zu geben um zu suggerieren, dass Nvidia's Produktionslinie irgendwie "besser" als die der Konkurrenz sei, was aber wie gesagt reines Marketing ist. Ende. Keine weitere Diskussion nötig.

DrFreaK666

2023-04-30, 16:59:11

...Lmao. Klar. Fakt ist: TSMC macht es für nVidia und nicht für AMD. Ende. Keine weitere Diskussion nötig...

Doch. Zeig mal diese Fakten.
Hast auch mehrere Links parat, wie basix?

robbitop

2023-04-30, 19:28:05

Prozess mit Marketingnamen als etwas anderes/besseres zu schlucken zeigt, wie kognitiv limitiert manche sind. Man benennt einfach N5P (oder ähnliches) in „4N“ und die Fans denken es ist was großartig anderes. :D Aber kein Wunder - um „Fan“ von etwas wie einer Firma sein zu können braucht es kognitive Limitierung. Wer kognitiv stark ist, ist stets skeptisch, bewertet und hinterfragt alles stets basierend auf objektiven Kennzahlen neu und sucht nur seinen eigenen objektiven Vorteil.
Propellerjungs…

Tesseract

2023-04-30, 19:47:35

ohne genaue details was angepasst wurde bzw. was die anpassungen bringen sind aussagen in beide richtungen unsinnig. der name sagt nicht dass die anpassung wesentliche vorteile bringt, genausowenig ist aber gesagt dass andere anpassungen ähnliche ergebnisse liefern.

robbitop

2023-04-30, 19:53:58

Solange es nicht belegt ist, dass es ein echter custom Prozess ist sollte man jedenfalls skeptisch bleiben und den Ball flach halten.

KarlKastor

2023-05-01, 04:31:22

Ja genau, kann auch mehr oder weniger N4 sein.
Es gibt quasi null Anhaltspunkte, aber alle wollen immer genau wissen, dass Nvidia ja nur marketingwirksam umbenannt hat. Oder eben andersrum, dass Nvidia die super Fertigung schlechthin hat.
Ich habe noch kein einziges stichhaltiges Argument gesehen.

robbitop

2023-05-01, 06:56:36

Es gibt mehr Berichte dazu dass es 5 nm ist.

https://www.techgoing.com/nvidia-clarifies-the-tsmc-4n-used-by-the-rtx-40-gpu-is-a-5nm-process/

Kopite7kimi (der für viele akurate Leals veranwortlich war) hat auch 5 nm geschrieben.

Die Transistordichte in AD10x spricht auch nicht gerade dafür. Und dazu kommt, dass Nvidia auch nirgends was dazu sagt was 4N ist.
Und selbst wenn es ein 4 nm Prozess wäre ist auch das noch nicht wirklich ein Indiz darauf dass da wirklich signifikant was „custom“ ist. TSMC bietet einen Blumenstrauß an 4 nm jedem an.

Jedenfalls sollte man bei sowas maximal skeptisch sein. Solange es für sowas keine klaren Belege gibt klingt die Konstellation aufgeasen. AMD hat das auch schon x mal geschrieben „customized xyz Prozess“. Wenn man grob weiß wie komplex und teuer moderne Prozessentwicklung ist und was TSMC für Know How dort hat und wie viel weniger Know How non fab Firmen dort mit höchster wahrscheinlichkeit haben, da dort mangels Kerngeschäfts eben nicht diese Art Prozess RnD betrieben wird. Und dazu kommt nich dass Preis und Komplexität des Prozess RnD eben auf alle Kunden verteilt werden. Da ist wirklich echtes customizing extrem unwahrscheinlich. Viel wahrscheinlicher ist, dass der Endkunde in seinen Lines ein paar Parameter im jeweiligen Prozess auswählen darf.
Wenn man das dann feiern will :rolleyes:. Das allerdings betreibt so ziemlich jeder. Nur macht Nv den größten Wind darum.

Bis dato gab es jedenfalls nie Hinweise, dass diese NV Customprozesse in einer Metrik sich besonders abgesetzt haben.

basix

2023-05-01, 08:19:01

ohne genaue details was angepasst wurde bzw. was die anpassungen bringen sind aussagen in beide richtungen unsinnig. der name sagt nicht dass die anpassung wesentliche vorteile bringt, genausowenig ist aber gesagt dass andere anpassungen ähnliche ergebnisse liefern.
Ja das stimmt. Kann sein, dass der Grad der Anpassungen bei Nvidia 4N grösser ist als bei anderen. Nur wird das absolut niemand hier in irgendeiner Form belegen können, ausser sowas würde z.B. an der ISSCC detailliert vorgestellt werden. Ist aber unwahrscheinlich, dass das passiert.

Vielleicht weg von TSMC Prozessen und zurück zu Blackwell Speku ;)
Wenn ich das H100 SM Diagramm anschaue, kommt mir wieder meine 4-Pipeline SM Architektur von vor ein paar Seiten (https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13283461#post13283461) in den Sinn. Hopper bietet verglichen mit Lovelace bereits verdoppelte Anzahl Pipelines sowie LD/ST Einheiten und verdoppelten L1$. Man müsste einzig die FP64 Lane gegen eine kombinierte FP32/INT32 Lane ersetzen und man wäre ziemlich genau bei meiner Speku. Evtl. benötigt man aber noch einen zweiten oder aufgebohrten Warp-Scheduler (2*32 Threads/clk), damit man die Execution-Units füttern kann.

https://developer.nvidia.com/blog/nvidia-hopper-architecture-in-depth/
https://developer-blogs.nvidia.com/wp-content/uploads/2022/03/H100-Streaming-Multiprocessor-SM-1024x1424.png

KarlKastor

2023-05-01, 08:33:14

Es gibt mehr Berichte dazu dass es 5 nm ist.

https://www.techgoing.com/nvidia-clarifies-the-tsmc-4n-used-by-the-rtx-40-gpu-is-a-5nm-process/

Witzig, dass das immer wieder zitiert wird obwohl HKEPC sich später korrigiert hat und das Gegenteil behauptet.

https://twitter.com/hkepcmedia/status/1574216220588789760

Kopite7kimi (der für viele akurate Leals veranwortlich war) hat auch 5 nm geschrieben.

Schreiben kann man viel, das ist aber been kein Argument. Und er war eben auch für viele völlig absurden Leaks verantwortlich, die alle falsch waren. Von daher ist eine reine Behauptung von ihm völlig wertlos.

robbitop

2023-05-01, 08:37:30

Wie gesagt es gibt keine echten Beweise dafür und dagegen. Aber es gibt nicht mal stichhaltige Indizien, dass etwas wirklich wesentliches Custom ist. Sagen, dass custom prozesse genutzt werden tut fast jeder tsmc Kunde. Aber NV ist der mit dem „lautesten Marketing“. Und darum ging es doch als der Propellerjunge geschrieben hat, NV würde als einziger custom Prozesse nutzen. Und das ist naiv.

Gipsel

2023-05-01, 17:33:35

Müsste AMD dafür nicht auch Produkte verkaufen, die auf 5nm produziert werden? :freak:Hmm, neben den 5nm GPUs vergißt Du vermutlich die vielen 5nm CPU- und APU-Dies, die AMD bei TSMC fertigen läßt. Da kommt schon was zusammen.

amdfanuwe

2023-05-01, 18:27:12

Welche 5nm APUs?
Phoenix ist N4, die älteren N6 und N7. PS5 neu ist N6.

KarlKastor

2023-05-01, 19:32:03

N4 zählt TSMC zur 5nm Familie.

robbitop

2023-05-01, 20:38:00

So wie N6 zur 7nm Familie gehörte, Samsungs 8 nm zur 10 nm Familie, 12 nm zur 14/16 nm Familie usw.
Die Halfnodes sind seit einer Weile eigentlich kaum besser als die vorhergehenden Fullnodes (insbesondere wenn man die P Varianten mit einbezieht). Wird meistens als costout Prozess beschrieben.
Wobei die Halfnodes meist wirklich auch etwas enger packen.
Siehe N33 vs N23 (kleiner trotz nicht unwesentlich mehr Transistoren). Oder der PS5 shrink auf 6 nm. 18% kleiner und sparsamer und laut Angstronomics 12 % billiger.

mocad_tom

2023-05-02, 08:56:06

Speziell für die großen Dies (für die kleineren Die nimmt man den Prozess von der Stange).

https://twitter.com/DrFrederickChen/status/1630248108184715267

Nvidia wird in höheren Layern etwas andere Pitches haben, damit ein brauchbares Raster rauskommt.

Da spielt dieser Sachverhalt mit rein:
https://twitter.com/p1cturedump/status/1643933303282585600

HOT

2023-05-02, 17:51:03

MLID hat wieder einen Veteranen aus der Fertigungsindustrie im Gespräch und der sagt ganz klar, dass N3 on Track ist und sehr sehr gute Yields liefert. Er sagt auch, dass NVidia klar auf N3 geht, genau wie AMD und Intel. Er sagt, dass es mehr N3 Tapeouts gibt als je ein Prozess zuvor.
Es gibt also ne gute Chance, dass BW doch N3 wird. Und er schwört Stein und Bein, dass NV auf Chiplets geht.
https://youtu.be/8PVYOeHx8vA

Durchaus eine sehr interessante Perspektive. Ich glaube langsam, dass hier solche Einschätzungen effektiver sind als irgendwelche Snippits von irgendwelchen Leakern, die was vermuten. Wenn man in die Foundry guckt, zeichnet sich nämlich ein anderes Bild - für alle Companys.

Vielleicht ist ein 4nm Blackwell dann auch nur ein Backup, falls man es nicht hinbekommt oder sowas oder man fertigt nur die Mainstreamchips monolithisch in N4.

TheAntitheist

2023-05-03, 20:42:10

Wie gesagt es gibt keine echten Beweise dafür und dagegen. Aber es gibt nicht mal stichhaltige Indizien, dass etwas wirklich wesentliches Custom ist. Sagen, dass custom prozesse genutzt werden tut fast jeder tsmc Kunde. Aber NV ist der mit dem „lautesten Marketing“. Und darum ging es doch als der Propellerjunge geschrieben hat, NV würde als einziger custom Prozesse nutzen. Und das ist naiv.
Wenn es nicht stimmen würde, wäre AMD der erste Schreihals der es anzweifeln würde, darauf kannst du wetten.

prinz_valium_2

2023-05-03, 21:22:53

Wenn 4000 Super Karten kommen (wovon ich zur Zeit ausgehe) ist doch massig zeit für BW in 3nm dann für 2025

robbitop

2023-05-03, 22:19:40

Wenn es nicht stimmen würde, wäre AMD der erste Schreihals der es anzweifeln würde, darauf kannst du wetten.

Es gab ja keine Behauptung dass 4N = 4 nm ist. Und wo bezieht sich AMD auf NV Begriffe wie ein „Schreihals“ dass man das annehmen würde? Diese merkwürdigen Zeiten sind zum Glück lange vorbei (poor Volta).

iamthebear

2023-05-04, 02:13:24

MLID hat wieder einen Veteranen aus der Fertigungsindustrie im Gespräch und der sagt ganz klar, dass N3 on Track ist und sehr sehr gute Yields liefert. Er sagt auch, dass NVidia klar auf N3 geht, genau wie AMD und Intel. Er sagt, dass es mehr N3 Tapeouts gibt als je ein Prozess zuvor.

Das hört sich ja schon einmal gut an. Damit sollte es zumindest keine größeren Probleme mehr geben.

Interessant waren auch seine Aussagen bezüglich Intel 18A. Anscheinend dürfte sich hier wirklich etwas in eine positive Richtung entwickeln.

Es gibt also ne gute Chance, dass BW doch N3 wird. Und er schwört Stein und Bein, dass NV auf Chiplets geht.
https://youtu.be/8PVYOeHx8vA

Also N3 in Ende 2024 glaube ich bei Nvidia nicht schon alleine deswegen weil man Unmengen an 5nm Kapazitäten gebucht hat.
Entweder Blackwell kommt in 4nm oder (was ich für fast wahrscheinlicher halte) Blackwell kommt gar nicht in 2024 (zumindest für Gaming) und man legt einen Refresh der bestehenden Ada Dies auf.
Ich habe den Verdacht, dass Nvidia keine Lust auf vernünftige Preise hat solange AMD nichts macht und stattdessen einfach die für 2 Jahre geplanten Ada Dies über die nächsten 3-4 Jahre abverkauft.

Durchaus eine sehr interessante Perspektive. Ich glaube langsam, dass hier solche Einschätzungen effektiver sind als irgendwelche Snippits von irgendwelchen Leakern, die was vermuten. Wenn man in die Foundry guckt, zeichnet sich nämlich ein anderes Bild - für alle Companys.

Daniel Nenni hat schon eine Menge Fachkompetenz und Insiderwissen über das Foundrybusiness und generell über Architekturtrends allerdings habe ich den Eindruck gehabt, dass er was das konkrete Gaming Lineup von Nvidia/AMD angeht nicht wirklich am aktuellen Stand ist.

Dass Nvidia auch irgendwann Richtung Chiplets gehen wird ist klar, da der Trend eindeutig in die Richtung geht. Die Frage ist nicht das ob sondern wann.

Das Ganze hat immer 2 Seiten. Chiplets lösen für AMD ein Problem der knappen Leading Edge Nodes, das Nvidia noch nicht hat. Genauso wie der IF$ ein Problem der Speicherbandbreite gelöst hat, das Nvidia damals noch nicht hatte.

Vielleicht ist ein 4nm Blackwell dann auch nur ein Backup, falls man es nicht hinbekommt oder sowas oder man fertigt nur die Mainstreamchips monolithisch in N4.

Das Problem, das ich sehe ist, dass sowohl Logik als auch SRAM nur mehr schlecht skalieren.
Bei den großen Dies mit vielen Shadern (z.B. AD102) würde N3 falls die Yields vergleichbar gut sind durchaus Sinn ergeben. Die höheren Kosten/Wafer werden durch die Density aufgewogen und man hat den Vorteil der niedrigeren Verlustleistung.

Bei den kleineren Dies nimmt jedoch der IO Anteil einen prozentual größeren Teil ein. Dasselbe gilt für den SRAM. Hier wird N3 im Durchschnitt deutlich schlechter skalieren und die Chips werden teurer. Umgekehrt ist die Verlustleistung bei einer 150-200W GPU nicht so relevant wie bei 350+.

basix

2023-05-04, 08:37:23

Ich glaube schon, dass Nvidia bald auf Chiplets geht. Aber nicht im Gaming Bereich sondern bei HPC. Und bei Blackwell sowie RDNA4 ist die Tendenz da, dass das in N4 kommen wird. Kann N3E/P sein aber bei Consumer tippe ich auf N4 (Blackwell, RDNA4, Zen 5, APUs).

HPC & Dataceter wird mMn dann schon in N3 kommen: Hopper Nachfolger, MI400, Zen 5c, ...

HOT

2023-05-04, 09:11:46

AMD wird mMn sehr sicher auf N3 gehen bei RDNA4. Grad mit den Chiplets ist das sinnvoll. Allerdings rechne ich mit RDNA4 nicht mehr in 24. Wenn NV noch mal Monolithen in N4 baut, stehen die 1/2 Jahr allein auf weiter Flur und müssten dann aber gegen N3+Chiplets und evtl. 1000mm² brutto ankommen. Wenn auch die N3+Chiplets machen wirds bei beiden 25. Das fertigstellen komplexer gestackter Chiplet-Produkte wird erheblich mehr Zeit erfordern, als einfach nur ein Die auf einen Träger zu pappen.

basix

2023-05-04, 11:22:38

Gerade die Aussage "N3 aber erst 2025" ist doch das schlimmste, was AMD machen könnte. RDNA3 ist bezüglich Konkurrenzfähigkeit zurückgefallen und RDNA4 muss wieder aufholen. Nvidia bringt mit hoher Sicherheit gegen Ende 2024 die nächste Generation und AMD wäre mit RDNA3 doppelt zurück. Klar könnte AMD 1/2...1 Jahr später mit N3 daherkommen aber dann müsste man auch zwingend deutlich schneller als die Konkurrenz sein, sonst wird das nichts.

Klar ist N3 bei Chiplets idealer als bei monolithischen Die. Aber wenn sich RDNA4 dadurch verzögern sollte, ist N3 stark zu hinterfragen. AMD sollte dahin arbeiten, dass sie mal als erste eine neue Generation einläuten. Und genau hierfür könnten Chiplets ebenfalls vorteilhaft sein -> Time to Market

Dann lieber RDNA4 in 4nm in 2024 und einen RDNA4 Refresh in 3nm in 2025. Wäre mMn deutlich sinnvoller. Man ist schneller am Markt und kann 2025 immer noch die Performance maximieren.

Troyan

2023-05-04, 12:07:49

Hmm, neben den 5nm GPUs vergißt Du vermutlich die vielen 5nm CPU- und APU-Dies, die AMD bei TSMC fertigen läßt. Da kommt schon was zusammen.

Ah, die APUs, die kann man vergessen. Liegt aber auch daran, dass die APUs nicht erhältlich sind im Notebook. :freak:

Achja, Q1 hat AMD mit CPUs und Co. einen beeindruckend Umsatz von $7xx Millionen gemacht. Wenn das also nach Apple der zweitgrößte Kunde bei 5nm bei TSMC wäre, sollte man TSMC shorten. :cool:

HOT

2023-05-04, 12:24:26

Gerade die Aussage "N3 aber erst 2025" ist doch das schlimmste, was AMD machen könnte. RDNA3 ist bezüglich Konkurrenzfähigkeit zurückgefallen und RDNA4 muss wieder aufholen. Nvidia bringt mit hoher Sicherheit gegen Ende 2024 die nächste Generation und AMD wäre mit RDNA3 doppelt zurück. Klar könnte AMD 1/2...1 Jahr später mit N3 daherkommen aber dann müsste man auch zwingend deutlich schneller als die Konkurrenz sein, sonst wird das nichts.

Klar ist N3 bei Chiplets idealer als bei monolithischen Die. Aber wenn sich RDNA4 dadurch verzögern sollte, ist N3 stark zu hinterfragen. AMD sollte dahin arbeiten, dass sie mal als erste eine neue Generation einläuten. Und genau hierfür könnten Chiplets ebenfalls vorteilhaft sein -> Time to Market

Dann lieber RDNA4 in 4nm in 2024 und einen RDNA4 Refresh in 3nm in 2025. Wäre mMn deutlich sinnvoller. Man ist schneller am Markt und kann 2025 immer noch die Performance maximieren.

Du gewichtest das völlig falsch. Für AMD ist der GPU-Markt lange nicht so wichtig als für NV. Trotzdem brauchst du nunmal die Zeit die du brauchst für so ein Produkt. Solange muss man dann halt mit RDNA3 leben. Da hat AMD aber auch kein Problem, weil man da noch viel Spielraum bei den Preisen hat, die NV mit großen Monolithen nicht hat.

Mandalore

2023-05-06, 08:37:14

Laut kopite ist Blackwell nun doch 3nm

https://twitter.com/kopite7kimi/status/1654730773906464768?s=46&t=8ue2pkM5Atr5VGeD5keh7w

Stellt sich nur die Frage des Release…

Edgecrusher86

2023-05-06, 14:01:23

Vielleicht ist Blackwell auch nur der Hopper Nachfolger. Desktop könnte ja auch in 4nm monolithisch erscheinen. Auf jeden Fall wird es nochmals teurer als Ada, das ist klar.
1999 USD MSRP werden wohl anstehen für die 5090. Die Segmente darunter dürften bestimmt auch jeweils 100-200 USD anziehen.

Also in etwa so:

RTX 5090 - 1999 USD MSRP
RTX 5080 - 1499 USD MSRP
RTX 5070 Ti - 999 USD MSRP // RTX 4090 Performance
RTX 5070 - 799 USD MSRP // RTX 4080 Performance
RTX 5060 Ti - 599 USD MSRP // RTX 4070 Ti Performance
RTX 5060 - 449 USD MSRP // RTX 4070 Performance
RTX 5050 - 349 USD MSRP // RTX 4060 Performance

Mit flottem GDDR7 und erneut mehr L2 Cache könnte man sicherlich nochmals das SI beschneiden, zumindest 104 bis 107.

HOT

2023-05-06, 14:13:37

Na der wird auf jeden Fall N3+Chiplets. Es bestünde eine gewisse Chance bei Consumer N4+monolithisch zu bleiben, da könnte man aber gegen N3+Chiplets+Stacking doch übelst ins Hintertreffen geraten, von daher wird auch hier das mMn nicht so passieren. Es wird mMn bei Geforc5, Radeon8 und Celestial auf N3+Chiplets+Stacking hinauslaufen und das sicher nicht mehr 24. Von daher wirds bei NV sicherlich sowieso einen Ada-Refresh geben.

iamthebear

2023-05-06, 14:17:57

Also in dem Zustand wo der Markt aktuell ist würde ich weitere Preiserhöhungen eher ausschließen. Es verkauft sich bereits jetzt nichts mehr sowohl bei Nvidia als auch bei AMD.

Meine Vermutung:
Blackwell kommt in 3nm aber nur für den AI Markt. Dort hat man auch keine Probleme die Kosten unterzubringen.

Ich denke, dass es für den Desktop nur einen Refresh geben wird. Derzeit gibt es ja keinen Zwang am oberen Ende mehr Performance zu liefern und man hat ja mit einer 4090 Ti ja noch einige Reserven.
Möglicherweise wird zwischen AD102 und AD103 noch ein Die dazwischen geschoben z.B. mit 108SM 320 Bit 72MB L2.

Laut früheren Gerüchten von MLID soll der Ada Memory Controller ja bereits GDDR7 unterstützen. Vielleicht legt man auch lediglich eine neue Revision mit GDDR7 auf.

Edgecrusher86

2023-05-06, 14:26:06

Nun ja, also die Waferkosten sollen von derweil grob 16000 USD bei TSMC N5 auf 20000 USD (N3) steigen und Samsung wird mit GDDR7 sicherlich auch gut zur Kasse bitte. Das wird man dann wieder an den Kunden weiter geben, um die Margen zu halten. Als Anreiz könnte dann durch die Bank wieder mehr VRAM dienen.

Refreshes 2024 dürfte man im 60er Segment sehen mit 104er Cut bei 10-12GB VRAM und halt 4080 Ti (20GB - 400W TGP) und 4090 Ti (24GB @ 24 Gbps, 500-550W TGP).

Gegen RDNA4 wird man aber mehr als das benötigen (abseits Path Tracing), daher denke ich nicht, dass da ein kompletter Refresh inkl. GDDR7 für weitere zwei Jahre käme.
Beim "leichten" RT sollte AMD dann auf Ada Lovelace Level sein, wenn man bedenkt, dass RDNA2 mit Turing und RDNA3 mit Ampere gleich zog.

E: Wenn man sich so das Ada Lovelace Lineup betrachtet und nur AD102 weiterhin das SI von GA102 erbte und man vermutlich dieses über eine jeweilige Generation weiterhin shrinken möchte, könnte man ja auch zu folgender Spekulation kommen.
Ausgehend davon, dass GB kaum etwas an der Anzahl der CC verändern soll und der größte Zuwachs wohl über die Optimierung der SMs plus Mehrtakt kommt, vermutlich deutlich mehr Cache und GDDR7 entsteht.

RTX TITAN Blackwell - GB102 - 24576CC [128SM a 12 GPC x 16SM] - 192MB L2 Cache - 384-bit SI - 48GB GDDR7 - 3999 USD MSRP
RTX 5090 - GB103 - 16384CC [128SM a 8 GPC x 16SM] - 128MB L2 Cache - 256-bit SI - 32GB GDDR7 - 1999 USD MSRP
RTX 5080 - GB104 - 10240CC [128SM a 5 GPC x 16SM] - 96MB L2 Cache - 192-bit SI - 24GB GDDR7 - 1499 USD MSRP
RTX 5070 Ti - GB106 - 6144CC [128SM a 3 GPC x 16SM] - 64MB L2 Cache - 128-bit 16GB GDDR7 - 899 USD MSRP
RTX 5060 Ti - GB107 - 4608CC [128SM a 3 GPC x 12SM] - 48MB L2 Cache - 96-bit 12GB GDDR7 - 499 USD MSRP
RTX 5050 - GB108 - 3072CC [128SM a 2 GPC x 12SM] - 32MB L2 Cache - 64-bit 8GB GDDR7 - 299 USD MSRP

TITAN und RTX 5080 dann zum Launch. RTX 5090 als Midlife-Kicker. Maximum Profit! :D

HPVD

2023-05-29, 08:56:07

zwar kein Blackwell (und auch nicht für Gaming) aber auf dem Weg dahin...
neue Hopper Variante:
Grace Hopper Superchips
https://www.computerbase.de/2023-05/nvidia-dgx-gh200-256-grace-hopper-superchips-liefern-1-exaflops-fp8-fuer-ki/

Blase

2023-05-29, 09:21:06

Also in etwa so:

RTX 5090 - 1999 USD MSRP
RTX 5080 - 1499 USD MSRP
RTX 5070 Ti - 999 USD MSRP // RTX 4090 Performance
RTX 5070 - 799 USD MSRP // RTX 4080 Performance
RTX 5060 Ti - 599 USD MSRP // RTX 4070 Ti Performance
RTX 5060 - 449 USD MSRP // RTX 4070 Performance
RTX 5050 - 349 USD MSRP // RTX 4060 Performance

Ist ein reines Bauchgefühl von mir, aber wenn du 5070Ti die 4090 Performance erreichen sollte, dann wäre das doch ne glatte Erhöhung um Zweidrittel Leistung. Erscheint mir als zu viel.
Also ja, ich glaube auch, dass nVidia zwingend die Performance der Karten unterhalb der XX80er Karten dringend steigern muss (und wird) - weil die Leistungszuwächse innerhalb Ada gegenüber Ampere ja ein Witz sind - aber gleich so viel? Und umgekehrt glaube ich nicht, dass die 5090 noch einmal so viel Performance auf die 4090 drauf legen wird - dass müsste sie doch aber, wenn "schon" eine 5070Ti diese Performance erreicht. Immerhin sollte mit gehörigem Abstand dann die 5080 und mit weiterem Abstand die 5090 folgen.

Aber wie geschrieben, reines Bauchgefühl ohne fundierte Basis :)

Mit den Preisen glaube ich auch nicht, dass die nochmals steigen werden. Die Dinger liegen jetzt schon wie Blei in den Regalen, was könnte sich nVidia schon von einer weiteren Erhöhung erhoffen...

MfG Blase

Troyan

2023-05-29, 11:12:23

Mediatek wird ein nVidia-GPU Chiplet für zukünftige Automobil-SoCs verwenden:

Through this collaboration, MediaTek will develop automotive SoCs integrating a new NVIDIA GPU chiplet with NVIDIA AI and graphics IP. Chiplets are connected by an ultra-fast and coherent chiplet interconnect technology.
https://seekingalpha.com/pr/19348518-mediatek-partners-nvidia-to-provide-full-scale-product-roadmap-to-automotive-industry?hasComeFromMpArticle=false

Erste Mal, dass nVidia über reale Chiplet-Produkte spricht.

iamthebear

2023-05-29, 14:04:12

So wie ich das verstanden habe ist das weiterhin eine monolithische GPU, die dann aber nicht verlötet sondern als Chiplet weiter integriert wird. Am grundsätzlichen Aufbau sollte sich da aber relativ wenig ändern.

Troyan

2023-05-29, 14:48:12

Es gibt keine Informationen über Hopper Next.

Mit der Ankündigung, dass Mediatek ein GPU-Chiplet anstatt IP verwendet, haben wir jedoch die erste Information, dass Chiplets für nVidia doch näher sind als vermutet.

AffenJack

2023-05-29, 14:56:48

So wie ich das verstanden habe ist das weiterhin eine monolithische GPU, die dann aber nicht verlötet sondern als Chiplet weiter integriert wird. Am grundsätzlichen Aufbau sollte sich da aber relativ wenig ändern.

Man verwendet zum ersten Mal den Begriff Chiplett und man müsste für Mediatek einen seperaten Chip designen, den es bisher nicht gibt. Dafür ist Mediateks Volumen und die Kosten für Nvidia zu hoch. Das ergibt für mich nur Sinn, wenn man selbst bei Drive Thor Chiplets (oder Grace Hopper Aufbau) verwendet. Dann könnte Nvidia das Chiplet auch alternativ an Partner verkaufen. Aber du hast Recht, dass nicht ausgeschlossen ist, dass das GPU "Chiplet" von Thor einfach nur ne klassische GPU ist, die wie Grace mit Hopper angebunden wird.

Edgecrusher86

2023-05-29, 18:10:19

@ Blase: Also in meinem Post wäre ja erst die 5080 bei 4090 Performance und analog eine 5070 Ti auf Level der 4080. So eine Liste entspräche natürlich den Wunschträumen, wenn man nochmals quasi in jedem Segment eine GPU-Klasse herunter gehen und gleichzeitig nochmals die Preise erhöhen könnte. Ja, fragt sich natürlich, wer das dann alles bezahlen sollte. Also auch 103er als 90er und erst darüber dann mit D-Zug-Aufschlag den 102er - ob als TITAN oder anderweitigen Branding. :D

iamthebear

2023-05-29, 22:19:39

Also ich würde eher davon ausgehen, dass es beim Top Die nur minimale Verbesserungen gibt und Nvidia mit N3 die Chance nutzt wieder so auf 450mm² runter zu kommen (ähnlich wie damals die 1080 Ti). Egal wie viel Performance man bringt: Irgendwann ist die Grenze erreicht, die man dafür verlangen kann.

Und alles darunter wird dann wieder etwas aufrücken können aber auch hier sieht Nvidia: Wenn gerade kein Mining Boom ist, dann zahlen die Kunden keine Mondpreise.

Platos

2023-05-29, 22:47:52

Also ich würde eher davon ausgehen, dass es beim Top Die nur minimale Verbesserungen gibt und Nvidia mit N3 die Chance nutzt wieder so auf 450mm² runter zu kommen (ähnlich wie damals die 1080 Ti). Egal wie viel Performance man bringt: Irgendwann ist die Grenze erreicht, die man dafür verlangen kann.

Und alles darunter wird dann wieder etwas aufrücken können aber auch hier sieht Nvidia: Wenn gerade kein Mining Boom ist, dann zahlen die Kunden keine Mondpreise.

Die 4090 ging doch sehr gut weg. Nächstes mal kommt eben 1999$ für die 5090 und MiamiNice und seine Blutsbrüder schlagen zu und freuen sich.

@ Blase: Also in meinem Post wäre ja erst die 5080 bei 4090 Performance und analog eine 5070 Ti auf Level der 4080. So eine Liste entspräche natürlich den Wunschträumen, wenn man nochmals quasi in jedem Segment eine GPU-Klasse herunter gehen und gleichzeitig nochmals die Preise erhöhen könnte. Ja, fragt sich natürlich, wer das dann alles bezahlen sollte. Also auch 103er als 90er und erst darüber dann mit D-Zug-Aufschlag den 102er - ob als TITAN oder anderweitigen Branding. :D

Das kommt ganz darauf an, wie gut die Ware weg geht (bei Lovelace). Man sieht an Lovelace, dass die Käufer mit weniger Budget mehr Rückgrat haben (und nicht kaufen) und die mit mehr Budget eben einfach zugreifen, egal obs mehr kostet oder nicht.

Vor allem die Karten, die eben die Leistungsspitze erweitern.

Wenn die Leute fleissig nicht kaufen würden, wäre auch nvidia zu geringeren Margen gezwungen.

Leonidas

2023-05-30, 12:49:00

Die 4090 ging doch sehr gut weg..

Ich denke, die Aussage ist relativ zu sehen: Die 4090 geht gut - für ein 90er Modell. Das bedeutet trotzdem nicht, dass jene die Stückzahlen eines 60er Modells erreichen sollten (zumindest bei einem vernünftigen 60er Modell). Eine 4090 dürfte eher in einem Marktsegment spielen, was keine 10% des Gesamtvolumens entspricht . Da zu glänzen ist schön, hat aber kaum Einfluß auf gesamte Marktanteile. Normalerweise sollten 50er, 60er und 70er Modelle den allergrößten Batzen am Volumen haben.

Troyan

2023-05-30, 13:26:36

"You know that we also manufacture with Samsung, and we're open to manufacturing with Intel. Pat [Gelsinger] has said in the past that we're evaluating the process, and we recently received the test chip results of their next-generation process, and the results look good," Huang said.

Huangs remarks come nearly a year after he first signaled that Nvidia was in talks with Intel's Foundry Services (IFS) to manufacture some of its chips, which is made possible by Intel's recent shift to an IDM 2.0 model that will see it making chips for other companies with its latest process nodes.
https://www.tomshardware.com/news/nvidia-ceo-intel-test-chip-results-for-next-gen-process-look-good

MiamiNice

2023-05-30, 13:56:15

MiamiNice und seine Blutsbrüder

Ich verteile keine genetischen Aufwertungen.

ryan

2023-05-30, 16:08:11

https://www.tomshardware.com/news/nvidia-ceo-intel-test-chip-results-for-next-gen-process-look-good

Intel hat erste 18A Testchips seit ein paar Monaten in den Laboren, da dürfte Nvidia mittlerweile auch einen bekommen haben. Theoretisch kann das auch 20A sein, aber der ist nicht für Kunden gedacht.

On Intel 20A and Intel 18A, the first nodes to benefit from RibbonFETs and PowerVia, internal test chips and those of a major potential foundry customer have taped out with the silicon running in the fab.

We will, one, deliver on five nodes in four years, achieving process performance parity in 2024 and unquestioned leadership by 2025 with Intel 18A. Two, execute on an aggressive Sapphire Rapids ramp, introduce Emerald Rapids in second half 2023 and Granite Rapids and Sierra Forest in 2024. Three, ramp Meteor Lake in second half 2023 and PRQ Lunar Lake in 2024, and four, expand our IFS customer base to include large design wins on Intel 16, Intel 3 and 18A this year.
https://seekingalpha.com/article/4572827-intel-corporation-intc-q4-2022-earnings-call-transcript

Troyan

2023-05-30, 16:14:20

Bald werden TSMC, Intel und Samsung um nVidia kämpfen. :D

Wäre gut, wenn es mehr Konkurrenz gibt. Die Waferpreise von TSMC sind einfach absurd und führen dann zu mehr Marktdruck auf nVidia und Co.

robbitop

2023-05-30, 17:32:21

Das stimmt aber die IHVs stecken sich ein Vielfaches dessen pro GPU in die Tasche. Da braucht es auch mehr Wettbewerb.

Platos

2023-05-30, 22:37:06

Ich denke, die Aussage ist relativ zu sehen: Die 4090 geht gut - für ein 90er Modell. Das bedeutet trotzdem nicht, dass jene die Stückzahlen eines 60er Modells erreichen sollten (zumindest bei einem vernünftigen 60er Modell). Eine 4090 dürfte eher in einem Marktsegment spielen, was keine 10% des Gesamtvolumens entspricht . Da zu glänzen ist schön, hat aber kaum Einfluß auf gesamte Marktanteile. Normalerweise sollten 50er, 60er und 70er Modelle den allergrößten Batzen am Volumen haben.

Ja, das stimmt, aber ich wollte damit sagen, dass es sehr wohl noch genug Käufer für eine noch teurere 5090 gibt, z.B eine hypothetische 5090 für 1999$.

Altehardware

2023-05-31, 08:30:27

Es ist eine titan im Gespräch ab 3000$
142sm identische Taktraten zur rtx 6000 ohne studio treiber unterstützung 24gb
man faselt da was von 48gb aber daran glaube ich nicht

basix

2023-05-31, 08:33:40

48 GByte halte ich auch für unwahrscheinlich. Bringt nichts. Evtl. nennt man es dann eher 4090 Ti anstatt Titan.

robbitop

2023-05-31, 09:32:18

Ich bin mal gespannt, wann GPUs 5 stellig kosten werden. Das ist doch alles Wahnsinn...
Normale Käufer bekommen jetzt für 400 EUR am anderen Ende des Spektrums gerade mal die Performance der last gen zum gleichen Preis wie letztes Mal mit der VRAM Ausstattung, die seit 7 Jahren Standard ist.

HOT

2023-05-31, 11:50:17

Das wird wohl nicht passieren, aber wenn man den AI-Hype derzeit sieht, wird das wohl nix mit niedrigeren GPU-Preisen. Ich würde sagen, dass GPUs jetzt massiv hintenanstehen werden ggü. AI-Chips, bei NV und bei AMD. Ich vermute ja schon seit einer Weile, dass beide den Zyklus für GPUs auf 3 Jahre ausdehnen werden, damit sich die GPUs mehr lohnen (höheres return on investment). GPUs sind für diese Companies nur dann interessant, wenn sie von den Margen her nicht ganz so abstinken ggü. den AI-Chips, was bedeutet, sie müssen länger laufen und länger Geld verdienen. Hinzu kommt noch ein anderes Problem: Unglaublich hohe Lagerbestände von Ada-GPUs bei NV. Die werden eienn Refresh brauchen um die loszuwerden.
Daher rechne ich mit Refreshes von beiden Companies, die die Preise etwas anpassen und die Speicherproblematik lösen werden. Aber grundsätzlich wird sich an den Preisen nichts mehr ändern, ich denke, man wird das tatsächlich akzeptieren müssen. Irgendwann wird auch die AI-Blase platzen, dann gehts wieder vorwärts. Klar wird AI die Welt verändern, aber diese Companies neigen zur Übertreibung, siehe was bei Mining passiert ist. Das geht nicht wie Mining von 100 auf 0, aber es wird sicherlich auch Rückschläge geben.

basix

2023-05-31, 12:35:35

Ich glaube eher, dass man die 2 Jahre Zyklus beibhalten will und dafür mit Chiplets den ROI maximiert. MCDs muss man nicht jede Gen neu auflegen. Cache Chiplets auch nicht zwingend. Und aufgrund Chiplets beim Core (GCD) mehrere Produkte, welche auf den selben Chips basieren (Economy of Scale und schnellerer Break Even).

Und die Consumer GPUs helfen schon: Stückzahlen (Economy of Scale & Marktmacht), Marktpräsenz, Gewinn macht man sogar auch noch ziemlich saftig ;) Dazu Diversifizierung des Geschäfts. Maximale Margen sind nicht alles. Siehe AMDs Konsolen-Geschäft.

Die hohen Lagerbestände sind primär Nvidias Schuld: Zu hohe Preise, zu geringe technische Attraktivität (8 GByte) und die hohen TSMC Kapazitäten, die man gebucht und dann nicht zwingend gebraucht hat.

HOT

2023-05-31, 14:05:36

Nein, die Chiplets sind schon eingepreist über die Kosten der Fertigungsprozesse und der teureren Packages und mehr Brutto-mm². Die werden auf jeden Fall die Zeiträume verlängern müssen, damit sich Gaming mehr lohnt mMn.

Und es ist egal, ob das NV Schuld ist. Die Lagerbestände sind da.

Mal einige Argumente für einen LL-Refresh anstatt Blackwell in 2024:

- man hat zuviele AD102, 103 und 104 produziert
- Aufräumen des bisherigen Chaos-Lineups
- Speicherbestückung auif brauchbare Level pushen
- verstecke kleine Preissenkung über das Portfolio ohne die Namen günstiger zu machen (RTX 5080 -> GA102 Salvage bleibt bei $1000 oder gar mehr)
- finales Etablieren der hohen Preise im Markt

2025 kommt dann mMn eine BW-Consumer-Generation, N3e, Chiplets, aber kein 3D-Stacking, da wird NV einfach noch Nachholbedarf haben. Eher sowas wie RDNA3. noch ne N4-Generation ergibt keinen Sinn, da kann man einfach LL refreshen. Und N3 wirds nicht werden für NV, N3e ist zu spät für 2024 für die Produktionsmengen, die NV bräuchte. N3e wird zuerst von Apple und dann von AMD abgegrast werden.

Edgecrusher86

2023-06-27, 19:15:36

https://abload.de/img/mlperf-training-3-bri2pf6h.jpg

HWL: Nächste GeForce-Generation Ada-Lovelace-Nachfolger erst 2025 (https://www.hardwareluxx.de/index.php/news/hardware/grafikkarten/61356-n%C3%A4chte-geforce-generation-ada-lovelace-nachfolger-erst-2025.html)

Sieht wohl nach H1 aus. Q1 oder Q2 vermutlich. Nun ja, dann sollte TSMC N3 definitiv als gesichert angesehen werden.

BlacKi

2023-06-27, 19:36:54

denke ich auch, da hat mit dem fertigungsprozess zu tun, die fortschritte ohne nodesprung wären zu klein. MLID.

Nightspider

2023-06-27, 19:57:12

Wenn Nvidia wieder mit ~~700mm² Chips kommt, spielt die Yieldrate auch eine Rolle.

HOT

2023-06-27, 21:04:53

Nope, der Fertigungsprozess ist es sicher nicht. N3 ist up und running, Yields sind sehr gut, N3e wird sehr sicher rechtzeitig verfügbar sein. Das wird an den Chiplets liegen. Das Ding wird nicht mehr monolithisch, deshalb braucht man schlichtweg mehr Entwicklungszeit.

Hatstick

2023-07-03, 08:08:50

Ist so eine GPU Entwicklung wie der Ada Nachfolger ein fließender Übergang, nach dem Ada Entwicklung abgeschlossen? ist?
Wurde in der Ada Entwicklungsphase auch Blackwell schon designt und wie lange kann man an so einem Chip arbeiten, bis der Tag X kommt und das Ding in die Produktion geht?

HOT

2023-07-03, 08:43:36

Ein solches Projekt dauert sicherlich 5 Jahre. An Blackwell wird sicherlich länger gearbeitet, der hat mehr Innovationen als andere Architekturen durch die Chiplet Technik.

w0mbat

2023-07-03, 09:28:32

Ist das mit den Chiplets deine persönliche Speku, oder gibt es da andere Hinweise bzw. Quellen?

Neurosphere

2023-07-03, 09:44:23

In der Gerüchteküche gab es meine ich beide Aussagen, monolithisch oder Chiplet bzw. hin und her.

HOT

2023-07-03, 12:17:47

Ist das mit den Chiplets deine persönliche Speku, oder gibt es da andere Hinweise bzw. Quellen?
Daniel Nenni von SemiWiki sagt ganz klar, dass es bei N3 auch Chiplets geben wird bei NV.
Aber es ist auch klar, wenn man darüber nachdenkt, selbst so ne Lösung wie bei RDNA3 wäre für NV ein gewaltiger Fortschritt.
600mm² mit N3 wirds von NV für Consumer sicher nicht mehr geben.

Es gab Gerüchte, dass die 5k-Serie 144 SMs ist und monolithisch - wenn das ein Ada-Refresh ist, wäre das ja kein Wunder ;).
Kimi hat das mit dem "monolithisch" bei BW dann ja auch wieder zurückgenommen. Das Ding ist Chiplets, da beißt die Maus keinen Faden ab, jedenfalls die Großen. Bei den kleineren wäre ich mir nicht mal sicher, ob man dafür überhaupt N3 verwenden wird. Da wäre ne Lösung wie bei Pascal sicher sinnvoller.

Sunrise

2023-07-03, 12:31:00

GDDR7…

Warum jetzt nen halbgaren “Refresh” raushauen, wenn man noch zwei Jahre warten kann.

basix

2023-07-03, 12:33:42

Daniel Nenni von SemiWiki sagt ganz klar, dass es bei N3 auch Chiplets geben wird bei NV.
Aber es ist auch klar, wenn man darüber nachdenkt, selbst so ne Lösung wie bei RDNA3 wäre für NV ein gewaltiger Fortschritt.
600mm² mit N3 wirds von NV für Consumer sicher nicht mehr geben.

Es gab Gerüchte, dass die 5k-Serie 144 SMs ist und monolithisch - wenn das ein Ada-Refresh ist, wäre das ja kein Wunder ;).
Kimi hat das mit dem "monolithisch" bei BW dann ja auch wieder zurückgenommen. Das Ding ist Chiplets, da beißt die Maus keinen Faden ab, jedenfalls die Großen. Bei den kleineren wäre ich mir nicht mal sicher, ob man dafür überhaupt N3 verwenden wird. Da wäre ne Lösung wie bei Pascal sicher sinnvoller.

Du weisst schon, dass es auch HPC Produkte gibt? Von wegen Chiplets in N3 und so ;)

HOT

2023-07-03, 12:45:07

Du weisst schon, dass es auch HPC Produkte gibt? Von wegen Chiplets in N3 und so ;)
Da seh ich aber eher Riesen-Dies als im Consumer-Bereich. Man braucht hier schlichtweg Chiplets, sonst gibts halt keine 40-60% Marge mehr.

AffenJack

2023-07-03, 18:54:35

Da seh ich aber eher Riesen-Dies als im Consumer-Bereich. Man braucht hier schlichtweg Chiplets, sonst gibts halt keine 40-60% Marge mehr.

Im HPC Bereich hat Nvidia durch N3 keine wirkliche Luft nach oben und den Kunden ist das preisliche egal. Ich kann mir da von Nvidia auch 2 x 800 mm² auf einem Interposer vorstellen. Nvidia wird zuerst da Chiplets nutzen, wo es nicht anders geht um mehr Performance rauszukriegen.

Die Frage ist, wie Nvidia ein Chipletdesign bei Consumergpus realisieren kann. Das sinnvollste wäre bei N3 wegen der schlechten SRAM Skalierung AMDs Ansatz mit Abtrennung des IO und Cacheparts. Das könnte man ja durchaus auch als 2 Chip Lösung, statt Chiplets machen. Allerdings passt das nicht zu Nvidias Chipdesign. Nvidia kann nicht einfach den L2 abtrennen.

basix

2023-07-04, 00:40:50

Wenn Nvidia im HPC Bereich ein Konstrukt aus 2x Chips bringt (wie MI250X, einfach stark aufgebohrter Chip-to-Chip Interconnect), könnte das Nvidia auch für Consumer bringen.

Ich sehe da folgende Möglichkeit:
- BL103 mit ~400mm2 als Nachfolger von AD103, 64 MByte L2$ & 256bit SI
- BL102 mit 2x BL103, 96...128 MByte L2$ aber nur 384bit SI

Der zusätzliche Cache und das breitere SI reichen, um die doppelte Anzahl SM füttern zu können. Ich würde allerdings erwarten, dass Chiplets bei Consumer erst beim Nachfolger von Blackwell zum Einsatz kommen. Zuerst kommt das bei HPC und eine Generation später auch bei Consumer (wie der grosse L2$) . 400mm2 wäre zudem eine Chipgrösse, die man mit High-NA EUV noch bespassen könnte (max. 26x16.5mm). Mehr als 800mm2 Si will man bei Consumer aufgrund der Kosten wohl eh nicht anbieten. Alles bis 1000 Euro wird wohl beim 400mm2 Chip und kleiner bleiben. Damit deckt man 95% des Marktes ab.

Ach ja #1: Nvidias L2$ bei den HPC Chips ist in 2x Bereiche geteilt. Würde sich doch schon fast anbieten, hier den Schnitt anzubringen ;)
Ach ja #2: AD103 ist 25.9x15.7mm gross. Passt perfekt in ein High-NA Reticle ;)

Altehardware

2023-07-04, 08:22:32

ganz falsch nvidia wird wenn mcm erst bei n2 Nachfolger einsteigen
Das hat den Grund da tsmc noch Flächen Reduktion ankündigt in n2 beim sram -20%
Das einzige was sich partout nicht verkleinern lässt ist das SI
Das hat physische gründe
N3 verspricht 42% kleinere logic Größe.
Der logic Anteil eines ad106 beträgt gut 60%
Der rest ist SI und sram (der L2 cache)
rechne ich das genau aus wird der chip um 25% kleiner also von 190mm² wird 142mm² bei gleichen design
Das reduziert die chipkosten auf 40$ pro stück vs aktuell 50$ und das beim neueren node.
Wenn dann noch gddr7 verwendet wird mit 36gbps kann man dass Si auf 96 bit kürzen und wäre bei 432gb/s und die sku maximale bei 389€ als rtx6060 12gb gddr7
wohl gemerkt das der chip dann bei 3,2ghz läuft und knapp 20tf erreicht was in etwa der leistung der rx6800 entspricht

Also nein nvidia wird definitiv erst mcm einsetzen wenn tsmc 3d stack chips nutzt um das latenzproblem zu lösen quasi wird der cache später auf den chips liegen mit durchlässigen wärmebrücken.
Dann wenn der der teure n2 node +- 35000$ den cache Anteil mit si in n4 5000$
dann beim kumulierten preis vermutlich 40000$ aber die chipflache dann halbiert ist
aus 36sm 190mm² wird dann 71mm²
Ein chip würde dann bei 42$ kommen
bis n2 gibt es 35% mehr Takt vs heute 2,74ghz =3,8ghz

Ich ahne aber das bis dahin der chip low end sein wird und einige cuts bekommt etwa beim SI 96bit stehen so gut wie sicher cache wird gleich bleiben aber rop sowie tmu werden kleiner von 48 auf 24 rop -5% fläche tmu halbiert -5%
aus 71mm² wird nur noch 63,9mm²
dann kostet ein chip etwa 32$ plus günstigen gddr7 32gbps bis dahin vermutlich 8$ per 16gbit
Was danbn ne sku ab 239€ machbar wird
Wohl gemerkt 3,8ghz 24tf low end 12gb mit 384gb/s
Das wird aber erst mit n2 umsetzbar und das sehe ich nicht vor 2027

das sind annahmen ohne Änderung der Architektur wonach es derbe aussieht
Blackwell wird hpc die nächste gaming ableger sehe ich als ada refresh
Darauf vielleicht eine Annäherung an blackwell design aber ungewiss
Der Grund liegt am Takt. Dieser kann beim blackwell design nicht gehalten werden. min 1ghz geringer.
Und nvidia ego vermeidet es das man geringere Taktraten bei einen neuen gen hat.
Und nein ferm (gtx500) vs kepler (gtx600) war der shaderclock nicht der Haupt marketing Satz das war coreclock.2-1
Vom shaderclock wussten nur OC was.
Bisher hatte nvidia bei jeder neuen gen immer den höheren Takt vs älteren gen. bzw gleichen
Das wäre mit dem blackwell design nicht umsetzbar.

n2p also der Nachfolger von n2 verspricht ne 40% geringere strombedarf also nochmal 20% mehr Takt und das ist nach dem n2 also dann 3,8*1,2=4,5ghz ab 2028 und das bei 64mm² und nur 160w tbp

Wenn ich so betrachte wäre man mit n2p erst ein neues design denkbar bei 3,2ghz vs n3 3,2ghz
Blackwell wird so aufgebaut sein im sm

128 fp32 +32int32 in 16int32 nativ und 16 fp32 int32 hybrid, 8 fp32 garantiert, 16 möglich =12fp32 normiert der fall
128+8+4=140fp32 pro sm das in 18 sm pro gpc den gb106 mit 2gpc +-75mm²
32tf bei 339€ mit 16gb vram
Das trifft genau die Konsolen specs der ps6

Die alternative wäre ada design mit 4,5ghz und nur 88fp32 pro sm 40sm aktiv von 48sm
31tf /chipgröße ähnlich

Was am ende umgesetzt wird ist unklar ich gehe eher vom ada design aus da taktangaben beim marketing besser ziehen.
Darum erwarte ich nicht das Blackwell am desktop kommt das wird ein reiner HPC chip am ehesten sogar quadro exklusiv wie einst 2017 mit Volta
Also vor n2p mit cache chips auf dem shadern wird es kein mcm bei nvidia geben.
Nochmal 2028 frühestens

Sunrise

2023-07-04, 10:55:33

Ich sehe da bei Blackwell auch noch keine Chiplets.

Nvidia werden die monolitischen Chips quasi aus der Hand gerissen, weder im HPC noch im Consumer-Markt benötigt NV noch mehr Komplexität, da TSMC sowieso schon hart am Limit bei NV arbeitet.

Hatstick

2023-07-04, 13:10:12

Mich interessiert eigentlich nur ein Punkt bei der nächsten nVidia Gen, hat die RTX 5070 zumindest 16GB. :biggrin:

Platos

2023-07-04, 13:40:21

... und wird nicht durch die Speicherbandbreite und/oder zu kleine Caches ausgebremst.

Und vlt. hat die ja dann PCI-E 5.0 x4 (kleiner Scherz) :D

Hatstick

2023-07-04, 13:56:22

Zumindest eine verkappte RTX 4080 oder zumindest knapp dran und dann würde es ja einigermaßen mit dem nächsten Upgrade passen.

AffenJack

2023-07-04, 18:15:10

Wenn Nvidia im HPC Bereich ein Konstrukt aus 2x Chips bringt (wie MI250X, einfach stark aufgebohrter Chip-to-Chip Interconnect), könnte das Nvidia auch für Consumer bringen.

Ich sehe da folgende Möglichkeit:
- BL103 mit ~400mm2 als Nachfolger von AD103, 64 MByte L2$ & 256bit SI
- BL102 mit 2x BL103, 96...128 MByte L2$ aber nur 384bit SI

Der zusätzliche Cache und das breitere SI reichen, um die doppelte Anzahl SM füttern zu können. Ich würde allerdings erwarten, dass Chiplets bei Consumer erst beim Nachfolger von Blackwell zum Einsatz kommen. Zuerst kommt das bei HPC und eine Generation später auch bei Consumer (wie der grosse L2$) . 400mm2 wäre zudem eine Chipgrösse, die man mit High-NA EUV noch bespassen könnte (max. 26x16.5mm). Mehr als 800mm2 Si will man bei Consumer aufgrund der Kosten wohl eh nicht anbieten. Alles bis 1000 Euro wird wohl beim 400mm2 Chip und kleiner bleiben. Damit deckt man 95% des Marktes ab.

Ach ja #1: Nvidias L2$ bei den HPC Chips ist in 2x Bereiche geteilt. Würde sich doch schon fast anbieten, hier den Schnitt anzubringen ;)
Ach ja #2: AD103 ist 25.9x15.7mm gross. Passt perfekt in ein High-NA Reticle ;)

Na, so einfach ist das bei Grafik nicht. Es hat schon seinen Grund, wieso auch AMD bisher nur ihren Cache/Spiechercontroller abgetrennt hat und die Frage ist, gewinnt man damit überhaupt soviel? Solange der Cache/IO immernoch im gleichen teuren Prozess gefertigt wird hat man davon hauptsächlich was, wenn man nach oben skaliert. Schlechte Yield wird ja durch massiven Salvage abgefangen.

Ich sehe da bei Blackwell auch noch keine Chiplets.

Nvidia werden die monolitischen Chips quasi aus der Hand gerissen, weder im HPC noch im Consumer-Markt benötigt NV noch mehr Komplexität, da TSMC sowieso schon hart am Limit bei NV arbeitet.

Nvidia hat Chiplets in ihren Papern in der Regel als Weg gesehen weiter nach oben zu skalieren und bei HPC auch gezeigt, dass man an die Grenzen des machbaren geht, um zu skalieren. Das geht mit 3nm nicht. Dafür ist der Nodesprung zu klein. Nvidia wird als Platzhirsch bestimmt nicht da sitzen und warten, dass AMD und Intel ihre Marktanteile klauen. Ich bin sicher wir sehen mit Blackwell nen massiven Chip aus Chiplets. Frage ist nur, ob es eher konservativ mit 2 Dies in Richtung MI250X oder wir eine aggressivere Chipletlösung sehen. Wie Basix schon schreibt hat man mit dem L2 bei Hopper schon manches vorbereitet für eine Dual-Chip Lösung.

mksn7

2023-07-05, 14:06:54

AMD hat sich ja entschieden, einen kleinen L2 cache vor dem Infinity Cache zu behalten, obwohl nicht wesentlich schneller (Latenz) oder schneller (Bandbreite) ist. Ich hab bei AMD mal gefragt warum, da hieß es dass das Energiespargründe hat. Selbst der kleine L2 cache kann die von den SMs kommende Bandbreite schnell um einen Faktor >2x (meine Schätzung) reduzieren, und das spart man dann an anscheinend deutlich energieintensiveren I$ Zugriffen, vor allem off-chip.

NVIDIA hat jetzt direkt den normalen L2 cache aufgeblasen. Das war wohl für on chip ok, aber den komplett L2 direkt auf chiplets auszulagern klingt nicht so sinnvoll. Ich denke es braucht ein on chip cache level dass über die SMs geshared ist.

Edit: Eine dual chip Lösung, wo jede Hälfte seinen on-chip L2 cache hat, ist aber wieder ok. Bei A100 sieht man zwar ein bisschen Verlust durch die Duplikation, aber das ist schon ok.

Troyan

2023-07-05, 14:11:30

Das ist Quatsch, was AMD sagt. L2 Cache ist komplett untereinander verbunden. Je mehr ComputeUnits, umso mehr verbindungen. Je mehr L2 Cache, umso mehr Verbindungen. Ein kleiner L2 Cache ist also einfacher zu realisieren.

Ein großer L2 Cache ist natürlich energieeffienzter als ein L2<>L3 Cache Verbund.

mksn7

2023-07-05, 14:26:57

Du meinst die Komplexität der crossbar zwischen CUs und L2 cache steigt mit größer werdendem L2 cache?

Huh, das seh ich nicht so zwingend. War bei NVIDIA ja anscheinen auch kein Problem. Man muss doch die Anzahl der L2 slices nicht unbedingt erhöhen, sondern kann die slices einfach größer machen?

Wenn ich sage "AMD", dann bedeutet das natürlich "ein Mitarbeiter bei AMD", die weiß natürlich auch nicht jeder alles. Ich finde aber die Antwort macht Sinn.

basix

2023-07-05, 20:46:59

Das ist Quatsch, was AMD sagt.

OK, Herr allen Wissens :rolleyes:

Meiner Ansicht nach ist AMDs Ansatz aufgrund des Chiplet Designs vorteilhaft. Ohne Chiplets ist es das weniger, deswegen sehen RDNA3 und Lovelace so aus wie sie es jetzt tun ;)

robbitop

2023-07-05, 21:40:06

Ist schon witzig wie ein Amateur aus einem Forum es besser wissen will als wahrscheinlich ein Vollzeit GPU Engineer bei AMD. Dunning Kruger at its best.

mksn7

2023-07-06, 10:00:59

Ist schon witzig wie ein Amateur aus einem Forum es besser wissen will als wahrscheinlich ein Vollzeit GPU Engineer bei AMD. Dunning Kruger at its best.
Da muss ich doch ein bisschen relativieren, wie gesagt, meine Erfahrung bei Gesprächen mit Mitarbeitern von Firmen ist dass die meisten Leute von den meisten Dingen keine Ahnung haben, weil sie halt nur ihren Bereich bearbeiten.

In diesem Fall ist die Aussage weder verwunderlich noch überaus spezifisch, und ich schätze meinen Kontakt als kompetent ein, auch wenn er kein GPU Engineer ist.

Troyan

2023-07-06, 10:33:15

Du meinst die Komplexität der crossbar zwischen CUs und L2 cache steigt mit größer werdendem L2 cache?

Huh, das seh ich nicht so zwingend. War bei NVIDIA ja anscheinen auch kein Problem. Man muss doch die Anzahl der L2 slices nicht unbedingt erhöhen, sondern kann die slices einfach größer machen?

Bei Ampere wurde die Anzahl an Slices deutlich erhöht und man hat den L2 Cache partitioniert und miteinander verbunden. Das ist also schon deutlich aufwendiger als alles, was es davor gab. Im Grunde ist GA100 intern wie Chiplet aufgebaut.

Bei Lovelace gibt es keine wirklichen Aussagen. Aber hier ist er wohl nicht partitioniert.

Wenn ich sage "AMD", dann bedeutet das natürlich "ein Mitarbeiter bei AMD", die weiß natürlich auch nicht jeder alles. Ich finde aber die Antwort macht Sinn.

Es ergibt im Vergleich zu nVidia eben kein Sinn, da Lovelace einen 12x größeren L2 Cache hat. Und jede Datenkommunikation immer ineffizienter ist - bei MCD GPUs noch mehr. Dazu kommt, dass interne L2 Bandbreite und Latenz deutlich abnimmt je mehr Informationen aktuell im L2 Cache benötigt würden.

basix

2023-07-06, 14:11:57

Bei Ampere wurde die Anzahl an Slices deutlich erhöht und man hat den L2 Cache partitioniert und miteinander verbunden. Das ist also schon deutlich aufwendiger als alles, was es davor gab. Im Grunde ist GA100 intern wie Chiplet aufgebaut.

Bei Lovelace gibt es keine wirklichen Aussagen. Aber hier ist er wohl nicht partitioniert.

Diese Partitionierung gibt es so nur bei den HPC GPUs. Bei Desktop Ampere sind die Caches noch klein und bei Lovleace sind die Cache-Slices in der Grösse vermutlich deutlich angewachsen.

Altehardware

2023-07-10, 09:18:11

Nochn Senf wie es ablaufen kann?

Ideal wäre eine sku wie rtx5060 als Nachfolger der rtx4060 ad206 Vollausbau 36sm 3,2gzhz 96bit si 40gbps gddr7 12gb =20tf mit 480gb/s
Das wird eher passieren als das man die preise der rtx4060ti auf unter 400€ mit 16gb gddr6x 24gbps bringt
Den alles spricht dafür, ob man das design dann blackwell nennt wovon ich nicht ausgehe ist egal,
das ist ne Annahme die grob die min Leistung angibt und die 60er sku wird salvage ich rechne mit 30sm 3,2ghz = 16,8tf mit 480gb/s oder 432gb/s
Und das bei etwa denselben verbrauch +- 150w
Gddr7 ist ab 32gbps normiert und wird in der ersten gen in 32 und 36gbps geben abhängig wann die sku kommt ich rechne mit q3 2025 sind 40gbps drin.
Die preise von gddr7 wird aber heftig weswegen auch 32gbps realistisch wären was dann nur noch 384gb/s sind aber immer noch besser als das was es jetzt gibt mit 288gb/s und 16gb die dann nix bringen.
Aktuell 16gbit 24gbps gddr6x 6$-8$
Gddr7 vermute ich zwischen 8-10$
Da aber nvidia beim vram mitverdient ist eher dieses Szenario auszugehen als das man vernünftige sku mit ad106 und ad104 plant zumal n3 die chipkosten sogar senkt
ad106 aktuell 50$ mit n3 beinahe gleichen design 40$
ad104 chipkosten 90$ dann maxed 67$
Das Si wird in beiden fällen gekürzt einmal 96bit und einmal in 128bit

Aber nvidia springt nur so weit wie amd Konkurriert und da gibt es gute Nachrichten ein super refresh der ada gen steht so gut wie sicher.
Gleiche sku wie bisher mit aber schnelleren vram und eine neue sku als rtx4060 super mit 30sm 20gbps und gleicher Takt = 14,4tf 150w 320gb/s (=+ 60% vs rtx 3060 12gb)
So also ne meh gen die man vielleicht so ok finden könnte

Zu amd rx8000 also rdna4 es scheint so als ob man die 3,6ghz marke anpeilt
Und ja das mein ernst das design wird angepasst damit endlich die Datenkonsistenz bestehen bleibt bei so hohen Takt.
Dadurch vergrößert sich die chips um 10% aber man spart beim node etwa 40% Größe ein und die kosten sind deutlich geringer als gedacht wafer um die 18000-20000$ bisher 5nm 16000$
52 cu 3,6ghz = 28tf für 400€ 16gb gddr7 32gbps an 128bit 512gb/s
ich rechne mit aber 650€ dieser sku als rx8800xt
zum vergleich das wäre fasst so schnell wie die rx7900xt für aktuell 850€
Die sku rx8700 sehe ich mit maxed 40cu als eigener chip maxed 100mm² 12gb vram sku ab 499€ +- 20tf

Das problem bei rdna3 ist das ab 2,7ghz die Datenkonsistenz nicht mehr gegeben ist und die spannung drastisch ansteigen muss und das beim cache. Nein nicht die mcd sondern der interne L2 cache.
Würde man da im design die Fläche vergrößern könnte der Takt ansteigen ohne abnormale Spannungen zu benötigen.
Das aktuelle design ohne Beachtung der Datenkonsistenz kommt auf etwa 3,2ghz
n3 verspricht 15% an Takt und etwa 40% Transistordichte ergeben mit größeren sram, 30% kleinere chips
Und wenn amd die dual issue Einheiten aufbohrt was chipfläche kostet grob +5-10% könnte man die Auslastung auf 2,5 erhöhen Statt 2,34
Das maxed sehe ich bei 3,0 ist aber eher unwahrscheinlich.
Genaueres kann man beim rdna3 Erklärung der zusätzlichen simd32 Einheit mit dual issue lesen.
Daher die Angabe 17% oder in Operationen per cu 2,34. Geplant war das mit 25% und 2,5 Operationen bei 3,0ghz. Der node Schafft mehr.

Es ist klar das nvidia ein problem bekommt ab n3 node mit dem alten design aber das neue design (blackwell doppelte fp32) damit leider zu teuer wird. Und erst n2 den Durchbruch bringt mittels Takt oder eben dem neuen Design.

Das ne Prognose wie es auskommen kann Kurzfristig sehe ich nur ada refresh und ein ada neu design mit leichten Anpassungen beim Si und die volle Taktmitnahme
rdna4 wird sehr gut alle sku haben dann mcm es kann sein das man sogar rdna3 einstieg sku beibehält als rx8500 für 150€
Einstieg 40cu maxed 100mm² + 2 mcd 100mm² 21,0tf 30$
Mittelklasse 60cu 140mm² + 4 mcd 200mm² 32,3tf 70$
High end 120cu 262mm² + 6 mcd 300mm² 64,0tf 100$
und das je 3,6ghz
vs
ad207 105mm² 11,2tf 33$
ad206 142mm² 20tf 40$
ad204 218mm² 33,7tf 67$
ad203 285mm² 47tf 88$
ad202 457mm² 79,9tf 158$
alle etwa 3,2ghz

Ja nvidia gewinnt darum diese Prognose
Der high end Kampf kommt erst mit rdna5 und mehreren gcd im mcm design

Hatstick

2023-07-16, 10:03:07

Hat jemand ne grobe Einschätzung, wann man mit den ersten ernsthaften Grüchten bzgl. technische Eckdaten, Leistung usw. von Blackwell rechnen kann?
Habe es gar nicht so im Blick, wann das bei den vergangenen Gens so war.
Round about sechs Monate vor Release, dann ist der Chip ja quasi fertig, oder?

AffenJack

2023-07-16, 11:04:51

Hat jemand ne grobe Einschätzung, wann man mit den ersten ernsthaften Grüchten bzgl. technische Eckdaten, Leistung usw. von Blackwell rechnen kann?
Habe es gar nicht so im Blick, wann das bei den vergangenen Gens so war.
Round about sechs Monate vor Release, dann ist der Chip ja quasi fertig, oder?

Kommt drauf an, ob es richtige Leaks wie von Kopite7 Kimi für GA102 gibt. Da wurde der SM Count sehr früh geleakt, sehr viele andere Infos von ihm waren aber falsch. Bei Lovelace wurde durch den NV Hack fast alles 6 Monate vor Release geleakt, aber sonst kann es auch durchaus sein, dass wir erst 3 Monate vorher wirklich glaubwürdige Infos erhalten.

Daher beim spekulierten Releasetermin Anfang 2025 kann man ab H2 2024 ernsthaftere Gerüchte erwarten. Gerade wissen wir ja noch nicht mal, wie die Architektur heißt. Blackwell dürfte ziemlich sicher nur HPC sein und da werden wir früher Dinge von hören.

Hatstick

2023-07-16, 11:07:00

Danke!

Altehardware

2023-07-16, 18:19:00

ich habe keine Infos aktuell aber so könnte es sein was BWL Sicht Sinn macht

Grob kann man zu blackwell design nur spekulieren was Sinn macht
Einerseits kann es ein aufbohren des ada design weitergeht
beduete aber auch das man klar den Takt steigern will
Das SI nochmal kürzt je sku und das man den cache erweitert
Teile des chips die man gut verkleinern kann sind logik und spezial einheiten wie rt core
Alle diese einheiten haben sram intrigiert L0/L1 cache
Das lässt sich noch perse verkleinern aber beim L2 cache nicht
Aktuell ist es so das 25% des chips sind L2 cache 15% Si und der rest im groben Logic das Si um 25% zu kürzen macht Sinn der L2 cache wird man kaum kürzen
Das ergibt in n3 dann 75% der Größe vs n5

Würde man das ada design beibehalten könnte man kaum über den Takt Vorteil von n3 an Leistung gewinnen (+15%) abseits der chipkosten die damit sinken
Damit ließen sich besser sku planen aber in high end wäre man mit maxed 10% vs Vorgänger würde man ziemlich blöd dastehen.

Es wär denkbar das man ada einfach refreshed und mit gddr7 das Si schrumpft und die logic um 42% verkleinert

Die andere Idee ist die arch komplett umzugestalten und die Sm auf doppelte native fp32 und die int32 zu halbieren
Leider hat diese idee einen haken mehr dichte = mehr wärme = weniger Takt aber mehr fp32 pro sm

Derzeit ist zwischen hopper und ada ein 700mhz taktunterschied im selben node
Das wird sich nicht ändern in n3 tsmc sagt 15% mehr Takt mit n3p 20%
Derzeit maxed bei hopper ähnlichen Design 1,85ghz mit 20% dann 2,2ghz
Mal ne speku wie blackwell design sein könnte

128fp32 wie in hopper 32int32/hybrid davon 16 int32 nativ und 16fp32/int32 hybrid davon garantiert 8 fp32 = 136 fp32 ohne Treiber bedingte fp32 Zusatz was dann min +4 dazukommen = 140 fp32 pro sm

In dem sm sind außerdem rt core 2 tensor core 4 tmu in einen gpc sind 16 rop
Ein gpc sind 18 sm
low end als bsp gb107 mit 2gpc 32rop 2,2ghz *140fp32 =11,0tf aber die rop wären gerade ausreichend für 720p
Der chip wäre zudem zu groß mit 242mm²
In n3 wird es definitiv kein blackwell geben

Das sieht bei n2x anders aus +20% Taktvs n3 und zusätzlich +15% von n2x Takt = 2,2*1,2*1,15=3,06ghz
Bei dem Takt und zusätzlich n2 bedingte -50% chipfläche also nur noch 121mm² dann etwa 30tf

Also nein blackwell wird man frühestens 2027 sehen in n2x Aktuell spricht alles fürn ada refresh was die rtx50 gen ziemlich meh wirken lässt
Das kann nvida vermeiden wen man den high end ad102 nicht bringt und dies als rtx5090 mit vollen ad202 142sm 3,2ghz bringt was um die 80tf (+25% vs rtx4090) wären amd maximale erreichbare 64tf wären das in etwa rtx4090 level Entspräche.

Aktuell gibt es erstmal rx7700 und rx7800 die knapp an der Leistung der rx6800 und rx6800xt gleichen geben von amd

Aber amd hat die chance mit rdna5 und mehreren gcd davonzulaufen. Zumal den gcd kein Si und kein Sram die shrinks verhindert
Aus 300mm² rdna3 n31 wird mit 96cu zu 120cu rdna4 und nur noch 225mm² chip mit reduzierten Si auf 256bit gddr7 36gbps bei 3,6ghz das sind im groben 64tf
Und dann bei rdna5 bei n3x zu bleiben und dann 2 chips verbinden und damit potenziell doppelt so schnell zu sein also 130tf
Das wird nvidia noch schlagen können wen n2x 2026 bereit wäre was es nicht ist
140*142*3,06*2=121tf
Die Lösung wird wohl ein angepasster chip damit man über 120tf kommt

Die einzige Hoffnung die nvidia hat vs mcm wäre das amd die latenz zwischen den gcd für mehr prefetch arbeit verursacht und somit unter 2 fp32 operationen pro cu schafft
Das aber ist sehr stark anzuzweifeln und nvidia hat keine Lösung abseits sfr basierende mcm Lösungen

man könnte wieder fpu einsetzen die 4 Operationen per Takt schafft das bedingt aber mehr cache beim design je sm was die chips groß macht und heiß Somit dürfte der Takt noch weiter sinken.
Wie ich es drehe und wende nvidia muss in die breite und n2 wird die Belichtungsgröße kleiner das maxed sind nur noch 425mm² die chipdichte nur -50% vs n3
Somit sind mehr alu nicht drin das maxed wird 144 sein beim vorgestelltem blackwell design und bei ada design 160sm

Beide Lösungen kämen auf ähnliche Leistung ada tendenziell geringer.

Der Ausweg wäre chips zu stapeln was ab n2 auch möglich ist das erwarte ich schon beim blackwell design das man den cache und Si auf den alu setzt.
Das dürfte leicht den Takt senken auf nur noch 3,0ghz aber man hätte platz darunter und könnte auf 200sm gehen da man 25% chipfläche gewinnt
Das wäre ne Lösung für den high end chip ~400mm² chip
200*140*2*3=168tf.
Das wird eher passieren

Das Si und sram dann in 4nm node bedeutet n2 mit tsv den sram und Si verbinden damit könnet man auch den L2 auf 256mb vergrößern

Ich nehme an das nvidia blackwel dann mit 160fp32 pro sm angegeben wird
was defakto aber fp16 ist
Also steht da marketing dann 200*160*2*3,0=192tf
Das ist aber erst 2027 soweit

Die Sku Planungen hängen Primär von amd rdna4 ab und aktuell siehte s da rosig aus. Taktraten um die 3,6ghz sind denkbar die chipauslastung aber gleich wie bisher 2,34 operatione per cu
Amd täte gut daran ihre Treiber zu perfektionieren insbesondere weg von Takt bis hin zu Takt ab

Das könnte viele eher wieder zu team rot bewegen das was mit low gpu usage und die fps einbrechen lässt nervt die meisten.
Die alternative aktuell ist vsync und das bei ner high end gpu

mksn7

2023-07-21, 16:03:06

AMD hat sich ja entschieden, einen kleinen L2 cache vor dem Infinity Cache zu behalten, obwohl nicht wesentlich schneller (Latenz) oder schneller (Bandbreite) ist. Ich hab bei AMD mal gefragt warum, da hieß es dass das Energiespargründe hat.

Ich hab das nochmal nachgemessen, diese Aussage von mir ist Quatsch.

Bei der Latenz ist RDNA2's L2 cache (rosa Kurve) mit ~200 cycles vs ~400 cycles fast doppelt so schnell:

(pointer chasing, single warp/wavefront, cycles per load)
https://raw.githubusercontent.com/te42kyfo/gpu-benches/87ae0547215a09e7979f1c8db8dacc8db4234abc/gpu-latency/latency_plot.svg

Die Angaben sind in cycles. Da die RX6900XT viel höher taktet als die anderen GPUs, darf man die GPUs nicht so sehr miteinander vergleichen.

Und bei der Bandbreite ist der L2 cache mit ~5TB/s vs 2TB/s mehr als doppelt so schnell wie der I$:

https://raw.githubusercontent.com/te42kyfo/gpu-benches/87ae0547215a09e7979f1c8db8dacc8db4234abc/gpu-l2-cache/cuda-cache.svg

Innerhalb des I$ kann die RX6900XT mit der DRAM Bandbreite der dicken A100 mithalten...

Chips&Cheese hat das glaub ich auch schon genauso gemessen.

Meine benchmarks gibts alles hier (https://github.com/te42kyfo/gpu-benches), die spezifischen benchmarks sind gpu-latency und gpu-l2-cache.

NVIDIA hats hinbekommen in ihrem L2 cache beides einigermaßen zu vereinen (schnell und groß). Trotzdem werden sie den nicht auf ein chiplet auslagern ohne irgendein geshartes cache level on-chip zu haben, weil off-chip leidet dann doch mindestens die Latenz.

AffenJack

2023-07-23, 15:43:26

NVIDIA hats hinbekommen in ihrem L2 cache beides einigermaßen zu vereinen (schnell und groß). Trotzdem werden sie den nicht auf ein chiplet auslagern ohne irgendein geshartes cache level on-chip zu haben, weil off-chip leidet dann doch mindestens die Latenz.

Bei 2,5D Lösungen sehe ich das genauso, aber was ist bei gestapelten Lösungen? Hat der gestapelte X3D Cache bei den Zens eine viel schlechtere Latenz?

Meinst du Nvidia könnte ihren L2 teilen und nen Teil in einem GCD lassen und den anderen Teil drunter in einen Base Die mit Speichercontroller und Cache?

basix

2023-07-23, 20:02:42

Bei 2,5D Lösungen sehe ich das genauso, aber was ist bei gestapelten Lösungen? Hat der gestapelte X3D Cache bei den Zens eine viel schlechtere Latenz?

Offiziell sind es 46 -> 50 cycles beim V-Cache L3.

Hier nachgemessen:
https://chipsandcheese.com/2022/01/21/deep-diving-zen-3-v-cache/

AffenJack

2023-07-23, 20:23:36

Offiziell sind es 46 -> 50 cycles beim V-Cache L3.

Hier nachgemessen:
https://chipsandcheese.com/2022/01/21/deep-diving-zen-3-v-cache/

Das sieht zumindest ganz gut aus.

Wäre dann wirklich ne Möglichkeit, dass wir Nvidia mit Chiplets (Außerhalb HPC) erst sehen werden, wenn 3D Chips preislich attraktiv genug zu fertigen sind, damit man seine Architektur dafür nicht extra zu sehr umbauen muss.

davidzo

2023-07-24, 21:38:21

Bei 2,5D Lösungen sehe ich das genauso, aber was ist bei gestapelten Lösungen? Hat der gestapelte X3D Cache bei den Zens eine viel schlechtere Latenz?

Meinst du Nvidia könnte ihren L2 teilen und nen Teil in einem GCD lassen und den anderen Teil drunter in einen Base Die mit Speichercontroller und Cache?

Man müsste die Energiedichte der Chips deutlich reduzieren wenn da noch ein DIE draufgestapelt wird, aus thermischen Gründen. Aus 3Ghz werden da schnell mal 2Ghz und die TDP halbiert sich. Für mobil und Server denkbar, denn da wird im moment sowieso nicht bis an die Kotzgrenze getaktet. Aber für den Desktop halte ich das für zu teuer. NV verschenkt nicht einfach so ein Drittel der Leistung, eher machen sie den DIE kleiner und takten weiterhin hoch und ineffizient. Und mit gestacktem Cache auf dem monolitischen riesen-Die wird ein Monsterchip wie AD102 kaum noch wie bisher in 3 oder 4 Slots mit einer Lukü kühlbar sein.

Platos

2023-07-24, 21:40:49

Warum Thermische Gründe? Dem 3D Cache macht das nix aus und das drunter wird die Wärme direkt dadurch leiten. Funktioniert doch bei den CPUs auch. Warum hier nicht ? Die Energiedichte ist bei den CPUs vermutlich sogar höher. Die GPU DIEs sind ja gross.

basix

2023-07-24, 21:51:31

Thermischer Widerstand in [K/W]. Steigt der durch den gestapelten Cache um z.B. 1.2x (was nicht viel wäre), wird aus 90°C Hot Spot Temperatur schnell >100°C. "direkt dadurch leiten" ist nicht so einfach ;)

Sinnvollere Varianten:
- Cache neben der GPU wie bei RDNA3
- Cache unter der GPU (dafür Probleme mit der Power Delivery zur GPU). Kombination von Cache + MIM Capacitors (wie bei Graphcore (https://spectrum.ieee.org/graphcore-ai-processor)) // Deep Trench Capacitors für die Power Delivery wären allenfalls eine Idee für das "Base Die". Und im Base Die gleich noch die IO-PHY platzieren ;)

mksn7

2023-07-25, 10:37:16

Bei 2,5D Lösungen sehe ich das genauso, aber was ist bei gestapelten Lösungen? Hat der gestapelte X3D Cache bei den Zens eine viel schlechtere Latenz?

Meinst du Nvidia könnte ihren L2 teilen und nen Teil in einem GCD lassen und den anderen Teil drunter in einen Base Die mit Speichercontroller und Cache?

Die Antwort darauf ist ich hab keine Ahnung. Es ist intuitiv logisch, dass ein vertikal gestapelter cache Vorteile bei Latenz/Bandbreite/Energie Vorteile gegenüber nebeneinander stapeln hat.

Aber sowas find ich voll schwer zu beurteilen. Den Nutzen einer Designentscheidung kann man als Aussenstehender schon einigermaßen abschätzen, aber die physiskalische Umsetzbarkeit (Energie/Kosten) ist für mich oft nicht beurteilbar.

Dass 128MB cache auf einer GPU was tolles sind, hätte ich vor drei Jahren auch schon sagen können, und mit ein bisschen research auch ein performance model für den speedup liefern können. Ich hätte es aber nicht für realistisch gehalten dass man das tatsächlich in vernünftiger Chipfläche umsetzen kann. Aber anscheinend geht es.

aceCrasher

2023-07-27, 11:57:57

https://videocardz.com/newz/nvidia-rtx-4090-ti-is-reportedly-no-longer-planned-next-gen-flagship-to-feature-512-bit-memory-bus

Der Ada-Nachfolger soll laut kopite7kimi ein 512bit Speicherinterface bekommen. Da kommen wohlige Erinnerungen an meine 290x hoch :rolleyes:

HOT

2023-07-27, 12:38:09

Mit den neuen 24Gbit GDDR7 von Micron wären das 48GB VRAM :freak:.

Linmoum

2023-07-27, 13:02:37

Würde in meinen Augen bedeuten, dass Ada Next nicht mehr monolithisch ist bzw. in dem Fall logischerweise zumindest AN102. Dass gerade NV auf 512bit geht, ist eigentlich schon von sich aus absurd genug. Bei einem monolithischen Die kann man das aber fast schon kategorisch ausschließen.

Edgecrusher86

2023-07-27, 13:29:15

Dann spricht wohl alles dafür, dass wir keine 48GB im Desktop, sondern "nur" 32GB sehen werden für Ada-Next. Naja, schickt ja auch. Die Bandbreite wird es jedenfalls freuen.

Angenommen, es wird bei der RTX 5090 gleich 32 Gbps G7 verbaut, macht das bei einem 512-bit SI stolze 2031 GB/s Speicherbandbreite! Dann würde ich wohl eher davon ausgehen, dass man am VRAM-Takt und dessen Spannung spart. 28 Gbps G7 etwa wären immer noch knapp 1792 GB/s!
So etwas klingt mir dann wahrscheinlicher. Mehr VRAM-Takt dürfte man dann vor allem wieder bei den kleineren Modellen sehen mit kleiner gleich 256-bit.

32 Gbps GDDR7 @ 512-bit = 2031 GB/s
30 Gbps GDDR7 @ 512-bit = 1904 GB/s
28 Gbps GDDR7 @ 512-bit = 1777 GB/s
26 Gbps GDDR7 @ 512-bit = 1650 GB/s
24 Gbps GDDR7 @ 512-bit = 1523 GB/s

Mit so einem breiten SI würde ich sogar eine 24 Gbps im Enthuasiasten-Segment nicht ausschließen. Dürfte ja auch reichen. :freak:

Den 103er könnte man mit 384-bit oder 320-bit bringen -> RTX 5080 24GB oder 20GB GDDR7
Der 104er klingt dann mit 256-bit stimmig -> RTX 5070 Ti / 5070 16GB GDDR7
Beim 106 sollten es wohl 192-bit sein -> RTX 5060 Ti / 5060 12GB GDDR7
Den 107er könnte man auch mit 96-bit und ebenso 12GB abspeisen -> RTX 5050 (Ti) 12GB GDDR7

Damit wären dann die VRAM-Kritiker erstmal eine Generation halbwegs besänftigt. ;D

Just my 2 cents. ;)

E: Achso, 24 Gb Module in Planung - ja, dann könnte man auch 48GB bei 512-bit verbauen - korrekt.

HOT

2023-07-27, 13:48:32

Fast doppelte Bandbreite zur 4090. Vielleicht will NV keine 3. Cache Stufe und bevorzugt mit Chiplets Bandbreite. Ich vermute eh, dass NV das nicht macht wie AMD sondern nur 4 "MCDs" mit je 128Bit anbindet und den Cache weglässt. Wenn man eh Chiplets macht, bläht die Speicherbandbreite ja nicht mehr den Grafikchip unnötig auf. Vielleicht sehen wir auch nicht mehr so viele einzelne Chips. Es dürfte ja wie folgt auch reichen:

BW102 mit 4MCDs und 512Bit -> 16Gbit Chips = 32GB x090
BW102 mit 3MCDs(+1 Dummy) und 384Bit -> 16Gbit Chips = 24GB x080
BW104 mit 2MCDs und 256Bit -> 16Gbit = 16GB x070
BW106 mit 1MCD und 128Bit -> 24Gbit = 12GB x060

Wenn das nur noch ein Grafikchip ohne Analogzeug und riesige Caches in N3 ist, wird auch ein 102er nur noch ca. 350-400mm² haben mMn.

Edgecrusher86

2023-07-27, 14:00:06

Die RTX 4090 hat "nur" 1008 GB/s; das sind dann knapp über doppelt soviel. Wenn es stimmt, sehe ich aber für NV keinen Grund hier gleich in die Vollen zu gehen und 32 Gbps zu verbauen. Wie gesagt - schon 24 Gbps ermöglicht eine Steigerung von guten 50%. ;)

HOT

2023-07-27, 14:21:11

Die werden die Bandbreite schon auch brauchen, falls man die Caches nicht weiter vergrößert und keine Pläne für eine weitere Cache-Stufe hat.

Tesseract

2023-07-27, 14:34:10

512bit ist mit aktuellen bzw. zukünftigen GDDR-versionen irgendwie schwer vorstellbar bzgl. anforderungen an die signalqualität. wie soll das funktionieren? ein superdickes PCB mit non-clamshell-chips auf beiden seiten? chiplet hilft da auch nur bedingt solange diese nicht weit auseinander sind.

ich frage mich warum man nicht endlich mal auf HBM geht, der kostenunterschied muss bei immer extremeren GDDR-konstrukten ja irgendwann ausgeglichen sein.

Wuge

2023-07-27, 14:35:02

Naja, die 4090 hängt auch etwas an der Bandbreite. Bis +20% skaliert das noch so gut, sollte man mitnehmen wenn es im Rahmen des problemlos möglichen Speichertakts liegt. Da Next ja nun sicher auch +50% Rechenleistung mitbringen wird, brauchts schon mehr als 24 GBps. 28-30 Gbps wird wohl gut passen.

Tesseract

2023-07-27, 14:37:28

wo hängt die 4090 an der bandbreite?

Exxtreme

2023-07-27, 14:52:53

Wenn du den RAM-Takt erhöhst dann steigt die Performance recht ordentlich.

Platos

2023-07-27, 15:27:31

Welche HBM Versionen sind denn eig. noch in Produktion (also für Kunden wie z.B nvidia verfügbar)?

Wenn ich mal so recherchiere, gibt es ja mittlerweile ziemlich viele.

HBM, HBM2, HBM2E, HBM3 und jetzt HBM3 Gen2 von Micron (und später HBM3E von Sk Hynix angeblich) :

https://www.computerbase.de/2023-07/hbm3-gen2-microns-erster-high-bandwidth-memory-ist-am-schnellsten/

Edit: Angeblich soll die "Leistung pro Watt" (Computerbase' Worte) um 2.5x steigen mit micron's HBM3 Gen 2

ich frage mich warum man nicht endlich mal auf HBM geht, der kostenunterschied muss bei immer extremeren GDDR-konstrukten ja irgendwann ausgeglichen sein.

Naja offensichtlicherweise ist es ja nicht günstiger, sonst würde man es ja einsetzen.

Und die Preise für HBM3 sollen sich danke ChatGPT und anderen AI Dingen verfünfacht haben: http://www.businesskorea.co.kr/news/articleView.html?idxno=109380

Edit: “The price of HBM3 increased up to five times compared to the highest performance DRAM."

Ich bin mir allerdings nicht sicher, ob man mit "highest perfomance DRAM" nun HBM3 meint oder GDDR6X. Die Preise sollen sich auf jeden Fall erhöht haben.

basix

2023-07-27, 17:56:19

512bit ist mit aktuellen bzw. zukünftigen GDDR-versionen irgendwie schwer vorstellbar bzgl. anforderungen an die signalqualität. wie soll das funktionieren? ein superdickes PCB mit non-clamshell-chips auf beiden seiten? chiplet hilft da auch nur bedingt solange diese nicht weit auseinander sind.

GDDR6W / GDDR7W könnten das PCB etwas vereinfachen.

Oder 512bit ist einfach eine Falschinformation ;)

Wenn du den RAM-Takt erhöhst dann steigt die Performance recht ordentlich.
Nur bei UV und entsprechend abgesenktem Crossbartakt.

Wuge

2023-07-27, 20:27:34

Ich hatte als die 4090 ankam verschiedene OC Skalierungstests gemacht. Schwankt natürlich je nach Anwendung /Game aber im Schnitt skalierte VRAM OC besser als Chip/Shader OC. Ich meine es waren Anwendungen dabei, die Bandbreitenerhöhungen zu 60% in Performance umsetzen konnten. Für mich ist das schon erheblich. Die 3090 skalierte z.B. fast gar nicht, da war Bandbreite kein Thema.

Crossbar lief dabei immer am Anschlag, 1.1V VCore. Insbes. mit offenem Powerlimit und max. Chip OC macht sich Speichertakterhöhung heftig bemerkbar.

Platos

2023-07-27, 21:58:06

Macht sich denn das auch ohne GPU OC und in Spielen bemerkbar?

Wuge

2023-07-28, 00:45:55

Ja

Hatstick

2023-08-02, 14:26:59

Wird eigentlich neben Blackwell schon die nach folgene Generation entwickelt oder ist das immer Step by Step?
Wie muss man sich das vorstellen, weiß das zufällig jemand?

w0mbat

2023-08-02, 15:27:18

Ja, es gibt mehr als ein engineering team.

Achill

2023-08-02, 18:41:17

Ich hatte als die 4090 ankam verschiedene OC Skalierungstests gemacht. Schwankt natürlich je nach Anwendung /Game aber im Schnitt skalierte VRAM OC besser als Chip/Shader OC. Ich meine es waren Anwendungen dabei, die Bandbreitenerhöhungen zu 60% in Performance umsetzen konnten. Für mich ist das schon erheblich. Die 3090 skalierte z.B. fast gar nicht, da war Bandbreite kein Thema.

Crossbar lief dabei immer am Anschlag, 1.1V VCore. Insbes. mit offenem Powerlimit und max. Chip OC macht sich Speichertakterhöhung heftig bemerkbar.

Es muss aber gar nicht die Bandbreite sein, faktisch wird erstmal der Takt erhöht und führt zu zwei Effekten:
- Mehr Bandbreite (wie schon geschrieben wurde)
- Geringere VRAM Latenz !!

Ich kenne keine Tests die sind damit auseinander setzen (vielleicht kann man dies bei NV auch nicht genau nachverfolgen) aber wenn der große L2 Cache nicht die Daten enthält, dann ist es entscheidend das man schnell an die Daten kommt. Dafür braucht man Bandbreite, aber wenn diese nicht der Limitierende Faktor ist, dann kommt es auf Zugriffszeit an.

Wir hatten früher hier im Forum schon Aussagen den ich glaube, dass die Treiber/Compiler von alle großen Herstellern nach Möglichkeit die Latenz verstecken. Ich kann mir aber Vorstellen, dass mit den neuen Techniken wie RT/PT die Latenz vielleicht wieder einen neuen Stellenwert bekommt, insb. wenn die GPU breiter ist (die Wahrscheinlichkeit für Leerlauf steigt).

Ist aber reine Speku, habe keine Fakten um dies zu Untermauern.

Wuge

2023-08-03, 09:12:50

Bei einer GPU ist es in der Regel die Bandbreite... klar, Latenz spielt für die real world Bandbreite immer auch eine Rolle aber für GPUs zählt in aller Regel die Datenübertragungsrate wesentlich stärker.

Thunder99

2023-08-03, 09:37:33

Bei einer GPU ist es in der Regel die Bandbreite... klar, Latenz spielt für die real world Bandbreite immer auch eine Rolle aber für GPUs zählt in aller Regel die Datenübertragungsrate wesentlich stärker.
Würde ich nicht so pauschal sagen. Beim Vergleich damals GDDR3 vs. 4 gab es mehr Vorteile für die alte Generation da bessere Latenz.
D.h. wenn die Bandbreite nicht der limitierende Faktor ist kommt die bessere Latenz zum Tragen.