Anmelden

Archiv verlassen und diese Seite im Standarddesign anzeigen : nVidia - Desktop - Blackwell Next (Nachfolger von GB20x - 2026-2028)


Edgecrusher86
2025-02-06, 14:37:43
Guten Tag!
Da der Desktop-Launch an GeForce RTX 50 zumindest auf dem Papier bis Ende März abgeschlossen sein dürfte (Pre-Refresh zumindest), dachte ich, es ist an der Zeit, schon einmal weiter zu denken. :cool:
Dieser Thread soll sich daher nicht um Rubin drehen, sondern alleine dem Desktop/Mobile/PCI-E WS-Pendants, die uns nächste Generation erwarten. ;)

Codename: NVIDIA Blackwell Next (Nachfolger von GeForce Blackwell)
Release: Ca. Q4/2026 - H1 2027
TSMC N3x / N2x oder Samsung 3nm-GAA / 2nm-GAA
24Gb+32Gb GDDR7 @ 32-42 Gbps
PCI-E 5.0/6.0
DP 2.1a(+) / HDMI 2.2


Spekulation des x02 Chips meinerseits:

GeForce RTX 6090
Release: Ca. Q4/2026 - H1 2027
Fertigung: TSMC N3x / N2x oder Samsung 3nm-GAA / 2nm-GAA
MCM: 2-4 Chiplets a 480/240mm² auf einem Interposer mit shared GDDR7
FULL-Chip: 2x 128SM / 4x 64SM [total 256SM - 32768SP FP32]
300-Chip: 2x 112-120SM / 4x 56-60SM [total 224-240SM - 28672 bis 30720SP FP32]
Boost: ~2,9 GHz
Max-Boost: ~3,0-3,1 GHz
Rohleistung FP32 @ Boost: ~166,3 - 178,2 TF/s
AI TOPS: ~2-3x RTX 5090 (6704 - 10056)
36GB GDDR7 (24Gb, 384-bit SI) @ 39-40 Gbps [1872-1920 GB/s]
TGP: 675-750W [2x 12V-2x6]
PCI-E 5.0/6.0
DP 2.1a(+) / HDMI 2.2
MSRP FE: $2499-2999



Einen x03er als RTX 6080 stelle ich mir dann ähnlich mit maximal 2 DIEs vor oder Monolithen. Der x05er wird dann wohl auf jeden Fall monolithisch werden.

Was vermutet Ihr bezüglich der Architektur?

MfG
Edge

Dimon
2025-02-06, 14:42:33
Naja ich schätze das die Energieaufnahme deutlich sinken sollte im vergleich zu Blackwell. Wäre blöd wenn die wieder einen knüppel ansetzen würden (Umwelt und ressourcen z.b.)

Edgecrusher86
2025-02-06, 14:58:39
Mehr Effizienz - vor allem Richtung Ada @ UV - würde mich hier auch wünschen, aber gerade seit Turing geht es leider stetig bergauf mit der Leistungsaufnahme.

HOT
2025-02-06, 16:02:52
Ich wette, dass der neue 102er in einer Variante von N3E gefertigt wird und wieder um die 600mm² groß ist und monolithisch bleibt.

Cubitus
2025-02-06, 16:19:39
Gibt es schon konkrete Informationen? Ein Rubin-Derivat für Gaming wird es wohl nicht sein, oder?

w0mbat
2025-02-06, 16:24:51
Ich wette, dass der neue 102er in einer Variante von N3E gefertigt wird und wieder um die 600mm² groß ist und monolithisch bleibt.
Ich hoffe auf min. N3P.

Edgecrusher86
2025-02-06, 17:33:43
Infos gibt es leider noch gar nicht. Ich tippe diesbezüglich auf frühstens Q1 oder Q2/2026 durch Kopite. Dann darf man wohl von einem Tapeout ausgehen.

Hm, also so sähe das wohl in TSMC N3x aus nach Anand.
In etwa 30% bessere Effizienz bei gleicher Leistung oder grob 15-20% mehr davon bei identischen Verbrauch.
Dann müsste man aber wohl wieder über 700mm² gehen und zudem die Taktraten richtig hoch schrauben, damit zumindest 40-50% bei herum käme auf Blackwell.
Dafür werden bestimmt auch locker 100W on top nötig sein - gehe ich zumindest von aus - auch wenn wir hier extrem früh sind. 761.56mm² sollen es ja beim GB202 sein.
Ein Monolith mit selber Leistung in N3x würde sich wohl grob 400W genehmigen. Zu schade, dass hier nichts über die Dichte steht - aber es sollten locker +20% zu N5 sein, oder?

https://s20.directupload.net/images/250206/4rifilh7.png

https://www.anandtech.com/show/21394/tsmc-performanceoptimized-3nm-process-technology-on-track-for-mass-production-this-year

Bei angenommen nur 600mm² (78,8% GB202 DIE-Size) müsste der Chip schon wahnwitzig hoch takten und/oder einen gewaltigen IPC Sprung haben, um GB202 zum Beispiel um mehr als 10-20% zu schlagen oder sehe ich das falsch?

HOT
2025-02-06, 17:43:07
Ist wurscht, das ist ja eh ein angepasster Prozess dieser Klasse dann.

AffenJack
2025-02-06, 18:58:38
Zu schade, dass hier nichts über die Dichte steht - aber es sollten locker +20% zu N5 sein, oder?


Logik soll noch ganz ordentlich skalieren,je nach Transistortyp, Analog und Sram dagegen fast gar nicht. Es ist im Endeffekt der letzte Node der wenigstens noch halbwegs skaliert.

N2 2028/2029 wird sicher Multichip werden, weil N2 so gar nicht skaliert. Blackwell Next wird sicherlich N3.

Die große unbekannte ist, ob Blackwell Next der letzte monolithische Chip wird oder der erste Multichip. Bei der kaum vorhandenen SRAM Skalierung von N3 und den massiv teuren Wafern von N3 würde es sich anbieten hier auf Multichip zu gehen.

Abhängig davon sind dann ganz unterschiedliche Dinge erreichbar.

basix
2025-02-07, 08:46:50
Ich würde auf monolithisch tippen. Chiplets wird irgendwann kommen, aber aus meiner Sicht noch nicht bei der nächsten Generation.

Man muss es auch so sehen: Raster skaliert nicht so gut mit Chiplets. Raytracing und Neural Rendering sehr wohl.

Badesalz
2025-02-07, 09:10:43
N2 2028/2029 wird sicher Multichip werden, weil N2 so gar nicht skaliert. Blackwell Next wird sicherlich N3.Ggf. gibt es aber ne Weile wieder nennenswerte Schübe beim Takt :freak:

KarlKastor
2025-02-07, 13:02:11
Zu schade, dass hier nichts über die Dichte steht - aber es sollten locker +20% zu N5 sein, oder?

TSMC gibt 1.6 für Logik an. Für eine ganze GPU sind es dann etwa 1.3.

Ich stimme dir also vollkommen zu. Will man wieder einen größeren Sprung machen, wird der Chip ganz sicher größer als 600 mm².
Und auch die TDP wird nicht mehr niedriger werden, denn sonst bekommt man auch keinen nennenswerten Performancesprung hin. Es sei denn Nvidia kann die Effizienz rein durch die Architektur erheblich verbessern.

HOT
2025-02-07, 13:32:01
Wer weiss, vielleicht setzt NV auch weider 2 Generationen auf N3. N2P ist zwar leistungsfähiger aber wie gesagt auch sehr teuer und die Packdichte dürfte nur wenig steigen.
Ich würd mich ab jetzt von den großen Sprüngen pro Generation wegen der Fertigung verabschieden, Ada war ja nur so viel besser, weil der von quasi Samsung 10nm auf TSMC 5nm gesprungen ist. Ich schätze, man muss sich an 10-30% pro Generation begnügen, bis wirklich Chiplets in einem komplexen Design eingesetzt werden.

Wer sich übrigens fragt, ob 4N nicht doch N4 ist, N4 hatte den Ramp der Massenproduktion und Tape Outs erst ab Juli 22, da war Ada schon lange auf dem Weg. NV hat definitiv eine N5-Customisierung für Ada gemacht. N4P/X ist übrigens auch gar nicht möglich gewesen für BW und die AMD-Produkte, da N4P/X lt. TSMC Massenproduktion erst in H2 2024 gerampt wurde, N3P/X sogar er in 25, N4P/X und N3P/X laufen also quasi parallel. Wenn NV jetzt also einen Grafikchip designt wird die Basis dafür N3P/X sein. AMDs MI350 und Turin Dense sind N3E und alles was danach von AMD kommt wird auch N3P/X-Basis sein falls es sich für AMD lohnt oder man bleibt andernfalls bei N3E. AMD hat sich ja als letztes mit Pheonix verbrannt, Tape Out in der Risc-Production-Phase und zack 1/2 Jahr Verzögerung, hat sich überhaupt nicht gelohnt.

reaperrr
2025-02-07, 13:49:27
Und auch die TDP wird nicht mehr niedriger werden, denn sonst bekommt man auch keinen nennenswerten Performancesprung hin. Es sei denn Nvidia kann die Effizienz rein durch die Architektur erheblich verbessern.
Kommt drauf an, was man unter "nennenswert" versteht.
~30% mehr Perf würden sie wohl auch wieder in einer 450W-TDP (oder meinetwegen 475W-TDP) wie bei der 4090 unterbekommen.
Die 5090 scheint schon für die letzten paar Prozent relativ hart über den SweetSpot getrieben worden zu sein, die wäre in 4090-TDP nicht viel langsamer ausgefallen (zumal unterhalb von 4K eh oft im CPU-Limit).

Aber die Zeiten von "~5% mehr IPC je SM, 80% mehr SM und 30-50% mehr Takt" in einer Gen sind definitiv vorbei. Ada war der letzte große Sprung von NV, solange auf Seiten von TSMC/Intel/Samsung kein Wunder geschieht, wonach es derzeit nun wirklich nicht aussieht.
Die brauchen die ganzen "Tricks" wie GAA/RibbonFET/PowerVias/HighNA usw. ja schon, um überhaupt noch Skalierungen von Bedeutung hinzukriegen.

HOT
2025-02-07, 13:55:31
Und genau da liegt der Knackpunkt, diese Skalierungen sind irre teuer, TSMC wird zudem erst im 2H 2025 nennenswerte Yields haben, da soll die Massenproduktion starten. Klar, Apple ist wieder vorne mit dabei, aber alle anderen sicherlich nicht. MMn wäre es einen GPU-Launch Anfang 27 einfach zu früh für N2.
N2P/X hat übrigens die PowerVIAs verloren lt. Anandtech noch und wird frühestens Ende 2026 starten, also sicherlich erst 2027. Das wäre dann die nächste Option für Post-BW-Next.

Badesalz
2025-02-07, 13:56:32
Aber die Zeiten von "~5% mehr IPC je SM, 80% mehr SM und 30-50% mehr Takt" in einer Gen sind definitiv vorbei. Ada war der letzte große Sprung von NV, solange auf Seiten von TSMC/Intel/Samsung kein Wunder geschieht, wonach es derzeit nun wirklich nicht aussieht.
Die brauchen die ganzen "Tricks" wie GAA/RibbonFET/PowerVias/HighNA usw. ja schon, um überhaupt noch Skalierungen von Bedeutung hinzukriegen.Am Ende das Rennen zwischen AMD und NV doch wie beim Igel und Hase? :usweet:

HOT
2025-02-07, 14:07:28
Mehr so Igel und Igel aber ohne Tricks ;).

AffenJack
2025-02-07, 15:30:55
TSMC gibt 1.6 für Logik an. Für eine ganze GPU sind es dann etwa 1.3.


Das sind aber auch nur die langsamen Transistoren mit High-Density. Ich weiß nicht, wie weit sich das zu sonstigen Nodes unterscheidet, weil es ja sonst auch HD und HP Libraries gibt. Aber TSMC hat diesmal ja sehr stark mit Finflex geworben und den 3 Transistorarten.

HOT
2025-02-07, 16:08:45
Wenn jemand die Transistormenge und die Größe des CCDs von Turin Dense kennt, kann man die Praxis mal überprüfen, wieviel N3E ggü. N4 bringt.

Badesalz
2025-02-07, 20:32:34
Mehr so Igel und Igel aber ohne Tricks ;).Ah... Nicht verstanden. Schon ok ;)

Wenn jemand die Transistormenge und die Größe des CCDs von Turin Dense kennt, kann man die Praxis mal überprüfen, wieviel N3E ggü. N4 bringt.TAKT. Hab ich das schon erwähnt? Wir gehen, für ne Weile jedenfalls, wieder über den TAKT. Dafür brauchst du keine Transistoren zählen...

KarlKastor
2025-02-08, 08:18:54
Das sind aber auch nur die langsamen Transistoren mit High-Density.
Das weißt du woher?

Zossel
2025-02-08, 09:06:57
Das sind aber auch nur die langsamen Transistoren mit High-Density. Ich weiß nicht, wie weit sich das zu sonstigen Nodes unterscheidet, weil es ja sonst auch HD und HP Libraries gibt. Aber TSMC hat diesmal ja sehr stark mit Finflex geworben und den 3 Transistorarten.

Nun ja, Transen mit niedrigen QGx können auch Vorteile beim Speed und Stromverbrauch haben. (Siehe Anhang)

AffenJack
2025-02-08, 10:06:06
Das weißt du woher?

Schau dir die TSMC Präsis an:
https://images.anandtech.com/doci/17452/tsmc-finflex-june-2022_575px.png

Nebenbei, dieses Foliendesign ist einfach mal richtig schlecht. Da wird keine X/Y-Achse beschriftet, damit man 0,85x Area aussehen lassen kann, als hätte sich die Area halbiert.

Zossel
2025-02-08, 10:49:59
Nebenbei, dieses Foliendesign ist einfach mal richtig schlecht. Da wird keine X/Y-Achse beschriftet, damit man 0,85x Area aussehen lassen kann, als hätte sich die Area halbiert.

Alles ist relativ.

KarlKastor
2025-02-08, 11:10:47
@Affenjack
Die kenne ich. Die sagt aber nicht, was für einen Sprung es von HP zu HP gibt und das 60% Logik nur für HD gilt.

AffenJack
2025-02-08, 11:45:47
@Affenjack
Die kenne ich. Die sagt aber nicht, was für einen Sprung es von HP zu HP gibt und das 60% Logik nur für HD gilt.

Die Spanne HP-Design zu HD-Design hast du aber auf der Folie. Deshalb hast du ja auch ne Linie beim N5 Prozess, je nachdem ob HD oder HP optimiert.

Deshalb ist mir das mit den Designs mit Finflex nicht so richtig klar, weil da da in jedem Finflex Design noch die Spanne HD zu HP drin ist?

Der einzelne Transistor interessiert am Ende eh weniger, weil das Design auch so ne Mischung ist. Die Folie zeigt eher die Realität die zu erwarten ist bei nem implementierten Design.

Am Ende aber auch so noch alles Theorie, das einfachste wäre Apple und TSMC 3nm Chips mit 4/5nm in der Density zu vergleichen.
https://semiwiki.com/forum/index.php?threads/apple-a17pro-transistor-density.20388/

Sollen wohl Faktor 1,3 sein am Ende, wie du schon geschrieben hast. Zusätzlich ist bei Apple der Takt um 10% gestiegen. Das würde ich auch von den GPUs als Baseline nehmen.
Von irgendwelchen übertriebenen Ghz-Steigerungen wie immer wieder spekuliert würde ich Abstand nehmen. Das hat sich immer wieder als falsch heraus gestellt.

Wenn also Nvidia nicht irgendwie signifikant durch die Architektur pro Transistor schneller wird, wo ich nach Blackwell dran zweifle, dann wäre normal zu erwarte:

761mm²/1.3=585mm² | *1.15 =672 mm²
1,15 Transistoren mit 1,1x Takt = 26% mehr Geschwindigkeit.

Wenn es nicht in Richtung Chiplets geht, erwarte ich erstmal nicht mehr.