PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : nVidia Rubin (Nachfolger von Blackwell, möglicherweise rein HPC/AI, 2/3 nm, 2026)


Leonidas
2023-12-07, 15:52:50
3DC-Newsindex zu "nVidia Rubin"
https://www.3dcenter.org/news/nvidia-rubin

benannt nach der Astronomin Vera Rubin
https://de.wikipedia.org/wiki/Vera_Rubin
https://pbs.twimg.com/media/FQzca9KVcAAIqVA?format=jpg

HPVD
2024-03-19, 10:01:25
Blackwell wurde gestern vorgestellt (Datacenter) siehe https://www.3dcenter.org/news/news-des-18-maerz-2024,
=> dann ists heute Zeit für nen neuen Thread zum Thema Nvidia Rubin :biggrin:

Was ist bekannt/wird erwartet?
- Fertigung TSMC N3X
- GDDR7 (Consumer) bzw HBM3e (Data-Center)
- Multichip auch für Consumer? Oder ist das vielleicht doch noch teurer als Monolitisch/nicht notwendig?

-> wir sollten hier direkt nach Consumer und Data-Center trennen

HOT
2024-03-19, 10:17:48
Rubin ist nur HPC/KI, als mit Sicherheit keine Consumer-Produkte, Rubin wird ja die erste Auskopplung aus den im Jahresrythmus releasten AI-GPUs dann in 25 sein. N3P wird sicherlich der zu erwartende Prozess sein.
Consumer wird es sicherlich frühestens Ende 26 wieder geben.

mczak
2024-03-19, 14:58:40
Also bezüglich Multichip sehe ich da noch keine Anzeichen dass da Nvidia auch im Consumerbereich demnächst darauf setzt (egal ob das jetzt Rubin oder eben Generation danach ist). Beim Server-Blackwell beschränkt sich nvidia ja im Gegensatz zu AMD bezüglich Chiplets auf das absolute Minimum (2 identische Dies), und dies auch nur weil es schlicht nicht anders geht.
Kann natürlich trotzdem sein dass es dann Multichip Produkte im Consumerbereich gibt (auch wenn das für Nvidia jetzt keinen Sinn macht kann das ja in 2 Jahren durchaus sinnvoll sein).

HOT
2024-03-19, 15:07:47
Jo selbst wenn GB202 noch monolithisch sein sollte (was nach Specs ja nicht so aussieht), wird das sicherlich Post-Rubin dann soweit sein.
Rubin nutzt mMn die gleiche MC-Technik wie BW, ist eben "nur" ein neuer N3-Chip. Beide werden sicherlich parallel laufen.

AffenJack
2024-03-19, 18:00:28
Jo selbst wenn GB202 noch monolithisch sein sollte (was nach Specs ja nicht so aussieht), wird das sicherlich Post-Rubin dann soweit sein.
Rubin nutzt mMn die gleiche MC-Technik wie BW, ist eben "nur" ein neuer N3-Chip. Beide werden sicherlich parallel laufen.

Jo, das Ding wird in meinen Augen nur der Fokus auf 6 HBM pro Chiplet mit größeren Interposer und paar Shadern mehr.

Leonidas
2024-03-20, 02:08:59
Threads zusammengeführt.

Was mich wundert: Wieso NV nicht endlich unterschiedliche Namen für HPC- und Consumer-Architekturen wählt. Hätte man nach Hopper/Ada schlicht so weiterführen sollen.

TheAntitheist
2024-03-20, 02:16:59
Jo selbst wenn GB202 noch monolithisch sein sollte (was nach Specs ja nicht so aussieht), wird das sicherlich Post-Rubin dann soweit sein.
Rubin nutzt mMn die gleiche MC-Technik wie BW, ist eben "nur" ein neuer N3-Chip. Beide werden sicherlich parallel laufen.
GB200 ist doch nicht monolithisch, es wurden 2 DIEs zusammen geklatscht, die sich als einen Chip ausgeben... also das was AMD nicht geschafft hat.

Leonidas
2024-03-20, 03:16:39
GB100 = HPC-Chip aus 2x GB102
GB200 = ein Produkt basierend auf GB100, kein eigener Chip (dumme Namenswahl seitens NV)
GB202 = Consumer-Chip, unsicher ob monolithisch oder nicht

Altehardware
2024-03-20, 04:32:55
rubin ist noch weit weg den erwarte ich mit n2 node also frühestens 2027 wenn nicht sogar 2028
Was es wird ist auch völlig offen

OgrEGT
2024-03-20, 06:26:20
GB200 ist doch nicht monolithisch, es wurden 2 DIEs zusammen geklatscht, die sich als einen Chip ausgeben... also das was AMD nicht geschafft hat.
Ich dachte MI300 kann genau das auch also als 1 GPU angesprochen werden?
Diese GPUs sind aber HPC/AI Chips denen Teile der Renderpipeline fehlen und sich dadurch einfacher verbinden lassen... Multichiplet über die Rendering Pipeline hinweg hat in der Tat noch niemand geschafft...

The_Invisible
2024-03-20, 07:47:01
10tb/s sollten dafür schon ausreichen, bei Apple reichen auch schon 2,5tb/s

fondness
2024-03-20, 10:20:18
Ich dachte MI300 kann genau das auch also als 1 GPU angesprochen werden?

Natürlich kann das MI300 auch.

10tb/s sollten dafür schon ausreichen, bei Apple reichen auch schon 2,5tb/s

Es sind 5 TB/s bidirektional, daraus macht das NV Maketing 10TB/s.

Zossel
2024-03-20, 10:26:36
10tb/s sollten dafür schon ausreichen, bei Apple reichen auch schon 2,5tb/s

Die Apfelkisten können die Aufgaben für die die AI-Beschleuniger von NV gebaut worden sind in der gleichen Qualität und Zeit erledigen?

Zossel
2024-03-20, 10:30:31
GB200 ist doch nicht monolithisch, es wurden 2 DIEs zusammen geklatscht, die sich als einen Chip ausgebenIst das wirklich so? Heise schreibt lediglich folgendes:Beide Chips, die Nvidia nur zusammen als Blackwell-GPU bezeichnet, sind über ein schnelles Interface mit 10 TByte pro Sekunde (5 TByte/s pro Richtung) untereinander verbunden. Laut Nvidia reicht das aus, damit sie sich auch performancemäßig wie eine einzelne GPU verhalten.https://www.heise.de/news/Nvidias-neue-KI-Chips-Blackwell-GB200-und-schnelles-NVLink-9658475.html

AffenJack
2024-03-20, 17:04:45
Threads zusammengeführt.

Was mich wundert: Wieso NV nicht endlich unterschiedliche Namen für HPC- und Consumer-Architekturen wählt. Hätte man nach Hopper/Ada schlicht so weiterführen sollen.

Wieso sollte man? Der Name zeigt nunmal, ob die Chip auf einer gemeinsamen Compute Architektur basieren. Funktionelle Blöcke wie RT Einheiten oder FP lassen sich einfach austauschen. Die grundlegenden Architekturfeatures bestimmen aber den Namen. Bei Ampere war man eher auf einem Level. Lovelace fehlen dagegen essentielle Features von Hopper, wie der Distributed Shared Memory. Mit Blackwell ziehen die Consumergpus Featuretechnisch wohl wieder nach.

Troyan
2024-03-20, 18:15:30
Natürlich kann das MI300 auch.
Es sind 5 TB/s bidirektional, daraus macht das NV Maketing 10TB/s.

Hä? Es sind 5 TB/s pro Richtung. Was 10 TB/s sind.

reaperrr
2024-03-20, 21:05:16
Hä? Es sind 5 TB/s pro Richtung. Was 10 TB/s sind.
Nein.

Die 4090 hat 1008 GB/s Speicherbandbreite. Das heißt, sie kann theoretisch auch die 1008 GB/s rein fürs Laden in den VRAM oder rein fürs zurückschieben der Daten zur GPU nutzen.

Diese Chip-to-Chip-Kommunikation dagegen mag in Summe technisch 10 TB/s breit sein, aber da jede der beiden "Straßen" nur in eine Richtung und bis 5 TB/s geht, sind das keine vollwertigen 10 TB/s Bandbreite, weil nicht beide Straßen in die gleiche Richtung genutzt werden können.
Bräuchte es für perfekte Skalierung z.B. gerade 9 TB/s in die eine und nur 1 TB/s in die andere Richtung, performt das ganze definitiv nicht wie 10 TB/s, sondern bestenfalls wie 6 TB/s.

Natürlich wird es da technische Gründe für geben, nur "echte", uneingeschränkte 10 TB/s sind's halt nicht.

Leonidas
2024-03-21, 04:05:53
Wieso sollte man? Der Name zeigt nunmal, ob die Chip auf einer gemeinsamen Compute Architektur basieren.

Schon Hopper und Ada sind intern ausreichend abweichend, dass man das nicht mehr gleich nennen sollte. Selbst SM-intern ist da vieles anders. Klar, es ist dieselbe Entwicklungsstufe der Einheiten selber. Aber wenn die Einheiten gänzlich andere Funktionen haben (bspw. Rechenformate, oder die Zentrierung auf RayTracing vs Tensor zwischen Gaming & HPC), dann wäre ein eigener Architektur-Name angebracht. Vergleiche RDNA und CDNA.

basix
2024-03-21, 12:34:41
Natürlich wird es da technische Gründe für geben, nur "echte", uneingeschränkte 10 TB/s sind's halt nicht.

Hier wäre es eine gute Frage, ob bidirektional oder nicht. H100 kommt auf ~5TB/s Bandbreite bei L2$. Sind es bei Blackwell 10TB/s je Richtung, würde es relativ gut passen, ansonsten ist es weniger. Das kann man aber evtl. via Software und Aufgaben "Partionierung" so lösen, dass es nur wenig auffällt. Faktor 2x Bandbreitenreduktion durch gutes Task-Partitioning (Aufgaben/Daten bleiben primär auf dem jeweiligen Chip) scheint mir lösbar zu sein (als Laie gedacht). Ausserdem hat A100 wie auch H100 bereits einen zweigeteilten L2$, welcher über eine Crossbar verbunden ist. Das wird archtikturmässig die Vorarbeit für das Setup von B200 gewesen sein.
https://chipsandcheese.com/2023/07/02/nvidias-h100-funny-l2-and-tons-of-bandwidth/

BlacKi
2024-03-21, 13:25:59
Us dann in 25 sein. N3P wird sicherlich der zu erwartende Prozess sein.
Consumer wird es sicherlich frühestens Ende 26 wieder geben.


boah, 4 jahre im selben prozess. und amd backt wieder mal nur kleine brötchen in dieser zeit.

HOT
2024-03-21, 14:14:33
GB200 ist doch nicht monolithisch, es wurden 2 DIEs zusammen geklatscht, die sich als einen Chip ausgeben... also das was AMD nicht geschafft hat.
Vollkommener Unsinn. NV hat das gemacht, was Apple geschafft hat. AMD wird gestapelte Chiplets auch als GPU bauen, also das, was mit MI300 bereits realisiert wurde.

Troyan
2024-03-21, 14:26:39
Nein.

2 x 5 = 10
5 + 5 = 10


Die 4090 hat 1008 GB/s Speicherbandbreite. Das heißt, sie kann theoretisch auch die 1008 GB/s rein fürs Laden in den VRAM oder rein fürs zurückschieben der Daten zur GPU nutzen.

Das ist 1 TB/s...


Diese Chip-to-Chip-Kommunikation dagegen mag in Summe technisch 10 TB/s breit sein, aber da jede der beiden "Straßen" nur in eine Richtung und bis 5 TB/s geht, sind das keine vollwertigen 10 TB/s Bandbreite, weil nicht beide Straßen in die gleiche Richtung genutzt werden können.
Bräuchte es für perfekte Skalierung z.B. gerade 9 TB/s in die eine und nur 1 TB/s in die andere Richtung, performt das ganze definitiv nicht wie 10 TB/s, sondern bestenfalls wie 6 TB/s.


"Interconnect" ist nicht vergleichbar mit VRAM. Der ist mit unterschiedlichen Kanälen an den L2 Cache angebunden. Bei Blackwell werden die Daten entweder direkt von den ComputeUnits gelesen oder in den L2 Cache geschrieben. Das geschieht mit vollen Speed. Der Interconnect von Blackwell (jedenfalls aktuell) ist mit dem L2 Cache verbunden und kann daher die vollen 4 TB/s vom anderen Chip lesen und schreiben.

HPVD
2024-03-22, 09:26:41
Vera Rubin is launching by mid-2025, and were even hopping to get it out earlier than that if possible. However, do note that Rubin looks like a generation that is analogous to Hopper. It's not meant for gaming, its meant to bury the competition so deep that they don't have any oxygen left to compete in Al for years...

von Moores Law ist Dead

https://www.3dcenter.org/news/news-des-21-maerz-2024

HPVD
2024-03-22, 09:29:03
@leonidas bitte thread Titel anpassen (26->25, + rein HPC/AI)

basix
2024-03-22, 11:05:52
Meine Rubin Speku:
- N3E/P
- 2x 800mm2
- Log8/Log4 Datenformate
- Evtl. auch 1.58bit (ternary)? Verglichen mit INT8 wäre das mindestens nochmal 4x, eher sogar 8...16x Speedup (mehr TOPS)
- 12x HBM4 Stacks (>= 432 GByte Kapazität)
- 16 TByte/s HBM-Bandbreite
- Allenfalls AI <-> HPC nochmals in Richtung AI verschoben (z.B. 3x AI, 1.5x HPC Performance)

3D-Stacking ist allenfalls auch noch ein Thema. Also ein grosses N4 Base Die mit HBM, PHY und einem grossen Cache. Das N4 Compute Chiplet oben drauf. Aber immer noch 2x "Chips" wie bei B200.

HPVD
2024-03-22, 12:39:00
Meine Rubin Speku:
- N3E/P
- 2x 800mm2
- Log8/Log4 Datenformate
- Evtl. auch 1.58bit (ternary)? Verglichen mit INT8 wäre das mindestens nochmal 4x, eher sogar 8...16x Speedup (mehr TOPS)
- 12x HBM4 Stacks (>= 432 GByte Kapazität)
- 16 TByte/s HBM-Bandbreite
- Allenfalls AI <-> HPC nochmals in Richtung AI verschoben (z.B. 3x AI, 1.5x HPC Performance)

3D-Stacking ist allenfalls auch noch ein Thema. Also ein grosses N4 Base Die mit HBM, PHY und einem grossen Cache. Das N4 Compute Chiplet oben drauf. Aber immer noch 2x "Chips" wie bei B200.

joa klingt passig, die Frage ist nur: passt das zu so einem geringen zeitlichen Abstand?
Besonders das 1.58bit (und den darus entstehenden vmax Multiplikator) sehe ich erst eine Gen später...
edit: und auch das HBM4 wird knapp, oder?

AffenJack
2024-03-22, 13:21:25
joa klingt passig, die Frage ist nur: passt das zu so einem geringen zeitlichen Abstand?
Besonders das 1.58bit (und den darus entstehenden vmax Multiplikator) sehe ich erst eine Gen später...
edit: und auch das HBM4 wird knapp, oder?

Ja, HBM4 wird es 2025 nicht geben. Selbst 12High HBM3e ist noch extrem rar. Mit 12 Stacks HBM3e 12 High hat man da schon ne ordentliche Steigerung.

1,58Bit kam ja erst gerade das Paper. Das hatte niemand so auf dem Schirm, das wird noch dauern.

Meine Rubin Speku:
- N3E/P
- 2x 800mm2
- Log8/Log4 Datenformate
- Evtl. auch 1.58bit (ternary)? Verglichen mit INT8 wäre das mindestens nochmal 4x, eher sogar 8...16x Speedup (mehr TOPS)
- 12x HBM4 Stacks (>= 432 GByte Kapazität)
- 16 TByte/s HBM-Bandbreite
- Allenfalls AI <-> HPC nochmals in Richtung AI verschoben (z.B. 3x AI, 1.5x HPC Performance)

3D-Stacking ist allenfalls auch noch ein Thema. Also ein grosses N4 Base Die mit HBM, PHY und einem grossen Cache. Das N4 Compute Chiplet oben drauf. Aber immer noch 2x "Chips" wie bei B200.


Nicht für Rubin. Das Ding ist zwischengeschoben, da wird es nicht plöötzlich Stacking oder so geben. Ich wäre nicht mal bei neuen Datenformaten sicher. Das kann ein einfacher N4->N3P Refresh mit nur mehr Shadern und 12HBM und nix weiter sein.

Schon Hopper und Ada sind intern ausreichend abweichend, dass man das nicht mehr gleich nennen sollte. Selbst SM-intern ist da vieles anders. Klar, es ist dieselbe Entwicklungsstufe der Einheiten selber. Aber wenn die Einheiten gänzlich andere Funktionen haben (bspw. Rechenformate, oder die Zentrierung auf RayTracing vs Tensor zwischen Gaming & HPC), dann wäre ein eigener Architektur-Name angebracht. Vergleiche RDNA und CDNA.

Deswegen sind ADA und Hopper auch verschiedene Architekturen. Einheiten die man im Baukastenprinzip austauschen kann rechtfertigen aber für Nvidia keinen eigenen Namen und das finde ich verständlich. Das eine kennzeichnet die Architektur und das andere wird aus den möglichen Features ausgewählt, was da möglich ist. Generell orientiert man sich aber an den Compute Fähigkeiten, während die Grafikfeatures anscheinend nur sekundär zum Namen beitragen.

basix
2024-03-22, 13:31:52
1,58Bit kam ja erst gerade das Paper. Das hatte niemand so auf dem Schirm, das wird noch dauern.

Zu 1bit / 1.58bit LLM gibt es schon lange Paper. Das besondere an dem Paper ist, dass man mit 1.58bit eine wirklich gute Performance erreicht und auch in diesem Format trainieren muss und nicht erst im Nachhinein die Datenauflösung reduziert. Und dass man sich eben die Multiplikation sparen kann (Multiply+Add --> Add), was die HW viel, viel einfacher und günstiger macht. Das 1.58bit Dingens kann man im "schlechtesten" Fall auch mit INT2 emulieren (1.58bit = Ternary = -1, 0, 1; INT2 = -2,-1, 0, 1). Gibt dann halt "nur" 4x Speedup zu INT8, aber immerhin. A100 hatte INT4 und Binary (INT1) supported.


Nicht für Rubin. Das Ding ist zwischengeschoben, da wird es nicht plöötzlich Stacking oder so geben. Ich wäre nicht mal bei neuen Datenformaten sicher. Das kann ein einfacher N4->N3P Refresh mit nur mehr Shadern und 12HBM und nix weiter sein.
Ich erwarte auch kein Stacking. Ganz ausgeschlossen ist es aber nicht. Wenn Nvidia vollgas geben will, wäre das schon ein Vorteil. Daneben kann man noch NVLink Phy in separate Die auslagern.

Zum HBM:
Kann auch HMB3E sein. Aber HBM4 ist zumindest für H1/2025 angekündigt, was für Rubin aufgehen könnte. Auch hier ist es nicht ausgeschlossen, auch wenn ich persönlich auch zu HBM3E tendiere, der einfach noch etwas schneller läuft als bei Blackwell sowie +50% Stacks.

AffenJack
2024-03-22, 13:40:54
Zu 1bit / 1.58bit LLM gibt es schon lange Paper. Das besondere an dem Paper ist, dass man mit 1.58bit eine wirklich gute Performance erreicht und auch in diesem Format trainieren muss und nicht erst im Nachhinein die Datenauflösung reduziert. Und dass man sich eben die Multiplikation sparen kann, was die HW viel, viel einfacher und günstiger macht. Das 1.58bit Dingens kann man im "schlechtesten" Fall auch mit INT2 emulieren (Ternary = -1, 0, 1; INT2 = -2,-1, 0 ,1. Gibt dann "nur" 4x Speedup zu INT8, aber immerhin. A100 hatte INT4 und Binary (INT1) supported.

ahh ok, das hatte ich so nicht gewusst. Ich glaube aber trotzdem, wenn das kommt dann 2026/2027 mit dem eigentlichen Blackwell Nachfolger. Dann evtl auch Stacking.


Zum HBM:
Kann auch HMB3E sein. Aber HBM4 ist zumindest für H1/2025 angekündigt, was für Rubin aufgehen könnte. Auch hier ist es nicht ausgeschlossen, auch wenn ich persönlich auch zu HBM3E tendiere, der einfach noch etwas schneller läuft als bei Blackwell sowie +50% Stacks.

Nur von Samsung oder? Meines Wissens nach haben Hynix und Micron HBM4 für 2026 projeziert und Samsungs Marketing kann man eh in die Tonne kloppen.
Die kriegen jetzt nicht mal HBM3e hin und sind hintendran im Vergleich zu Hynix und Micron und sollen dann HBM4 als erstes machen? Samsung ist leider wie auch bei deren Foundryprozessen viel zu viel Gelaber und zu wenig liefern.

HPVD
2024-03-22, 13:43:42
...dass man mit 1.58bit eine wirklich gute Performance erreicht und auch in diesem Format trainieren muss und nicht erst im Nachhinein die Datenauflösung reduziert. Und dass man sich eben die Multiplikation sparen kann, was die HW viel, viel einfacher und günstiger macht.
...

Konsequent gedacht, macht dann ja ein erneuter Architektur Split Sinn:
1 Modell nur für 1.58bit LLM

Oder halt der berühmte Chiplet Baukasten...

basix
2024-03-22, 13:44:10
Nur von Samsung oder? Meines Wissens nach haben Hynix und Micron HBM4 für 2026 projeziert und Samsungs Marketing kann man eh in die Tonne kloppen.
Die kriegen jetzt nicht mal HBM3e hin und sind hintendran im Vergleich zu Hynix und Micron und sollen dann HBM4 als erstes machen? Samsung ist leider wie auch bei deren Foundryprozessen viel zu viel Gelaber und zu wenig liefern.

Micron sagt zumindest H2/2025: https://www.computerbase.de/2023-11/micron-roadmap-plaene-fuer-hbm4-mrdimms-cxl3-und-lpcamm-dargelegt/

Hynix erst 2026.

OK, ist vermutlich zu spät für Rubin. Für MI500 könnte es aber klappen, das wir frühestens H1/2026 kommen.

Konsequent gedacht, macht dann ja ein erneuter Architektur Split Sinn:
1 Modell nur für 1.58bit LLM

Oder halt der berühmte Chiplet Baukasten...
Genau ;)

Ich sehe das bei MI500 schon als Option. Oder als Teil der XDNA-Engines / NPUs in Consumer Produkte. Als XDNA-Chiplet könnte man das aber überall verbauen (MI-produkte, Epyc, usw.). Bei Nvidia wird sowas mit hoher Sicherheit auch mal kommen. Nvidia sagt ja selber sie verkaufen keine GPUs sondern Systeme. Das ganze Zeugs rund um HBM, Nvlink, Software Stack usw. ist genauso wichtig wie ein dediziertes "1.58b Design".

HPVD
2024-03-23, 09:52:00
Vermutung:
in Rubin wird erstmal die 4bit Leistung stark hoch geschraubt (ggf auf Kosten von höherer Genauigigkeit)

Grund:
4bit scheint nicht nur für LLM- zu reichen (dort reichen mittlerweile ja sogar die berühmten 1,58bit), sondern kann zunehmend auch für/innerhalb Diffusion Pipelines eingesetzt werden (Text-> Bild/Video)

Beispiele:

https://github.com/Xiuyu-Li/q-diffusion?tab=readme-ov-file
https://arxiv.org/html/2401.04339v1

basix
2024-03-23, 10:46:36
Vielleicht kann man es auch genereller sehen: Inferencing. Dort hat Nvidia die grösste Konkurrenz und dort sind langfristig die grössten Kostenfaktoren zu sehen (Betrieb der Datacenter).

HPVD
2024-03-23, 15:03:22
Vielleicht kann man es auch genereller sehen: Inferencing. Dort hat Nvidia die grösste Konkurrenz und dort sind langfristig die grössten Kostenfaktoren zu sehen (Betrieb der Datacenter).

bin mir gar nicht so sicher ob man das auf Inferencing beschränken kann/sollte.

In dem Bereich gibt es nämlich schon sehr mittelfristig eine weitere große Konkurrenz (nicht nur die eigenen Chips der Großen), bereits jetzt abzusehen und ganz besonders, wenn 4bit und noch mehr 1,58bit die benötigte Rechenleistung noch deutlich reduziert:
=> Client-side inferencing ("On-Device AI")

edit:
und es sinkt nicht nur die benötigte Rechenleistung durch
- optimierte Modelle (s. Open Source Welt...) und
- neue Möglichkeiten zur Genauigkeitsreduktion,
sondern zusätzlich wird die Client-Hardware ja auch gerade massiv aufgerüstet:
JEDER hat ne NPU integriert: Intel, Amd und auch Qualcomm, Mediatek, Google, Apple (teilweise auch schon mit 4bit in Hardware..)
und auch die "drum herum" Hardware wird selbst bei kleinen Devices immer passender: Smartphones mit 12GB Ram sind keine Seltenheit mehr, das gibts in 2024 ab der 199€ Klasse..

edit2:
und dieses cient side inferencing hat 4 interessante Vorteile:
- Privacy, die Daten bleiben auf dem Gerät
- Latenz
- Zuverlässigkeit, auch wenn gerade das Netz nur so mittel ist
- Kosten, denn es muss kein Datencenter betrieben werden

edit3:
vielleicht ist das client side inferencing in gar nicht ferner Zukunft schon good enough für den Hausgebrauch/Massenmarkt (analog "integrierte GPU"...)

edit4:
scheinbar wird das on-device Thema nun auch deutlich von Großen gepusht:
https://developers.googleblog.com/2024/03/running-large-language-models-on-device-with-mediapipe-andtensorflow-lite.html

... hmm wat sagt uns das nun für die Erwartungen bzgl Rubin?

Altehardware
2024-03-24, 13:36:20
Das es kein hpc chip wird
rubin wird die evolution von blackwell mit mehr Takt.
Der ganze ai kram wird später mit ner npu erledigt und auf datacenter berechnet also auch da wo die daten sind.
folglich wird nvidia dafür die grace cpu weiterhin mit blackwell v2 weitermachen
rubin wird als workstation udn desktop gpu kommen
Danach folgt sowieso ein mcm chip die gestapelt sind mit ner neuen Architektur
Das gute mit blackwell wird die desktop Architektur umgebaut auf 192alu per sm das bedeutet zwar reduzierte Takt aber dürfte mit n3 dennoch 2,6ghz erreichen.
rubin wird n2 node nutzen und somit die 3,2ghz erreichen was Ai angeht das ist zu 90% software und noch voll im design zumal man derzeit keine ai dauerhaft laufen lassen kann Da diese immer ein Bezugsproblem hat. da diese lernt und wer bestimmt das dass erlernte richtig ist und mit der realen welt funktioniert.
Das problem ist nicht neu da vom Konzept her ne ai Fehler macht nur kann die ai nicht prüfen obs real auch stimmt.
Darum ist brute force auch völlig sinnfrei erst müssen die Modelle so angepasst werden das diese nahezu fehlerfrei werden dafür bedingt es aber ein Modell das ein Gedächtnis hat und dieses nicht ändert. Sondern nur addiert und das Gedächtnis muss immer auf aktuellem stand gebracht werden was viele Menschen benötigt was am ende der Vorteil der ai zunichte macht es ist ne Hilfe mehr nicht.
rubin sehe ich als blackwell evolution mit mehr Speicher und Takt.

Ob blackwel nur den n4p nutzt wird den takt auf den workstatio gpu auf nujr 2,1ghz ermöglichen dafür sind be rmehr alu für ein rt cpore am wirklen womit die perf drastisch steigen wird in dxr potentiellbis zu 72% per sm in raster aufgrund des geringen taktes von nur 2,3 und 1,7ghz (sf4x) muss man am desktop den n3p node nutzen wo dann 2,6ghz möglich werden Samsung ist bei 2,04ghz Schluss und das auch nur dann wenn der schrink nicht voll genutzt wird etwa nur 14% density statt den vollen 22% von sf4 vs n8
Demnach erreicht man dann statt 1,7ghz dann 2,04ghz
tsmc schrink ist derweil nicht möglich es gibt zwar 6% aber diese werden vom Takt aufgefressen da die Fläche ebenfalls um 8% steigen wird
Am ende dürfte der tsmc n4p node sich lohnen da mehr Takt möglich ist als bei samsung sf4x
aber die 3ghz können wir vergessen
Es wird 2,3ghz/2,04ghz mit Anpassung der chipdichte oder nur 2,0ghz/1,7ghz ohne im übrigen ohne stromersparnis.

Die alternative wäre mehr chipfläche also 14% 28% takt aber volle Einsparung der node Verbesserung was 22% wären
Dann wäre in ada design bei 3,5ghz und hätte min 22% Stromersparnis.
bsp wäre mit nen gb207 38sm dann 23tf bei 120w tbp
Das ginge aber nur mit vergrößerter chipfläche das wäre ein Ausweg um doch noch an der sm Struktur nix zu ändern. Das aber würde in dxr stagnation bedeuten
Dxr skaliert nicht mit den Takt sondern nur mit den alu per sm
Darum wird es vermutlic erstmals ne taktreduktion nach einer gen geben bei 2,0ghz und 2,3ghz
folgende sku sind drin
gb207 rtx5060 32sm 2,0ghz 180w 96bit 12gb 410€ +-19tf =+64% und +130% dxr
gb207 rtx5060ti 38sm 2,0ghz 200w 96bit 12gb 499€ +- 23tf =+37% und +80% dxr perf
gb206 rtx5070 64sm 2,0ghz 280w 128bit 16gb 699€ +- 38tf =+41% und +80% dxr perf
gb206 rtx5070ti 76sm 2,0ghz 330w 128bit 16gb 899€ +-46tf +-42% und +80% dxr perf
gb205 rtx5080 108sm 2,3ghz 375w 192bit 24gb 1100€ +-65tf +66% und +105% dxr perf
gb203 rtx5090 144sm 2,3ghz 450w 256bit 32gb 2500€ +-100tf +59% und +80% dxr perf
gb202 titan B 144sm 2,3ghz 550w 384bit 48gb 4000€ +-100tf rest identisch

Wieso den chip zweimal gleich bauen nun das liegt am vram die bandbreitenvorteil der titan wird benötigt (48gb) und mehr alu gehen nicht da der chip an seine Größen limit kommt. grob 800mm²
Das Si macht dann 40% aus.
bei allen anderen sku sind es nur noch 30% derzeit vergeudet man fürs si und pcie etwa 55% chipfläche

anders kann man die dxr perf nicht steigern der Weg mit nur mehr Takt bringt hier nix.
Entweder mehr Rt cores oder mehr alu per sm ideal beides. Das einzige was dagegen spricht ist jensen Ego da bisher nie ne gen nachgekommen ist mit weniger Takt als die vorherige.
Um das zu erreichen braucht man den n3p node sowie samsung sf3x mit gaa was nochmal 18% Takt bringt was dann bei 2,6ghz und 2,36ghz wären
Das aber sehe ich nicht vor 2026 kommen
Der release wird spannend da dieser dieses Jahr sein soll nicht wundern gb203 hat 160sm im Vollausbau 144sm aktiv bei nur 2,3ghz aber deutlich mehr alu per sm
Das in n3 node wäre bei 2,6ghz und somit ohne Taktreduktion da aber n4p sicher ist dürfte das nicht passieren.
Damit dürfte dieses Jahr zwei sku kommen gb203 und gb205 und q2 2025 dann gb206 und gb207 zusammen.
Die % werte sind zu den 100% zu addieren
faktisch ist im schnitt die dxr perf verdoppelt je sku

horn 12
2024-03-24, 14:10:51
5080 dann 66% schneller als 4080
5090 somit 59% schneller als 4090

Nie und nimmer kann dies so kommen,- da gleicher/ kaum Verbesserter Node
und die Verbesserungen können nicht sooo gewaltig ausfallen wie du dies verheist.

Altehardware
2024-03-24, 14:26:01
Mehr alu per sm von 128 auf 192
Das macht extrem viel aus.

HPVD
2024-03-24, 14:52:35
...
Der ganze ai kram wird später mit ner npu erledigt und auf datacenter berechnet also auch da wo die daten sind.
folglich wird nvidia dafür die grace cpu weiterhin mit blackwell v2 weitermachen
rubin wird als workstation udn desktop gpu kommen


?
eigentlich sind die Daten oft bei Dir. Du sagst das was erkannt werden soll. Du schreibst das was übersetzt werden soll. Du hast das Bild das verändert werden soll. Du hast das Video das entwackelt werden soll. Du hast..

ChaosTM
2024-03-24, 15:02:23
5080 dann 66% schneller als 4080
5090 somit 59% schneller als 4090

Nie und nimmer kann dies so kommen,- da gleicher/ kaum Verbesserter Node
und die Verbesserungen können nicht sooo gewaltig ausfallen wie du dies verheist.


+60% wäre desaströs für den Kontostand. Ich rechne eher mit 30%

Altehardware
2024-03-24, 15:13:59
ihr vergisst das blackwell ende 2025 gegen rdna5 antritt in n3p node mcm chips
Während blackswell mit n4p node ist. Ein port auf n3x wäre möglich aber nicht vor Mitte 2026 mit neuen Masken .
Der n3 node läuft echt mies und da vermutlich keine Masken für n3 gegeben hat dürfte nvidia den node einfach überspringen und mit n2 weitermachen.

ne Maske fürn node ist teuer braucht etwa nen Jahr und müsste jetzt gemacht werden damit man es 2026 launchen kann.
Das passiert derzeit nicht folglich wird am auf n2x gehen wo die Masken ab 2026 losgehen werden mit rubin im Fokus damit es spätestens q2 2027 kommen wird.
Der Grund wird auch klar da mit n2x gaa kommt

Platos
2024-03-24, 19:22:32
Falls AMD Ende 2025 mit RDNA5 kommt, dann wird nvidia mit Sicherheit einen Refresh bringen und kann somit auch einfach wieder wie im jetzigen Super-Refresh das P/L verbessern.

Es träte dann also der Blackwell-Refresh gegen RDNA5 an. Zusätzlich kommt noch dazu, dass ja AMD momentan ziemlivh am abstinken ist. Mit glück dürfen wir Kunden also hoffen, dass AMD gerade mal aufschliesst.

HPVD
2024-03-25, 19:10:07
bin mir gar nicht so sicher ob man das auf Inferencing beschränken kann/sollte.

In dem Bereich gibt es nämlich schon sehr mittelfristig eine weitere große Konkurrenz (nicht nur die eigenen Chips der Großen), bereits jetzt abzusehen und ganz besonders, wenn 4bit und noch mehr 1,58bit die benötigte Rechenleistung noch deutlich reduziert:
=> Client-side inferencing ("On-Device AI")

edit:
und es sinkt nicht nur die benötigte Rechenleistung durch
- optimierte Modelle (s. Open Source Welt...) und
- neue Möglichkeiten zur Genauigkeitsreduktion,
sondern zusätzlich wird die Client-Hardware ja auch gerade massiv aufgerüstet:
JEDER hat ne NPU integriert: Intel, Amd und auch Qualcomm, Mediatek, Google, Apple (teilweise auch schon mit 4bit in Hardware..)
und auch die "drum herum" Hardware wird selbst bei kleinen Devices immer passender: Smartphones mit 12GB Ram sind keine Seltenheit mehr, das gibts in 2024 ab der 199€ Klasse..

edit2:
und dieses cient side inferencing hat 4 interessante Vorteile:
- Privacy, die Daten bleiben auf dem Gerät
- Latenz
- Zuverlässigkeit, auch wenn gerade das Netz nur so mittel ist
- Kosten, denn es muss kein Datencenter betrieben werden

edit3:
vielleicht ist das client side inferencing in gar nicht ferner Zukunft schon good enough für den Hausgebrauch/Massenmarkt (analog "integrierte GPU"...)

edit4:
scheinbar wird das on-device Thema nun auch deutlich von Großen gepusht:
https://developers.googleblog.com/2024/03/running-large-language-models-on-device-with-mediapipe-andtensorflow-lite.html

... hmm wat sagt uns das nun für die Erwartungen bzgl Rubin?

als Ergänzung noch ein schönes Beispiel, für eine signifikante Reduktion der benötigten Rechenleistung und damit einem weiteren Schritt das Inferencing bald auf dem Client zu machen...

stablediffusion (text -> bild)
in 1/30 der Zeit
(=1/30 der vorher benötigten Rechnenleistung), gerechnet auf 16bit

-> One-step Diffusion with Distribution Matching Distillation
https://tianweiy.github.io/dmd/

AffenJack
2024-03-25, 19:25:09
als Ergänzung noch ein schönes Beispiel, für eine signifikante Reduktion der benötigten Rechenleistung und damit einem weiteren Schritt das Inferencing bald auf dem Client zu machen...

stablediffusion (text -> bild)
in 1/30 der Zeit
(=1/30 der vorher benötigten Rechnenleistung), gerechnet auf 16bit

-> One-step Diffusion with Distribution Matching Distillation
https://tianweiy.github.io/dmd/

Ist die Geschwindigkeit überhaupt das große Problem, was gegen Client Inferencing spricht? Ich denke es ist eher der Speicherplatz. Kaum ein Client wird sich mehrere 100Gb Platz nehmen, um verschiedene Modelle auf der Platte zu haben.

HPVD
2024-03-25, 19:33:33
Ist die Geschwindigkeit überhaupt das große Problem, was gegen Client Inferencing spricht? Ich denke es ist eher der Speicherplatz. Kaum ein Client wird sich mehrere 100Gb Platz nehmen, um verschiedene Modelle auf der Platte zu haben.

im Prinzip sollte auch hier die Größe genauso wie die Rechenzeit skalieren. Denn in der kürzeren Zeit schaffe ich ja weniger "Datendurchsatz", brauche also weniger Daten um auf das vergleichbare Ergebnis zu kommen.

Gibt ja heute bereits Varianten der LLM die lokal auf Smartphone laufen...

basix
2024-03-25, 21:13:57
"DMD" ist wieder mal ein gutes Beispiel, wie viel Potential noch in der DNN Optimierung steckt. 30x schneller bei vergleichbarer Qualität ist mit reiner GPU-Evolution nur schwer machbar.

Zossel
2024-03-26, 13:24:05
Doof bleibt doof, da helfen keine Transistoren:Damit die dort beworbenen Produkte auch verkauft werden, müssen sie in Suchergebnissen die ersten Plätze belegen. Wird ein Sofa verkauft, dann geht es in dem Text um das Sofa, auch wenn auf den Bildern Pflanzen, Lampen und sogar Menschen zu sehen sind. Schließlich sollen Suchmaschinen wie Googles Algorithmus Pagerank das Sofa leicht finden und als relevant einstufen. Das tun sie anhand der Bildbeschreibungen. Anders gesagt: Die eine Maschine arbeitet überwiegend mit Daten, die der anderen Maschine gefällt – und, so scheint es, leitet daraus ihre Sicht auf die Welt ab.https://www.derstandard.at/story/3000000213172/ki-lernt-vor-allem-von-englischsprachigen-shoppingseiten

HPVD
2024-03-26, 15:53:23
noch ein letztes mal das Thema Client-Side Inferencing

Apple baut nächsten iPhone-Chip für KI um
Teile der Funktionen sollen mit Partnern in der Cloud realisiert werden. Für viele Features will man aber laut neuen Gerüchten im iPhone selbst für die nötige Rechenleistung sorgen. Seit dem iPhone 12 kommen die Smartphones des Konzerns mit Neural Engine mit 16 Kernen. Diese wurden mit den Jahren zwar weiterentwickelt, die Zahl der Kerne blieb aber gleich. Jeff Pu, ein für gewöhnlich gut informierter Investmentanalyst, berichtet jetzt davon, dass der A18 Pro Chip in der Größe wächst, um Platz für mehr KI-Kerne zu machen.
https://winfuture.de/news,141929.html

HPVD
2024-03-27, 15:48:22
und wirklich das aller letzte mal client side inferencing:
Intel confirms Microsoft's Copilot AI will soon run locally on PCs, next-gen AI PCs require 40 TOPS of NPU performance
https://www.tomshardware.com/pc-components/cpus/intel-confirms-microsoft-copilot-will-soon-run-locally-on-pcs-next-gen-ai-pcs-require-40-tops-of-npu-performance

mocad_tom
2024-03-27, 17:10:10
beim asus zenbook ist der preisunterschied zwischen 16gb und 32gb 150€.

bei apple ist der preisunterschied zwischen 8gb und 16gb eine niere.

für die speicherhersteller könnte das halt wirklich ein segen werden.

zumal die ziemlich ausgelastet werden mit den hbm bestellungen und nun das noch on top drauf.

dildo4u
2024-03-27, 17:14:14
Apple wird sein AI Quatsch auf 8GB optemieren da die Handys niemals mher bekommen.

woodsdog
2024-03-27, 20:02:48
Apple wird sein AI Quatsch auf 8GB optemieren da die Handys niemals mher bekommen.

Handys von Apple werden niemals mehr als 8GB RAM bekommen.

Dildo4U, 3DCenter Forum, 2024 :rolleyes:

Leonidas
2024-05-10, 08:22:40
https://twitter.com/XpeaGPU/status/1788441441561154007
Too much false rumors these days so let's make it straight:
Nvidia X100/R100 will tape out this summer.
Still CoWos-L
Still HBM3e
Facts

basix
2024-05-10, 10:17:22
Sind X100 & R100 unterschiedliche Chips? Nvidia hat zu R100 noch nichts verlauten lassen.

Zwei Chips könnten aber schon denkbar sein. Beispielhaft gedacht:
- X100 = H100 Nachfolger (FP64 + ML/AI)
- R100 = ML/AI only Fokus

w0mbat
2024-05-10, 13:20:36
X = R
Würde ich sagen.

horn 12
2024-05-10, 13:51:32
Dies lässt darauf schliessen das Blackwell nur ein Zwischenschritt ist
und jener schnell abgelöst werden wird.
+20 bis max. 30& auf Ada oben drauf mit noch höherer TBP

AffenJack
2024-05-10, 14:04:50
X = R
Würde ich sagen.

Genau das. X ist einfach nur ein Platzhalter gewesen.

Sind X100 & R100 unterschiedliche Chips? Nvidia hat zu R100 noch nichts verlauten lassen.

Blackwell hat man auch erst jetzt angekündigt. Davor hat Nvidia nur Hopper-Next benutzt. Selbst zu Blackwell gibts ja noch nicht mal ein Whitepaper und Nvidia versucht diesmal den Aufbau der Blackwell-SMs solange wie möglich zu verheimlichen.

davidzo
2024-05-10, 14:19:40
Dies lässt darauf schliessen das Blackwell nur ein Zwischenschritt ist
und jener schnell abgelöst werden wird.
+20 bis max. 30& auf Ada oben drauf mit noch höherer TBP

Sowohl Nvidia als auch AMD haben angekündigt dass der AI Markt so lukrativ ist dass man ihn künftig mit jährlichen Releases bedienen will. Das werden also eher einzelne SKUs bzw. höchstens refreshes mit mehr Speicher sein wie bei H100, GH200, H200 oder gar die China-Versionen A800 und H800. AMD macht mit Mi350 ja eine ähnlichen Zwischenschritt.

Wenn es um Silizium-Codenamen ginge, dann wären zwei Buchstaben vorrangestellt, also z.b. GH100, AD102 oder GB100. Offensichtlich geht es aber um SKU und Vermarktungsnamen, so wie H100 PCIe 64GB oder H800 SXM5. Wobei nivida ihre eigene Nomenklatur wieder aufweicht indem man GH200 und GB200 auch als Marketingnamen verwendet und die einzel GPU darin nun nachträglich H200 nennt.

Das muss also nicht heißen dass R100 wirklich ne andere Architektur und grundlegend anderes Silizium ist, das könnte auch nur Marktsegmentierung bedeuten. Imo ist das die viel wahrscheinlichere Auflösung wenn X100/R100 nur mit Schrägstich getrenn genannt werden und zusammen tapeout hatten.

HPVD
2025-01-13, 21:45:01
es ist so ruhig hier... dabei ist schon 2025..

auch über die Grafik Blackwells ist nun fast alles bekannt, siehe ab
https://www.forum-3dcenter.org/vbulletin/showthread.php?t=612419&page=153
-nur die finalen unabhängigen Reviews stehen noch aus und die Professional Varianten (Quadro...)

Können wir aus dem nun bekannten weiteres für Rubin ableiten/gezielt spekulieren?

Oder gab es in den letzten 3 Monaten seit dem letzten Post noch andere weitere Leaks/Aussagen/Erkenntnisse?

Von meiner Seite eine Detail Speku:
- würde HDMI 2.2 erwarten - Blackwell hat nun die neue Gen vom Displayport DP 2.1b, aber noch das alte HDMI 2.1

The_Invisible
2025-01-13, 22:04:45
Da wird ja wieder eine bessere Fertigung möglich sein, könnte wieder einen größeren Sprung geben als jetzt bei Blackwell. GDDR7 3Gb Speicherchips werden wohl auch Standard sein, RTX 6090 mit 48GB oder mit 384bit mit 36GB. Wenn die Release Zyklen noch länger werden könnte die aber erst Herbst 2027 kommen.

Ansonsten wohl wieder: AI, AI, AI und hinten RT ;)

HPVD
2025-01-13, 22:31:53
..GDDR7 3Gb Speicherchips werden wohl auch Standard sein, RTX 6090 mit 48GB oder mit 384bit mit 36GB....

darüber hab ich auch schon nachgedacht.
Könnt ihr euch wirklich vorstellen, dass die Busbreite von Blackwells 512bit wieder reduziert wird?
Kann mir das in Zeiten von AI die wirklich davon profitiert schwer vorstellen, selbst wenn der Durchsatz durch (viel) mehr Takt gehalten werden kann...

HPVD
2025-01-14, 11:04:46
NVIDIAs Strategiewechsel: Auf Blackwell folgt Rubin wohl schon 2025, parallel zu Blackwell Ultra
https://www.igorslab.de/nvidias-strategiewechsel-auf-blackwell-folgt-rubin-wohl-schon-2025-parallel-zu-blackwell-ultra/

vielleicht um der Dominator zu bleiben und zu AMD und allen inhouse chips (google, amazon, meta..) den Abstand waren zu können...

Blase
2025-01-14, 11:34:13
Nur um sicher zu gehen: Rubin ist wirklich rein HPC/AI, ja? Kein Gaming Einsatz geplant?

MfG Blase

AffenJack
2025-01-14, 11:55:09
NVIDIAs Strategiewechsel: Auf Blackwell folgt Rubin wohl schon 2025, parallel zu Blackwell Ultra
https://www.igorslab.de/nvidias-strategiewechsel-auf-blackwell-folgt-rubin-wohl-schon-2025-parallel-zu-blackwell-ultra/

vielleicht um der Dominator zu bleiben und zu AMD und allen inhouse chips (google, amazon, meta..) den Abstand waren zu können...

Die Meldung ist von Dezember und es gibt keine Anzeichen, dass Rubin 2025 kommt.

Auf den Markt wird Rubin 2025 nicht kommen. Es kann sein, dass man in Q4 präsentiert, da man vor der GTC26 auf den Markt bringt. Das wäre schon eine Verschiebung nach vorne um 6 Monate, denn normalerweise würde man die Verfügbarkeit von Rubin erst in H2 26 erwarten.

Blackwell Ultra soll Q3 sein, wirklich parallel wird das aber zu Anfang nicht werden. Dann aber bestimmt länger parallel laufen.

HPVD
2025-01-25, 17:45:33
darüber hab ich auch schon nachgedacht.
Könnt ihr euch wirklich vorstellen, dass die Busbreite von Blackwells 512bit wieder reduziert wird?
Kann mir das in Zeiten von AI die wirklich davon profitiert schwer vorstellen, selbst wenn der Durchsatz durch (viel) mehr Takt gehalten werden kann...

und es gibt nicht nur AI was von Bandbreite stark profitiert:
Hier wird gezeigt das es auch andere Compute Workloads gibt, die den Speicher-Bandbreitenzuwachs 1zu1 in Leistung umsetzen können:
https://www.phoronix.com/review/nvidia-geforce-rtx5090-linux/4

und insgesamt kommt bei den GPU Compute Performance Benchmarks als Mittel Faktor 1,42 für 4090->5090, also ein erheblicher Einfluss der Bandbreite
https://www.phoronix.com/review/nvidia-geforce-rtx5090-linux/8

y33H@
2025-01-25, 18:58:02
Designs für AI nutzen ja eh HBM, nur wir (Pro)sumer kriegen GDDR.

mironicus
2025-01-26, 08:47:41
Die RTX 6090 wird wieder eine 450 Watt-Grafikkarte sein und fast doppelt so schnell wie die RTX 4090 (Raster) - so hoffe ich. :tongue:

Sardaukar.nsn
2025-01-26, 09:51:51
Die RTX 6090 wird wieder eine 450 Watt-Grafikkarte sein und fast doppelt so schnell wie die RTX 4090 (Raster) - so hoffe ich. :tongue:

Die Leute kaufen sich doch jetzt neue Netzteile, Gehäuse ect. für die 575W 5090. Schau doch mal wie sich die TDP in den letzten 10 Jahren entwickelt hat. Meinst du echt Nvidia macht da ne Rolle rückwärts?

basix
2025-01-26, 09:54:22
Wenn die Effizienz erreicht wird oder der Chip darüber nicht mehr skaliert, wieso nicht? Hätte ja niemand was dagegen.

why_me
2025-01-26, 10:15:34
Nvidia wird sich schon etwas zurückhalten müssen, im worst case bleibt man wieder mehrere Generationen im gleichen Node und man hat das gleiche Problem wie heute.

Badesalz
2025-01-26, 10:17:21
Die Leute kaufen sich doch jetzt neue Netzteile, Gehäuse ect. für die 575W 5090.Ja. Da stimmt. Die Verkaufszahlen explodieren geradezu :rolleyes:

Den Rants nach, gar der Fanboys, wird man die Botschaft verstanden haben, daß die 5090 nun die noch akzeptierte Obergrenze erreicht hat. Die gleiche Geschichte wie beim 14900er...

ChaosTM
2025-01-26, 10:23:30
Die RTX 6090 wird wieder eine 450 Watt-Grafikkarte sein und fast doppelt so schnell wie die RTX 4090 (Raster) - so hoffe ich. :tongue:


Wird (vielleicht) ein Chiplet Design und da könnte man dann zur Not noch ein paar mehr Watt drauf packen, wenn man es auf 2 PCBs verteilt.

Altehardware
2025-01-26, 11:08:42
nvidia hat kein mcm Design das haben sie mit blackwell bewiesen
n3 ist bereit und verfügbar zwar teuer aber machbar zumal die chance auf doppelte alu per sm vertan wurde.
Der chip wäre kleiner und Leistungsstärker geworden dank n4 +11% Takt (3,1ghz) und nahezu halber alu Größe die tbp wäre bei den 450w geblieben bei deutlich mehr perf. dank mehr Fläche für die alu.
rubin wird quasi refresh von blackwell sein in n3 node alu zu si dann 30-70

HOT
2025-01-26, 11:17:52
Die Meldung ist von Dezember und es gibt keine Anzeichen, dass Rubin 2025 kommt.

Auf den Markt wird Rubin 2025 nicht kommen. Es kann sein, dass man in Q4 präsentiert, da man vor der GTC26 auf den Markt bringt. Das wäre schon eine Verschiebung nach vorne um 6 Monate, denn normalerweise würde man die Verfügbarkeit von Rubin erst in H2 26 erwarten.

Blackwell Ultra soll Q3 sein, wirklich parallel wird das aber zu Anfang nicht werden. Dann aber bestimmt länger parallel laufen.

Es gab Meldungen, dass er Late 25 vorgestellt werden sollte, aber dann ist es ziemlich ruhig geworden um das Thema. NV hat auch keinen wirklichen Druck mehr, Rubin so früh zu bringen, ich würde man wie bei Blackwell auf Q2 in dem Fall dann 26 für die Vorstellung tippen, GPU-Auskopplungen dann Anfang 27, alles N3E-Basis.

Sardaukar.nsn
2025-01-26, 11:53:35
Blackwell hat jetzt auch eher 2,5 Jahre statt des sonst üblichen 2-Jahres-Zyklus gebraucht. Kann sein das es in Zukunft auch eher länger dauert.

ChaosTM
2025-01-26, 12:06:15
Gut möglich.
Wir haben mittlerweile einen Punkt erreicht, wo mehr Rohleistung kaum noch bessere Resultate erzielt.

Die Zukunft (bis deutlich innovativere/schnellere Recheneinheiten verfügbar sind) liegt in der Software aka "AI"

Badesalz
2025-01-26, 12:09:32
Blackwell hat jetzt auch eher 2,5 Jahre statt des sonst üblichen 2-Jahres-Zyklus gebraucht. Kann sein das es in Zukunft auch eher länger dauert.Für mich Rubin zu 100% kurz bevor 3 Jahre um sind.

dildo4u
2025-03-19, 08:08:53
Rubin Ultra Specs

https://www.computerbase.de/news/grafikkarten/blackwell-nachfolger-nvidia-gibt-ausblick-auf-rubin-ultra-und-feynman.91837

https://www.golem.de/news/vera-rubin-blackwell-ultra-nach-der-doppel-gpu-kommt-die-vierfach-gpu-2503-194445.html

basix
2025-03-19, 08:13:01
Infos zu Vera, Rubin und Rubin Ultra:
https://www.computerbase.de/news/grafikkarten/blackwell-nachfolger-nvidia-gibt-ausblick-auf-rubin-ultra-und-feynman.91837/

- Neues "Namensschema" -> 1x Reticle GPU = 1x GPU (nicht mehr das gesamte Package = 1x GPU)

Vera (CPU):
- 88 Cores / 176 Threads, Custom ARM Cores
- 1536 GByte DRAM
- Vermutlich 16ch LPDDR6 (mindestens 12ch)
- Vermutlich PCIe 6.0

Rubin:
- 2x GPUs pro Package (wie Blackwell)
- 8S HBM4 (13 TByte/s), 288 GByte
- 50PF FP4 (Dense) -> 5x Blackwell GB200
- 16PF FP8 (Dense) -> 3x Blackwell GB200

Rubin Ultra:
- 4x GPUs pro Package
- 16S HBM4 (32 TByte/s), 1024 GByte
- 100PF FP4 (Dense)
- 33PF FP8 (Dense)

NVL144 (Rubin):
- Selbes Rack-Design wie Blackwells NVL72 (aber 144 wegen dem geänderten Namensschema)
- 5x FP4 Performance von Blackwell NVL72 mit GB200 // 3x GB300 (Blackwell Ultra)

NVL576 (Rubin Ultra):
- Neues Rack-Design, wo man doppelt so viele CPUs & GPUs unterbringen kann
- 20x FP4 Performance von Blackwell NVL72 mit GB200 // 13x GB300 (Blackwell Ultra)
- 1-zu-1 Ratio von Vera-CPU und Rubin Ultra (eine Vera CPU pro Rubin Ultra GPU)
- Total 365 TByte Speicher (12x Blackwell GB200 NVL72 // 10x Blackwell GB300 NVL72)

Neue Co-Packaged Optics Switches (https://www.computerbase.de/news/internet/nvidia-silicon-photonics-ai-factorys-sollen-dutzende-megawatt-bei-switches-einsparen.91823/):
- Auch auf Ethernet Basis
- Höhere Energieeffizienz
- Herstellung ist lizenziert an Partner (mMn smarter Move von Nvidia)

https://pics.computerbase.de/1/1/6/5/7/7-57897bcd6f321a8a/3-1080.5748ae6e.jpg

Pirx
2025-03-19, 08:26:42
Speicherkohärenz zwischen CPU und "GPU" hat NV aber nicht, oder?

Badesalz
2025-03-19, 08:43:57
600 kW pro Turm. Läuft...

basix
2025-03-19, 08:46:32
Speicherkohärenz zwischen CPU und "GPU" hat NV aber nicht, oder?
NVLink bietet Speicherkohärenz:
https://www.nvidia.com/en-us/data-center/nvlink-c2c/
https://en.wikichip.org/wiki/nvidia/nvlink

NVIDIA NVLink-C2C to deliver a CPU+GPU coherent memory model for accelerated AI and high-performance computing (HPC) applications.

Leonidas
2025-03-19, 09:03:00
Infos zu verbauten Recheneinheiten und zum Architektur-Aufbau sind augenscheinlich gänzlich unmodern geworden, nicht nVidia?

The_Invisible
2025-03-19, 09:05:56
600 kW pro Turm. Läuft...

Es geht da eher um Density, und wenn man 1 statt 3 Racks bei insgesamt höherer Leistungsaufnahme braucht umso besser

Zossel
2025-03-19, 09:16:26
- Auf Ethernet Basis

Ach.

Dural
2025-03-19, 09:30:02
Ich bin jedes mal überrascht wie dies technisch noch überhaupt machbar ist.

Rubin Ultra ist ja mal sowas von all in. So ein ding alleine wird wohl schon 20K+ kosten.

basix
2025-03-19, 09:36:07
Warte nur bis es die System-on-Wafer Geschichten gibt. Da ist Rubin Ultra Kindergarten dagegen und das Schaubild von Nvidia passt dann ziemlich gut :D

https://www.upmedia.mg/upload/article/20250114084759055595.jpg


Infos zu verbauten Recheneinheiten und zum Architektur-Aufbau sind augenscheinlich gänzlich unmodern geworden, nicht nVidia?
Von Rubin oder Blackwell? Bei Rubin darf man es ja definitiv nicht erwarten zum heutigen Zeitpunkt.

dildo4u
2025-03-19, 09:39:07
Wird der CPU Teil irgendwann besser irgendwie sind 88 ARM Core ziemlich Luftpumpe gegenüber AMD oder?

Badesalz
2025-03-19, 09:41:05
Warte nur bis es die System-on-Wafer Geschichten gibt.Uralter Hut
https://www.heise.de/news/Fuer-Super-KI-Supercomputer-Cerebras-Riesen-CPU-mit-4-Billionen-Transistoren-9654534.html

basix
2025-03-19, 09:59:21
Uralter Hut
https://www.heise.de/news/Fuer-Super-KI-Supercomputer-Cerebras-Riesen-CPU-mit-4-Billionen-Transistoren-9654534.html

Cerebras macht was ganz anderes. Die haben nur SRAM (kein HBM) und ein deutlich schmalbandigeres Anwendungsfeld.

System-on-Wafer ist wie Rubin Ultra, nur halt mit einem Interposer mit der Grösse eines Wafers. Und Networking / Co-Packaged Optics vermutlich gleich mit auf dem Wafer:

https://images.anandtech.com/doci/21372/tsmc-sow-cowos-evolution.png

=Floi=
2025-03-19, 10:34:44
irgendwie wird das alles immer undurchsichtiger.

Pirx
2025-03-19, 12:20:02
NVLink bietet Speicherkohärenz:
https://www.nvidia.com/en-us/data-center/nvlink-c2c/
https://en.wikichip.org/wiki/nvidia/nvlink
chip to chip, aber nicht zwischen dem CPU- und dem GPU-Teil, wie bei MI300A, oder?

AffenJack
2025-03-19, 12:54:38
chip to chip, aber nicht zwischen dem CPU- und dem GPU-Teil, wie bei MI300A, oder?

Doch, schon seit Hopper. Das ist ein alter Hut.

Badesalz
2025-03-19, 13:47:46
System-on-Wafer ist wie Rubin Ultra, nur halt mit einem Interposer mit der Grösse eines Wafers. Und Networking / Co-Packaged Optics vermutlich gleich mit auf dem Wafer:
Ist das jetzt eine TSMC Folie oder eine von NV?

mksn7
2025-03-19, 13:54:45
Infos zu verbauten Recheneinheiten und zum Architektur-Aufbau sind augenscheinlich gänzlich unmodern geworden, nicht nVidia?

Sind eigentlich SM counts und Taktraten von den Blackwell GPUs überhaupt öffentlich? Bzw, gibts Gerüchte dazu?

basix
2025-03-19, 14:16:20
Ist das jetzt eine TSMC Folie oder eine von NV?

Wie relevant ist das hinsichtlich meiner Aussage, dass sowas auch Rubin Ultra klein aussehen lässt oder besser gesagt lassen wird? ;)

Nightspider
2025-03-19, 14:28:42
In welchem Node wird die CPU gefertigt?

basix
2025-03-19, 14:41:18
In welchem Node wird die CPU gefertigt?
Ist noch nicht bekannt.

AffenJack
2025-03-19, 17:24:27
Ist noch nicht bekannt.

Dürfte aber mit Sicherheit irgendeine Abwandlung von N3 werden, so wie Rubin auch.

Cerebras macht was ganz anderes. Die haben nur SRAM (kein HBM) und ein deutlich schmalbandigeres Anwendungsfeld.

System-on-Wafer ist wie Rubin Ultra, nur halt mit einem Interposer mit der Grösse eines Wafers. Und Networking / Co-Packaged Optics vermutlich gleich mit auf dem Wafer:

https://images.anandtech.com/doci/21372/tsmc-sow-cowos-evolution.png

Interessant ist, dass es den Interposer für Rubin Ultra angekündigt bisher nirgends in der Art gab. Denn wie die Folie ja auch zeigt, ging es eigentlich immer um größere Quadratische Interposer. Aber Rubin Ultra soll rechteckig mit 16 HBM sein. Nochmal ne andere Cowos ausbaustufe oder ist Cowos so flexibel?

Abseits davon, damit das konkurenzfähig wird für Nvidia müsste man den HBM unter den Chip stapeln. An den Seiten ist zu wenig Bandbreite und oben drauf fackelt der HBM ab.

Nightspider
2025-03-19, 21:05:54
Mir fiel heute bei den Slides auch auf das Nvidia bisher nur in die Breite geht und nicht in die Höhe wie bei MI300, was sicherlich auch an den viel höheren Stückzahlen bei Nvidia liegt.

Das könnte vielleicht ein Vorteil des kleineren AMD sein, das man vielleicht nicht nur beim vertikalen Stacking etwas weiter sein könnte, sondern auch nicht diese gigantischen Stückzahlen liefern muss und daher eher auf "mehr stacking" setzen kann.

MI355X und MI400 werden sicherlich interessant. Bin gespannt ob AMD Nvidia schlagen wird.

basix
2025-03-19, 21:37:48
Der Rack-Aufbau "Kyber" für Rubin Ultra ist sehr interessant und smart:
https://www.computerbase.de/news/grafikkarten/nvidia-kyber-ein-dgx-superpod-komprimiert-auf-nur-noch-ein-rack.91820/

Hierbei kommen die GPUs von vorne ins Rack und die NVLink Switches von der Rückseite her:
-> Compute Blade - Midplane PCB - NVLink Switch Blade

Dadurch kann man alle NVLink Kabel gegen ein Interface-PCB ersetzen und verkürzt auch die Signalwege aufs Minimum. Dadurch dürfte man NVLink nochmals stark beschleunigen können und kann die Kablerei weglassen.

Erstaunlich ist auch, wie weit das bereits fortgeschritten ist. Das sieht nicht nur nach einem Mockup aus. Hier ist das System-Engineering schon in vollem Gange.

Und hat uns Nvidia noch nicht alles gezeigt?
Zähle ich richtig, kann man 4*18x Compute-Blades mit je 4x GPUs verbauen. Das wäre bei einer Vollpopulation von Rubin Ultra NVL1152 und nicht NVL576.

AffenJack
2025-03-20, 07:53:03
MI355X und MI400 werden sicherlich interessant. Bin gespannt ob AMD Nvidia schlagen wird.

Als Single Chip bis vielleicht 8 GPUs durchaus möglich. Nvidias fast Monopol wird aber auch die nächsten Jahre bleiben wegen Nvlink und den Racks wie Kyber. Erst wenn da wieder langsam Stillstand eintritt kann man von der Konkurrenz nach ~2 Jahren ein Aufschließen annehmen. Bis 2030 zweifelt daher auch niemand wirklich, dass Nvidia bei AI bei weitem vorne bleiben wird.

Zossel
2025-03-20, 08:25:50
Als Single Chip bis vielleicht 8 GPUs durchaus möglich. Nvidias fast Monopol wird aber auch die nächsten Jahre bleiben wegen Nvlink und den Racks wie Kyber. Erst wenn da wieder langsam Stillstand eintritt kann man von der Konkurrenz nach ~2 Jahren ein Aufschließen annehmen. Bis 2030 zweifelt daher auch niemand wirklich, dass Nvidia bei AI bei weitem vorne bleiben wird.

Oder NV wird an der mangelhaften Diversifizierung ihrer Produkte zugrunde gehen.

basix
2025-03-24, 13:29:51
Ich habe mal grob über die zukünftige Roadmap nachgedacht. Die Steigerung zwischen Blackwell und Rubin Ultra könnte sich in allen Dimensionen wiederholen. Also 2024 -> 2027 -> 2030. Das wäre ziemlich beeindruckend.

Blackwell (2024, NVL72) -> Rubin Ultra (2027, NVL576) = ~20x FP4-FLOPS, ~10x HBM-Bandbreite, ~10x HBM/LPDDRx Speichermenge, 4x CPU/NVLink Bandbreite
NVL576 ~500...600kW / Rack -> 4x von NVL72
In nur 3 Jahren eine ordentliche Scale-Up Steigerung pro Rack
Rubin Ultra (2027, NVL576) -> XY Feynman Next (~2030, ~NVL3456, 3D-Stacking, System-on-Wafer) = ~20x FP4-FLOPS, ~10x HBM-Bandbreite, ~10x HBM/LPDDRx Speichermenge, 4x NVLink Bandbreite, CPU auf Wafer integriert
Skalierungen im Rack (6x total): 2x vom Platz beim Kyber-Rack ist von NVL576 noch nicht besetzt; 2x wenn man auf System-on-Wafer setzt (NVLink Switches auf der Rückseite des Racks fallen weg), 1.5x System-on-Wafer (mehr Platz)
Speichermenge / Bandbreite steigt um ~1.5x pro Stack/Channel (verglichen mit NVL576), was technologisch gut realistisch ist
FLOPS usw. werden von neuen Process Nodes sowie 3D-Stacking begünstig (aber hauptsächlich verbaut man einfach mehr Silizium pro Rack)
NVL3456 ~3MW / Rack -> 5x von NVL576


Das wäre pro Server-Rack gesehen ~100x Bandbreite/Speichermenge und ~400x FP4-FLOPS innerhalb von nur 6 Jahren. Und Blackwell hat mit NVL72 bereits einen grossen Verdichtungs-Sprung gegenüber Hopper hingelegt. Dazu "nur" 16x NVLink-Bandbreite, was man aber durch die grössere Aggregierung (24x vs. 2x GPUs pro "Package") und SW-Architektur kompensieren kann. Der Energiverbrauch pro Rack steigt aber auch um ~25x. Insgesamt wär das schon eine enorme Verdichtung des Systems. Mit 16x Server-Cabinets bereits einen 50MW Server-Cluster bauen wäre fast schon wahnsinnig.

AffenJack
2025-03-24, 18:51:13
Ich glaube nicht, dass man noch viel extremer pro Rack werden kann. Irgendwo ist auch die Grenze, an der du für die Kühlung mehr Energie verbrauchst, als dass du durch das Verdichten gewinnst. Irgendwo hab ich gelesen, dasss die Firmen bis zu 1 MW noch als machbar sehen, dann ist schicht. Ich weiß schon bei 600KW nicht, wie man das überhaupt ordentlich weggekühlt kriegt.

Mal erstmal zu Rubin an sich. Nvidia behauptet 3,3x FP4 und FP8. Das gibt 3nm nicht her. Also was stellt man an? Nachdem FP64 praktisch rausgeflogen ist bei Blackwell und FP32 recht langsam, diesmal FP32 so beschränken wie FP64 und zusätzlich TF32 entfernen?

basix
2025-03-24, 19:28:02
Ich denke das mit der Kühlung bekommt man schon in den Griff. Du kannst bei einem Auto auch 100...250kW wegkühlen und hast einen viel kleineren Radiator (bei Datacenter kannst du das viel grösser skalieren). Das grösste Problem wird vermutlich die Wärmeabtransport-Geschwindigkeit sein aber wenn man konstant kaltem Wasser am Inlet antraben kann, wieso sollte das nicht machbar sein?

Dein Design muss einfach sicherstellen, dass es nirgends zum Hitzestau kommt.

AffenJack
2025-03-25, 00:07:00
Ein Auto macht als Vergleich kein Sinn, du hast ganz andere Temperaturdeltas, der Großteil geht in Form von heißen Abgasen weiter usw.

Ich glaube dir ist nicht ganz klar, was für einen Kühlaufwand das bedeutet.
Sowas hier sind die Kühlungen für 100KW pro Rack:

https://www.heise.de/news/1-Megawatt-Kuehlsystem-fuer-stromdurstige-KI-Server-9730334.html

Zossel
2025-03-25, 08:02:07
Ein Auto macht als Vergleich kein Sinn, du hast ganz andere Temperaturdeltas, der Großteil geht in Form von heißen Abgasen weiter usw.

Ich glaube dir ist nicht ganz klar, was für einen Kühlaufwand das bedeutet.
Sowas hier sind die Kühlungen für 100KW pro Rack:

https://www.heise.de/news/1-Megawatt-Kuehlsystem-fuer-stromdurstige-KI-Server-9730334.html
Etwas Physik und Rechnen verdeutlicht auch die Dimensionen in der bewährten Einheit Badewannen pro Sekunde:

Pro Sekunde fallen ~2,8KWh Wärme an:

$ python3 -c "print (10E6 / 60 / 60)"
2777.777777777778
$

Um 1m³ Wasser um 1 Kelvin zu erwärmen braucht man 1,16 KWh.
Für ein Temperaturdelta von 1 Kelvin braucht man also ~2,4m³/Sekunde oder ~16 Badewannen/Sekunde:

$ python3 -c "print ((10E6 / 60 / 60) / 1.16E3)"
2.3946360153256707
$ python3 -c "print (((10E6 / 60 / 60) / 1.16E3) / 0.15)"
15.96424010217114
$

Entsprechend bräuchte man für ein Temperaturdelta von 10 Kelvin ~0,24m³/Sekunde oder ~1,6 Badewannen/Sekunde.

Skysnake
2025-03-25, 08:23:23
Wobei du jetzt mit 10MW Leistung gerechnet hast. Für 2.8kWh pro Sekunde! Brauch man 10MW. Wir reden von 1 MW. Man braucht also 0.1 Badewannen pro Sekunde 😉

Dad ist absolut machbar.

Zossel
2025-03-25, 08:56:32
Wobei du jetzt mit 10MW Leistung gerechnet hast. Für 2.8kWh pro Sekunde! Brauch man 10MW. Wir reden von 1 MW. Man braucht also 0.1 Badewannen pro Sekunde ��

Dad ist absolut machbar.

Grrmll, ich setze immer noch zu gerne "10**6" bzw. "10^6" mit "10E6" gleich. Das nächste mal rechne ich in Saarländern pro Stunde :-)

basix
2025-03-25, 09:06:21
Ich glaube dir ist nicht ganz klar, was für einen Kühlaufwand das bedeutet.
Sowas hier sind die Kühlungen für 100KW pro Rack:


100kW sind sehr viel, 1MW nochmals deutlich mehr. Mir ist da schon klar, dass es nicht ohne Engineering und Innovationen gehen wird. Aber der Trend ist eindeutig da und die Nachfrage ebenfalls. Entsprechend wird dort Geld in die Entwicklung gesteckt. Deutlich mehr Geld, als in der Vergangenheit. Und wir reden hier von Systemen, welche erst in ~4...5 Jahren am Markt ankommen werden, da ist also auch noch etwas Zeit für Lern- und Optimierungsprozesse vorhanden ;)

Ich sehe das ein wenig so:
Ist die Nachfrage und das Geld da, dann wird mehr in entsprechendes R&D investiert (es gibt ja Kunden/Abnehmer). Und dann geht meistens deutlich mehr als man denkt ;)

Zossel
2025-03-25, 09:57:11
100kW sind sehr viel, 1MW nochmals deutlich mehr.

Was für eine Aussage!

basix
2025-03-25, 11:19:05
Danke, das hat mich einiges an mentaler Kapazität gekostet ;)

davidzo
2025-03-25, 13:18:43
Dad ist absolut machbar.

Eine volle Badewanne alle sechs-ein-viertel-Sekunden?

Das heißt eine typische Motorspritze der Feuerwehr kann viereinhalb Racks kühlen, die größeren sogar 9 Racks pro Pumpe.
Solche Pumpen sind aber nicht gerade zierlich, weder als Traggestell, Anhänger noch im Löschfahrzeug. Das visualisiert aber etwas wieviel Pumpe auf wieviel Rack kommt und den optimalen Leitungsdurchmesser. Jedes fünfte Rack ist also so eine Pumpeneinheit und da sind die Wärmetauscher noch gar nicht eingerechnet. Die sind nochmal viel viel größer.

basix
2025-03-25, 14:47:07
Eine Feuerwehrpumpe braucht aber zusätzlich viel Druck. Da geht es nicht nur um Wassermengen.

Schaut euch das Kyber-Rack an:
- 1x Hälfte sind die GPUs usw.
- 1x Hälfte ist (vermutlich) Power Supply und Kühlungsinfrastruktur ("Side Car")

Da gibt es also vermutlich ein 1-zu-1 Matching von Compute und Power/Kühlung (und vielleicht etwas Storage im "Side Car"). Die Wärmetauscher befinden sich zudem eh nicht unmittelbar im Server-Raum.

https://pics.computerbase.de/1/1/6/5/5/9-d5482ecbfd1be66c/19-2160.33f08f9b.jpg

AffenJack
2025-03-25, 15:34:37
Eine Feuerwehrpumpe braucht aber zusätzlich viel Druck. Da geht es nicht nur um Wassermengen.


Den brauchst du hier genauso, du dürftest sogar deutlich mehr Druck brauchen als für ne Feuerwehrpumpe. Der Strömungswiderstand durch die verwinkelten kleinen Rohre und geringen Durchmesser wird in Menge nen deutlich höheren Druck brauchen als so ein relativ geradliniger Schlauch der Feuerwehr.

basix
2025-03-25, 15:47:07
Kommt drauf an, wie parallelisiert du das bei Kyber gestalten kannst. Das Rohrsystem wird sicher stark parallelisiert sein um eben genau die Druck-Anforderungen im Rahmen zu halten. Du willst sicher nicht 10-20bar in deinem Kühlsystem haben.

HOT
2025-06-16, 09:09:02
https://www.techpowerup.com/338048/next-gen-hbm4-to-hbm8-toward-multi-terabyte-memory-on-15-000-w-accelerators

Dank HBM-Roadmap:

Rubin 2026
Feynman 2029 (jetzt richtig :D)

Badesalz
2025-06-16, 09:40:39
Wow. Ok. Ab HBM5 nur noch immersion cooling (Tauchbad), ab 2035 nur noch embedded (durch den Chip).

Spannend. Ich bin gespannt was für Filterung und Reinheitsgrade (Partikel) man bei den Flüssigkeiten für embedded cooling braucht. Und wie man das einhält :freak:

ChaosTM
2025-06-16, 10:04:08
https://www.techpowerup.com/338048/next-gen-hbm4-to-hbm8-toward-multi-terabyte-memory-on-15-000-w-accelerators

Dank HBM-Roadmap:

Rubin 2026
Fayman 2029



Feynman aber egal. :) (klugscheißer Modus-off)

Troyan
2025-09-09, 19:59:51
Datenbank-Rubin wird auch zwei Chips bestehen. nVidia hat heute CPX für Inference vorgestellt: https://nvidianews.nvidia.com/news/nvidia-unveils-rubin-cpx-a-new-class-of-gpu-designed-for-massive-context-inference

Monolith-Chip mit 30 PF FP4 Leistung und 128GB GDDR7 Speicher.

AffenJack
2025-09-09, 20:49:08
Datenbank-Rubin wird auch zwei Chips bestehen. nVidia hat heute CPX für Inference vorgestellt: https://nvidianews.nvidia.com/news/nvidia-unveils-rubin-cpx-a-new-class-of-gpu-designed-for-massive-context-inference

Monolith-Chip mit 30 PF FP4 Leistung und 128GB GDDR7 Speicher.

Die große Frage ist, extra Chip? Oder evtl einfach nur GR102 im Server drin?

horn 12
2025-09-09, 22:24:38
Dann kommen wirklich die Super 5000-er Karten
und diese werden die Zeit bis Anfang 2027 überbrücken müssen
bis Rubin Desktop spruchreif wird

basix
2025-09-09, 22:41:47
Die große Frage ist, extra Chip? Oder evtl einfach nur GR102 im Server drin?

Das wäre ein riesen Tensor Core Scale Up der Gaming GPUs.

Aus der Pressemitteilung:
NVIDIA Rubin CPX is expected to be available at the end of 2026.
Könnte also schon der Gaming Chip sein. Würde auch zu Nvidias Strategie "AI Everything" passen. Aber irgendwie glaube ich da noch nicht dran. 30 PFLOPS FP4 sind 8x mehr wie eine RTX 5090. Das Schaubild sieht nach 192 SM aus. Wären also 8x fettere Tensor Cores als bei Gaming-Blackwell (damit würde man mit ~2.5 GHz die 30 PFLOPS FP4 erreichen).

dildo4u
2025-09-10, 05:25:14
Ich dachte die Server haben keine RT Cores?

basix
2025-09-10, 09:17:06
Wie kommst du auf RT Cores? In der Pressemitteilung steht nichts davon. Es geht ja mehr um die Frage, ob Nvidia den Gaming-Chip für eine andere Anwendung wiederverwertet. Dann wären zwangsläufing RT-Cores im Server verbaut, aber dann wohl unbenutzt / salvaged.

Ich habe mal die Die Shots verglichen (oder besser gesagt Nvidias Visualisierungen davon): Rubin CPX sieht mir sehr stark nach einer Gaming GPU aus.

AD102:
https://www.comptoir-hardware.com/images/stories/articles/gpu/ada_lovelace/ad102_die.jpg

GB202:
https://www.nvidia.com/de-de/geforce/graphics-cards/50-series/50-series-reference-module/_jcr_content/root/responsivegrid/nv_container/nv_container/nv_image.coreimg.100.1070.jpeg/1736171536268/geforce-rtx-50-series-architecture-ari.jpeg

Rubin CPX:
https://pics.computerbase.de/1/1/9/2/4/1-31eef9d6a8e0081f/article-1280x720.8ba47de9.jpg

H100
https://cdn.mos.cms.futurecdn.net/aet3KurpvhSKoRZMjPtZd4-970-80.jpg.webp

B100
https://developer-blogs.nvidia.com/wp-content/uploads/2025/08/Blackwell-Ultra-GPU-chip-png.webp

AffenJack
2025-09-10, 09:50:00
Das wäre ein riesen Tensor Core Scale Up der Gaming GPUs.

Aus der Pressemitteilung:

Könnte also schon der Gaming Chip sein. Würde auch zu Nvidias Strategie "AI Everything" passen. Aber irgendwie glaube ich da noch nicht dran. 30 PFLOPS FP4 sind 8x mehr wie eine RTX 5090. Das Schaubild sieht nach 192 SM aus. Wären also 8x fettere Tensor Cores als bei Gaming-Blackwell (damit würde man mit ~2.5 GHz die 30 PFLOPS FP4 erreichen).

Hast recht, in meinen Kopf hatte Datacenter Blackwell nur 2x soviel FP4 wie die 5090, aber der Unterschied ist ja größer. Dann macht nur ein seperater Chip Sinn.

horn 12
2025-09-10, 09:50:21
Dann wäre AMD in etwa 1 bis max. 2 Quartale später dran als NV
wenn es wirklich Gamer Chips sind.
Wenn alles komplett rundlaufen würde,- vielleicht fast zeitgleich wie die aktuelle Generation!

Leonidas
2025-09-10, 10:13:47
Die große Frage ist, extra Chip? Oder evtl einfach nur GR102 im Server drin?

Wegen des GDDR7-Interfaces ziemlich sicher extra Chip. Sieht sogar eher einem Consumer-Chip ähnlich:
https://www.3dcenter.org/news/news-des-9-september-2025

basix
2025-09-10, 11:54:34
AffenJack hat mit GR102 den Gaming-Chip gemeint (vielleicht heisst der auch GR202).

Vom Chip-Aufbau her sieht es schon stark nach einer Gaming-GPU aus.

AffenJack
2025-09-10, 12:00:39
AffenJack hat mit GR102 den Gaming-Chip gemeint (vielleicht heisst der auch GR202).

Vom Chip-Aufbau her sieht es schon stark nach einer Gaming-GPU aus.

Auf diese Schaubildchen würde ich jetzt nicht zu viel wert legen. Wer weiß, was das am Ende ist.

basix
2025-09-10, 12:17:16
Klar, ist nur ein Schaubildchen und die GPU kann anders aussehen. Aber der generelle Aufbau ist extrem nah an GB202 (wenn die GPU dann effektiv so aussehen wird).
- 192 SM (gleich viele wie bei GB202, HPC Accelerators haben weniger und dafür fettere SM)
- 1x L2$-Block in der Mitte (wie bei GB202 und AD102, HPC Accelerators haben 2x Blöcke)
- So wie es eingezeichent ist 128 MByte L2$ (wie GB202)
- 512bit GDDR7 Speicherinterface (wie GB202)
- 4x Video Encoder / Decoder (gleich wie bei GB202 auf der RTX Pro 6000)

Nvidia kann es sich aber leisten, bei Rubin CPX einen separaten Chip aufzulegen. Lustigerweise nennt Jensen RTX in der Pressemitteilung. Vielleicht wird aus der RTX 6090 eine "CPX 6090" :D
“Just as RTX revolutionized graphics and physical AI, Rubin CPX is the first CUDA GPU purpose-built for massive-context AI, where models reason across millions of tokens of knowledge at once.”

davidzo
2025-09-10, 15:50:28
Vieleicht ist GR202 einfach nur ein Dieshrink auf 3nm von GB202, mit 8x mehr Tensorcores pro SM.

Was die aufgebohrten Tensor cores angeht hatte ich im Blackwell Fred schon bemerkt dass der AGX Thor anscheinend die vier oder gar achtfache Tensor core Leistung pro SM hat wie Gaming Blackwell. Vielleicht war der AGX Thor SOC die Prüfung für den Ernstfall bei Rubin CPX.

basix
2025-09-10, 20:19:01
Sie sagen explizit, dass es die selbe Rubin Architektur ist. Also entweder ist es GR202 in "richtig" (also kein pimped Blackwell) oder es ist wirklich ein separater Chip.

davidzo
2025-09-10, 20:47:21
Sie sagen explizit, dass es die selbe Rubin Architektur ist. Also entweder ist es GR202 in "richtig" (also kein pimped Blackwell) oder es ist wirklich ein separater Chip.

Schon richtig, Blackwell heißt ja auch Blackwell obwohl es nur marginale Unterschiede zu Ada gibt abseits GDDR7 und TSMC N5. Das ist eigentlich auch nur pimped/shrinked Lovelace.

Ich denke natürlich nicht dass CPX ein Blackwell Chip ist, aber die Möglichkeit dass sich Rubin architektonisch kaum von Blackwell unterscheidet ist doch trotzdem gegeben. Maxwell und Pascal haben sich von der Architektur auch kaum unterschieden und die Neuerungsrate in der GPUwelt hat seitdem eh drastisch abgenommen.

Zudem ist eine Generation eben auch nicht gleich immer die gleiche Architektur. Volta und Turing oder Hopper und Ada hat nvidia getrennt benannt, aber bei Blackwell teilt man sich den Namen obwohl die Datacenter GPUs grundverschieden sind.

Leonidas
2025-09-12, 09:27:59
Sie sagen explizit, dass es die selbe Rubin Architektur ist.

Darauf würde ich nichts geben. Wenn es nur ein Die-Shrink wäre und NV davor steht, das Kind öffentlich zu benennen - warum sollten sie es nicht "Rubin" nennen, wenn es keinerlei Vergleich gibt und es nur zusammen mit Rubin eingesetzt wird?

Das bedeutet nicht, dass es Blackwell 3nm ist. Es bedeutet, die Möglichkeit existiert weiterhin.

PS: annotated Die-Shot
https://x.com/highyieldYT/status/1965776248225050766

basix
2025-09-12, 12:04:14
Rubin wird ein paar Features haben, die Blackwell nicht hat. Deswegen kann es mMn kein Die Shrink von Blackwell sein und man nennt es trotzdem Rubin. Das macht für mich einfach keinen Sinn. Und Release erst Ende 2026 und immer noch Blackwell? Macht auch keinen Sinn ;) Hier geht es nicht nur um das Scale-Up von den Tensor Cores sowie Transformer Attention (TeraExponentials/sec -> siehe Blackwell Ultra). Es geht um ISA Features, neue Sub-Accelerators usw. die Blackwell einfach nicht hat.

Es ist klar, dass Rubin grosse Ähnlichkeiten mit Blackwell haben wird. Es einfach Blackwell+ zu nennen ist aber wohl auch nicht richtig.

basix
2025-09-12, 20:20:24
Etwas in die Richtung wie PIM für Feynman?
https://www.semicone.com/article-275.html
Recently, NVIDIA has been reported to be entering the HBM (High Bandwidth Memory) Base Die market, a move that has garnered significant attention within the industry. It is understood that NVIDIA has initiated the design plan for its own HBM Base Die. In the future, regardless of which memory brand's HBM stack product it is paired with, the underlying logic die (Base Die) will adopt NVIDIA's proprietary design solution, with the process node locked at 3nm. NVIDIA is expected to begin trial production in small quantities in the second half of 2027.

basix
2025-09-15, 13:24:32
Ein paar Gedanken meinerseits zu Rubin CPX anhand der News vom 12. September (https://www.3dcenter.org/news/news-des-12-september-2025):
https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13812406#post13812406

Hier ein 1-zu-1 Re-Post:
Ob GR202 nur wenig auf GB202 drauflegt hängt von vielen Faktoren ab:

IPC? z.B. wie schlagen die 1.33x ROPs durch? Mit so stark erhöhter Tensor-Core Performance sowie HPC Use-Case wird man TMEM (Tensor Memory), TMA (Tensor Memory Accelerator) sowie vermutlich verdoppelten L1-Cache (256kByte anstatt 128kByte) einführen. Insbesondere ein grösserer L1$ würde auch für Gaming und Raytracing von Vorteil sein
Takt? N3P dürfte gut was bringen
Doppelt so breite SM (Vektor-Units)? Nicht sehr wahrscheinlich, in N3P aber evtl. machbar

Ich würde da noch nicht viel reinlesen, auch wenn die Anzahl SMs nicht steigen sollte und der Fokus KI nochmals verstärkt wird. So Dinge wie DLSS (SR, FG, RR) dürften mit erhöhter Inferencing-Performance auch beschleunigt werden. Aber wenn man noch weiter schaut kommt mit Neural Rendering in der Tat noch deutlich mehr auf uns zu, wo primär KI relevant ist (NTC, NRC, GATE, ...) und nicht FP32 Vektor-FLOPS.

Dass man 16 Raster-Engines verbaut, hat mMn schon einen Gaming Chip zum Ziel. Evtl. nicht primär, aber man kann darauf Spielen. Rasterizer braucht es wegen folgendem Thema: 2D/3D Gaussian-Splatting. Mehr Rasterizer heisst mehr Acceleration :)

Nvidia integriert mMn vermutlich neu Gaussian-Splatting Acceleration in ihren Rasterizer https://research.nvidia.com/publication/2025-06_gaurast-enhancing-gpu-triangle-rasterizers-accelerate-3d-gaussian-splatting
Intel Paper, welches 2D-Gaussian Splatting enorm vorwärts bringt https://www.sdiolatz.info/publications/00ImageGS.html
Allgemein werden sehr viele Paper rund um Gaussian-Splatting veröffentlicht
Hat man hier einen Chip mit Gaussian-Splatting Acceleration, gäbe das nochmals einen enormen Schub in Richtung Neural Rendering (wo Nvidia eh hin will)


Man muss sich schon im Hinterkopf behalten, dass insbesondere der grösste Gaming-Chip auch viele professionelle Anwendungen abdecken wird und eine Erweiterung der Tensor-Cores eine relativ kleine Sache ist, verglichen mit dem restlichen Chipdesign.

ML/AI (lokal oder PCIe Server)
ML/AI (NVLxxx HPC)
Render-Farmen (Pathtracing)
Neural Rendering generell (z.B. 2D/3D Gaussian-Splatting)
CAD & Workstations
Mit Ozaki Scheme 1/2 könnte man evtl. sogar Scientific Computing massiv beschleunigen (FP64 DGEMM Emulation via INT8 Tensor Cores). Nvidia baut gerade Libraries dafür: https://developer.nvidia.com/blog/nvidia-top500-supercomputers-isc-2025/#tensor_cores_for_science%C2%A0. Sehr interessant für alle, welche FP64 benötigen aber CPUs zu langsam & teuer sind und sich auch A100/H100/B100/R100 mit HBM nicht leisten können.
Robotics
AR/VR/Digital-Twin Visualization
...
Last but not least Gaming Top Dog als einer der vielen Use Cases


Edit:
Ach ja, bei ~2.5 GHz und der Tensor-Core-Breite von Datacenter Blackwell (20 PFLOPS FP4 bei 148 SM und ~2.1 GHz Takt) erreicht man ziemlich genau 30 PFLOPS FP4 (1.5x von B200). Da haben wir also schon mal die Blaupause für den SM-Aufbau (Tensor-Core Breite und Caches). Evtl. sind die 2.5 / 2.1 GHz Takt auch ein Indiz für die Taktratensteigerung beim Gaming Chip (~1.2x).

Noch ein Auszug aus dem Gaussian Splatting Paper (GauRast): https://research.nvidia.com/publication/2025-06_gaurast-enhancing-gpu-triangle-rasterizers-accelerate-3d-gaussian-splatting
Regarding computational resources, as highlighted in Table II, both processes primarily require multipliers and adders for their core tasks. This similarity allows us to introduce a reconfigurable datapath capable of supporting both triangle and Gaussian primitives with the same hardware resources. However, each primitive type has specific resource requirements: triangle rasterization requires a divider, while Gaussian rasterization necessitates an exponentiation unit.
Das heisst:
Sehr ähnlich wie normale Rasterisierung, aber zusätzliche EXP-Units werden benötigt.

Und jetzt ein allfällige Synergie:
Transformer Attention Mechanismen benötigen ebenfalls EXP-Units. Die wurden gerade erst bei Blackwell Ultra in den SFUs aufgebohrt (evtl. via Emulation) und Attention Mechanismen sollen bei Rubin CPX obendrauf nochmals 3x schneller werden.
Unterschied der SFU ist allerdings, dass die in den SMs sitzt. Im GauRast Paper ergänzen sie nur den Rasterizer und somit das Frontend des GPC und nicht die SMs. Aber es könnte dennoch eine Synergiewirkung zwischen Transformer Attention & Gaussian Rendering Beschleunigung geben.

basix
2025-09-15, 16:51:17
Völlig übersehen und doch vor aller Augen präsentiert:
Mit Vera Rubin NVL144 kommt ja der NVL72 Nachfolger raus. Bei der Rubin CPX Vorstellung nennen sie gegenüber GB300 nun 2.5x Bandbreite (https://www.hardwareluxx.de/index.php/news/hardware/grafikkarten/67015-nvidia-rubin-cpx-gr%C3%B6%C3%9Feres-kontext-fenster-f%C3%BCr-ki-anwendungen-der-zukunft.html) und nicht nur 1.6x von der News im März (https://www.computerbase.de/news/grafikkarten/blackwell-nachfolger-nvidia-gibt-ausblick-auf-rubin-ultra-und-feynman.91837/).

Anstatt 6.4 Gbps HBM4 verwenden sie also 10.0 Gbps HBM4. Das passt auch zu dieser News vom 12. September, dass SK Hynix bereits so schnelle HBM4-Stapel für Nvidia herstellen wird: https://www.computerbase.de/news/wirtschaft/hbm4-ist-fertig-sk-hynix-schickt-hbm4-mit-ueber-10-gbps-fuer-nvidia-in-serie.94304/

Badesalz
2025-09-15, 18:17:12
Anstatt 6.4 Gbps HBM4 verwenden sie also 10.0 Gbps HBM4.In dem verlinkten Schrieb von CB steht:
"Die JEDEC gibt für HBM4 eine Geschwindigkeit von mindestens 8 Gbps vor."

Was soll das für HBM4 gewesen sein, mit 6,4 Gbps?

basix
2025-09-15, 19:25:36
Sandbagging ;)

Aber generell:
Max. Speed pro Pin der JEDEC ist nicht zwingend gleich dem "normalen" Speed oder den ersten Produkten die produziert werden. Die ersten HBM4-Stapel wurden mit 6.4 Gbps angekündigt. In einer November 2024 News stand in der gleichen Tabelle noch 6.4 Gbps. Erst im April 2025 wurde das schneller gemacht (offizieller Release der JEDEC Spezifikation für HBM4) und Rubin wurde bereits im März 2025 vorgestellt ;)
https://www.computerbase.de/news/arbeitsspeicher/anfrage-bei-skhynix-nvidia-will-frueher-auf-hbm4-chips-mit-1-6-tb-s-setzen-koennen.90176/
https://www.computerbase.de/news/arbeitsspeicher/standard-veroeffentlicht-hbm4-ist-fertig-und-noch-etwas-schneller-geworden.92293/

Für LPDDR6 ist auch 17'033 MT/s angedacht aber die ersten Produkte werden kaum so schnell sein. ML/AI giert aber nach Bandbreite, deswegen pusht man dort deutlich mehr.

Badesalz
2025-09-15, 19:27:16
Sandbagging ;):ulol:

iamthebear
2025-09-17, 23:40:40
Klar, ist nur ein Schaubildchen und die GPU kann anders aussehen. Aber der generelle Aufbau ist extrem nah an GB202 (wenn die GPU dann effektiv so aussehen wird).
- 192 SM (gleich viele wie bei GB202, HPC Accelerators haben weniger und dafür fettere SM)
- 1x L2$-Block in der Mitte (wie bei GB202 und AD102, HPC Accelerators haben 2x Blöcke)
- So wie es eingezeichent ist 128 MByte L2$ (wie GB202)
- 512bit GDDR7 Speicherinterface (wie GB202)
- 4x Video Encoder / Decoder (gleich wie bei GB202 auf der RTX Pro 6000)

Nvidia kann es sich aber leisten, bei Rubin CPX einen separaten Chip aufzulegen. Lustigerweise nennt Jensen RTX in der Pressemitteilung. Vielleicht wird aus der RTX 6090 eine "CPX 6090" :D

Ich habe die Größen der einzelnen Teile mal grob überschlagen und mit AD102/GB202 verglichen.
Wenn das Ding in 3nm gefertigt ist, dann ist der Chip um die 650mm² groß und die SMs haben 50% mehr Transistoren als bei GB202.

Das sieht absolut nicht nach einem Gaming Chip aus. Das ist ein klassischer GH100/GB200 nur mit GDDR7 statt HBM.

Badesalz
2025-09-18, 08:30:02
Rubin 2kW, Rubin Ultra 4kW. Da fällt es mir zugegeben schon irgendwie schwer mich an der Technologie aufzugoilen :ulol:

y33H@
2025-09-18, 08:52:21
Die Frage ist ob die Effizienz steigt und nicht ob die absolute Leistungsaufnahme hoch geht.

The_Invisible
2025-09-18, 08:55:37
Ja wenn ich eine Karte mit 2kw habe die gleich schnell/schneller ist als 2 Karten mit 1,3kw hat man schon gewonnen. Zudem es in Rechenzentren auch auf Density ankommt.

Badesalz
2025-09-18, 09:06:12
Die Frage ist ob die Effizienz steigt und nicht ob die absolute Leistungsaufnahme hoch geht.Für Musk. Bei mir regt sich da kaum noch was bei den... Kennzahlen.

Wenn ich mich an HW aus weit fern von daheim erregen sollte - und die Effizienz - dann eher an Cerebras CS-3
https://venturebeat.com/ai/cerebras-just-announced-6-new-ai-datacenters-that-process-40m-tokens-per-second-and-it-could-be-bad-news-for-nvidia

Oder den Gerüchten über CS-4 :wink:

Ja wenn ich eine Karte mit 2kw habe Wirst DU aber nie. Das meine ich ;)

y33H@
2025-09-18, 09:19:40
Ja wenn ich eine Karte mit 2kw habe die gleich schnell/schneller ist als 2 Karten mit 1,3kw hat man schon gewonnen. Zudem es in Rechenzentren auch auf Density ankommt.
Eben - die meisten Datacenter sind limitiert was Platz und Energie anbelangt, von daher ist alles gut was die Effizienz und Dichte steigert - wir reden hier ja nicht von nem PC unterm Schreibtisch.

basix
2025-09-18, 12:07:04
Mit den neuen Racks (NVL72 und Co.) ist für die meisten Systeme eher die Energieversorgung zum Datencenter limitierend und nicht der Platzbedarf. Insbesondere bei bestehenden Gebäuden. Gibt auch entsprechende Talks dazu von Nvidia. Selbst Jensen sagt, dass man mittlerweile primär Energie-Limitiert ist.

Bei Neubauten ist Density sicher ein Thema, aber wohl auch nicht der wichtigste Faktor. Energieffizienz ist deutlich wichtiger.

Badesalz
2025-09-18, 12:29:17
Mit den neuen Racks (NVL72 und Co.) ist für die meisten Systeme eher die Energieversorgung zum Datencenter limitierend und nicht der Platzbedarf.Platzbedarf wird eh überbewertet :wink:
https://www.computerbase.de/news/wirtschaft/huawei-vs-nvidia-roadmap-mit-neuen-ascend-chips-eigenem-hbm-und-superpods.94371/

basix
2025-09-19, 10:39:09
Ein paar weitere Gedanken zu Gaming Rubin und potentiell massiv verbreiterten Tensor-Cores:
Danke für die Erwähnung im Artikel :)

Zum Performance-Sprung von "GR202" mit 192 SM folgend ein Gedankenspiel:

1.36x ROPs (240 vs. 176) + 2x L1$ = 1.3...1.4x Performance (IPC)
N3P = 1.2x Takt
176 SM anstatt 170 SM (-1 GPC, 3x 2 SM salvaged wie bei GB202) = 1.04x SMs


Das ist sehr oberflächlich gerechnet und wird nicht linear skalieren. Aber sowas könnte in 1.5...1.7x Performance einer 5090 münden. Das wäre ein ähnlicher Generationssprung wie 2080 Ti auf 3090. Und bestenfalls sogar so viel wie 3090 auf 4090. In beiden Fällen wäre es deutlich besser als 5090 auf 4090. Für eine neue Generation wäre das wohl gut genug.

Und dann noch das Thema DLSS Skalierungen, deswegen ein weiteres Rechenbeispiel:

Gaming GR202 würde in etwa 4...5x Tensor-Core FLOPS wie GB202 bieten. Ich gehe hier davon aus, das Rubin CPX alle Tensor Cores pro SM aktiv hat und Gaming GR202 nur die Hälfte. Gründe dafür sind Salvaging sowie Produktdifferenzierung zu Rubin CPX und RTX Pro
TMEM und TMA sowie der grössere L1$ helfen, damit die Tensore Core TFLOPS auch auf den Boden gebracht werden können
DLSS 4 FG skaliert mit ca. 1.75x bei 2x FG. Nehmen wir an, dass dies 100% von den Tensor Cores abhängt und wir 5x mehr Tensor Core Throughput haben, könnte die FG Skalierung auf 1.95x steigen. Das wären zusätzliche +10% Performance. Bei 4x MFG wäre es das doppelte, also 1.2x.
DLSS SR wird nur mässig schneller werden, da nur ein kleiner Teil ein DNN ist. Schneller werden wird es aber dennoch
DLSS Ray Reconstruction braucht relativ viel Tensor Core Power. Hier dürfte die Performance also auch gut steigen. Eine grobe Abschätzung von mir ist +10% (anhand dem, was ich von Nsight Traces von RR in Erinnerung habe)

Damit könnte DLSS um ~1.2x schneller werden, wenn man FG und RR nutzt. Benutzt man MFG könnten es sogar ~1.3x werden. Das zusammen mit ~1.5x Rohperformance-Steigerung und wir landen bei ~2.0x schneller für entsprechende FG und RR Use Cases. Die fetteren Tensor Cores könnten sich hier also lohnen ;) Mit dem fetten Disclaimer hier, dass das alles ein wenig schön gerechnet ist.

Neural Rendering:

TMEM und TMA (und auch der vergrösserte L1$) erlauben verbesserte parallele Ausführung von Matrix Operationen mit Vektor Operationen. Das ist ideal für Cooperative Vectors und einige Neural Rendering Techniken als auch DLSS
Neural Texture Compression, Neural Radiance Caching, Neural Materials usw. dürften sehr stark von einem Boost bei den Tensor Cores profitieren


Unter dem Strich:
Für mich macht ein massiver Ausbau der Tensor Cores bei den Gaming Chips sehr viel Sinn. Neben den reinen ML/AI Use Cases die man damit befeuern kann (Nvidias Fokus überall) liegt es auch perfekt in der Linie von Nvidias Strategie beim Gaming (Neural Rendering und DLSS).

y33H@
2025-09-19, 14:52:40
ROPs haben bei heutigen Workloads doch nicht so viel Einfluss auf die Fps?

basix
2025-09-19, 14:59:12
Blackwells ROP Debakel hat was anderes gezeigt ;)

w0mbat
2025-09-19, 15:01:11
ROPs haben bei heutigen Workloads doch nicht so viel Einfluss auf die Fps?
Ich wuerde sagen, GB202 ist eher ROP als Shader limitiert.

iamthebear
2025-09-21, 02:35:30
Ich denke nicht, dass der Performanceverlust viel mit dem ROPs zu tun hatte.
Vermutllich war da gleich ein halber GPC ungenutzt und die ROPs war nur das Einzige was sich auslesen lässt.

Würden 11% mehr ROPs wirklich 11% mehr Performance bringen so würde Nvidia viel mehr davon verbauen. Sind ja nicht so groß.

Nightspider
2025-09-21, 03:35:56
Ob Nvidia beim 1. Quartal (2027) bleibt für neue Grafikkarten oder wieder zum 4. Quartal (2026) zurückkehrt?

Meinungen?

y33H@
2025-09-21, 10:25:53
Du sprichst jez über Gaming?

Nightspider
2025-09-21, 18:06:24
Jepp

y33H@
2025-09-21, 18:12:06
Ich denke Q1'26 für Blackwell Super und Q1'27 für Rubin Gaming.

basix
2025-10-08, 14:55:22
Ich hatte gerade eine etwas absurd anmutende Einsicht, wenn die zukünftigen Systeme immer teurer werden (teurere Prozesse, Packaging, Kühlung, mehr Speicher, usw.):
- GB200 NVL72 kostet ~3...4 Mio. Dollar
- Stromverbauch ist 132kW
- 8x Racks kosten somit 24...32 Mio. Dollar bei ~1MW Verbrauch
- Stromkosten in den USA liegen bei ca. 0.2$/kWh
- Pro Jahr resultiert das in ~8.8 Mio. Dollar Stromkosten, ist also ein sehr relevanter Kostenpunkt (25...35% pro Jahr auf CAPEX gesehen)

Jetzt die Annahme, dass die CAPEX pro Megawatt um 5x steigt in den nächsten 10 Jahren:
- Aus den 24...32 Mio. werden 120...160 Mio. Dollar
- Stromkosten bleiben bei 8.8 Mio. Dollar stehen
- Stromkosten / CAPEX pro Jahr sinkt auf 5...7%, wird also irgendwann fast schon vernachlässigbar klein

Das würde dann in folgendem resultieren:
- GPUs und Accelerators werden zukünftig noch stärker gepusht (Taktraten geprügelt), da Stromkosten relativ gesehen zu CAPEX abnehmen
- Die HPC Industrie wäre fast nur noch CAPEX und Energiezulieferung (Kraftwerke, Stromnetz) limitiert. Die Betriebs- / Stromkosten nehmen an Relevanz ab
- Die Energieffizienz ist immer noch sehr wichtig, aber nicht mehr wegen Betriebskosten sondern primär wegen Limitierung der Energiezufuhr und somit maximal möglichen Performance (=Geldgewinne)
- Hätte jemand unbegrenzte Energiezufuhr, wäre man faktisch nur noch CAPEX limitiert

gHi
2025-10-08, 16:32:34
meinst du echt ein hyperscaler zahlt 0,2$/kWh, den "normalen" strompreis?
ich würd's nicht machen, bei den mengen und zugesichertem zeiträumen, bei 0,10 bis 0,12 wäre mein max. aber vielleicht macht das bei deiner betrachtung auch nicht so viel aus am ende.

basix
2025-10-08, 18:16:48
Klar, die Hyperscaler zahlen vermutlich weniger. Aber das tut meiner Betrachtung keinen Abbruch, dass die Stromkosten in Zukunft unbedeutender werden könnten (mit entsprechenden Konsequenzen).

Man kann es auch noch anders anschauen:
Länder mit hohen Stromkosten wie in Europa werden durch das attraktiver für einen HPC-Cluster Standort.

Leonidas
2025-10-13, 09:30:53
Hyperscaler in den USA sitzen gern dort, wo selbst das Landei nur $0.07 für den Strom zahlt - und dann bekommen die logischerweise nochmal einen besseren Preis. In anderen Bundesstaaten dürfte die Differenz zwischen Industrie- und Normalopreis dann schlicht steigen, aber dort wird sicherlich auch nicht wesentlich mehr gezahlt (bis die Normalos halt).

Dies ändert natürlich nix an der vorstehenden Grundaussage. Nicht umsonst denkt man über umfangreiche Kraftwerksausbauten zugunsten von Datenzentren und "KI-Fabriken" nach.

Badesalz
2025-10-13, 11:02:03
Hej hat Golem die Reißleine gezogen? Das ist erstmal wieder verlinkbar (?!) :rolleyes:

Wir auch mal garnicht dabei
https://www.golem.de/news/ausserhalb-von-deutschland-europa-bekommt-sechs-neue-ki-fabriken-2510-201052.html

Was die Aspekte angeht sollte man sich nicht komplett auf Strom konzentrieren
https://gi.de/meldung/gi-veroeffentlicht-studie-zum-wasserverbrauch-von-ki

dargo
2025-10-13, 18:48:32
Ob Nvidia beim 1. Quartal (2027) bleibt für neue Grafikkarten oder wieder zum 4. Quartal (2026) zurückkehrt?

Meinungen?
Paperlaunch Q1 2027.

HOT
2025-10-13, 21:14:49
Ich denk auch eher, das wird noch länger dauern. Ich rechne sowohl bei NV als auch bei AMD mit eher Ende 27, NV wahrscheinlich deutlich früher als AMD, aber beide sicherlich 2HJ 27.

Badesalz
2025-10-14, 07:05:43
Ich denk auch eher, das wird noch länger dauern. Hoffentlich nicht so lange wie DGX Spark :rolleyes:

Zossel
2025-10-14, 09:12:16
Hyperscaler in den USA sitzen gern dort, wo selbst das Landei nur $0.07 für den Strom zahlt - und dann bekommen die logischerweise nochmal einen besseren Preis. In anderen Bundesstaaten dürfte die Differenz zwischen Industrie- und Normalopreis dann schlicht steigen, aber dort wird sicherlich auch nicht wesentlich mehr gezahlt (bis die Normalos halt).

Dies ändert natürlich nix an der vorstehenden Grundaussage. Nicht umsonst denkt man über umfangreiche Kraftwerksausbauten zugunsten von Datenzentren und "KI-Fabriken" nach.
Die Kosten werden sozialisiert: https://www.youtube.com/watch?v=YN6BEUA4jNU
Und die Schäden durch Fracking (siehe auch die Nachfrage nach Gasturbinen: https://www.bloomberg.com/features/2025-bottlenecks-gas-turbines/ ) werden natürlich auch sozialisiert.
Und es würde mich wundern wenn die KI-Butzen selbst dafür sorgen das das Stromnetz stabil bleibt: https://www.datacenterdynamics.com/en/news/ai-data-centers-causing-distortions-in-us-power-grid-bloomberg/
Und Eisenschweine sind auch gerade knapp: https://www.golem.de/news/strom-fuer-rechenzentren-ki-boom-bringt-transformatorhersteller-ans-limit-2411-190506.html

Badesalz
2025-10-14, 09:36:22
Ich denk auch eher, das wird noch länger dauern. Ich rechne sowohl bei NV als auch bei AMD mit eher Ende 27, NV wahrscheinlich deutlich früher als AMD, aber beide sicherlich 2HJ 27.Soltle das wenigstesn bei AMD nicht schneller als früher gehen, nachdem die Radeons umgemoddete Instincts werden? :|

gnomi
2025-10-14, 11:51:56
2027 wird ein Hammerjahr.
Schätze nvidia vor AMD mit neuen GPU's.
Bin noch absolut unsicher, was ich mache.
Bislang wurde bald nur noch die GPU gewechselt.

Entsprechend ist der Rest im Gamer PC quasi alles vom Standard veraltet, wenn auch über Konsolen Niveau.
Plus es kommen neue Konsolen und alles wird noch mehr eine Art PC.
AMD hat mit der letzten GPU wieder respektabel Anschluss gefunden und stellt die neuen Konsolen Chips.
Nvidia setzt die technologischen und Software seitigen Standards mit großem Abstand. Aber es wird langsam bisschen teurer und egaler oben raus.
Da bin ich einfach gespannt, ob die wie die letzten 10-15 Jahre einfach jedes Mal noch so krass vorne sind, dass ich blind kaufe.
Könnte mir eine gelungene 6080 mit besser optimierten UE5 Titeln trotzdem jederzeit gut vorstellen erst einmal.
Der Sprung bei den 60er bis 80er Karten sollte gegenüber Blackwell und Ada halt da sein.

HOT
2025-10-14, 12:07:53
Soltle das wenigstesn bei AMD nicht schneller als früher gehen, nachdem die Radeons umgemoddete Instincts werden? :|
Glaub ich nicht dran, weil bei AMD die Konsole und die Mobilsachen Priorität haben werden. MMn wird es eher Medusa+AT3/4 und auch die XBox mit AT2 geben. MMn kommen die Desktop-Grafikkarten erst danach, gestartet durch den AT0-Launch für Desktop.

basix
2025-10-14, 12:11:09
AMD wäre es anzuraten, AT2 dGPU zusammen mit der Xbox zu bringen (Marketing und so). Der Chip ist ja da, validiert und bereits seit mehreren Monaten in der Fertigung. Da 10% der Produktionsmenge für dGPUs auf die Seite zu legen (Salvages gehören auch dazu) dürfte wohl nicht das Problem sein. Wir reden hier von einigen hundertaused Stück für den dGPU Markt, das dürfte initial mal ausreichen und viel besser sein als bei RDNA4 oder Blackwell Release. Da AT2 aufgrund der XBox sehr viel Vorlauf hätte, könnte das ein astreiner und sauberer Launch werden. Das hätte auch positive Rückmeldungen zur Folge (wieder: Marketing, Mindshare).

AT3 und AT4 dürften dann etwas später zusammen mit den neuen APUs kommen (Q1/2027; AT2 Q4/2026).

dildo4u
2025-10-14, 12:11:27
Ich tippe drauf das für die Konsolen die Kosten kritischer sind macht imo Sinn zu erst PC gamer zu melken die geben 600 € nur für die GPU aus.
Dass muss die ganze PS6 kosten.

HOT
2025-10-14, 14:41:02
Ihr glaubt doch nicht ernsthaft, dass wir noch mal unter 800€ für ne Konsole bekommen oder? Das ist Traumtänzerei aus meiner Sicht.

- PS6 -> 800$+Laufwerk
- XBox Magnus PC -> 1200$ minimum
- PS Handheld -> sicherlich runde 999$

Und nein, sie werden das auf keinen Fall gleichzeitig bringen, das gabs auch noch nie. Entweder bringt man die GPUs im März/April und die Konsole im September oder die Konsole im Sommer und die GPUs zum Jahresende, wobei AT0 ja kein Konsolenchip wäre und der deshalb früher erscheinen könnte.

Rubin, um zum Thema zurückzukommen, wird mMn den Zyklus dann auf 3 Jahre ausdehnen und im 2H 2027 erscheinen. Irgendwie muss NV die Margen ja erhöhen, wenn man nicht viel höhere Preise nehmen kann aber die Chips teurer werden. Ich würd im 1H 2027 nicht mit irgend einer diskreten GPU rechnen, es sei denn, Intel hat noch einen Pfeil im Köcher.

Badesalz
2025-10-14, 18:21:31
2027 wird ein Hammerjahr.Denke auch. Das erste Mal nach 14 Monaten wieder Sonnenlicht :uup: