nVidia Rubin (Nachfolger von Blackwell, möglicherweise rein HPC/AI, 2/3 nm, 2026) [Archiv] - Seite 2

Daredevil

2026-01-09, 14:15:37

Es geht langsam Richtung alle 3 Jahre eine neue GPU-Gen.
Meanwhile Apple YOY
https://s1.directupload.eu/images/260109/vqg8p63g.png

https://s1.directupload.eu/images/260109/xk3wji23.png

Cyberpunk2077
https://s1.directupload.eu/images/260109/v9in8p7c.png

Q:
Dave2D
Apfelwelt
Computerbase

Wenn AMD und Nvidia nicht wollen, das wir in 3-4 Jahren Cyberpunk aufm 5mm dicken iPad spielen, dann sollten sie da schon was entgegen werfen, weil Apples Pace sie sonst schneller einholt, als sie reagieren können. Und ich glaube Nvidia ist es sehr daran gelegen, ihre Marktmacht zu erhalten. Die wollen sie sicherlich nicht weiter pushen, aber Gaming ist ein profitabler Markt und den will man sich nicht wegnehmen lassen, nur geht es aufgrund des Speichers vermutlich nicht anders.

HOT

2026-01-09, 14:50:51

Und da isser wieder der totale OT-Apple-Schwachsinn... Wenn jetzt alle 3 Jahre eine GPU-Generation kommt werden natürlich auch endlich mal die Sprünge etwas größer, da man dann jedes Mal auf einen neuen Fertigungsprozess setzen kann.

Daredevil

2026-01-09, 14:59:48

Hat man ja bei Blackwell gesehen, dass sich die 3 Jahre Wartezeit gelohnt haben. :redface:
Die dickste und beste Fertigung wird am Ende natürlich nicht bei großen Consumer Produkten landen sondern dort, wo man dafür auch die Kohle zahlt und/oder wo man auch in Masse fertigen kann.

Ich glaube demnach nicht mal an einen Nachfolger in 2027, sondern an einen Margenstarken und kostengünstigen Refresh in 2026/2027, weil Nvidia bis dato schlicht nicht mehr nachziehen muss und der Bedarf der Karte nicht mehr nur nach Raw Power erzeugt wird, sondern ebenso nach Software, sowas woran sie tatsächlich arbeiten können.
DLSS5/6 und MFG 7-8-9 und Neural Shader sind alle irgendwo auf einer Blackwell möglich und erzeugen Bedarf, obwohl die Hardware immer noch die selbe ist.
There is no need for new Hardware, wenn Software nicht an ihre Grenzen gekommen ist. Das wird Nvidia freuen.

Hakim

2026-01-09, 15:17:56

ChaosTM

2026-01-09, 15:23:16

Wird nicht passieren.
10-15% für den etwas besseren Fertigungsprozess. Und das zum doppelten(?) Preis
Die Hardware ist am Ende.

The_Invisible

2026-01-09, 15:23:39

Meanwhile Apple YOY
https://s1.directupload.eu/images/260109/vqg8p63g.png

https://s1.directupload.eu/images/260109/xk3wji23.png

Cyberpunk2077
https://s1.directupload.eu/images/260109/v9in8p7c.png

Q:
Dave2D
Apfelwelt
Computerbase

Wenn AMD und Nvidia nicht wollen, das wir in 3-4 Jahren Cyberpunk aufm 5mm dicken iPad spielen, dann sollten sie da schon was entgegen werfen, weil Apples Pace sie sonst schneller einholt, als sie reagieren können. Und ich glaube Nvidia ist es sehr daran gelegen, ihre Marktmacht zu erhalten. Die wollen sie sicherlich nicht weiter pushen, aber Gaming ist ein profitabler Markt und den will man sich nicht wegnehmen lassen, nur geht es aufgrund des Speichers vermutlich nicht anders.

FSR1.0, der war echt gut :freak:

Daredevil

2026-01-09, 15:35:52

Vielleicht bringt die neue Fertigung doch einen größeren Sprung als es von Ada zu BW war. Software hin oder her, ich würde mir persönlich mehr rohpower wünschen, vor allem bei den Mittelklasse Karten, gefühlt tut sich da seit Generationen nichts
Jensen hat auf der Keynote gesagt, Rubin hat 60% mehr Transistoren und kann somit halt zu einem gewissen Teil auch nur so viel schneller sein.
Man verspricht aber in anderen Bereichen 3-5x Performance und die kommt dann eher vom drumherum, also CPU/Switches/Software/Cooling ect.

Beim Gaming ist es eigentlich ziemlich klar, AI Einheiten sind der "Quanten Computer" der GPUs. Mit KI bekommen man ein überdurchschnittliches Ergebnis, was den meisten reicht und muss unterdurchschnittlich viel Transistoren dafür einsetzen. Also ist der Fokus auf KI Leistung bedeutender und entscheidender als die reine Rohleistung.
Nvidia hat ja bereits Neural Shader in Blackwell integriert. Die Hardware für eine völlig neue Ebene an Spielen ist bereits gelegt, die Software fehlt schlicht noch.

5PHBXY0FI5o

Und das ist dann wirklich der Moment, wo eine 5060 gegen eine 4090 anstinkt. ^^

Nightspider

2026-01-09, 15:37:54

Echt übel was machen wir nur mit dem gesparten Geld? :(

Dumme Frage! Natürlich RAM kaufen. ;D

Ich glaube demnach nicht mal an einen Nachfolger in 2027, sondern an einen Margenstarken und kostengünstigen Refresh in 2026/2027, weil Nvidia bis dato schlicht nicht mehr nachziehen muss und der Bedarf der Karte nicht mehr nur nach Raw Power erzeugt wird, sondern ebenso nach Software, sowas woran sie tatsächlich arbeiten können.
DLSS5/6 und MFG 7-8-9 und Neural Shader sind alle irgendwo auf einer Blackwell möglich und erzeugen Bedarf, obwohl die Hardware immer noch die selbe ist.
There is no need for new Hardware, wenn Software nicht an ihre Grenzen gekommen ist. Das wird Nvidia freuen.

:ucrazy2:

Daredevil

2026-01-09, 15:45:28

davidzo

2026-01-09, 15:55:57

Rubin hat dennoch drei Vorteile: Speichermenge, Bandbreite, Interconnect (NVL144). Kommt dann wohl auf den Use Case an, wie gut sich H200 mit TFLOPS dagegen schlägt.

Wie kommt es eigentlich das Rubin plötzlich mit 22TB/s Speicherbandbreite launcht, dabei war in den früheren Folien noch von 13TB/s die rede?

Das Interface ist ja weiterhin 16.384bit, also 8 Stacks und das würde man auch nicht mal so eben ändern können ohne ein komplettes redesign.

AMD hat anfangs gedacht dass man mit einem 50% größeren 12 Stack SI für Mi400 Rubin bei der Bandbreite deutlich schlagen kann, liegt nun aber plötzlich mit 19,7gbps gar hinten.
Zudem sind diese 19,7gbps unter den ersten für HBM4 angekündigten speeds (8.0 Gbps per pin) sondern Takten bei AMD mit lediglich mit 6.4Gbps pro Pin, also wie bei altem HBM3 ohne e (9.6Gbps).

HBM4 sollte ja den Takt auch etwas zurücknehmen im Gegenzug für ein breiteres Interface das einen feineren Pitch zum Interposer hin benutzt. Daher auch die anvisierten 8.0 Gbps statt den 9.6 bei HBM3e.

Nvidia muss aber mit ihren 8 Stacks bei Rubin an HBM4 mit mindestens 11Gbps gekommen sein und auch ihr Interface kurzfristig so hoch takten können.

Kann es sein dass Nvidia hier den premium Nextgen HBM4 aufkauft um AMD eins auszuwischen?

Oder kann es sein dass AMD die Resterampe aufkauft an HBM4 und den deshalb so tief takten muss weil er nichtmal die geplanten 8.0Gbps erreicht?

Weil wenn beide den gleichen HBM4 verwenden, dann muss nvidia ja den heiligen Grahl beim PHY engineering gefunden haben wenn sich ihr SI fast doppelt so hoch takten lässt. Und der HBM4 mus das auch mit machen, womit AMD enorm viel auf dem teler lassen würde.

Meint ihr es gibt negative Auswirkungen auf den Energieverbraucht durch die hohen Speichertakte oder ist das breitere Interface da teurer? HBM ist ja generell als genügsam bei den joule pro bit bekannt, aber könnte es auch relevant für die gesamt-TDP des Chips werden wenn man den dermaßen hoch taktet?

Eines der wichtigsten features von HBM4 ist ja neben der verdoppelten Opinanzahl auch die abgesenkte Betriebssapannung von 0.7 -0.9V. ich kann mir aber schwer vorstellen dass man mit weniger Spannung gleichzeitig so einfach einen 15% Taktratengewinn gegenüber hochgezüchtetem HBM3e umsetzen kann.

HBM4 supports VDDQ options of 0.7V, 0.75V, 0.8V or 0.9V and VDDC of 1.0V or 1.05V. The lower voltage levels improve power efficiency.

ChaosTM

2026-01-09, 15:55:57

Jensen hat auf der Keynote gesagt, Rubin hat 60% mehr Transistoren und kann somit halt zu einem gewissen Teil auch nur so viel schneller sein.
Man verspricht aber in anderen Bereichen 3-5x Performance und die kommt dann eher vom drumherum, also CPU/Switches/Software/Cooling ect.

Beim Gaming ist es eigentlich ziemlich klar, AI Einheiten sind der "Quanten Computer" der GPUs. Mit KI bekommen man ein überdurchschnittliches Ergebnis, was den meisten reicht und muss unterdurchschnittlich viel Transistoren dafür einsetzen. Also ist der Fokus auf KI Leistung bedeutender und entscheidender als die reine Rohleistung.
Nvidia hat ja bereits Neural Shader in Blackwell integriert. Die Hardware für eine völlig neue Ebene an Spielen ist bereits gelegt, die Software fehlt schlicht noch.

https://youtu.be/5PHBXY0FI5o

Und das ist dann wirklich der Moment, wo eine 5060 gegen eine 4090 anstinkt. ^^

Jenson kann keine +60% Transistoren aus dem Hut oder aus seinem Herd zaubern, außer er verwendet Multicore.

MSABK

2026-01-09, 15:57:26

Echt übel was machen wir nur mit dem gesparten Geld? :(

Ein paar DXG Spark kaufen.;)

Nightspider

2026-01-09, 15:57:49

Ich weiß schon, das klingt abstrus. Solange wir sowas hier aber noch nicht in "real" gesehen haben, ist bei Blackwell noch einiges möglich, ohne einen einzigen Transistor zu bewegen, weil schlicht nur die Software fehlt. Gut, MFG von 19fps auf über 140fps klingt jetzt nicht sehr verlockend. :D
Nvidias Neural Shader sind aber Ballast, welcher die Karte seit Tag1 mitträgt und soweit ich weiß, werden die noch nicht genutzt, oder?

https://youtu.be/0_eGq38V1hk

Oder man klebt mehrere DIEs irgendwann auch mal im Consumer Segment zusammen, das wird dann aber nicht günstig. Geben tuts das ja durchaus.
Eine Techdemo zusammenschustern != reales, lagfreies Spiel mit riesiger Sichtweite und eventuell vielen Spielern / NPCs

Die 5090 kotzt jetzt schon in 4K Auflösungen mit DLAA. Alle Upscaling Methoden mit niedrigeren Renderauflösungen sehen auch schlechter aus.

Und die Fortschritte wie zB. von DLSS 4.5 würden den Kunden auch nicht so viel Geld aus der Tasche ziehen wie eine 6090.

Bezogen auf die Transistorzahl ist Blackwell aktuell eher ineffizient. Viele hätten jetzt lieber mehr Rohleistung und sind bereit mehr Geld auszugeben.
Das ganze KI Potential wird doch erst nach Jahren erst ausgereizt.
Jetzt wird gerade mal die 4090 langsam ausgereizt beim AI Potential nach 3 Jahren.

Platos

2026-01-09, 16:41:54

Wir können eine gewisse Strukturbreite einfach nicht mehr unterschreiten, weil Atome leider ziemlich groß sind.
#
Ähnliches trifft auf die Lichtgeschwindigkeit zu. Wer hat sich diesen Unsinn ausgedacht?

Atomgrössen sind hier nicht das Problem, davon sind wir noch weit entfernt. Also die Atome, die da genutzt werden zumindest. Die Prozessnamen sind nur Marketing.

dargo

2026-01-09, 17:36:59

Und das ist dann wirklich der Moment, wo eine 5060 gegen eine 4090 anstinkt. ^^
Na klar, vor allem mit ihren 8GB. :lol:

Daredevil

2026-01-09, 17:42:37

Na klar, vor allem mit ihren 8GB. :lol:
Neural Texture Compression. :)

Nvidia describes the whole thing using the term 'Inference on Sample,' and the results are impressive, to say the least. Without any form of compression, the texture memory footprint in the demo is 272 MB. With RTXNTC in full swing, that reduces to a mere 11.37 MB.

The whole process of sampling and decoding is pretty fast. It's not quite as fast as normal texture sampling and filtering, though. At 1080p, the non-NTC setup runs at 2,466 fps but this drops to 2,088 fps with Interfence on Sample. Stepping the resolution up to 4K the performance figures are 930 and 760 fps, respectively. In other words, RTXNTC incurs a frame rate penalty of 15% at 1080p and 18% at 4K—for a 96% reduction in texture memory.

Ist natürlich straight out of Marketing by Nvidia, aber wenn es selbst "nur" 50% spart, dann ist dies ebenso ein Pro für "AI Cards", auch wenn die Raster Performance keine neue höhen erreicht hat. Aber auch das sieht man noch nicht in der freien Wildbahn. Wenn man aber mit AI Software den RAM Bedarf senken kann, dann kann man auch mehr Kohle für das gleiche Silizium verlangen. Marge $$$.

Semmel

2026-01-09, 17:58:36

Ich halte die Neural Shader (und alles, was dazugehört) auch für eine unterschätzte Zukunftstechnologie.
Man wird in 5 Jahren mit Blackwell immer noch gut zocken können, während die heutige Konkurrenz von Intel und AMD deutlich schlechter gealtert sein wird.

dargo

2026-01-09, 18:04:11

Neural Texture Compression. :)

Träum weiter, ein PC ist keine Konsole wo DEVs sich auf eine, spezielle Hardware konzentrieren dürfen. Nichts für ungut... aber dass zukünftige Games wenig Vram brauchen glaube ich erst wenn ich glaubhafte Infos zu PS6 und dem Äquivalent von Microsoft mit nur 16GB sehe. Denn Konsolen bestimmen hauptsächlich wie der Hase im Gamingbereich läuft.

Ich halte die Neural Shader (und alles, was dazugehört) auch für eine unterschätzte Zukunftstechnologie.
Man wird in 5 Jahren mit Blackwell immer noch gut zocken können, während die heutige Konkurrenz von Intel und AMD deutlich schlechter gealtert sein wird.
Klar... genauso wie man heute mit den ganzen 6GB Geforces von vor 5 Jahren alles wunderbar spielen kann. :uup:

ChaosTM

2026-01-09, 18:08:46

Atomgrössen sind hier nicht das Problem, davon sind wir noch weit entfernt. Also die Atome, die da genutzt werden zumindest. Die Prozessnamen sind nur Marketing.

Die Physik und die Atomgröße sind das einzige Problem das wir haben.

Man kann vielleicht noch ein paar kleiner Node Sprünge durchführen, aber es wird exponentiell teurer und der Gewinn an Leistung ist nicht mehr mit den steigenden Kosten vergleichbar

Daredevil

2026-01-09, 18:16:21

Träum weiter, ein PC ist keine Konsole wo DEVs sich auf eine, spezielle Hardware konzentrieren dürfen. Nichts für ungut... aber dass zukünftige Games wenig Vram brauchen glaube ich erst wenn ich glaubhafte Infos zu PS6 und dem Äquivalent von Microsoft mit nur 16GB sehe. Denn Konsolen bestimmten hauptsächlich wie der Hase im Gamingbereich läuft.

Klar... genauso wie man heute mit den ganzen 6GB Geforces von vor 5 Jahren alles wunderbar spielen kann. :uup:
DirectX Cooperative Vectors sollen sowohl von AMD/Intel und Nvidia unterstützt werden und helfen einem breitflächlich Ressourcen zu sparen. Man bekommt also "Smart" ein besseres Ergebnis mit einer begrenzt zu verfügung stehenden Hardware. Das ist ebenso ein Zielmarker für Sony, für Nintendo und alle anderen "Fixed" Systeme. Nvidia ist bei neuer Technologie und vielleicht auch wegen ihrer Ausrichtung halt in dem Falle Pionier. Dafür zahlt man, wenn man sich ne GPU von dem Laden holt im Tausch für eine Niere.

https://devblogs.microsoft.com/directx/enabling-neural-rendering-in-directx-cooperative-vector-support-coming-soon/
What are Cooperative Vectors, and why do they matter?
Cooperative vector support will accelerate AI workloads for real-time rendering, which directly improves the performance of neural rendering techniques. It will do so by enabling multiplication of matrices with arbitrarily sized vectors, which optimize the matrix-vector operations that are required in large quantities for AI training, fine-tuning, and inferencing. Cooperative vectors also enable AI tasks to run in different shader stages, which means a small neural network can run in a pixel shader without consuming the entire GPU. Cooperative vectors will enable developers to seamlessly integrate neural graphics techniques into DirectX applications and light up access to AI-accelerator hardware across multiple platforms. Our aim is to provide game developers with the cutting-edge tools they need to create the next generation of immersive experiences.

What’s Next For Neural Rendering?
The HLSL team is working with AMD, Intel, NVIDIA, and Qualcomm on bringing cross-vendor support for cooperative vectors to the DirectX ecosystem. Stay tuned for more updates about cooperative vectors and its upcoming Preview release!

Cooperative vectors will unlock the power of Tensor Cores with neural shading in NVIDIA’s new RTX 50-series hardware. Neural shaders can be used to visualize game assets with AI, better organize geometry for improved path tracing performance and tools to create game characters with photo-realistic visuals. Learn more about NVIDIA’s plans for neural shaders and DirectX here.

Und AMD = Konsolen, oder nicht?

Badesalz

2026-01-09, 18:36:32

AMD hat anfangs gedacht dass man mit einem 50% größeren 12 Stack SI für Mi400 Rubin bei der Bandbreite deutlich schlagen kann, liegt nun aber plötzlich mit 19,7gbps gar hinten.
Zudem sind diese 19,7gbps unter den ersten für HBM4 angekündigten speeds (8.0 Gbps per pin) sondern Takten bei AMD mit lediglich mit 6.4Gbps pro Pin, also wie bei altem HBM3 ohne e (9.6Gbps).Ok. Wo hast du das mit den Speicherbandbreiten bei MI400 von AMD gesehen?

Das ist doch richtig, daß MI455 432MB hat und Rubin 288?... Ich schätze das Thema Energie ist die richtige Fährte...
Nur... wir kennen siet paar Tagen auch context memory storage... Ich weiß nicht was goiler wird :upara:

edit:
Der Spam-Berater spamt wieder einen Thread voll :rolleyes:

davidzo

2026-01-09, 19:16:28

Ok. Wo hast du das mit den Speicherbandbreiten bei MI400 von AMD gesehen?

Das ist doch richtig, daß MI455 432MB hat und Rubin 288? Ich schätze das Thema Energie ist die richtige Fährte...

edit:
Der Spam-Berater spamt wieder einen Thread voll :rolleyes:

Das war jetzt schon in drei AMD Präsentationen drin. 19,6TB/s für mi455X -> Das spricht für 6,4Gb/s Module.

Das erste mal anscheinend in Lisas Präsentation bei AMDs Advancing AI Day im Juni.

Damals gab es auch noch eine Vergleichsfolie mit Rubin wo bei AMD 1,5x Bandbreite steht. Witzigerweise stand auf der Folie in der Novemberversion nur noch Bandwidth vs Rubin ~1x :freak:

- In der jüngsten CES Präsentation hat man die vergleichsfolie ganz gekillt, vermutlich weil der Vorsprung gegenüber Nvidia kaum noch vorhanden war, wobei die anderen Folien aber 1:1 noch der Juni und November-Präsentation entsprechen.
Bei helios standen vorher noch 260TB/s Scale up Bandbreite und 43TB/s Speicherbandbreite, was man jetzt beides weggelassen hat. Der Rest der Specs ist aber identisch geblieben, also auch die 40PF und 2.9EF pro Rack.

dargo

2026-01-09, 19:34:15

DirectX Cooperative Vectors sollen sowohl von AMD/Intel und Nvidia unterstützt werden und helfen einem breitflächlich Ressourcen zu sparen. Man bekommt also "Smart" ein besseres Ergebnis mit einer begrenzt zu verfügung stehenden Hardware. Das ist ebenso ein Zielmarker für Sony, für Nintendo und alle anderen "Fixed" Systeme. Nvidia ist bei neuer Technologie und vielleicht auch wegen ihrer Ausrichtung halt in dem Falle Pionier. Dafür zahlt man, wenn man sich ne GPU von dem Laden holt im Tausch für eine Niere.

Du kannst Zielmarker setzen wie du lustig bist. Bis sich sowas flächendeckend durchsetzt vergehen sehr viele Jahre weil DEVs immer auch Rücksicht auf alte Hardware bis Zeitpunkt X nehmen müssen um wirtschaftlich zu aggieren. Ich kann nicht glauben, dass du solche Basics nicht kennst die schon seit Jahrzehnten greifen.

btw.
Nur ein Beispiel von vielen... Direct Storage kam in Hardware bereits Ende 2020. Wann kam es nochmal zuerst auf dem PC? Und flächendeckend wird es immer noch nicht in jedem Spiel verwendet.

Daredevil

2026-01-09, 19:42:53

Ist mir schon klar, dass bei neuen Technologien mehrere Jahre vergehen, darum ging es hier ja auch. Das Softwarefeatures durch AI die heute mangelnde Hardware Verbesserungen Kaschieren oder zumindest beschleunigen und dadurch sehr gut altern, weil sich die Software im Nachhinein noch verändern kann, wenn die entsprechenden Recheneinheiten vorhanden sind.

Nvidia wurde mit DLSS auch belächelt, dann haben sie vehement weiter mit ihrer Vision gemacht und sind nun Marktführer, während der Rest der Industrie hinterherhinkt, der eine mehr, der andere weniger. Und eben weil Nvidia einen langen Zeithorizont hat, bekommt man heute mit einer RTX3060 von 2021, der beliebtesten Karte bei Steam, eine bessere AI Upsampling Qualität als mit dem neuesten heißen scheiß von AMD, Apple, Qualcomm und Intel.
Dafür hat man früher beim Kauf der 3060 draufzahlen müssen, langfristig hat die "schlechtere PL" die Laufzeiten dieser Karten aber enorm verbessert. Heute stehen wir genau an dem gleichen Punkt mit Nvidias Neural Shader.

dargo

2026-01-09, 19:49:17

So ein Blödsinn... zumindest die 6GB 3060 rettet bei neuen AAA-Games nichts mehr und genau zu dieser Karte haben die meisten gegriffen damals. Für mich ist das Thema hier auch beendet. Du kannst gerne weiter in deiner Bubble bleiben. :)

Edit:
Habe die 3060 gerade mit der 2060 verwechselt was Speicherausstattung angeht. Da hast du dir eine schöne Rosine rausgepickt, warum keine 3070? :wink: Die 3060 war damals mit anfänglichen 12GB gut ausgestattet.

Daredevil

2026-01-09, 20:09:53

Da die Tensor Cores nicht im RAM verbaut sind, ist das relativ irrelevant mein guter. :D
Hier gings nicht um die Bewertung des Chips oder der Karte, sondern das Featuresets langfristig supportet werden bzw. sogar nach 5 Jahren Verbesserungen bekommen, eben weil Nvidia schon so früh Einheitem implementiert hat, die 2021 noch vor ihrer Zeit waren und durch Software im Jahr 2026 immer noch Klassenprimus sind. AI Software runs Hardware. :)

rentex

2026-01-10, 13:08:04

Momentan fühlte sich der ganze Gaming Hardware Markt an, als ob PC Gaming am Ende ist...Endzeitstimmung.

Platos

2026-01-10, 16:15:08

Übertreibt mal nicht. Ein paar Monate teurere Preise und schon seht ihr schwarz :D

Mal etwas Geduld bitte. In 1-2 Jahren gibts dafür RAM so billig, wie noch nie.

Semmel

2026-01-10, 16:58:49

Ich halte die negative Stimmung auch für massiv übertrieben. Ganz im Gegenteil kann man solche Gelegenheiten auch zu seinem Vorteil nutzen. ;)

RAM wird wieder billig, wobei ich anstatt 1-2 Jahre eher 2-4 Jahre schätzen würde.

rentex

2026-01-10, 18:02:18

Nightspider

2026-01-10, 18:54:54

Wir werden halt eine sehr lange Durststrecke haben.

Wasn für eine sehr lange Durststrecke?

Mit Speicher konnte man sich jetzt lange Zeit fett eindecken. Ich brauch in den nächsten ~4-6 Jahren jedenfalls keine SSDs und wahrscheinlich auch keinen RAM.
Zen6 wird in den gleichen Sockel passen, also auch kein Thema.

Nächste GPU Gen kommt sowieso erst in ~1,5 Jahren...also vielleicht ein halbes Jahr später als normal...das ist jetzt auch kein Weltuntergang.

Wer jetzt eine GPU braucht kann sich noch immer eine 5070/ti oder oder etwas in der Richtung, da sehe ich öfter noch Angebote.

rentex

2026-01-10, 19:22:55

Du bist aber sehr optimistisch, das der KI Spuk, bald vorbei ist...dazu haben wir noch eine asiatische Supermacht, die unbedingt einen auf "Heim ins Reich bringen" macht.

Platos

2026-01-11, 11:46:34

"Ki" Gabs auch schon vor dem Anstieg der Speicherpreise. Der Anstieg liegt primär am "leerkaufen" der Kapazitäten und dem darauf folgenden Ramsch-Kaufen aller anderen.

Es liegt nicht an sich an KI, sondern am plötzlichen Anstieg der Nachfrage. Das Angebot wird irgendwann ausgebaut und dann sinkt das wieder relativ gesehen. Oder alternativ die Nachfrage sinkt und das Angebot wird nicht grossartig ausgebaut (was ich eher nicht glaube).

Aber wie schon gesagt wurde: Es gab jetzt einige Zeit mit sehr niedrigen Speicherpreisen. Da musste man sich eben eindecken. Ich bin hinsichtlich RAM und SSD auch noch genug eingedeckt. Mir ist aber klar, dass Enthusiasten nicht gerade ihre Stärken beim Abwarten haben. Der Rest der Welt kauft aber einfach nicht, wenns nicht nötig ist.

rentex

2026-01-11, 12:50:05

Die Hersteller haben nicht die Absicht, das Angebot auszuweiten. Tatsächlich haben sie aus der Vergangenheit gelernt.
Selber bin ich eingedeckt, daher gebe ich nur Einschätzungen von mir.

Gouvernator

2026-01-11, 13:26:53

Du bist aber sehr optimistisch, das der KI Spuk, bald vorbei ist...dazu haben wir noch eine asiatische Supermacht, die unbedingt einen auf "Heim ins Reich bringen" macht.
LOL. KI Spuk hat nicht mal angefangen. Wenn du solche Special Effects lokal selber machen kannst. LTX2 einfach wtf. Wenn Rubin 5x so schnell ist kannst du dir bald ein Film bei einem Chat-Bot deines Vertrauens bestellen um in paar Stunden einzigartig unterhalten zu werden. Für was Lucas und Spielberg Jahre brauchen würden.
Nms4KMqCnJE

OgrEGT

2026-01-11, 13:54:04

LOL. KI Spuk hat nicht mal angefangen. Wenn du solche Special Effects lokal selber machen kannst. LTX2 einfach wtf. Wenn Rubin 5x so schnell ist kannst du dir bald ein Film bei einem Chat-Bot deines Vertrauens bestellen um in paar Stunden einzigartig unterhalten zu werden. Für was Lucas und Spielberg Jahre brauchen würden.
https://youtu.be/Nms4KMqCnJE
Sorry aber das ist einfach nur Quatsch... bei guten Filmen und guten Computerspielen geht es in erster Linie um Kunst und Design das dahinter steckt... KI Modelle egal wie leistungsfähig können sowas nur nachahmen ohne jeglichen Spirit oder Emotionalität...

ChaosTM

2026-01-11, 14:06:03

OgrEGT

2026-01-11, 14:51:54

Man kann sie aber als Tools benutzen und ihnen die eigenen Ideen vorgeben.
Wie bei jedem Werkzeug kommt es drauf an wie man es nutzt.

Man kann ein UE5 Spiel mit den mitgelieferten Assets bauen, dann schaut es halt aus wie jedes andere UE5 Spiel, oder man macht sich etwas Arbeit und baut eigene Sachen ein..

siehe Clair Obscur: Expedition 33
Das ist klar dass man KI als Werkzeug verwenden kann. Die Aussage war aber dass jedermann per Quote von einem KI Chatbot Filme in Kinoqualität auf dem Niveau von Top Regisseuren und Schauspielern erstellen lässt... und das ist mMn Quatsch...

Gouvernator

2026-01-11, 15:21:19

Das ist klar dass man KI als Werkzeug verwenden kann. Die Aussage war aber dass jedermann per Quote von einem KI Chatbot Filme in Kinoqualität auf dem Niveau von Top Regisseuren und Schauspielern erstellen lässt... und das ist mMn Quatsch...
Wenn ich mit Blackwell in 3-4 Minuten das erstellen kann, was aussieht wie aus Spielbergs Katastrophen Film - was wird mit Nextgen sein? 5x schneller ist 100 Sec. Clip damit renderst du in zwei Stunden eine gute Episode.

FZJcgwTeK24
8ycavyFwOSM

00-Schneider

2026-01-11, 15:24:34

Bist du besoffen?

ChaosTM

2026-01-11, 15:24:45

Platos

2026-01-12, 07:51:46

Das ist klar dass man KI als Werkzeug verwenden kann. Die Aussage war aber dass jedermann per Quote von einem KI Chatbot Filme in Kinoqualität auf dem Niveau von Top Regisseuren und Schauspielern erstellen lässt... und das ist mMn Quatsch...

Also es gibt jetzt schon Apps, die das bei Musik machen (selber in Aktion gesehen und die Rechte liegen dann bei dir). Aber für Filme brauchts natürlich Lokal massivst mehr Perfomance. Allein deswegen gehts noch lange nicht. Und Musik ist nochmals etwas einfacher als Filme vermutlich. Aber bei Musik hats recht gut funktioniert.

Für den Normalo-Schiss reichts eventuell sogar (hab das Video von Gouvernator nicht gesehen), aber für gute Filme würde ich dann auch sagen, dass die Feinheiten fehlen. Aber das Niveau der Leute bei Filmen ist ja eh nicht so hoch und bei Spielen ja erst recht. Von daher hätte es schon Erfolg.

Aber cool fände ich die Nutzung für Modding. Das Potential finde ich spannender (für mich). Auch bei Stimmen (Synchro-Modding bei Spielen mit fehlender Synchro auf Deutsch oder so).

Natürlich wirds noch einige Jahre dauern, bis sowas bei Filmen/Games funktioniert.

aceCrasher

2026-02-05, 18:02:22

https://www.computerbase.de/news/grafikkarten/gaming-gpus-auf-abstellgleis-kein-rtx-50-refresh-in-diesem-jahr-rtx-60-fruehestens-2028.96049/

https://videocardz.com/newz/nvidia-geforce-rtx-50-super-pushed-back-rtx-60-mass-production-could-move-to-2028

Rubin wird angeblich verschoben, neues Release Datum frühstens 2028.

rentex

2026-02-05, 20:06:45

aceCrasher

2026-02-05, 22:40:56

Whatever...spielt doch keine Rolle mehr. Kommt irgendein Über-Titel, der mehr Power braucht? Gibt es noch Aufrüst FOMO? Wohl kaum.
Nicht umsonst habe ich meine 4090 verkauft. Interessieren tut mich trotzdem was kommt. Ich befürchte nur dass eine signifikante Verbesserung sowieso nicht möglich ist solange die RAM Preise so hoch sind. Wenn ich daran denke dass eine RTX 6060 2028 WIEDER 8GB haben könnte schüttelt es mich. Und das ist leider gar nicht so unwarscheinlich.

ChaosTM

2026-02-05, 22:57:25

Echten Aufrüst-FOMO gibts frühestens wenn GTA6 für den PC erscheint und bis dahin gibts wohl auch schon Rubin.
Wer auf die Super Versionen gehofft/gewartet hat zog leider die Popo Karte..

AffenJack

2026-02-06, 09:10:44

bitte löschen, hier stand mist.

The_Invisible

2026-02-06, 09:26:23

Whatever...spielt doch keine Rolle mehr. Kommt irgendein Über-Titel, der mehr Power braucht? Gibt es noch Aufrüst FOMO? Wohl kaum.

Neues Resident Evil mit PT, wird ein Fest auf OLED ;) Ansonsten noch Gothic Remake, da aber UE5 weiß man die Performance eh schon

Ansonsten ka, habe wieder vermehrt mit der Switch 2 gezockt, am Ende gewinnt halt immer der Spielspaß

SamLombardo

2026-02-06, 09:45:06

ChaosTM

2026-02-07, 12:37:05

Gibt mal wieder Gerüchte bezüglich Rubin. Angeblich erst 20128

https://www.tomshardware.com/pc-components/gpus/report-claims-nvidia-will-not-be-releasing-any-new-rtx-gaming-gpus-in-2026-rtx-60-series-likely-debuting-in-2028

Gouvernator

2026-02-07, 13:52:03

Im Prinzip ist das alles nur nice to have, aber nicht mehr nötig, das galt schon für die Aufrüstung von der 4090 zur 5090 und wird von der 5090 auf die 6090 oder was auch immer erst recht gelten, MFG und Co sei Dank. Ich lehne mich mal aus dem Fenster und prophezeihe, dass man mit einer 5090 auch in fünf Jahren und möglicherweise sogar noch deutlich länger alles in maximalen Details zufriedenstellend spielen können wird. Und wenn man mal irgendwann doch gerne mehr FPS hätte schaltet man einfach eine Stufe DLSS zurück. Den Unterschied sieht man ja eh kaum bis gar nicht, Nvidia ist einfach zu gut:). "Brauchen" so wie das früher mal war wird man die neue Generation nicht. Sie ist allenfalls was für Nerds wie uns die mal ein neues Spielzeug wollen:biggrin:.
Solange die Games nicht ein Quantensprung machen bei der Bildqualität zu Kling 3.0, bleibt die 5090 noch in 10 Jahren aktuell. Ich habe bei der 3090 bis zuletzt, ihre 5+Jahre auf dem Buckel in keinster Weise bemerkt.

Alles steht und fällt mit dem Übergang zu KI-Gaming in solcher Qualität. Dann erst wird 5090 extrem schnell altern...
HJVmhqXL8dg

rentex

2026-02-07, 17:30:50

Das ist ja mal geil.

HPVD

2026-02-20, 21:01:44

Ein paar insights zu FP64 in Rubin, Ozaki, warum man High Precision braucht... :
https://www.hpcwire.com/2026/02/17/genesis-mission-will-lean-heavily-on-ozaki-scheme-for-fp64-capability/

Badesalz

2026-02-23, 09:45:55

Das ist ja mal geil.Sorceress haben sie auf jeden Fall superb hinbekommen ;)

Badesalz

2026-02-24, 13:14:30

Ein paar insights zu FP64 in Rubin, Ozaki, warum man High Precision braucht... :
Wollte ich grad posten :ulol:

Ja... Die Grünen machen Druck :rolleyes: Das sind aber imho noch Schema I Fantasien (Zahlen). Schema II ist das erstmal nennenswerte.
Das werden wir dann später sehen wer damit wie abliefert.

AMD tut erstmal so als wenn sie es nicht für ein allgemeines Heil halten würden. Da ist aber auch nicht klar welches Schema genau das (noch) meinte. Oder beide.

Und: ""We have data that shows you're using about twice the memory capacity in Ozaki to emulate that FP64 matrices" -> Mit Speicher wuchern ist grad eine dürftige Lösung :wink:

https://www.theregister.com/2026/01/18/nvidia_fp64_emulation/

basix

2026-03-14, 09:35:16

Neues zum Ozaki Scheme:
https://www.hpcwire.com/2026/03/13/amd-hints-at-big-fp64-increases-in-mi430x-gpu-as-ozaki-underwelms/

Ozaki 1/2 mit FP8:
FP8 zeigt in etwa halbe Effizienz von INT8. Man benötigt doppelt so viel HBM-Bandbreite und FP8-TFLOPS verglichen mit INT8 um die selbe FP64 Throughput zu erreichen. Langfristig wird man aber wohl oder übel FP8 benutzen müssen, da z.B. Nvidia INT8 ziemlich zusammenstreicht.
https://arxiv.org/pdf/2603.10634

mocad_tom

2026-03-14, 12:16:20

https://x.com/satyanadella/status/2032515189086761005

Satya Nadella hat gestern höchst selbst ein Foto vom ersten Vera Rubin System gepostet.

Ich zähle 18 Einschübe.
Damit sitzen dann je 2 SXM-Platinen in einem Einschub.
Und auf jeder SXM-Platine sitzen dann zwei Rubin drauf.
Damit kommt man dann auf die 72 Rubin.

Das sind Direct-Attach-Cable oder?

Skysnake

2026-03-14, 15:10:19

Ja das müssten DAC Kabel sein, sieht aber extrem.lang aus. Das kann eigentlich nicht sein. Für AOC sind die Kabel aber zu dick. Vielleicht ACC? Für mich sieht das aber wher wie Pizzaboxen denn wie Einschübe aus. Müsste man aber von der anderen Seite mal sehen.

davidzo

2026-03-14, 16:22:26

Damit sitzen dann je 2 SXM-Platinen in einem Einschub.
Und auf jeder SXM-Platine sitzen dann zwei Rubin drauf.
Damit kommt man dann auf die 72 Rubin.

Nvidia verwendet schon lange kein SXM mehr in den scale up Racks. Schon in GB200 Blackwell und GB300 Blackwell Ultra stecken sogenannte "Superchip" Module mit direkt verlöteter GPU. Die sind half width, also ca. 8" breit und da sind 1x Grace CPU mit 2x GPU auf einem Board, Codename "Bianca" bei Blackwell. Die neuen Rubin boards werden ähnlich aussehen und heißen "Strata".

Bei Blackwell hatten die boards noch PCIe Slots für peripherie und MCIO kabel Sockets. Bei Rubin ist das Design wohl kabellos und die boards werden in eine Midplane gesteckt. Dazu braucht nvidia einen high density board to board connector, zum Beispiel Amphenol Paladin HD2.

mocad_tom

2026-03-14, 22:32:55

Was ich sagen wollte, auf einem package sind zwei Rubin drauf

https://x.com/Vengineer/status/2032721139366244504

x86 kann als headnode training . . . . . (y)
x86 kann als headnode inference . . . . (y)
x86 kann als headnode Agentic AI . . . (y)

ARM kann als headnode training . . . . . (no)
ARM kann als headnode inference . . . . (y)
ARM kann als headnode Agentic AI . . . (no)

würdet ihr jetzt mehr ARM oder mehr x86 kaufen?

Meta ist wahrscheinlich einer der größten Grace Käufer
:uponder:
https://www.heise.de/news/Unzufrieden-mit-Performance-Meta-verschiebt-angeblich-Freigabe-von-KI-Modell-11209630.html
Meta bekommt ihr Avocado nicht richtig auf die Füße gestellt.

Unterdessen steht in China kein einziger Grace Cluster.
Und bei denen geht was vorwärts.

Ich bin gespannt wie das force feeding von nvidia so weiterläuft.

davidzo

2026-03-14, 23:24:45

Was ich sagen wollte, auf einem package sind zwei Rubin drauf

https://x.com/Vengineer/status/2032721139366244504

Aktuell nicht, nein.
Das ist Rubin Ultra und der kommt später. Und der kommt vermutlich nicht auf den gleichen nvl72 boards/Racks, sondern in vertikalen Kyber racks. Ursprünglich war der mal für nvl576 gedacht. Dabei zählt nvidia aber wahrscheinlich die Dies einzeln und in wirklichkeit ist das nur ein doppelter nvl72 (?)
Richtig spannend sind solche Lösungen aber nicht mehr, weil die CPU compute Density sinkt. Für die meisten Hyperscaler ist das für 2026 einfach die falsche Richtung, die brauchen eher mehr CPU compute pro GPU. Ich kann mir also vorstellen das nvl576 von nvidia gestrichen wird, genau wie die Blackwell-version davor.

Die normale Rubin GPU hat zwei Compute Dies, genau wie Blackwell. Nvidia hat mal kurz dran gedacht das aus marketinggründen nvl144 zu nennen statt nvl72, aber das glücklicherweise doch nicht gemacht. Ein GPU package was bei Blackwell dann och eine einzelne GPU mit 8x HBM Stacks war hätte man dann doppelt gezählt. Würde man also jede GPU doppelt zählen hätte man nur 4xstacks pro "GPU" und weniger Speicherausbau und die Leistung wäre Generationenweise eher ein Rückschritt bzw. kein signifikanter anstieg.

Eher lustig ist dass man die einzelne Boards "Superchip" nennt. Dabei ist das definitiv nicht ein einzelner Chip, sondern ein PCB mit 3x großen packages, DDR RAM und einer mittleren zweistelligen anzahl an chiplets auf den Packages insgesamt.

Badesalz

2026-03-15, 09:42:58

Eher lustig ist dass man die einzelne Boards "Superchip" nennt.Ich weiß nicht warum alle immer meinen, bullshit-bingo PR ist nur Intel vorbehalten :| Nur weil sie führend sind heißt das ja nicht, daß andere es nicht auch gut können.
Langfristig wird man aber wohl oder übel FP8 benutzen müssen, da z.B. Nvidia INT8 ziemlich zusammenstreicht.Auf Scheme 2 waren sie imho noch nicht vorbereitet (developing pipelines). Sie hatten/haben das nichtmal in Cuda drin gehabt. Vielleicht gibt es später noch ein leichtes Umdenken.

Langfristig wird man aber wohl oder übel FP8 benutzen müssenDas wird man müssen, wenn AMD nicht mehr liefert. Sonst nicht.
FP8 ist dafür Müll. Sie haben diesjahr aber schon Abermilliarden in einige Startups investiert. Könnte sein, daß sie mit einem von denen HPC mit INT8 machen. Wer weiß...
Oder sie sch... (heimlich) einfach drauf, weil sie diesbezüglich auf NVQLink setzen :rolleyes:

Deren O-Ton ist halt, daß wenn du Vector statt Matrix fährst, dann hängt deine Leistung weniger von rohem FP64, sondern eher von Registern, Caches und der Bandbreite von HBM. (das müsste Skysnake mal revidieren...)

davidzo

2026-03-15, 12:10:19

Ich weiß nicht warum alle immer meinen, bullshit-bingo PR ist nur Intel vorbehalten :|

meint hier glaube ich niemand. Für das Bullshit Bingo ist Jensen nach wie vor ungeschlagen, das muss man neidlos Anerkennen.

Auf Scheme 2 waren sie imho noch nicht vorbereitet (developing pipelines). Sie hatten/haben das nichtmal in Cuda drin gehabt. Vielleicht gibt es später noch ein leichtes Umdenken.

Du meinst mit Scheme2 doch E5M2 für Gradienten? Wird das wirklich noch wichtiger in Zukunft?

Der Markt geht ja hin zur Konsolidierung und damit Inferenz. Und dafür scheint mit E2M1 und E3M0 bzw. NVFP4, MXFP4 in Zukunft mehr Momentum zu haben. Zwar ist das kein echtes FP4 sondern hat durch die Block size und das Maskieren bzw, bit shift muss man noch ein bisschen Overhead abziehen, aber es spart eben massiv Speicher und Bandbreite im Vergleich zu FP8.

basix

2026-03-15, 13:02:29

FP8 ist afaik momentan state-of-the-art fürs Training. Das braucht man also momentan noch ;)

Badesalz

2026-03-15, 13:44:59

Imho, kann also auch von meiner Unschärfe abhängen. Und im folgenden auch meinen Matheskills. Ich füge in dem Post also keine "m.M.n." hinterher :redface:

Die Kundschaft teilt sich aktuell in 3 Kategorien:
- Wir brauchen FP64 und anteilig auch bissl KI bitte
- Wir brauche KI und anteilig auch bissl FP64 bitte
- Wir brauchen KI

Ich kann nicht abschätzen, ob die Relevanz steigen wird. Meiner Meinung nach ist Scheme II würdiger als Scheme I. (würdiger beudeutet nicht gleich würdig :rolleyes:)

Nvidia meint, oben wird neben der dritten maximal die zweite Gruppe noch eine Geige spielen. Sie sehen einerseits voraus, daß die Leute nicht mehr soviel erdenken und simulieren werden, sondern die KIs was erdenken und für die Gegenkorrektur Ozaki reicht. Von der Genauigkeit und von Zeit/Aufwand.
Andererseits, daß die Quantenmaschinen das eh übernhemen. Ich weiß nicht...
https://quantumzeitgeist.com/quantum-computing-supercomputer-simulation/

Sonst befinden sie (wie schon gesagt), daß wenn man nicht Matrix macht, sondern Vektor, FP64 Rohleistung eh ein sekundäres Problem ist und das primär von Registern, Caches und HBM-Durchsatz abhängt.
Das müsste die Kundschaft mal revidieren...

AMD hat nicht die wirtschaftliche (finanzielle) Macht die Welt zum größten eigenen Vorteil zwangszubeglücken. Ihre HPC-Community, die sich sehr wohl Ozaki anschaut, sagt, bitte noch weiter Modelle mit FP64 Schwerpunkt behalten. Daher 430X und 450X.
Der eine kann es sich leisten FP64 mehr als zu halbieren, der andere muss es sich leisten doppelt zu fahren.

basix

2026-03-15, 15:06:54

AMD kann aufgrund der Chiplets einfacher einen FP64 fokussierten Chip mit der selben Grundplattform designen. Nvidia müsste den ganzen Chip neu machen. Nicht, dass Nvidia das nicht könnte. Wollen sie aber anscheinend nicht (etwas SW-Aufwand für Ozaki Scheme scheint sich für sie mehr zu rentieren). Ich kann mir gut vorstellen, dass das Ozaki Scheme bei Feynman ins Design einfliessen wird. Zum Beispiel indem man ein paar der Operationen in einen HW-Accelerator giesst (quant, dequant, requant Operationen ausserhalb von GEMM; dann das Slicing, ADP und ESC Zeugs von Nvidias Ozaki Implementation), womit insbesondere kleinere Matrizen profitieren würden. Speicherverbrauch sowie Limitierung auf quadratische Matrizen wären zwei weitere Dinge, die man verbessern könnte. Und dazu noch IEEE FP64 Massstäbe in HW sichergestellt.

AMD hat zudem schon seit langem die HPC-Nische aktiv gesucht und bedient. MI250X ist das beste Beispiel dafür und auch MI300A schlägt in dieselbe Kerbe. MI430X ist hier schlicht die nächste Interation.

Zu Vektor vs. Matrix:
Ich frage mich, ob man neben Vektor und Matrix eine Kombi-Lösung realisieren könnte. Eine zusätzliche HW-Acceleration für Vektor * Matrix Rechnungen. Das könnte für Cooperative Vectors bei Gaming interessant sein oder evtl. auch für HPC, wenn man Vektor-A mit Vektoren-B1...Bn verrechnen könnte. Aber wenn das der Source-Algorithmus von Design her nicht hergibt, hilft das auch nicht wirklich was. Vektor * Matrix Rechnungen kann man zwar auch heute schon emulieren (einfach nur eine Reihe / Spalte mit Werten füllen und den Rest mit Nullen befüllen). Ob das aber Sinn macht vom Throughput her?

Badesalz

2026-03-16, 07:48:29

Speicherverbrauch sowie Limitierung auf quadratische Matrizen wären zwei weitere Dinge, die man verbessern könnte. Und dazu noch IEEE FP64 Massstäbe in HW sichergestellt.Ob das so machbar ist, nur weil man es gerne machen würde?

basix

2026-03-16, 08:30:02

Wenn man die FP64 HW-Units wegstreichen will, muss man das anders lösen ;)

Ob das technisch möglich ist:
Weiss ich nicht. Aber Ingenieure sind smart und kreativ und Nvidia hat die Motivation sowie das Geld ;)
Einige Dinge sind sicher in HW möglich, da bereits in SW umgesetzt (siehe Nvidias ADP & ESC). IEEE FP64 Compliance wäre da noch der letzte (und wichtige) Schritt.

Den Speicherverbrauch sowie das Thema quadratische Matrizen wird man am ehesten mit Anpassungen am Algorithmus angehen müssen.
Mit HW-Ergänzungen kann man da aber evtl. unterstützen. Im besten Fall geht es aber nur mit SW-Anpassungen.

Badesalz

2026-03-16, 08:38:45

Wenn man die FP64 HW-Units wegstreichen will, muss man das anders lösen ;) #319 ist == #317 ;)

mocad_tom

2026-03-16, 10:39:43

Jim Keller am Reinbengsen

https://x.com/jimkxa/status/2032870678303748154

Badesalz

2026-03-16, 11:55:59

Jim Keller am Reinbengsen
Cerebras so

davidzo

2026-03-19, 15:42:22

https://www.computerbase.de/news/wirtschaft/nvidias-cpx-chip-fuer-rubin-gestrichen-bei-feynman-eventuell-wieder-da.96593/

Rubin CPX ist gestrichen. Das wird erst wieder ein Ding bei Feynmann.

Die hatten aber schon Dieshots und renderings des vollen produkts gezeigt. Was bedeutet das?
a) Das war eh GR202 und der kommt noch als gamingchip, 6090, nur halt später. Die N3 Kapazitäten nutzt man für R100, groq lp35?
b) Wenn das ein reiner Pro-chip für Inferenz und kein gaming dual use war, dann kann das nur eines heißen: Dann waren die Masken wohl so fehlerhaft / performance mies, dass man den komplett einstampft?

Aber in beiden Fällen ist die Frage was mit dem GDDR7 passiert den man für CPX geordert hat. Die 3nm Fertigung kann man wohl relativ einfach auf R100 umswitchen, aber die GDDR7 Produktionslinien doch nicht so leicht?

Das groqs LPUs ein Ersatz für CPX sind kann ich nicht glauben. Groq ist für geringe Latenzen und den hot bereich eines modells super geeignet, hat aber viel zu wenig speicher um das ganze Modell abzudecken. CPX ist das Gegenteil. Viel speicher, viel weniger Bandbreite. Ideal für riesige Modelle und wenig latenzkritische Anwendungsfälle.

Troyan

2026-03-19, 16:21:43

Macht mit Groq auch kein Sinn. CPX war für Inference gedacht, was man jetzt mit Groq macht.

Badesalz

2026-03-19, 22:13:57

@Troyan
Mega. Den letzten Absatz einfach komplett ausgeblendet und schon passt es :ulol:

Exxtreme

2026-03-30, 17:57:16

RTX6xxx-Serie soll angeblich ~35% schneller im Raster sein und doppelt so schnell bei RT:
https://overclock3d.net/news/gpu-displays/alleged-nvidia-rtx-60-series-gpu-specifications-leak/

Troyan

2026-03-30, 18:08:27

Ist fake: https://videocardz.com/newz/no-geforce-rtx-60-specs-did-not-leak-yet

Der_Korken

2026-03-30, 18:31:05

Lol, wir sind wahrscheinlich noch 18 Monate vom Launch entfernt. Möglicherweise sogar mehr, je nachdem wie sich der AI-Markt bis dahin entwickelt. Wo sollen da bitte Performance-Prognosen oder Memory-Specs herkommen? Die kennt Nvidia wahrscheinlich noch nicht mal selber.

rentex

2026-03-30, 19:41:20

Ja, eben. Lange Durststrecke...

y33H@

2026-03-30, 19:43:52

Wo sollen da bitte Performance-Prognosen oder Memory-Specs herkommen? Die kennt Nvidia wahrscheinlich noch nicht mal selber.Solche Chips dauern locker zwei drei Jahre, natürlich weiß Nvidia wie die einzelnen Chips aussehen und wie viel Speicher möglich ist und welche Taktraten angepeilt sind.

ChaosTM

2026-03-30, 19:51:23

https://www.google.com/search?client=firefox-b-d&q=china+asics+solution+better+tzan+nvidia

schon klar, das war zu simpel, aber es geht schlussendlich immer in diese Richtung.
Hochspezialisierte Chips schlagen NV´s Brute Force Lösungen immer.

dauert diesmal halt nur länger, da um Größenordnungen komplexer

reunion

2026-03-31, 10:25:58

Rubin Ultra angeblich mit Packaging Problemen:
https://www.computerbase.de/news/wirtschaft/angebliche-packaging-probleme-nvidia-rubin-ultra-reizt-cowos-l-von-tsmc-aus.96757/

Da rächt sich wohl, dass man nicht auf 3D-Stancking gegangen ist.

Gouvernator

2026-04-03, 04:47:12

Man könnte sich fragen aus welchem Grund hat Jensen Huang auf neulichen GTC den Qwen 225B Model, als Kundenfänger für 0$ per Token für Free-User angesetzt? Normalerweise sind solche Models for free, wenn sie eh massenhaft lokal laufen können. Könnte drauf hindeuten das mit Rubin die KI Qualität dermaßen ansteigt, das 225B Model ziemlich dumm dasteht. Und was noch wichtiger auch noch lokal läuft. Genau genommen könnte eine Highend Gaming Karte solche Models in VRAM aufnehmen, wie sie heute 30B Models aufnehmen. Also 140 GB VRAM speziell für Qwen 225B_Q4.

Seine Folie wäre quasi ein Signal für seine Konzernkunden, das künftig die lokale AI massenhaft in Größe und Qualität steigt. Und sie gefälligst besser in neue Rechenzentren investieren um drauf 10T Models laufen zu lassen.

davidzo

2026-04-03, 16:16:00

Rubin Ultra angeblich mit Packaging Problemen:

WCCFtech zeigt dazu Bilder eines kyber Racks die scheinbar 4x Rubin (Ultra) GPUs mit 2x Vera CPUs drauf haben.
https://wccftech.com/nvidias-rubin-ultra-reportedly-scaled-back-to-dual-die-design-instead-of-the-ambitious-four-die-one-amid-supply-chain-concerns/

Sieht mir wie eine Weiterentwicklung des GB200 NVL4 Moduls aus (4x B200, 2x Grace). Der Unterschied ist dass die GPUs nicht mehr gesockelt sind, dafür aber der LPDDR für die CPUs.
Im Gegensatz zu NVL4 gibt es scheinbar auch networking an board. Vorne gibt es klar eine Fibre connection für scale out, sowie nvme boot drives. Das was hinten wie ein OCP slot aussieht ist aber wahrscheinlich eher eine aussparung für die Wasserkühlungssanschlüsse. Darum liegt die Stromversorgung.

Statt Dual-Die Rubin Ultra (bzw. technisch gesehen 4xDie weil jeder R100 Chip wie B100 schon aus 2 Dies besteht) will man also jetzt auf Boardlevel zwei Packages verbinden.

Aber wie soll dass die Density erhöhen? Der ursprüngliche Plan war ja mit Rubin Ultra doppelt soviele GPUs pro Rack zu bieten wie mit Vanilla rubin?
Aber das geht auf boardlevel wohl kaum da man wohl nicht 8x Rubin Packages in ein Kyber rack gestopft bekommt und es dann auch an CPUleistung fehlt.

Was unterschiedet dann Rubin Ultra dann noch von Vanilla Rubin?

Meine Vermutung ist dass man quasi Oberon mit den normalen Racks als Rubin verkauft Rubin einfach ein Refresh mit mehr HBM4 Speicher sein wird. Der Density Increase bei Rubin Ultra kommt dann durch das Kyber Rack mit den hochkant blades und der midplane. Damit passen einfach mehr blades in ein Rack.

AMD ist parallel mit Helios schon auf ORW-Racks umgestiegen, was bei nvidia auch irgendwann noch ansteht. Dafür bleibt AMD aber bei einer konservativeren horizontalen Tray-Anordnung und nutzt scheinbar auch keine midplane.

Was aber schwerer wiegt ist dass AMD mit einem 12-ch HBM4 Package bei Mi450 "Altair" einen wesentlich größeren Design-Ansatz fährt. Das liegt genau zwischen Rubins 8ch und Rubin Ultras 16ch. Jetzt wo nvidia festgestellt hat das ein 16ch Package technisch noch nicht so einfach möglich ist beißt man sich sicher in den Arsch dass man sich frühzeitig scho auf 8ch für vanilla rubin festgelegt hat. Des Nachteils bewusst fordert nvidia daher schon die ganze zeit schnelleren Ram von den Suppliern und auch größere Stacks.
Rubin Ultra könnte also bereits der Wechsel auf HBM4e sein, wenn man den versucht so weit es geht vorzuziehen.

Leonidas

2026-04-07, 11:53:12

Solche Chips dauern locker zwei drei Jahre, natürlich weiß Nvidia wie die einzelnen Chips aussehen und wie viel Speicher möglich ist und welche Taktraten angepeilt sind.

Ja & Nein.

Die Chips dauern 2-3 Jahre, das stimmt. Aber das bedeutet nicht, dass man am Anfang bereits gute Performance-Prognosen abgeben kann. Das macht man eher erst in Richtung Designende.

Und das ist derzeit noch einigermaßen weit weg. Weil Gaming-Rubin eigentlich mal früher geplant war, dürfte man intern schon recht weit sein, aber hat nun genauso wieder Luft, um noch vieles zu ändern.

Vor allem aber gilt: Vor Festlegung der finalen Specs ist alles wandelbar. Man entwickelt die Architektur - aber wieviel SM zu welchem Speicherinterface, das ist reine Festlegungssache, das kann man kurz vor Designende machen. Aus derzeitiger Sicht also Jahresende 2026 für einen Tape-Out Anfang 2027. Vorher muß sich NV nicht festlegen - und damit wird vorher keiner sagen können, was es für Performance-Erwartungen gibt, wenn die HW-Dicke nicht feststeht.

davidzo

2026-04-07, 14:49:23

Ja & Nein.

Die Chips dauern 2-3 Jahre, das stimmt.

Bei einer State-of-the-Art Datacenter-GPU (NVIDIA/AMD/Google TPU-Klasse) geht das mittlerweile Richtung 4, mit Problemen und Respins auch mal 5 Jahre.

Nicht nur sind die Logikchips selber größer und komplexer geworden, es sind auch Prozesse dazu gekommen die es früher nicht gab bei denen man von mehr externen zulieferern abhängig ist als zuvor. Das 2.5-3D packaging, HBM Interposer,...

Vor Festlegung der finalen Specs ist alles wandelbar. Man entwickelt die Architektur - aber wieviel SM zu welchem Speicherinterface, das ist reine Festlegungssache, das kann man kurz vor Designende machen. Aus derzeitiger Sicht also Jahresende 2026 für einen Tape-Out Anfang 2027. Vorher muß sich NV nicht festlegen - und damit wird vorher keiner sagen können, was es für Performance-Erwartungen gibt, wenn die HW-Dicke nicht feststeht.

Dem wage ich zu widersprechen. Die Architekturentwicklung ist nur ein Bruchteil der ganzen Chipentwicklung. Zwischen Arch Freeze und tape out liegen noch immer Jahre.

1. Architektur (6–12 Monate)
2. RTL Design (9–15 Monate)
3. Tape-in / Physisches Design (6–10 Monate)
4. Tape-out (ein paar Wochen)
5. Fertigung + Packaging (3–6 Monate)
6. First Silicon + Bring-up (3–6 Monate)

Und im Worst case ist bei 5-6. Ende noch ein Respin nötig → +6–12 Monate extra.

Bei Rubin wissen wir sogar dass genau das der Fall war. Es gab einen Respin bei den externen HBM fertigung der alleine Fertigung + Packaging um als 6 Monate verzögert hat.

An der Architektur sitzen vielleicht 5-10% der insgesamt beteiligten mehreren Tausend Ingenieure. Es ist die absolute engineering Elite und in der Regel weniger als 100 Leute.

Verification ist der größte Block im ganzen Projekt. Sowohl Zeitlich als auch von den Personalressourcen. Gefühlt ist die Hälfte der Ingenieure einer Firma in Verification beschäftigt.
RTL Design machen vielleicht ein paar hundert Designer, aber bei der verification sitzen dann 500+ Ingenieure über ein Jahr lang dran.

Bei tape-in und floorplanning kann man dann über Macros noch einiges an Parallelität herausholen, aber auch das braucht weitaus mehr Ingeniere und Simulation als die Architekturplanung.

Ab dem tape Out wird es teuer, da ein Satz Masken schnell 50-100Mio Dollar verschlingen kann. Es kann also durchaus sein dass manchmal ein chip bis in das Floorplanning geplant wird, dann aber doch nicht weiterentwickelt wird. Da aber 500+ Ingenieure für 2Jahre auch nicht billig sind ist das wohl eher eine Seltenheit.

Du kannst zwar viel RTL-Reuse machen weil die SMs, cache slices, imc, fabric gleich sind, bzw. als IP Blöcke gehandhabt werden können. Aber du musst trotzdem einen großteil der Verification neu machen, was ja der größere Teil der Arbeit ist.
- Die Top level Integration ändert sich mit jedem skalierten Chip
- System-Level Tests von Interconnect, Skalierung musst du neu machen, Performance / Bandwidth Szenarien sind anders, Corner Cases durch andere Topologie
- Viele Bugs entstehen erst durch Skalierung von IP Blöcken

bei Floorplanning / physical design kannst du noch weniger reuse machen. Sicher gibt es Macros für SRAM, IO-blöcke und SerDes die du weiterverwenden kannst, aber der ganze globale Floorplan, power grid, clock tree und routing sind bei jedem skalierten chip individuell.
- andere Diegrößen, andere Latenzen
- andere Aspect ratio
- andere IR droop probleme
- andere hotspots

Insofern werden die Specs im Sinne von SM count, SI, IO, caches trotzdem mehrere Jahre vor dem tapeout festgelegt.

Im Jahr vor dem Launch kannst du nur noch über Binning, Taktraten und Fusing noch Produktentscheidungen treffen welche die performance der SKUs betreffen.

Rancor

2026-04-07, 16:16:10

Sind wir schon im Ångström Bereich angekommen oder wird Rubin noch im 2nm gefertigt? Viel weniger als 10A wird wahrscheinlich auch nicht gehen, wenn ein einzeles Silizium Atom schon ~ 0.1 A Durchmesser hat

davidzo

2026-04-07, 17:47:51

Sind wir schon im Ångström Bereich angekommen oder wird Rubin noch im 2nm gefertigt?

Die bisherigen Gerpüchte besagen sogar nur 3nm, vermutlich N3P oder N3X.
Mit 336Mrd Transistoren wissen wir sogar schon den Transistorcount (208Mrd bei Blackwell).

Man hat also einen Rückstand in der Fertigung gegenüber AMD die N2 für die compute chiplets von Mi4xx verwenden und N3 für die i/o dies (+ 6nm? für das Base Die).

Das ist aber wenig verwunderlich, da für monolititsche chips nahe des Reticle Limits der prozess extrem gereift sein muss und die yields sehr stabil. Mit einem Chiplet Design kann man früher auf einen Prozess wechseln selbst wenn der yield noch nicht ganz perfekt ist. Rubin hat wie Blackwell zwar auch zwei Dies, aber da kann man nicht von Chiplet sprechen bei der Größe.

Der Vorteil des monolitischeren Designs sind aber Latenzen, Timing, bessere Flächenausnutzung weil weniger scribelines und D2D Flächenoverhead.

Leonidas

2026-04-10, 07:34:03

Insofern werden die Specs im Sinne von SM count, SI, IO, caches trotzdem mehrere Jahre vor dem tapeout festgelegt.

Im Jahr vor dem Launch kannst du nur noch über Binning, Taktraten und Fusing noch Produktentscheidungen treffen welche die performance der SKUs betreffen.

Genau da bin ich anderer Ansicht. Du sprichst primär zu HPC/AI-Chips am Rande des technisch machbaren - und da dürfte das sogar stimmen.

Aber bei Gaming-Chips funktioniert das anders, da NV nicht mehr das technisch maximal notwendige bieten muß. Man entwickelt die Architektur und hat eine Vorstellung, wie dick die Chips werden - aber festlegen muß man sich da noch nicht. Das müsste man faktisch erst kurz vor Design-Ende (ich rede nicht vom Arch-Ende). Vielleicht macht man es auch etwas vorher, aber man muß sich da durch nix drängen lassen. Je später man dies macht, um so näher liegt man am Releasetermin und kann erkennen, was benötigt wird.

Denn: Ob ein GR205 dann mit 70 oder 76 SM erscheint (Zahl wild erfunden), spielt für die ganze Arch-Entwicklung keine Rolle, ist auch im Sinne der Chip-Entwicklung nicht gänzlich entscheidend, kann also noch ziemlich am Schluß verändert werden. Gerade dafür sind diese Baukasten-Systeme und die vielen gleichartigen Einheiten ja gut: Man muß erst recht spät die konkrete HW-Gestaltung festlegen. Und warum sollte man es vorher tun, wenn eine spätere Festlegung mit besseren Blick auf die Markterfordernisse von Vorteil ist?

Ergo gehe ich davon aus, dass dieserart Festlegungen immer erst kurz von Designende bei NV erfolgen. Bei AMD und Intel wird es anders laufen, aber die können den Markt nicht so von oben herab betrachten.

y33H@

2026-04-10, 10:15:05

So funktioniert das zeitlich nicht, die einzelnen Dies und deren Chops sind Jahre vor dem Release gesetzt.

davidzo

2026-04-10, 10:58:05

Denn: Ob ein GR205 dann mit 70 oder 76 SM erscheint (Zahl wild erfunden), spielt für die ganze Arch-Entwicklung keine Rolle, ist auch im Sinne der Chip-Entwicklung nicht gänzlich entscheidend, kann also noch ziemlich am Schluß verändert werden. Gerade dafür sind diese Baukasten-Systeme und die vielen gleichartigen Einheiten ja gut: Man muß erst recht spät die konkrete HW-Gestaltung festlegen. Und warum sollte man es vorher tun, wenn eine spätere Festlegung mit besseren Blick auf die Markterfordernisse von Vorteil ist?

Wie gesagt ist die Architektur nichtmal 10% des gesamten Designaufwands.

Wenn du 90% noch schaffen musst, kannst du da nicht einfach eine Pause einlegen / das bis vor den launch hinauszögern.

Dann kommt RTL und aus einer Architektur wird Verilog. Hier sieht man wahrscheinlich auch wie komplex einige neue Architekturvorschläge dann später in der Umsetzung sind. Ich kann mir gut vorstellen dass man bis hierhin auch eine gewisse Parallelität in der Architekturentwicklung hat und sich erst nach den Simulationen genau festlegt z.B. welchen Scheduler oder welchen L0 /l1 Cache man verbauen wird.

Der Größte Batzen ist aber Verification von RTL. Das dauert am längsten und da arbeiten die meisten Leute dran.

Wenn das abgeschlossen ist, hat man IP Blöcke die man nutzen kann und die einzeln verifiziert sind.

Bevor man in das floorplanning geht muss man die aber immernoch auf system level integrieren (bugs durch skalierung, corner cases, performance/bandbreite mit workloads etc.)

Das Floorplanning wiederum hat wenig reuse. Klar kannst du da die gleichen Macros verwenden, aber die Komplexen teile eines Chips sind immer anders. Aber routing, power tree, clock tree, Vdrop, fabric, etc. sind immer anders und haben fast 0 re-use.

Das Dauert. zwischen tape in und tape out liegen Monate bis fast ein ganzes Jahr.

Und Masken herstellern dauert auch. Das kann bei EUV designs auch gerne 1Monat + dauern. Und wie du an den steppings siehst durchlaufen die Masken auch mehrere Iterationen, reperaturen, einzelne neue Masken etc.
- Oder welchen Chip hat nvidia zuletzt im A0 stepping gelauncht?

Danach kommt der ganze Spaß noch mit Packaging, Interposer, HBM stapel etc. - zumindest bei den HPC chips kann man mit dem fertigen Siliconwafer erstmal noch nichts anfangen.

Ergo gehe ich davon aus, dass dieserart Festlegungen immer erst kurz von Designende bei NV erfolgen.
Was ist denn für dich Designende? Ist ein etwas schwammiger Begriff imo. Zum Chipdesign gehören Floorplaning, Tape in etc, schon dazu, da wäre es deutlich zu spät für Änderungen.

Und nein, wenn du glaubst dass nvidia hier noch last minute änderungen macht liegst du denke ich falsch.
Gerade nvidia legt so viele Chips auf dass die sich mit Ausnahme des größten und zweigrößten chips immer ganz gut überlappen. Wenn man also last minute Änderungen welche die performance betreffen würden machen würde, würde das auch die angrenzenden chips betreffen, die dann eine performanceklasse weiter rücken müssen.

Was nvidia stattdessen macht ist eine frühzeitige fixierung der Chips, aber nicht der SKUs die man damit baut.

Dass die Big chips wie AD102 und GB202 für den Consuer immer nur als Salvage auftauchen ist doch ein deutliches Zeichen das nvidia eben lieber deaktiviertes Silizium verschenkt welches man s ausgelegt hat dass es für alle eventualitäten ausreicht, als kurzfristig noch irgendwelche Änderungen am Chipdesign zu machen um die Marge zu optimieren.

Last minute entscheidet man nur noch ob die 80er Serie nun auf dem 102er 103er oder 104er Chip basiert. Oder ob das 60er Modell mit GDDR6 oder GDDR7 kommt. Ob mit 8 oder 12GB. Wobei hier eben auch Lieferverträge mit den DRAM herstellern den Handlungsspielraum einschränken, gerade bei neuen technologien wie GDDR7.

AffenJack

2026-04-10, 12:26:36

Der Größte Batzen ist aber Verification von RTL. Das dauert am längsten und da arbeiten die meisten Leute dran.

Wenn das abgeschlossen ist, hat man IP Blöcke die man nutzen kann und die einzeln verifiziert sind.

Das ist doch gerade das worum es Leonidas geht. An den IP Blöcken wirst du nichts mehr machen, aber du sagst ja selbst, dass es bis hierhin der größte Batzen ist. Gerade an dem Punkt kann man also noch Änderungen vornehmen.

Soweit ich dich verstanden hab ist hier das physische Design das nächstfolgende mit 6-10 Monaten. Wenn man also bei nem kleinen Chip schnell ist, könnten hier 18 Monate vor Release die letzten Änderungen erfolgen. Danach kann man nix mehr machen.

davidzo

2026-04-10, 14:51:36

Das ist doch gerade das worum es Leonidas geht. An den IP Blöcken wirst du nichts mehr machen, aber du sagst ja selbst, dass es bis hierhin der größte Batzen ist. Gerade an dem Punkt kann man also noch Änderungen vornehmen.

RTL ist zweigetilt. Der eine Teil ist das generieren von Verilog/VHDL. Das ist der deutlich kleinere Teil.

Verification zählt zwar formell auch RTL, frisst aber 60-70% der Zeit. Gefühlt ist jeder zweite Ingenieur bei intel oder AMD in Verification beschäftigt.

Es gibt zwar Verification reuse, aber das ist begrenzt auf:
- UVM Testbenches
- Assertions
- Coverage Models
- Golden Models

Es muss aber auch viel für jedes Derivat neu gemacht werden. Dazu zählen vor allem die aufwändigen Simulationen.
- System-Level Tests (Interconnect, Skalierung)
- Performance / Bandwidth Szenarien
- Corner Cases durch andere Topologie

Das hat klare Gründe:
- Viele Bugs entstehen erst durch Skalierung
- Bandbreite/Compute ist nicht bei allen Derivaten gleich. ein Chip für 1080p optimiert der eh nicht genug Vram für Ultra Texturen hat braucht ein anderes Verhältnis von Compute zu Bandbreite. Ebenso Caches, PCIe-Lanes, etc.

Was sind das für Bugs?
- Andere Die-Größe → andere Latenzen
- Andere Aspect Ratio
- Andere Hotspots
- Andere IR-Drop-Probleme
- Andere Frequenzziele
- Andere Spannungen
- Andere Platzierung
- Andere Fuses für die Binning Logik

Und wenn man einen mittleren Chip Hochskaliert (da kann AMD ein lied von singen):
- Interconnect Deadlocks
- Cache Coherency Issues
- Bandwidth Collapse

Soweit ich dich verstanden hab ist hier das physische Design das nächstfolgende mit 6-10 Monaten. Wenn man also bei nem kleinen Chip schnell ist, könnten hier 18 Monate vor Release die letzten Änderungen erfolgen. Danach kann man nix mehr machen.

Ja aber die 6-10Mo physische Design also vom tape in zum tape out sind nicht der letzte Schritt. Zwischen tape in und Launch datum vergehen ehr 1,5-2Jahre.

Nach dem Tape out muss ja TSMC erst die Masken Herstellern (4Wochen), dann Testchips produzieren. Dann kommen Wafertests, Binning, packaging, etc. Das können schonmal ein paar Monate sein bevor man wieder etwas in der Hand hält.

Und nach dem first Silicon kommt der Bringup. Bootet das überhaupt, funktioniert das memory training mit den taktraten? Timing probleme? Power delivery issues, Hotspots? Gibt es Workarounds, Microcode fixes oder ist ein Respin notwendig?
Das sind nochmal 3-6 Monate. In denen wird dann auch das Referenz PCB finalisiert, layer stackup, vrm empfehlung, etc.

Ein vollständig validiertes Referenzdesign ist häufig erst ein halbes Jahr nach first Silicon verfügbar.

Die AIBs brauchen dann nochmal 2-4Monate für den eigenen Ramp Up. Also Designanpassungen, Kühllösung, VRM, OC versionen etc. Dann Moulds bauen (spritzguss kühlerblende), Material bestellen, SMT Linen einrichten und die Endmontagestraße ausrüsten. Jigs und Fixtures für End of line testing.

Realistischerweise kannst du also 6-9Monate nach first Silicon an den Markt launchen. Wenn du Stückzahlen auf Lager haben willst und keinen Paperlaunch machen willst, dann eher noch 2-3Monate später.

robbitop

2026-04-11, 10:18:54

Ich hatte mal gehört, dass Nvidia diesen ganzen Prozess mit KI Unterstützung deutlich eingeschrumpft hatte und viel weniger manuell gemacht werden muss.

Leonidas

2026-04-11, 17:31:19

NV hat schon 6M zwischen Tape-Out und Release geschafft, aber das macht denen keiner so schnell nach. Normal bei GPUs sind 9-12M, bei CPUs sind es 1-1,5J.

Das Dauert. zwischen tape in und tape out liegen Monate bis fast ein ganzes Jahr.

Das war mir so nicht klar. Dies würde natürlich den Zeitpunkt, wo man sich zur Einheiten-Anzahl entscheiden muß, sehr weit nach hinten ziehen.

Frage hierzu: Wie normal ist es, dass dies wirklich lange dauert (fast ein Jahr) oder sind das nur Sonderfälle?

davidzo

2026-04-12, 10:28:29

Interessant, bei welchem Chip waren das 6Mo?

Die Daten beziehen sich auf eine Big fucking GPU (BFG), also B200 oder R100. Ein solcher cutting edge Chip braucht heutzutage 3-5 Jahre Vorlauf.
Es kann schon sein dass insbesondere die kleinsten Consumer Chips mit viel weniger Einheiten auch schnellere Durchlaufzeiten haben (weniger routing, weniger hotspot und vdroop probleme).

AMD nat ja bei navi44/48 Floorplanning reuse gemacht. Offensichtlich war usprünglich nur mit einem lowend monolitischen chip wie navi44 im Lineup geplant. Als navi41 und 42 gescheitert sind hat man also überlegt wie man am besten aus der Arbeit die bereits geflossen ist einen Chip für das performance segment machen kann. Navi44 aufbohren lag da also nahe. Letzendlich war RDNA4 zwar spät dran, aber nicht allzusehr verspätet gegenüber Blackwell.

Leonidas

2026-04-12, 16:40:35

Interessant, bei welchem Chip waren das 6Mo?

Das liegt etwas zurück und deswegen habe ich nicht mehr im Kopf. Aber sicherlich vor der Ära der 600mm²-Spitzenchips.

Lehdro

2026-04-12, 18:08:05

Wenn ich mich richtig erinnere müsste das Maxwell 1.0 / GM107 gewesen sein. Das ging wirklich unfassbar schnell und wurde unter anderem deswegen auch separat released.

Dural

2026-04-14, 11:15:33

davidzo

2026-04-14, 13:12:01

NV hat schon vor Jahren mal gesagt das sie jeden Chip / Architektur auf Server Cluster jeden einzelnen Transistor Simulieren. Sprich die GPU wird vollständig auf Software Basis simuliert, damit kann auch quasi alles getestet werden, nur halt viel langsamer. Die wissen schon Jahre zum voraus wie viel Leistung eine GPU Architektur / der Chip davon Leisten wird.

Simulationen sind nur so gut wie die Eingangsparameter. Und das sind Messungne bzw. Interpolationen. Performance Sims der µArch werden ja gemacht bevor du Floorplanning, Masken etc. machst, bevor das Referenz PCB finalisiert ist, etc. - da hast du also viele Parameter noch überhaupt nicht abgedeckt die aber das Endergebnis beeinflussen.

Gerade wenn du mit neuen Tehcnologien planst wie GDDR7 oder HBM4E, die parallel außer Haus entwickelt werden, musst du erstmal mit annahmen und early samples rechnen und nicht mit serienteilen zu stabilen yields.

Die Bugs werden heute schon beseitigt bevor es überhaupt ein Stück Silizium gibt. Deswegen gibt es seit Jahren ja quasi auch nur noch A1 Silizium. Vorbei sind die Zeiten mit A2, A3, oder sogar Bx.

Nein, die Komplexität und Respins verlagern sich bei 3D packages und Chiplets nur woanders hin. Anstatt einen Metal layer Respin zu machen wie früher bei Fermi wo fabric routing und power tree nicht auf die letzendliche nergiedichte ausgelegt waren kommt es heute häufiger vor dass der Interposer oder daspackage neu gemacht werden müssen. Siehst du ja gerade daran dass Nvidia mit Rubin Ultras Riesen-Interposer gescheitert ist und sich nun etwas anderes überlegen muss.
Übrigens war es bei mi300 dasselbe. ursprünglich wollte man ohne den gigantischen Cowos-S Interposer auskommen und eher wie RDNA3 auf organic RDL setzen um den HBM3 anzubinden, doch daraus wurde nichts.

Und die Aussage ist ca. 10 Jahre alt, heute dürfte das mit der deutlich höheren Rechenleistung und KI noch mal viel einfacher und schneller gehen.

Weil die Chips ja auch weniger Komplex werden, nicht?

Ich glaube die Menschliche Arbeit ist bei der Chip Entwicklung heute so wie so eher zweitrangig. Es geht viel mehr um die Ideen, die Umsetzung macht der Computer.
Das ist nicht wie LLMs arbeiten. Die sind reine Heuristik und sicher finden die 99% der Bugs, aber am Ende muss das immer ein Mensch kontrollieren. Ist auch bei Software so, dass der Job der übrig bleibt das Testing ist. Aber bei Hardware ist das Testing und Verification halt um Größenordnungen aufwändiger als das eigentliche Design.

Ich nutze KI auch in der PCB-Entwicklung, bzw. für die Schematics. Aber die Zeitersparnis ist sehr begrenzt weil irgendwer muss trotzdem das PCB und alle Bauteile bestellen, Paste printen, bestücken, löten und dann jede Funktion stück für stück zu verifizieren. Die proben zu montieren und alle Funktionen mit logic analyzer, oszilloscop, multimeter, electronic loads etc. einzeln in circuit zu testen dauert weitaus länger als das eigentliche Routing einen Monat zuvor gedauert hat. Wenn da 1% der Bugs noch unerkannt sind wiederholt sich der aufwändige analoge Part, nicht der schnelle digitale. Jeder vor dem Prototyping vergessene Bug ist also eine Katastrophe weswegen es sich lohnt lieber 100mal nachzuprüfen bevor man es zur Fertigung abschickt.

Das ist sicher nicht das gleiche wie Chip Design und ich bin mir sicher dass ich einiges davon demnächst noch wegautomatisieren kann, zeigt aber ein bisschen dass die Paradigmen bei Hardware eben andere sind als bei reiner Software.

basix

2026-04-14, 16:16:42

Aber bei Hardware ist das Testing und Verification halt um Größenordnungen aufwändiger als das eigentliche Design.
100% ack. Und das gilt auch für "einfaches" Zeugs wie normale PCBs.

Jeder vor dem Prototyping vergessene Bug ist also eine Katastrophe weswegen es sich lohnt lieber 100mal nachzuprüfen bevor man es zur Fertigung abschickt..
Da bin ich mittlerweile leicht anders unterwegs. Aufwändige Testserien sicher, die muss man planen und müssen gut vorbereitet sein. Aber ein erstes Muster bestellen, wo man Kinderkrankheiten und übersehene Fehler oftmals innerhalb weniger Stunden findet, lohnt sich sehr oft. Vor allem, wenn man bei der Prototypenbestellung auch vieles vom Corporate Process Overhead weglassen kann, damit es schneller geht. Fast prototyping, fail fast, learn fast ist da schon nicht schlecht. Wir hatten da auch schon andere Fälle, wo man 3 Monate lang am Design gebastelt, reviewed, Prozesse angestossen usw. hat und sobald die HW ankam, hat man innerhalb der ersten Stunde schon einen dummen Fehler gefunden.

robbitop

2026-04-14, 16:38:04

Das ist aber sicher was anderes bei modernen GPUs mit bleeding edge nodes wo allein die Masken ein Vermögen kosten. ;)

basix

2026-04-14, 21:13:51

Klar, ist nicht ganz das selbe. Aber ich vermute auch bei Chips gibt es Prototypen Runs. Die laufen für bestimmte IP allenfalls auf einem kleinen Testchip (PHY, analog) oder im FPGA (digitale IP). Da kann man eher iterieren. Nur simulieren reicht nicht.

Skysnake

2026-04-15, 11:42:38

Ja für PHYs usw wird das Auch über multiprojekt runs gemacht.

Aber ne ganze GPU haust di da nicht rein. Klar wird man erst nen kleineres Sample mit ein paar Wafern komplett durchschicken um eben metal spins machen zu können, aber du hast nen ziemlich großen Batch an Wafer mit Transistoren da liegen. Ein komplett neues Transistorstepping willst du nicht haben.

Man muss hier auch ganz stark aufpassen digital und Analogdesign nicht zu verwechseln. Analogdesign simuliert du in ųs Skalen. Millisekunden ist da schon echt die Ausnahme und man muss tricksen bei den GHz Signalen. Digitaldesign word von Nvidia usw aber heutzutage über FPGAs simuliert. Da hast du dann "nur" noch Faktor 10 oder so niedrigere Taktraten und eben die Sache mit dem.Layout und timeing closeure. Aber die Logik an sich kannst du vor dem Silizium testen und weißt das am Ende nur der Takt noch etwas unsicher ist wo es halt stabil läuft.