nVidia Blackwell (Nachfolger von Hopper & Ada, 2025) [Archiv] - Seite 3

robbitop

2024-01-28, 11:47:46

Ja das stimmt aber AMD konnte den Haloeffekt seit den Tagen der 9700pro/9800pro/X800/850 nicht mehr richtig nutzen, da man selten klar vorn war. Einfach nur zweiter zu werden oder gleichschnell aber featurenachteile bringt keinen halo Effekt. Auch muss man den Ruf über mehrere Generationen konsistent aufbauen und oben halten wenn man das nutzen will (oder aber ganz oben richtig fett gewinnen wie damals r300 vs nv30).
Da das wohl im Moment nicht drin ist, kann AMD das Topmodell auch weglassen.

robbitop

2024-01-28, 11:51:27

Man bekommt ja auch einen Gegenwert. Es gibt auch Leute die jedes Jahr ihr high-end Smartphone wechseln. Aber wie gesagt, darf ja jeder selbst entscheiden.

Den Gegenwert hat man viele Jahre auch für einen Bruchteil bekommen. Der Wert ist gleich geblieben aber der Preis ist massiv nach oben geschossen. Für den Preis einer 4090 bekommst du einen ziemlich guten kompletten Gaming PC. Es ist nur noch irrwitzig. Der Wert steht in keinem Verhältnis mehr.

The_Invisible

2024-01-28, 12:12:02

Für den Preis einer 4090 bekommst du einen ziemlich guten kompletten Gaming PC. Es ist nur noch irrwitzig. Der Wert steht in keinem Verhältnis mehr.

Jap aber das war schon immer so in anderen Bereichen, siehe (Premium-)Neuwagen die beim ersten mal starten schon ein paar k vernichten oder Extras schon mehr kosten als komplette Autos, kaufen die Leute aber trotzdem schon seit Jahrzehnten. Ich fahre halt keine Neuwagen oder Autos im Premiumsegment und erspar mir dadurch zig 4090er, jeder wie er will.

@RDNA4
Bin jedenfalls gespannt, vor allem da Nvidia ja auch normal immer die Highend-SKUs zuerst bringt, wenn RDNA4 wirklich ein starker Gegner für die 5070 wäre würde das einiges durcheinanderbringen. Ich fänds aber spaßig :D

basix

2024-01-28, 12:38:53

Das hat nichts mit der Realität zutun. Wenn das Ding fertig ist, releast man. Alles andere ist ökonomischer Blödsinn. Die einzigen Gründe ein Produkt zurückzuhalten ist, wenn man noch Haufenweise Lagerbestände des alten hat, nicht genug des neuen liefern kann oder die Margen beim alten Produkt besser sind.

Die Konkurrenz hat am Ende Einfluss auf die Preisgestaltung und Abspeckung der Chips, aber kaum auf das Datum.

Nvidia kann sehr wohl Sachen "beschleunigen" oder abbremsen:
- R&D Ressourcen umlagern
- Chip-Bestellungen bei TSMC drosseln oder erhöhen
- GPU Preise senken
Das Design wird sicher fertig sein, da ändert RDNA4 wohl nichts. Aber die Produkteinführung kann man verschieben.

Nvidia macht das, was ökonomisch am meisten Sinn macht. Und das ist nicht zwingend eine neue GPU-Generation mit potentiell N3E (=teuer und evtl. knappe Wafermenge) und teurem GDDR7. Du sagst es ja in deinem Post selber. Wenn RDNA4 sehr gut sein sollte, was passiert? Weniger Nvidia GPUs werden verkauft, höhere Lagerbestände. Hey, AMD hat direkten Einfluss auf diese Sachen bei Nvidia ;) Mit tieferen Preisen wird man die Ada Karten nun schon los. Nvidia will aber tunlichst nicht die Preise senken, die lieben die hohen Margen. Also werden sie die Chipproduktion von Ada runterfahren, Lager leeren und Blackwell so früh wie möglich einführen, damit die Margen wieder hochgehalten werden können. Was wenn RDNA4 schlecht sein sollte? Nvidia kann nun auswählen: Wenn Lovelace für ein paar Monate finanziell attraktiver ist lässt man die weiterlaufen und Blackwell kommt später. Oder man führt Blackwell trotzdem früh aber zu allenfalls nochmals gesteigerten Preisen ein. Das heisst: RDNA4 = Schlecht = Nvidia kann agieren. RDNA4 = Gut = Nvidia muss reagieren.

dargo

2024-01-28, 12:39:01

Richtig.

Wenn RDNA alles bis und mit 4070 TI Super oder gar 4080S "abrasiert" (Performance/Watt, P/L, VRAM-Menge) ist das für mich stark.
Leos Auswertung von den Mindfactory Zahlen zeigt, dass >90% des Umsatzes ausserhalb der 4080/4090 Preiskategorien gemacht wird. Kann AMD für 600-700$ und darunter sehr attraktive Angebote bieten, macht man Nvidia auch ohne Performancekrone ordentlich Konkurrenz.
In dem Fall kann Nvidia schon "genötigt" werden, Blackwell nicht zu verzögern und später zu releasen. Dann released man, sobald Blackwell fertig ist.
Möglicherweise ändert NV diesmal die Strategie bei den Releases. Zuerst kommen unten rum die ganzen SKUs und der Topdog erst später. Gabs schon mal mit Maxwell.

robbitop

2024-01-28, 12:46:29

Jap aber das war schon immer so in anderen Bereichen, siehe (Premium-)Neuwagen die beim ersten mal starten schon ein paar k vernichten oder Extras schon mehr kosten als komplette Autos, kaufen die Leute aber trotzdem schon seit Jahrzehnten. Ich fahre halt keine Neuwagen oder Autos im Premiumsegment und erspar mir dadurch zig 4090er, jeder wie er will.
Ein Auto ist ja wohl was ganz anderes als eine GPU. X-D
Ein Auto bringt die jeden Tag von A nach B und kostet auch schon immer 10 tausende. Und der Wert (nicht der Preis) ist da ein ganz anderer.

Aber wie du schon sagst - wen Gegenwert nicht stört klar immer her damit. Mein persönliches Motto im Leben zu Konsum ist: P/L muss immer stimmen. Und P ist gar nicht primär solange das L zum P passt. ;) Aber bei ner GPU für ~2000 EUR ist das einfach nicht mehr der Fall - das ist einfach nur Gaga. IMO.

@RDNA4
Bin jedenfalls gespannt, vor allem da Nvidia ja auch normal immer die Highend-SKUs zuerst bringt, wenn RDNA4 wirklich ein starker Gegner für die 5070 wäre würde das einiges durcheinanderbringen. Ich fänds aber spaßig :D
Auf jeden Fall täte es dem GPU Markt gut. Wettbewerb belebt das Geschäft und ist für uns Endkunden immer gut. Wir können weiterhin auch nur hoffen, dass Intel mit ARC irgendwann mal auf diese Schiene kommt. Je mehr desto besser für uns.

basix

2024-01-28, 12:46:52

Möglicherweise ändert NV diesmal die Strategie bei den Releases. Zuerst kommen unten rum die ganzen SKUs und der Topdog erst später. Gabs schon mal mit Maxwell.

Wird man nur machen, wenn GB103 ein gutes Stück schneller wäre als AD102. Die GTX 750 war eine Ausnahme. In allen anderen Fällen (GK104, GM204, GP104) hat der zweitgrösste Chip die Performancekrone übernommen. Und der Top Dog kam später.

Führt man GB102 zuerst ein, hat man mMn den deutlich grösseren "Wow-Effekt". Will man GB103 zuerst bringen, müsste folgendes erfüllt sein:
- +20...30% schneller wie die RTX4090
- 24 GByte Speicher
- Deutlich effizienter und günstiger wie eine RTX4090

Kann so kommen. Darauf wetten würde ich aber nicht.

dildo4u

2024-01-28, 12:53:47

Mindfactory Zahlen gehen viel zu viel Richtung High-End die best verkaufte GPU in 2023 ist mit Sicherheit die 3060.
Das Problem bei NV Low End ist also Preis was man nicht mit 3nm Modellen löst, ich wette NV kann nicht drauf warten das nur High-End die neuste Fertigung nutzt.

Troyan

2024-01-28, 13:07:23

Aber wie du schon sagst - wen Gegenwert nicht stört klar immer her damit. Mein persönliches Motto im Leben zu Konsum ist: P/L muss immer stimmen. Und P ist gar nicht primär solange das L zum P passt. ;) Aber bei ner GPU für ~2000 EUR ist das einfach nicht mehr der Fall - das ist einfach nur Gaga. IMO.

Ergibt null Sinn. Die 2000€ Karte erlaubt 60 FPS in nativen 4K: https://www.kitguru.net/components/graphic-cards/dominic-moass/amd-rx-7600-xt-review-ft-sapphire/25/

Die Konkurrenz schafft das gerade mal in 1080p. Logik folgend: Ein 4K Monitor ist gaga, weil 1080p deutlich günstiger ist. ;D

The_Invisible

2024-01-28, 13:35:10

Ein Auto ist ja wohl was ganz anderes als eine GPU. X-D
Ein Auto bringt die jeden Tag von A nach B und kostet auch schon immer 10 tausende. Und der Wert (nicht der Preis) ist da ein ganz anderer.

Naja eins um 10k bringt dich genauso nach B wie eins um 100k. Aber egal, jeder hat seine Prioritäten, zum glück sonst wärs eh langweilig.

Und ja, hoffe auch das Intel gut mit zieht, wäre spannend wenn da 3 vendors im gleichen Performance Segment wildern

AffenJack

2024-01-28, 16:12:45

Nvidia kann sehr wohl Sachen "beschleunigen" oder abbremsen:
- R&D Ressourcen umlagern

Dazu müsste Nvidia 2 Jahre vor Release wissen, wie RDNA4 wird. In der Bringupphase bringt das nicht mehr viel.

- Chip-Bestellungen bei TSMC drosseln oder erhöhen

Hier sind wir auch bei nem Jahr vorher, wo Nv schon genau wissen müsste wo RDNA4 landet, damit man da Änderungen vornimmt. Kurzfristig ist das viel zu kostspielig.

- GPU Preise senken
Das Design wird sicher fertig sein, da ändert RDNA4 wohl nichts. Aber die Produkteinführung kann man verschieben.

Das ist der einzige Dreh- und Angelpunkt um auf RDNA4 zu reagieren.

Nvidia macht das, was ökonomisch am meisten Sinn macht. Und das ist nicht zwingend eine neue GPU-Generation mit potentiell N3E (=teuer und evtl. knappe Wafermenge) und teurem GDDR7. Du sagst es ja in deinem Post selber. Wenn RDNA4 sehr gut sein sollte, was passiert? Weniger Nvidia GPUs werden verkauft, höhere Lagerbestände. Hey, AMD hat direkten Einfluss auf diese Sachen bei Nvidia ;) Mit tieferen Preisen wird man die Ada Karten nun schon los. Nvidia will aber tunlichst nicht die Preise senken, die lieben die hohen Margen. Also werden sie die Chipproduktion von Ada runterfahren, Lager leeren und Blackwell so früh wie möglich einführen, damit die Margen wieder hochgehalten werden können. Was wenn RDNA4 schlecht sein sollte? Nvidia kann nun auswählen: Wenn Lovelace für ein paar Monate finanziell attraktiver ist lässt man die weiterlaufen und Blackwell kommt später. Oder man führt Blackwell trotzdem früh aber zu allenfalls nochmals gesteigerten Preisen ein. Das heisst: RDNA4 = Schlecht = Nvidia kann agieren. RDNA4 = Gut = Nvidia muss reagieren.

Wenn RDNA4 gut wird, dann wird Nvidia Blackwell kompetitiver bepreisen. Wenn RDNA4 schlecht ist, dann kann man Blackwell noch höher von den Preisen ansetzen. Wieso sollte man bei einem schwachen RDNA4 die Möglichkeit für höhere Margen und Gewinne sausen lassen?
Der Releasezeitpunkt wird sich nicht verändern durch RDNA4. Wenn Ampere finanziell attraktiver für Nvidia ist, dann schiebt man Blackwell so oder so nach hinten. Du schreibst es doch im ersten Satz, Nvidia macht das, was ökonimisch am meisten Sinn macht. Denen ist egal, ob da Ampere oder Blackwell drauf steht. Ein neues Design sollte aber in der Regel immer höhere Margen oder Gewinne als das alte ermöglichen, selbst wenn man keine Konkurrent hat. Sonst hat man das Design ordentlich verhauen.

Pfuscher

2024-01-28, 16:53:18

Könnt ihr mir bitte erklären in welchen Anwendungsfällen Nvidias Server mit AMD/Intel/Grace Cpu vom Kunden verwendet werden. Individuelle Einsatzgebiete, Stärken/Schwächen. Dankeschön.

basix

2024-01-28, 16:58:14

Wenn RDNA4 gut wird, dann wird Nvidia Blackwell kompetitiver bepreisen. Wenn RDNA4 schlecht ist, dann kann man Blackwell noch höher von den Preisen ansetzen. Wieso sollte man bei einem schwachen RDNA4 die Möglichkeit für höhere Margen und Gewinne sausen lassen?
Der Releasezeitpunkt wird sich nicht verändern durch RDNA4. Wenn Ampere finanziell attraktiver für Nvidia ist, dann schiebt man Blackwell so oder so nach hinten. Du schreibst es doch im ersten Satz, Nvidia macht das, was ökonimisch am meisten Sinn macht. Denen ist egal, ob da Ampere oder Blackwell drauf steht. Ein neues Design sollte aber in der Regel immer höhere Margen oder Gewinne als das alte ermöglichen, selbst wenn man keine Konkurrent hat. Sonst hat man das Design ordentlich verhauen.

Es gibt auch so Sachen wie Wafer-Kapazität (falls N3E) und Kunden-Preissensitivität. Du kannst höhere Preise verlangen, wenn du willst. Das wird aber nicht jeder mitmachen, egal wie gut dein Produkt ist. Ada hat die Preise enorm nach oben gezogen. Und anhand der eher schlechten 4070 Ti und 4080 Verkaufszahlen sieht man, dass das nicht beliebig geht. Auch eine 4060 Ti verkauft sich jetzt nicht mega gut.

Höhere Margen und Gewinne: Ja, sollte ein neues Produkt ermöglichen können. Im Idealfall. Aber bei teureren Einzelkomponenten und/oder veränderten Marktverhältnissen ist das nicht zwingend erreichbar. Margen unendlich steigern funktioniert nicht, zumindest nicht wenn Konkurrenz da ist und Kunden nicht beliebige Preise zahlen wollen.

Am Ende können wir es auf eine einzelne Frage reduzieren: Verdient Nvidia mit Ada Karten mehr als mit Blackwell Karten? Wenn RDNA4 gut ist, wird es definitiv auf letzteres hinauslaufen. Falls RDNA schlecht wird, ist die Sachlage nicht ganz klar (das weiss nur Nvidia). Ada könnte hier aber vorteilhaft sein, da potentiell billiger herstellbar bei entsprechend hochgehaltenen Preisen. Bei Blackwell kann Nivida bei höheren Produktionskosten wohl mehr verlange, aber eben nicht beliebig viel.

rentex

2024-01-28, 17:01:24

In RDNA4 wird es keine High-End Karten geben. Daher wird Blackwell eher gut für NV laufen.

reaperrr

2024-01-28, 17:15:47

In RDNA4 wird es keine High-End Karten geben. Daher wird Blackwell eher gut für NV laufen.
Das ist aber generell eher ein Argument dafür, wie bei Ada mit HighEnd anzufangen und sich dann langsam nach unten zu arbeiten, weil oben null und unten nur mäßiger Druck da sein wird und man oben daher schön Marge abgreifen kann.

Gegen die Mainstream-RDNA4 kann NV auch erstmal mit Preissenkungen bei Ada-Karten bestehen, ohne dass die Marge gleich auf +/- 0 oder ins Negative sinkt.
Dass N44 und N48 die performance-mäßigen Ada-Konkurrenten in Sachen Herstellungskosten und Preisen gleich massiv unterbieten, glaube ich eher nicht.

lilgefo~

2024-02-12, 16:56:21

An den Preisen wird da gar nichts gedreht (jedenfalls nicht nach unten). Die werden und sind gesetzt durch nv, amd muss sich dem anpassen und einreihen solange sie nichts Besseres haben. Die Frage ist eher wie viel (bzw. wenig) "Chip" NV noch liefern muss, das ist der Hebel (über die Marge) den sie verstellen werden. Gut möglich, dass sie für die 90er Sku gar nicht mehr auf einen gb202 zurückgreifen müssen, sondern gb203 für Enthusiast und (evtl.) High-End kommt und alles darunter wird komplett durch noch kleinere Chips übernommen.
Ada hat es ja schon vorgemacht, noch nie war eine 90er sku bzw. äquivalent so weit entfernt vom Vollausbau (>10% deaktivierte Einheiten).

The_Invisible

2024-02-12, 17:14:24

Ist halt die Frage ob es nicht nur den Yields geschuldet war das die 4090 so beschnitten war. GB203 für die 5090 würde meiner Schätzung nach nicht genug Mehrleistung bringen, der Abstand zwischen 4080 und 4090 ist auch sehr groß (bei hoher Last schon mal >40%), die muss man erstmal einholen. Zudem sollte sie 50% mindestens drauflegen damit es interessant wird.

OgrEGT

2024-02-12, 17:51:05

An den Preisen wird da gar nichts gedreht (jedenfalls nicht nach unten). Die werden und sind gesetzt durch nv, amd muss sich dem anpassen und einreihen solange sie nichts Besseres haben. Die Frage ist eher wie viel (bzw. wenig) "Chip" NV noch liefern muss, das ist der Hebel (über die Marge) den sie verstellen werden. Gut möglich, dass sie für die 90er Sku gar nicht mehr auf einen gb202 zurückgreifen müssen, sondern gb203 für Enthusiast und (evtl.) High-End kommt und alles darunter wird komplett durch noch kleinere Chips übernommen.
Ada hat es ja schon vorgemacht, noch nie war eine 90er sku bzw. äquivalent so weit entfernt vom Vollausbau (>10% deaktivierte Einheiten).
Dieser Logik folgend dürfte Intel nach Jahren der Dominanz nicht da sein wo sie jetzt sind... was hat man nicht spekuliert was Intel alles in der Schublade ready hat...

lilgefo~

2024-02-12, 20:08:17

Ist halt die Frage ob es nicht nur den Yields geschuldet war das die 4090 so beschnitten war. GB203 für die 5090 würde meiner Schätzung nach nicht genug Mehrleistung bringen, der Abstand zwischen 4080 und 4090 ist auch sehr groß (bei hoher Last schon mal >40%), die muss man erstmal einholen. Zudem sollte sie 50% mindestens drauflegen damit es interessant wird.

Ich glaub persönlich auch nicht, dass gb203 reicht. Anderseits muss nv ja erstmal nur sich selber schlagen, wieviel %+ sie dann anpeilen auf die 4090 ist dann die Frage. Könnte auch sein, dass man für Rasterleisung kaum mehr bietet dafür aber mehr im Bereich RT draufpackt. Wenn nach rdna4 noch was kommt kann man ja immer noch hochskalieren.

Dieser Logik folgend dürfte Intel nach Jahren der Dominanz nicht da sein wo sie jetzt sind... was hat man nicht spekuliert was Intel alles in der Schublade ready hat...

Keine Ahnung was du spekuliert hast was Intel irgendwann mal in der Schublade hatte. Mit meinem Post zur Blackwell/rdna4 Situation hats jedenfalls nix zu tun.

OgrEGT

2024-02-12, 22:09:55

(...)
Keine Ahnung was du spekuliert hast was Intel irgendwann mal in der Schublade hatte. Mit meinem Post zur Blackwell/rdna4 Situation hats jedenfalls nix zu tun.
Direkt vlt nicht aber diese Argumentation gab es schon mal... ist aber schon ein paar Jahre her...

Leonidas

2024-02-16, 03:48:54

Gabs schon mal mit Maxwell.

Nicht wirklich. GTX750 war ein Vorgriff auf Maxwell noch innerhalb der Vorgänger-Generation, ist aber auch die Ausnahme von der Regel. Das reguläre Maxwell-Portfolio wurde dann doch wieder von oben nach unten releast.

PS: (angebliche) Blackwell-Specs von RTG
https://www.3dcenter.org/news/news-des-15-februar-2024

Altehardware

2024-02-16, 14:27:22

habe das video auch gesehen aber dazu eins warum das nicht so geht
Es stimmt das es 192sm geben wird aber in 6 tpc die in 12gpc zu je 16sm sind
Das geht nicht anders Aufgrund des Treibers, die Anmerkung auf 256fp32 int32 hybrid dürfte nicht stimmen.
eine dual issue möglichkeit ist auch kaum vorstellbar über 3,0gz ist sicher ich gehe hart von 3,2ghz aus bei gleichzeitiger 22% Energieeinsparung
Das SI wird kleiner das steht sicher von 64 bis 256bit
Der größte Ausbau dürfte der gb203 am desktop werden und der gb202 dürfte die 320bit nicht übertreffen.
Das warum ist schnell erklärt
Das SI schrinkt nicht mehr mit dem node bis n2x
Ein n3p Wafer kostet 20000$ das weis ich
tsmc gibt an 30% Energieeffizienz oder 15% Takt
beim n3 node n3p bis zu 20% takt 40% Energieeffizienz
n4x hat definitiv 11% mehr Takt oder 22% Energieeffizienz die man mitnimmt.
Die chips dürften so gestaffelt sein

gb207 2gpc 32sm sku ab 26sm bis maxed 32sm vermutlich laptop only chip Größe grob 84mm² +-748 stk =27$ 14,6tf-18tf

gb206 4gpc 4gpc 64sm sku ab 44sm bis 64sm 60 60ti 70 Class gpu chip Größe grob 150mm² +-376stk =54$ 24,8tf-36,0tf

gb205 6gpc 96sm sku ab 72sm bis 90sm 70ti 80 class gpu chips größe grob 207mm² +-274 73$ 40tf-50tf

gb203 8gpc 144sm sku ab 128sm 90 class gpu chip Größe grob 266mm² +-207 97$ 72tf

gb202 12gpc 192sm sku ab 156sm -180sm Titan chip Größe grob 414mm² +-128stk 157$ 87tf-101tf

Das was die gen teuer macht ist gddr7 24gbit 36gbps daher wird nvidia versuchen den gb207 als 60 class zu vermarkten das aber wird amd verhindern mit dem n48 und n44
Gut möglich das noch ne sehr teure 50 class kommt
etwa so
rtx5050 300$ gb207 26sm 12gb an 64bit 288gb/s 100w tbp vs rx8600 n44 28cu 300$ 16gb 317gb/s 160w tbp (14,6 vs 16,3tf)
rtx5050ti gb207 32sm 12gb an 64bit 288gb/s 110w tbp vs n48 rx8600xt 350$ 16gb 317gb/s 180w tbp (18 vs 18,6tf)
rtx5060 44sm 15gb 80bit 360gb/s 150w tbp 420$ vs n48 48cu rx8700xt 450$ 16gb 635gb/s 220w tbp (24,8 vs 28tf)
rtx5060ti 52sm 18gb 96bit 432gb/s 170w tbp 500$ vs n48 56cu rx8800xt 500$ 16gb 635gb/s 250w tbp (29,2 vs 32tf)
rtx5070 64sm 18gb 96bit 432gb/s 200w tbp 600$ vs n48 64cu rx8800xtx 600$ 16gb 635gb/s 280w tbp (36tf vs 37tf)

Die Namen können sich ändern die chip konfigs dürften passen.
N44 kommt spät da amd gerade sich selber konkurriert daher wird zuerst n48 kommen

Zeitplan amd
q4 2024 n48 amd release zeitgleich zur ps5 pro mit 56cu
amd rx8700xt r8800xt rx8800xtx besagte von 450$ bis 600$

nvidia rtx5060 nicht vor q2 2025 da amd kein Konkurrenzprodukt vorstellt.
Daher wäre ein release den gb207 als rtx5060 denkbar aber unklug
amd noch weiter den n48 zu kastrieren wäre drin mit nur 40cu grob die perf des rtx5060 bsp mit 44sm +-24,8 vs 23,3tf
Das ist aber eher unwahrscheinlich
Da nvidia bis q4 2024 noch die rtx4060ti super bringt 42sm 450$ mit 12gb etwa 20tf, damit die rtx4070 die 500$ marke nicht einbricht

nvidia Zeitplan
q3 bis q4 2024 rtx4060 ti super 42sm und rtx4060 super 30sm (16gb) preise tippe ich auf 450$ und 350$
q1 2025 rtx5090 1600$ rtx5080 1000$ (gb203 und gb205)
q2 2025 rtx5070 600$ rtx5060ti 500$ rtx5060 420$ (gb206)
q3 2025 rtx5050/ti 300$ 350$ (gb207)

amd Zeitplan
q4 2024 rx8700xt rx8800xt rx8800xtx 450-600$
q2 2025 rx8600xt rx8600 300-350$
q4 2025-q1 2026 rdna 5 high end 180cu und 156cu 1500$-2500$ +- 97-109tf

ab dem Zeitpunkt kommt die Titan raus mit 192sm sofern nvidia so viele chips dafür hat.
Beide Optionen sind drin gb202 mit 180sm sichere variante oder gb202 mit vollen 192sm letztere könnte auch 190sm sein.
am ende sind es grob 107tf bis 108tf
nvidia wird definitiv gegen amd rdna5 verlieren.
ich bin mir da sicher weil amd beim n3p node mit rdna5 kommt und nochmal gut 15% Takt zulegen wird was bis dahin 4,5ghz sind.

Die 5ghz gpu wird vermutlich früher kommen als gedacht in n2x node 2027 mit rdna6
nvidia wird ab rubin (rtx60) die Architektur komplett umbauen.

achja Ai hype ist gerade am Sterben daher erwarte ich nicht das nvidia den Fokus weiter darauf setzen wird.

maximus_hertus

2024-02-16, 15:03:33

Das reguläre Maxwell-Portfolio wurde dann doch wieder von oben nach unten releast.

Bei Kepler, Maxwell und Pascal wurden zu erst die x04er Chips gebracht, dann die kleineren und zum Finale dann erst der x02er? Also eher von der Mitte runter und zum Schluß dann das Flaggschiff.

Erst ab Turing gab es den x02er direkt von Anfang an?

horn 12

2024-02-16, 15:27:51

@AlteHardware

Wie schnell werden dann deine AMD GPU´s in etwa

Zeitplan amd
q4 2024 n48 amd release zeitgleich zur ps5 pro mit 56cu
amd rx8700xt r8800xt rx8800xtx besagte von 450$ bis 600$

und kommt Nvidia dann,- wenn frühestens in einem Jahr daher?

Altehardware

2024-02-16, 17:32:45

vs aktuell nun die amd rx7900xtx wird mit dr rx8800xtx knapp geschlagen kan auc gleichstand heißen da dies vom Takt abhängt ich ging von etwa 3,9ghz aus gpu clock was das maximum darstellen wird.
Das ist rtx4080 level und kommt wie gesagt zuerst raus zeitgleich zur ps5 pro
Die Reaktion darauf wird Preisanpassungen der rtx4070 ti super sein
Die 600$ nehme ich an da man diese perf nur erreicht wenn das TBP limit gehalten werden kann.
Den das ist noch nicht sicher zwischen 250w-300w könnte sein das amd diese auf 220w begrenzt was den Takt senken wird auf nur noch 3,5ghz
Wie ich darauf komme nun das hat mit den apu zu tun 16cu 45w beim strix point deuten es an. (3,3ghz)
Demnach wäre die rx8800xtx mit der rtx4080 perf mit 250w denkbar ich gehe aber von 220w tbp aus
amd gibt immer Takt bis an also bis die tbp erreicht wird. Der node dürfte bei gut 3,5ghz min bei 220w erreichen bis 250w mit 3,9ghz
es greift bei rdna4 erst die rdna3 Effizienzverbesserungen von n5 das sind alleine 30% vs rdna2 rdna3
Dazu kommt da durch die Änderungen an den Cu der Takt um 25% zugelegt hatte was man bei rdna3 deaktiviert hatte weil es zu Datenfehlern kam darum der geringe Takt ursprünglich waren 3,2ghzt angepeilt bei-30% strombedarf vs rdna2
Somit wäre ohne datenfehlern in rdna 3 die rx7900xtx bei +70% vs rdna2 rx6950xt gekommen anstatt den derzeitigen +30%
von den 3,2ghz kommen 11% wegen den Node und nochmal 10% durch Arch Verbesserungen an dual issue dazu vermutlich 25% der cu per Takt statt den 17%
Fakt ist von den 16cu mit 45w in n6 node aus ergibt das 3,7-3,9ghz sind wahrscheinlich und werden lediglich vom tbp aufgehalten. Das macht der node sprung alleine von n6 zu n5 zu n4x

rdna4 wird ein sprung darstellen wie einst gcn5 vs rdna erste gen wo auch die Stromaufnahme halbiert wurde.

ja das wäre effizienter als nvidia das liegt an den vollen 30% des n5 node den man mitnimmt
Das verdanken wir den dual issue ansatz von min 17% bis 25% die ich erwarte daher sind die 37tf einer rx7900xtx sehr wahrscheinlich egal ob das mit 3,55 oder mit 3,9ghz erreicht wird
ich gehe aber davon aus das man aggressiv mit der ps5 pro im rücken damit angreifen wird.
Den der chip wurde für sony entwickelt. Das der am desktop kommt kann nur bedeuten das amd versuchen wird damit die nvidia midrange anzugreifen.
Darum wird nvidia reagieren müssen zuerst mit ner rtx4060ti super und rtx4060 super.
Wie gesagt ich erwarte von amd 3 rdna4 n48 sku 64cu 56cu 48cu potenziell noch ne sku mit 40cu
Die chips werden billig 25$ und 60$ gddr6 20gbps steht sicher 16gb ebenso maxed 24$
n48 maximal um die 300mm² 59$ + 24$ vram bom 40$ aib und rest grob ab 300$ endkundenpreis
amd Vermarktung marge rauf auf 200%-300% billigste sku ab 400$ teuerste ab 600$
Derzeitige marge amd grob bei 80%

amd wartet derzeit den Abverkauf der n33 n32 n31 chips ab und hat vermutlich sogar die Produktion eingestellt.
Der chip ist schon seit nov letzten Jahres aus den tape out
frühester releaae also q2 2024 spätester q4 2024
tape out zu release üblich 6 Monate

Das klingt viel zu optimistisch aber alles spricht dafür das es so kommt
es wird amd pascal moment von nvidia wo die marge explodierte und die perf stark steigen wird für den Kunden bei 400$ preispunkt bis zu 30% (rx6800) wenn amd gnädig ne 40cu sku bringt
Dabei steigt die marge von nur 80% bei rdna2 und rdna3 auf 300% amd wäre blöd wenn diese chance nicht ergreifen
Der n44 wäre sogar mit nur sku preise ab 200$ lukrativ da der chip nur 120mm² misst und nur 30$ kostet
Ähnlich lukrativ ist der n33 mit nur 25$ derzeit.

KarlKastor

2024-02-16, 18:51:54

@altehardware

Völlig absurde Zahlen. Da wird überhaupt nichts von stimmen. Die Speicherinterfaces werden garantiert nicht so klein. Was soll denn eine 64 SM SKU mit 400 GB/s.

Und wie kommst du auf diese Die Size? Selbst in N1 werden die nicht so klein.
144 SM AD102 misst über 600 mm². Selbst komplett ohne Speicherinterfaces sind das in N3E noch über 400 mm².

Altehardware

2024-02-17, 02:12:05

Wie ich darauf komme n5 zu n3 1-0,58 dense
Si schrumpft nicht und macht heute gut 45% des chips aus.
Wenn das Si halbiert wird werden die chips drastisch kleiner. Die ali mit sram und rest machen noch 55% wenn nvidia das nicht halbiert dürfte dann 70% Si vs 30% alu und Rest werden das wäre wirtschaftlich ne Katastrophe und sku könnten nicht unter 500€ kosten für ein gb207 chip
klar ist dann die Bandbreite gering aber das kümmert nviida nicht da deren plan so ist 07 chip laptop 06 1080p 05 1440p 03/02 2160p
Die Bandbreite ist auc nicht das Problem derzeitige spiele brauchen in 1080p um die 300gb/s
In 1440p maximal 500gb/s
In 2160p maximal 660gb/s
Die meisten spiele werden in 1080p und zunehmend in 1440p hin designt das wären min 10gb vram oder bei 1440p min 16gb vram
Selten mal was 2160p mit mehr als 20gb
Spiele werden primär für die Konsolen designt am Pc wird angepasst ausgenommen sind indi spiele die haben oft specs von der Vorgänger Konsole gen was heute ne ps4 pro wäre 4,0tf 8gb 217gb/s (2017)
Mit 12gb vram muss man etwa 360-440gb/s haben damit die gpu nicht an Bandbreite verhungert
klar ist das eng aber nvidia hat keine andere Wahl als so vorzugehen
Die alternative wäre blackwell in n4x node zu bringen ud a uf die Taktkeule zu setzen oder teurere chips zu designen und nochmal auf gddr6x zu setzen
Das aber wurde zuletzt durch Meldungen das nvidia massiv gddr7 gesichert hat entkräftet
zumal dann die Effizienz Nachteil kommt amd wird sehr Kompetitiv werden mit rdna4 und sogar effizienter als nvidia in 4n node.

KarlKastor

2024-02-17, 03:27:04

Wie ich darauf komme n5 zu n3 1-0,58 dense

Logik density ist x1.6, SRAM x1, analog x1. Da eine GPU zu etwa 50% aus Logik besteht, steigt die Gesamtdichte um 1.3.
Eine SM selber hat auch noch große Mengen an SRAM. Das skaliert nicht annähernd mit x1.6.

Speicherinterface schrumpft nicht und macht heute gut 45% des chips aus.
Wenn das Si halbiert wird werden die chips drastisch kleiner.

Keinen Ahnung wo du das her hast. Selbst mit L2 Cache sind es bei weitem keine 45%.
Locuza hat für das GA102 384bit PHY
75mm² gemessen. Gesamtanaloganteil 15%.

Ein AD102 mit nur einem 256 Bit Interface würde also bei etwa 440 mm² liegen.
In N2 immer noch bei 380 mm².

Auf den Teil mit der Speicherbandbreite gehe ich nicht ein, das ist völlig absurd. Die Karten werden da definitiv nicht weniger haben als bei Ada.

The_Invisible

2024-02-17, 07:55:48

AMD Specs werden schon wieder overhyped und bei Nvidia tief gestapelt, warum eigentlich immer? Kann AMD ja fast immer nur verlieren...

reaperrr

2024-02-17, 09:04:11

AMD Specs werden schon wieder overhyped und bei Nvidia tief gestapelt, warum eigentlich immer? Kann AMD ja fast immer nur verlieren...
Wunschdenken.

Und das sage ich als jemand, dem nichts lieber wäre, als dass AMD wirklich nochmal ein RDNA2-artiger Sprung gelingt und zumindest in Raster an Nvidia klar vorbeizieht (realistisch betrachtet wäre ich schon froh, wenn RDNA5 1 Jahr nach Blackwell kommt und diese knapp schlägt).

Aber was Altehardware da an wildem Zeug raushaut ist komplett haarsträubend und absolut sicher komplett an der Realität vorbei.
Im Vergleich dazu sind ja selbst die Gerüchte von RGT und MLID extrem moderat bis pessimistisch, und die waren in der Vergangenheit meistens irgendwo zwischen relativ akkurat und viel zu optimistisch.

AffenJack

2024-02-17, 13:15:33

Wunschdenken.

Und das sage ich als jemand, dem nichts lieber wäre, als dass AMD wirklich nochmal ein RDNA2-artiger Sprung gelingt und zumindest in Raster an Nvidia klar vorbeizieht (realistisch betrachtet wäre ich schon froh, wenn RDNA5 1 Jahr nach Blackwell kommt und diese knapp schlägt).

Aber was Altehardware da an wildem Zeug raushaut ist komplett haarsträubend und absolut sicher komplett an der Realität vorbei.
Im Vergleich dazu sind ja selbst die Gerüchte von RGT und MLID extrem moderat bis pessimistisch, und die waren in der Vergangenheit meistens irgendwo zwischen relativ akkurat und viel zu optimistisch.

Jupp, ich verkneife mir da mittlerweile das Antworten. Das ist so weit abseits jeglicher Realität, dass es einfach kein Sinn hat darüber wirklich zu reden.

Bezüglich RTG, ich glaube aber genausowenig, dass er echte Infos hat. Das sind nix anderes als Educated Guesses, die aber wenigstens eine gewisse Plausibilität haben. GB207 mit einem reduzierten 96 Bit interface macht schon Sinn, um den Unterschied zu GB206 zu vergrößern und mehr zu sparen.

Ein erster Indikator für die Architektur und was so mit N3 möglich ist wird Blackwell HPC in ziemlich genau einem Monat sein. Es wird schon nen Grund haben, wieso hier beide wieder den gleichen Namen haben. Wenn wir also massive Umbauten sehen, dann wird es die auch im Desktop geben. Wenn nicht, dann ist das dort ebenso wenig zu erwarten.

Sunrise

2024-02-17, 14:48:03

Wasn eigentlich mit Kimi los? Wurde der freundlich von Nvidia gebeten, nichts mehr zu leaken oder ist seine Quelle trockengelegt worden?

AffenJack

2024-02-22, 20:03:48

“NVIDIA RTX, introduced less than six years ago, is now a massive PC platform for generative AI, enjoyed by 100 million gamers and creators. The year ahead will bring major new product cycles with exceptional innovations to help propel our industry forward. Come join us at next month’s GTC, where we and our rich ecosystem will reveal the exciting future ahead,” he said.

https://nvidianews.nvidia.com/news/nvidia-announces-financial-results-for-fourth-quarter-and-fiscal-2024

Aus Nvidias Press Release. Da man hier auch explizit Nvidia RTX nennt seh ich nochmal als Bestätigung, dass wir nicht nur HPC Blackwell dieses Jahr sehen werden. Auch GB202 dürfte dieses Jahr releast werden. Die Frage wäre dann eher, ob der aber sofort für Gaming kommt, oder vielleicht zuerst für Workstation/AI Karten.

reaperrr

2024-02-23, 03:40:32

https://nvidianews.nvidia.com/news/nvidia-announces-financial-results-for-fourth-quarter-and-fiscal-2024

Aus Nvidias Press Release. Da man hier auch explizit Nvidia RTX nennt seh ich nochmal als Bestätigung, dass wir nicht nur HPC Blackwell dieses Jahr sehen werden. Auch GB202 dürfte dieses Jahr releast werden. Die Frage wäre dann eher, ob der aber sofort für Gaming kommt, oder vielleicht zuerst für Workstation/AI Karten.
"The year ahead" könnte auch die nächsten 12 Monate meinen.
Da steht jedenfalls nicht explizit "The year 2024" oder sowas, von daher mindestens dehnbar.
Schließt natürlich nicht aus, dass sie das Weihnachtsgeschäft mitnehmen wollen.
Die richtigen Workstation-Karten brauchen i.d.R. länger in der Validierung, ich würde schon davon ausgehen, dass die (ja ebenfalls für KI nutzbaren) Gaming-Karte(n) zuerst kommen.

TheAntitheist

2024-02-23, 03:55:00

@altehardware

Völlig absurde Zahlen. Da wird überhaupt nichts von stimmen. Die Speicherinterfaces werden garantiert nicht so klein. Was soll denn eine 64 SM SKU mit 400 GB/s.

Und wie kommst du auf diese Die Size? Selbst in N1 werden die nicht so klein.
144 SM AD102 misst über 600 mm². Selbst komplett ohne Speicherinterfaces sind das in N3E noch über 400 mm².
du hast schon Recht. Die Leute sind AMD Fanboys, quatschen hier im Blackwell thread nur über AMD...

basix

2024-02-23, 09:46:17

Die Speicherinterfaces werden garantiert nicht so klein. Was soll denn eine 64 SM SKU mit 400 GB/s.

Es gibt bereits eine 60 SM Variante mit 500 GB/s. Die 4070 Ti ;)

400GB/s bei 64SM würde ich jetzt noch nicht als völlig unrealistisch ansehen. Kommt drauf an, wie viel der "neue SM Aufbau" zur Bandbreiteneffizienz beträgt. Zum Rest sage ich mal nichts ;)

MiamiNice

2024-02-26, 12:05:27

@Altehardware:

Ich mag Deine Posts hier unglaublich gerne lesen :up:

Dural

2024-02-26, 14:14:56

AMD Specs werden schon wieder overhyped und bei Nvidia tief gestapelt, warum eigentlich immer? Kann AMD ja fast immer nur verlieren...

AMD Fanboys kann ich seit über 15 Jahren nicht mehr ernst nehmen. Es hat damals beim R600 / 2900XT angefangen, und wird wohl auch nie aufhören. Noch einen Monat vor der 2900XT hiess es aus "Insider" Quelle das sie min. so schnell wie die 8800Ultra wird, und als die 2900XT auf dem Markt war hiess es das bald eine 2900XTX kommt die Garantiert mithalten kann. Und relativ Zeitnah kam noch das "Gerücht" das so wie so nicht alle Einheiten aktiv sind, dieses Gerücht hielt sich dann ca. 10 Jahre lang bei jeder AMD GPU :freak:

Aktuell kann AMD froh sein wenn sie vom N3 Kuchen (früh) überhaupt was abbekommen.... Von Stückzahlen kann keine Rede sein (!!!)

Sie sind nicht mal fähig die aktuellen News zu lesen und vor allem zu verstehen ;)

OgrEGT

2024-02-26, 16:28:38

AMD Fanboys kann ich seit über 15 Jahren nicht mehr ernst nehmen. Es hat damals beim R600 / 2900XT angefangen, und wird wohl auch nie aufhören. Noch einen Monat vor der 2900XT hiess es aus "Insider" Quelle das sie min. so schnell wie die 8800Ultra wird, und als die 2900XT auf dem Markt war hiess es das bald eine 2900XTX kommt die Garantiert mithalten kann. Und relativ Zeitnah kam noch das "Gerücht" das so wie so nicht alle Einheiten aktiv sind, dieses Gerücht hielt sich dann ca. 10 Jahre lang bei jeder AMD GPU :freak:

Aktuell kann AMD froh sein wenn sie vom N3 Kuchen (früh) überhaupt was abbekommen.... Von Stückzahlen kann keine Rede sein (!!!)

Sie sind nicht mal fähig die aktuellen News zu lesen und vor allem zu verstehen ;)
So kann Dich aber auch keiner mehr ernst nehmen...

KarlKastor

2024-02-26, 17:21:12

Es gibt bereits eine 60 SM Variante mit 500 GB/s. Die 4070 Ti ;)

400 für 64 SM wären dann 25% weniger pro SM.
Und eine 4070 Ti ist beim Speicher alles andere als überdimensioniert. Die 4070 hat genau so viel für 46. Wenn die nicht nötig wären, hätte man billigeren Speicher verbaut.

400GB/s bei 64SM würde ich jetzt noch nicht als völlig unrealistisch ansehen. Kommt drauf an, wie viel der "neue SM Aufbau" zur Bandbreiteneffizienz beträgt.

Genauso wenig wissen wir, wie hoch die Taktraten ausfallen oder wie viele ALU pro SM. Da braucht jede SM vielleicht sogar noch mehr...

Es gibt nicht einen Grund warum man bei so einem großen Chip das Speicherinterface so kastrieren sollte.

basix

2024-02-26, 17:42:23

Vielleicht spendiert man mehr L2$? Oder 256kB L1$ wie bei Hopper (Ada hat 128kB). Gibt viele Punkte, die das beeinflussen können. 25% Unterschied ist jedenfalls nicht so gross, dass es von vornherein unerreichbar ist.
96bit hören sich da eher unrealistisch an, nicht 400 GByte/s. 128bit wird es mindestens sein. Hey, 128bit, 16 GByte, 25...32 Gbps (400...512 GByte/s) für einen 64 SM GB105 hören sich nichtmal schlecht an. Dazu 2x Salvage Versionen, eine mit 16 GByte und eine mit 12 GByte.

64SM ist bei Blackwell zudem nicht unbedingt "gross". Wenn GB102 mit 192 SM kommt, wäre das gerade mal 1/3 davon. Selbst in 4nm sind das <300mm2 (siehe AD104), in N3 wäre das näher an 200mm2 als an 300mm2. Mit verkleinertem SI sowieso. Wenn ich raten müsste:
- GB105, 128bit, 28 Gbps, 16 GByte, 64 SM, 256kByte L1, 32 MB L2
- N4: 270mm2
- N3: 210mm2

Die Gerüchte besagen ja aber 72SM bei 192bit, also alles gut ;)

robbitop

2024-02-26, 21:11:00

Was wahrscheinlich ordentlich was bringen könnte, wäre wenn man die Schedulerresources verdoppeln würde. Denn trotz 128 FP pro SM ist man gerade mal bei 1/2 Pascal SM und deshalb war Ampere ggü Turing pro FPU nicht so stark wie erwartet. Die Erweiterung machte zu Ampere von Turing aus Sinn, da transistorgünstig. Aber ggf. ist es jetzt an der Zeit wo man die SMs rebalanced denn die Skalierung der Performance über die Anzahl der SMs ist limitiert. Dazu ggf. noch mehr Register.

Platos

2024-02-26, 23:06:21

Was wahrscheinlich ordentlich was bringen könnte, wäre wenn man die Schedulerresources verdoppeln würde. Denn trotz 128 FP pro SM ist man gerade mal bei 1/2 Pascal SM und deshalb war Ampere ggü Turing pro FPU nicht so stark wie erwartet. Die Erweiterung machte zu Ampere von Turing aus Sinn, da transistorgünstig. Aber ggf. ist es jetzt an der Zeit wo man die SMs rebalanced denn die Skalierung der Performance über die Anzahl der SMs ist limitiert. Dazu ggf. noch mehr Register.

Was für eine Obergrenze (im Gaming) gibt es denn bei den FP32 Einheiten? Also ich meine bezüglich Skalierbarkeit. Was denkst du ?

Für mich sieht es zumindest so aus, als würde die Anzahl jetzt schon nicht mehr gut skalieren. Die 4090 hat 68% mehr FP32 Einheiten, ist aber im 4k Index nur 33% schneller wie die 4080. Für mich sieht das irgendwie danach aus (Taktraten sind ja etwa gleich im Gaming, wenn ich mir die Launchanalyse anschaue). Oder interpretiere ich da was falsch?

Was könnte man dann (nachdem man die SMs "rebalanced" hat (also wie vor Ampere)) noch machen, um die Perfomance signifikant zu steigern, abgesehen von mehr einheiten? Was macht man da bei Grafikkarten (also jetzt mal zusätzliche/grössere Caches ausgenommen bitte) ?

The_Invisible

2024-02-26, 23:25:58

Frag mich auch was da oft limitiert, die 4090 hat eigentlich alles deutlich mehr als die 4080 außer den L2 Cache (64 -> 72MB). Gibt zwar einige Ausnahmen wo sie auch mal über 40% schneller ist aber Norm ist eher so 25-35% herum.

Wenn man da jetzt wieder einfach nur Shader raufpackt vergeudet man ja viel Performancepotential.

KarlKastor

2024-02-27, 01:51:12

Vielleicht spendiert man mehr L2$? Oder 256kB L1$ wie bei Hopper (Ada hat 128kB). Gibt viele Punkte, die das beeinflussen können. 25% Unterschied ist jedenfalls nicht so gross, dass es von vornherein unerreichbar ist.
Das Argument für das kleine Speicherinterface war Die Size. Ich mache den Die nicht kleiner indem ich den Cache vergrößer. Größere Caches sind natürlich vorteilhaft, haben aber ihren Preis.

64SM ist bei Blackwell zudem nicht unbedingt "gross". Wenn GB102 mit 192 SM kommt, wäre das gerade mal 1/3 davon.

Welche Relevanz hat das? Es geht um die Die size vs die paar mm² die man für das Speicherinterface spart.

mksn7

2024-02-27, 11:31:00

Units an die gescheduled werden könnte pro Quadrant/SMSP/sector/subpartition/scheduler (alles das gleiche):

- 2x halbe FP32 (16 / 32 =t 1/2)
- 1x halbe INT (16 / 32 = 1/2)
- 1x 1/8 Load/Store (4 / 32 = 1/8)
- 1x 1/8 SFU ( 4 / 32 = 1/8)
- 1x scalar/uniform unit (uh, 1x instruction / cycle?)
- RT unit (eher irrelevant, es vergehen vermutlich einige Takte zwischen zwei RT queries)
- 1x 1/8 tensor core ( HMMA.16816.F32 -> 2048 FMAs, 1024 FP16 FMAs / cycle /SM -> 1x HMMA pro 8 cycles)

Wenn ich das so simpel ausrechne, komme ich auf 2.875 Instruktionen die theoretisch ausgeführt werden könnten pro cycle. Der Scheduler kann 1 Instruktion schedulen. Mit mehr scheduling ressources wird Blackwell 3x schneller! /s

Das ist eine Milchmädchenrechnung, weil all diese Instruktionen niemals gleichzeitig mit diesem Durchsatz arbeiten können. Der größte Begrenzer ist hier das register file, das nur begrenzt viele Operanden bereit stellen kann. Ich hab mal rausgemessen, dass schon nur die zwei halben FP32 units nicht zuviele Register lesen dürfen um tatsächlich parallel zu arbeiten. Tensor Cores brauchen auch viel Registerbandbreite. Mehr "scheduling ressources" müsste Registerbandbreite einschließen (meinst du vielleicht auch schon) und ich habe den Eindruck (bin kein Hardwareentwickler) dass das teuer (Fläche/Strom) ist.

Es wäre dann aber seeeehr instruction mix abhängig ob das was bringt, also irgendwie glaub ich nicht so richtig dass sich das lohnt. Es könnten alle 2 Takte neben den 2x FP32 noch jeweils 1 von INT/scalar gescheduled werden, oder gelegentlich LSU/SFU. Das wäre schon ein kurioser Bestfall dass da ein Faktor 2x rumkommt.

Ohne Verdoppelung der Registerbandbreite könnten immerhin noch nebenher ausgeführt werden:
- Load/Store Instruktionen (die lesen/schreiben nur jeweils zwei Register und haben einen geringen Durchsatz)
- uniform instructions, NVIDIAs äquivalent zu AMD's scalar units. Die gibt es seit Turing, wurden aber in Ada und Hopper aber jeweils nochmal ausgebaut (anscheinend: kein constant cache mehr in Hopper, für shader parameter werden jetzt uniform loads verwendet, wie bei AMD)

Die Alternativen, wenn man dickere SMs bauen möchte, sind aus meiner Sicht:

- dual issue scheduler pro smsp, Registerbandbreite verdoppeln
- die smsp gleich lassen, aber 8 statt 4 pro SM verbauen

mksn7

2024-02-27, 11:37:23

[doppelpost]

Sardaukar.nsn

2024-02-27, 19:28:10

Laut MLID +60-70%

MLID replies to a question about whether the RTX 5090 (built on the GB102 chip) will be cut down for CUDA cores to a greater extent than the RTX 4090 (AD102), or about the same, or whether it'll be closer to the full loadout of cores than the current Lovelace flagship GPU.

The YouTube leaker reiterates that the expected performance increase for the RTX 5090 is that it'll be 60% faster than the RTX 4090 - or maybe even 70%, best-case scenario (and certainly the card will boast a 50% generational uplift).

Read more: https://www.tweaktown.com/news/96485/nvidia-rtx-5090-gpu-could-have-fuller-core-count-than-4090-but-stock-is-worry-already/index.html
https://www.tweaktown.com/news/96485/nvidia-rtx-5090-gpu-could-have-fuller-core-count-than-4090-but-stock-is-worry-already/index.html

iamthebear

2024-02-27, 21:36:04

Das seltsame bei Ada:
Bis zur 4080 scheint die Performance wunderbar zu skalieren z.B. wenn man sie mit der 4070 Ti Super vergleicht.
Ab dann geht es aber extrem schnell den Bach runter. Selbst die 4080 Super bringt schon nichts mehr von den zusätzlichen SMs auf die Straße.

Wenn Nvidia das nicht lösen kann wird die 5090 in der Praxis nicht mehr abliefern können als die 4090.
Nett dass MLID meint, dass es 60% sein werden aber wissen kann er das nicht. Es sind noch Monate bis zu lauffähigen Treibern.

mocad_tom

2024-02-27, 22:22:25

Bei Blackwell werden wohl 12 HBM3e-Stapel draufsitzen.

12 x 36Gbyte = 432GByte (okay da wird noch etwas weggekappt)

Allein das wird die Leistung für Deepspeed ZeRO++ enorm nach oben schrauben - es ist krank.

reaperrr

2024-02-27, 22:55:46

Das seltsame bei Ada:
Bis zur 4080 scheint die Performance wunderbar zu skalieren z.B. wenn man sie mit der 4070 Ti Super vergleicht.
Ab dann geht es aber extrem schnell den Bach runter.
Bei der 4090 könnte es - neben CPU-Limit - zum Teil an den 25% weniger L2 je 64bit SI sowie dem niedrigeren Speichertakt liegen.
Da ließe sich das Limit durch größere L1-Caches und/oder mehr (aktiven) L2 je 64bit SI sowie GDDR7 schon ziemlich stark nach oben verschieben.

Selbst die 4080 Super bringt schon nichts mehr von den zusätzlichen SMs auf die Straße.
Die 4080S hat nur 5% mehr SM, das wären selbst bei nahezu perfekter Skalierung nur 5% mehr Perf bei gleichem Takt, und nicht jedes Spiel kann zusätzliche SM immer voll ausnutzen, weil manchmal halt auch CPU, SSD/HDD, ROPs oder die Speicherbandbreite oder sonstiges limitieren.
Hinzu kommt bei der 4080S, dass sie laut CB im Refdesign quasi nicht über 2730 MHz geht, während die 4080 noch teils bis ca. 2.800 MHz taktet.
Das sind weniger Skalierungsprobleme, hier fehlen einfach nur ein paar Watt mehr PT und ein höheres Taktlimit.

The_Invisible

2024-02-27, 23:52:20

Das seltsame bei Ada:
Bis zur 4080 scheint die Performance wunderbar zu skalieren z.B. wenn man sie mit der 4070 Ti Super vergleicht.
Ab dann geht es aber extrem schnell den Bach runter. Selbst die 4080 Super bringt schon nichts mehr von den zusätzlichen SMs auf die Straße.

Wenn Nvidia das nicht lösen kann wird die 5090 in der Praxis nicht mehr abliefern können als die 4090.
Nett dass MLID meint, dass es 60% sein werden aber wissen kann er das nicht. Es sind noch Monate bis zu lauffähigen Treibern.

Kommt ganz aufs Game drauf an, ohne viel Pixellast/RT wirds aber nix, bei DL2 zb 46% zwischen 4080 und 4090, 1:1 Skalierung hat man eh nie, siehe auch bei OC https://www.pcgameshardware.de/Raytracing-Hardware-255905/Tests/Gaming-Grafikkarten-Vergleich-Benchmark-Preis-Leistung-1411231/

Altehardware

2024-02-28, 04:45:37

Zuerst 60-70% pergf Differenz kann gehen wenn
blackwell auf maximalen Takt geht mit en vollen gb203 und 142sm (144sm)
3,57*142*88*2 (128)=89,2 /63 =41% +36gbps vs 23gbps =50%
41*1,5 =61,5% schneller

Aber erstmal Bandbreite Zuwachs bedeutet lediglich das Spiele nicht mehr ausgebremst werden wenn so viel vram anliegt bsp etwa 21gb vom game genutzt etwa 1152gb/s dann maximal 173fps
Dagegen die alu aber nur bsp 161fps schaffen vs dann 100fps das ist das optimum was man erwarten kann.
Das ist aber die Ausnahme die dritte Limitierung sind die rop die sicher bei 128 sein werden
128*3,57=456gpixel das durch 8 gigapixel bei nativer rendern von 4k =57fps
Das ist aber in keinen Spiel so abseits von ue5 mit nanite daher wird man tsr nutzen müssen wo dann dies mit tsr low auf 1080p =228fps sofern die alu das auch schaffen,.
Das cpu limit ist schon jetzt ein problem außer die gpu rennt in ein Bandbreitenlimit wovon nicht auszugehen ist es werden 24gb und 256bit in gddr7 36gbps verbaut =1152gb/s vs den 1008gb/s der rtx4090
128rop vs 192rop daher erwarte ich maximal an alu perf grob +40% und das nur dann wenn nvidia auf Takt geht
nebenbei dürfte so gut wie kein spiel davon profitieren das cpu limit greift hier hart durch so das maximal ich hier nur 5-10% sehe.
Daher muss man schon auf 5k bzw auf pathtracing gehen damit man überhaupt nen unterschied merkt vs der rtx4090

Das Fazit ist maximal 3,2ghz mit deutlichen Energieeinsparung -22% (360w tbp) bei grob +25% perf Zuwachs vs rtx4090.

Das wichtige ist was die andere sku werden und welche Preise nvidia aufrufen wird.

rtx5050 30sm unklar 64bit12gb vermutlich laptop only
rtx5060 gb206 42sm 80bit 15gb relativ sicher (ps5 pro level akä rtx4070 super) ab 450$/489€ das highlight 140w tbp
ps5 pro 499$ q3 2024 320bit 20gb vram ddr5 21tf-22tf 720gb/s (200w tbp)
rtx5060ti 52sm 96bit 18gb 500$ (etwa perf der rtx4070ti)
rtx5070 62sm 96bit 18gb 650$ (etwa perf der rtx4070ti super)
rtx5070ti 78sm 112bit 21gb 800$ (etwa +10% rtx4080 super)
rtx5080 90sm 224bit 21gb 1000$ (etwa perf der rtx4090 im cpu limit -20%)
rtx5090 142sm 24gb 1800$

gddr7 36gbps 24gbit chips darum die krummen zahlen
Der L2 steigt nicht an, da unnötig und man mit Rubin die Architektur komplett umbaut in n2x node

Gpu sind linear solange genug IPC von der cpu daten liefert

reaperrr

2024-02-28, 06:51:50

Zuerst 60-70% pergf Differenz kann gehen wenn
blackwell auf maximalen Takt geht mit en vollen gb203 und 142sm (144sm)
3,57*142*88*2 (128)=89,2 /63 =41% +36gbps vs 23gbps =50%
41*1,5 =61,5% schneller
Laut MLID gelten die 60-70% für die 5090, also GB202 mit bis zu 192 SM (wahrscheinlich zwischen 168 und 176 aktiv auf der 5090) und 384bit SI.

Und zusätzliche Speicherbandbreite multipliziert die Performance-Steigerung nicht, dieses 41*1,5 ergibt keinen Sinn.

Sardaukar.nsn

2024-02-28, 07:59:16

Hier nochmal das RedGaming Video:

P-Txgox-vmI

_73_3bWEVcA

basix

2024-02-28, 12:06:24

Bei Blackwell werden wohl 12 HBM3e-Stapel draufsitzen.

12 x 36Gbyte = 432GByte (okay da wird noch etwas weggekappt)

Allein das wird die Leistung für Deepspeed ZeRO++ enorm nach oben schrauben - es ist krank.

Ich bin mir noch nicht sicher, ob Blackwell ein "Dual-Chip" Design wird. Ich kann mir mehrere Sachen vorstellen:
- B100 = N3E monolithisch, 800mm2, 6x HBM
- B100 = N3E + N4 Memory/Cache Chiplets, 2.5D, 6...10x HBM
- B100 = N3E stacked on N4 (Memory / Cache), 3D stacked, 6x HBM
- B100 = 2x Versionen, 1x mit 36 GByte/Stack und 1x 48 GByte/Stack (SK Hynix), beides mit 6x HBM
- X100 = 2x B100 -> 12x HBM

AffenJack

2024-02-28, 14:02:32

Ich bin mir noch nicht sicher, ob Blackwell ein "Dual-Chip" Design wird. Ich kann mir mehrere Sachen vorstellen:
- B100 = N3E monolithisch, 800mm2, 6x HBM
- B100 = N3E + N4 Memory/Cache Chiplets, 2.5D, 6...10x HBM
- B100 = N3E stacked on N4 (Memory / Cache), 3D stacked, 6x HBM
- B100 = 2x Versionen, 1x mit 36 GByte/Stack und 1x 48 GByte/Stack (SK Hynix), beides mit 6x HBM
- X100 = 2x B100 -> 12x HBM

In meinen Augen sind alle von dir erwähnten Varianten deutlich unwahrscheinlicher als ne Dual-Chip Variante. Nvidia projeziert einen massiven Sprung und das ist unwahrscheinlich mit nem monolithischen Chip in N3, weil der Prozesssprung zu klein ist.

Die weiteren von dir erwähnten Versionen sind allerdings deutlich komplizierter als ne einfach Dual-Chip Variante und deshalb seh ich die erst mit Rubin kommend. Das Risiko auf sowas kompliziertes ohne Erfahrungen mit einfachen Chipletdesigns in der Massenproduktion zu gehen ist für Nvidia viel zu groß. So ein M1Ultra Design ist dagegen noch mit begrenzter Komplexität verbunden und gibt einem schon deutliches Steigerungspotential.

Redneck

2024-02-28, 20:02:47

Das Ding mit diesen Performance Einschätzungen ist doch, das man nie weiss obs auf Raster, RT oder DLSS vs X gemünzt ist. Am Ende sind es 20% auf Raster, 70% auf RT oder alles doch ganz anders.

Atma

2024-02-28, 20:14:37

Hinzu kommt bei der 4080S, dass sie laut CB im Refdesign quasi nicht über 2730 MHz geht, während die 4080 noch teils bis ca. 2.800 MHz taktet.
Das sind weniger Skalierungsprobleme, hier fehlen einfach nur ein paar Watt mehr PT und ein höheres Taktlimit.
Nichts was sich mit dem Afterburner nicht lösen lässt ;). Per Curve Editor liegen spielend permanent 2800+ MHz an. 2.900 MHz gehen auch noch, bei sehr hoher Last reicht jedoch selbst das erhöhte Powerlimit nicht immer aus um den Takt zu halten.

Altehardware

2024-02-29, 06:56:41

ich würde am liebsten mit nen oc tool die bandbreite meiner rtx3060 auf 12gbps reduzieren was dann effektiv 288gb/s ergibt
Das wäre genau die Bandbreite einer rtx4060ti 16gb und die daten mit dem normalen 15gbps vergleichen
Dann sähe man was massives bandbreitenlimti Verursachen kann.
leider geht maximal nur -1500mhz was bei mir 13,5gbps sind (312gb/s() dies würde effektiv eine rx7600xt entsprechen.

von diesen Bandbreiten aus kann man genau festlegen wie viel Leistung addiert wird ohne cpu limit.
Den idealen vergleich hatte ich beim Wechsel von gtx1060 1280sm 1,9ghz 48rop 192gb/s vs gtx760 1152sm 1,1ghz 32rop 192gb/s

4915 vs 2657 +-in etwa da der Takt zwar über 1,1ghz ging aber ab und an auch 1,13ghz sein konnte.
Die gtx1060 hatte immer konstant 1,92ghz

das wären +84% da Bandbreite herausfällt aber eben die rop waren nicht gleich das sind grob 35gpixel vs 90gpixel
Das macht ein unterschied bei 1080p und größere Auflösungen
Am ende waren es 100% perf Differenz da neben der tf auch die spiel von 720p auf durchschnittlich 900p Auflösungen nativ rendern das geht bis heute so.
In blackwell erwarte ich ähnliches bei den rop da man massiv vom takt profitieren würde 3,57ghz sind drin.
Auf kosten der Effizienz und das man die kleineren chips teurer verkaufen kann aber das geht nur wenn amd nicht konkurrieren kann in low end.
Woran zu zweifeln ist. in high end wird indes kein chip größer als 142sm sein allein weil der ad102 derzeit nicht ausgereizt ist.
Dafür ist der gb202 viel zu attraktiv als hpc Beschleuniger als quadro und als ai Beschleuniger obwohl das nochn Risiko ist.
Darum komme ich ja auf meine Prognose mit der sku Einplanung kleinerer sm Umstrukturierungen das es gerade reicht vs der ps5 pro und aufwärts mit maximal +20% wie am ende die chips sortiert werden ist unklar sicher weis ich das nvidia 3 Möglichkeiten hat.

Takt um die 3,57ghz
gb207 60er 30sm
gb206 70er 60sm
gb205 80er 90sm
gb203 90er 132sm

Effizienz 3,2ghz
gb207 laptop 32sm
gb206 60er 56sm
gb205 70er 80er 72sm-88sm
gb203 90er 142sm

maximale perf
Takt und komplette chip Vollausbau
gb207 laptop entry 32sm
gb206 laptop high end 48-64sm
gb205 60er 94sm
gb203 70 80er 128sm 142sm
gb202 90er 180sm

Die bandbreite wird zum problem da man von 128-384bit auf nur noch maximal 64-256bit gehen kann.
Gddr7 24gbit egalisiert das mit den 36gbps zum großen teil.
dabei sehe ich die si konfig so
gb207 64bit =288gb/s
gb206 80bit =360gb/s
gb205 96bit =432gb/s
gb203 224bit =1008gb/s
gb202 256bit =1152gb/s

ein 24gbit chip dürfte minimal 15$ kosten
gb207 4 chips
gb206 5 chips
gb205 6 chips
gb203 7 chips
gb202 8 chips

Das Si selbst ist analog inklusive der pcie lanes das macht aber wirklich nur 7,5% aus x4 vs x16 von den 45%
Das was wirklich platz braucht am chip ist die Verbindung zum vram darum die 45% grob für alles
Die alu sollten bei nen chip größer sein als das Si und das Si schrumpft seit n16 nicht mehr.
Ein ga106 misst 272mm² davon sind min 45% analog mit dem 192bit in nen faktisch 10nm Prozess
Der ad106 mit 192bit wäre statt 190mm² wie dieser ist dann bei gleicher ausbaustufe des Si bei 230mm²
was den Anteil an Si auf 55% gebracht hätte mit n3 wäre man bei 202mm² wo dann 60% analog wäre
Darum das ändern der gpc sm menge auf 16. Mit dem realen gb206 mit 192bit wäre der chip bei 202mm² vs 80bit was eher anzunehmen ist dann 132mm² chipkosten bei 45$ und das kann man als 70 class gpu verkaufen.
Der analog Anteil sinkt auf nur noch 40% vs den vermutlichen 60% des chips
Diese Herleitung ist realistisch aber ich nehme immer von ada aus da samsung n8 node /ampere unklar ist wieviel vs n16 dieser kleiner ist
n12 vs n5 sind grob 45% denser (0,55)
n8 dürfte etwas dichter sein als n12 grob 0,8 grob am ende 0,7 vs n5 dann n3 0,58
Zum Si gelten vram bitanbindung die direkt mit den rop verbunden sind.
Das ist physisch nicht anders möglich daran sind pcie bus von x4 bis x16 macht von den 45% 7,5% Differenz
Das was skaliert sind die alu rop rt core tensor core tmu und sram bedingt Ist aber mit tsmc Angabe inklusive.
Darum sehe ich keine chance das man ebenfalls mit 128-384bit gehen wird. Auf n3 node.
Das würde es frühestens geben mit n2x wo gaa eingeführt wird und das Si Ebenfalls schrumpft auf die hälfte der Größe.
Dann wären sogar 512bit wieder drin.

Je näher wir zum release kommen und je mehr detail zur Architektur desto sicherer werde ich mir wie groß gb207 und gb206 wird.
Die chips auf die es ankommt. Der gb205 sehe ch sogar als high end an das kommt von der software und dem leidigen cpu limit das uns Jahre bevorsteht den jenseits der 120tf wird keine cpu mehr die gpu auslasten können selbst auf 4k nicht.
Das maximum sehe ich bei der rtx4090 mit 63tf mit ne ryzen 9 x1900 (zen7) bei 7,5ghz 100% gpu load bei 1080p und das mit raster, mal von den fps abgesehen die jenseits der 1000 sein werden dürfte nahezu jede game engine da clippen.
Womit dann 4k mit 246fps sein wird. Bei ner rtx6090 um die 120tf (gr203) wo dann ein cpu limit auf 85% gpu load resultiert =215fps und das bei 2160p
(bsp tlou)
Technisch könnte man ab n2x auf locker 200tf kommen mit kleinerem si sogar auf 280tf
Aber abseits von pathtraycing wo das auch ausgelastet wird bsp alan wake 2 9fps bei 9,2tf auf 1080p ist ne rtx4090 maximum von 61fps auf 4k nur noch 15fps. Ne rtx6090 mit 120tf erreicht da mal gerade 30fps und mit maximum chip gr202 mit 200tf grob 48fps sehe ich keinen Sinn am desktop nen gr202 zu bringen

Stellt sich die frage wird pathtracing nativ 2160 irgendwann standard werden bei Spiel designs? Klares nein. Da die Konsolen bei nur 21-23tf sind und maximal in nativ 1080p rendern.
Das gilt bis 2027 zur ps6 wo ich die doppelte Perf erwarte zwischen 45-55tf und dann 21gb gddr7 vram.
Das bedeutet am desktop entry wird rtx5060 15gb etwa 20tf mit dem gb206 haben 42-48sm
High end maximal 79tf mit dem gb203 142sm 3,2ghz

Und 2027 mit gr206 52-56sm rtx6060 54tf 18gb und high end gr203 128sm grob 124tf 42gb

jetzt kommen erst die spiele in der ue5 die immer nativ rendert sobald nanite genutzt wird was die rop stresst und quasi tsr verpflichtend ist zu nutzen. tsr rendert die Auflösung der Texturen zur Auflösung (quasi Anzahl der Texturen das erhöht die pixelrate) nicht das Bild daher ist das nativ und immer zu bevorzugen vs den Bild upscaler der Auflösung in spatial oder deep learning von nvidia.

Pathtracing erwarte ich nur am pc auf Konsolen kommt erst dxr zum tragen und da gibt es bei derzeitigen cpu grenze bei etwa 30tf auf 1080p (zen2 basis)
in der ps5 pro steckt ein umgebauter zen2 chip drin der muss bis 2027 reichen wo dann ein zen7 chip in der ps6 den ersetzen wird. Das wird ein sprung von etwa +95%
Dann reden wir über pathtracing bei 1080p auf level von alan wake2 in nativ. bei etwa 45fps und grob 45-55tf

zur Erinnerung amd liegt dann mit rdna7 auf etwa 240tf (360cu 5,0ghz auf n2x) nvidia maximal bei 288tf sofern man das Si klein hält ansonsten 200tf
Da braucht es aber nvidia gddr7 45gbps woran ich zweifle das maximale sehe ich bei 40gbps. grob dann 2,5pb/s
Diese braucht es aber auch um solche großen chips Auszulasten.

Die Bandbreite bei blackwell wird reichen da die spiele noch nicht bei 7gb je frame sind (21gb vram Belegung) auf 1080p. Wir sind bei gerade mal 3gb (9gb vram Belegung bis 11gb) und das bei Grafik intensiven Spielen.
das ändert sich erst ab der ps6
12gb gpu 1080p 60fps check (ab 360-432gb/s)
16gb gpu 1440p 60fps check (ab 500-576gb/s)
24gb gpu 2160p 60fps check (ab 900gb/s)

The_Invisible

2024-02-29, 07:56:26

Das Ding mit diesen Performance Einschätzungen ist doch, das man nie weiss obs auf Raster, RT oder DLSS vs X gemünzt ist. Am Ende sind es 20% auf Raster, 70% auf RT oder alles doch ganz anders.

Ich hoffe Mal RT bekommt einen überproportionalen leistungsboost, so als Benchmark Cyberpunk/Alan wake 2 mit max Details in PT in Native 4k und 60fps wäre geil :D

Sardaukar.nsn

2024-02-29, 08:20:11

Raster von 3090 auf 4090 waren grob +75%. https://gpu.userbenchmark.com/Compare/Nvidia-RTX-4090-vs-Nvidia-RTX-3090/4136vs4081#:~:text=When%20fps%20are%20not%20CPU,for%20in%2Dgame%20fps%20improvem ents.

Von meiner Vorgänger 3080 waren es sogar +120% unter TimeSpy Raster. Dazu kamen aber noch mal die Verbesserungen im RT und natürlich der Stunt mit dem DLSS3 (2-4x faster :freak: )

Irgendeine neue Schweinere wird man sicher einfallen lassen.

Leonidas

2024-02-29, 10:31:23

Bei Blackwell werden wohl 12 HBM3e-Stapel draufsitzen.

Besser ist es, das klar zu unterscheiden: HPC-Blackwell und Gaming-Blackwell. Weil ansonsten wieder für HPC-Blackwell gemeinte Aussagen auf Gaming-Blackwell gemünzt werden. Nicht in Deinem Fall, aber generell besteht die Gefahr (siehe Ampere).

mocad_tom

2024-03-02, 17:37:52

https://investors.delltechnologies.com/static-files/dcbb932e-8e25-49a9-a508-61e454f45ce5

We're excited about what happens at the B100 and the B200, and we think that's where there's actually another opportunity to distinguish engineering confidence. Our characterization in the thermal side, you really don't need direct liquid cooling to get to the energy density of 1,000 watts per GPU.

:D *hust* GB200 doch nicht so stark *hust*

Zossel

2024-03-02, 18:04:14

https://investors.delltechnologies.com/static-files/dcbb932e-8e25-49a9-a508-61e454f45ce5

:D *hust* GB200 doch nicht so stark *hust*

Und was ist mit den Schränken?

AffenJack

2024-03-02, 20:10:50

https://investors.delltechnologies.com/static-files/dcbb932e-8e25-49a9-a508-61e454f45ce5

:D *hust* GB200 doch nicht so stark *hust*

1000W, das ist erstmal ja nur das gleiche wie GH200. Hätte mich aber auch gewundert, wenn es nicht in die Richtung geht.

1x 800mm mit 6 HBM ->700W Hopper

2 x 600mm? mit 8 HBM -> 1000W. Blackwell

So wäre in etwa meine Vorstellung.

Was soll B200 mit mehr als 1000W überhaupt sein? Meint er GB200? Das wird auf jeden Fall über 1KW brauchen dann. Ein seperater B200 macht in angesicht von X100 wenig Sinn.

mocad_tom

2024-03-02, 21:24:27

Was ich damit sagen will:

auf früheren Roadmaps gab es nur B100 und GB200

damit wollte man force-feeding machen in Richtung "Kauft CPU+GPU" von uns.

So jetzt stellt sich raus, die CPU ist doch nicht so prickelnd.

Die großen Deepspeed-Systeme in 2025 werden eben schon mit Dual-Sockel-x86 + acht B200.

w0mbat

2024-03-02, 22:07:55

2 x 600mm? mit 8 HBM -> 1000W. Blackwell
Ich glaube so viel kleiner kann ein chiplet nicht werden, da an jede Seite ja 3x HBM3E passen muss.

Saugbär

2024-03-03, 01:46:15

Hört sich ja interessant an erinnert mich an

http://alt.3dcenter.org/artikel/2004/06-28_a.php
Wenn sie die SLI-Brücke ein wenig aufmotzen, ( faktor 100 reciht glaube ich), könnte es sogar funktionieren.
Platz für so eine fette Brücke ist ja vorhanden.
Man braucht sich ja nurmal die Größe der
ZOTAC Gaming GeForce RTX 4090 Apocalypse OC ansehen
Länge 367 mm
Breite 150 mm
Höhe 74 mm

ASUS ROG STRIX LC RTX 4090 GAMING OC
Länge 358 mm
Breite 149 mm
Höhe 70 mm

Die Brücke kann ja rund um die GPU verlegt werden, oder könnte man die auf das Die kleben?
Gesehen habe ich sowas ja schon.
Das haben die doch schon 1970 gemacht:smile:
https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcSBNCmGF5K9XNVmRERn5gX4ePYUqu5cLYh17N5ywLibDW5tTbenHQLbJscWVmZ M-UaWznI&usqp=CAU

Wiederholt sich die Geschichte ?:uconf2:

AffenJack

2024-03-03, 08:29:46

Ich glaube so viel kleiner kann ein chiplet nicht werden, da an jede Seite ja 3x HBM3E passen muss.

Nur 2 pro Seite, 4 HBM pro Chiplet. Mehr ist glaube aktuell mit Cowos nicht möglich. TSMC hat explizit mit 12 HBM für die nächste Ausbaustufe von Cowos geworben, die aber erst 2025 fertig wird. Es gab zwar früher mal Aussagen, dass man 2024 12 HBM wird realisieren können, aber davon hat man später nichts mehr gehört.

Es hat schon seinen Grund wieso auch MI300 bei 8 HBM Schluss macht. Optisch betrachtet würde ich denken, dass B100 so wie Mi250X aussieht, nur mit einer besseren Chip2Chip Anbindung, damit er sich wie eine GPU verhält.
Mit X100 hätte man dann von der Diesize Luft um da einfach an das Reticle Limit zu gehen und dann auf 6 HBM pro Chiplet zu gehen. Das passt dazu, wie man in der Lage ist sowas noch schnell mit relativ kurzer Entwicklungszeit einzuschieben.

w0mbat

2024-03-03, 10:56:12

6th gen CoWoS war ursprünglich mal für 2023 geplant, und ja, die letzten Gerüchte reden von 2025. Aber so sicher kann man sich da nie sein. B100 wäre eine perfekte Einführung :D

The_Invisible

2024-03-03, 11:41:13

Bei den erwarteten Kosten einer 5090 würden sich ja auch 2 HBM Stacks ausgehen. Kommt aber wahrscheinlich zwecks Packaging Kapazitäten nicht in Frage sowas für schnödes Gaming zu verwenden, schade eigentlich :D

w0mbat

2024-03-03, 14:44:19

Es würde schon ein Stack reichen, mehr Speicher (bis zu 36GB) und mehr Bandbreite. Aber ja, CoWoS ist zu teuer bzw. zu limitiert.

iamthebear

2024-03-03, 17:14:33

Ich denke da müssen wir 1-2 Generationen warten bis die KI Blase platzt. Dann dürften jedoch genug Kapazitäten vorhanden sein.

AffenJack

2024-03-03, 17:29:53

Ich denke da müssen wir 1-2 Generationen warten bis die KI Blase platzt. Dann dürften jedoch genug Kapazitäten vorhanden sein.

Wird nix daran ändern, dass wir HBM nie mehr in Consumer GPUs sehen werden. HBM ist einfach zu unökonomisch und das wird sich auch nicht ändern mit Platzen der Blase.

basix

2024-03-03, 18:18:31

Wird nix daran ändern, dass wir HBM nie mehr in Consumer GPUs sehen werden. HBM ist einfach zu unökonomisch und das wird sich auch nicht ändern mit Platzen der Blase.

Wir treffen uns 2030 nochmals ;) Evtl. nicht HBM in der heutigen Cowos Form, eher mit sowas AMDs Infinity Fanout Links, also auf Kosten optimiert.

Daredevil

2024-03-03, 18:39:42

Wird nix daran ändern, dass wir HBM nie mehr in Consumer GPUs sehen werden. HBM ist einfach zu unökonomisch und das wird sich auch nicht ändern mit Platzen der Blase.
Angebot und Nachfrage regelt, nicht das Prinzip. Vor wenigen Jahren dachten wir uns auch, das 24GB in "Mainstream HighEnd" unökonomisch ist, oder manche kaum zwei Karten zusammen schließen um mehr Leistung zu bekommen, das 16 Kerne Overkill für Games sind oder Tastaturen für 200€ niemand kauft.
Du brauchst nur die passende Story und den passenden Mod, um in einem Spiel z.B. ein LLM zu platzieren, wo Bewohner höchstinteraktiv und natürlich mit dir kommunizieren und dann verkauft Nvidia ihre Cudakartell Karten auch an Gamer, die nur damit in den vollen Genuss von KI Beschleunigung kommen können. Wenn man dafür dann 40GB Speicher braucht und/oder pfeilschnellen HBM, wer auch immer ihn herstellt, lets go.
Je mehr HBM Nvidia bestellt, desto günstiger wird's. Solange der Kunde das zahlt kann es ihnen ja egal sein.

48GB bei einer A6000 sind zwar nett, damit reißt du aber auch kein Baum aus dem Boden und wenn GDDR6/7 zu viel Platz weg nimmt bzw. die Kapazität dort knapp wird, kann es auch irgendwann mal HBM sein. Würde das grundsätzlich echt nicht ausschließen, wenn selbst AMD 16GB möglich gemacht hat. Unwahrscheinlich ist es aber durchaus, solange GDDR6/7 genug praktikabel ist.

basix

2024-03-03, 20:35:32

Unwahrscheinlich ist es aber durchaus, solange GDDR6/7 genug praktikabel ist.

Darauf läuft es hinaus. Ist das zusammen mit einem grossen Last Level Cache noch gut genug, wird man nicht auf HBM wechseln.

AffenJack

2024-03-03, 21:25:03

Wir treffen uns 2030 nochmals ;) Evtl. nicht HBM in der heutigen Cowos Form, eher mit sowas AMDs Infinity Fanout Links, also auf Kosten optimiert.

Das Problem ist nicht Cowos, sondern HBM Kosten. Siehe Rajas Post:

Raja Koduri
@RajaXg
The answer is no. Unfortunately the $/byte on HBM has increased and all indications are that HBM4 would cost even more per-byte! HBM pricing is following inverse Moore's law!!
https://twitter.com/i/web/status/1760516439730212995

Wenn die Grafikkartenhersteller also vor der Entscheidung stehen 8GB HBM oder 24 GB GDDRXYZ, dann wird man sich sicherlich nicht für HBM entscheiden.

Das heißt nicht, dass nicht ein anderer 3D Speicher oder so kommen könnte. Aber bei HBM ist der Zug abgefahren. Ich glaube aber eher wir werden GPUs auf Ram gestapelt sehen, damit die Anbindung möglichst kurz ist. Aber wie lange das dauert bis das kommt ist die Frage.

Tesseract

2024-03-03, 23:08:42

Ist das zusammen mit einem grossen Last Level Cache noch gut genug, wird man nicht auf HBM wechseln.

das funktioniert aber kein zweites mal. noch so ein "generationensprungcheat" würde wohl 512MB+ caches brauchen und das ist unpraktikabel. GDDR7 quetscht auch quasi die letzten signalintegritätstricks aus. was dann?

am naheliegendsten wäre wohl kostenoptimierten HBM auf caches zu stacken und diese dann quasi als eine einheit an eine fast cachelose GPU anzubinden.

iamthebear

2024-03-03, 23:12:15

AMD hat HBM damals mit 500$ Karten verkauft aber plötzlich soll die Technologie zu teuer für Nvidias 1500$+ Karten sein?
Im Moment ja da zu knapp und man die Kapazitäten für die 20K+ AI Karten braucht. Sobald genug Kapazitäten da sind spricht aus meiner Sicht nichts mehr dagegen.
Langfristig werden die High End Gaming Modelle wohl ähnlich wie Navi 31 aussehen nur mit dem DRAM gleich auf die MCDs gestacked

basix

2024-03-03, 23:56:24

das funktioniert aber kein zweites mal. noch so ein "generationensprungcheat" würde wohl 512MB+ caches brauchen und das ist unpraktikabel. GDDR7 quetscht auch quasi die letzten signalintegritätstricks aus. was dann?
Noch etwas mehr Speicher/Cache und schnellerer GDDR7 reichen wohl noch für Blackwell und die Generation danach (z.B. 192 MByte LLC + 36 Gbps GDDR7). Was später kommt werden wir sehen. Das ist aber wohl eine Generation, die wohl nicht vor Ende 2028 kommen wird.

am naheliegendsten wäre wohl kostenoptimierten HBM auf caches zu stacken und diese dann quasi als eine einheit an eine fast cachelose GPU anzubinden.
Weiss nicht, ob auf Cache zu stacken wirklich kostenoptimiert ist. Wenn ich an das RDNA4/5 Patent mit 3x AID sowie MI200/MI300 denke, wäre ein Stacking auf den Rand des AID vermutlich am sinnvollsten. Der HBM steht dann auf CU Pillars wie bei MI200, ist aber ähnlich mit dem AID verbunden wie die Chiplets auf MI300 mit den Base Die. Bei HBM4 denkt man ja eh darüber nach, von 2.5D wegzukommen, das wäre genau diese Lösung.

Schlussendlich muss aber vor allem auch der HBM-Speicher an sich günstiger werden. Mit weniger Stapelhöhe und stark ausgebauten Herstellerkapazitäten sollte viel drin liegen.

36Gbps GDDR7 schafft bei 384bit 1.7 TB/s. HBM4E soll >2TB/s pro Stack liefern können. Bei 3x AID wie im Patent von AMD und jeweils 1x Stack pro AID wären das >6TB/s, was also wieder 2-3 Generationen an GPUs reichen würde. 3x 4-hi mit 32Gbit Chips wären total 48 GByte Speicher, was auch passen würde.

Platos

2024-03-04, 00:44:54

AMD hat HBM damals mit 500$ Karten verkauft aber plötzlich soll die Technologie zu teuer für Nvidias 1500$+ Karten sein?
Im Moment ja da zu knapp und man die Kapazitäten für die 20K+ AI Karten braucht. Sobald genug Kapazitäten da sind spricht aus meiner Sicht nichts mehr dagegen.
Langfristig werden die High End Gaming Modelle wohl ähnlich wie Navi 31 aussehen nur mit dem DRAM gleich auf die MCDs gestacked

HBM ist aber nicht gleich HBM. Es gibt ja auch verschiedene Versionen. Die werden mit jeder neuen Version halt auch nicht billiger...

Daredevil

2024-03-04, 00:50:18

Es muss ja auch nicht das "neueste" und schnellste sein.
Der HBM2 auf der VII hatte eine minimal höhere Bandbreite als der GDDR6X Speicher auf der 4090 und ersteres ist bald 5 Jahre alt.
An Bandbreite mag es also eh nicht so sehr mangeln zur aktuellen Zeit, zumindest für Games. ^^

Platos

2024-03-04, 02:00:30

Es muss ja auch nicht das "neueste" und schnellste sein.
Der HBM2 auf der VII hatte eine minimal höhere Bandbreite als der GDDR6X Speicher auf der 4090 und ersteres ist bald 5 Jahre alt.
An Bandbreite mag es also eh nicht so sehr mangeln zur aktuellen Zeit, zumindest für Games. ^^

An was mangelt es denn dann und warum sollte HBM dann in irgend einer Weise besser sein, wenn es daran nicht mangelt?

Altehardware

2024-03-04, 14:13:20

Das was HBM so teuer macht ist die Bitanbingung im chip der vram An Sich macht da wenig aus.
HBM 4 taktet nur bis 4,8gbps das ist Faktor 6 langsamer als gddr 7. Also muss min 4096 bit angebunden werden und das kostet DIE Fläche.
Zwar sind hbm Si Anbindungen kleiner da nicht analog auf nen ballgrid angebunden werden muss aber dennoch sind das dann 70% die Fläche vs derzeit 45% Diefläche die fürs SI draufgehen Also bis irgendwann hbm bei 10gbps ist reden wir über consumer gpu mit hbm
HBM lohnt sich nur in HPC da dort die gpu aufs maximum gehen und mit bis zu 8096bit angebunden werden. Das sind auch etwa 50% Diefläche
Erst n2x (gaa) könnte da helfen aber auch nur in high end chips 400mm²
MCM steht ziemlich sicher daher wird es keine consumer gpu mit hbm mehr geben da gddr7 schon 36-40gbps erreicht
aktuelle gpu haben 16-24gbps verbaut.

Die Bandbreite an Sich wird nur für höhere Auflösungen gebraucht wenn spiele mal mehr als 24gb belegen
Das sehe ich erst ab rtx80 kommen wenn die ps6 pro herausgekommen ist 2032
dann aber haben wir pcie7 (512gb/s) und vermutlich ddr7 mit 128bit per channel
gddr8 dürfte dann dennoch billiger sein und effektiver laufen bei 100gbps

mocad_tom

2024-03-04, 14:19:01

Hopper H100 ist eine Anhäufung an Magic Numbers

https://www.computerbase.de/2022-09/nvidia-h100-hopper-beschleunigerkarte-mit-120-gb-gesichtet/

Und diese Magic Numbers finden sich in den Intel EUV-Prozessen und in den TSMC EUV-Prozessen.

Das Hopper H100 die ist 33mm mal 25mm.

33 ist ganz einfach es ist nämlich 3 mal 11mm (ein HBM3 stapel hat die Abmessungen 11mm x 11mm)
Schaut auf das Überschriften-Bild im Artikel (da geht die Sonne auf).

25mm (die zweite Ausdehnung) ist nah am reticle limit.

So und jetzt habe ich was neues gelernt nämlich reticle Stitching.

In den 33mm steckt eine zweite Multiplikation: 2 mal 16.5mm

Wieso jetzt 16.5mm?
Das ist ein limit vom EUV-Tool, die 26mm auch.

https://twitter.com/lithos_graphein/status/1763673186196164635

Der Intel 18A-Prozess mit ebenfalls diesem ASML-EUV-Tool kann in einer einzelnen Belichtung 16.5mmx26mm an Fläche belichten.

Der Hopper H100 wird mit reticle Stitching belichtet.
gesamt: Breit 33mm / 25mm hoch

Zerlegt in 2 Felder:

Erstes Feld:
Breit 16,5mm / 25mm hoch

Zweites Feld:
Breit 16,5mm / 25mm hoch

https://anysilicon.com/die-per-wafer-formula-free-calculators/

Wenn man hier einen Yield calculator drüberwirft - dann kommen da mit Stitching total coole Sachen raus.

AI-Chips stehen da richtig drauf.

w0mbat

2024-03-04, 16:52:15

Nicht H100 wird so hergestellt, sondern der CoWoS interposer.

basix

2024-03-04, 17:37:14

H100 wird sicher nicht mit Stitching gefertigt. In dem Post geht es um 18A und High-NA, was aber für Interoser völiger Overkill wäre. Unter dem Strich ist das Stitching eine gute Idee: Man kann den Chip viel grösser machen und skalieren. Und hat gleichzeitig verschieden grosse SKUs als Option. Je nachdem geht das sogar viel grösser als ein heutiges Reticle, siehe Cerebras.

Beispiel:
- Basis-Chip = 400mm2, 4x HBM4 (HBM4 sollte dann nur noch 8mm Kantenlänge haben, damit das passt)
- Man kann das Design auf 1-4 Chips skalieren (Stitching), je nach Kundenbedarf, was 4...16 HBM Stacks wären
- Das sieht dann faktisch wie ein monolithischer Chip aus, kann aber bei Bedarf kleiner "gesägt" werden

Bei 134 Die-per-Wafer (High-NA mit maximaler Die Grösse) sind 30x 4er Pakete drin. Das wären gut 89.6% aller Die. Dann noch je 2x 3er und 4x 2er Pakete für kleinere SKUs (z.B. PCIe Karten). Yield ist bei dem Stitching Zeugs sicher so eine Frage, finde ich aber eine interessante Idee. Cerebras hat es ja auch gelöst. Das Dicing ist so wie ich es eingezeichnet habe sicher nicht optimal, mit Laser oder Wasserstrahl geht es aber mit einer Diamantsäge sicher nicht
Die GPU kann man zusätzlich immer noch auf zwei grosse Cache-Die packen. z.B. in N6 oder N4 gefertigt. Oder Intels Adamantine Cache ;)

iamthebear

2024-03-04, 21:39:46

Der Intel 18A-Prozess mit ebenfalls diesem ASML-EUV-Tool kann in einer einzelnen Belichtung 16.5mmx26mm an Fläche belichten.

Intel 18A nutzt kein High NA EUV. Das kommt erst ab 14A zum Einsatz d.h. die reticle size liegt weiterhin bei 33*25mm.

Das was HBM so teuer macht ist die Bitanbingung im chip der vram An Sich macht da wenig aus.
HBM 4 taktet nur bis 4,8gbps das ist Faktor 6 langsamer als gddr 7. Also muss min 4096 bit angebunden werden und das kostet DIE Fläche.
Zwar sind hbm Si Anbindungen kleiner da nicht analog auf nen ballgrid angebunden werden muss aber dennoch sind das dann 70% die Fläche vs derzeit 45% Diefläche die fürs SI draufgehen Also bis irgendwann hbm bei 10gbps ist reden wir über consumer gpu mit hbm

Das hier ist GA100 mit 1,9TB/s bzw. fast doppelt so viel wie eine 4090:
https://pbs.twimg.com/media/FOT_-NJWUAARrtB?format=jpg&name=900x900

Wo siehst du da 70% Flächenbedarf? Also ich messe da knapp 11%.
Zum Vergleich: Bei Navi21 waren es auch ca. 11% für 1/4 der Speicherbandbreite. Zumindest am GCD ist das deutlich flächeneffizienter.

2017 als das GCD noch auf einem spottbilligen GF 14nm Prozess gefertigt wurde hat HBM kostenmäßig kaum Sinn gemacht.
Im Jahr 2024/25 mit einem sauteuren TSMC N3 Prozess, der aber was die analogen Teile angeht kaum mehr Density hat sieht das schon etwas anders aus.

Eventuell macht es langfristig auch Sinn den DRAM ähnlich wie VCache gleich oben drauf zu stacken und dafür die Karten bei der Verlustleistung nicht sinnlos hoch zu pushen.

mocad_tom

2024-03-04, 22:28:50

Sowohl TSMC als auch Intel nutzen für die Prozesse TSMC N5 / N4 / N3 bzw. Intel 4 / 3 / 20A / 18A den ASML Twinscan NXE 3600D.

Erst ab EXE 5000 wird es High-NA.

Trotzdem hat NXE3600D ein reticle Limit von 16.5mm x 26mm.

Und diese Limitierung schlägt bei Intel und Tsmc durch und endlich wird mal über die dirty secrets gesprochen.

Den H100-Main-Die kann man nicht auf einen Schlag belichten.
Das gesamte die ist 33mm x 25mm

Es wird belichtet mit 16,5mm x 25mm und dann weiterfahren und dann nochmal 16,5mm x 25mm

Es fand ein Abwäge-Prozess statt:
Baue ich zwei kleine dies und vebinde diese mit einer Silizium-Brücke:
Vorteil:
ich kann beide bereiche einzeln selektieren
Nachteil:
ich verbrenne Energie in der Kommunikation zwischen beiden Dies

Oder
Man baut ein monolithisches Die
In der Mittelkante verbinden ein paar gröbere Querstreben die beiden Hälften mitteinander.
Vorteil:
Niedrigerer Energieverbrauch an der Mittelkante
Nachteil:
Ausbeute

Man braucht Herangehensweisen, um defekte im Cache oder bei Execution Units durch redundante Strukturen einfangen zu können, sonst erzeugt man nur Schrott-Dies.

Leonidas

2024-03-10, 02:00:53

Kopite7kimi: I am just thinking that GB203 may only have 6 GPCs.
.... trifft dies zu, dann: Denkbare Hardware-Gestaltungen von "Gaming-Blackwell" (https://www.3dcenter.org/news/geruechtekueche-denkbare-hardware-gestaltungen-von-gaming-blackwell)

Orko

2024-03-10, 02:08:07

Trotzdem hat NXE3600D ein reticle Limit von 16.5mm x 26mm.

Das wäre mir neu.

Die ASML Webseite für NXE 3600D
https://www.asml.com/en/products/euv-lithography-systems/twinscan-nxe-3600d
nennt dazu "field size of 26 mm x 33 mm"

AffenJack

2024-03-10, 08:45:51

Kopite7kimi: I am just thinking that GB203 may only have 6 GPCs.
.... trifft dies zu, dann: Denkbare Hardware-Gestaltungen von "Gaming-Blackwell" (https://www.3dcenter.org/news/geruechtekueche-denkbare-hardware-gestaltungen-von-gaming-blackwell)

RGT hat gestern ein neues Video veröffentlicht und auch nochmal umgewürfelt. Vorher hatte er ja deutliche Steigerungen der GPCs. So würde das aber tatsächlich zu Kopites früherer Behauptung passen, dass die ROP verdoppelt wurden. Die ROPs hängen bei Nvidia ja mittlerweile an den GPCs und wenn die GPUs pro GPC deutlich mächtiger werden, werden die an den ROPs verhungern ohne jegliche Steigerung. Auch zeigt Lovelave bei AD102 Skalierungsprobleme. Das könnte darauf hindeuten, dass die auf der GPC Ebene entstehen und man diese deswegen pro GPC stärker mehr.

KarlKastor

2024-03-10, 10:05:48

Wo siehst du da 70% Flächenbedarf? Also ich messe da knapp 11%.

Er schreibt ja auch die ganze Zeit, dass Blackwell überall nur Mini Speicherinterfaces bekommt, da sie ja knapp 50% der Die-Fläche ausmachen. Er hat sich noch nie im Leben einen Die-Shot einer GPU angeschaut und ignoriert alle Posts, die ihn da korrigieren.
Dann kommt halt permanent Dünnpfiff bei raus.

fondness

2024-03-10, 11:12:59

AMD hat HBM damals mit 500$ Karten verkauft aber plötzlich soll die Technologie zu teuer für Nvidias 1500$+ Karten sein?

Wobei das laut AMD damals ein Griff ins Klo war. Leider hat man nicht näher erklärt warum.

Zossel

2024-03-10, 11:21:21

Wobei das laut AMD damals ein Griff ins Klo war. Leider hat man nicht näher erklärt warum.

Zu wenig RAM für zu viel Bumms beim Rechnen.

davidzo

2024-03-10, 11:36:08

AMD hat HBM damals mit 500$ Karten verkauft aber plötzlich soll die Technologie zu teuer für Nvidias 1500$+ Karten sein?

Fiji war als Halo-Produkt geplant aber ein so großer finanzieller Reinfall dass AMD noch überstürzt eine Hawai Karte mit der doppelten Menge Ram nachgeschoben hat um die Kunden von der Fury weg zu bewegen. Der Hawai Chip war minimal langsamer, aber trotz 512bit SI und der doppelten Menge DRAM deutlich billiger zu produzieren. Und das obwohl Polaris als echter massentauglicher Haiwai replacement Chip schon in den Startlöchern stand.
Auch Vega gibt einen Ahnung was für eine finanzielle Katastrophe das Fiji Package gewesen sein muss, weil man das HBM Interface auf nur noch zwei Stacks halbiert hat und damit effektiv weniger Bandbreite zur Verfügung hatte als Fiji obwohl die GPU deutlich mehr Leistung bot.
Koduri hat ja auch zu mehreren Anlässen Zeugnis gegeben dass er die HBM-Entscheidung bereut hat und seine persönliche Verantwortung für das Disaster einsieht.

HBM2E und HBM3 haben sich außerdem in eine deutlich andere Richtung entwickelt als AMD damals dachte. Der Plan war für einen zusätzlichen Commodity Speicher analog zu GDDR5 und GDDR6. Die Technologie hat sich aber eher in richtung noch höherer Leistungen zu noch höheren Preisen entwickelt.

Wie iamthebear schon selber gemerkt hat ist HBM durch den AI Boom zusätzlich für die nächsten jahre erst einmal außer Frage. Der hohe Preis für HBM rettet derzeit den Speicherherstellern den Arsch, denn mit DRAM und GDDR verlieren sie derzeit Geld. Die Investitionen und Weiterentwicklung des Standards orientiert sich ganz sicher an dieser hohen Profitabilität. Ich rechne also nicht damit dass diese Zeiten eines High Bandwidth RAM der zur günstigen commodity wird und zu Consumertauglichen Preisen gehandelt wird je wieder kommen. HBM3 und HBM4 werden daher als reine Servertechnologien entwickelt, mit einem Featureset und Fertigungsprozess der Consumer-Preislevel unmöglich macht. HBM3+4 hat auch durch sehr langfristige Lieferverträge viel weniger Schwankungen als der DDR5 Spot Market.

HOT

2024-03-10, 12:25:01

Da die neuen ja jetzt 16 SMs pro GPC haben sollen würde ich sagen, dass die neuen SMs wie bei RDNA einfach verdoppelt werden und eine Art WGP bilden.
Das würde ermöglichen, dass man die bisherige Ada Organisation einfach kopieren kann und der Hirnschmalz vor allem in die SMs selber reingeflossen ist und nicht in die Organisation des Chips.
Somit könnte ich mir auch gut vorstellen, dass man mit den neuen, vielleicht etwas kompakteren SMs und N4-Prozess (den NV einfach 3N nennen wird weil customisiert, genau wie 4N ein customisierter N5 ist) irgendwo über 700mm² landet mit 192 SMs. Für mich passt das recht gut zusammen alles.
Ob der 203er jetzt 6 oder 7 GPCs hat dürfte von der Gestaltung des Chips abhängen. Beim Ada 103 war offenbar noch Platz für einen 7. GPC mit 8 SMs, ohne dass das den Chip sonderlich aufgeblasen hätte.

Daredevil

2024-03-10, 13:28:49

Fiji war als Halo-Produkt geplant aber ein so großer finanzieller Reinfall dass AMD noch überstürzt eine Hawai Karte mit der doppelten Menge Ram nachgeschoben hat um die Kunden von der Fury weg zu bewegen. Der Hawai Chip war minimal langsamer, aber trotz 512bit SI und der doppelten Menge DRAM deutlich billiger zu produzieren. Und das obwohl Polaris als echter massentauglicher Haiwai replacement Chip schon in den Startlöchern stand.
Auch Vega gibt einen Ahnung was für eine finanzielle Katastrophe das Fiji Package gewesen sein muss, weil man das HBM Interface auf nur noch zwei Stacks halbiert hat und damit effektiv weniger Bandbreite zur Verfügung hatte als Fiji obwohl die GPU deutlich mehr Leistung bot.
Koduri hat ja auch zu mehreren Anlässen Zeugnis gegeben dass er die HBM-Entscheidung bereut hat und seine persönliche Verantwortung für das Disaster einsieht.

HBM2E und HBM3 haben sich außerdem in eine deutlich andere Richtung entwickelt als AMD damals dachte. Der Plan war für einen zusätzlichen Commodity Speicher analog zu GDDR5 und GDDR6. Die Technologie hat sich aber eher in richtung noch höherer Leistungen zu noch höheren Preisen entwickelt.

Wie iamthebear schon selber gemerkt hat ist HBM durch den AI Boom zusätzlich für die nächsten jahre erst einmal außer Frage. Der hohe Preis für HBM rettet derzeit den Speicherherstellern den Arsch, denn mit DRAM und GDDR verlieren sie derzeit Geld. Die Investitionen und Weiterentwicklung des Standards orientiert sich ganz sicher an dieser hohen Profitabilität. Ich rechne also nicht damit dass diese Zeiten eines High Bandwidth RAM der zur günstigen commodity wird und zu Consumertauglichen Preisen gehandelt wird je wieder kommen. HBM3 und HBM4 werden daher als reine Servertechnologien entwickelt, mit einem Featureset und Fertigungsprozess der Consumer-Preislevel unmöglich macht. HBM3+4 hat auch durch sehr langfristige Lieferverträge viel weniger Schwankungen als der DDR5 Spot Market.
HBM war bei der Vega 56/64 und VII aber auch DER Grund, wieso die Nachfrage nach Computing Power immens angestiegen ist. Mining war zwar auf NVIDIA auch nett, durch die Bandbreite und den Cache hat AMD aber alles gerissen in dieser Kategorie. Die GPU von morgen, die nicht nur für Gaming verkauft wird, wird dementsprechend sicherlich auch gut ausgestattet sein, aber HBM wird’s wohl nicht, da hätte ich aber total Bock drauf. :D
Irgendwie muss NVIDIA aber auch Apple in der Richtung Konkurrenz machen, weil dort bekommste locker 64/128/192gb VRAM im Schuhkarton Format. Eine 3090/4090 ist zwar deutlich schneller, aber 24gb sind dort echt zu wenig für große Modelle/Auflösung. :$

Altehardware

2024-03-10, 16:07:47

Warum skaliert nvidai high end nicht so gut das liegt primär am CPu limit sekundär an
rop limit und Bandbreite
Es gibt derzeit kein Spiel in raster was eine rtx4090 auslasten kann selbst auf 4k nicht
daran wird auch ne neue cpu gen nix ändern da man da in ein rop limit rennt.
Der Vollausbau des ad102 hat 192 rop die mit 2,7ghz Takten =518gpixel ein 8k Bild hat 35gpixel
mit 8k könnte a ne rtx4090 auslasten in raster aber abseits das kein spiel so eine Auflösung nativ rendert. rennt man dann in ein Bandbreitenlimit.
1008gb/s aber ein frame hat min 24gb an daten 3 müssen auf ner gpu vorhanden sein was faktisch nicht geht da die gpu nur 24gb hat.
Folglich brechen die fps ein. der kompromiss wäre 4k rendern ein frane 5,5gb =16,5gb vram belegung +-1-3gb an zusatzdaten.
folglich 1008/5,5 =183fps möglich mit 8k nicht mehr ladbar da ein frame alleine 24gb frisst
Die rop Leistung liegt bei 518gpixel ein 8k frame hat 35gpixel =21fps sofern die daten vom vram geladen werden können
Daher ist die rtx4090 klar ne 4k gpu aber nicht für mehr. 518/8 =64fps bei nativer 2160p rendern.
Warum ist das vom belang nun da die ue5 mit nanite eine native rendern in allen Auflösungen ermöglicht braucht der Entwickler nicht mehr die Texturen an Auflösungen anzupassen damit die daten passen da geht es klar nach rop perf leider wird bei gpu die gpu load Angabe für alle Faktoren genutzt dazu zählt auch tmu die ich ganz herauslasse da diese variable sich anpasst
Die Reihenfolge ist folgende

rop perf anhand von gigapixel (das raster womit das Bild in 2d transformiert wird Das geht strikt nach gpixel je nativ gerendert wird)
shaderperf anhand von teraflops (3d shading der Texturen Beleuchtung Effekte schatten Reflexionen und Spiegelungen)
bandbreite anhand von gb/s (64 bis 512bit per 96dpi zur Renderauflösung)
tmu anhand von gigatexel (polygondichte Texturen an sich)

Woran erkenne ich was ausgelastet ist
95-100% aber nur 60-80% tbp klares rop limit
95-100% gpu load aber volle tbp shader limit
95-100% load aber wenige tbp etwa 50% und weniger gpu load Bandbreiten limit
Tmu ist schwieriger da es alle Felder betrifft mit wenig last. Da aber nvidia die rop mit den tmu verbunden sind ist derzeit ein gpc 16 rop zu 48tmu. Das wird man nicht anfassen da dort kaum ein limit besteht.(1-4)
Schließlich reichen die 172 rop locker mit den aktiven 516 tmu
wichtiger ist was die kleinen chips leisten ein gb207 sehr wahrscheinlich laptop only da auch in sf4x node (die perf ist identisch zu ada gen etwa 2,5ghz ab 32sm 18rop für 74tmu per gpc)

Der gb206 wird interessant da es sich quasi um ne rtx4070 super mit maximal 175w handelt.
60sm 2,5ghz gleiche sm Struktur geändertes rop Verhältnis 18 zu 74 =4 gpc 72 rop 296tmu bei 2,5ghz etwa perf der rtx4070 super
Ich vermute mal stark das dies die neue rtx5060ti wird womit die rtx5060 bei grob 22tf also 48-52sm mit 155w tbp 12gb haben wird (+38%)
Die rop werden nicht gekürzt das sieht man daran das die 4 gpc aktiv sind
Womit die 72rop mit 296tmu sicher sein dürften also grob 180gpixel und 740gtexel
Die Bandbreite wird gddr7 32gbps sein bei maximal möglichen 96bit =384gb/s mit dann 22tf perf.
53$ chip 6 16gbit chips a 11$ 12gb sku ab 399€

Das wichtige dabei ist was amd dann hat rdna4 n48 (rx8700) 48cu 3,5-3,9ghz 16gb +- 25tf
chip ab 60$ 8 16gbit 20gbps a 4$ =640gb/s ab 399€
dxr perf identisch

größere Sku also ab der rtx5070 wird aber deutlich mehr perf Zuwachs bekommen wichtig dabei ist wie viele gpc aktiv sind.
6 gpc sollten beim gb205 sein was 96sm sind es könnte nur 5 aktiv sein bei 70sm das wird die rop auf 5*18=90rop und tmu 450 setzen und das bei vermutlich 3,36ghz bei gleichem strombedarf wie samsung sf4x node. 180-200w wegen oc
Das sind 70*88*2*3,36=41tf Ein plus von +50% mit 192bit Si und wieder 12gb 768gb/s
preis dürfte ab 660$ (729€) losgehen da amd keine Konkurrenz ist.

2026 aber wird nvidia nen refresh bringen mit 24gbit chips und quasi identische sku gleiche sm aber mit 18gb kommen da amd dann rdna5 bringt und heftig konkurrieren wird mit 80cu als rx9800xt 43tf 16gb 600$/670€und 100cu als rx9800xtx 3,9ghz +-54tf 16gb 800€
nvidia zu dem Zeitpunkt gb203 112sm 3,36ghz 18gb 849$/949€ 66tf
Amd high end rx9900xt währenddessen bei 78tf 20gb für dann 1400€
nvidia high end zu dem Zeitpunkt ist 83tf die kommt schon q4 2024 als rtx5090 20gb für 2000$
Wird aber 2026 bei 1500$ sein da amd Spitzenmodell rx7900xtx 100tf haben wird. grob 2000$
Daher erwarte ich ne titan b ab 2026 mit dem gb202 der kostet alleine 198$ 8 24gbit 24gb ab 2500$ 106tf

mal davon abgesehen das bei solcher perf keine cpu das auslasten kann wenn derzeit ne 63tf rtx4090 auch schon verhungert.

Spiele wo ich das sehe das solche perf was bring sind pathtracing wie bei alan wake2 nativ ohne upscaler 1440p aufwärts.
Das kommende gta6 2026 und vermutlich tes6 ebenfalls 2026
Der beste perf Ausblick gibt mowawi united mit ihren biome demos eines mit lumen und nantine empfehle ich.

The_Invisible

2024-03-10, 16:25:14

Hä, ein 8k Bild hat ~33mpix, Rechnung bitte von vorn ;-)

wolik

2024-03-10, 16:33:38

Daher ist die rtx4090 klar ne 4k gpu aber nicht für mehr.

ALLE Spiele sind perfekt spielbar in 8K. Mit 4090. Es gibts auch ein Thread dazu.
https://www.forum-3dcenter.org/vbulletin/showthread.php?t=577059

Altehardware

2024-03-10, 20:58:56

ich habe 8192x4320 gerechnet das echte 8k nicht die doppelte uhd Auflösung was 7680x4320 ist

DrFreaK666

2024-03-10, 22:13:27

Wieso ist es nur bei ca. 17:9 "echtes 8k"? Wegen der 8?

OgrEGT

2024-03-11, 06:12:59

ich habe 8192x4320 gerechnet das echte 8k nicht die doppelte uhd Auflösung was 7680x4320 ist
Aber auch dann liegt die Anzahl der Pixel pro Bild um ca. Faktor 1000 niedriger...
35Mega und nicht 35Giga Pixel... bei 32bit Farbtiefe 8bit pro Kanal ergeben sich ca 141MB pro Bild...

Leonidas

2024-03-11, 09:24:23

Kopite7kimi:

https://twitter.com/kopite7kimi/status/1767078792257052771
I think my persistence is correct. So the difference is that GB202 is 512-bit and AD102 is 384-bit.

https://twitter.com/kopite7kimi/status/1767083479811113209
28Gbps.

https://twitter.com/kopite7kimi/status/1767083262512615456
I think GB203 is half of GB202, just like GB102 and GB100. But I don't know if GB202 has a multi chip package.

Dural

2024-03-11, 10:27:17

Was ist das überall wieder für eine Panik mache?

Gerade PCGH und auch CB kann man als News Portal nicht mehr wirklich ernst nehmen.

Ist man heute so dermassen abhängig ein paar Klicks zu generieren?

Grafikkarten werden heute ja nur noch an der Speichermenge und SI gemessen. Wie vor 20 Jahren Plus, wie erbärmlich.

Meiner Meinung nach ist das alles ein von den Medien künstlich auf gepuschtes Thema. Es gibt keine Grafikkarten mit zu wenig Speicher/Si, es gibt nur Karten die sinnlos zu viel haben.

In der Geschichte gab es nur ganz ganz wenige Karten die wirklich zu wenig Speicher hatten zb. die 8800GTS 320.

Die Lebensdauer einer Karte wir selten bis gar nie am Speicher scheitern, sondern am Techlevel, der Rechen-Leistung so wie Treiber Support.

Bestes Beispiel aus der jüngeren Zeit ist die 6900XT. Hat 16GB ist aber heute hoffnungslos unterlegen, eine 4070Ti mit 12GB zieht mit RT Kreise um die Karte (!!!) Alle die Damals die Karte wegen den 16GB gekauft haben sind die Dummen, zugeben würden sie es aber natürlich nie.

robbitop

2024-03-11, 10:37:30

Naja doch das kommt immer mal wieder vor, dass zu wenig VRAM dabei war.
Fijii, die GTS320 und IMO auch die 4070 / S und die 4060 und die 7600. Die sind noch ziemlich neu und sind jetzt schon desöfteren am VRAM Limit. Und man möchte die GPU ja noch eine Weile behalten.
Das bedeutet aber nicht umgekehrt, dass alle GPUs mit viel Speicher zukunftssicher sind. Aber es bedeutet, dass wenig Speicher Zukunftssicherheit kosten kann.
Bei der 4070 / 4070 S / 4070 ti wäre es super (hehe) gewesen, wenn es mehr VRAM gegeben hätte. Mit den 3 GB Modulen wären immerhin 18 GB möglich bei gleichem SI.

Linmoum

2024-03-11, 10:38:28

Das Beispiel aus der jüngeren Zeit ist die 3080 mit 10GiB. Leute, die die Karte damals gekauft haben (und zwar weit über UVP, weil es sie für letztere quasi nie gab), sind heute die Dummen und diese Karte ist ein Paradebeispiel dafür, dass die Lebensdauer einer Karte auch am Speicher scheitert.

Bei Karten, die 16GiB+ haben, spielt das tatsächlich noch keine Rolle. Die gibt's aber noch lange nicht in jedem Preis- bzw. Leistungsbereich.

[MK2]Mythos

2024-03-11, 10:49:52

Was ist das überall wieder für eine Panik mache?

Gerade PCGH und auch CB kann man als News Portal nicht mehr wirklich ernst nehmen.

Ist man heute so dermassen abhängig ein paar Klicks zu generieren?

Grafikkarten werden heute ja nur noch an der Speichermenge und SI gemessen. Wie vor 20 Jahren Plus, wie erbärmlich.

Meiner Meinung nach ist das alles ein von den Medien künstlich auf gepuschtes Thema. Es gibt keine Grafikkarten mit zu wenig Speicher/Si, es gibt nur Karten die sinnlos zu viel haben.

In der Geschichte gab es nur ganz ganz wenige Karten die wirklich zu wenig Speicher hatten zb. die 8800GTS 320.

Die Lebensdauer einer Karte wir selten bis gar nie am Speicher scheitern, sondern am Techlevel, der Rechen-Leistung so wie Treiber Support.

Bestes Beispiel aus der jüngeren Zeit ist die 6900XT. Hat 16GB ist aber heute hoffnungslos unterlegen, eine 4070Ti mit 12GB zieht mit RT Kreise um die Karte (!!!) Alle die Damals die Karte wegen den 16GB gekauft haben sind die Dummen, zugeben würden sie es aber natürlich nie.
Unsinn.
RDNA2 zieht heute Kreise um Ampere weil da so hart am Speicher gespart wurde.

basix

2024-03-11, 11:14:05

Kopite7kimi:

https://twitter.com/kopite7kimi/status/1767078792257052771
I think my persistence is correct. So the difference is that GB202 is 512-bit and AD102 is 384-bit.

https://twitter.com/kopite7kimi/status/1767083479811113209
28Gbps.

https://twitter.com/kopite7kimi/status/1767083262512615456
I think GB203 is half of GB202, just like GB102 and GB100. But I don't know if GB202 has a multi chip package.

Wenn GB102 -> GB100 Multichip ist, könnte GB203 -> GB203 auch Multichip sein. Rein technolgogisch betrachtet könnte man die gleich Basis verwenden, wenn auch abgespeckt bei GB202 (z.B. InFO_R/LSI anstatt CoWoS Basis). Würde auch zu der 6 GPC Geschichte bei GB203 passen (GB202 soll 12 GPCs haben). Die verschiedenen Gerüchte um GB202 und 384bit/512 bit wären dann auch erklärbar. GB202 würde prinnzipiell 512bit bieten können, reale Produkte bleiben aber vermutlich bei 384bit. Sind immer noch +50% Bandbreite und vermutlich +50% L2 Cache (96 MByte anstatt 64MByte wie bei GB203). Das würde gut zur Leistungsdifferenz zu GB203 passen (siehe AD102 vs. AD103). Damit hat man bei GB202 gleichzeitig auch noch den GB203 Salvage im Sack (SI, Cache, SM).

Erscheint mir alles in allem relativ schlüssig, auch wenn ich bei Consumer keinen Multichip Ansatz erwarte. Ohne Multichip Ansatz macht eine Differenz von 6 -> 12 GPC und 256 -> 512bit aber keinen Sinn.

Edit:
Auch langfristig betrachtet würde Gx102 als Multichip von Gx103 Sinn machen. Wenn High-NA kommt, werden die Chiplets max. 429mm2 gross. 300...400mm2 für den zweitgrössten Chip ist eigentlich ideal. Der grösste Chip wäre dann Multichip. Die kleineren Chips können monolithisch bleiben. Für Nvidia bietet diese Multichip Auslegung ein paar Vorteile. Es verringert die Multichip Komplexität. Man bekommt automatisch Salvage Optionen für die grösseren Chips und im Fall der Fälle (AMD und Intel werden stark und/oder Prosumer/Workstation/AI) kann man das Design bis nach ganz oben ausfahren (maximale SM, 512bit, mehr Speicher). Der relativ hohe Salvage Grad der Gx102 sowie der Chiplet Overhead ist nicht weiter tragisch, da man eh Salvage braucht und die Preise dort oben im Highend, Enthusiast und Workstation Bereich saftige Margen versprechen. Die kleineren Chips (Gx104 und drunter) sind stärker auf Kosten hin optimiert.

The_Invisible

2024-03-11, 12:02:52

Mythos;13506190']Unsinn.
RDNA2 zieht heute Kreise um Ampere weil da so hart am Speicher gespart wurde.

Sieht hier aber anders aus in 1440p... https://www.pcgameshardware.de/Geforce-RTX-4080-Super-Grafikkarte-280114/Tests/Release-Benchmark-Kaufen-Preis-RTX-4080-Super-vs-4080-vs-7900-XTX-1438917/3/

Speichermenge ist nur ein Faktor von vielen bei Grafikkarten, diese alleine auf VRAM Menge runterbrechen ist einfach unsinnig, es muss eine gute Balance gefunden werden

robbitop

2024-03-11, 12:12:34

Das Beispiel aus der jüngeren Zeit ist die 3080 mit 10GiB. Leute, die die Karte damals gekauft haben (und zwar weit über UVP, weil es sie für letztere quasi nie gab), sind heute die Dummen und diese Karte ist ein Paradebeispiel dafür, dass die Lebensdauer einer Karte auch am Speicher scheitert.

Bei Karten, die 16GiB+ haben, spielt das tatsächlich noch keine Rolle. Die gibt's aber noch lange nicht in jedem Preis- bzw. Leistungsbereich.
Stimmt - die 3080 war auch so ein Beispiel.

robbitop

2024-03-11, 12:14:28

Mythos;13506190']Unsinn.
RDNA2 zieht heute Kreise um Ampere weil da so hart am Speicher gespart wurde.
Also im letzten Rasterizer Index con CB in 4K sieht man zumindest keine Kreise, die RDNA2 um Ampere dreht:
https://www.computerbase.de/2023-08/radeon-rx-7900-gre-test/2/#abschnitt_benchmarks_mit_und_ohne_raytracing_in_3840__2160

Colin MacLaren

2024-03-11, 15:43:49

Gibt es schon sinnvolle Spekulationen, wo wir preislich landen werden? Hatte irgendwas von 1.500$ für die 5080 und 2.500$ für die 5090 gelesen?

Linmoum

2024-03-11, 15:49:34

Sinnvolle Spekulationen darüber gibt's fünf Minuten vorher, wenn Jensen den Preis final festlegt. Alles andere ist wie immer Quatsch und kann man ignorieren.

MiamiNice

2024-03-11, 16:14:52

Naja, günstiger wird es wohl eher nicht. So viel kann man wohl sicher sagen. Im besten Fall bleibt der Preis gleich, aber die Chips auf den Karten gehen eine Klasse nach unten. Das Spice muss fließen.

basix

2024-03-11, 16:18:01

Meine Erwartung: Günstiger wird es nicht. Die Preise werden sich aber auch nicht stark nach oben verschieben. Der "Markt" hat gezeigt, dass die jetzigen Preislagen für viele unattraktiv sind. Und bei der 4080 waren die Verkaufszahlen ja besonders niedrig, weil das schlechteste P/L des ganzen Lineups.

Ein weiterer Punkt wird die konkurrenzfähigkeit von RDNA4 und Battlemage sein. Nvidia wird die Preispunkte auch anhand des Marktumfeldes justieren, falls nötig (nach unten) oder möglich (nach oben).

MiamiNice

2024-03-11, 16:28:55

Aber weil trotzdem die Marge weiter steigen MUSS, müssen andere Register gezogen werden. Die 4080 wirkt gegen die 4090 wie ein Spielzeug, hat aber keinen Spielzeug Preis. Da lag es nahe, entweder direkt zur 4090 zu greifen oder gar nicht zuzugreifen, bzw. auf eine kleinere GPU zu wechseln.
Imo macht NV diesen Fehler nicht noch einmal. Also, 5090 streichen. Dafür eine Titan bringen mit absurden Preis und doppelter Leistung der 5080. 5080 als höchste normale Karte mit GB203 für um 1400 - 1600€. Die Titan dann für min. den doppelten Preis + Aufschlag.

Linmoum

2024-03-11, 16:33:57

Für eine potentielle "Titan" kann man in anderen Marktsegmenten deutlich höhere Preise verlangen. So einen Vollausbau wird Nvidia ganz sicher nicht als Gaming-GPU verschwenden, gerade dann nicht, wenn es aus Gründen mangelnder Konkurrenz (was IMO wie schon jetzt der Fall sein wird) sowieso nicht notwendig ist.

MiamiNice

2024-03-11, 16:37:11

Ja, sehe ich auch so. Deswegen den GB202 komplett aus dem normalen Segment entfernen, ergo die 5090. Dafür dann halt das Segment darüber schaffen, mit der Titan. Hier könnte man Salvage Chips verwenden für die Gaming Titan. Wenn man dann noch einen Preis, sagen wir um 4000 - 6000€ dran schreibt, dürfte auch das für NV ein Geschäft sein. Creators und Enthusiasten kaufen den Spaß. Für die normalen Käufer ist die 5080 das maximale der Gefühle und es gibt auch keine reguläre Gaming Karte darüber. Die 5080 wäre der Gaming Top Dog und damit kann man dafür mehr nehmen, auch wenn es eigentlich ein Downgrade ist.

Sardaukar.nsn

2024-03-11, 16:39:37

Das 90er Modell hat sich doch jetzt seit zwei Generationen als Gaming Topdog etabliert und viele Kunden gefunden. Wüsste nicht warum man das jetzt wieder ändern sollte. Viel Geld muss Nvidia damit nicht verdienen, ist ja eher ein Abfallprodukt der anderen Geschäftsbereiche wenn man sich die Zahlen so ansieht.

MiamiNice

2024-03-11, 16:45:44

Sind die 90iger Karten nicht einfach nur ein Halo Produkt für die ganze Serie? Weil das kann eine Titan die knapp 100% schneller ist als die nächst kleinere Karte, deutlich besser. Mit höheren Preispunkt sogar doppelt besser. Es wäre für die meisten User eine unerreichbare Karte mit absurder Leistung. Das würde imo noch viel besser auf das restliche Portfolio wirken, als eine 5090 mit nur um 30% mehr Power ggü. 5080.

Aber nichts genaues weiß man nicht. Ich bin sehr gespannt darauf wie Huang anno 2024 die Kunden abschöpft :D

basix

2024-03-11, 16:57:30

Die Marge muss nicht steigen. Gewinn soll steigen. Das macht man mit mehr Volumen, wenn der Konsument nicht mehr bezahlen will (was momentan der Fall ist). Die Margen holt Nvidia mittlerweile im Profi & HPC Sektor.

Und ich kann dir versichern: Eine Titan für 3-4kEuro werden viel, viel weniger Leute kaufen wie eine 1500-1800$ GPU. Du kannst oberhalb der 5090 immer noch eine Titan mit Maximalausbau und 512bit (somit 32 GByte) installieren. So würde ich es machen....

Für eine potentielle "Titan" kann man in anderen Marktsegmenten deutlich höhere Preise verlangen. So einen Vollausbau wird Nvidia ganz sicher nicht als Gaming-GPU verschwenden, gerade dann nicht, wenn es aus Gründen mangelnder Konkurrenz (was IMO wie schon jetzt der Fall sein wird) sowieso nicht notwendig ist.

...doch dieses Argument ist auch sehr gut.

Wenn ich "raten" müsste: Falls GB202 = 2x GB203 als Multichip Design
- GB203, 5080, 16GByte, ~1000$
- GB202, 5080 Ti, 20 GByte
- GB202, 5090, 24 GByte, >1500$
- GB202, Quadro, 64 GByte, >5000$

Zu einer möglichen Titan: Kann es immer noch geben. 32 GByte, um die Quadro nicht zu gefährden und 3000$ Preisschild dran. Wird seine Käufer finden. Wohl auch für ML/AI-Prosumer. Mich wird das aber nicht begeistern ;)

MiamiNice

2024-03-11, 17:15:44

Ein Multi Chip Design im Desktop? Ich denke dafür ist es ein wenig zu früh. Kaum Erfahrungen damit, schreit nach Kinderkrankheiten und zu viel Aufwand für das "bissel" Geld welches übers Gaming rein kommt. Wäre auch nicht unbedingt nötig, da weder AMD noch Intel in Schlagweite sind. Kompliziert die Sache damit unnötig.
Mein Tip wäre, es bleibt bei einem monolithischen Chip für noch min 1-2 Generationen.

basix

2024-03-11, 17:50:27

Ich wäre auch für einen monolithischen Chip. Aber 6 GPC bei GB203 und 12 GPC bei GB202 machen keinen Sinn. Noch weniger, wenn da noch 256bit und 512bit SI ins Spiel kommen und kopite die ganze Zeit zwischen 384bit und 512bit schwankt. Sollte das so kommen, schreit das schon fast nach Multichip.

Ich habe meine Gedanken zu Multichip hier bereits dargelegt:
https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13506201#post13506201

Und hey:
Multichip im Desktop wäre genau das, was noch höhere Margen ermöglichen würde. Also das was du als "notwendig" für Nvidia erachtest ;)
Ausserdem die Portfolio-Erweiterung hinsichtlich Profi und ML/AI Karten. Da ist viel Speicher von Nöten. Mit 384bit ist bei 48GByte Schluss. Bei 512bit kommt man höher und hat auch mehr Bandbreite (ideal für ML/AI). Später kann man eine 96GByte Quadro Variante mit 24Gbit GDDR7 nachschieben. Mit 2x kleineren Die bleiben ausserdem die Kosten im Rahmen (= höhere Margen).
Da Nvidia zu einer "AI Company" geworden ist, könnte ich mir hier den ML/AI Fokus auf dem dicksten Chip sehr gut vorstellen. Was dann potentielle Mehrkosten durch den Multichip-Ansatz locker wieder reinholt (ich denke aber Multichip ist sogar billiger als monolithisch, wenn man die gleiche Performance anstrebt). Bei Consumer wird dann abgespeckt (weniger SM, 384bit, weniger Speicher). Mit Titan als Option oben drauf, wenn Nvidia das als sinnvoll erachten sollte.

AffenJack

2024-03-11, 18:31:20

Ich wäre auch für einen monolithischen Chip. Aber 6 GPC bei GB203 und 12 GPC bei GB202 machen keinen Sinn. Noch weniger, wenn da noch 256bit und 512bit SI ins Spiel kommen und kopite die ganze Zeit zwischen 384bit und 512bit schwankt. Sollte das so kommen, schreit das schon fast nach Multichip.

Evtl. zeigt es auch Nvs Designansatz. Wer sagt denn, das es nicht beides in der Entwicklung gab? Man hört immer wieder Nv evaluiert viele Optionen bei der Entwicklung. Ein Monochip GB202 wird wieder ziemlich groß und 3nm hatte am Anfang starke Yieldprobleme.

Wieso also nicht bei der Entwicklung mit 2 Chips starten, die komplett gleich sind, außer dass einer Singlechip und der andere Dual-Chip + Interconnect ist. Den Interconnect wird man eh in Zukunft brauchen, also schadet es nicht den zu entwickeln und am Ende hat man die Flexibilität abhängig von Singlechip Yield und anderen Parametern zu entscheiden, welcher Chip zum Tapeout geschickt wird. Ein praktisch nur verdoppelter Chip hat wahrscheinlich auch geringere Entwicklungskosten.

Zossel

2024-03-12, 07:14:16

Evtl. zeigt es auch Nvs Designansatz. Wer sagt denn, das es nicht beides in der Entwicklung gab? Man hört immer wieder Nv evaluiert viele Optionen bei der Entwicklung. Ein Monochip GB202 wird wieder ziemlich groß und 3nm hatte am Anfang starke Yieldprobleme.

Jeder neue Chip (CPU, GPU, o. ä.) wird bei jeder Firma in der Entwicklung neu ausbalanciert.

Leonidas

2024-03-13, 12:04:48

Weitere GB203- & GB205-Leaks lassen die Hardware-Daten zu "Gaming-Blackwell" nahezu komplett erkennen
https://www.3dcenter.org/news/geruechtekueche-weitere-gb203-gb205-leaks-lassen-die-hardware-daten-zu-gaming-blackwell-nahezu-
- GB203: bestätigt mit 256-bit
- GB205: bestätigt mit 192-bit, wahrscheinlich mit 64 SM

Sardaukar.nsn

2024-03-13, 12:37:12

Uff, wenn sich das Gerücht bestätigt wird die 5080 im Vergleich zur 90er noch unattraktiver sein als schon bei Lovelace. https://www.pcgameshardware.de/Grafikkarten-Grafikkarte-97980/News/Geforce-RTX-5090-und-RTX-5080-1442808/

https://www.pcgameshardware.de/screenshots/original/2024/03/Screenshot-2024-03-12-at-14-11-43-NVIDIA-Blackwell-GB203-GPU-to-feature-256-bit-bus-und-GB205-with-192-bit-claims-leaker-VideoCardz.com-pcgh.png

w0mbat

2024-03-13, 12:48:56

Ich gehe nicht davon aus, dass (falls die Daten so stimmen) eine 5090 keine 512-bit und 192SMs bekommt, das wäre dann eine Titan. Die 5090 wird wohl wieder mit 384-bit und deutlich weniger SM kommen.

Exxtreme

2024-03-13, 12:49:37

Wahrscheinlich auch ein reines Upselling-Modell.

Daredevil

2024-03-13, 13:19:30

Das sieht wohl so aus, wenn das alles stimmt. Sofern sich AMD wirklich aus dem 1000$+ Markt raus halten möchte, ist die 5090 halt einfach ne "Titan like" Prestige Karte mit max Performance, VRAM Speed/Kapazität, AI wrmmmm, 2kg Kühler und 600w+ Hitze für ... i dont know, 2999$?
Wer damit Geld verdient oder sich geil fühlt, dem wird das egal sein. GPUs sind ja nicht "nur" noch zum zocken da.
Und wenn eine 5080 nun die hälfte leistet und dabei "nur" 1299$ kostet, ist das ja schon fast ein Schnäppchen.

Nvidia verdient mit den dicken Chips im Pro Markt eh mehr Kohle, da will man doch keine teuren Kapazitäten bei TSMC opfern für "billige" Gamer Karten für den Hausgebrauch.
Das wird sicherlich ein lustiger Spagat, den Server Markt zu bedienen und zu schröpfen, ohne die Gamer nicht noch mehr abzufucken. :D
Aber vielleicht gibts ja wieder Secret Sauce und DLSS4+, das ne 5070 so schnell ist wie ne 4080/90 in Szenario x, dann wird weniger gemeckert.

prinz_valium_2

2024-03-13, 13:36:24

Uff, wenn sich das Gerücht bestätigt wird die 5080 im Vergleich zur 90er noch unattraktiver sein als schon bei Lovelace. https://www.pcgameshardware.de/Grafikkarten-Grafikkarte-97980/News/Geforce-RTX-5090-und-RTX-5080-1442808/

https://www.pcgameshardware.de/screenshots/original/2024/03/Screenshot-2024-03-12-at-14-11-43-NVIDIA-Blackwell-GB203-GPU-to-feature-256-bit-bus-und-GB205-with-192-bit-claims-leaker-VideoCardz.com-pcgh.png

Kommt alles auf den Preis an
Wenn die 5090 dann $1999 ist und die 5080 $799, wäre das alles absolut kein Problem.

Zu erwarten ist das allerdings nicht.
Noch dazu wird es natürlich ein salvage chip sein.

00-Schneider

2024-03-13, 13:40:24

Also ist die 5080 dann eine etwas schlechtere 4090 von der Performance her?

Naja, wer interessiert sich überhaupt für die 4080/5080?

Bin gespannt, was die 5090 an RT-Performance ggü. der 4090 draufhauen kann.

Slipknot79

2024-03-13, 14:07:55

Oder Lederjacke will meine Kohle weil er hier gelesen hat, dass ich erst up +100% performance plus umsteige. (y)
Vllt hat aber auch seine Industriespionage gezeigt, dass AMD dicker auftragen wird bei der nächsten Generation? :redface:

Wuge

2024-03-13, 14:29:27

Boah, hoffentlich gibts nicht nur hardcore-abspeck. Solln se halt ne 3T€ Titan bauen... ich will VR_FPS und ruhe bis zur nächsten Gen. Wegen 30% mehr Rasterpower hau ich die 4090 nicht raus.

HOT

2024-03-13, 14:33:59

Ich seh da nur völlig schwarz für die Speichermengen. Angeblich sollen Anfangs nur 16Gb Module verfügbar sein, das würde bedeuten:
5090 -> 24GB (die 5090 wird eh so weit runtergesalvaged, dass man nur von 384 ausgehen kann)
5080 -> 16GB (absolutes no-go aus meiner Sicht für ein 1000€+-Produkt anno 2025)
5070Ti -> 16GB - hoffentlich (203-Basis)
5070/5060Ti -> 12GB (das wird richtig scheisse)
5060 -> wieder 8GB mit Option auf 16

Also davon fänd ich mal glatt so gar nichts ansprechend und 24Gb wirds nach jetzigem Stand nicht geben (lt. MLID-Kontakt), die machen offenbar erst mit 32Gb weiter, also wieder nix mit "krummen" Speichermengen. Immerhin sollen dichtere Speichermodule mit GDDR7 deutlich einfacher zu realisieren sein als mit GDDR6 und es ist ja auch auffällig, dass es niemandem bei GDDR6 gelungen ist 24 oder 32Gb-Module zu designen, die gibts nicht mal theoretisch obwohl sie spezifiziert sind. Wann gabs das schonmal, dass ein Speicher von Anfang bis Ende dieselbe Dichte hatte, 16Gb sind mit den ersten Profi-Turings direkt neben der 2xxx-Serie gelauncht worden.

Leonidas

2024-03-13, 15:23:52

Wenn es keine 24Gb-Speicherchips gibt, sehe ich schwarz für einen RTX50-Refresh mit höheren Speichermengen. 32Gb = eine Verdopplung wird den Pfennigfuchsern bei NV zu teuer sein (bzw. rechnen die dann vor, dass die Karte damit eine zu lange Lebensdauer erlangen können).

basix

2024-03-13, 15:29:32

Auf den zirkulierenden Speicher Roadmaps ist immer von 24Gb GDDR7 die Rede und 24Gb+ erst stpäter. Weiss nicht woher plötzlich das Gerücht kommt, dass es nur 32Gb geben soll:
https://www.embedded.com/high-bandwidth-memory-hbm-options-for-demanding-compute/
https://www.embedded.com/wp-content/uploads/2024/01/micron-roadmap-2023-november.png

Die Aussage von MLID war wohl eher so, dass es vorerst nur 16Gb Chips gibt und noch keine 24Gb Chips in Sicht sind.

The_Invisible

2024-03-13, 15:49:28

Also ist die 5080 dann eine etwas schlechtere 4090 von der Performance her?

Naja, wer interessiert sich überhaupt für die 4080/5080?

Bin gespannt, was die 5090 an RT-Performance ggü. der 4090 draufhauen kann.

Die 5080 wird sicher am Anfang kein Vollausbau sein, da jetzt die 4090 oft schon >40% vor der 4080 liegt wird sich das dort wahrscheinlich einpendeln, dafür nur mit 16GB Speicher.

Außer man fährt wie hier gesagt mit irgendein neuer Tech auf oder massiv besserer RT Performance

HOT

2024-03-13, 17:53:30

Auf den zirkulierenden Speicher Roadmaps ist immer von 24Gb GDDR7 die Rede und 24Gb+ erst stpäter. Weiss nicht woher plötzlich das Gerücht kommt, dass es nur 32Gb geben soll:
https://www.embedded.com/high-bandwidth-memory-hbm-options-for-demanding-compute/
https://www.embedded.com/wp-content/uploads/2024/01/micron-roadmap-2023-november.png

Die Aussage von MLID war wohl eher so, dass es vorerst nur 16Gb Chips gibt und noch keine 24Gb Chips in Sicht sind.
Kommt aufs gleiche raus. 24Gb-Module würd ich zum Start jedenfalls nicht erwarten. Wenn die 5060 einen ähnlichen Launchzeitraum wie die 4060 hat, käme die ja erst im Herbst, vielleicht gibts bis dahin größere Module.
Zum Launch -> GB202 salvage = 5090 -> 24 bis 28GB, mehr wirds sicherlich nicht geben, die 5080 wird wohl sehr sicher bei 16GB landen, was die Karte für mich uninteressant macht.

AffenJack

2024-03-13, 18:23:47

Ich seh da nur völlig schwarz für die Speichermengen. Angeblich sollen Anfangs nur 16Gb Module verfügbar sein, das würde bedeuten:
5090 -> 24GB (die 5090 wird eh so weit runtergesalvaged, dass man nur von 384 ausgehen kann)
5080 -> 16GB (absolutes no-go aus meiner Sicht für ein 1000€+-Produkt anno 2025)
5070Ti -> 16GB - hoffentlich (203-Basis)
5070/5060Ti -> 12GB (das wird richtig scheisse)
5060 -> wieder 8GB mit Option auf 16

5080 mit 16Gb finde ich nicht so schlimm. Wird sowieso erstmal keine Steigerungen des Speicherbedarfs mehr geben wegen Konsolen und daher weniger tragisch. 5070 usw. seh ich aber ohne die 24Gb Module schon als deutlich übler an. Das Problem bei der 5080 ist aber dann die Aussicht zu wissen, dass irgendwann 24GB kommt im Refresh.

Da ist meine Hoffnung aber schon, dass wir 24Gb Module 6 Monate nach den 16Gb Modulen sehen werden und damit die unteren Chips mit diesen bestückt werden können. Bzw. dass man am Ende auswählen kann, weil beide angeboten werden.

nordic_pegasus

2024-03-13, 19:11:35

Da für AI mehr Speicher von Vorteil ist, wären weiterhin "nur" 24GB auf einer 5090 gar nicht schlecht. Dann landen die 5090 in Gaming-PCs und nicht anderswo.

Daredevil

2024-03-13, 19:34:32

Nvidia bringt aber doch nicht eine Menge ( ! ) Features raus für Consumer in Richtung AI ( Chat with AI mit min. 16GB ) um dann bei 24GB zu bleiben. Jensens Gewinnspanne mag das sicher zulassen, das würde mich aber riesig enttäuschen.
Es kann nicht sein, das ein 3 Jahre alter M1 Max schneller High Quality Pics kreieren kann als eine 3090/4090, weil dort der RAM ausgeht. Sonst macht Apple bald mit ihren 128GB+ VRAM so richtig weit die Klappe auf. Need the Fortschritt. :usad:

00-Schneider

2024-03-13, 20:02:24

Für welchen Anwendungszweck bis 4K braucht man mehr als 24 GB VRAM?

The_Invisible

2024-03-13, 20:29:13

08/15 Consumer sind für mich eher die mit integriertem AI Chip in der CPU und nicht die mit >=2k EUR GPU/Mac. Würde MAC so einschlagen könnte NV keine 48GB GPUS um 10k verkaufen außerdem ist man an MACOS gebunden und somit fehlt viel Software Ökosystem.

Aber ja, 24GB reichen noch immer locker, spätestens bis zur nächsten richtigen Konsolen-Gen.

davidzo

2024-03-13, 20:52:18

Für welchen Anwendungszweck bis 4K braucht man mehr als 24 GB VRAM?

Ist halt schon nett wenn man große LLMs einfach auf dem eigenen Notebook laufen lassen kann und nicht gleich hunderte für die Servermiete hinblättert wenn man nur mal was ausprobieren will. Und ja, selbst eine 3090 liefert mehr Token/s als ein M3 Max, aber was nützt das wenn die richtig guten LLMs nicht in den VRAM passen und man sich mit schlechteren Modellen abgeben muss?

Leonidas

2024-03-14, 08:13:27

AGF @ Twitter:
Blackwell so größten Generations-Sprung aller Zeiten liefern (?) und GB202 ist bereits in Qualification-Phase (=Tape-Out ist durch)
https://www.3dcenter.org/news/news-des-13-maerz-2024

Sardaukar.nsn

2024-03-14, 10:07:03

Big if true.

Wobei Jenson ja gerade einen guten Lauf hat. Anfang März prognostisierte er noch das man die AI bzw. Deep Learning Computer Power in den nächsten 10 Jahren um Faktor eine Million(!) erhöhen will. Ab 16:15min https://www.youtube.com/watch?v=cEg8cOx7UZk

The_Invisible

2024-03-14, 10:26:29

Big if true.

Wobei Jenson ja gerade einen guten Lauf hat. Anfang März prognostisierte er noch das man die AI bzw. Deep Learning Computer Power in den nächsten 10 Jahren um Faktor eine Million(!) erhöhen will. Ab 16:15min https://www.youtube.com/watch?v=cEg8cOx7UZk

DLSS10 lernt also selbst währen dem zocken bzw kann man der AI in Echtzeit mitteilen das irgendwas falsch upscaled wird... wär schon verrückt :D

Sardaukar.nsn

2024-03-14, 11:01:17

Wird man sehen wie sich das auf auf 3D Anwendungen auswirkt, aber die Sprünge in den letzten 2 Jahren waren ja schon enorm. Bei einem CP2077 Pathtracing inkl. DLSS3 wird ja nur noch 1/8 der Pixel klassisch berechnet. 7/8 kommen durch upscaling und frame-generation quasi aus der KI. Hätte ich bis vor Kurzem nicht für möglich gehalten. https://www.hardwareluxx.de/index.php/artikel/hardware/grafikkarten/60789-dlss-3-und-frame-generation-die-ai-revolution-ist-losgebrochen.html

Jenson soll mal wieder in seine Küche gehen und eine übertriebene GPU backen.

00-Schneider

2024-03-14, 12:26:50

Bei einem CP2077 Pathtracing inkl. DLSS3 wird ja nur noch 1/8* der Pixel klassisch berechnet.

*Bei DLSS Performance.

Bei Quality(+FG) sind es ~1/4.

Tesseract

2024-03-14, 13:15:02

alle pixel setzen sich aus "klassischen" samples zusammen, das NN entscheidet welche davon gut sind und clampt schlechte gegebenfalls. in den meisten szenen werden wahrscheinlich deutlich weniger als die hälfte der samples geclampt, auch mit DLSS-P+FG.

Sardaukar.nsn

2024-03-14, 13:55:59

Wird sich zeigen wie weit die beiden Kurven in Zukunft auseinander gehen: https://www.hardwareluxx.de/images/cdn02/uploads/2023/Apr/fervid_commit_b7/nvidia-dlss3-update-briefing-00005_3840px.jpeg

Slipknot79

2024-03-14, 14:07:28

AGF @ Twitter:
Blackwell so größten Generations-Sprung aller Zeiten liefern (?) und GB202 ist bereits in Qualification-Phase (=Tape-Out ist durch)
https://www.3dcenter.org/news/news-des-13-maerz-2024

Generations-Sprung bemessen woran? 3dfx voodoo 1 pathtracing vs voodoo 2 pathtracing? :redface: (y)

iamthebear

2024-03-15, 00:07:42

Man kann hier diskuttieren wie weit das "ever" in seiner Aussage zurückreicht aber danach sollte man zumindest 70% erwarten die einer 4090 vor der 3090 Ti liegt.

Das Ganze geht dann wohl eher in die Richtung 800mm² Titan die aif dem Papier gewinnt aber nicht bezahlbar ist und für den realen Markt liefert man dann wieder 400mm² 5080er.

Platos

2024-03-15, 00:53:22

Man kann hier diskuttieren wie weit das "ever" in seiner Aussage zurückreicht aber danach sollte man zumindest 70% erwarten die einer 4090 vor der 3090 Ti liegt.

Das Ganze geht dann wohl eher in die Richtung 800mm² Titan die aif dem Papier gewinnt aber nicht bezahlbar ist und für den realen Markt liefert man dann wieder 400mm² 5080er.

Also moment, wenns nach Nvidia geht, dann waren das nochmal wie viel? 3x oder 4x schneller? Weil Framegen und so.

Da muss also deutlich mehr her :freak:

Dural

2024-03-15, 09:44:41

18K gegen 24K Alu. Grösster Sprung in der Geschichte, ganz bestimmt.

Erst recht von 5nm auf 3nm.

Nur so zur Erinnerung, AD102 bringt ca. 70-80% mehr als GA102 und wir haben da 10nm gegen 5nm und somit zwei volle Nods und zusätzlich noch deutlich mehr Watt.

In der aktuellen Zeit könnt ihr froh sein wenn ihr 50% bekommt und schon das erachte ich im Customer Bereich für sehr viel. In Zeiten wo man die Wafer Fläche dank KI vergolden kann. GB103 mit 12K Alu zeigt eindeutig die Richtung an, mit einem Plus von gerade mal 20% mehr Alu gegenüber AD103.

Die Lisa hat vor kurzem gerade gesagt das sie davon ausgeht das im Privat Bereich die Nachfrage nach schnellen GPUs dank KI massiv zunehmen wird. Ich bezweifle das aber klar, das Gegenteil wird eintreten, dank KI wird die Rechen-Leistung noch mehr in Rechenzentren ausgelagert.

The_Invisible

2024-03-15, 09:55:18

Je mehr "KI" man hat desto weniger klassische Rechenleistung braucht man, siehe Pathtracing wo aktuell nur mehr ein Bruchteil des Bildes klassisch berechnet wird.

Da KI und RT quasi noch in den Kinderschuhen stecken wirds hier sicher auch noch einiges an Innovation geben außer einfach die Einheiten nach oben zu schrauben. Gerade von Blackwell erwarte ich das gerade KI/RT Leistung in Relation nochmal stärker anzieht.

Exxtreme

2024-03-15, 09:59:36

RT steckt nicht mehr in den Kinderschuhen. Ich habe schon auf dem Amiga 500 RT-Programme gehabt. X-D Und "KI" ist auch sehr sehr simpel.

The_Invisible

2024-03-15, 10:02:23

Kenne keinen Amiga mit beschleunigter RT/KI Hardware aber gut wohl SpecialEdition ;)

Zossel

2024-03-15, 10:25:53

Kenne keinen Amiga mit beschleunigter RT/KI Hardware aber gut wohl SpecialEdition ;)

Der Amiga war schneller als seine Vorgänger und konnte daher RT und KI beschleunigt gegenüber seinen Vorgängern ausführen.
Und die 68K CPU hatte auch Befehle die der 6502 nicht hatte um (auch) RT und KI beschleunigt auszuführen.

Exxtreme

2024-03-15, 10:34:10

Kenne keinen Amiga mit beschleunigter RT/KI Hardware aber gut wohl SpecialEdition ;)

"Beschleunigtes KI und RT" gibt es in der Form sowieso nicht. Eigentlich ist die "KI-Hardware" nichts anderes als stark reduzierte normale Hardware. Register, die int4/int8 oder fp4/fp8 können sind ein ur- ur- ur- uralter Hut. Int8 konnte schon der Intel 8008. Und der kam 1972 raus. X-D
https://de.wikipedia.org/wiki/Intel_8008

basix

2024-03-15, 10:36:13

18K gegen 24K Alu. Grösster Sprung in der Geschichte, ganz bestimmt.

Erst recht von 5nm auf 3nm.

Nur so zur Erinnerung, AD102 bringt ca. 70-80% mehr als GA102 und wir haben da 10nm gegen 5nm und somit zwei volle Nods und zusätzlich noch deutlich mehr Watt.

In der aktuellen Zeit könnt ihr froh sein wenn ihr 50% bekommt und schon das erachte ich im Customer Bereich für sehr viel. In Zeiten wo man die Wafer Fläche dank KI vergolden kann. GB103 mit 12K Alu zeigt eindeutig die Richtung an, mit einem Plus von gerade mal 20% mehr Alu gegenüber AD103.

Die Lisa hat vor kurzem gerade gesagt das sie davon ausgeht das im Privat Bereich die Nachfrage nach schnellen GPUs dank KI massiv zunehmen wird. Ich bezweifle das aber klar, das Gegenteil wird eintreten, dank KI wird die Rechen-Leistung noch mehr in Rechenzentren ausgelagert.

In der Gerüchteküche fliegen nur die Anzahl SMs rum. Sagt noch nicht, wie viele ALUs es hat und wie viel man aus den TFLOPS rausholt ;) Oder wie viele TFLOPS hat eine 4090 verglichen mit einer 2080 Ti und wie viel schneller ist erstere? ;)

The_Invisible

2024-03-15, 10:36:43

Meinte dedizierte Einheiten, aber gut, Erbsenreiter sind heute wieder unterwegs, gut zu wissen

Dural

2024-03-15, 16:27:38

Ich habe auch ganz bewusst von Alu gesprochen.

Die Leistung wird wie üblich durch Änderungen in der Architektur, etwas mehr Takt und den Einheiten zustande kommen.

Im Prinzip hat sich die letzten 10 Jahre quasi gar nichts geändert.

Der Unterschied liegt aber darin das jedes zusätzlich FPS sehr teuer erkauft werden muss, und es von Jahr zu Jahr immer teurer wird.

Die Lisa meinte das dank KI der Bedarf nach GPU in Zukunft explodieren wird, wir sind erst ganz am Anfang. Mal schauen was ob das so kommt.

Neosix

2024-03-15, 16:56:02

Nvidia Bencht aber seit eh mit DLSS+FG. Womöglich bezieht sich das doch auf interne Benchprognossen von Nvidia unter deren Einsatz. Vielleicht haben sie eins der beiden Sachen "massiv" beschleunicht in Blackwell. Oder etwas drittes, "ki" Mäßiges kam dazu usw. Dann würde es natürlich im Vergleich zu Vorgängern besonders gut aussehen.

Zossel

2024-03-15, 17:11:43

Die Lisa meinte das dank KI der Bedarf nach GPU in Zukunft explodieren wird, wir sind erst ganz am Anfang. Mal schauen was ob das so kommt.

Und selbst wenn nicht haben sich darüber Entwicklungen für HPC refinanziert :-)

AffenJack

2024-03-15, 17:13:49

18K gegen 24K Alu. Grösster Sprung in der Geschichte, ganz bestimmt.

Erst recht von 5nm auf 3nm.

Nur so zur Erinnerung, AD102 bringt ca. 70-80% mehr als GA102 und wir haben da 10nm gegen 5nm und somit zwei volle Nods und zusätzlich noch deutlich mehr Watt.

Ich halte von solchen superlativen auch wenig. Aber die Speicherbandbreitensteigerung bei AD102 ist schon riesig.

Laut Speku erwartete 1008 Gb/s vs 1792 Gb/s, also fast 80% mehr Bandbreite plus zusätzlich die Cache Erhöhung von 96 auf 128mb. Das ist zumindest seit Kepler die größte Steigerung, die es bei Nvidia in Sachen Speicherbandbreite je gab. Was auch immer man sich dabei gedacht hat, die puren ALU Zahlen und Taktratenerhöhungen erklären so eine massive Erhöhung nicht.

Edgecrusher86

2024-03-15, 18:41:11

Also angenommen, es bleibt bei 128SP pro SM, würde es mich nicht überraschen, wenn das Lineup so ähnlich aussähe:

RTX 6000 Blackwell: 184-188 / 192SM [23552 - 24064SP FP32] (GB202 - 95,8 - 97,9% Full) - 512-bit - 64GB - 16Gb G7 @ 24 Gbps - 1536 GB/s
RTX 5090: ............ 160-168 / 192SM [20480 - 21504SP FP32] (GB202 - 83,3 - 87,5% Full) - 512-bit - 32GB - 16Gb G7 @ 28 Gbps - 1792 GB/s
RTX 5080 SUPER: ... 96 / 96SM [12288SP FP32] (GB203 - 100% Full) - 256-bit - 24GB - 24Gb G7 @ 30 Gbps - 960 GB/s
RTX 5080: ............. 88 / 96SM [11264SP FP32] (GB203 - 91,6% Full) - 256-bit - 16GB - 16Gb G7 @ 28 Gbps - 896 GB/s
RTX 5070 Ti SUPER: 78 / 96SM [9984SP FP32] (GB203 - 81,3% Full) - 224-bit - 21GB - 24Gb G7 @ 28 Gbps - 784 GB/s
RTX 5070 Ti: ........ 64 / 64SM [8192SP FP32] (GB205 - 100% Full) - 192-bit - 18GB - 24Gb G7 @ 28 Gbps - 672 GB/s
RTX 5070 SUPER: .. 60 / 64SM [7680SP FP32] (GB205 - 93,7% Full) - 192-bit - 18GB - 24Gb G7 @ 28 Gbps - 672 GB/s
RTX 5070: ........... 52 / 64SM [6656SP FP32] (GB205 - 81,3% Full) - 192-bit - 18GB - 24Gb G7 @ 28 Gbps - 672 GB/s
RTX 5060 Ti: ........ 42 / 48SM [5376SP FP32] (GB206 - 87,5% Full) - 128-bit - 12GB - 24Gb G7 @ 24 Gbps - 384 GB/s
RTX 5060: ........... 32 / 32SM [4096SP FP32] (GB207 - 100% Full) - 128-bit - 12GB - 24Gb G7 @ 21 Gbps - 336 GB/s

Die Ti S sieht zwar etwas wild aus, aber 24GB bräuchte man eigentlich auch nicht wirklich.
24Gb GDDR7 eröffnet nach Unten ja auch die Möglichkeit, "genug" VRAM zu verbauen - daher wäre es eigentlich ein logischer Schritt.
Der sollte ja eigentlich zumindest in Q2/2025 ready sein, denke ich mal. :D

Leonidas

2024-03-16, 08:52:08

AGF @ Twitter:
- GB203 is close to AD102 in raster and faster in RT
- GDDR7 for the top 3 Blackwell gaming dies confirmed
https://www.3dcenter.org/news/news-des-15-maerz-2024

The_Invisible

2024-03-16, 09:02:08

Hm, die max 16gb Speicher für gb203 wären irgendwie schon meehhh...

00-Schneider

2024-03-16, 09:53:59

Hm, die max 16gb Speicher für gb203 wären irgendwie schon meehhh...

Müsste doch für 1440p reichen? :confused:

Ist ja imho keine 4K-Karte.

- GB203 is close to AD102 in raster and faster in RT

Bin da mal auf die Benchmarks 5080 vs. 4090 in den RT-"Extremtiteln" gespannt.

memory_stick

2024-03-16, 10:33:45

Und die 4090 (AD102) ist demnach auch keine 4K Karte?

Exxtreme

2024-03-16, 13:44:40

Und die 4090 (AD102) ist demnach auch keine 4K Karte?

Ich würde die RTX 4090 nicht als eine UHD-Karte betrachten bzw. sie ist nur sehr eingeschränkt eine. UHD geht nur bei sehr alten Spielen. Bei aktuellen Spielen musst du da Kompromisse ala Upscaling eingehen damit es spielbar bleibt.

prinz_valium_2

2024-03-16, 13:55:09

RTX 5080: ............. 88 / 96SM [11264SP FP32] (GB203 - 91,6% Full) - 256-bit - 16GB - 16Gb G7 @ 28 Gbps - 896 GB/s

Ergibt für mich keinen Sinn, dass die 5080 als einzige mit 16GB kommt und alle anderen Karten mehr RAM haben, abgesehen vom low end 5060

Troyan

2024-03-16, 13:59:59

Ich würde die RTX 4090 nicht als eine UHD-Karte betrachten bzw. sie ist nur sehr eingeschränkt eine. UHD geht nur bei sehr alten Spielen. Bei aktuellen Spielen musst du da Kompromisse ala Upscaling eingehen damit es spielbar bleibt.

Klar. Deswegen kann man Cyberpunk und Alan Wake 2 mit Pathtracing in 4K spielen. :rolleyes:

Upscaling ist kein Kompromis.

Exxtreme

2024-03-16, 16:34:57

Klar. Deswegen kann man Cyberpunk und Alan Wake 2 mit Pathtracing in 4K spielen. :rolleyes:

Ja genau, 20 fps sind ja voll spielbar und so ... :rolleyes:
https://i.ibb.co/PwmyFym/Screenshot-2024-03-16-163112.png (https://ibb.co/D5VFzFV)
https://www.pcgameshardware.de/Alan-Wake-2-Spiel-17706/Specials/Release-Test-Benchmarks-1432197/2/

Upscaling ist kein Kompromis.

Genau. Dank dem Matsch kann man sich voll auf das Spiel konzentrieren und wird nicht von überflüssigen scharfen Texturen abgelenkt und so ...

https://i.ibb.co/87vzwM0/Screenshot-2024-03-16-161051.png (https://ibb.co/87vzwM0)

Wenn das kein Feature ist. :rolleyes:

Linmoum

2024-03-16, 16:40:45

Es ist in UHD kein Kompromiss. Wenn du zudem UHD-Benchmarks verlinkst (und Troyan ja auch von UHD sprach), mutet es zudem absurd an, dann mit 1080p um die Ecke zu kommen...

Exxtreme

2024-03-16, 16:58:40

Die Problematik besteht mit UHD grundsätzlich exakt genauso. Eventuell ist sie aber für einige Leute nicht mehr wahrnehmbar oder nicht störend. Aber ich bleibe trotzdem dabei, Upscaling ist ein Kompromiss.

Jupiter

2024-03-16, 17:38:29

Wir können hier mehrere Blindtestbilder hochladen. Ob der Unterschied zwischen UHD und UHD DLSS immer erkannt wird? Laut er vorherigen Aussage sind die Unterschiede immer wahrnehmbar. Ich wette nein.

00-Schneider

2024-03-16, 17:51:20

Laut er vorherigen Aussage sind die Unterschiede immer wahrnehmbar. Ich wette nein.

Alles eine Frage der Implementierung, also je nach Spiel unterschiedlich.

--------------------

50-60fps mit DLSS Q und FG bei CP mit der 4090 ist dann doch arg grenzwertig vom Inputlag her. Da müssten schon 50-60fps als Basis für FG her, also 50-60fps ohne FG mit DLSS-Q, damit das ~kompromisslos ist.

Ich würde die RTX 4090 nicht als eine UHD-Karte betrachten bzw. sie ist nur sehr eingeschränkt eine. UHD geht nur bei sehr alten Spielen. Bei aktuellen Spielen musst du da Kompromisse ala Upscaling eingehen damit es spielbar bleibt.

Naja, für Raster passt die Karte für 4K imho. RT mit den Extrembeispielen(CP, Control(Mod), Portal RTX etc.) in 4K ist ohne FG und/oder DLSS imho nicht spielbar.

TheAntitheist

2024-03-16, 19:15:05

Die Problematik besteht mit UHD grundsätzlich exakt genauso. Eventuell ist sie aber für einige Leute nicht mehr wahrnehmbar oder nicht störend. Aber ich bleibe trotzdem dabei, Upscaling ist ein Kompromiss.
Natürlich ist upscaling ein Kompromiss, ALLES ist ein Kompromiss

Troyan

2024-03-17, 10:50:04

Wir können hier mehrere Blindtestbilder hochladen. Ob der Unterschied zwischen UHD und UHD DLSS immer erkannt wird? Laut er vorherigen Aussage sind die Unterschiede immer wahrnehmbar. Ich wette nein.

Die Unterschiede sind minimaler als zwischen Pathtracing und Rasterizing. Rasterizing ist jedoch vollkommen in Ordnung.

Ich kann das langsam echt nur noch belächeln.

The_Invisible

2024-03-17, 11:53:37

In UHD kannst auch höhere Upscaling Modi fahren ohne das es zu schlecht aussieht, Balanced geht eigentlich immer, ich hab aber CP2077 mit DLSS-Q/PT/UHD durchgespielt, alles auch eine Frage der persönlichen Präferenz

Leonidas

2024-03-18, 08:02:11

B100-Ankündigung wohl schon heute

Daten lt. AGF:
2x Einzelchips auf CoWoS-L Packaging, 192 GB HBMe (B200 nächstes Jahr mit 288GB)
https://www.3dcenter.org/news/news-des-1617-maerz-2024

Sardaukar.nsn

2024-03-18, 09:56:51

B100-Ankündigung wohl schon heute

Daten lt. AGF:
2x Einzelchips auf CoWoS-L Packaging, 192 GB HBMe (B200 nächstes Jahr mit 288GB)
https://www.3dcenter.org/news/news-des-1617-maerz-2024

Morgen wissen wir mehr, aber scheint in Sachen AI ein guter Sprung zu werden.

https://www.techpowerup.com/img/MRk8UmrJgNLKEJHk.jpg

mocad_tom

2024-03-18, 14:47:18

Blackwell B100 scheint wohl nochmal mit TSMC N4 hergestellt zu werden:

https://www.semianalysis.com/p/nvidia-b100-b200-gb200-cogs-pricing

Now instead of being able to shrink process nodes for a larger transistor budget, they have to double the amount of silicon. This is due to issues with TSMC’s original 3nm, N3B.

:uponder: :uponder:

Leonidas

2024-03-18, 15:08:24

Wenn das auch bei Gaming-Blackwell passiert, dann gute Nacht (große) Performance-Zuwächse.

00-Schneider

2024-03-18, 15:09:52

Wenn das auch bei Gaming-Blackwell passiert, dann gute Nacht (große) Performance-Zuwächse.

Wie definieren wir hier "groß"? :confused:

Fragman

2024-03-18, 15:31:00

Wenn schon gerüchterweise gesagt wird das die 5080 im Rasterizer nicht ganz an die 4090 ran kommt, wird die Leistung sowieso nicht groß wachsen.

rentex

2024-03-18, 15:50:44

Wenn schon gerüchterweise gesagt wird das die 5080 im Rasterizer nicht ganz an die 4090 ran kommt, wird die Leistung sowieso nicht groß wachsen.

Dann reicht es, wenn der Verbrauch bei einer 4080 ist.

dargo

2024-03-18, 15:51:09

Wenn das auch bei Gaming-Blackwell passiert, dann gute Nacht (große) Performance-Zuwächse.
Warum? Will Nvidia doch keine ~600W bei der 5090 frei machen? X-D

00-Schneider

2024-03-18, 15:58:34

Warum? Will Nvidia doch keine ~600W bei der 5090 frei machen? X-D

Hmm?

Einige 4090er sind doch bereits für 600W spezifiziert? :confused:

dargo

2024-03-18, 16:18:10

Wenn ich von Wattage spreche beziehe ich mich immer auf ein Powerlimit der Referenz @Stock.

Sardaukar.nsn

2024-03-18, 16:43:37

Die Galax HOF hat standartmäßig 550 Watt. https://www.techpowerup.com/gpu-specs/galax-rtx-4090-hof-oc-lab.b9943

00-Schneider

2024-03-18, 16:46:25

Afaik hat auch jede Karte einen 600W Stecker/Anschluss. Insofern hat dargo mal wieder mit Halbwissen geglänzt(komplett falsch lag er nicht), will es aber nicht zugeben.

Leonidas

2024-03-18, 16:59:44

Korrekt. 4nm bedeutet eigentlich auch, dass jede Mehrperformance auch Mehrverbrauch benötigt (FG ausgenommen).

dargo

2024-03-18, 17:02:45

Afaik hat auch jede Karte einen 600W Stecker/Anschluss. Insofern hat dargo mal wieder mit Halbwissen geglänzt(komplett falsch lag er nicht), will es aber nicht zugeben.
Was laberst du da wieder für einen bullshit? Eine Referenz 4090 hat nach wie vor 450W als Powerlimit. Was haben irgendwelche Steckerlimits mit dem Powerlimit einer Referenzkarte zu tun? :facepalm: Und so ein Typ erzählt was vom Halbwissen. *kopfschüttel*

Troyan

2024-03-18, 17:25:02

Afaik hat auch jede Karte einen 600W Stecker/Anschluss. Insofern hat dargo mal wieder mit Halbwissen geglänzt(komplett falsch lag er nicht), will es aber nicht zugeben.

Die FE hat 600W Powerlimit. :freak:

Komplett falsch trifft es eigentlich besser.

00-Schneider

2024-03-18, 17:26:26

Die FE hat 600W Powerlimit. :freak:

Wurde so vor Release kommuniziert, sind aber tatsächlich nur 450W.

https://www.igorslab.de/nvidia-geforce-rtx-4090-wo-der-irrtum-mit-den-600-watt-wirklich-herkommt-und-warum-die-karten-so-riesig-sind/

BlacKi

2024-03-18, 17:49:27

Dann reicht es, wenn der Verbrauch bei einer 4080 ist.wenn der prozess der selbe ist, wo sollen die steigerungen denn groß herkommen? kann nur über mehr transen und bandbreite gehen. ok, dlss4 benchmarks, aber große sprünge sind rein architekturbedingt kaum drin. vl bei RT noch stärker als raster.

dann geht das eben über transen und bandbreite zum günstigeren preis. ist doch auch ok. angst vor amd muss nv wohl nicht haben.

dargo

2024-03-18, 18:04:11

Die FE hat 600W Powerlimit. :freak:

Komplett falsch trifft es eigentlich besser.
:facepalm:

https://www.computerbase.de/2022-10/nvidia-geforce-rtx-4090-review-test/

Selbst Nvidia persönlich gibt auf der Homepage 450W an. :crazy:

AffenJack

2024-03-18, 18:52:04

Blackwell B100 scheint wohl nochmal mit TSMC N4 hergestellt zu werden:

https://www.semianalysis.com/p/nvidia-b100-b200-gb200-cogs-pricing

:uponder: :uponder:

Dann können wir uns von 3Nanometer im Gaming wohl auch verabschieden. Stattdessen größere Chips in N4 und GB202 wird ein Riesenchip wie TU102.

Das erklärt auch die verringerte Kadenz bei Rubin. Blackwell 2 x 800mm² in 4Nanometer Ende 2024 und Rubin dann 2x 800mm² in 3 Nanometer Ende 2025. Dafür dürfte 2026 dann nix neues kommen im HPC.

Troyan

2024-03-18, 19:07:14

Wurde so vor Release kommuniziert, sind aber tatsächlich nur 450W.

https://www.igorslab.de/nvidia-geforce-rtx-4090-wo-der-irrtum-mit-den-600-watt-wirklich-herkommt-und-warum-die-karten-so-riesig-sind/

Powerlimit liegt bei 600W. 100% sind 450W, das ist die Standard-TDP.

BlacKi

2024-03-18, 20:47:07

waren die ganzen leaks mit größtem sprung ever nur auf die HPC karten gemünzt, die jetzt die doppelte fläche haben durch 2 DIE flächen statt einer?

Sardaukar.nsn

2024-03-18, 20:54:54

Livestream startet gleich, bisher 17k Zuschauer:

Y2F8yisiS6E

_shorty_

2024-03-18, 21:22:05

Powerlimit liegt bei 600W. 100% sind 450W, das ist die Standard-TDP.

https://i.ibb.co/mDbDn9s/Power.jpg

Standard FE Bios.
Power Limit = 450 W
MAX Power Limit = 600 W

HPVD

2024-03-18, 21:29:05

04:43PM EDT - 5x the inference/token generation ability of Hopper: 40 PFLOPS (FP4)

04:41PM EDT - Meanwhile FP8 performance is 2.5x that of Hopper: 20 PFLOPS

04:40PM EDT - New: FP4 support. FP6 as well

04:31PM EDT - No memory locality issues or cache issues. CUDA sees it as a single GPU

04:31PM EDT - 10TBps link between the dies

04:29PM EDT - "Blackwell is not a chip. It's the name of a platform"

04:27PM EDT - 1.8TB/sec NVLink bandwidth per chip

04:27PM EDT - 192GB HBM3E@8Gbps

04:27PM EDT - 208B transistors

04:27PM EDT - Two dies on one package, full cache coherency

04:27PM EDT - Named after David Backwell, the mathematician and game theorist

04:26PM EDT - And here's Blackwell. "A very, very big GPU"

Quelle:
https://www.anandtech.com/show/21308/the-nvidia-gtc-2024-keynote-live-blog-starts-at-100pm-pt2000-utc

Sardaukar.nsn

2024-03-18, 21:36:33

Blackwell und Grace CPU. Ganz schöne Ballermänner. Links der Prototyp und rechts das finale Board. Finde ich ziemlich clean.

https://i.imgur.com/fX9TAlk.jpeg

rentex

2024-03-18, 21:49:19

Big Black (W)Hopper...

Sunrise

2024-03-18, 21:55:21

Big Black (W)Hopper...
Double it!

The more you buy, the more …

You know the deal.

Exxtreme

2024-03-18, 21:58:16

04:40PM EDT - New: FP4 support. FP6 as well

Wobei die Genauigkeit von FP4 schon echt mehhh ist. X-D Aber gut, kann sein, dass das reicht.

mocad_tom

2024-03-18, 21:58:54

dauernd wirft er inferencing und training kreuz und quer durch den raum.

Der Blackwell supercomputer wird nur deshalb mit kilometer co packaged optics ausgerüstet, damit er schnell deepspeed trainieren kann.

Eine inferencing maschine baut man anders auf.

und dann macht er diagramme wo er 2019 FP32 aufzeichnet, dann FP16, dann FP8, dann FP4

The_Invisible

2024-03-18, 22:01:28

https://www.computerbase.de/2024-03/nvidia-blackwell-b200-gpu-kommt-als-dual-die-mit-208-milliarden-transistoren/

Nvidia stößt bei der Chip-Entwicklung und beim Design so langsam an die physischen Grenzen dessen, was in der Halbleiterherstellung und modernen Fotolithografie derzeit mit einer Fotomaske (Retikel) möglich ist. Blackwell als neue GPU-Architektur für AI-Beschleuniger nutzt deshalb ein Design mit zwei identischen Dies, die wiederum über einen Die-to-Die-Link mit 10 TB/s kommunizieren und gegenüber Anwendungen als eine einzelne GPU agieren sollen, sodass laut Nvidia keine Nachteile eines klassischen Chiplet-Designs bestehen würden. Der Aufbau erinnert damit ein wenig an Apples M1 Ultra und M2 Ultra, die ein Die-to-Die-Interconnect mit 2,5 TB/s nutzen. AMD nutzt bei den neuesten Modellen MI300A und MI300X ein Chiplet-Design. Eine weitere Herangehensweise sind Wafer-Scale-Beschleuniger wie die WSE-3 von Cerebras.

Wie gut stehen die Chancen das dies für die 5090 kommt? :D

Troyan

2024-03-18, 22:03:48

dauernd wirft er inferencing und training kreuz und quer durch den raum.

Der Blackwell supercomputer wird nur deshalb mit kilometer co packaged optics ausgerüstet, damit er schnell deepspeed trainieren kann.

Eine inferencing maschine baut man anders auf.

und dann macht er diagramme wo er 2019 FP32 aufzeichnet, dann FP16, dann FP8, dann FP4

Ich denke, du hast keine Ahnung. Inference benötigt keine Genauigkeit. Wieso ist Integer so bedeutend? Scaling out ist immens wichtig, weil Inference geschieht über das komplette Datencenter.

/edit: Oh, ein Blackwell-Superchip hat 10 PFLOPs FP8. Also 4x mehr als AMDs MI300X. Wünsche AMD viel Spaß auf der Resterampe. Dank nVidia wird genug abfallen, um den Aktienkurz zu pushen.

mocad_tom

2024-03-18, 22:08:50

Mann das ist so schlecht.

nvidia hat bilderkennung erfunden.

willst du mich verarschen

Exxtreme

2024-03-18, 22:11:51

willst du mich verarschen

Das ist eine Werbeveranstaltung. Und die Amis sind viel toleranter was Werbung angeht.

Troyan

2024-03-18, 22:12:02

Mann das ist so schlecht.

nvidia hat bilderkennung erfunden.

willst du mich verarschen

Nein, das haben Softwareentwickler. Huang spricht seit 10 Jahren über die Leute, die verantwortlich sind.

Was aber offensichtlich du nicht verstehst, DL lebt nicht nur vom Chip. NVLink mit 1,8 TB/s ist unglaublich. A100 hat gerade mal 2,02 TB/s HBM2 Bandbreite. nVidia kann jetzt 72 Superchips mit 1,8 TB/s verbinden... :eek:

PHuV

2024-03-18, 22:12:43

04:31PM EDT - No memory locality issues or cache issues. CUDA sees it as a single GPU

Hurra, SLI ist wieder zurück. :biggrin::freak:

1 Exaflop in einem Rack, das ist schon irre.

mocad_tom

2024-03-18, 22:12:47

Ganz ehrlich ich habe mir heute gedacht - schaust dir einen neuen jungen Steve Jobs an

und dann kommt er mit so plattem scheiß daher

man merkt schon da sitzen nicht die leuchten im publikum

Sunrise

2024-03-18, 22:17:07

Das Ganze ist einfach grandioses Marketing das niemand versteht.

mocad_tom

2024-03-18, 22:19:19

Nein, das haben Softwareentwickler. Huang spricht seit 10 Jahren über die Leute, die verantwortlich sind.

Was aber offensichtlich du nicht verstehst, DL lebt nicht nur vom Chip. NVLink mit 1,8 TB/s ist unglaublich. A100 hat gerade mal 2,02 TB/s HBM2 Bandbreite. nVidia kann jetzt 72 Superchips mit 1,8 TB/s verbinden... :eek:

Warum meinst du hat Broadcomm mit nvidia im Gleichschritt an der Börse zugelegt.

NVLink ist proprietär - Broadcomm macht RoCE (RDMA over Converged Ethernet)

BlacKi

2024-03-18, 22:24:52

Hurra, SLI ist wieder zurück. :biggrin::freak:

1 Exaflop in einem Rack, das ist schon irre.

nicht wirklich, aber multichip gpus werden kommen, wohl auch ins gaming. wird aber noch dauern...

wolik

2024-03-18, 22:26:39

Hurra, SLI ist wieder zurück. :biggrin::freak:

1 Exaflop in einem Rack, das ist schon irre.

Hurra! Ich nehme... vier!

The_Invisible

2024-03-18, 22:27:03

Hurra, SLI ist wieder zurück. :biggrin::freak:

SLI ohne SLI Probleme ; )

Wär geil aber wohl noch zu kostspielig für den gemeinen Gamermarkt

Troyan

2024-03-18, 22:28:20

Warum meinst du hat Broadcomm mit nvidia im Gleichschritt an der Börse zugelegt.

NVLink ist proprietär - Broadcomm macht RoCE (RDMA over Converged Ethernet)

Jeder legt an der Börse zu. Warum denkst legt AMD zu mit MI300X, wenn Blackwell ist 4x+ schneller?

nVidia zieht alle mit.

HPVD

2024-03-18, 22:32:53

Wobei die Genauigkeit von FP4 schon echt mehhh ist. X-D Aber gut, kann sein, dass das reicht.

es reicht inzwischen scheinbar sogar noch viel weniger Genauigkeit:
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
https://arxiv.org/abs/2402.17764

Denke das hat dann die nächste Hardware Generation... und schon ist der Geschwindigkeitsbalken wieder fett :D

Exxtreme

2024-03-18, 22:43:39

es reicht inzwischen scheinbar sogar noch viel weniger Genauigkeit:
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
https://arxiv.org/abs/2402.17764

Denke das hat dann die nächste Hardware Generation... und schon ist der Geschwindigkeitsbalken wieder fett :D

Ohhh, danke. Das gibt dann wieder eine Vervierfachung der Geschwindigkeit. X-D AMD? Wo bleibt der XMI350XTXX für 1-Bit-LLMs? X-D

Edit: Viel interessanter finde ich, dass Intel dieses Thema so links liegen lässt.

Sardaukar.nsn

2024-03-18, 22:46:49

Hurra, SLI ist wieder zurück. :biggrin::freak:

1 Exaflop in einem Rack, das ist schon irre.

War vor 2 Jahren noch ne große Sache an meiner Uni: https://wfg-pb.de/news/weltrekord-paderborner-wissenschaftler-gelingt-exaflop-fuer-quantenchemiesimulation/

Lief auf diesem Supercomputer: https://www.heise.de/news/Supercomputer-Perlmutter-mit-60-PFlops-legt-los-6056676.html

Sunrise

2024-03-18, 22:47:07

“We open it up, this is the way we work.”

Der war echt gut.

Trap

2024-03-18, 22:47:30

Wobei die Genauigkeit von FP4 schon echt mehhh ist. X-D Aber gut, kann sein, dass das reicht.
Die besten publizierten Methoden sind bei 3 bit bei unter 2% Unterschied in LLM Benchmarks: https://arxiv.org/abs/2401.06118.

4 bit ist ziemlich klar gut genug für sehr gute Qualität.

MSABK

2024-03-18, 22:49:42

Die Aktie wird abgehen. Mega Chips.

Exxtreme

2024-03-18, 22:52:49

Die besten publizierten Methoden sind bei 3 bit bei unter 2% Unterschied in LLM Benchmarks: https://arxiv.org/abs/2401.06118.

4 bit ist ziemlich klar gut genug für sehr gute Qualität.

Ja, nur hast du bei FP4 effektiv drei Bit Genauigkeit. Denn ein Bit geht für das Komma drauf sobald das eine Kommazahl ist.

HPVD

2024-03-18, 23:00:13

es reicht inzwischen scheinbar sogar noch viel weniger Genauigkeit:
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
https://arxiv.org/abs/2402.17764

Denke das hat dann die nächste Hardware Generation... und schon ist der Geschwindigkeitsbalken wieder fett :D

Ohhh, danke. Das gibt dann wieder eine Vervierfachung der Geschwindigkeit. X-D AMD? Wo bleibt der XMI350XTXX für 1-Bit-LLMs? X-D

Edit: Viel interessanter finde ich, dass Intel dieses Thema so links liegen lässt.

joa so ganz liegen lassen tut Intel es gar nicht, siehe z.B.
https://github.com/intel/neural-compressor

mocad_tom

2024-03-18, 23:51:55

Was ich nicht verstehe

Im Dell Quartalsbericht wurde von B100 und B200 gesprochen.

Ist das Dual-Chiplet-Package ein B100 oder ein B200

Für mich geht jetzt mit der Benutzung von TSMC N4 einiges nicht mehr auf.

Wird B200 einfach nur einer Version mit fetteren HBM-Stacks, so wie jetzt schon von H100 auf H200?

Finale Produktions-H200 wurden noch überhaupt nicht ausgerollt, aber man spricht darüber schon gar nicht mehr.

Und GB200 passen in die selben Boards rein wie die GH100.
Das lustige ist bloß - die haben bisher fast ausschließlich H100 verkauft(also ohne Grace).

GPT4 wurde auf Sapphire Rapids + H100 trainiert.
Und mit H200 braucht man nun 40% weniger nodes, weil der einzige limitierende Faktor bei training ist wie viel HBM bekommt man auf das Package gepackt.

Troyan

2024-03-18, 23:59:16

B100 ist 700W, B200 ist 1000W. GB200 ist 1200W mit Grace.

Leonidas

2024-03-19, 03:22:36

Powerlimit liegt bei 600W. 100% sind 450W, das ist die Standard-TDP.

Ich hätte hier gern widersprochen, aber Troyan hat hier recht. Die FE hat ein ungewöhnlich hohes max-Powerlimit von 600W. Die Hersteller-Karten liegen meistens darunter.
https://www.techpowerup.com/review/asus-geforce-rtx-4090-strix-oc/41.html
https://tpucdn.com/review/asus-geforce-rtx-4090-strix-oc/images/tdp-adjustment-limit.png

Platos

2024-03-19, 03:33:56

NVlink ist aber schon krass mit 1.8TB/s. Aber ich frage mich, wie viel Strom das ganze zieht, wenn das in 1-2 Generationen auch im Gaming genutzt wird.

Hurra, SLI ist wieder zurück. :biggrin::freak:

1 Exaflop in einem Rack, das ist schon irre.

Ist eigentlich eben genau nicht SLI. Es fungiert ja wie eine GPU. SLI war noch nie gut. Die Percentile wahren meistens kacke.

Hingegen damit könnte man tatsächlich was anfangen, wenn die GPU als eine fungiert.

nicht wirklich, aber multichip gpus werden kommen, wohl auch ins gaming. wird aber noch dauern...

Soll wie eine GPU arbeiten, aber gilt das auch für den Speicher? Muss der nicht mehr doppelt abgelegt werden? Es heisst zwar "No memory locality issues or cache issues.", aber was meint man mit locality?

Und ja, es wird (irgendwann) multichip GPUs im Gaming geben, aber billig wird das nicht ;)

Das sind dann die 2.5k Titan-Dinger.

Leonidas

2024-03-19, 06:45:49

Habe mal versucht, Ordnung in die Angaben zu Blackwell zu bringen:
https://www.3dcenter.org/news/news-des-18-maerz-2024

Nichtsdestotrotz fehlen massenhaft Details zu Blackwell. Wer es gegenüber Hopper vergleichen will:
https://www.3dcenter.org/news/nvidia-stellt-den-gh100-chip-der-hopper-generation-mit-18432-fp32-einheiten-144-shader-clustern

nordic_pegasus

2024-03-19, 07:22:06

Habe mal versucht, Ordnung in die Angaben zu Blackwell zu bringen:
https://www.3dcenter.org/news/news-des-18-maerz-2024

also hinter die 160 SM für B200 kann man eigentlich einen Haken machen, sofern die Grafik von Nvidia den tatsächlichen Chip dargestellt hat. 8 Cluster mit jeweils 3x7 SMs (jeweils 1 SM fehlte). Damit sollten es 8x20 sein.

Leonidas

2024-03-19, 07:28:59

Danke für den Hinweis, so genau habe ich nicht rangezoomt. Wieso NV nicht diese Daten einfach selber sagt, werde ich nie verstehen.

The_Invisible

2024-03-19, 07:31:22

NVlink ist aber schon krass mit 1.8TB/s. Aber ich frage mich, wie viel Strom das ganze zieht, wenn das in 1-2 Generationen auch im Gaming genutzt wird.

Nvlink braucht man für Gaming eh nicht mehr wenn man so ein multichipdesign bringt und es sich wie eine GPU verhält.

Kriegsgeier

2024-03-19, 07:34:58

Alleine die Chipfläche von ca. 2x ~800mm² würde doch RTX 5090 nicht unter 3000 USD in den Markt entlassen, oder?

Zossel

2024-03-19, 07:50:30

Ja, nur hast du bei FP4 effektiv drei Bit Genauigkeit. Denn ein Bit geht für das Komma drauf sobald das eine Kommazahl ist.

Du meinst bestimmt das Vorzeichen.
Wenn man Zahlen mit Mantisse und Exponent darstellt kommt das Komma quasi von alleine dazu :-)

Zossel

2024-03-19, 07:52:07

1 Exaflop in einem Rack, das ist schon irre.

FLOPS sind ohne Angabe der Genauigkeit Bullshit.

Ghost1nTh3GPU

2024-03-19, 08:07:54

Alleine die Chipfläche von ca. 2x ~800mm² würde doch RTX 5090 nicht unter 3000 USD in den Markt entlassen, oder?

Da man B200 für >50T USD verkaufen wird, wird man nicht mal im Ansatz etwas ähnliches im Prosumer-Bereich bekommen.

1x700mm2@N4/500mm2@N3 + 24-36GB ist wohl eher realistisch.

Btw. Drive / Jetson Thor könnte wohl einen besseren Ausblick auf Gaming-Blackwell geben.

Dural

2024-03-19, 08:14:59

Turing 2 incoming :freak:

Wie war das noch mal, grösster Performance Sprung in der Geschichte, mit 5nm vs 4nm? ;D

Jetzt ist auch klar wieso man von 256 und 512Bit spricht, es wird einfach ein doppelter GB103 sein. Ob wir im Gaming Bereich die 512Bit jemals sehen werden darf aber massiv bezweifelt werden, am Ende wird das höchsten 448Bit wenn überhaupt.