nVidia Blackwell (Nachfolger von Hopper & Ada, 2025) [Archiv] - Seite 4

mocad_tom

2024-03-19, 10:05:45

FP8 und FP4 sind Fertigkeiten für inferencing.

FP16 und FP32 machen Sinn für Training.

mMn sind wir wieder an dem Punkt, wo Training und Inferencing wieder eigene Hardware bekommt.

Intel hat Nervana gekauft(und danach die Produkte eingestampft, aber da war immer eine Hardware für Inferencing und eine für Training)

Google hat mal in einer Chip Generation getrennt und dann wieder eine gemeinsame designed, dann wieder eine getrennt, dann wieder eine gemeinsame designed.
TPU v1 gemeinsam
TPU v2 getrennt
TPU v3 gemeinsam

irgendwie so.

Wenn du eine Inferencing-HW konsequent auf FP8 auslegst, dann könnte die am Ende am besten inferencen.

Jetzt wird gerade schon rumgezetert, warum Blackwell bei FP64 nicht hochskalieren kann. Die eierlegende Wollmilchsau wird es aber nicht mehr geben, weil das reticle Limit der große Einflussfaktor für Designentscheidungen sein wird.

Diese Bridge wird im Untergeschoss über die gesamte größe beider Dies gehen?
Wobei viel toter Bereich bzw TSV sein werden?
Schon witzig, dass sie dazu nix gezeigt haben.

----------------------
|.........::::...........|
|.........::::...........|
|.........::::...........|
----------------------

Nur in die mitte wird so eine Art EMIB reinbeleichtet aussen sind nur TSV für die Spannungsversorgung.

Das Basdie macht vllt auch den Anschluss an die HBM-Stacks.
Ganz wildes umherspekulieren von mir.

HPVD

2024-03-19, 10:12:18

Jetzt wird gerade schon rumgezetert, warum Blackwell bei FP64 nicht hochskalieren kann. Die eierlegende Wollmilchsau wird es aber nicht mehr geben, weil das reticle Limit der große Einflussfaktor für Designentscheidungen sein wird.

nö ist kein zetern. Gibt nur halt Anwendungen die das auch heute noch brauchen und sich natürlich auch über nen Performance Schub freuen würden...

Das es nicht alles in einem effizient geht ist klar.
Aber ich befürchte (als Nutzer von FP64 Anwendungen), dass es in diesem Bereich dann keinen Fortschritt mehr geben wird... (erst wieder, wenn man auch in diesen Anwendungsbereichen irgendwann mit geringerer Genauigkeit rechnen kann..)

Zossel

2024-03-19, 10:22:56

Gibt nur halt Anwendungen die das auch heute noch brauchen und sich natürlich auch über nen Performance Schub freuen würden...

..... noch .....

Diese ganze Propaganda vernebelt einigen das Hirn.

HPVD

2024-03-19, 10:27:25

..... noch .....

Diese ganze Propaganda vernebelt einigen das Hirn.

?

Rede vom Bereich technische Simulation.. dort braucht man es heute noch für bestimmte DEM Fragestellungen, aber in anderen Bereichen kann man bereits heute durch zusätzliche KI Nutzung Simulationen beschleunigen ohne viel bei der Qualität zu verlieren (oder halt in Bereichen wo es nicht auf die letzten zehntel Prozent ankommt)...
warum soll das nicht auch in anderen Bereichen möglich werden?

Zossel

2024-03-19, 10:29:36

?

Rede vom Bereich technische Simulation.. dort braucht man es heute noch für bestimmte DEM Fragestellungen, aber in anderen Bereichen kann man bereits heute durch zusätzliche KI Nutzung Simulationen beschleunigen ohne viel bei der Qualität zu verlieren (oder halt in Bereichen wo es nicht auf die letzten zehntel Prozent ankommt)...
warum soll das nicht auch in anderen Bereichen möglich sein?

Gewöhnliche Simulationen können bis zu einem gewissen Grad Sachen ausrechnen die nie eine KI jemals zuvor gesehen hat und entsprechend niemals zuvor damit trainiert wurde.

HPVD

2024-03-19, 10:33:41

Gewöhnliche Simulationen können bis zu einem gewissen Grad Sachen ausrechnen die nie eine KI jemals zuvor gesehen hat und entsprechend niemals zuvor damit trainiert wurde.

Stimmt :-) Heißt aber ja nicht, dass es nicht auch in vielen Simulationen Bereiche geben kann, die in sehr ähnlicher Form regelmäßig vorkommen und somit in den Trainingsdaten enthalten sein können.
Geht nicht darum alles zu ersetzen mit KI aber manches bis vieles zu beschleunigen..

HPVD

2024-03-19, 10:40:04

Leonidas

2024-03-19, 11:13:50

Alleine die Chipfläche von ca. 2x ~800mm² würde doch RTX 5090 nicht unter 3000 USD in den Markt entlassen, oder?

Die Chipfläche von GB100 hat 0,0 etwas mit Gaming-Lösungen zu tun.

Troyan

2024-03-19, 11:17:22

Schaut man sich B100 an, kann man eigentlich davon ausgehen, dass nVidia 2x GB203 zusammenbaut. L2-Cache Speed von Lovelace liegt bei 5 TB/s, der Interconnect kann exakt das pro Richtung liefern.

Dural

2024-03-19, 11:31:29

Die Mehrleistung erfolgt wohl praktisch nur über die breite und mal wieder etwas mehr Watt.

Den ganzen FP4 und FP8 Quatsch ist im Gaming Bereich so wie so für nichts, beziehungsweisse werden die Gaming Ableger wohl nicht mal haben.

Wie gross ist der Unterschied (Technisch) zwischen 5nm und 4nm?

GB103 wird wohl eine ähnliche Grösse wie AD103 haben, vielleicht etwas grösser.

HOT

2024-03-19, 11:34:53

Ok, ich hab ja damit gerechnet, dass die Consumer-Chips N4P werden, aber auch die GB100 ist hart ;). Aber es ist eigentlich auch klar, wenn NV jetzt jährlich einen Chip liefern will, dann nimmt man eben die Prozess, mit dem man am wenigsten Probleme bei 800mm²+ hat. Das heißt natürlich nichts gutes für die Consumerprodukte, da die jetzt nach wie vor in direkter Konkurrenz zu den Gelddruckmaschinen stehen und wie Ada zurückstehen müssen, die Preise werden also weiter steigen mit BW.

Edgecrusher86

2024-03-19, 11:46:10

https://www.anandtech.com/show/21310/nvidia-blackwell-architecture-and-b200b100-accelerators-announced-going-bigger-with-smaller-data

Ja, das Ganze ist doch sehr lückenhaft Stand jetzt.

Also beim Gerücht der 160SM in der Vollbestückung deutet wohl vieles auf 8 GPC a 20SM hin, oder? (GH100 hatte ja 8x 18SM auf dem Papier - in der Praxis 132/144SM). Dann dürften es wohl im Fall von GB100 so grob 144/160SMs aktiv sein. Unter der Voraussetzung, dass man jeweils "nur" 500W zur Verfügung hat, gehe ich eher von A100 ähnlichen Taktraten aus - sprich sub 1,5 GHz.

Die DIE-Size dürfte wohl nicht viel größer als A100 (826mm²) ausfallen - ich kann mir schon vorstellen, dass die Packdichte vielleicht um 5% gegenüber N4 gestiegen sein könnte. Die Caches werden sicher größer ausfallen, aber das SI ist um 50% geschrumpft (GH100 hatte ja theor. 6144-bit - praktisch 5120-bit; GB100 liegt bei 4096-bit).

GB202 dürfte dann ja ähnlich groß wie TU102 werden. AD103 kommt auf 379mm². Bemessen wir nun GB203 ähnlich und verdoppeln das plump, wäre GB202 758mm² groß - TU102 hatte 754mm². Maximal dürften es wohl 400mm² für GB203 werden, also 800mm² bei GB202 - in der Praxis sicher minimal weniger, da große Chips meist eine etwas höhere Packdichte aufweisen.
Das wäre auf jeden Fall wieder ordentlich zu kühlen - das wird wohl auch nötig sein bei den spekulierten 520-550W Basis-TGP.

mocad_tom

2024-03-19, 11:59:28

https://twitter.com/p1cturedump/status/1770042121388503080

Jetzt sagt ihr mir mal was ihr da seht?

dargo

2024-03-19, 12:19:24

Ich hätte hier gern widersprochen, aber Troyan hat hier recht. Die FE hat ein ungewöhnlich hohes max-Powerlimit von 600W. Die Hersteller-Karten liegen meistens darunter.
https://www.techpowerup.com/review/asus-geforce-rtx-4090-strix-oc/41.html
https://tpucdn.com/review/asus-geforce-rtx-4090-strix-oc/images/tdp-adjustment-limit.png
Also das hätte ich vor dir Leonidas echt nicht erwartet. :freak: Was hat das max. Board-Powerlimit mit dem Thema wieder zu tun? Das ist ja beinah so als wenn ich mich über Steckerlimits unterhalten würde. :hammer:

ChaosTM

2024-03-19, 12:37:15

Man kann natürlich 600 Watt durch einiger 4090er jagen, macht aber nur Sinn wenn man die Wohnung gleich mit heizen will. Standard ist nun mal 450 und selbst das bringt kaum was verglichen mit 350, die ~ der Sweetspot der Karte sind.

Blackwell wird @ Stock wohl mit kaum mehr als 500W antreten. OC Versionen dann mit nach oben offenem Ende ;)

HPVD

2024-03-19, 12:55:51

GB202 will use the same process node as GB100...At least, there is a 30% increase in density
https://twitter.com/kopite7kimi/status/1769903710849929570

HPVD

2024-03-19, 12:57:27

the L1 Cache of one SM, GB202 definitely has a significant improvement
https://twitter.com/kopite7kimi/status/1769898435367620933

nordic_pegasus

2024-03-19, 13:03:50

nochmal zum Verständis: GB200 ist die Kombination aus 2x B200 und diesem NVL72 Brückenchip.

Was ist dann B100?

Zossel

2024-03-19, 13:21:53

Stimmt :-) Heißt aber ja nicht, dass es nicht auch in vielen Simulationen Bereiche geben kann, die in sehr ähnlicher Form regelmäßig vorkommen und somit in den Trainingsdaten enthalten sein können.
Geht nicht darum alles zu ersetzen mit KI aber manches bis vieles zu beschleunigen..

Schönes Beispiel: Die massiven Regenfälle letztes Jahr in Griechenland und der Schweiz die im wesentlichen von den Modellen korrekt vorhergesagt wurden und wo die Regenmengen massiv über dem lagen was man bisher kannte.

Die Meteorologen haben die Modellläufe vorher mit fetten Disclaimern ala "wir wissen nicht ob das Modell in derartigen Extremen noch funktioniert" versehen.

GBWolf

2024-03-19, 13:31:13

Waren die Roboter gestern schon AI gesteuert oder remote?

Troyan

2024-03-19, 13:31:52

nochmal zum Verständis: GB200 ist die Kombination aus 2x B200 und diesem NVL72 Brückenchip.

Was ist dann B100?

B100 ist 700W, B200 ist 1000W und GB200 sind die 1.200W Varianten im Grace-Blackwell-Superchip.

Kriegsgeier

2024-03-19, 13:34:12

Und was bekommt die RTX 5090 ab?

Sardaukar.nsn

2024-03-19, 13:35:24

Und was bekommt die RTX 5090 ab?

Zumindest hat Jenson ja schon auf geringe Stückzahlen hingewiesen, weil wohl vorrangig die Datacenter Chips verkauft werden. https://www.golem.de/news/enorme-nachfrage-nvidia-kuendigt-naechste-gpu-knappheit-schon-vorab-an-2402-182543.html

Kriegsgeier

2024-03-19, 13:37:05

also 2499 USD sind schon mal mehr als sicher!

fondness

2024-03-19, 13:45:37

ob man Blackwell noch wirklich als "HPC/KI-Chip" bezeichnen kann oder ob es nur noch ein KI chip ist?
Alles was eine höhere Rechengenauigkeit benötigt (FP64, FP32) sinkt in der Performance...

FP64 (Tensor Core, Teraflops)
GB200: 45
H100: 67

edit: das ist schon ne deutlich konsequentere Spezialisierung auf KI im Vergleich zu MI300, der auch bei hoher Genauigkeit sehr schnell ist

https://www.heise.de/news/Nvidias-neue-KI-Chips-Blackwell-GB200-und-schnelles-NVLink-9658475.html

Ja hat mich auch überrascht. Man fokussiert sich also vollständig auf AI und verzichtet weitgehend auf das HPC-Zeug, was angesichts der enormen Nachfrage im AI Bereich wohl auch Sinn macht.

Aber da es ja mit 3nm nichts wurde (warum eigentlich?) musste man wohl Kompromisse eingehen. So war es nur ein verhältnismäßig kleiner Shrink von 5nm auf 4nm.

Fliwatut

2024-03-19, 13:57:52

also 2499 USD sind schon mal mehr als sicher!
In D mit Steuer dann 2.999 EUR :freak:

dargo

2024-03-19, 14:02:58

In D mit Steuer dann 2.999 EUR :freak:
Egal... "RTX" wirds schon richten. ;) Wobei ich jetzt nicht so hoch pokern würde. Tippe eher auf 1999$ UVP. Ist natürlich dennoch alles wilde Spekulation ohne die Mehrperformance zu kennen.

HPVD

2024-03-19, 14:05:04

...
Aber da es ja mit 3nm nichts wurde (warum eigentlich?)

Vielleicht geplant, um den nun anvisierten jährlichen Release-Cyle zu ermöglichen/zu unterstützen und die Gen2Gen Performancesprünge gut darstellen zu können?
Blackwell: Multichip
Rubin: 3nm

TSMC Roadmap und Prozess Gegenüberstellungen:
https://www.anandtech.com/show/18832/tsmc-outlines-2nm-plans-n2p-brings-backside-power-delivery-in-2026-n2x-added-to-roadmap

The_Invisible

2024-03-19, 14:10:21

Egal... "RTX" wirds schon richten. ;)

Na hoffentlich viel mehr RT Leistung wie man es von einer modernen GPU erwartet ;)

Platos

2024-03-19, 15:32:16

Wenn du eine Inferencing-HW konsequent auf FP8 auslegst, dann könnte die am Ende am besten inferencen.

Jetzt wird gerade schon rumgezetert, warum Blackwell bei FP64 nicht hochskalieren kann. Die eierlegende Wollmilchsau wird es aber nicht mehr geben, weil das reticle Limit der große Einflussfaktor für Designentscheidungen sein wird.

Diese Bridge wird im Untergeschoss über die gesamte größe beider Dies gehen?
Wobei viel toter Bereich bzw TSV sein werden?
Schon witzig, dass sie dazu nix gezeigt haben.

In Zukunft wird man vermutlich wie Intel mit ihren Tiles auch bei GPUs verschiedene spezialisierte Hardware zusammenschalten können und dadurch eben doch genau die ideale Hardware entwickeln können.

Wobei natürlich dann ideal nur für bestimmte Nutzungsszenarien, was natürlich das Produkt weniger Multifunktionsfähig macht.

Slipknot79

2024-03-19, 15:45:28

Und was bekommt die RTX 5090 ab?

Hoffentlich dicke wattage. Lederjacke MUSS liefern wenn er meine Kohle will. (y)
5120x2160 @ 39" brauchen Feuer. (y)

HOT

2024-03-19, 16:35:31

Egal... "RTX" wirds schon richten. ;) Wobei ich jetzt nicht so hoch pokern würde. Tippe eher auf 1999$ UVP. Ist natürlich dennoch alles wilde Spekulation ohne die Mehrperformance zu kennen.
Da ist glaube ich aber echt so langsam ne Grenze erreicht, die Käuferschicht, die >2k ausgibt kann man sicherlich an einer Hand abzählen hier in D. Ich tippe auf 1600-1700$. Ab einem gewissen Punkt richtet garnichts mehr was.
Da die 5080 mMn kaum größer ausfallen wird als die 4080 vom Chip her, dürfte man auch hier bei 1k bleiben. Dafür gibts halt nix anderes, nur diesen einen Chip als GB202 dann eben doppelt. Der Rest von BW ist dann wohl kaum vor Ende 25 zu erwarten.

Ich tippe auf:
5080 -> GB203 full (ca. 400mm²) -> 256Bit mit 92-96SMs -> 300W -> 1k$
5090 -> GB202 (GB203 mit gespiegeltem counterpart, wie bei Apple) -> 352 oder 416Bit (von 512Bit) mit ~160SMs (von 192), 450W -> 1,7k$

Bei Release von RDNA5

5090Ti -> GB202 full -> 512Bit + 192SMs -> 600W -> 1,9k$, Preissenkung der 5090 wird dann eh unumgänglich, denn anders als NV wird AMD sicherlich auf N3P bei den SE-Chiplets setzen.

HPVD

2024-03-19, 18:00:24

Da ist glaube ich aber echt so langsam ne Grenze erreicht, die Käuferschicht, die >2k ausgibt kann man sicherlich an einer Hand abzählen hier in D. Ich tippe auf 1600-1700$. Ab einem gewissen Punkt richtet garnichts mehr was.
Da die 5080 mMn kaum größer ausfallen wird als die 4080 vom Chip her, dürfte man auch hier bei 1k bleiben. Dafür gibts halt nix anderes, nur diesen einen Chip als GB202 dann eben doppelt. Der Rest von BW ist dann wohl kaum vor Ende 25 zu erwarten.

Ich tippe auf:
5080 -> GB203 full (ca. 400mm²) -> 256Bit mit 92-96SMs -> 300W -> 1k$
5090 -> GB202 (GB203 mit gespiegeltem counterpart, wie bei Apple) -> 352 oder 416Bit (von 512Bit) mit ~160SMs (von 192), 450W -> 1,7k$

Bei Release von RDNA5

5090Ti -> GB202 full -> 512Bit + 192SMs -> 600W -> 1,9k$, Preissenkung der 5090 wird dann eh unumgänglich, denn anders als NV wird AMD sicherlich auf N3P bei den SE-Chiplets setzen.

klingt nicht unlogisch. Magst Du dazu auch noch Daten spekulieren?

Dural

2024-03-19, 18:15:46

Die stückzahlen werden bei 3nm viel zu klein sein, sonst hätte es NV ja genommen. die kosten für chips die für 50k verkauft werden sind doch praktisch egal.

könnte gut sein das relativ rasch neue chips in 3nm oder vergleichbar kommen.

Vor mitte - ende 2025 kann man es wohl vergessen. anfang 2026 könnte nv dann auf den 3nm zug aufspringen (gaming)

AffenJack

2024-03-19, 18:17:16

Aber da es ja mit 3nm nichts wurde (warum eigentlich?) musste man wohl Kompromisse eingehen.

Risikominimierung. So im Nachhinein war es auch von mir naiv zu glauben, dass Nvidia auf N3 gehen würde.

Zu der Zeit als Nv sich für einen Node entscheiden musste, hatte TSMC mit N3 massive Probleme. Man wusste ebenso, dasss AMD mit Multi-Die Lösungen ankommt (s. Mi250x). Dann ein solches Risiko einzugehen einen Prozess zu nutzen, der evtl dazu führt, dass man keinen Chip produzieren kann und vom Mitbewerber platt gemacht wird? Macht unternehmerisch keinerlei Sinn. dafür hängt da zu viel Umsatz dran.

ChaosTM

2024-03-19, 18:21:49

Ghost1nTh3GPU

2024-03-19, 18:25:07

Wird Zeit, dass die Prozess-Entwicklung/-Evaluierung auch durch Transformer-AI beschleunigt wird. 🤖

Sardaukar.nsn

2024-03-19, 18:39:27

Hoffentlich dicke wattage. Lederjacke MUSS liefern wenn er meine Kohle will. (y)
5120x2160 @ 39" brauchen Feuer. (y)

Blackwell ist ja direkt für Wasserkühlung geplant. Eine FE Version mit Wasserblock ab Werk wäre mal was. Gerne im Enterprise Design: https://www.alphacool.com/en/es-geforce-rtx-4090

Platos

2024-03-19, 21:46:44

NV hat noch alle Zeit der Welt Blackwell für Gamer zu bringen. Zuerst wird mal alles Richtung AI geworfen.
Je später desto besser fürs Konto. Wenn der Sprung halbwegs anständig ist, kann ich sicher wieder nicht widerstehen. ;)

Und irgend ein "must have" Feature wird auch sicher wieder verbaut, das mit den alten Karten nicht funktioniert.

Vielleicht wird es (irgendwann) sogar darauf hinaus laufen, dass die neuesten Chips zuerstmal 1-2 Jahre nur noch im Profibereich kommen.

Die Fertigung eird schliesslich immer teurer. Irgendwann wird man also nur noch den profibereich direkt bedienen können und erst später die Gamer. Das wird mit Blackwell vlt. noch nicht so ausgeprägt sein, aber vlt. ja in 1-2 Generationen, wer weiss...

(Es ist natürlich schon seit langem so, dass der Profibereich ein halbes Jahr früher drann ist, aber ich meinte jetzt mehr als das).

Altehardware

2024-03-20, 00:19:20

Das die hpc chips in 4nm kommen hatte ich gar nicht mitbekommen
Das ändert einiges
Damit dürfte wohl der desktop chip maximal beim n3e node kommen und samsung sf4x was ziemlich sicher ist
Das der gleiche chipname gibt hat was zu bedeuten also angenommen

gb202 basiert auf blackwell Grundaufbau demnach 192alu mit rt core und gleiche 4 tensor cores
Der cache bleibt gleich vergrößert sich aber durch mehr alu
In n3p node dürfte man bei 4tpc*2gpc*20sm*192alu kommen =30720 alu die mit 152fp32 rechne bei maximal 2,15ghz =129tf/real 88tf =+40%
Das problem ist aber min den takt der Vorgängern gen zu haben das allein durch die wärme dichte nicht geht da aber nur 30% statt den möglichen 42% geht wird kann der Takt bis zu 24% steigen also 2,15*1,24=2,67ghz
folgende Formel 152*2,67*2*160=129,9tf oder +106%
Das wäre ein Riesen sprung und eine völlig neue gpc Struktur die nur bis 8 gpc geht
zweitens wird man mit den samsung node maximal bei 1,7ghz kommen wo am desktop high end man bei 2,67ghz wäre

bedeutet
gb202 8gpc
gb203 6gpc
gb205 4gpc
in n3e 2,67ghz
Sku vermutlich je 4sm per gpc deaktiv also minus 32sm
gb202 16*8 =128sm Titan
gb203 -24sm 96sm 5090 +23%
gb205 -16sm 56sm 5080 +15%

gb206 ändert sich die menge da auch hier mit 4 gpc gehandhabt wird aber in sf4x node von samsung 1,7ghz eine bzw zwei sm per gpc =
gb206 4gpc 76sm 1,7ghz (+35%) rtx5070
gb206 4gpc 60sm 1,7ghz (+85%) rtx5060ti
gb207 2gp 36sm 2*36=18,6tf (+57%) rtx5060

Insbesondere im low end wird nvidia neue marken setzen und damit das Preisgefüge bei beginnend 400€ gb207 chip (30$) setzen und dann gb206 (60$) mit 500€ anfangen wo amd gerade mal mithalten kann
vs derzeit wo es für 400€ gerade mal 15tf gibt (rtx4060ti rx7600xt) steigt die p/l auf 18tf und dann 30tf bei 500€
Damit drängt man alle zur 60ti bzw amd rx8700xt die etwa gleich laufen wird für denselben preis.
Es kann sein das es psychologisch eher die 449$ sind somit 489€ aber das nur am Rande.

Damit Dürfte klar sein das ein gpc 20sm hat wenn die 8gpc stimmen mit je 20sm =160sm
Das schon jetzt die 192alu per sm kommen und das der chip nur 30% denser wird womit man 12% Fläche und 24% Takt gewinnt.
Die 3,0ghz kann man knicken das wird dann nur in n2 gehen und der kommt erst 2026

es ist bedauerlich das nvidia seit ampere und amd rdna3 beide Hersteller in fp32 Lügen
beide angaben sind murks und nicht mit den Leistung zu vergleichen das kommt von der hpc Leistung her mit fp64 da straucheln beide stark.
Diese wird wieder drastisch steigen beim n2 node (+25% Takt)
Dann wird man auch die Architekturen wieder korrekt berechnen und erklären
Währenddessen fokussiert man sich auf ai Formeln die weniger genau berechnet werden müssen. Das gab es am 18.3.2024 schon ausführlich in der gtc.
Es wurde klar das man primär software api anbieten will die nebenbei auch hardware hat die das ausführt.
Die 160sm kommen aus den zahlen für fp8 und der Annahmen gleiche alu per sm von hopper.
Das gute das man an den interconnect arbeitet das zeigt deutlich was nvidia mit mcm vorhat.

Das der name gleich ist sagt deutlich das es wie bei ampere ga100 ist.
hpc identisch zu desktop Struktur

Kriegsgeier

2024-03-20, 06:43:50

Interessante Überlegungen dabei!

PS: die neue Generation kann ruhig später kommen, da ich die Karte erst mit dem Erscheinen von GTA6 kaufen werde. Bis dahin wird meine 3090Fe unter Wasser dank ihren 24 GB locker reichen.

Zu der Präsentation: kann einer vielleicht diese Grafik erklären wo es viele blaue Punkte mit der grünen Begrenzungslinie gab?
Vor allem habe ich nicht verstanden warum dort verschiedene FP Angaben in einer Grafik waren:
FP4 / FP8 / FP16 / FP32 oder FP64...

Eine andere Grafik mit dem exponentiellen Anstieg bei dem gleichzeitigen Übergang von FP64 auf FP4 Berechnungen/Genauigkeit...
Pfusch am Bau?

mocad_tom

2024-03-20, 09:46:49

Wenn es die ist was ich glaube

dann vergleicht er die terraflops von Generation zu Generation

Aber bei
Ada mit FP16 die Terraflops
Hopper mit FP8 die Terraflops
Blackwell mit FP6/FP4 die Terraflops

nur damit es noch umso mehr exponentieller aussieht.

Tatsache ist aber, das nvidia ihren eigenen Software-Stack nicht so ohne weiters gebacken bekommt.

Microsoft Eagle
https://www.top500.org/system/180236/

nvidia eos
https://www.top500.org/system/180239/

meta AI supercomputer
https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/

https://www.google.de/search?q=meta+grand+teton+epyc

https://www.google.de/search?q=meta+grand+teton+sapphire+rapids

Alle großen Cluster bisher verwenden keinen Grace.
Und Grace wird auch immer verhältnis 1 CPU zu 2 GPU verbaut.

Wobei bei EOS / Microsoft Eagle / meta Grand Teton wird immer 2 CPU zu 8 GPU verbaut.

Das scheint so der goldene Schnitt für Training zu sein.

Beim Vergleich der beiden Grand Teton Plattformen (EPYC vs Sapphire Rapids) fällt auf, das Sapphire mit 2 Dimms per Channel, aber EPYC mit einem Dimm per Channel designed wurde.

Meta äussert sich nicht, wohin die Entscheidung gefallen ist - mehr in Richtung Sapphire Rapids oder mehr in Richtung EPYC. Wegen AMX & QAT glaube ich ist das Spielfeld ziemlich Eben.

Zossel

2024-03-20, 10:00:29

Zu der Präsentation: kann einer vielleicht diese Grafik erklären wo es viele blaue Punkte mit der grünen Begrenzungslinie gab?
Vor allem habe ich nicht verstanden warum dort verschiedene FP Angaben in einer Grafik waren:
FP4 / FP8 / FP16 / FP32 oder FP64...

Eine andere Grafik mit dem exponentiellen Anstieg bei dem gleichzeitigen Übergang von FP64 auf FP4 Berechnungen/Genauigkeit...
Pfusch am Bau?

https://www.forum-3dcenter.org/vbulletin/showpost.php?p=13510727&postcount=748

dargo

2024-03-20, 10:49:20

Wenn es die ist was ich glaube

dann vergleicht er die terraflops von Generation zu Generation

Aber bei
Ada mit FP16 die Terraflops
Hopper mit FP8 die Terraflops
Blackwell mit FP6/FP4 die Terraflops

nur damit es noch umso mehr exponentieller aussieht.

Lol... what? ;D

Schon die TFLOPs bei gleicher Genauigkeit bei Ampere vs. Turing waren reinster bullshit (bei AMD ab RDNA3 vs. RDNA2). Und jetzt wird noch genialer schön gerechnet? :ulol: Der Wahnsinn nimmt kein Ende. Aber so lange jeden Morgen ein dummer Konsument aufsteht...

Hübie

2024-03-20, 11:12:29

NVIDIA Blackwell Architecture
Technical Brief:

https://nvdam.widen.net/s/xqt56dflgh/nvidia-blackwell-architecture-technical-brief

Hint kam aus: https://www.computerbase.de/2024-03/nvidia-blackwell-b200-gpu-kommt-als-dual-die-mit-208-milliarden-transistoren/

Ah, danke. Mühselig sich da Infos heraus zu saugen. Nvidia spricht übrigens von einer Tensor GPU. Also können wir uns ja mal anstrengen und überlegen was man beim Gaming braucht bzw. nicht braucht, um Ableitungen auf Gaming Blackwell zu geben, so er denn kommt. :smile: Aber das überlasse ich den Profis hier.

AffenJack

2024-03-20, 16:54:50

Ah, danke. Mühselig sich da Infos heraus zu saugen. Nvidia spricht übrigens von einer Tensor GPU. Also können wir uns ja mal anstrengen und überlegen was man beim Gaming braucht bzw. nicht braucht, um Ableitungen auf Gaming Blackwell zu geben, so er denn kommt. :smile: Aber das überlasse ich den Profis hier.

Nvidia spricht schon seit Jahren von Tensor GPU. Seit Hopper oder sogar schon Ampere.

Troyan

2024-03-20, 17:03:05

Seit Volta.

mboeller

2024-03-20, 18:19:36

mal ne dumme Frage

bei den NNA/AI TOPS ist es ja so, dass es immer um den Faktor 4 hochgeht, wenn sich die bytes halbieren. Also 16TOPS (8bit) entsprechen 4TOPS (16bit) etc...

Ist das bei den FLOPS hier genauso?

Dann wären die 20000 TFLOPS (4bit) ja nur 1250 TFLOPS (16bit).

y33H@

2024-03-20, 18:37:57

idR verdoppelt sich die Performance bei Halbierung der Präzision, wie kommst du auf Fakor vier? Und ja, 2x gilt für FP wie INT zumeist (hängt aber von der Architektur bzw Implementierung ab).

87537

Zossel

2024-03-20, 18:44:53

idR verdoppelt sich die Performance bei Halbierung der Präzision

idR ist das nicht für jeden Chip/Rechenwerk der Fall, das ist eher ein Fall für "es kommt darauf an".

Orko

2024-03-20, 19:42:17

Für den "akademischen Fall" Integer Zahlen + 1 Takt Rechenwerke + einfachste Implementierung:

Add und Sub sind 1D Netze von Zellen: a + B * x bit
Eine Halbierung der Bitbreite verdoppelt die Rechenleistung etwa

Mul und Div sind 2D Netze von Zellen: a + b* x bit + C * x bit * x bit
Eine Halbierung der Bitbreite vervierfacht die Rechenleistung etwa

Im realen Fall
- sind die Rechenwerke deutlich komplexer aufgebaut (optimiert)
- laufen Rechenoperationen ggf in mehreren Takten ab
- und für FP Zahlen haben Mantisse / Exponent unterschiedliche Skalierungen mit der Bitbreite

Als ganz pauschale Daumenregel ist "halbe Bitbreite - doppelte Rechenleistung" ein guter Ansatz solange man keine weitergehenden Informationen vorliegen hat.

y33H@

2024-03-20, 20:46:22

idR ist das nicht für jeden Chip/Rechenwerk der Fall, das ist eher ein Fall für "es kommt darauf an".Ach komm, das habe ich doch in Klammern bereits angemerkt.

mocad_tom

2024-03-20, 21:29:23

mocad_tom

2024-03-20, 21:57:17

https://twitter.com/IntuitMachine/status/1769835571117965522

das Diagramm der Schande Schande Schande Schande

HPVD

2024-03-20, 22:06:30

https://www.computerbase.de/2022-05/nvidia-hoppher-gh100-whitepaper/

Ein Hopper H100 hat mit FP8 4000 TFLOPS
Ein Blackwell B100 hat mit FP8 7000 TFLOPS

Blackwell hat aber die doppelte Siliziumfläche(mit den beiden Compute Tile).

Kann sein, dass Cache in das Base Tile verschoben wurde.

Ich vermute, dass die 7000 TFLOPS Sparse werte sind, also habe ich jetzt auch nach Sparse werte gesucht

https://developer.nvidia.com/blog/nvidia-hopper-architecture-in-depth/

interessant. Auch hier steht für B100:
FP8 Tensor Dense/Sparse: 3500/7000 TFLOPS

https://www.tomshardware.com/pc-components/gpus/nvidias-next-gen-ai-gpu-revealed-blackwell-b200-gpu-delivers-up-to-20-petaflops-of-compute-and-massive-improvements-over-hopper-h100

=> hmm doppelte Fläche, aber gleicher Verbrauch 700W (B100 soll imho das dropin replacement für H100 sein)?

dargo

2024-03-21, 03:44:03

https://twitter.com/IntuitMachine/status/1769835571117965522

das Diagramm der Schande Schande Schande Schande
:lol:

Dem Typen da unten fehlt jetzt nur noch die rote Clownsnase.

Leonidas

2024-03-21, 04:11:17

Also das hätte ich vor dir Leonidas echt nicht erwartet. :freak: Was hat das max. Board-Powerlimit mit dem Thema wieder zu tun? Das ist ja beinah so als wenn ich mich über Steckerlimits unterhalten würde. :hammer:

Die Fragestellung war exakt zum max-Powerlimit. Was soll ich da anderes sagen, als dass 600W korrekt sind bei der FE?

Was ist dann B100?

Salvage von B200.

Und was bekommt die RTX 5090 ab?

GB202. Hat 0,0 gar nix mit B100, B200 und GB200 zu tun. Gaming ist alles, was "GB20x" heißt, außer der GB200.

dargo

2024-03-21, 06:36:47

Die Fragestellung war exakt zum max-Powerlimit. Was soll ich da anderes sagen, als dass 600W korrekt sind bei der FE?

:freak:

Ich gebs auf.

Leonidas

2024-03-21, 09:04:11

Leider verstehe ich nicht, was ich hier falsch gesagt haben soll. Leider hast Du auch 2 Postings nicht genutzt, mich zu erleuchten.

Neurosphere

2024-03-21, 10:23:00

Ums vielleicht einfach zu Beenden,

die 4090 hat regulär ein PT von 450 Watt das bei vielen Karten auf bis zu 600 Watt angehoben werden kann für OC. Das lässt eine Asus Strix z.B. zu, eine MSI Suprim ist/war auf 520 Watt limitiert.

Die FE kann das halt auch. Regulär sind es trotzdem 450 Watt, alles andere ist im Bereich OC.

nordic_pegasus

2024-03-21, 10:42:41

sofern eine Blackwell GB202 Gaming-Karte tatsächlich mehr als eine 4090 verbrauchen wird, stellt sich mir die Frage nach dem PCIe Stromanschluss.

Die letzten Berichte von Igor und Roman sind ja nicht wirklich von anderen News-Seiten hochgekocht worden. Aber speziell das Video von Roman bzgl. der geringen Sicherheitsfaktoren beim 12VHPWR / 12V-2×6 / H++ Stecker gibt mir schon zu denken.
qxF2O4Gypso

Dazu noch das Video von Igor bzgl. der asymmetrischen Verteilung der Stromstärke (mehr über den PCIe Stromstecker rein, als hier auch rausfließt).
BMYPlTxJ4Dc

Eigentlich sollte der H++ Stecker die Lösung für alle Leistungsklassen sein. Aber ich denke bei GB202 wären wohl 2 Anschlüsse zumindest auf den OC-Modellen ratsam.

dargo

2024-03-21, 10:50:54

Leider verstehe ich nicht, was ich hier falsch gesagt haben soll. Leider hast Du auch 2 Postings nicht genutzt, mich zu erleuchten.
Ok... dann versuche ich es nochmal. Das max. Powerlimit einer 4090 FE beträgt 450W, Vorgabe vom IHV @Stock. Je nach Gaminglast werden diese erreicht oder eben nicht. Alles darüber ist ein OC-Eingriff seitens des Anwenders.

Dural

2024-03-21, 10:52:48

Die 4090 FE hat Offiziell bis 600W, und Stock halt 450W. Ein bisschen schon ein Theater?

https://twitter.com/IntuitMachine/status/1769835571117965522

das Diagramm der Schande Schande Schande Schande

Wo ist da Problem? Es steht ja alles.

Und für AI reichen wohl FP4 aus, die die alten Chips halt nicht haben.

Sardaukar.nsn

2024-03-21, 12:31:07

Ok... dann versuche ich es nochmal. Das max. Powerlimit einer 4090 FE beträgt 450W, Vorgabe vom IHV @Stock. Je nach Gaminglast werden diese erreicht oder eben nicht. Alles darüber ist ein OC-Eingriff seitens des Anwenders.

Ja aber das Powerlimit (Betonung auf „Limit“) liegt bei der FE auf 600 Watt. Dafür sind die Kabel, die Kühlung, Lüfterkurve ect als oberes Ende der Fahnenstange, also als Limit konstruiert.

BlacKi

2024-03-21, 12:59:19

nachdem die LLM schon in 4bit arbeiten, ist fp4 nur der logische schritt. bislang war die begründung darin gelegen die speicherverbräuche von LLM nicht explodieren zu lassen, aber mit fp4 in HW ergeben sich dann neue vorteile.

so wie ich es online gelesen habe, gehen die LLM sogar in richtung 1,58bit, vermutlich werden wir auch 1,58bit fp1 architekturen in zukunft sehen.

https://medium.com/ai-insights-cobet/no-more-floating-points-the-era-of-1-58-bit-large-language-models-b9805879ac0a

Tesseract

2024-03-21, 13:16:28

was ist an den begriffen so schwer zu verstehen? das power limit ist eine mechanik die den verbrauch der karte im betrieb künstlich limitiert. maximum und limit sind keine synonyme, maximales limit und stock limit ist nicht das gleiche und das limit hat direkt nichts mit dem realen oder maximalen verbrauch der karte oder der dimension des kühlers zu tun. die 4090FE als modell hat ein power limit (impliziert stock) von 450W und ein max power limit von 600W. diese aussagen sind beide korrekt.

dargo

2024-03-21, 13:28:23

Ja aber das Powerlimit (Betonung auf „Limit“) liegt bei der FE auf 600 Watt.
Och Gottchen, sind in diesem Forum einfachste Sachen echt so kompliziert? :freak: Mein ursprünglicher Post sagte aus... will Nvidia bei der 5090 nicht 600W frei geben? Wenn die 5090 mit 600W bei einer FE von NV kommt dann wird diese FE auch ein höheres, maximales Powerlimit erlauben (zb. 800W) bei OC und/oder diversen Customs. Manche laufen hier echt mit nem Brett vor dem Kopf.

Sardaukar.nsn

2024-03-21, 13:48:45

dargo

2024-03-21, 14:50:30

Blöd nur, dass eine 4090 FE @Stock alles andere, nur nicht leise ist.
https://www.computerbase.de/2022-10/nvidia-geforce-rtx-4090-review-test/3/#abschnitt_lautstaerke_im_detail

Aber lassen wir es, wird mir zu albern.

Sardaukar.nsn

2024-03-21, 15:33:05

Natürlich spielt bei der Bewertung auch noch die Stromversorgung und den Sense Pins eine Rolle. So gab es Karten mit 4- sowie 3-1 Adaptern.
Ich hoffe aber das Blackwell rund um die Stromversorgung mit weniger Drama anläuft als Lovelace.

Slipknot79

2024-03-21, 15:40:04

Ich hoffe aber das Blackwell rund um die Stromversorgung mit weniger Drama anläuft als Lovelace.

Dann kann sich Lederjacke die 5090 auch behalten. Was soll das sein, ein Lambo ohne Motorbrand. Langweilig. :mad: (y)

iamthebear

2024-03-21, 22:56:21

The_Invisible

2024-03-22, 08:03:16

Dann darf man wieder mit Adapter hantieren, aber gibt glaub ich ein paar Netzteile mit 2x 12vhpwr. Über 600w will ich aber eigentlich nicht, schon die 450 sind eigentlich zu viel, kenne fast keinen der seine 4090 nicht UV hat

Sardaukar.nsn

2024-03-22, 08:44:37

Das Drama mit dem 12VHPWR lässt sich einfach lösen indem die 90er Karten einfach 2 Anschlüsse davon bekommen inkl. 2 Adapter 2x8Pin auf 12VHPWR in der Box.

In der 300W Klasse der 4080 gibt es ja nicht wirklich Probleme.

Diese Lösung gibt es ja schon, aber natürlich eine kleine Nische: https://cdn.videocardz.com/1/2022/11/GALAX-RTX4090-HOF-1.jpg

Adapter finde ich immer schwierig. Im Extremfall bei der HOF kämen da ja 8x8pin zum Einsatz. Dual 12pin wäre da schon deutlich eleganter.
Bei mir läuft ein 3in1 Kabel von CabelMod für seasonic. Leider auch nicht nicht ohne Drama und hat erst nach einer Retoure zufriedenstellend funktioniert.

Gipsel

2024-03-22, 08:47:10

Die Fragestellung war exakt zum max-Powerlimit. Was soll ich da anderes sagen, als dass 600W korrekt sind bei der FE?Nein, war es nicht. Dargo sprach explizit vom Power-Limit der FE @ stock. (https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13510446#post13510446) Und das ist 450W. Daß einige Diskussionsteilnehmer das ignoriert haben und dann mit dem Max-Powerlimit gekommen sind, auf welches man die Karte mit manuellem Eingriff maximal treiben kann (und das bei 133% dann 600W erreicht), ändert nicht, daß das Stock-Powerlimit der 4090FE 450W ist. ;)

Neurosphere

2024-03-22, 09:04:54

Die 4090er wurde als 600 Watt Karten designt. Das sich dann später aus diversen Gründen rausgestellt hat das man eigentlich kaum mehr als 350 Watt benötigt hat ja nichts mit den Limits zu tun. Besitzer erfreuen sich in der Praxos an leisen Karten, dank den überdimensionierten Formaten der Kühler da alles noch auf 600 Watt ausgelegt wurde. Aber das ist doch nichts Neues.

Das stimmt nicht. Die FE ist nicht mehr das was NV als Referenzdesign für die Boards an die OEMs rausgibt. Die liegen dann doch deutlich unter 600 Watt oder lassen die das PT garnicht weiter anheben.

Aber lassen wir das. Mehr als 675 Watt (12V-2×6 + PCIe Slot) gehen halt nicht, Lastspitzen mal außen vor.

Ich glaube auch nicht das NV die 5090 mit mehr als den jetzigen 450 Watt der 4090 bewerben wird. Was die OEMs machen ist dann eh was anderes.

BlacKi

2024-03-22, 09:22:23

der verbrauch wird so oder so steigen. selbst mit dem selben powertarget. dann bleibt wenigstens mehr oc potential freizulegen.

Leonidas

2024-03-22, 09:44:14

Ok... dann versuche ich es nochmal. Das max. Powerlimit einer 4090 FE beträgt 450W, Vorgabe vom IHV @Stock. Je nach Gaminglast werden diese erreicht oder eben nicht. Alles darüber ist ein OC-Eingriff seitens des Anwenders.

Dem widerspreche ich im Sinne dessen, wie Du es gemeint hast, überhaupt nicht.

Allerdings benutzt Du eine falsche Formulierung: "max Powerlimit" ist das maximal mögliche Powerlimit im OC-Betrieb (welches bei 600W liegt). Was Du meinst ist das reguläre Powerlimit von 450W. Das kann man nicht als "max Limit" bezeichnen. Ein Limit hat keine Spanne, sondern eine Zielmarke. Jene liegt regulär bei 450W, maximal (nach Benutzer-Eingriff) bei 600W.

Ob die Karte wirklich auf 600W ausgelegt ist, wäre eine andere Frage. Vielleicht war sie mal daraufhin komzipiert, aber letztlich dürfte nVidia nicht mehr als notwendig verbauen, sobald die TDP feststeht. Ein gutes Stück Reserve ergibt sich automatisch durch die Reserve der Bauteile selber. Eine Karte, die nur für 450W ausgelegt ist, kann somit durchaus 600W vertragen. Ist aber dann OC-Bereich, ergo nicht garantiert. Dass die 4090FE wirklich auf 600W "ausgelegt" ist (als ganze Karte), würde ich daher lieber nicht beschwören. Für eine solche Aussage liegen zu wenige wirklich beweiskräftige Indizien vor. Leaks aus Entwicklungs-Zeiten müssen nicht für das finale Produkt gelten.

Nein, war es nicht. Dargo sprach explizit vom Power-Limit der FE @ stock. (https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13510446#post13510446) Und das ist 450W. Daß einige Diskussionsteilnehmer das ignoriert haben und dann mit dem Max-Powerlimit gekommen sind, auf welches man die Karte mit manuellem Eingriff maximal treiben kann (und das bei 133% dann 600W erreicht), ändert nicht, daß das Stock-Powerlimit der 4090FE 450W ist. ;)

Ah okay. Als ich antwortete, ging es schon um das Max-Limit, nicht das Stock-Limit. Dass ersteres 600W und zweiteres 450W beträgt, habe ich schon mit meinem initialen Posting (https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13510687#post13510687) klar ausgesagt.

Schnitzl

2024-03-22, 10:27:41

@ Leo: (und andere)
wurde eine Seite vor deinem Post von shorty schon erklärt:
https://www.forum-3dcenter.org/vbulletin/showpost.php?p=13510612&postcount=710
siehe Bild

dargo

2024-03-22, 10:29:03

:freak: :freak: :freak:

Hier nochmal für dich auf welcher Grundlage dieses ganze Rumgeeier entstanden ist.
https://www.forum-3dcenter.org/vbulletin/showpost.php?p=13510431&postcount=695

Erlaubt NV jetzt der FE 450W oder 600W @Stock? Den Rest kannst du dir zusammen reimen.

basix

2024-03-22, 10:42:12

so wie ich es online gelesen habe, gehen die LLM sogar in richtung 1,58bit, vermutlich werden wir auch 1,58bit fp1 architekturen in zukunft sehen.

https://medium.com/ai-insights-cobet/no-more-floating-points-the-era-of-1-58-bit-large-language-models-b9805879ac0a

Das hatte ich schon im AI-Technologie Thread verlinkt. Es ist eines der interessantesten Inferencing Paper der letzten Monate. Es ermöglicht nicht nur eine gleichbleibende Modellperformance bei geringerer Daten-Präzision, sondern auch viel einfacher aufgebaute HW (Multiplikation entfällt, Addition reicht). Das braucht nicht nur viel weniger Energie, es braucht auch viel weniger Chipfläche. Das bedeutet, dass man viel mehr Recheneinheiten auf einem Chip verbauen kann. Dazu, dass die geringere Anzahl Bits die Modell-Grösse stark reduziert und somit weniger DRAM benötigt wird.

Das Paper ist von Microsoft, welche ja dran sind, eigene AI-HW zu entwickeln. Ich bin mir relativ sicher, dass es in diese Richtung läuft. Nvidia, AMD und Intel können sowas natürlich auch einbauen. Aber ein dedizierter Inferencing-Accelerator mit nur der 1.58b Repräsentation und nur Addier-Units wird unschlagbar sein in punkto Energieffizienz sowie Kosten in der Herstellung. Für On-Chip Accelerators (NPU) ist es eigentlich auch ideal, da auf Client Seite zu 99% Inferencing gemacht werden wird und die Speichergrösse sowie Speicherbandbreite begrenzt ist.

Und:
Man muss sogar in 1.58b trainieren. Ich weiss zwar nicht, ob das ebenfalls mit nur Addierwerken geht aber falls ja, würde auch Training massiv beschleunigt werden.

Hier das Paper:
https://arxiv.org/pdf/2402.17764.pdf

https://image-static.segmentfault.com/744/156/744156106-2d7875605f769abd

robbitop

2024-03-22, 11:02:33

Ich fand es irgendwie merkwürdig, wie Nvidia mit B200 exakt das gleiche gemacht hat wie Apple mit dem M1 Ultra vor 2 Jahren und dann behauptet sie wären die ersten die GPUs zusammenfügen, die sich wie eine verhällt. Selbst die Animationen wie die beiden GPUs zusammengepappt werden über das am Rand sitzende Interface war fast dieselbe wie bei der M1 Ultra Vorstellung. Und nach meinem Verständnis hat AMD mit MI300X das ja auch schon gemacht.
Also sind sie eher der Dritte, der das macht. X-D

Was mir dazu aber einfiel: man braucht keine Pipecleaner oder andere Serienprodukte, die dann zu früh und zu enttäuschend irgendwelche neuen Sachen umsetzen, damit dann Gen 2 oder Gen 3 nicht mehr enttäuscht. Man muss sowas ganz offensichtlich nicht mit Serienprodukten "üben". Nvidia hat offenbar festgestellt, dass es für B200 sinnvoll ist und hat es dann einfach gemacht. Alle Versuche waren dann wahrscheinlich rein intern.

Troyan

2024-03-22, 11:05:49

nVidia übt doch. Nur weil man nicht früher etwas zeigt, heißt es nicht, dass es nicht schon vorhanden ist.

Ja, im Vergleich zu Apple, sind sie nicht die ersten. Aber die sind die ersten, die mit 5 TB/s pro Richtung bei einer (reinen) GPU das Konzept umgesetzt haben. Grundsätzlich können die ComputeUnits bei Blackwell (wie auch H200) mit vollen Speed aus dem VRAM und L2 Cache lesen und schreiben. Das ist bei AMD nicht der Fall, dort hat man drei verschiedene Ebenen.

fondness

2024-03-22, 11:31:26

robbitop

2024-03-22, 11:32:13

Ja, im Vergleich zu Apple, sind sie nicht die ersten. Aber die sind die ersten, die mit 5 TB/s pro Richtung bei einer (reinen) GPU das Konzept umgesetzt haben. Grundsätzlich können die ComputeUnits bei Blackwell (wie auch H200) mit vollen Speed aus dem VRAM und L2 Cache lesen und schreiben. Das ist bei AMD nicht der Fall, dort hat man drei verschiedene Ebenen.
Ui so kann jeder der Erste sein, wenn sich die Zahl der TB/s erhöht. :freak:;D Ha! Der erste der 6 TB/s hat... ;D Was für ein merkwürdiges Argument. Apple war der erste - die Bandbreite dazwischen ist zweitrangig solange es so funktioniert. Spezifische Größen sind ein "moving target".

Sicher, dass der Zugriff auf den LLC (welche L Stufe ist egal - bei Nvidia ist L2 der LLC und bei AMD dann der L3) nicht von jeder der GPUs bei MI300X geht? Oder auf den VRAM? Davon habe ich noch nichts gelesen. Dank SI sind hohe Bandbreiten und niedrige Latenz kein Hindernis sein.

fondness

2024-03-22, 11:36:35

Aber die sind die ersten, die mit 5 TB/s pro Richtung bei einer (reinen) GPU das Konzept umgesetzt haben.

Die Bandbreite der XCDs Richtung Infinity Cache im Base-Die liegt bei 17 TB/s bei MI300X. Und natürlich verhält sich MI300X auch wie eine GPU. Aber ja man kann sich alles so zurecht drehen, dass es dann irgendwie passt.

robbitop

2024-03-22, 11:45:02

Ich meine mich zu erinnern, dass AMD das auch in der Präsentation so gesagt hat und das ggü MI250 einer der wesentlichen Änderungen war.

Dritter = Erster. Man muss nur die Variablen so spezifizieren, dass #1 und #2 nicht zählen. X-D

Troyan

2024-03-22, 12:02:33

Die Bandbreite der XCDs Richtung Infinity Cache im Base-Die liegt bei 17 TB/s bei MI300X. Und natürlich verhält sich MI300X auch wie eine GPU. Aber ja man kann sich alles so zurecht drehen, dass es dann irgendwie passt.

Ja, wenn man 8x 2,1 TB/s rechnet. Es gibt keine Crossbar zwischen den IODs:

Naturally, addressing the remote stacks will incur latency penalties. Memory transactions incur more latency the further they travel. AMD noted that HBM connected directly to the IOD and XCD is a zero-hop transaction while accessing a different memory stack on the IOD is a two-hop jump. Finally, accessing a memory stack on an adjacent IOD is a three-hop jump. The penalty for a two-hop jump is roughly a 30% increase in latency, while a three-hop jump adds 60% more latency.

The third slide shows the bandwidths available from the NoC, with 1.2 TB/s/dir of bandwidth between the I/O Dies across the vertical section of the package, while a horizontal data path provides slightly more, 1.5 TB/s/dir of bandwidth, to help accommodate additional traffic from the I/O devices, thus allowing I/O traffic to be handled separately from the memory traffic
https://www.tomshardware.com/pc-components/cpus/amd-unveils-instinct-mi300x-gpu-and-mi300a-apu-claims-up-to-16x-lead-over-nvidias-competing-gpus

Die Brandbreite liegt also bei 2,4 TB/s pro Richtung und fällt auf 1,2 TB/s wenn nur von einem weiteren IOD Daten gelesen werden.

basix

2024-03-22, 12:15:52

Troyan rechnet sich alles Nvidia-günstig zurecht...:rolleyes:

Lass es einfach. MI300X verhält sich gegen aussen wie eine Single-GPU. End of the story.

Und anscheinend hast du die Argumente zu 1./2./3. nicht verstanden oder ignorierst sie, damit du ja nicht zugeben musst, dass Nvidia den Wahrheitsbogen ein wenig überspannt.

Zossel

2024-03-22, 12:16:24

Völlig egal was hier noch alles aufgetischt wird, meiner ist immer und überall der längste, generative KI macht es möglich :-)

basix

2024-03-22, 12:20:08

gz zum längsten ;)

AffenJack

2024-03-22, 14:11:33

https://pc.watch.impress.co.jp/docs/column/ubiq/1577897.html

　According to NVIDIA GPU Architect and Senior Vice President (SVP) Jonah Alben, ``Blackwell's microarchitecture is completely different from Hopper, but I can't discuss the details yet.''

So schade, dass Nvidia nicht wie sonst bei der GTC die Architektur präsentiert hat. So wurde das interessanteste weggelassen. Zumindest soll es wirklich deutliche Änderungen geben. Macht jegliche Vorhersagen für Gaming Blackwell aber noch deutlich schwerer.

fondness

2024-03-22, 14:24:29

Ja, wenn man 8x 2,1 TB/s rechnet. Es gibt keine Crossbar zwischen den IODs:

https://www.tomshardware.com/pc-components/cpus/amd-unveils-instinct-mi300x-gpu-and-mi300a-apu-claims-up-to-16x-lead-over-nvidias-competing-gpus

Die Brandbreite liegt also bei 2,4 TB/s pro Richtung und fällt auf 1,2 TB/s wenn nur von einem weiteren IOD Daten gelesen werden.

Spielt keine Rolle, AMD hat es eben nicht nötig so große Single Dies zu bauen und braucht deshalb auch nicht so viel Bandbreite für die kleinen XCDs. Die MI300 SPs als Ganzes können allerdings dank 3D staking mit 17TB/s auf den infinity Cache off Die zugreifen, das ist wesentlich schneller als bei nVidia.

Troyan

2024-03-22, 14:50:24

Spielt keine Rolle, AMD hat es eben nicht nötig so große Single Dies zu bauen und braucht deshalb auch nicht so viel Bandbreite für die kleinen XCDs. Die MI300 SPs als Ganzes können allerdings dank 3D staking mit 17TB/s auf den infinity Cache off Die zugreifen, das ist wesentlich schneller als bei nVidia.

Du hast noch weniger Ahnung als ich von dem Thema, gell? Einzig die ComputeChiplets auf dem IOD können mit 2,1 TB/s auf den LLC zugreifen. Alle anderen kommunizieren über den Interconnect. Die SPs kommunizieren maximal mit 2,1 TB/s mit dem LLC und das auch nur pro XCD, was wiederum auch nur 2x 2,1 TB/s pro ICD sind.

nVidia hat 5 TB/s pro ComputeChiplet, AMD nur 1,2 TB/s bzw. 2,7 TB/s, wenn Daten von zwei ICDs gelesen werden. Irgendwie ist das weniger als 17 TB/s. ;D

nordic_pegasus

2024-03-22, 15:54:22

Steve von Gamers Nexus ist echt ein Troll... wird kommentarlos eine Szene aus der Keynote mit automatischen Untertiteln gezeigt. Vielleicht sollte Blackwell als erstes auf automatischen Untertitel von Youtube angesetzt werden.

https://s20.directupload.net/images/240323/mrz8kbfw.jpg (https://www.directupload.net)

HPVD

2024-03-22, 17:14:52

für Consumer Blackwell:
ein paar Watt könnte der GDDR7 sparen:
Bei Samsung wurde ein GDDR7-Chip mit einer Speicherkapazität von 16 Gbit (2 GB) und einem Durchsatz von 32 Gbit/s gezeigt, wie es der Hersteller schon letzten Sommer angekündigt hatte. Interessant ist nun die Angabe, dass der Chip mit lediglich 1,1 Volt betrieben wird, während der Standardwert für GDDR7 bei 1,2 Volt liegt.
...
Bei GDDR6 und GDDR6X ist die Betriebsspannung mit 1,35 Volt deutlich höher und der Durchsatz mit maximal 24 Gbit/s deutlich niedriger. Folglich steigt mit GDDR7 die Effizienz des Speichers an.
...
Letzten Sommer wurde schon berichtet, dass Samsung den GPU-Entwickler Nvidia bereits mit Mustern versorgt, damit dieser den Einsatz in der nächsten Generation von Grafikkarten prüfen kann.

https://www.computerbase.de/2024-03/samsung-und-sk-hynix-gddr7-mit-nur-1-1-volt-oder-bis-zu-40-gbit-s/

mczak

2024-03-22, 17:36:39

Normalerwiese sind low-voltage Varianten von gddr Speicher eher für die Mobil-Lösungen reserviert, würde nicht davon ausgehen dass der bei Desktop-Produkten Verwendung findet. Samsung hat im Uebrigen gddr6 Speicher nicht nur mit den üblichen 1.35V und 1.25V sondern ebenfalls auch schon mit 1.1V im Programm (laut dem Pressestatement bis 20gbps, leider sind ja keine Datenblätter mehr zu finden).
Ich würde mal vermuten bei gddr Speicher der im selben Prozess gefertigt (sollte wohl bei den neuesten Samsung gddr6 und gddr7 Chips der Fall sein) und bei derselben Spannung betrieben wird sind die Effizienzunterschiede marginal (normalerweise werden ja 20% Effizienzvorteil zitiert von gddr7 gegenüber gddr6, dabei wird aber von den Standardspannungen 1.35V/1.2V ausgegangen). Aber gddr7 erreicht dabei natürlich höhere Frequenzen.

horn 12

2024-03-23, 15:02:24

Sardaukar.nsn

2024-03-23, 15:28:50

...

RTX 5080 wohl gleichauf wie 4090 und bei RT wohl etwas schneller
5090 wohl um die 25 bis 30 % schneller als 4090 --- meine Angabe.

Release H2 2024 wäre aber trotzdem relativ früh!

Halte ich für zu wenig. Das Doppelte, also +50-60% wär okay.

ChaosTM

2024-03-23, 15:50:17

NV wird etwas bringen, dass weit genug von ADA entfernt ist, welches ein 2000$ + Upgrade rechtfertigen würde.

Wahrscheinlich ist auch ein neues "Feature", das nur mit Blackwell kann

Zossel

2024-03-23, 16:26:05

NV wird etwas bringen, dass weit genug von ADA entfernt ist, welches ein 2000$ + Upgrade rechtfertigen würde.

Wahrscheinlich ist auch ein neues "Feature", das nur mit Blackwell kann

Warum nicht einfach mal die Zielgruppe testen ob die auch ohne neue Spezial-Features im vergleichbaren Umfang kauft.

The_Invisible

2024-03-23, 16:46:32

Hat man ja schon mit der 3090ti

Zossel

2024-03-23, 17:06:18

Hat man ja schon mit der 3090ti

Dann wären ja neue Features bei dem neuen Chip Schädigung des Eigentums der Shareholder.

robbitop

2024-03-23, 17:08:31

Man sollte nicht vergessen dass Ada vs Ampere 2x Fullnodeshrinks waren und von Ada zu Blackwell laut Gerüchten kein Shrink. Da kommt die Mehrleistung dann vor allem aus der Die Size Steigerung (auch uArch Verbesserungen kosten Fläche).

reaperrr

2024-03-23, 17:14:39

https://wccftech.com/nvidia-limit-supply-geforce-rtx-40-ada-gpus-make-room-rtx-50-blackwell-gaming-lineup/

Verheist wohl nix Allzu Gutes (Meiner Meinung zu urteilen)

RTX 5080 wohl gleichauf wie 4090 und bei RT wohl etwas schneller
5090 wohl um die 25 bis 30 % schneller als 4090 --- meine Angabe.

Release H2 2024 wäre aber trotzdem relativ früh!
Für die Performance heißt das mMn nicht viel.

Ich sehe es eher so, dass Nvidia nicht das gleiche Problem wie bei Ampere haben will, dass man zum Launch des Nachfolgers noch massenhaft Adas auf Lager hat, die man nur noch zu relativen Schleuderpreisen loswird, während man gleichzeitig die neuen, teureren Chips damit teilweise kannibalisiert.

Netter Nebeneffekt ist für NV, dass sie die 4N-Kapazitäten für weitere HPC-Chips nutzen können.
Bzw. ist wohl das eher der Hauptgrund, und das obige der nette Nebeneffekt...

Hatstick

2024-03-23, 17:26:57

Ich habe beim "3000er" Abverkauf eigentlich nicht wirklich einen Abverkauf gesehen, bis auf die 3060 Modelle.
Ich sehe es eher so, das nVidia aufgrund des massiven Preisanstiegs "gerne" ihre dann 4000er Reihe im Portfolio behalten, um die 5000er dementsprechend hochpreisig drüber zu setzen.
Auch werden wir Konsumenten uns dran gewöhnen müssen, eine LastGen Karte mit in die Kaufauswahl zu nehmen, weil ja quasi ab der xx70Ti für die meisten es gar nicht mehr bezahlbar sein wird.

HPVD

2024-03-24, 11:39:16

u.a der zweite Teil ist nicht uninterssant bzgl ggf später kommenden Ausbaustufen von Blackwell (Memory Bandbreite)
der erste Teil beschreibt u.a. etwas aktuelle KI Modelle (Multi Experts)
https://www.nextplatform.com/2024/03/18/with-blackwell-gpus-ai-gets-cheaper-and-easier-competing-with-nvidia-gets-harder/

mocad_tom

2024-03-24, 22:11:41

https://twitter.com/convequity/status/1770821394399461761

Bei B200 (nur GPU) wird Emerald Rapids als CPU verwendet.

Ich denke die nächsten großen Trainingscluster werden ebenfalls wieder mit einer x86-CPU + GPU aufgesetzt.

Nur für inferencing wird mehr Grace Hopper eingesetzt(und die wird nvidia über force-feeding verkaufen).

Jeder größere Player will autark bleiben und sich nicht über Gebühr von nvidia abhängig machen.

Facebook baut seine eigene Compute-Plattform, Google ebenso (google setzt z.B. auf die Mount Evans DPU).

Microsoft hat sich fürs inferencing eine ordentliche Menge an MI300X gekauft.
Bei Microsoft sollen so viele H200 und später B200 wie möglich im Training arbeiten, für inferencing sollen die MI300X herhalten.

y33H@

2024-03-24, 23:36:19

Mount Evans ist auch Intel übrigens.

mocad_tom

2024-03-25, 09:04:31

basix

2024-03-25, 10:25:51

Was heisst "dran hängen"? Welches Interface wird benutzt? PCIe?

mocad_tom

2024-03-25, 12:28:25

Hier im Habana webcast ab Minute 7:00

https://developer.habana.ai/events/live-webinar-getting-started-with-habana-deep-speed-optimization-on-large-models-feb-2023/

Damit man GPT4 trainieren kann, läuft es nicht auf einer GPU sondern bei GPT4 waren es 20.000 GPU und es lief 4 Monate.

Deepspeed ZeRO ist eine Bibliothek von Microsoft und diese macht dir ein Scale-Out bei den GPU, diese müssen aber direkt miteinander über die Netzwerkdosen verbunden werden.

https://youtu.be/u0siCfmCNfg

Das eigentlich revolutionäre an Hopper war die starke Netzwerkanbindung.
Deshalb wird bei den Export-Beschränkungen der USA nach China so wert darauf gelegt, dass diese Netzwerkschnittstelle extra stark beschnitten ist.

AffenJack

2024-03-25, 19:29:12

Was is gestern gelesen habe, was ich bisher nicht wusste:

Man kann H100 an einen NVidia/Mellanox-Switch hängen, man kann H100 aber auch an einen Broadcom-Switch hängen.

Ich finde das mal mindestens sehr interessant.

Natürlich, wie hast du dir das denn sonst vorgestellt? Das Ding ist natürlich über ein Netzwerk mit anderen Racks verbunden. Da ist immer ein Switch von sonst wem.

Mit Blackwell ist nur der Unterschied, dass man den Switch erst nach 72 Blackwells dranstöpselt, bei Hopper kam der dagegen schon nach 16? oder 32?

Microsoft hat sich fürs inferencing eine ordentliche Menge an MI300X gekauft.
Bei Microsoft sollen so viele H200 und später B200 wie möglich im Training arbeiten, für inferencing sollen die MI300X herhalten.

Achja..., woher kommt das nun her? Klar kauft MS auch MI300X, sie wären doof wenn nicht. Sie werden aber bestimmt nicht das Inferecing nur auf Mi300 machen.

The_Invisible

2024-03-25, 20:17:41

Wenn allein Nvidia monatelange Lieferzeiten hat nimmt man halt alles was man bekommt, bin ja schon echt gespannt was da dann noch für den gemeinen Gaming-User übrigbleibt wenn das so weitergeht. :D

mocad_tom

2024-03-25, 21:43:10

https://www.threads.net/@luokai/post/C0W0ntSrOVw?hl=de

Wenn selbst Meta und Microsoft nur 150.000 bekommen.

Und ganz ehrlich, die GPU sterben wie die Fliegen.
Beim Durchrechnen von GPT4, bei einer Laufzeit von 4 Monaten wurden 4% der GPU weggeraucht.

Und die MI300X sind kurz vor unbrauchbar bei training aber mindestens ebenbürtig bei inference.

Nvidia ist aktuell bei Datacenter-inference nur noch bei 45%.
Einiges an inference läuft auch einfach nur auf einer CPU.
Und bei GPU-Inference hat nvidia 60%.
In Dollar Umsatz vllt. mehr, aber an tatsächlich erbrachter Rechenleistung sind sie bei 60%.

nvidia wird von zwei Seiten in die Zange genommen:
AMD macht inferencing gut / Gaudi3 macht training gut.

HPVD

2024-03-26, 11:17:20

https://www.threads.net/@luokai/post/C0W0ntSrOVw?hl=de
...
nvidia wird von zwei Seiten in die Zange genommen:
AMD macht inferencing gut / Gaudi3 macht training gut.

ja und von ner 3. Seite: client side inferencing.

Hatte hier mal was dazu geschrieben:
https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13514883#post13514883

mocad_tom

2024-03-26, 19:03:44

speziell aus einer Energieeffizienz-, Latenz- und Datenschutz-Betrachtung kann On-Device-Inferencing schon nette Vorteile bieten.

Bei Smartphones on-device Spracherkennung, Übersetzung und Sprachausgabe - das wäre schon Peak Zukunft.

Und es könnte halt aus einer Energieeffizienz-Betrachtung raus wirklich eine von vielen Killeranwendungen sein.

On-Device-KI-Bildbearbeitung und das Galaxy Fold wird zum brutalen Multitool.

On-Device-Inferencing im Auto bei autonomen fahren sowieso pflicht.
Mobileye rechnet mit zwei unterschiedlichen Sensorsätzen zwei unterschiedliche KI-Realitäten durch und vergleicht, ob beide KI-Realitäten das gleiche machen würden. Und wenn sich Realität 1 von Realität 2 unterscheidet, dann wird das Lenkrad an den Fahrer zurückgegeben.

Zossel

2024-03-26, 21:11:43

Bei Smartphones on-device Spracherkennung, Übersetzung und Sprachausgabe - das wäre schon Peak Zukunft.

Läuft dein Handy noch mit Kohle und Dampf?

mocad_tom

2024-03-27, 00:36:32

Läuft dein Handy noch mit Kohle und Dampf?

Spracherkennung (speech-to-text) in der cloud
Übersetzung in der Cloud
Ausgabe ist on device aber teils ziemlich schrott.
Ich meine wieso klingt ein Navi/Google Maps immer noch so scheiße.

Zossel

2024-03-27, 07:32:16

Spracherkennung (speech-to-text) in der cloud
Telefon von Apple?

Übersetzung in der Cloud

Da könnte ich mir vorstellen die Daten die man zum übersetzen benötigt ziemlich groß sein können. Hat da jemand Infos?

Ausgabe ist on device aber teils ziemlich schrott.
Ich meine wieso klingt ein Navi/Google Maps immer noch so scheiße.

Definiere "scheiße".

Pirx

2024-03-27, 08:10:20

...
Und die MI300X sind kurz vor unbrauchbar bei training aber mindestens ebenbürtig bei inference....
Quelle?

mocad_tom

2024-03-27, 12:03:19

https://public.tableau.com/shared/C3CYP7XMJ?:display_count=n&:origin=viz_share_link

In der Spalte GPT3 Training - die Benchmark results sind interessant.
Und ehrlich gesagt ist da Gaudi2 auch hinten dran.

Für die Spalte "Training GPT3" posten nur
- H100
- TPU-v5e (von Google)
- Gaudi2
Ergebnisse.

Würde man Gaudi2 auf 3840 hochskalieren und es würde linear skalieren, dann ist man bei einer latency in Minutes von 15,3Minuten.

4096 H100 benötigen für die gleiche arbeit 8,57Minuten.

Und Gaudi2 kommt da nicht linear soweit hoch.

Der einzige bisschen konkurrenzfähige Partner ist TPU
4096 TPU-v5e benötigt 44Minuten

Wo ist hier mal was von MI300X zu lesen?
AMD vergleicht nur im Bereich inferencing.

Ich hoffe es wird klar wie wichtig der Aspekt Scale-Out ist.
Er ist aber nur wichtig bei training, bei inferencing egal - Hauptsache das Modell passt in den HBM-Speicher, deshalb ist MI300X auch so gut (und wischt teils sogar den Boden auf).

Habana und Google TPU sind an training-Scale-Out fast länger dran als nvidia.
H100 konnte die Anforderungen halt rekordverdächtig schnell umsetzen.
(und Habana wollte halt unbedingt mit OAM-Spec 2.0 kompatibel bleiben und nvidia hat gesagt scheiß die Wand an - alles proprietär, alles Walled Garden)

Troyan

2024-03-27, 16:59:39

Quelle?

Man kann schlecht eine Quelle liefern, wenn AMD sich weigert beim MLPerf mitzumachen. Trotzdem MI300X bei Partner und Firmen vorhanden ist, hat AMD beim Inference 4.0 keine Werte eingerecht:

he MI300X, Gaudi 3, and Cerebras were no-shows on the latest MLPerf results in the server market.
https://www.servethehome.com/nvidia-mlperf-inference-v4-0-is-out-intel-qualcomm-nvidia-amd-google-tpu-cerebras/

Macht auch Sinn. Im Fahrtwasser von nVidia kann man den Aktienkurs pushen. Produkte spielen da nur zweitrangig eine Rolle.

fondness

2024-03-28, 09:53:41

Man kann schlecht eine Quelle liefern, wenn AMD sich weigert beim MLPerf mitzumachen. Trotzdem MI300X bei Partner und Firmen vorhanden ist, hat AMD beim Inference 4.0 keine Werte eingerecht:

https://www.servethehome.com/nvidia-mlperf-inference-v4-0-is-out-intel-qualcomm-nvidia-amd-google-tpu-cerebras/

Macht auch Sinn. Im Fahrtwasser von nVidia kann man den Aktienkurs pushen. Produkte spielen da nur zweitrangig eine Rolle.

Ist halt immer eine Frage für was man Ressourcen verschwendet. Für einen wertlosen Benchmark oder eben doch für Real-World-Anwendungen. Viele unterschätzen nach wie vor den Software-Aufwand und den Einfluss von Software auf die Ergebnisse, Nvidia hat dort in den letzten Jahren alleine durch Software-Optimierungen beträchtliche Performance-Sprünge erreicht.

Hypadaiper

2024-03-28, 09:59:57

Volker hat in CB ja ganz schön gegen amd gewettert weil die nicht mitmachen (zum zweiten Mal 😅). Gibts dafür einen Grund ? Ost es Ressourcenbündelung, will man sandbaggen oder sich nicht blamieren ?

mocad_tom

2024-03-28, 13:16:20

Die immensen Performance-Gewinne wurden auch nur dadurch erreicht, indem man das Inferencing durchgehend mit FP8 durchlaufen lässt.

Und jede Hardware, die einen guten Durchsatz bei FP8 hat, gewinnt.

Deshalb hat man auch nur am inferencing geschraubt, bei training macht FP8 weniger Sinn.

Die hohen TOPS-Zahlen bei Snapdragon Elite-X rühren auch nur daher, dass es FP4-Werte sind.

Das ist so als müsste man im Physik-Unterricht seit diesem Jahr keine Einheiten mehr dazuschreiben :freak:

davidzo

2024-03-28, 18:19:03

ryan

2024-03-28, 18:59:42

XDNA hat auch die doppelte Leistung bei INT4, also 32TOPs bei Hawk. Nimmt man die GPU und CPU dazu dürfte man sogar auf 78TOPs landen (39Tops int4).

Da liegt also keine ganze Generation zwischen dem X-Elite und AMD/Intel wie Qcomm glauben schenken will. Strix wird mit 40+ Tops int8 eher noch etwas vorlegen gegenüber Qcomm, zumal bei AMD viel mehr Datenformate unterstpützt werden (BF16, FP16 UINT16/32 etc.) wovon man bei Qcomm noch nichts weiß.

Nein das sind INT8 die 45 TOPS beim Snapdragon Elite X.

Qualcomm is quoting 45 TOPS of performance here for modest precision INT8
https://www.anandtech.com/show/21105/qualcomm-previews-snapdragon-x-elite-soc-oryon-cpu-starts-in-laptops-

Strix Point sollte bei 30 TOPS liegen. AMD selber sagt dreifache NPU Performance zur Phoenix NPU mit 10 TOPS. Mit einer iGPU ist theoretisch viel mehr drin, nur sind die 40 TOPS von Microsoft für die NPU alleine gedacht.

Leonidas

2024-03-29, 04:40:33

PHuV

2024-03-29, 05:09:26

Was mich bei dieser 40-TOPs-Anforderung für KI-PCs am meisten interessiert: Gibt es irgendwo einen Anwendungsfall, wo man diese 40 TOPs benötigt, sprich wo man mit 20 TOPs nicht mehr zurechtkommen könnte bzw. wo es ohne NPU gar nicht geht?
Ja, wenn der Copilot lokal ohne Internetverbindung laufen soll:
https://www.heise.de/news/So-definieren-Microsoft-und-Intel-einen-AI-PC-9670022.html
Copilot läuft künftig lokal

Im Gespräch mit Tom's Hardware bestätigten Intel-Vertreter, dass Copilot-Funktionen auch lokal auf PCs und nicht ausschließlich in der Cloud laufen sollen. Dann setzen sie keine Internetverbindung mehr voraus.

Zudem stellte Intel in Aussicht, dass künftig die Anforderungen an AI-PCs steigen sollen. Reicht bisher schlicht eine KI-Einheit aus, muss diese in der zweiten Generation von AI-PCs mindestens 40 TOPS Rechenleistung bereitstellen, also 40 Billionen Operationen pro Sekunde berechnen.

Zum Vergleich: Intels NPU in Meteor Lake (Core Ultra 100) schafft etwa 11 TOPS. Zusammen mit den CPU-Kernen (5 TOPS) und der GPU (18 TOPS) sind insgesamt 34 TOPS drin. AMD gibt insgesamt 39 TOPS bei seinen schnellsten Ryzen-8040HS-Mobilprozessoren (Hawk Point) an. Qualcomm ist auf dem Papier flotter unterwegs: Der kommende Notebook-Prozessor Snapdragon X Elite schafft 65 TOPS, davon entfallen 45 allein auf die integrierte KI-Einheit.
Das wurde bereits im Januar angedeutet:
https://t3n.de/news/windows-copilot-neuen-prozessor-ram-1603183/

Windows Copilot braucht einiges an Rechenpower, wenn er lokal betrieben werden soll.

reaperrr

2024-03-29, 05:40:59

Strix Point sollte bei 30 TOPS liegen. AMD selber sagt dreifache NPU Performance zur Phoenix NPU mit 10 TOPS. Mit einer iGPU ist theoretisch viel mehr drin, nur sind die 40 TOPS von Microsoft für die NPU alleine gedacht.
Auf der Folie stand "mehr als 3x NPU Performance".

Wenn du einen Link zu der Präsentation hast wo gesagt wird, dass sich das nur auf die 10 TOPS von Phoenix bezieht, gerne verlinken. Auf tomshardware.com steht, dass das allgemein im Vergleich zu XDNA1 sein soll, das würde Hawk Point einschließen. Muss nicht stimmen, wäre aber schlüssig.

Die 40 TOPS Anforderung von MS für AI PC 2.0 wird AMD & Co. auch wahrscheinlich schon länger vor der offiziellen Ankündigung mitgeteilt worden sein, sonst wären auch Intel und Qualcomm nicht so selbstverständlich rechtzeitig mit >40 TOPS-NPUs am Start.

So wie ich das sehe, würde AMD im Zweifel eher bei CPU und GPU ein paar Mhz opfern, um die XDNA2-NPU irgendwie auf 40 TOPS zu prügeln, bevor sie als einziger der drei Windows-kompatiblen Hersteller mit runtergelassener Hose dastehen, mit 30 TOPS rumdümpeln und erst mit dem Strix-Nachfolger/-Refresh AI-PC 2.0-kompatibel werden.

MLID hatte schon 45-50 TOPS für XDNA2 auf der Folie, als AMD's ">3x XDNA1" noch nicht öffentlich bekannt war. Schließt zwar nicht automatisch aus, dass er von Hawk's 16 TOPS hochgerechnet hat, aber für wahrscheinlicher halte ich, dass er einfach über Strix-Infos verfügt, die eben von 45-50 TOPS für XDNA2 sprechen.
Und die Gesamt-APU wird kaum gemeint sein, sonst wären das nur 6-11 TOPS mehr als Hawk, das bringen ja schon allein die CPU und iGPU.

Edit: OK, gefunden.
https://www.amd.com/en/newsroom/press-releases/2023-12-6-amd-showcases-growing-momentum-for-amd-powered-ai-.html
3 An AMD Ryzen “Strix point” processor is projected to offer 3x faster NPU performance for AI workloads when compared to an AMD Ryzen 7040 series processor. Performance projection by AMD engineering staff. Engineering projections are not a guarantee of final performance. Specific projections are based on reference design platforms and are subject to change when final products are released in market. STX-01.
PR-technisch natürlich ne Katastrophe für AMD, wenn Qualcomm und Intel die 1,5x NPU-Leistung bringen und AI-PC 2.0-Spec eine Gen früher als AMD schaffen. Erklärt auch, warum AMD nur die >3x Perf herausgestellt, aber keine konkretere TOPS-Angabe gemacht hat, 31 TOPS klingen halt nicht so toll, wenn man eigentlich schon 40 bräuchte.

Zossel

2024-03-29, 07:02:49

Was mich bei dieser 40-TOPs-Anforderung für KI-PCs am meisten interessiert: Gibt es irgendwo einen Anwendungsfall, wo man diese 40 TOPs benötigt, sprich wo man mit 20 TOPs nicht mehr zurechtkommen könnte bzw. wo es ohne NPU gar nicht geht?

Mangels konkreter Anwendungen bleibt man lieber im Abstrakten.

BTW: Wieviel TOPS haben eigentlich die Pixels von Google?

Zossel

2024-03-29, 07:08:31

So wie ich das sehe, würde AMD im Zweifel eher bei CPU und GPU ein paar Mhz opfern, um die XDNA2-NPU irgendwie auf 40 TOPS zu prügeln, bevor sie als einziger der drei Windows-kompatiblen Hersteller mit runtergelassener Hose dastehen, mit 30 TOPS rumdümpeln und erst mit dem Strix-Nachfolger/-Refresh AI-PC 2.0-kompatibel werden.

Energie je nach Anwendungsfall zu verteilen machen XPUS das schon lange.
Erinnert sich noch jemand an den Aufkleber "Multimedia-PC"?

Leonidas

2024-03-29, 07:56:41

Es braucht schon etwas konkreteres. Nur das Copilot lokal laufen soll und "viel" Leistung benötigt, sagt kein Wort darüber aus, ob ein 14900K damit nicht zurechtkommen kann, weil da die NPU fehlt.

mocad_tom

2024-03-29, 08:50:43

Es braucht schon etwas konkreteres. Nur das Copilot lokal laufen soll und "viel" Leistung benötigt, sagt kein Wort darüber aus, ob ein 14900K damit nicht zurechtkommen kann, weil da die NPU fehlt.

es gab ja mal kurz den plan movidius module für nvme/pcie zu fertigen und diese dann in 13000 und 14000 rechner/laptops rein zu packen.

die ganze unified memory sache passt da halt einfach nicht.

Zossel

2024-03-29, 09:02:04

es gab ja mal kurz den plan movidius module für nvme/pcie zu fertigen und diese dann in 13000 und 14000 rechner/laptops rein zu packen.

die ganze unified memory sache passt da halt einfach nicht.

Ist für die unbekannten Anwendungen eine kohärente Speicher Anbindung zwingend?

mocad_tom

2024-03-30, 12:37:05

bei eine movidius karte am pcie
entweder packt man eine kleine menge an Ram mit auf die movidius karte, dann kann man aber keine großen modelle reinpacken.

oder man packte eine große menge drauf, dann schnarcht der speicher die meiste zeit

oder man macht alles über den pcie bus und greift auf den ram von der cpu zu, dann ist das aber schnarch langsam und kostet auch noch mehr strom

ich glaube wir schauen jetzt dann wirklich dem Tod vom standalone desktop-prozessor zu.

Man wird einfach CPU+GPU+NPU+RAM im Paket kaufen - aufrüsten unsinnig.

mocad_tom

2024-04-01, 07:45:37

https://twitter.com/MishaalRahman/status/1773350224850817321

man versucht gemini nano in 8gb ram zu packen.
den entwicklern ist aber 12gb lieber.

DrFreaK666

2024-04-08, 23:15:11

NVIDIA board partners expect GeForce RTX 5090 and RTX 5080 to launch in fourth quarter
https://videocardz.com/newz/nvidia-board-partners-expect-geforce-rtx-5090-and-rtx-5080-to-launch-in-fourth-quarter

Sardaukar.nsn

2024-04-09, 21:37:57

Fein, ab +50% Leistung zur 4090 wird umgehandelt.

iamthebear

2024-04-09, 22:20:03

Ja, wenn der Copilot lokal ohne Internetverbindung laufen soll:
https://www.heise.de/news/So-definieren-Microsoft-und-Intel-einen-AI-PC-9670022.html

Das wurde bereits im Januar angedeutet:
https://t3n.de/news/windows-copilot-neuen-prozessor-ram-1603183/

Sollen denn in einem 15W Notebook dann auch 700GB HBM verbaut werden denn so viel braucht man aktuell für GPT 3.5

Es sollten zuerst einmal brauchbare KI Anwendungen auf den Markt kommen. Dann werden die Hardwarehersteller auch beginnen Hardwarebeschleunigung für diese anzubieten. Aktuell ist clientseitige KI nur eine riesige Marketingblase.

Das Ganze hatten wir schon vor fast 7 Jahren. Damals hat Huawei das Mate 10 mit ihrer neuen NPU auf den Markt gebracht. Dann hat man mit Microsoft zusammengearbeitet, um die NPU in ihrem Übersetzer zu nutzen und hat stolz präsentiert wie das Handy nun Text auf gemachten Fotos offline übersetzen konnte.
Zu der Zeit konnte die Google Übersetzer App das Ganze schon in Echtzeit. Auch offline aber ganz ohne NPU auf 3 Jahre alten Einsteigergeräten.

Achja und die Kameraapp hat mir dann gesagt meine Katze wäre ein Hund.

Wie jetzt Drittanbieter die NPU nutzen könnten darüber gab es damals nur Schweigen. Angeblich soll das eine proprietäre Schnittstelle mit der nächsten Android Version 1 Jahr später kommen.

Mittlerweile ist selbst mein nächstes Smartphone schon 4 Jahre alt und von der Nutzung der NPU immer noch keine Spur obwohl mittlerweile so gut wie jedes Handy eine verbaut hat.

Und so etwas Ähnliches erwarte ich mir von "Windows 12" genauso. Teams wird vielleicht mit virtuellem Hintergrund etwas weniger Akku verbrauchen und es gibt vielleicht wieder eine kleine Cortana Suche für Windows Einstellungen und die typischen MS Marketingfloskeln und das war es dann.

Einmal abgesehen davon: Microsoft versucht seit 10 Jahren krampfhaft aus allem eine Cloudanwendungen zu machen. Warum sollten sie bei Copilot genau das Gegenteil machen?

Altehardware

2024-04-10, 03:13:25

Die 24h2 Neuerungen sind folgende
copilot in Eu vermutlich nur Eingeschränkt das hat gründe
Es werden Systemeinstellungen im Bezug zur Hilfe per copilot aufrufbar sein Bildbearbeitung partiell möglich sein und die websuche per sprach Aufruf sein.
quase cortana aktualisiert
Das läuft aber nur online eine offline version soll noch kommen bedingt aber ne npu das neueste wird eine Funktion zur Wiederaufrufen von alten Tätigkeiten am pc also das was man vor paar tagen getan hat am pc als zeitleiste
Das klingt nicht nur unheimlich es ist also faktisch ne Überwachung Funktion. Da dieses feature direkt mit dem Ms account sync ist also online.
Dazu will man mehr mobil Geräte mit MS account verbinden bietet dafür native android Steuerungen an und kann einfacher Sachen synchronisieren
Das interessanteste ist aber der qr code Leser per windows Foto app.
Der Rest der Neuerungen sind Aktualisierungen für hardware wie bluetooth standard und aktualisierte audio Steuerung
Das funktioniert aber nur mit den standard audio von hdmi und realtek audio.
Am ende interessiert vom 24h2 nur die in explorer intrigierte zip 7zip tar Archiv packer winrar soll folgen.
Das ist aber nur ein auspacken ohne Passwort vermutl lossy
Win 12 wurde gecancelt bei dem geringen umfang kein wunder.

nordic_pegasus

2024-04-13, 19:10:03

MLID hält jetzt sogar einen Launch von GB202 und GB203 Ende Q3/24 für möglich.

https://s20.directupload.net/images/240413/8mm9txrq.jpg (https://www.directupload.eu)

qwyOWGHZf0o

TheCounter

2024-04-13, 19:18:11

Fein, ab +50% Leistung zur 4090 wird umgehandelt.

Bei +50% Rohleistung würde ich auch überlegen :D

Allerdings frage ich mich, wieso NVIDIA überhaupt recht viel Leistung drauflegen sollte, wenn AMD eh nicht mehr oben mit mischt.

Bin jedenfalls sehr gespannt auf die Consumer Blackwell.

1ch0

2024-04-13, 19:38:14

Allerdings frage ich mich, wieso NVIDIA überhaupt recht viel Leistung drauflegen sollte, wenn AMD eh nicht mehr oben mit mischt.

Darum:

GPT hat mal eine Antwort für mich verfasst, welche genau das wiedergibt was ich sagen will, aber nicht so gut kann. ^^

1. Technologischer Fortschritt: Unternehmen wie Nvidia werden von Innovation und dem Wunsch angetrieben, die Grenzen der Technologie zu erweitern. Sie zielen darauf ab, ihre Produkte zu verbessern, nicht nur um mit anderen Unternehmen zu konkurrieren, sondern auch um die Technologie selbst voranzutreiben. Dies ist oft unabhängig davon, was ihre Wettbewerber tun.

2. Kundenerwartungen: Verbraucher erwarten im Allgemeinen, dass jedes neue Produkt besser ist als das letzte. Wenn Nvidia eine neue Serie herausbringen würde, die keine signifikanten Verbesserungen gegenüber der vorherigen bietet, könnte dies ihre Kunden enttäuschen und ihren Ruf schädigen.

3. Zukunftssicherheit: Die Technologie entwickelt sich rasch weiter, und die heutigen High-End-Grafikkarten können möglicherweise nicht mit den anspruchsvollen Anwendungen und Spielen von morgen umgehen. Durch die kontinuierliche Verbesserung ihrer GPUs stellt Nvidia sicher, dass ihre Produkte für zukünftige Bedürfnisse relevant bleiben.

4. Marktsegmentierung: Nicht alle Verbraucher benötigen die höchste Leistung, aber für diejenigen, die dies tun - wie Gamer, Datenwissenschaftler oder 3D-Künstler - ist es wichtig, eine Top-of-the-Line-Option zu haben. Auch wenn AMD nicht in der Lage ist, im High-End-Bereich zu konkurrieren, muss Nvidia trotzdem auf dieses Segment ihrer Kundenbasis eingehen.

5. Wettbewerb ist nicht nur AMD: Während AMD ein bedeutender Wettbewerber ist, sind sie nicht der einzige. Es gibt andere Akteure auf dem Markt, wie Intel, und potenzielle zukünftige Wettbewerber zu berücksichtigen. Nvidia muss nicht nur der heutigen Konkurrenz, sondern auch der von morgen voraus sein.

Denken Sie daran, das Ziel eines Unternehmens wie Nvidia ist es nicht nur, mit anderen zu konkurrieren, sondern auch die bestmöglichen Produkte für ihre Kunden zu liefern und die Innovation in ihrem Bereich voranzutreiben.

Platos

2024-04-13, 19:44:37

Es gibt einen Unterschied zwischen Top-Dog und generell besserem P/L. Wenn der Konkurrent wenig liefert, wird man kein signifikant besseres P/L finden. Siehe Lovelace.

Gouvernator

2024-04-13, 19:45:48

Sollen denn in einem 15W Notebook dann auch 700GB HBM verbaut werden denn so viel braucht man aktuell für GPT 3.5

Es sollten zuerst einmal brauchbare KI Anwendungen auf den Markt kommen. Dann werden die Hardwarehersteller auch beginnen Hardwarebeschleunigung für diese anzubieten. Aktuell ist clientseitige KI nur eine riesige Marketingblase.

Das Ganze hatten wir schon vor fast 7 Jahren. Damals hat Huawei das Mate 10 mit ihrer neuen NPU auf den Markt gebracht. Dann hat man mit Microsoft zusammengearbeitet, um die NPU in ihrem Übersetzer zu nutzen und hat stolz präsentiert wie das Handy nun Text auf gemachten Fotos offline übersetzen konnte.
Zu der Zeit konnte die Google Übersetzer App das Ganze schon in Echtzeit. Auch offline aber ganz ohne NPU auf 3 Jahre alten Einsteigergeräten.

Achja und die Kameraapp hat mir dann gesagt meine Katze wäre ein Hund.

Wie jetzt Drittanbieter die NPU nutzen könnten darüber gab es damals nur Schweigen. Angeblich soll das eine proprietäre Schnittstelle mit der nächsten Android Version 1 Jahr später kommen.

Mittlerweile ist selbst mein nächstes Smartphone schon 4 Jahre alt und von der Nutzung der NPU immer noch keine Spur obwohl mittlerweile so gut wie jedes Handy eine verbaut hat.
Spätestens wenn man potenziell beliebiges Familienfoto in ein Pornomovie umwandeln kann, wird vermutlich jeder so eine NPU haben wollen. Also bitte nicht kleinreden, was schon das Internet groß gemacht hat.

ChaosTM

2024-04-13, 19:47:37

Lool.
Werde meine Forum Antworten auch auf Chat GPT umstellen.
Sollte die "Ban-Wahrscheinlichkeit" reduzieren

1ch0

2024-04-13, 19:50:40

Lool.
Werde meine Forum Antworten auch auf Chat GPT umstellen.
Sollte die "Ban-Wahrscheinlichkeit" reduzieren

Do it. ^^ Ich nutze das oft. ^^

Schreib nen Text und sag GPT dass es improved werden soll, aber dein Schreibstil bestehen bleiben soll. Dann setzt er das clever um.

ChaosTM

2024-04-13, 20:27:07

Keine schlechte Idee.
Das Chat-GPT System auf "sinnarmes zumüllen" stellen und ich kann spielen, ohne mich um das Forum kümmern zu müssen.

Danke!

Zossel

2024-04-13, 22:18:43

Darum:

GPT hat mal eine Antwort für mich verfasst, welche genau das wiedergibt was ich sagen will, aber nicht so gut kann. ^^

Oh, das Zeug wird mit Werbung trainiert. dann sollte man das wohl besser als künstliche Werbung anstatt künstliche Intelligenz bezeichnen.

Passend dazu: https://mailman.nanog.org/pipermail/nanog/2024-April/225407.html

Leonidas

2024-04-14, 04:43:42

GPT hat mal eine Antwort für mich verfasst, welche genau das wiedergibt was ich sagen will, aber nicht so gut kann. ^^

1. Technologischer Fortschritt: Unternehmen wie Nvidia werden von Innovation und dem Wunsch angetrieben, die Grenzen der Technologie zu erweitern. Sie zielen darauf ab, ihre Produkte zu verbessern, nicht nur um mit anderen Unternehmen zu konkurrieren, sondern auch um die Technologie selbst voranzutreiben. Dies ist oft unabhängig davon, was ihre Wettbewerber tun.

2. Kundenerwartungen: Verbraucher erwarten im Allgemeinen, dass jedes neue Produkt besser ist als das letzte. Wenn Nvidia eine neue Serie herausbringen würde, die keine signifikanten Verbesserungen gegenüber der vorherigen bietet, könnte dies ihre Kunden enttäuschen und ihren Ruf schädigen.

3. Zukunftssicherheit: Die Technologie entwickelt sich rasch weiter, und die heutigen High-End-Grafikkarten können möglicherweise nicht mit den anspruchsvollen Anwendungen und Spielen von morgen umgehen. Durch die kontinuierliche Verbesserung ihrer GPUs stellt Nvidia sicher, dass ihre Produkte für zukünftige Bedürfnisse relevant bleiben.

4. Marktsegmentierung: Nicht alle Verbraucher benötigen die höchste Leistung, aber für diejenigen, die dies tun - wie Gamer, Datenwissenschaftler oder 3D-Künstler - ist es wichtig, eine Top-of-the-Line-Option zu haben. Auch wenn AMD nicht in der Lage ist, im High-End-Bereich zu konkurrieren, muss Nvidia trotzdem auf dieses Segment ihrer Kundenbasis eingehen.

5. Wettbewerb ist nicht nur AMD: Während AMD ein bedeutender Wettbewerber ist, sind sie nicht der einzige. Es gibt andere Akteure auf dem Markt, wie Intel, und potenzielle zukünftige Wettbewerber zu berücksichtigen. Nvidia muss nicht nur der heutigen Konkurrenz, sondern auch der von morgen voraus sein.

Eigentlich zeigt es perfekt die Schwächen von LLM auf: Kein Verständnis der Materie, daher simples Wiederholen der am häufigsten existierenden Antworten, anstatt die sinnigsten Antworten zu finden. Quantität vor Qualität somit. Somit kommt ein nett zu lesender, aber inhaltlich multiple angreifbarer Text heraus:

1. Irrelevant gegenüber harter geschäftlicher Entscheidungen. Faktischer Kinderglaube.

2. Nominell korrekt, aber extrem oberflächlich. Es gibt hier kein 0/1, sondern einen fliessenden Übergang zwischen marginale Verbesserung und große Verbesserung. Die Frage ist eher, wo man sich in diesen Graubereich hineinlegt. Das hat die Antwort nicht einmal gestreift. Zudem zu "Rufschädigung": Wiederum Kinderglaube. Sowas bügelt man über Marketing wieder weg, hat zudem als unumstrittener Marktführer mit der riesigen Anhängerschaft kaum eine Relevanz.

3. Sagt ja nur was aus über die technologische Weiterentwicklung. Die kann man trotzdem betreiben, auch wenn es insgesamt nicht wesentlich schneller wird. Somit am Thema vorbei.

4. Eine HighEnd-Option zu haben sagt nix darüber aus, ob sie wesentlich schneller ist. Am Thema vorbei.

5. Weitgehend falsch. Es gibt nur AMD und Intel und beide kommen nicht vom Fleck. Seiteneinsteiger gibt es nicht, das würde zu viel kosten und ist aufgrund der Patentsituation kaum denkbar. China liefert nur für sich selbst.

dildo4u

2024-04-14, 04:50:04

Darum:

GPT hat mal eine Antwort für mich verfasst, welche genau das wiedergibt was ich sagen will, aber nicht so gut kann. ^^

1. Technologischer Fortschritt: Unternehmen wie Nvidia werden von Innovation und dem Wunsch angetrieben, die Grenzen der Technologie zu erweitern. Sie zielen darauf ab, ihre Produkte zu verbessern, nicht nur um mit anderen Unternehmen zu konkurrieren, sondern auch um die Technologie selbst voranzutreiben. Dies ist oft unabhängig davon, was ihre Wettbewerber tun.

2. Kundenerwartungen: Verbraucher erwarten im Allgemeinen, dass jedes neue Produkt besser ist als das letzte. Wenn Nvidia eine neue Serie herausbringen würde, die keine signifikanten Verbesserungen gegenüber der vorherigen bietet, könnte dies ihre Kunden enttäuschen und ihren Ruf schädigen.

3. Zukunftssicherheit: Die Technologie entwickelt sich rasch weiter, und die heutigen High-End-Grafikkarten können möglicherweise nicht mit den anspruchsvollen Anwendungen und Spielen von morgen umgehen. Durch die kontinuierliche Verbesserung ihrer GPUs stellt Nvidia sicher, dass ihre Produkte für zukünftige Bedürfnisse relevant bleiben.

4. Marktsegmentierung: Nicht alle Verbraucher benötigen die höchste Leistung, aber für diejenigen, die dies tun - wie Gamer, Datenwissenschaftler oder 3D-Künstler - ist es wichtig, eine Top-of-the-Line-Option zu haben. Auch wenn AMD nicht in der Lage ist, im High-End-Bereich zu konkurrieren, muss Nvidia trotzdem auf dieses Segment ihrer Kundenbasis eingehen.

5. Wettbewerb ist nicht nur AMD: Während AMD ein bedeutender Wettbewerber ist, sind sie nicht der einzige. Es gibt andere Akteure auf dem Markt, wie Intel, und potenzielle zukünftige Wettbewerber zu berücksichtigen. Nvidia muss nicht nur der heutigen Konkurrenz, sondern auch der von morgen voraus sein.

Denken Sie daran, das Ziel eines Unternehmens wie Nvidia ist es nicht nur, mit anderen zu konkurrieren, sondern auch die bestmöglichen Produkte für ihre Kunden zu liefern und die Innovation in ihrem Bereich voranzutreiben.

Physik setzt die Limits Die Leistung wird nicht massiv steigen die Adapter schmelzen immer noch und Blackwell nutzt immer noch 4nm.

https://videocardz.com/newz/repair-shop-continues-to-replace-200-rtx-4090-power-connectors-each-month

Im Server Bereich kann man höher gehen da alles Schweine teuer ist und dort in Kühlung und Stromversorgung investiert wird wenn die Karte 30k kostet.

B100 geht bis 1200Watt.

https://i.ibb.co/DkHmGRC/Screenshot-2024-04-14-045523.png (https://ibb.co/Gk4Gs52)

Zossel

2024-04-14, 08:03:12

B100 geht bis 1200Watt.

https://i.ibb.co/DkHmGRC/Screenshot-2024-04-14-045523.png (https://ibb.co/Gk4Gs52)

Ist das kopieren irgendwelcher technischer Zahlendaten eine signifikant intelligentere Leistung als das was künstliche Werbung im allgemeinen so vermag?

horn 12

2024-04-14, 09:15:43

@Altehardware

Dies wäre aber ein Desaster wenn Blackwell als 5090 und 5080
wirklich nur 10 bis 20% schneller würde als Ada.

Zossel

2024-04-14, 09:22:22

@Altehardware

Dies wäre aber ein Desaster wenn Blackwell als 5090 und 5080
wirklich nur 10 bis 20% schneller würde als Ada.

Von Intel lernen heißt siegen lernen.

basix

2024-04-14, 09:34:54

Von Intel lernen heißt siegen lernen.

Naja, langfristig siegt Intel damit nun nicht mehr ;)

Ich vermute, dass die 5080 etwas über einer 4090 landen wird. Wie viel? Vermutlich nicht viel. Und die 5090 ist ein bisschen eine Wundertüte. Kann 1.4x oder 1.7x sein. Je nachdem, was Nvidia erreichen will.

Edit:
Interessant wird es mMn was unten rum noch passiert. Ich vermute, diesmal wird die 5070 Ti mit B203 kommen und nicht B205.
-> AD103 zu AD104 waren nur 1.25x mehr SM
-> B203 zu B205 sind doch 1.5x mehr SM

Mögliche SKUs:
- 5080 = 92 SM
- 5070 Ti = 76-80 SM -> B203
- 5070 = 60-64 SM -> B205

Wenn RDNA4 stark wird, werden sie die 5070 eher etwas pushen (SM, GPU & Speicher-Takt, TDP), damit sie oberhalb liegen.

horn 12

2024-04-14, 09:45:16

Ja, knapp an eine 4090 sollte die 5080 sicherlich kommen (müssen)
knapp darunter, oder knapp darüber macht den Jensen auch nicht mehr fett,-
aber eben wohl mit nur 18 GB Ram.
Die 5090 sollte wohl mind. 25 bis 35% schneller werden, mehr denke ich wird es wirklich nicht werden.

basix

2024-04-14, 09:49:11

Naja, nur 1.3x mehr Performance bei doppelt so viel Silizium? Wäre ein wenig Perlen vor die Säue. Sowas würde ich für eine (später erscheinende) 5080 Ti sehen, welche dann auch nur 20 GB hätte.

Viele werden ihre 4090 zudem nicht austauschen, wenn der Performance Sprung so niedrig sein sollte. So 1.5x ist bei den meisten die psychologische Schwelle, wo man es sich zu überlegen beginnt. Und genau diese Kunden muss Nvidia bedienen / anlocken, wenn sie die 5090 loswerden wollen.

mapel110

2024-04-14, 09:51:01

High End User kaufen alles. Ach die guten alten tombman-Zeiten....
Wenn die Löhne steigen würden, könnte man sich das auch leisten.

basix

2024-04-14, 10:00:59

Nö, kaufen sie nicht. Nicht wenn die GPUs 2000 Euro kosten ;)

The_Invisible

2024-04-14, 10:13:25

Ich upgrade auch nur ab 50%, außer es kommt dlss4 oder massiv bessere RT performance

woodsdog

2024-04-14, 10:13:48

Wenn ich mir die Hobbys meiner Arbeitskollegen und Freunde so anschaue, sind die praktisch ALLE teurer als alle 2 Jahre ne Grafikkarte für 2-3k zu kaufen... was sind denn bitte 100-150 Flocken im Monat für die Freizeitgestaltung...? Gar nix!

Das Geld ist absolut da in der Käuferschicht "Gamer Dad" 30-50 die mit Nintendo und 2D aufgewachsen sind.

Sardaukar.nsn

2024-04-14, 10:21:09

Wenn ich mir die Hobbys meiner Arbeitskollegen und Freunde so anschaue, sind die praktisch ALLE teurer als alle 2 Jahre ne Grafikkarte für 2-3k zu kaufen... was sind denn bitte 100-150 Flocken im Monat für die Freizeitgestaltung...?

Soviel ist das nicht, die 4090 wird ja nicht wertlos. Aktuelle Preise... https://www.ebay.de/sch/i.html?_fsrp=1&rt=nc&_from=R40&_nkw=rtx+4090&_sacat=0&LH_ItemCondition=3000&LH_Sold=1

Beim Umhandeln wäre das vielleicht 400-500€ Wertverlust bei 24 Monaten Nutzungsdauer.
Aber wie die anderen hier auch sagen +50% müsste für den Nachfolger schon drin sein.

Zossel

2024-04-14, 11:00:36

Sardaukar.nsn

2024-04-14, 11:17:58

Das Meiste waren aber scheinbar Anwender Fehler beim Zusammenbau. Denke mal das Blackwell den gleichen Stecker bekommt.

The_Invisible

2024-04-14, 11:39:17

Mit einem Stromstecker den man nur ein paar mal umstecken darf ist das doch verderbliche Ware.

Wie oft steckt man so eine GPU um :freak:

Kann dir jetzt schon sagen das ich meine sicher um einen guten Preis wegbekomme, genauso wie die Vorgänger...

Platos

2024-04-14, 11:44:31

Ein Produkt sollte trotzdem mehr wie 2 Dutzend aushalten.

The_Invisible

2024-04-14, 12:00:46

Frag mal die Hardwareredaktionen wie viele 4090er da eingegangen sind anstatt zu spekulieren...

Gouvernator

2024-04-14, 12:14:03

High End User kaufen alles. Ach die guten alten tombman-Zeiten....
Wenn die Löhne steigen würden, könnte man sich das auch leisten.
Wenn das Gerücht stimmt mit 32Gb VRAM, dann kann man auch Blackwell liegen lassen. Die Highend Leistung ist mit VRAM Ausstattung nicht mehr proportional. Ich denke es wird eine Titan mit 64 VRAM ~5000€ etwas später nachgeschoben.

Wenn AMD nicht dumm ist, könnten sie ihr Top RDNA4 Chip mit 24Gb\200W\600€ dem erfolgreich entgegensetzen. Denn heutiges Problem sind eher Top-GPUs mit 24Gb die um die 500W ziehen. Eine genügsame GPU mit 24Gb ist besser als ein fettes Blackwell mit 32Gb. Der Unterschied zwischen denen ist 8K30\8K60.

Redneck

2024-04-14, 12:31:32

Wenn AMD nicht dumm ist, könnten sie ihr Top RDNA4 Chip mit 24Gb\200W\600€ dem erfolgreich entgegensetzen. Denn heutiges Problem sind eher Top-GPUs mit 24Gb die um die 500W ziehen. Eine genügsame GPU mit 24Gb ist besser als ein fettes Blackwell mit 32Gb. Der Unterschied zwischen denen ist 8K30\8K60.

8K30 mit ner RDNA4 ? Hab ich etwas verpaßt ?
N48 soll doch max auf 7900XT Level liegen im Raster... damit schaffst du vielleicht 4k/30...
Denke auch, das es eher auf das subjektive requirement ankommt.. ich persönlich stehe nicht auf große Zahlen im Ram Bereich, wenn die Grundperformance nicht stimmt. Das ist für mich oftmals ein Zeichen, das man die zugrundeliegende Performance mit anderen grösseren Kennzahlen versucht dem Kunden schmackhaft zu machen.... das ist dann aus der Not heraus gemachtes Marketing.

woodsdog

2024-04-14, 13:01:18

Soviel ist das nicht, die 4090 wird ja nicht wertlos. Aktuelle Preise... https://www.ebay.de/sch/i.html?_fsrp=1&rt=nc&_from=R40&_nkw=rtx+4090&_sacat=0&LH_ItemCondition=3000&LH_Sold=1

Beim Umhandeln wäre das vielleicht 400-500€ Wertverlust bei 24 Monaten Nutzungsdauer.
Aber wie die anderen hier auch sagen +50% müsste für den Nachfolger schon drin sein.

Die Kernaussage war: ob die nun 2 oder 3 tausend kostet ist für Erwachsene fast egal, Wiederverkauf spielt natürlich mit rein aber ist zumindest für mich selten ein Punkt. Eher geht es in der Verwandschaft für einen schmalen Taler weiter.

der Wertverlust ist darüber hinaus zu gering wie ich meine, du musst ja schauen was der Kram noch Wert ist wenn der Nachfolger schon da ist... Halbes Jahr vorher verkaufen ergibt ja nur bedingt Sinn wenn man sie nutzen möchte ;)

3090 findest du bei Kleinanzeigen für 650-700 EUR also grob 50% vom damaligen Preis. Liegt irgendwo zwischen 4070 und 4070ti pre-Super. Hat zwar 24GB ggü Ada aber kein FG. so... preis irgendwas 700 durchaus gerechtfertigt.

Leonidas

2024-04-14, 13:14:52

Wenn das Gerücht stimmt mit 32Gb VRAM

Das Gerücht existiert nicht. Da hat jemand nur das 512-Bit-Interface gesehen und hochgerechnet. Ohne zu bedenken, dass NV das große Interface im Gaming-Bereich eventuell bewusst nicht ausfährt (oder nur bei einer Titan). Für Gaming reicht 384-Bit und vor allem die 24 GB. Größeres Interface kostet NV sinnlos an Speicher, das bekommen die Pfennigfuchser nicht übers Herz. 512-Bit wird es wohl nur für Quadro geben (und wie gesagt Titan, falls eine solche erscheint).

mapel110

2024-04-14, 13:19:18

Das breitere Interface selbst war doch früher immer der Kostentreiber und nicht der zusätzliche Speicher. Hat sich das mittlerweile geändert?!

reaperrr

2024-04-14, 13:53:32

Das breitere Interface selbst war doch früher immer der Kostentreiber und nicht der zusätzliche Speicher. Hat sich das mittlerweile geändert?!
Wer hat das mit den Interfaces behauptet?

Nur weil speziell Nvidia hier (bei Gaming-Karten) gerne spart, um noch ein paar Extra-Taler an Marge zu generieren (und die Karten schneller veralten zu lassen...), heißt das nicht automatisch, dass die Interfaces ein großer Kostenfaktor sind, bzw. spielt die Menge an benötigten Speicherchips dabei sehr wohl eine Rolle.

Bei Hawaii war das 512bit SI insgesamt 110mm², also nur ca. 27,5mm² je 128bit. Die Interfaces von Nvidia sind tendenziell eher noch kleiner, und N5 hat hier nochmal kleine Verbesserungen gebracht, was Interface-Packdichte angeht.

Probleme bei breiten SIs sind eher der Stromverbrauch (dass Hawaii in Form der 390X mehr Saft zieht als Fiji XT kommt nicht von ungefähr und liegt NICHT an der Architektur an sich, sonst hätte Tonga, der ja auch GCN3 ist, bei Perf/W besser gegen Pitcairn und Tahiti abschneiden müssen) und die Herausforderung, mehr als 12 VRAM-Chips vom Layout her um den Chip herum auf dem PCB zu platzieren.

Der IF$ bei RDNA2/3 und der dicke L2 bei Ada dienen hauptsächlich dazu, Strom zu sparen, Performance zu gewinnen (Cache-Zugriffe sind halt viel sparsamer UND schneller als VRAM-Zugriffe) und nicht wesentlich mehr Speicher verbauen zu müssen, als Spiele in gängigen Auflösungen derzeit benötigen.

Bin aber generell bei Leonidas, angesichts von GDDR7 mit mindestens 28 Gbps (für die 5090 aber wohl eher 32 Gbps) und vmtl. 96MB aktivem L2-Cache sehe ich nicht, warum GB202 für Spiele mehr als 384bit/24GB brauchen sollte.
Die vollen 512bit/32GB wird NV - abgesehen von Quadros - eher für ne Titan oder 5090 Ti (als Konter wenn RDNA5 rauskommt) aufsparen.

BlacKi

2024-04-14, 14:00:24

also für eine titan, überhalb der 5090, sehe ich keinen bedarf. vl mit rdna5. aber dann wohl mit hbm und relativ kurz vor bw next.

basix

2024-04-14, 20:23:25

also für eine titan, überhalb der 5090, sehe ich keinen bedarf.

Für Gamer: Nein.

Damit Nvidia mehr Prosumer & ML/AI Kunden mitnehmen kann: Evtl. schon.

Eine ausgewachsene Quadro ist für die meisten "Gelegenheits-Prosumer" zu teuer. Eine Titan mit 32 GByte würde sich von den 24GB der 5090 absetzen, die 64GB der Quadros nicht gefährden und gleichzeitig kann man 3k$ anstatt 2k$ verlangen. Gibt sicher den ein oder anderen Kunden für sowas ;) Und da es eine Titan ist, landet auch gleich alles Geld bei Nvidia und nicht den Boardpartnern als Zwischenschicht.

beats

2024-04-14, 21:08:51

Nö, kaufen sie nicht. Nicht wenn die GPUs 2000 Euro kosten ;)

Wenn Jensen sagt die 5090 ist 50% schneller als die 4090 dann sind meine 2k seine 2k.

Sardaukar.nsn

2024-04-14, 21:22:45

Eigentlich warte ich ja noch auf ein "2-4x faster" :)

basix

2024-04-14, 21:58:58

Wenn Jensen sagt die 5090 ist 50% schneller als die 4090 dann sind meine 2k seine 2k.

Meine Aussage war auf die +25...35% bezogen, die da im Gespräch waren. Das würden nur wenige machen. Bei +50% sieht es schon etwas anders aus. Da beginne ich auch zu überlegen. Aber erst bei +70% oder mehr wäre es bei mir mehr oder minder sicher, dass ich mir das Upgrade gönne.

Bei 980 Ti -> 1080 Ti hatte ich lange überlegt. Performance-Steigerung war da, aber auch der Preis ist gut gestiegen. Schlussendlich habe ich seitdem jeweils eine Generation ausgelassen: 980 Ti -> 2080 Ti -> 4090. Könnte bei der 5090 wieder passieren.

Slipknot79

2024-04-14, 23:34:02

Bei +50% tut sich bei mir immer noch nix in der Hose, 40 vs 60fps gähn wie aufregend. :rolleyes:
+100% und gut (y) sonst gibts keine Kohlen von mir.

PHuV

2024-04-15, 00:27:01

5. Weitgehend falsch. Es gibt nur AMD und Intel und beide kommen nicht vom Fleck. Seiteneinsteiger gibt es nicht, das würde zu viel kosten und ist aufgrund der Patentsituation kaum denkbar. China liefert nur für sich selbst.
Nur bezogen auf den PC-Markt? Oder auch andere?
Was ist mit Apple, Qualcomm? Oder Google mit deren TPUs?

Wuge

2024-04-15, 09:16:05

Bei +25% mach ich auch nix, alleine wieder Wakü Umbau... nene...
Dann solln se halt Quadros mit voller Gamingunterstützung bringen oder gleich die Titan zum Start.

Exxtreme

2024-04-15, 09:23:10

Also ich rüste auf wenn die alte Kiste zu langsam geworden ist. Deshalb bin ich von einer RX 5700XT auf die 4090. ;D Das ist ca. Faktor 5 an Mehrleistung. ;D Von daher werde ich Blackwell wohl überspringen.

rentex

2024-04-15, 09:28:17

Cubitus

2024-04-15, 10:07:54

Nvidia muss wieder irgend einen Ki shice aus dem Hut zaubern um den verwöhnten 4090 Besitzer hinter dem Ofen hervorzulocken.

30 Prozent Mehrleistung allein reicht nicht.
Dafür kann die 4090 ja nun Framegeneration.
Und 24 GB sind ja nun auch nicht so wenig.

Preislich würde ich mal 2500 bis 3000 Dollar MRSP in den Ring werfen. Dafür müsste aber dann mindestens ein Plus von 50 Prozent rauskommen. Ich sehe gerade vor meinem inneren Auge Preise ab 2799 Euro, bei 30-40 Prozent avg Mehrleistung im Winter 24..

Es wird die Strixxen und Suprims und Gämör Deluxe Karten dann mit der 3 davor geben. 3150 Euro für ne heulende Strixx, werdet sehen xD

Es wird dann wieder elendes GPU Bingo, mit dem ganzen Zirkus, Bots, Scalpern, gierigen Shops und falsche Lieferversprechungen geben. Dazu noch iwelche nervigen YT Dullies welche eine nicht verfügbare FE in den Himmel quatschen. Boah wenn ich daran denke, habe ich jetzt schon keinen Bock auf diesen ganzen Shice..

Falls es zur Kaufentscheidung meinerseits kommt, werde ich einfach die günstigste Jiki-Jaki Karte am Markt kaufen.. alles andere lohnt eh nicht mehr.

Hatstick

2024-04-15, 10:19:34

Leonidas

2024-04-15, 11:07:17

Nur bezogen auf den PC-Markt? Oder auch andere?
Was ist mit Apple, Qualcomm? Oder Google mit deren TPUs?

Da es in der ursprünglichen Aussage rein um Gaming-Grafikkarten ging, spielen Apple, Qualcomm und Google dabei nicht mit. HPC/KI-Zeugs fällt hier automatisch raus, Apple bedient nur seinen eigenen Markt.

basix

2024-04-15, 13:46:56

Ich denke, nVidia möchte auch gerne seine RTX 5090 und 5080 verkaufen.
Insofern wird es da auch garantiert ein spürbares Leistungsplus geben und on the Top irgendwelche Exklusivfeatures- Da wird denen schon was einfallen. :biggrin::wink:

Mir kommen da schon ein paar Sachen in den Sinn:
- FG mit 3x / 4x anstatt 2x
- FG Framerate Boost generell höher als bei Ada, so im Bereich von FSR3 FG (Blackwell = neuer OFA, INT4 Inferencing)
- FG mit Extrapolation anstatt Interpolation (niedrigere Latenz)
- DLSS Qualitäts-Upgrade und Anpassungen der Presets (z.B. neues Quality = alte Balanced Auflösung)
- Neues "Ray Reconstruction", wo man RT ausserhalb der DLSS Presets zusätzlich beschleunigen kann
- DLSS Berechnungen in grossen Teilen von Vektor-Operationen auf Matrizen-Operationen wechseln (Speedup von DLSS generell)
- Nvidia "Postprocessing Effects", welche die Tensor Cores benutzen (via DX12 WMMA Erweiterung) und von Spiele-Entwicklern in ihr Spiel eingebaut werden können. Damit wird DLSS schneller, da das Postprocessing in voller Output-Auflösung gefahren wird, was den DLSS-Speedup begrenzt.

Unter dem Strich kann sich da einiges Aufsummieren, wenn man dann wie Nvidia einfach alles zusammenrechnet ;) Ich bin relativ stark überzeugt, dass solche "Exklusivfeatures" wie die es nennst unter dem DLSS-Umbrella laufen werden und so oft wie möglich die Tensor Cores verwenden werden. Im naheliegensten Fall sind es Updates der bestehenden DLSS, FG und RR Features. Mit FP8 & INT4 hat Blackwell deutlich höhere Inferencing-Performance. Keine Ahnung, ob z.B. FP8 sowie Sparsity bei DLSS 3 verwendet werden. Mit einem entsprechenden Umbau / Update würde DLSS schneller werden. Und da evtl. von FP16 -> FP8 oder INT8 -> INT4 reduziert sowie Sparsity oben drauf, kann man ein viermal so schweres DNN (Anzahl Parameter) mit der gleichen Laufzeit ausführen. Komplexeres DNN = Besseres DLSS. Zusätzlich Matrix Operationen benutzen (ausserhalb des DNN) = Höhere Qualität und allenfalls kürzere Ausführungszeiten.

Exxtreme

2024-04-15, 14:44:37

30 Prozent Mehrleistung allein reicht nicht.

Ich glaube nicht, dass man im Rastersizing viel mehr als 30% sehen wird. Denn mal ehrlich, UHD ist derzeit das Ende der Fahnenstange. Und UHD-Monitor-Besitzer sind eine kleine Nische. Und hier reicht auch schon die RTX 4090 dicke solange das Spiel nicht im CPU-Limit hängt oder extrem viel RT benutzt.

Ich erwarte deshalb auch viel mehr Push in Sachen RT bzw. irgendwelche neuen AI-Halluzinationen, die RT approximieren.

Tesseract

2024-04-15, 15:56:11

Und UHD-Monitor-Besitzer sind eine kleine Nische.

unter 4090-käufern wahrscheinlich eher die mehrheit.

PHuV

2024-04-15, 16:42:11

Denn mal ehrlich, UHD ist derzeit das Ende der Fahnenstange. Und UHD-Monitor-Besitzer sind eine kleine Nische.
Das war FullHD und mehr auch mal. Das wird sich noch die nächsten Jahre ändern.
Bei aktuellen Steam Survey findest Du bei Mulitmonitor Betrieb
https://store.steampowered.com/hwsurvey/Steam-Hardware-Software-Survey-Welcome-to-Steam

3840 x 1080 58.26% -0.46%
4480 x 1440 23.36% -0.24%

Apple bedient nur seinen eigenen Markt.
Ja, aber die haben mal so "nebenbei" eine GPU in die Mx-Generation gebaut, die man relativ einfach in der Leistung skalieren kann, indem man die DIE verdoppelt in Anzahl der Kerne, Mx zu Mx Pro zu Mx Max.
https://www.macwelt.de/article/2121119/m3-chips-ubersicht.html
und entsprechend eine schöne Architektur aufbaut
M1
https://www.apple.com/de/newsroom/2021/10/introducing-m1-pro-and-m1-max-the-most-powerful-chips-apple-has-ever-built/
M3
https://www.apple.com/de/newsroom/2023/10/apple-unveils-m3-m3-pro-and-m3-max-the-most-advanced-chips-for-a-personal-computer/

https://www.notebookcheck.com/Apple-M3-Max-40-Core-GPU-Grafikkarte-Benchmarks-und-Spezifikationen.765638.0.html
Das ist schon beeindruckend, wie eine Apple M3 Max 40-Core GPU gegen eine NVIDIA GeForce RTX 3080 Ti Laptop GPU
26251 mit 16% weniger Leistung zur M3 so mal stehen läßt.

RT, beschleunigtes Mesh Shading, dazu noch diverse Codec-Unterstützungen....
Ja, keine Intel-PC-Technik, aber trotzdem beeindruckend als GPU-Alternative, und besser, was Intel mit ARC geliefert hatte.

Und PC-Gaming ist zwar noch präsent, aber angesichts all der mobilen Geräte und Konsolen doch auch nur noch eine "Nische". Selbst VR braucht keine externe teure HW mehr (auch wenn es darüber noch etwas schicker aussieht).

Topic:
https://www.gamestar.de/artikel/nvidia-rtx-5080-5090-reveal-2024,3411746.html
Wenn Nvidia-CEO Jensen Huang in wenigen Wochen auf der Computex auftritt, dann könnte er uns bereits die RTX 5090 und RTX 5080 zeigen. Das ist der Schluss, den einige Stimmen aus dem noch für dieses Jahr erwarteten Launch der Karten ziehen.

Darüber hinaus gibt uns ein Leak weitere Infos dazu, warum Nvidia wohl doch noch dieses Jahr mit RTX 5000 an den Start gehen möchte.
Oh je, das wird wieder ein Gerenne zum Releasetag...

Leonidas

2024-04-15, 18:06:24

Topic:
https://www.gamestar.de/artikel/nvidia-rtx-5080-5090-reveal-2024,3411746.html
Wenn Nvidia-CEO Jensen Huang in wenigen Wochen auf der Computex auftritt, dann könnte er uns bereits die RTX 5090 und RTX 5080 zeigen.

Kritik: Zuerst 3DC lesen:
https://www.3dcenter.org/news/news-des-1314-april-2024
Dann wäre klar gewesen, das Gamestar hier dem Unsinn von MLID aufgesessen sind.

TheAntitheist

2024-04-16, 08:36:29

Leonidas hat schon Recht.
Der Launch der Super Karten ist doch auch noch gar nicht so lange her, warum sollte Nvidia sich dann selbst das Geschäft zerstören. Wird wie immer erst Ende des Jahres angekündigt, vllt 1 Monat früher aber das wars

nordic_pegasus

2024-04-16, 09:26:23

Wuge

2024-04-16, 09:30:27

Ich glaube nicht, dass man im Rastersizing viel mehr als 30% sehen wird. Denn mal ehrlich, UHD ist derzeit das Ende der Fahnenstange. Und UHD-Monitor-Besitzer sind eine kleine Nische. Und hier reicht auch schon die RTX 4090 dicke solange das Spiel nicht im CPU-Limit hängt oder extrem viel RT benutzt.

Sad but true. Dann darf ich weiter mit 38-45 FPS VRen :freak:

HOT

2024-04-16, 09:51:49

Ich versteh nicht, wie Tom auf diesen Schwachsinn kommt... Leute, auf NVs offizieller Roadmap steht diese Generation für 25(!) vermerkt. Das wird genau so kommen. Wer sich da ernsthaft Hoffnungen macht wird sehr sicher enttäuscht werden.
Was NV auch immer launchen will dürfte allein mit KI zusammenhängen.

The_Invisible

2024-04-16, 09:58:13

wenn wirklich nur die 5080 und 5090 als erste Produkte kommen sollen, würde dies doch das vorhandene Portfolio nach oben ergänzen (Leistung und Preis). Darum sehe ich keine Kanibalisierung durch einen frühen Launch.

Oder vielleicht eine Titan Blackwell als erstes Produkt. Natürlich ausschließlich als Founders Edition, damit Lederjacke den Gewinn nochmals optimieren kann.

Weiß net, glaub nicht mehr an Titans, die haben immer durch Speicher geglänzt und hier würde man sich im KI Zeitalter selber kannibalisieren.
Sehe aber auch nicht das Problem, 24GB reichen noch immer dicke für den gemeinen Gamingmarkt, von AMD kommt auch nicht mehr. Warum eine Titan für 2-3k verschleudern wennst am Profimarkt auch >8k haben kannst

@Exxtreme
Du warst ja immer der, der Upsampling nicht abkann. Bei zb UE5 pfeift die 4090 ohne Upsampling aber schon aus dem letzten Loch. Aber ist ja üblich das bei NV immer tief gestapelt wird...

Exxtreme

2024-04-16, 10:19:18

Das war FullHD und mehr auch mal. Das wird sich noch die nächsten Jahre ändern.
Bei aktuellen Steam Survey findest Du bei Mulitmonitor Betrieb
https://store.steampowered.com/hwsurvey/Steam-Hardware-Software-Survey-Welcome-to-Steam

Ich bezweifle aber, dass man auf mehreren Monitoren gleichzeitig spielt. In aller Regel spielt man auf einem Monitor und schaut was anderes auf dem anderen. Sprich, interessant ist eher die Leistung, die man braucht um einen Monitor zu bedienen. Und UHD wird hier wohl für längere Zeit das Nonplusultra bleiben. Den meisten Leuten reicht ja bereits FHD und WQHD. Da tut sich schon seit Jahren kaum was. Ergo gehe ich davon aus, dass Nvidia die reine Rastersizing-Performance nicht mehr so stark priorisieren wird. Die werden wohl viel mehr Nvidia exklusives Spielzeug ala DLSS 4 bringen.

nordic_pegasus

2024-04-16, 10:43:31

Sehe aber auch nicht das Problem, 24GB reichen noch immer dicke für den gemeinen Gamingmarkt, von AMD kommt auch nicht mehr. Warum eine Titan für 2-3k verschleudern wennst am Profimarkt auch >8k haben kannst

wenn GB202 wirklich ein 2x GB203 ist und damit 2x256bit SI hätte, wären doch 512bit und 32GB VRAM genau richtig für eine Titan. Zu wenig für professionelles KI und zu viel für den normalen Spiele-Enthusiasten.

Wenn dann später eine 5090 mit 384bit/24GB und vielleicht eine 5090Ti mit 448bit/28GB SI käme, wäre das eine schlüssige Segmentierung.

Leonidas

2024-04-16, 11:26:31

wenn GB202 wirklich ein 2x GB203 ist und damit 2x256bit SI hätte, wären doch 512bit und 32GB VRAM genau richtig für eine Titan. Zu wenig für professionelles KI und zu viel für den normalen Spiele-Enthusiasten.
Wenn dann später eine 5090 mit 384bit/24GB und vielleicht eine 5090Ti mit 448bit/28GB SI käme, wäre das eine schlüssige Segmentierung.

Ich würde eher sagen: Zuerst 5090 mit 384bit/24GB.

Titan mit 512bit/32GB dann mit der Refresh-Generation, wo man genügend Chips hat und nicht mehr die besten Exemplare fürs Profi-Segment vorbehalten muß.

nordic_pegasus

2024-04-16, 11:37:24

der Ansatz von MLID ist im aktuellen Video, dass Nvidia auf MI350X reagieren "muss" und darum GB202 für die "RTX 6000 Blackwell" früher auf den Markt werfen will.

Vielleicht gehen dann die (nahezu) vollen GB202 Chips in A6000 Produkte (mit mutmaßlich 64GB VRAM) und Salvage GB202 gehen als 5090er an die Gamer mit 384bit SI. Dann bliebe in der Tat noch Luft für einen Refresh in Form einer 5090Ti oder Titan B. Oder auch kein Refresh, weil AMD keine Konkurrenz bringt im Gaming-Segment und kein Bedarf für einen Refresh besteht an der einsamen Spitze.

Leonidas

2024-04-16, 14:48:56

der Ansatz von MLID ist im aktuellen Video, dass Nvidia auf MI350X reagieren "muss" und darum GB202 für die "RTX 6000 Blackwell" früher auf den Markt werfen will.

Ist nur halt lächerlich. Erstens würde man dann rein die RTX6000 ankündigen, keine Gamer-Varianten. Zweitens lohnt auch diese Ankündigung nicht, wenn man nun überhaupt nicht früher liefern kann. Und drittens ist die MI350X eher HPC-Segment und nicht Quadro-Segment. Es gibt zwar eine Überschneidung, aber keine große. Lohnt überhaupt nicht, deswegen Harakiri zu machen.

reaperrr

2024-04-16, 16:12:45

Ist nur halt lächerlich. Erstens würde man dann rein die RTX6000 ankündigen, keine Gamer-Varianten. Zweitens lohnt auch diese Ankündigung nicht, wenn man nun überhaupt nicht früher liefern kann. Und drittens ist die MI350X eher HPC-Segment und nicht Quadro-Segment. Es gibt zwar eine Überschneidung, aber keine große. Lohnt überhaupt nicht, deswegen Harakiri zu machen.
Ja, diese Argumentation von MLID kann ich auch nicht nachvollziehen. Ziemlicher Äpfel-Birnen-Vergleich.

Wahrscheinlicher ist, dass die Chips halt rechtzeitig fertig sind und man angesichts der fehlenden Konkurrenz weiß, was für hohe Preise man nehmen kann und deshalb einfach schonmal Karten in homöopathischen Dosen zu hohen Preisen auf den Markt wirft, um auch RDNA4 architekturell gleich etwas den Wind aus den Segeln zu nehmen.

HOT

2024-04-16, 16:13:39

Seine extrem optimistischen NV-Prognosen zu B100 und R100 sind auch lächerlich. NV hat BW jetzt angekündigt, aber ich bin gespannt, wann das wirklich verfügbar ist. Gleiches gilt für R100. Und ich glaube, dass du recht hast. Man wird erst KI-Produkte (vielleicht auch Pro-Karten, aber nicht unbedingt) auf GB202 liefern, die Gamer sind zuletzt dran, die bekommen ja auch eh nur salvage, der erst mal in der Menge anfallen muss. Man darf sich da einfach nichts vormachen - im Stückpreis sind die Gamer der Bodensatz bei deren Produktlinien. Das kommt zwar, hat aber die geringste Priorität.

Und MI350 ist ja nur ein neuer Name für das gleiche Produkt. Sobald man genug 3e-Speicher aquiriert hat, kann man das liefern. Das steht in gar keiner Beziehung zu NV sondern bedeint nur Nachfrage, sonst nichts.

MLID hat oft gute Infos, aber Tom selbst ist sehr sehr schlecht im Interpretieren dieser Daten.

Hatstick

2024-04-16, 16:25:38

Dieses Jahr für die RTX 5080/5090 würde mich auch wundern, hat man doch keine Konkurrenz zu erwarten und die RDNA4 Karten bis auf 7900XT Niveau kontert man weiterhin mit den dann immer noch sehr effizienten RTX 4070Ti Super 16GB und der RTX 4080/4080 Super.

Leonidas

2024-04-16, 16:50:33

Wahrscheinlicher ist, dass die Chips halt rechtzeitig fertig sind und man angesichts der fehlenden Konkurrenz weiß, was für hohe Preise man nehmen kann und deshalb einfach schonmal Karten in homöopathischen Dosen zu hohen Preisen auf den Markt wirft, um auch RDNA4 architekturell gleich etwas den Wind aus den Segeln zu nehmen.

Generell unwahrscheinlich, dass Chips früherer fertiger werden. Das ganze erfolgt nach strengen Plänen, die wenn dann nur die Verschiebung kennen, nie die vorfristige Erfüllung.

Zudem spricht MLID ja nirgendwo von einer früheren Lieferung.

Ich gehe davon aus, dass die komplette Meldung Unsinn ist. MLID läßt sich hier wieder von seinen "Quellen" verladen. Aber so lange es angesehen wird, dürfte das auch MLID egal sein.

Dieses Jahr für die RTX 5080/5090 würde mich auch wundern,

Das ist aber nicht auf dem Mist von MLID gewachsen, sondern war vorher schon von deutlich qualitativeren Quellen so genannt wurden:
https://www.3dcenter.org/news/geruechtekueche-nvidias-geforce-rtx-5080-5090-kommen-wohl-noch-dieses-jahr

Ich finde es auch überraschend aus den von Dir genannten Gründen. Aber da beuge ich mich schlicht den "Fakten" (naja, noch sind es keine). Im Endeffekt ist es aber auch nicht ganz verwunderlich: Das ganze Ding wird vor Jahren angestossen, wo noch niemand die aktuellen Situation erahnen kann. Und danach wird Dampf zur Fertigungstellung gemacht. Spätestens ab Tape-Out steht ein fester Zeitplan und der wird dann durchgezogen, egal wie die Marktsituation an dessen Ende aussieht.

AffenJack

2024-04-16, 21:18:16

Ich finde es auch überraschend aus den von Dir genannten Gründen. Aber da beuge ich mich schlicht den "Fakten" (naja, noch sind es keine). Im Endeffekt ist es aber auch nicht ganz verwunderlich: Das ganze Ding wird vor Jahren angestossen, wo noch niemand die aktuellen Situation erahnen kann. Und danach wird Dampf zur Fertigungstellung gemacht. Spätestens ab Tape-Out steht ein fester Zeitplan und der wird dann durchgezogen, egal wie die Marktsituation an dessen Ende aussieht.

Genau so, deshalb ist es auch nicht überraschend. Nvidia verfolgt ihren Strikten 2 Jahresplan. Nvidias größte Konkurrenzt sind sowieso ihre eigenen Karten. Wieso sollte man Blackwell verzögern, um weniger zu verkaufen und dann evtl nur noch 9 Monate exklusiv Blackwell verkaufen zu können bevor RDNA5 kommt?

Der Blackwell Nachfolger wird eh für H2 2026 geplant sein. Außer man schiebt auf H1 26 wegen RDNA5, nicht unmöglich, da RDNA5 alleine durch 3nm vs 4nm ne sehr gute Ausgangsposition haben sollte und Nvidia sich gezwungen sehen könnte zu reagieren.

Sardaukar.nsn

2024-04-16, 21:35:17

@AffenJack: Den 2-Jahresplan mit Release Anfang Q4 können sie schon seit mehreren Generationen ziemlich gut einhalten. Auch in schwierigen Zeiten inkl. Pandemie. Zum jetzigen Zeitpunkt deutet kaum etwas auf Verzögerung hin. Im Gegenteil, an die großen Kühler hat man sich gewöhnt, die Stecker sind auch etabliert. Fehlt jetzt nur noch ein ordentlicher Perfomance Schub.

Leonidas

2024-04-17, 03:16:06

Der Konkurrent für nVidias Gaming-Grafikkarten kommt aus eigenem Haus - es ist die (viel höhere) Bedeutung der HPC/AI-Sparte. Dem gegenüber muß sich die GeForce-Sparte nun beweisen. Und daher dürfte man dort extra motiviert sein, alles korrekt, alles termingemäß, alles bestmöglich hinzubekommen. Man ist nun die deutlich kleinere Sparte, als diejenige, die das Unternehmen aufgebaut und lange getragen hat. Das dürfte wurmen - und gleichzeitig Motivation sein.

Hübie

2024-04-17, 17:23:21

Und es wird nie wieder anders sein. Der PC stirbt. Langsam, aber sicher. :smile: Ich bin vor allem auf den nächsten heißen Scheiß von Jensen gespannt, da noch nix von secret sauce bekannt ist.

dargo

2024-04-17, 17:43:57

Hatstick

2024-04-17, 18:29:33

dargo

2024-04-17, 19:26:12

Für die paar Watt mehr hast aber das deutliche bessere Featureset der 4070Ti Super Karte.

Du kennst schon das Featureset von RDNA4? Interessant... erzähl uns mehr. Und 215W (sofern das tatsächlich auch so kommt) vs. 289W sind für mich nicht paar Wattchen mehr. Das ist schon ein großer Unterschied an Abwärme im Gehäuse.

Platos

2024-04-17, 19:33:45

Für die paar Watt mehr hast aber das deutliche bessere Featureset der 4070Ti Super Karte.
Am Ende werden die zwei Jahre alten 4000er Karten immer noch gut dastehen, im Vergleich zu den neuen AMD GPUs.
Wobei ein eventl. zeitiger Release der 5090/5080 wohl nichts mit RDNA4 zu tun hat, das sie in ihrer eigenen Liga spielen werden.

Sind ja nur Gerüchte. Bei AMD wird da ja gerne der Hypetrain gefahren. Und bei der Energieeffizienz wirbt ja sogar AMD mit Zahlen, die so in der Realität nicht ankommen.

Und abgesehen davon ist für Leute wie uns hier natürlich der Auslieferungszustand eigentlich nebensächlich. Wichtig ist, was die Karten dann können, wenn man sie tuned. Also Stichwort Undervolting. RDNA3 ist da ja im Gegensatz zu Lovelace nicht gerade der Renner. D.h eine 215W (absolut hypothetische) RDNA4 Karte müsste zuerst einmal auch noch das Problem lösen.

Naja und das natürlich alles nur, um mit einer alten Generation mithalten zu können...

dargo

2024-04-17, 19:38:42

Naja und das natürlich alles nur, um mit einer alten Generation mithalten zu können...
:lol:

Überraschung... eine 3080 hält mit einer 4070 auch noch ganz gut mit.

BlacKi

2024-04-17, 20:44:33

Und abgesehen davon ist für Leute wie uns hier natürlich der Auslieferungszustand eigentlich nebensächlich. Wichtig ist, was die Karten dann können, wenn man sie tuned. Also Stichwort Undervolting. RDNA3 ist da ja im Gegensatz zu Lovelace nicht gerade der Renner. D.h eine 215W (absolut hypothetische) RDNA4 Karte müsste zuerst einmal auch noch das Problem lösen.

also meie 4070ti hat mit minimalem underclock und uv +mem oc nur noch die hälfte gezogen. das einzigste was daran gestört hat, war der hohe preis. den kann amd aber auch nicht einfach droppen, da das ganze restliche portfolio sonst die komplette marge verlieren würde.

Sardaukar.nsn

2024-04-17, 21:55:23

... Wichtig ist, was die Karten dann können, wenn man sie tuned. Also Stichwort Undervolting.

Na na, wie auch bei den Vorgängern will ich schon wissen selber rausfinden was Blackwell oben raus kann. https://www.3dmark.com/compare/spy/29595315/spy/33420218#

Durchschnittliche Taktfrequenz
2.010 MHz (Ampere)
3.016 MHz (Ada Lovelace)
?.??? Mhz (Blackwell)

Platos

2024-04-17, 22:06:09

also meie 4070ti hat mit minimalem underclock und uv +mem oc nur noch die hälfte gezogen. das einzigste was daran gestört hat, war der hohe preis. den kann amd aber auch nicht einfach droppen, da das ganze restliche portfolio sonst die komplette marge verlieren würde.

Also ~ 140Watt oder was ist die Hälfte ? Mem OC hat bei mir nie gross was gebracht. Also die Energieeffizienz hat darunter meist gelitten.

Aber: Hast du dir dabei jeweils die min-FPS angesehen? Wenn man z.B mit Super Position Benchmark testet, gehen die avg. FPS noch hoch, die min. FPS aber nicht mehr und irgendwann sogar runter. Die Punktzahl ist dann sowieso fürn Arsch, denn die kann etwa gleich sein, während dem min FPS deutlich niedriger sind.

Ich konnte so z.B bei meiner 4070Ti und auch meiner jetzigen 4080 ~100Mhz mehr bei gleicher Spannung hinkriegen. Schaut man nur auf avg. FPS und die Punktzahl, sieht es dann aber so aus, als wäre es noch effizienter geworden. Das wiederspeigelt sich auch bei Echten Games bei mir.

Oder aber du hast echt ein golden Sample. Meine 4080 nutzt z.B 230Watt anstatt 320Watt bei glaube ich 4% weniger Perfomance oder so. Die hälfte ist schon krass. Sicher dass die Perfomance da nicht eher Richtung -20% ging ?

Na na, wie auch bei den Vorgängern will ich schon wissen selber rausfinden was Blackwell oben raus kann. https://www.3dmark.com/compare/spy/29595315/spy/33420218#

Naja, mit undervolting meint man ja meist ungesagt auch übertakten. Man senkt ja nivht nur die Spannung ab, sondern erhöht auch gleich noch den Takt (also an der y-Achse nach oben verschieben im Takt/Spannungs-Diagram).

"Übertakten" ist da sinngemäss das gleiche, nur eben auf einer anderen Spannung und einer offenen (also nicht abgeschnitten auf z.B 0.9 volt oder so).

:lol:

Überraschung... eine 3080 hält mit einer 4070 auch noch ganz gut mit.

Wenn man beide undervoltet hinsichtlich Energieeffizienz nicht (darum ging es, um Energieeffizienz). Da RDNA3 aber genau da (im Vergleich) kacke ist und man Lovelace wunderbar undervolten kann, wäre ein schlecht untervoltbares RDNA4 selbst bei 215Watt default eben möglichweise am Ende (beide untervoltet) in etwa ebenbürdig.

Sardaukar.nsn

2024-04-17, 22:25:30

@Platos: Ich denke wir verstehen uns. Bei Ampere war das Untervolting noch ganz klar, bei Lovelace kamen auch andere Wege (max OC + begrenztes Powerlimit) in Betracht. Keine Ahnung wie das bei Blackwell ausgeht, aber ich freu mich schon drauf es selbst auszutesten.

Altehardware

2024-04-17, 23:18:19

2,0ghz bei ampere war eher die obere grenze (maxed oc waren 2,1ghz)
3,0ghz ada ist maxed oc möglich mit glück beim chip
blackwell dürfte nach dieser Prämisse bei 2,6ghz sein.

Dem ist aber nicht so das ist so

ampere 1,8-1,9ghz Kühlungsabhängig
ada 2,7-2,8ghz meist tbp limitiert
balckwell 2 werte da samsung sf4x mit drin ist 1,9ghz und tsmc n4p 2,3ghz
samsung eher am limit tsmc tbp limitiert

Zu amd hypertrain das kommt jedesmal vor einer neuen gen diesmal ist die Orientierung mit sf4x node schwieriger mein tipp zwischen 3,0ghz und 3,2ghz im maximum Takt limitiert durch den node mehr geht nicht zum vergleich tsmc n4p wäre bei 3,9ghz-4,1ghz
Die perf dürfte auf den punkt sein. in dxr wird man weniger reißen das liegt daran das sich die tmu Anzahl nicht ändert 1-4 per cu das reicht nicht um ansatzweise mehr dxr perf zu bekommen da dxr nicht mit dem takt skaliert
mehr alu gibtes nicht folglich dürfte amn amximal +8% ab dxr perf bekommen wegen 3,1ghz statt den üblichen 2,3ghz in dxr load.
fo.glich wäre man genau -24langsmaer als nvidia ada gen
Wen die tmu sich verdoppeln auf 1-8 dürfte man bei grob 50% mehr dxr perf freuen also nur noch -6% hinter nvidia ada gen.

Das dürfte so aussehen

man ist knapp an ampere dxr perf dran kann das aber durch doppelte tmu pro cu auf +58% aufwerten was dann 34sm ada vs 32cu rdna4 bedeutet vs blackwel wird man kein land sehen da hier etwa +70% alleine durch die sm Struktur gesteigert wird.
Aus den vermutlich 38sm blackwell wird man bei 56cu rdna4 so gerade aufschließen können
So nebenbei bei etwa gleichem preispunkt

Da treten also gb207 vs amd n48 an
also nen 50$ chip vs nenn 70$ chip AMD Vorteil ist lediglich das man gddr6 nutzen kann (20gbps) was die sku billiger macht da nvidia konsequent auf gddr7 gehen muss./ab 10$ per 16gbit vs 3$ per 16gbit
(sku ab 390€)
nvidias chip vermutlich 196mm² amd vermutlich 270mm² beim gleichem node.
blackwell vs ada dxr Differenz +60% da der Takt sinkt auf 1,8ghz vs aktuell 2,8ghz
rein alu sind es +70%
amd kann durch die doppelten tmu 50% mehr dxr perf herausholen und etwa 8% mehr durch Takt. =+58% pro cu
nvidia durch mehr alu und weniger Takt nur 60% bekommen pro sm
das bedeutet quasi leichtes aufholen auf etwa ada level

nvidia hat demnach durch Restbestände von ad104 ad106 und ad107 wieder die kosten Ersparnis auf seine Seite amd muss quasi mit n44 aggressiv preise drücken und der chip leistet maximal 15tf (rx6750xt level)
Das gute der chip kostet grob 35$ der vram ist billig sku mit 12gb ab 250€ möglich
Sämtliche 8gb sku werden ende 2024 auf 200-300€ fallen auch die legacy rtx30 Serie muss dahin.
amd rx6000 8gb sku sind so gut wie abverkauft die rx7600 wird vermutlich bald drastisch in low end platz nehmen für 200€
Was macht nvidia
als erstes Aktionen damit die ad107 chips akä rtx4060 abverkauft werden dann rtx4060ti um dann die ad107 ad106 als neue rtx5050/ti zu verkaufen mit doppelten vram. Zum gleichem preis.
Die Restlichen ad104 werden auch kurioserweise auf die ad106 specs gecuttet aber mit nur 12gb bin gespannt wie das ankommt wenn ne 12gb sku die schneller sein wird trotz gleicher sm und Takt vs die mit 16gb sku.

BlacKi

2024-04-17, 23:20:21

Also ~ 140Watt oder was ist die Hälfte ? Mem OC hat bei mir nie gross was gebracht. Also die Energieeffizienz hat darunter meist gelitten.

Aber: Hast du dir dabei jeweils die min-FPS angesehen? Wenn man z.B mit Super Position Benchmark testet, gehen die avg. FPS noch hoch, die min. FPS aber nicht mehr und irgendwann sogar runter. Die Punktzahl ist dann sowieso fürn Arsch, denn die kann etwa gleich sein, während dem min FPS deutlich niedriger sind.

Ich konnte so z.B bei meiner 4070Ti und auch meiner jetzigen 4080 ~100Mhz mehr bei gleicher Spannung hinkriegen. Schaut man nur auf avg. FPS und die Punktzahl, sieht es dann aber so aus, als wäre es noch effizienter geworden. Das wiederspeigelt sich auch bei Echten Games bei mir.

Oder aber du hast echt ein golden Sample. Meine 4080 nutzt z.B 230Watt anstatt 320Watt bei glaube ich 4% weniger Perfomance oder so. Die hälfte ist schon krass. Sicher dass die Perfomance da nicht eher Richtung -20% ging ?

ja, oc ist mit ada fast nichts zu machen. aber uv mit leichtem uc hat knapp den verbrauch halbiert. meine config hat zwischen 125 -160w verbraucht und 5-10% weniger fps als stock gebracht. ich hab kein powerlimit heruntergesetzt. wenn du auf die automatische reduzierung des einen takts durch uv anspielst, ich hab da nie probleme gesehen.

reaperrr

2024-04-17, 23:38:49

Für die paar Watt mehr hast aber das deutliche bessere Featureset der 4070Ti Super Karte.
Bei RT wird RDNA4 mindestens dichter rankommen, und irgendwann wird auch ne FSR-Revision nah an DLSS 3 rankommen.

"Deutlich" besser wird es für Ada nicht mehr sein.
Wenn AMD dann das deutlich bessere P/L-Verhältnis sowie bessere Perf/W bietet, wird es auf jeden Fall weniger einseitig.

Mit den Mainstream-Blackwells wird's dann wahrscheinlich wieder etwas anders, aber RDNA4 vs. Ada könnte durchaus spannend werden.

den kann amd aber auch nicht einfach droppen, da das ganze restliche portfolio sonst die komplette marge verlieren würde.
Welches "restliche Portfolio"?

Wenn N48XT schneller als ne 7900XT wird, kann das aktuelle LineUp eh komplett einpacken.

Besser ne 8800 XT für 599$ verkaufen als ne 7800 XT für 499$, wenn die N48-Fläche wirklich bei <300mm² liegt, ist die 78XT wahrscheinlich teurer herzustellen als der Nachfolger.

Solange AMD die N31/32-Produktion rechtzeitig runterfährt und die Restbestände rechtzeitig abverkauft, kann RDNA4 für AMD auch in Hinblick auf Marge gar nicht früh genug kommen.
An N48 verdienen sie wahrscheinlich viel mehr pro Karte als an beiden N32, 7900GRE und vielleicht sogar 7900XT, selbst wenn sie N48 preislich nur etwas höher als die 7700/7800XT platzieren (599$ 8800XT, 499$ 8700XT oder sowas).

BlacKi

2024-04-17, 23:56:08

sehe ich nicht kommen. die gre ist in der herstellung wesentlich teurer als die 7800xt. trotzdem ist sie am markt. und vermutlich ist hat sogar die 6800xt 6900xt mehr marge als eine gre oder 7800xt. und auch die 6900xt ist noch gut verfügbar.

vermutlich läuft sogar noch rdna2 weiter wenn die n48 karten kommen.

aufkrawall

2024-04-18, 00:29:52

vermutlich läuft sogar noch rdna2 weiter wenn die n48 karten kommen.
Wie viele RDNA2-Chips laufen denn momentan vom Band?

Altehardware

2024-04-18, 00:55:54

gar keine amd hat die Produktion seit 2 Jahren eingestellt.
Derzeit laufen nur die n31 n32 sowie in Massen die n33 chips
Eingestellt wird n32 asap wenn n48 erschein t n31 könnte weiterlaufen bis n51 kommt.
Zu mining zeit hat man so viele chips produziert wie nie zuvor.

reaperrr

2024-04-18, 01:04:55

sehe ich nicht kommen.
Dass RDNA3 vom Markt verschwindet?

Natürlich nicht von Heute auf Morgen. Aber wenn N48 und N44 sowohl bei Perf/W als auch Perf/mm² massiv besser werden, gibt es keinen Grund, den Umstieg nicht so schnell und konsequent durchzuziehen wie möglich.
Restbestände im Channel können AMD einigermaßen egal sein, solange sie ihre N3x weitgehend loswerden und diese die N4x-Verkäufe nicht zu stark kannibalisieren.

Dass N21 ne bessere Marge als N31 und N32 hat kann gut sein, liegt aber auch daran, dass diese beiden N3x für den Silizium-Aufwand halt relativ lahm geworden ist.

die gre ist in der herstellung wesentlich teurer als die 7800xt.
Nein, ist sie eher nicht:

- gleiches PCB und gleiche Kühler, aber etwas billigerer Speicher (18 statt 20Gbps)
- 7800 XT erfordert Defekt-freie Chips, für GRE kann AMD sowohl Chips mit defekten CUs als auch defekten ShaderEngines oder defekten IF-Verbindungen verwenden

Wohlgemerkt, ich beziehe mich hier auf's "wesentlich".
Ein wenig, sicher.

Aber selbst in N5 wird 100mm² mehr Silizium jetzt nicht gleich 100$ mehr kosten.
Für N5 wurden vor Jahren mal Wafer-Preise von 16.000$ genannt, und vom N32-GCD passen ca. 280 davon auf einen Wafer, vom N31-GCD ca. 185.
Bei 16.000$ je Wafer komme ich da auf ca. 57$ je N32-GCD und 87$ je N31-GCD.

Zu nem 50$ höheren Preis bei leicht billigerem RAM verdient AMD an einer 79GRE also wahrscheinlich etwa 20-25$ mehr als an einer 7800XT. Weniger jedenfalls nicht.

Was N48 angeht: Wenn der wirklich nur 240mm² ist, passen davon ca. 240 auf einen Wafer.
Nehmen wir meinetwegen an, TSMC verlangt für N4P-Wafer statt 16.000 eher 17.500.

Selbst dann kostet N48 bei der Fläche nur ~73$.

Und die MCDs sowie Assembly der Chiplets fallen hier komplett weg. Also ziemlich sicher billiger herzustellen als ne 7800 XT.

Ich würde sagen: Vom reinen Silizium her dürften die Kosten für N48 bei 240mm² grob auf oder minimal unter 7700XT mit ihren 3 MCDs liegen, aber wenn man das komplexere Packaging auch noch runterrechnet, hat N48 - wenn die 240mm² ca. stimmen - wahrscheinlich irgendwo zwischen 10-30$ mehr Luft nach unten bzw. höhere Marge als ne 7700 XT.

Da wären 599$ für die 8800XT und 499$ für die 8700XT in Sachen Marge ne fette Verbesserung gegenüber N32.

---------

Aber wir sind hier ja eigentlich im Blackwell-Thread.

Bin gespannt, ob alle BWs N3E werden oder nur die größeren Chips. Bei GB202 und 203 geh ich von N3E aus, bei GB205 abwärts kann auch ne N4-Variante sein. Würde erklären, warum die Specs bei GB205-207 nur so gemäßigt steigen.

Platos

2024-04-18, 03:59:40

ja, oc ist mit ada fast nichts zu machen. aber uv mit leichtem uc hat knapp den verbrauch halbiert. meine config hat zwischen 125 -160w verbraucht und 5-10% weniger fps als stock gebracht. ich hab kein powerlimit heruntergesetzt. wenn du auf die automatische reduzierung des einen takts durch uv anspielst, ich hab da nie probleme gesehen.

Ok, also was heisst underclocking? Y-achse nach unten verschieben? Weil weniger Takt hast du mit starkem Undervolting sowieso, ansonsten hast du wirklich ein golden-sample.

Wenn du die Taktkurve nicht an der Y-Achse verschiebst, aber stark untervoltest, dann müsstest du eig. viele hundert MHz verlieren.

Also ich nehme an, du hast eigentlich die Taktkurve nach oben verschoeben und ein Spannungslimit eingestellt?

woodsdog

2024-04-18, 07:01:07

Lustig wie hier von den üblichen Verdächtigen gefeiert wird das eine unreleaste, auf Gerüchten basierte, hypotetische Graka bessere Effizienz haben soll als 2 Jahre alte, releaste Karte der anderen Fraktion... ernsthaft?

Ich wär an der Stelle froh wenn AMD endlich mal aufschließen würde, JEDES Mal werden unter anderem hier riesige Luftschlösser gebaut... am Ende ists dann wie so oft eher "meh". Brauchbar bei Preispunkt X Y Z, an der Spitze eher nicht. v0v

Meine beiden Adas laufen jeweil mit minimal-Intensiven UV von 2600@0.9V via Curve Editor.
Die 4090 kommt nicht über 320W
Die 4070 kommt nicht über 130W

Leistungseinbuße jeweils absolut vernachlässigbar.
Wenn die Roten an der Stelle sind bitte Hand heben. Idealerweise nicht 2-4 Jahre später.

Darüber hinaus ging es hier auch eher um Blackwell :redface:

dargo

2024-04-18, 07:16:51

Wenn man beide undervoltet hinsichtlich Energieeffizienz nicht (darum ging es, um Energieeffizienz). Da RDNA3 aber genau da (im Vergleich) kacke ist und man Lovelace wunderbar undervolten kann, wäre ein schlecht untervoltbares RDNA4 selbst bei 215Watt default eben möglichweise am Ende (beide untervoltet) in etwa ebenbürdig.
Und wenn RDNA4 sich genauso beim UV verhält wie RDNA2.... gähn.

Leonidas

2024-04-18, 08:21:16

Bin gespannt, ob alle BWs N3E werden oder nur die größeren Chips.

Kopite hatte eigentlich klar gesagt, dass die Fertigung die gleiche ist zwischen GB100 und GB202.

Altehardware

2024-04-18, 09:27:24

Wie die Effizienz wird wissen wir da der Node bekannt ist
Samsung zwar nicht so deutlich erkennbar da samsung von 2022 an die namen geändert hat und tsmc deutlich da diese daten bekannt sind
samsung sf4x entspricht in etwa tsmc n5 taktet aber per design um die 20% geringer ist dafür aber um 10% effizienter.
Womit blackwell etwa 20tf mit 180w realisieren kann das ist in etwa die rtx4070 die aktuell dafür 200w braucht
amd rdna4 wird rdna3 gefixt bedeuten aber amd muss was an den tmu tun damit die dxr perf steigt das kann amd mittels mehr cache lösen in den cu etwa mehr datenwege oder per simple verdoppelung der tmu recheneinheit das diese mehr rt arbeit erledigen können.
beides wäre ideal und dürfte zwecks ps5 pro auch umgesetzt worden sein

Der n48 gibt es nur weil sony nenn neuen chip brauchte das dieser am desktop kommt sagt aus das rdna4 mcm komplett verworfen wurde weil eben rdna3 ein design Fehler hatte und das dxr nicht im Takt skaliert daher musste was passieren.
rdna4 p/w dürfte sich grob an ada richten also 20tf sind genau zwischen den beiden chips daher eher 15tf das trifft es eher zu
Der n44 dürfte zwischen 130-140w tbp erreichen für die perf des n33 der dafür mit 16gb 190w zieht (30-46% Effizienzsteigerung)
Der n48 etwa das doppelte +- 220-230w für die perf der rx7900xt aktuell 330w (43% Efizienzsteigerung)
Hätte amd den n4p node genommen wäre man deutlich effizienter geworden also n44 bei 150w und n48 bei knapp 250w aber bei der perf von ner rx7800xt und rx7900xtx
also 150w bei 20tf und 250w bei 37tf
n44 n4p node +75% Effizienz und n48 +50% Effizienz
anders als nvidia design wird mit samsung die Effizienz schlechter.
Das liegt am designs des chips. cache kostet eben energie und da man dies nur mit mehr Fläche kontern kann damit weniger wärmestau gibt eben auch mm²
Der design fehler bei rdna3 beruht auf zu hohe packdichte beim cache daher muss amd dies mit mehr Fläche lösen was mit n33 teilweise gemacht wurde vom dem chip aus wird skaliert.
nicht umsonst ist der chip der taktstabilste von dem rdna3 lineup. und das trotz schlechterem Node. mit 2,6 znd 2,7ghz
vom dem chip node Verbesserungen ging ich aus.

Der Rückschlag kam eben wegen dem sf4x node. In n4p wäre man bei min 3,9ghz angekommen und maximal 4,2ghz das man nicht tsmc node nimmt sagt klar das amd mit tsmc node deutlich mehr in mi300 chips und zen5 giert
das kann auch den Grund sein das man mit samsung die apu umsetzen will also der plan bis sf3x gehen wird (samsung hat zuerst gaa marktreif)
Das lässt andeuten das amd ab rdna5 keine entry chips mehr baut und alles auf apu umstellt also gpu's bis 33tf
Zu der zeit also 2026 an dürfte am6 mit quadchannel geben zuerst ddr5 8000 bis ddr5 9000
Gut möglich das zen7 ddr6 und ddr5 kann ddr6 dürfte per spec dann 12000 bis 18000 gehen.
ECC per design auch aktiv sein.
System dann die Wahl zwischen
apu Grundbasis mit 8 kern ohne HT 64gb ddr6 12000 igp mit 60cu 3,7ghz sf3x node total system power 350w
cpu dediziert mit dgpu zen7 16kern ohne Ht 64gb ddr5 8000 tsp 300w + gpu ab 100cu ab 250w tbp =550w
zusätzlich rest von 150w im extremfall wie bei mir min 6 festplatten zubehör und soundkarte tv karte streaming hardware.

Das wäre im meine fall keine Option da dies min 500w und maxed 700w aus der dose zieht
Folglich werde ich auf nenn apu system müssen ab 2027 oder ich gehe den am5 Weg als Ausweg und einer dedizierten nvidia rtx7060 falls es die noch gibt

rtx5060 wird es geben rtx6060 wird ein refresh der blackwell gen unklar in was sf3x node oder tsmc n3 ist offen.
rtx7060 aufgrund von apu perf bis 33tf keine entry gpu mehr also start bei mid class ab 250w da bin ich raus.
möglich ist es das ne n2x basierende nvidia gibt oder samsung sf2 node mit dann 48sm bei 3,4ghz grob 49tf und 170w (2028 rtx8070)
Das wär der goal für mich mit dann einen r7 x380x3d und 64gb ddr5 Speicher auf am6
Der haken wäre nur der enorme systemverbrauch von 250-300w unter load. was am ende das Gesamtsystem auf 500w hievt
Da es keine kleineren cpu mehr gibt das sind alles apu
gut möglich das amd auch 3d cache bei apu gibt Sinn macht es dann wäre es der r5 x3600g3d mit nur systemlast von 200w
am ende etwa dasselbe wie jetzt zwischen 350 und 400w systemverbrauch üblich 100-150w desktop betrieb.

das wird 2027 bzw 2028 meine Wahl sein als system bis dahin werkelt entweder die rtx5060 oder rtx6060 bei mir
amd unklar da es min ne rx8700 sein muss 48cu 3,1ghz +- 22,2tf grob 185w falls die sku kommt was unklar ist. tendenz eher nein.
Die rx8600xt ist zu schwach etwa +10% zur rx7600xt dafür billig 300€ 16gb
Die rtx5050ti (ad106 rebrand 34sm) nicht ausgewogen +- gleichschnell wie die rx8600xt bei 380€ 180w
Die Lösung rtx5060 grob 22tf für 460€ 180w
rtx6060 wird marginal schneller mit 29tf bei 150w tbp =+30% das ist die Annahme von sf3x node wo nur 9% mehr Takt raufkommt (2,16ghz) und 18% Energieeinsparung.
Ob dann schon amd mit den Riesen apu am Markt ist, ist unklar da am6 erst 2026 starten wird mit den kleine apu und dedizierten 16kern cpu ohne ht

intel indes ist ne wilde karte da nicht klar ist in was luna lake kommt tsmc node oder intel a20
so1851 wird sowieso schwierig und der Nachfolger ist nix bekannt.
Intel dgpu wird spannend nach battlemage dieses Jahr wo werden die Treiber sein 2026 ganz weg oder im Erfolg völlig offen wie das wird.

BlacKi

2024-04-18, 10:52:24

Zu mining zeit hat man so viele chips produziert wie nie zuvor.

alles nur reste auf lager?

Verkaufsstatistik Mindfactory Q1/2024 (https://www.3dcenter.org/artikel/grafikkarten-verkaufsstatistik-mindfactory-q12024)

rdna2 ist nach wie vor stark im portfolio vertreten. nicht im offiziellen, aber dennoch machen sie einen riesen batzen im verkauf aus.

Ok, also was heisst underclocking? ot
so wie bei woodsdog. durch mem oc kann man die -190mhz die core clock fehlen teilweiße ausgleichen, aber ohne das die karte gleich mit dem saufen anfängt. es ist einfach unglaublich wie ada die letzten mhz zu saufen anfängt mit stock voltage.
und je niedriger der core clock, um mehr uv potential tut sich auf und umso mehr spart man.

die 4070ti hätte man mit 130-140w powerlimit releasen können, man hätte zwar 10% performance mit stock voltage curve verloren, aber dann hätte man den rdna3 verbrauch einfach halbiert. rdna3 dagegen bietet viel weniger potential was das einsparen angeht und muss sogar noch mehr performance federn lassen.

Platos

2024-04-18, 13:05:37

@ Blackie: Ah ok, also eben, es ist daher eig. kein Underclocking (Das wäre Spannungskurve an Y-Achse nach unten verschieben).

Aber 140Watt bei 10% Verlust hätte man eben nicht machen können. Meine 4070Ti hätte das z.B niemals mitgemacht. Bei 170Watt war Schluss bei ähnlichem Verlust (Wohlgemerkt bei einer Anhebung der Spannungskurve, was die Energieeffizienz Rechnerisch verbessert hat bei mir).

Aber die Grundaussage stimmt natürlich. Man hätte für ein paar Prozent weniger Perfomance den Stromverbrauch extrem senken können. Aber das macht man hald nicht, weil der Stromverbrauch nicht nvidia/AMD zahlt. Das ist gratis Perfomance aus deren Sicht. Und am Ende ist es mir auch egal, solange ich es so effizient betreiben kann (und es nicht irgendwann wie bei Intel für gewisse Modelle blockiert wird).

Und wenn RDNA4 sich genauso beim UV verhält wie RDNA2.... gähn.

Genau, wenn, wenn, wenn.

Leonidas

2024-04-18, 13:09:29

Exxtreme

2024-04-18, 13:14:33

Ja, wenn man sich die Verfügbarkeit der Grafikkarten so anschaut dann sind RDNA2 und Ampere wohl komplett abverkauft. Kann aber sein, dass die Budget-Serien von RDNA2 und Ampere ala RTX3060 weiterhin hergestellt werden.

HOT

2024-04-18, 14:26:28

RDNA2 dürfte sicherlich bis weit ins Jahr 2023 hergestellt worden sein. Deswegen ist auch die These "zu viele hergestellte Chips im Mining-Zeitalter) Nonsens, denn die wären inzwischen längst aufgebraucht. Im Mining-Zeitalter wurde ja alles verkauft, nur im Kater danach wuchsen die Läger an. Aber so was geht ein paar Monaten, dann kürzt nach die Nachfertigung und dann franst sich dann in wieder ein paar Monaten aus. Dürfte 2023 alles erledigt worden sein.

Hab ich doch von Anfang an gesagt, dass die Dinger weiterproduziert wurden, genau wie Zen3 und die ganzen 7nm APUs. AMD dürfte da einfach die Kapazitäten aquiriert haben für einen Spottpreis, die keiner mehr haben wollte bei N7 und bei N6 siehts ja ähnlich aus, dass das so läuft.
Die N7-Produktion dürfte mittlerweile aber deutlich runtergefahren sein zugunsten neuerer Nodes.

basix

2024-04-19, 07:43:15

RDNA2 ist aber ein N7 mono Die vs. N5 + Chiplets. Das ist halt einfach relativ günstig herzustellen. Sobald RDNA4 kommt, sollten RDNA2 und RDNA3 wohl ziemlich schnell vom Markt verschwinden. N21, N22, N31, N32 und auch N33. Bei den angeblichen sehr geringen Die Sizes werden RDNA4 GPUs sehr günstig in der Herstellung sein. N44 sollte N22 schlagen (und somit auch N23/N33), N48 schlägt N21 & N32 und angeblich auch die 7900XT. Neben weiteren Vorteilen vs. RDNA2 (Displayport 2.0, Update der Multimedia Engines, geringerer Energieverbrauch & Abwärme, mehr RT-Performance, gleich viel oder mehr VRAM [mit Ausnahme N31], höhere Matrix-Performance, ...).

Aber OK, hier ist eigentlich der Blackwell Thread ;)

Zu den Taktraten:
+10...20% sind meine Erwartung. Also ~3.5 GHz im peak bei OC. Aber am Ende ist es nicht so wichtig. 3.0 Ghz wären aber schon nice im Dauerbetrieb, auch mit einer undervolted Karte :)

HOT

2024-04-19, 08:35:01

Mono oder nicht mono ist vollkommen egal, darum gehts einfach nicht. N21, 22 und 23 werden mittelfristig verschwinden weil die Produktion ausläuft (nur van Gogh und das Zen3 CCD werden bleiben), N33 und 24 aber mit Sicherheit nicht, weil die genau so billig sind für AMD die die bisherigen N7-Varianten. aiuch N31 wird bleiben - das ist ja trotzdem nur ein recht kleiner 5nm-Chip, die 6nm-Chiplets sind egal, die kosten quasi nix in N6. Solange das aber AMDs schnellestes Produkt bleibt, läuft der nicht aus. Und man wird auch keine salvage-Varianten dazu mehr benötigen, hat man bei dem etwa gleich großen N22 ja auch kaum gemacht.

NV gibt 8N ja auch nicht auf, der neue Switch-SoC soll die Produktion bei Samsung beerben.

N4 wird bei TSMC ein richtiger Hit-Node, das hab ich mir damals schon gedacht, als klar wurde, dass kaum was in N6 gefertigt wird von den Großen und klar wurde, dass N3 sehr teuer und bei Cache quasi nicht besser ist. Und jetzt sehen wir bei BW, dass N4 auf jeden Fall bis 2027 NVs Hauptprozess bleiben wird, nur Rubin dürfte einen N3-Zwischenstopp einlegen, aber BW und Rubin werden sicherlich parallel laufen, Rubin für Premium und BW für Standard.

basix

2024-04-19, 12:53:07

Damit wir nicht den Blackwell-Thread vollspammen: HOT, hier geht die Diskussion weiter ;)
https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13527537#post13527537

lilgefo~

2024-04-19, 19:52:10

Du kennst schon das Featureset von RDNA4? Interessant... erzähl uns mehr. ...

Man kann sicher sagen, dass weder DLSS, DLAA, NV-FG, Ray Reconstruction, RTX Video HDR noch RTX Super Resolution Teil des Featuresets sein werden. Teile dieses Featureskatalgos liegen in schlechterer Form vor, andere fehlen komplett. Zu glauben, dass das mit RDNA4 Alles auf den selben Stand gebracht wird oder sogar noch was Neues dazu kommt ist ja noch mehr next level Hypetrain als eh schon. Ganz zu Schweigen von etwaigen neuen Features die mit Blackwell kommen werden. Performance und Effizienz in denen man NV schon hinterherhinkt sind schon schwer genug einzuholen. Mit fps/€ ohne Qualität in Betracht zu ziehen kann man dann noch einige Käufer locken. Aber im Thema High-End und erst Recht Enthusiast ist AMD soweit hinten dran, dass das unmöglich ist mit einem Refresh aufzuholen ist, der ja an sich schon nichtmal den Anspruch erhebt #1 zu werden. Selbst wenn in irgendeinem Fantasieszenario ein RDNA4 mit +10% ad102 rauskäme (was komplett utopisch ist) und der auch noch 10% billiger und energieeffizienter wäre (doppel rofl), wäre es dennoch die schlechtere Wahl, da einfach die Features fehlen. Und welche auch immer das werden, so gut wie bei NV wirds mit RDNA4 nicht. Alles andere ist purer Hypetrain.