Archiv verlassen und diese Seite im Standarddesign anzeigen : Diskussion zu: News des 13. September 2022
Leonidas
2022-09-14, 09:52:12
Link zur News:
https://www.3dcenter.org/news/news-des-13-september-2022
greeny
2022-09-14, 12:40:08
Singvögel riechen, wo’s langgeht []
[Bild der Wissenschaft]
madshi
2022-09-14, 12:55:56
> sowie von Datenformaten mit abgespeckter Genauigkeit
Meinst Du FP8? Das kommt mit an Sicherheit grenzender Wahrscheinlichkeit auch bei den Consumer GPUs, weil Nvidia normalerweise die Tensor-Core-Technologie übernimmt. Es gibt zwar gewisse Unterschiede, z.B. fällt beim GA102 die Tensor-Leistung bei FP16 mit FP32 Akkumulierung auf 50% runter, während GA100 bei 100% bleibt. Aber die Unterstützung der Datenformate war bisher immer identisch, wenn ich mich richtig erinnere.
Leonidas
2022-09-14, 12:57:04
Ja, die Format-Unterstützung ist oftmals dieselbe, wobei GH100 doch mehr können sollte. Wichtig ist aber vor allem die Power der Sonder-Formate. Da kann GH100 deutlich mehr, weil es auch häufiger genutzt wird - während die Gaming-Chips oftmals nur einen Standard-Support bieten.
[Bild der Wissenschaft]
Gefixt.
madshi
2022-09-14, 13:38:34
Was für Sonderformate meinst Du genau?
MD_Enigma
2022-09-14, 20:08:19
Natürlich ist es dennoch möglich, dass die gänzlich unterschiedlichen Ansätze für beide Chips zu dieser Flächen-Differenz führen, hierzu würde man im Fall des Falles dann aber gern eine genauere Erklärung hören.
N5P vs N5E? Das gabs doch auch schon bei 7NM: https://en.wikichip.org/wiki/7_nm_lithography_process#Std_Cells
iamthebear
2022-09-14, 22:34:57
Das muss nicht unbedingt an der Fertigung liegen. Nvidia setzt ja bei sich wiederholenden Schaltkreisen sehr stark auf ML zur Optimierung um die Fläche zu reduzieren siehe:
https://developer.nvidia.com/blog/designing-arithmetic-circuits-with-deep-reinforcement-learning/
Ich kann mir gut vorstellen, dass sich dies auch positiv auf die Transistordichte auswirkt.
Ich glaube aber, dass wir bei der Architektur noch einige Überraschungen erleben werden, denn irgendwie will ich nicht so Recht glauben, dass Hopper mit all den Unmengen an AI Zeugs und FP64 trotzdem kaum mehr Transistoren/SM hat als Ada.
Und nein ich denke nicht, dass es an den INT Einheiten liegt. Diese sind bei Hopper auch vorhanden. Sie sind nur nicht gleichzeitig mit den FP32 Einheiten nutzbar. Das ist bei Ada jedoch auch sehr zweifelhaft und derzeit sieht es nicht nach massiven IPC Verbesserungen aus.
madshi
2022-09-14, 22:45:51
Ich glaube aber, dass wir bei der Architektur noch einige Überraschungen erleben werden, denn irgendwie will ich nicht so Recht glauben, dass Hopper mit all den Unmengen an AI Zeugs und FP64 trotzdem kaum mehr Transistoren/SM hat als Ada.
Ich bin nicht sicher, daß sich das AI Zeugs (= Tensor Cores) so groß unterscheiden wird zwischen Hopper und Ada. OK, die Tensor Cores sind bei GA100 ungefähr doppelt so schnell wie bei GA102, aber GA100 hat auch 90% mehr Transistoren als GA102, ein deutlich besseres Fertigungsverfahren, und hat auch mehr SMs als GA102. Bei Hopper vs Ada ist das Fertigungsverfahren wahrscheinlich identisch oder zumindest sehr ähnlich, die Anzahl der SMs angeblich gleich, und RedGamingTech meinte letztens, daß die Tensor Cores bei Ada stark verbessert sein sollen. Von daher könnte es durchaus Gleichstand bei Tensor Cores zwischen Hopper vs Ada geben.
Würde dann heißen, Ada hat Raytracing, dafür Hopper FP64 + HBM2, bei womöglich nicht mehr so stark unterschiedlicher Transistoren-Menge, womöglich gleichen (oder sehr ähnlichen) Tensor-Cores und wahrscheinlich gleicher SM Zahl.
die 4090 soll nun max 660w schlucken, die 4080 16gb 516w, die 4080 12gb 366w...:freak:, die 4070 soll dann auch 12 und 10 gb haben, wattage noch nicht bekannt, bestimmt über 300 für die 12gb variante. bekloppt...eine gpu die mehr schluckt als ein ganzer gaming pc, aber eine konsole ist...laut huang.
achso, amd ist verdammt schnell mit viel speicher, anders kann man das hier nicht deuten. entscheidung in letzter sec bei nv. kann nur an der konkurrenz liegen.
Leonidas
2022-09-15, 04:14:31
Was für Sonderformate meinst Du genau?
Solche Sachen wie BF16, INT8 etc, was Hopper alles kann:
https://www.3dcenter.org/news/nvidia-stellt-den-gh100-chip-der-hopper-generation-mit-18432-fp32-einheiten-144-shader-clustern
MD_Enigma
2022-09-15, 08:12:30
Ja. Eigentlich ist es ziemlich Banane für zwei so „ähnliche“ Chips andere Fertigungsprozesse zu wählen.
Platos
2022-09-15, 08:19:45
Andere Kapazitäten, andere Prozesseigenschaften... Wüsste nicht, warum das soe Banane sien soll. Man will halt an der Spitze sein und bei solchen Spezialbeschl. macht das .M.n auch Sinn.
madshi
2022-09-15, 08:40:27
Solche Sachen wie BF16, INT8 etc, was Hopper alles kann:
https://www.3dcenter.org/news/nvidia-stellt-den-gh100-chip-der-hopper-generation-mit-18432-fp32-einheiten-144-shader-clustern
Aber das konnte Ampere auch alles schon, sowohl Profi als auch Consumer Varianten. GA100 kann das alles zwar ungefähr doppelt so schnell wie GA102, aber GA100 hat auch 90% mehr Transistoren als GA102, und das deutlich bessere Fertigungsverfahren. Das ist ja bei Hopper vs Ada nicht mehr so.
Selbe Transistorzahl bei weit weniger Fläche kann auch darauf deuten, dass weit mehr Caches verbaut werden.
Wenn NVidia im Gamingmarkt wieder die ineffizienten doppel-ALUs verbaut, ist die Parität der ALU Anzahl ein Schritt zurück. Ich hoffe die haben etwas gemacht damit mehr als 30% der zweit-ALU ankommt.
Hopper/Ada GH100: 144 SM, 18'432 FP32, 6144 Bit HBM2e
80 Mrd. Tr. auf 814mm², 4nm TSMC
AD102: 144 SM, 18'432 FP32, 384 Bit GDDR6X
~76-80 Mrd. Tr. auf ~610mm², 4nm TSMC
Wieviel $ spart Nvidia eigentlich indem 24GB GDDR6X Speicher statt (wie bei Volta) effizienter HBM Speicher verbaut werden? Hat das schon mal jemand ausgerechnet?
GA100 kann das alles zwar ungefähr doppelt so schnell wie GA102, aber GA100 hat auch 90% mehr Transistoren als GA102, und das deutlich bessere Fertigungsverfahren. Das ist ja bei Hopper vs Ada nicht mehr so.
Nein. GA100 hat deutlich mehr SMs als GA102. Beide haben 4TCs pro SM, die TCs von GA100 sind aber doppelt so schnell als von GA10x, siehe NVidia's Architektur-Sheet:
https://www.techpowerup.com/gpu-specs/docs/nvidia-ga102-architecture.pdf
Ist also nicht doppelt so schnell, sondern mehr als 3x so schnell.
Dazu kommt noch, dass GA100 FP64 in den TCs kann, GA10x kann das nicht. Insofern sind die TCs bei den HPC Varianten schon merklich mächtiger als bei den Gaming-Dingern. Das wird bei ADA nicht anders werden.
Lehdro
2022-09-16, 13:02:34
Wieviel $ spart Nvidia eigentlich indem 24GB GDDR6X Speicher statt (wie bei Volta) effizienter HBM Speicher verbaut werden? Hat das schon mal jemand ausgerechnet?
HBM wird teurer sein...aber so viel kann es nicht sein, wenn man sich anschaut wie AMD seine Karten verscherbelt hat.
madshi
2022-09-16, 13:16:00
Nein. GA100 hat deutlich mehr SMs als GA102. Beide haben 4TCs pro SM, die TCs von GA100 sind aber doppelt so schnell als von GA10x, siehe NVidia's Architektur-Sheet:
https://www.techpowerup.com/gpu-specs/docs/nvidia-ga102-architecture.pdf
Ist also nicht doppelt so schnell, sondern mehr als 3x so schnell.
Sorry, aber das stimmt einfach nicht. A100 hat 623 INT8 TOPS. Die 3090 Ti etwa 318 INT8 TOPS. Also in etwa doppelt so schnell, genau wie ich gesagt habe.
Dazu kommt noch, dass GA100 FP64 in den TCs kann, GA10x kann das nicht. Insofern sind die TCs bei den HPC Varianten schon merklich mächtiger als bei den Gaming-Dingern. Das wird bei ADA nicht anders werden.
FP64 interessiert mich nicht, braucht bei AI kein Mensch. Der Trend bei AI geht in Richtung kleinere Datenformate, nicht größere.
Fakt ist, daß GA100 ca 90% mehr Transistoren als GA102 hat. Ist es da ein Wunder, daß die Tensor Performance in etwa doppelt so schnell ist? Diesen großen Transistor-Unterschied gibt es aber zwischen Ada und Hopper nicht mehr. Von daher würde ich erstmal abwarten und Tee trinken, bevor wir eine Aussage zu der Tensor-Performance machen. Kann sein, daß Hopper immer noch deutlich schneller ist. Kann aber auch gut sein daß nicht. Das ist im Moment reines Guess-work.
vBulletin®, Copyright ©2000-2025, Jelsoft Enterprises Ltd.