Anmelden

Archiv verlassen und diese Seite im Standarddesign anzeigen : Diskussion zu: News des 26. August 2025


Leonidas
2025-08-27, 09:04:23
Link zur News:
https://www.3dcenter.org/news/news-des-26-august-2025

Update von ca. 11:50
Weitere Tabelle zur Klarstellung der Unterschiede zwischen Chip, Doppelchip und Produkt hinzugefügt.

Gast
2025-08-27, 09:56:15
Bitte nochmal drüber lesen. Mal ist GB100, mal 102 der 'Doppel-Chip'.

Sweepi
2025-08-27, 10:07:35
Metrik | Submetrik | Unit | GB100U| GB100|
||| (1/2 GB300) | (1/2 GB200)
FP4 | Dense | 10^15 FLOPS | 15 | 10 | 50%
| Sparse | 10^15 FLOPS | 20 | 20 | 0%
FP8/FP6 | Dense | 10^15 FLOPS | 5 | 5 | 0%
| Sparse | 10^15 FLOPS | 10 | 10 | 0%
INT8 | Dense | 10^15 FLOPS | 0.1575 | 5 | -97%
| Sparse | 10^15 FLOPS | 0.315 | 10 | -97%
FP16/BF16 | Dense | 10^15 FLOPS | 2.5 | 2.5 | 0%
| Sparse | 10^15 FLOPS | 5 | 5 | 0%
TF32 | Dense | 10^15 FLOPS | 1.25 | 1.25 | 0%
| Sparse | 10^15 FLOPS | 2.5 | 2.5 | 0%
FP32 | - | 10^12 FLOPS | 80 | 80 | 0%
FP64 | - | 10^12 FLOPS | 1.3 | 40 | -97%
HBM | - | GiB | 288 | 186 | 55%
Speicherbandbreite | - | TB/s | 8 | 8 | 0%
NVLink-Interface | - | TB/s | 1.8 | 1.8 | 0%
PCIe-Interface | - | GB/s | 256 | 128 | 100%
TDP | - | W | 1400 | 1200 | 17%
SM | - | Anzahl | 160 | 144 | 11%
Transistoren | - | 10^9 | 208 | 208 | 0%
Attention acceleration| SFU EX2 | 10^12 Exponentials/s | 10.7 | 5 | 114%



Bin am Rätseln, woher die -97% FP64 herkommen - hat man hier wirklich die Hardware neu designed und Units weggelassen, oder hat man einen kreativen Weg gefunden, die Units zu nutzen, z.B. als Overspill-Register für die FP4 Units?

Badesalz
2025-08-27, 10:48:43
Bei 3kW geht mir ein Wow irgendwie komplett ab :usweet:

FrozenPie
2025-08-27, 11:02:24
@Leonidas
In der Tabelle bei der Hardware fehlt bei den untersten beiden Einträgen das "-bit" nach dem "8096" und mir wäre neu, dass "Grace" aus zwei Silben besteht, sodass man sie "Gra-" und "ce" teilen kann (in der Spalte "Anmerkungen") :)

Leonidas
2025-08-27, 11:37:17
Bitte nochmal drüber lesen. Mal ist GB100, mal 102 der 'Doppel-Chip'.

In der Tabelle bei der Hardware fehlt bei den untersten beiden Einträgen das "-bit" nach dem "8096"

Beides gefixt.


mir wäre neu, dass "Grace" aus zwei Silben besteht, sodass man sie "Gra-" und "ce" teilen kann (in der Spalte "Anmerkungen") :)

Das macht wenn dann der automatische Zeilenumbruch. Im Original wurde von mir kein Bindestrich geschrieben.


Bin am Rätseln, woher die -97% FP64 herkommen - hat man hier wirklich die Hardware neu designed und Units weggelassen, oder hat man einen kreativen Weg gefunden, die Units zu nutzen, z.B. als Overspill-Register für die FP4 Units?

Habe ich auch gesehen. Ich vermute, NV benutzt eine andere Herangehensweise an die Ermittlung dieser Rohleistung. Andere HW kannst Du ausschließen, es ist alles GB100.

Nebenbei: Deine Tabelle enthält Performance-Angaben für GB100 und GB100U, nicht für GB200 & GB300. Jene liegen jeweils doppelt so hoch.

basix
2025-08-27, 13:09:18
Metrik | Submetrik | Unit | GB300 | GB200 |
FP4 | Dense | 10^15 FLOPS | 15 | 10 | 50%
| Sparse | 10^15 FLOPS | 20 | 20 | 0%
FP8/FP6 | Dense | 10^15 FLOPS | 5 | 5 | 0%
| Sparse | 10^15 FLOPS | 10 | 10 | 0%
INT8 | Dense | 10^12 FLOPS | 157.5 | 105 | 50%
| Sparse | 10^12 FLOPS | 315 | 210 | 50%
FP16/BF16 | Dense | 10^15 FLOPS | 2.5 | 2.5 | 0%
| Sparse | 10^15 FLOPS | 5 | 5 | 0%
TF32 | Dense | 10^15 FLOPS | 1.25 | 1.25 | 0%
| Sparse | 10^15 FLOPS | 2.5 | 2.5 | 0%
FP32 | - | 10^12 FLOPS | 80 | 80 | 0%
FP64 | - | 10^12 FLOPS | 1.3 | 40 | -97%
HBM | - | GiB | 288 | 186 | 55%
Speicherbandbreite | - | TB/s | 8 | 8 | 0%
NVLink-Interface | - | TB/s | 1.8 | 1.8 | 0%
PCIe-Interface | - | GB/s | 256 | 128 | 100%
TDP | - | W | 1400 | 1200 | 17%
SM | - | Anzahl | 160 | 144 | 11%
Transistoren | - | 10^9 | 208 | 208 | 0%
Attention acc. | SFU EX2 | 10^12 Exponentials/s | 10.7 | 5 | 114%



Bin am Rätseln, woher die -97% FP64 herkommen - hat man hier wirklich die Hardware neu designed und Units weggelassen, oder hat man einen kreativen Weg gefunden, die Units zu nutzen, z.B. als Overspill-Register für die FP4 Units?

INT8 ist auch stark reduziert und falsch in deiner Tabelle ;)

Und ja, wäre spannend, wie Nvidia das bewerkstelligt hat. Ist grundsätzlich ein interessanter Ansatz:
- Mehr FP64 Performance, weniger FP4 Performance für typ. HPC
- Wenig FP64 Performance und dafür mehr FP4 Performance für ML/AI Datacenter

Mit solch rekonfigurierbarer HW kann man verschiedene Produktsegmente mit dem selben Chip abdecken. Aber ich frage mich, wie das gehen soll.
Irgendwie wäre es naheliegender, wenn man die INT8 Units zu FP4 umfunktionieren kann. Das stimmt von den FLOPS besser überein. Aber INT Recheneinheiten sehen ganz anders wie FP-Units aus und dann noch das Thema Datenpfade zu dem Matrix-Cores etc.

Gast
2025-08-27, 14:15:00
Mit solch rekonfigurierbarer HW kann man verschiedene Produktsegmente mit dem selben Chip abdecken.


Wenn es einfach "rekonfigurierbare Hardware" wäre, warum dann 2 verschiedene "GPUs"?

Dann würde ja eine GPU reichen die je nach Workload mal das eine mal das andere verwendet.

Leonidas
2025-08-27, 14:42:37
Die zugrundeliegenden Dies sind in jedem Fall gleich. Es gibt keine tatsächlich neuen Chips für AI-Blackwell. NV gibt nur mehr von den vorhandenen Chips GB102/GB100 frei für die Produkte B300 und GB300.

Sweepi
2025-08-27, 15:00:34
INT8 ist auch stark reduziert und falsch in deiner Tabelle ;)



Danke, gefixed.


Nebenbei: Deine Tabelle enthält Performance-Angaben für GB100 und GB100U, nicht für GB200 & GB300. Jene liegen jeweils doppelt so hoch.


Im Databrief (https://resources.nvidia.com/en-us-blackwell-architecture/blackwell-architecture-technical-brief) auf Seite 13 stehen die Werte unter "GB300 Grace Blackwell Ultra Superchip" und "GB200 Grace Blackwell Superchip" - hast du eine andere Quelle für mich? Das Namenschema bzw. gar keine Namen/Specs haben (GB100) ist seitens nVidia auf jeden Fall ein Krampf.

basix
2025-08-27, 15:00:49
Wenn es einfach "rekonfigurierbare Hardware" wäre, warum dann 2 verschiedene "GPUs"?

Dann würde ja eine GPU reichen die je nach Workload mal das eine mal das andere verwendet.

Hardware Fuses, Chicken Bits / Firmware Unterschiede, Requalifikation der HW für die unterschiedliche Betriebsweise, einfach nicht genug Zeit (ML/AI GPUs werden mittlerweile mit der heissesten aller Nadeln gestrickt). Such dir was aus ;)

Vom Grundgedanken her hast du schon recht. Wenn man on-the-fly umkonfigurieren könnte, wäre das natürlich ideal. Vielleicht kann man das dann bei Rubin.

Leonidas
2025-08-27, 15:43:34
Im Databrief (https://resources.nvidia.com/en-us-blackwell-architecture/blackwell-architecture-technical-brief) auf Seite 13 stehen die Werte unter "GB300 Grace Blackwell Ultra Superchip" und "GB200 Grace Blackwell Superchip" - hast du eine andere Quelle für mich?

Habe lange hin- und herschauen müssen, um den Fehler zu erkennen. In der ersten Tabelle (Seite 13) macht NV selber einen Fehler, die Angaben sind pro GPU und nicht für 2 GPUs zusammen. Die Beschriftung ist schlicht falsch in diesem PDF.

Beweis:
B300 schafft pro GPU 13/18 PFlops FP4 Tensor (Seite 27)
GB300 steht in dieser Tabelle aber mit 15/20, das kann sich nur auf einen Chip beziehen.

Beweis 2:
GB300 steht in dieser Tabelle mit 8 TB/sec Bandbreite, das ist wieder das gleiche wie bei der Einzel-GPU B300 auf Seiten 27.

Wenn natürlich NV schon die Tabellen falsch beschriftet, dann ist klar, dass die Fachpresse dies derart wiedergibt.

PS: Einzel-GPU = GB100.

PS: Im Blog-Eintrag nennt NV die GB300-Konstruktion klar mit 30/40 PFlops FP4 Tensor, nicht mit nur 15/20. Das ist der Wert der Einzel-GPU, wird dort auch explizit so genannt.
https://developer.nvidia.com/blog/inside-nvidia-blackwell-ultra-the-chip-powering-the-ai-factory-era/

basix
2025-08-27, 16:25:24
Neben TOPS, TLFOPS und RT-TFLOPS gibt es von Nvidia wieder eine neue Rechenoperations-Einheit
-> TeraExponentials/s :D

Feature|Hopper|Blackwell|Blackwell Ultra
Attention acceleration (SFU EX2)|4.5 TeraExponentials/s|5 TeraExponentials/s|10.7 TeraExponentials/s


Je mehr Unterschiede da auftauchen:
Irgendwie ist das doch ein anderer / neu aufgelegter Chip. Oder sie machen die "TeraExponentials" via Emulation auf den FP64-Units oder so.

Sweepi
2025-08-27, 16:28:41
PS: Einzel-GPU = GB100.


Aber diese Einzel-GPU besteht intern wiederum aus 2xGB102 ... korrekt?

Badesalz
2025-08-27, 16:31:06
Sieht so aus. Es ist dann ein zweifacher Doppel :usweet:

Leonidas
2025-08-27, 16:42:10
Aber diese Einzel-GPU besteht intern wiederum aus 2xGB102 ... korrekt?

Laut besten Wissen & Gewissen: Ja. Wobei GB100 und GB102 reine gerüchteweise Codenamen sind, NV hat die niemals bestätigt.

Zudem scheint auch kein Produkt jemals nur GB102-basiert erschienen zu sein.

Gast
2025-08-28, 08:03:47
Neben TOPS, TLFOPS und RT-TFLOPS gibt es von Nvidia wieder eine neue Rechenoperations-Einheit
-> TeraExponentials/s :D



Ist eben die Leistung dieses speziellen Befehls, bei den meisten Leistungsangaben wird die der SFU ja komplett unterschlagen.

Gast
2025-08-28, 10:51:36
Das Speicherinterface des Doppelchips hat 8192 bit und nicht 8096. Entsprechend hat das Produkt 16384 und nicht 16192.
Hausaufgabe: Zweierpotenzen auswendig lernen. ;)

Leonidas
2025-08-28, 11:20:11
In der Tat. Danke für den Hinweis! Gefixt.