Archiv verlassen und diese Seite im Standarddesign anzeigen : Diskussion zu: News des 23. Mai 2024
Leonidas
2024-05-24, 10:32:10
Link zur News:
https://www.3dcenter.org/news/news-des-23-mai-2024
mksn7
2024-05-24, 10:59:20
Die dort notierten technischen Daten sind jedoch augenscheinliche Platzhalter, da vollkommen identisch zwischen allen gelisteten Grafikchips.
Die rocm Einträge zu navi44 und navi48 sind keine Platzhalter, die bleiben so. Da stehen einfach nur ein paar device properties für OpenCL drin, wie die SIMD Breite oder local memory per CU. Das sind Architektureigenschaften die sich nicht so schnell ändern, eher wenn es einen größeren Architekturumbruch gibt (GCN->RDNA). h[URL="Die rocm Einträge zu navi44 und navi48 sind keine Platzhalter, die bleiben so. Da stehen einfach nur ein paar device properties für OpenCL drin, wie die SIMD Breite oder local memory per CU. Das sind Architektureigenschaften die sich nicht so schnell ändern, eher wenn es einen größeren Architekturumbruch gibt (GCN->RDNA).
Hier steht der Rest der Einträge, inklusive der struct definition zu der die Werte gehören: https://github.com/ROCm/clr/blob/943fddc1a678508bd3e629b8e7b67c3e4a04e46d/opencl/tests/ocltst/module/runtime/OCLDeviceQueries.cpp
targetName_;
machineTarget_;
simdPerCU_;
simdWidth_;
simdInstructionWidth_;
memChannelBankWidth_;
localMemSizePerCU_;
localMemBanks_;
gfxipMajor_;
gfxipMinor_;
Leonidas
2024-05-24, 11:16:22
Ja, das habe ich mißverstanden. Ich dachte, es handelt sich um absolute Angaben, sind aber nur relative Angaben - und die ändern sich wirklich nicht so schnell. Ich korrigiere und danke für den Hinweis.
basix
2024-05-24, 11:48:02
Ein Nvidia ARM SoC ist eigentlich recht naheliegend. Als Orin Nachfolger.
- 12x Cortex-X5
- 32x SM (2x von Orin)
- 1.5x GPU Takt -> 3x Rohleistung von Orin
- Macht in Summe bei INT4 Matrix + Sparsity = 1 PetaOPS -> Marketing ;)
- Dazu noch ein DLA/NPU, welcher ebenfalls 100+ TOPS INT8 bringt (ohne Sparsity)
Anstatt nur Automotive, deckt man damit auch den APU/Notebook Bereich ab. Eigentlich ziemlich smart. Aber auch ein wenig naheliegend. Kommt ein wenig auf die Performance vom X5 ab, ob das ein Erfolg wird. Liegt man auf M3 Niveau (was momentan die Grössenordung für die X5 Gerüchte ist), sieht das nicht so schlecht aus.
Wenn sie mit Partnern wie Mediatek auch noch in den Smartphone Markt einsteigen können (GPU Lizenz oder gar Partnerdesign mit Mediatek?), kann Nvidia ihre Marktdurchdringung nochmals stark erweitern und neue Märkte für sich öffnen.
Denkbar wäre auch, dass die Workstation Karten 32GB VRam bekommen, die Gaming Varianten hingegen weniger. Gerade im Profi-Bereich ist VRAM ja immer knapp...
Mega-Zord
2024-05-24, 19:31:24
Aber die großen Workstation-Karten mit Turing (Ende 2018) und Ampere (Ende 2020) haben doch jetzt schon 48GB. Eine Quadro GV 100 Anfang 2018 kam bereits mit 32GB (große Schwester der Titan V). In dem Bereich würde ich eher auf 64GB mit langsameren Chips tippen. Für Machine-Learning ist die Speichergröße enorm wichtig. Da ist aktuell selbst eine 4090 nur bedingt geeignet.
Leonidas
2024-05-25, 05:20:57
Denkbar wäre auch, dass die Workstation Karten 32GB VRam bekommen, die Gaming Varianten hingegen weniger. Gerade im Profi-Bereich ist VRAM ja immer knapp...
Das auf jeden Fall. Im Workstation-Bereich sogar gleich 64GB. Man sprach im Leak aber explizit über GeForce-Modelle.
Altehardware
2024-05-25, 05:28:56
Som zur tabelle raster engines sind die tpc nicht gpc
Das mal am rande da tsmc bzw anadtech neue tabelle herausgebracht haben wird die möglichen Takt Steigerungen und Effizienz Verbesserungen im high end ersichtlich ab mcm wird es aber schwieriger zu berechnen daher die Annahme
ab rtx70 mcm 2-4 tiles a64sm oder 2 gpc
chips dann
gx107 laptop Monolith
gx106 2 tiles 128sm
gx104 3 tiles 192sm
gx102 4 tiles 256sm
von n5 auf a16 node der ziemlich sicher sein dürfte für diese gen ab 2027 (mode kommt 2026 raus ehemals n2x)
bis dahin 35% Takt von 3,1ghz n4x auf 4,1ghz -47% Energie = tbp mit 2 tiles 180w tbp
3 tiles 255w tbp und 4 tiles 330w tbp
perf dann
gx106 70 class gpu 112sm 4,1ghz =90tf
gx104 80 class gpu 176sm 4,1ghz= 137tf
gx102 90class gpu 224sm 4,1ghz = 171tf
beim verbrauch kann es sein das durch das mcm etwas Energie verloren geht also grob +15% womit dann
rtx7070 207w tbp 90tf sind
rtx7080 295w tbp
rtx7090 380w tbp
da noch nix zu folgende nodes bekannt ist dürfte sich danach mit Einführung von mbcfet
nochmal die density erhöhen und mit dann folgenden backside die Taktraten nochmal um 15% steigen.
Die 5ghz gpu werden real ab 2029
Dann aber wird nvidia sicher die alu per sm erhöhen den sie müssen es was den Takt sinken lässt aber doppelte alu per sm womit dann ab 2030 damit zu rechne ist
gx206 2 tiles 128sm a256alu 3,0ghz =146tf 215w
gx204 3 tiles 192sm =201tf 310w tbp
gx202 4 tiles 256sm =250tf 400w tbp
Darauf folgen Taktsteigerungen maximal noch +10% also 2032 3,3ghz
Ob dann mit mbcfet noch mehrere gpu schichte gehen ist unklar möglich wäre es also dann 3 fache alu per sm womit dann 384alu per sm wären diesmal ohne Takt Verlust also bei 3,0ghz
dafür aber maximal nur 3 tiles
2 tiles gx304 a384alu = 200tf 215w 2 sku
3 tiles gx302 =300tf 472w tbp 2 sku
Die sku mit 4 tiles würde locker 620w ziehen daher ist das keine option womit man auf den folgenden node wartet a10 um den Takt zu erhöhen erste option oder nochmal um 30% Energie einzusparen damit dies wieder geht
4 tiles dann mit gesenkten verbrauch bei 500w 400tf
nvidia dürfte folgende nodes nutzen
blackwell n4x node akä 4n+ +11% Takt 3,0-3,1ghz
gx102 a16 2027 mcm gaafet +35% Takt 4,0-4,1ghz
gx202 a14 2029 mbcfet 2 layer - 25% Takt 3,0ghz
gx302 a10 2031 mbcfet 3 layer 3,0ghz
ab gx106 kein low end mehr
Gpu ab 600€
Das spiel mit immer mehr alu per sm kann man weiter machen aber irgendwann wird die software das nicht mehr handhaben können und die alu nicht auslasten können primär wegen Datenmangel das zwingt quasi höhere ramtaktraten was Latenz faktisch ist
Dem kann man mit parallelen datenbahnen kontern. Das aber in einen sm zu intrigieren wird schwierig.
Latenz ist hier essentiell da führt kein Weg vorbei an mehr Takt. ansonsten muss man ein 128bit design entwerfen was wieder Probleme mit windows macht 48bit design
mal sehen wohin windows 12 führen wird.
mal ein echtes 64bit design wäre nett dafür müsste man komplett 32bit aufgeben und auf Os interne vm setzen.
Dann könnte man native 64bit gpu entwerfen da diese dann endlich mehr daten parallel verarbeiten könnten
directx hält alles auf wie immer. aber nur so könnte man mehr alu per sm auslasten und 384 ist arg am limit.
Derzeit sind 128alu kein Problem bei maxed 6 renderengines potenziell sind die dreifache Auslastung möglich je mehr alu in einer engines desto besser nur das cpu Limit habe ich mal ausgeklammert den das wird zum problem.
vBulletin®, Copyright ©2000-2025, Jelsoft Enterprises Ltd.