PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : AMD/ATI - Arcturus (7nm, Compute-NextGen, 2020)


Seiten : [1] 2

SKYNET
2018-09-27, 14:45:37
los gehts:
https://www.computerbase.de/2018-09/amd-radeon-gpu-codename-arcturus/

Opprobrium
2018-09-27, 15:05:21
Oder doch nicht?

Update: It appears that the open-source Linux driver may begin seeing new codenames to help in assisting their open-source driver enablement earlier in the cycle without exposing the product/marketing name. It looks like Arcturus is their first chip with this scheme rather than the current family-sequence syntax.

(quelle (https://www.phoronix.com/scan.php?page=news_item&px=AMD-Radeon-Arcturus))

Könnte also sein, daß AMD einfach alternative Codenamen für die Opensourceentwicklung nimmt :smile:

Edit2: Hier mal direktes Zitat der Quelle (https://www.phoronix.com/forums/forum/phoronix/latest-phoronix-articles/1050217-amd-arcturus-might-be-the-codename-succeeding-navi?p=1050253#post1050253)

We are picking randomly within a category (bright stars) so that the name doesn't convey too much information about the product.

Before Polaris/Vega the internal code names were unrelated to the eventual marketing names - we're trying to get back to that for open source driver code to make pre-launch upstreaming easier.

Edit: Trotzdem werden direkt Erinnerungen an Starcraft wach.

iuno
2018-09-27, 15:08:38
Nein, bridgman hat gesagt, dass man zum alten Verfahren zurueck will. D.h. man bekommt wieder Codenamen wie z.B. Hawaii, die mit dem Verkaufsnamen nichts zu tun haben (R9 290X), anstatt Vega10 = Vega 64 vs. "Vega 10".
Erschwerend kommt halt hinzu, dass man frueher die Inseln irgendwelchen Inselgruppen zuordnen konnte. Das scheint jetzt nicht mehr der Fall zu sein, wenn es einfach alles nur noch "helle Sterne" ohne weiteren Zusammenhang sind.
Wo kommt die 2020 her? Selbst wenn da die naechste Gen. nach Navi erscheint ist es zum jetzigen Zeitpunkt auch nur Speku. Vielleicht ist es erst die uebernaechste, oder vielleicht auch ein weiterer Chip der Navi-Gen. Wir wissen doch absolut nichts.

SKYNET
2018-09-27, 15:10:09
Nein, bridgman hat gesagt, dass man zum alten Verfahren zurueck will. D.h. man bekommt wieder Codenamen wie z.B. Hawaii, die mit dem Verkaufsnamen nichts zu tun haben (R9 290X), anstatt Vega10 = Vega 64 vs. "Vega 10".
Wo kommt die 2020 her? Selbst wenn da die naechste Gen. nach Navi erscheint ist es zum jetzigen Zeitpunkt auch nur Speku. Vielleicht ist es erst die uebernaechste, oder vielleicht auch ein weiterer Chip der Navi-Gen. Wir wissen doch absolut nichts.


3DCenter Forum > Diskussions-Foren > Spekulationen > AMD/ATI - Arcturus - 2020

:wink:

iuno
2018-09-27, 15:18:05
zum jetzigen Zeitpunkt auch nur Speku

Aber mit nichts kann man halt schlecht spekulieren. Deshalb habe ich auch nicht gleich gestern diesen Thread hier aufgemacht als bridgman den Namen fallengelassen hat.

Klar koennen wir jetzt wieder ueber "HBM3", droelf CUs, die Goetterdaemmerung von GCN oder 5nm sinnieren. Bringen tut es halt imho zum jetzigen Zeitpunkt nichts.

Ravenhearth
2018-09-27, 15:35:23
Er sagte "The first new codename should be Arcturus". Da wir nach Navi keine weiteren Codenamen kennen, ist es nicht unlogisch anzunehmen, dass der Arcturus-Chip auf die Navi-Generation folgt.
Er könnte höchstens selber ein Navi-Chip sein, wenn dort nicht alle nach dem "Navi10"-Schema benannt werden.

w0mbat
2018-09-27, 18:14:52
https://old.reddit.com/r/Amd/comments/9j88gc/amd_arcturus_might_be_the_codename_succeeding_navi/e6pu7r5/
False alarm, folks. The code names are just something we will be using in the open source driver code, so we can publish code supporting new chips for upstream inclusion before launch without getting tangled up in marketing name secrecy.

Trying to avoid the confusion we have today where we publish new chip support as "VEGA10" and then the product gets marketed as "Vega 56" or "Vega 64". In future the new chip support might get published as something like "MOOSE" and then be marketed as something completely different.

The code names are per-chip not per-generation.

HOT
2018-09-28, 09:54:10
Das heißt doch aber nur, dass der wirkliche Codename für den 2020er Chip noch nicht bekannt ist. Offenbar ist lt. Roadmap für 7+ (also wahrscheinlich 7 EUV) Navi ja tatsächlich gestorben. Der Thread kann mMn also bestehen bleiben, nur der Codename muss ggf. noch mal geändert werden.

w0mbat
2018-09-28, 10:02:42
Ja, Arcturus ist nicht die neue Gen nach Navi, sondern ein uns noch unbekannter zukünftiger Chip. Könnte sogar schon ein Navi Derivat sein.

SKYNET
2018-09-28, 10:09:38
könnte auch der vega nachfolger sein. *mhhh*

Iscaran
2018-09-28, 10:15:13
Fakt ist wohl nur dass Arcturus einen "weiteren" Chip darstellt. ("names per chip not per generation").
Man kann wohl davon ausgehen dass dieser daher "bald" aufschlägt. Sonst würde man ja nicht schon an Treibern dafür arbeiten.

Was Arcturus für ein Chip ist, ist komplett offen.

Meine Vermutung ist dass es entweder ein 7nm "Shrink" /Respin von Vega/Polaris ist, für den Mid-Range bis "high"-Gamer markt, um die Zeit bis Navi (Q3/2019) zu überbrücken.

ODER dass es bereits der interne Codename für den ersten Navi-Chip ist....was aber dann den Releasezeitraum von Navi von Q3/2019 möglicherweise eher nach vorne verlegt.

HOT
2018-09-28, 12:13:56
Ja, Arcturus ist nicht die neue Gen nach Navi, sondern ein uns noch unbekannter zukünftiger Chip. Könnte sogar schon ein Navi Derivat sein.

Es gibt doch die Roadmap, die 2020 nex gen in 7+ aufzeigt. N10 ist der einzige Navi.

Ravenhearth
2018-09-28, 14:19:27
Meine Vermutung ist dass es entweder ein 7nm "Shrink" /Respin von Vega/Polaris ist, für den Mid-Range bis "high"-Gamer markt, um die Zeit bis Navi (Q3/2019) zu überbrücken.
Da der frühestens im Q1 erscheinen könnte, erscheint mir das ziemlich überflüssig, auch angesichts der Kosten von 7nm (Masken!). Da macht es für AMD wohl Sinn, sich auf einige wenige Chips zu beschränken und damit möglichst viel vom Markt abzudecken.
Wenn man unbedingt einen 7nm-Chip als Überbrückung in den Markt schicken will, könnte man auch Vega20 nehmen, aber der ist auch und vor allem durch HBM wohl viel zu teuer, um ihn als Gamer-Karte zu konkurrenzfähigen Preisen zu verkaufen. Im Server-Markt etc. ist der besser aufgehoben. Höchstens noch als Alibi-Karte aka Frontier Edition für semi-professionelle Endanwender. Deswegen denke ich, dass wir vor Navi nichts in 7nm im Gaming-Markt sehen werden.

Langlay
2018-09-28, 22:52:36
Wenn man unbedingt einen 7nm-Chip als Überbrückung in den Markt schicken will, könnte man auch Vega20 nehmen, aber der ist auch und vor allem durch HBM wohl viel zu teuer, um ihn als Gamer-Karte zu konkurrenzfähigen Preisen zu verkaufen.

Kommt drauf an wie schnell Vega20 ist. Wenn sich die Vega20 mit einer 2080 anlegen kann, kann man sie für 799€ vielleicht verkaufen und dabei ein paar Taler Gewinn machen. Riesenstückzahlen bräuchte man dann auch nicht bei dem Preis.

Ravenhearth
2018-09-28, 23:59:38
Ob AMD sich mit dem Preis viele Freunde machen würde, wage ich zu bezweifeln. Und Raytracing hat die auch nicht! :P

Daredevil
2018-09-29, 09:38:27
Fan Service wäre schön was feines.

HOT
2018-09-29, 10:12:38
Wer will denn noch nen Vega, wenn die Konsolen sehr sicher Navis NGG bekommen werden? Da wartet man doch besser noch nen Jahr auf den Navi-Nachfolger oder nimmt eben direkt Navi, der sich preislich sicherlich in Grenzen halten wird. Mittlerweile denke ich doch, dass auch mit Navi 64CUs drin sind bei 7nm. Damit wäre eine FE mit V20 das höchste der Gefühle für den Consumermarkt. Alles darunter bleibt erst mal Polaris und V10 bleibt vorerst mindestens als 56er am Markt (der kommt ja auch von GloFo) und läuft später aus.

SKYNET
2018-09-29, 12:20:35
Kommt drauf an wie schnell Vega20 ist. Wenn sich die Vega20 mit einer 2080 anlegen kann, kann man sie für 799€ vielleicht verkaufen und dabei ein paar Taler Gewinn machen. Riesenstückzahlen bräuchte man dann auch nicht bei dem Preis.


wird eher 599-649€ sein, wenn sie auf dem level der 2080 rendert... letzteres ist auch stark anzunehmen, und wenn die karte dann 12GB oder gar 16GB speicher hat, wird eh niemand mehr ne 2080 kaufen. :biggrin:

Leonidas
2018-11-13, 11:55:35
David Wang von AMD:
AMD wird definitiv auf DirectX RayTracing reagieren.
Es wird keine große Verbreitung von RayTracing-Spielen stattfinden, bevor nicht RayTracing-GPUs für alle Segmente vorhanden sind – vom LowEnd zum HighEnd.
https://www.3dcenter.org/news/amd-wird-definitiv-auf-raytracing-reagieren

BlacKi
2018-11-13, 12:20:59
https://old.reddit.com/r/Amd/comments/9j88gc/amd_arcturus_might_be_the_codename_succeeding_navi/e6pu7r5/
also heißt der kleine navi moose und der große navi arcturus. confimed!:biggrin:

€dit: oh ist schon was älter.

Thunder99
2018-11-13, 12:39:24
Wenn Navi Midrage ist könnte ja Acturus der echte neue High End Enthusiast Chip sein was AMD ja wieder entwickeln will. Muss nicht zu Navi gehören sondern kann wie Vega eigenständig sein ;).

Nebenbei ist GNC quasi am Ende. Was der neue Chip kann wird sich zeigen müssen und wie er aufgebaut ist. Es ist alles möglich weil wir nichts wissen :D

Leonidas
2018-11-14, 05:17:27
Leider ist das alles noch sehr unzusammenhängend und konfus - wie aber immer bei 2 Jahre entfernten Chips.

HOT
2018-11-14, 05:42:07
Sicherlich wird man die gesamte Struktur stark verändern, um deutlich mehr Recheneinheiten zu ermöglichen.

BlacKi
2018-11-14, 10:02:05
Leider ist das alles noch sehr unzusammenhängend und konfus - wie aber immer bei 2 Jahre entfernten Chips.
und ich dachte navi kommt im sommer.

also zb das lowend navi arctrus und moose als midrange navi, so wie lowend polaris polaris11 hieß, und midrange polaris10 ?

HOT
2018-11-14, 11:01:44
Na ja, mit der nächsten Generation wird der Flickenteppich sicherlich aufhören. Da wird man ein komplettes Lineup von unten bis oben designen, also mindestens 4 oder 5 Chips über 2020 und 21 hinweg, in 7 EUV.

w0mbat
2018-11-14, 12:08:31
Ich kann den Zeitraum echt schlecht einschätzen. Vielleicht sehen wir im Sommer wirklich schon den kleinen Navi und dann Ende 2019/Anfang 2020 den großen. Vielleicht kommt der kleine aber doch erst Ende 2019/Anfang 2020 und der große dann später in 2020.

Wir wissen wirklich fast nichts. Das besorgt mich und macht mir Hoffnung zugleich :ugly:

Ich will eine neue GPU, aber keine alte Pascal für viel Geld, keine Vega und keine Turning für die überzogenen Preise. Ich brauche eine klein Navi mit GDDR6, Vega56+ Performance für 300€!

BoMbY
2018-11-14, 12:13:29
Vielleicht sind auch alle WTFtech-Level-Gerüchte bisher großer Unsinn.

HOT
2018-11-14, 13:01:55
Navi für Desktop (meine Güte) ist sicher nur der eine Chip. N14 wird irgendwas mobil oder für Apple sein und N20 wird einfach wieder ne Profivariante sein, wie V20. Navi erschöpft sich sicherlich mit N10, alles weitere wird wirklich neu sein.

BlacKi
2018-11-14, 13:13:01
navi ist doch kein chip oder? navi ist doch die architektur.

Ravenhearth
2018-11-14, 14:37:15
Ich will eine neue GPU, aber keine alte Pascal für viel Geld, keine Vega und keine Turning für die überzogenen Preise. Ich brauche eine klein Navi mit GDDR6, Vega56+ Performance für 300€!
+1

Sunrise
2018-11-14, 14:54:44
...Ich will eine neue GPU, aber keine alte Pascal für viel Geld, keine Vega und keine Turning für die überzogenen Preise. Ich brauche eine klein Navi mit GDDR6, Vega56+ Performance für 300€!
Das ist so ziemlich das Intelligenteste, was ich hier bisher gelesen habe. Ich glaub das müsste man ausdrucken und fett oben anpinnen.

Brillus
2018-11-14, 18:07:20
Navi für Desktop (meine Güte) ist sicher nur der eine Chip. N14 wird irgendwas mobil oder für Apple sein und N20 wird einfach wieder ne Profivariante sein, wie V20. Navi erschöpft sich sicherlich mit N10, alles weitere wird wirklich neu sein.

Eine Zweite Profikarte in 7nm,denk ich eher nicht.

disap.ed
2018-11-15, 15:25:18
Ich will eine neue GPU, aber keine alte Pascal für viel Geld, keine Vega und keine Turning für die überzogenen Preise. Ich brauche eine klein Navi mit GDDR6, Vega56+ Performance für 300€!

Da muss ich auch ein +1 geben

SKYNET
2018-11-15, 17:18:50
Ich will eine neue GPU, aber keine alte Pascal für viel Geld, keine Vega und keine Turning für die überzogenen Preise. Ich brauche eine klein Navi mit GDDR6, Vega56+ Performance für 300€!

der kleinste navi wird wohl eher über der 56er liegen von der performance... immerhin muss er diese ablösen... ;)

BlacKi
2018-11-15, 17:46:33
ah, so wie p11 fiji abgelöst hat, ich verstehe.

SKYNET
2019-07-01, 19:57:24
mhhhhh:
https://www.tomshw.de/2019/07/01/neue-patente-von-amd-geben-einen-ausblick-auf-zukuenftige-gpu-technologien/

Platos
2019-07-01, 20:14:39
Kühlung per Peltier-Element ? Das sollte doch ziemlich viel Strom fressen ?

SKYNET
2019-07-01, 21:25:26
Kühlung per Peltier-Element ? Das sollte doch ziemlich viel Strom fressen ?

tja, das eine geht halt ohne das andere nicht, wies scheint :confused:

Grendizer
2019-07-01, 21:36:55
Was bringt mir eine Karte die Vega 56 Performance für 300 Euro bietet ? Noch eine FHD/WQHD Karte ?

Wäre nicht bezahlbare 4K/60 fps das dringender benötigte ? Das darf dann von mir aus auch bei 499 Euro liegen.

Zergra
2019-07-01, 21:46:40
Was bringt mir eine Karte die Vega 56 Performance für 300 Euro bietet ?

Naja ne Custom V56 gibt es ab 229€, irgendwie macht das keinen Sinn.

iuno
2019-07-16, 01:40:11
AMD baut offenbar was interessantes. Die Patches sind auf https://cgit.freedesktop.org/~agd5f/linux/log/?h=amd-staging-drm-next-arcturus

Was ich beim schnellen Ueberfliegen gesehen habe:

- es gibt 3 IDs ("Arcturus GL-XL")
- gfx908 (Vega-artig)
- die "GPU" soll keine 3D Engine haben
- 8 SDMAs (bisher waren 2 ueblich)
- VCN 2.5 (2x)

Pirx
2019-07-16, 11:18:17
also nix mit NextGen nach Navi, sondern das werden reine Karten zum rechnen, fast wie Coprozessoren(?)

https://www.golem.de/news/arcturus-linux-patches-zeigen-neue-arcturus-karte-von-amd-1907-142579.html

Dino-Fossil
2019-07-16, 12:29:29
Aus AMD's Linux team war eigentlich schon Recht früh verlautet worden, dass wir Arcturus nicht als next-gen Architektur sehen sollten, sondern dass es sich um einen Chip-Codenamen handelt.

Käsetoast
2019-07-16, 12:36:00
Fände ich gut wenn AMD da permanent zwei Teams etabliert wo das Eine sich nur um Computing und das Andere sich nur um Gaming kümmert. Dann muss man sich als Gamer nicht mehr mit so halbgaren Spagatlösungen wie Vega beschäftigen...

Bin auch mal gespannt was AMD da bringt und wie sich das dann gegen NVIDIAs Konzept schlägt...

BoMbY
2019-07-16, 13:30:14
Wurde ja bereits von Wang vor längerer Zeit relativ deutlich gesagt dass man vermutlich zwischen Compute und Gaming diversifizieren wird.

Edit: Das war vor ziemlich genau einem Jahr: https://www.pcgamesn.com/amd-navi-monolithic-gpu-design

Edit2: Scheinbar kommt das aber mit VCN 2.5 - vielleicht ist das auch eher etwas für solche Dinge wie Google's Stadia?

Screemer
2019-07-16, 13:48:43
Edit2: Scheinbar kommt das aber mit VCN 2.5 - vielleicht ist das auch eher etwas für solche Dinge wie Google's Stadia?
davon würde ich jetzt auch ausgehen.

amdfanuwe
2019-07-16, 14:01:34
Edit2: Scheinbar kommt das aber mit VCN 2.5 - vielleicht ist das auch eher etwas für solche Dinge wie Google's Stadia?
Stadia braucht doch eher Gaming Karten?

BoMbY
2019-07-16, 14:47:22
Ja, aber VCN braucht man halt eigentlich nur zum Endcoding von Videos, und das braucht man eher für Gaming und Streaming.

unl34shed
2019-07-16, 17:45:25
Die VCNs können encoding und Decoding, könnte also auch für KI Geschichten sein. Zum Beispiel zur Videoauswertung bzw. Gesichtserkennung im großen Stil (CIA?)

BoMbY
2019-07-16, 21:05:25
Möglich, wobei das vermutlich nicht besonders effektiv wäre. Normalerweise wird das für autonomes Fahren, etc., nicht mit solchen Codecs gemacht.

danarcho
2019-07-16, 21:18:34
Aber es scheint sich zumindest zu bewahrheiten, dass die Chips wieder eigene Codenamen bekommen und nicht mehr durchnummeriert werden...

Locuza
2019-08-13, 05:35:13
Arcturus scheint als MI100 auf den Markt zu kommen und soll 8 Shader-Engines bieten:
> "MI-100 intrinsics"
This is it. When I first saw it, it was a lot of things, but if you look at this data, you can see the 8SE monster of GFX9.
https://twitter.com/KOMACHI_ENSAKA/status/1161053526660767744

iuno
2019-08-13, 09:13:43
Von 128 CUs hat man glaube ich auch schon gelesen, dann bliebe es ja bei 16 CUs/SE. Ich bin mal gespannt, wann und wie das Ding kommt. Ich koennte mir auch vorstellen, dass es eine groessere geplante Installation damit gibt.

Screemer
2019-08-13, 09:26:15
Vega ist auch gfx9, oder? Computer Monster.

w0mbat
2019-08-13, 10:16:36
Ja, GCN wird im HPC ja weiter genutzt während RDNA nur fürs gaming ist. Jetzt, wo sich AMD zwei Architekturen leisten kann. Arcturus wird wohl der Vega20 Nachfolger.

Locuza
2019-08-13, 10:23:54
GCN1 = GFX6
GCN2 = GFX7
GCN3 = GFX8
GCN4/Polaris = GFX8 (Gen 3 und 4 teilen sich das selbe Major GFX-Level)
GCN5/Vega = GFX9
RDNA/Navi = GFX10

Wenn es keine 3D-Engine gibt, dann hat AMD wohl die Rasterizer und ROPs entfernt.
Die TMUs sind vermutlich nach wie vor da, außer AMD hat sich sogar dort noch Aufwand geleistet, dort das Ganze anders umzusetzen.

Das wäre auf jeden Fall ein sehr spezialisierter Beschleuniger, den ich ohne 3D-Engine nicht von AMD erwartet hätte.
Da muss ja eine entsprechende Nachfrage dahinter stecken, um so eine Entwicklung rechtzufertigen.

fondness
2019-08-13, 10:29:13
Das wäre auf jeden Fall ein sehr spezialisierter Beschleuniger, den ich ohne 3D-Engine nicht von AMD erwartet hätte.
Da muss ja eine entsprechende Nachfrage dahinter stecken, um so eine Entwicklung rechtzufertigen.

Naja, das Ding wird als Co-Prozessor alles vernichten was es so am Markt gibt, gerade da GCN ja für solchen Workloads prädestiniert ist. Da wird es schon Nachfragen geben, gerade jetzt wo man auch mit Rome eine passende CPU dazu hat.

mboeller
2019-08-13, 10:47:35
Da muss ja eine entsprechende Nachfrage dahinter stecken, um so eine Entwicklung rechtzufertigen.

https://www.hpcwire.com/2019/05/07/cray-amd-exascale-frontier-at-oak-ridge/

Gipsel
2019-08-13, 11:50:23
Die TMUs sind vermutlich nach wie vor da, außer AMD hat sich sogar dort noch Aufwand geleistet, dort das Ganze anders umzusetzen.Kommt drauf an, wie aufwändig es wäre, die Filtereinheiten rauszunehmen (und gegebenenfalls die De-/Kompressions-Logik). Die TMUs sind in der Summe schon ziemlich groß, wobei ich aber denken würde, daß die Filtereinheiten nicht soo viel Aufwand darstellen (bei reinem Compute aber normalerweise überflüssig sind). Vermutlich könnte man auch noch die TA-Einheiten um die Adressberechnungen für das Speicherlayout von Texturen erleichtern. Texturen werden ja eben meist nicht genutzt (obwohl das Layout wohl manchmal vorteilhaft wäre). Damit bricht man zwar Kompatibilität mit ein paar wenigen Exemplaren existierender Software, aber das tut man durch das Rauskicken der ROPs sowieso schon. Da wäre eventuell ein "Wenn schon, denn schon"-Ansatz besser als was Halbherziges. Keine Interoperabilität mit Grafik-APIs stört nur, wenn man das auf einer Workstation mit gemischten Compute-Visualisierungs-Workload einsetzen wollte. Für einen reinen HPC-Beschleuniger wäre das nicht erforderlich. Dann hätte man das Ganze im Prinzip runtergekocht auf einen massiv parallelen Vektorrechner. Back to the roots sozusagen.

BoMbY
2019-08-14, 15:56:56
Das ist interessant:

EXTEND GPU/CPU COHERENCY TO MULTI-GPU CORES (http://www.freepatentsonline.com/20190243764.pdf) (71 Seiten)

https://pbs.twimg.com/media/EB42gASW4AAOFZM.png:orig

Via Twitter (https://twitter.com/Underfox3/status/1161425683760996352)

Edit: Ist natürlich der falsche Thread - weil das lustigerweise von Intel ist, auch wenn es nach AMD aussieht.

Sunrise
2019-08-14, 19:45:46
Das ist wohl Xe, aka. Raja Koduri.

Summerbreeze
2019-08-19, 13:09:39
Das ist interessant:

EXTEND GPU/CPU COHERENCY TO MULTI-GPU CORES (http://www.freepatentsonline.com/20190243764.pdf) (71 Seiten)

https://pbs.twimg.com/media/EB42gASW4AAOFZM.png:orig

Via Twitter (https://twitter.com/Underfox3/status/1161425683760996352)

Edit: Ist natürlich der falsche Thread - weil das lustigerweise von Intel ist, auch wenn es nach AMD aussieht.
Im Westen nichts neues oder so ähnlich ;)
Haben sie da Larrabee aus der Gruft geholt und auf den Stand der Technik geliftet?
Das ist wohl Xe, aka. Raja Koduri.
Ne, ich glaub nicht. Sonst würde der ja in dem Dokument erwähnt.
Ist auch nur ein Update von älteren Patenten.

Sieht mir etwas nach einer Mischung von Larrabee + Epyc2 in einem Supercomputer wie z.B Frontier aus.
Sollte mich wundern, wenn AMD nicht auch irgendsoetwas in der Pipeline hätte. Vor allem, weil sie bei den CPUs ja mit ihren Chiplets vorne weg marschieren.

Ich bin ja echt mal gespannt, wer zuerst mit so etwas um die Ecke kommt.

reaperrr
2019-10-13, 19:53:18
Ist jemand anwesend, der den Thread-Titel korrigieren könnte? "NextGen nach Navi" ist ja definitiv vom Tisch.

(...)
- 8 SDMAs (bisher waren 2 ueblich)
(...)
Oha, das klingt verdächtig nach 8 HBM2-Stacks/8192bit HBM-SI, also auch hier Verdoppelung von V20.
Das ist schon heftig, würde mich nicht wundern, wenn Nvidia mit dem GV100-Nachfolger höchstens auf 6 Stacks/6144bit setzt (sowas wird ja relativ weit im Voraus festgelegt, also nicht gesagt, dass sie noch auf Arcturus reagieren können), und der auch noch später erscheint als Arcturus.
Mit der Strategie, auf Vega-Basis so schnell wie möglich einen reinen HPC-Beschleuniger zu basteln, könnte AMD einen Volltreffer gelandet haben.

Locuza
2019-10-13, 20:51:19
Der Chip sollte ungefähr so aussehen:
https://abload.de/img/arcturusfinal2m7jf7.png

Im KFD-Treiber zählt AMD die 8 SDMA-Engines, als 2 SDMA-Engines + 6 xGMI- SDMA-Engines:

+ .num_sdma_engines = 2,
+ .num_xgmi_sdma_engines = 6,
https://www.mail-archive.com/amd-gfx@lists.freedesktop.org/msg35824.html

Damit zielt AMD offensichtlich auf bessere Multi-GPU-Unterstützung ab.

Und 8 HBM stacks sehe ich nicht als realistisch an.

Leonidas
2019-10-14, 10:59:09
Ist jemand anwesend, der den Thread-Titel korrigieren könnte? "NextGen nach Navi" ist ja definitiv vom Tisch.


Mach ich gern, wenn sich hier was bestätigt. Ein extra Chip nur für Profi-Einsatz wäre natürlich sehr ungewöhnlich für AMD. Mal schauen, wofür man den noch verwenden kann ...

w0mbat
2019-10-14, 11:16:57
Da AMD jetzt wiedr deutlich mehr Geld für R&D hat machen zwei unterschiedliche design mMn schon Sinn. Ich hatte immer das Gefühl, dass AMD durch den Zwang eine GPU für HPC und gaming zu designen, immer etwas eingeschränkt wurde.

Sieht man auch gut an Navi, ohne den ganzen HPC Ballast ist man plötzlich wieder effizient. Und GCN macht sich schon sehr gut wenn es um HPC geht.

Bucklew
2019-10-14, 11:30:22
AMD hat schlicht keine Kundenbasis für einen speziellen HPC-Chip.

NVIDIA hat sowohl GP100, als auch GV100 LKW-weise zu Amazon, Google, Microsoft & Co gekarrt. Die nehmen AMD zum Großteil nur deshalb auch, weil sie damit ihre SecondSource-Compliance erfüllen.

Linmoum
2019-10-14, 11:48:25
Was du sagst ist nachweislich Quatsch und auch einfach durch AMDs Quartalsergebnisse zu widerlegen, wo man seit längerem immer stetig steigenden Umsatz mit Datacenter-GPUs erzielt. Wohingegen Nvidia in der jüngeren Vergangenheit ja gerne mal am schwächeln war - auch das ließ sich aus den entsprechenden Quartalsberichten ableiten. ;)

Bucklew
2019-10-14, 11:53:00
Was du sagst ist nachweislich Quatsch und auch einfach durch AMDs Quartalsergebnisse zu widerlegen, wo man seit längerem immer stetig steigenden Umsatz mit Datacenter-GPUs erzielt.
Wie hoch ist der Umsatz?

Wohingegen Nvidia in der jüngeren Vergangenheit ja gerne mal am schwächeln war - auch das ließ sich aus den entsprechenden Quartalsberichten ableiten.
Rekordumsatz mit Datacenter hatte man im Q3/19, im Q2/20 ging es wieder bergauf. Scheinst in ner Parallelwelt zu leben.

Leonidas
2019-10-14, 12:34:04
Besser Fakten als Sprüche, oder nicht?

Klar ist, das AMDs Datacenter-Wachstum im Vergleich zu nVidia auf kleiner Flamme stattfindet und selbst wenn nVidia dort mal schwächelt, man dort immer noch massiv größer ist als AMD.

Sicherlich - der Gedanke, das AMD nur als 2. Quelle Zulieferer sein darf, hat was. Dafür lohnt ein eigenes HPC-Design dann wirklich nicht, das müsste sich dann plötzlich wirklich dem Konkurenzkampf stellen. Aber vielleicht denkt man jetzt einfach aggressiver bei AMD.

Und vielleicht spielt hier letztlich auch einfach die Partnerschaft mit TSMC mit rein - früher konnte man bei AMD schließlich nie wissen, ob die hochfliegenden Chipprojekte rechtzeitig fertig wurden und die Schwierigkeiten bei der Chipfertigung in Bezug auf Taktrate & Stromverbrauch nicht am Ende wieder alle Bemühungen zerstörten. Vielleicht ist diese Blockade nun einfach weg - was es AMD einfacher macht, einfach mal durchzuziehen.

Opprobrium
2019-10-14, 12:46:28
Mach ich gern, wenn sich hier was bestätigt. Ein extra Chip nur für Profi-Einsatz wäre natürlich sehr ungewöhnlich für AMD. Mal schauen, wofür man den noch verwenden kann ...

Böse Zungen könnten behaupten Vega sei nur für den Profi Einsatz konzipiert und dann auch für Konsumenten angeboten weil es halt irgendwie ging und der echte Gamingnachfolger noch nicht fertig war :smile:

amdfanuwe
2019-10-14, 13:01:43
Klar ist, das AMDs Datacenter-Wachstum im Vergleich zu nVidia auf kleiner Flamme stattfindet
Bisher hat AMD auch im CPU Bereich auf kleiner Flamme gekocht. Mit ZEN 2 scheinen sie aber einen Knüller zu haben.
Mal abwarten, was kommt und wie es vom Markt angenommen wird.
Dauert halt eine Weile, bis die OEMs ihre Designs fertig haben und in den Massenmarkt gehen.
Vielleicht ist es aber auch nur die Semicustom GPU für CRAY.

Käsetoast
2019-10-14, 13:39:36
Also ich sehe schon Potential für einen eigenen HPC Chip von AMD. In den letzten Jahren hat man irgendwo ja gesehen, dass der Spagat zwischen HPC und Gaming nicht wirklich zufriedenstellend war. Höhepunkt dabei war sicherlich Vega, der für's Cryptomining der geile Scheiß war, aber im Gamingbereich eher enttäuschte...

Aus Sicht von AMD sehe ich da aber neben Datacenters (wo was die Verkaufszahlen angeht sicherlich auch ein Henne-Ei Problem besteht, denn ohne Produkt auf Augenhöhe mit der Konkurrenz werden sich kaum Verkäufe generieren lassen) auch noch einen anderen Markt: Die selbstfahrenden Autos. Hier ist NVIDIA ja auch fleißig dabei spezielle Produkte zu entwickeln. Ich denke AMD hätte hier auch eine Chance sich ein gutes Stück vom Kuchen zu sichern, zumal im Gegensatz zu Datacentern hier der Markt ja noch nicht existent ist, sondern erst in den kommenden Jahren aufgeteilt werden wird. Um auf diesem Sektor mitzumischen bräuchte man aber eine entsprechend effiziente Basis was die GPUs angeht. AMD hätte in diesem Segment ja sogar einen Vorteil als x86 CPU Anbieter, da man hier ggf. effiziente CPUs anbieten kann wo NVIDIA auf (teils alte) ARM Designs zurückgreifen muss. So gesehen bietet dieser Markt also durchaus attraktive Chancen für AMD und sind wir mal ehrlich: Wenn sich selbstfahrende Autos wirklich etablieren, wird man da enorme Stückzahlen absetzen können. Wäre für AMD dann wie bei den Konsolen ein neues Standbein...

So gesehen fände ich es gut, wenn AMD sich da GPU technisch aufteilt in einen Gaming Sektor und einen HPC / Automotive Sektor die getrennt voneinander GPUs entwickeln wegen der doch stark unterschiedlichen Anforderungen. Gerade wo jetzt Machine Learning der Hype ist und das für den Automotive Bereich ja auch enorm wichtig ist macht es umso mehr Sinn das aufzuteilen, denn die ML-Einheiten dürften im Gaming Sektor kaum nutzbar sein...

Leonidas
2019-10-14, 14:19:40
Die selbstfahrenden Autos. Hier ist NVIDIA ja auch fleißig dabei spezielle Produkte zu entwickeln.


Dafür müsste sich AMD aber sputen. Da geht der Absatz über wenige bekannte Automarken, die allesamt schon NV kennen und für die AMD no-name ist. Vor allem wollen die belastbare Produkte und keinen Neueinsteiger-Problemfall. Das ist ein deutlich schwierigeres Terrain als alles andere.

Bucklew
2019-10-14, 14:22:35
Dafür müsste sich AMD aber sputen. Da geht der Absatz über wenige bekannte Automarken, die allesamt schon NV kennen und für die AMD no-name ist. Vor allem wollen die belastbare Produkte und keinen Neueinsteiger-Problemfall. Das ist ein deutlich schwierigeres Terrain als alles andere.
Zumal NVIDIA ein komplettes Produkt inklusive Software-Stack und SDK liefert.

AMD hat da absolut nichts vergleichbares jemals geschafft zu liefern.

Käsetoast
2019-10-14, 14:35:07
Ist schon richtig, aber noch ist der Zug nicht abgefahren meiner Meinung nach. Um da noch den Fuß in die Tür zu kriegen braucht man aber eben auch eine überzeugende Lösung und da wird man mit der Abwandlung einer Gaming GPU meiner Meinung nach keinen Blumentopf gewinnen. Ich sehe hier für AMD halt Potential, weil sie ähnlich wie bei Konsolen durch ihre CPU Sparte etwas anbieten können was außer Intel vielleicht (wobei deren GPU Zukunft ja noch in den Sternen steht) sonst niemand kann. Auch sind hier die Würfel ja noch nicht final gefallen. Klar ist NVIDIA da schon recht präsent, aber ich denke irgendwann wird es eine Art Zertifizierung geben was die Hardware leisten können muss und wenn AMD es da dann schafft das ansprechendere Produkt zu bieten (wie sie es bei den Konsolen ja mehrmals geschafft haben), dann kann man sich noch ein gutes Stück vom Kuchen sichern. Idealerweise müsste man natürlich zügig auch jetzt im Entwicklungsprozess stärker präsent sein. Mal schauen was sich in der Richtung noch tut...

Bucklew
2019-10-14, 14:42:35
Ich sehe hier für AMD halt Potential, weil sie ähnlich wie bei Konsolen durch ihre CPU Sparte etwas anbieten können was außer Intel vielleicht (wobei deren GPU Zukunft ja noch in den Sternen steht) sonst niemand kann.
NVIDIA bietet es genauso, nur auf ARM-Basis.

Für ein embedded System im Automotive auch überhaupt kein Problem, da ist viel ARM-basierend.

reaperrr
2019-10-14, 14:56:19
Mach ich gern, wenn sich hier was bestätigt. Ein extra Chip nur für Profi-Einsatz wäre natürlich sehr ungewöhnlich für AMD. Mal schauen, wofür man den noch verwenden kann ...
Naja, dass Arcturus noch auf Vega basiert und 128 CUs hat, geht mittlerweile eindeutig aus dem Treiber hervor, damit ist "NextGen nach Navi" so oder so falsch, weil es kein Architektur- sondern ein Chipname und zudem sogar noch ne ältere Architektur ist.
Und dass der als Gaming-Chip verwurstet wird halte ich für ausgeschlossen. Ein Navi mit 80 CUs wäre in Spielen wahrscheinlich schon schneller und hätte weniger Transistoren (analog zu N10 vs. V10), zumal es schon sehr glaubwürdig ist, dass Arcturus um 3D-Fähigkeiten erleichtert wurde, um Platz und Energie zu sparen.

Käsetoast
2019-10-14, 15:31:19
NVIDIA bietet es genauso, nur auf ARM-Basis.

Für ein embedded System im Automotive auch überhaupt kein Problem, da ist viel ARM-basierend.
Mein Wissensstand ist der, dass zum einen NVIDIA seit ihren Denver Cores an den von ihnen benutzten Arm CPUs nichts mehr verbessert hat. Zum anderen ist zumindest momentan in der Entwicklungsphase CPU Power wohl auch recht gefragt (mehr Cores sind da nicht immer die Lösung) - für das finale Produkt könnte das natürlich abnehmen. AMD hätte mit ihren Zen CPUs da viel Potential für mehr Power per Core und zumindest verglichen mit Arm CPUs die so viel Leistung bringen sollen wie möglich ist die x86 Effizienz im Vergleich gar nicht mal so schlecht. Das wäre ggf. halt interessant für diesen Bereich, nur muss halt auch die GPU Seite inklusive der ML-Einheiten up-to-date und effizient sein...

Was bleibt ist vielleicht die Frage nach den Toolsets. Wenn die Entwickler sich so sehr auf ARM eingeschossen haben, dass sie nicht einfach auf einen x86 Compiler wechseln können, wäre das natürlich ein KO Kriterium für x86...

Ich würde AMD da gerne als in diesem Markt Beteiligten sehen. Halte ich für vielversprechender als sich in einem bereits etablierten Markt durchzusetzen und im Grunde genommen müsste man dabei ja nur den gleichen Ansatz wie für den Konsolenmarkt fahren nur eben mit einer GPU / Einheiten für neuronale Netzen wie der Automotive Sektor sie verlangt...

Bucklew
2019-10-14, 15:49:38
Mein Wissensstand ist der, dass zum einen NVIDIA seit ihren Denver Cores an den von ihnen benutzten Arm CPUs nichts mehr verbessert hat.
Da solltest du dich besser nochmal einlesen:
https://en.wikichip.org/wiki/nvidia/microarchitectures/carmel

Es ist aber auch klar, dass NVIDIA den ARM core im Grunde nur für das OS nutzt und fast alles an Berechnung auf der GPU treibt. Daher ist die Weiterentwicklung der ARM-COoes ziemlich zweitrangig.

Zum anderen ist zumindest momentan in der Entwicklungsphase CPU Power wohl auch recht gefragt (mehr Cores sind da nicht immer die Lösung)
Ich sehe keinen Sinn darin, x86 bei einem embedded System einzusetzen, das nicht PC-ähnlich ist (ThinClient z.B.). Eigentlich ist fast alles, was so im Auto eingesetzt wird, sei es fürs Autonome Fahren oder für Infotainment ARM.

Es will da auch niemand CPU-Power um jeden Preis. Im Gegenteil, häufig werden die Consumer-SoCs deutlich von der Leistung herunter gefahren (weniger Takt, weniger Cores), um weniger Leistungsaufnahme zu haben.

iuno
2019-10-14, 16:04:17
Nvidias GPUs sind auf Dauer eh nicht effizient genug fuer reine Inferencing Anwendungen. Die grossen Anwender von NN bauen eigene, bessere Hardware. Also wen juckts?

|MatMan|
2019-10-14, 17:53:26
IMO denken hier viele noch zu sehr "in Hardware". Die Software verkauft die Hardware und da ist AMD einfach immernoch weit hinter nVidia. Die Unterstützung von pytorch und tensorflow ist wohl eher experimentell und nicht Production ready. Warum sollte also jemand große Mengen an AMD GPUs kaufen, wenn diese bei typischen Deep Learning Anwendungen noch nicht stabil bzw. nicht mit der aktuellen Version funktionieren? Da muss man einfach zugestehen, dass nVidia deutlich weiter ist, wie generell bei CUDA vs. OpenCL...
Ja in Zukunft wird alles besser, aber wann??

Leonidas
2019-10-14, 18:17:47
Naja, dass Arcturus noch auf Vega basiert und 128 CUs hat, .


Sicher, das es ein Chip ist? Insbesondere für HPC-Aufgaben könnte man dafür doch locker 2x Vega 20 verwenden, anstatt extra was neues aufzulegen.

Unicous
2019-10-14, 18:35:11
Liest du diesen Thread nicht? Insbesondere die erste Seite?:confused:

robbitop
2019-10-14, 18:37:37
Anandtech hatte sich Xavier incl. Carmel angeschaut: https://www.anandtech.com/show/13584/nvidia-xavier-agx-hands-on-carmel-and-more/5

Besser als Denver aber gemessen an modernen Cores von ARM relativ mittelmäßig. Naja und Apple lässt in SPEC seitens der Performance alles stehen.

iuno
2019-10-14, 18:39:20
Warum sollte also jemand große Mengen an AMD GPUs kaufen, wenn diese bei typischen Deep Learning Anwendungen noch nicht stabil bzw. nicht mit der aktuellen Version funktionieren?
Warum sollte jemand grosse Mengen an Nvidia GPUs kaufen/mieten wenn er mit Google TPUs bei typischen DL Anwendungen viel mehr Leistung fuer viel weniger Geld bekommt?
https://cloud.google.com/images/products/tpu/machine-learning-performance.png
Klar, das ist jetzt nur Marketing-Aussagen kopiert, aber der Trend ist klar. (GP)GPUs haben bei DL keine Zukunft. Tesla baut z.B. auch schon eigene Beschleuniger, die deutlich effizienter sind, und das ohne vorherige Chipferfahrung.

Da muss man einfach zugestehen, dass nVidia deutlich weiter ist, wie generell bei CUDA vs. OpenCL...
Ja, durch massive Blockadepolitik im Quasi-Monopol. Nvidia hat sich fuer OpenCL 1.2 Unterstuetzung einfach mal 4 Jahre Zeit gelassen. CL2.0 (von 2013!) unterstuetzen sie bis heute nicht. Es gibt keinen Grund, das auch noch zu feiern.

|MatMan|
2019-10-15, 01:42:24
Warum sollte jemand grosse Mengen an Nvidia GPUs kaufen/mieten wenn er mit Google TPUs bei typischen DL Anwendungen viel mehr Leistung fuer viel weniger Geld bekommt?
https://cloud.google.com/images/products/tpu/machine-learning-performance.png
Klar, das ist jetzt nur Marketing-Aussagen kopiert, aber der Trend ist klar. (GP)GPUs haben bei DL keine Zukunft. Tesla baut z.B. auch schon eigene Beschleuniger, die deutlich effizienter sind, und das ohne vorherige Chipferfahrung.
Man wird sehen wer es sich wie lange leisten kann, selbst reine DL-Beschleuniger zu bauen. Die Chipentwicklung wird nunmal immer teurer. nVidia (und AMD) bauen ohnehin GPUs mit schnellen Speicherinterfaces, die können sie auch in anderen Märkten verkaufen. Die Fähigkeit für DL ist bei den GPUs eben nur ein Feature unter vielen. Bei reinen TPUs geht das eben nicht. Die großen Player wie Google können sich das natürlich leisten.
Gerade die dual-use Fähigkeit kann es für Rechenzentren interessanter machen, lieber GPUs zu kaufen. Da können eben noch andere Dinge berechnet werden, wenn keine Netze trainiert werden.

Aktuell werden nVidia GPUs gekauft, weil DL damit gut funktioniert (neben anderen Compute-Anwendungen). Das ist bei AMD zur Zeit leider noch nicht so.
Dein Argument mit Google's TPU trifft übrigens genauso AMD (und Intel).

Ja, durch massive Blockadepolitik im Quasi-Monopol. Nvidia hat sich fuer OpenCL 1.2 Unterstuetzung einfach mal 4 Jahre Zeit gelassen. CL2.0 (von 2013!) unterstuetzen sie bis heute nicht. Es gibt keinen Grund, das auch noch zu feiern.
So ein Quatsch, sorry. Man kann die Schuld natürlich immer jemand anderem zuschieben. AMD hat nicht im Ansatz so viel in OpenCL investiert, wie nVidia in CUDA. Die CUDA Tools waren und sind einfach um Längen besser. Das muss man IMO anerkennen.
Ich feiere die CUDA Dominanz auf keinen Fall. Das Interesse an OpenCL war durchaus da, leider kam dann viel zu wenig von AMD. Die Leute mussten z.B. eine FFT selbst implementieren, während es die bei CUDA komplett durchoptimiert für verschiedene GPUs einfach mit dazu gab.

Genau deshalb nervt es mich, dass AMD bei DL auch wieder spät dran ist. Es braucht nicht noch ein Marktsegment, welches nVidia dominiert.

iuno
2019-10-15, 02:49:55
"Immer teurer" ist doch Unsinn. Nvidia hat absurd fette Margen und wenn man es mit weniger Materialaufwand schafft, auch noch deutlich effizienter zu sein, dann hat sich das bei einer grossen Installation bald.
Und wer soll staendig so hohen Bedarf an vielseitigen Tasks haben, ausser die grossen Cloud Anbieter, die die Rechenzeit vermieten, die es sich, laut deiner eigenen Aussage, ohnehin leisten koennen?
Ja, DL auf GPUs ist nur noch interessant, wenn man die GPUs eh schon hat, sonst nicht. Jetzt haben sie mit ihrer ganzen Plattform vielleicht noch einen Vorteil, aber solange sie nicht noch anfangen, reinen DL-Beschleuniger zu bauen, verlieren sie.

Dein Argument mit Google's TPU trifft übrigens genauso AMD (und Intel).
Und jetzt? Ich habe nicht behauptet, AMD oder intel werden noch den DL Markt aufmischen. Das Gegenteil ist der Fall. Ich faende es ziemlich schwachsinnig, wenn sie jetzt noch stark in den Bereich investieren wuerden.

So ein Quatsch, sorry. Man kann die Schuld natürlich immer jemand anderem zuschieben.

Natuerlich weise ich Nvidia die Schuld zu. Die sind die einzigen, die CL haetten relevant machen koennen. Dass das fuer die wirtschaftlich keinen Sinn gemacht haette, ist auch klar.

AMD hat nicht im Ansatz so viel in OpenCL investiert, wie nVidia in CUDA.
Natuerlich hat AMD hat in der Zeit nichts gebacken bekommen. Die haben da aber auch kein Geld verdient, Nvidia dagegen zuhauf.

Bucklew
2019-10-15, 09:04:06
Warum sollte jemand grosse Mengen an Nvidia GPUs kaufen/mieten wenn er mit Google TPUs bei typischen DL Anwendungen viel mehr Leistung fuer viel weniger Geld bekommt?
Weil du deine HW vielleicht auch für was Anderes als DL nutzt, dann ist DL-only HW ziemlich sinnlos.

Klar, das ist jetzt nur Marketing-Aussagen kopiert, aber der Trend ist klar.
Du ignorierst, dass es a) mehr als DL gibt und b) DL-spezifische Hardware natürlich nicht anderweitig genutzt werden kann.

Ja, durch massive Blockadepolitik im Quasi-Monopol. Nvidia hat sich fuer OpenCL 1.2 Unterstuetzung einfach mal 4 Jahre Zeit gelassen. CL2.0 (von 2013!) unterstuetzen sie bis heute nicht. Es gibt keinen Grund, das auch noch zu feiern.
Sie haben auch CUDA, warum sollte OpenCL da irgendeine Priorität haben?

Professionell wird sowieso fast nirgendwo OpenCL genutzt. Die nehmen CUDA und gut.

N0Thing
2019-10-15, 11:22:01
Mach ich gern, wenn sich hier was bestätigt. Ein extra Chip nur für Profi-Einsatz wäre natürlich sehr ungewöhnlich für AMD. Mal schauen, wofür man den noch verwenden kann ...

AMD liefert ja die GPUs für Stadia an Google, evtl. wurde in dem Zusammenhang auch schon für die Zukunft etwas vereinbart, was die Entwicklung eines reinen HPC-Chip rechtfertigt.
Mit einem Chip, der sowohl für die Berechnung von Spielen, als auch für wissenschaftliche, oder sonstige Zwecke geeignet ist, kann man die Auslastung der Rechenzentren hoch halten.

|MatMan|
2019-10-15, 11:41:21
"Immer teurer" ist doch Unsinn.
Schau dir doch nur mal die Projektionen für Design- Herstellungskosten für die 7nm Prozesse und nachfolgende Prozesse an. Wirklich billiger wird es wohl nicht mehr.

Nvidia hat absurd fette Margen und wenn man es mit weniger Materialaufwand schafft, auch noch deutlich effizienter zu sein, dann hat sich das bei einer grossen Installation bald.
Durch die fetten Margen könnten sie halt auch im Preis runter gehen, wenn sie wollen würden oder es für nötig halten.
Ob Google sich groß zum DL-Hardware Hersteller aufschwingen will, wird sich zeigen. Ob Amazon und Microsoft eigene DL-Hardware bauen, weiß ich gar nicht, zumindest habe ich davon bisher bewusst nichts mitbekommen. Eine Zeit lang werden GPUs da also schon noch gefragt sein.

Und wer soll staendig so hohen Bedarf an vielseitigen Tasks haben, ausser die grossen Cloud Anbieter, die die Rechenzeit vermieten, die es sich, laut deiner eigenen Aussage, ohnehin leisten koennen?
Ja, DL auf GPUs ist nur noch interessant, wenn man die GPUs eh schon hat, sonst nicht. Jetzt haben sie mit ihrer ganzen Plattform vielleicht noch einen Vorteil, aber solange sie nicht noch anfangen, reinen DL-Beschleuniger zu bauen, verlieren sie.
Es gibt schon noch einen Markt abseits von Google, Microsoft, Amazon und Facebook. Es gibt unzählige kleinere Anwendungsfälle für DL, nicht jeder macht das in der Cloud (auch aus Gründen der Hoheit über die Daten). Die DGX-Systeme von nVidia verkaufen sich auch. In meinem Arbeitsumfeld benutzt jeder GPUs für DL, und da werden auch neue gekauft.

Und jetzt? Ich habe nicht behauptet, AMD oder intel werden noch den DL Markt aufmischen. Das Gegenteil ist der Fall. Ich faende es ziemlich schwachsinnig, wenn sie jetzt noch stark in den Bereich investieren wuerden.
Tja scheinbar finden das AMD und Intel nicht so schwachsinnig.

Natuerlich weise ich Nvidia die Schuld zu. Die sind die einzigen, die CL haetten relevant machen koennen. Dass das fuer die wirtschaftlich keinen Sinn gemacht haette, ist auch klar.
Hätte AMD genauso viel in OpenCL investiert, wie nVidia in CUDA, dann wären die Chancen nicht schlecht gewesen, dass nVidia eingeknickt wäre, wie bei G-Sync. Im Kapitalismus einer Firma vorzuwerfen, nicht an die Allgemeinheit zu denken, finde ich persönlich vergebene Mühe. Wir haben nunmal keine Planwirtschaft.

Natuerlich hat AMD hat in der Zeit nichts gebacken bekommen. Die haben da aber auch kein Geld verdient, Nvidia dagegen zuhauf.
Weil AMD auf Grund von Managementfehlern nichts gebacken bekommt, soll nVidia was verschenken? In welcher Welt lebst du?

robbitop
2019-10-15, 12:18:42
Ich kann mir gut vorstellen, dass multi-purpose Produkte für keinen Anwendungszweck das Maximum aus der Chipfläche holen. Jack of all trades, but master of none.
Für Inferencing und Training scheinen Matrixoperationen super wichtig zu sein. Entsprechend sollte ein ASIC, der möglichst viel TOPS hat und sicherlich möglichst hohe Datenlokalität sehr gut sein. GPUs haben sicherlich auch eine Menge Chipfläche in Hardwarestrukturen investiert, die spezifisch für 3D Grafik sind.
Es gibt ja auch eine ganze Menge Computetasks abseits von Machine Learning (auch wenn das gerade der große Wachstumsmarkt ist). Dort kommt es sicherlich häufig auf rohe FP Leistung, viel VRAM und viel Bandbreite an. Auch dort wird der Teil, der spezifisch für 3D ist sicherlich zum Teil nicht benötigt (TMUs, Rasterizer etc).
Arkturus scheint mir mehr in diese Richtung zu gehen.

Ggf. ist es sinnvoll sich voll für eine Richtung zu entscheiden und möglichst wenig Kompromisse einzugehen, um das best mögliche Produkt in dem jeweiligen Teilmarkt zu erhalten. Gerade AMD kann nicht auf allen Hochzeiten tanzen. Im DL Markt sind mMn auch schon zu viele Produkte, die schwer zu toppen sind. Und es werden ja durch spezfische ASICs immer mehr.

Arkturus sieht mir so aus, als wenn man sich entschieden hat, ein möglichst gutes Compute Produkt zu schaffen. Möglichst viel Logik raus die man nicht braucht und möglichst viel Rechenleistung rein. Da war GCN schon immer relativ gut drin. Insofern sicherlich eine gute Basis um diese in Richtung Compute zu bewegen.
Sicherlich muss man auch darauf achten, dass man im gleichen Zug die Softwareseite fokussiert, so dass die Endnutzer/Entwickler die HW entsprechend gut nutzen können.

Da war NV sehr weitsichtig mit Cuda in 2006. Jetzt gilt es hier in OpenCL möglichst gleich zu ziehen.

basix
2019-10-15, 14:29:32
Nicht nur OpenCL. Ich würde mir so etwas ähnliches wie die CuPy Bibliothek von Nvidia wünschen (https://docs-cupy.chainer.org/en/stable/), viele wissenschaftliche Themen werden gerne mit Python bearbeitet.

GPU Beschleunigung für Python wäre genial:

Supercomputer für wissenschaftliche Aufgaben wie z.B. Frontier
Berufliches Umfeld: Workstations mit APUs -> Heterogeneous Computing -> Datenanalyse & Simulation. So ein Produkt kann Nvidia nicht bieten, Intel allenfalls schon.

Berniyh
2019-10-15, 16:29:02
Zumindest scheint das Interesse an AMDs Computing Lösungen groß genug sein, dass man Vega in 7nm neu aufgelegt hat.
Das hätte man wohl kaum gemacht, wenn kein Interesse bestanden hätte.

Und auch bei den diversen Supercomputern die geplant werden werden Computing Lösungen von AMD verbaut.
Ob das nun Arcturus ist oder Vega weiß man natürlich nicht, aber wahrscheinlich ist es schon, dass da Arcturus zum Einsatz kommt.

Ansonsten hat AMD gerade im Bereich Software in den letzten 5-10 Jahren die Grundlagen für viele Verbesserungen geschaffen, siehe z.B. ROCm.

iuno
2019-10-15, 16:42:02
Schau dir doch nur mal die Projektionen für Design- Herstellungskosten für die 7nm Prozesse und nachfolgende Prozesse an. Wirklich billiger wird es wohl nicht mehr.
Ja und Nvidia betrifft das nicht?
Zumal man weniger Flaeche braucht und mit aelterem Prozess konkurrenzfaehig ist. Die erste TPU Generation ist 28nm und voellig ausser Schlagweite von Pascal, der in 16nm auch noch doppelt so gross ist. Klar ist das nur ein Inferencing Chip, aber die Richtung ist klar.

Ob Google sich groß zum DL-Hardware Hersteller aufschwingen will, wird sich zeigen. Ob Amazon und Microsoft eigene DL-Hardware bauen, weiß ich gar nicht, zumindest habe ich davon bisher bewusst nichts mitbekommen. Eine Zeit lang werden GPUs da also schon noch gefragt sein.
Google wird das Zeug sicherlich nicht verkaufen, aus naheliegenden Gruenden. Und wenns bei Google viel mehr Leistung fuer viel weniger Geld gibt, muessen sich MS und Amazon (und Nvidia, falls sie da noch mitspielen wollen) halt auch was einfallen lassen.

Es gibt unzählige kleinere Anwendungsfälle für DL, nicht jeder macht das in der Cloud (auch aus Gründen der Hoheit über die Daten). Die DGX-Systeme von nVidia verkaufen sich auch. In meinem Arbeitsumfeld benutzt jeder GPUs für DL, und da werden auch neue gekauft.
Datenhoheit interessiert ausserhalb von D/EU fast keine Sau, und auch hier zunehmend weniger. Vielleicht kommt es selten mal vor, aber es gab auch immer ein Projekte, die dann eben doch CL genutzt haben. Zaehlt also nach deiner Argumentationskette wohl kaum.

Tja scheinbar finden das AMD und Intel nicht so schwachsinnig.
Es kommt halt darauf an, wie viel Aufwand man treibt. Wenn man laufend nur ein bisschen was investiert, kann man das Geld genausogut verbrennen. Wie du schon selbst festgestellt hast, ist es eine Frage der Plattform. Man kann schonmal ein paar DL Instruktuionen einbauen, nur bringt das halt nichts. Seit Jahren krebst der ganze ROCm HIP Kram irgendwo rum und lockt keinen hinterm Ofen hervor. Das wird sich auch nicht aendern, wenn man ploetzlich mit Nvidias tensor units aufschliessen wuerde.
Weil jetzt CUDA laengst etabliert ist und es jetzt ASIC Konkurrenz gibt. Man muesste also mal mehr investieren, als Nvidia in den ganzen Kram gesteckt hat, nur hat man das Geld ueberhaupt nicht.

Ich traue sogar Intel zu, mit ihren GPUs und one API in kurzer Zeit relevanter zu werden als AMD es mit ROCm ist.

Hätte AMD genauso viel in OpenCL investiert, wie nVidia in CUDA, dann wären die Chancen nicht schlecht gewesen, dass nVidia eingeknickt wäre, wie bei G-Sync. Im Kapitalismus einer Firma vorzuwerfen, nicht an die Allgemeinheit zu denken, finde ich persönlich vergebene Mühe. Wir haben nunmal keine Planwirtschaft.

Weil AMD auf Grund von Managementfehlern nichts gebacken bekommt, soll nVidia was verschenken? In welcher Welt lebst du?
Und was haetten sie investieren sollen, ohne Mittel?

Ich dachte zumindest In einer Welt zu leben, in der man Leuten das Lesen zutrauen kann. Und du?

[Nvidia] sind die einzigen, die CL haetten relevant machen koennen. Dass das fuer die wirtschaftlich keinen Sinn gemacht haette, ist auch klar.

Das trifft auf Bucklew genauso zu. Lies bitte erstmal aufmerksam wenn du antworten willst, sich wiederholen zu muessen ist langweilig.

aufkrawall
2019-10-15, 17:09:52
Ich traue sogar Intel zu, mit ihren GPUs und one API in kurzer Zeit relevanter zu werden als AMD es mit ROCm ist.

CUDA lässt sich immerhin zunehmend auf NEO wrappen.

|MatMan|
2019-10-15, 18:35:53
Ja und Nvidia betrifft das nicht?
Zumal man weniger Flaeche braucht und mit aelterem Prozess konkurrenzfaehig ist. Die erste TPU Generation ist 28nm und voellig ausser Schlagweite von Pascal, der in 16nm auch noch doppelt so gross ist. Klar ist das nur ein Inferencing Chip, aber die Richtung ist klar.
Wie oben schon geschrieben entwickelt nVidia für andere Märkte (Gaming!) ohnehin GPUs. Der Schritt die auch zu einem brauchbaren DL-Beschleuniger zu machen ist relativ klein. Deshalb amortisiert sich die Entwicklung einfacher bzw. ist das Risiko geringer.
Damit das Training großer Netze auch skaliert, muss man mehrere GPUs zusammenschalten, dafür hat nVidia NVLink entwickelt und lässt sich das fürstlich bezahlen. TPUs zum Training würden auch so einen Highspeed Interconnect benötigen. Das schüttelt man nicht mal eben so aus dem Handgelenk.
Reines Inferencing ist relativ trivial, aber dafür werden die GPU Cluster in der Regel auch nicht gekauft. Trotzdem bleibt Inferencing auf GPUs interessant. Eine GPU hat man eh im Rechner, dann kann die für einfachere Probleme auch Inferencing mitmachen, da muss man nicht unbedingt extra Spezialhardware kaufen. Im Consumer Segment sehe ich da in Zukunft schon Bedarf.

Google wird das Zeug sicherlich nicht verkaufen, aus naheliegenden Gruenden. Und wenns bei Google viel mehr Leistung fuer viel weniger Geld gibt, muessen sich MS und Amazon (und Nvidia, falls sie da noch mitspielen wollen) halt auch was einfallen lassen.

Datenhoheit interessiert ausserhalb von D/EU fast keine Sau, und auch hier zunehmend weniger. Vielleicht kommt es selten mal vor, aber es gab auch immer ein Projekte, die dann eben doch CL genutzt haben. Zaehlt also nach deiner Argumentationskette wohl kaum.
Es wird sich zeigen ob wirklich jeder alles nur noch in der Cloud macht. Ich nehme an, dass es für die nächsten 5 Jahre auf jeden Fall noch einen lohnenswerten Markt für GPUs im DL-Bereich gibt.

Es kommt halt darauf an, wie viel Aufwand man treibt. Wenn man laufend nur ein bisschen was investiert, kann man das Geld genausogut verbrennen. Wie du schon selbst festgestellt hast, ist es eine Frage der Plattform. Man kann schonmal ein paar DL Instruktuionen einbauen, nur bringt das halt nichts. Seit Jahren krebst der ganze ROCm HIP Kram irgendwo rum und lockt keinen hinterm Ofen hervor. Das wird sich auch nicht aendern, wenn man ploetzlich mit Nvidias tensor units aufschliessen wuerde.
Das ist genau meine Aussage von weiter oben. Ohne auf der Software-Seite massiv aufzurüsten, bringt es praktisch nichts spezialisierte GPUs zu bringen.

Weil jetzt CUDA laengst etabliert ist und es jetzt ASIC Konkurrenz gibt. Man muesste also mal mehr investieren, als Nvidia in den ganzen Kram gesteckt hat, nur hat man das Geld ueberhaupt nicht.
Das sehe ich nicht so. AMD müsste nur erst einmal die typischen DL Tools (tensorflow, etc. ) stabil zum laufen bekommen und vor allem auch pflegen. Dann benutzen das schon Leute. Die Nachfrage ist da. CUDA mit allem drum und dran muss AMD dafür gar nicht nachbauen.

Ich traue sogar Intel zu, mit ihren GPUs und one API in kurzer Zeit relevanter zu werden als AMD es mit ROCm ist.
Ohne entsprechenden Software-Support geht auch da nichts. Den traue ich Intel allerdings auch eher zu.

Und was haetten sie investieren sollen, ohne Mittel?
Soetwas ist immer eine Frage der Verteilung. IMO hätten sie sich z.B. lieber das Geld für die Fury gespart und es stattdessen in Software (und Vega) investiert.

Ich dachte zumindest In einer Welt zu leben, in der man Leuten das Lesen zutrauen kann. Und du?
Auch wenn du deine Aussage 2x postest, ergibt sie nicht mehr Sinn. OpenCL war nicht nVidia's Initiative, sondern eher von AMD und anderen. Also ist es auch an denen es erfolgreich zu machen. nVidia hat nichts zu verschenken. Die sitzen in einer relativ kleinen Nische und könnten von einem starken AMD und einem starken Intel recht schnell aus dem PC Markt gedrängt werden. Die müssen unbedingt Geld verdienen. Deswegen kotzt mich die Preispolitik trotzdem an, besonders mit Turing.

iuno
2019-10-15, 18:59:09
CUDA lässt sich immerhin zunehmend auf NEO wrappen.
Ah, das wusste ich noch gar nicht.

Damit das Training großer Netze auch skaliert, muss man mehrere GPUs zusammenschalten, dafür hat nVidia NVLink entwickelt und lässt sich das fürstlich bezahlen. TPUs zum Training würden auch so einen Highspeed Interconnect benötigen. Das schüttelt man nicht mal eben so aus dem Handgelenk.
Google schon. Hast du dir mal die Daten der 2. und 3. Generation der TPUs angeschaut?
Die Dinger haben 180/420 TFLOPS und 64/128 GiB HBM. In einem Pod werden 64/256(?) Units zusammengesteckt. Die Dinger sind schon mit "high-speed" vernetzt, auch wenn es keine genauen Angaben dazu gibt. Zugegeben, vermutlich ist es nicht so schnell wie NVLink, muss es aber auch nicht, wenn es fuer den Anwendungsbereich reicht und dafuer viel mehr von den Teilen vernetzen kann. TPU Pods sind V100 mit NVLinks in dem Bereich haushoch ueberlegen.


Reines Inferencing ist relativ trivial, aber dafür werden die GPU Cluster in der Regel auch nicht gekauft. Trotzdem bleibt Inferencing auf GPUs interessant. Eine GPU hat man eh im Rechner, dann kann die für einfachere Probleme auch Inferencing mitmachen, da muss man nicht unbedingt extra Spezialhardware kaufen. Im Consumer Segment sehe ich da in Zukunft schon Bedarf.
Jetzt reden wir aber von ganz anderen Dingen. Schon Smartphone SoCs haben "schnelles" inferencing. Klar kann es nicht schaden, hier ein bisschen was zu haben. Wobei ich bei da auch bei Consumer-Software wenig Zukunft sehe. Man hat doch heute noch kaum CUDA/CL Software. Selbst uralter Kram wie Videobeschleunigung in Hardware ist immer noch ein Krampf, einfach nur weil die Desktophardware eh schnell genug ist und sich keiner drum schert. Bei Smartphones setzt sich sowas eher durch.

Auch sonst wird der Bedarf der Consumer wohl eher nicht so gross sein. Die benutzen einfach Webdienste fuer ihre Spielereien (FaceApp und Konsorten). Fuer "sinnvolleres" wird es sicher auch Bezahldienste geben.


Auch wenn du deine Aussage 2x postest, ergibt sie nicht mehr Sinn.
Kannst du nochmal sagen, welche Aussage das sein soll? Laut dem Beitrag hast du immer noch nicht verstanden, dass ich ausdruecklich gesagt habe, es hat fuer Nvidia schlicht keinen Sinn gemacht, OpenCL zu pushen.

OpenCL war nicht nVidia's Initiative, sondern eher von AMD und anderen.
Apple war Initiator, nicht AMD, und hat es dann an Khronos uebergeben. Nvidia hat sich bereiterklaert mitzumachen, und war auch der erste GPU Hersteller mit Support fuer 1.0 und 1.1. Aber ab 1.2 hatten sie dann einfach keinen Bock mehr.
AMD hatte damals noch eine eigene API mit dem tollen Namen Close to Metal/Stream und diese dann zugunsten von CL gestrichen. Dass AMD OpenCL Initiator war, ist falsch.


Ist aber groesstenteils auch alles OT hier, ich wuerde das daher langsam beenden. Wir haben ja im Technikforum auch noch einen OCL-Thread, der vor kurzem mal aktiv war.

dildo4u
2019-10-16, 10:31:51
Ihr ignoriert auch einfach kosten sind Systeme die kein PCI-E benutzten nicht massiv teurer?(z.b mit NV Link)
Nur AMD kann gegenüber Intel,IBM + Nvidia besseren Speed für billigere Preise liefern mit PCI-E 4.0.


https://www.planet3dnow.de/cms/51924-neuer-supercomputer-von-cray-mit-next-generation-amd-gpu/

Berniyh
2020-01-29, 22:39:23
Aus einem Commit deutet sich an, dass auf Arcturus noch weitere Chips basierend auf GFX9 (d.h. Vega-Architektur) folgen würden:
commit d765447339fdc8c327a53303c505e26aeef06b08

In previous gfx9 parts, S_BARRIER shader instructions are implicitly
S_WAITCNT 0 instructions as well. This setting turns off that
mechanism in Arcturus and beyond. With this, shaders must follow the
ISA guide insofar as putting in explicit S_WAITCNT operations even
after an S_BARRIER.
"beyond" bezieht sich hier immer noch explizit auf GFX9, nicht auf GFX10 (=RDNA1 und 2).

Unicous
2020-01-30, 02:30:40
Wieso bist du dir so sicher, dass sich "beyond" exklusiv auf GFX9 bezieht?:confused:

Zumal beyond sich auch auf eine Compute-Architektur nach Arcturus beziehen könnte. Und warum ist Navi ausgeschlossen?

Berniyh
2020-01-30, 07:48:48
Weil das Änderungen am GFX9 Code sind. ;)
Bei GFX10 gibt es zumindest bislang keine derartige Änderung.

Und natürlich könnte nach Arcturus eine Architektur kommen die nicht mehr als GFX9 bezeichnet wird, das will ich gar nicht bezweifeln.
Für mich war das eben nur ein Hinweis, dass die Aufteilung zwischen GFX9 (Compute) und GFX10 (Gaming, Workstation) tendenziell fortgeführt wird.

danarcho
2020-01-31, 12:07:14
Aus einem Commit deutet sich an, dass auf Arcturus noch weitere Chips basierend auf GFX9 (d.h. Vega-Architektur) folgen würden:
commit d765447339fdc8c327a53303c505e26aeef06b08

In previous gfx9 parts, S_BARRIER shader instructions are implicitly
S_WAITCNT 0 instructions as well. This setting turns off that
mechanism in Arcturus and beyond. With this, shaders must follow the
ISA guide insofar as putting in explicit S_WAITCNT operations even
after an S_BARRIER.
"beyond" bezieht sich hier immer noch explizit auf GFX9, nicht auf GFX10 (=RDNA1 und 2).
o_O Interessant, dann könnten wir ja die waitcnt vor barrier rausschmeißen. Wobei das wohl keinen Unterschied machen dürfte.

Vielleicht ist das beyond auch einfach RR2picasso? Hast du einen Link zu dem Commit?

Berniyh
2020-01-31, 23:25:37
Klar:
https://cgit.freedesktop.org/~agd5f/linux/commit/?h=amd-staging-drm-next&id=d765447339fdc8c327a53303c505e26aeef06b08

aufkrawall
2020-02-01, 01:39:39
Vielleicht ist das beyond auch einfach RR2picasso? Hast du einen Link zu dem Commit?
Das ist gut möglich. Immerhin gab es jüngst das Paper zur 7nm Vega-ISA, was auch Renoir einschließt.

Berniyh
2020-02-01, 08:20:17
Ne, an einen bekannten Chip glaube ich nicht wirklich, sonst würde da stehen
case CHIP_ARCTURUS:
case CHIP_RENOIR:
etc.
Steht aber nur zu ARCTURUS dort.

Leonidas
2020-02-04, 03:38:26
Neue AMD-Karte bei der koreanischen RRA zertifiziert:
https://www.pcgamesn.com/amd/big-navi-release-date

Ravenhearth
2020-02-08, 21:53:26
Aus dem Navi-Thread (gehört ja eher hier rein):

Doch womöglich nur Arcturus zum 05.03.2020 - Tech Day

https://twitter.com/KOMACHI_ENSAKA/status/1225808917252337664?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1225808 917252337664&ref_url=https%3A%2F%2Fwccftech.com%2Famd-radeon-instinct-mi100-arcturus-gpu-32-gb-hbm2-200w-tdp-rumor%2F

Wenn die Arcturus basierte Instinct wirklich MI100 heißen sollte, was auf 100 TOPs INT8 schließen lässt, dann frage ich mich, wie man die erreicht. Ist Arcturus nicht Vega? Wird das "einfach nur" ein Vega mit 128 CUs oder so?

Locuza
2020-02-08, 22:29:59
AMD hat im eigenen Treiber MI100 für Arcturus stehen. :ugly:
// MI-100 intrinsics
https://reviews.llvm.org/D64435

Sollte ungefähr so aussehen, laut den GPU-Patches:
69204

Bzw. in höherer Auflösung:
https://abload.de/img/arcturusfinal2m7jf7.png

Ich bin auch auch erst einmal von grob 100 INT8 "TOPs" für die Namensgebung ausgegangen.
128 CUs und 8 Shader Engines bestätigt der Treiber:
Currently the cu bitmap array is 4x4 size, and besides the bitmap is used widely
across SW stack. To mostly reduce the scale of impact, we make the cu bitmap
array compatible with SE/SH layout on Arcturus. Then the store of cu bits of
each shader array for Arcturus will be like below:
SE0,SH0 --> bitmap[0][0]
SE1,SH0 --> bitmap[1][0]
SE2,SH0 --> bitmap[2][0]
SE3,SH0 --> bitmap[3][0]
SE4,SH0 --> bitmap[0][1]
SE5,SH0 --> bitmap[1][1]
SE6,SH0 --> bitmap[2][1]
SE7,SH0 --> bitmap[3][1]

GPU cache info (part of virtual CRAT) size depends on CU number.
For arcturus, CU number has been increased from 64 to 128. So
the required memory for vcrat also increases.
https://lists.freedesktop.org/archives/amd-gfx/2019-July/036848.html

Ebenso BFLOAT16-Support.
Es gibt auch neue Register, welche als AGPRs bezeichnet werden und neue Machine Learning Instruktionen.
Hardware für 3D-Zeug sollte weitgehend entfernt sein, sprich keine Rasterizer/ROPs/Geometry-Engines mehr, vielleicht wurden auch die TMUs entfernt.

Felixxz2
2020-02-08, 23:48:03
Das sieht ja mal extrem spannend aus!

Ravenhearth
2020-02-09, 14:52:57
Leaked Radeon Instinct MI100 GPU and HBM clockspeeds disappoint: Arcturus slower than RTX 2080 Ti, crushed by Ampere? [notebookcheck] (https://www.notebookcheck.net/Leaked-Radeon-Instinct-MI100-GPU-and-HBM-clockspeeds-disappoint-Arcturus-slower-than-RTX-2080-Ti-crushed-by-Ampere.453533.0.html)

:facepalm:

Sunrise
2020-02-09, 15:21:45
Bei 200W war zu erwarten, dass die Taktraten nicht sehr hoch sein können, da taktet man wohl sehr stark am GCN sweet spot. GCN hatte schon immer das Problem, inkl. der Vega 20, dass man mit dem Takt nur hochkommt, wenn man die Brechstange rausholt. Daran scheint sich auch mit Arcturus nicht viel geändert zu haben, weshalb man jetzt mehr in die Breite gegangen ist.

Wenn NV 70% im HPC zulegen kann, reicht es sowieso nicht, was aber auch kein Beinbruch ist, denn AMD geht hier wieder mit dem Preis, ebenso wie im Gaming-Markt. NV hat einfach noch zuviel Vorsprung an der Spitze, in anderen Bereichen kann AMD aber jetzt schon gut dagegen halten, wenn der Preis stimmt.

reaperrr
2020-02-09, 15:27:46
Leaked Radeon Instinct MI100 GPU and HBM clockspeeds disappoint: Arcturus slower than RTX 2080 Ti, crushed by Ampere? [notebookcheck] (https://www.notebookcheck.net/Leaked-Radeon-Instinct-MI100-GPU-and-HBM-clockspeeds-disappoint-Arcturus-slower-than-RTX-2080-Ti-crushed-by-Ampere.453533.0.html)

:facepalm:
:facepalm: ist erstmal nur der Artikel, nicht die Info.

Wie man nämlich auf den Trichter kommt, man könne 1:1 von der Spieleleistung (!) von 2xV64 CF auf die HPC-Leistung eines monolithischen Chips mit diversen HPC-spezifischen Architektur-Anpassungen schließen, erschließt sich mir nicht so ganz.

Selbst dann, wenn der Chip (ist übrigens Arcturus XL, kann also später noch ne XT-Variante geben) nur 120 aktive CUs haben und immer nur am Baseclock laufen würde, wäre er noch über Volta-Niveau bei der Rohleistung, bei geringerer TDP, höherer Speicherbandbreite und mit einigen HPC-spezifischen Verbesserungen wie bfloat16-Support.

Dass er gegen Ampere nicht ankommt kann selbstverständlich gut sein, aber reichen um ne solide Zahl an HPC-Design-Wins zu bekommen kann es trotzdem. Wir wissen weder, warum dieses spezielle Modell nur 200W TDP hat, noch ob ne XT-Variante kommt oder wieviel bfloat16 und angepasste Register in der Praxis bringen.

Ravenhearth
2020-02-09, 16:15:39
:facepalm: ist erstmal nur der Artikel, nicht die Info.

Wie man nämlich auf den Trichter kommt, man könne 1:1 von der Spieleleistung (!) von 2xV64 CF auf die HPC-Leistung eines monolithischen Chips mit diversen HPC-spezifischen Architektur-Anpassungen schließen, erschließt sich mir nicht so ganz.
ja eben ;D

Nakai
2020-02-09, 16:35:06
Mhh, wie nennen wir Arcturus eigentlich? Hat ja keine GPU Features mehr an Board im Command Processor. ROPs und TMUs wird man dennoch noch haben, aber was die können oder wie viele davon verbaut sind, wird spannend. Arcturus ist eher eine General Purpuse Parallel Processing Unit als eine Graphics Processing Unit. Und ja, wenn das Ding nur 200W schluckt, sind wohl viele Blöcke rausgefallen und das Ding würde gut optimiert.

Pick
2020-02-09, 16:58:31
Leaked Radeon Instinct MI100 GPU and HBM clockspeeds disappoint: Arcturus slower than RTX 2080 Ti, crushed by Ampere? [notebookcheck] (https://www.notebookcheck.net/Leaked-Radeon-Instinct-MI100-GPU-and-HBM-clockspeeds-disappoint-Arcturus-slower-than-RTX-2080-Ti-crushed-by-Ampere.453533.0.html)

:facepalm:

RTX 2080Ti -- Peak INT8 Tensor 227.7 TOPS
MI100 -- Peak INT8 100(?) TOPS

basix
2020-02-09, 17:08:38
Ist die Frage, ob Tensor Cores zum Einsatz kommen. 200W für 12.5 TFLOPs FP64 sind sackstark, besser als die Ampere Gerüchte.

reaperrr
2020-02-09, 17:30:58
Mhh, wie nennen wir Arcturus eigentlich? Hat ja keine GPU Features mehr an Board im Command Processor. ROPs und TMUs wird man dennoch noch haben, aber was die können oder wie viele davon verbaut sind, wird spannend. Arcturus ist eher eine General Purpuse Parallel Processing Unit als eine Graphics Processing Unit.
GPPPU ;D
Standard für sowas war bisher aber eigentlich immer GPGPU.

Wenn TMUs weiter vorhanden sind, werden es auch weiter 4 je CU sein, denke ich (quasi eine je 16-ALU-SIMD). Das wäre vergleichsweise viel Aufwand, die bspw. zu halbieren. Was eventuell einfacher sein könnte wäre aber, die Textur-Fetch/Store-Einheiten von 16 auf 4 zu reduzieren oder ganz rauszuschmeißen.
Da der Chip nicht für Grafikberechnung geschweige denn Bildausgabe gedacht ist, würde es mich aber stark wundern, wenn der mehr als 64 ROPs hat, wenn überhaupt.

Und ja, wenn das Ding nur 200W schluckt, sind wohl viele Blöcke rausgefallen und das Ding würde gut optimiert.
Also da es sich um die gleiche Urquelle wie bei diesem Artikel (https://wccftech.com/amd-radeon-instinct-mi100-arcturus-gpu-32-gb-hbm2-200w-tdp-rumor/) handelt, stellt sich für mich die Frage ob es nicht ohnehin nur ein Engineering Sample ist, das noch gar nichts mit der endgültigen TDP und endgültigen Taktraten zu tun hat.

200W für 12.5 TFLOPs FP64 sind sackstark, besser als die Ampere Gerüchte.
Hier ist aber von knapp 18 TFLOPs FP64 für Ampere die Rede:
https://www.techpowerup.com/263489/nvidias-next-generation-ampere-gpus-could-have-18-teraflops-of-compute-performance

basix
2020-02-09, 17:51:40
Bis jetzt ging man von +70-75% mehr Effizienz im Vergleich zu V100 aus. 18 TFLOPs sind mir neu. Kann aber beides stimmen, wenn man auf 400W geht.

amdfanuwe
2020-02-09, 17:52:16
Ich weiß nicht, was die gerechnet haben?
Leaving ~3.28 PFlops for the 256 GPUs ...
3,28 PFlops / 256 = 12,8 TFlops erscheint mir da plausibler.
Und dann ist noch nicht klar, ob die Annahmen zu Romes und Milans FP Performance korrekt sind.

Berniyh
2020-02-09, 17:59:38
Bei 200W war zu erwarten, dass die Taktraten nicht sehr hoch sein können, da taktet man wohl sehr stark am GCN sweet spot. GCN hatte schon immer das Problem, inkl. der Vega 20, dass man mit dem Takt nur hochkommt, wenn man die Brechstange rausholt. Daran scheint sich auch mit Arcturus nicht viel geändert zu haben, weshalb man jetzt mehr in die Breite gegangen ist.
Bei den Chips geht es doch auch viel eher um Performance/Watt als um Peakleistung.

davidzo
2020-02-09, 18:32:21
Leaked Radeon Instinct MI100 GPU and HBM clockspeeds disappoint: Arcturus slower than RTX 2080 Ti, crushed by Ampere? [notebookcheck] (https://www.notebookcheck.net/Leaked-Radeon-Instinct-MI100-GPU-and-HBM-clockspeeds-disappoint-Arcturus-slower-than-RTX-2080-Ti-crushed-by-Ampere.453533.0.html)

:facepalm:

:freak:;D
Comparing Gaming workload IPC on a dedicated FP64 HPC Card and calling it "dead on arrival".

Die 2080Ti hat gerademal lächerliche 420.2 GFLOPS an FP64 performance. Da braucht man mehr als 30 karten um die DP leistung einer MI 100 zu erreichen (12.5).

Totale Volldeppen bei Notebookcheck :facepalm:

Notebookcheck die haben echt einen an der Waffel. : Die haben dasselbe zur 5700m und 5600m geschrieben, völlig ohne irgendeine Begründung. Dabei haben die denselben chipausbau wie die desktopvariante und die Taktraten sogar erstaunlich hoch für eine mobileversion. :upicard:
https://www.notebookcheck.net/AMD-confirms-disappointing-Radeon-RX-5700M-and-RX-5600M-specifications.452909.0.html

AffenJack
2020-02-09, 18:58:04
Bei den Chips geht es doch auch viel eher um Performance/Watt als um Peakleistung.

Kommt ganz drauf an. Gibt Anwendungen die nicht so toll über viele Chips skalieren, oder man will möglichst viel Leistung auf wenig Platz, Verbrauch des Systems drumherum ist auch nicht zu vergessen. Eigentlich ist daher 250-300W Standard und ich würde die 200W auch eher als Vorserienmodell sehen. Absolut Perf/W optimiertes Design muss da noch ein gutes Stück runter in der TDP, so wie Nvidia es mit Tesla T4 macht.

iuno
2020-02-09, 19:57:40
Nur weil es eine runde Zahl ist, muss MI100 ja nicht das groesste Modell sein. Die Nr. stand zur Einfuehrung der Reihe fuer die TFLOPs, seit Vega20 aber eigentlich auch nur eine sinnlose Zahl (oder uebersehe ich was).

BTW: Hawaii, damals mit Abstand schnellster FP64 Beschleuniger, lag auch "nur" bei 235 W.

Die 2080Ti hat gerademal lächerliche 420.2 GFLOPS an FP64 performance. Da braucht man mehr als 30 karten um die DP leistung einer MI 100 zu erreichen (12.5).

Totale Volldeppen bei Notebookcheck :facepalm:

Wieso gehst du von >1,5 GHz aus?

Ravenhearth
2020-02-09, 20:05:25
Nur weil es eine runde Zahl ist, muss MI100 ja nicht das groesste Modell sein. Die Nr. stand zur Einfuehrung der Reihe fuer die TFLOPs, seit Vega20 aber eigentlich auch nur eine sinnlose Zahl (oder uebersehe ich was).
Die Zahl orientiert sich seit Vega20 an INT8, die MI50 hat 53 TOPs.

HOT
2020-02-10, 11:20:13
Passt ja auch gut. Der Takt wird wohl nicht so hoch sein (lt. Techpowerup 1000-1334 MHz), anders als bei der 4096-Shader-V20-Variante, daher auch "nur" MI100.

Ich gehe jede Wette ein, dass das besagter 505mm²-Chip ist. Das passt einfach zu gut, es gibt ja auch hier sicherlich 4 HBM-Interfaces, lt. Techpowerup ganz normaler 2GT HBM2 und der I/O-Bereich sollte auch nicht so viel größer geworden sein. Außerdem wurden alle relevanten Bereiche für 3D entfernt, das ist ein reiner Compute-Chip, der keine Grafik mehr kann und soll der erste N7+-Chip von AMD sein.

https://www.techpowerup.com/263743/amd-radeon-instinct-mi100-arcturus-hits-the-radar-we-have-its-bios

mironicus
2020-02-10, 12:34:55
Diese Trennung gefällt mir sehr gut. Vega lebt weiter für den HPC-Bereich und mit RNDA haben wir eine Architektur die speziell für Games weiterentwickelt worden ist.

mboeller
2020-02-10, 12:40:16
Wieso gehst du von >1,5 GHz aus?

naja, ergibt sich doch aus Mi100 und 128CU

1526MHz x 128CU x 64 x 2 = 25TFlops (32bit) x 4 (wg. 8bit) = 100 Tops

Deshalb das > 1,5GHz

konkretor
2020-02-10, 12:40:46
https://www.computerbase.de/2020-02/radeon-instinct-mi100-arcturus-bios/

cb hat auch etwas dazu geschrieben über eine Bios Datei die aufgetaucht ist.

golem ebenso
https://www.golem.de/news/arcturus-amd-plant-100-teraops-grafikkarte-2002-146530.html

Ravenhearth
2020-02-10, 12:55:21
naja, ergibt sich doch aus Mi100 und 128CU

1526MHz x 128CU x 64 x 2 = 25TFlops (32bit) x 4 (wg. 8bit) = 100 Tops

Deshalb das > 1,5GHz
Das ist allerdings ein guter Punkt, 1,333 GHz wären gar nicht genug für 100 TOPs

HOT
2020-02-10, 13:34:54
Das ist aber auch nur ein Name.

Denniss
2020-02-10, 13:43:29
Die 100 bezieht sich vielleicht auf Spitzenlast im Turbomodus der eine gewisse Zeit gehalten werden kann. Oder aber das Bios ist nur Vorserie mit geringerem Takt

Pirx
2020-02-11, 08:46:45
RTX 2080Ti -- Peak INT8 Tensor 227.7 TOPS
MI100 -- Peak INT8 100(?) TOPS
Kann man das 1:1 vergleichen?

basix
2020-02-11, 08:59:38
Kann man das 1:1 vergleichen?

Die AMD 8bit sind im Prinzip GPGPU, Nvidias 8bit nicht, da Tensor Cores.

AffenJack
2020-02-11, 15:58:53
Kann man das 1:1 vergleichen?

Es dürfte wahrscheinlich leichter sein bei AMD auf die Peakwerte zu kommen, als bei Turing mit den Tensor Cores, aber selbst dann wird es knapp und Turing ist nicht der Maßstab. Nach allem was man von Nvs Werten für Orin weiß, ist es gegen Ampere wohl: 100 TOPs Int8 bei Mi100 vs 800 TOPs Int8 bei GA100/GA102. Und selbst bei Nvs Werten wird es sehr schwierig gegen die ganzen AI Chips anzukommen. Wenn da nicht irgendeine Secret Sauce dabei ist, steht Mi100 bei AI eher auf verlorenem Feld.

Aber dafür sollte Arcturus im HPC Bereich sehr konkurrenzfähig sein.

Felixxz2
2020-02-11, 17:33:47
Hat nV eig auch 1:2 FP64?

mksn7
2020-02-11, 17:41:45
Für V100 ja, Turing nein. Für Ampere? Ziemlich sicher ja. Mit der Menge an anderweitiger Hardware die sie da so verbauen, dürften die noch weniger ins Gewicht fallen. Und sonst wär er für HPC raus.

Klevapalis
2020-02-11, 18:53:33
Es dürfte wahrscheinlich leichter sein bei AMD auf die Peakwerte zu kommen, als bei Turing mit den Tensor Cores
Eher unwahrscheinlich, wenn man AI, also Training und Interference betreiben will. Denn genau auf diese dafür notwendigen Berechnungen sind die Tensor Cores optimiert worden.

Dass AMD hier nur mit Silicon um sich schmeißt und keinerlei Innovation liefert, ist schon ziemlich traurig. So können es im Grunde auch einfach zwei auf einem PCB verlöteten Vega20 GPUs sein.

Berniyh
2020-02-11, 19:28:44
Dass AMD hier nur mit Silicon um sich schmeißt und keinerlei Innovation liefert, ist schon ziemlich traurig. So können es im Grunde auch einfach zwei auf einem PCB verlöteten Vega20 GPUs sein.
Meinst du das Urteil kommt nicht etwas früh?

Linmoum
2020-02-11, 19:51:55
Dass AMD hier nur mit Silicon um sich schmeißt und keinerlei Innovation liefert, ist schon ziemlich traurig.Die Beweise dafür wirst du sicherlich umgehend liefern.

Zossel
2020-02-11, 20:57:50
Dass AMD hier nur mit Silicon um sich schmeißt und keinerlei Innovation liefert, ist schon ziemlich traurig. So können es im Grunde auch einfach zwei auf einem PCB verlöteten Vega20 GPUs sein.

Das Ding wird wohl in dem Atombomben Simulator (https://www.theverge.com/2019/5/7/18535078/worlds-fastest-exascale-supercomputer-frontier-amd-cray-doe-oak-ridge-national-laboratory) landen, da braucht es wahrscheinlich kein DL.

Felixxz2
2020-02-12, 10:28:14
Jo dachte jetzt auch an Frontier, denn FP performnt GCN ja weiterhin top 👍

mksn7
2020-02-12, 13:20:24
Es dürfte wahrscheinlich leichter sein bei AMD auf die Peakwerte zu kommen, als bei Turing mit den Tensor Cores, aber selbst dann wird es knapp und Turing ist nicht der Maßstab.
Eher unwahrscheinlich, wenn man AI, also Training und Interference betreiben will. Denn genau auf diese dafür notwendigen Berechnungen sind die Tensor Cores optimiert worden.


Ich denk da hat er schon recht. Auch bei AI ist je nach Netztopologie die Codecharakteristik sehr unterschiedlich. Wenn man Tensor Cores ausnutzen will muss die computational intensity des codes viel höher sein, sonst limitieren diverse Bandbreiten.

gedi
2020-02-12, 21:37:51
Sorry ich bin raus. Um was handelt es sich bei dem Chip? Aufgeblähter Vega für professionelle Anwendungen? Also aus Gamersicht nicht beachtenswert?

Ravenhearth
2020-02-12, 21:45:29
Genau.

M4xw0lf
2020-02-13, 12:57:21
Sorry ich bin raus. Um was handelt es sich bei dem Chip? Aufgeblähter Vega für professionelle Anwendungen? Also aus Gamersicht nicht beachtenswert?
Vega ohne "Gamingballast" ;)
(Weil bei Vega und anderen Radeon-GPUs ja gerne vom Compute-Ballast gesprochen wird)

disap.ed
2020-02-14, 09:30:17
Was fällt da alles darunter? ROPs? TMUs?

Leonidas
2020-02-24, 06:03:26
Zuerst die Raster-Engines. ROPs theoretisch auch, aber es gab kürzlich eine Meldung, nachdem ROPs doch wieder drin sind. TMUs eigentlich auch, aber eventuell sind die schwerer herauszustreichen als es sinnvoll wäre.

BoMbY
2020-03-05, 22:44:43
CDNA heißt die Architektur jetzt, und sie bekommt eine eigene Roadmap.

https://i.imgur.com/k1085ebh.jpg

Ravenhearth
2020-03-05, 23:17:44
https://i.imgur.com/Dj60HdM.jpg

Felixxz2
2020-03-05, 23:53:11
Geiler scheiß. Die Dinger müssen wohl rocken wenn die in 2/3 exascale Maschinen der Amis kommen.

y33H@
2020-03-05, 23:55:14
Ja, spanned - Nvidia ist bei allen dreien außen vor.

Felixxz2
2020-03-06, 00:03:58
Was eigebtlich eine kleine Sensation ist wenn man deren Marktanteil im HPC betrachtet. Vielleicht will man aber auch die Konkurrenten staatlich ein wenig päppeln. 3 Weltspitze HPC Firmen lesen sich schon traumhaft.

Troyan
2020-03-06, 00:08:43
Na, nicht wirklich überraschend, da HPC ziemlich hetrogen ist. Schaut man sich nVidia's Geschäftszahlen an, dann ist der HPC Markt eigentlich nur noch zweitrangig. AI/DL ist ca. dreimal so groß und benötigte für das Wachstum gerademal drei Jahre statt den 10 von HPC...

Zossel
2020-03-06, 07:37:15
Ja, spanned - Nvidia ist bei allen dreien außen vor.

CPU und GPU im selbem kohärenten Speicher zu haben ist attraktiv und Nvidia hat da im Moment perspektivisch nicht viel zu bieten.

Ich bin gespannt wie das im Detail gelöst wird.

y33H@
2020-03-06, 08:28:49
Klar, nur AMD und Intel können das aus einer Hand - ist die Frage ob sich einer der zwei x86 Hersteller oder IBM streckt oder Nvidia enger mit ARM kooperiert für die Zukunft oder oder oder ^^

basix
2020-03-06, 10:58:17
- bald CDNA1 (505mm², 4 HBM, Infinity 2.0)


Wie kommst du darauf, dass der 505mm2 Chip Arcturus ist? Kann sein, könnte aber auch Navi 2x sein, oder nicht?

... Supercomputer wie El Presidente El Capitan...

FTFY ;)

Ich denke aber auch, dass Zen 4 Frühling 2022 kommen wird und nicht später. CDNA2 vermutlich auch um den Zeitraum bis Anfang Sommer und RDNA3 August 2022 oder so.

robbitop
2020-03-06, 11:08:01
War Arcturus nicht noch GCN? Oder ist das gestripte GCN = CDNA?
Oder ist CDNA eine HPC optimierte RDNA Basis?

Man will ja sicherlich nicht 2x grundlegende uArchs weiterentwickeln, oder? Selbst NV hat eine grundlegende uArch und fügt Dinge hinzu, die für die Anwendung sinnvoll sind und stript Teile, die nicht sinnvoll sind.

HOT
2020-03-06, 11:10:03
Wie kommst du darauf, dass der 505mm2 Chip Arcturus ist? Kann sein, könnte aber auch Navi 2x sein, oder nicht?

Das ist denke ich vom Tisch. Wenn N2x erst Ende des Jahres kommt, gibts noch nicht lange Silizium. Das kam ja schon Anfang Q4 auf oder so, das ist sehr sehr sicher Arcturus.

FTFY ;)

Ich denke aber auch, dass Zen 4 Frühling 2022 kommen wird und nicht später. CDNA2 vermutlich auch um den Zeitraum bis Anfang Sommer und RDNA3 August 2022 oder so.
El Presidente passt aber besser zu Trumps Atombombenrechner :D.

robbitop
V20 = GCN + Infinity 1.0
Arcuturus = CDNA + Infinity 2.0
21/22 = CDNA2 + Infinity 3.0 (sicherlich 5nm)

basix
2020-03-06, 11:11:34
Ich bin positiv überrascht, dass AMD schon mit CDNA1 Tensor Cores bringen wird. Damit erschlägt man einen der grossen Nachteile verglichen zu Nvidia.

Aber der grosse Knall kommt eigentlich erst mit CDNA2, HBM3, IF3, Zen 4, PCIe 5.0, DDR5, und was zur Hölle kann man mit X3D erreichen? Speicherkohärent und Unified Memory, dazu noch viel CPU-DRAM und Bandbreite, etwas HBCC Magic und PCIe 5.0 NVMe SSDs, und man kann 100 TByte grosse Modelle auf den GPUs bearbeiten (AI oder Science). Und das im besten Fall ohne Performance-Limitierungen.

Berniyh
2020-03-06, 11:20:34
Da RDNA3 = Navi3x jetzt fest steht könnte Draco – sofern es den Namen wirklich gibt – wirklich für CDNA2 stehen, wie zuvor schon mal angemerkt.
Könnte aber natürlich äquivalent zu Navi auch Acturus 2 sein.

robbitop
2020-03-06, 11:35:39
Ich bin positiv überrascht, dass AMD schon mit CDNA1 Tensor Cores bringen wird. Damit erschlägt man einen der grossen Nachteile verglichen zu Nvidia.
Wobei Tensor Cores jetzt auch keine schwarze Magie sind. Sind halt ALUs, die Matritzen rechnen können. Das gab es sicher auch schon in anderen Anwendungsbereich in HW bevor NV es bei Volta mit einem schönen Marketingnamen beworben hat.
Wenn Matrixoperationen oft vorkommen und es aus Performancesicht sinnvoll ist, verbaut man das. Ich kann mir gut vorstellen, dass das jetzt kein großes Ding war.

Ravenhearth
2020-03-06, 12:03:15
War Arcturus nicht noch GCN? Oder ist das gestripte GCN = CDNA?
Oder ist CDNA eine HPC optimierte RDNA Basis?

Man will ja sicherlich nicht 2x grundlegende uArchs weiterentwickeln, oder? Selbst NV hat eine grundlegende uArch und fügt Dinge hinzu, die für die Anwendung sinnvoll sind und stript Teile, die nicht sinnvoll sind.
Ja, scheint als wäre Arcturus mit seinem angepassten Vega schon CDNA.

Berniyh
2020-03-06, 12:07:21
CDNA ist doch letztendlich nur ein neuer Name für das bereits existierende, nämlich GCN (mit div. Anpassungen).
Also ja, CDNA wird – in der ersten Iteration – Arcturus sein.

aufkrawall
2020-03-06, 12:27:05
Bei der hohen Spannung, die Navi selbst im Vergleich zu Pascal braucht, sollte da mit Optimierungen für den Prozess schon noch etwas gehen.
Pascal hatte ja auch extrem Takt freigesetzt, ohne zur Transistorenschleuder vs. Maxwell zu werden.

basix
2020-03-06, 12:52:04
Wobei Tensor Cores jetzt auch keine schwarze Magie sind.

Natürlich. Aber da man bei Vega 20 und RDNA einfach RPM bis hinunter zu 8bit erweitert hat und das Arcturus Ding laut Speku MI100 heisst, hätte ich das eben nicht erwartet. Mit Tensor Cores erreicht man sicher deutlich mehr als 100 TOPS INT8.


Was ich ebenfalls extrem sexy finde: Infinity Fabric 3.

Dadurch wird eine Zen 4 CPU grundsätzlich zu einem extrem guten und effizienten Datenschaufler zwischen GPUs, DDR5 RAM-Pool sowie NVMe Storage. Für viele Anwendungen mit viel Speicherverbrauch (> GPU-Memory) könnte das einen sehr grossen Boost bringen. Bei Radeon SSG hat man zum Teil ja ähnliches beobachten können, nur bei IF3 mit deutlich mehr Performance und Kapazität. Das ist nicht nur für HPC und AI interessant, sondern auch für Movie-Rendering oder allgemein Workstations / CAD Anwendungen und viele mehr. Wenn ich eine Zen 4 Ryzen oder EPYC CPU verwende, kann nun jede RDNA3(?) / CDNA2 GPU mit einem viel grösseren Speicherpool verbunden werden. Das wäre ein riesiger Plattform-Vorteil für AMD.

Intel könnteals Konkurrent eine ähnliche Lösung bieten. Nvidia steht aber alleine - ohne CPU - da. Bin gespannt, wie Nvidia sich hier positionieren kann. IBM CPUs sind zwar schön und gut, aber deutlich auf dem absteigenden Ast.

mksn7
2020-03-06, 13:02:18
Ich hoffe ja dass Arcturus oder zukünftige CDNA Architekturen den L1 cache ein bisschen aufbohren. Der L1 cache in Volta ist schon krass, der ist
groß, (128kB vs 16kB in Radeon 7)
hat hohe Bandbreite (128B/cycle vs 64B/cycle)
und geringe Latenz (30 cycles vs 114 cycles).

Also in jeder Metrik besser. Das hilft vor allem für Codes die nicht reine streaming codes sind und doch ein bisschen reuse haben, wie z.B. größere stencils (heutzutage nennt man das convolutional neural networks). Viele Optimierungen, die man früher auf den alten Teslas (=Kepler) machen musste fallen auf Volta völlig weg.

Ich denke dass Volta's L1 cache eines der wesentlichen Dinge ist warum Volta so gut ist für compute. Im Vergleich dazu ist GCN crap für compute. GCN war damals wesentlich besser als Kepler (=quasi gar kein richtiger L1, zumindest in GK110), aber das ist schon ein bisschen her.

Für Graphik ist so ein krasser L1 glaube ich eher nicht so nötig, und vielleicht sogar verschwendete Energie und Transistoren. RDNA hat auch nur 16kB L0, wenn ich das richtig gesehen hab, aber immerhin mit 128B/cycle. Turing hat meines Wissens nach auch nur die halbe Bandbreite von Volta.

Für RDNA macht das also schon Sinn so, dass sich da nicht viel getan hat, aber eine compute orientierte Architektur wie CDNA wär das schon wichtig.

HOT
2020-03-06, 14:36:54
OK, das ist ein Argument. 505mm2 wäre aber sehr Flächeneffizient, wenn man das mit Vega 20 und der Konkurrenz vergleicht. 8192 Shader-Units inkl. Tensor Cores. Nvidia braucht laut Gerüchten >800mm2 für in etwa das Gleiche (vermutlich aber mit 6x HBM-Stacks und 2(?)x Tensor-Performance).

[...]
Glaub nicht, dass der Tensorcores hat. Außer NV macht das glaub ich keiner. Man wird neue CUs desingt haben, die um alles entschlackt wurden, was zur Grafikberechnung gebraucht wird. Dank IF kann man ja wieder 4er-Packs verkaufen.

Linmoum
2020-03-06, 14:42:27
Glaub nicht, dass der Tensorcores hat. Außer NV macht das glaub ich keiner. Man wird neue CUs desingt haben, die um alles entschlackt wurden, was zur Grafikberechnung gebraucht wird. Dank IF kann man ja wieder 4er-Packs verkaufen.Wird es mit CDNA geben.

And so, at a silicon level, AMD is removing the raster graphics hardware, the display and multimedia engines, and other associated components that otherwise take up significant amounts of die area. In their place, AMD is adding fixed-function tensor compute hardware, similar to the tensor cores on certain NVIDIA GPUs.
https://www.techpowerup.com/forums/threads/amd-announces-the-cdna-and-cdna2-compute-gpu-architectures.264536/

y33H@
2020-03-06, 15:16:21
Das ist AFAIK keine offizielle AMD-Aussage, sondern die des Autors ... denn Arcturus ist noch nicht vorgestellt.

basix
2020-03-06, 16:11:04
Tensor OPS steht hochoffiziell auf den Folien: Seite 13 -> https://ir.amd.com/static-files/321c4810-ffe2-4d6c-863f-690464c033a9

Das ist für mich gleichbedeutend mit Tensor Cores, ausser das wäre auf einige Spezialbefehle bezogen und nicht auf HW-Komponenten.

BoMbY
2020-03-06, 16:56:18
Wie irgendwelche OPS implementiert sind ist wirklich pure Spekulation. Ich glaube nicht dass man dafür separate Einheiten benötigt.

Gipsel
2020-03-06, 19:02:07
Wie irgendwelche OPS implementiert sind ist wirklich pure Spekulation. Ich glaube nicht dass man dafür separate Einheiten benötigt.Benötigen tut man es streng genommen nicht. Es ist aber sinnvoll.

Skysnake
2020-03-06, 23:05:31
Klar, nur AMD und Intel können das aus einer Hand - ist die Frage ob sich einer der zwei x86 Hersteller oder IBM streckt oder Nvidia enger mit ARM kooperiert für die Zukunft oder oder oder ^^
IBM und NVIDIA bieten das schon seit Power8+

Also auch mit Power9 in Summit und Sierra. Der Punkt ist aber halt das Slingshot ziemlich attraktiv wirkt vom Gesamtkonzept für Exascale Systeme und das gibt es halt nicht mit IBM.

Die Frage ist aber auch wie gut sich Summit bei den großen Jobs schlägt. Power8+ hatte mit NVIDIA noch klare Probleme.

basix
2020-03-09, 09:53:57
Zu CDNA hätte ich eine Frage: Würde es nun nicht Sinn machen, "Full-Rate" FP64 anzubieten? Alle geringeren Präzisionen würden dann via Packed Math erledigt. Wieso sehe ich das als grossen Vorteil? Man könnte die Taktraten massiv verringern, und somit die Energieeffizienz ebenso massiv steigern.

Wieso mir das in den Sinn gekommen ist:
Der Frontier Supercomputer wird ca. 30MW für 1.5 ExaFLOPS benötigen. Von diesen 30MW wird ca. 1/4 für Kühlleistung verwendet. Nun benötigt man noch etwas Networking und CPUs und man landet bei ca. 20MW, welche für alle Beschleuniger-Karten übrig bleiben. Frontier besitzt 100 Cabinets à 64 Compute-Blades à 4x Dual-Socket EPYC. Mit Beschleuniger-Karten wird es vermutlich Single Socket werden, welche mit jeweils 1x EPYC CPU sowie 4x Beschleunigerkarten ausgestattet sind. Somit werden daraus 16x GPUs pro Compute-Blade. Rechnet man sich die maximale Anzahl GPUs aus, kommt man auf 102'400 GPUs. 20MW / 100k GPUs ergibt 200W pro GPU. Diese 200W entsprechen genau dem, was man bei der Instinct MI100 gesehen hat. Vielleicht sind es ja auch 250W für die gesamte Beschleunigerkarte und entsprechend etwas weniger GPUs (80k), 20% der Cabinets wären dann Networking und Speicher, was in etwa realistisch ist. Aber egal welche der beiden Verlustleistungen nehme, die Dinger müssen extrem effizient sein. 1.5 ExaFLOPs / 100k = 15 TFLOPs pro GPU. 1.5 ExaFLOPS / 80k = 18.8 TFLOPS pro GPU. Und das alles in 200...250W!

Bei 8k Shader Units des Chips wären das aber zwischen 1.85...2.3 GHz. Das ist viel zu hoch und unrealistisch. Ein auf z.B. 1.2 GHz gesenkter Takt würde den Effizienzsprung aber erklären. Und der Leak der MI100 spricht von knapp 1.3 GHz. Könnte also passen. Die hohe FP64-Leistung würde man dann aber nur mit "Full-Rate" FP64 erreichen.

y33H@
2020-03-09, 10:07:14
IBM und NVIDIA bieten das schon seit Power8+, also auch mit Power9 in Summit und Sierra.Mit aus einer Hand meinte ich, dass CPU und GPU vom gleichen IHV kommen.

mksn7
2020-03-09, 10:11:31
Für full rate FP64 müssten aber auch alle anderen Datenpfade (Register Bandbreite, LD/ST durchsatz usw) verdoppelt werden.

Die Situation ist eher umgedreht. Angenommen du machst all das. Verdoppelte Datenpfade und Ausführungseinheiten usw. Dann wärst du in der Situation dass du mit wenig mehr Aufwand die INT/SP Leistung verdoppeln könntest, weil ja alles schon so schön breit für full rate DP angelegt ist. Und dann... ist man wieder bei einem SP : DP ratio von 1:2.

Der einfachste Weg zu full rate DP ist also die Hälfte der SP Einheiten zu streichen. Aber dadurch spart man nicht viel und verliert viel.

BoMbY
2020-03-09, 10:21:17
Ja, "DP 1 : SP 2 : HP 4" usw. ist das einzige was Sinn macht.

Außer natürlich man unterstützt Quad Precision mit "QP 1 : DP 2 : SP4 : HP 8".

basix
2020-03-09, 12:50:15
OK, vielleicht habe ich mich missverständlich ausgedrückt ("Full Rate DP" ist eher der falsche Begriff). 1:2 DP:SP bleibt natürlich, aber man kann 2x FP64 OPS pro Takt ausführen anstatt 1x FP64 OPS wie bei bisherigen HPC GPUs (2x FP32 OPS pro Takt). Dabei bleibt aber die Anzahl Shader-Units / Logikeinheiten gleich, man hat einfach doppelten Durchsatz pro Takt, ergo macht die FPU breiter. Darauf will ich hinaus.

Ich kann aber nicht sagen, ob das von der Chip-Fläche her einfach zu einem aufgeblasenen CU wird und man dadurch nicht wirklich was gewinnt. Wenn dadurch aber gut Fläche / Performance als auch Performance / Watt gewinnt, wäre es eine Überlegung wert. Man kann aufgrund der auf HPC ausgerichteten Architektur viel expliziter auf FP64-Durchsatz optimieren.

Mit 1.2 GHz Takt (CDNA) anstatt 1.8 GHz Takt (Vega V20) kann man die GPU bei einem extrem effizienten Betriebspunkt laufen lassen. Dieser 1.5x Taktunterschied lässt einen Chip ca. 3x effizienter werden (P=f*U2). Das würde ebenfalls in etwa mit den Rahmenbedingungen aus dem Frontier Supercomputer vs. Vega V20 zusammenpassen. Diese CDNA GPU muss nämlich ca. 3x effizienter als Vega V20 sein, damit das in das 30MW Power Budget passt. 1.5 ExaFLOPS mit einer MI60 würde alleine 60MW verbraten. CPUs, Networking, Cooling etc. gar noch nicht dabei.

Edit:
Ausserdem wäre die extrem hohe Effizienz bei FP64 eine Erklärung, wieso AMD zwei der drei Exascale-Rechner für sich gewonnen hat. Bei denen geht es vordergründig ja nicht um AI sondern Atombombensimulationen. Typischerweise in FP64. Nvidias GA100 soll laut gerüchten zum RED Supercomputer ca. 70-75% effizienter werden als GV100. Damit käme man auf etwa 14 TFLOPS FP64 bei 300W. Da wären 18-19 TFLOPS bei 250W deutlich effizienter (+60...70% um genau zu sein).

Unicous
2020-03-14, 16:13:44
Hier passt es wohl am Besten:

Simulating the stars at exascale requires HIP solutions (https://techxplore.com/news/2020-03-simulating-stars-exascale-requires-hip.html)

Wissenschaftler sind jetzt sozusagen "gezwungen" ihren Code auf AMD GPUs zu portieren, mit Hilfe von HIP.

Das dürfte für AMD als weiteres Einfallstor in die CUDA-Domäne dienen.
Je mehr Code agnostisch ist bzw. zumindest portiert werden kann desto höher die Wahrscheinlichkeit, dass AMD auch Aufträge für GPU Computing erhält.

Berniyh
2020-03-19, 08:53:49
Erste Anzeichen von MI200:
https://twitter.com/KOMACHI_ENSAKA/status/1240406339840618498

AMD Renoir GFX-ID : GFX909 → GFX902/903.
AMD MI200 GFX-ID : N/A → GFX909.

https://twitter.com/KOMACHI_ENSAKA/status/1240406463111184385

AMD MI200は、GFX9 (Vega)で確定です。
(Übersetzt vermutlich: Auch MI200 wird in GFX9 eingeordnet)

Bin mal gespannt ob der früher spekulierte Codename "Draco" sich hier bestätigt.

LasterCluster
2020-03-19, 17:55:23
Sehr interessant. Was wird das sein?

-Doppel-GPU? Passt kaum in den TDP Rahmen bzw stark runtergetaktet wären es nicht mehr 2xMI100

-256 CU Arcturus? Müsste dann 5nm sein.

-Arcturusableger/nachfolger mit spezieller DL-Beschleunigung, so dass dort die doppelte MI100 Performance erreicht wird?

basix
2020-03-19, 18:09:25
192 CU @ 2 GHz ;)

davidzo
2020-03-19, 18:18:25
Sehr interessant. Was wird das sein?

-Doppel-GPU? Passt kaum in den TDP Rahmen bzw stark runtergetaktet wären es nicht mehr 2xMI100

-256 CU Arcturus? Müsste dann 5nm sein.

-Arcturusableger/nachfolger mit spezieller DL-Beschleunigung, so dass dort die doppelte MI100 Performance erreicht wird?

Oder man treibt dasselbe Spielchen wie bei Mi-25 vs Mi-50/60 indem man die Tflops Werte bei halbierter Genauigkeit zugrunde legt. Also INT4 :D
Die Frage wäre was ist dann Mi-100?

Berniyh
2020-03-19, 18:29:54
Sehr interessant. Was wird das sein?
Wahrscheinlich CDNA2, d.h. nicht mehr Arcturus, sondern der Nachfolgechip (Draco?). Wie der genau aussieht, keine Ahnung, aber wahrscheinlich nicht so weit weg von Vega wie Navi.
Komachi spekuliert, dass es sich um den Exascale-Chip handelt. Wäre möglich, aber nichts genaueres weiß man nicht.
Oder man treibt dasselbe Spielchen wie bei Mi-25 vs Mi-50/60 indem man die Tflops Werte bei halbierter Genauigkeit zugrunde legt. Also INT4 :D
Die Frage wäre was ist dann Mi-100?
MI100 ist Arcturus, das ist ziemlich sicher.

basix
2020-03-19, 18:36:19
Komachi spekuliert, dass es sich um den Exascale-Chip handelt. Wäre möglich, aber nichts genaueres weiß man nicht.

MI200 würde bei gleicher Nomenklatur wie bei MI50/60 auf 25 TFLOPS @ FP64 hindeuten. 1.5 ExaFLOPS von Frontier würde damit in 60'000 GPUs resultieren. bei 300W entspricht das 18MW. Das zusammen mit CPUs, Speicher, SSDs, Networking & Kühlung könnte sehr gut den 30MW Leistungsaufnahme für den ganzen Frontier Super Computer entsprechen.

Hübie
2020-03-20, 00:37:59
Bei sowas wie CDNA ist die externe Anbindung extrem wichtig. Das wird auch von der Architektur her eher GCN destilliert sein, als RDNA aufgebläht. Zumindest von den execution units. TMU und ROP braucht man bspw. nicht (oder nicht in dem Umfang bzw. der Funktion). Natürlich müssen Daten exportiert werden können.

davidzo
2020-03-20, 20:20:48
Wahrscheinlich CDNA2, d.h. nicht mehr Arcturus, sondern der Nachfolgechip (Draco?). Wie der genau aussieht, keine Ahnung, aber wahrscheinlich nicht so weit weg von Vega wie Navi.
Komachi spekuliert, dass es sich um den Exascale-Chip handelt. Wäre möglich, aber nichts genaueres weiß man nicht.


Das wäre eine mögliche Erklärung, aber ist es denn nicht etwas früh dann schon etwas von MI200 zu hören? Vor allem angesichts dessen dass Steigerungen dieser Größenordnung bei AMDGPUs zuletzt noch ein halbes Jahrzehnt gebraucht haben.

Berniyh
2020-03-20, 21:21:23
Das wäre eine mögliche Erklärung, aber ist es denn nicht etwas früh dann schon etwas von MI200 zu hören? Vor allem angesichts dessen dass Steigerungen dieser Größenordnung bei AMDGPUs zuletzt noch ein halbes Jahrzehnt gebraucht haben.
Tatsächlich geistert der Name Acrturus auch schon ziemlich lange durchs Internet.
Abgesehen davon ist bei AMD jetzt ja angesichts der kommenden Supercomputer Aufgaben schon auch die Notwendigkeit gekommen bei CDNA voran zu kommen. ;)

Leonidas
2020-04-23, 08:13:45
https://twitter.com/_rogame/status/1252591428380786688
Arcturus (Test board) > 120CU > 878MHz Core clock > 750Mhz SOC clock > 1200MHz Memory clock

dildo4u
2020-06-17, 21:07:47
MI 100 für 2020 bestätigt.


https://videocardz.com/newz/amds-mark-papermaster-confirms-radeon-instinct-mi100-accelerator

SKYNET
2020-06-17, 22:15:51
https://twitter.com/_rogame/status/1252591428380786688
Arcturus (Test board) > 120CU > 878MHz Core clock > 750Mhz SOC clock > 1200MHz Memory clock


der niedrige takt wohl, weil das teil sonst bei der anzahl units >500W fressen würde, so wahrscheinlich <250W

reaperrr
2020-06-17, 22:46:27
der niedrige takt wohl, weil das teil sonst bei der anzahl units >500W fressen würde, so wahrscheinlich <250W
Im Februar gab es schon einen Leak mit 1090 base und 1333 MHz Turbo bei 200W Board-Power...

Mit 878 MHz kommt man mit 120 CUs nur ca. auf die FP64/32-TFLOPs von Vega20 in Form der MI60. Das wäre dann doch etwas arg wenig, außer ein Kunde wollte unbedingt MI60-Leistung in <= 150W.

Tarkin
2020-06-28, 09:05:30
Spekulatius von Igor: https://www.igorslab.de/noch-ein-groesserer-navi-chip-erste-hinweise-auf-ein-moegliches-multi-chip-package/

Meine Quellen berichten, dass es wohl für MI200 sogar zwei Versionen geben könnte, die intern jeweils mit dem Kürzel SCM (Single Chip Module) und MCP (Multi Chip Module) gekennzeichnet sein sollen. Damit würde AMD einen sehr ähnlichen Weg gehen wie Nvidia, wo mehrere Chips auf einem BGA bzw. in diesem Falle wohl Interposer zusammenarbeiten würden.

(Mich würde es nicht wundern wenn MI200 bereits 5nm wäre und dann Anfang 2021 kommt)

Leonidas
2020-06-28, 11:22:00
Hat er das tatsächlich mit Navi 31 verbunden? Denn ich erwarte alle zukünftigen HPC-Lösungen von AMD nicht mehr mit Navi-Namen, das wird etwas gänzlich anderes. Nicht umsonst hat AMD eine eigene CDNA-Roadmap.

BoMbY
2020-06-28, 11:49:36
Ja, Navi ist RDNA und sicher nicht CDNA (Mi, oder was auch immer).

Aber jetzt wo ich nochmal drüber nachdenke könnte das mit den zwei Render-Piplines in den Navi21-Patches ja durchaus daher kommen dass tatsächlich zwei Chips auf einem Package sitzen, und man daher die Möglichkeit hat die getrennt oder zusammen zu verwenden.

Berniyh
2020-06-28, 12:51:44
Hat er das tatsächlich mit Navi 31 verbunden? Denn ich erwarte alle zukünftigen HPC-Lösungen von AMD nicht mehr mit Navi-Namen, das wird etwas gänzlich anderes. Nicht umsonst hat AMD eine eigene CDNA-Roadmap.
Navi3x ist laut AMD Angaben RDNA3. Eine Verbindung Navi3x zu CDNA1/2 ist demnach Blödsinn.

Es stand mal "Draco" als nächster Compute Name (also wahrscheinlich dann CDNA2) im Raum, ich weiß aber nicht, ob das Substanz hat.

hlynska
2020-06-28, 14:50:55
Navi3x ist laut AMD Angaben RDNA3. Eine Verbindung Navi3x zu CDNA1/2 ist demnach Blödsinn.

Es stand mal "Draco" als nächster Compute Name (also wahrscheinlich dann CDNA2) im Raum, ich weiß aber nicht, ob das Substanz hat.Wenn AMD auf MCM setzt, hindert sie ja auch niemand daran, das an Erkenntnissen Gewonnene auch auf den Consumer Karten zu nutzen. Und AMDs Nomenklatur würde ich auch nicht als in Stein gemeißelt betrachten. So gesehen lässt Navi31 so oder so Raum für Spekulationen offen. 🙃

Berniyh
2020-06-28, 15:23:20
Die Folie seitens AMD war ziemlich eindeutig. ;)

hlynska
2020-06-28, 16:28:58
AMD und Folien... Wobei die Foliendesigner ja zum Großteil jetzt zu Intel gewandert sind.

Brillus
2020-06-28, 16:29:29
Wenn AMD auf MCM setzt, hindert sie ja auch niemand daran, das an Erkenntnissen Gewonnene auch auf den Consumer Karten zu nutzen. Und AMDs Nomenklatur würde ich auch nicht als in Stein gemeißelt betrachten. So gesehen lässt Navi31 so oder so Raum für Spekulationen offen. 🙃

Compute lässt sich viel einfacher über Chipgrenzen paralliesiern aks Grafik. Einfach weil weniger Daten geteilt werden müssen.

hlynska
2020-06-28, 19:45:59
Wer sagt eigentlich, dass man hier den Teil für AI oder RT nicht als ggf. kleineren Chip mit dazuklebt? Ganz so abschreiben würde ich das nicht, Nvidia hatte dazu sogar mal eine Studie.

Der_Korken
2020-06-28, 21:09:29
Wer sagt eigentlich, dass man hier den Teil für AI oder RT nicht als ggf. kleineren Chip mit dazuklebt? Ganz so abschreiben würde ich das nicht, Nvidia hatte dazu sogar mal eine Studie.

Aus dem selben Grund, warum bei AMDs CPUs die INT-Units, FP-Units, Decoder und Caches nicht jeweils auf getrennten Chiplets liegen.

Troyan
2020-07-22, 00:49:52
Ist das neu?!
https://adoredtv.com/exclusive-amd-radeon-instinct-mi100-specs-performance-and-features/

unl34shed
2020-07-24, 15:31:09
Die TFLOPs Angaben sind irgendwie komisch, PF32 zu FP16 1:3,57 und FP64 zu FP32 1:4,42
Müssten INT8 dann nicht auch 300TOPs sein (2x FP16), warum heißt die dann nur MI100, ich dachte der Name kommt von den INT8 TOPs.

Wenn es weiterhin 64 Shader* pro CU sind müsste der Chip mit 2,7GHz laufen für die FP32 werte, eher unwahrscheinlich. Bei 128Shaderm wäre es 1,35GHz, das wären aber 15360 FP32 ALUs...

*Sind das dann eigentlich noch Shader, wenn es nur um Compute geht?

Distroia
2020-07-24, 15:36:09
AdoredTV bitte einfach ignorieren. Wer einmal lügt ...

Leonidas
2020-07-25, 11:04:32
Die TFLOPs Angaben sind irgendwie komisch, PF32 zu FP16 1:3,57 und FP64 zu FP32 1:4,42
Müssten INT8 dann nicht auch 300TOPs sein (2x FP16), warum heißt die dann nur MI100, ich dachte der Name kommt von den INT8 TOPs.
Wenn es weiterhin 64 Shader* pro CU sind müsste der Chip mit 2,7GHz laufen für die FP32 werte, eher unwahrscheinlich. Bei 128Shaderm wäre es 1,35GHz, das wären aber 15360 FP32 ALUs...
*Sind das dann eigentlich noch Shader, wenn es nur um Compute geht?


Jo, passt hinten und vorn nicht. Vor allem müssen zwischen FP32 und FP64 symetrische Verhältnisse vorliegen, irgendwelche Spezialbeschleuniger gibt es da nicht. Gilt eigentlich auch für FP16 und FP32, nur bei INT8 sind Spezialbeschleuniger derzeit denkbar.

"Shader" ... naja, eigentlich waren es immer nur Rechenwerke. Zugunsten des Anwendungszwecks hat man jene "Shader Processor" genannt, aber das ist eigentlich mehr Marketing als technische Beschreibung.

reaperrr
2020-07-25, 11:41:28
Wenn es weiterhin 64 Shader* pro CU sind müsste der Chip mit 2,7GHz laufen für die FP32 werte, eher unwahrscheinlich. Bei 128Shaderm wäre es 1,35GHz, das wären aber 15360 FP32 ALUs...
Das ist der fragwürdigste Teil dieses angeblichen Leaks, ja. Wobei es wenn, dann definitiv 128 ALUs je CU wären. Taktraten von um die 1,35 GHz wurden in früheren Leaks mehrfach genannt, und machen für einen großen Chip auch viel mehr Sinn.

Gilt eigentlich auch für FP16 und FP32, nur bei INT8 sind Spezialbeschleuniger derzeit denkbar.
Ich dachte, dass z.B. Nvidia's TensorCores auch FP16 beschleunigen können?
Arcturus soll ja auch Tensor-Zeug haben.

Grob hinkommen könnte es dann, wenn FP64 grundsätzlich 1:4 wie bei Tahiti ist, FP16 durch Bfloat16, Tensor o.ä. 4-fachen FP32-Durchsatz je Takt schafft und FP64 sowie FP16 dafür Bereiche der CUs auslasten, die bei FP32 nicht angesprochen werden, während die FP32-Einheiten bei allem zum Einsatz kommen. Das könnte dann bei FP64- und FP16-Last zu niedrigeren Taktraten führen.
Die Werte würden ungefähr zu ~1375 MHz für FP32, ~1300 MHz für FP64 und ~1230 MHz für FP16 passen, wenn die ALUs/CU wirklich verdoppelt wurden.

Dass von Adored mehr Mist als echte Infos kommt seh ich auch so, komplett ausschließen, dass irgendwas davon stimmt, würde ich aktuell aber noch nicht. Das Entfernen der Grafikpipeline könnte schon ein paar Dinge möglich gemacht haben, die sonst nicht drin gewesen wären.

MR2
2020-07-30, 09:41:10
Sorry, wieder AdoredTV
CDNA and MI100 Presentation Slides Leak

https://videocardz.com/newz/amd-radeon-instinct-mi100-to-feature-120-compute-units-expected-in-december

In den Folien wird erwähnt, dass AMD in drei spezifischen Segmenten, darunter Oil & Gas, Academia und HPC & Machine Learning, eine viel bessere Leistung bietet.
In den übrigen HPC-Workloads wie FP64 Compute, AI und Data Analytics bietet NVIDIA mit A100 eine deutlich bessere Leistung.
Gegenüber AMD hat man auch den Vorteil einer Multi-Instance-GPU-Architektur. Die Leistungsmetriken zeigen eine 2,5-mal bessere FP64-Leistung, eine 2-mal bessere FP16-Leistung und eine doppelt so hohe Tensorleistung.



https://adoredtv.com/wp-content/uploads/2020/07/1-wm.png
https://adoredtv.com/wp-content/uploads/2020/07/2-wm.png
https://adoredtv.com/wp-content/uploads/2020/07/3-wm.png
https://adoredtv.com/wp-content/uploads/2020/07/4-wm.png

AffenJack
2020-07-30, 09:52:37
Nein, kein Leak, nur schlechter Fake. AMD würde nie soviel Werbung für Nvidia in ihren eigenen Slides machen. Wieso sollte man zb die Transistoren, Nvlink etc von A100 erwähnen und Nvidia mehr Platz auf der Folie einräumen, als sich selbst. Nee du, halt dich damit nicht auf, klar Fake.

fondness
2020-07-30, 09:52:52
pls delete.

Linmoum
2020-07-30, 12:08:21
Nein, kein Leak, nur schlechter Fake. AMD würde nie soviel Werbung für Nvidia in ihren eigenen Slides machen. Wieso sollte man zb die Transistoren, Nvlink etc von A100 erwähnen und Nvidia mehr Platz auf der Folie einräumen, als sich selbst. Nee du, halt dich damit nicht auf, klar Fake.Für 'nen Artikel bei CB hat es immerhin gereicht. ;D

davidzo
2020-07-30, 13:51:18
Es macht überhaupt keinen Sinn das AMD bei FP32 führend sein soll, bei FP64 hingegen nicht. GCN5 / Vega20 hat ein SP: DP Verhältnis von 1:2 und es gibt keinen Grund für AMD hieran zu rütteln wo man doch immer wieder betont hat das Arcturus vor allem für HPC entwickelt wird (also FP64).

34 TFLOPs FP32 Compute klingt jetzt nicht völlig out of the world, wobei es nicht zu Komachis Februar Leak passt (120CU@1,3Ghz ) und auch nicht zu Rogames April-leak (120CU 878mhz).

Daher würde ich eher 17Tflops FP64 erwarten wenn die 34Tflops SP stimmen sollten.

Zudem soll Arcturus doch auch erstmals etwas wie Tensor Cores und extra Beschleuigungspfade für Bfloat16 eingebaut haben, das wird in dem Leak ja völlig ignoriert. Ich finde es auch merkwürdig wenn der xGMI Interconnect mit 100gb/s nur dieselbe Bandbreite bietet wie die Mi50 und 60 derzeit schon per Infinity Fabric haben.

Zudem wäre es sehr ungeschickt wenn man ausgerechnet ausschließlich 32bit Genauigkeit Benchmarks zeigt in denen man vorne liegt während nvidia doch mit A100 und TF32 genau in diese Kerbe schlägt.

N0Thing
2020-07-30, 17:42:06
Für 'nen Artikel bei CB hat es immerhin gereicht. ;D

Computerbase haben in dem Artikel (https://www.computerbase.de/2020-07/amd-cnda-takt-geruechte/) absichtlich auf die beiden zweifelhaften "Nvidia-Folien" verzichtet und auch auf die letzten Leaks von AdoredTV hingewiesen. :rolleyes:

Die Folien sind bei der Gerüchteküche AdoredTV aufgetaucht, die zwar schon einige Treffer landen konnte, aber genauso einige heftige Bruchlandungen bei Spekulationen hinnehmen musste. Entsprechend ist, wie gewohnt, große Vorsicht bei den Hinweis-Häppchen geboten. Vier Folien werden gezeigt, von denen zwei realitätsnah wirken, die zwei anderen jedoch äußerst zusammengebaut aussehen. Die zwei fragwürdigen Folien werden von der Redaktion daher gänzlich ignoriert.

AffenJack
2020-07-30, 20:40:54
Computerbase haben in dem Artikel (https://www.computerbase.de/2020-07/amd-cnda-takt-geruechte/) absichtlich auf die beiden zweifelhaften "Nvidia-Folien" verzichtet und auch auf die letzten Leaks von AdoredTV hingewiesen. :rolleyes:

Wenn aus einem Folienset 2 so zweifelhaft sind, wieso sollte man den anderen glauben schenken?



Daher würde ich eher 17Tflops FP64 erwarten wenn die 34Tflops SP stimmen sollten.

Zudem soll Arcturus doch auch erstmals etwas wie Tensor Cores und extra Beschleuigungspfade für Bfloat16 eingebaut haben, das wird in dem Leak ja völlig ignoriert. Ich finde es auch merkwürdig wenn der xGMI Interconnect mit 100gb/s nur dieselbe Bandbreite bietet wie die Mi50 und 60 derzeit schon per Infinity Fabric haben.


Die Taktraten für 34 Tflops FP32 sind einfach unrealistisch, das würde jegliche TDP Grenzen sprengen. Bzgl. TCs und Bfloat16, mag sein, dass es drin ist, aber die Beschleunigung wird zu klein sein, um in dem Markt was erreichen zu können. Bezeichnend sind da Lisa Sus Aussagen aus dem CC von Dienstag:

Aaron Rakers

Congratulations on the quarter. I wanted to ask about the data center GPU business. I know you talked about the past for the CDNA product going forward. I'm just curious as you look to your cloud opportunities, how do you gauge or how are you thinking about the ability to kind of participate in some of the AI opportunities in the data center GPU business. And do you have any update on kind of rock on - and how that has opened up opportunities or what we should expect from a software platform perspective?

Lisa Su

Yes, sure. Aaron. So look, I think the data center GPU business is a - it's sort of a mid-term growth vector for us. This year I mentioned in the second quarter that revenue was lower year-on-year, but the second half we expect it to go up modestly. I think the - the view is, we have good design wins in cloud gaming, we have good design wins across sort of cloud VDI type instances, very strong in supercomputing and HPC, around Frontier and El Capitan as sort of our anchor supercomputing wins.

As it relates to machine learning and AI, we continue to invest in Rome, we continue to work sort of our strategy around machine learning is partner deeply with a couple of large cloud vendors who can invest in the software with us and we see that as a multi-year opportunity, but it will, it's not a big revenue contributor here in 2020. But we see growth opportunity as we go into 2021 and beyond.

Die Frage nach AI schiebt sie komplett zu den CPUs rüber, das würde man nicht machen, wenn man sich Chancen erhoffen würde mit Arcturus. Aber generell hört sich das sehr verhalten an, erst mit CDNA2 scheint AMD größeres Wachstum zu erwarten.

mboeller
2020-07-30, 21:32:52
Die Taktraten für 34 Tflops FP32 sind einfach unrealistisch, das würde jegliche TDP Grenzen sprengen.

naja, theoretisch ist es schon möglich.

CDNA basiert angeblich auf GCN, da GCN bei compute immer gut funktioniert hat. Renoir mit den alten Vega-Cores eignet sich als Basis also ganz gut

34TFlops bei 128CU wären 2,1GHz, also grenzwertig

128CU wären 16x Renoir, also 16 x 15w (bei 1750MHz)= 240w
128CU hätten auch 16 x ca. 15mm² (ich komme für die 8CU im Renoir auf ca. 13-14mm²) = 240mm² (eigentlich ja ein wenig mehr, da FP64 Die-Area kostet)

Wenn man Vega20 als Basis nimmt, dann ist das Verhältnis aus Die-Area zu der CU-Fläche ca. 2,1; was fast genau 505mm² Die-Area ergibt.

1,8GHz wären fast 30TFlops mit 300W (einfach 16x Renoir + HBM)
2,1GHz sind damit für 34TFlops notwendig, das könnte dann das 400w Monster sein.

Ergo, möglich schon (die Zahlen passen überraschend gut), aber ob AMD das genauso sieht ;)

davidzo
2020-07-30, 23:14:24
Ich finde die verdopplung der ALUs je CU, wie reaperrr gemeint hat wäre auch eine sinnvolle erklärung.

basix
2020-07-31, 08:42:37
Wenn aus einem Folienset 2 so zweifelhaft sind, wieso sollte man den anderen glauben schenken?

So wie die Folien aussehen, glaube ich nicht dass die aus dem selben Folienset stammen. Bei der dritten Folie wohl am auffälligsten, hier hat man einfach eine Nvidia Folie mit einer AMD Folie zusammenkopiert und noch selbst was dazugeschrieben. Und die letzte Folie sieht mehr nach Vendor oder System-Builder-Folie (HP, Dell, Cray, ...) als Hersteller-Folie aus.

34 TFLOPs FP32 bei 300W liegen im Rahmen des Möglichen, aber eher am oberen Ende was ich erwartet hätte.

Was mich eher stutzig macht ist der SGEMM Durchsatz von A100: 30 TFLOPs FP32? Laut Nvidia bietet A100 19.5 TFLOPs FP32 und das selbe bei FP64 via Tensor Cores. Passt irgendwie nicht.

Es macht überhaupt keinen Sinn das AMD bei FP32 führend sein soll, bei FP64 hingegen nicht. GCN5 / Vega20 hat ein SP: DP Verhältnis von 1:2 und es gibt keinen Grund für AMD hieran zu rütteln wo man doch immer wieder betont hat das Arcturus vor allem für HPC entwickelt wird (also FP64).


34 / 2 = 17 TFLOPs FP64. Bei Nvidia steht 19.5 TFLOPs im Datenblatt (wenn auch nur via Tensor) ;) Wie gesagt, ich glaube nicht dass die letzte Folie von AMD oder Nvidia stammt, sondern von einem System Builder.

Berniyh
2020-08-26, 20:26:53
Weiß gerade nicht, ob die Info in der Form schon bekannt war, glaube aber schon.
Passt aber letztendlich zu dem was man weiß. Arcturus hat einfach doppelt so viele Shader Engines wie Vega 20 und damit insgesamt 128 CUs.

commit dff7bd1a712d1fa6fb6289e38de0769dc8b5d1b4

drm/amdgpu: correct SE number for arcturus gfx ras

Arcturus GFX has 8 SEs and 16 CUs per SE, so when resetting EDC
related register, all CUs needs to be visited, otherwise, garbage
data from EDC register of missed SEs would present.

- { SOC15_REG_ENTRY(GC, 0, mmSQ_EDC_CNT), 0, 4, 16 },
- { SOC15_REG_ENTRY(GC, 0, mmSQ_EDC_DED_CNT), 0, 4, 16 },
- { SOC15_REG_ENTRY(GC, 0, mmSQ_EDC_INFO), 0, 4, 16 },
- { SOC15_REG_ENTRY(GC, 0, mmSQ_EDC_SEC_CNT), 0, 4, 16 },
+ { SOC15_REG_ENTRY(GC, 0, mmSQ_EDC_CNT), 0, 8, 16 },
+ { SOC15_REG_ENTRY(GC, 0, mmSQ_EDC_DED_CNT), 0, 8, 16 },
+ { SOC15_REG_ENTRY(GC, 0, mmSQ_EDC_INFO), 0, 8, 16 },
+ { SOC15_REG_ENTRY(GC, 0, mmSQ_EDC_SEC_CNT), 0, 8, 16 },

Bei Navi gibt es die Register in der Form leider nicht, also kann man jetzt auch keine Rückschlüsse auf Sienna Cichlid oder Navy Flounders ziehen.

basix
2020-10-27, 17:04:52
Jetzt wo AMD Xilinx kauft: Wo ist CDNA? Gibt es neue Infos und wann zur Hölle das Ding erscheinen soll? :D

Berniyh
2020-10-27, 17:51:20
Jetzt wo AMD Xilinx kauft: Wo ist CDNA? Gibt es neue Infos und wann zur Hölle das Ding erscheinen soll? :D
Dürfte schon hier und da eingesetzt werden, aber evtl. nicht als öffentlich angepriesenes Produkt.

AffenJack
2020-10-27, 19:42:05
Die Supercomputing 20 ist Mitte November. Man wird entweder da launchen oder es ist etwas massiv schief gelaufen und das Ding braucht nen Respin etc.

Cyberfries
2020-11-03, 17:38:49
Es lebt!
https://www.computerbase.de/2020-11/amd-radeon-instinct-mi100-cdna-vorstellung-termin/
Am 16.November sollen die Instinct MI100, Instinct V640 und Instinct V620 vorgestellt werden.

tEd
2020-11-05, 17:49:02
Arcturus hat kein Lüfter


https://lists.freedesktop.org/archives/amd-gfx/2020-November/055656.html

mksn7
2020-11-05, 18:16:07
Arcturus hat kein Lüfter


https://lists.freedesktop.org/archives/amd-gfx/2020-November/055656.html

Damit ist die Karte ausschließlich für den Einbau in Servergehäuse geeignet, und es gibt keine Varianten für Workstations. Klar, eine GPU ohne Monitorausgänge hat man meistens nicht in einer Workstation, aber manchmal bietet es sich schon an.

Savay
2020-11-05, 18:36:32
Ist das ohne Ausgänge, TMUs und so Zeug überhaupt noch ne "G"PU? Würde es dann ja fast eher als SPU bezeichnen.

Linmoum
2020-11-16, 14:59:04
AMD MI100:
All-new AMD CDNA Architecture

120 Compute Units
FP64 Peak: 11.5 TLFOPS
FP32 Peak: 23.1 TFLOPS
FP16 Peak: 185 TFLOPS
32GB HBM2
Infinity Fabric X16: 276GB/s
Max Power: 300W
https://twitter.com/VideoCardz/status/1328328533802967041

Edit: Seit 15 Uhr dann auch mehr offizielles, u.a. CB
https://www.computerbase.de/2020-11/amd-instinct-mi100-fp32-fp64-gpu-cnda/

Savay
2020-11-16, 15:24:14
Die NCUs können anscheinend auch einen speziellen Matrix Modus der den Durchsatz wohl noch einmal verdoppelt in FP32 und vervierfacht für FP16.

Matrix peak/CU/clk
256 FP32
512 BF16
1024 FP16/Int8

Mal gespannt ob das diese ominöse CVML Erweiterung ist die ja auch auf den Slides zu den RDNA2 APUs auftaucht und BigNavi das dann auch kann.

y33H@
2020-11-16, 15:36:25
Whitepaper ist öffentlich:

https://www.amd.com/system/files/documents/amd-cdna-whitepaper.pdf

EDIT

Hab die (FL)OPS mal zusammengefasst ...

https://www.golem.de/news/instinct-mi100-amds-erster-cdna-beschleuniger-ist-extrem-schnell-2011-152124.html

Screemer
2020-11-16, 15:57:51
bei fp4/8 hat sich also im vergleich zu v20 fast nicht getan. mmh.

wird das bei amd als nicht relevant gesehen? ich dachte das wäre der shit für dl und viele bigdata anwendungen.

Cyberfries
2020-11-16, 16:06:08
Den Heise-Artikel (https://www.heise.de/news/Server-Beschleuniger-AMD-Instinct-MI100-Ohne-Radeon-aber-mit-11-5-FP64-TFlops-4960973.html) kann ich empfehlen, denen ist zumindest aufgefallen, dass es 128CUs im Vollausbau sind.
CBS geht nichtmal auf das Tensor Core Gegenstück ein: Die MI100 hat 480 Matrix Core Engines.

Scheint ein großer Chip zu sein, wenn die Grafik mit den HBM2-Bausteinen halbwegs passt >700mm².

Der_Korken
2020-11-16, 16:13:30
Für 700mm² finde ich das gegenüber V20 gar nicht mal so overwhelming. Es wurde ja auch einiges an 3D/Rasterizer-Kram rausgeworfen und das HBM-Interface ist auch nicht größer geworden. Die Fläche der Recheneinheiten ist also deutlich mehr als doppelt so groß wie bei V20. Zusätzlich war die Packdichte bei V20 nicht gerade die beste, d.h. da wäre auch Potenzial. Einzig der gleichgebliebene Verbrauch ist positiv, aber dafür ist der Takt auch sehr niedrig ausgefallen. N21 schafft trotz nur 80CUs bei 300W quasi genau so viele FP32 Flops/s dadurch dass der Takt einfach so viel höher ist.

mksn7
2020-11-16, 16:53:05
Sieht nach relativ geringen Architekturänderungen aus. Soweit sie das bis jetzt beschrieben haben sind es vor allem mehr CU mit jetzt zusätzlichen matrix execution units an einem etwas breiteren Speicherinterface.

Ich seh gerade, das register file ist mit 128kB/SIMD doppelt so groß wie bei Vega 20, wenn ich das richtig interpretiere. Das ist echt nett.

Der L1 cache ist immer noch nur lächerliche 16kB groß. Der komfortabel große (und schnelle) 128kB L1 von Volta tut Wunder an so vielen Stellen, da hätte ich mir mehr erwartet. Hoffentlich ist er wenigstens schneller als Vega (32B/cycle), wie bei Navi/Turing (64B/cycle) oder gar Volta/Ampere (128B/cycle).

Der L2 ist mit 8MB etwas größer als bei Volta (6MB) aber folgt nicht dem rießigen L2 von Ampere (40MB). MI100's L2 ist 6TB/s doppelt so schnell wie der von Volta, wird aber wegen des winzigen L1 auch wesentlich mehr zu tun haben.

Berniyh
2020-11-16, 17:40:13
Interessant übrigens, dass man VCN drin gelassen hat. ;)

Auch interessant, dass Arcturus dann seit Fiji(?) der erste Chip sein wird mit weniger tccs (16) als Speicherkanälen (32)?
Zumindest wenn der Chip, so wie ich das verstanden habe, ein 4096 Bit Speicherinterface hat.

Gipsel
2020-11-16, 17:44:30
Hoffentlich ist er wenigstens schneller als Vega (32B/cycle), wie bei Navi/Turing (64B/cycle) oder gar Volta/Ampere (128B/cycle).Nah, der Vektor-L1 hatte auch schon bei GCN (oder schon bei den VLIW-Architekturen der Texture-L1) eine Bandbreite von 64Byte pro Takt. Mit RDNA ist es auf 128Byte/Takt hochgegangen. NVidia liegt da traditionell in Führung, insbesondere wenn man die Unterschiede in der Organisation vernachlässigt (bei GCN sind die 64kB local/shared memory nochmal separat mit 128Byte/Takt angebunden). Kepler hat in einem SMX theoretisch 256Byte/Takt Bandbreite aus dem kombinierten shared memory/L1 gehabt (was eine Verdopplung von Fermis 128Byte/Takt waren, Tesla lag vorher bei 64Byte/Takt), Maxwell ist wieder auf 128Byte/Takt gegangen, hat dafür aber Texture L1 und Shared Memory getrennt. Die TMUs können bei nVidia schon ziemlich lange 128Byte/Takt lesen.

mksn7
2020-11-16, 18:58:19
Nah, der Vektor-L1 hatte auch schon bei GCN (oder schon bei den VLIW-Architekturen der Texture-L1) eine Bandbreite von 64Byte pro Takt. Mit RDNA ist es auf 128Byte/Takt hochgegangen. NVidia liegt da traditionell in Führung, insbesondere wenn man die Unterschiede in der Organisation vernachlässigt (bei GCN sind die 64kB local/shared memory nochmal separat mit 128Byte/Takt angebunden). Kepler hat in einem SMX theoretisch 256Byte/Takt Bandbreite aus dem kombinierten shared memory/L1 gehabt (was eine Verdopplung von Fermis 128Byte/Takt waren, Tesla lag vorher bei 64Byte/Takt), Maxwell ist wieder auf 128Byte/Takt gegangen, hat dafür aber Texture L1 und Shared Memory getrennt. Die TMUs können bei nVidia schon ziemlich lange 128Byte/Takt lesen.

Die GCN/RDNA Werte hab ich selbst nicht gemessen, dachte aber sowohl die 32B/cycle als auch die 64/cycle in irgendwelchen Specsheets/whitepaper gelesen zu haben.

Ich frage mich gerade woher ich mich bei Kepler an 32B/cycle erinnere. Bei Kepler war der L1 cache meist kaum nutzbar (zumindest für compute), bei K20 gar nicht und bei K40/K80 optional schon, aber meist langsamer/unpraktisch. Deswegen müssten alle meine Erfahrungen vom texture cache stammen, der meist schneller/praktikabler war. Aus irgendeinem Grund erinnere ich mich an 32B/cycle, war das vielleicht eine Limitierung für ungefilterte loads von CUDA aus?

Mit Pascal hab ich selbst weniger programmiert. Aber da erinner ich mich zumindest an die Marketingaussage einer vervierfachten L1 cache Bandbreite von Pascal zu Volta. https://arxiv.org/pdf/1804.06826.pdf in table 3.2 messen hier auch nur knapp 32B/cycle. Das ist bei Pascal (P100) aber natürlich auch nur für eine halbierte SM im Vergleich zu Maxwell, also effektiv gleich breit.

Vielleicht basiere ich all meine Zahlen bei Kepler/Maxwell auch pro Scheduler und nicht pro SM. Dann hätte ich einiges durcheinander, sorry.

Jedenfalls ist er immer noch sehr klein, der CDNA L1 cache.

Gipsel
2020-11-16, 23:29:07
Die GCN/RDNA Werte hab ich selbst nicht gemessen, dachte aber sowohl die 32B/cycle als auch die 64/cycle in irgendwelchen Specsheets/whitepaper gelesen zu haben.Die Werte passen eher für den L1-I$ oder den L1-sD$, aber der L1-vD$ lag bei AMD ewig lange 64Byte pro Takt und ab RDNA sind es (dann als L0-vD$) 128 Byte pro Takt. Zumindest bei den VLIW/GCN-Varianten kam man da auch wirklich ran (per buffer loads), weswegen ich die Aussage von AMD zu 128 Byte/Takt bei RDNA (steht so im Whitepaper) auch nicht bezweifle (und zumindest die [durch die Bandbreite begrenzten] Texturfilterraten für FP16-Texturen [8 Byte pro Texel] sind ja schon mal tatsächlich verdoppelt).
Über die Situation bei nV weiß ich ehrlich gesagt deutlich weniger. Kann durchaus sein, daß für die normalen Anwendungsfälle die Bandbreite nicht rumkommt (sondern die z.B. meist nur intern den Filtereinheiten der TMUs zur Verfügung steht, aber nicht für ungefilterte Loads). Wobei mir dann aber unklar ist, wofür man die ganzen LD/ST-Einheiten im SM benötigt bzw. z.T. sogar gesagt wurde, daß der L1/shared memory in 32 Bänke organisiert ist (wovon jede dann mindestens 4 Byte pro Takt liefern können sollte).

basix
2020-11-17, 09:22:31
Arcturus sieht für mich rein von den Leistungsdaten und Fähigkeiten in etwa wie Nvidia V100 * 1.5x aus. Alles etwas mehr und schneller. Wenn da die SW Seite auch mitmacht, sieht es mMn ganz gut aus. Bei ML reicht es nicht, um A100 zu schlagen. Aber gegenüber V20 ist es dennoch ein grosser Sprung.

Sollte sich die Die Size von knapp 700mm2 bestätigen, würde mich das etwas überraschen. Ich hätte einen kleineren Chip zwischen 500-600mm2 erwartet.

Locuza
2020-11-17, 09:36:04
Interessant übrigens, dass man VCN drin gelassen hat. ;)

Auch interessant, dass Arcturus dann seit Fiji(?) der erste Chip sein wird mit weniger tccs (16) als Speicherkanälen (32)?
Zumindest wenn der Chip, so wie ich das verstanden habe, ein 4096 Bit Speicherinterface hat.
Arcturus hat 32 TCCs (auch wenn Treibereinträge 16 stehen gehabt haben, dass Bedarf wohl einer Korrektur.
Steht so im Whitepaper:
The L2 cache is shared across the whole chip and physically partitioned into multiple slices. For the MI100, the cache is 16-way set-associative and comprises 32 slices (twice as many as in MI50) in total for an aggregate capacity of 8MB. Each slice can sustain 128B for an aggregate bandwidth over 6TB/s across the GPU
(Seite 4)
https://www.amd.com/system/files/documents/amd-cdna-whitepaper.pdf

Sieht man auch auf dem die shot:
https://pbs.twimg.com/media/Em-t32dW4Ao_u-U?format=jpg&name=large

Vega20 ist da eine Art Ausnahme mit 16 TCCs, wie bei Vega10, obwohl das Speicherinterface doppelt so breit ausfällt.

Compute Unit Design im Vergleich:
https://pbs.twimg.com/media/Em-40XVXEAQOtOR?format=jpg&name=900x900

Die SIMD-Units sind ein gutes Stück größer geworden, der Scalar + LDS-Bereich erscheint etwas umorganisiert und kompakter.
Die TMUs hat man auch sehr wahrscheinlich gestrichen, der Bereich ist deutlich kürzer und insgesamt kleiner, als bei Vega10.

Das Register-Design hat vermutlich klassisch 64KB VGPRs + 64 KB AGPRs, die neu dazu kamen.
Die Matrix-Units können beide Sets verwenden, keine Ahnung, ob die Vector-SIMD-Units es auch können.

Berniyh
2020-11-17, 09:59:19
@Locuza: hm interessant, danke für die Info.
Wenn also Einträge in den FW Dateien hier und da falsch sind (oder sein können), dann muss man evtl. auch Navi 31 unter einem anderen Licht betrachten ob der Tatsache, dass die Daten eigentlich zu identisch zu Navi 21 sind.

Cyberfries
2020-11-17, 10:43:20
Merkwürdige Stromversorgung.
Auf dem PCB (https://pics.computerbase.de/9/5/8/3/5-b22f4ec1413ff921/4-1080.d4803924.jpg) sind 3x 8pin vorgesehen, auf der Karte (https://pics.computerbase.de/9/5/8/3/5-b22f4ec1413ff921/3-1080.1600038d.jpg) sind 2x 8pin. Im Supermicro-Server (https://heise.cloudimg.io/width/1920/q70.png-lossy-70.webp-lossy-70.foil1/_www-heise-de_/imgs/18/3/0/0/2/8/7/3/AS_-4124GS-TNR_with_MI100-34191a6a45057bb9.jpg) je 1x 8pin.

Wieviel sind es denn nun? Und wie versorgt Supermicro die Karte mit 300w?
Ist da der PCIe-Slot aufgebohrt, vergleichbar dem Mac Pro?
Oder ist das ein EPS-8pin-Anschluss für 235w, vergleichbar dieser nVidia-Karte (https://videocardz.com/newz/nvidia-quadro-rtx-ampere-6000-to-feature-a-new-8-pin-power-connector)?

mksn7
2020-11-17, 10:46:08
Schöner Vergleich, danke!


Das Register-Design hat vermutlich klassisch 64KB VGPRs + 64 KB AGPRs, die neu dazu kamen.


Was sind AGPR's?

Gipsel
2020-11-17, 11:10:43
Was sind AGPR's?Ja, gleiche Frage. Im Whitepaper stehen 128kB vGPRs pro SIMD (512kB pro CU). Aber da ist auch die Beschreibung von bf16 falsch. So wer weiß...

Dural
2020-11-17, 12:10:57
Der Chip überzeugt mich jetzt nicht wirklich, einzig der relative geringer Verbrauch überrascht.

GA100 ist mit seinen 826mm² also ca. 100mm² mehr und auch 128SM deutlich mächtiger und hat dazu noch den ganzen 3D Kram drin + 6144Bit. Ich verstehe nicht für was AMD so viel Fläche braucht.

dargo
2020-11-17, 12:16:24
Der Chip überzeugt mich jetzt nicht wirklich...
Das ist bei dir auch so überraschend. :ulol:

Gipsel
2020-11-17, 13:08:28
GA100 ist mit seinen 826mm² also ca. 100mm² mehr und auch 128SM deutlich mächtigerUnd Arcturus hat 128CUs im Vollausbau, da liegt man nicht wirklich weg (und beim MI100 sind 120 davon aktiv, beim A100 sind nur 108 SMs aktiv). Anders wäre die etwas höhere allgemeine (keine Matrix-Operationen) FP32 und FP64 Performance auch kaum möglich (Arcturus hat praktisch gleiche Zahl an FP32/FP64-Einheiten, taktet aber etwas höher). ;)
Ich verstehe nicht für was AMD so viel Fläche braucht.Ein paar Quadratmillimeter gehen sicher für die doppelte Menge an Vektor-Registern im Vergleich zu A100 drauf (so ein Arcturus-Chip hat immerhin 64MB vRegs [und noch knapp 1,6MB sRegs, der Vollständigkeit halber]). ;)

Savay
2020-11-17, 13:27:15
Anders wäre die etwas höhere allgemeine (keine
Matrix-Operationen)

Der FP32 Matrix Durchsatz ist aber angeblich mehr als doppelt so hoch wie bei nV! (die halt auf TF32 setzen) :wink:
Die Frage ist am Ende doch sicher eh wieder viel mehr wie es dann auch in der Praxis skaliert. Rohwerte sind ja nur die halbe Wahrheit.

Gipsel
2020-11-17, 13:48:17
Der FP32 Matrix Durchsatz ist aber angeblich mehr als doppelt so hoch wie bei nV! (die halt auf TF32 setzen) :wink:Dafür kann der A100 auch Matrixoperationen mit FP64. Sind halt etwas andere Abwägungen. Persönlich ist mir auch etwas unklar, warum bei Arcturus die Matrixoperationen mit FP16 den doppelten Durchsatz haben im Vergleich zu bf16. Das wäre ja irgendwie auch mit vergleichsweise wenig Aufwand zu beheben. Aber offenbar sieht AMD keinen größeren Sinn darin, für den Faktor 2 in dem Bereich (wo sie auch mit Faktor 2 hinter A100 zurückliegen würden) auch nur ein wenig zu investieren und konzentrieren sich auf allgemeine FP64 oder Matrix FP32 Performance. Keine Ahnung, welche Workloads genau die sich dafür vorstellen (Öl- und Gas-Exploration? Fluid-Dynamik?).
Die Frage ist am Ende doch sicher eh wieder viel mehr wie es dann auch in der Praxis skaliert. Rohwerte sind ja nur die halbe Wahrheit.Das gilt natürlich immer. Da hast Du recht.

davidzo
2020-11-17, 13:48:59
Merkwürdige Stromversorgung.
Auf dem PCB (https://pics.computerbase.de/9/5/8/3/5-b22f4ec1413ff921/4-1080.d4803924.jpg) sind 3x 8pin vorgesehen, auf der Karte (https://pics.computerbase.de/9/5/8/3/5-b22f4ec1413ff921/3-1080.1600038d.jpg) sind 2x 8pin. Im Supermicro-Server (https://heise.cloudimg.io/width/1920/q70.png-lossy-70.webp-lossy-70.foil1/_www-heise-de_/imgs/18/3/0/0/2/8/7/3/AS_-4124GS-TNR_with_MI100-34191a6a45057bb9.jpg) je 1x 8pin.

Wieviel sind es denn nun? Und wie versorgt Supermicro die Karte mit 300w?
Ist da der PCIe-Slot aufgebohrt, vergleichbar dem Mac Pro?
Oder ist das ein EPS-8pin-Anschluss für 235w, vergleichbar dieser nVidia-Karte (https://videocardz.com/newz/nvidia-quadro-rtx-ampere-6000-to-feature-a-new-8-pin-power-connector)?


Wenn du das Chassis +PSU unter Kontrolle hast reicht auch ein 8P Anschluss locker.
Mit den richtigen AWG16 Kabeln und vergoldeten Crimp Terminals sind biszu 13.0 Ampere pro Pin möglich. Ein 8Pin PCIe hat 3x 12V, reicht also für 468Watt. Und du hast recht, das sind definitiv keine normalen 8PIn PCIE Stecker, sondern wohl EPS12V anhand der Farbocdierung. 4gelbe Leitungen und die Verriegelung ist auf der anderen Seite.
8Pin EPS Stecker haben sogar 4x 12V, für biszu 624Watt.

Das geht natürlich nicht wenn das Netzteil von woanders kommt und die Stecker mal mit bronzeterminals, mal mit vernickelten, mal mit AWG16, mal mit AWG17 kommen... Aber bei einem Netzteil mit 8x 12V Steckern ist das wohl sowieso kein off-the-shelf Teil mehr.

Savay
2020-11-17, 14:18:53
Keine Ahnung, welche Workloads genau die sich dafür vorstellen (Öl- und Gas-Exploration? Fluid-Dynamik?).

Ganz blöd geraten:
Vielleicht haben die bei der ganzen Rückportiererei von CUDA Code auf ROCm in den letzten 2-3 Jahren einfach festgestellt das es für HPC eher mehr Vector FP64/FP32 braucht und der ganze AI Kram dann eben doch am Ende überwiegend besser/einfacher über Matrix FP32 rennt weil die anderen Formate halt doch eher recht exotisch sind!?

:conf: