AMD/ATI - VEGA (Vega10, Vega11, Vega12, Vega20) - 2017 [Archiv] - Seite 57

Archiv verlassen und diese Seite im Standarddesign anzeigen : AMD/ATI - VEGA (Vega10, Vega11, Vega12, Vega20) - 2017

Seiten : 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 [57] 58 59 60 61

gravitationsfeld

2018-10-25, 20:47:26

Navi10 ist Mittelklasse
Quelle?

Die Vega uArch ist seiner Zeit einfach voraus und funktionale Anteile von PS sind bereits aktiviert, siehe Wolfenstein II.
Da ist ueberhaupt nichts aktiv.

Complicated

2018-10-25, 23:46:40

Quelle?
Diegrösse

Da ist ueberhaupt nichts aktiv.
Quelle?

Stretcher

2018-10-26, 00:27:09

Diegrösse

Quelle?

Quelle?

Troll detected.

gravitationsfeld

2018-10-26, 01:06:01

Quelle?
Ich.

Complicated

2018-10-26, 06:52:57

Dachte ich mir.

Complicated

2018-10-26, 06:54:37

Quelle?
3DCenter

gravitationsfeld

2018-10-26, 07:37:43

Dachte ich mir.
Dir ist schon klar, dass ich an dem Wolf 2 gearbeitet habe, ja?

Da ist nichts mit Primitive Shadern. Es gibt nicht mal eine Extension dafuer. Das GPU culling sind stink normale compute shader.

y33H@

2018-10-26, 08:28:13

Auch wenn "gravitationsfeld" freilich Recht hat, hier noch die Slide von AMD als zusätzliche Quelle:

64569

Da steht auch, dass Wolf2 für das Culling auf Compute Shader setzt.

Digidi

2018-10-26, 12:44:45

Auch wenn "gravitationsfeld" freilich Recht hat, hier noch die Slide von AMD als zusätzliche Quelle:

64569

Da steht auch, dass Wolf2 für das Culling auf Compute Shader setzt.

Das ist aber nur eine Emulation der PS.

Bei beyond3d gibt es aber ein Bild wo PS aktive ist. (Keine Ahnung bei welchem Programm)

AMD Vega 10, Vega 11, Vega 12 and Vega 20 Rumors and Discussion (https://forum.beyond3d.com/posts/2041569/)

Complicated

2018-10-26, 16:42:13

Dir ist schon klar, dass ich an dem Wolf 2 gearbeitet habe, ja?

Nein das ist mir nicht klar. Daher auch meine Frage nach der Quelle. Deine mangelhaft belegten Behauptungen sorgen hier eben für Diskussionen die du gerne vermeiden darfst. "Weil ich das sage" reicht auch für einen Entwickler nicht in einem Forum. Ich kenne nur deinen Nick...und habe nicht den blassesten Dunst darüber was du beruflich machst. Du übrigens auch nicht was ich mache.
Hier wird kommuniziert, nicht entwickelt. Du wurdest schon mehrfach auf die Defizite deiner Einzeiler zurecht hingewiesen.

Complicated

2018-10-26, 16:46:47

Es ist immer wie lustig, wie einige hier meinen sie wüssten mehr als ein Entwickler, der an Wolfenstein 2 direkt gearbeitet hat :D
Nun ich meine besser kommunizieren zu können als der Entwickler der direkt an einem Spiel arbeitet. Ich belege meine Behauptungen..und wenn du genau liest, wirst du feststellen, dass ich überhaupt nicht behauptet habe es besser zu wissen. Ich wollte ein Quelle die nicht "Ich" heisst wo nur ein Nick im Forum steht. Das nennt man Argumente in einer Diskussion belegen, damit andere Mitleser beurteilen können wessen Aussage mehr Gewicht hat.

@Marc
Danke für eine Quelle.

Screemer

2018-10-26, 17:03:55

Was hälst du davon mal nach nachzufragen und nicht gleich runzublaffen: https://de.linkedin.com/in/axel-gneiting-a9bb6748

Ist übrigens nicht das erste Mal, dass das zur Sprache kommt und ich hab das auch dir schon explizit verlinkt, wenn ich mich Recht entsinne. In 4 Jahren könntest du das allerdings auch so durchaus schon mitbekommen haben.

Complicated

2018-10-26, 19:11:12

Was sonst ist es als nachzufragen wenn ich "Quelle?" schreibe? (Eben seine eigene Ausdrucksweise verwendend) Soll ich jetzt dich fragen was du beruflich machst bevor ich darauf antworte? Und was ändert es an seiner Kommunikationsqualität die ich hier bemängele.
Mich würde hier auch zu gerne interessieren wo du ein Zitat von mir findest auf dieser Seite wo ich ihn anblaffe.

Screemer

2018-10-26, 19:22:08

Und wenn ich dir jetzt verstehe, dass das ein und die selbe Person ist :eek:

Complicated

2018-10-26, 19:25:37

Da ich Coda nicht kenne ist das eine völlig sinnlose Eskalation deinerseits. Ich habe lediglich gelesen wie andere sich über ihn geäussert haben und interessiere mich wenig für Nick-Wechsel in Foren. Aber manche meinen ja jemanden zu kennen wenn andere über denjenigen schreiben. Ich definiere das anders. Zumal es völlig unerheblich ist wenn man in Foren postet wo tausende mitlesen die du dann wohl auch alle für "schlechte und dreckige Lügner" hältst.

Screemer

2018-10-26, 19:27:32

Reicht's langsam? Den Link von mir geklickt? Genug credibility um auf "quelle?" mit "ich" zu antworten? Denke schon. Thema abgehakt.

Complicated

2018-10-26, 19:32:20

Nein das ist niemals genug um als Quelle "ich" zu schreiben. Das ist ein Forum und kein Chat
und jetzt zieh ab mit dem Gelaber, keiner will sowas hier hören.Dann geh weiter. Hier gibt es nichts zu hören für dich, und Hausrecht hast du auch nicht. Du magst alles glauben nur weil jemand näher dran an etwas ist. So mancher der zu nahe dran ist erzählt auch Bulslhit. Quellen sind das einzige, das in Foren zählt. Wer keine liefert muss sich zumindest gefallen lassen, dass man danach fragt. Und wenn er dein Gott ist, muss ich noch lange nicht daran glauben. Da bin ich eher Fakten orientiert. Sollte ja auch nicht zu schwer sein wenn das zutrifft.

Weil Entwickler ihre eigene Arbeit am besten beurteilen können was die Qualität angeht. Da zeigen Erfahrungen oft das Gegenteil.
"Ich habe es geschrieben. Es ist perfekt!" Genau mein Humor....

Brillus

2018-10-26, 19:34:39

Und wenn ich dir jetzt verstehe, dass das ein und die selbe Person ist :eek:

Darauf wollte ich hinaus, bevor du hier Zetter und Mordio rufst solltest du mal überlegen ob die anderen die relevante Informationen haben. Bevor du mir das gesagt hast hab ich auch nicht viel auf gravitationsfeld Antwort gegeben.

Hier im Forum sind genug Leute unterwegs die irgendwas erzählen, ich denke da nur ein Forummitglied das regelmäßig die geheimsten AMD interna in der Uni-Mensa erzählt bekommt.

vinacis_vivids

2018-10-26, 19:48:39

Geh woanders hin lesen, wenn es dir nicht passt. Die Aussage steht nach wie vor.

Screemer

2018-10-26, 19:50:54

Hier im Forum sind genug Leute unterwegs die irgendwas erzählen, ich denke da nur ein Forummitglied das regelmäßig die geheimsten AMD interna in der Uni-Mensa erzählt bekommt.
Schaffe ist doch schon lange nicht mehr aktiv :ugly:

Digidi

2018-10-26, 19:51:51

Das ist aber nur eine Emulation der PS.

Bei beyond3d gibt es aber ein Bild wo PS aktive ist. (Keine Ahnung bei welchem Programm)

AMD Vega 10, Vega 11, Vega 12 and Vega 20 Rumors and Discussion (https://forum.beyond3d.com/posts/2041569/)

Um wieder zurück zu kommen zum Thema. Seltsam ist es schon das der AMD GPU Profiler PS Shader anzeigt...

vinacis_vivids

2018-10-26, 19:56:27

PS sind ja auch per Treiber-API aktiviert. Bei der Entwicklung von Wolfenstein II gab es noch keine (vollständig) aktivierten PS, da kann nicht mal der Codegott mitreden.

anddill

2018-10-26, 20:01:46

Es reicht! Verdammt nochmal!
Scheiß Kindergarten hier.

pixeljetstream

2018-10-26, 20:27:45

Um wieder zurück zu kommen zum Thema. Seltsam ist es schon das der AMD GPU Profiler PS Shader anzeigt...
PS ist die gängige Abkürzung für Pixel Shader. Der Profiler Screenshot ist von Polaris, man kann auch nen hohen Wert bei "pixels shaded" passend zur PS Load lesen.
Gib dir doch wenigstens die Mühe Mal das Zeug zu lesen was du verlinkst und überflieg es nicht nur.

Digidi

2018-10-26, 20:30:32

PS ist die gängige Abkürzung für Pixel Shader. Der Profiler Screenshot ist von Polaris, man kann auch nen hohen Wert bei "pixels shaded" passend zur PS Load lesen.
Gib dir doch wenigstens die Mühe Mal das Zeug zu lesen was du verlinkst und überflieg es nicht nur.

Schau dir das Bild genau an;) das hab ich auch gedacht ;)
PrimSWafefront
SurfSWavefront

pixeljetstream

2018-10-26, 20:33:01

Schau dir das Bild genau an;) das hab ich auch gedacht;)
PrimSWafefront
SurfSWavefront
Haha self fail. Okay hab ich verdient, waren zwei Bilder ;)

gravitationsfeld

2018-10-26, 20:57:14

PS sind ja auch per Treiber-API aktiviert. Bei der Entwicklung von Wolfenstein II gab es noch keine (vollständig) aktivierten PS, da kann nicht mal der Codegott mitreden.
Es gibt keine Primitive Shader in Wolf 2. Weder im Treiber noch in der App. Darum ging es und um nichts anderes.

Locuza

2018-10-26, 22:30:57

Und über das Profiler-Bild haben wir auch schon einmal geredet.
Intern hat Vega weniger unterschiedliche Shader-States, als die Architekturen davor, die Fusion der Stages nennt AMD auch schon allgemein Primitive- und Surface-Shader im RadeonGPU-Profiler, aber Geometrie Culling was vermarktet wurde kommt nicht zum Einsatz, weder implizit, noch explizit, im letzteren Fall gibt es keine API-Erweiterungen für den Entwicklersupport.
AMDs eigener Mitarbeiter hat auch gesagt, dass NGG nicht für GFX9 aktiviert wird, was im Prinzip die neue Geoemtrie-Pipeline mit Primitive Shadern und höherer Culling-Rate darstellen sollte.

Digidi

2018-10-26, 23:44:05

Locuza

2018-10-27, 00:30:45

Es gibt ja auch schon lange NGG code im öffentlichen Vulkan-Treiber, welcher nicht aktiv ist.
Wenn AMD keine 180-Grad-Wende macht, wird die Infrastruktur später bei Navi verwendet.

gravitationsfeld

2018-10-27, 03:39:46

Locuza

2018-10-27, 05:06:05

Heureka, dass verlangt ein paar Einordnungen.

Mein Puzzle sieht aktuell so aus.
AMD hat bei Vega zwei Geometrie-Pfade.
* Einmal den relativ klassischen mit Fixed-Function Hardware wie dem Primitive Assembler und Culling bei den Geometry-Engines und wo Daten in dedizierte Parameter-Caches gespeichert werden.

* Ein anderer mal NGG/Primitive Shader (Next Generation Geometry), wo die Fixed-Function-Portion entfällt und (Primitive) Shader sich um das Culling und andere Dinge kümmern.

Den klassischen Pfad hat AMD laut den User-Mode Treibern und dem White-Paper etwas verändert und erweitert, zum einem sind die Parameter-Caches doppelt so groß geworden, zum anderem fasst AMD bei Vega die Shader-Typen LS + HS und ES + GS in der Hardware zusammen und nennt das im RadeonProfiler jeweils schon Primitive Shader und Surface Shader.
Patches 14-30 add LS-HS support (i.e. tessellation). The hw LS stage
doesn't exist anymore and the driver has to merge it with HS. There is
a lot of shader work around merging the stages.

Patches 31-53 add ES-GS support (i.e. geometry shaders). The hw ES
stage doesn't exist anymore the driver has to merge it with GS.
/* Valid shader configurations:
*
* API shaders VS | TCS | TES | GS |pass| PS
* are compiled as: | | | |thru|
* | | | | |
* Only VS & PS: VS | | | | | PS
* GFX6 - with GS: ES | | | GS | VS | PS
* - with tess: LS | HS | VS | | | PS
* - with both: LS | HS | ES | GS | VS | PS
* GFX9 - with GS: -> | | | GS | VS | PS
* - with tess: -> | HS | VS | | | PS
* - with both: -> | HS | -> | GS | VS | PS
*
* -> = merged with the next stage

https://lists.freedesktop.org/archives/mesa-dev/2017-April/152733.html

Soweit ich das sehe führt diese Fusion der einzelnen API-Shader in der Hardware aber zu effektiv keiner Veränderung bei der prinzipiellen Funktionsweise, die Shader cullen nichts automatisch und Fixed-Function-Hardware ist wie sonst auch im Einsatz.

Und hier ist der ganze Hergang verwirrend.
Raja Koduri meinte in einem Reddit AMA und Rys Sommefeldt auf Twitter das Primitive Shader automatisch über das Shader-Array Geometrie cullen würden und kein expliziter Entwickler-Support nötig ist, AMDs öffentliche PR meinte dem gegenüber aber es bräuchte API-Veränderungen und expliziten Entwickler-Support.
Und dann nennt AMD im RadeonGPU-Profiler die Shader-Stages Primitive Shader und Surface Shader, welche bisher aber nicht die beworbene Funktionalität durchführen.
Ein anderer AMD Mitarbeiter meinte vor kurzem es wird keinen NGG-Support (wo Primitive Shader ein Teil davon sind) für GFX9 mehr geben.
Hi Jakub,
Both KMD and LLPC are not ready to support NGG for gfx9. We are going to
support NGG in amdvlk for next generation GPU.

Thanks
Jian-Rong JIN

GFX9 will not be supported.

Thanks,
Jian-Rong Jin

--->

Hey Jian-Rong,

Will gfx9 get support from KMD and LLPC by the time gfx10 releases, or is it
only going to be a gfx10-and-forward feature?

If not, is there something missing in gfx9 hardware? Are you allowed to say?

--->

GFX9 will not be supported.

Thanks,
Jian-Rong Jin

https://www.mail-archive.com/amd-gfx@lists.freedesktop.org/msg24458.html

Deine Aussage impliziert aber das AMD funktionierende Primitive Shader im Treiber hat, welche implizit Geometrie cullen und AMD mit Absicht bei Wolf2 deaktiviert hat.
Aber von welchem eigenem Culling sprichst du? Dem optionalen GPU-Culling über die Compute-Shader oder was immer bei euch geculled wird?

pixeljetstream

2018-10-27, 10:16:06

Er meint sicher den compute shader.
Das primitive shader culling wird in irgendeiner Form gehen, nur halt vielleicht nicht so prickelnd, dass sie das nicht offiziell supporten wollen. Aber sicherlich können die intern was für Performance Tests basteln.

Man muss auch beim culling nicht die komplette fixedfunc ausschalten, es kann reichen lediglich weniger Arbeit hinzuschicken

Locuza

2018-10-27, 10:42:03

Die Zahlen vom Primitive-Culling im White-Paper zu Vega und NGG kamen laut den Fußnoten von internen Prototype Tests (Letzte Seite, Fußnote 7).
http://radeon.com/_downloads/vega-whitepaper-11.6.17.pdf

Falls die Pläne sich nicht geändert haben, wird AMD laut Mitarbeiter kein NGG für Vega/GFX9 aktivieren.
Es wäre entsprechend überraschend, wenn AMD schon insgeheim hier und da Primitive Shader für Spiele verwendet, aber das nicht für den open-source-stack bei Vulkan plant, welcher in Zukunft immer mehr dominieren soll, da irgendwann der closed source shader compiler ganz ersetzt werden soll.

pixeljetstream

2018-10-27, 10:59:21

Klar kann man das für interne Tests verwenden. Das eine schließt imo das andere nicht aus. Einen nicht öffentlichen Test für ein Spiel hinzuhacken ist bestimmt drin.

Locuza

2018-10-27, 11:10:20

Die Sache ist das gravitationsfeld meinte das AMD für Wolf2 Primitive Shader deaktiviert hat, weil das langsamer als ihre spielinterne Culling-Methode ausfiel.
Man könnte die Annahme formen, dass AMD Primitive Shader pro App testet und für einige sogar aktiv haben könnte, aber wie gesagt, die Vulkan-Situation erweckt nicht den Eindruck, als ob das AMD für irgendwelche Anwendungen schon aktiv hat.

Kriton

2018-10-27, 16:19:26

Oder es war das Testfeld auf dessen Basis sie entschieden haben erst einmal nichts (öffentlich) zu machen.

iuno

2018-10-27, 17:21:34

Mein Puzzle sieht aktuell so aus.
AMD hat bei Vega zwei Geometrie-Pfade.
* Einmal den relativ klassischen mit Fixed-Function Hardware wie dem Primitive Assembler und Culling bei den Geometry-Engines und wo Daten in dedizierte Parameter-Caches gespeichert werden.

* Ein anderer mal NGG/Primitive Shader (Next Generation Geometry), wo die Fixed-Function-Portion entfällt und (Primitive) Shader sich um das Culling und andere Dinge kümmern.
So habe ich das nie verstanden. Zwischen den gemergten Stufen gibts keine FF, deshalb macht man es ja. Es werden ja je nach Konfiguration VS+GS oder TCS und TES mit GS gemergt. FF ist nur ganz am Anfang (assembly) und zwischen TCS und TES (tesselation). "Primitive Shader" sollen hier dem Programmierer entgegen kommen und effizientere Programmierung zu erlauben, zusaetzlich zum bestehenden inkl. dem compute shader. Es macht fuer mich dabei aber keinen Sinn bestehende FF Bloecke ueber den Haufen zu werfen.

Also unter Verwendung von Tess und GS, alt:
assembly - VS - TCS - tesselator - TES - GS - rasterizer - fragment shader
neu:
assembly - primitive shader - tesselator - surface shader - rasterizer - fragment shader

(mal in API Sprechweise ohne LS, HS usw. gehalten)

radeonsi mergt jedenfalls und da habe ich auch keinen Hinweis darauf gesehen, dass Vega noch die alte Pipeline hat. Es gibt auch keine offensichtlichen riesigen Probleme damit, natuerlich kann es aber trotzdem sein dass die closed Treiber es anders machen. Vielleicht kann gravitationsfeld praezisieren.

Digidi

2018-10-28, 09:29:29

Hmmm

https://github.com/Avekvist/oxygen_emission

Screemer

2018-10-28, 09:36:47

Hmmm

https://github.com/Avekvist/oxygen_emission

Super linkdropping. :facepalm:

basix

2018-10-28, 09:47:09

Jop....er meint aber sicher, dass unter Future Plans "Primitive Shaders" steht

Screemer

2018-10-28, 10:52:04

das ist mir schon klar.

Digidi

2018-10-28, 17:55:33

delte

Locuza

2018-10-28, 18:34:49

So habe ich das nie verstanden. Zwischen den gemergten Stufen gibts keine FF, deshalb macht man es ja. Es werden ja je nach Konfiguration VS+GS oder TCS und TES mit GS gemergt. FF ist nur ganz am Anfang (assembly) und zwischen TCS und TES (tesselation). "Primitive Shader" sollen hier dem Programmierer entgegen kommen und effizientere Programmierung zu erlauben, zusaetzlich zum bestehenden inkl. dem compute shader. Es macht fuer mich dabei aber keinen Sinn bestehende FF Bloecke ueber den Haufen zu werfen.

Also unter Verwendung von Tess und GS, alt:
assembly - VS - TCS - tesselator - TES - GS - rasterizer - fragment shader
neu:
assembly - primitive shader - tesselator - surface shader - rasterizer - fragment shader

(mal in API Sprechweise ohne LS, HS usw. gehalten)

radeonsi mergt jedenfalls und da habe ich auch keinen Hinweis darauf gesehen, dass Vega noch die alte Pipeline hat. Es gibt auch keine offensichtlichen riesigen Probleme damit, natuerlich kann es aber trotzdem sein dass die closed Treiber es anders machen. Vielleicht kann gravitationsfeld praezisieren.
So war das nicht gemeint, was ich eigentlich vereinfacht aussagen wollte war folgendes:
Geo-Pipe 1 = Fixed-Function-Culling + Shader Stages
New Geo-Pipe 2 = Shader Culling + Shader Stages (augenscheinlich nicht aktiv für GFX9)

Und was ich noch genauer ausführen wollte ist, dass auch die Geo-Pipe 1 bei GCN5 gegenüber GCN1-4 anders aussieht und benannt wird, da AMD bei GCN5 intern weniger unterschiedliche Shader-Stages besitzt.

Anstatt jetzt noch weiter tausend Worte zu schreiben nehme ich lieber ein paar Bilder von zwei Patenten dazu, um deutlicher zu machen wie ich mir das Ganze aktuell zusammenreime.
Ein paar Anmerkungen für jeden vorab, die Patente stellen häufig Konzepte und Möglichkeiten vor, welche bei finaler Hardware nicht genauso umgesetzt werden müssen.
Sowie ich es mir zusammenreime arbeitet Vega/GCN5 intern sehr ähnlich wie unter den zwei Patenten beschrieben, welche zusammen jedenfalls für mich ein relativ schlüssiges Bild ergeben.
Also wieso AMDs Treiber Shader-Stages kombiniert und im GPUProfiler das schon Primitive/Surface-Shader nennt, obwohl kein Primitive-Culling zum Einsatz kommt.

Zuerst ein Patent bezüglich merged/combined shader stages:
http://www.freepatentsonline.com/20180082470.pdf

Dort werden zwei Methoden bezüglich der Übersetzung von API-Shadern auf die Hardware-Pipeline dargestellt, klassisch als jeweils einzelne HW-Shader-Stages, welche relativ 1zu1 zur logischen API-Shader-Pipeline mappen und Combined Stages, welche nicht 1zu1 zur API-Pipeline passen.
Laut Treiberpatches, Treiberaussagen und Profilerdarstellung hat GCN5/Vega intern weniger unterschiedliche HW-Shader-Stages und der Treiber muss im Vergleich zu früher gewisse Befehle von einigen API-Shader-Stages kombinieren.
Die Combined Stages nennt AMD in dem Patent einfach nur Combined Vertex + Hull-Shader Stage und Combined Vertex + Geometry-Shader Stage, dass ist nicht identisch mit der Umsetzung im zweiten Patent und wie es AMD im GPUProfiler darstellt, aber ich denke von der grundlegenden Methodik kommt das hin was Vega aktuell macht.
Ein Unterschied zum Patent ist das bei Vega der Surface Shader eine Kombination aus Vertex + Hull-Shader Stage darstellt und der Primitive-Shader aus Domain + Geometry-Shader Stage.
Laut Abstract ist das Ziel durch die Combined Shader Stages die Effizienz bei der Ausführung der Shader zu erhöhen, indem es weniger unterschiedliche Ausführungs-Instanzen/Wavefront-Typen gibt und weniger Ressourcen (Register, LDS, Wavefront-Tracking Entries) reserviert werden müssen.
Weiter heißt es im Patent das es auch die Latenzen verbessert, da weniger Stage-to-Stage transfers ablaufen und das ganze lokaler berechnet wird.
Im Patent wird aber kein Zusammenhang zu Shader-Culling und zusätzlicher Funktionalität erwähnt, beschrieben wird im Prinzip nur wie die aktuelle API-Pipeline effizienter in der Hardware umgesetzt werden kann, ohne das sich großartig etwas von der Funktionsweise ändert.
Ich denke AMD hat das so für GCN5 umgesetzt, mit dem Unterschied zum Patent das GCN5 etwas andere Shader-Stages kombiniert.

Das zweite Patent heißt direkt Primitive Shader und führt auch die Lösung für Primitive-Culling aus:
http://www.freepatentsonline.com/20180082399.pdf

Bildlich (ha pulled a sneaky on ya, es gab doch zuerst tausend Worte) anhand der Patente stelle ich mir das so vor:
https://abload.de/img/geo-pipecgcsw.jpg

Auf dem grünen Hintergrund sieht man die native Geometry-Pipeline von GCN1-4 und GCN5, auf dem gelben Hintergrund die zusätzlich neue Geometrie-Pipeline von GCN5, welche scheinbar nie zum Einsatz für GCN5 kommen wird, über die Hintergründe erfahren wir vielleicht mehr wenn Navi launched. (Suboptimale HW-Implementierung, mit zu geringen Vorteilen bzw. zu komplexer Aufwand, um das performant umzusetzen? Andere Probleme?)

Auf der linken Seite sieht man die HW-Pipeline und auf der rechten Seite noch eine größere High-Level-View.

Bei GCN1-4 gibt es passend zur API-Pipeline 5 unterschiedliche Shader-Stages, bei GCN5 nur noch 3. (Bzw. 6 gegenüber 4, laut dem RadeonSI-Treiber)
Bezogen auf die effektive Arbeitsweise und Geometrie-Verarbeitung gibt es bei GCN5 mit der nativen Pipeline aber keinen Unterschied.

Zu Beginn gibt der Input-Assembler Geometrie-Daten an die *World-Space-Pipeline* weiter.
*Vertex-,Geometry-, Hull-, Domain-Shader + Tessellation im Falle von GCN1-4.
*Primitive-, Surface-Shader + Tessellation im Falle von GCN5.

Ist die World-Space-Pipeline mit der Verarbeitung der Daten fertig, werden diese an die Fixed-Function Primitive Assembler weitergegeben + die Daten werden in Parameter/Position-Buffer geschrieben, welche weiter von dem Fixed-Function-Rasterizer und den Pixel-Shadern verarbeitet werden.
Die Primitive Assembler kümmern sich um Backface-, Frustum-, View-Culling, stellen fest zu welchem Screen-Space-Tile die Geometrie gehört und gibt diese über die Crossbar weiter, welche es an die Rasterizer-Stage verteilt.
So läuft das aktuell meiner Vorstellung bei GCN1-5 ab, mit den relativ unspannenden Unterschieden bei der World-Space-Pipeline-Implementierung von GCN5 vs. GCN1-4.

Nun gibt es mehrere Probleme mit der Arbeitsweise welches das Patent nennt, wo die neue Geometrie-Pipeline deutliche Verbesserungen verspricht, wo die Primitive-Shader deutlich aktiver wären und sowie ich mir das vorstelle, nicht nur relativ stupide combined/merged Shader Stages darstellen würden.

Das Problem ist das der Output von den Primitive Assembler groß ausfällt und die Crossbar von jeder World-Space-Pipeline die Geometrie zu den entsprechenden Screen-Space-Pipelines weiterreichen kann, dass bedeutet es gibt viele Verbindungen für den Transport.
Aktuell sind es 4x4-Verbindungen, die weitere Skalierung davon erscheint entsprechend kostspielig und ungünstig, da der Aufwand quadratisch zunimmt, wenn man nach wie vor einen gleichmäßigen Austausch gewährleisten möchte.

Ein anderes Problem ist das man effektiv die API-Regeln befolgen muss, dass heißt das erste Dreieck was reinkommt, muss auch als erstes raus, wobei man zwischenzeitlich Out-of-Order arbeiten kann, aber allgemein kann folgendes auftreten; mehrere Dreiecke überlappen mehrere Screen-Tiles und müssen von mehreren Screen-Space-Pipelines berechnet werden.
Nun kommt es vor das die Arbeitslast nicht identisch zwischen den Screen-Space-Pipelines ausfällt.
Wird eine Screen-Space-Pipeline stärker belastet bzw. müssen dort mehr Daten in den Buffer geschrieben werden, kann der zuerst volllaufen.
Ist der Buffer voll, kann die Screen-Space-Pipeline keine weitere Arbeit mehr entgegen nehmen und wenn ein Dreieck von mehreren Screen-Space-Pipelines bearbeitet werden muss, dann muss jede andere Screen-Space-Pipeline auf die warten die gerade voll ist.

Und zu guter Letzt ist die Arbeitsreihenfolge suboptimal.
Die Primitive Assembler kümmern sich um das Culling/Verwerfen von nicht benötigter Geometrie bzw. stellen das fest.
Aber zuerst werkelt die World-Space-Pipeline (Vertex-Shader etc.) an dem Datenset, gibt die verarbeiteten Daten dann weiter an den Primitive Assembler, der dann feststellt das folgende Geometrie verworfen werden kann, entsprechend führen die Vertex-Shader teilweise unnötige Arbeit durch.

Die Problemstellungen führen uns zu den Primitive Shadern, welche all die Probleme anpacken (könnten).

Nun was passiert wenn man von Fixed-Function-Primitive-Assembler und einer fetten Crossbar die entsprechende Arbeit auf die Shader-Units verlegt?
Dann muss man nicht die Crossbar und Fixed-Function-Hardware weiter skalieren, sondern nutzt die Infrastruktur und Verbindung zwischen den Shader-Units aus.

Die zwei Shader-Typen Surface-Shader und Primitive-Shader kommen dabei jeweils, als Single-Shader-Stage zum Einsatz.
Wenn Tessellation verwendet wird, bildet der Surface-Shader die Funktionen von Vertex+Hull-Shader nach, ohne Tessellation kommt der Surface-Shader ansonsten nie vor.
Der Primitive-Shader bildet dagegen eine ganze Reihe ab.
Mit Tessellation Domain+Geometry-Shader, Geometry-Shader oder Vertex-Shader.
(Soweit könnte Vega auch bisher funktionieren.)

Die Primitive Shader können zusätzlich eine Menge übernehmen, was die Fixed-Function Primitive Assembler gemacht haben. (Ich nehme an ab hier hört der Spaß dann auf.)
Sie können die Geometrie zusammenstellen, dass Culling durchführen (Back-, Frustum, small triangle culling) und berechnen, welche Primitives, zu welchen Screen-Space-Tiles gehören.
Die Position/Paremeter-Daten werden im LDS gespeichert und nicht in den dedizierten Buffern beim Fixed-Function-Frontend.

Das schöne ist auch, dass die Kalkulation für Attribute der Primitives nachdem Culling geschehen kann und man somit nicht unnötig Attribute ausrechnet, für Primitives die dann verworfen werden.

Das Patent selber führt aus, dass man durch diese Konstellation flexibler bei der Gestaltung der World-Space-Pipelines und Screen-Space-Pipelines ist, sprich AMD könnte die Crossbar und Teile der Geometry-Engines im Prinzip entfernen und mehr Shader-Engines mit Verbindungen zu den Rasterizern designen.
Dem Patent gefallen auch die dedizierten Parameter/Position-Caches nicht, da sie den Flächenverbrauch erhöhen (Der Parameter-Cache ist wohl möglich 2MB$ groß bei Vega10), aber bezüglich ihrer Position und Verdrahtung nur für beschränkte Anwendungsfälle gut sind.
Compute-Shader haben nichts davon, weswegen generalisierte Ressourcen hier als Vorteil genannt werden, da in mehr unterschiedlichen Fällen die investierte Fläche vom Chip genutzt wird.

Aber und das sieht man auch bei Nvidia, die neue Geometrie-Pipeline ersetzt (noch?) nicht die alte klassische Geometrie-Pipeline, sondern Beide koexistieren nebeneinander.
Wobei bei AMD praktisch die neue Geometrie-Pipeline nicht existiert und es den aktuellen Anzeichen nach auch niemals mehr für GCN5 tun wird.

Boah, finally ist der Beitrag draußen, in der Kürze liegt die Würze.

AMDoderNvidia

2018-10-28, 18:50:46

Interessante Diskussion hier über die Primitve Shader der Vega :)

Die Sache ist das gravitationsfeld meinte das AMD für Wolf2 Primitive Shader deaktiviert hat, weil das langsamer als ihre spielinterne Culling-Methode ausfiel.

Das spricht jetzt aber nicht gerade für die Primitive Shader, oder? Wenn ich mir Benchmarks von Wolfenstein 2 ansehe, dann ist doch dort das typische Bild: Gtx 1080 Ti vor Vega 64 vor Gtx 1080 vor Vega 56 vor Gtx 1070. Und die jeweiligen Abstände sind ebenfalls typisch wie bei anderen Spielen.

Laut dem Vega Architecture Whitepaper sollen die Prmitive Shader doch den Durchsatz von 4 Primitiven (oder war die Einheit was anderes? egal :)) auf bis zu 17 erhöhen!

Oder hab ich da einen Denkfehler... weil durch die Culling-Lösung über die Compute Shader natürlich auch Nvidiakarten profitieren und damit Wolfenstein2 Benchmarks doch nicht als Performance-Indikator für Primitive Shader dienen?!

Hmmm

https://github.com/Avekvist/oxygen_emission

Ja, und? Was kann die Engine so besonders gut?

gravitationsfeld

2018-10-28, 19:20:23

Wenn man nur VS + PS benutzt verhaelt sich Vega praktisch identisch wie GCN1-4 und das ist immer noch fast alles.

Der Pfad wo die Parameter-Buffer nicht mehr benutzt werden ist scheinbar kaputt oder lahm. Ich bin gespannt was Navi bringt.

Der Weg die Fixed-Function-Hardware zu entfernen ist schon der richtige meiner Meinung nach, das sind halt Kinderkrankheiten.

Digidi

2018-10-28, 20:31:39

@Locozua
Danke für die Ausführliche Zusammenfassung

@Gravitationsfeld
Habt ihr das mal getestet? Oder woher kommen deine Infos.

gravitationsfeld

2018-10-28, 21:07:36

Von AMD.

SKYNET

2018-10-28, 21:17:06

Ich bin gespannt was Navi bringt.

als entwickler weisst du doch bestimmt schon mehr dazu... keine details bitte, nur ein ja oder nein langt ;)

Troyan

2018-10-30, 16:30:48

Vega Mobile: https://www.youtube.com/watch?v=oDGFyc6fZls

20 CUs, 1 Stack.

BoMbY

2018-10-30, 16:30:52

Vega12 ist Vega Mobile ist Pro Vega 16 und Pro Vega 20:

Radeon™ Vega Mobile: Remarkable Graphics Performance for Premium Notebooks (https://www.youtube.com/watch?v=oDGFyc6fZls)

Edit: 4 Sekunden ... und: AMD Radeon™ Vega Mobile Discrete Graphics Coming to MacBook Pro (http://ir.amd.com/news-releases/news-release-details/amd-radeontm-vega-mobile-discrete-graphics-coming-macbook-pro)

iuno

2018-10-30, 17:37:56

Cool, aber das hat jetzt auch echt gedauert. Ob die so lange Chips fuer Apple sammeln mussten?

dildo4u

2018-10-30, 17:46:55

Erstmal abwarten ob es Vega ist,könnte auch nur das sein was Intel schon als Vega M verbaut.

http://www.pcgameshardware.de/AMD-Radeon-Grafikkarte-255597/Tests/RX-Vega-M-GH-benchmark-review-1255960/

BoMbY

2018-10-30, 17:53:06

Aus der Pressemeldung:

Radeon™ Pro Vega 20 and Radeon™ Pro Vega 16 graphics processors breeze through today’s most demanding rendering, gaming and editing workloads. Next-generation “Vega” architecture compute units (nCU) and Rapid Packed Math bring fast and flexible computational capabilities, accelerating workloads in real-time graphics like 3D visualization.

Loeschzwerg

2018-10-30, 17:54:24

@iuno: Sammeln glaube ich jetzt weniger, aber die Kapazitäten in der gesamten Lieferkette geben mglw. keinen Launch abseits Apple her und es ist evtl. nach der langen Zeit auch nicht mehr sinnvoll (Navi nächstes Jahr).

Nachdem im Teaser von "Optimized GEOMETRY engine" die Rede ist, gehe ich stark von einem kompletten Vega aus und kein beefed-up Polaris (Vega M). Edit: @BoMbY: :up:

iuno

2018-10-30, 18:08:10

Schon etwas schade. Waere das Problem nicht so ausgepraegt und vor allem HBM guenstig im Massenmarkt angekommen haette man mit sowas wohl zum einen Polaris ersetzen und andererseits richtig gute mobile Loesungen liefern koennen.

Denke auch nicht, dass das "Vega" iSv. VegaM ist. Vega12 geistert ja schon lange genug herum.

basix

2018-10-30, 18:24:51

Bin gespannt auf die Chipgrösse. Müsste ja etwa sowas um 200mm2 sein.

Digidi

2018-10-30, 18:44:25

Wäre mal interessant ob das Primitive Shader geht. Dann wäre es zumindest ein Hardwaredefekt.

deekey777

2018-10-30, 18:46:26

Bin gespannt auf die Chipgrösse. Müsste ja etwa sowas um 200mm2 sein.

Was ist eigentlich mit Vega Mobile mit 28 CUs geworden, was AMD vor fast einem Jahr gezeigt hat?

Unicous

2018-10-30, 18:48:23

Vorausgesetzt es sind wirklich nur 20 CUs und nicht vllt. doch 24.

@deekey777

Naja, das ist der Chip. AMD hat nicht gesagt wie viele CUs der Chip hat. Da Apple öfter mal teildeaktivierte Chips nicht gibt es noch eine geringe Restmöglichkeit, dass 20 CUs nicht das Ende der Fahnenstange sind, aber 28 CUs sind es wohl eher nicht.

deekey777

2018-10-30, 18:52:34

Vorausgesetzt es sind wirklich nur 20 CUs und nicht vllt. doch 24.
Darum auch meine Frage. Ich meine, das Ding dürfte nicht gerade riesig sein, so dass paar CUs deaktiviert werden könnten.

Intel könnte etwas angepisst sein, weil Apple sich nicht für Kaby-Lake G entschieden hat.

BoMbY

2018-10-30, 18:56:47

Der Chip hatte niemals 28 CUs, das war nur eines der vielen blöden Gerüchte. Fenghuang Raven ist mal mit 28 CUs aufgetaucht. Und viele halten scheinbar bis jetzt Fenghuang Raven, Polaris22 und Vega12 (Vega Mobile, Pro Vega 16/20) für den gleichen Die.

Loeschzwerg

2018-10-30, 18:57:42

aber 28 CUs sind es wohl eher nicht.

Das Gerücht mit 28 CUs für Vega Mobile kam ja irgendwie über GamersNexus (https://www.gamersnexus.net/news-pc/3339-hw-news-diy-soldered-cpu-der8auer-gn-fire-stolen-trade-secrets). Gut möglich dass das irgendwie noch mit Fenghuang verwechselt wurde, denn zu der Zeit hingen die Infos zur Subor Z+ auch noch in der Luft.

24 halte ich ebenfalls für möglich.

Edit: Zefix, wieder zu langsam...

deekey777

2018-10-30, 19:05:52

Was hielt denn Frau Su in der Hand? Die (bis zu) 28 CUs wurden damals aus der Die-Größe abgeleitet.

BoMbY

2018-10-30, 19:15:32

Was hielt denn Frau Su in der Hand? Die (bis zu) 28 CUs wurden damals aus der Die-Größe abgeleitet.

Du meinst den Ultra Thin Vega Mobile der genauso aussieht wie der Ultra Thin Vega Mobile aka Vega12 aka. Pro Vega 16/20?

deekey777

2018-10-30, 19:25:57

Du meinst den Ultra Thin Vega Mobile der genauso aussieht wie der Ultra Thin Vega Mobile aka Vega12 aka. Pro Vega 16/20?
Genau.

Nebenbei:
Es würde mich nicht wundern, wenn Radeon Pro 555/560 zugunsten von Vega 16/20 nicht mehr angeboten werden.

Vega 20 ist eigentlich das, was seit Jahren fehlt: ein Pitcairn-Nachfolger.

BoMbY

2018-10-30, 19:37:22

So, nochmal zu mitschreiben:

https://i.imgur.com/9VMe7Vd.jpg

Auf Grund der oberflächlichen Ähnlichkeit zwischen Vega12 und Polaris22 wäre es natürlich denkbar, dass Intel irgendwann mal einen Kaby Lake G Nachfolger damit herausbringen wird, was vielleicht auch für Apple interessant wäre als Paket.

Kartenlehrling

2018-10-30, 22:56:37

oDGFyc6fZls
15-inch Apple MacBook Pro

deekey777

2018-10-30, 23:07:31

http://youtu.be/oDGFyc6fZls
15-inch Apple MacBook Pro
Gut zu wissen.

SKYNET

2018-10-31, 10:29:12

Gut zu wissen.

5000€ :ulol:

BiZiNiZz

2018-10-31, 14:58:15

Marketing Bullshit at it's best..... allein das "industry leading VEGA architecture"

iuno

2018-10-31, 15:56:02

Problem?

Godmode

2018-10-31, 16:51:34

5000€ :ulol:

Ich warte schon ewig auf sowas. Sobald man mit VEGA bestellen kann, wird bestellt.

Ohne Vega bin ich bei 4.599,00 € (6xCore 4,8 GHz, 32 GB RAM, 1 TB SSD). Wenn sie VEGA für 500 € verschenken, könntest mit den 5k recht haben.

SKYNET

2018-10-31, 17:00:13

Ich warte schon ewig auf sowas. Sobald man mit VEGA bestellen kann, wird bestellt.

Ohne Vega bin ich bei 4.599,00 € (6xCore 4,8 GHz, 32 GB RAM, 1 TB SSD). Wenn sie VEGA für 500 € verschenken, könntest mit den 5k recht haben.

ganz ehrlich? für 20-30% weniger kohle, bestelle ich mir was schönes bei HP oder Dell das mehr leistung hat und besseren support... und von den 1000-1500 die ich gespart habe, mache ich mir nen schönes langes wochenende irgendwo in süditalien(sizilien ist eigentlich immer ganz nice) um dem sauwetter hier zu entfliehen :biggrin:

Godmode

2018-10-31, 17:06:33

Das ist ja alles schön und gut, aber wenn man produktiv mit OSX arbeiten muss, braucht man eben einen Mac.

Schade dass es noch keine 7nm GPUs und CPUs von AMD gibt, das wäre Hammer im Macbook.

SKYNET

2018-10-31, 17:12:56

Das ist ja alles schön und gut, aber wenn man produktiv mit OSX arbeiten muss, braucht man eben einen Mac.

Schade dass es noch keine 7nm GPUs und CPUs von AMD gibt, das wäre Hammer im Macbook.

sowas ähnliches sagte auch die letzten 15 jahre nen kollege von mir(eigenes design studio, entwirft u.A. die parfüm fläschchen und verpackungen für boss, joop und viele andere eher hochpreisige produkte), dieses jahr ist er auf win umgestiegen und ist begeistert wieviel power windows hat und das es ja doch stabil rennt und weniger bzw. garkeine aussetzer(der hässliche bunte drehende ball) hat als mac :ulol: und von seinem iphone bekomme ich ihn aber auch noch weg ;D

Godmode

2018-10-31, 18:27:36

dildo4u

2018-11-01, 09:55:12

Paar Einschätzungen zu den neuen Mobile GPUs.

https://www.anandtech.com/show/13532/amds-vega-mobile-lives-vega-pro-20-16-in-november

MSABK

2018-11-01, 09:59:41

Das ist ja alles schön und gut, aber wenn man produktiv mit OSX arbeiten muss, braucht man eben einen Mac.

Schade dass es noch keine 7nm GPUs und CPUs von AMD gibt, das wäre Hammer im Macbook.

Ich glaube Apple wird nicht auf eine AMD-CPU wechseln, eher bringen die dann direkt eigene CPUs für die MacBooks.

Eine 7nm APU mit 28W wäre aber richtig cool im 13er MacBook.

Bin mal gespannt wie sich die Vega in so einem flachen Gerät macht. 6 Kerne CPU ist ja schon eine Herausforderung bei so einem flachen Gerät.

SKYNET

2018-11-01, 14:05:39

Ich arbeite mit Linux, MacOS und Windows. Es sind verschiedene Werkzeuge, und da gibts dann auch kein "ich arbeite jetzt nur mehr mit Windows". Viel Spaß wenn du einen native iOS App mit Windows entwickeln musst Das Thema Hackintosh habe ich auch schon durch, einaml und nie wieder. Das geht vielleicht wenn man Student ist, und die eigene Zeit nichts kostet. Aber dass ist hier eigentlich OT.

er war/ist in der glücklichen position das seine tools alle auch auf win verfügbar waren, er meinte nur dass das umlernen der tastenkombinationen etwas zeit brauchte, aber die tools unter windows allgemein etwas mächtiger sind, und mehr optionen zulassen... kann ich zb mit cubase bestätigen, zumal es auf win weniger recourcen brauch/belegt.

BoMbY

2018-11-06, 18:25:09

Vega20 ist MI60? Also 60 Tflops Half Precision, 30 TFlops Single Precision? Mit 64 CUs wäre das 3662 MHz? :confused:

2x Vega20 auf einem Board?

Ravenhearth

2018-11-06, 18:29:59

Oder 60TFLOPs INT8?

BoMbY

2018-11-06, 18:31:10

Mi25 hatte jedenfalls ungefähr 25 TFlops Half Precision.

w0mbat

2018-11-06, 18:54:42

Ich versteh den Typ leider nicht.

MR2

2018-11-06, 18:57:32

the world first....:-)

2xDensity, 1,25x HPerformance und 50% Power ist ja gleich dem CPU Prozess

Daredevil

2018-11-06, 18:58:19

2x Vega20 auf einem Board?
Liegt nahe, wenn es schon zwei Vega10 auf einem Board gibt ^^

Ravenhearth

2018-11-06, 18:58:38

13,2M Transistoren, 331mm², anscheinend 64CUs

1TB/s, 32GB HBM2

"This is not a consumer card"

unl34shed

2018-11-06, 19:01:11

12,5M Transistoren waren V10, also sollte recht viel vom Takt kommen. Vor allem da da noch mal 2x HBM dazukam.

w0mbat

2018-11-06, 19:01:41

1 TB/s, 32GB HBM2 mit ECC

MR2

2018-11-06, 19:01:48

32GB bei 1TB/s

w0mbat

2018-11-06, 19:02:56

PCIe 4.0!!!

AffenJack

2018-11-06, 19:03:08

13,2M Transistoren, 331mm²

V10 im Vgl. 12,5 Mrd Transistoren auf 484 mm².

Transistordichte:
V10: 25,8 Mio/mm²
V20: 39,9 Mio/mm²

Im Design gerade mal 1,54x bessere Density als 16nm. Das ist ja noch viel schlechter, als ich erwartet habe.

unl34shed

2018-11-06, 19:03:45

Also sowas wie NVLink mittels IF und 100GB/s cool

Ravenhearth

2018-11-06, 19:04:12

V10 im Vgl. 12,5 Mrd Transistoren auf 484 mm².

Transistordichte:
V10: 25,8 Mio/mm²
V20: 39,9 Mio/mm²

Im Design gerade mal 1,54x bessere Density als 16nm. Das ist ja noch viel schlechter, als ich erwartet habe.
Vielleicht große Interfaces auf dem Chip (HBM, IF)?

Troyan

2018-11-06, 19:05:14

Also sowas wie NVLink mittels IF und 100GB/s cool

Aber nicht in Epyc soweit ich sah. Das wäre ein Fehlschlag sondergleichen.

Ravenhearth

2018-11-06, 19:06:22

:rolleyes:

unl34shed

2018-11-06, 19:06:50

Da sind es dank PCIe4 nur 64GB bi-direktional.

[MK2]Mythos

2018-11-06, 19:07:01

Aber nicht in Epyc soweit ich sah. Das wäre ein Fehlschlag sondergleichen.
Troll dich.

BoMbY

2018-11-06, 19:07:40

Das ist ein Link-Upgrade von PCIe 4.0, ähnlich wie CCIX. Aber das Thema hatten wir ja schon mehrfach. Leider sind die Informationslücken bei dieser Präsentation heute extrem groß.

Der_Korken

2018-11-06, 19:09:47

Auf der Folien 1,25x Performance at the same power und 50% less power at the same clock. Das passt doch irgendwie nicht zusammen? Das würde ja dann bedeuten, dass man aus doppeltem Takt (:freak:) nur 25% mehr Performance bekommt oder dass das Teil krass überm Sweetspot läuft (100% Performance mit 50% Power oder 125% Performance für 100% Power). Ansonsten sind 40Mio.T/mm² echt underwhelming. Ich hätte bei dem für 7nm großen Chip mit deutlich mehr Transistoren gerechnet, mit allerhand neuem Zeugs drin (z.B. Tensor-Units, getrennte FP/INT-Units). Naja, vielleicht wird V20 auch einfach nur ein Pipe-Cleaner für 7nm und die haben die Density absichtlich nicht so stark ausgereizt.

MR2

2018-11-06, 19:11:04

und off

Locuza

2018-11-06, 19:11:31

Menace

2018-11-06, 19:11:32

Wurde nicht zu Beginn ihrer Präsentation gesagt, dass 7nm entsprechend teuer ist? Sie werden da nicht das große Risiko eingehen wollen.

AffenJack

2018-11-06, 19:11:33

Vielleicht große Interfaces auf dem Chip (HBM, IF)?

Tragen durchaus dazu bei, aber selbst dann sollte mehr möglich sein. Am meisten interessiert mich ja wegen Navi, aber ich hab große Zweifel, dass Navi ausgehend davon 2x Density schaffen wird. Ich würde erstmal nur mit 1,8x rechnen.

w0mbat

2018-11-06, 19:12:31

@Der_Korken: Nein, bei gleichem Takt wie bisher braucht man nur 50%, bei gleichem Verbraucht hat man 25% mehr Leistung.

dildo4u

2018-11-06, 19:15:20

Passt doch 25% mehr Takt von 1.5Ghz aus wäre was um 1.9Ghz.Das ist ziemlich hoch für ein HPC Chip,Volta 100 liegt um 1.6Ghz.

MI25 1.5Ghz Boost.

https://www.techpowerup.com/gpu-specs/radeon-instinct-mi25.c2983

GV100 1.6Ghz Boost.

https://www.techpowerup.com/gpu-specs/quadro-gv100.c3066

Der_Korken

2018-11-06, 19:18:41

@Der_Korken: Nein, bei gleichem Takt wie bisher braucht man nur 50%, bei gleichem Verbraucht hat man 25% mehr Leistung.

Ja was denn jetzt? Ist der Chip 100% effizienter oder 25% effizienter? Das war meine Frage. Letzteres fände ich, sorry, ziemlich grottig für einen kompletten Fullnode. Damit wäre man immer noch weit von einer V100@12nm entfernt!

Ravenhearth

2018-11-06, 19:20:44

Ja was denn jetzt? Ist der Chip 100% effizienter oder 25% effizienter? Das war meine Frage. Letzteres fände ich, sorry, ziemlich grottig für einen kompletten Fullnode. Damit wäre man immer noch weit von einer V100@12nm entfernt!
Ist doch immer so, entweder hat man den halben Verbrauch oder halt mehr Takt - aber nie den doppelten! Mehr Takt erhöht den Verbrauch exponentiell und reduziert damit die Effizienz. Außerdem sind es ">25%", also wohl MINDESTENS 25%.

Troyan

2018-11-06, 19:21:17

Laut AMD ist man 100% effizienter bei der selben Taktrate oder man erreicht 25% Mehrleistung beim selben Stromverbrauch (wahrscheinlich durch Übertaktung).

Achja, jemand sollte AMD endlich beibringen keine Vergleiche mit Zahlen und der Konkurrenz zu bringen. GV100 erreicht laut nVidia mehr als 1000 Bilder pro Sekunde beim Training von Resnet-50: https://devblogs.nvidia.com/tensor-core-ai-performance-milestones/

3x schneller als MI60.

iuno

2018-11-06, 19:21:57

Ja was denn jetzt? Ist der Chip 100% effizienter oder 25% effizienter? Das war meine Frage. Letzteres fände ich, sorry, ziemlich grottig für einen kompletten Fullnode. Damit wäre man immer noch weit von einer V100@12nm entfernt!
Da geht's doch ueberhaupt nicht um den Chip, sondern rein um die Fertigung. Effizienz und Performance kommt vor allem auch ueber die Architektur und die Anzahl der Recheneinheiten, die man durch den Prozess steigern kann, zusaetzlich zum hoeheren Takt.

Und die Spannung spielt natuerlich auch eine grosse Rolle dabei, ob man jetzt 25% hoeher takten will als vorher oder nur niedrig genug, damit man gleich viel verbraucht wie zuvor.

BoMbY

2018-11-06, 19:22:58

Es wäre aber schon schwach, wenn AMD selbst bei Zen2/V20 kein NVLINK-Äquivalenten für eine CPU+GPU-Kombination anbieten würde.
Sie haben alle IPs In-House und sind schon jetzt seit Jahren der Nachzügler.

Zen1 kann ja bereits die PCIe-Links auf eine schnellere Verbindung umschalten für die Sockel zu Sockel Verbindung, und genauso dürfte es dann hier funktionieren, sofern der IO-Die das unterstützt, wovon mal auszugehen ist.

Ravenhearth

2018-11-06, 19:24:08

118TFLOPs INT4, also müssen die "60" von INT8 kommen

dargo

2018-11-06, 19:24:17

Nur 14,7 TFLOPS FP32?

Troyan

2018-11-06, 19:24:50

14,7 TFLOPs mit FP32.

Keine TensorCores. Nur INT4 über die Recheneinheiten. Das ist DoA im DL Markt.

w0mbat

2018-11-06, 19:25:11

20min Pause

AffenJack

2018-11-06, 19:25:26

Nur 14,7 TFLOPS FP32?

Wie erwartet, wo sie Mi60 gesagt haben. 20% mehr Takt als Mi25. Also 1,8Ghz.

Ravenhearth

2018-11-06, 19:26:30

Nur 14,7 TFLOPS FP32?
Nur? Rein rechnerisch sind das (14,75TFLOPs) genau 1,8GHz.

20min Pause
Was kommt denn danach noch? :confused:

BoMbY

2018-11-06, 19:26:45

7.4 TFlops FP64, 14.7 TFlops FP32 und 118 TOPS INT4.

14.7 TFlops würde ca. 1794 MHz entsprechen bei 64 CUs.

dargo

2018-11-06, 19:27:47

Nur? Rein rechnerisch sind das (14,75TFLOPs) genau 1,8GHz.

Bei 7nm hätte ich wesentlich mehr erwartet. Was soll das Ding dann verbrauchen? 150W? :freak:

Ravenhearth

2018-11-06, 19:28:41

Ist halt immer noch Vega.

Troyan

2018-11-06, 19:29:01

300W laut AMD: https://www.amd.com/en/products/professional-graphics/instinct-mi60

dildo4u

2018-11-06, 19:29:42

300 TDP ups.

BoMbY

2018-11-06, 19:30:42

Die MI25 lief ja auch nur bei ca. 1500 MHz plus ein paar zerquetsche, ist ja auch nur semi-passiv gekühlt. also ca. 300 MHz plus, oder ungefähr 1.20x.

Langlay

2018-11-06, 19:31:09

Bei 7nm hätte ich wesentlich mehr erwartet. Was soll das Ding dann verbrauchen? 150W? :freak:

Ich würde auf 225W tippen. okay 300W TDP :(

Ravenhearth

2018-11-06, 19:31:19

Die MI25 lief ja auch nur bei ca. 1500 MHz plus ein paar zerquetsche, ist ja auch nur semi-passiv gekühlt. also ca. 300 MHz plus, oder ungefähr 1.20x.
Bei der gleichen TDP von 300W :redface:

dargo

2018-11-06, 19:31:34

Wo ist da der große Vorteil von 7nm geblieben? :freak:

w0mbat

2018-11-06, 19:32:14

7nm 300W und dann nur 300Mhz mehr :ugly:

Raja we need you!!!

dildo4u

2018-11-06, 19:32:15

Jetzt macht es auch Sinn das es keine Desktop Version gibt noch eine 300 Watt Karte können sie nicht bringen.

fondness

2018-11-06, 19:32:20

Naja, deutlich mehr I/O und Takt skaliert auch nicht linear mit Verbrauch.

AffenJack

2018-11-06, 19:33:24

Wo ist da der große Vorteil von 7nm geblieben? :freak:

Laut dem was man hört ist 7nm 50% teurer als 14/16nm. Du kriegst also 50% mehr Kosten bei 25% Performanceincrease. :biggrin:

Ist doch toll.

Ravenhearth

2018-11-06, 19:34:26

Ja, ich denke die 20% Mehrtakt fressen schon das Meiste der 7nm-Vorteile auf, und der Rest geht für I/O und Speicher drauf.

AffenJack

2018-11-06, 19:42:43

Neben Mi60 kommt der Salvagechip auch sofort als Mi50 mit 3840 Cores und nur 16Gb Ram (weiterhin 4 Stacks 1024 Bit)
https://www.amd.com/en/products/professional-graphics/instinct-mi50

BoMbY

2018-11-06, 19:46:23

Neben Mi60 kommt der Salvagechip auch sofort als Mi50 mit 3840 Cores und nur 16Gb Ram (weiterhin 4 Stacks 1024 Bit)
https://www.amd.com/en/products/professional-graphics/instinct-mi50

Und auch 300W TDP.

dargo

2018-11-06, 19:46:57

Laut dem was man hört ist 7nm 50% teurer als 14/16nm. Du kriegst also 50% mehr Kosten bei 25% Performanceincrease. :biggrin:

Ist doch toll.
Cool... um Faktor 2 zu bekommen müssen wir jetzt also 4 Die-Shrinks abwarten. :uup:

basix

2018-11-06, 19:49:03

Irgendwie kann ich die 300W kaum glauben. Zumindest nicht als realer Verbrauch.

Ravenhearth

2018-11-06, 19:50:00

Cool... um Faktor 2 zu bekommen müssen wir jetzt also 4 Die-Shrinks abwarten. :uup:
Theoretisch hätte AMD den Chip beim gleichen Verbrauch doppelt so breit machen können, ohne den Mehrtakt halt. Wäre aber sehr groß und teuer geworden. Und Vega scheint das eh nicht zuzulassen.
Irgendwie kann ich die 300W kaum glauben. Zumindest nicht als realer Verbrauch.
Habe ich mir auch schon gedacht.

fondness

2018-11-06, 19:51:18

Vor allem das der kleine dasselbe braucht man keinen Sinn.

Menace

2018-11-06, 19:52:20

Der große Sprung scheint ja nur Peak Double Precision (FP64) Performance: 7.4 TFLOPs zu sein (fast 10 fache Leistung zum MI25).:confused:

Troyan

2018-11-06, 19:52:31

Es ist auch nicht real, sondern die TDP. Aber die Diskussion gab es letztes Jahr auch schon. 300W werden nicht aus Spaß angegeben. Dafür müssen die Racks ausgelegt sein.

BoMbY

2018-11-06, 19:53:42

Warte, hat der nicht gerade gesagt "no seperate Link", oder vergleichbares? Dieses Vega20 IF ist doch ein extra Link:

https://i.imgur.com/6mBdixk.jpg

Wobei ich da jetzt aber auch nur einen Connector sehe, aber AMD sagt (http://ir.amd.com/news-releases/news-release-details/amd-unveils-worlds-first-7nm-datacenter-gpus-powering-next-era):

"Radeon Instinct™ MI50 and MI60 “Vega 7nm” technology-based accelerators include dual Infinity Fabric™ Links providing up to 200 GB/s peak theoretical GPU to GPU or Peer-to-Peer (P2P) transport rate bandwidth performance per GPU card. Combined with PCIe Gen 4 compatibility providing an aggregate GPU card I/O peak bandwidth of up to 264 GB/s."

Ravenhearth

2018-11-06, 19:55:10

Der große Sprung scheint ja nur Peak Double Precision (FP64) Performance: 7.4 TFLOPs zu sein (fast 10 fache Leistung zum MI25).:confused:
Vega10 hatte halt nur 1:16 DP:SP, Vega20 hat 1:2.

dildo4u

2018-11-06, 19:55:26

Der große Sprung scheint ja nur Peak Double Precision (FP64) Performance: 7.4 TFLOPs zu sein (fast 10 fache Leistung zum MI25).:confused:
Das wurde hier übersehen da sind die Transistoren drauf gegangen.

basix

2018-11-06, 19:56:05

Vielleicht will AMD auch folgendes: Die neue Mi60 wird in neuen Datacentern eingesetzt. Die legt man jetzt auf 300W Kühlleistung aus. Realer Verbrauch niedriger. Nächste GPU Iteration wird dann nochmals ein gutes Performance-Uplift geben und kann 1zu1 in die Infrastruktur integriert werden (Mi60 ersetzen) ohne etwas an der Infrastruktur umbauen zu müssen.

Sonst wäre es schon ziemlich fail. Knapp auf Nivau V100. Ausser man kann mittels HW-Virtualisierung etc. INT4/8 volle Pulle parallel mit FP16-64 laufen lassen.

mironicus

2018-11-06, 19:57:33

Wo läuft denn der Life-Stream? Link?

fondness

2018-11-06, 19:57:37

Laut ANandTech wurde das gesagt:

01:03PM EST - Helps scaling multiGPU

01:03PM EST - Connected in a ring

01:03PM EST - Without bridges or switches

01:03PM EST - Infinity Fabric GPU to GPU at 100 GB/s per link

01:03PM EST - Infinity Fabric GPU to GPU at 100 GB/s per link

Bei 2 Links pro GPU also 200 GB/s, dazu noch PCIe4.0 x16. Keine Ahnung wie das "Without bridges or switches" gemeint ist.

fondness

2018-11-06, 19:57:58

Wo läuft denn der Life-Stream? Link?

https://www.youtube.com/watch?v=WsNnCvTNSeA

AffenJack

2018-11-06, 19:58:45

Cool... um Faktor 2 zu bekommen müssen wir jetzt also 4 Die-Shrinks abwarten. :uup:

Es gibt einfach kaum mehr Taktsteigerungen, man wird für die meisten Produkte eher versuchen möglichst in Richtung 2x Density zu kommen (Was schon schwer wird, wie es aussieht) und den Takt gleich zu lassen. Mit 7nm EUV sollte es deutlich besser werden.

Falls man nicht extrem konservativ ans Design rangegangen ist, erklärt das auch wieso Nv noch so spät 12nm Produkte bringt und vielleicht 7nm DUV ganz überspringt.

Der_Korken

2018-11-06, 19:59:04

Gleicher Verbrauch (d.h. 300W) wären, wie ich schon sagte, ein Desaster bei 25% mehr Performance. Auf Fiji zurückgerechnet wären das 75% mehr Takt bei gleichem Takt und dabei den Fertigungsfortschritt von 28nm auf 7nm verheizt. Klar steigt der Verbrauch nicht linear mit dem Takt, aber bei quasi allen neuen Fullnodes ist auch der Takt immer kräftig gestiegen, weil sich der Sweetspot nach oben verschoben hat. Mit 40nm hatten die AMD-GPUs so 800-900Mhz, mit 28nm waren es 1000-1100Mhz, bei 14/16nm dann 1200-1300Mhz (Vega 1400Mhz). Da ist aber zusätzlich entweder der Verbrauch bei gleicher Einheitenzahl stark gesunken (Polaris) oder der Chip deutlich fetter geworden (Tahiti). Man könnte ja jetzt sagen, dass V20 durch jede Menge HPC-Kram und I/O deutlich "fetter" als V10 sein könnte, aber wo soll das ganze Zeug bei gerade mal 700Mio. zusätzlichen Transistoren (6% Zuwachs) versteckt sein?

basix

2018-11-06, 20:00:18

So viel dicker ist V20 wirklich nicht. Density ist aber weit weg von 2x (liegt wohl am I/O Kram): 331mm2

w0mbat

2018-11-06, 20:00:46

Gleicher Verbrauch (d.h. 300W) wären, wie ich schon sagte, ein Desaster bei 25% mehr Performance.
Wieso? Ist doch genau das, was 7nm bringen soll. 1.25x performance. Die Architektur hat sich ja nicht verändert.

dildo4u

2018-11-06, 20:02:56

So viel dicker ist V20 wirklich nicht. Density ist aber weit weg von 2x (liegt wohl am I/O Kram): 331mm2
Vega 10 hat keine 7 Tflops FP64 das ist nicht nur i/o.

Akkarin

2018-11-06, 20:03:10

Wie wichtig ist eurer Meinung nach die GPU-Virtualisation für Server ?

fondness

2018-11-06, 20:04:05

Leute das Ding hat 2 IF links mit 200GB/s off card plus 64Gb/s 16x PCIe 4.0 links off card. Das kostet Richtig TDP. Dazu 4096 bit 32GB HBM2 mit 1TB/s Bandbreite. Plus 1:2 DP, das kann man doch nicht 1:1 mit Vega10 vergleichen.

Der_Korken

2018-11-06, 20:04:50

Wieso? Ist doch genau das, was 7nm bringen soll. 1.25x performance. Die Architektur hat sich ja nicht verändert.

Die Architektur hat sich auch bei Polaris und Pascal nicht verändert und die haben mal eben 60% bei Performance/Watt zugelegt im Vergleich zu den entsprechenden Vorgängern.

basix

2018-11-06, 20:08:33

Vega 10 hat keine 7 Tflops FP64 das ist nicht nur i/o.

+700mTr ist gerade mal +5.6% gegenüber V10. Nicht viel, wenn man eben auch die ganzen Zusatzfeatures einbezieht.

mczak

2018-11-06, 20:29:11

+700mTr ist gerade mal +5.6% gegenüber V10. Nicht viel, wenn man eben auch die ganzen Zusatzfeatures einbezieht.
Da frage ich mich schon ob da bei V10 and V20 gleich gezählt wurde. Klar die paar neuen Befehle brauchen nicht wirklich Transistoren, aber 1:2 DP, die zusätzlichen Speicherstacks und i/o links sind doch auch nicht gratis (wobei letztere zwei wohl eher Fläche als allzuviel Transistoren brauchen).

vinacis_vivids

2018-11-06, 20:30:48

Die Architektur hat sich auch bei Polaris und Pascal nicht verändert und die haben mal eben 60% bei Performance/Watt zugelegt im Vergleich zu den entsprechenden Vorgängern.

"Die" Architektur hat sich vielleicht nicht verändert, aber der Aufbau ist trotzdem anders.

dargo

2018-11-06, 20:33:36

Wieso? Ist doch genau das, was 7nm bringen soll. 1.25x performance. Die Architektur hat sich ja nicht verändert.
Aber bei gleichen Verbrauch zu 14nm? :freak: Also ich hätte da eher was mit um die 200W erwartet. Wenn die von fondness aufgeführten Sachen natürlich viel vom TDP Kuchen fressen ist es was anderes.

w0mbat

2018-11-06, 20:54:22

Ja, 1.25x Leistung bei gleichem Verbrauch oder gleiche Leistung bei 0.5x Verbrauch. Also rein durch den Prozess.

dargo

2018-11-06, 21:04:45

Ja, 1.25x Leistung bei gleichem Verbrauch oder gleiche Leistung bei 0.5x Verbrauch. Also rein durch den Prozess.
Also entweder ich bin schlecht gerade in Mathe oder hier stimmt was nicht. Wenn ich bei gleicher Leistung den Verbrauch halbieren kann dann müsste ich doch bei gleichem Verbrauch die Leistung verdoppeln können. :confused:

Oder konkreter...

Basis @14nm = 300W - 100% Leistung
7nm = 150W - 100% Leistung
7nm = 300W - 200% Leistung

Wieso kommen da nur 125% Leistung bei rum? Magere 25% mehr Leistung fressen da gleich 150W weg? :|

AffenJack

2018-11-06, 21:06:50

Also entweder ich bin schlecht gerade in Mathe oder hier stimmt was nicht. Wenn ich bei gleicher Leistung den Verbrauch halbieren kann dann müsste ich doch bei gleichem Verbrauch die Leistung verdoppeln können. :confused:

Du kannst 2x soviele Transistoren verbauen bei gleichem verbrauch. Aber nicht den takt erhöhen.

Gipsel

2018-11-06, 21:07:18

Troyan

2018-11-06, 21:08:44

Verbrauchsreduzierung kommt durch die Sendung der Spannung bei gleichem Takt. Für 25% mehr Takt wird dann erheblich mehr Spannung benötigt.

Davon abgesehen sollte man die 100% Effizienzverbesserung genauso betrachten wie die Packdichte.

Daredevil

2018-11-06, 21:19:39

Also entweder ich bin schlecht gerade in Mathe oder hier stimmt was nicht. Wenn ich bei gleicher Leistung den Verbrauch halbieren kann dann müsste ich doch bei gleichem Verbrauch die Leistung verdoppeln können. :confused:

Oder konkreter...

Basis @14nm = 300W - 100% Leistung
7nm = 150W - 100% Leistung
7nm = 300W - 200% Leistung

Wieso kommen da nur 125% Leistung bei rum? Magere 25% mehr Leistung fressen da gleich 150W weg? :|
Deine Karte mit -50% PT ist auch nicht halb so schnell wie mit hundert, sondern schneller. ^^
Sweet Spot unso.

Dino-Fossil

2018-11-06, 21:26:48

Weiß auch nicht so recht, was sich hier alle von einer Karte erwartet haben, von der von Anfang an bekannt war, dass sie a) für professionelle Anwendungen/Compute gedacht sein und b) immer noch im wesentlichen die gleiche Menge Hardware-Einheiten auf Vega-Basis haben wird.

Sunrise

2018-11-06, 21:29:03

Tja, das ist eben genau das Gegenteil von dem, was normalerweise passieren sollte. Neue Arch -> neue Node und ab gehts. Nächstes Mal dann.

Wobei ich so das Gefühl habe, dass bei GCN (Volta und Turing werden ja auch komplexer und nicht unbedingt taktfreudiger) die Erwartungen etwas weniger in Richtung Phantasie abdriften sollten.

300W TDP ist klar (da sowieso so gesized, geht man eben ans Maximum), aber das was dabei herauskommt ist schon ein wenig underwhelming.

Dino-Fossil

2018-11-06, 21:31:28

Eine neue Node alleine kann halt keine Wunder vollbringen. Wobei Vega10-Leistung damit immerhin bei Polaris10-Verbrauch zu haben wäre. Nur wenn man mehr will, wird es eben schnell teuer, dafür müsste man wohl nochmal an der Architektur drehen.

BoMbY

2018-11-06, 21:35:08

Von Videocardz Twitter:

https://pbs.twimg.com/media/DrV_wpDXcAA0LW8.jpg:orig

https://twitter.com/VideoCardz/status/1059894438422556672

Ravenhearth

2018-11-06, 21:35:29

https://www.amd.com/system/files/styles/992px/private/2018-11/172884-mi60-vs-mi25-chart-1260x709_0.jpg?itok=Va2rEenq

1500 -> 1800 sind 30%? :upara:

Troyan

2018-11-06, 21:38:54

Der Strich ist unter den 300W. 30% gibt es dann bei 250W oder so.

BoMbY

2018-11-06, 21:39:30

1500 -> 1800 sind 30%? :upara:

Der Datenpunkt/Pfeil ist niedriger.

Loeschzwerg

2018-11-06, 21:43:16

Von Videocardz Twitter:

https://pbs.twimg.com/media/DrV_wpDXcAA0LW8.jpg:orig

https://twitter.com/VideoCardz/status/1059894438422556672

Quantum3D "Mercury Brick" incoming :D

http://tdfx.de/ger/mercury.shtml

Slipknot79

2018-11-06, 21:50:37

https://i.imgur.com/6mBdixk.jpg

Wieso hat das Teil 2 PCIe Stecker, kann man den Prügel nun zwischen 2 Mobos klemmen? :redface: Dann sind der Shice aus wie nen TIE-Fighter. :redface:

K, kann man nun irgendwas auf vs 2080Ti ableiten? :confused: :redface:

Ravenhearth

2018-11-06, 21:51:40

Wieso hat das Teil 2 PCIe Slots, kann man das nun zwischen 2 Mobos klemmen? :redface:

K, kann man nun irgendwas auf vs 2080Ti ableiten? :confused: :redface:
Das oben ist für den Infinity Fabric zur Verbindung mit anderen Karten, kein PCIe.

Die 2080 Ti befindet sich gar nicht im gleichen Marktsegment, völlig andere Welt.

dildo4u

2018-11-06, 21:54:41

30% plus wäre auf RTX 2080 Level,nur leider wäre das HBM2 1TB Interface viel zu teuer.

Slipknot79

2018-11-06, 21:54:55

Das oben ist für den Infinity Fabric zur Verbindung mit anderen Karten, kein PCIe.

Die 2080 Ti befindet sich gar nicht im gleichen Marktsegment, völlig andere Welt.

Yea, also von den FLOPs und so kann man nix ableiten? Oder MI60-Profi-AMD vs existierendes Profi-NV -> und dann auf 2080Ti? Oo

Ravenhearth

2018-11-06, 21:56:32

Keine Ahnung, ich würd sagen rechne halt 20% auf ne Vega64 drauf, das kommt nicht ansatzweise in die Nähe einer 2080 Ti. Aber der Chip kommt eh nicht für Gamer, also wayne?

Slipknot79

2018-11-06, 21:57:16

Yea, nicht mal als "Abfallprodukt"?

Ravenhearth

2018-11-06, 22:01:45

Wahrscheinlich viel zu teuer, 7nm ist noch recht frisch, dazu kommt der breite HBM2. Die Chips kann AMD für Datacenter viel teurer verkaufen, für Gamer lohnt das nicht.

Dural

2018-11-06, 22:04:58

So und wo sind jetzt die user mit den garantiert mehr als 4096sp?

Habe es ja immer gesagt...

Big Lebowsky

2018-11-06, 22:06:39

Das interessanteste an der Vorstellung war, dass Vega 20 bis 4 Chips quasi verlustfrei skalieren soll.

Das macht Hoffnung auf ein gutes GPU-Chiplet Design für NAVI und spätere Produkte.

Ravenhearth

2018-11-06, 22:10:49

Das interessanteste an der Vorstellung war, dass Vega 20 bis 4 Chips quasi verlustfrei skalieren soll.

Das macht Hoffnung auf ein gutes GPU-Chiplet Design für NAVI und spätere Produkte.
Die Skalierung hat doch nichts mit Gaming zu tun?

BoMbY

2018-11-06, 22:15:13

Der Wang hat doch schon bei einem Interview vor einiger Zeit gesagt, dass die keine Gaming-Chiplet-Navi-GPUs planen, da die es immer noch nicht ordentlich hinbekommen diese für das System als eine GPU darzustellen.

Dural

2018-11-06, 22:15:24

Nicht wirklich.

Vega 20 entäuscht regelrecht, diese leistung bei dem verbrauch in 7nm ist einfach nur schlecht.
Es wird zeit für eine neue architektur.

Sunrise

2018-11-06, 22:20:11

Nicht wirklich.

Vega 20 entäuscht regelrecht, diese leistung bei dem verbrauch in 7nm ist einfach nur schlecht.
Es wird zeit für eine neue architektur.
Ist für AMD aber besser als derzeit, mit wahrscheinlich auch noch sehr guten Margen, der Rest ist erstmal egal. Denn wenn wieder genug verdient wurde, hat das ja nur positive Effekte auf kommendes.

Ich bin allerdings nicht sonderlich begeistert was GCN angeht, irgendwie scheint das ein Klotz zu sein, der bei viel Leistung Energie zum Frühstück verspeist, das sollte so hoffentlich nicht weitergehen, auch wenn ich verstehen kann, dass GCN wohl auch seine Vorteile hat.

Dural

2018-11-06, 22:46:04

Kann amd nicht rechnen?

7,4 tflops fp64
14,7 tflops fp32

:D

Ravenhearth

2018-11-06, 22:52:35

Ja, sie hätten eigentlich von 14,75 auf 14,8 aufrunden können.

BoMbY

2018-11-06, 22:53:12

1800*64*128 = 14.745.600 / 2 = 7.372.800

Kaufmännisch gerundet.

Ravenhearth

2018-11-06, 22:54:25

Touché :D

bananaMonkey

2018-11-07, 01:51:29

Wow ich bin gespannt was für ein Preis für die DP-Leistung und die Speicherausstattung aufgerufen wird. Das waren tollte Nachrichten für Simulanten!

iuno

2018-11-07, 03:28:35

Wenn das ding wirklilch 300W verbrauchen sollte, finde ich das auch etwas viel. Aber naja, immerhin haben sie jetzt mal wieder gute FP64 Leistung, viel Speicher und int8 ist doch auch nicht schlecht.
Allerdings finde ich es bloed, dass sie die Namen so willkuerlich machen. Vorher war FP16 das Mass und jetzt wieder int8. Man haette das Ding doch auch einfach Mi30 nennen koennen, aber da waren die Zahlen wohl wieder zu eng beieinander :rolleyes:
Bin eher gespannt was Navi dann in dem 7nm Prozess reisst ;)

Hat AMD den Registerspeicher fuer die Skalareinheit in der CU von 4 auf 3,2 KB verkleinert?

dildo4u

2018-11-07, 06:09:21

CB hat ganz unten eine neue HPC Roadmap der High-End Nachfolger kommt 2020.

https://www.computerbase.de/2018-11/amd-radeon-instinct-mi60/

BiZiNiZz

2018-11-07, 06:19:11

dildo4u

2018-11-07, 06:40:43

Über den Preis wie bei Ryzen,zwei MI60 Chips sind kleiner als ein GV100.

Brillus

2018-11-07, 08:43:36

MSABK

2018-11-07, 08:48:19

So, also hat es AMD gepackt nach grob 1 1/2 Jahren mit GV100 gleichzuziehen.

Wann soll das ding überhaupt erscheinen? Nächstes Jahr? Bis dahin ist vermutlich der GV100 Nachfolger auf dem Markt.

Wer soll das den bitte kaufen? nVidia hat ihr Ökosystem überall schon durchgedrückt und ist überall vertreten.

Soll AMD alles aufgeben und Nvidia das Monopol überlassen? Es reicht ja schon wenn man günstiger ist und relativ gut aufgestellt ist von der Leistung. Die sollen ähnlich wie beim Ryzen langsam und stetig mal die Sparte gut aufbauen und verbessern.

AffenJack

2018-11-07, 08:59:29

Wirklich viel Erfolg würde ich AMD mit V20 auch nicht zutrauen, man muss eben über den Preis gehen und in 6 Monaten steht wahrscheinlich Nvs nächste Gen an. Aber das ist eben der Schritt, den man tun muss, um sich langfristig mühsam etwas in dem Bereich aufzubauen. Vielleicht schafft man nur 5% Marktanteil, welcher dann eben hilft mehr Software zu AMD kompatibel zu machen.

https://images.anandtech.com/doci/13547/20181106_170701_HDR.jpg

Wie man hier sieht, wird GPU im Datacenter mit etwa 10 Mrd$ in 2021 angegeben. Selbst wenn man nur 10% mit Mi-Next erreicht, hat man schon 1Mrd$ Umsatz, womit sich die Entwicklung finanziert.

dildo4u

2018-11-07, 09:11:05

Scheinbar eignet sich nicht alles im DL Bereich für die Tensor Cores?

https://abload.de/img/16-1080.115967254127est.jpg

https://www.computerbase.de/2018-11/amd-radeon-instinct-mi60/#bilder

Dural

2018-11-07, 09:29:29

So, also hat es AMD gepackt nach grob 1 1/2 Jahren mit GV100 gleichzuziehen.

Wann soll das ding überhaupt erscheinen? Nächstes Jahr? Bis dahin ist vermutlich der GV100 Nachfolger auf dem Markt.

Wer soll das den bitte kaufen? nVidia hat ihr Ökosystem überall schon durchgedrückt und ist überall vertreten.

Mag ja alles schön und gut sein, aber von gleichziehen kann da doch keine rede sein. Bei AMD muss dringend eine neue Architektur kommen, und das wird wohl erst 2020 der fall sein.

Grosse Stückzahlen würde ich vom V20 so wie so nicht erwarten, das ding wird richtig viel kosten, in der Produktion.

BiZiNiZz

2018-11-07, 09:35:00

Mag ja alles schön und gut sein, aber von gleichziehen kann da doch keine rede sein. Bei AMD muss dringend eine neue Architektur kommen, und das wird wohl erst 2020 der fall sein.

Grosse Stückzahlen würde ich vom V20 so wie so nicht erwarten, das ding wird richtig viel kosten, in der Produktion.

Das gleichziehen bezog sich im groben auf die Leistungsdaten, die Architektur mal komplett außen vor

Scheinbar eignet sich nicht alles im DL Bereich für die Tensor Cores?

https://abload.de/img/16-1080.115967254127est.jpg

https://www.computerbase.de/2018-11/amd-radeon-instinct-mi60/#bilder

geht dabei hervor welche batch size dort verwendet wurde?

auf die schnelle hab ich andere werte gefunden

https://blog.riseml.com/comparing-google-tpuv2-against-nvidia-v100-on-resnet-50-c2bbb6a51e5e

AffenJack

2018-11-07, 09:36:50

Scheinbar eignet sich nicht alles im DL Bereich für die Tensor Cores?

https://www.computerbase.de/2018-11/amd-radeon-instinct-mi60/#bilder

Resnet-50 läuft auf den Tensor Cores. Man hat wahrscheinlich absichtlich auf Volta keine tensor Cores benutzt, um besser auszusehen.

Siehe zb:
https://image.slidesharecdn.com/20171109nvidianaruse-171116012538/95/volta-tesla-v100-29-638.jpg?cb=1510795689

Dural

2018-11-07, 09:45:29

Volta 100 PCI-E hat übrigens nur 250Watt, und wenn AMD schon selber sagt das man nicht immer schneller ist... :wink:

Locuza

2018-11-07, 09:55:25

Laut Video beträgt die Latenz zwischen der Kommunikation von einer GPU zum direkten Nachbar beim Infinity Link ungefähr 60-70ns, eine komplette Runde über den Ring 140-170ns:
https://youtu.be/bU6i7KAvbvw?t=1375

Ebenso und das ist wichtig, hat AMD das physische Design verbessert, es stellt nicht nur einen Port auf 7nm dar, sondern man hat die Cache-Implementierung angepasst, um höhere Taktraten zu erreichen und ebenso um die Latenzen zu verbessern.
https://www.youtube.com/watch?v=bU6i7KAvbvw&feature=youtu.be&t=575

Insgesamt würde ich aber dennoch sagen, dass der Vorsprung relativ schwach ist.
V20 erreicht nur 20% höhere Taktraten für die gleiche TDP, laut AMDs Grafik würde man einen höheren Takt bei weniger Leistungsaufnahme schaffen, eben die >25%.
Was zeigt, dass dem 7nm Prozess und/oder dem Design bei höheren Taktbereich gegenüber den 14nm Produkten relativ schnell die Luft ausgeht.

Mangel76

2018-11-07, 10:16:05

Godmode

2018-11-07, 10:18:35

Locuza

2018-11-07, 10:29:37

Dural

2018-11-07, 10:47:50

Ich glaube nicht das es an 7nm liegt, viel mehr dürfte die Architektur einfach am Limit sein.

w0mbat

2018-11-07, 10:52:38

Nicht nur hat Vega20 1:2 DP, man hat jetzt auch PCIe 4.0 und den "Infinity Link". Dazu natürlich mehr HBM2. Insg. kosten PCIe 4.0 und der IFL sicher auch viel.

Wenn ich ehrlich bin hätte ich auch mehr erwartet, aber nüchtern betrachtet haben wir hier immer noch eine Vega10 GPU mit besserer DP Leistung und mehr I/O auf einer komplett neuen Node. AMD kann im FP64/32 Bereich liefern, bei allem anderen gibt die Architektur an sich einfach nicht mehr her.

Das ist zwar hart, aber man sieht ja wieviel Aufwand AMD in Zen2 gesteckt hat. Da wurden fast alles wieder über den Haufen geworfen, nachdem Zen schon komplett neu war. Das kostet und birgt ein enormes Risiko.

Ich hoffe wir werden mit Navi wieder eine Architektur auf Augenhöhe sehen.

Dino-Fossil

2018-11-07, 11:03:39

@ Mangel76

Eine etwas bessere Skalierung vom Taktdesign.
Vega10 schafft es nicht unter 14nm den Spielraum voll auszunutzen, weil der Stromverbrauch limitiert.
Unter 7nm hätte man hoffen können, dass durch die Energieeinsparungen AMD mehr Luft nach oben bekommt, ohne das es gleich so schnell auf den Verbrauch drückt.

Es ist eben nicht nur der Prozess, sondern auch die Architektur. Selbst bei z.B. Intel stiegen die Taktraten seit Sandy Bridge über mehrere Nodes nur relativ langsam an.

Hätte man umgekehrt einen größeren Chip aufgelegt (angenommen, das wäre möglich, es gibt da ja die Ansicht, das GCN aktuell nicht mehr als 64CU erlaubt), mit, sagen wir, 96CU wäre der Leistungssprung deutlich größer und bei vergleichbarem Takt zu V10 wäre man wohl immer noch effizienter.
Aber hätte, hätte, Fahradkette - offenbar ging es hier eben auch darum, mit möglichst geringem Aufwand ein Produkt für die Lücke im Portfolio zu schaffen.

Und dazu - theoretisch könnte man auch so schon eine neue (dann) Mid-Range-GPU bringen, die bei ca. 150W TDP in etwa die Leistung einer GTX1080 hat. Vermutlich fast ohne weitere Anpassungen der Architektur. Nur mittel- bis langfristig wird man auch wieder breitere Chips auflegen müssen, der Takt geht eben nicht endlos nach oben.

Hakim

2018-11-07, 11:07:39

Weiß nicht ob das wirklich mit so wenig Aufwand erledigt wurde, so eine fette Vega Architektur hat doch bestimmt gut Entwicklung und Forschung beansprucht.

Locuza

2018-11-07, 11:15:51

AffenJack

2018-11-07, 11:25:46

Auf der anderen Seite könnte man aber sagen, dass die 14nm bei GloFo keine schlechte Figur gegenüber 7nm HPC TSMC machen.

Daran musste ich auch schon denken. Wie oft musste man lesen, dass Polaris und Vega nur wegen Gf ihre Zieltaktraten nicht erreichen und mit TSMC wäre alles besser gewesen. Spätestens jetzt sollte sich das endlich mal erledigt haben, dass Gfs Prozess so schlecht ist.

unl34shed

2018-11-07, 11:32:05

Ist wie schon mehrfach gesagt ein Vergleich zwischen Äpfeln und Birnen.

V20 hat das externe IF, doppelt so viele HBM stacks, FP64, ... Das steckt alles in der TDP mit drin.

Dino-Fossil

2018-11-07, 11:41:04

Daran musste ich auch schon denken. Wie oft musste man lesen, dass Polaris und Vega nur wegen Gf ihre Zieltaktraten nicht erreichen und mit TSMC wäre alles besser gewesen. Spätestens jetzt sollte sich das endlich mal erledigt haben, dass Gfs Prozess so schlecht ist.

Wurde nicht sogar schon eine nVidia-GPU (die 1050 oder so) auf dem gleichen Prozess bei Samsung gefertigt und hatte trotzdem ähnliche Taktraten, wie die anderen Pascal-Chips?

AffenJack

2018-11-07, 11:42:46

Wurde nicht sogar schon eine nVidia-GPU (die 1050 oder so) auf dem gleichen Prozess bei Samsung gefertigt und hatte trotzdem ähnliche Taktraten, wie die anderen Pascal-Chips?

Jop, 5% unterschied gibts etwa. Da war die Begründung dann aber, dass es ja Samsung und nicht GF ist und nur GFs Prozess schlecht ist.

Mangel76

2018-11-07, 11:55:28

Bei Zen1 sah man eine offensichtliche Taktwall bei ~4Ghz, wo man auch mit deutlich mehr Spannung nicht viel mehr rausquetschen konnte.
Vega10 kann man auch unter 14nm über 1,7Ghz bringen.
Das Design gibt es her, nur nicht der Stromverbrauch davon.

Es ist schade das AMD bei 1,8Ghz (Turbo) wieder 300W TDP ausgeben muss.
AMD muss offensichtlich nach wie vor Dinge am Design verbessern, um weniger Strom zu konsumieren.
Auf der anderen Seite könnte man aber sagen, dass die 14nm bei GloFo keine schlechte Figur gegenüber 7nm HPC TSMC machen.

Aber wo liegt den V10 mit 300W TDP? Nicht bei 1,7 GHz, jedenfalls nicht ohne UV. Selbst die LC läuft mit weniger als 1,7 GHz und mehr als 300W. Daher kann man eben nicht sagen, dass bei gleichem Verbrauch nur +100Hz rauskommen.

Wo läuft die Mi25? Bei ca. 1,5 GHz? Da sind 1,8GHz schon +20% Takt bei gleichem Verbrauch, dafür aber zusätzlich inkl. mehr Speicher, doppeltes SI, externes IF und deutlich höhere DP-Leistung. Wenn ich den Mehrverbrauch der zusätzlichen Features einbeziehe, kommt doch mindestens die erwartete Mehrleistung durch den Prozess (+25%) raus!!!

Locuza

2018-11-07, 12:17:49

Mangel76

2018-11-07, 12:38:08

Offensichtlich, aber bei der Computex hieß es noch >35% und nicht die aktuellen >25% (Wenn man davon ausgeht das AMD vs. 12nm vergleicht, bleibt effektiv noch weniger übrig davon), wo jetzt real bei Vega20 20% übrig bleiben, was du gerne als Punktlandung ansehen kannst, weil ja Vega20 noch für extra Features bezahlen muss.
Mein Erwartungshorizont war jedenfalls näher an 30% Perf/Watt im oberen Bereich, als 20%.

Wie es aber wirklich aussieht, kann man dank fehlenden Messdaten leider nicht herausfinden.
Ich habe keine Ahnung was eine MI25 oder MI60 real bei den Taktraten erreicht und wie hoch der Stromverbrauch im Vergleich ausfällt.

Ja, es braucht noch unabhängige Tests. Zumal hier ja immer nur die "Peak-Performance" verglichen wird. Wer weiß, wie sich die "typische" Performance verhält. Aber ist tatsächlich unschön, dass man die Aussagen der Computex so kommentarlos runterstuft.

Spielt es eventuell auch noch eine Rolle, ob externe IF-Links genutzt werden oder nicht? Da gab es doch bei Turing Aussagen, dass ein NV-Link bis zu 30W benötigt? Ist eigentlich bekannt, ob dieser Verbrauch in der offiziellen TDP/TBP eingerechnet ist, sprich: hat eine Turing-GPU effektiv weniger Leistung zur Verfügung, wenn sie in einem SLI-Verbund betrieben wird (abzgl. des Verbrauchs für NVLink)???

Dural

2018-11-07, 12:42:15

So viel ich weis ist die PT bei Turing immer inkl. NV Link.

HOT

2018-11-07, 13:16:15

IMHO wird alles in die nächste GPU Architektur gesteckt und VEGA nur mehr etwas optimiert. Dh. wir werden dann erst später einen ordentlichen Sprung sehen.
Jo ziemlich sicher. Das ist auch sicherlich ein fast reines Computerdesign mit recht wenig Personenstunden wie bei V10 schon. Sieht ja auch nur wie ein minimales Upgrade in 7nm aus. Das I/O ist halt neu und es gibt jetzt FP64, das wars. Dass es keine großen Änderungen geben kann war ja schon klar, als man ankündigte, dass auch V20 kein NGG können wird - man hat halt das Design nicht verändert. Ist also einfach sehr viel Shrink dabei.

davidzo

2018-11-07, 15:55:21

IMHO wird alles in die nächste GPU Architektur gesteckt und VEGA nur mehr etwas optimiert. Dh. wir werden dann erst später einen ordentlichen Sprung sehen.

:up: Ich denke die Visual Computing Group hat ein ziemliches brain-drain hinter sich. Wollen wir hoffen dass es nun vor bei ist.
Lisas Führungsstil bei AMD ist eine Mischung aus Wetten bzw. Risiken eingehen und Fokussierung. Fokussierung das heißt auf ZEN, weshalb das Grafikteam vernachlässigt wurde. Das hat sie auch in der Präsentation gestern nochmal wiederholt, dass die Weichen für Zen vor 4-5 Jahren gestellt wurden, als das alles extrem Risikoreich war und sie trotzdem alles auf eine Karte gesetzt haben. Also hat sie aus allen verfügbarenTeams Leute abgezogen um Zen auf den Weg zu bekommen.
http://www.anandtech.com/show/13547/amd-next-horizon-live-blog-starts-9am-pt-5pm-utc#post1106120843

Das sieht man daran das es keinen Steamroller-basierten Nachfolger für den FX8350 mehr gab, 20nm Bulldozerprodukte komplett gestrichen wurden, Streichungen von Grafikchips, und jüngst die Vega Mobile Verzögerung, Streichung von banded Kestrel, etc.

Wollen wir mal hoffen dass sie den Weckruf versteht dass man jetzt bei CPUs erstmal gut dasteht und dringend in Grafik R&D investieren muss!

Leonidas

2018-11-07, 16:57:29

CB hat ganz unten eine neue HPC Roadmap der High-End Nachfolger kommt 2020.
https://www.computerbase.de/2018-11/amd-radeon-instinct-mi60/

Muß nicht zwingend ein HighEnd-Nachfolger sein. Auch Vega 10 wurde für Instinct verwurstet - kann also auch nur Navi 10 sein.

BoMbY

2018-11-07, 17:02:00

Ich erinnere nochmal daran:

Q: Does that mean that there is room in the future for GPU bifurcation, between a gaming focus and a compute focus?

LS: I think there is. You will see us move on this, and we’re very committed to gaming so that’s not going to change, but you will see us do some more purpose-built products for the compute side of things.

https://www.anandtech.com/show/12312/getting-radeon-vega-everywhere-an-exclusive-interview-with-dr-lisa-su-amd-ceo

HOT

2018-11-07, 17:02:07

Nope das wird ne neue Architektur sein. Navi wird man nur für Mainsteam und APUs machen, der Rest wird sich einfach nicht lohnen.

fondness

2018-11-07, 17:03:03

dargo

2018-11-07, 17:07:46

Offensichtlich unterschätzen Leute hier noch immer was externe Links mit hoher Bandbreite an Strom kosten.
Das ist wohl auch der Fehler bei mir muss ich zugeben. Ich leite von der Mi60 einen möglichen Gamingchip ab und bin erstmal enttäuscht. Dabei ist eine solche Ableitung höchstwahrscheinlich gar nicht möglich.

Troyan

2018-11-07, 17:19:19

Offensichtlich unterschätzen Leute hier noch immer was externe Links mit hoher Bandbreite und niedriger Latenz an Strom kosten. Mi60 kommt auf bis zu 264GB/s Peak, das erreicht keine aktuelle GPU von Nvidia.

TU102 erreicht 232Gb/s mit 5 Mrd. Transistoren mehr bei 40W weniger Stromverbrauch.

GV100 hat sogar eine externe Bandbreite von 600Gb/s mit Power9 (bzw. zwei GPUs) und liegt bei ebenfalls 300W und hat ganze 8 Mrd. Transistoren mehr.

nVidia ist meilenweit voraus. :rolleyes:

w0mbat

2018-11-07, 17:27:12

Stimmt, PCIe 3.0 ist Meilen vor AMD :D

TGKlaus

2018-11-07, 17:37:48

nVidia ist meilenweit voraus. :rolleyes:

Klar, so Meilenweit voraus, das es nicht mal mit ner INTEL-CPU funktioniert.

:facepalm:

ndrs

2018-11-07, 18:10:54

GV100 hat sogar eine externe Bandbreite von 600Gb/s mit Power9 (bzw. zwei GPUs) und liegt bei ebenfalls 300W und hat ganze 8 Mrd. Transistoren mehr.

Es sind weder 600Gb/s noch 600GB/s. Jede GPU, sowie jeder Power9 haben sechs Links mit je 50GB/s. Es ergeben sich als 300GB/s zwischen zwei Teilnehmern oder 150GB/s bei dreien.
https://bstncdn.net/i/3152
https://bstncdn.net/i/3156

Edit: und überhaupt: Was sollen das für Werte für TU102 sein und was hat die Anzahl der Transistoren damit zu tun?

AffenJack

2018-11-07, 18:31:35

Es sind weder 600Gb/s noch 600GB/s. Jede GPU, sowie jeder Power9 haben sechs Links mit je 50GB/s. Es ergeben sich als 300GB/s zwischen zwei Teilnehmern oder 150GB/s bei dreien.

Edit: und überhaupt: Was sollen das für Werte für TU102 sein und was hat die Anzahl der Transistoren damit zu tun?

Juo 300Gb/s ist der richtige Wert, dazu kann noch 32Gb/S PciE kommen, also 332 GB/s. Trotzdem immernoch mehr als V20, wo Fondness das als Begründung nahm.

Gucken wir uns V100 Nvlink vs V100 PciE an, sinds 300W vs 250W. V100 Nvlink hat dazu noch 10% mehr Takt. Selbst bei linearer Verbrauchsskalierung kommen wir also auf gerademal 25W für 300Gb/s Nvlink. Daher mag das bei V20 20W fressen. Das wars aber auch, außer Nvlink ist deutlich effizienter als Infinity Fabric, was ich bezweifle.

Daredevil

2018-11-07, 18:56:02

fondness

2018-11-07, 19:23:50

Juo 300Gb/s ist der richtige Wert, dazu kann noch 32Gb/S PciE kommen, also 332 GB/s. Trotzdem immernoch mehr als V20, wo Fondness das als Begründung nahm.

Gucken wir uns V100 Nvlink vs V100 PciE an, sinds 300W vs 250W. V100 Nvlink hat dazu noch 10% mehr Takt. Selbst bei linearer Verbrauchsskalierung kommen wir also auf gerademal 25W für 300Gb/s Nvlink. Daher mag das bei V20 20W fressen. Das wars aber auch, außer Nvlink ist deutlich effizienter als Infinity Fabric, was ich bezweifle.

Ja mea culpa, da hat mir Google einen Bären aufgebunden. Zusammen mit den anderen Dingen sollte trotzdem schnell mal 50W zusammen kommen vs. Vega10.

Dural

2018-11-07, 21:08:52

Offensichtlich unterschätzen Leute hier noch immer was externe Links mit hoher Bandbreite und niedriger Latenz an Strom kosten. Mi60 kommt auf bis zu 264GB/s Peak, das erreicht keine aktuelle GPU von Nvidia. Dazu noch 1TB/s Bandbreite mit 32Gb HBM2, 1:2 DP und PCIe4.0. Würde mich nicht wundern wenn Mi60 ohne diese "Erweiterungen" eher bei 225W als bei 300W TDP liegen würde. Zumal Mi60 die mit Abstand am höchsten taktende HPC-GPU ist, für eine bessere Perf/Watt hätte das Ding breiter sein müssen bei weniger Takt.

Dir ist schon klar das die bandbreite bei einer pci-e karte gar nicht verwendet wird und somit praktisch keinen einfluss auf die max leistung und verbrauch hat?

Wenn die karten mit der schnittstelle verbunden werden geht das natürlich auf die leistung, dank PT könnten die GPU nidriger takten, den bei NV ist NV Link in der PT drin.

Gerade die titan v100 und rtx 2080ti zeigen ziemlich deutlich das es hier watt/leistung bezogen von profi zu spiele gpu kaum unterschiede gibt. Und das erst noch mit HBM vs GDDR6.

Achill

2018-11-07, 21:19:09

Es sind weder 600Gb/s noch 600GB/s. Jede GPU, sowie jeder Power9 haben sechs Links mit je 50GB/s. Es ergeben sich als 300GB/s zwischen zwei Teilnehmern oder 150GB/s bei dreien.
https://bstncdn.net/i/3152
https://bstncdn.net/i/3156

Edit: und überhaupt: Was sollen das für Werte für TU102 sein und was hat die Anzahl der Transistoren damit zu tun?

Ich habe gar nicht mitbekommen, dass man nicht mehr von "full duplex" spricht sondern der Summe beider Richtungen ... :(

Ist das bei AMDs AMD Infinity Fabric Link auch so, dass es die Summe darstellt?

dargo

2018-11-08, 08:08:24

Hängt euch mal nicht so sehr an den reinen GPU Takt auf, der HBM2 Speed ist etwas, was ebenfalls gut einschlägt.
Beim Wechsel von 945MHz bzw. 472.5 GB/s laut Aida auf 1100MHz bzw. 550.0 GB/s laut Aida bekomme ich 4,5% mehr FPS im 4k Unigine Superposition.

Und was soll daran gut sein? Du hast schließlich die Bandbreite um über 16% erhöht. Der Vergleich zeigt höchstens, dass Vega nicht zu wenig Bandbreite hat.

mksn7

2018-11-08, 12:15:26

Hängt euch mal nicht so sehr an den reinen GPU Takt auf, der HBM2 Speed ist etwas, was ebenfalls gut einschlägt.
Beim Wechsel von 945MHz bzw. 472.5 GB/s laut Aida auf 1100MHz bzw. 550.0 GB/s laut Aida bekomme ich 4,5% mehr FPS im 4k Unigine Superposition.

Wenn AMD da echt 1 TB/s rausquetschen kann, haben sie zumindest im dem Bereich ein Alleinstellungsmerkmal. Vega hat eine brachiale Cache Performance.

Dickste Volta Karte Quadro GV100 kommt auf 870 GB/s.
Dickste Turing Karte Quadro RTX 8000 kommt auf 672 GB/s.

Schauen wir mal was hinterher von der Speicherbandbreite tatsächlich rumkommt. Die reinen Transferraten des interfaces werden nie erreicht, die Effizienz zählt auch.

nvidia hat z.B. von P100 auf V100 die theoretische Transferrate nur ein bisschen erhöht (720 GB/s -> 900 GB/s), durch höhere Effizienz ist die im Stream erreichbare Bandbreite aber deutlich höher (550 GB/s -> 830 GB/s, übrigens auch das einzige Mal dass ich bei einem Hardwarehersteller Stream Messwerte im Marketing gesehen hab, normalerweise schmeißen die lieber nur mit theoretischen Werten rum, aber die Steigerung im Stream sah halt besser aus...).

AMD kann hier also durchaus eine höhere theoretische Transferrate haben, beim Stream aber trotzdem langsamer als nvidias V100 sein.

Hohe Effizienz ist auch gar nicht so einfach, ich denke da braucht es viele memory buffer die 'Loads-in-Flight' halten können, und die Architektur muss die auch erstmal erzeugen. CPUs machen das über ILP, TLP und einiges an prefetching, GPUs mit ein wenig ILP und viel TLP. CPUs kommen da meistens bei 90-95% raus, GPUs oft ein bisschen schlechter. Negativrekord ist da vielleicht Intels Knights Corner mit 170GB/s von theoretischen 300 GB/s (Kombi aus null ILP, nicht soviel TLP, schlechten prefetchern, wenig memory buffers und als Krönung ein 60-core Ringbus... Knights Landing ist aber auch nicht so toll)

Kurz gesagt: Ein so breites interface braucht auch die entsprechende memory hierarchy und shader array die das ausnutzen können

Edit: Sie sind auch nicht die ersten in der 1 TB/s Region, NEC's Aurora hat 1.2 TB/s und erreicht davon etwa 1 TB/s.

Daredevil

2018-11-08, 12:40:27

Und was soll daran gut sein? Du hast schließlich die Bandbreite um über 16% erhöht. Der Vergleich zeigt höchstens, dass Vega nicht zu wenig Bandbreite hat.
In einem -Gaming Benchmark- durch RAM OC mehr zu erreichen als durch Core OC finde ich schon Beachtenswert. Zumal man die Performance Recht günstig bekommen kann und professionelle Speicherintensive, Anwendungen, also kein -Gaming Benchmark-, deutlich mehr profitieren.

@mksn
Danke für die Erläuterung :)

dargo

2018-11-08, 13:10:26

GPU-OC lohnt bei Vega nicht, da brauchen wir nicht drüber diskutieren. :) Natürlich bekommst du auch paar Prozentchen bei RAM-OC. Schließlich wählt der IHV die Bandbreite beim Design X so, dass die GPU weder verhundert noch overpowered ist. Letzteres wäre nämlich Geldverschwendung.

mboeller

2018-11-08, 13:35:36

Die CU im Vega20 scheinen ja extrem groß zu sein.

https://www.heise.de/imgs/18/2/5/3/5/6/0/7/AMD_Radeon_Instinct_MI50_MI60_Blockdiagrm-d780ef5551d7fab8.jpeg

der GPU-Block (alles vom L2 links zum L2 rechts incl. L2) benötigt ca. 215mm², macht also 3,36mm² pro CU

Bei der PS4 hat es QMD geschafft 20 CU in 88mm² unterzubringen, also 4,4mm² pro CU ... in 28nm!

https://www.chipworks.com/about-chipworks/overview/blog/look-sony%E2%80%99s-playstation-4-core-processor

Bei Navi sollten die CU's doch dann wesentlich kleiner sein, oder? Eher so 2mm² oder weniger?

ndrs

2018-11-08, 13:55:28

Die CU im Vega20 scheinen ja extrem groß zu sein.
Gibt es schon Die-Shots oder vergleichst du gerade wirklich mit einem Schemabildchen?

Wie war das Verhältnis bei Hawaii vs zB. Pitcairn?

Locuza

2018-11-08, 14:05:36

@ mboeller

Da es nur ein grafisches Schaubild ist, kann man dort nicht die genauen Größenordnungen herauslesen, es hält sich aber prinzipiell nah an die Realität.

So sieht Vega10 in Wahrheit aus:
https://c1.staticflickr.com/5/4609/40482186211_23fe72721c_b.jpg
https://www.flickr.com/photos/130561288@N04/40482186211/in/photostream/lightbox/

Und das war ein logisches Schaubild bezüglich V10:
https://www.techpowerup.com/reviews/AMD/Vega_Microarchitecture_Technical_Overview/images/arch-9.jpg
https://www.techpowerup.com/reviews/AMD/Vega_Microarchitecture_Technical_Overview/3.html

AffenJack

2018-11-08, 14:44:53

Bei Navi sollten die CU's doch dann wesentlich kleiner sein, oder? Eher so 2mm² oder weniger?

Ganz bestimmt nicht. DL Fähigkeiten und DP haben bei Vega jetzt nicht soviele zusätzliche Transistoren gekostet, insgesamt sind es ja nur 6% mehr als bei V10. Ich würde nicht von mehr als 20% Flächenersparnis bei den Navi CUs rechnen, wenn man das weglässt. Ob das Schaubild was mit der Realität zutun hat, kein Plan.

basix

2018-11-08, 17:41:11

Navi soll doch ganz offiziell AI-Einheiten beinhalten. Wird es mehr als bei V20 à la Tensor Cores sind die CUs evtl. sogar grösser.

Ravenhearth

2018-11-08, 17:44:35

Quelle?

dildo4u

2018-11-08, 17:54:29

Die "AI" Optimierung ist das die GPU jetzt auch Int 4 kann.

Neu ist die Unterstützung für das Datenformat INT4 bei vierfacher Geschwindigkeit verglichen mit FP16. Rechnerisch liefert die Radeon Instinct MI60 laut AMD daher eine theoretische Geschwindigkeit von 7,4 Teraflops bei doppelter Genauigkeit (FP64) sowie 14,7 Teraflops bei einfacher Genauigkeit (FP32) über 29,5 Teraflops bei halber Genauigkeit (FP16) bis hin zu 58,9 Teraops bei INT8 und 117,8 Teraops bei INT4. Der Vega 10 der Radeon Instinct MI25 beherrscht kein schnelles FP64 und kein INT4.

https://www.golem.de/news/radeon-instinct-mi60-amd-hat-erste-grafikkarte-mit-7-nm-und-pcie-4-0-1811-137552.html

basix

2018-11-08, 18:02:51

Quelle?

Finde leider gerade nicht das was ich wollte. Das als Einstieg: https://hothardware.com/news/amd-7nm-navi-gpu-allegedly-impressive-performance-lab

Soweit ich mich nämlich erinnere, hat Lisa Su persönlich mal was zu Navi + AI gesagt. Fudzilla ist da zu wenig glaubwürdig.

Locuza

2018-11-08, 18:05:52

Es gibt keine offiziellen Aussagen in Bezug auf Navi.
Lediglich Fudzilla hat behauptet, dass Navi dedizierte Logik für AI haben wird:
Well-placed sources have confirmed that Navi, the next generation 7nm GPU core will have some dedicated Artificial intelligence circuitry. Nvidia has Tensor cores built in Volta V100, AI chip, and some sort of optimization and circuitry is coming to the next generation RTG GPU too.
https://www.fudzilla.com/news/graphics/44277-navi-to-have-ai-specific-circuits

Unabhängig von Fudzillas Behauptung, würde ich allgemein davon ausgehen, dass Navi in dem Bezug besser ausfallen wird und mehr mitbringt, als die paar neuen Instruktionen bei Vega20.

horn 12

2018-11-08, 22:49:00

Dies lässt hoffen
RX Vega 56 wäre fast erreichbar mit den Taktraten:

https://wccftech.com/amd-radeon-rx-590-polaris-30-gpu-1700-mhz-clock-3dmark-firestrike-leak/

@edit
Ok, lass es 10 bis 15% sein, mehr aber auch nicht was dann eine RX Vega 56 Schneller ist!

Ravenhearth

2018-11-08, 22:51:40

Nein, immer noch nicht. :rolleyes: Vega 56 ist 40% schneller als die RX 580, da braucht es mehr als "magere" 1680 MHz Boost bei einer Custom, auch wenn die für Polaris wirklich nicht schlecht sind. Btw: falscher Thread