Diskussion zu: nVidias Turing-Architektur bohrt die Shader-Cluster deutlich auf [Archiv]

Anmelden

Archiv verlassen und diese Seite im Standarddesign anzeigen : Diskussion zu: nVidias Turing-Architektur bohrt die Shader-Cluster deutlich auf

Leonidas

2018-09-12, 12:56:33

Link zur News:
https://www.3dcenter.org/news/nvidias-turing-architektur-bohrt-die-shader-cluster-deutlich-auf

Gast

2018-09-12, 13:52:51

Mal sehn was hinten rauskommt , gerade der Punkt das es nicht expliziet angesprochen und dafür Programmiert werden musst lässt hoffen.
In Zeiten wo perfromancetechnisch bescheidenen UE 4 early access Titel wie PUGB zu demn meistgespielten Titel gehören ein Wohltat.

BlacKi

2018-09-12, 16:52:29

also doch kein pascal maxwell volta verschnitt?^^

Gast

2018-09-12, 18:10:50

also doch kein pascal maxwell volta verschnitt?^^

Ganz grob gesagt: Turing SM = Volta SM - FP64 + RT Core

Es gibt auch sonst noch ein paar kleinere Verbesserungen, wie z.B. höherer Durchsatz der Tensor Cores mit niedrigeren Präzisionen, abergrundsätzlich ist der SM-Aufbau von Turing sehr ähnlich zu Volta.

Gegenüber Pascal wurde die L1 Cache-Architektur deutlich verändert. Es sind jetzt 2 Blöcke á 96kB, wovon jeder als 64 + 32 bzw. 32+ 64 (jeweils L1 und Shared memory) konfiguriert werden kann.

Anstatt 144 kB (Shared memory + L1 combined) gibt es nun pro SM 192kB, die auch noch flexibler konfigurierbar sind. Pro Cuda-Core gibt es also 2,7x mehr L1/Shared Memory.

64k an 32bit Registern pro SM sind sehr wahrscheinlich (da auch bei Volta so vorhanden) und damit pro CUDA Core das Doppelte von Pascal.

Unklar ist derzeit allerdings noch, wie sich die neuen Integer-Einheiten gut nutzen lassen bzw. welchen Performance-Beitrag jene leisten können. Angeblich lassen sich die neuen Integer-Einheiten gleichzeitig mit den üblichen FP32-Einheiten nutzen – ob dies auch bedeutet, das sich jenen sogar gleichzeitig in voller Anzahl nutzen lassen können, muß sich ebenfalls erst noch ergeben.

Die Integer-Einheiten sind nicht neu und genauso in Pascal vorhanden.
Neu ist, dass diese gleichzeitig mit den FP-Einheiten verwendet werden können, sowie der doppelte Durchsatz bei INT16 und 4-fache bei INT8.
In der Hardware musste man also "nur" für breitere Datenpfade zu L1 bzw. den Registern sorgen, sowie die Scheduler verbreitern, damit auch beide gleichzeitig gefüttert werden können.
Da sie eben in Pascal eben nicht gleichzeitig verwendet werden konnten, wurden sie in der Regel in den Diagrammen nicht eingezeichnet.
Gerade deshalb ist es auch sehr gewagt aus Blockdiagrammen auch nur irgendwelche Rückschlüsse auf die physikalische Größe eines Features auf dem DIE zu schließen.

AMDoderNvidia

2018-09-12, 18:25:06

Aus der News:

Diese insgesamte Änderung am Aufbau der Turing Shader-Cluster ergibt aus unserer Sicht eine exzellente Architektur-Verbesserung zugunsten einer besseren Auslastung der Shader-Einheiten, durchaus nicht unähnlich dem früheren Sprung von der Kepler-Architektur (192 Shader-Einheiten pro Shader-Cluster) auf die Maxwell-Architektur (128 Shader-Einheiten pro Shader-Cluster). Genau über diesen Punkt dürften letztlich die von nVidia schon genannten Performancegewinne pro Shader-Einheit herkommen und Turing somit Takt- und Einheiten-normiert ein deutlich besseres Performancebild als Pascal erreichen lassen.

Und warum ist auf diese Idee(n) niemand im Turing-Spekulationsthread gekommen? Hier wird das so als Binsenweisheit bzw. offensichtlich dargestellt, dass ich mich einfach wunder. Aber mir fehlen (bei allem Interesse für die Materie) einfach die Erfahrung, um aus ein paar Blockschaltbildern und Cachegrößen die Performance bzw. Performancesteigerung abzuschätzen.

Und bitte meine letzten Sätze nicht als Provokation an alle hier im Forum Beteiligten verstehen... ich wundere mich einfach nur. Oder habe ich etwas falsch verstanden? Oder wurde doch genau in diese Richtung spekuliert?

iamthebear

2018-09-12, 19:19:56

Wenn Nvidia zwischen 2080 und 1080 knapp 50% Performancesteigerung bewirbt, sind es in der Realität eher 30-40%, wobei sich fast alles schon durch gesteigerte RAM Bandbreite bzw. Shaderanzahl erklären lässt. Da stellt sich bei mir die Frage: Was ist da schief gegangen, dass die ganzen Architekturänderungen anscheinend nicht greifen.
Oder ist die RTX 2080 in Wirklichkeit doch deutlich schneller und die Treiber waren lediglich noch nicht fertig?
Auf jeden Fall liegt die Latte auf Grund des Preises relativ hoch. Die 2080 muss die 1080 Ti schlagen und die 2070 die 1070 Ti doch sehr deutlich, da die aktuell schon bei 400 Euro angekommen ist.

Gast

2018-09-12, 20:34:29

Hier wird das so als Binsenweisheit bzw. offensichtlich dargestellt, dass ich mich einfach wunder.

Nachdem das Blockschaltbild bis auf die RT-Cores praktisch wie Volta aussieht, ist das doch ziemlich offensichtlich.

MrSpadge

2018-09-12, 20:55:06

Frage: Was ist da schief gegangen, dass die ganzen Architekturänderungen anscheinend nicht greifen.
Äh, du rundest eigenständig um bis zu 20% absolut (40% relativ) ab und wunderst dich, warum die Zahl so klein geworden ist? Tests abwarten, würde ich vorschlagen.

MrS

MrSpadge

2018-09-12, 20:59:32

Und warum ist auf diese Idee(n) niemand im Turing-Spekulationsthread gekommen? Hier wird das so als Binsenweisheit bzw. offensichtlich dargestellt, dass ich mich einfach wunder.
Hab den Thread nicht verfolgt, aber:

- die Infos sind in dieser Klarheit taufrisch
- eine bedeutend höhere Leistung pro Shader und Takt kann nur von der Architektur her kommen (vorausgesetzt es gab vorher keine fiesen bugs oder Flaschenhälse - wofür Pascal ja nicht bekannt ist)
- Leute meckern gerne, so auch in fast allen Spekulationsthreads

MrS

Gast

2018-09-12, 21:01:45

Wenn Nvidia zwischen 2080 und 1080 knapp 50% Performancesteigerung bewirbt, sind es in der Realität eher 30-40%, wobei sich fast alles schon durch gesteigerte RAM Bandbreite bzw. Shaderanzahl erklären lässt.

Die nominelle Leistung steigert sich um gerade mal 20%.

Mit 50% mehr Effizienz würde man daraus zwar bis zu 80% Mehrleistung erwarten.

Die bessere Effizienz bringt aber lediglich was bei Compute, und nachdem nicht alles Compute-Limitiert ist, kann man nicht erwarten, dass die Leistung immer zu 100% ankommt.

50% scheint da ein recht gutes Ergebnis zu sein.

Leonidas

2018-09-13, 04:05:12

Und warum ist auf diese Idee(n) niemand im Turing-Spekulationsthread gekommen?

So was kann man kaum spekulieren, dafür gibt es zu viele Möglichkeiten in der Architektur selber.