Diskussion zu: Hardware- und Nachrichten-Links des 23./24. Februar 2019 [Archiv]

Leonidas

2019-02-25, 12:50:34

Link zur News:
https://www.3dcenter.org/news/hardware-und-nachrichten-links-des-2324-februar-2019

Sorry, arg spät, war auf Tour.

Gast

2019-02-25, 20:02:43

Deswegen unterteilt AnandTech die Turing-Architektur auch inoffiziell in "Turing Major" und "Turing Minor" (läßt sich grob mit "Turing Groß" und "Turing Klein" übersetzen), da die Unterschiede inzwischen klar über das Fehlen der RT- und Tensor-Cores hinausgehen. Neben den expliziten FP16-Cores bei "Turing Minor" haben die kleineren Turing-Chips dann auch nur die Hälfte des Level2-Caches pro ROP-Partition (pro 16 ROPs)

Tensor-Cores sind explizite FP16 Cores (die eben noch etwas mehr als FP16MADD können)

Es ist natürlich Sache der Definition, aber unterschiedliche Cachegrößen würde ich unter Skalierung und nicht als Architekturunterschiede sehen, bei CPUs spricht ja auch keiner von Architekturunterschieden wenn sich der LLC einer CPU-Serie unterscheiden.

Im Gegenteil, Nvidia wollte offenbar die Architekturunterschiede so gering wie möglich halten und auf die Tensor/RT-Cores beschränken, und ist daher den Weg der expliziten FP16-Cores gegangen, da sich damit die Architektur nach außen hin identisch verhält und auch keine unterschiedlichen Optimierungen für CUDA-Programme notwendig sind.

Aber die Tatsache, dass Nvidia explizite FP16-Kerne verwendet macht die Sache natürlich spannend und Turing deutlich stärker als zunächst angenommen.

Das bedautet nämlich einerseits, dass die Tensor-Kerne auch bei normaler Grafikberechnung ohne Deep Learning Techniken keineswegs totes Silizium sind, und andererseits dass der Kern extrem flexibel ist.
Dieser kann nämlich nicht nur FP32 + INT32 parallel sondern wahlweise auch FP32 + 2x FP16 oder 2x FP16 + INT32 oder INT32 + Tensor oder FP32 + Tensor jeweils parallel abarbeiten.

Das erklärt auch den deutlichen Vorsprung gegenüber Pascal in Wolfenstein, weil Turing eben nicht "nur" die FP16-Befehle mit doppelter Geschwindigkeit abarbeiten kann sondern dies auch noch parallel zu FP32 Befehlen.

Und es zeigt sich auch, dass die RT-Kerne offenbar sehr wenig Platz verbrauchen.

TU106 hat gerade mal 63% mehr Transistoren für 50% mehr CUDA-Cores.
Dabei noch zusätzlich ein um 25% verringertes Speicherinterface, um 62,5% verringerten L2-Cache und noch den "Grundverbrauch" der nicht skaliert, wie Display-Interface, PCIe etc.

RT-Cores + die zu Tensor-Cores aufgebohrten FP16 ALUs dürften also wohl maximal 10% der Transistoren ausmachen.

Gast

2019-02-25, 20:09:03

Die 1070 ist aus gleich mehreren und offensichtlichen Gründen kein Gegner.

Die Karte ist ein schlechter Witz. 40% mehr Fläche bei 25% kleinerer Struktur *. Und mehr kommt dabei nicht raus?

* TMSC und nvidia müssen sich an ihren Angaben messen lassen - egal ob Marketing oder nicht und ob neues 12 gegen ausgereiftes 16.