PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Diskussion zu: Erste Detail-Berichte zu nVidias Turing-Architektur erschienen


Leonidas
2018-09-15, 06:48:41
Link zur News:
https://www.3dcenter.org/news/erste-detail-berichte-zu-nvidias-turing-architektur-erschienen

AMDoderNvidia
2018-09-15, 09:28:32
Vielen Dank für diese kurze Zusammenfassung der Änderungen und auch die Überblickstabelle, das weiß zu gefallen :)

Ich hätte noch zwei Vorschläge:
1) Wäre es möglich, hier noch Fermi in der Tabelle mit aufzunehmen? Wenn man diese Chips miteinander vergleicht, dann ist doch der Startzeitpunkt eigentlich der Support ab DX 11 und dementsprechend gehört hier Fermi mit dazu.
2) Wie wäre es mal mit einem Überblicksartikel über die Entwicklung der 3D-Chips? Also frühe Chips, die nur das Rasterizing gemacht haben, dann die ersten T&L-support Chips, anschließend die großen Chips wie die Nvidia FX-Reihe, dann die Unified-Shader-Architektur um dann ab DX11 die Tesselation und Compute-Capability mit aufzunehmen - das würde doch auch gut zum Namen der Website passen :)

Spasstiger
2018-09-15, 09:31:44
Ein Umstand sollte vielleicht betrachtet werden:
Von Pascal zu Turing verdoppelt NV zwar die L1-Bandbreite pro LD/ST-Einheit, halbiert aber deren Anzahl pro SM (von 32 auf 16). Um die fp32-FMA-Einheiten und die int32-Einheiten voll auszulasten, wird die gleiche L1-Bandbreite pro SM wie bei Pascal benötigt. Darüber hinaus hat Turing aber noch die Tensor-Cores, die pro SM für volle Auslastung genausoviel Bandbreite wie die fp32- und die int32-Einheiten zusammen benötigen.
Pro SM gibt es acht Tensor-Cores, die jeweils wiederum 64 fp16-Multiplikationen und 64 fp32-Additionen ausführen und hierfür pro Ausführung mit 32 fp16-Werten und 16 fp32-Werten gefüttert werden und 16 fp32-Werte wegschreiben wollen. Macht 12288 Bit pro SM und Takt. Die universellen fp32- und int32-Einheiten benötigen dagegen jeweils nur max. 6144 Bit an Transfers pro SM und Takt.

Leonidas
2018-09-15, 14:31:19
Ich hätte noch zwei Vorschläge:



Fermi habe ich zu wenige verlässliche Daten. Passt auch platzmäßig nicht (naja, man müsste die Tabelle vielleicht umdrehen).


Übersichtsartikel leider nur dann, wenn ich mal zu viel Zeit habe. Ist leider eine Monsterarbeit, da für Altzeugs es zu wenige solide, mit heute vergleichbare Infos gibt. Wer weiss schon, wieviele L2-Cache ein ATI R300 hatte? Das war seinerzeit einfach kein Thema, wurde nie groß besprochen. Für manche alte Chips fehlen selbst einfachste Angaben wie Transistor-Count und Chipfläche. Sorry, wird wohl derzeit nix (ehrliche Antwort).

Gast
2018-09-15, 16:21:53
Pro SM gibt es acht Tensor-Cores, die jeweils wiederum 64 fp16-Multiplikationen und 64 fp32-Additionen ausführen und hierfür pro Ausführung mit 32 fp16-Werten und 16 fp32-Werten gefüttert werden und 16 fp32-Werte wegschreiben wollen. Macht 12288 Bit pro SM und Takt. Die universellen fp32- und int32-Einheiten benötigen dagegen jeweils nur max. 6144 Bit an Transfers pro SM und Takt.

Nachdem es nur mehr 1 Warp Scheduler mit 32threads/clock gibt ist das relativ egal.

Es können im SM pro Takt eh nur 32 threads gleichzeitig ausgeführt werden, und die sind mit den 16INTs und 16 FP32 schon belegt.
Damit können niemals Tensor, INT und FP32 gleichzeitig arbeiten.