Diskussion zu: Hardware- und Nachrichten-Links des 1. September 2020 [Archiv]

Anmelden

Archiv verlassen und diese Seite im Standarddesign anzeigen : Diskussion zu: Hardware- und Nachrichten-Links des 1. September 2020

Leonidas

2020-09-02, 10:51:41

Link zur News:
https://www.3dcenter.org/news/hardware-und-nachrichten-links-des-1-september-2020

Gast-LAZA

2020-09-02, 11:15:26

Bitte korrigieren:

"derzeit noch keinerlei GeForce RTX 3070 mit gleich 16 GB Speicher angekündigt hätte"

-->
https://www.computerbase.de/2020-09/nvidia-geforce-rtx-3070ti-16-gbyte/

Complicated

2020-09-02, 11:16:56

In der Frage, wie nVidia seine Einheiten-Verdopplung bei Gaming-Ampere erreicht hat, ist zumindest die These einer möglichen "kreativen" Zählweise ganz schnell wieder vom Tisch, denn die nVidia-Webseite notiert in dieser Frage glasklar einen verdoppelten FP32-Durchsatz innerhalb der Shader-Cluster, sprich also Einheiten- wie Takt-normiert und damit nicht mehr anzufechten. Ergo kann man sich auf andere Auflösungen konzentrieren, wobei derzeit eine reine Verdopplung der ALUs (möglicherweise sogar unter dem Verzicht auf die INT32-Einheiten von Ampere) in der Pole Position steht:
Kreative Zählweise würde ich hier noch nicht vom Tisch nehmen ;)
Allerdings scheint es eine weitere Möglichkeit zu geben, die mir ins Auge fiel, als ich den A100 mir nochmals angeschaut habe. Nvidia verbaut ja dort die selben SMs und hatte zu deren Vorstellung nichts davon verlauten lassen. Auch die Zählweise der CUDA-Cores war da wohl noch etwas anders. Zumindest dies scheint angepasst worden zu sein.

Hier eine Möglichkeit wie das zustande gekommen sein kann und die FP32-Bezeichnung "auch stimmen" kann:
https://gfxspeak.com/2020/05/21/nvidias-ampere-2020/
Tensor Float32 is a new math mode in Nvidia’s A100 GPUs developed to handle the math in AI and HPC applications faster compared than single-precision floating-point math (FP32) on Volta GPUs. TF32 is a hybrid of half-precision 16-bit and single precision 32-bit float formats. TF32 running on Tensor Cores in A100 GPUs can provide up to 10× speedups compared to single precision floating-point math (FP32) on Volta GPUs and up to 20× faster than Volta when TF32 is combined with the structured sparsity on the A100.
https://gfxspeak.com/wp-content/uploads/2020/05/image006-1.jpg
Of course, the whole point in making compromises of range and precision is to trim size, thereby reducing the load on interconnect, memory, datapath, and ALU widths. And that begs the question, why stick with the “32” in Tensor Float32? Well, that’s a bit misleading, in the sense that while it exceeds 16-bit width, it does not mean a full 32, but one extra sign bit more than the 18. Twenty bits would be an odd number for programmers to manipulate, but remember this is primarily (exclusively?) a format for intermediate calculations buried in the Tensor Cores. Programmers would still be able to work with FP32—and not have to bend over backward to cram into FP16—while the reduced-width Tensor Float32 provides for acceleration in implementation.
Wenn Nvidia das mitzählt als CUDA-Cores oder über die Software einen ähnliche "Mixed-Precision" für die normalen Shader aktiviert hat, dann könnten solche Performancesteigeurngen durchaus stattfinden. Es wird sich raus stellen ob das auch schon in bestehendem Code wirkt oder auf Seiten der Programmierer Optimierung erfordert und erst in kommenden Spielen seine Stärken ausspielt.

Zumindest ist das für mich derzeit der plausibelste Kandidat für eine solche Aussage.

Gast Ritis

2020-09-02, 11:21:38

Denke es ist allgemein bekannt dass nicht die ALU-Anzahl in der GPU ein Problem ist, sondern die Speicheranbindung und Caches um so viele ALU zu versorgen. Das ist das Geheimnis von Ampere, das es zu lüften gilt, wie das mit dem Speicher und Workloads performt, bzw. ausgelastet wird.

Bei Total War scheint mir das ein Offenbarungseid zu sein, dass DX12 da nur frankensteinmässig drangeklebt war und sich ohne Sponsoren ein Support für beide APIs für den jährlichen Ableger nicht lohnt.
Hoffentlich entwickelt man jetzt eine ordentliche DX12 oder Vulkan Engine von Grund auf. Bei den unzähligen Einheiten und Projektilen im Kampfgewusel ist eine moderne API für dieses Genere eigentlich Pflicht wenn die Animationen komplexer und die Landschaften dynamischer werden sollen.

Gast-LAZA

2020-09-02, 11:43:09

"
Denke es ist allgemein bekannt dass nicht die ALU-Anzahl in der GPU ein Problem ist, sondern die Speicheranbindung und Caches um so viele ALU zu versorgen. Das ist das Geheimnis von Ampere, das es zu lüften gilt, wie das mit dem Speicher und Workloads performt, bzw. ausgelastet wird.
"

Hier ist u. a. der GDDR6X SDRAM entscheidend.
GDDR6X 84 GB/s pro Chip vs. 56 GB/s GDDR6
was in der Summe 1008 GB/s ergibt.

Noch viel mehr Infos gibts bei https://www.anandtech.com/show/15978/micron-spills-on-gddr6x-pam4-signaling-for-higher-rates-coming-to-nvidias-rtx-3090

Gast

2020-09-02, 11:48:34

Kreative Zählweise würde ich hier noch nicht vom Tisch nehmen ;)
Das hatte ich im anderen Thread auch schon gemutmaßt. Es macht keinen Sinn, dass ein Gaming Chip mehr FP32 Leistung bietet als ein deutlich größerer HPC Chip der selben Architektur mit mehr Shadern und mehr Verbrauch. Ergo sind entweder die Angaben des A100 falsch, oder man nutzt für die Gaming Chips tatsächlich einen Trick bei der Aussage. Und da bieten sich die Tensor Kerne an. Der A100 kann über die Tensor Kerne auch FP64, wäre denkbar, dass man diese im Gaming Chip auf FP32 reduziert hat. Die Leistung der Shader in FP32 ist beim A100 exakt gleich stark wie die FP64 Leistung der Tensor Kerne. Das würde also erklären, warum man doppelte FP Leistung hat. Oder man geht auf TF32 zurück, wie du vermutest. Das wäre allerdings eine diskussionswürdige Aussage, denn TF32 ist nun mal nicht FP32. Und vermutlich hätte man dann auch mehr Leistung als angegeben (in TF32 sind die Tensor Kerne grob 10x so schnell als die Shader). Auf der Webseite steht auch nur, dass es ein neues SM gibt. Das muss nicht zwingend heißen, dass man die FP32 Einheiten verdoppelt hat.
Die Rechenweise würde auch erklären, warum die Skalierung nicht dem Erwarteten entspricht: Weil die Tensor Kerne nicht optimal mit den Shadern zusammen arbeiten können und somit Verlust entsteht.

JVC

2020-09-02, 12:07:55

"Dabei dürfte die potentielle Existenz von 16/20-GB-Lösungen von GeForce RTX 3070 & 3080 sicherlich viele Grafikkarten-Käufer interessieren
– dies ist ein gewichtiger Punkt, welcher derzeit noch einer Klärung wartet."
Ohne die 20Gb ist die 3080 für mich kaum bis gar nicht interessant...

M.f.G. JVC

Complicated

2020-09-02, 13:00:56

Ich glaube die Anzeichen verdichten sich wie die Rechnung zusammenkommt. Ich tippe hier auf "Mixed Precision" Werte für FP32:
https://www.pcgameshardware.de/AMD-Radeon-Grafikkarte-255597/News/CDNA-Radeon-Instinct-MI100-FP32-Leistung-1355156/
Laut angeblich offiziellen AMD-Folien soll die MI100 mit 300W TDP bei der FP32-Leistung um 140 Prozent vor Nvidias A100-GPU liegen. Gleichzeitig soll die Radeon-Grafikkarte 30 Prozent weniger kosten. In den übrigen Anwendungsgebieten FP64, FP16 sowie FP16+FP32 ("Mixed Precision") lässt AMD Nvidia aber den Vorrang: Hier soll die A100 um etwa den Faktor 2 vorne liegen.
Das Argument könnte sein, dass dem Entwickler die Beschäftigung mit FP16 erspart wird und er komplett in FP32 bleiben kann und dennoch durch Mixed Precision eine Beschleunigung erfährt ohne den Aufwand für dediziertes FP16 im Code. Es wäre demnach für das Marketing durchaus vertretbar von FP32-Beschleunigung zu sprechen aus der Sicht eines Software-Entwicklers, auch wenn teilweise FP16 in Hardware ausgeführt wird.

Troyan

2020-09-02, 13:03:15

Das hatte ich im anderen Thread auch schon gemutmaßt. Es macht keinen Sinn, dass ein Gaming Chip mehr FP32 Leistung bietet als ein deutlich größerer HPC Chip der selben Architektur mit mehr Shadern und mehr Verbrauch. Ergo sind entweder die Angaben des A100 falsch, oder man nutzt für die Gaming Chips tatsächlich einen Trick bei der Aussage. Und da bieten sich die Tensor Kerne an. Der A100 kann über die Tensor Kerne auch FP64, wäre denkbar, dass man diese im Gaming Chip auf FP32 reduziert hat. Die Leistung der Shader in FP32 ist beim A100 exakt gleich stark wie die FP64 Leistung der Tensor Kerne. Das würde also erklären, warum man doppelte FP Leistung hat. Oder man geht auf TF32 zurück, wie du vermutest. Das wäre allerdings eine diskussionswürdige Aussage, denn TF32 ist nun mal nicht FP32. Und vermutlich hätte man dann auch mehr Leistung als angegeben (in TF32 sind die Tensor Kerne grob 10x so schnell als die Shader). Auf der Webseite steht auch nur, dass es ein neues SM gibt. Das muss nicht zwingend heißen, dass man die FP32 Einheiten verdoppelt hat.
Die Rechenweise würde auch erklären, warum die Skalierung nicht dem Erwarteten entspricht: Weil die Tensor Kerne nicht optimal mit den Shadern zusammen arbeiten können und somit Verlust entsteht.

FP32 ist irrelevant für GA100. Transistoren wurden dort investiert, wo man sie benötigt.

FP32 ist dagegen relevant für Gaming-Ampere. Daher die Verdopplung der Shadereinheiten.

Rabiata

2020-09-02, 13:23:47

Oder man geht auf TF32 zurück, wie du vermutest. Das wäre allerdings eine diskussionswürdige Aussage, denn TF32 ist nun mal nicht FP32. Und vermutlich hätte man dann auch mehr Leistung als angegeben (in TF32 sind die Tensor Kerne grob 10x so schnell als die Shader). Auf der Webseite steht auch nur, dass es ein neues SM gibt. Das muss nicht zwingend heißen, dass man die FP32 Einheiten verdoppelt hat.
Die Rechenweise würde auch erklären, warum die Skalierung nicht dem Erwarteten entspricht: Weil die Tensor Kerne nicht optimal mit den Shadern zusammen arbeiten können und somit Verlust entsteht.
Interessant, und das könnte in Spielen auffallen, die die volle Genauigkeit von FP32 brauchen.
Ich kann mich an einen Bericht über Kerbal Space Program erinnern, nach dem im Rendering mit FP32 merkwürdige Sprünge auftraten, wenn der Abstand zum Heimatplaneten zu groß wurde. Ein Wechsel auf FP64 löste das Problem.

Edit:
Auch im X³ Forum hat mal jemand berichtet, wie er ein UFO über >1000 km verfolgt hat und das Ding zunehmend angefangen hat auf dem Bildschirm herumzuhüpfen. Als Kontext: Die Spielwelt in X³ ist in Sektoren eingeteilt, zwischen denen der Spieler mit Sprungtoren reist. Entfernungen > 50 km vom Sektormittelpunkt kommen eher selten vor.

Gast Ritis

2020-09-02, 15:14:08

"
Hier ist u. a. der GDDR6X SDRAM entscheidend.
GDDR6X 84 GB/s pro Chip vs. 56 GB/s GDDR6
was in der Summe 1008 GB/s ergibt.

Ja, das ist ein Teil. Aber laut Specs kommen wir von 14Gbps der 2080Ti auf 19Gbps was nur rd. ein Drittel mehr ist. Das genügt eben noch nicht ganz an der Stelle, es wird auch sonst mehr Druck auf das SI geben mit den anderen zus. Funktionen.

Von daher sind die Überlegungen von Complicated sehr aufschlussreich!
Das ist momentan für mich der schlüssigste Ansatz.

matty2580

2020-09-02, 15:37:42

Offenbar hat Nvidia jedoch die Shadereinheiten deutlich umgebaut. Anscheinend kann eine ALU bei Ampere nicht mehr nur eine MAD-Berechnung (Multiply-ADD) mit FP32-Genauigkeit pro Takt durchführen, sondern gleich deren zwei. Damit wäre die theoretische Rechenleistung pro Takt für eine einzelne Shadereinheit verdoppelt.

Aus diesem Grund nennt Nvidia mit Ampere auch doppelt so viele CUDA-Kerne wie bis jetzt. So ist die GeForce RTX 3070 mit gleich 5.888 CUDA-Kernen angegeben, die GeForce RTX 3080 mit 8.704 und die GeForce RTX 3090 mit gleich 10.496. Die GeForce RTX 2080 Ti hat im Vergleich dazu gerade einmal 4.352 CUDA-Kerne.
https://www.computerbase.de/2020-09/geforce-rtx-3090-3080-3070-vorgestellt/

So erklärt es CB mit der deutlich gestiegenen Anzahl an Cuda Cores.

Das zeigen nun auch die Zahlen von JPR. AMDs Marktanteil sank binnen eines Jahres von 29 auf 20 Prozent, während im Gegenzug der von Nvidia von 71 auf 80 Prozent wuchs. Nvidia profitiert dabei vom Wachstum des PC-Marktes aufgrund der Pandemie-Situation deutlich mehr als der Mitbewerber. Gegenüber dem Vorjahr ist der PC-Markt um fast 13 Prozent gewachsen, auch die sogenannte Attach-rate von GPUs, also PCs und Notebooks, in denen neben der CPU mit integrierter Grafik noch eine zusätzliche diskrete Lösung verbaut wird, ist weiter geklettert und liegt nun bei 126 Prozent.CUDA-Kerne.
https://www.computerbase.de/2020-08/diskrete-grafikkarten-nvidia-amd-marktanteil/

Gab es eigentlich hier zu eine News im 3dcenter?
Irgendwie habe ich da nichts zu gefunden Leo.
Eigentlich hätte ich hier dazu eine eigene News erwartet, so wie du dass sonst auch machst.
AMD hat 1/3 seines Marktanteil verloren, was schon sehr heftig ist.

Gast

2020-09-02, 19:50:38

Das hatte ich im anderen Thread auch schon gemutmaßt.

Der Sinn von G100 ist FP64. GA102 wird keine oder höchstens alibimäßige FP64-Leistung bieten.

Gast

2020-09-02, 20:57:36

Es ist gar nicht so schwer sich vorzustellen wie Gaming Turing funktioniert

https://i.imgur.com/Kdw5I6h.png

Disclaimer: Ich habe keinerlei Kontakte zu Nvidia, dieses Bild basiert rein auf meinen Photoshop Skilz

Ausgehend von GA 100 hat man einfach den FP64 Block durch einen weiteren FP32 Block ersetzt.

Es ist übrigens aus High Level Sicht unerheblich ob der INT32 Block in Gaming-Turing noch so vorhanden ist wie hier eingezeichnet.
Der springende Punkt ist, der Warp-Scheduler sowie die Dispatch-Unit kann weiterhin nur 32 threads pro Takt verarbeiten.
Diese könnten entweder alle FP-Units auslasten, oder einen Block FP und en INT-Block oder die Hälfte der Tensor-Cores wahlweise mit dem INT-Block oder einem FP32 Block, oder es arbeiten die gesamten Tensor Cores.

Es können niemals alle Einheiten gleichzeitig arbeiten, zumindest pro Takt je nach Aufbau und Länge der Pipeline wäre es denkbar, dass theoretisch zu einem bestimmten Zeitpunkt alle Einheiten arbeiten. Es können jedoch pro Takt nur 32 Thread in die Pipeline eintreten und 32 threads diese wieder verlassen.

Das wäre mit relativ wenig Transistor- und Energieaufwand ausgehend von Turing leicht realisierbar. Um mehrere Einheiten parallel auszulasten müsste man den Warp Scheduler, und was noch viel wichtiger ist alle Datenpfade in und aus dem SM verbreitern. Das würde allerdings jede Menge Transistoren und Energie verbraten.

Mit dem Schaubild kommt man allerdings mit einem moderaten Aufwand an Transitoren sowie Energie aus und hat dabei einen sehr flexiblen Shadercore.

Klar ist auch, nur mit einer Verdopplung der ALUs wird man unmöglich die doppelte Performance erreichen, man wird aber genauso wenig die doppelte Anzahl an Transistoren brauchen.

Leonidas

2020-09-03, 06:50:48

https://www.computerbase.de/2020-08/diskrete-grafikkarten-nvidia-amd-marktanteil/
Gab es eigentlich hier zu eine News im 3dcenter?
Irgendwie habe ich da nichts zu gefunden Leo.

Ich warte üblicherweise auf die zweite Meldung von JPR, wo es rein nur um Desktop-Grafikkarten geht.

Gast

2020-09-03, 07:31:06

Der Sinn von G100 ist FP64. GA102 wird keine oder höchstens alibimäßige FP64-Leistung bieten.
FP32 ist in dem Marktsegment aber trotzdem genauso wichtig. Bei Compute Karten nimmt man jede OPs mit, die man kriegen kann. Dass man sich FP64 bei den Gamer Chips spart, macht hingegen jeder Hersteller.

@Gast: Die FP64 Einheiten können nicht gleichzeitig mit den FP32 Einheiten benutzt werden. Das müsste man bei der Lösung also irgendwie umschiffen. Und dann passt die Größe auch nicht ganz, eine FP64 Einheit ist nicht so groß als wie zwei FP32 Einheiten. Das macht ein komplettes Redesign nötig und treibt daher den Aufwand. Entsprechend halte ich die Lösung über Tensor Cores für wahrscheinlicher, aber technisch ist beides wohl möglich.

Gastein

2020-09-03, 10:24:47

Ich warte üblicherweise auf die zweite Meldung von JPR, wo es rein nur um Desktop-Grafikkarten geht.
Hoffentlich ist das aufschlussreicher.
Die Frage ist doch für den Konsumermarkt, wie viele dGPU von Nvidia im Umastz durch Amprere im Compute Bereich abgesetzt wurde.
Wenn dort der Umsatz durch Bestellung ein par Mio hoch geht hat das nichts mit Gaming zu tun, wo viele Foristen sich ein Bild machen "wollen".
Pandemie kann natürlich auch noch Effekte gehabt haben, aber dann doch eher bei beiden Firmen ähnlich...

Gast

2020-09-03, 19:19:26

@Gast: Die FP64 Einheiten können nicht gleichzeitig mit den FP32 Einheiten benutzt werden. Das müsste man bei der Lösung also irgendwie umschiffen. Und dann passt die Größe auch nicht ganz, eine FP64 Einheit ist nicht so groß als wie zwei FP32 Einheiten. Das macht ein komplettes Redesign nötig und treibt daher den Aufwand. Entsprechend halte ich die Lösung über Tensor Cores für wahrscheinlicher, aber technisch ist beides wohl möglich.

Schaut aus als wäre ich sehr nahe dran:
https://old.reddit.com/r/nvidia/comments/iko4u7/geforce_rtx_30series_community_qa_submit_your/g3qkzva/

Wobei ich eher davon ausgehe, dass wir in den offiziellen Nvidia-Folien die INT-Cores nicht extra sehen werden, die gab es ja eigentlich schon bei Pascal, haben sich dort aber die Datenpfade mit den FP-Cores geteilt und konnten deshalb nicht parallel arbeiten.