PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Diskussion zu: Ampere angeblich mit gleicher Anzahl an Shader-Clustern, aber ...


Leonidas
2020-01-21, 05:06:46
Link zur News:
https://www.3dcenter.org/news/geruechtekueche-ampere-angeblich-mit-gleicher-anzahl-shader-clustern-aber-intern-verdoppelter-s

Gast
2020-01-21, 06:46:04
Vielleicht rutscht der 4er-Chip auch wieder eine Stufe runter, bis einschließlich Fermi war der 256-bittige 4er-Chip der Chip der 60er-Karten, nicht der 80er.
Shaderleistung der 2070/80 (+Takterhöhung) und vermutlich zusätzliche Raytracing-Steigerung ergibt dann die 3060, wofür dann ebenfalls der eingeschobene 3er-Chip spricht.

Gast
2020-01-21, 07:35:41
Das Gerücht klingt jetz mal alles andere als abwegig.

Nach dem Schaubild bleibt der Scheduler bei 32 Threads/Clock, also das Selbe wie bisher.

Das heißt Nvidia braucht nicht mehr Bandbreite in den Shadercore, und man müsste wirklich nur die FP32 ALUs verdoppeln. Und die ALUs selbst machen nur einen recht kleinen Teil des gesamten Shadercores aus, das mehr an benötigten Transistoren dürfte sich also in Grenzen halten.

Insbesondere um die Raytracing-Leistung weiter zu erhöhen dürfte dieser Schritt sehr sinnvoll sein, denn trotz RT-Cores braucht Raytracing immer noch jede Menge GP-ALU-Leistung, und um einen möglichen Stärkeren RT-Core überhaupt ausnützen zu können ist eine stärkere ALU-Leistung eventuell sogar notwendig.

Entgegen der News würde eine derartige Änderung auch voll im Trend liegen.

Bei Turing gab es schon wieder eine entsprechende Verbreiterung im SM selbst, eigentlich sogar von 16 auf 48ALUs im SM. Allerdings aufgeteilt auf 16x INT32, 16x FP32 und 16x "ALU-Äquivalent" Tensor cores.
Genau genommen gab es FP32 unt INT32 schon früher, mit Turing wurde allerdings der Scheduler verbreitert, dass man diese auch gleichzeitig nutzen kann.

Turing ist sozusagen den halben Weg gegangen, indem man die Scheduler verbreitert, Ampere vollendet diesen möglicherweise indem man auch die ALUs selbst verbreitert.

Ampere, falls an diesen Gerüchten was dran ist, würde also weiterhin 32 Threads/Takt bearbeiten können. Diese könnten allerdings entweder 32x FP32, oder 16x INT32 + 16x FP32 (kann auch schon Turing) oder 16x INT32 + 16x Tensor/FP16 (kann Turing ebenfalls) oder 16x FP32 + 16x FP16/Tensor (kann Turing auch) oder aber 32x FP16/Tensor sein.

Die Möglichkeit 32x FP32 oder 32x FP16/Tensor zu bearbeiten wäre also neu.

Das Ganze würde sehr gut in die aktuelle Entwicklung passen.
Der Trend geht ja wieder weg von Alleskönnern zu immer mehr spezialisierten Schaltkreisen, die ihre Aufgabe effizienter erledigen. Ganz einfach schon aus dem Grund, weil man mittlerweile so viele Schaltkreise verbauen kann, dass der Stromverbrauch extrem in die höhe Schießen würde, wenn diese alle gleichzeitig Arbeiten würden.
Daher macht es durchaus Sinn spezialisierte Schaltkreise zu verwenden, die zwar nicht alle gleichzeitig arbeiten können, dafür jeder aber seine Aufgabe am effizientesten abarbeitet.

Insbesondere bei Nvidia ist dieser Trend schon lange sichtbar. Sie haben niemals (auch in die HPC-Lösungen) FP64-ALUs verbaut die ebenfalls FP32 (dann mit doppelter Geschwindigkeit) abarbeiten, sondern immer dezidiere FP64 ALUs.

Tegra-Maxwell hatte noch FP32 ALUs die FP16 mit doppelter Geschwindigkeit können, seit Turing sind FP16 auch eigene ALUs.

Und natürlich der spezialisierte RT-Core.

Bei Ampere würde sich damit das Verhältnis FP32:Tex natürlich drastisch vergrößern, was aber im Hinblick auf Raytracing-Performance sehr sinnvoll ist, da braucht es viel mehr FP32 und nicht großartig mehr Tex.


Das Ganze muss natürlich nicht heißen, dass an dem Gerücht was dran ist, es klingt aber auf jeden Fall sehr realistisch, was sich natürlich auch jemand ausgedacht haben kann.

Gast
2020-01-21, 09:57:40
Der GA103 müsste im Vollausbau ein 384Bit SI haben, entsprechend wird er wohl auch deaktivierte Shader Cluster bieten.
Sollten die Daten so stimmen, würde ich aber bezweifeln, dass dies nur eine 3080 ist, ich würde den eher als 3080TI sehen. Die Titan wäre dann ein Vollausbau davon.
Denn was wäre sonst der Vollausbau des GA103, wenn die 3080TI einen anderen Chip verwenden soll, der noch mal größer sein müsste? Noch ein Modell zwischen 3080 und 3080TI?
Die TI müsste ja dann schon auf 384Bit SI und vielleicht 72 Shader Cluster, um entsprechenden Abstand zu haben. Die Titan hätten dann vielleicht 80 Cluster (und beim SI ginge nur mehr Takt). Ein GA100 hätte dann 120 Cluster oder was? Das wären dann alles riesen Chips, damit müsste man dann für die 3080 schon 1000€ verlangen, den Aufwand und Preis der HPC Variante will ich dann gar nicht wissen... Ich kann mir nicht vorstellen, dass NV die Preise weiter deutlich erhöhen wird, daher denke ich nicht, dass die Zuordnung der Karten so stimmt. Die Kartenpreise sind doch jetzt schon grenzwertig und erzeugen viel Unmut bei den meisten Kunden.

Redirion
2020-01-21, 10:04:04
sehr gute Analyse Gast. Klingt alles plausibel. Ich liebe 3dcenter ja für die tollen "Gastbeiträge" :D

der durch verdoppelte FP32-Einheiten "breitere" SM erzeugt dann auf natürliche Weise mehr Platz für weitere Load und Store Units und einen größeren L1-Cache. Damit erklärt sich auch der Punkt "Enhanced L1 Data Cache".

https://www.pcgameshardware.de/screenshots/original/2018/09/Turing-TU102-Streaming-Multiprocessor-SM-pcgh.jpg

MiamiNice
2020-01-21, 10:20:39
Für mich klingt es so als wäre Ampere das, was Turing hätte sein sollen (aus Kundensicht). Turing fühlte sich immer unfertig an, weil zu wenig Performance in allen Bereichen. Sieht so aus als würden Ampere GPUs die wirklich ersten echten brauchbaren RT Karten werden.

Leonidas
2020-01-21, 12:06:26
sehr gute Analyse Gast. Klingt alles plausibel. Ich liebe 3dcenter ja für die tollen "Gastbeiträge" :D



Ich muß genauso dem Gast Kredit für seine Ausführungen geben. Sie zeigen auf neue Wege und Ideen, sind damit in jedem Fall ein wertvoller Beitrag, den es zu überdenken gilt.

Mega-Zord
2020-01-21, 15:11:19
Wenn die Leistungssteigerung bei NV wirklich so gut ist, werde ich meine 2080 Ti wegen des der defekten Lüftersteuerung reklamieren und dann eine aktuelle Karte mit Soße und scharf bestellen ;D