nVidia - Ampere (Turing-Nachfolger, 7/8nm, "GeForce RTX 3000" Serie, Herbst 2020) [Archiv]

BoMbY

2017-11-13, 13:08:10

Poor Volta ... Na, jedenfalls scheint meine Vermutung in sofern schon mal korrekt gewesen zu sein, dass es scheinbar kein Consumer-Volta gibt. Aber ich glaube nicht, dass Consumer-Ampere vor Q2/2019 kommen wird - wie im anderen Thread schon gesagt vermute ich stark es kommt in Q2/2018 ein Pascal-Refresh - dieser Refresh wurde schon vor einiger Zeit gerüchtet (https://www.tomshardware.de/nvidia-pascal-refresh-geforce-gtx-20x0-volta-grafikkarten,news-257757.html).

Edit: Das Warum sollte eigentlich klar sein: Der Markt scheint noch nicht gesättigt zu sein, und die Produktion von alten Chips dürfte günstiger sein. Wenn Ampere zu früh kommt, würde man sich nur unnötig selbst Konkurrenz machen.

HOT

2017-11-13, 13:15:47

Wenn der jetzt quasi angekündigt wurde wird der auch schon so kommen - eben in 12FFN, wie vermutet. Im Laufe des Jahres gibts dann einen GV100-Nachfolger in 7 DUV und Ende 2019 könnte NV dann eine post-Maxwell-Architektur machen in 7 EUV. 10nm machen die nicht. Wenn sie das wirklich gewollt hätten, hätte man GV100 schon in 10nm hinbekommen. Hat man aber nicht, von daher gilt das ganz sicher auch für Ampere. In 10nm werden die Kosten die Mehrperformance einfach nicht rechtfertigen. Wenn das für GV100 galt, danne erst recht für Ampere.

Thunder99

2017-11-13, 13:20:22

Troyan

2017-11-13, 13:22:06

Es gibt kein Pascal-Refresh.

Von Fermi -> Kepler -> Maxwell wurde die Architektur jeweils komplett umgekrempelt. Pascal ist der Maxwell-Refresh und mit Ampere wird man den nächsten Sprung machen.

HOT

2017-11-13, 13:35:05

Das seh ich nicht so, sonst hätte man das Teil wohl nicht Gen4 genannt. Das wird schon noch Maxwell-Basis sein, aber vllt. mit modernisiertem Frontend und flexibleren SMs. Eine wirklich neue Architektur wird man wohl erst 2019 sehen. Auch NV kann nicht jedes Mal alles umkrempeln. Man hat das ja bei Fermi auch nur gemacht (also Kepler als Nachfolger), weil Fermi schwere Nachteile hatte, die man versucht hat mit Kepler einzufangen. Es ist also eher G80 -> Fermi -> Maxwell -> 2019er µArch

Thunder99

2017-11-13, 13:41:41

HOT

2017-11-13, 13:45:52

Für NV würde es reichen, Maxwell besser LL-tauglich zu machen und optimal, wenn dann die erste wirklich optimierte LL-Archtektur erst 2019 erscheint, wenn DX11 kaum noch ne Rolle spielt.

Troyan

2017-11-13, 13:51:36

Was Nvidia fehlt ist ein DX12 Chip der darauf optimiert ist. Stark in DX11 und optimal in 12. Daher denke ich schon in 2018 eine neue Architektur gibt.
Volta war ja Pascal + X (wenn ich nicht komplett verkehrt bin :D)

Jeder Chip seit Fermi ist auf "DX12" optimiert.

Leute, bitte. Fangt endlich an euch zu erkundigen, was "DX12" oder "Vulkan" ist. Nervt echt, dass so ein Unsinn immer und immer und immer wieder geschrieben wird.

BoMbY

2017-11-13, 13:57:29

An ein Pascal Refresh glaube ich nicht da es GP102 full gibt und erst die 1070Ti vorgestellt worden ist. Pascal ist daher am Ende seiner Möglichkeiten.

Okay, vielleicht ist Refresh das falsche Wort - möglicherweise ein Shrink auf 12nm, und ein paar Details verbessert, aber nicht Volta und nicht Ampere. Wie gesagt, ich glaube man würde sich damit keinen gefallen tun dieses Pulver schon so früh zu verschießen. Ich denke die werden mitnehmen was sie bekommen können, für wenig Investitionen, und erstmal auf Vega 11 und vielleicht sogar Navi von AMD warten.

X-Bow

2017-11-13, 14:37:40

Ampere wird kein Refresh, und auch kein Shrink. Ampere wird ein Eigenständige Arch. in die Sie alles von Volta reinpacken was für Games nutzbar ist, und alles was HPC war ersetzen. Alles andere wäre Blödsinn.
Warum sollten sie Performance hinterm Zaun halten und warten bis Ihre Performance in Konkurrenz mit AMD kämpfen muss. Je größer der Abstand zur Konkurrenz um so mehr Geld bring es ein.
Die Performance hinterm Zaun zu halten wäre nur verschwendetes R&B-Budget.

Ampere wird aus meiner Sicht in LL deutlich stärker zunehmen als in DX11 gegenüber Pascal.

Grund für den Gedanke ist, dass die Entwicklung von Ampere ungefähr 5 Jahren gelegen hat, und damals war die Vermutung der Verbreitung von LL im hier und jetzt als viel größer orakelt worden.
Ampere wird nVidias Gegenstück zu Vega, nur vermutlich dann mit der Leistung welche dann von NV versprochen werden wird^^

Der_Korken

2017-11-13, 14:51:38

Im Prinzip spricht nichts dagegen, einen GA104 schon 2018 zu releasen, wenn er fertig ist. Man hat ja bei GP104 gesehen, dass Nvidia kein Problem damit hat einen Performance-Chip für 700€ zu vermarkten und eine Titan für 1300€. Wenn die GTX2080 so schnell oder sogar etwas schneller als eine GTX1080Ti ist und dabei mit <400mm² und 256bit GDDR6 auskommt, werden sie GP102 auslaufen lassen und dafür die 2080 bei 700-800€ platzieren - auch wenn sie den Chip theoretisch auch für die Hälfte verkaufen könnten.

Wenn AMD dann innerhalb von zwei Jahren keine Konkurrenz liefern konnte und der Markt gesättigt ist, kann Nvidia immer noch einen GA102 nachschieben und die restlichen Chips preislich nach unten rutschen lassen. So ähnlich hat Intel das auch gemacht: Man hätte spätestens mit 14nm/Broadwell auch >4 Kerne im Consumer-Bereich anbieten können. Stattdessen hat man die Achtkerner aber lieber als Server-Chip für >1000€ verkauft. Jetzt wo Konkurrenz da ist, senkt man eben bequem den Preis auf 600€ und rückt den 10-Kerner nach.

Thunder99

2017-11-13, 14:53:54

Jeder Chip seit Fermi ist auf "DX12" optimiert.

Leute, bitte. Fangt endlich an euch zu erkundigen, was "DX12" oder "Vulkan" ist. Nervt echt, dass so ein Unsinn immer und immer und immer wieder geschrieben wird.
Aha und wieso ziehen die Nvidia Chips kaum bis keine Vorteile aus DX12…? ;)
Sehe es daher anders und wir werden sehen was passiert!

w0mbat

2017-11-13, 15:05:23

Also TweakTown ist ja der Meinung, dass Ampere was neues wird, also kein Pascal shrink/refresh. Da ich ja auch im Markt für eine neue GPU bin erhoffe ich mir Anfang Q2 eine GTX 2080 mit 12-16GB GDDR6 und ca. 1080Ti Leistung für ~650€ bei <200W.

12nm scheint mir auch sehr realistisch, also quasi ein verbesseret 16nm+ Prozess.

HOT

2017-11-13, 15:24:19

Ein Refresh wird das definitiv nicht, aber es widerspricht sich einfach nicht, wenn Maxwell trotzdem Grundlage bleibt. Deshalb kann es ja dennoch heftige Änderungen geben.

scully1234

2017-11-13, 15:24:43

werden sie GP102 auslaufen lassen und dafür die 2080 bei 700-800€ platzieren - auch wenn sie den Chip theoretisch auch für die Hälfte verkaufen könnten.

Bis auf theoretisch für die Hälfte verkaufen, macht das wirtschaftlich Sinn=)

Bambuslooter

2017-11-13, 16:43:16

Na endlich gibt es eine Info zu der nächsten Gen.
Mai 17 ist ja meine Nano gestorben, nun warten 300€ auf eine sinnvolle Verwendung.
Leider ist Vega ein noch größerer Flop und Pascal so alt.
Ampere wird also mein Ziel sein, derzeit überbrücke ich mit einer 290 die Zeit.

Vielleicht bleibt die x70 noch im 300-400€ Rahmen, die kommt ja wohl wieder an die 1080ti heran (schätze ich) und taugt für VR dann etwas länger. Eine ti im Abverkauf zu kriegen ist auch nicht ganz einfach.

BoMbY

2017-11-13, 16:45:18

Ampere wird kein Refresh, und auch kein Shrink.

Davon redet ja auch niemand - nur Ampere wird IMHO nicht das sein was NVidia im Q2/2018 veröffentlicht.

X-Bow

2017-11-13, 17:07:17

Davon redet ja auch niemand - nur Ampere wird IMHO nicht das sein was NVidia im Q2/2018 veröffentlicht.

Was sollte nV denn sonst veröffentlichen? Alles andere außer Ampere macht keinen Sinn. :confused:

Edit: Des weiteren ist dein Oben verlinkte "Pascal-Refresh" von Toms Hardware die sich dazu noch zur hälfte als "unwahr" herausgestellt hat. Und Igor, von Toms Hardware, spricht davon das Ampere für Q2 2018 fix ist, wie scully1234 unter mir auch schön verlinkt hat^^

scully1234

2017-11-13, 17:08:03

Ampere ist fix, Q2 2018 auch. Die Ersten fangen ja jetzt schon mit der BoM an. ;)

...
Nein, nicht offiziell. Aber ich hab es aus der aktualisierten Boardpartner-Roadmap.
(die ist noch confidential)

reicht das

Platos

2017-11-13, 17:48:48

Ampere ist fix, Q2 2018 auch. Die Ersten fangen ja jetzt schon mit der BoM an. ;)

Immerhin liegt ja Mitte Februar noch Chinese New Year an, da muss das meiste bis dahin stehen. Hinterher geht da erst mal eion paar Wochen nix. Die ersten Karten würde ich deshalb auch nicht kaufen, da dann meist erst mal ungelernte Ameisen an den Fließbändern rumalbern.

Also Ampere kommt jetzt 2018 Q2 und Volta wird bei GeForce übersprungen?

Thunder99

2017-11-13, 18:25:06

Anscheinend ja, reiner HPC Chip

BoMbY

2017-11-13, 18:38:06

...

reicht das

Naja, man sollte nicht alles glauben was man im Internet ließt. Das Problem ist, dass selbst wenn Leute Zugang zu irgendwelchen NDA-Dingen haben, diese Informationen unter Umständen falsch interpretieren und/oder weitergeben werden - das Stille-Post-Prinzip.

Wie gesagt würde sich NVidia ins eigene Fleisch schneiden, wenn sie eine neue Generation zu früh veröffentlichen. Aber wir werden es ja bald sehen.

AnnoDADDY

2017-11-13, 18:43:48

Auf jeden Fall wäre es von der Zeit her drann das was neues kommt. Wenn jetzt zwischen hpc und gaming unterschieden wird macht das ganze sinn. Wäre zwar neu aber nicht komplett abwegig bei dem was Nvidia in letzter Zeit macht.

AffenJack

2017-11-13, 18:48:03

Also Ampere kommt jetzt 2018 Q2 und Volta wird bei GeForce übersprungen?

Jo man nimmt das was für Grafik nützlich ist von Volta und baut das eben als Gamingarchitektur mit weiteren Grafikfeatures als Gaminggpus die dann wohl Q2 kommen. Ich schätze ne Titan wird auf der GTC Ende März präsentiert oder zumindest die Architektur vorgestellt.

X-Bow

2017-11-13, 19:05:37

Naja, man sollte nicht alles glauben was man im Internet ließt.

Sagte Der, welcher eine 11Monate alte Quelle aus dem Internet angibt :D

Wie gesagt würde sich NVidia ins eigene Fleisch schneiden, wenn sie eine neue Generation zu früh veröffentlichen. Aber wir werden es ja bald sehen.

Wie soll sich nVidia ins eigene Fleisch schneiden? Wenn Sie eine neue supertolle Arch. haben und die veröffentlichen, dann haben Sie mehr potenzielle Kunden (alle mit der alten viel schlechteren Pascal [aus dem Zeitpunkt gesprochen nicht das interpretiert wird Pascal wäre im hier und jetzt schlecht] und mehr FPS wollen) und eben die, welche einen GPU Kauf in 2018 beschlossen haben. Einfach nur ein Refresh lockt die welche schon eine gute Pascal haben nicht um in die Tasche zu greifen.

Ins eigene Fleisch würden Sie sich schneiden hätten Sie 2018 ein super tolle Arch. und würden die lieber in die Schublade legen und eine Refresh bringen, nur um dann 2019 festzustellen: Ups, jetzt ist unsere Ampere-Arch "nur" mit AMD und Navi gleich auf anstatt denen voraus. (Rein hypothetisch) ;)

Mortalvision

2017-11-13, 19:34:48

Also wird es wohl locker Q1/19 werden, bis eine 2080Ti (15GB?) rauskommt...

Thunder99

2017-11-13, 19:38:00

Wir können uns aber wahrscheinlich generell auf längere Zeiträume zwischen Architekturen und oder Grafikgenerationen einstellen

Troyan

2017-11-13, 19:43:03

X-Bow, ja, diese Aussagen entbehren jeder Logik. Bei Steam gibt es alleine 45 Millionen Pascal-User. Eine deutlich schnellere Architektur kann also neben den ganzen Nicht-Pascal-Benutzer gleich auch wiederrum diese Gruppe mitansprechen. Das ist eine Win-Win Situation für nVidia.

Des Weiteren liegen zwischen Maxwell und Ampere 3 1/2+ Jahre. In der Zeit hat es nVidia fast geschafft von Fermi auf Maxwell zu wechseln...

reaperrr

2017-11-13, 19:44:40

Wie soll sich nVidia ins eigene Fleisch schneiden? Wenn Sie eine neue supertolle Arch. haben und die veröffentlichen, dann haben Sie mehr potenzielle Kunden (alle mit der alten viel schlechteren Pascal [aus dem Zeitpunkt gesprochen nicht das interpretiert wird Pascal wäre im hier und jetzt schlecht] und mehr FPS wollen) und eben die, welche einen GPU Kauf in 2018 beschlossen haben. Einfach nur ein Refresh lockt die welche schon eine gute Pascal haben nicht um in die Tasche zu greifen.

Exakt.

Bei den aktuellen Marktanteilen ist Nvidia's größter Konkurrent nicht Vega, sondern Pascal. Nvidia muss mit der nächsten Generation einen ordentlichen Sprung machen, um vor allem die eigenen Kunden zum aufrüsten zu bringen und die Preise trotzdem hoch halten (oder gar erhöhen) zu können. AMD noch mehr Marktanteile wegnehmen ist da nur ein netter Bonus, aber nicht das Hauptziel, sonst hätten sie die Pascal-Karten schon längst deutlicher im Preis gesenkt (GTX 1070 und 1070Ti dürften in der Produktion nicht viel teurer als RX580-8G sein, da Speicher gleich, PCB/Kühlung sehr ähnlich, sowie nicht sooo viel größerer Chip).

BoMbY

2017-11-13, 20:02:24

Wie soll sich nVidia ins eigene Fleisch schneiden? Wenn Sie eine neue supertolle Arch. haben und die veröffentlichen, dann haben Sie mehr potenzielle Kunden

Nein, sie haben weniger potentielle Kunden wenn sie zu früh starten. Im Moment haben sie vielleicht 10 oder 15% die eine Karte aus der GTX 1000er Reihe gekauft haben, und viele von Rest werden vielleicht noch eine kaufen, sofern keine neue Generation auf den Markt kommt. Und die 5% die so oder so eine Ampere kaufen, kaufen die auch ein halbes, oder ganzes, Jahr später.

Abgesehen davon kann auch NVidia nicht einfach mal so eine Generation um ein Jahr vorziehen. Ich sehe das so, dass NVidia die Customer-Volta gescrapped hat, weil nicht notwendig (keine Konkurrenz/Marktbedarf) - die haben nichts vorgezogen, die setzen ein Jahr einfach aus - das spart immer noch eine Menge Geld, und die Verkäufe bei Pascal-Karten sind bisher nicht eingebrochen.

scully1234

2017-11-13, 20:14:57

.

Abgesehen davon kann auch NVidia nicht einfach mal so eine Generation um ein Jahr vorziehen.

Hast du verstanden, das bei Nvidia über Jahre hinweg ,mehrere Architekturen parallel nebeneinander entwickelt werden?

Ampere war also gewiss schon zu Volta Zeiten in der Pipeline, und nun bedient man sich da ,wo es am meisten Sinn macht

Wenn Ampere nicht ganz und gar ein Non HPC Chip ist, exclusiv für die Geforce Ableger ,u man Volta deshalb außen vor lässt

w0mbat

2017-11-13, 23:01:38

Ich bin mir sicher, wen Nvidia unter Druck wäre, würde wir eine neue Arch schon jetzt haben. Dass Ampere für 2Q18 geplant ist macht Sinn, es wurde einfach um ca. 6 Monate verschoben.

Troyan

2017-11-13, 23:03:20

Maxwell v2 kam auch 6 Monate nach v1 raus. Dazwischen gab es sogar noch einen GK210, der nur für Tesla verwendet wurde.

Einfach weniger fantasieren und abwarten.

X-Bow

2017-11-14, 00:13:14

Wo steht denn überhaupt wann 'Ampere' hätte erscheinen sollen? Dazu gibt es keine offizielle Roadmape, zumindest keine welche mir bekannt wäre. Also wo habt Ihr die Info her das Ampere verschoben wurde?!?

Volta war auf mir allen bekannten Roadmaps am 2018 mit HBM eingetragen. Es kann doch sehr gut sein das nV erkannt hat das HBM bis 2018 einfach noch nicht ready ist und die haben die Gaming GPU auf GDDR6 umgebaut (Vllt mussten Sie da auch gar nicht viel umbauen da die kleineren vielleicht sowieso auf GDDR konzipiert waren) und unteranderem für diese Änderung gegenüber Volta haben Sie kurzerhand die Arch. in Ampere umbenannt. Wär für mich plausibler als dieses 6-12 Monate vorgeschoben gedöns.

BlacKi

2017-11-14, 00:49:27

Ich bin mir sicher, wen Nvidia unter Druck wäre, würde wir eine neue Arch schon jetzt haben. Dass Ampere für 2Q18 geplant ist macht Sinn, es wurde einfach um ca. 6 Monate verschoben.
wie wahrscheinlich ist, das ampere nur volta@10nm ist?

Leonidas

2017-11-14, 05:50:04

Für mich sehr wahrscheinlich. 12nm gibt keine großen Flächenvorteile. Je später man antritt, um so sinnvoller wird es, gleich auf 10nm zu setzen.

Loeschzwerg

2017-11-14, 06:58:38

Entsprechend Zeit könnte sich NV zumindest lassen, Pascal steht sehr gut am Markt. Wie steht es denn um die Verfügbarkeit von 10nm @ TSMC für größere DIEs?

horn 12

2017-11-14, 07:01:42

Bist wohl unzufrieden mit deiner Limited Air 64 Vega... oder etwa nicht ?
NVIDIA MUSS IN DX12 AUFHOLEN, und gerade dort steht AMD sehr gut da.

Loeschzwerg

2017-11-14, 07:08:23

Die Karte bekommt von mir ein "passt schon" :) Unzufrieden bin ich nicht, aber ich mache auch keine Freudensprünge. Ich muss gestehen dass ich die R9 Nano spannender fand.

NV muss bei der aktuellen Adaptionsrate von Vulkan/DX12 gar nichts tun, denn selbst wenn ein Spiel auf diese APIs setzt, wirklich abgeschlagen ist Pascal da nicht.
Aktuell sitzen die Herren in einer guten Position, aber das darf natürlich nicht zu einem Freifahrtschein werden die Entwicklung schleifen zu lassen.

VooDoo7mx

2017-11-14, 07:27:48

Für mich sehr wahrscheinlich. 12nm gibt keine großen Flächenvorteile. Je später man antritt, um so sinnvoller wird es, gleich auf 10nm zu setzen.

10nm vom TSMC und auch 10nm LPP von Samsung ist aber nicht für große GPUs geeignet.

Ich gehe von 12nm TSMC aus, GA104 wird was um die 400mm² und GA100/GA102 um die 600mm².

Hübie

2017-11-14, 08:23:14

Wo steht das 10 nm nicht für GPUs geeignet ist? :| Könnte doch durchaus sein. Was man verstehen sollte: Pascal hätte auch zwei Namen bekommen können, denn was hat GP100 mit den kleinen Derivaten gemeinsam? Im Grunde "nur" das Hochfrequenzdesign, Speicherhierarchie und Aufbau einiger Module, aber auf Featureseite weichen die schon gravierend ab. Mit Ampere sehen wir fast die gleiche Entwicklung. Eventuell noch einen fortschrittlicheren Prozess. Wie das Kind am Ende genannt wird verändert ja nichts. Die Perf/W soll deutlich gesteigert werden, wie es schon vor einiger Zeit mal hieß und das bekommt man entweder durch Tricks im Design hin (was imo immer kompromissbehaftet ist) und/oder neue Prozesstechnologien. Daher finde ich 10nm nicht abwegig.

Rancor

2017-11-14, 08:31:06

Ampere ist vermutlich ein Volta Derivat nur ohne Tensor Cores. Dafür wird es wohl für LL ( Async, RPM etc.. )optimiert sein. Alles andere macht keinen Sinn, imho.
Nochmal eine Architektur raushauen, die in LL gegenüber AMD im Nachteil ist, werden Sie sicher nicht tun.

Ich habe momentan ein 1080TI im Rechner und die Leistung ist schon brachial. Sowas hätte ich gerne auf einer 2070 im Jahr 2018 für 400€ - 500€ ^^

Leonidas

2017-11-14, 08:33:41

Korrekt, das 10nm nicht geeignet sei, ist eine Mär. 20nm war nicht geeignet, weil es zwar Flächenvorteil gab, aber keinen Vorteil beim Stromverbrauch. Mehr Transistoren hätten dort mehr Strom gebraucht, das geht nicht für HighEnd-Chips. Bei 10nm sind die Vorteile klar dokumentiert und wenn es da keine Überraschungen gibt, ist das technisch ein ganz normaler Node. Wird vielleicht selten eingesetzt, hat aber keine technischen Limitationen.

PS: 12nm ist denkbar, hat aber größere Nachteile:
1. Keine Performance-Verdopplung möglich. Der GV102/GA102 würde bei +50% Shader-Einheiten schon ~600mm² groß. Mehrtakt in der 12nm-Fertigung wahrscheinlich kaum machbar, würde zudem weitere Transistoren kosten.
2. Stromverbrauch geht unter 12nm hoch!!! Spielt für GV100 eine untergeordnete Rolle, aber im Gaming-Bereich kann man für +50% Mehrperformance unter 12nm mit 35-40% höherem Stromverbrauch rechnen, dafür dürfen dann die Taktraten nicht einmal angetastet werden. Beim GV102/GA102 wird das schon arg grenzwertig, die anderen Chips verlieren in jedem Fall das Merkmal des bisher (relativ gesehen) geringen Stromverbrauchs.

Hübie

2017-11-14, 08:40:16

Das NV öfter im Nachteil ggü. AMD ist liegt eher daran dass man durch die Konsolen AMD-Features implementiert anstatt NV Features samt der Restriktionen (Buffer sizes etc.).

cat

2017-11-14, 09:09:39

Wenn eine Gaming-Generatin kommt die viel stärker ist, zieht das Argument mit "sich selber Konkurrenz machen" nicht, weil Performance-Punkte durch neue kleinere Chips besetzt werden können, diese nehmen weniger Chipfläche ein und dürften damit die Kosten senken.
(Hier könnte man z.B. die Produktionskosten von GTX980 und 1060 6GB vergleichen)

Wie auch immer die nächste Gaming-Geforce-Generation gebaut sein sollte, in kleinen Andeutungen wurde z.B. bei den Cache-Änderungen in Volta auch Hinweise auf Verbesserungen hierdurch im Gaming gemacht.
Auch die vervielfachten Program-Counter könnten im Gaming Sinn machen.
Die Tendenz zu: mehr Parallelität extrahieren und mehr gleichzeitig aktive Einheiten/Cores ist seit Generationen eins von Nvidias Zielen.

Auch die "modularer" aussehenden Bestandteile der SM könnte Hinweise geben, müssen aber evtl. soo im Gaming keinen Sinn machen, könnten also völlig anders sortiert sein.
(Teilung der Cuda-Cores von vorher INT32/FP32 inkl. FP16-Fähigkeit, in getrennte INT- und FP-Einheiten, wobei die FP32-Cores die FP16-Fähigkeit verloren und Dieses an die Tensor-Cores mit Matix-Multiply abgaben)

Hübie

2017-11-14, 09:29:21

HOT

2017-11-14, 09:47:55

10nm wird unverhältnismäßig mehr kosten als 12nm, allerdings kaum mehr Leistung bringen. 10nm ist wie 20nm damals. Für SoCs gut geeignet, für andere Chips nicht. Wenn neuer Prozess, dann 7nm. Dann erscheint der Chip aber nicht Q2, sondern nur eine Architekturvortstellung und der Chip erschiene dann ab Q3 irgendwann.

BlacKi

2017-11-14, 10:27:50

Bist wohl unzufrieden mit deiner Limited Air 64 Vega... oder etwa nicht ?
NVIDIA MUSS IN DX12 AUFHOLEN, und gerade dort steht AMD sehr gut da.
du lebst in einer verdrehten welt. allerhöchstens die preise müsste nvidia anpassen, falls der anteil von massiv dx12 steigt. eigentlich steht die 1080 fe immernoch vor der vega 64, deshalb passen sie derzeit auch nichts an. das kommt dann im april mit GA104, wo man 50-60% auf die 1080 FE drauflegt.

Ich gehe von 12nm TSMC aus, GA104 wird was um die 400mm² und GA100/GA102 um die 600mm².
GA102 wird erst später kommen und GA104 wird nicht riesig, den könnte man locker in 12nm bringen.

Leonidas

2017-11-14, 11:41:17

10nm ist wie 20nm damals. Für SoCs gut geeignet, für andere Chips nicht.

Woher diese Annahme? TSMC sagt klar zum Thema 10FF (gegenüber 16FF+):
-40% Power oder +20% Takt
besser als -50% Fläche
Quelle: AnandTech (https://www.anandtech.com/show/11337/samsung-and-tsmc-roadmaps-12-nm-8-nm-and-6-nm-added)

Bei 20nm war es klar, das da nix kommen konnte, weil der Power-Vorteil fehlte. Man kann nicht doppelt so viele Transistoren dank kleinerer Density verbauen, wenn jene Transisoren keinen (sehr) erheblichen Power-Vorteil haben. Das war das ganze Problem von 20nm - was bei 10nm nicht existiert.

HOT

2017-11-14, 11:45:38

Da TSMC schon bei 12nm mehr Power und weniger Stromverbrauch liefern will, musst du das natürlich damit vergleichen und dann wäre man bei 20%-30% weniger Verbrauch und 10% mehr Takt. Dafür lohnt es sich aber nicht, 50% mehr Kosten in Kauf zu nehmen.
AFAIK brachte auch 20nm 10% mehr Power und vor allem 30% weniger Verbrauch ggü. 28nm. Das da kein Vorteil herrschte stimmt nicht. Aber auch der Prozess war einfach unverhältnismäßig teuer.

Ich schrieb ja, wenn man schon schrumpfen möchte, dann muss man auf 7nm gehen und ein paar Monate Verzögerung in Kauf nehmen, 10nm macht einfach 0 Sinn, zumal man, wenn man 10nm wirklich hätte nutzen wollen, das sinnvollerweise bei GV100 schon gemacht hätte, denn Produktionsreif war der Prozess früh genug für GV100.

Leonidas

2017-11-14, 13:21:49

@ HOT: Rein als Annahme kann ich alles das gut mitgehen. Ich setze nur darauf, das die Chance für 10nm größer ist als die für 12nm - Du genau umgedreht.

Nur in einem Punkt widerspreche ich: 10nm war niemals reif für den GV100. Erst im Frühling hatte TSMC die Massenfertigung für 10nm angeworfen, kaufbar ist das entsprechende Produkt (A11) erst *jetzt*. So fix danach (selber Herbst) ist faktisch nie ein Großchip spruchreif geworden in den letzten Jahren. Üblicherweise kann man auf den Auslieferungstermin des ersten SoCs ein gutes Jahr addieren.

Hübie

2017-11-14, 13:24:28

Woher kennt er vor allem die Kosten (+50%)? :rolleyes:

danarcho

2017-11-14, 13:50:11

Das NV öfter im Nachteil ggü. AMD ist...
Wie kommt ihr immer darauf, dass Nvidia unter Vulkan und DX12 im Nachteil ist? Vergleicht mal einfach die raw performance. Nvidia ist genau da, wo sie sein sollen. Nur AMD benötigt low level um ihr Potential auszuspielen, während der Nvidia Treiber unter DX11 schon so ziemlich alles rausholt. Daher wird das auch nicht wirklich mehr, eben weil es schon so nah an der Grenze ist. Es ist meiner Meinung nach Blödsinn anzunehmen, dass Nvidia eine Architektur extra für Vulkan/DX12 designen müsste. Sie werden wahrscheinlich 16bit Unterstützung mit packed instructions einbauen, da das durch die Konsolen jetzt tatsächlich Verwendung findet, aber ansonsten würde ich mir da keine großen Hoffnungen machen. Viel eher wird Nvidia einfach den kleineren Prozess nutzen um mehr SMs zu verbauen, um ihren Nachteil dort aufzuholen.

HOT

2017-11-14, 13:52:19

Das war nur grob geschätzt aber man braucht ja bei 10nm schon wie bei 7nm quad patterning. Das ist nunmal so teuer, dass man gleich 7nm machen kann, damit bekommt man wenigstens noch mehr Power raus.
https://www.techpowerup.com/238716/nvidia-volta-architecture-successor-codenamed-ampere-expected-gtc-2018
Interessante Annahme. Die gehen davon aus, dass NV im Q2 nur Ampere vorstellt und die Chips tatsächlich deutlich später kommen und dann auch direkt als Geforce 3000. Das würde 7nm ermöglichen und ich schrieb ja schon länger, dass ich davon ausgehe, dass Ampere (Gen.4) genau wie Navi und V20 in N7FF (non-+) kommt. Ich weiss, du spekulierst da immernoch wegen Apple rum, aber die brauchen ja immer ne gewisse Zeit für einen neuen SoC, genau wie Qualcomm, die sind ja jetzt grad erst mal mit 10nm draußen.

danarcho
Da fallen mir spontan ein paar Dinge ein:
- Software-basierter Schedular, schmales Frontend
- kein gemischter Compute/GFX-Workloads pro SM
- Kein FP16 (hat jetzt nicht unbedingt was mit LL zu tun)
- deutlich komplexere Oprimierung (das schrieb mal ein Entwickler dazu - vllt. AotS?)

Wolfenstein II ist ja (neben Forza7) erst der erste Titel, der rein auf LL optimiert ist. Das ist quasi also ein blutiger Anfang. Doom beispielsweise basiert ja ursprünglich auf OpenGL. Werden weitere Titel ausschließlich LL (also nicht nur der aufgesetzte Renderer) wird sich das auch zeigen, dass Pascal hier nicht mehr so gut mitkommt. Bei Ampere bestand also durchaus Handlungsbedarf.

Hübie

2017-11-14, 14:12:16

Wie kommt ihr immer darauf, dass Nvidia unter Vulkan und DX12 im Nachteil ist? Vergleicht mal einfach die raw performance. Nvidia ist genau da, wo sie sein sollen. Nur AMD benötigt low level um ihr Potential auszuspielen, während der Nvidia Treiber unter DX11 schon so ziemlich alles rausholt. Daher wird das auch nicht wirklich mehr, eben weil es schon so nah
an der Grenze ist. Es ist meiner Meinung nach Blödsinn anzunehmen, dass Nvidia eine Architektur extra für Vulkan/DX12 designen müsste. Sie werden wahrscheinlich 16bit Unterstützung mit packed instructions einbauen, da das durch die Konsolen jetzt tatsächlich Verwendung findet, aber ansonsten würde ich mir da keine großen Hoffnungen machen. Viel eher wird Nvidia einfach den kleineren Prozess nutzen um mehr SMs zu verbauen, um ihren Nachteil dort aufzuholen.

Ganz einfach: Man verliert Performance bei DX12. Was soll die Frage? Das kann man nicht gleich darauf schieben, dass die Engine schon viel abstrahiert. ;)
@HOT: Seit wann macht NV ein auf AMD und stellt Chips vor die man nicht kurze Zeit später kaufen kann? Koduri ist bei Intel und nicht bei NVIDIA gelandet.

HOT

2017-11-14, 14:15:22

Lies den Artikel von Techpowerup.

Ich könnt mir gut vorstellen, dass man Volta einfach gecancelt hat und stattdessen Ampere vorgezogen hat. Ein GA100 war sicherlich sowieso in Planung und könnte am 28.März ja schon vorgestellt werden. Auch die grundlegende Architektur dürfte am 28. ja schon vorgestellt werden. Wenn man dann wirklich 7nm macht, dauert es halt noch bis Q3 oder gar Q4 bis man mit Geforces rechnen kann. Aber es besteht ja auch kein Druck, da AMD mit 12nm V10 ja nur etwas mehr Boden gut machen kann und V20 und N10 ja sowieso auch erst frühestens Q3/4 aufschlagen können.

Hübie

2017-11-14, 14:40:24

Ja und Spekulationen von tpu sind natürlich glaubwürdig, präzise und zutreffend. X-D

HOT

2017-11-14, 14:42:56

Es ist halt ne Speku. Niemand hat gesagt, dass das in Stein gemeißelt ist :D.

Hübie

2017-11-14, 15:08:14

Eben. Meine Speku: Da wurde nix gecancelt. Da wurde einfach gesagt: Pascal war schon zu zweigleisig und aus Zwecken der Produktdifferenzierung hat man nun einfach den Namen geändert. Amperé wird sich mehr an die GeForce-Designs anlehnen, Volta eben an GP100 samt Tensor Cores und riesigem Registerspace. 10 nm sind nicht unwahrscheinlich, 12 nm kann man als Mindestmaß ansetzen. Bei Maxwell war man auch mit 600 mm² sehr profitabel, bei 12 dürfte sich das schmälern, aber vielleicht hat man hier ein Ass im Ärmel. Preis-Absatz ist stets eine Funktion.

w0mbat

2017-11-14, 15:25:25

Zumal die Pascal GPUs schon 1 1/2 Jahre alt sind und deshalb jetzt schon viele von einem Kauf abschrecken. Darum gabs auch die 1070 Ti, um im Weihnachtsgeschäf nochmal etwas "neues" zu bringen.

Für 300€ bzw. 400€ würde ich mir schon noch eine 1070/1080 anlachen, aber >400€ werde ich für eine "alte" Graka sicher nicht mehr auf den Tisch legen.

Wenn Ampere im Q2 kommen sollte, hätte ich nichts gegen eine >600€ "GTX 2080". Und es werden sicher auch viele Enthusiasten umsteigen. Ich denke Nvidia kann nur gewinnen. Wenn Pascal zu lange am Markt ist sinken die potentiellen Absatzzahlen. Vor allem im Techbereich zieht der Faktor "brandneu" eben doch.

HOT

2017-11-14, 15:56:05

Zumal das Frontend von Pascal bei echten LL-Games meiner Ansicht nach zu einem echten Problem führen könnte, weil das schlicht überlastet werden kann meiner Ansicht nach. IIRC findet das Scheduling bei Maxwell und Pascal weitgehend in Software statt. Bei DX11 und seinen wenigen Drawcalls und starren Strukturen kann man da in Software einiges reißen, aber bei LL sieht das u.U. deutlich anders aus. Dann bekommt mal vllt. noch akzeptable FPS, aber die Frametimes und Frameverläufe könnten absolut katastrophal aussehen aufgrund erhöhter Latenzen durch die hohe CPU-Last. Allerdings trifft das in 2018 ja nur vereinzelt zu. Von daher kann man mit Pascal da noch gut leben.

Edit: Hab was gefunden, was da interessant ist:
https://www.youtube.com/watch?v=nIoZB-cnjc0&feature=youtu.be&t=650&app=desktop

Hübie

2017-11-14, 17:34:18

Hö? Nein. Eben nicht. Da werden Shader on the fly abgefangen und neu kompiliert, aber das Scheduling etc. findet in Hardware statt. Was genau meinst du mit: "das Frontend von Pascal bei echten LL-Games meiner Ansicht nach zu einem echten Problem führen könnte, weil das schlicht überlastet werden kann meiner Ansicht nach"?

unl34shed

2017-11-14, 19:31:23

Den Hardware Scheduler haben sie nach Fermi raus geschmissen, uA. einer der Gründe für den geringeren Verbrauch bei Kepler

Schaffe89

2017-11-14, 20:37:03

Viel eher wird Nvidia einfach den kleineren Prozess nutzen um mehr SMs zu verbauen, um ihren Nachteil dort aufzuholen.

Das ist dasselbe wie mit dem High Res Vorteil der alten AMD Karten.
Das war lediglich eine Low Res Schwäche.
Schaut man sich die Rohleistung der AMD Karten an, dann könnte man eher AMD eine Directx12 Schwäche unterstellen als denn Nvidia.
Nvidia hat mit Directx12/Vulkan überhaupt keine Probleme. Wenn alles gut läuft dann ist die Nvidialeistung in Directx12 im Mindesten gleichgut wie in Directx11.

Zumal die Pascal GPUs schon 1 1/2 Jahre alt sind und deshalb jetzt schon viele von einem Kauf abschrecken.

Ja, die Directx12 Schwäche das schlechte Altern der Nvidiakarten und das fehlende wichtige Async Compute machen die Karten zum No-Go.:redface:
Den Hardwarescheduler hat Nvidia ganz rausgeworfen. Nvidia lebt nur noch von Software.

pixeljetstream

2017-11-14, 23:08:59

Den Hardware Scheduler haben sie nach Fermi raus geschmissen, uA. einer der Gründe für den geringeren Verbrauch bei Kepler

Solche Aussagen und der YouTube Link vorher sind voller Halbwissen und Halbwahrheiten. Es werden verschiedene Begriffe durch die Gegend geworfen, manchmal richtig, aber oft falsche Rückschlüsse.
Das wiederum klingt für andere plausibel und wird dann zur Wahrheit.

Z.B. seit Kepler ist das Instruction scheduling eines shaderprogramms zum Teil vom Compiler in Software gelöst. Aber natürlich geht das nicht komplett, die hw muss dynamisch auf unterschiedliche Länge der Speicherzugriffe reagieren können. Das hat aber nix mit drawcalls im frontend zu tun.

Es gibt also nicht "den scheduler", es gibt viele Systeme die ineinander greifen deren Komplexität selbst für Experten nicht immer einfach zu durchschauen ist.

matty2580

2017-11-15, 02:01:28

Ampere ist doch nur ein Name.
Nvidia wollte, aus welchem Grund auch immer, die neue Geforce Series nicht mehr Volta nennen.
Und wenn es wie bei Pascal läuft, gibt erste brauchbare Leaks erst einen Monat vor Release der neuen Series.

Wenn Ampere zu früh kommt, würde man sich nur unnötig selbst Konkurrenz machen.
Bei Nvidia ist man sehr erfolgsverwöhnt in der Geforce-Sparte, vom Umsatz und besonders von Gewinn her.
Mit einem simplen Pascal-Refresh könnte man niemals den Umsatz/Gewinn halten.
Nvidia macht sich also selbst Konkurrenz, braucht dafür nicht unbedingt AMD, und muss eigentlich alle 2 Jahre neue Chips bringen.
Spätestens zur GTC im März werden wir mehr wissen.
Ich hoffe aber auf einige Leaks wenigstens hier im 3dcenter dazu. ^^

gravitationsfeld

2017-11-15, 03:09:18

Ja, die Directx12 Schwäche das schlechte Altern der Nvidiakarten und das fehlende wichtige Async Compute machen die Karten zum No-Go.:redface:
Den Hardwarescheduler hat Nvidia ganz rausgeworfen. Nvidia lebt nur noch von Software.
Du hast da ein Missverstaendnis. Async compute ist nicht dazu da irgend ein anscheinend schlechtes Scheduling auszugleichen. Es ist dazu da wie Hyperthreading auf der CPU die vorhandenen Einheiten besser auszulasten. Ja, das wuerde auch bei NVIDIA helfen.

Schaffe89

2017-11-15, 04:06:49

Ja das weiß ich schon, steht in meinem Beitrag ja auch nicht drinnen.
Nvidia betonte ja ausführlich was das alles bringen kann.
Sobald sie es haben ist es das beste der Welt und vorher ist unwichtig.
https://www.hardwareluxx.de/index.php/news/hardware/grafikkarten/42145-gdc-nvidia-betont-die-vorteile-von-async-compute.html

cat

2017-11-15, 06:24:43

Wenn die FP/INT getrennt werden dann aber sicher nicht 1:1. In dem GP104 haben wir genau das ja schon gesehen, aber wie weit die Vorteile wiegen müsste man jetzt mal ausrechnen. Immerhin liegt die 1070 mit ihren 1920 FP32-Cores nicht proportional unterhalb der GM200 bei gleichem Takt.

Aktuell sind alle Gaming-Geforce noch mit FP32/INT32 Kombi-Einheiten die entweder INT oder FP rechnen, ich glaub sogar von Takt-zu-Takt wechselbar.

V100 kann beides gleichzeitig, im Gaming könnte genau dieser Transistor-Space weniger Sinn machen.
Genauso das opfern der FP16-Fähigkeit der "normalen FP-Einheiten"
(FP16 ist ja gerade im Gaming im Kommen)

Matrix-Multiply und Tensoren sind im Gaming wohl noch in der Ferne

Wieviel INT-Einheiten überhaupt im Verhältnis zu FP32 und FP16 für Gaming gebraucht werden kann ich nicht sagen aber Nvidia wird eine clevere Antwort finden.

Sardaukar.nsn

2017-11-15, 06:34:48

Wenn Ampere im Q2 kommen sollte, hätte ich nichts gegen eine >600€ "GTX 2080". Und es werden sicher auch viele Enthusiasten umsteigen...

Mit welchem Abstand von der 2080 könnte man denn mit einer 2080 Ti rechnen?
Mir scheint als ob ich bis 2019 noch keinen Ersatz für meine Custom 1080Ti einplanen sollte.

uweskw

2017-11-15, 07:18:38

Platos

2017-11-15, 07:21:42

Mit welchem Abstand von der 2080 könnte man denn mit einer 2080 Ti rechnen?
Mir scheint als ob ich bis 2019 noch keinen Ersatz für meine Custom 1080Ti einplanen sollte.

Also da würde ich mindestens bis zur nächsten 80TI warten. Selbst wenn die 2080 20-30% mehr hätte als die 1080 TI (was dann ja schon 40-60% im Vergleich zur 1080 wäre), würde sich das ja nicht wirklich lohnen als 1080 Ti Besitzer. Also ich denke mal, zu schauen, was die 2080TI bringt, ist das sinnvollste. Wenn man noch ne selbst übertaktete Custom hat, ist der Abstand zur Ref. 2080 ja noch kleiner. Vlt. noch 10-15%. Mit einer gut übertakteten 980Ti war man bei Pascal auch (fast) auf dem Niveau einer 1080 Ref. oder gleich sogar. Und mehr als 11 bzw. 12 GB wird die 2080 sicher auch nicht haben, denke ich. Die 2080Ti vlt. aber schon. Und 1080Ti+40-60% Leistung würde ich auch nicht mit weniger als 12GB nehmen.

Platos

2017-11-15, 07:22:40

gibt es eine Übersicht bei wem und bei welchem Hersteller 10 nm wirklich 10 sind und 12nm wirklich 12 u.s.w?

Greetz
US

https://en.wikichip.org/wiki/WikiChip
https://en.wikichip.org/wiki/10_nm_lithography_process

Keine Garantie, dass das alles Stimmt :biggrin:

AffenJack

2017-11-15, 08:02:40

V100 kann beides gleichzeitig, im Gaming könnte genau dieser Transistor-Space weniger Sinn machen.
Genauso das opfern der FP16-Fähigkeit der "normalen FP-Einheiten"
(FP16 ist ja gerade im Gaming im Kommen)

Meinst du opfern von FP16 bei Volta oder bei Pascal? Volta kann immernoch 2xFP16 in den Shadern, obwohl er die Tensor Cores hat. Das macht mich auch guter Hoffnung, dass Ampere das auch haben wird. Viel Diesize kann es ja nicht kosten, wenn man es trotz Tensor Cores drin lässt.

Hübie

2017-11-15, 08:27:04

Aktuell sind alle Gaming-Geforce noch mit FP32/INT32 Kombi-Einheiten die entweder INT oder FP rechnen, ich glaub sogar von Takt-zu-Takt wechselbar.

V100 kann beides gleichzeitig, im Gaming könnte genau dieser Transistor-Space weniger Sinn machen.
Genauso das opfern der FP16-Fähigkeit der "normalen FP-Einheiten"
(FP16 ist ja gerade im Gaming im Kommen)

Matrix-Multiply und Tensoren sind im Gaming wohl noch in der Ferne

Wieviel INT-Einheiten überhaupt im Verhältnis zu FP32 und FP16 für Gaming gebraucht werden kann ich nicht sagen aber Nvidia wird eine clevere Antwort finden.

Ok, war ungünstig ausgedrückt. GP104 kann INT8 bei vierfacher Rate ausführen. In welcher Granularität ist mir aber entgangen.
Bei Vega ist es offenbar so, dass der Vorteil von FP16 dahin siecht, weil ständig hin und her konvertiert werden muss. Es ist also ratsam es konsequent so einzubinden dass die 16 Bit verplant und durch register geschoben werden können ohne 32 bit irgendwo zu belegen. Das ist wohl schon komplexer als nur an den ALUs was zu ändern. Das hat zumindest mein laienhaftes Verständnis so aufgenommen.

danarcho

2017-11-15, 11:17:51

Ok, war ungünstig ausgedrückt. GP104 kann INT8 bei vierfacher Rate ausführen. In welcher Granularität ist mir aber entgangen.
Bei Vega ist es offenbar so, dass der Vorteil von FP16 dahin siecht, weil ständig hin und her konvertiert werden muss. Es ist also ratsam es konsequent so einzubinden dass die 16 Bit verplant und durch register geschoben werden können ohne 32 bit irgendwo zu belegen. Das ist wohl schon komplexer als nur an den ALUs was zu ändern. Das hat zumindest mein laienhaftes Verständnis so aufgenommen.
Ich weiß nicht, was du mit Granularität meinst, aber im Grunde sind das alles packed instructions. Eigentlich alles, was mit >=2facher Geschwindigkeit ausgeführt wird, kommt durch packed instructions. Das bedeutet, dass 2 oder 4 Elemente in ein 32bit register gepackt werden und mit einer vektor-operation gemeinsam ausgeführt werden. (Bei Nvidia z.B. mit Warpsize von 32, bedeutet das 4*32 = 128 Int8 Operationen gleichzeitig.) Das funktioniert natürlich nur sinnvoll, wenn die Elemente auch gepackt vorliegen, also genau nicht, wenn man in seinen shader einfach irgendwo einen z.B. fp16 benutzt. Der wäre dann einzeln und bringt so natürlich auch keinen Vorteil. Um die Elemente zu packen, kann man einerseits darauf hoffen, dass der Compiler selbst Pärchen findet (autovectorization) oder man steckt sie einfach selbst in vektoren. Das erhöht zwar den Programmieraufwand, ist aber im Grunde der momentag einzig sinnvolle Weg das auszunutzen.

Hübie

2017-11-15, 11:20:40

Ja ob jede ALU "switchen" kann oder ob es nur pro Block geht und ob es clockwise oder alle x clockcycles geht. Das meinte ich mit Granularität. :smile:

danarcho

2017-11-15, 11:29:08

Z.B. seit Kepler ist das Instruction scheduling eines shaderprogramms zum Teil vom Compiler in Software gelöst. Aber natürlich geht das nicht komplett, die hw muss dynamisch auf unterschiedliche Länge der Speicherzugriffe reagieren können. Das hat aber nix mit drawcalls im frontend zu tun.

Es gibt also nicht "den scheduler", es gibt viele Systeme die ineinander greifen deren Komplexität selbst für Experten nicht immer einfach zu durchschauen ist.
Könntest du das etwas weiter ausführen? Reden wir wirklich vom instruction scheduling? Oder meinst du das scheduling der threads? Dass bei long-latency events threads suspended werden ist doch gar nicht wirklich thema. Es ist klar, dass eine GPU viele hardware-threads (oder warps/wavefronts) benötigt und diese von der hardware auf den SMs/CUs gescheduled werden.
Bei AMD erlaubt wohl die HW, dass unterschiedliche (CPU-)Threads unabhängig neue commands in die queue setzen, was vulkan und dx12 in die Hände spielt. Wie sieht das bei NV aus?

danarcho

2017-11-15, 11:35:44

Ja ob jede ALU "switchen" kann oder ob es nur pro Block geht und ob es clockwise oder alle x clockcycles geht. Das meinte ich mit Granularität. :smile:
Kommt darauf an, was du mit ALU meinst. Bei AMD besteht eine CU aus 4 SIMD16 (=64) "Blöcken", die jeweils eine andere Wavefront (von ebenfalls 64 Workitems, also in 4 Schritten / meist Takten) bearbeiten. Eine FP16 instruction bedeutet also, dass für eine Wavefront jetzt in 4 Schritten je 2*16 (=128) Elemente bearbeitet werden. Das kann von Instruktion zu Instruktion wechseln. Hoffe, das ist verständlich :)

Um eine CU auszulasten, benötigt man also mindestens 4 Wavefronts. Bis zu 10 Wavefronts (glaube ich) können aber gleichzeitig auf einer CU gescheduled werden. Um long-latency events auszugleichen, ist das auch sinnvoll, das auszunutzen.

=Floi=

2017-11-15, 14:41:54

schade finde ich, dass wirklich nichts darüber bekannt ist oder eine richtung kommuniziert wird in die es gehen soll.

Sardaukar.nsn

2017-11-16, 05:19:24

Also da würde ich mindestens bis zur nächsten 80TI warten. Selbst wenn die 2080 20-30% mehr hätte als die 1080 TI (was dann ja schon 40-60% im Vergleich zur 1080 wäre), würde sich das ja nicht wirklich lohnen als 1080 Ti Besitzer. Also ich denke mal, zu schauen, was die 2080TI bringt, ist das sinnvollste. Wenn man noch ne selbst übertaktete Custom hat, ist der Abstand zur Ref. 2080 ja noch kleiner. Vlt. noch 10-15%. Mit einer gut übertakteten 980Ti war man bei Pascal auch (fast) auf dem Niveau einer 1080 Ref. oder gleich sogar. Und mehr als 11 bzw. 12 GB wird die 2080 sicher auch nicht haben, denke ich. Die 2080Ti vlt. aber schon. Und 1080Ti+40-60% Leistung würde ich auch nicht mit weniger als 12GB nehmen.

Danke für die Rückmeldung. Ich sehe das auch ganz ähnlich von den Leistungsabständen her. Für mich geht es nur etwas um die Budget Planung und da gibt es wohl 2018 keinen ernsthaften Grund meine 1080Ti zu ersetzten. Also könnte ich ja vielleicht doch mal im CPU Bereich zuschlagen.

gravitationsfeld

2017-11-16, 05:44:20

Kommt darauf an, was du mit ALU meinst. Bei AMD besteht eine CU aus 4 SIMD16 (=64) "Blöcken", die jeweils eine andere Wavefront (von ebenfalls 64 Workitems, also in 4 Schritten / meist Takten) bearbeiten. Eine FP16 instruction bedeutet also, dass für eine Wavefront jetzt in 4 Schritten je 2*16 (=128) Elemente bearbeitet werden. Das kann von Instruktion zu Instruktion wechseln. Hoffe, das ist verständlich :)

Um eine CU auszulasten, benötigt man also mindestens 4 Wavefronts. Bis zu 10 Wavefronts (glaube ich) können aber gleichzeitig auf einer CU gescheduled werden. Um long-latency events auszugleichen, ist das auch sinnvoll, das auszunutzen.
Nein, man braucht nur eine Wavefront. Es gibt vier Scheduler pro CU. Es sind deshalb auch 40 Wavefronts Maximum pro CU.

pixeljetstream

2017-11-16, 08:15:01

Könntest du das etwas weiter ausführen? Reden wir wirklich vom instruction scheduling? Oder meinst du das scheduling der threads? Dass bei long-latency events threads suspended werden ist doch gar nicht wirklich thema. Es ist klar, dass eine GPU viele hardware-threads (oder warps/wavefronts) benötigt und diese von der hardware auf den SMs/CUs gescheduled werden.
Bei AMD erlaubt wohl die HW, dass unterschiedliche (CPU-)Threads unabhängig neue commands in die queue setzen, was vulkan und dx12 in die Hände spielt. Wie sieht das bei NV aus?

Das ist genau das Problem, jeder meint was anderes und es wird wild etwas hin und her geworfen. Ich bezog mich vorher auf scheduling von shader instructions was das dominierende Thema war. Nicht CPU threads.

Zum Thema CPU Threads: der GPU command buffer ist einfach nur Speicher mit Anweisungen. Dem Speicher ist es egal wie er befüllt wird, ob einer oder mehrere Threads. Beim Queue submit des command buffers wird quasi Start und Endadresse an OS übergeben, was sich dann um das eigentliche scheduling, paging usw. kümmert um abschließen via kernel-mode Treiber mit der GPU zu kommunizieren. Weswegen Queue submits (aka flush) schon teurer sind, aber eigentlich auch seltener. Daher kann ich nicht nachvollziehen warum das recording der command buffer irgendein Unterschied macht, oder ich hab die Frage falsch verstanden.

danarcho

2017-11-16, 11:00:00

Nein, man braucht nur eine Wavefront. Es gibt vier Scheduler pro CU. Es sind deshalb auch 40 Wavefronts Maximum pro CU.
Eine Wavefront läuft auf nur einer SIMD unit. Entsprechend braucht man mindestens 4 um für die 4 SIMD units was zu haben. (Das gilt für den Fall, dass man nur simple operationen ausführt ohne speicherzugriffe etc.). Aber max 40 Wavefronts, stimmt.

Das ist genau das Problem, jeder meint was anderes und es wird wild etwas hin und her geworfen. Ich bezog mich vorher auf scheduling von shader instructions was das dominierende Thema war. Nicht CPU threads.
Vielleicht hätte ich einen Absatz machen sollen, wollte das nicht vermischen.
Um das zu klären: Unter instruction scheduling verstehe ich das Anordnen der Instruktionen eines Programms durch den Compiler, um passend für eine Hardware mögliche Hazards abzuschwächen oder zu vermeiden. In der Hardware selbst gibt es dann noch zusätzlich out-of-order execution (bei GPUs aber höchstens sehr wenig) und thread / warp scheduling, um bei hazards die functional units mit anderen aufgaben auszulasten. (siehe die 40 wavefronts auf einer CU)

Zum Thema CPU Threads: der GPU command buffer ist einfach nur Speicher mit Anweisungen. Dem Speicher ist es egal wie er befüllt wird, ob einer oder mehrere Threads. Beim Queue submit des command buffers wird quasi Start und Endadresse an OS übergeben, was sich dann um das eigentliche scheduling, paging usw. kümmert um abschließen via kernel-mode Treiber mit der GPU zu kommunizieren. Weswegen Queue submits (aka flush) schon teurer sind, aber eigentlich auch seltener. Daher kann ich nicht nachvollziehen warum das recording der command buffer irgendein Unterschied macht, oder ich hab die Frage falsch verstanden.
Da hier immer wieder behauptet wird, Nvidia hätte Nachteile unter Vulkan/DX12 aufgrund ihrer Architektur, versuche ich herauszufinden, woran das liegen könnte. Meine Vermutung war, dass bei Nvidia multi-queue submits keinen Vorteil bringen, da im Treiber eh wieder serialisiert und dafür synchronisiert wird, während AMD mehrere hardware queues anbietet (zumindest eine zusätzlich für async compute). So wirklich zufriendenstellend finde ich die Erklärung aber nicht :)

Hübie

2017-11-16, 11:31:48

Er muss ja auch immer aufpassen nichts zu sagen was unter Verschluß steht. Kann also sein das wir mit der Diskussion schnell in eine Sackgasse rennen. ;) Bei AMD ist vieles (alles?) dokumentiert und zugänglich. Da gibt's ja noch die Skalareinheit für Speicheradressberechnungen.

SamLombardo

2017-11-16, 11:54:36

Q2 heißt mindestens Juni 18. Im April 17 die 1080ti gekauft zu haben erweist sich immer mehr als gute Entscheidung. Ist auf jeden Fall deutlich länger Top Dog als die 980ti oder die 780ti.

BlacKi

2017-11-16, 12:08:49

deutlich länger? anfang q2 heißt april/mai. damit ist die 1080ti genau 13 monate am start, genau wie die 980ti, die 780ti hatte lediglich 10monate.

3 monate sind aber auch nur kopfsache.

interessanter ist das, was man dafür noch beim wiederverkauf bekommt. bzw. welche wertverlust die karte hatte ggü. dem neueren modell.

SamLombardo

2017-11-16, 13:15:47

Hm. Von der 980ti zur 1080 waren es 11 Monate (Juni 15 bis Mai 16). Und ob Ampere wirklich Anfang Q2 kommt ist auch nicht sicher. Bisher heißt es lediglich Q2, was auch Ende Juni 18 sein kann. Womit wir dann bei 15/16 Monaten wären. Aber selbst wenn es Mai wird...es ist schon ein größerer zeitlicher Abstand als bei den Generationen davor.

Hübie

2017-11-16, 13:39:15

Q2 heißt mindestens Juni 18. Im April 17 die 1080ti gekauft zu haben erweist sich immer mehr als gute Entscheidung. Ist auf jeden Fall deutlich länger Top Dog als die 980ti oder die 780ti.

Falsch. Q2 heißt spätestens Juni '18. Q2 geht von April über Mai zu Juni. Ich kann mich mit der 980 Ti nach über zwei Jahren auch noch gut arrangieren. Die *80 Ti sind eigentlich selten ein Griff ins Klo. Die non-Ti sind weder Fisch noch Fleisch.
Aber ganz davon ab, verstehe ich nicht warum du das überhaupt erwähnst? :|

SamLombardo

2017-11-16, 13:59:29

Aber ganz davon ab, verstehe ich nicht warum du das überhaupt erwähnst? :|
Weil es schon ein signifikant längerer Zeitraum zwischen den Generationen ist, als die Male davor. Es ist doch auffällig, warum sollte es im Thread dazu nicht erwähnt werden?

...aber erwähnen reicht auch, eine seitenlange Diskussion ist wirklich unnötig ;). Insofern sollten wir es dabei belassen.

Thunder99

2017-11-16, 14:08:26

Hatte ich auch schon angemeldet, dass wir uns darauf einstellen können.

Aber ist ja nicht schlimm, siehe die Entwicklung welche ja ebenfalls stagniert (Spiele Sektor).

Was wissen wir denn über Volta was für Ampere auch vorhanden sein könnte als Verbesserung zu Pascal?

reaperrr

2017-11-16, 14:34:28

Was wissen wir denn über Volta was für Ampere auch vorhanden sein könnte als Verbesserung zu Pascal?
Dass 40% mehr SM bei fast gleichem Takt quasi nicht mehr Strom verbrauchen und dabei die Chip-Fläche höchstens um 25% erhöhen (bei GV100 sind's zwar ca. 33% ggü. GP100, aber da stecken auch u.a. die TensorCores mit drin).
Also auf jeden Fall nochmal ordentlich gestiegene Perf/Watt und Perf/mm², selbst wenn Ampere auch "nur" in 12nm kommt.
Außerdem kann man GDDR6 statt GDDR5X zumindest für alles ab 2080 aufwärts wohl als gesichert ansehen, also ca. 40-60% mehr Speicherbandbreite bei gleicher SI-Breite.

Im Ergebnis sollte also eine 2080 wenigstens ca. 1080Ti-Performance mit <=400mm² und 256bit SI in ~180W TDP erreichen. Alle anderen Modelle sollten auf die Pascal-Vorgänger ähnlich viel draufpacken.
Und das sind Annahmen auf Volta-Basis, Ampere könnte da natürlich noch ne Schippe drauflegen.

N0Thing

2017-11-16, 14:50:21

Außerdem kann man GDDR6 statt GDDR5X zumindest für alles ab 2080 aufwärts wohl als gesichert ansehen, also ca. 40-60% mehr Speicherbandbreite bei gleicher SI-Breite.

Wenn ich mich nicht irre, ist der Unterschied zwischen GDDR5X und GDDR6 marginal.

Auf der Hauptseite gab es dazu vor kurzen eine Übersicht: https://www.3dcenter.org/news/samsungs-gddr6-speicher-erreicht-16-ghz-datentakt

Den Vorteil von GDDR6 sehe ich eher darin, daß sich mehr Hersteller an der Produktion beteiligen und damit die Preise auf lange Sicht günstiger ausfallen können.

reaperrr

2017-11-16, 19:00:36

Wenn ich mich nicht irre, ist der Unterschied zwischen GDDR5X und GDDR6 marginal.

Das war auf die Taktsteigerungen in der Praxis bezogen.
Nvidia geht bei Pascal mit G5X ja nirgends über 11.4Gbps, die normale 1080 ist noch bei 10.

5X wird nur von Micron produziert, während Samsung und Hynix keine ernsten Probleme mit G6-16Gbps zu haben scheinen. Deshalb erwarte ich für Ampere G6 und eben in der Praxis 40-60% höhere Speichertaktraten (gegenüber der 1080 FE).

Thomas Gräf

2017-11-16, 20:43:01

Mal ne Frage am Rande. Weiß man schon ob DisplayPort 1.4 bzw HDMI 2.1 mit dem neuen Chip kommen werden?

Hübie

2017-11-16, 21:09:11

In diesem Punkt war NV in der Vergangenheit stets auf dem aktuellsten Stand und wird es sicherlich auch in dieser Runde sein. ;)

berhan

2017-11-16, 22:13:05

Dass 40% mehr SM bei fast gleichem Takt quasi nicht mehr Strom verbrauchen und dabei die Chip-Fläche höchstens um 25% erhöhen (bei GV100 sind's zwar ca. 33% ggü. GP100, aber da stecken auch u.a. die TensorCores mit drin).
Also auf jeden Fall nochmal ordentlich gestiegene Perf/Watt und Perf/mm², selbst wenn Ampere auch "nur" in 12nm kommt.
Außerdem kann man GDDR6 statt GDDR5X zumindest für alles ab 2080 aufwärts wohl als gesichert ansehen, also ca. 40-60% mehr Speicherbandbreite bei gleicher SI-Breite.

Im Ergebnis sollte also eine 2080 wenigstens ca. 1080Ti-Performance mit <=400mm² und 256bit SI in ~180W TDP erreichen. Alle anderen Modelle sollten auf die Pascal-Vorgänger ähnlich viel draufpacken.
Und das sind Annahmen auf Volta-Basis, Ampere könnte da natürlich noch ne Schippe drauflegen.

Ich vermute dass die 2080 10% über der 1080ti liegt. Und kurz darauf eine TitanXa die nochmals 30% schneller ist. Und ohne Mitbewerber wird man auf die Ti ein Jahr warten müssen, bis die Quadros bedient wurden.

BlacKi

2017-11-16, 22:45:46

Wenn ich mich nicht irre, ist der Unterschied zwischen GDDR5X und GDDR6 marginal.
weil man maximale bandbreiten von gddr5x gddr6 ggü. gestellt hat. bei 16gbps wir ja nicht schluss sein.

wenn ich mir ansehe wiewie % das mem OC bringt, muss die steigerung im gaming bereich nicht wirklich viel steigen.

=Floi=

2017-11-16, 23:30:38

Mal ne Frage am Rande. Weiß man schon ob DisplayPort 1.4 bzw HDMI 2.1 mit dem neuen Chip kommen werden?
https://de.wikipedia.org/wiki/DisplayPort

DisplayPort 1.4 (1. März 2016)[11]
Dank verlustbehafteter Video-Kompression ausreichend für 7.680 × 4.320 Pixel

:facepalm:
Braucht es sicherlich nicht.

scully1234

2017-11-17, 00:01:43

Warum?

gibt ja abseits von Video und dem DRM Geschlunze für neue HDMI Standards ,auch noch andere Betätigungsfelder die nach Bandbreite verlangen

Denke da nur an @4k VR pro Auge...

Von daher ist ein Port der höhere Bandbreiten liefert ,erstmal nicht grundsätzlich verkehrt, neben den neuen Featuresets die vielleicht noch dazu kommen

nordic_pegasus

2017-11-17, 06:40:45

Sardaukar.nsn

2017-11-17, 06:46:31

HDMI 2.1 bringt ja auch Variable Refresh Rate, also Freesync/G-sync für TVs. Das wird sicherlich ein wichtiges Technik-Feature in den 2018er TV-Modellen werden, zumal Microsoft bei der XBoneX auch VRR implementiert hat.

Also ich werde bei meiner nächsten GraKa darauf achten, dass HDMI 2.1 dabei ist.

Ja das wäre wirklich ein Killer-Feature für das Konsolen Geschäft. Ich hoffe das sich VRR und Hdmi 2.1 durchsetzen und die nächsten Konsolen und Fernseher das auf breiter Front unterstützen.

Hübie

2017-11-17, 09:10:29

Was bringt Freesync mit einer GeForce? :| Beim TV sollte man drauf achten, bei der Graka reicht 2.0. :D

nordic_pegasus

2017-11-17, 10:11:10

Troyan

2017-11-17, 11:35:58

Vielleicht hätte ich einen Absatz machen sollen, wollte das nicht vermischen.
Um das zu klären: Unter instruction scheduling verstehe ich das Anordnen der Instruktionen eines Programms durch den Compiler, um passend für eine Hardware mögliche Hazards abzuschwächen oder zu vermeiden. In der Hardware selbst gibt es dann noch zusätzlich out-of-order execution (bei GPUs aber höchstens sehr wenig) und thread / warp scheduling, um bei hazards die functional units mit anderen aufgaben auszulasten. (siehe die 40 wavefronts auf einer CU)

Der Compiler maskiert nur, wann Anweisungen ausgeführt werden können. Das Scheduling findet weiterhin auf der GPU statt. Der Hardwareblock wurde im Zuge dessen vereinfacht. Anandtech hat dies nicht 100% richtig wiedergegeben.Das steht auch so im Whitepaper zu Kepler auf Seite 10: http://la.nvidia.com/content/PDF/product-specifications/GeForce_GTX_680_Whitepaper_FINAL.pdf

Da hier immer wieder behauptet wird, Nvidia hätte Nachteile unter Vulkan/DX12 aufgrund ihrer Architektur, versuche ich herauszufinden, woran das liegen könnte. Meine Vermutung war, dass bei Nvidia multi-queue submits keinen Vorteil bringen, da im Treiber eh wieder serialisiert und dafür synchronisiert wird, während AMD mehrere hardware queues anbietet (zumindest eine zusätzlich für async compute). So wirklich zufriendenstellend finde ich die Erklärung aber nicht :)

Das Ausführungsmodell zwischen DX12 und DX11 ist identisch:
In D3D12 the concept of a command queue is the API representation of a roughly serial sequence of work submitted by the application. Barriers and other techniques allow this work to be executed in a pipeline or out of order, but the application only sees a single completion timeline. This corresponds to the immediate context in D3D11.
https://msdn.microsoft.com/en-us/library/windows/desktop/dn899217(v=vs.85).aspx

scully1234

2017-11-17, 15:18:58

Kommt Ampere etwa so zeitnah, weil TSMC große Betätigungsfelder wegbrechen?

https://www.computerbase.de/2017-11/5g-iphone-intel-modem-soc/

Für Nvidia auf jedenfall gut, das sie nun mehr Ressourcen buchen können, falls das denn der Wahrheit entspricht

danarcho

2017-11-17, 15:47:11

Der Compiler maskiert nur, wann Anweisungen ausgeführt werden können. Das Scheduling findet weiterhin auf der GPU statt. Der Hardwareblock wurde im Zuge dessen vereinfacht. Anandtech hat dies nicht 100% richtig wiedergegeben.Das steht auch so im Whitepaper zu Kepler auf Seite 10: http://la.nvidia.com/content/PDF/product-specifications/GeForce_GTX_680_Whitepaper_FINAL.pdf
Ich gebe zu, dass der Begriff "instruction scheduling" etwas ambivalent verwendet wird. Nichtsdestotrotz, der Begriff ist eigentlich klar reserviert für das Compiler-backend (neben instruction selection und register allocation). Dein whitepaper spricht übrigens selbst von warp scheduling. Mit warp scheduling ist gemeint, welcher warp als nächstes ausgeführt wird. Als quasi barrel-prozessor darf der warp dann nur eine oder zwei instructionen ausführen (bevor ein anderer drankommt), weshalb man auf die idee kommen könnte, es handelte sich um ein instruction scheduling. Wenn die GPU dann flexibel genug ist, die dispatched instructions in anderer reihenfolge auszuführen, spricht man von out-of-order, aber das fällt unter instruction _issuing_.
Warp/thread scheduling wechselt also zwischen verschiedenen instruction streams, während instruction scheduling die instruktionen innerhalb eines instruction streams (um)sortiert.

Das Ausführungsmodell zwischen DX12 und DX11 ist identisch:

https://msdn.microsoft.com/en-us/library/windows/desktop/dn899217(v=vs.85).aspx
Execution Model != Platform Model
Das execution model, das du hier gar nicht zitierst, bleibt natürlich gleich, da immer noch GPUs programmiert werden.
Vulkan und DX12 bieten im Gegensatz zu den älteren APIs mehrere Queues.
Ich habe tatsächlich mal etwas handfestes gefunden:
DX12 Multi engine capabilties of recent AMD and Nvidia hardware (http://ext3h.makegames.de/DX12_Compute.html)
Compute and 3D engine can not be active at the same time as they utilize a single function unit.
bei AMD dagegen:
Since GCN 2, each ACE can seamlessly interleave wavefronts from 8 asynchronous queues.

Platos

2017-11-17, 16:01:39

Für Leute, die einen TV als Monitor für PCs zweckentfremden, wäre HDMI 2.1 bei GraKas aber ein toller Fortschritt, sofern damit auch VRR möglich ist.

Wäre für mich auch ein Grund nach langer Zeit mal wieder ne AMD Karte in den PC zu pflanzen, falls Nvidia hier nicht mitspielen will (was zu befürchten ist).

Ich bin z.B so einer :D Ich bin immer "gezwungen" auf entweder 30 oder 60 FPS zu spielen, da ich Tearing gar nicht leiden kann und 30 FPS aber zu wenig sind, müssen es dann absolut stabile 60 sein. Auch in Szenen, bei denen mehr los ist, darf es nicht darunter fallen. Das ist schon echt ne grosse Beschränkung. Für mich ist HDMi 2.1 und VRR DAS nächste Highlight. Dann kann ich auch bis auf 45 FPS runter fallen, und es sollte nicht so tragisch sein.

Wenn dann AMD allerdings wieder kein XX80TI Konkurrent bringt, nützt es auch wieder nicht so viel.

N0Thing

2017-11-17, 16:33:18

Was bringt Freesync mit einer GeForce? :| Beim TV sollte man drauf achten, bei der Graka reicht 2.0. :D

Falls Adaptive Sync bei HDMI 2.1 vorgeschrieben sein sollte, würden es alle zukünftigen Geforce Karten mit entsprechendem Anschluss automatisch erhalten.

Kommt Ampere etwa so zeitnah, weil TSMC große Betätigungsfelder wegbrechen?

https://www.computerbase.de/2017-11/5g-iphone-intel-modem-soc/

Für Nvidia auf jedenfall gut, das sie nun mehr Ressourcen buchen können, falls das denn der Wahrheit entspricht

Da das entrepchende iPhone mit Intel-Modem erst ein Thema für 2019/20 sein soll, wird Anfang 2018 durch diese Entwicklung sicherlich noch nichts bei TSMC frei geworden sein. Und für Anfang 2018 hat man ja schon seit langem etwas Neues von Nvidia erwartet.

|MatMan|

2017-11-17, 17:08:38

Falls Adaptive Sync bei HDMI 2.1 vorgeschrieben sein sollte, würden es alle zukünftigen Geforce Karten mit entsprechendem Anschluss automatisch erhalten.
Das ist die große Preisfrage. Ist es nur optional und nicht verpflichtend in der Spec, wird es nVidia nicht unterstützen. Kann das jemand mit Zugang zur HDMI 2.1 Spec mal checken?

Das aus den FAQ zu VRR hat nur indirekt was damit zu tun, klingt aber eher nach optional:

Q: Will this [VRR] work with 8K@60 or 4K@120Hz?

A: Yes if those features are implemented along with Higher Video Resolution. That will require the new 48G cable

Thomas Gräf

2017-11-17, 17:28:34

Es steht halt die Frage im Raum ob man das PC-Gaming in Zukunft immernoch auf Monitor Basis sieht, oder ob man in den innovativeren TV Displays auch Zukunft sieht.
Hier im Forum seht ja geschrieben das Monitore "Abfall Displays" aus der TV Panel Produktion seien sollen.
Da Nvidia mit Sicherheit auch in Zukunft Premium Produkte anbieten wird, ist das sicherlich ein spannender Punkt.

Troyan

2017-11-17, 17:55:52

Ich gebe zu, dass der Begriff "instruction scheduling" etwas ambivalent verwendet wird. Nichtsdestotrotz, der Begriff ist eigentlich klar reserviert für das Compiler-backend (neben instruction selection und register allocation). Dein whitepaper spricht übrigens selbst von warp scheduling. Mit warp scheduling ist gemeint, welcher warp als nächstes ausgeführt wird. Als quasi barrel-prozessor darf der warp dann nur eine oder zwei instructionen ausführen (bevor ein anderer drankommt), weshalb man auf die idee kommen könnte, es handelte sich um ein instruction scheduling. Wenn die GPU dann flexibel genug ist, die dispatched instructions in anderer reihenfolge auszuführen, spricht man von out-of-order, aber das fällt unter instruction _issuing_.
Warp/thread scheduling wechselt also zwischen verschiedenen instruction streams, während instruction scheduling die instruktionen innerhalb eines instruction streams (um)sortiert.

nVidia spricht von "Inter-Warp Scheduling stage". Der Compiler maskiert nur die Anweisungen, die Abhängigkeiten haben und entsprechend zeitlich zurückgesetzt werden. Das komplette Scheduling an sich erfolgt auf der GPU.

Execution Model != Platform Model
Das execution model, das du hier gar nicht zitierst, bleibt natürlich gleich, da immer noch GPUs programmiert werden.
Vulkan und DX12 bieten im Gegensatz zu den älteren APIs mehrere Queues.
Ich habe tatsächlich mal etwas handfestes gefunden:
DX12 Multi engine capabilties of recent AMD and Nvidia hardware (http://ext3h.makegames.de/DX12_Compute.html)

bei AMD dagegen:

Das Ausführungsmodel ist ähnlich, daher gibt es keine Probleme mit nVidia. Die Probleme entstehen auf der Software-Seite.
Was du gefunden hast, bezieht sich auch nur auf Pre-Pascal-Karten.

robbitop

2017-11-17, 18:17:41

danarcho

2017-11-17, 21:48:05

nVidia spricht von "Inter-Warp Scheduling stage". Der Compiler maskiert nur die Anweisungen, die Abhängigkeiten haben und entsprechend zeitlich zurückgesetzt werden. Das komplette Scheduling an sich erfolgt auf der GPU.
:facepalm:
Keine Ahnung, was du mir sagen willst. Ich habe die Begriffe und Abläufe zweimal erklärt, damit eben nicht mehr alles ducheinander geworfen wird. Hilft anscheinend nichts. Der Compiler maskiert überhaupt nichts. Und ich bezweifle mal sehr stark, dass du mir über Compiler irgendetwas erzählen könntest.

Das Ausführungsmodel ist ähnlich, daher gibt es keine Probleme mit nVidia. Die Probleme entstehen auf der Software-Seite.
Was du gefunden hast, bezieht sich auch nur auf Pre-Pascal-Karten.
Sorry, aber deine Einzeiler kannst du dir echt sparen. Welche Probleme entstehen auf Software-Seite? Wenn Pascal zusätzliche compute queues eingeführt hat, warum gibts dann noch Probleme? Ist es der überragende AMD Treiber? :|

Hübie

2017-11-17, 22:13:29

@vrr bei hdmi 2.1
Ich vermute dass es optional ist. Richtig konsequent ist dieses Konsortium inder Vergangenheit nicht gewesen, wenn man sich anschaut, welche Geraete alle ein hdmi 2.0 Siegel bekommen haben. Anfangs sogar 4K mit nur 30hz oder 60hz mit 4:0:0 subsampling (also Bandbreite von hdmi 1.4). Auch hdcp 2.2 (was essentiell fuer den meisten 4k Content ist) war optional.

Exakt. Es wird nicht Pflicht sein. Eher Kür. NV wird sich auch weiterhin gegen Freesync (Async) sträuben, so lange das Patent von Petersen noch Bestand hat (iirc 10 Jahre).

:facepalm:
Keine Ahnung, was du mir sagen willst. Ich habe die Begriffe und Abläufe zweimal erklärt, damit eben nicht mehr alles ducheinander geworfen wird. Hilft anscheinend nichts. Der Compiler maskiert überhaupt nichts. Und ich bezweifle mal sehr stark, dass du mir über Compiler irgendetwas erzählen könntest.

Sorry, aber deine Einzeiler kannst du dir echt sparen. Welche Probleme entstehen auf Software-Seite? Wenn Pascal zusätzliche compute queues eingeführt hat, warum gibts dann noch Probleme? Ist es der überragende AMD Treiber? :|

Oh ich kläre dich mal kurz auf: Mit manchen Usern einfach nicht über NVIDIA / AMD diskutieren. Er ist einer davon. :smile: Was er mit seinen Ausführungen da erzählt ist so dieses "Marketing-Halbwissen".

gravitationsfeld

2017-11-17, 22:54:40

Welches Patent?

Hübie

2017-11-17, 23:38:39

Das Patent auf G-Sync. Müsste jetzt selber nachschauen, was er da alles drin hat. Petersen hat da ja mehr als nur das eine inne. Die Idee vom variablen refresh intervall ist ja nicht neu, aber G-Sync macht da wohl einiges anders, was patentfähig ist.

Edit: Via google hab ich das gefunden (entspricht dem was ich damals als Info erhalten hatte):

https://patents.justia.com/patent/8866833

Troyan

2017-11-17, 23:38:42

:facepalm:
Keine Ahnung, was du mir sagen willst. Ich habe die Begriffe und Abläufe zweimal erklärt, damit eben nicht mehr alles ducheinander geworfen wird. Hilft anscheinend nichts. Der Compiler maskiert überhaupt nichts. Und ich bezweifle mal sehr stark, dass du mir über Compiler irgendetwas erzählen könntest.

nVidia hat sich ziemlich klar zu dem Thema geäußert - Seite 10: https://www.nvidia.com/content/PDF/kepler/NVIDIA-Kepler-GK110-Architecture-Whitepaper.pdf

So ja, der "Compiler" maskiert die entsprechenden Anweisungen und der vereinfachte Hardwareblock ist in der Lage basierend darauf das Scheduling der Warps zu beeinflussen.

Sorry, aber deine Einzeiler kannst du dir echt sparen. Welche Probleme entstehen auf Software-Seite? Wenn Pascal zusätzliche compute queues eingeführt hat, warum gibts dann noch Probleme? Ist es der überragende AMD Treiber? :|

Du fragst jetzt nicht wirklich, wieso Entwickler Probleme haben den nVidia-Treiber zu schlagen? :|
Es gibt keine Probleme auf nVidia-Seite. Selbst Async Compute Tests, die vor Pascal geschrieben worden sind, laufen problemlos.

Halten wir es einfach mit Ockhams Rasiermesser und nehmen die einfachste Erklärung: Die Software ist schuld.

Das hat auch alles nichts mehr mit Ampere zu tun.

danarcho

2017-11-18, 01:32:29

nVidia hat sich ziemlich klar zu dem Thema geäußert - Seite 10: https://www.nvidia.com/content/PDF/kepler/NVIDIA-Kepler-GK110-Architecture-Whitepaper.pdf

So ja, der "Compiler" maskiert die entsprechenden Anweisungen und der vereinfachte Hardwareblock ist in der Lage basierend darauf das Scheduling der Warps zu beeinflussen.
Du missverstehst, was hier maskiert wird:
uses it to mask out warps from eligibility
die warps werden nicht vom compiler maskiert, sondern von der gpu. die benutzen dafür jetzt einfach nur latency information in der isa anstatt dynamische hazard detection zu machen.
Jetzt verstehe ich immerhin, woher dein Missverständnis kommt

Du fragst jetzt nicht wirklich, wieso Entwickler Probleme haben den nVidia-Treiber zu schlagen? :|
Es gibt keine Probleme auf nVidia-Seite. Selbst Async Compute Tests, die vor Pascal geschrieben worden sind, laufen problemlos.

Halten wir es einfach mit Ockhams Rasiermesser und nehmen die einfachste Erklärung: Die Software ist schuld.

Das hat auch alles nichts mehr mit Ampere zu tun.
Doch, da es darum ging, ob Ampere mehr auf DX12 und Vulkan ausgelegt sein könnte. Und tut mir Leid dir das zu sagen, aber deine heilige, grüne Kuh kackt die gleichen Fladen wie alle anderen.

gravitationsfeld

2017-11-18, 03:30:17

Eine Wavefront läuft auf nur einer SIMD unit. Entsprechend braucht man mindestens 4 um für die 4 SIMD units was zu haben. (Das gilt für den Fall, dass man nur simple operationen ausführt ohne speicherzugriffe etc.). Aber max 40 Wavefronts, stimmt.
Was ich meinte war dass Occupancy 1 reicht um die GPU in der Theorie voll zu bekommen, so lange man keine Speicherlatenzen etc. hat.

Ja, das sind dann vier Wavefronts pro CU. Wenn man natuerlich einen Kernel hat, der tatsaechlich nur eine einzige Wavefront hat, dann hat man ganz andere Probleme :)

Wir verstehen uns.

=Floi=

2017-11-18, 04:39:01

Warum?

bei meinem post geht es um DP 1.4
lies hald einfach den link :facepalm:

Die einzige neuerung ist nicht mehr bandbreite sondern die verlustbehaftete kompression und da brauche ich kein 8k, wenn ich das bild schlechter mache und dann hochskaliere. :freak:

scully1234

2017-11-18, 06:12:34

Die einzige neuerung ist nicht mehr bandbreite sondern die verlustbehaftete kompression und da brauche ich kein 8k, wenn ich das bild schlechter mache und dann hochskaliere. :freak:

Bei DSC handelt es sich um eine verlustbehaftete Enkodierungstechnik mit bis zu dreifacher Kompressionsrate. Eine Beeinträchtigung der Ausgabequalität soll damit jedoch nicht verbunden sein

Ja und was ist daran jetzt verkehrt?

Gerade bezogen auf ein VR System, was idealerweiße 2x4k liefern soll, vorzugsweiße in 5G oder WLAN ad Modul auch noch dratlos über solche Anschlussports

Vielleicht auch mal über den Tellerrand blicken, was die neuen Featuresets nebenbei noch dazu beitragen könnten...

Es steht auch klar dabei was neben den Audio Extensions noch für Anwendungsfälle gibt in der Zukunft Für 4K UHD (3.840 × 2.160 Pixel) 10 Bit HDR können Bildwiederholungsraten bis 120 Hz erreicht werden, was für 3D Wiedergabe einmal relevant werden könnte

Cameron plant Avatar 2 z.B wieder in 3d in 4k...

Also wieso soll da DP1.4 nun sinnlos sein?

pixeljetstream

2017-11-18, 07:21:31

Du missverstehst, was hier maskiert wird:

die warps werden nicht vom compiler maskiert, sondern von der gpu. die benutzen dafür jetzt einfach nur latency information in der isa anstatt dynamische hazard detection zu machen.

Zumindest für mich klang es so als meint ihr beide in dem Zusammenhang das gleiche. Latency information in Isa == compiler Maskierung (unglücklicher Begriff) wann was ausgeführt werden darf. Ihr beide sprecht von Hardware die diese Information nutzt um die letzte Entscheidung zu treffen.

BlacKi

2017-11-18, 13:54:57

bisher bin ich davon ausgegangen das die neuen karte wieder einen ordentlichen price drop erzeugen werden.

aber wenn man die gesenkten listen preise der 1070/Ti beobachtet hat, kommt der gedanke auf dass das nicht unbedingt so kommen muss. es ist scheinbar egal was die hersteller verlangen, im markt sind andere preise angesagt. selbst wenn der GA104 für 400$/600$ laut listenpreis kommen sollte, werden letztendlich andere summen verlangt werden.

irgendwie hab ich so ne vermutung, das der GA104 fullchip ca. 900€ und salvage ca 600€ kosten wird...

Hübie

2017-11-18, 15:01:59

NVIDIA's Strategie ist zumindest seit Kepler, die Preispunkte mit mehr Performance zu besetzen, aber das Niveau konstant zu halten. GTX 780 Ti 699 $ MSRP, 980 Ti 799$ und GTX 1080 Ti 699$. Ich erwarte da also für die Amperé-Generation 699-799 $ bei 30-40% mehr Leistung. Dies würde endlich vollständige 4k-Tauglichkeit bedeuten.

BlacKi

2017-11-18, 15:06:44

jaber was interssiert der listenpreis auf der straße. darum ging es mir doch, siehe 1070. mittlerweile ist die karte im listenpreis drastisch gefallen, jedoch ohne auswirkung für den straßenpreis.

Hübie

2017-11-18, 15:56:24

Echt? Ist der Listenpreis gefallen? Hab ich gar nicht mitbekommen. Es gibt ja die Produzenten- und Konsumentenrente. Da wird halt abgeschöpft bis der Markt es nicht mehr her gibt.

BlacKi

2017-11-18, 16:01:44

bei der 1070 war der msrp preis zuerst 379$, dann 349$, vor kurzem 329$, dabei kostete bei uns die 1070 die ganze zeit durchgehend 390-450€.

edit: sry, offiziell ist die letzte msrp preissenkung nicht, aber der preis der FE ist bereits 2mal gerutscht. deshalb gingen einige davon aus das der neue msrp preis ebenfalls ein weiteres mal rutscht und dann bei 329$ liegt.

AffenJack

2017-11-18, 16:15:51

bei der 1070 war der msrp preis zuerst 379$, dann 349$, vor kurzem 329$, dabei kostete bei uns die 1070 die ganze zeit durchgehend 390-450€.

Nö, er war und ist 379$. Es haben bloß ab und zu Seiten kurzfristige Angebote bei irgendwelchen Verkäufern als Preissenkung angesehen und dazu Artikel geschrieben, die mit der Wahrheit aber wohl nix am Hut hatten.

Hübie

2017-11-18, 16:57:19

Wie gesagt: Konsumentenrente. Das ist die Differenz aus Gleichgewichtspreis und dem Mehrpreis die ein Kunde bereit ist mehr zu bezahlen. Hat hier eigentlich auch nicht wirklich was mit dem Thema zu tun und ich sehe obendrein keine Preissenkungen bei jeglicher Hardware...

matty2580

2017-11-19, 01:08:26

Ich erwarte da also für die Amperé-Generation 699-799 $ bei 30-40% mehr Leistung.
Genau davon gehe ich auch aus bei Ampere.
Das ist die übliche Leistungssteigerung bei Nvidia beim Wechsel jeder Gen in den letzten Jahren.

Wobei mich eher der GA 106 interessiert. Da sollte es fast 1080 Leistung geben, für deutlich weniger Geld. Und trotz schlechten Eurokurs und (verrückten) Minern kommt dann endlich nach über 4 Jahren mehr Leistung in der Preisklasse um ~300€ an. Pascall war mir bei der 1060/1070 einfach zu teuer bis jetzt, und die 1080(ti) sowieso. Langsam bin ich es aber auch leid ewig zu warten. Ampere sollte ordentlich rein hauen, wie Maxwell und Pascall. Und es wird auch langsam Zeit, nach über 4 Jahren, dass endlich mehr Leistung in der (preislichen) Mittelklasse ankommt.

Und dabei ist es mir auch völlig egal ob der Eurokurs oder die Miner "Schuld" an den hohen Preisen hatten, oder angeblich mangelnde Konkurrenz durch AMD.
Polaris 10 und GM 204 konkurrieren von der Leistung her direkt mit dem GP 106 und Hawaii.
Alles über 400€, auch fast 1 1/2 jahre lang bei der 1070, sind für mich keine Mittelklasse mehr sondern eher Oberklasse.
320 - 340€ lasse ich mir für ein halbwegs gutes Custom-Design (incl. Versand) noch gefallen.
Auch wenn es lächerlich ist, dass der (kleine) Chip früher bei Nvidia deutlich günstiger war. :(

p.s. Noch zu Fermi-Zeiten war ich selbst High-End-Kunde, und habe ein gutes Custom-Design mit GF 110 für ~400€ gekauft. ^^
Aber Nvidia ist leider zu einem Live-Style-Produkt geworden, wie auch Apple, und da reicht mein Limit leider nicht mehr aus.
Wobei ich über 300€ heutzutage beim (kleinen) Chip auch nicht mehr als Schnäppchen ansehen würde. :(

Hübie

2017-11-19, 01:54:20

Man wird den Anfang mglw. mit der Performance-Klasse machen und die 1080 beerben. Also 350-500 $ (2070 & 2080) bei der Leistung einer 1080 Ti. Spannend wird's eh eher auf der Feature-Seite als in der Performancebetrachtung. Was wird man dieses Mal einbauen?

matty2580

2017-11-19, 02:03:30

Ich gehe bei Ampere von einem deutlich moderneren Featureset aus, also dass DX 12 komplett unterstützt wird, HDMI, u,s,w, und natürlich rein auf Gaming optimierte Chips.

Deshalb hat man sich wahrscheinlich auch für einen neuen Namen bei Nvidia entschieden, Ampere, um den Unterschied zu Pascall zu verdeutlichen.

So langsam, aber sicher, mache ich mir dabei um AMD Sorgen. Sie verlieren ja immer mehr den Anschluss. Was soll AMD denn 2018 Ampere entgegen stellen? Navi ist frühestens 2019 in 7nm verfügbar. Die Lücke zwischen Nvidia und AMD wird (leider) immer größer... ;(

p.s. Wobei ich hier nicht Nvidia die "Schuld" gebe. Alle 2 Jahre neue Chips ist eher Schneckentempo. Sie lassen also AMD immer genug Zeit zu reagieren seit vielen Jahren. Umgedreht kann ich auch AMD verstehen, dass sie ALLE Ressourcen der letzen Jahre in ZEN gesteckt haben. Aber jetzt haben wir damit die einzigste Konkurrenz im GPU-Bereich verloren...:(

Hübie

2017-11-19, 02:15:49

Ich kann mir gut vorstellen dass man code reuse erhöht, compression weiter ausbaut und vielleicht noch irgendein nettes checklist-feature. Diese perspektivische Korrektur für VR bei Pascal macht GeForce auch einzigartig für VR (AMD hat sowas vielleicht auch, aber erwähnt wurde da nix).
Nach aktuellem Stand hinken die 1,5 Jahre zurück - Tendenz steigend. NVIDIA ist ziemlich allein auf weiter Flur. Gilt auch für das CUDA-Ökosystem.

matty2580

2017-11-19, 02:20:48

Nach aktuellem Stand hinken die 1,5 Jahre zurück - Tendenz steigend. NVIDIA ist ziemlich allein auf weiter Flur. Gilt auch für das CUDA-Ökosystem.
Früher habe ich immer nur AMD/ATI gekauft, da kam für mich Nvidia nie in Frage.

Und selbst heute "verzeihe" ich ihnen nicht, was sie mit 3dfx gemacht haben.
Das war kein Turbokapitalismus, sondern eher wie bei Darwin im Reich der wilden Tiere. ^^

Egal, mit etwas Hoffnung steigt Intel mit in den Markt ein.
Selbst die größten Nvidia- oder AMD-Fans werden sich über mehr Konkurrenz freuen, endlich wieder nach so vielen Jahren. ^^

p.s. matty braucht ein Nickerchen, gn8 Hübie, schlafe gut. ^^

Hübie

2017-11-19, 02:30:23

Habe bis zur 4000er-Serie auch nur ATi/AMD gekauft, aber dann wollte ich mehr Performance und die gibt es eben nur bei den Grünen. Wenn ich so sehe dass meine über zwei Jahre alte Lady es mit der 1070 Ti jederzeit aufnimmt... alles richtig gemacht. Fiji schwankt stark in der Performance und wird mittlerweile nicht mehr optimiert. Maxwell läuft jetzt aber auch aus und erhält sicher keine Performanceoptimierungen mehr explizit.
Mal Ampere abwarten und bewerten.

BlacKi

2017-11-19, 02:34:20

Genau davon gehe ich auch aus bei Ampere.
Das ist die übliche Leistungssteigerung bei Nvidia beim Wechsel jeder Gen in den letzten Jahren.

Wobei mich eher der GA 106 interessiert. Da sollte es fast 1080 Leistung geben, für deutlich weniger Geld.
30-40% werden dafür aber nicht reichen. um die 1080 zu kassieren braucht GA106 65% mehr performance ggü. des GP106. ich dagegen halte 50-60% für realistisch, auch wenn dafür die chip größe und tdp steigen muss.

Hübie

2017-11-19, 02:40:13

960 & 1060 haben beide 120 Watt. Kann mir nur schwer vorstellen, dass man die erhöht / erhöhen muss.
Wie gesagt hat man im Geflüster gehört, dass Perf/W noch mal massiv ansteigen soll.

matty2580

2017-11-19, 02:40:17

Ich schrieb ja auch von "fast" 1080-Leistung.
Ampere ist wirklich schwer einzuschätzen für mich, wobei ich seit über 20 Jahren beim PC dabei bin, und auch sehr lange hier im Forum (schreibe selten hier, und lese auch länger mit als angemeldet ^^).

Ich traue mir einfach nicht zu Ampere einzuschätzen. Leider gibt es ja auch keine Leaks mehr wie früher BlacKi. :(
Aber 50-60% wären auch möglich. Hast du schon Maxwell vergessen? ^^ Trotz gleicher Fertigung hat Nvidia da ordentlich zugelegt.
Pascall hatte nicht wirklich nicht viele Änderungen gegenüber Maxwell. Denkst du ernsthaft Nvidia schläft seit über 5 Jahren? ^^
Ich befürchte das Ampere einen größeren Sprung macht, größer als vielen AMD-Fans lieb ist (auch mir).;(
Und das Schlimme dabei ist, dass sie im Schneckentempo weiter entwickeln, seit sie 3dfx gefressen haben, und AMD IMMER genug Zeit gelassen haben zu reagieren...

p.s. jetzt aber wirklich gn8 ihr beiden, und schlaft gut. Es ist schon 02:50 Uhr ihr Verrückten.:P

@horn 12: Lasse mich bitte mit Wundertreibern in Ruhe. Da glaube ich eher lieber an den Weihnachtsmann oder den Osterhasen....

horn 12

2017-11-19, 02:50:41

@Matty2580

Sofern NV die GTX 2070 nur in etwa zwischen GTX 1080 und GTX 1080TI landen kann, die 2080 ca. 1080TI Performance ist AMD noch sehr gut mit drinn.
Bis dahin sind AMD Treiber gereift, alle Features freiggeschaltet und Preislich unter 400 / 500 Euro.
Ist zwar das Top Produkt von AMD aber eben doch nicht viel langsamer als die Neuen NV Produkte,- da sich der Spielraum von Monat zu Monat verringern sollte.
Da muss wohl GTX 2080TI her um die AMD Karte in Schwierigkeiten zu bringen (GTX 1080TI plus 30%)

Leonidas

2017-11-19, 04:23:02

Screemer

2017-11-19, 07:40:03

pixeljetstream

2017-11-19, 10:45:57

Alternative Asynchronous Reprojection Und asynchronous Spacewarp kann natürlich auch amd. Das sind übrigens keine Features der gpu-Hersteller sondern Teil des jeweiligen vr-sdk.
Diese sdks nutzen aber gpu Hardware Feature um das umzusetzen. Z.b sowas wie high priority context, um das asynchrone auch ordentlich zu realisieren.
Siehe vrworks for headset developers: https://developer.nvidia.com/vrworks

BlacKi

2017-11-19, 11:00:17

Sicherlich besteht das grundsätzliche Ziel von nVidia darin, mit einer 2060 die 1080 leicht zu schlagen sowie mit einer 2080 die 1080Ti sichtbar zu überrunden. In ersterem Fall braucht man ausgehend von den Pascal-Chips hierfür +60%, in zweiterem Fall reichen +40%.

Erreichbar wäre dies normalerweise nur durch einen Fullnode auf ähnlichen Chipflächen - oder halt sehr deutlich hochgezogene Chipflächen. Den Effizienzsprung von Maxwell sollte man allerdings nicht nochmals erwarten, hierbei hat nVidia erstmals ein echtes Hochtaktdesign gebracht - das gibt es nur einmal bzw. nicht mehr so schnell hintereinander.
um die perfekte abstufung zwischen den produkten zu bekommen, wie bei pascal, sind auch bei der 2080 die 50-60% nötig. auch aus dem grund, weil man keine 1080ti käufer mit 10% perf. increase zum wechseln bewegt.

sowohl bei maxwell als auch bei ampere wird man wohl die chipfläche deutlich erhöhen müssen, aber dank besserer per/watt auch können.

ausserdem gilt das NVIDIAnische gesetzt: CA. 60% zur alten chip generation. welches seit fermi ungebrochen ist.

pixeljetstream

2017-11-19, 11:09:53

sind auch bei der 2080

Wieso schreiben eigentlich alle 2080 und nicht 1180? Marketing ist natürlich jeder Code zuzutrauen, aber macht doch erstmal Sinn einfach weiterzuzählen.

HOT

2017-11-19, 11:36:20

Nein macht es nicht. Die nächste Gen ist 2xxx oder 3xxx.

Hübie

2017-11-19, 11:47:52

Wieso schreiben eigentlich alle 2080 und nicht 1180? Marketing ist natürlich jeder Code zuzutrauen, aber macht doch erstmal Sinn einfach weiterzuzählen.

Haha. Genau darüber hatte ich gestern beim Verfassen des Beitrags nachgedacht. Aber mit Sinn oder Logik braucht man da gar nicht anfangen. Wo war die 300er und 800er Serie? Ist 1000 nun die Serie oder addieren wir weiterhin 100 dazu? Ich hasse es über Namen zu schwadronieren weil - egal welcher IHV - da nur Schrott bei heraus kommen kann. :D

@BlacKi: 60%? Woher? 980<->1080 war iirc so aber 980 Ti <-> 1080 Ti 45%. Es hängt auch stark vom Takt ab. Kepler und Maxwell waren ziemlich weit unterhalb des möglichen geblieben. Fermi ebenfalls. Maxwell war fast durchgängig mit 25% OC ohne Probleme zu betreiben. Meine beiden 770er gingen über 1300 ohne Knurren. Meine Fermis locker 950 MHz. Pascal boostet dagegen schon so gut, dass man eigentlich nur gut kühlen muss. Die erste Gen die ich seit 2011 auslasse...

maximus_hertus

2017-11-19, 11:54:54

Sicherlich besteht das grundsätzliche Ziel von nVidia darin, mit einer 2060 die 1080 leicht zu schlagen sowie mit einer 2080 die 1080Ti sichtbar zu überrunden. In ersterem Fall braucht man ausgehend von den Pascal-Chips hierfür +60%, in zweiterem Fall reichen +40%.

Erreichbar wäre dies normalerweise nur durch einen Fullnode auf ähnlichen Chipflächen - oder halt sehr deutlich hochgezogene Chipflächen. Den Effizienzsprung von Maxwell sollte man allerdings nicht nochmals erwarten, hierbei hat nVidia erstmals ein echtes Hochtaktdesign gebracht - das gibt es nur einmal bzw. nicht mehr so schnell hintereinander.

660 schlägt nicht die 580.
960 schlägt nicht die 780.
1060 schlägt nicht die 980.

IdR landet man grob bei der Vorgänger 70er bzw. zwischen der 70er und 80er Karte.

+40% für eine 2080 wären zu wenig. Man würde gerade so bei rund +5-7% vor einer Founder 1080 Ti landen. Mittlerweile werden jedoch immer häufiger Custom Modelle in den Ranglisten mit aufgenommen, diese liegen gegenüber der 1080 Founder jedoch mit ~45-50% vorne.

Die 680, 980 und 1080 hatten immer einen ziemlich großen Vorsprung auf die Referenz 580, 780 Ti, 980 Ti, so dass selbst Custom OC Karten knapp geschlagen werden konnten. Bei +40% zur 1080 würde das nicht reichen.

BlacKi

2017-11-19, 11:56:56

@BlacKi: 60%? Woher? 980<->1080 war iirc so aber 980 Ti <-> 1080 Ti 45%. Es hängt auch stark vom Takt ab. Kepler und Maxwell waren ziemlich weit unterhalb des möglichen geblieben. Fermi ebenfalls. Maxwell war fast durchgängig mit 25% OC ohne Probleme zu betreiben. Meine beiden 770er gingen über 1300 ohne Knurren. Meine Fermis locker 950 MHz. Pascal boostet dagegen schon so gut, dass man eigentlich nur gut kühlen muss. Die erste Gen die ich seit 2011 auslasse...
GxX04 hat jede generation 60% draufgellegt, auch pascal. und zwar so präzise, das man eigentlich annehmen muss, das ampere 60% ebenfalls drauflegt, whatever it takes.

maximus_hertus

2017-11-19, 12:04:58

@BlacKi: 60%? Woher? 980<->1080 war iirc so aber 980 Ti <-> 1080 Ti 45%.

Nein. 980 Ti => 1080 Ti sind +75%!

Siehe 3DC-Launch Analyse (thx an Leo, klasse Übersichten!): http://www.3dcenter.org/artikel/launch-analyse-nvidia-geforce-gtx-1080-ti/launch-analyse-nvidia-geforce-gtx-1080-ti-seite-3

Die besten Custom 980 Ti mit perfektem Boost schaffen es gerade so den Vorsprung der Referenz 1080 Ti auf knapp 50% zu drücken. Aber dann gibt es ja auch die 1080 Ti Customs ;)

basix

2017-11-19, 13:11:44

4k sind es definitiv gegen 75% beim Referenzdesign. 1440p ca. +2/3.

w0mbat

2017-11-19, 13:19:28

Und wenn der 980Ti die 6GB VRAM ausgehen sind es noch mehr. Denkt ihr eine eventuelle GTX 2080 könnte schon mit 16GB kommen? Oder wieder "nur" 8GB, oder vielleicht 12GB?

horn 12

2017-11-19, 13:30:49

Wohl mit 12 GB und nicht unter 600 bis 650 Euro
Da dann AMD stark sein wird,- nicht leicht für die kommende GTX 2080
Letztere GTX 2080 Könnte in etwa auf GTX 1080TI +5-10% Performance liegen.

Warum hat NV wohl den Namen Volta geändert.
Ich sage nur: ----> Poor Volta

Ist vielleicht doch mehr dahinter als man vorab dachte.

BlacKi

2017-11-19, 14:19:08

Und wenn der 980Ti die 6GB VRAM ausgehen sind es noch mehr. Denkt ihr eine eventuelole GTX 2080 könnte schon mit 16GB kommen? Oder wieder "nur" 8GB, oder vielleicht 12GB?
16gb, weil ich nicht an ein 192bit SI glaube zudem ist es tradition die speichermenge mit jeder gen zu verdoppeln.

Linmoum

2017-11-19, 14:26:45

Und wie viel gibt man dann einer Titan X/TI, wenn es schon bei der XX70/XX80 16GB sein sollten?

Die werden weniger bekommen.

horn 12

2017-11-19, 14:27:36

16 GB wird wohl Titan Zx oder GTX 2080 TI erhalten.

BlacKi

2017-11-19, 14:35:11

24gb

8gb werden jetzt schon voll gemacht und in einem halben jahr sieht es nicht besser aus. wie sollen denn 12gb für 2 weitere jahre reichen? IMO müssen 16gb her für GA104.

HOT

2017-11-19, 16:50:29

Samsung produziert 16Gbit-Chips, daher wird GA104 wohl bei 256Bit 16GB anbinden und GA102 vielleicht 22GB. Die Titan Xa wird sicherlich volle 24GB erhalten.

AffenJack

2017-11-19, 17:44:53

24gb

8gb werden jetzt schon voll gemacht und in einem halben jahr sieht es nicht besser aus. wie sollen denn 12gb für 2 weitere jahre reichen? IMO müssen 16gb her für GA104.

Nur Samsung hat 2Gb Speicherchips angekündigt, Hynix und Micron dagegen 1 Gb. Da würde ich also eher nur bei der Titan mit einer Verdopplung rechnen.

wolik

2017-11-19, 17:55:54

Samsung produziert 16Gbit-Chips, daher wird GA104 wohl bei 256Bit 16GB anbinden und GA102 vielleicht 22GB. Die Titan Xa wird sicherlich volle 24GB erhalten.
Kann sein das ist unsere Wunschdenken ? ( Ich war sehr frustriert wo das nächste Titan (P) nur mit 12Gb rauskam) Aber, leider, NV sind nicht mehr "Computerpionier" und wenn Konkurrenz so gut wie gar keine gibts ... Wieso soll mann 12Gb user "verschenken" ? (Titan Xa 24Gb angenommen) 12Gb reicht doch Heute für alles (sarkasmus) :freak: SLI ist so gut wie Tod. Und mit SLI 8K auch gestorben. Oder VR 4K/90Fps...

BlacKi

2017-11-19, 18:17:24

Nur Samsung hat 2Gb Speicherchips angekündigt, Hynix und Micron dagegen 1 Gb. Da würde ich also eher nur bei der Titan mit einer Verdopplung rechnen.
vl kommt nur die 2080 mit 16gb und die 2070 an 192bit SI mit 12gb. man darf doch nicht stand jetzt sehen, sondern die 2080 muss bis zum nachfolger mit der speichermenge klarkommen. 8gb bis 2020 sind definitiv zu wenig.

basix

2017-11-19, 18:32:29

Ich denke es wird bei 8 & 12 GByte bleiben. Titan Xa dann mit 24 GB. Mehr wäre schön, aber wie schon angemerkt: Nvidia wird ohne grösseren Konkurrenzdruck nicht VRAM verschenken. Die höheren Speichermengen werden meiner Meinung nach erst bei der Nachfolgegeneration kommen. z.B. Gy104 dann mit 384 Bit SI und 12GB, Gy102 mit HBM2 und 16GB. Titan Xy mit 32GB.

Der_Korken

2017-11-19, 18:33:33

Wenn Nvidia eine ähnliche Speicherarchitektur wie AMD bei Vega verwendet und geschicktes Paging betreibt, reichen vielleicht auch 8GB bei der 2080. Raja hat bei der ersten Vorstellung behauptet, dass Spiele eigentlich nur ca. 50% ihres allokierten Speichers wirklich nutzen, d.h. 8GB mit Paging wären mit 16GB realem Speicher vergleichbar.

AffenJack

2017-11-19, 18:42:41

vl kommt nur die 2080 mit 16gb und die 2070 an 192bit SI mit 12gb. man darf doch nicht stand jetzt sehen, sondern die 2080 muss bis zum nachfolger mit der speichermenge klarkommen. 8gb bis 2020 sind definitiv zu wenig.

Nun da stimme ich dir zu, nur glaube ich nicht, dass wir bis 2020 warten müssen auf die nächste Gen. Nvidia wird AMD bestimmt nicht 1 Jahr lang 7nm Chips fertigen lassen, bevor sie selber auf 7nm kommen. GM200 hatte auch nur eine kurze Lebenszeit und genauso eine Übergangsgen erwarte ich mit Ampere auch. Neue Architektur in 12nm, da der Node viel günstiger als 10nm ist und dann mit 7nm ein schneller shrink, eben wie bei Maxwell/Pascal. Verdopplung des Rams dann 2019.

Aber selbst wenn die Gen 2 Jahre bleibt sind 8 und 12GB viel wahrscheinlicher. 2018 8Gb GA104 und 2019 mit 16Gb refreshen.

Thunder99

2017-11-19, 21:00:32

Ich denke dennoch eher >8GB aber <16GB. Außerdem sind ja krumme Speicherbestückungen möglich. seit GDDR5X

Kartenlehrling

2017-11-19, 22:26:03

Mancko

2017-11-19, 23:01:05

Hübie

2017-11-19, 23:14:06

https://www.pcper.com/news/General-Tech/NVIDIA-Discontinues-Mental-Ray-One-Year-After-Relaunch
NVIDIA Discontinues Mental Ray One Year After Relaunch

http://images.nvidia.com/content/technologies/advanced-rendering/images/mental-ray/perfchart-mentalray-pascal-performance-large.jpg
Wieso gibt man es auf wenn es so stark war?

Wahrscheinlich weil man nur eine Lösung anbieten will...?

Nein. 980 Ti => 1080 Ti sind +75%!

Siehe 3DC-Launch Analyse (thx an Leo, klasse Übersichten!): http://www.3dcenter.org/artikel/launch-analyse-nvidia-geforce-gtx-1080-ti/launch-analyse-nvidia-geforce-gtx-1080-ti-seite-3

Die besten Custom 980 Ti mit perfektem Boost schaffen es gerade so den Vorsprung der Referenz 1080 Ti auf knapp 50% zu drücken. Aber dann gibt es ja auch die 1080 Ti Customs ;)

Ich stütze mich dabei auf einige Aussagen im Luxx von Umsteigern. Deren Karten waren auch TXM oder 980 Ti @1450-1500 MHz was so ziemlich meiner entspricht. Die berichten mit OC 1080 Ti von 45% Leistungssteigerung. Das ist für mich praktischer als die Benchmarks der Seiten sie stets auf Vergleichbarkeit achten müssen. Ich schaue mir meinen konkreten Fall an. Glaube jede GM200 schafft 1400/3800 und mehr.

Wohl mit 12 GB und nicht unter 600 bis 650 Euro
Da dann AMD stark sein wird,- nicht leicht für die kommende GTX 2080
Letztere GTX 2080 Könnte in etwa auf GTX 1080TI +5-10% Performance liegen.

Warum hat NV wohl den Namen Volta geändert.
Ich sage nur: ----> Poor Volta

Ist vielleicht doch mehr dahinter als man vorab dachte.

Red kein Blech. Kaufst dir eh keine also was interessiert es dich? :| Poor Vega. Das kann man so stehen lassen (bezieht sich auf das gesamte Bild von Vega: Start, Produkt und Pflege). Wenn eine 1080 Ti schon Kreise um Vega zieht, wie kommst du dann darauf dass der Nachfolger "poor" ist?

Edit: Mancko war schneller.

robbitop

2017-11-20, 03:54:34

Wieso? Volta wurde (fuer gaming) gacancelt. Poor Volta. :D
Ne mal im Ernst: Kindergarten sich an einer ganz offensichtlich spassig gemeinten Frotzelei monatelang aufzuhaengen.

Leonidas

2017-11-20, 06:09:29

660 schlägt nicht die 580.
960 schlägt nicht die 780.
1060 schlägt nicht die 980.

Sehe ich leicht anders.

> 660 schlägt nicht die 580.
-> Korrrekt. Kommt aber schon ganz gut ran. 250% zu 280% Perf.Index. Außerdem hat NV hierfür zur Verschleierung noch die 660Ti (280%) aufgelegt. Zielvorgabe erfüllt, wenn auch mit einem anderen Chip. Mission am Ende doch erfüllt.

> 960 schlägt nicht die 780.
-> Falscher Vergleich. 780 ist auch noch GK110. 960 gegen 770 wäre korrekter Vergleich. Geht knapp in Richtung 770 (380%) gegen die 960 (340%), aber der Abstand ist auch wieder nicht so groß. Aber okay: Mission knapp nicht erfüllt.

> 1060 schlägt nicht die 980.
-> Schlägt nicht, aber kommt hin. Die Differenz ist minimal (590% zu 600%), die höhere Speichermenge und der Neuheitswert sprechen klar für die 1060. Mission 1a erfüllt.

matty2580

2017-11-20, 09:23:21

Hübie

2017-11-20, 09:44:26

Das mit dem Preis glaub ich dir nicht. :D

HOT

2017-11-20, 10:20:26

Sehe ich leicht anders.

> 660 schlägt nicht die 580.
-> Korrrekt. Kommt aber schon ganz gut ran. 250% zu 280% Perf.Index. Außerdem hat NV hierfür zur Verschleierung noch die 660Ti (280%) aufgelegt. Zielvorgabe erfüllt, wenn auch mit einem anderen Chip. Mission am Ende doch erfüllt.

Trotz Fertigungssprung Ziel nicht erreicht

> 960 schlägt nicht die 780.
-> Falscher Vergleich. 780 ist auch noch GK110. 960 gegen 770 wäre korrekter Vergleich. Geht knapp in Richtung 770 (380%) gegen die 960 (340%), aber der Abstand ist auch wieder nicht so groß. Aber okay: Mission knapp nicht erfüllt.

Kein Fertigungssprung, Ziel nicht erreicht, trotz Hochtaktoptimierung und trotz TBR.

> 1060 schlägt nicht die 980.
-> Schlägt nicht, aber kommt hin. Die Differenz ist minimal (590% zu 600%), die höhere Speichermenge und der Neuheitswert sprechen klar für die 1060. Mission 1a erfüllt.
recht großer Fertigungssprung (FF)...

Selbst mit einem möglichen Umstieg auf 10nm wird der Sprung nicht mehr so groß. Es wird mAn unter den Voraussetzungen diesmal nicht klappen, die 1080 zu erreichen mit nem GA106, erst recht nicht mit 12nm.
Ich nehme an, dass man eh erst mal nur den GA104 launchen wird und dessen Salvage wird sich 25-30% über der 1070Ti einsortieren, die 1080 und 1070 gehen mMn vorher schon EOL. Die 1070Ti ist das Optimum für den GP104, um ihn als ein Produkt weiterzuführen.

matty2580

2017-11-20, 10:34:21

Selbst mit einem möglichen Umstieg auf 10nm wird der Sprung nicht mehr so groß.
Wir wissen gar nichts über die Änderungen bei Ampere, ja noch nicht einmal den Fertigungsprozess.

In dem Kontext ist deine Darstellug einfach nur Quatsch.
Man kann also nur Vermutungen anstellen aus den Generationen davor.

Und wenn es so läuft wie bei Maxwell und Pascal, wird es erst zur GDC im März Infos von Nvidia zu Ampere geben. Bis dahin müssen wir uns dann (leider) halt gedulden.

Hübie

2017-11-20, 11:48:08

Der Nachfolger der 1080 ist wieder ein x80. ;D Daher mein Nicht-Glaube bzgl. des Preises. Die Besetzung der Performanceklasse mag eine hypotetische x60 sein.

scully1234

2017-11-20, 12:42:35

Der Nachfolger der 1080 ist wieder ein x80

Wie jetzt machen wir jetzt wieder römisch weiter?^^

Oder“ spekulatiustierst“ du nur rum:P

Thunder99

2017-11-20, 12:55:52

So, nun zurück zu den wirklich wichtigen Sachen:

Was wissen wir oder wird spekuliert von Ampere?
GDDR6 und schneller wie 1080Ti aber was noch?

Rancor

2017-11-20, 13:30:24

Wir "wissen" aktuell gar nichts über Ampere.

robbitop

2017-11-20, 13:52:42

Rancor

2017-11-20, 13:54:14

Solange die 70er an die Performance der 1080TI rankommt,+ LL optimierungen, soll es mir recht sein.

Timbaloo

2017-11-20, 14:32:04

Ich tippe auf eine Maxwellartige Situation. 12nm (Nur 5% shrink von 16nm - also praktisch gleicher Prozess) und ~25_30% mehr Flaeche der dice. Dazu etwas mehr Takt/Leistung pro Unit (imo nicht so krass wie bei mxw) und dazu gddr6. 50-60% mehr Performance jeweils zum Vorgaenger resultiert aus obigem Mix.
Sehe ich genauso. Es wird auf das Target hinentwickelt. Nicht auf mehr oder weniger fixe Die-Größen.

Und wer weiss, vielleicht kommt der nächste Gx102 gar nicht in 12nm, dann wäre ein GA104 mit >450mm^2 gar nicht mehr so schräg.

BlacKi

2017-11-20, 14:45:42

die kurzzeitige umbenennung oder weglassen vom namen volta auf Gen 4 lässt auf mehr hoffen als nur gaming volta. das wir bis märz warten sollen bis neue infos kommen stört mich schon ein wenig.

@Igor TH: wie schätzt du die kommende speichermengen ein die mit ampere kommen werden?

N0Thing

2017-11-20, 16:00:35

Ich gehe einmal davon aus, dass der Nachfolger der 1060 sehr dicht an die 1080 heran kommt, ähnlich wie beim Vergleich von Leo. Und selbst wenn die 1160/2060 etwas unter der 1080 ist, hat man immer noch dass modernere Featureset, und einen deutlich besseren Preis.

@Hübie: :P Irgendwas um die ~330€ für die 1160/2060 vs 500€ für die 1080.
Und jage mir keine Angst ein. Nicht das Nvidia dann auch noch den kleinen Chip für 500€ verkauft. :(

Man kann davon ausgehen, dass sich die Preise an der vorherigen Generation orientieren, d.h. eine 1180 würde $600 kosten. Sofern der Umrechnungskurs zum Dollar ähnlich bleibt, sind das dann ca. 600-650€ und die 1160 300-350€, jeweils für die Founders Editionen, das Konzept dürfte sich für Nvidia bewährt haben.

robbitop

2017-11-20, 16:08:16

12nm wurde imo zu sehr promotet und man hat mehrfach gelesen, dass 10 nm für größere Chips übersprungen wird. Deshalb tippe ich auf 12 nm. Dass Ampere jetzt nicht Volta heisst, lässt vermuten, dass man sich bei den Prämissen der mArchs für Compute und Gaming nun konsequenter ausrichtet. Für Xavier (learning/autonomouse driving soc für automotive) wurden ja 512 spa mit Volta genannt.

Das heisst keineswegs dass Ampere nur ein upgegradeter Pascal (widerum ein upgegradeter maxwell) ist. Möglich wäre es. Auch GPU marchs sind dem sinkenden Gesetz des Grenzertrags unterlegen und Pascal war schon ziemlich beeindruckend pro W/Transistor. Ein Upgrade muss nichts schlechtes heissen. GP106 hält mit nur 1280 sps (uA dank hohem Takt und sehr guter bandbreiteneffizienz) mit gm204 (2048 sps) mit.

Hübie

2017-11-20, 16:11:33

So, nun zurück zu den wirklich wichtigen Sachen:

Was wissen wir oder wird spekuliert von Ampere?
GDDR6 und schneller wie 1080Ti aber was noch?

Wir wissen dass NV an code reuse* und branch prediction forscht. Davon werden wir sicherlich was sehen. Dazu können wir davon ausgehen, dass es weitere Fortschritte bei der Perf/W geben wird die zumindest dem Anstieg von GP100 zu GV100 entsprechen wenn wir keine Tensor ops haben.

Wovon wir noch stark ausgehen können ist GDDR6. GDDR5X war der Wegbereiter, aber eher eine Interimslösung. Das Rätsel um den Prozess macht mir zwar auch Kopfzerbrechen, aber letzten Endes ist es bei Maxwell gut gegangen und ich sehe keinen Grund warum man 12 nm nicht auch bei Amperé ansetzen kann. 10 nm sind auch nicht unwahrscheinlich.

*Shadercodes haben eine recht hohe Wiederholbarkeit und müssen im Grunde nur eingelesen werden. Da lässt sich bestimmt noch was machen.

robbitop

2017-11-20, 16:29:54

Ist branch prediction für shader in Spielen so relevant? Zumindest war es vor einigen Jahren noch so dass das übelst Leistung gekostet hat und in Spielen praktisch nicht zum Einsatz kam.

Was den reuse des Shadercodes angeht - meinst du dass man bestimmte Ergebnisse dann aus einem buffer holt und nicht mehr berechnen muss, so dass es ALU Leistung spart? Oder wie muss man sich das vorstellen? Falls ja kann ich mir das nur schwer vorstellen, dass man 1:1 die gleichen Ergebnisse wiederverwenden kann. Oder geht es eher um Registerpressure und dessen Reduktion? Ich kann mir nicht so recht vorstellen was mit shader reuse konkret gemeint ist und was es komkret bei einem Spiel bringen kann und ob das so häufig funktioniert dass es einen Unterschied machen kann.

Allgemeine Erhöhung des Reuses und Reduktion des Bandbreitenbedarfes macht hingegen sofort Sinn für mich. Größere Caches und besseres prefetching/predicting -> höhere Hitrate -> geringerer Energie-/Bandbreitenbedarf. :)

gravitationsfeld

2017-11-20, 16:40:43

Branch Prediction ist auf GPUs sinnlos, weil man sowieso mehr als eine Threadgroup laufen hat. Die Latenzen werden einfach versteckt. Niemand wuerde die Energie dafuer verschwenden, da baut man lieber mehr Einheiten.

War deine Frage, ob Branches in Spielen zum Einsatz kommen? Ja, hunderte pro Pixel mit Clustered Shading. Solange es keine Divergenz gibt sind Spruenge auf GCN quasi umsonst, bei NVIDIA haben sie etwas mehr Overhead, weil es keine Skalar-Einheit gibt.

Hübie

2017-11-20, 17:03:55

Oh, ich glaube das kam falsch herüber, weil ich unten hinter dem Sternchen explizit was von shadercode geschrieben habe. Ich bezog meinen Text generell auf Operationen, nicht nur shadercodes - also hauptsächlich aufs scheduling und register-pressure. Beim shadercode erinnerte ich mich aber an einen slide wo gezeigt wurde wie oft ein shader neu eingelesen werden muss weil nicht genug buffer vorhanden ist (oder weil einfach keine Logik mit counter / lifetime sagt "lass den mal drin"), obwohl der schon in den vorangegangenen frames x mal benutzt wurde und entsprechend im buffer liegen könnte. Die Ergebnisse sind sicher immer andere. bzw. wandern ja kontinuierlich. Wobei es sicher Ergebnisse gibt die man wiederverwenden könnte (ähnlich geometric instancing, was ja nicht immer wieder das gleiche Objekt lädt sondern repliziert und im Raum platziert, wenn ich das richtig verstanden habe).

Beim Thema branch prediction wird es schwierig und hier plappere ich auch ehrlich gesagt nur nach was ich so aufgeschnappt habe. :redface: Generell muss man sich darunter aber etwas anderes vorstellen als bei einer CPU, da dies im Grunde schon auf kernel driver level statt findet und in instruction scheduler->dispatcher fortgesetzt wird. Ich denke da werden performance counter zurück gegeben und davon wird eben ne Liste geführt um statistisch zu erfassen welcher Block wann für neuen workload frei wird. Leider darf pixeljetstream wohl nicht viel (oder nichts?) darüber sagen, aber er kann evtl mehr erläutern was da reinspielt, wie das Prinzip auf GPUs eingesetzt und ob es überhaupt beim Gaming sinnvoll genutzt werden kann.
Ist HyperQ nicht auch schon so etwas in der Art? :|

danarcho

2017-11-20, 23:08:26

Beim Thema branch prediction wird es schwierig und hier plappere ich auch ehrlich gesagt nur nach was ich so aufgeschnappt habe. :redface: Generell muss man sich darunter aber etwas anderes vorstellen als bei einer CPU, da dies im Grunde schon auf kernel driver level statt findet und in instruction scheduler->dispatcher fortgesetzt wird. Ich denke da werden performance counter zurück gegeben und davon wird eben ne Liste geführt um statistisch zu erfassen welcher Block wann für neuen workload frei wird. Leider darf pixeljetstream wohl nicht viel (oder nichts?) darüber sagen, aber er kann evtl mehr erläutern was da reinspielt, wie das Prinzip auf GPUs eingesetzt und ob es überhaupt beim Gaming sinnvoll genutzt werden kann.
Ist HyperQ nicht auch schon so etwas in der Art? :|
Ich bin mir nicht sicher, worüber du redest, aber nach branch prediction klingt das für mich nicht. Ich weiß auch nicht, ob Nvidia an so etwas arbeitet, aber irgendwie bezweifle ich, dass es das auf GPUs gibt, da das nur mit speculation Sinn macht. Also wenn der Prozessor predicted, wohin ein branch geht, ist diese Information nur wertvoll, wenn er dann auch die entsprechenden Instruktionen spekulativ ausführt. Und bitte nicht immer instruction scheduling mit warp scheduling verwechseln :P

@gravitationsfeld:
Die Sprünge bei GCN werden auch nur auf der skalar Einheit ausgeführt, wenn klar ist, dass die Variablen skalare Integer sind, bei Float und non-uniforms hast du das gleiche Problem wie Nvidia. Aber auch hier werden nur die branches ausgeführt, für die mindestens ein thread/workitem true evaluiert. Daher ist das bei beiden Herstellern nicht "schlimm", solange der control flow uniform ist.

Hübie

2017-12-06, 18:43:47

Zwei Dinge:
1.) Welche Vorteile und welche Nachteile böte NVMM als buffer in Bezug auf code reuse mit spekulativer Basis?
2.) Auf der ISCA in Toronto gab es einen Talk über MCM-Module. Könnte Pascal bereits den Weg beschreiten oder ist es dann doch eher Einstein (oder wie auch immer der Volta-Nachfolger dann heißen mag)? Suchvorschlag für google: "MCM-GPU: Multi-Chip-Module GPUs for Continued Performance Scalability".

Ich weiß das kommt schon seit 2006 immer und immer wieder auf ;D

gravitationsfeld

2017-12-06, 18:56:58

Die Sprünge bei GCN werden auch nur auf der skalar Einheit ausgeführt, wenn klar ist, dass die Variablen skalare Integer sind, bei Float und non-uniforms hast du das gleiche Problem wie Nvidia. Aber auch hier werden nur die branches ausgeführt, für die mindestens ein thread/workitem true evaluiert. Daher ist das bei beiden Herstellern nicht "schlimm", solange der control flow uniform ist.
Nope. Die Skalar-Einheit arbeitet dafuer auf 64 bit integer masks. Die Vergleiche laufen auf VALU, aber sonst nichts.

danarcho

2017-12-07, 13:54:57

Nope. Die Skalar-Einheit arbeitet dafuer auf 64 bit integer masks. Die Vergleiche laufen auf VALU, aber sonst nichts.
Mein Fehler: Ich meinte die Vergleiche. Der Overhead besteht ja aus Vergleich und Sprung (+latency). Wir sind uns ja einig :)

@Hübie
NVMM hat doch eine höhere Latenz als RAM. Worauf beziehst du dich genau?
zu 2) Multi-Chip-Module wären (technisch) ein ziemlich Knaller. Kann ich mir so kurzfristig aber kaum vorstellen.

Hübie

2017-12-07, 14:21:51

Deshalb ja die Frage nach NVMM :) Hat Tegra nicht schon so einen Ansatz auf dem drive Px2? Weiß gar nicht ob intern oder extern.

GTX1060User

2017-12-13, 10:48:33

Aha und wieso ziehen die Nvidia Chips kaum bis keine Vorteile aus DX12…? ;)

Ganz einfach, ich will es dir mal so erklären

DX8 ist Uralt und kann die in der Grafikkarte vorhandenen Teile nicht gut auslasten
DX9 schafft es schon ein bisschen besser, aber auch nicht besonders gut
DX11 ja dieses Entlastet die CPU besonders gut, und Nvidia hat ihren Treiber Perfekt auf DX11 Optimiert. Deswegen bringt DX12 auch nix mehr, da die Karten mit DX11 schon Perfekt ausgelastet wurden.

Bei AMD sieht die Geschichte anders aus, deren Optimierung für DX11 ist dermaßen beschissen, das Vulkan, oder DX12 noch einiges an Performance rausholen kann.

Das Sieht man auch anhand der Rohleistung wenn man dieser von AMD Karten und Nvidia Karten vergleicht. Beispielsweise bei Vulkan

X-Bow

2017-12-13, 10:50:42

Ich denke Ampere wird "einfacher" als hier teils spekuliert wird. Ich denke Ampere ist einfach ein auf Gamer abgespeckter und angepasster Volta-Chip. Damit hat die R&D Abteilung bei NV schon genug zu tun. Die werden keine zwei grundlegende Architekturen parallel entwickelt haben. 100% Fokus auf Volta und anschließendem Downgrade auf Ampere verspricht mehr Ertrag als parallele Entwicklung zweier Architekturen.

Aus diesem Grund denke ich auch das man eine Performance-Abschätzung durch die Titan V durchaus machen kann, auf die künftige 80 Ti, für die Bereiche welche nicht durch HPC Hardware der Volta beeinflusst wird.

Einzig die mögliche Taktrate für Ampere, welche man Aktuell eher schwer abschätzen können wird, kann noch einen größeren Einfluss auf das Gesamtergebnis haben. Aber mit groß mehr als 30-40% auf die aktuellen Karten würde ich nicht erwarten, dafür aber eine bessere Perf./W um die 50-60%

pixeljetstream

2017-12-13, 11:42:54

So seriell ist das nicht, der Nachfolger von Volta, hat einen anderen Entwicklungszustand, das ergibt sich schon aus der zeitlichen Verzögerung.

Die Phasen der Entwicklung eines Chips

Planung/Exploration der Features (Grundlagenforschung) >> Umsetzung der Features im HW Design >> Evaluation/Refinement via Emulation/Simulation etc. >> Tape out >> Bring up >> Testen etc, >> Mass production

können durchaus mit der des nächsten, oder gar übernächsten Generation überlappen, da verschiedene Teams mit verschiedenen Aufgaben am Werk sind, und Du die ja nicht für nen Jahr oder so nach Hause schickst ;)

Es ist also weder voll seriell, noch komplett parallel, aber kaskadiert um den Durchsatz zu erhöhen und die Ergebnisse immer optimal für den nächsten Schritt nutzen zu können. Diese Vorgehensweise ist in vielen Industrien so.

BlacKi

2017-12-13, 11:48:44

Ich denke Ampere wird "einfacher" als hier teils spekuliert wird. Ich denke Ampere ist einfach ein auf Gamer abgespeckter und angepasster Volta-Chip. Damit hat die R&D Abteilung bei NV schon genug zu tun. Die werden keine zwei grundlegende Architekturen parallel entwickelt haben. 100% Fokus auf Volta und anschließendem Downgrade auf Ampere verspricht mehr Ertrag als parallele Entwicklung zweier Architekturen.
zumindest in der vergangenheit hat nvidia an 2-3 architekturen gleichzeitig gearbeitet, das waren nicht einfach nur platzhalter. das macht intel ebenfalls so. bei den kurzfristig zwischengeschobenen architekturnamen könnte ich mir eine abwandlung mit umbenennung vorstellen, aber bei den anderen nicht.

scully1234

2017-12-13, 12:27:38

Die werden keine zwei grundlegende Architekturen parallel entwickelt haben. 100% Fokus auf Volta und anschließendem Downgrade auf Ampere

https://youtu.be/650yVg9smfI?t=443

X-Bow

2017-12-13, 14:15:35

Da habt Ihr mich falsch verstanden. Mit Zeitgleich meine ich wirklich Zeitgleich. Nicht Versetzt. Das an Volta gearbeitet wurd schon wären der Entwicklung von Pascal ist nicht Zeitgleich sondern wie Ihr schon geschrieben habt "Versetzt". Wenn Ampere Zeitgleich wie Volta in die Entwicklung gegangen wäre, und wirklich parallel dazu entwickelt worden wäre, dann hätten wir schon vor 2 Jahren was zu Ampere gelesen. Aber der Name tauchte erst so spät auf dass es Ampere für mich, oder bis die Arch offengelegt wurde und etwas anderes beweist, einfach nur ein umbenannter Volta ist.

Thunder99

2017-12-13, 14:28:41

Und ihre Hardware hat für DX12 keine Reserven wie AMD, meiner Meinung nach. Wenn der Test von Volta stimmt, dann gab es Veränderungen in Bezug auf AC. Dieser ist darunter deutlich schneller.

Das könnte man auch von Ampere erwarten, oder?

scully1234

2017-12-13, 14:32:48

Die Namen wie Volta,Ampere ec pp sind so oder so inflationär ,entscheidend ist nur was für ein Featureset ,aus welcher Entwicklungsschiene mit eingepflanzt wird.

Und da sind parallel laufende Entwicklungen (nicht zeitgleiche) sehr gut um flexibel, auch noch Ideen aus anderen "Prototypen" zu testen, und gegebenfalls mit einfließen zu lassen,in den finalen Chip

Wenn der Test von Volta stimmt, dann gab es Veränderungen in Bezug auf AC. Dieser ist darunter deutlich schneller.

Das könnte man auch von Ampere erwarten, oder?

Vielleicht hat er dort auch nur weniger CPU Limitierung, und die höhere Cuda Core Anzahl, kann sich voll entfalten...

Was HWLUXX da vor Test 19 angepriesen hat, war ja nun nicht wirklich repräsentativ bezogen auf den Chip selber

AffenJack

2017-12-13, 14:35:36

Ich würde mir wünschen, dass einer von den Titan V Testern mal das DX12 Tool aus dem B3d testet, welches zeigt welche Features Volta unterstützt. Ich denke ja immer noch, dass Volta größtenteils auf dem Pascalfeaturelevel ist, da nur an den Shadern für Compute gearbeitet wurde. Für Ampere erwarte ich dann, dass man alle weiteren DX12 Features unterstützt und es deshalb die 2 Namen gibt. Vielleicht kann ja wer hier mal bei Hardwareluxx im Forum anfragen, ich bin da nicht angemeldet:
Das meine ich: https://forum.beyond3d.com/threads/direct3d-feature-levels-discussion.56575/page-9#post-1840641

Hübie

2017-12-15, 18:22:53

Ich hab Kontakt mit Andreas Schilling und er hat darum gebeten dass ich ihm die Dateien zur Verfügung stelle. Hab ich per Google Drive getan. Jetzt warten wir mal gespannt. :up:

Übrigens machen sehr viele Unternehmen concurrent engineering. Was anderes macht zu 99% keinen Sinn. ;) Ist n bissl wie Ping-Pong zwischen den Abteilungen, was dann zu Squash wird.

Edit:
D3D12 Checker spuckte dies aus:

ADAPTER 0
"NVIDIA TITAN V"
VEN_10DE, DEV_1D81, SUBSYS_121810DE, REV_A1
Dedicated video memory : 12120.0 MB (12708741120 bytes)
Total video memory : 28441.4 MB (29822961664 bytes)
Video driver version : 23.21.13.8859
Maximum feature level : D3D_FEATURE_LEVEL_12_1 (0xc100)
DoublePrecisionFloatShaderOps : 1
OutputMergerLogicOp : 1
MinPrecisionSupport : D3D12_SHADER_MIN_PRECISION_SUPPORT_NONE (0) (0b0000'0000)
TiledResourcesTier : D3D12_TILED_RESOURCES_TIER_3 (3)
ResourceBindingTier : D3D12_RESOURCE_BINDING_TIER_3 (3)
PSSpecifiedStencilRefSupported : 0
TypedUAVLoadAdditionalFormats : 1
ROVsSupported : 1
ConservativeRasterizationTier : D3D12_CONSERVATIVE_RASTERIZATION_TIER_3 (3)
StandardSwizzle64KBSupported : 0
CrossNodeSharingTier : D3D12_CROSS_NODE_SHARING_TIER_NOT_SUPPORTED (0)
CrossAdapterRowMajorTextureSupported : 0
VPAndRTArrayIndexFromAnyShaderFeedingRasterizerSup portedWithoutGSEmulation : 1
ResourceHeapTier : D3D12_RESOURCE_HEAP_TIER_1 (1)
MaxGPUVirtualAddressBitsPerResource : 40
MaxGPUVirtualAddressBitsPerProcess : 40
Adapter Node 0: TileBasedRenderer: 0, UMA: 0, CacheCoherentUMA: 0, IsolatedMMU: 1
HighestShaderModel : D3D12_SHADER_MODEL_6_0 (0x0060)
WaveOps : 1
WaveLaneCountMin : 32
WaveLaneCountMax : 32
TotalLaneCount : 163840
ExpandedComputeResourceStates : 1
Int64ShaderOps : 1
RootSignature.HighestVersion : D3D_ROOT_SIGNATURE_VERSION_1_1 (2)
DepthBoundsTestSupported : 1
ProgrammableSamplePositionsTier : D3D12_PROGRAMMABLE_SAMPLE_POSITIONS_TIER_2 (2)
ShaderCache.SupportFlags : D3D12_SHADER_CACHE_SUPPORT_SINGLE_PSO | LIBRARY (3) (0b0000'0011)
CopyQueueTimestampQueriesSupported : 1
CastingFullyTypedFormatSupported : 1
WriteBufferImmediateSupportFlags : D3D12_COMMAND_LIST_SUPPORT_FLAG_DIRECT | BUNDLE | COMPUTE | COPY (15) (0b0000'1111)
ViewInstancingTier : D3D12_VIEW_INSTANCING_TIER_NOT_SUPPORTED (0)
BarycentricsSupported : 0
ExistingHeaps.Supported : 1

Credits an Don @HWL (https://www.hardwareluxx.de/community/f14/nvidia-titan-v-volta-architektur-im-gaming-test-1185181-4.html#post26022358)

AffenJack

2017-12-15, 23:39:02

danke Hübie und Don, hat also doch schon conservative rasterization Tier3 der Volta. Ist der einzige Unterschied zu Pascal.

ResourceHeapTier : D3D12_RESOURCE_HEAP_TIER_1 (1)
PSSpecifiedStencilRefSupported : 0

Die beiden Features hat aber Volta noch immer nicht, während Vega hier Tier2 und ja hat. Ich weiß aber auch nicht wirklich wofür das Zeug gebraucht wird.

fondness

2017-12-16, 07:49:27

TGKlaus

2017-12-16, 10:19:32

Bucklew

2017-12-16, 13:11:47

Die Angaben kann man mittlerweile ohnehin nicht mehr für voll nehmen, Nvidia hat bereits wieder alles mögliche per Software gelöst. Es gab ja sogar Treiber Updates, die das dx 12 Feature set erhöht haben. Das ist zwar eigentlich das Gegenteil von dem, was der Sinn einer low level API wäre, aber Nvidia bastelt sich eben langsam wieder ihr software framework zusammen.
Diese Aussage von dir eröffnet, dass du wenig Ahnung von APIs, Treibern und Feature Set hast. Warum sollte ein Treiber auch bei einer LowLevel API nicht neue Features freischalten können?

Aber Hauptsache mal wieder gegen NVIDIA geflamt, ohne Substanz.

Um mal auf deine Frage zurück zu kommen:
Warum dürfen hier laufend Nvidia fanboys AMD fanboys rein grätschen und ihre ot bullshit kund tun? Fragen über Fragen.
[x] Fixed that for you :up:

Ach ja und angesichts der Doppelmoral von dir:
:facepalm:

Locuza

2017-12-16, 13:15:46

danke Hübie und Don, hat also doch schon conservative rasterization Tier3 der Volta. Ist der einzige Unterschied zu Pascal.

Die beiden Features hat aber Volta noch immer nicht, während Vega hier Tier2 und ja hat. Ich weiß aber auch nicht wirklich wofür das Zeug gebraucht wird.
Resource Heap Tier 2 wäre gewiss eine feine Sache gewesen, vor allem da GCN und auch Intel Gen 9 es unterstützen.
DICE hat bezüglich ihres neuen Framegraphen etwas dazu geschrieben und veranschaulicht:
Concrete problems with resource heaps in current D3D12:

Tier 1 heaps have restrictions on types of resources that can be placed in them.
Only buffers or only textures or only render targets and depth buffers.
Must create separate heaps for different resource types.
Most transient resources that we alias are RT or DS, so it’s not too bad.
We force the RT flag on a transient texture even if user did not specifically request it.

Tier 2 heaps are better, as all types of resources can be aliased.
They are still not ideal, as we must allocate many heaps and sub-allocate within them.
This leads to more fragmentation compared to allocating from a single large address range.
We can’t allocate a single huge heap, as we can’t shrink it.
Compromise is to create one large-ish persistent transient resource heap and then create smaller overflow heaps
http://twvideo01.ubm-us.net/o1/vault/gdc2017/Presentations/ODonnell_Yuriy_FrameGraph.pdf

Bezüglich der neuen Stencil Programmiermöglichkeiten hat sebbbi ein Beispiel verlinkt und paar Ideen ausgeführt:
https://forum.beyond3d.com/posts/1971702/

Ein PS4 VR Spiel hat es für eine intelligente Rekonstruktion für eine bessere Auflösung verwendet.

Die Angaben kann man mittlerweile ohnehin nicht mehr für voll nehmen, Nvidia hat bereits wieder alles mögliche per Software gelöst. Es gab ja sogar Treiber Updates, die das dx 12 Feature set erhöht haben. Das ist zwar eigentlich das Gegenteil von dem, was der Sinn einer low level API wäre, aber Nvidia bastelt sich eben langsam wieder ihr software framework zusammen.
[...]
Von einem Treiber, welcher das Resource Binding von Tier 2 auf Tier 3 angehoben hat, kommen wir pauschal auf "wieder alles mögliche per Software gelöst".
Es bestehen Kritikpunkte über die Umsetzung und mögliche Performanceprobleme anhand der Hardware, aber die Praxisergebnisse stehen noch aus oder kennst du öffentliche Zahlen?

Seit dem AC Disaster wissen wir doch, das das was der Nvidia-Treiber ausgibt, nicht mehr ernst genommen werden kann.

Gibts denn mittlerweile einen glaubwürdigen Nachweis das AC bei Volta in Hardware funktioniert oder geht die Lüge mittlerweile in die 3. Generation?
Es funktioniert seit Pascal, nachweisbar anhand von Compute-Queues unter GPUView und den erhöhten Performancewerten in Sniper Elite 4 und Wolfenstein 2.

aufkrawall

2017-12-16, 13:23:47

In Wolfenstein 2 verringert es die Performance, allerdings ist das auch mit Vega momentan der Fall. ;)

iuno

2017-12-16, 13:27:12

Seit dem AC Disaster wissen wir doch, das das was der Nvidia-Treiber ausgibt, nicht mehr ernst genommen werden kann.

Gibts denn mittlerweile einen glaubwürdigen Nachweis das AC bei Volta in Hardware funktioniert oder geht die Lüge mittlerweile in die 3. Generation?
Welches Desaster? Soweit mir bekannt hat Pascal keine Probleme mit AC oder context switching. Es heisst uebrigens async, nicht concurrent compute. Wenn man mit sequenzieller Ausfuehrung insgesamt immer noch schneller ist juckt es keinen, dass es keine uebergeordnete Parallelitaet gibt.

Diese Aussage von dir eröffnet, dass du wenig Ahnung von APIs, Treibern und Feature Set hast. Warum sollte ein Treiber auch bei einer LowLevel API nicht neue Features freischalten können?
Es geht nicht darum, features freizuschalten, sondern darum, Funktionalitaet die eigentlich fuer Hardware vorgesehen ist, in Software zu implementieren. Das ist naturgemaess viel lahmer.
Sehe aber auch kein Problem darin, falls diese Funktionalitaet halt anderweitig nicht erreicht werden kann UND es auch so dokumentiert ist. Sonst wundert man sich als Entwickler warum es schnarchlangsam ist. Ich zitiere zum Thema auch gerne mal folgenden Beitrag, in Gaenze, weil auch das Schlusswort passt ;p
Das muss nicht unbedingt an RADV liegen. AMD muss z.B. vertex buffer emulieren was auf Windows gut 50% des Treiber-Overheads mit Vulkan ausmacht in meinen Faellen.

Kurz, es ist nicht immer alles so einfach :)

aufkrawall

2017-12-16, 13:37:10

Welches Desaster? Soweit mir bekannt hat Pascal keine Probleme mit AC oder context switching. Es heisst uebrigens async, nicht concurrent compute. Wenn man mit sequenzieller Ausfuehrung insgesamt immer noch schneller ist juckt es keinen, dass es keine uebergeordnete Parallelitaet gibt.

Laut dem von dir zitierten Entwickler ist man mit parallelisierter Ausführung halt näher am Auslastungs-Optimum als mit serieller.
Trotzdem wird aber wohl Pascal es weniger dringend nötig haben als GCN, zwischen GCN-GPUs gibts ja auch Unterschiede beim Leistungs-Plus. Und bei W2 sieht man ja auch wieder, dass es komplex ist und auf dem PC auch mal in die Hose gehen kann. Hoffen wir mal, dass mit der Offenlegung des AMD Vulkan-Treibers sich so ein Fall nicht wiederholt. :D

iuno

2017-12-16, 13:52:50

Laut dem von dir zitierten Entwickler ist man mit parallelisierter Ausführung halt näher am Auslastungs-Optimum als mit serieller.
Das ist mir auch voellig klar, aber von einem "Desaster" sprechen kann man hier ja wohl nicht. Hier wird ja teilweise echt so getan, als koennte man mit Nvidia nicht mehr spielen oder irgendeine der neuen APIs benutzen nur weil CS (noch) nicht gleichzeitig laufen. Klar ist es nicht ideal, aber besser so, als gar kein Support fuer Vulkan/d3d12 zu bringen und zu sagen "das kann unsere Hardware halt nicht". Zumal es, wie gesagt, nicht mal vorausgesetzt ist.

TGKlaus

2017-12-16, 14:11:07

den erhöhten Performancewerten Wolfenstein 2.

Bloss blöd das in W2 die Performance dadurch sinkt.
Du bist also der nächste auf dessen Aussagen man nichts geben kann.

Kann man nicht mal eine Diskussion rein auf den technischen Fakten führen?

Hübie

2017-12-16, 17:31:56

Von einem Treiber, welcher das Resource Binding von Tier 2 auf Tier 3 angehoben hat, kommen wir pauschal auf "wieder alles mögliche per Software gelöst".
Es bestehen Kritikpunkte über die Umsetzung und mögliche Performanceprobleme anhand der Hardware, aber die Praxisergebnisse stehen noch aus oder kennst du öffentliche Zahlen?

Na erst mal mimosern. Wir schauen mal eben was geändert wurde:

constant buffer views von 14 auf alles was da ist (Grenze aufgehoben); unordered access views von 64 auf alles was da ist (Grenze aufgehoben)

Das wars. Nun die Frage: Wo sitzen diese buffer physisch? Im VRAM oder sind das Registerspaces - vielleicht auch Caches? Ersteres wäre ja kein Thema, davon ist genug da, als dass man da Grenzen setzen muss. Ich als Laie sehe da jetzt kein Grund das erst mal anzukreiden. Für mein Verständnis sind das gemeinsame Zugriffe auf Daten im Speicher. Das belastet das OCN. Aber da kann sicher einer mal mehr zu erzählen und etwas aufschlüsseln. :redface:

fondness

2017-12-16, 18:28:44

Rampage 2

2017-12-16, 18:46:04

Sehe ich nicht so. Pascal zeigt schon sehr viele Verwesungsgerüche, welches einzig durch die 1080Ti kaschiert wird. Alle Karten drunter sind nix Wert und werden den Leuten hinterher geworfen.

Schön wärs. Eine reguläre 1070 als gutes Custom-Design kostet immer noch >= 450€ :frown:

R2

Hübie

2017-12-16, 20:15:05

Es wurde hier AFAIK auch schonmal erörtert, dass Nvidia in Hardware max. 12 uniform buffer pro stage binden kann. Wenn sie angeben Resource Binding Tier 3 zu unterstützen, dann wird alles darüber wahrscheinlich als SSBOs gelesen, was natürlich deutlich langsamer sein kann. Und genau darauf bezog sich auch meine Kritik, der Sinn von DX12 war eigentlich direkt mit der Hardware zu kommunizieren, stattdessen bauen sie wieder alle möglichen Abstraktionsschichten ein. Natürlich kann man jedes Feature per Software unterstützen, interessant wäre aber die capability der HW. Sie unterstützen ja auch async compute per Software auf Maxwell, nur bringt das niemanden etwas, außer das man den Kunden eine Zeit lang einreden konnte man fixed das noch irgendwie magisch per Treiber.

Da fehlt's halt an der Praxis um das zu beurteilen. Es sind mir keine magischen Performancesprünge bekannt, noch eine Engine wo das jetzt explizit ausgereizt wird und man dadurch einen Nachteil hat.
Bisher sehe ich immer noch nichts von den großen Vorteilen der LL-APIs. Auch Doom und Wolfenstein 2 haben so ihre Probleme (siehe Thread). Insgesamt laufen die gut, aber gerade W2 sehr inkonsistent. Entweder man sitzt das aus oder es kommen noch Patches (gestern hatte ich bspw. 3,2 GB Patch erhalten, aber nicht geprüft was das war Edit: OK, war nur der 1. DLC, keine Systemdateien).

@v_v: Wenn ein Chip Verwesungsgerüche hat, dann ja wohl Fiji. Der ist so dermaßen zurück gefallen, dass es schon nicht mehr feierlich ist. Aber wir wissen ja, dass du ein Träumer bist. :smile:

Mancko

2017-12-16, 20:36:24

Schön wärs. Eine reguläre 1070 als gutes Custom-Design kostet immer noch >= 450€ :frown:

R2

Zumal die Produktionskosten einer 1070 und auch 1080 erheblich unter denen von Vega liegen. Nvidia macht einfach ein irrsinniges Geld und genau das zeigen auch gefühlt seit Kepler mit steigender Tendenz deren Zahlen. Die Marge ist fast doppelt so hoch wie bei AMD. Mehr muss man dazu nicht sagen. AMD ist einfach nicht konkurrenzfähig zur Zeit. Erst brauchen die ewig um Vega überhaupt auf den Markt zu bekommen und dann betreiben die da einen irrsinnigen Aufwand für eine magere 1070 bis 1080 Leistung und das auch noch bei indiskutablem Verbrauch. Das ist einfach viel zu wenig. Mit Ampére wird das Gap noch mal ein ganzen Stück größer werden denn Nvidia wird das Teil pünktlichst rausbringen um die eigene Kundschaft zum Aufrüsten zu bringen. AMD ist da einfach momentan nur noch eine Randnotiz.

Birdman

2017-12-16, 21:12:54

Schön wärs. Eine reguläre 1070 als gutes Custom-Design kostet immer noch >= 450€ :frown:
Ja, eigentlich abartig.
Aber wenn man sieht dass die Konkurenz nur einen halbgaren Heissluftföhn für 600€+ auf den Markt zu werfen vermag, so muss man froh sein dass die Lederjacke die Preise nicht noch um 100 Euronen erhöht.

dargo

2017-12-16, 21:17:44

Aber wenn man sieht dass die Konkurenz nur einen halbgaren Heissluftföhn für 600€+ auf den Markt zu werfen vermag...
https://www.youtube.com/watch?v=H-BUvTomA7M

;D

x-force

2017-12-16, 21:28:55

@fön
amd sollte lieber die guten aspekte von nvidia kopieren
ein durchlauferhitzer erwärmt halt wasser anstatt luft ;)

ontopic

ampere braucht noch eine weile. es wird auch sicher mehr als ein 15-30% update, nvidia wird sich die zeit nehmen, die sie brauchen um uns wieder zum kauf zu bewegen.

basix

2017-12-17, 12:03:50

Ich erwarte schon was um +40-50%. Ampere kommt 2(!) Jahre nach Pascal. Überhalb GP102 hat man noch Luft für +25% Chipfläche. Einzige Ausnahme für nur +20-30% sehe ich, wenn man keinen solchen Big Chip bringt.

scully1234

2017-12-17, 12:13:50

Ich sage es passiert das selbe wie zu Maxwell/Pascal Zeiten

GA104 legt 20-30% auf den GP102 Vollausbau drauf, und GA102 dann nochmal 30%

Dafür setzt man statt auf 12nm ,TSMCs neuen 7nm Prozess ein

Sollten die Pegasus Platinen für das autonome LV5 Board Anfang 2018 eben diesen Prozess für Tegra u GPU Part verwenden, sieht es für Gamer Ampere nicht schlecht aus das er ebenso in der Strukturgröße kommen wird(Querfinanzierung durch die Autoindustrie)

robbitop

2017-12-17, 18:07:05

7nm ist zu früh für nächstes Jahr. Maxwell brachte ein Stück mehr Perf/Transistor. Ob Ampere das auch bringt? Pascal tat das eigentlich nicht.

|MatMan|

2017-12-17, 18:23:31

Für wie wahrscheinlich haltet ihr es, das Ampere Optimierungen / Features fürs Mining enthält (Vega hat ja auch ein paar spezielle Instruktionen)? Wenn nVidia's krasse Umsatzsteigerungen zu einem großen Teil darauf zurückzuführen sind, kann ich mir durchaus vorstellen, dass man in diesem Markt zukünftig stark aufgestellt sein möchte. nVidia expandiert ja auch sonst aggressiv in neue Märkte. Die Frage ist, ob dies während der Ampere Designphase schon erkannt wurde, oder ob das etwas für den Nachfolger ist?!

Der_Korken

2017-12-17, 18:49:50

7nm ist zu früh für nächstes Jahr. Maxwell brachte ein Stück mehr Perf/Transistor. Ob Ampere das auch bringt? Pascal tat das eigentlich nicht.

Doch. Durch die massive Taktsteigerung ist natürlich auch die Leistung/Transistor gestiegen (GP104 ist schneller als GM200 bei weniger Transistoren). Wenn man den Takt rausrechnet, dann hast du zwar Recht, aber welche Generation hat so eine Steigerung schon erreicht?

scully1234

2017-12-17, 20:14:21

7nm ist zu früh für nächstes Jahr.

Nvidia ist mit Volta auch "all In"gegangen mit den monströßen DIE

Keiner hätte erwartet das man solch einen Chip ,ohne enorme Yieldprobleme überhaupt aufs Band bekommt

Und nun ist er in Form von Titan schon fast in Consumerreichweite

Wer sagt denn das das Risiko früher auf 7nm zu schwenken , als andere, weitaus größer ist, wie das was sie mit Volta abgezogen haben?

Noch dazu müsste Jensen ja sehen, das Intel sich mit Koduri im Gepäck anschickt, hier in 2-3 Jahren in allen Betätigungsfeldern Konkurrenz aufzubauen.

Es gilt also jetzt so lange sie noch freie Hand haben, ihre Marktposition zu sichern, und da wären frühzeitige 7nm Chips wohl ein adäquates Mittel dazu

Digidi

2017-12-17, 20:57:39

Nvidia ist mit Volta auch "all In"gegangen mit den monströßen DIE

Keiner hätte erwartet das man solch einen Chip ,ohne enorme Yieldprobleme überhaupt aufs Band bekommt

Und nun ist er in Form von Titan schon fast in Consumerreichweite

Wer sagt denn das das Risiko früher auf 7nm zu schwenken , als andere, weitaus größer ist, wie das was sie mit Volta abgezogen haben?

Noch dazu müsste Jensen ja sehen, das Intel sich mit Koduri im Gepäck anschickt, hier in 2-3 Jahren in allen Betätigungsfeldern Konkurrenz aufzubauen.

Es gilt also jetzt so lange sie noch freie Hand haben, ihre Marktposition zu sichern, und da wären frühzeitige 7nm Chips wohl ein adäquates Mittel dazu

Keine enormen Yield Probleme? ;D;D;D

scully1234

2017-12-17, 22:04:18

Keine enormen Yield Probleme? ;D;D;D

Wieder mal im Querulantenmodus oder was sollen die Smiles ohne Inhalt?

Wenn du Belege für hohe Waferverluste hast ,dann bring bitteschön Quellen dazu,und lass den Kindergarten

Imo sieht es so aus ,das Nvidia den riesen DIE bereits 8 Monate nach Release der Profivariante,für 3000 unters Volk bringt,und gewiss nicht zum Selbstkostenpreis bei null Competition .

Also können die Yieldprobleme,trotz grenzwertiger Fertigung ,nicht all zu groß sein

Jetzt kommst du...

Tamagothi

2017-12-17, 22:28:46

Warum muss er Quellen angeben wenn der Herr es selber nicht nötig hat?

scully1234

2017-12-17, 22:35:01

Willst du ne Quelle für die 3000 Euro ,oder ist das der nächste Kindergarten?

https://www.nvidia.de/titan/titan-v/

Timbaloo

2017-12-17, 22:44:43

Wie auch immer, der Monsterdie für GV100 ist für einen Gamer-Chip (was Ampere ja wohl ist) ziemlich irrelevant.

NV wäre ja ziemlich blöd für den Consumer-Markt, ohne Not und Konkurrenz, auf übermäßig teure Fertigung zu setzen. Sei es durch einen "Monsterchip" oder übertriebene risk production.

Quelle: https://de.wikipedia.org/wiki/Gesunder_Menschenverstand

scully1234

2017-12-17, 22:49:55

oder übertriebene risk production.

Risk Produktion für 7nm war dieses Jahr im Programm, Massenproduktion für Chips in 7nm ist für 2018 eingeplant

Also sind wir laut TSMC aus dem ersten Zeitfenster schon raus wenn Ampere die Bühne betritt

Most notably, the company's first 7-nanometer process node has already had several tape-outs (finalized designs) and expects to reach volume capacity in 2018. (https://www.macrumors.com/2017/09/15/tsmc-7nm-advanced-info-2018/)

Und wie gesagt Nvidia hat Intel im Nacken,mit seinem riesen Budget, also ausruhen auf irgendwelchen Lorbeeren ist nicht...

Digidi

2017-12-17, 22:53:05

Wieder mal im Querulantenmodus oder was sollen die Smiles ohne Inhalt?

Wenn du Belege für hohe Waferverluste hast ,dann bring bitteschön Quellen dazu,und lass den Kindergarten

Imo sieht es so aus ,das Nvidia den riesen DIE bereits 8 Monate nach Release der Profivariante,für 3000 unters Volk bringt,und gewiss nicht zum Selbstkostenpreis bei null Competition .

Also können die Yieldprobleme,trotz grenzwertiger Fertigung ,nicht all zu groß sein

Jetzt kommst du...
Was glaubst du warum das Teil 3000 Euro kostet? Bestimmt nicht weil die Yields super sind

scully1234

2017-12-17, 22:58:50

Was glaubst du warum das Teil 3000 Euro kostet? Bestimmt nicht weil die Yields super sind

Weil er 815 mm² groß ist ,und Nvidia nicht die Heilsarmee ???

Wenn die Yields schlecht wären ,würdest du das Ding nicht einmal ,im Consumerbereich zu Gesicht bekommen

#P100...

Dann würden auch alle Chips ausnahmslos im Pro Sektor landen,mit der entsprechenden Vergütung (https://www.real.de/product/321275179/?kwd=&source=pla&sid=23928520&gclid=Cj0KCQiAyNjRBRCpARIsAPDBnn3b05HjxLfkAfMF7lk_NZnsmgP361fC2rOhfMDBswow6WT2XO E5JP0aAhT0EALw_wcB)

Digidi

2017-12-17, 23:09:15

Weil er 815 mm² groß ist ,und Nvidia nicht die Heilsarmee ???

Wenn die Yields schlecht wären ,würdest du das Ding nicht einmal ,im Consumerbereich zu Gesicht bekommen

#P100...

Wieso nicht? Im Konsumerbereich kannst du den Ausschuss super verramschen. Zudem ist der chip zu teuer. Im Pro Bereich steckt man dann lieber 2-3 Karten rein als solch ein mega Chip.

Ich glaube wirklich das der chip ein mega Fail ist was die kosten und die Yields betrifft. Deshalb wird versucht überall fuß zu fassen ohne Not!

=Floi=

2017-12-18, 02:42:43

Ich glaube wirklich das der chip ein mega Fail ist was die kosten und die Yields betrifft. Deshalb wird versucht überall fuß zu fassen ohne Not!

du willst es aber auch nicht kapieren!
Der prozess bei TSMC ist wohl auf max 600mm2 ausgelgt. Das ist die größe, welche TSMC imstande ist noch brauchbar zu fertigen. Das monster hat nun 815mm2. Da wird es wohl klar sein, dass da keine 100% yield vom wafer fallen.

GP102 12,0 mrd transistoren
GP104 7,2 mrd transistoren
GV100 21,1 mrd transistoren

Die karte hat noch die vollen 1/2 DP. Die ganzen features lässt sich NV bezahlen und für die speziellen kunden wird es eine gute karte sein.
Titan V wird NV auch in keinster weise tangieren. Die karte ist nicht zum geld verdienen da, weil die stückzahl einfach zu gering ist.
Ihr seht auch nur nur den chip und den preis, aber drumherum gibt es viel mehr. Bei TSMC wird man sicherlich eine weile gebraucht haben bis das teil überhaupt fertigbar war. Die tensor cores mussten nicht nur entwickelt, sondern auch über eine api ansprechbar sein.

PrivateCeralion

2017-12-18, 07:33:12

Weil er 815 mm² groß ist ,und Nvidia nicht die Heilsarmee ???

Wenn die Yields schlecht wären ,würdest du das Ding nicht einmal ,im Consumerbereich zu Gesicht bekommen

#P100...

Dann würden auch alle Chips ausnahmslos im Pro Sektor landen,mit der entsprechenden Vergütung (https://www.real.de/product/321275179/?kwd=&source=pla&sid=23928520&gclid=Cj0KCQiAyNjRBRCpARIsAPDBnn3b05HjxLfkAfMF7lk_NZnsmgP361fC2rOhfMDBswow6WT2XO E5JP0aAhT0EALw_wcB)

Wahrscheinlich bekommt Nvidia ein nicht defekten Chip pro Wafer. Wenn da zu noch 1 bis 2 teildefekte kommen, die als Titan V verkauft werden, dann lohnt sich der Aufwand.
Selbst mit plus-minus null Gewinn lohnt sich der Aufwand wahrscheinlich, da Rechenzentren mit diesen Karten ausgestattet werden und der Code weiter auf Nvidia Karten optimiert wird.

robbitop

2017-12-18, 08:54:53

Doch. Durch die massive Taktsteigerung ist natürlich auch die Leistung/Transistor gestiegen (GP104 ist schneller als GM200 bei weniger Transistoren). Wenn man den Takt rausrechnet, dann hast du zwar Recht, aber welche Generation hat so eine Steigerung schon erreicht?

Pascal brauchte irre viel mehr Transistoren für den höheren Takt. GP104 ist im Vollausbau in etwa so schnell wie gm200 im Vollausbau. GP104 hat 800 mio Transistoren weniger. Aber: dank gddr5x brauch Pascal ein schmaleres SI (was Transistoren spart) und hat einen deutlich moderneren Fertigungsprozess, der an sich schon bei gleicher mArch mindestens 200 mhz zulassen würde. Würde man mArch vs mArch (also entkoppelt von beiden Vorteilen) betrachten, wäre es hier grob Gleichstand an Perf/Transistor.

—-
7nm ist außerhalb von inkomplexen asics/mobile socs IMO noch nicht reif für 2018. Ich gehe jede Wette ein, dass zumindest in H1 2018 keine 7nm Highend GPU kommt. IMO ist ampere 12nm.

Bucklew

2017-12-18, 09:41:51

Ich glaube wirklich das der chip ein mega Fail ist was die kosten und die Yields betrifft. Deshalb wird versucht überall fuß zu fassen ohne Not!
Ja, NVIDIA hat immer massive Yield- und Kostenprobleme. Deshalb sind Sie ja schon seit Jahren in den roten Zahlen, weil sie ihre Karte unter Herstellungskosten verk.... Oh! Wait! ;D

Da war ich doch kurzzeitig im AMD-Fanboy-Paralleluniversum :freak:

Hübie

2017-12-18, 10:41:10

Ailuros sagte vor längerer Zeit mal, dass selbst GP104 nur auf 25% yieldrate käme. Das dürfte sich mittlerweile auf 50% gesteigert haben. GV100 wird im Gegenzug nicht als Vollausbau verkauft und kostet sehr viel in der Anschaffung. Daraus schlussfolgere ich zumindest, dass die yieldrates bei <1% (full fat), 1-10% (ein defekter Cluster) und vielleicht 11-25% (2-4 defekte SMs / defekter MC). Schätzungsweise sind 70% für die Tonne.

GK110b dümpelte am Ende bei 60-70%, obwohl die Anfänge vom GK110 bei 30+% lagen (ab 42% war's iirc rentabel für Geforce etc.).