nVidia - Maxwell - GM1xx (H1/2014) / GM2xx (H2/2014) [Archiv] - Seite 7

Ailuros

2014-02-05, 10:49:35

Ist wohl die Frage wie genau Maxwell aussieht und wie stark sich spätere Maxwell GPUs von GM107 unterscheiden könnten.
Aber wenn die GPU als GM107 beschriftet/bezeichnet wird, ist es für NV wohl auf jeden Fall eine Maxwell GPU.

Ich hab keinen Zweifel dass es sich um Maxwell handelt; ein so grosser perf/W Unterschied koennte nie und nimmer aus einem Kepler kommen. Wie dem auch sei perf/W wird weiterhin wachsen je groesser die chips werden.

AffenJack

2014-02-05, 11:19:19

Ich gehe auch von HPM aus, aber das alleine erklärt den Unterschied noch lange nicht. HPM hilft da bestimmt, aber so einen großen Sprung von GK107 in der Effizienz sieht man nicht nur durch den Prozess. Da muss einiges am chip optimiert worden sein. 50% Prozess, 50% Design und dann kommt sowas vll raus.

Lowkey

2014-02-05, 11:34:42

Wenn die Karten keinen Stromstecker haben, dann liegt die TDP Grenze konstant bei genau 75 Watt? Und es gäbe auch keinen Weg die Karten mächtig zu Übertakten oder das Limit der neuen Generantion anhand der ersten Karten zu testen. Eventuell gibt es später dann Customkartendesigns mit Stromstecker. Eventuell hat die kleinere, abgespeckte Karte mehr Spielraum nach oben und würde mittels Übertaktung mehr Leistung bringen, wobei man die Preise noch nicht kennt.

Ich bin auf erste Tests gespannt.

-/\-CruNcher-/\-

2014-02-05, 11:42:18

Lowkey das denke ich mal ist gut möglich wer weiss wieviele mehr Karten im Vergleich zu Kepler noch released werden mit diesem Potential :)

die 860 GTX könnte demnach irgendwo bei ~100 W landen, ich glaube nicht das Nvidia die Serien Performance erhöhen wird sondern den Verbrauchsgewinn die 750 TI lässt das schon erahnen, allerdings haben sie jetzt möglichkeiten überall noch eine Karte dazwischen zu schieben noch mehr als wie bei Kepler :)

Oder aber sie investieren diesen headrom für Compute The Witcher 3 würde davon mächtig profetieren :)

Übrigens das Interview mit CD Projekt ist irre ich hab noch nie einen so offen reden hören über Marketing Entscheidungen und lockouts von seiten der IHV :)

Lowkey

2014-02-05, 11:52:05

Naja es wird eher darauf hinauslaufen, dass die Karten weniger Strom bei gleicher Leistung brauchen und dann für Upgrades uninteressant werden.

ShinyMcShine

2014-02-05, 12:03:01

Für mich sehen die ersten Maxwell-Chips hochinteressant bezüglich einer kleinen & sparsamen aber doch relativ "brauchbaren" Steam-Machine aus! ;)

VG
Shiny

AnarchX

2014-02-05, 12:11:19

Wenn die Karten keinen Stromstecker haben, dann liegt die TDP Grenze konstant bei genau 75 Watt?
Eher bei ~65W.

Godmode

2014-02-05, 12:31:10

Also wenn man die Die Size noch kennen würde, dann könnte man sich ausrechnen, was ein großer 28nm Maxwell leisten könnte. Ich schätze das dieser 28nm GM107 deutlich großer ist, als die GK107 Chips.

Ailuros

2014-02-05, 12:32:06

Ich gehe auch von HPM aus, aber das alleine erklärt den Unterschied noch lange nicht. HPM hilft da bestimmt, aber so einen großen Sprung von GK107 in der Effizienz sieht man nicht nur durch den Prozess. Da muss einiges am chip optimiert worden sein. 50% Prozess, 50% Design und dann kommt sowas vll raus.

50% durch den Prozess zwischen 28HP und HPm will ich ernsthaft bezweifeln. So hoch kam nichtmal bei 28HP vs. 40G raus.

Also wenn man die Die Size noch kennen würde, dann könnte man sich ausrechnen, was ein großer 28nm Maxwell leisten könnte. Ich schätze das dieser 28nm GM107 deutlich großer ist, als die GK107 Chips.

156 vs. 118mm2 (GM107 vs. GK107) nach dem was herumschwirrt.

AffenJack

2014-02-05, 12:43:45

Mit 50% meinte ich anteilig vom effizienzgewinn. 140W von AnarchX für die TI Boost auf 70W hier sind 100% Effizienzgewinn, was 50% Stromverbrauchsverringerung erzeugt. Hat man bei HPM nicht gesagt bei gleichem Chip ~20-25% weniger Verbrauch als HP 28nm? Deswegen einfach die hypothetische Rechnung 25% weniger Strom durch HPM, 25% weniger durch Architektur.

Sunrise

2014-02-05, 12:50:38

Ich gehe auch von HPM aus, aber das alleine erklärt den Unterschied noch lange nicht. HPM hilft da bestimmt, aber so einen großen Sprung von GK107 in der Effizienz sieht man nicht nur durch den Prozess. Da muss einiges am chip optimiert worden sein. 50% Prozess, 50% Design und dann kommt sowas vll raus.
Wie schon mehrfach erwähnt hat NV alles an Ressourcen in Tegra gesteckt um K1 soweit zu optimieren wie möglich. K1 basiert nicht nur auf stark optimierten A15 cores, sondern auch auf einem stark optimierten Kepler. Wenn man sich dann noch HPM dazudenkt, dann kommt man sicherlich in solche Regionen. Und wenn man dann einen GM107 baut, dann wird man (trotz 28nm) einiges rausholen können.

Ob man das allerdings auch auf die Leistung im Performance-High-End-Enthusiast einfach so übertragen kann ist fraglich. Denn wenn hier auf Power optimiert wurde, dann leidet normalerweise auch die Area, sprich, das Ding wird größer.

Da muss man sich also noch ein paar mehr Sachen einfallen lassen, sodass es in jedem Bereich passt.

fondness

2014-02-05, 12:51:39

AFAIK waren es sogar 35% durch HPm ggü HP.

Ailuros

2014-02-05, 12:55:51

AFAIK waren es sogar 35% durch HPm ggü HP.

Ich lass mich eher eines besseren belehren aber es sollten 15% sein und der rest sind dann andere Optimierungen. Wenn von 28HP auf 28HPm allein vom Prozess rausholen kann dann haben wohl alle Hersteller von 40G auf 28HP verdammt schwer beim engineering geschlampt.

Wie schon mehrfach erwähnt hat NV alles an Ressourcen in Tegra gesteckt um K1 soweit zu optimieren wie möglich. K1 basiert nicht nur auf stark optimierten A15 cores, sondern auch auf einem stark optimierten Kepler. Wenn man sich dann noch HPM dazudenkt, dann kommt man sicherlich in solche Regionen. Und wenn man dann einen GM107 baut, dann wird man (trotz 28nm) einiges rausholen können.

Ob man das allerdings auch auf die Leistung im Performance-High-End-Enthusiast einfach so übertragen kann ist fraglich. Denn wenn hier auf Power optimiert wurde, dann leidet normalerweise auch die Area, sprich, das Ding wird größer.

Da muss man sich also noch ein paar mehr Sachen einfallen lassen, sodass es in jedem Bereich passt.

28HPm ist uebrigens nicht unbedingt eine Eulogie als Option fuer Maxwell wenn man es etwas vorsichtiger betrachtet; wenn der GM107 tatsaechlich auf diesem hergestellt wurde laesst sich weniger von 28HPm zu 20SoC heraushohlen als von 28HP auf 20SoC.

Dawn on Titan

2014-02-05, 12:56:27

Vor allem wenn 28HPM so gut wäre, wer will dann auf 20nmSOC gehen?

Edit: Was Ailuros schon sagt. (zeitgleich geschriebene Postings)

Ailuros

2014-02-05, 13:02:08

Mit 50% meinte ich anteilig vom effizienzgewinn. 140W von AnarchX für die TI Boost auf 70W hier sind 100% Effizienzgewinn, was 50% Stromverbrauchsverringerung erzeugt. Hat man bei HPM nicht gesagt bei gleichem Chip ~20-25% weniger Verbrauch als HP 28nm? Deswegen einfach die hypothetische Rechnung 25% weniger Strom durch HPM, 25% weniger durch Architektur.

Wieso sollte ich unbedingt einen GM107 mit einem GK106 vergleichen und nicht eher mit GK107? Ist jetzt eine 750Ti um N% schneller als eine GTX650 mit einem 64W TDP, dann geht wohl schaetzungweise 15% fuer 28HP auf 28HPm (wenn es sich wirklich um HPm beim GM107 handelt) und die eigentliche Mehrzahl geht auf Architektur + moegliche zusaetzliche Optimierungen.

Es muss nicht mir nichts dir nichts HPm sein; Qualcomm hat vom S800 auf S800ab (beide auf 28HPm) durch diverse Optimierungen einen Vorteil von ca. 15% einraeumen koennen.

Korrekt oder nicht bleibt abzusehen, aber GPU-Z gibt die GM107 als "A2" an welches auch nicht tape out Material ist sondern +metal spin. Das sie es nicht eilig hatten mit Maxwell sollte klar sein.

Botcruscher

2014-02-05, 13:05:18

Man darf auf jeden Fall gespannt sein. Womöglich sehen wir große 20nm Volumen wirklich erst mit FinFet.

Sunrise

2014-02-05, 13:29:56

Vor allem wenn 28HPM so gut wäre, wer will dann auf 20nmSOC gehen?
Ganz einfache Erklärung, weil du mehr Platz brauchst, sonst stößt du bei >550mm² irgendwann ans Limit. Und wenn du soweit skalierst (bis in GK110-Regionen), dann wird es extrem schwer, da gegen GK110 anzukommen. 20nm FinFET kommt eben extrem spät, vor allem für so ein Monster.

Deshalb ist es auch aktuell so schwierig, nur von 28nm oder 20nm auszugehen. Bis zum Performance-Maxwell könnte 28nm reichen, aber obenrum kommt dann die Wand.

Godmode

2014-02-05, 14:04:17

50% durch den Prozess zwischen 28HP und HPm will ich ernsthaft bezweifeln. So hoch kam nichtmal bei 28HP vs. 40G raus.

156 vs. 118mm2 (GM107 vs. GK107) nach dem was herumschwirrt.

Wenn man jetzt die 221 mm2 von GK106 nimmt, mit den 156 mm2 von GM107 vergleicht, der auch nochmal 26% schneller ist als GK106, dann würde ein 3 facher GM107 satte 2880 ALUs haben und nur eine TDP von 195W haben (wahrscheinlich sogar noch weniger, weil der Chip an sich größer ist, wie AnarchX oben schon schrieb).

Alles natürlich eine Milchmädchen Rechnung, aber es zeigt schon was mit 28nm noch möglich wäre, falls 20nm wirklich noch so lange braucht zu reifen.

Palpatin

2014-02-05, 14:19:36

Ich hab keinen Zweifel dass es sich um Maxwell handelt; ein so grosser perf/W Unterschied koennte nie und nimmer aus einem Kepler kommen. Wie dem auch sei perf/W wird weiterhin wachsen je groesser die chips werden.
Auf jeden Fall sehr unwahrscheinlich. Unmöglich würde ich nicht sagen, wie viel verbraucht den die etwa gleich schnelle GTX770M?

Ailuros

2014-02-05, 14:19:50

Wenn man jetzt die 221 mm2 von GK106 nimmt, mit den 156 mm2 von GM107 vergleicht, der auch nochmal 26% schneller ist als GK106, dann würde ein 3 facher GM107 satte 2880 ALUs haben und nur eine TDP von 195W haben (wahrscheinlich sogar noch weniger, weil der Chip an sich größer ist, wie AnarchX oben schon schrieb).

Alles natürlich eine Milchmädchen Rechnung, aber es zeigt schon was mit 28nm noch möglich wäre, falls 20nm wirklich noch so lange braucht zu reifen.

Du wirst auf der Hohe um einiges mehr Bandbreite & Speicher brauchen. Die 770 hat 35W mehr TDP gegen die 680 für was genau? Muss nicht direkt verbunden sein, lediglich ein Beispiel.

RaptorFX

2014-02-05, 17:39:05

WhyCry und QuinnFitzGerald (Die Autoren und "Experten" von videocardz.com) sind der Meinung, dass diese 2 GraKas nur auf Grund von "Process Optimization" so ne Perf./W haben und nicht aufgrund der Architektur von Maxwell, die laut ihnen fast identisch mit Kepler ist.

Die zwei beharren so extrem auf ihre Quellen, naja. Lagen die den bei sowas jemals oder annähernd richtig?(ernst gemeinte Frage;D)

MfG

Nightspider

2014-02-05, 17:42:17

Beim GM104 wird man jedenfalls nicht um 384Bit SI herum kommen und Big Maxwell wird wohl 512Bit SI bekommen.

Godmode

2014-02-05, 17:43:38

Du wirst auf der Hohe um einiges mehr Bandbreite & Speicher brauchen. Die 770 hat 35W mehr TDP gegen die 680 für was genau? Muss nicht direkt verbunden sein, lediglich ein Beispiel.

Wenn ich den GM107 um Faktor 3 aufblase, hätte ich doch ein 384 bit SI. Wenn ich dann noch die schnellsten Speicherchips darauf knalle, sollte das doch reichen, oder verstehe ich hier etwas falsch?

Ailuros

2014-02-05, 18:36:17

WhyCry und QuinnFitzGerald (Die Autoren und "Experten" von videocardz.com) sind der Meinung, dass diese 2 GraKas nur auf Grund von "Process Optimization" so ne Perf./W haben und nicht aufgrund der Architektur von Maxwell, die laut ihnen fast identisch mit Kepler ist.

Die zwei beharren so extrem auf ihre Quellen, naja. Lagen die den bei sowas jemals oder annähernd richtig?(ernst gemeinte Frage;D)

MfG

Richtig kann man beim Kaffeesatzlesen mit ein paar vestreuten hints schon ab und zu liegen, Ahnung von der Materie muss man aber nicht unbedingt haben. Reicht so viel?

Und es ist eben nicht das was sie behaupten, aendert aber nichts am obrigen: http://semiaccurate.com/forums/showpost.php?p=207272&postcount=251

Ich muss testbug wohl nicht vorstellen oder?

Wenn ich den GM107 um Faktor 3 aufblase, hätte ich doch ein 384 bit SI. Wenn ich dann noch die schnellsten Speicherchips darauf knalle, sollte das doch reichen, oder verstehe ich hier etwas falsch?

Der 384bit SI koennte indirekt durch die krumme Speicheranzahl den Stromverbrauch beinflussen; sonst verbraucht die 770 wohl nicht 35W mehr als die 680 wegen den bloeden 38MHz Taktunterschied sondern wegen dem 7.0 Gbps GDDR5 auf dem ersten.

Was schoen waere ist wenn sie die verdammten ROPs endlich mal vom MC entkoppelt haben.

boxleitnerb

2014-02-05, 18:43:00

In den Kommentaren bei videocardz heißt es von einem Editor (?), die Effizienzsteigerungen kämen nur/hauptsächlich von dem reiferen Prozess. Du aber schreibst im SA Forum eher das Gegenteil. Hmmm...

Ailuros

2014-02-05, 18:51:10

In den Kommentaren bei videocardz heißt es von einem Editor (?), die Effizienzsteigerungen kämen nur/hauptsächlich von dem reiferen Prozess. Du aber schreibst im SA Forum eher das Gegenteil. Hmmm...

Wenn sie es wirklich geschafft haben so viel aus dem reiferen Prozess rauszuholen dann haben wohl alle IHVs ueber Jahrzehnt ziemlich brutal geschlampt (wie ich auch bei B3D schon sagte). Ich lass mich gerne ueber's Gegenteil ueberzeugen, nur wird es eben verdammt schwer sein.

***edit:

Meinst Du das hier?

Perhaps the fact that personally I have someone who told me information about yields that made it into an article ON THIS SITE about how Maxwell would be on 28nm. What did everyone say? 'IMPOSSIBLE'
Perhaps it is that I know someone who could tell me that the Tegra K1 presentation would be just like the Tegra 4 presentation, and that *stupid NDA*.
Perhaps it is that WHEN YOU MAKE A NEWER CHIP ON AN OLD PROCESS YOU AUTOMATICALLY GET THOSE OPTIMIZATIONS TO A GREATER DEGREE THAN OLDER CHIPS UNLESS YOU SPECIFICALLY DESIGN YOUR CHIP TO NOT BE OPTIMIZED.

Also, you still missed what I pointed out in the article...

Der Mist soll mich ueber was ueberzeugen? Soll ich Dir's auf dem Klavier nachspielen dass der Typ keinen Schimmer an Ahnung hat?

***edit: nicht mal sein Mitarbeiter stimmt mit ihm ueberein: http://semiaccurate.com/forums/showpost.php?p=207282&postcount=253

AnarchX

2014-02-05, 19:49:13

Da dürfte die bekannte Die-Size wohl hinkommen:
http://abload.de/img/gm107-300a2bukz0.png
http://www.xtremesystems.org/forums/showthread.php?288041-Is-Maxwell-for-soon-Yes-and-no-Hardware-fr&p=5225276&viewfull=1#post5225276

boxleitnerb

2014-02-05, 21:59:43

Wenn sie es wirklich geschafft haben so viel aus dem reiferen Prozess rauszuholen dann haben wohl alle IHVs ueber Jahrzehnt ziemlich brutal geschlampt (wie ich auch bei B3D schon sagte). Ich lass mich gerne ueber's Gegenteil ueberzeugen, nur wird es eben verdammt schwer sein.

***edit:

Meinst Du das hier?

Der Mist soll mich ueber was ueberzeugen? Soll ich Dir's auf dem Klavier nachspielen dass der Typ keinen Schimmer an Ahnung hat?

***edit: nicht mal sein Mitarbeiter stimmt mit ihm ueberein: http://semiaccurate.com/forums/showpost.php?p=207282&postcount=253

Ja genau. Komischer Geselle, naja er wird schon damit auf die Nase fallen :)

Mandalore

2014-02-05, 22:06:46

Wenn sie es wirklich geschafft haben so viel aus dem reiferen Prozess rauszuholen dann haben wohl alle IHVs ueber Jahrzehnt ziemlich brutal geschlampt (wie ich auch bei B3D schon sagte). Ich lass mich gerne ueber's Gegenteil ueberzeugen, nur wird es eben verdammt schwer sein.

***edit:

Meinst Du das hier?

Der Mist soll mich ueber was ueberzeugen? Soll ich Dir's auf dem Klavier nachspielen dass der Typ keinen Schimmer an Ahnung hat?

***edit: nicht mal sein Mitarbeiter stimmt mit ihm ueberein: http://semiaccurate.com/forums/showpost.php?p=207282&postcount=253
Er stimmt nicht mit ihm überein, weil er sagt dass Maxwell Kepler-Chips seien.

Hat er (die von videocardz.com) das so gemeint, dass der Chip noch auf Kepler basiert oder, dass Maxwell im Grunde eigentlich weiterhin so gut wie Kepler ist:confused::confused:;D

MfG

Hugo78

2014-02-05, 22:41:51

Mich würde es überraschen, wenn Maxwell grundlegend anders aufgebaut wäre als Kepler.
Denn das würde bedeuten, dass bei Kepler auch etwas grundlegend falsch gelaufen ist.

Thunder99

2014-02-05, 22:48:50

Der große Umbau war ja schon mit GK angegangen. Meine mich zu erinnern das eine Roadmap eine extreme Verbesserung prognostiziert hat in Perf/Watt. Kann doch unmöglich nur am verbesserten Prozess liegen oder?

Mandalore

2014-02-05, 23:59:26

Mich würde es überraschen, wenn Maxwell grundlegend anders aufgebaut wäre als Kepler.
Denn das würde bedeuten, dass bei Kepler auch etwas grundlegend falsch gelaufen ist.

Wie meinst du das?:confused:

MfG

Hugo78

2014-02-06, 00:17:51

Ich erwarte einfach, dass Kepler die Basis ist auf der alle Nachfolger in den nächsten ca. 5 Jahren oder so, aufbauen.
Oberflächlich wird sich da also nicht soviel tun, dass jeder "Experte" anhand von wenigen Rohdaten erkennen kann,
welche Ausbaustufe sich hinter Chip XY jetzt verbirgt.

Ich erwarte dass man die Datenwege nochmal verkürzen konnte und auch mehr Cache hat.
Und dass Maxwell irgendwie nochmal einfacherer ALUs besitzt, die ansich nicht den Durchsatz der Vorgänger erreichen,
aber dazu gut sind, dass man die Spannung mal wieder deutlicher absenken kann und Fläche einspart und die eingesparte Fläche dann wieder in nochmehr Einheiten investiert.

Thunder99

2014-02-06, 00:53:18

So lange das gut funktioniert kann uns ja die Anzahl an Einheiten egal sein. Es kommt immer drauf an was hinten raus kommt und was es an Energie kostet.

Dawn on Titan

2014-02-06, 07:14:29

Glaubt einer, dass NV die Kepler Designstruktur mit Maxwell massiv umgebaut hat? Trotzdem scheint man das Design erfolgreich modifiziert zu haben wenn man Leistung und Verbrauch der GM107 Karten ansieht. Die "Journalisten" müssen lernen, dass die alten Denkmuster veraltet sind. Ein neuer Chip wird sich nicht mehr gravierend vom Vorgänger unterschieden, zumindest nicht sofern der Vorgänger kein Flop war und es keine Techänderungen (sprich DX12) gibt. Auch wird er immer öfter im selben Fertigungsprozess erscheinen.

Coda

2014-02-06, 07:28:24

Glaubt einer, dass NV die Kepler Designstruktur mit Maxwell massiv umgebaut hat?
Falls die TDP-Änderung die wir sehen stimmt, bin ich mir ziemlich sicher, dass es umfassendere Änderungen gab.

Dawn on Titan

2014-02-06, 08:04:12

Aber auf einer anderen Ebene, als das was diese "Journalisten" betrachten.

-/\-CruNcher-/\-

2014-02-06, 08:31:32

Wenn sie es wirklich geschafft haben so viel aus dem reiferen Prozess rauszuholen dann haben wohl alle IHVs ueber Jahrzehnt ziemlich brutal geschlampt (wie ich auch bei B3D schon sagte). Ich lass mich gerne ueber's Gegenteil ueberzeugen, nur wird es eben verdammt schwer sein.

***edit:

Meinst Du das hier?

Der Mist soll mich ueber was ueberzeugen? Soll ich Dir's auf dem Klavier nachspielen dass der Typ keinen Schimmer an Ahnung hat?

***edit: nicht mal sein Mitarbeiter stimmt mit ihm ueberein: http://semiaccurate.com/forums/showpost.php?p=207282&postcount=253

Da stellt man sich echt die Frage wie mächtig ist eigentlich Nvidias eigener Supercluster schon, mir kommts so langsam vor als fangen die Chips an sich selbst und die Prozesse um sich herum zu verbessern ;)

Er stimmt nicht mit ihm überein, weil er sagt dass Maxwell Kepler-Chips seien.

Hat er (die von videocardz.com) das so gemeint, dass der Chip noch auf Kepler basiert oder, dass Maxwell im Grunde eigentlich weiterhin so gut wie Kepler ist:confused::confused:;D

MfG

Denke mal es geht einfach nur um die Frage ist es ein Tick oder ein Tock das ist aber absulut egal was es ist das Ergebniss ist doch was zählt :)

Und das lässt auf eine sehr hohe Effizienzsteigerung hoffen und lässt AMDs letzten Research/Release Cycle ziemlich alt aussehen :)

Aber wie gesagt wichtig ist gibt es irgendwelche Kompromisse die sich irgendwo im Software Part auswirken werden, das Maxwell voll auf CUDA 6 optimiert wurde sollte klar sein :)

http://www.nvidia.de/object/parallel-programming-with-CUDA-6-nov14-2013-de.html

Cd Projekt werden vorausichtlich die ersten sein die das voll nutzen werden mit The Witcher 3 und der Red Engine 3 abzusehen das es bei UE4 genauso sein wird :)

Mandalore

2014-02-06, 15:48:49

Jetzt berichtet schon auch PCGH das Zeug von videocardz, dass Maxwell ein Kepler-Refresh² und GM107 ein Hybrid aus GK106 und GK107 sei. :eek::frown:

Ailuros

2014-02-06, 16:13:11

Jetzt berichtet schon auch PCGH das Zeug von videocardz, dass Maxwell ein Kepler-Refresh² und GM107 ein Hybrid aus GK106 und GK107 sei. :eek::frown:

http://www.pcgameshardware.de/Grafikkarten-Grafikkarte-97980/News/Nvidia-Maxwell-Geforce-GTX-750-Ti-Kepler-Refresh-AMD-Radeon-R7-250X-1108340/

Sie tragen lediglich das weiter was videocardz behauptet, falls Du den obrigen Artikel meinen solltest. Jetzt muss uns videocardz nur noch das Rezept goennen wie man zwei chips der vorigen Generation in den Topf wirft und am anderen Ende etwas raus kommt dass fast doppelt so effizient ist.

-/\-CruNcher-/\-

2014-02-06, 16:56:32

Sollte sich nun die R7 250X für 90 Euro dazugesellen, hätten die Kalifornier drei Grafikkarten in einer Preisspanne von gut 10 Euro im Angebot.

Wie schon gesagt das kann ja dieses jahr echt witzig werden ;)

Karma_Zhong

2014-02-06, 20:10:58

Spekulieren macht Spaß, und Wunschdenken macht eine Erektion. ;D

Maxwell? Eher glaube ich wieder an den Weihnachtsmann. Man siehe sich das Design vom Tegra K1 an, nimmt die Funktionsblöcke (192 shader, 16 tmu, 4 rop) * 5 und bekommt einen stromsparenden Kepler (750 ti). Anschliessend schaltet man einen Block ab und erhält ein kleines Modell (750).

So wird es laufen, und Nvidia hat dann ein weiteres halbes Jahr Zeit, da man ja eben erst eine "neue" GPU "released" hat, bei TSMC wg 20nm anzuklingeln.

Kurz vor Jahreswechsel wird dann groß auf die Pauke gehauen, aber erst zur CES nächstes Jahr kann man lauffähige Produkte vorzeigen, die ab Frühjahr 2015 in homöpatischen Dosen in den Markt entlassen werden.

Man darf sich immer eines vor Augen halten: Nvidia ist keine Firma der leisen Töne. Und das Krachbumm im Vorfeld einer neuen GPU fehlt bis jetzt eindeutig.

Mandalore

2014-02-06, 20:29:50

Spekulieren macht Spaß, und Wunschdenken macht eine Erektion. ;D

Maxwell? Eher glaube ich wieder an den Weihnachtsmann. Man siehe sich das Design vom Tegra K1 an, nimmt die Funktionsblöcke (192 shader, 16 tmu, 4 rop) * 5 und bekommt einen stromsparenden Kepler (750 ti). Anschliessend schaltet man einen Block ab und erhält ein kleines Modell (750).

So wird es laufen, und Nvidia hat dann ein weiteres halbes Jahr Zeit, da man ja eben erst eine "neue" GPU "released" hat, bei TSMC wg 20nm anzuklingeln.

Kurz vor Jahreswechsel wird dann groß auf die Pauke gehauen, aber erst zur CES nächstes Jahr kann man lauffähige Produkte vorzeigen, die ab Frühjahr 2015 in homöpatischen Dosen in den Markt entlassen werden.

Man darf sich immer eines vor Augen halten: Nvidia ist keine Firma der leisen Töne. Und das Krachbumm im Vorfeld einer neuen GPU fehlt bis jetzt eindeutig.
Naja so einfach ist das nicht, aber alles ist möglich. Vieles spricht dafür und vieles dagegen;)

Ailuros

2014-02-06, 20:30:05

Momentan handelt es sich eher um technologische Neugierde was hinter dem Namen Maxwell genau steckt. Nach der Veröffentlichung der meisten GPUs der Familie werden sich darüber die grünen und rote fanboys gegenseitig die Haare ausreisen können.

Dawn on Titan

2014-02-06, 20:47:12

Wenn man mit etwas K1 und viel Kepler so locker die Effizienzsteigerung erreichen kann, die Maxwell verspricht und erstem Anschein nach auch halten könnte, dann muss man wohl Kepler als einen der besten CPU-Design-Entwürfe der jüngeren Zeit ansehen.

Oder aber man nimmt eine wahrscheinliche Lösung und zwar, dass der grundlegende Aufbau SMX-Gruppen etc. nicht massiv verändert wurde man aber durch sehr viel Feinarbeit die Effizienz erhöht hat.

Ailuros

2014-02-06, 21:25:36

Es ist ja nett dass ich die daemliche K1 Parallele stets lese, aber wenn etwas verdammt kompliziert ist an GeForces seit Fermi dann ist es die Geometrie-pipeline und der interconnect u.a. Für reine Geometrie schafft ein GK110 10x Mal so viel Dreiecke wie ein GK20A. Ein halbes Dreieck pro Takt ist die Norm im ULP.

Karma_Zhong

2014-02-06, 21:37:24

besten CPU-Design-Entwürfe der jüngeren Zeit ansehen.

:biggrin::biggrin: Und was ist mir ARM ? Du meintest GPU, gelle?

Naja, kannste auch umdrehen und sagen, das die Ingenieure vorher mit der heissen Nadel gestrickt haben und viel Potenzial verschenkt wurde, u.a. weil es sich nicht so leicht auf die Fertigung übertragen lässt.
Und neue Techniken, wie z.B. Multi-Level-Clock-Gating, machen es erst möglich die Transistordichte drastisch zu erhöhen und die Spannung zu senken, weil es ohne die Verbesserung zu hohen Leckströmen gekommen wäre.

Mit den Shadernclustern und der Art der Berechnung hat das aber nix zu tun. Somit ist das Kepler-Design in punkto SMX kein Wunder und nicht das beste seit Jahren. Es hängt zuviel vom Anwendungsfall ab.

Letztendlich findet hier ein performanter Mobile-Chip den Weg auf den Desktop. Zeit für einen neuen Spekulations-Thread "Nvidia Maxwell H1/2015" ;)

Karma_Zhong

2014-02-06, 21:44:22

Ein halbes Dreieck pro Takt ist die Norm im ULP.

Ich bin von HPm ausgegangen, und denke das man die Stromspartechniken hier in eine GPU pflanzt die sonst in besseren Notebooks als Grafiklösung ihren Platz gefunden hätte. Und dort ist die Polygonleistung schon höher ;D

Ailuros

2014-02-07, 06:30:42

Ich bin von HPm ausgegangen, und denke das man die Stromspartechniken hier in eine GPU pflanzt die sonst in besseren Notebooks als Grafiklösung ihren Platz gefunden hätte. Und dort ist die Polygonleistung schon höher ;D

Welche Notebook GPU hat denn annähernd einen einstelligen TDP? Das kleinste dass Du finden koenntest waere GT630 Rev2 mit einem GK208 und einer 25W TDP.

Es wird schon so weit kommen bis Ihr alle das Phänomen K1 voll versteht.

Naja, kannste auch umdrehen und sagen, das die Ingenieure vorher mit der heissen Nadel gestrickt haben und viel Potenzial verschenkt wurde, u.a. weil es sich nicht so leicht auf die Fertigung übertragen lässt.
Und neue Techniken, wie z.B. Multi-Level-Clock-Gating, machen es erst möglich die Transistordichte drastisch zu erhöhen und die Spannung zu senken, weil es ohne die Verbesserung zu hohen Leckströmen gekommen wäre.

Clock oder sogar power gating hin und her es hat alles nichts mit TDP direkt zu tun.

Mit den Shadernclustern und der Art der Berechnung hat das aber nix zu tun. Somit ist das Kepler-Design in punkto SMX kein Wunder und nicht das beste seit Jahren. Es hängt zuviel vom Anwendungsfall ab.

Letztendlich findet hier ein performanter Mobile-Chip den Weg auf den Desktop. Zeit für einen neuen Spekulations-Thread "Nvidia Maxwell H1/2015" ;)

Es sind noch 10 Monate bis 2014 auslaeuft.

Mandalore

2014-02-08, 15:33:32

Kurze Frage:

Hat Nvidia schon mal Chips mit alter Architektur (z.B. Fermi) als Kepler verkauft, wo der Chip eindeutig mit GK-Kennzeichen versehen ist?

Beispiel: Chip mit Codenamen GK106 ist eigentlich nichts anderes als GF106, soetwas meine ich;)

Hübie

2014-02-08, 19:09:21

Gegenfrage: wo ist der Sinn eine alte Architektur mit neuem Prozess neu aufzulegen um festzustellen dass die aktuelle Architektur effizienter agiert??? :|

Mandalore

2014-02-08, 23:46:46

Gegenfrage: wo ist der Sinn eine alte Architektur mit neuem Prozess neu aufzulegen um festzustellen dass die aktuelle Architektur effizienter agiert??? :|

Obs ein neuer Prozess ist, ist alles andere als sicher;)

Naja wie gesagt, ich hatte so nen Gedanken und würde mich über eine kurze Antwort freuen!:tongue::)

Hübie

2014-02-09, 00:27:45

Um deine Frage zu beantworten: Nein, haben die noch nicht gemacht. Codenamen sind ein Implizit der jeweiligen Architektur. Was aber alle schon mal gemacht haben ist die Namensgebung mir rüber zu nehmen. So tummelten sich in der unteren 600er-Serie der ein oder andere Fermi-Chip. Welche(r) genau müsste ich nachschlagen.

Hugo78

2014-02-09, 00:45:11

Fermi wird allgemein mit 40nm in Verbindung gebracht, aber die aktuellen mini-Fermis der 600er Reihe werden in 28nm hergestellt.
Stichwort: GF117

Der Grund dürfte schlicht in der recht statischen Struktur der Kepler SMX zu suchen sein, was uns wieder zu Maxwell führt, welcher hofentlich, die SMX unterteilbar macht.

Ailuros

2014-02-09, 08:28:21

Der Grund dürfte schlicht in der recht statischen Struktur der Kepler SMX zu suchen sein, was uns wieder zu Maxwell führt, welcher hofentlich, die SMX unterteilbar macht.

Es waere zwar interessant, aber siehst Du irgendwo eine Indizie dass die clusters in Maxwell diesmal unterteilbar sind? Wozu auch? Minimal ist fuer diese Generation ein 192-er cluster schon zu wenig.

Coda

2014-02-09, 09:35:26

Der Grund für kleiner CUs wäre dass es womöglich bessere Energieeffizienz ermöglicht. AMD ist mit GCN bei 64/CU und hat nur einen Scheduler. NVIDIA hat 4 Warp-Scheduler die sich um die 6 ALU-Ports / 192 ALUs streiten müssen.

Ich bin wirklich nicht so sehr in der Materie drin, aber wie ich schon einmal gesagt habe, hab ich nicht das Gefühl, dass soviel Komplexität gut ist für die Effizienz. Bei Kepler lag ich aber auch schon daneben. Spannend ist es allemal, endlich mal wieder eine neue Architektur.

AnarchX

2014-02-09, 09:39:48

Mobile Maxwell:
[DEV_1341&SUBSYS_131D1043] NVIDIA GeForce 840M
[DEV_1341&SUBSYS_13FD1043] NVIDIA GeForce 840M
[DEV_1341&SUBSYS_14AD1043] NVIDIA GeForce 840M
[DEV_1341&SUBSYS_14FD1043] NVIDIA GeForce 840M
[DEV_1341&SUBSYS_158D1043] NVIDIA GeForce 840M
[DEV_1341&SUBSYS_15DD1043] NVIDIA GeForce 840M
[DEV_1341&SUBSYS_165D1043] NVIDIA GeForce 840M
[DEV_1341&SUBSYS_167D1043] NVIDIA GeForce 840M
[DEV_1341&SUBSYS_22AA1043] NVIDIA GeForce 840M
[DEV_1391&SUBSYS_11CD1043] NVIDIA GeForce GTX 850M
[DEV_1391&SUBSYS_129D1043] NVIDIA GeForce GTX 850M
[DEV_1391&SUBSYS_154D1043] NVIDIA GeForce GTX 850M
[DEV_1392&SUBSYS_157D1043] NVIDIA GeForce GTX 860M
http://forums.laptopvideo2go.com/topic/30746-asus-mobile-nvidia-driver-v33235-for-windows-8-64bit/

Fermi wird allgemein mit 40nm in Verbindung gebracht, aber die aktuellen mini-Fermis der 600er Reihe werden in 28nm hergestellt.
Stichwort: GF117
Mit GF117 hat man auch PCIe 3.0 getestet und offenbar hat GF117 auch schon GeForce Boost implementiert. Aber die Basis-Architektur ist natürlich weiterhin Fermi.

BigKid

2014-02-09, 13:47:53

Mobile Maxwell:

http://forums.laptopvideo2go.com/topic/30746-asus-mobile-nvidia-driver-v33235-for-windows-8-64bit/

Mit GF117 hat man auch PCIe 3.0 getestet und offenbar hat GF117 auch schon GeForce Boost implementiert. Aber die Basis-Architektur ist natürlich weiterhin Fermi.
Wobei nicht alles aus der 600er Reihe noch Fermi ist... Die gtx670mx ist zB schon Kepler...

Ailuros

2014-02-09, 14:18:38

Der Grund für kleiner CUs wäre dass es womöglich bessere Energieeffizienz ermöglicht. AMD ist mit GCN bei 64/CU und hat nur einen Scheduler. NVIDIA hat 4 Warp-Scheduler die sich um die 6 ALU-Ports / 192 ALUs streiten müssen.

Ich bin wirklich nicht so sehr in der Materie drin, aber wie ich schon einmal gesagt habe, hab ich nicht das Gefühl, dass soviel Komplexität gut ist für die Effizienz. Bei Kepler lag ich aber auch schon daneben. Spannend ist es allemal, endlich mal wieder eine neue Architektur.

Gut daran hab ich nicht gedacht, aber wenn ich schon mit 5 Maxwell clusters eine TDP von 75W habe, verbraucht dann maximal 1 cluster unter Vollast wieviel, ganz zu schweigen bei reduzierter Frequenz unter 2D?

Einbauen werden sie die Stromsparmassnahmen ja sowieso für "Tegra M1" aber dort ist es auch eine absolute Notwendigkeit, aber weniger als 3*SIMD32 würde ich nicht erwarten weil es 4 quad TMUs sind bei desktop chips egal ob die GPU im M1 Tegra nur 8 pro SMX haben wird.

Coda

2014-02-09, 14:26:37

Kannst du das bitte nochmal wiederholen? Entschuldige, es wird in letzter Zeit immer schwerer dich zu verstehen.

Was die TMUs angeht verbaut AMD eine Quad-TMU pro CU. Es gibt keinen Grund warum es vier sein müssen pro SMX.

Ailuros

2014-02-09, 15:59:41

Kepler SMX (GK1xx):

6*SIMD32
4 quad TMUs

GK208/GK20A (Tegra K1) SMX:

6*SIMD32
2 quad TMUs

Maxwell SMX (GM107):

(gleich wie eine Kepler SMX?)

GMx0A (Tegra M1) SMX:

6*SIMD32
2 quad TMUs

Und ja es ist ziemlich missverstaendlich weil ich es vom smartphone eingetippt habe.

Undertaker

2014-02-09, 16:19:44

GK208/GK20A (Tegra K1) SMX:

6*SIMD32
2 quad TMUs

GK208 hat pro SMX doppelt so viele TMUs wie K1, also 16 statt 8 (und damit insgesamt 32 TMUs für zwei SMX).

Ailuros

2014-02-09, 16:23:29

GK208 hat pro SMX doppelt so viele TMUs wie K1, also 16 statt 8 (und damit insgesamt 32 TMUs für zwei SMX).

Huh?

http://hexus.net/tech/reviews/graphics/59081-nvidia-gainward-geforce-gt-640-rev-2-gk208/

Undertaker

2014-02-09, 16:30:54

Dann steht da Mist, genauso wie mit den 24 TMUs für GK107 ganz links im Diagramm.

Die offiziellen Diagramme von NV sind eindeutig:

GK208: http://technewspedia.com/wp-content/uploads/2013/07/25877_GK208-arch.jpg
GK107: http://images.bit-tech.net/content_images/2012/10/evga-geforce-gtx-650-1gb-review/gk107b.jpg

Ailuros

2014-02-09, 16:46:24

Dann steht da Mist, genauso wie mit den 24 TMUs für GK107 ganz links im Diagramm.

Die offiziellen Diagramme von NV sind eindeutig:

GK208: http://technewspedia.com/wp-content/uploads/2013/07/25877_GK208-arch.jpg
GK107: http://images.bit-tech.net/content_images/2012/10/evga-geforce-gtx-650-1gb-review/gk107b.jpg

Ich bin mir aber so sicher wie ich mir sein kann dass GK208 in KAYLA mit Absicht benutzt wurde eben damit es so nahe wie moeglich an GK20A liegen wird. Ja natuerlich sind die 24 TMUs falsch fuer GK107 aber die obrigen Diagramme sagen mir auch nichts da ich leider nichts offizielles von NV finden kann ueber GK208.

http://www.hardwareluxx.com/index.php/news/hardware/vgacards/26920-nvidias-gk208-gpu-built-in-geforce-gt-640-and-gt-630.html

The larger model uses a GPU with the exact name "GK208-400" and like its predecessor, it features 384 CUDA cores and 32 TMUs. Since, however, there is only a 64-bit memory interface, the number of grid amplifiers is reduced from formerly 16 to now eight units.

Frag mich aber nicht was unter dem letzten Satz verstehen soll...

Undertaker

2014-02-09, 16:55:32

Ich bin mir aber so sicher wie ich mir sein kann dass GK208 in KAYLA mit Absicht benutzt wurde eben damit es so nahe wie moeglich an GK20A liegen wird. Ja natuerlich sind die 24 TMUs falsch fuer GK107 aber die obrigen Diagramme sagen mir auch nichts da ich leider nichts offizielles von NV finden kann ueber GK208.

GK208 ist abseits der doppelten TMU-Anzahl pro SMX noch immer sehr nah an K1, zumindest näher als jeder andere Kepler-Chip. Die obigen Diagramme stammen definitiv von Nvidia und zeigen (am unteren Rand des SMX, blaue Rechtecke) genau die jeweils 2x 16 TMUs – das dürfte also schon stimmen. Und passt auch zur Performance. ;)

mczak

2014-02-10, 04:19:13

GK208 ist abseits der doppelten TMU-Anzahl pro SMX noch immer sehr nah an K1, zumindest näher als jeder andere Kepler-Chip. Die obigen Diagramme stammen definitiv von Nvidia und zeigen (am unteren Rand des SMX, blaue Rechtecke) genau die jeweils 2x 16 TMUs – das dürfte also schon stimmen. Und passt auch zur Performance. ;)
Die haben doch bloss das Diagramm kopiert. Laut den Spezifikationen der GT 630 sind's jedenfalls bloss 16 TMUs, und das ist genau so offiziell.
http://www.geforce.com/hardware/desktop-gpus/geforce-gt-630/specifications
Leider hat sich kein einziger der (wenigen) HW-Tester dieser Karte je die Mühe gemacht da mal z.B. den 3dmark Texture Fill Test laufen zu lassen, und ich war nicht sonderlich erfolgreich in der Online-Datenbank passende Resultate zu finden...
Aber diese halbe Texturfüllrate findet man jedenfalls relativ konsequent bei allen Karten die als gk208 zu identifizieren sind - auch gt635 oem, gt640 gddr5.
http://www.geforce.com/hardware/desktop-gpus/geforce-gt640/specifications
http://www.geforce.com/hardware/desktop-gpus/geforce-gt-635-oem/specifications
Bis zum Beweis des Gegenteils gehe ich jedenfalls weiterhin davon aus dass gk208 nur 8 TMUs pro SMX hat.

Ailuros

2014-02-10, 06:50:32

Wieso konnte ich Depp die 640/630er (GK208) Seiten nicht finden? Auf jeden Fall gibt es also doch offizielle NV Dokumentation dafuer und die reicht mir persoenlich aus.

Ich hatte die 8 TMU/SMX Geschichte sowieso von einer privaten Debatte in der Vergangenheit mit jemand bei NV, aber da auch dort typos moeglich sind war ich mir nicht sicher was damit los ist. Mehr als 8 TMUs/SMX waere ja auch ziemlich grosser Bloedsinn fuer Tegras; die naechste Generation mit dem Maxwell Enkelkind wird ja 2 SMXs haben.

Um jetzt nochmal auf das vorige zurueckzukommen bei 6 SIMD32 und 4 quad TMUs pro SMX waeren Aufteilungen von 4 und 2 moeglich, wobei mir das letzte am wahrscheinlichsten klingt.

AnarchX

2014-02-10, 17:32:52

Interessante Details aus der CUDA.dll:
It’s now clearly exposed in NVCUDA.DLL v334.67

push offset D__cuda_arch_8 ; “-D__CUDA_ARCH__=500″
push offset Maxwell ; “Maxwell”
push offset Compute_50 ; “compute_50″

The lab rats at NVIDIA are already playing with a bunch of Maxwells
GM206 GM204 GM200 GM108 GM107

Also CC 3.2 has been removed, instead CC 3.7 appears. I guess that’s the CC of “Aries” or “Mary-Kate” and “Ashley”.
http://www.geeks3d.com/20140208/gpu-caps-viewer-1-20-0-test-version-new-online-gpu-database-with-opengl-and-opencl-info/#comment-37277

Offenbar kein GM104 - weiterer 28nm Maxwell, oberhalb von GM107.

Undertaker

2014-02-10, 17:40:53

Aber diese halbe Texturfüllrate findet man jedenfalls relativ konsequent bei allen Karten die als gk208 zu identifizieren sind - auch gt635 oem, gt640 gddr5.
http://www.geforce.com/hardware/desktop-gpus/geforce-gt640/specifications
http://www.geforce.com/hardware/desktop-gpus/geforce-gt-635-oem/specifications
Bis zum Beweis des Gegenteils gehe ich jedenfalls weiterhin davon aus dass gk208 nur 8 TMUs pro SMX hat.

Hmm, das ist natürlich schon ein gewichtiger Gegenpunkt. Offensichtlich herrscht da auch bei NV selbst einige Unklarheit. :D Bisher dachte ich doch, dass den Diagrammen zu trauen ist... Egal, haken wir das Thema ab.

Ailuros

2014-02-10, 18:25:46

Interessante Details aus der CUDA.dll:

http://www.geeks3d.com/20140208/gpu-caps-viewer-1-20-0-test-version-new-online-gpu-database-with-opengl-and-opencl-info/#comment-37277

Offenbar kein GM104 - weiterer 28nm Maxwell, oberhalb von GM107.

Hmmm dann wird auch GM200 der top dog sein (uhhmmm huraaaahhhhh kein "GM210" ergo gibt es diesmal keinen "GM200 wurde storniert Duenschiss") :P

Timbaloo

2014-02-10, 19:39:33

Hmmm, kommen dann alle GM2xx in 20SoC? Oder vielleicht auch welche gleich in 16FF? War ja immer recht ruhig um Maxwell@20SoC... Wie "weit" ist denn 16FF im Äther schon?

Gaestle

2014-02-10, 20:36:20

Interessante Details aus der CUDA.dll:

http://www.geeks3d.com/20140208/gpu-caps-viewer-1-20-0-test-version-new-online-gpu-database-with-opengl-and-opencl-info/#comment-37277

Offenbar kein GM104 - weiterer 28nm Maxwell, oberhalb von GM107.

Ist das glaubwürdig?
Wenn ja, bedeutet das schon die existenz von echten chips, oder bekommt man sowas auch per simulation?

Hugo78

2014-02-10, 21:48:03

Nach all der Zeit die ins Land gezogen ist seit Kepler, wird die Maxwell Reihe mehr oder weniger fertig entwickelt sein,
nur 20nm ist noch immer nicht wirtschaftlich. Und Nvidia baut keine Chips ohne Marge.

Gaestle

2014-02-10, 21:58:50

Nach all der Zeit die ins Land gezogen ist seit Kepler, wird die Maxwell Reihe mehr oder weniger fertig entwickelt sein,
nur 20nm ist noch immer nicht wirtschaftlich. Und Nvidia baut keine Chips ohne Marge.

Die Frage ist ja, was vom genannten auch auf 20nm debutiert. Vielleicht gibt es ja ein/zwei/drei/vier Chips aus der Liste mit Debut in 28nm. Also die Dinger kleiner als GM200.

Aber ich entnehme Deiner Antwort, dass Du es für glaubwürdig hältst und es dann auf realen Chips basiert (und nicht nur Simulation).

Hugo78

2014-02-10, 22:12:59

Ich geh davon aus das man Prototypen in 20nm zum testen hat, allein schon weil man sowas für Tegra M1 nächstes Jahr braucht.

AnarchX

2014-02-10, 22:31:24

Da gibt es wohl eine Alternative zu den SP-Zahlen:
http://www.xtremesystems.org/forums/showthread.php?288406-Asus-GTX-Titan-Black-Edition-listing-spotted&p=5225652&viewfull=1#post5225652
640SPs für die 750 Ti
512SPs für die 750 Non-Ti
-> daraus ergäben sich eventuell SMX mit nur 128SPs, die ähnlich wie GF100/110 auf Super-Skalarität verzichten und deutlich mehr realen Durchsatz erreichen könnten als Kepler: http://www.forum-3dcenter.org/vbulletin/showthread.php?p=9301536#post9301536

Ich geh davon aus das man Prototypen in 20nm zum testen hat, allein schon weil man sowas für Tegra M1 nächstes Jahr braucht.
DLL-Einträge bzw. Einträge im Treibercode müssen nicht unbedingt vorliegendes Silizium bedeuten. Aber das da noch kein GM104 auftaucht, macht es sehr wahrscheinlich das 107/108 die einzeigen GM1xx bleiben werden.

Hugo78

2014-02-10, 23:25:25

Hmm weniger Kerne würden sehr einfach die Flächenersparnis erklären, und das 640 Maxwell Kerne bei 1/3 weniger Bandbreite, aber ~10% mehr Takt, fast 650 Ti Boost Level mit 768 Kepler SPs erreichen, klingt auch nicht so unglaublich.

Aber ein höherer Durchsatz widerspricht mMn. dem was der eine NV Chefentwickler zur kommenden "Einstein" Basis sagte.
Er meinte in Vereinfachung der Kerne + mehr Parallelisierung + kurze Datenwege, darin liege der Schlüssel zu mehr Perf/W.

Also mehr Kerne, aber kleinere Kerne bei weniger Komplexität...

Thunder99

2014-02-11, 01:46:30

Damit ist AMD mit ihren CPU´s auf die Schnauze gefallen. Gut bei GPU Berechnungen gibt es das Problem nicht so aber die Kerne müssen auch versorgt werden. Es bleibt spannend was dabei raus kommt

Schaffe89

2014-02-11, 02:18:11

Und was ist mit dem einen der behauptet die 750 ( Ti ) basiert nur auf einem Kepler mit Prozessoptimierung? Kann man das völlig streichen?

Ailuros

2014-02-11, 07:46:53

Und was ist mit dem einen der behauptet die 750 ( Ti ) basiert nur auf einem Kepler mit Prozessoptimierung? Kann man das völlig streichen?

Wenn man so viel aus einem Prozess holen koennte wuerde es nicht alle 3 Jahre sondern alle 5 Jahre eine neue Generation geben.

Da gibt es wohl eine Alternative zu den SP-Zahlen:
http://www.xtremesystems.org/forums/showthread.php?288406-Asus-GTX-Titan-Black-Edition-listing-spotted&p=5225652&viewfull=1#post5225652
640SPs für die 750 Ti
512SPs für die 750 Non-Ti
-> daraus ergäben sich eventuell SMX mit nur 128SPs, die ähnlich wie GF100/110 auf Super-Skalarität verzichten und deutlich mehr realen Durchsatz erreichen könnten als Kepler: http://www.forum-3dcenter.org/vbulletin/showthread.php?p=9301536#post9301536

Momentchen klingt ja super auf ersten Blick, aber was passiert mit TMUs genau in dem Fall? Mit 4 quad TMUs/SMX waechst mir das TMU<->ALU ratio viel zu stark fuer meine Vorstellung und mit 2 quad TMUs/SMX hab ich eine vergleichbare Anzahl beim "GM200" wie bei GK110. Der zweite Fall aber mit "ueber-TMUs"?

Hmm weniger Kerne würden sehr einfach die Flächenersparnis erklären, und das 640 Maxwell Kerne bei 1/3 weniger Bandbreite, aber ~10% mehr Takt, fast 650 Ti Boost Level mit 768 Kepler SPs erreichen, klingt auch nicht so unglaublich.

Aber ein höherer Durchsatz widerspricht mMn. dem was der eine NV Chefentwickler zur kommenden "Einstein" Basis sagte.
Er meinte in Vereinfachung der Kerne + mehr Parallelisierung + kurze Datenwege, darin liege der Schlüssel zu mehr Perf/W.

Also mehr Kerne, aber kleinere Kerne bei weniger Komplexität...

Tja es wird wohl fuer die restlichen ~7 Tage bis zum launch noch ein hin und her geben, aber dass SMXs gleich gross waeren in Maxwell wie bei Kepler waere wohl eine zu einfache Loesung zum Raetsel, man kann sie aber noch nicht ausschliessen.

Sonst ja ging Dally's Vorschlag zwar in die Richtung fuer "project Echelon", Exascale bzw. Einstein fuer =/>2017 aber man sollte nicht vergessen dass es nur eine spekulative Studie war und keine feste roadmap. Nach Maxwell kommt Volta erstmal womoeglich unter 10FF TSMC, wobei Dally komischerweise fuer "10nm" schaetzte mit Echelon.

Es macht natuerlich Sinn als Konzept aber das mit den TMUs sitzt schon ein bisschen komisch, aber mir ist es wiederrum auch wieder lieber wenn die Implementierung von TMUs diesmal effizienter wird als am Ende die heutigen bei bis zu ~450 Stueck zu haben.

Coda

2014-02-11, 08:37:15

128 ALUs mit vier Quad-TMUs ist doch super. In Zukunft braucht man eher mehr ALU-Leistung.

Ailuros

2014-02-11, 08:46:37

128 ALUs mit vier Quad-TMUs ist doch super. In Zukunft braucht man eher mehr ALU-Leistung.

Sarkasmus? :confused:

Hugo

2014-02-11, 09:07:26

128 ALUs mit vier Quad-TMUs ist doch super. In Zukunft braucht man eher mehr ALU-Leistung.

sind das nicht ein wenig viel TMUs :confused:
Bei angenommen 2560 ALUs wären das 320 TMUs

Ailuros

2014-02-11, 09:53:53

sind das nicht ein wenig viel TMUs :confused:
Bei angenommen 2560 ALUs wären das 320 TMUs

Es werden "so viele" TMUs selbst wenn es 192 oder mehr SPs pro SMX waeren. Das Problem bei 128SPs/16TMUs (gegen 192SPs/16TMUs) ist dass auf ersten Blick man ploetzlich weniger arithmetik im Vergleich zu Fuellrate hat, waehrend eigentlich das erste eher weiterhin skalieren sollte (sagt ja auch Coda in seinem zweiten Satz).

Ausnahme waere wenn jegliche SP ueber mehr als 2 FLOPs faehig waere; im Fall von 2 FMACs/SP ergo 4 FLOPs hat man natuerlich dann wieder eine Steigerung der arithmetik gegenueber der Fuellrate. Der Haken dann wieder ist dass ~2.5 TFLOPs fuer einen GM107 ziemlich uebertrieben klingen *seufz*

Coda

2014-02-11, 10:15:29

Sarkasmus? :confused:
Ich meinte zwei Quad-TMUs, sorry.

Meine Prognose: Eine CU hat vier mal 16 ALUs mit 2 Takten/Instruction/Stage, zwei Warp-Scheduler und eine Quad TMU. Dazu eventuell eine oder zwei 32-Bit-Skalar-ALUs. Dann braucht man auch kein komisches Co-Issue mehr - außer für die Scalar-Ops, wenn man das einführt.

Wie man das mit den GPCs in Einklang bringt ist eine andere Frage. Evtl. 4 CUs/Polymorph.

Ailuros

2014-02-11, 11:01:46

Ok so rum geht's natuerlich. Das mit den GPCs koennen sie doch sowieso variabel anlegen wenn sie wollen; es gibt keine Regel dass man die gleiche Anzahl von SMX/GPC von top to bottom haben muss.

AnarchX

2014-02-11, 14:29:17

Vielleicht wirklich mehr als ein FPU pro CUDA-Core? Bei Echelon waren ja da mal 3 pro CC projiziert wurden.
2011 hatte Theo auch etwas von 256SPs für Denver Maxwell gehört: http://www.brightsideofnews.com/news/2011/7/18/1st-silicon-with-nvidia-project-denver-is-an-8-core-arm2c-256-cuda-core-apu.aspx

Der Sprung bei CUDA von Compute 3.x auf 5.0 ist ja auch ein ziemlich deutlicher, sodass tiefgreifende Veränderungen denkbar sind.

Coda

2014-02-11, 15:07:58

Vielleicht wirklich mehr als ein FPU pro CUDA-Core?
Kann man machen, aber das Co-Issue in Kepler erfüllt eigentlich den gleichen Zweck, außer dass das Scheduling etwas flexibler ist.

Übrigens ist das FPU pro CUDA-Core ziemlich verwirrend auf das bezogen wie die Hardware wirklich strukturiert ist. CUDA-Core ist ein reiner Marketing-Begriff, das ist einfach eine SIMD-ALU. Was du also vorschlägst wäre effektiv VLIW ähnlich wie bei AMD früher.

Hugo

2014-02-11, 15:08:36

@AnarchX

falls ein SMX 128SPs hat, könnte Maxwell Denver einfach 2 SMX haben oder?

Mandalore

2014-02-11, 16:44:29

Kann es sein, falls ein SMX wirklich nur 128CCs besitzt, dass Nvidia hier das Design der Cores (grundlegend) verändert hat?

AnarchX

2014-02-11, 17:59:02

PedantOne scheint nun auch von den 640 CC auf der 750 Ti überzeugt zu sein:
KIDSUAN - YES, you are right, CUDAS are 640, there is problem with number of CUDAs in SMX, it is different then kepler, and manufacturers/GPUz are reading it wrong!
http://www.xtremesystems.org/forums/showthread.php?288406-Asus-GTX-Titan-Black-Edition-listing-spotted&p=5225708&viewfull=1#post5225708

-/\-CruNcher-/\-

2014-02-11, 18:02:57

Also ich würde eher dem da vertrauen als W1zzards Software ;)

Mandalore

2014-02-11, 18:11:47

PedantOne scheint nun auch von den 640 CC auf der 750 Ti überzeugt zu sein:

http://www.xtremesystems.org/forums/showthread.php?288406-Asus-GTX-Titan-Black-Edition-listing-spotted&p=5225708&viewfull=1#post5225708

Kann das OBR sein ;D:freak:;D? Also sein AMD Gehate habe ich vorhin gelesen, das klingt echt nach ihm xD

Nakai

2014-02-11, 18:18:08

Kann das OBR sein ;D:freak:;D? Also sein AMD Gehate habe ich vorhin gelesen, das klingt echt nach ihm xD

Du steht mit dieser Meinung nicht alleine da. ;)

Ailuros

2014-02-11, 18:44:03

Du steht mit dieser Meinung nicht alleine da. ;)

Schhhhhh nicht so laut; sonst steht 3DC morgen wieder in den Medien. Das wahnwitzige ist dass jemand anders im auf die Pfoten treten musste damit er angeblich sein "material" nachstoeberte um herauszufinden dass er die ganze Zeit 33% weniger ALUs "verpasst" hat.

Coda

2014-02-11, 18:48:28

Bekomm ich nen Keks, wenn ich recht hab? :)

AnarchX

2014-02-11, 18:59:30

Für nur 40 TMUs erscheint die Leistung aber doch etwas hoch? Vielleicht hat man es geschafft 3 Quads zu verbauen?

Ailuros

2014-02-11, 19:07:25

Für nur 40 TMUs erscheint die Leistung aber doch etwas hoch? Vielleicht hat man es geschafft 3 Quads zu verbauen?

Wieso? Ein paar Seiten zurueck und es stellte sich heraus dass GK208 wohl doch "nur" 16 TMUs hat gegen 32 im GK107. Halb so schlimm aber wenn man keinen Fuellraten-test laufen laesst merkt man es auch nicht so leicht.

Und wie gesagt es koennten auch effizientere TMUs sein wie bei Fermi vs. Vorgaenger.

Bekomm ich nen Keks, wenn ich recht hab? :)

Den goenn ich Dir schon jetzt selbst wenn Du nicht recht haben solltest ;)

Mandalore

2014-02-11, 20:09:01

Schhhhhh nicht so laut; sonst steht 3DC morgen wieder in den Medien. Das wahnwitzige ist dass jemand anders im auf die Pfoten treten musste damit er angeblich sein "material" nachstoeberte um herauszufinden dass er die ganze Zeit 33% weniger ALUs "verpasst" hat.

Du meinst mehr anstatt weniger oder?!:redface:

Was denkt ihr Pros eigentlich über diese 128er SMX?

Kann es sein, dass man hier mit weniger mehr erreicht durch (vllt. massive) Änderungen an der Architektur bzw. Chip-Design? Oder hat das vllt. ganz andere Gründe:confused::confused:

Ailuros

2014-02-11, 21:07:29

Du meinst mehr anstatt weniger oder?!:redface:

Glas halbvoll oder halbleer? Kann durchaus sein dass ich es falsch ausgedrueckt habe.

Was denkt ihr Pros eigentlich über diese 128er SMX?

Kann es sein, dass man hier mit weniger mehr erreicht durch (vllt. massive) Änderungen an der Architektur bzw. Chip-Design? Oder hat das vllt. ganz andere Gründe:confused::confused:

In ein paar Tagen werden wird wir vielleicht etwas weisser. Die 128-er SMX klingen mir auf jeden Fall soweit gut.

Coda

2014-02-11, 22:13:35

Kann es sein, dass man hier mit weniger mehr erreicht durch (vllt. massive) Änderungen an der Architektur bzw. Chip-Design? Oder hat das vllt. ganz andere Gründe:confused::confused:
ALUs/SMX ist kein Performance-Indikator in irgendeiner weise. AMD hat seit R600 nur 64 oder 80 pro CU.

boxleitnerb

2014-02-11, 22:51:00

Ich denke er meint die 640 vs 960 ALUs.

Coda

2014-02-11, 23:20:45

Bei 128 ALUs pro SMX denke ich sind es 2 oder 4 Warp-Scheduler. Mit Dual-Issue könnte man die 128 theoretisch auch mit zwei trotzdem voll bekommen. Oder es ist VLIW 2 und der Compiler kümmert sich drum.

Bleibt spannend was sie wirklich gemacht haben am Ende.

Ailuros

2014-02-11, 23:42:36

Bei 128 ALUs pro SMX denke ich sind es 2 oder 4 Warp-Scheduler. Mit Dual-Issue könnte man die 128 theoretisch auch mit zwei trotzdem voll bekommen. Oder es ist VLIW 2 und der Compiler kümmert sich drum.

Bleibt spannend was sie wirklich gemacht haben am Ende.

Mit schaetzungsweise 28 SMXs und 64 FP64 SPs/SMX erreichen sie ihr DP FLOPs/W Ziel fuer Maxwell mehr oder weniger. Nur sind dann 28 * 128SPs * 2FLOPs * 0.9GHz = 6.45 TFLOPs FP32.....hmmmmm :rolleyes:

Skysnake

2014-02-12, 08:25:47

Du meinst mehr anstatt weniger oder?!:redface:

Was denkt ihr Pros eigentlich über diese 128er SMX?

Kann es sein, dass man hier mit weniger mehr erreicht durch (vllt. massive) Änderungen an der Architektur bzw. Chip-Design? Oder hat das vllt. ganz andere Gründe:confused::confused:
Die Warpsheduler bringen ja Komplexität rein. Da wären kleinere SMX schon vorteilhaft. Der Hacken darin ist, dann hat man wieder mehr SMX...

Kurz um, so einfach lässt sich das nicht sagen. Ich gehe aber von 256 oder 128 ALUs-SMX aus.

Registergräöße/ALU und auch L1+Shared/ALU werden aber wohl sinken. L2 könnte dafür wachsen.

fondness

2014-02-12, 12:31:54

Interessante Folie von ARM, die zeigt das auch noch in 2015 der 28nm Prozess pro Transistor billiger sein wird als der 20nm Prozess:

http://imagizer.imageshack.us/v2/xq90/836/w17q.png (https://imageshack.com/i/n8w17qp)

Ich bin gespannt wann wir die ersten 20nm Chips sehen werden, womöglich deutlich später als viele denken.

Godmode

2014-02-12, 12:36:31

Interessante Folie von ARM, die zeigt das auch noch in 2015 der 28nm Prozess pro Transistor billiger sein wird als der 20nm Prozess:

http://imagizer.imageshack.us/v2/xq90/836/w17q.png (https://imageshack.com/i/n8w17qp)

Ich bin gespannt wann wir die ersten 20nm Chips sehen werden, womöglich deutlich später als viele denken.

Ich denke du wirst recht behalten. Wenn jetzt wirklich noch eine Titan Black Edition kommt, dann ist das schon ein eindeutiges Zeichen für die Verspätung. Vor 2015 hätte ich mit GM100 nicht gerechnet, aber wenn man sich das jetzt ansieht, könnte es eben auch Q3-Q4 2015 sein. Mit 28nm Maxwell Chips könnte man gut durch das Jahr 2014 kommen und 2015 gehts dann mit den kleineren 20nm Maxwells los. In der Mitte von 2015 dann GM104 auf 20nm und den Großen dann Ende 2015.

Duplex

2014-02-12, 13:00:41

Wenn man 2014 keine 20nm Chips bringen wird, dann kann man 2015 gleich auf 16nm (20FF) gehen und 20SOC überspringen.

Godmode

2014-02-12, 13:35:20

Wenn man 2014 keine 20nm Chips bringen wird, dann kann man 2015 gleich auf 16nm (20FF) gehen und 20SOC überspringen.

Aber 20FF wird nicht einfacher sein, als 20SOC oder doch?

Dawn on Titan

2014-02-12, 14:56:10

Im Normalfall ändert sich an der Reihenfolge der Prozesse gar nichts, allerdings verschiebt sich der Zeitpunkt an dem ein Wechsel in kleineren Prozess wirtschaftlich sinnvoll ist auf der Zeitschiene weiter nach hinten. 20mmFF wird wahrscheinlich auch nicht sofort mit tollen Yields, billigen Wafern und massig Volumen antreten.

-/\-CruNcher-/\-

2014-02-12, 15:04:45

Interessante Folie von ARM, die zeigt das auch noch in 2015 der 28nm Prozess pro Transistor billiger sein wird als der 20nm Prozess:

http://imagizer.imageshack.us/v2/xq90/836/w17q.png (https://imageshack.com/i/n8w17qp)

Ich bin gespannt wann wir die ersten 20nm Chips sehen werden, womöglich deutlich später als viele denken.

Macht absolut sinn der Aufwand ist einfach extrem hoch geworden und steht Wirtschaftlich momentan in keiner Relation mehr (Quantenproblematik) .

die 22nm von Intel sind schon das schönste was du kriegst, da hat Intel einen schönen Research Vorteil den sie auch momentan voll nutzen um etwas aufzuholen :)

mczak

2014-02-12, 15:36:55

Interessante Folie von ARM, die zeigt das auch noch in 2015 der 28nm Prozess pro Transistor billiger sein wird als der 20nm Prozess:

Ich bin gespannt wann wir die ersten 20nm Chips sehen werden, womöglich deutlich später als viele denken.
Naja also laut dem Bild sind die Kosten/Transistor praktisch identisch, das gilt selbst für die FinFETs. Und wenn die behaupteten 25% weniger Stromverbrauch auch bloss nur zur Hälfte realisiert werden würde sich das schon längst lohnen (für neue Designs). Das geht natürlich davon aus dass die effektiven Kosten dann aber auch tatsächlich ähnlich sind und nicht wegen z.B. schlechter Yields dann plötztlich 50% höher...

HOT

2014-02-12, 15:38:17

Wenn man 2014 keine 20nm Chips bringen wird, dann kann man 2015 gleich auf 16nm (20FF) gehen und 20SOC überspringen.
Exakt. Nur ein Mal Entwicklungskosten für eine ganze Reihe an Chips, die dann wieder 3-4 Jahre halten. 20nm planar ist einfach zu unrentabel.

Nakai

2014-02-12, 15:41:50

Naja es gibt auch viele verschiedene 28nm-Prozesse. Das ARM den 28nm-Prozess bewirbt, ist bei der ARM-Architektur kein bisschen verwunderlich. Ein A15 oder sogar ein A57 sind jetzt auch nicht wirklich "groß". Bis jetzt sind auch fast nur LowPower-Designs mit ARM-Kernen entwickelt worden. AMD könnte hier die ersten ARM-SOCs mit einem höherem Stromverbrauch bringen. Eigentlich ist da schon noch Luft nach oben.

@Ail:
Mit schaetzungsweise 28 SMXs und 64 FP64 SPs/SMX erreichen sie ihr DP FLOPs/W Ziel fuer Maxwell mehr oder weniger. Nur sind dann 28 * 128SPs * 2FLOPs * 0.9GHz = 6.45 TFLOPs FP32.....hmmmmm

;D

Ein blindes Huhn findet auch ein Korn, würde mich nicht wundern, wenn das näher an der Realität war, als erwartet.

Ich denk,e man geht auf 128SPs-SMX und 2 Quad-TMUs.
Wenn 640SPs stimmen, sind 5 solche SMX verbaut. Bei 2 GPCs und 2 ROP-Partitionen(hoffentlich doppelter L2-Cache) ist der GM107 schon ziemlich stark. Mit ~150mm2 ist auch genug Platz für einen 20nm shrink ohne das SI dramatisch zu beschneiden.
Für DP wird man wieder auf dedizierte DP-Einheiten setzen, auch um Energie zu sparen. Eine SIMD8-16 für DP würde reichen und wäre schon stärker als die Consumer-Kepler.

Ailuros

2014-02-12, 16:24:20

Wenn man 2014 keine 20nm Chips bringen wird, dann kann man 2015 gleich auf 16nm (20FF) gehen und 20SOC überspringen.

Und man wartet bis H2 2015 fuer anstaendige Kapazitaeten oder was?

@Ail:
;D

Ein blindes Huhn findet auch ein Korn, würde mich nicht wundern, wenn das näher an der Realität war, als erwartet.

Ich denk,e man geht auf 128SPs-SMX und 2 Quad-TMUs.
Wenn 640SPs stimmen, sind 5 solche SMX verbaut. Bei 2 GPCs und 2 ROP-Partitionen(hoffentlich doppelter L2-Cache) ist der GM107 schon ziemlich stark. Mit ~150mm2 ist auch genug Platz für einen 20nm shrink ohne das SI dramatisch zu beschneiden.
Für DP wird man wieder auf dedizierte DP-Einheiten setzen, auch um Energie zu sparen. Eine SIMD8-16 für DP würde reichen und wäre schon stärker als die Consumer-Kepler.

So sicher bin ich mir darueber gar nicht, eben weil die FP32 Rate von Maxwell viel zu nahe an Kepler liegt. Abwarten und Tee trinken.

AnarchX

2014-02-12, 16:47:53

28 SMX sind auch etwas wenig für einen 550mm² 20nm Chip.
GK110 hat 7,5 mal soviel ALUs wie ein GK107. Und ähnlich groß dürfte auch ein GM107 Shrink @ 20nm sein.

Ein Vollausbau könnte da eher bei 36 SMX (4608SPs / ~8,3 TFLOPs) liegen.

btw.
High-Res-Bilder der GTX 750: http://www.chinadiy.com.cn/html/48/n-13048.html
Wohl Boost bis zu 1,2GHz.

fondness

2014-02-12, 16:57:07

btw.
High-Res-Bilder der GTX 750: http://www.chinadiy.com.cn/html/48/n-13048.html
Wohl Boost bis zu 1,2GHz.

Ähm das Ding hat einen Stromanschluss obwohl non-Ti? Ich dachte es hieß beide hätten keinen externen Stromanschluss?
Damit sieht die Sache schon ganz anders aus, denn das ermöglicht bis zu 150W TDP.

http://imagizer.imageshack.us/v2/xq90/199/s0jh.jpg (https://imageshack.com/i/5js0jhj)

GM107-300-A2 zumindest Maxwell sollte damit bestätigt sein.

http://imagizer.imageshack.us/v2/xq90/839/1kmq.jpg (https://imageshack.com/i/nb1kmqj)

Ailuros

2014-02-12, 16:57:30

28 SMX sind auch etwas wenig für einen 550mm² 20nm Chip.
GK110 hat 7,5 mal soviel ALUs wie ein GK107. Und ähnlich groß dürfte auch ein GM107 Shrink @ 20nm sein.

Ein Vollausbau könnte da eher bei 36 SMX (4608SPs / ~8,3 TFLOPs) liegen.

btw.
High-Res-Bilder der GTX 750: http://www.chinadiy.com.cn/html/48/n-13048.html
Wohl Boost bis zu 1,2GHz.

Mit oder ohne Denver cores? :tongue:

Nakai

2014-02-12, 16:58:26

Mhh, die SMX bei GK110 sind auch größer wegen DP, und kleinster Kepler-Chip ist GK208(~<90mm²). Aber du liegst schon richtig, GM210 wird definitiv mehr als 4000SPs haben. Ich erwarte auch von Maxwell deutlich flexiblere Konfiguration der SMXs, man will ja Maxwell irgendwie auch im SOC-Bereich einsetzen.

Ailuros

2014-02-12, 17:04:24

Ähm das Ding hat einen Stromanschluss obwohl non-Ti? Ich dachte es hieß beide hätten keinen externen Stromanschluss?
Damit sieht die Sache schon ganz anders aus, denn das ermöglicht bis zu 150W TDP.

GM107-300-A2 zumindest Maxwell sollte damit bestätigt sein.

Schon bevor das Geruecht erschien dass GM107 keinen Stromanschluss brauchen verwies ich auf folgendes:

http://www.geforce.co.uk/hardware/desktop-gpus/geforce-gtx-650/specifications

Muessen wir uns steht im Kreis drehen oder ist es zu schwer einzusehen dass solche vorzeitige Schlussfolgerungen nichts bringen?

Nakai

2014-02-12, 17:10:29

Die Karte ist putzig. :freak:

Ein Stromstecker sagt gar nichts aus. Es geht auch darum, dass eine qualitative Stromversorgung gewährleistet wird. Besser als den Saft direkt vom Netzteil zu bekommen, gibt es nun mal nicht.

€: Die Hersteller haben einfach interne Vorgaben, wie etwas auszusehen hat. Bevor eine Karte final ist, muss die natürlich validiert werden. Fertigungsschwankungen, eventuelle temperatur- o. elektrostatischbedingte Abweichungen, Abweichungen bei der Kühlung, Unterschiede bei der Stromversorgung, etc... Grundsätzlich sollte man sich auf die Spezifikationen des Herstellers verlassen können.

Mandalore

2014-02-12, 17:25:51

Vor kurzem meinte PendantOne aka OBR (xD), dass diese Karten keine Maxwell-Karten sein werden, sondern Kepler-Chips mit Maxwell-Bezeichnung.

Jetzt auf einmal hat er seine Meinung geändert, dass es doch maxwells sind, die "wahren" Maxwells aber später kommen:freak:

Außerdem "bestätigt" er, dass die GTX 750 (Ti) keine ARM-Cores haben werden.

Hugo

2014-02-12, 17:50:04

Mit oder ohne Denver cores? :tongue:

Hat denn jeder Maxwell Denver Cores? :confused::confused:

Botcruscher

2014-02-12, 17:53:19

Die "wahren" Maxwells sind dann wohl 20nm in irgendwann. Den Stromstecker halten wir nach den doch etwas euphorischen Leistungen im Auge.

Ailuros

2014-02-12, 17:55:14

Vor kurzem meinte PendantOne aka OBR (xD), dass diese Karten keine Maxwell-Karten sein werden, sondern Kepler-Chips mit Maxwell-Bezeichnung.

Jetzt auf einmal hat er seine Meinung geändert, dass es doch maxwells sind, die "wahren" Maxwells aber später kommen:freak:

Außerdem "bestätigt" er, dass die GTX 750 (Ti) keine ARM-Cores haben werden.

Das dumme ist dass er tatsaechlich von NV Material bekommt; das aendert natuerlich leider nichts an allem anderen :P

Hat denn jeder Maxwell Denver Cores? :confused::confused:

IMHO (und nein sicher bin ich mir nicht) wenn dann nur der top dog.

Coda

2014-02-12, 17:57:21

Hat denn jeder Maxwell Denver Cores? :confused::confused:
Ich würde eher fragen ob überhaupt ein reiner GPU-Maxwell-Chip Denver-Cores bekommt. Ich bin da nach wie vor skeptisch.

Mandalore

2014-02-12, 18:09:36

Also videocardz.com wurde auch "überrascht" (die ja ihre Geschichten bis aufs Letzte um alles verteidigt haben) und der Typ will näheres in Kürze veröffentlichen, da er selbst überrascht wurde da Maxwell "Completly redesigned" wurde laut seiner Aussage und es selbst die Hersteller es bis zuletzt nicht wussten.

Quelle: http://videocardz.com/49581/asus-geforce-gtx-750-series-detailed-plus-real-specs-gm107

fondness

2014-02-12, 18:33:19

Ein Maxwell SMX hat also nur noch 128SPs.

Coda

2014-02-12, 18:33:50

Woraus schließt du das? Es können auch 1, 2, 4, 5, 8, 10, 16, 20, 32, 40, 64, 80, 160, 320 oder 640 sein :tongue:

Aber ernsthaft, ich würde auch 64 noch nicht ausschließen.

fondness

2014-02-12, 18:36:40

Woraus schließt du das?

GPU-Z liest 960SPs aus, der Typ sagt das ist ein Auslesefehler und es sind in Wahrheit 640SPs.
GPU-Z geht natürlich von 192SPs pro SMX aus, bei 128SPs pro SMX würde es passen.

AnarchX

2014-02-12, 18:40:38

Der Treiber könnte auch die falsche Zahl (bewusst) liefern. Das hatte NV schon mal bei Fermi gemacht. GPU-Z liest wohl auch an dieser Schnittstelle aus.
Aber in der Tat sieht es danach aus, als das einer 192er Basis statt der korrekten? 128er Basis genutzt wurde.

fondness

2014-02-12, 18:44:27

AFAIK meldet der Treiber die Anzahl der SMX, die SP-Anzahl rechnet sich GPU-Z selbst aus.
Wenn der Treiber also die korrekte SMX-Anzahl meldet liegt der Grund für den Auslesenfehler bei einer SMX Schrumpfung von 192SPs auf 128SPs.

Ailuros

2014-02-12, 19:15:57

Woraus schließt du das? Es können auch 1, 2, 4, 5, 8, 10, 16, 20, 32, 40, 64, 80, 160, 320 oder 640 sein :tongue:

Aber ernsthaft, ich würde auch 64 noch nicht ausschließen.

Und warum bitte schoen nicht 160 hm? :P

Hübie

2014-02-12, 19:41:46

Hat das schon jemand gelesen:

NVIDIA Maxwell SteamOS Machine with up to 16 Denver CPU Cores and 1 Million Draw Calls (http://www.onlivespot.com/2014/01/nvidia-maxwell-steamos-machine-with-up.html)

Ist schon etwas älter aber egal. Ich schwankte immer zwischen Lachen, Tränen und Aha... :|

Liest GPU-Z über NVAPI die Anzahl der GPC aus und multipliziert daraus? Die Anzahl einzelner SMx kann man afaik bei Kepler (und älter) nicht auslesen. Gibts nicht sowas wie MSR auf GPUs? Die Lügen ja nicht...

Godmode

2014-02-12, 19:59:37

Ich könnte mir schon vorstellen, dass man durch die Integration der CPU Cores in die GPU einiges spart, aber das es soviel sein soll, glaube ich nicht. Man hätte keinen PCIe Bus mehr und GPU CPU würde auf die selben Caches zugreifen, oder?

Der reine Rechenteil von Haswell hat genau wie viele mm2?

Gipsel

2014-02-12, 20:06:22

Die 128SPs würden insofern Sinn machen, als das mann Platz und Leakage spart, aber praktisch kaum Performance verliert. Die Keplers schaffen nämlich aufgrund von Registerportbeschränkungen offenbar in der Praxis gar nicht mehr als 128 FMAs pro Takt und SMx. Gab zumindest mal low level-Tests dazu.

-/\-CruNcher-/\-

2014-02-12, 20:13:02

Die könnten jetzt ja noch alles mögliche reingepackt haben also targeten sie doch die selbe TDP, sind die benchmarks auch hinfällig ?

Wie wo was sie machen GameWorks Compute sachen in der mini CPU um latency zu reduzieren denke mal das heist den alten 200 mhz part der einige Power Managing aufgaben erledigt hat haben sie komplett entsorgt ?

Haben sie etwa den ganzen Effizienz gewinn in Compute gebuttert wie ich es erhofte ?

Wollen die The Witcher 3 etwa sehr akzeptabel auf der 750 zum laufen kriegen ?

Mandalore

2014-02-12, 20:19:43

Der Poster von videocardz möchte heute einen seiner Meinung nach sehr interessanten Artikel über die Maxwell-Architektur bringen, vllt. werden dann ja einige Fragen beantwortet.

Was richtig genial wäre, wenn man vllt. dieses Mal einen 2. G80 bringen würde. Rein vom Namensschema würde es ja passen (2006:Geforce 8800GTX, 2014/15: Geforce GTX 880)

MfG

Timbaloo

2014-02-12, 20:30:44

(2006:Geforce 8800GTX, 2014/15: Geforce GTX 880)
Wenn NV so weitermacht, dann wird der GM106 die 880 :freak:

-/\-CruNcher-/\-

2014-02-12, 20:39:12

Auf den Asus Kartons von der 750/750 Ti ist das The Witcher 3: Wild Hunt logo :D

Mandalore

2014-02-12, 20:47:29

Auf dem Asus Karton ist das The Witcher 3: Wild Hunt logo :D

Ich dachte da wäre irgendein Anime-Zeug drauf:freak::freak:

Irgendjemand hatte hier vor kurzem berichtet, dass The Witcher 3 irgendeinen massiven Nutzen von CUDA6 zieht. Vielleicht ist das ja eine indirekte Bestätigung:D

-/\-CruNcher-/\-

2014-02-12, 20:51:10

Nvidia will etwas wie AMD mit TombRaider kreieren dazu haben sie sich CD Projekt und die brandneue Red Engine 3 ausgesucht :)

Allerdings wollen sie das was in Tomb Raider gezeigt wurde (TressFX) toppen (Square Enix,Nixxes,AMD,Wolfgang Engel), darauf haben sie hin gearbeitet in ihrem R&D team und das bedeutet sie brauchen sehr effizientes Compute :)

Hugo

2014-02-12, 21:04:48

Ich würde eher fragen ob überhaupt ein reiner GPU-Maxwell-Chip Denver-Cores bekommt. Ich bin da nach wie vor skeptisch.
Ich frag mich was ein Denver Core in einer GPU verloren hat.

Mandalore

2014-02-12, 21:08:00

Ich frag mich was ein Denver Core in einer GPU verloren hat.

Es hieß in einem Artikel darüber, dass diese Denver-Cores zu einer (hohen?) Entlastung des Hauptprozessors führen. Wer weiß obs stimmt.

-/\-CruNcher-/\-

2014-02-12, 21:09:40

Hugo aus dem Reverse Engineering für Linux weiss mann das da schon zumindestens seit Fermi eine CPU drin schlummert samt einem RTOS 200 mhz die verschiedene management aufgaben übernimmt, und ein paar crypto sachen anscheinend :)
Ich glaube das war niemandem wirklich bekannt man wusste eigentlich nur von dem 400 mhz DSP jo und wie gesagt zur Entlastung der CPU und bei kleineren pre compute sachen vielleicht sogar von der GPU selbst villeicht wird sie auch benötigt für das ganze UMA management.

Mandalore

2014-02-12, 21:53:56

So der interessante Artikel ist da!

http://videocardz.com/49557/exclusive-nvidia-maxwell-gm107-architecture-unveiled

AwesomeSauce

2014-02-12, 22:33:08

Klingt, als hätte er einfach die Infos aus diesem Thread zusammenkompiliert:freak:

Timbaloo

2014-02-12, 22:35:42

60W klingt echt krass.

fondness

2014-02-12, 22:41:54

Wie schon erwartet also die 128SPs pro SMX. Doppelte Perf/Watt im selben Herstellungsprozess wäre natürlich stark, zeigt wie schön öfter erwähnt dass des Design wesentlich wichtiger ist wie von vielen angenommen.

Mandalore

2014-02-12, 22:50:13

Wie schon erwartet also die 128SPs pro SMX. Doppelte Perf/Watt im selben Herstellungsprozess wäre natürlich stark, zeigt wie schön öfter erwähnt dass des Design wesentlich wichtiger ist wie von vielen angenommen.

Meinst du die Architektur oder wirklich das Design des Chips an sich?

AnarchX

2014-02-12, 22:53:15

Wie schon erwartet also die 128SPs pro SMX. Doppelte Perf/Watt im selben Herstellungsprozess wäre natürlich stark, zeigt wie schön öfter erwähnt dass des Design wesentlich wichtiger ist wie von vielen angenommen.
Gegenüber GK107 erhöht man aber wohl trotzdem die reinen FLOPs / Watt um gute 60-70%.
Aber wenn das Diagramm authentisch sein sollte. Dann wurde hier wohl massiv auf realen Durchsatz optimiert, wo es bei Kepler teilweise Probleme gab:
SIMD16 statt SIMD32 ALUs und einen Instruction-Cache für je 2 ALUs anstatt je 6 bei Kepler, wie einen Shared-Cache für je 4 ALUs anstatt 6 bei Kepler.

fondness

2014-02-12, 22:57:12

Mehr Cache bedeutet vor allem wesentlich weniger Speicherzugriffe - und Speicherzugriffe sind teuer was den Stromverbrauch betrifft. Der L2 Cache wurde angeblich von 256KB auf 2MB fast verzehnfacht. Das dürfte für einen guten Teil des besseren Perf/Watt verantwortlich sein.

Hugo78

2014-02-12, 23:08:11

Die Infos schauen solide aus.
Bleibt nur noch die Frage nach 28HP oder 28HPM.

Und irgendwie erinnern mich die neuen 4*32 SMs an GNC ... *done right* X-D

Skysnake

2014-02-12, 23:09:20

Jup, das sollte sich ziemlich hart bemerkbar machen, kannste bei nem Bigchip aber in die Tonne treten. Zumindest unter 28nm.

von Richthofen

2014-02-12, 23:13:38

Man macht ja ganz schön dicke Backen bei Videocardz mit dem Spruch

GM107 will replace GK107 with a performance of GeForce GTX 480

Wenn man's genau nimmt stimmt das aber sogar fast.
Die 480 leicht schneller als die 5870. Die wiederum gleich schnell zur 560 Ti und letztlich die 650 Ti Boost wieder ein kleines Stück schneller als diese unterwegs.
Laut den bekannten Benches wird die 650 Ti Boost allerdings ja nicht ganz erreicht.

AnarchX

2014-02-12, 23:16:07

GM107 has a die size of 148mm2

As opposed to previous leaks, the die size of GM107 is even smaller, not 156 but 148mm2. Compared to GK107 the density of CUDAs per mm2 has increased roughly by 30%. The density of transistors increased by 15%. Remember, this is all on the same fabrication process.
http://videocardz.com/49557/exclusive-nvidia-maxwell-gm107-architecture-unveiled

Da stimmt man mit TPU wohl überein: http://www.techpowerup.com/gpudb/1986/geforce-gtx-750.html

Man impliziert aber auch den Transistorcount, der wohl bei 1,87 Mrd. liegen sollte.

Nakai

2014-02-12, 23:18:03

Endlich fängt man an mehr Cache einzubauen. Wurde auch mal Zeit...

Die höhere Perf/Watt wird sich im mobile Bereich bemerkbar machen. Mal gucken, wann AMD Tonga hierfür rausbringt. ;)

Coda

2014-02-12, 23:19:58

Ich frag mich was ein Denver Core in einer GPU verloren hat.
Das Ding ist, dass sie eigentlich keine zwei 500mm²-Chips bauen wollen und für HPC ergibt es Sinn.

fondness

2014-02-12, 23:34:56

http://videocardz.com/49557/exclusive-nvidia-maxwell-gm107-architecture-unveiled

Da stimmt man mit TPU wohl überein: http://www.techpowerup.com/gpudb/1986/geforce-gtx-750.html

Man impliziert aber auch den Transistorcount, der wohl bei 1,87 Mrd. liegen sollte.

Ein Bonaire von AMD hat bei ähnlicher Performance 2,08 Mrd Transistoren bei 160mm² und verbraucht >80W, hier hat AMD also definitiv Aufholbedarf wenn sich das alles bewahrheitet.
Allerdings sollte 28m HPm auch was bringen wenn er verwendet wurde.

Coda

2014-02-13, 00:00:08

Told you so. Sieht sogar danach aus als hätte eine CU sogar nur 32 ALUs. Vermutlich 4xSIMD8 mit zwei Warp-Schedulern. SMM ist nicht mehr die CU, das haben sie auch wir prognostiziert feiner aufgesplittet.

Das sieht auch wie erwartet ziemlich ähnlich aus wie GCN.

Kekse?

Sunrise

2014-02-13, 00:07:13

Hat denn jeder Maxwell Denver Cores? :confused::confused:
Hatten (http://www.forum-3dcenter.org/vbulletin/showthread.php?p=10083200#post10083200) wir alles schon.

Aufgrund der Annahme von mir, dass die Denver-Cores wohl auf 20nm(FinFET) optimiert sind, wird das wohl bis GM2xx dauern, bis wir die Dinger sehen. Das sind dann sozusagen die "richtigen" Maxwell-Ableger, was auch endlich mal erklären würde, warum hier in 28nm und 20nm(FinFET) aufgeteilt wurde. Das ganze hatte sich aber schon indirekt bei der K1-Präsentation abgezeichnet. Ganze 16 Denver-Cores fände ich aber schon ziemlich brachial für den Top-Dog, da will NV wohl zwei Fliegen (HPC/Gaming) wieder mit einer Klappe (er)schlagen. Die Dinger wären dann erstens wohl sogar noch kleiner als geschätzt und das Potenzial zusammen mit der Flexibilität/Programmierbarkeit wird sicher extrem interessant, da könnte ich mir so einiges vorstellen.

NV will hier u.a. wohl auch die eigenen libraries optimal HW-seitig beschleunigen und vor allem physics/compute weiter stark ausbauen, da dürfte so einiges möglich werden, was aktuell nicht sinnvoll umsetzbar ist.

Akkarin

2014-02-13, 00:08:09

Wenn ich richtig rechne (148/118*1.15*1.3b) müsste das teil ~1.8-1.9 b Transistoren haben.

Nakai

2014-02-13, 00:49:49

Told you so. Sieht sogar danach aus als hätte eine CU sogar nur 32 ALUs. Vermutlich 4xSIMD8 mit zwei Warp-Schedulern. SMM ist nicht mehr die CU, das haben sie auch wir prognostiziert feiner aufgesplittet.

Das sieht auch wie erwartet ziemlich ähnlich aus wie GCN.

Kekse?

Mhh, wieviele Scheduler hat eine CU bei GCN? 4?

Für mich ist eine SMM eher eine QuadEngine bei GCN(bis zu 4 CUs). Interessant ist, dass die Textureinheiten außerhalb der CU liegen, was darauf schließen lässt, dass für andere SKUs die Anzahl der CUs in einer SMM noch skalierbar wäre.

Für DP schätze ich einfach mal den Weg, den AMD geht. SPs loopen lassen.

Karma_Zhong

2014-02-13, 02:21:28

Also waren alle bisherigen "Screenshots" und "Leaks" nur FUD?
Ich werde so schnell nix mehr in einen Spekulationsthread posten, ist ja wie Russisch Roulette mit einer vollständig geladenen Waffe.

Ein Bonaire von AMD hat bei ähnlicher Performance 2,08 Mrd Transistoren bei 160mm² und verbraucht >80W, hier hat AMD also definitiv Aufholbedarf wenn sich das alles bewahrheitet.

Wieso Aufholbedarf? Der Chip kam doch schon letztes Frühjahr, und wenn sie Volcanic Island zum Herbst mit neuen Modellen nach unten abrunden sollten, liegen sie im Releasezyklus 1 Jahr vor Nv, statt 6 Monate dahinter :D

Doch wieder spekuliert :biggrin:

Nachtrag: die Benchmarkwerte sind meist aus dem 3DQuark und zielen auf die Shaderleistung ab, aber wenn Nv die TMUs halbiert hat, dann haben sie in Spielebenches doch das Nachsehen, oder nicht? Jedenfalls hatten sie früher immer die TMUs und ROPs aufgestockt um ja vorne zu bleiben. Im Einsteigerbereich kann man das mit dem Cache überdecken, wg der wegfallenden Speicherzugriffe, aber wie sieht es bei der Performance-Klasse aus? Das dürfte später mal etwas "zwicken"

Ailuros

2014-02-13, 06:38:40

Wie gesagt von 28HP zu 28HPm ist der Unterschied um die 15%, ungefaehr die Hälfte 28HP - 20SoC.

Dawn on Titan

2014-02-13, 07:12:33

Die einzig spannende Frage ist nun: Gibt es GM104 oder gibt es ihn nicht?

AnarchX

2014-02-13, 07:53:17

Die einzig spannende Frage ist nun: Gibt es GM104 oder gibt es ihn nicht?
Wohl eher nicht: http://www.forum-3dcenter.org/vbulletin/showthread.php?p=10104950#post10104950

Nachtrag: die Benchmarkwerte sind meist aus dem 3DQuark und zielen auf die Shaderleistung ab, aber wenn Nv die TMUs halbiert hat, dann haben sie in Spielebenches doch das Nachsehen, oder nicht? Jedenfalls hatten sie früher immer die TMUs und ROPs aufgestockt um ja vorne zu bleiben. Im Einsteigerbereich kann man das mit dem Cache überdecken, wg der wegfallenden Speicherzugriffe, aber wie sieht es bei der Performance-Klasse aus? Das dürfte später mal etwas "zwicken"
Die bekannten Benchmark Ratings der GTX 750 (Ti) enthalten aber auch Spiele. Insofern scheint die geringe Texelfüllrate kein Nachteil zu sein.
Zumal man ja nicht weiß, wozu die TMUs fähig sind. Eventuell trilineare Filterung in einem Takt?

Told you so. Sieht sogar danach aus als hätte eine CU sogar nur 32 ALUs. Vermutlich 4xSIMD8 mit zwei Warp-Schedulern. SMM ist nicht mehr die CU, das haben sie auch wir prognostiziert feiner aufgesplittet.

Sieht das nicht eher nach 2x SIMD16 und einem Dual-Issue-Scheduler aus?

Ailuros

2014-02-13, 08:02:08

Tri-TMUs kann man zwar nicht ausschliessen, aber sind die nicht ziemlich teuer ueberhaupt im Vergleich zu wieviel bilinearer Inhalt noch herumschwirrt?

Vielleicht koennen Coda & Gipsel etwas helfen, aber seit Fermi wurden die TMUs in die cluster eingebaut. Kann es sein dass auch hier die Daten-stroeme verkuerzt haben um eine hoehere Effizienz zu erreichen oder ist es nur Bloedsinn?

***edit: holen wir mal das Diagramm rein:

http://videocardz.com/49557/exclusive-nvidia-maxwell-gm107-architecture-unveiled

http://videocardz.com/images/2014/02/Maxwell-GM107.png

Jeder SMM hat in dem Ding 4*SIMD32. Sind die 2 roten kleine Balken in jeglichem SIMD die scheduler?

Coda

2014-02-13, 09:26:34

Hab's mit dem Kepler-Diagram verglichen. Offenbar ist das Orange der Warp-Scheduler, d.h. nur einer pro CU.

Das interessante ist jetzt, dass AMD durch ihre Thread-Group-Größe von 64 die Quad-TMU in die CU integrieren kann. NVIDIA hat das Problem, dass sie 32er Thread-Groups haben, d.h. sie können keine 64er CU bauen ohne Dual-Warp-Scheduler, was ineffizient wird. Deshalb sehen wir jetzt eine Quad-TMU geteilt von zwei CUs. Das ist natürlich nicht ganz so optimal von den Datenpfaden. Aber bei Kepler waren die auch ganz schön lang bei den riesigen CUs. Insofern hatte ich mit meinen 64 ALUs auch fast recht, weil zwei CUs die Quad-TMU gemeinsam benutzen ;)

Fraglich bleibt wieviel Ports eine CU hat. Es gibt die Möglichkeit von 4xSIMD8, 2xSIMD16 oder 1xSIMD32. AMD benutzt vier SIMDs pro CU, damit sie 4 Takte pro Stage loopen können was ihnen Vorteile beim Store-Forwarding bringt (Gipsel weiß da mehr dazu). Außerdem glaube ich, dass das auch was mit DP zu tun hat. Interessant wäre jetzt was NVIDIA da gemacht hat, das sieht man am Block-Diagram leider nicht. Co-Issue ist aber wohl definitiv tot.

Auch sieht man nicht wieviele Load-Store- und Special-Function-Einheiten es gibt. Oder ob special function in die normalen ALUs integriert haben wie AMD.

Was auch komisch wirkt ist, dass sie nur einen Rasterizer für 5 SMM benutzen. Wahrscheinlich weil 5 nicht durch zwei teilbar ist und es schnell genug war ;)

-/\-CruNcher-/\-

2014-02-13, 09:44:04

Oh man ich kann reale tests nicht abwarten vor allen in Tomb Raider (mit fullscreen TressFX) im vergleich zu Kepler beim selben Power output (selbe consumer range) wird es interessant und auch bei AC4 und natürlich die optimierten Witcher 3 Ergebnisse :)

AffenJack

2014-02-13, 10:07:46

Was auch komisch wirkt ist, dass sie nur einen Rasterizer für 5 SMM benutzen. Wahrscheinlich weil 5 nicht durch zwei teilbar ist und es schnell genug war ;)

2 Rasterizer für 5 SMM wäre ja auch etwas übertrieben. Bei GK110 hat man ja auch nur 5. Hochskaliert auf ~30 SMM bei GM100 würde man ja bei 10-12 landen, dabei werden die aktuellen doch praktisch nie ausgelastet.

Dural

2014-02-13, 10:16:58

2MB L2 Cache bei eine so kleine chip finde ich aber auch krass.

Hübie

2014-02-13, 10:19:16

Hä? Wieso AC4?

Komisch finde ich die Anzahl pro GPC. Versaut man sich damit nicht schneller yields? Interessant wird auch was die nun am rasterizer gemacht haben. Vorher hatte man ein für zwei SMx und jetzt einen für fünf SMM. Also entweder das Teil ist voller Caches oder vielleicht intern modular.

@Coda: Gibt es nicht auch ein internes Rinbus-Protokoll (für Caches) was man effizienter gestalten kann (ähnlich SandyBridge<->Haswell) ohne die Anzahl der Ports deutlich zu steigern??

Edit: Ich habe mir übrigens den Artikel noch nicht durchlesen können ;)

fondness

2014-02-13, 11:18:33

Auch das ALU/TMU-Verhältnis entspricht jetzt dem von GCN, man hat sich also schon deutlich an AMD angenähert. Auch die Architektur als ganzen ist bis auf die halb so große Warp-Größe relativ ähnlich.

Coda

2014-02-13, 11:41:45

Was noch fehlt ist eine 32-Bit-Skalar-Einheit pro CU. Wobei sie die vielleicht auf dem Block-Diagram einfach weggelassen haben.

Komisch finde ich die Anzahl pro GPC. Versaut man sich damit nicht schneller yields? Interessant wird auch was die nun am rasterizer gemacht haben. Vorher hatte man ein für zwei SMx und jetzt einen für fünf SMM. Also entweder das Teil ist voller Caches oder vielleicht intern modular.
GK110 hatte einen Rasterizer für 3 SMX. Das war schon immer flexibel.

@Coda: Gibt es nicht auch ein internes Rinbus-Protokoll (für Caches) was man effizienter gestalten kann (ähnlich SandyBridge<->Haswell) ohne die Anzahl der Ports deutlich zu steigern??
Auf was bezieht sich das jetzt?

Hübie

2014-02-13, 11:48:53

Also wenn man mal die compute-Performance vergleicht hat AMD schon vor Jahren was richtig gemacht.
Mir sagte man Anfang 2013 dass nVidia in Zukunft GPGPU und Gaming stärker von einander trennen möchte. Vermutlich wird es also im Desktop (vorerst?) noch gar keine GPU mit CPU-cores geben. Allerdings weiß ich gar nicht ob das überhaupt modular zu lösen ist (natürlich immer mit Rücksicht auf die Kostenpunkte) oder ob man dann einfach per "lasercut" parts deaktiviert.

Was mir noch einfiel: GK104/107/110 hatten ja jeweils andere Aufteilungen bei den SMx / GPC. Das wird ja mit Maxwell nicht anders sein. Frage: Sind GPCs untereinander verbunden? AMDs CU sind 's oder?

Edit: @Coda: Auf den Umfang des Protokolls. Also was es alles beherrscht (foward, hold, busy etc). Der Ringbus arbeitet ja nach einem festen Prinzip und der L2$ ist doch ebenfalls an einem Ringbus angebunden oder bin ich auf dem Holzweg? Dann vergiss was ich sagte. ;D

Wo ist eigentlich Skysnake??? ;D Hab ihn schon ne Weile nicht gelesen :confused:

Mandalore

2014-02-13, 11:52:57

Ist die PolyMorph-Engine 2.0 neu?

Coda

2014-02-13, 11:55:51

Was mir noch einfiel: GK104/107/110 hatten ja jeweils andere Aufteilungen bei den SMx / GPC. Das wird ja mit Maxwell nicht anders sein. Frage: Sind GPCs untereinander verbunden? AMDs CU sind 's oder?
Ein NVIDIA GPC und eine AMD CU sind völlig unterschiedliche Dinge. Bei Kepler entspricht ein SMX einer AMD CU. Es gibt aber Load-Balancing zwischen den GPCs (http://www.highperformancegraphics.org/previous/www_2010/media/Hot3D/HPG2010_Hot3D_NVIDIA.pdf).

Bei Maxwell ist nicht mehr die SMM die eigentliche CU sondern die vier Untereinheiten.

Edit: @Coda: Auf den Umfang des Protokolls. Also was es alles beherrscht (foward, hold, busy etc). Der Ringbus arbeitet ja nach einem festen Prinzip und der L2$ ist doch ebenfalls an einem Ringbus angebunden oder bin ich auf dem Holzweg? Dann vergiss was ich sagte. ;D
Was für ein Protokoll? Was für ein Ringbus? Es gibt keinen Ringbus in AMD- oder NVIDIA-GPUs im Moment.

Ist die PolyMorph-Engine 2.0 neu?
Die gab es dem Namen nach schon bei Kepler.

Hübie

2014-02-13, 13:21:26

Deshalb sagte ich ja vergiss es falls das nicht der Fall ist. Irgendwer (:|) meinte aber dass der L2 nach Ringbus-Prinzip arbeitet. Gut das dass geklärt ist.
Danke für den link. Ist sehr interessant. Wusste gar nicht das Fermi schon eine workload crossbar hat. Bin aber auch nicht so in der Materie wie manch einer hier ;)
Ich lerne halt immer was dazu. Das ganze verstehen und begreifen tue ich aber noch lange nicht.

Ailuros

2014-02-13, 14:18:20

Mal was anderes: bei B3D gab es eine getroffene Frage ob Maxwell den gleichen interconnect haben wird wie Kepler und Fermi. Ich glaube dass es momentan ein crossbar ist bin mir aber nicht sicher; waere es nicht zu frueh fuer einen alternativen interconnect z.B. dragonfly?

mczak

2014-02-13, 14:20:54

2 Rasterizer für 5 SMM wäre ja auch etwas übertrieben. Bei GK110 hat man ja auch nur 5.
So übertrieben wäre das nicht. Das Teil soll ja fast gk106 Performance erreichen, und der hatte immerhin 3 Rasterizer für auch bloss 5 SMX. Gut das war etwas Overkill aber 2 wären es sicher nicht. Auch die Konkurrenz hat ja mit Bonaire 2.
Ist aber imho auch denkbar dass ein GPC mehr als 1 Tri/Clock hinkriegt. Wirklich nötig ist das aber wohl auch nicht. Extrem sinnvoll wäre aber bei bloss einem GPC wohl ein Rasterizer der 16 Pixel/Takt hinkriegt statt wie bisher bloss 8 (bei Kepler limitierte da je nach Chip sowieso auch der Pixel-Export der SMX die bloss 4 Pixel/Takt pro SMX liefern konnten, also bei gk107 auch nur 8 Pixel/Takt insgesamt, keine Ahnung wie das bei den SMM aussehen soll aber 4 scheint mir eine vernünftige Zahl zu sein, 1 pro Takt pro Subblock, das wären dann 20 insgesamt bei 5 SMM).

Ailuros

2014-02-13, 14:31:45

So übertrieben wäre das nicht. Das Teil soll ja fast gk106 Performance erreichen, und der hatte immerhin 3 Rasterizer für auch bloss 5 SMX. Gut das war etwas Overkill aber 2 wären es sicher nicht. Auch die Konkurrenz hat ja mit Bonaire 2.

Irgendwo muss die sinnlose herumschmeisserei mit raster/trisetup units aufhoeren. Einen GM107 oder auch Bonaire kann man sowieso nicht fuer ernsthafte Tessellation gebrauchen.

Ja GM107 soll GK106 Leistung erreichen, ist aber ein Ersatz fuer GK107 und nicht GK106.

Ist aber imho auch denkbar dass ein GPC mehr als 1 Tri/Clock hinkriegt. Wirklich nötig ist das aber wohl auch nicht. Extrem sinnvoll wäre aber bei bloss einem GPC wohl ein Rasterizer der 16 Pixel/Takt hinkriegt statt wie bisher bloss 8 (bei Kepler limitierte da je nach Chip sowieso auch der Pixel-Export der SMX die bloss 4 Pixel/Takt pro SMX liefern konnten, also bei gk107 auch nur 8 Pixel/Takt insgesamt, keine Ahnung wie das bei den SMM aussehen soll aber 4 scheint mir eine vernünftige Zahl zu sein, 1 pro Takt pro Subblock, das wären dann 20 insgesamt bei 5 SMM).

Das einzige fuer was die Unzahl an rasters/trisetups nutzvoll sind heutzutage ist irgend einen daemlichen Drachen in Unigine zu schaukeln oder Spiel-Szenen mit ueberfluessiger Tessellation zu ueberschwemmen. Wenn die ersten GM107 Unigine Resultate echt waren dann ist das Ding auf jeden Fall kein Tessellations-"Ereignis".

Ich wuerde es sinnvoller finden wenn NV endlich die ROPs vom MC entkoppelt hat. Mit 16 pixels/raster hast Du bei theoretischen =/>6 GPCs auf dem top dog theoretisch 96 pixels/clock. Fuer was?

Coda

2014-02-13, 14:43:40

Ich wuerde es sinnvoller finden wenn NV endlich die ROPs vom MC entkoppelt hat. Mit 16 pixels/raster hast Du bei theoretischen =/>6 GPCs auf dem top dog theoretisch 96 pixels/clock. Fuer was?
Der Crossbar könnte teurer sein als es einfach so zu lassen.

mczak

2014-02-13, 15:03:54

Ich wuerde es sinnvoller finden wenn NV endlich die ROPs vom MC entkoppelt hat. Mit 16 pixels/raster hast Du bei theoretischen =/>6 GPCs auf dem top dog theoretisch 96 pixels/clock. Fuer was?
Ist wohl wirklich nicht sinnvoll. Aber bloss 8 Pixel/Takt scheint mir extrem wenig zu sein für einen Chip dieser Leistungsklasse - gibt ja auch 16 ROPs (wobei dieses Missverhältnis nvidia noch nie gestört hat). Und wer sagt denn dass die GPC des High-End Chips exakt identisch sein müssen?
Glaube nicht dass eine Entkopplung von ROPs und MCs kommt. Das spart doch Energie.

Ailuros

2014-02-13, 15:04:35

Der Crossbar könnte teurer sein als es einfach so zu lassen.

Teurer als sagen wir mal 16 ROPs? Angenommen sie haben fuer den top dog ein 512bit SI geplant, koennte man nicht locker die 16 von den insgesamt 64 ROPs sparen?

Coda

2014-02-13, 15:12:44

Vermutlich ja. Vor allem säuft Daten herumschieben extrem viel Strom. NVIDIA ist ja nich doof, die werden das schon genau simuliert haben.

Gipsel

2014-02-13, 15:24:37

Bei Maxwell ist nicht mehr die SMM die eigentliche CU sondern die vier Untereinheiten.Was dann zwingend erfordern würde, daß jede der 4 Untereinheiten seine eigenen 32kB shared memory bekommt. Das wäre grob eine Vervierfachung zu Kepler (maximal 48kB für 192 ALUs, dann aber nur 16kB L1 oder 32/32 split). Da würde man dann mit AMD (64kB pro CU mit 64 ALUs) nominell gleichziehen. Da wird es interessant zu sehen, ob nV shared memory und L1 wieder aufteilt (oder jede Untereinheit z.B. jetzt die 64kB unified shared memory/L1 bekommt, den ein ganzer Kepler-SMx hatte).

Nakai

2014-02-13, 15:40:21

Was dann zwingend erfordern würde, daß jede der 4 Untereinheiten seine eigenen 32kB shared memory bekommt. Das wäre grob eine Vervierfachung zu Kepler (maximal 48kB für 192 ALUs, dann aber nur 16kB L1 oder 32/32 split). Da würde man dann mit AMD (64kB pro CU mit 64 ALUs) nominell gleichziehen. Da wird es interessant zu sehen, ob nV shared memory und L1 wieder aufteilt (oder jede Untereinheit z.B. jetzt die 64kB unified shared memory/L1 bekommt, den ein ganzer Kepler-SMx hatte).

Ich dachte mir beim neuen Maxwell-Aufbau eher, dass ein L3-Cache nicht unsinnvoll wäre. ;)
Wenn das Bildchen korrekt ist, dann sind die hellblauen Blöcke Caches.
Jede CU(also 32 SPs) wird wohl einen eigenen Instruction Cache bekommen(hellblauer Block über dem Orangenem). Bei den TMUs wird das wohl jeweils ein Texture Cache/ReadOnly Cache sein. Dann haben wir noch einen Block unter der PolymorphEngine und eine Block ganz unten. Eins davon wird definitiv ein L1-Cache(Shared) sein. Das andere könnte noch ein Uniform Cache oder ein globaler Instruction Cache sein. Ich hab hier auch einfach mal das Titan-Diagramm als Vergleich genommen.

€:
Was dann zwingend erfordern würde, daß jede der 4 Untereinheiten seine eigenen 32kB shared memory bekommt.

Sollte eigentlich so sein, außer eine SMM stellt einen globalen L1-Cache zur Verfügung. Aber durch die neuere Aufteilung der SMMs, finde ich eigentlich die Bezeichung des L2-Caches irgendwie falsch...mhh

fondness

2014-02-13, 16:27:12

Vermutlich ja. Vor allem säuft Daten herumschieben extrem viel Strom. NVIDIA ist ja nich doof, die werden das schon genau simuliert haben.

Umgekehrt könnte man genau so argumentieren warum AMD eine Crossbar verbaut - die sind hoffentlich auch nicht doof.

Coda

2014-02-13, 16:51:32

Was dann zwingend erfordern würde, daß jede der 4 Untereinheiten seine eigenen 32kB shared memory bekommt. Das wäre grob eine Vervierfachung zu Kepler (maximal 48kB für 192 ALUs, dann aber nur 16kB L1 oder 32/32 split). Da würde man dann mit AMD (64kB pro CU mit 64 ALUs) nominell gleichziehen. Da wird es interessant zu sehen, ob nV shared memory und L1 wieder aufteilt (oder jede Untereinheit z.B. jetzt die 64kB unified shared memory/L1 bekommt, den ein ganzer Kepler-SMx hatte).
Ich würde auf aufteilen tippen. Das wäre auch im Block-Diagram sichtbar mit den blauen Streifen.

Karma_Zhong

2014-02-13, 17:24:06

Die bekannten Benchmark Ratings der GTX 750 (Ti) enthalten aber auch Spiele. Insofern scheint die geringe Texelfüllrate kein Nachteil zu sein.
Zumal man ja nicht weiß, wozu die TMUs fähig sind. Eventuell trilineare Filterung in einem Takt?

Ich hab mal nach Benchmarks gesucht, allerdings war das eher mau. Sollte wccf sich nicht alle Werte selbst ausgedacht haben, dann schneidet GM107 nur in synthetischen Tests gut ab. Auweia.

http://cdn3.wccftech.com/wp-content/uploads/2014/01/GTX-750-Performance.jpg

Sunrise

2014-02-13, 17:34:05

Was auffällig ist, dass das Ding scheinbar abartige Frequenzen problemlos mitmacht, wenn man mal nach den wenigen inoffiziellen Infos gehen kann, die im Netz rumschwirren. Das sind teilweise zwar OC-Resultate, allerdings scheint hier trotz höherer Packdichte irgendwo extrem eingegriffen worden zu sein. Man hat ja schon bei GK110-B1 gemerkt, dass das Ding auf einmal deutlich mehr auf A1 draufpackt. Also entweder hat NV oder TSMC dort irgendwas umgestellt oder aber 28nm-Maxwell wurde auf 28nm HPM optimiert. Anders kann ich mir diese extreme Steigerung bei gleichzeitig relativ niedrigem Verbrauch und der hohen Packdichte nicht erklären.

Wobei man einschränken muss, dass Kepler und Maxwell ja so wohl nichtmehr ganz vergleichbar sind. Das ist also soweit eher ein Milchmädchen-Vergleich. Auffällig ist es aber IMHO trotzdem.

Für mehr brauchen wir allerdings mal ein paar ausführliche, ordentliche Tests.

AnarchX

2014-02-13, 17:40:11

Ich hab mal nach Benchmarks gesucht, allerdings war das eher mau. Sollte wccf sich nicht alle Werte selbst ausgedacht haben, dann schneidet GM107 nur in synthetischen Tests gut ab. Auweia.

http://cdn3.wccftech.com/wp-content/uploads/2014/01/GTX-750-Performance.jpg
Die Performance in diesem Spiele-Rating liegt doch dort, wo man sie erwartet? :|
Und ~260X Leistung mit 60W TDP, kleinerem Die und langsameren Speicher ist doch nicht so verkehrt?

mczak

2014-02-13, 17:52:05

Ich hab mal nach Benchmarks gesucht, allerdings war das eher mau. Sollte wccf sich nicht alle Werte selbst ausgedacht haben, dann schneidet GM107 nur in synthetischen Tests gut ab. Auweia.

Halte ich jetzt für nicht sonderlich erstaunlich, jedenfalls wenn sich die "lahmen" 5.4Ghz beim Speicher bewahrheiten sollten. Da hat man schlicht zu wenig Bandbreite - jedes Resultat schneller als HD7790 ist da schon ein Riesenerfolg.

Anders kann ich mir diese extreme Steigerung bei gleichzeitig relativ niedrigem Verbrauch und der hohen Packdichte nicht erklären.

Die Packdichte sieht zwar viel höher aus, aber da ja offenbar viel mehr L2-Cache und wohl auch mehr "Cache" innerhalb der SMM vorhanden zu sein scheint kommt diese Steigerung wohl nahezu "von selbst" zustande.

Sunrise

2014-02-13, 18:03:35

Die Packdichte sieht zwar viel höher aus, aber da ja offenbar viel mehr L2-Cache und wohl auch mehr "Cache" innerhalb der SMM vorhanden zu sein scheint kommt diese Steigerung wohl nahezu "von selbst" zustande.
Ja, stimmt, die größeren Caches hatte ich ganz vergessen. Hast Recht.

Hübie

2014-02-13, 18:55:13

Das ist also soweit eher ein Milchmädchen-Vergleich.

Was bitte ist ein Milchmädchen-Vergleich? :freak: :|

compare and choose your favorite:

http://abload.de/thumb/milchmdchenvergleichwvr4f.png (http://abload.de/image.php?img=milchmdchenvergleichwvr4f.png)

;D;D

b2t: Ohne Verbrauchsangaben lohnt der Balkenvergleich eh nicht. Wenn die Karte - übertrieben - nur 35 Watt verballert is doch alles latscho.

Sunrise

2014-02-13, 19:09:54

Was bitte ist ein Milchmädchen-Vergleich? :freak: :|

compare and choose your favorite:

http://abload.de/thumb/milchmdchenvergleichwvr4f.png (http://abload.de/image.php?img=milchmdchenvergleichwvr4f.png)

;D;D

b2t: Ohne Verbrauchsangaben lohnt der Balkenvergleich eh nicht. Wenn die Karte - übertrieben - nur 35 Watt verballert is doch alles latscho.
http://de.wikipedia.org/wiki/Milchmädchenrechnung

Deins gefällt mir aber besser. :D:P

Coda

2014-02-13, 19:33:39

Was auffällig ist, dass das Ding scheinbar abartige Frequenzen problemlos mitmacht, wenn man mal nach den wenigen inoffiziellen Infos gehen kann, die im Netz rumschwirren. Das sind teilweise zwar OC-Resultate, allerdings scheint hier trotz höherer Packdichte irgendwo extrem eingegriffen worden zu sein. Man hat ja schon bei GK110-B1 gemerkt, dass das Ding auf einmal deutlich mehr auf A1 draufpackt. Also entweder hat NV oder TSMC dort irgendwas umgestellt oder aber 28nm-Maxwell wurde auf 28nm HPM optimiert. Anders kann ich mir diese extreme Steigerung bei gleichzeitig relativ niedrigem Verbrauch und der hohen Packdichte nicht erklären.
Mein Eklärungsversuch dazu wäre, dass die einfachere Architektur einfach kürzere Datenpfade hat, was natürlich zu mehr Taktpotential führt.

Das nutzen sie aber nicht aus um stattdessen die Energieeffizienz zu erreichen die sie wollen.

Skysnake

2014-02-13, 21:16:54

@Coda:
Die kleineren SMX mit nur noch einen WAr-Sheduler machen Sinn. Das was nVidia da bisher gemacht hat, macht eigentlich keinen Sinn....

Ich habe da in den letzten Wochen/Monaten nochmals einiges bzgl nVidias Architektur aufgearbeitet, und das ist insbesondere mit Kepler einfach nur hässlich wie die Nacht...

Mir ist das so im Detail aber bisher gar nicht aufgefallen, weil ich seit Fermi kaum mehr was mit nVidia am Hut hatte bzgl Compute. Also wirklich selbst viel programmieren mein ich. Was ich gemacht habe habe ich eigentlich auf Tahiti gemacht, und das Ding ist einfach richtig richtig schön. Hawaii noch etwas mehr :biggrin: Außer dem zu kleinen L2 halt... :mad:

Was ihr auch völlig aus dem Auge gelassen habt bisher ist das Registerfile.

Ihr könnt einen drauf lassen, dass das kleiner werden wird als bisher. Das macht es auch einfacher dieses effizienter zu machen. GEnauso der L1/Shared Mem usw.

Coda du hast da auch absolut Recht mit den Datenpfaden. Man macht sich damit mit vielen Dingen das Leben einfacher.

Endlich fängt man an mehr Cache einzubauen. Wurde auch mal Zeit...

/SIGN!!!

Ich bin wegen Hawaii noch immer knatschig mit AMD, weil Sie den L2 nicht vergrößert haben :mad:

Komisch finde ich die Anzahl pro GPC. Versaut man sich damit nicht schneller yields? Interessant wird auch was die nun am rasterizer gemacht haben. Vorher hatte man ein für zwei SMx und jetzt einen für fünf SMM. Also entweder das Teil ist voller Caches oder vielleicht intern modular.

Weil einer leichter ist für die Workdistribution? Macht man nen Round Robin oder sonst was. MAn will halt sparen sparen sparen.

Scheis auf 0,x% LEistungsverlust, wenn du dadurch Y% mehr Perf/W raus bekommst.

@Coda: Gibt es nicht auch ein internes Rinbus-Protokoll (für Caches) was man effizienter gestalten kann (ähnlich SandyBridge<->Haswell) ohne die Anzahl der Ports deutlich zu steigern??

Edit: Ich habe mir übrigens den Artikel noch nicht durchlesen können ;)
Es gibt keinen Ringbus oder sonst ein Cacheprotokoll außerhalb einer CU/SMX.

Was mir noch einfiel: GK104/107/110 hatten ja jeweils andere Aufteilungen bei den SMx / GPC. Das wird ja mit Maxwell nicht anders sein. Frage: Sind GPCs untereinander verbunden? AMDs CU sind 's oder?

AMD und nVidia kannste da gar nicht vergleichen. AMD spielt dank GDS in ner ganz anderen Liga als nVidia, wenn Sie den denn auch endlich mal nutzbar machen würden :mad::P

Edit: @Coda: Auf den Umfang des Protokolls. Also was es alles beherrscht (foward, hold, busy etc). Der Ringbus arbeitet ja nach einem festen Prinzip und der L2$ ist doch ebenfalls an einem Ringbus angebunden oder bin ich auf dem Holzweg? Dann vergiss was ich sagte. ;D

Nochmal, es gibt kein Protokoll. Es wäre auch totaler Schwachsinn, weil dein Programmiermodell eben gar keine Cohärenz vorsieht!

Was du nur machen musst ist, die Daten, die ein Thread schreibt richtig zu verwalten. Aber das ist absolut kein Problem. WEnn sich die DAten ändern, dann ändern Sie sich halt, und wenns aus dem Cache raus fliegt, machste nen write Back. DAs wars.

Und wenn nen anderer Thread deine Daten antatscht ohne nen Sync, dann haste halt PECH! gehabt :ass:

Wenn du willst, dass die Daten nen gewissen Stand haben für nen anderen Thread des GLEICHEN! Blocks, dann musste syncen, und da werden eben alle Writes ausgeführt und dann erst weiter gearbeitet. Zudem kümmern sich ansonsten die Laod/Store units drum. (Dieses Detail habe ich btw. heute erst so richtig geschnallt :freak: Hatte ne längere Diskussion gestern und heute mit jemanden bzgl Codeoptimierung und Profiling, und wir hingen über den Kepler Whitepaper, da er zu wenig RAM-Performance raus bekommt...)

Und für die L2 brauchste keinen Bus. Das kann JEDES! L2 Slice für sich machen. Du packst die L2-Sices nämlich einfach vor die Mem-Controller und fertig. Dann gehen eh immer alle zugriffe für den RAM-Controller NUR! über den einen Slice. Ergo kein Cohärenzprotokoll nötig.

Wo ist eigentlich Skysnake??? ;D Hab ihn schon ne Weile nicht gelesen :confused:
10h arbeiten und sich dabei mit Cadence und analogem Schaltungsdesign rumschlagen...

Hübie

2014-02-13, 21:32:03

Ja dachte mir schon dass du viel zu tun hast ;) Das mit den Cache-Protokoll habe ich von CPUs gelernt und dachte halt es wird auch in GPUs angewandt. Aber das ist wohl wieder die Sache mit Äpfeln und Birnen ;D

Ich fange im Oktober an technische Informatik zu studieren und werde euch sicher noch oft mit Fragen löchern. Hennessy und Patterson hab ich mir als Grundlage schon mal ausgeliehen. Bin aber erst auf Seite 25 oder so ;D Finde es jetzt also um so spannender neue Architekturen zu zerpflücken. Ich hoffe dass das Verständnis dafür nach und nach von selber kommt :smile:

Edit: sorry for ot :redface:

Mandalore

2014-02-13, 21:57:54

Man erreicht also durch weniger ALUs mehr Power - Liegt das jetzt eher an den Verbesserungen wie den Cache oder kann man sagen, dass Nvidia die Kerne bearbeitet oder gar ersetzt hat?

Skysnake

2014-02-13, 22:17:04

Äpfel und Birnen ;)

Du wirst sicherlich nicht in jedem Fall immer schneller sein.

AnarchX

2014-02-14, 09:47:43

Da lag der Fehler bezüglich der SMM/SMX nicht allein bei GPU-Z:

Updated computation of core count for Maxwell
http://www.geeks3d.com/forums/index.php?topic=3392.0

fondness

2014-02-14, 09:49:11

Dann lag der Fehler sogar ausschließlich am NV-Treiber und GPU-Z ließt diesen wohl doch direkt aus. Auch egal.

AnarchX

2014-02-14, 10:00:15

Sofern es ein "Fehler" war. ;)

Aber im Notebook-Segment dürfte GM107 schon ziemlich überzeugen. Das bisherige 55-60W Angebot von NV ist da wohl gerade mal ein 768SPs GK106 mit ~650Mhz.
GM108 könnte wohl trotz 64-Bit DDR3 mit den vergrößerten L2-Cache gegenüber GK208 auch einiges an Performance gut machen.

Ärgerlich dass man den Desktop-Gamer nicht mit einer ansprechenden Lösung bedient: ~250mm² - 1280SPs, 256-Bit für vielleicht 200-250€. Mit so einer Lösung in den nächsten Monaten, hätte man durchaus ein starkes Konkurrenzprodukt gegen AMDs Rebrands auf ~2 Jahre alter Chip-Basis.

HOT

2014-02-14, 10:05:59

Mal was anderes: Wenn NV Maxwell so an die GCN-Organisation anpasst und DX11.2 kann, wie unwahrscheinlich ist dann noch ein Mantle-Treiber?

Die Performanceschätzungen auf der Hauptseite sind mMn Schwachsinn. Das Teil ist viel langsamer. NVs Vorteil bei vielen Benches mit Kepler vs. GCN ist doch vor allem die Texelleistung und die wird jetzt angepasst. Die Maxwell dürften ein relativ ähnliches Leistungsbild wie GCN haben. Und der größere L2 wird vor allem ein Tribut an die Computing-Leistung sein, wo GCN ja Lichtjahre voraus ist.

AnarchX

2014-02-14, 10:10:02

Mal was anderes: Wenn NV Maxwell so an die GCN-Organisation anpasst und DX11.2 kann, wie unwahrscheinlich ist dann noch ein Mantle-Treiber?
Auch wenn da auf der High-Level Ansicht sich einiges mehr ähnelt, ist der Weg zu einer Mantle-Unterstützung wohl immer noch ein weiter.

Die Performanceschätzungen auf der Hauptseite sind mMn Schwachsinn. Das Teil ist viel langsamer. NVs Vorteil bei vielen Benches mit Kepler vs. GCN ist doch vor allem die Texelleistung und die wird jetzt angepasst. Die Maxwell dürften ein relativ ähnliches Leistungsbild wie GCN haben. Und der größere L2 wird vor allem ein Tribut an die Computing-Leistung sein, wo GCN ja Lichtjahre voraus ist.
Diese "Schätzungen" basieren auf Benchmarks, die in Asien mit Karte durchgeführt wurden. Und bei den Preisen der ersten Listungen sollte/muss diese Leistung auch erreicht werden. Insofern ist die IPC wohl doch etwas höher als bei GCN1.0.

fondness

2014-02-14, 10:22:12

Ich bin auch noch auf weitere Performance-Messungen gespannt. Die Specs entsprechen praktisch eins zu eins einem Cap Verde wie er auf der HD7770 oder der 250X verbaut wird, nur der Takt ist höher.
Wird auch interessant zu sehen wie es mit der Compute-Leistung aussieht.

BTW, auf den Verpackungen fehlt jeder Hinweis auf DX11.2:

http://imagizer.imageshack.us/v2/xq90/543/vy7p.jpg (https://imageshack.com/i/f3vy7pj)

Timbaloo

2014-02-14, 10:43:50

Ärgerlich dass man den Desktop-Gamer nicht mit einer ansprechenden Lösung bedient: ~250mm² - 1280SPs, 256-Bit für vielleicht 200-250€. Mit so einer Lösung in den nächsten Monaten, hätte man durchaus ein starkes Konkurrenzprodukt gegen AMDs Rebrands auf ~2 Jahre alter Chip-Basis.
Das dachte ich mir auch. Ein GM106 wäre in 28nm günstig herzustellen und sollte durchaus was rocken.

Hugo

2014-02-14, 10:51:50

Ärgerlich dass man den Desktop-Gamer nicht mit einer ansprechenden Lösung bedient: ~250mm² - 1280SPs, 256-Bit für vielleicht 200-250€. Mit so einer Lösung in den nächsten Monaten, hätte man durchaus ein starkes Konkurrenzprodukt gegen AMDs Rebrands auf ~2 Jahre alter Chip-Basis.

sehe ich auch so wäre ein guter Gamerchip.
Vielleicht gibts sowas ala GM106? Oder steht das fest, dass es nur einen GM206 geben wird?

von Richthofen

2014-02-14, 12:33:37

Sofern es ein "Fehler" war. ;)
Ärgerlich dass man den Desktop-Gamer nicht mit einer ansprechenden Lösung bedient: ~250mm² - 1280SPs, 256-Bit für vielleicht 200-250€. Mit so einer Lösung in den nächsten Monaten, hätte man durchaus ein starkes Konkurrenzprodukt gegen AMDs Rebrands auf ~2 Jahre alter Chip-Basis.

Also ein doppelter GM107:

2*148 mm² - X . Wird etwas eng mit den 250 mm², aber...

...sollten allerdings 640 Shader wirklich ausreichen um performancetechnich auf Bonaire (896 Shader) zu landen, wären diese 42 % "Shadereffizienzvorsprung" aufgerechnet auf die kolportierten 1280 (~1860 AMD-Shader) genug, um mit diesem hypothetischen GM106 - ordnungsgemäßer Takt vorausgesetzt - in Tahiti-Regionen vorzustoßen :freak:

AnarchX

2014-02-14, 12:43:40

Also ein doppelter GM107:

2*148 mm² - X . Wird etwas eng mit den 250 mm², aber...

Bei einem Chip mit doppelten Ausführungseinheiten verdoppelt sich nicht alles, sodass man durchaus in dem Bereich landen könnte. (Siehe z.B. GK104 vs GK107 - 4x soviele SMX bei 2,5-er Die-Size)

Aber da der Treiber keinen weiteren GM1xx kennt, bleibt das ganz wohl nur eine reine Spekulation.

Hugo78

2014-02-14, 12:48:32

Der kommende Dienstag wird in jedem Fall spannend.
Und müssten die Redaktionen nicht schon ein Testmodell bekommen haben? ... Raff, Marc, Wolfgang? ... ja oder ja? :biggrin:

MechWOLLIer

2014-02-14, 14:18:18

Wovon redest du?:P

Raff

2014-02-14, 14:23:21

Nee, GM100 dauert noch etwas. ;)

MfG,
Raff

Schaffe89

2014-02-14, 14:40:49

Hrmpf, wenn der Verbrauch wirklich sogut ist, kommt die Karte in meinen Lan Rechner.
Dazu einen sparsamen i3 4330 und ab gehts.

Soll also heißen am Dienstag kommt kein Test? :(

Effe

2014-02-14, 15:10:07

Ehem, noch direkter kann man kein NDA zugeben. Zumindest entnehme ich das zwischen den Zeilen der Herren Redakteure.

y33H@

2014-02-14, 15:24:14

Schaffe89 ist kein Redakteur, der 18.02. aber ist ein Dienstag - ein typischer Tag für NV Produkte.

basix

2014-02-14, 18:53:53

Bei einem Chip mit doppelten Ausführungseinheiten verdoppelt sich nicht alles, sodass man durchaus in dem Bereich landen könnte. (Siehe z.B. GK104 vs GK107 - 4x soviele SMX bei 2,5-er Die-Size)

Du hast nicht unrecht, aber eines hast du ausser Acht gelassen: Zwar 4x soviele SMX aber nur doppelte Speicheranbindung (256 Bit / 128 Bit). Und gerade dort würde sich Faktor 4 sehr stark auf die Fläche auswirken ;)

Wenn man jetzt GM106 = 2x GM107 rechnet dann wächst halt auch das Speicherinterace 1 zu 1 mit. 250mm2 wäre eine starke Leistung.

boxleitnerb

2014-02-14, 23:56:44

Slides:
http://abload.de/thumb/geforce-gtx-750-ti-75wjj63.jpg (http://abload.de/image.php?img=geforce-gtx-750-ti-75wjj63.jpg) http://abload.de/thumb/nvidia-geforce-gtx-750xjo1.jpg (http://abload.de/image.php?img=nvidia-geforce-gtx-750xjo1.jpg) http://abload.de/thumb/nvidia-geforce-gtx-75oskkj.jpg (http://abload.de/image.php?img=nvidia-geforce-gtx-75oskkj.jpg) http://abload.de/thumb/nvidia-geforce-gtx-75kijfv.jpg (http://abload.de/image.php?img=nvidia-geforce-gtx-75kijfv.jpg) http://abload.de/thumb/nvidia-geforce-maxwelztj83.jpg (http://abload.de/image.php?img=nvidia-geforce-maxwelztj83.jpg) http://abload.de/thumb/nvidia-maxwell-1st-geykkx5.jpg (http://abload.de/image.php?img=nvidia-maxwell-1st-geykkx5.jpg)

Mehr Kontrolllogik pro SMX, was sagen die Experten dazu?

Ach ja, Quelle: http://wccftech.com/nvidia-maxwell-geforce-gtx-750-ti-gtx-750-official-specifications-confirmed-60watt-gpu-geforce-800-series-arrives-2014/

Sunrise

2014-02-15, 00:04:35

Der letzte Slide von boxleitnerb bestätigt übrigens das zuletzt Gesagte.

Dort heißt es:

Maxwell
1st Generation

Dennoch beeindruckend, das man unter 28nm schon mit 2X Performance/Watt auftrumpfen kann. Die 2nd Generation (die "richtigen" Maxwells) sollten das problemlos nochmal übertreffen. NV wird hier jetzt versuchen, die Vorteile vor allem bei Low-Power auszuspielen, da sie wissen, dass der Rest noch warten muss.

boxleitnerb

2014-02-15, 00:09:05

Glaube nicht, dass man 2x schafft. Cherrypicking wie es jeder macht. 50% mehr Perf/W sollte machbar sein - vor allem, wenn man als Vergleich die dort schwächeren Karten heranzieht zum Vergleich. Perf/W ist ja nicht über das gesamte Kepler-Lineup gleich...

Coda

2014-02-15, 00:10:00

Slides:
http://abload.de/thumb/geforce-gtx-750-ti-75wjj63.jpg (http://abload.de/image.php?img=geforce-gtx-750-ti-75wjj63.jpg) http://abload.de/thumb/nvidia-geforce-gtx-750xjo1.jpg (http://abload.de/image.php?img=nvidia-geforce-gtx-750xjo1.jpg) http://abload.de/thumb/nvidia-geforce-gtx-75oskkj.jpg (http://abload.de/image.php?img=nvidia-geforce-gtx-75oskkj.jpg) http://abload.de/thumb/nvidia-geforce-gtx-75kijfv.jpg (http://abload.de/image.php?img=nvidia-geforce-gtx-75kijfv.jpg) http://abload.de/thumb/nvidia-geforce-maxwelztj83.jpg (http://abload.de/image.php?img=nvidia-geforce-maxwelztj83.jpg) http://abload.de/thumb/nvidia-maxwell-1st-geykkx5.jpg (http://abload.de/image.php?img=nvidia-maxwell-1st-geykkx5.jpg)

Mehr Kontrolllogik pro SMX, was sagen die Experten dazu?

Ach ja, Quelle: http://wccftech.com/nvidia-maxwell-geforce-gtx-750-ti-gtx-750-official-specifications-confirmed-60watt-gpu-geforce-800-series-arrives-2014/
Das hab ich doch schon gesagt: Die SMM sind nicht mehr die Compute-Units, sondern die vier Untereinheiten.

Ailuros

2014-02-15, 00:15:16

Das hab ich doch schon gesagt: Die SMM sind nicht mehr die Compute-Units, sondern die vier Untereinheiten.

Schoen; wieso zaehle ich aber links 256SPs links und rechts 4*32? Keine dedizierten FP64 Einheiten mehr oder wie soll ich es verstehen?

Timbaloo

2014-02-15, 00:15:36

Also doch nur knapp über 1GHz. Die Zahlen die da teilweise genannt wurden (1.2GHz) kamen mir etwas seltsam vor.

Ailuros

2014-02-15, 00:18:29

Also doch nur knapp über 1GHz. Die Zahlen die da teilweise genannt wurden (1.2GHz) kamen mir etwas seltsam vor.

1.2 koennte locker der boost einer factory OCed Variante sein. Man braucht dann halt doch den 6pin Stecker.

AnarchX

2014-02-15, 00:22:34

Also doch nur knapp über 1GHz. Die Zahlen die da teilweise genannt wurden (1.2GHz) kamen mir etwas seltsam vor.
Der Maximalboost kann durchaus dort liegen, erst recht bei Designs mit 6-Pin.

"135%"
Also weiter 2 FLOPs pro CC, aber wohl keine superskalare Ausführung.

Skysnake

2014-02-15, 00:26:53

/sign

So wirds sehr wahrscheinlich sein.

Slides:
Mehr Kontrolllogik pro SMX, was sagen die Experten dazu?

Ach ja, Quelle: http://wccftech.com/nvidia-maxwell-geforce-gtx-750-ti-gtx-750-official-specifications-confirmed-60watt-gpu-geforce-800-series-arrives-2014/
Danke für die Folien :up:

Aber wie kommst du drauf, dass da MEHR Kontrollogik vorhanden ist?

Man hat ne feinere Unterteilung. Sprich man hat mehr unabhängige Einheiten, die getrenntvoneinander arbeiten können. Das sollte den Gesamtumfang an Kontrolligik sogar eher reduzieren, weil man eben wie schon gesagt, die Komplexität/Parallelität des Shedulings aus den SMX raus nimmt. Das ist durchaus sinnvoll.

Timbaloo

2014-02-15, 00:38:17

1.2 koennte locker der boost einer factory OCed Variante sein. Man braucht dann halt doch den 6pin Stecker.
Jo, das macht Sinn. Aber bei 60W halt nicht :P

Coda

2014-02-15, 00:51:33

Schoen; wieso zaehle ich aber links 256SPs links und rechts 4*32? Keine dedizierten FP64 Einheiten mehr oder wie soll ich es verstehen?
Ich geh stark davon aus, dass es kein dediziertes FP64 mehr gibt.

Ailuros

2014-02-15, 08:39:29

Ich geh stark davon aus, dass es kein dediziertes FP64 mehr gibt.

...und in einer Generation stellt sich heraus das die Kepler FP64 Masche Bloedsinn war oder was? Wenn ja dann hat wohl GM107 ein 1:16 ratio.

Skysnake

2014-02-15, 08:46:52

In meinen Augen war das eh von Anfang an ziemlich fragwürdig... Meine Meinung dazu kennen ja alle.

Es hat halt an sich allem Widersprochen, was Sie selbst propagiert haben.

AnarchX

2014-02-15, 08:56:48

Diverse GM107 / GM108 Devices:
NVIDIA_DEV.1342 = "NVIDIA N15S-GM-B"
NVIDIA_DEV.1343 = "NVIDIA N15S-GT"
NVIDIA_DEV.1344 = "NVIDIA N15S-GX1"
NVIDIA_DEV.136E = "NVIDIA GM108 CS1"
NVIDIA_DEV.136F = "NVIDIA GM108 INT131"
NVIDIA_DEV.137E = "NVIDIA GM108 CS1 "
NVIDIA_DEV.137F = "NVIDIA GM108 INT131 "
NVIDIA_DEV.1390 = "NVIDIA GeForce 845M"
NVIDIA_DEV.1393 = "NVIDIA GeForce 840M "
NVIDIA_DEV.1398 = "NVIDIA GeForce N15S-GT1R"
NVIDIA_DEV.13AD = "NVIDIA GM107 INT52"
NVIDIA_DEV.13AE = "NVIDIA GM107 CS1"
NVIDIA_DEV.13BE = "NVIDIA GM107 CS1 "
NVIDIA_DEV.13BF = "NVIDIA GM107 INT52 "
NVIDIA_DEV.1740 = "NVIDIA N15S-GM-S"
NVIDIA_DEV.1741 = "NVIDIA N15S-GT-S"
NVIDIA_DEV.1742 = "NVIDIA N15S-GM-B "
NVIDIA_DEV.1743 = "NVIDIA N15S-GT-B"
NVIDIA_DEV.1790 = "NVIDIA N15S-GX"
NVIDIA_DEV.1791 = "NVIDIA N15P-GT"
NVIDIA_DEV.1792 = "NVIDIA N15P-GX"
NVIDIA_DEV.17BE = "NVIDIA GM107 CS1 "
http://forums.laptopvideo2go.com/topic/30761-inf-v4146/

GM107 einmal als DEV.13 und einmals DEV.17? Zwei verschiedene Dies?

Ailuros

2014-02-15, 08:57:55

In meinen Augen war das eh von Anfang an ziemlich fragwürdig... Meine Meinung dazu kennen ja alle.

Es hat halt an sich allem Widersprochen, was Sie selbst propagiert haben.

Lass uns erstmal sehen ob dem so ist und am wichtigsten was sie genau angestellt haben und dann kannst Du frei endlos drueber rumkleckern :P

Skysnake

2014-02-15, 09:04:02

Wenn die "dedizierten" FP-Units weg sind, gibts ja nichts mehr zu meckern :tongue:

Schaumer einfach mal.

Coda

2014-02-15, 09:07:30

...und in einer Generation stellt sich heraus das die Kepler FP64 Masche Bloedsinn war oder was? Wenn ja dann hat wohl GM107 ein 1:16 ratio.
Bei Kepler war so manches komisch.

Ailuros

2014-02-15, 09:12:04

Wenn die "dedizierten" FP-Units weg sind, gibts ja nichts mehr zu meckern :tongue:

Schaumer einfach mal.

Die nehmen ja sooooooo viel Platz ein dass man darueber meckern muss. Nur auf synthesis begrenzt sind es 24mm2 fuer alle FP64 SPs im GK110.

Bei Kepler war so manches komisch.

Halb so schlimm; das wirklich komische ist dass jegliches "komische" erst auftaucht wenn eine neue Architektur erscheint.

Coda

2014-02-15, 09:12:57

Es geht nicht nur um den Platz. Mehr Ports, längere Signalwege, komplexere Schaltung.

Und ich fand das schon immer komisch, nicht erst jetzt.

Ailuros

2014-02-15, 09:17:44

Es geht nicht nur um den Platz. Mehr Ports, längere Signalwege, komplexere Schaltung.

Da ich mir sehr schwer vorstellen kann dass man aus den gleichen Einheiten mehr Strom spart, geht es mir nicht aus dem Kopf dass sie etwas ernsthaft am interconnect gedreht haben, denn dieser ist die Nr.1 Stromsauge auf den Dingern.

Hugo78

2014-02-15, 09:28:56

Slides:
http://abload.de/thumb/nvidia-geforce-gtx-750xjo1.jpg (http://abload.de/image.php?img=nvidia-geforce-gtx-750xjo1.jpg)
3X ggü. der GTS 450 nach CB Ranking, wäre ja sogar GTX 580 Level, aber gut das nimmt schon die GTX 660 für sich in Anspruch.
http://www7.pic-upload.de/15.02.14/bhnsqouwxm9r.jpg (http://www.pic-upload.de/view-22272466/3xgts450.jpg.html)

- http://www.computerbase.de/artikel/grafikkarten/2010/test-nvidia-geforce-gts-450-sli/21/

Coda

2014-02-15, 09:34:13

Da ich mir sehr schwer vorstellen kann dass man aus den gleichen Einheiten mehr Strom spart, geht es mir nicht aus dem Kopf dass sie etwas ernsthaft am interconnect gedreht haben, denn dieser ist die Nr.1 Stromsauge auf den Dingern.
Hey, bisher lag ich ja auch nicht so daneben, außer dass es zwei CUs mit geteilter TMU sind statt eine CU mit zwei geteilten Schedulern :tongue:

Ich meinte zwei Quad-TMUs, sorry.

Meine Prognose: Eine CU hat vier mal 16 ALUs mit 2 Takten/Instruction/Stage, zwei Warp-Scheduler und eine Quad TMU. Dazu eventuell eine oder zwei 32-Bit-Skalar-ALUs. Dann braucht man auch kein komisches Co-Issue mehr - außer für die Scalar-Ops, wenn man das einführt.

Wie man das mit den GPCs in Einklang bringt ist eine andere Frage. Evtl. 4 CUs/Polymorph.

Ailuros

2014-02-15, 09:34:59

3X ggü. der GTS 450 nach CB Ranking, wäre ja sogar GTX 580 Level, aber gut das nimmt schon die GTX 660 für sich in Anspruch.

- http://www.computerbase.de/artikel/grafikkarten/2010/test-nvidia-geforce-gts-450-sli/21/

http://www.geforce.co.uk/hardware/desktop-gpus/geforce-gtx-650/performance

Bei 3dmark Vantage im performance modus sicher.

Hey, bisher lag ich ja auch nicht so daneben, außer dass es zwei CUs mit geteilter TMU sind statt eine CU mit zwei geteilten Schedulern :tongue:

Sobald jemand 640 sagt mit 5 clusters ist es ja soooo verdammt schwer es rauszuraten oder? :freak:

Coda

2014-02-15, 09:38:17

Das sie die SMM in vier Unter-Compute-Units unterteilen? Hab ich sonst nicht gehört. Und das es wieder SIMD16 sind, statt SIMD32 stimmt übrigens auch, das rote im Block-Diagram sind die Dispatch-Units.

Ailuros

2014-02-15, 09:40:54

Das sie die SMX in Unter-Compute-Units unterteilen? Hab ich sonst nicht gehört. Und das es wieder SIMD16 sind, statt SIMD32 stimmt übrigens auch, das rote im Block-Diagram sind die Dispatch-Ports.

Du hast Deinen Keks schon vor langem bekommen; wenn man bedenkt dass sie Datenstroeme verkuerzen wollen/muessen kommt man schon auf die Unterteilung; wir hatten es sogar beide in diesem thread besprochen als wir alle noch dachten dass es maximal 960 SPs (bzw. immer noch 192/SM) angeblich sind und ja die Idee kam auch dort von Dir.

Der Haken ist jetzt dass man alles zusammen und auch hypothetischen hybriden SP/DP ALUs nicht so viel Strom sparen kann; beim Tegra K1 koennten sie so brutal mit dem Strom runterrutschen weil sie einfach den interconnect rausgeschmissen haben. Haben sie jetzt eine effizienteren interconnect reingesteckt? Wenn ja ist Maxwell nicht die kleinste sondern groesste Aenderung seit Fermi.

Coda

2014-02-15, 09:48:35

Was für ein Interconnect? Zwischen den SMM? Was hat das mit seperatem DP zu tun?

AnarchX

2014-02-15, 09:50:28

Wie steht eigentlich die Wahrscheinlichkeit, dass Maxwell ein TBDR ist? Die 2MiB L2 würden sich doch dafür anbieten?

Coda

2014-02-15, 09:52:20

Wie steht eigentlich die Wahrscheinlichkeit, dass Maxwell ein TBDR ist? Die 2MiB L2 würden sich doch dafür anbieten?
:uconf2:

AnarchX

2014-02-15, 09:57:36

Entsprechend große Caches sind doch im Rahmen von TBDR GPUs nicht so unüblich (Series5/6, der tote 3D-LRB)? edit: Irgendwo müssen die Tiles ja entsprechend abgelegt werden.

Coda

2014-02-15, 10:15:59

Kannst aus diversen Gründen eigentlich vergessen. Allein die ganze Polymorph-Geschichte würde so nicht mehr funktionieren und man müsste auch viel mehr im Block-Diagram sehen was nach TBDR aussieht.