PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : nVidia - GK110 - High-End-Kepler - Q1 2013


Seiten : [1] 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Godmode
2012-03-18, 21:04:50
http://cdn.overclock.net/5/5a/5a020537_47675_TeslaKeplerGK110_FNL_800_PR.jpeg
Was wissen wir bis jetzt:

GK110:
550 mm² (http://www.forum-3dcenter.org/vbulletin/showpost.php?p=9211998&postcount=6568)
7,1 Mrd. (http://www.forum-3dcenter.org/vbulletin/showthread.php?p=9260218#post9260218) Transistoren
GK110
SPs/SMX 192
TMUs/SMX 16
SMX/GPC 3
GPCs 5
SPs 2880
TMUs 240
Takt 0.850
GTexel/s 204
48 ROPs
384-Bit Bus 2MiB L2 Cache
750-850 MHz
6+8 Pin @ 250-300W?
Tapeout März 2012 (http://www.forum-3dcenter.org/vbulletin/showpost.php?p=9215963&postcount=22)

Release: März-Juni 2013

Leistung im Schnitt 50 % über GK104 bzw. um einiges mehr als zwischen GF114 und GF110.

Alles basierend auf Aussagen aus dem GK104 Thread (http://www.forum-3dcenter.org/vbulletin/showthread.php?t=492112)

edit1: Änderung von GK104 Specs laut Post von AnarchX

edit2: Anpassung der SP Anordnung für GK110

edit3: Tapeout Datum + SP Anordnung angepasst

edit4: Änderung der SMX und SPs (http://www.forum-3dcenter.org/vbulletin/showpost.php?p=9260538&postcount=314).

edit5: Transistorcount, basierend auf GTC-Session-Ankündigung (http://www.pcgameshardware.de/aid,879073/GTC-2012-Nvidia-Kepler-GK110/Grafikkarte/News/)

edit6: Daten laut GTC angepasst

edit7: Relase Date angepasst; DP Flops entfernt

edit8:

http://www.abload.de/img/gtx-titan-3dmarkreu9a.png

This is Titan! Yeah, first real numbers! ~ OBR-HARDWARE (http://www.obr-hardware.com/2013/02/this-is-titan-yeah-first-real-numbers.html)

AnarchX
2012-03-18, 21:07:05
3*32SPs/SM
8 TMUs/SM
4 SMs/GPC

6*32SPs /SMX
16 TMUs/SMX
2 SMX/GPC

Godmode
2012-03-18, 21:10:51
6*32SPs /SMX
16 TMUs/SMX
2 SMX/GPC

Ich ändere das gleich, muss mir erst die Folien mal richtig ansehen.

AnarchX
2012-03-18, 21:19:43
6 Mrd. Transistoren könnten vielleicht auch etwas zu wenig sein für GK110.

Mit der Packdichte von GK104 käme man schon auf 6,6 Mrd. Und größere GPUs haben bei Nvidia eher zu höheren Packdichten geneigt.

Godmode
2012-03-18, 21:24:03
6 Mrd. Transistoren könnten vielleicht auch etwas zu wenig sein für GK110.

Mit der Packdichte von GK104 käme man schon auf 6,6 Mrd. Und größere GPUs haben bei Nvidia eher zu höheren Packdichten geneigt.

Gut möglich. Es wird ein richtig schöner Highend Chip, wie in alten Tagen und wird GK104 bzw. Tahiti XT schön in den Boden stampfen. Man kann nur hoffen, dass sich das Teil auch halbwegs fertigen lässt und genug für uns überbleibt und nicht alles in die großen Cluster geht.

Nightspider
2012-03-18, 21:28:37
Wäre eine Performanceprognose von GK104 + 30-40%, wie es viele hier vermuten, nich zu wenig für ~80-100% mehr Transitoren?

Kann man nicht von einer ~85-95%igen Skalierung des Transistorcount ausgehen?

Oder fließen beim GK110 zuviel Transistoren in DP Leistung? War dies bei einem Vorgänger der Fall?
Bei Fermi war es ja eher so, das der große Chip deutlich mehr Tessellation Power und damit potentiel mehr Spiele Leistung besaß.

Zergra
2012-03-18, 21:33:39
Da wird das Front-End Limitieren und auch die Masse an einheiten Skaliert immer schlecher und bring %tual keine so starke Verbesserung mehr.

boxleitnerb
2012-03-18, 21:35:10
Die interessanteste Frage ist hier imo, wann GK110 für den Desktop gelauncht wird.

Godmode
2012-03-18, 21:35:56
Da wird das Front-End Limitieren und auch die Masse an einheiten Skaliert immer schlecher und bring %tual keine so starke Verbesserung mehr.

Warum? Ich habe beim GK110 eine viel feinere Granularität, ergo kann ich die Einheiten besser auslasten. Und das Nvidia ein besseres Frontend hat als AMD wird wohl niemand bestreiten.

aylano
2012-03-18, 22:20:36
550mm² wären ganz schön viel.
Sowohl die Die-Größe als auch die Transistoren sind so +70% größer.
Wenn man einen GK104-Verbrauch von 185W-Spiele annehmen, dann wären +70% schon so 315W-Spieleverbrauch.
Mal sehen, wie der GK104 dann wirklich wird, aber 550mm² wären für GK110 schon viel, weil auch Thaiti und GF104 (sieht momemntan so aus) mehr Watt-pro-mm² als der Vorgänger verbraucht.

Wenn das ungefähr so hinkommen mag, dann wäre GK110 wirklich an den Grenze, wo dann eine Verschiebung von +1.Quartal entstehen kann bzw. die lange Zeit von Tape-Out zu jetzt voraussichtlichem Launch (Jan bis August) schon erklären könnte.

Godmode
2012-03-18, 22:23:00
550mm² wären ganz schön viel.
Sowohl die Die-Größe als auch die Transistoren sind so +70% größer.
Wenn man einen GK104-Verbrauch von 185W-Spiele annehmen, dann wären +70% schon so 315W-Spieleverbrauch.
Mal sehen, wie der GK104 dann wirklich wird, aber 550mm² wären für GK110 schon viel, weil auch Thaiti und GF104 (sieht momemntan so aus) mehr Watt-pro-mm² als der Vorgänger verbraucht.

Man würde GK110 natürlich nicht auf 1 GHz takten sondern irgendwo Richtung 750-850 MHz.

aylano
2012-03-18, 23:29:20
Na ja, bei den Werten die du angegeben hast, sieht es doch wieder wie ein GF114 vs. GF110 aus. Und dieser hatte einen 30% Performancer-Unterschied bei fast gleichen Takt. Da nochmal den Takt um 15-25% zu senken, wäre nicht unerheblich.
Wenn die Diegröße von GK104 vs. GF114 gesunken ist, dann kann ich mir auch schwer vorstellen, dass es dann bei größeren GK110-Die nur 2048-Shaders sind und nicht so 2304.
Irgendwas stimmt da noch nicht. Grundsätzlich siehst es wegen dem größeren Die von 550mm² irgendwie etwas schwieriger aus, als es damals mit GF100 war.

V2.0
2012-03-19, 07:02:42
Was nicht stimmt, ist die Annahme, dass GK110 eine Entwicklung ist, deren Augenmerk primär auf dem Einsatz in der GeForce-Reihe lag. In relevanten Leistungsparametern liegt GK110 um 100% vor GK104.

Godmode
2012-03-19, 07:54:00
Was nicht stimmt, ist die Annahme, dass GK110 eine Entwicklung ist, deren Augenmerk primär auf dem Einsatz in der GeForce-Reihe lag. In relevanten Leistungsparametern liegt GK110 um 100% vor GK104.

Damit meinst du HPC, oder?

Godmode
2012-03-19, 13:30:08
Jetzt wissen wir auch wo all unsere schönen GK110 hingehen:
http://www.wired.com/threatlevel/2012/03/ff_nsadatacenter/all/1 :eek:

Iruwen
2012-03-19, 13:47:49
Bitcoining all day :D

DavChrFen
2012-03-19, 13:48:48
Irgendwo gabs doch auch die DP-Leistung, oder war das noch nicht "gesichert"?
Und ist SP : DP nun 2:1 oder 4:1?

Godmode
2012-03-19, 14:19:50
Irgendwo gabs doch auch die DP-Leistung, oder war das noch nicht "gesichert"?
Und ist SP : DP nun 2:1 oder 4:1?

Über 2 TFlops/DP?

http://www.forum-3dcenter.org/vbulletin/showpost.php?p=9212018&postcount=6571

Screemer
2012-03-19, 14:29:39
Jetzt wissen wir auch wo all unsere schönen GK110 hingehen:
http://www.wired.com/threatlevel/2012/03/ff_nsadatacenter/all/1 :eek:
Do not trust anyone. Da kann man nur noch angst haben.

Ailuros
2012-03-19, 19:04:23
Zeit dass ich mich selber korrigiere: tape out war weder im Dezember noch im Januar sondern spaeter. Der design wurde Ende 2011 fertig gestellt und es war ein Missverstaendnis der originalen Vermittlung.

384bit? Nein.

2048SPs? Nein.

6 Mrd.? Nein

550mm2? Ja

GK104 ist 294mm2 mit einer ca. 12Mio/sqmm Packdichte. Ergo Vorsicht bei der Tranistoren-einschaetzung fuer GK110 denn ein 2x Mal so breiter Bus ist nicht gerade umsonst.

Na ja, bei den Werten die du angegeben hast, sieht es doch wieder wie ein GF114 vs. GF110 aus. Und dieser hatte einen 30% Performancer-Unterschied bei fast gleichen Takt. Da nochmal den Takt um 15-25% zu senken, wäre nicht unerheblich.
Wenn die Diegröße von GK104 vs. GF114 gesunken ist, dann kann ich mir auch schwer vorstellen, dass es dann bei größeren GK110-Die nur 2048-Shaders sind und nicht so 2304.
Irgendwas stimmt da noch nicht. Grundsätzlich siehst es wegen dem größeren Die von 550mm² irgendwie etwas schwieriger aus, als es damals mit GF100 war.

Erstens SPs != SPs zwischen 110 und 10x (deshalb auch die "1" zwischendrin beim ersten) und zweitens sind es tatsaechlich um einiges mehr SPs als oben geschaetzt wird. GPCs? hmmmm welch ein Teufelskreis ;)

boxleitnerb
2012-03-19, 19:11:09
512bit? Das wird wohl wie GT200 wieder mal ein Monster.
Bei "später" schätze ich mal Februar. Vor August wird das Ding also garantiert nicht kommen.

Ailuros
2012-03-19, 19:30:29
512bit? Das wird wohl wie GT200 wieder mal ein Monster.
Bei "später" schätze ich mal Februar. Vor August wird das Ding also garantiert nicht kommen.

Νοch spaeter, ergo weder meine noch Charlie's Quellen waren irgendwo in der Reichweite der eigentlichen Realitaet. Die Anzahl der chips die sie fuer supercomputers brauchen klingt mir zu hoch dass ich selbst fuer Q4 dieses Jahr noch irgend eine besondere Hoffnung habe.

Q3 fuer HPC wohl schon. Sonst ist der die tatsaechlich kleiner als GT200 aber auch groesser als GF100/110.

Falls fuer NV irgendwann die HPC/Quadro Mengen mal genug sein sollte ausschliesslich HPC chips zu finanzieren, wird es wohl irgendwann mal so weit kommen dass davon vielleicht auch nichts mehr fuer desktop kommt.

Wenn es ein metric wie performance/transistor gibt dann steht GK104 stolz auf dem Gipfel der Kepler Familie; im Fall wo man keinen HPC chip als high end in den desktop schleussen sollte braeuchte man lediglich einen 384bit GK104 mit mehr SMs bei unter 400mm2 und schon gut waere es.

Godmode
2012-03-19, 19:30:41
384bit? Nein.

2048SPs? Nein.

6 Mrd.? Nein

550mm2? Ja

Erstens SPs != SPs zwischen 110 und 10x (deshalb auch die "1" zwischendrin beim ersten) und zweitens sind es tatsaechlich um einiges mehr SPs als oben geschaetzt wird. GPCs? hmmmm welch ein Teufelskreis ;)

Danke für die Informationen, aber jetzt sind wir wieder völlig im Dunkeln :)

Dann kann ich ja wirklich GK104 kaufen, was für ein Blödsinn.

Ailuros
2012-03-19, 19:33:12
Danke für die Informationen, aber jetzt sind wir wieder völlig im Dunkeln :)

Wieso? 6Mrd., 2048, 384bit sind offensichtlich zu wenig.

AnarchX
2012-03-19, 19:34:40
Wenn man wirklich > 2 TFLOPs mit HPC-Taktraten (wohl 700-800MHz) erreichen will, dann kann man wohl von 2560 bis 3072 CUDA Cores ausgehen.

2560SPs (in SMX mit 128SP/8TMU) dürften laut GK104-Die-Shot wohl eine ähnliche Fläche einnehmen, wie die 16 SM bei GF100.

Godmode
2012-03-19, 19:35:15
Wieso? 6Mrd., 2048, 384bit sind offensichtlich zu wenig.

Ich bezog mich auf das, wo du alles verneinst, bis auf die Fläche.


384bit? Nein.

2048SPs? Nein.

6 Mrd.? Nein

550mm2? Ja

Duplex
2012-03-19, 19:47:07
512 Bit SI, 3072 Shader, 4GB DDR5, 700MHz, 550-600mm², das wird teuer...

Ailuros
2012-03-19, 19:49:46
512 Bit SI, 3072 Shader, 4GB DDR5, 700MHz, 550-600mm², das wird teuer...

Es sind nicht mehr als 550mm2, aber teuer ist das Tier schon.

Knuddelbearli
2012-03-19, 19:49:52
hmm also im prinzip das was ich imemr von amd erwartet habe.

nen Performanchip für die erste Generation im neuen verfahren und dann wenn die yields gut genug sind ein echter High end chip.

Das verstehe zumindest ich unter einer sweet spot Strategie.

Ailuros
2012-03-19, 19:53:14
hmm also im prinzip das was ich imemr von amd erwartet habe.

nen Performanchip für die erste Generation im neuen verfahren und dann wenn die yields gut genug sind ein echter High end chip.

Das verstehe zumindest ich unter einer sweet spot Strategie.

Hab ich versucht etliche Male im anderen Thread zu vermitteln, aber meistens vergebens. Es stehen eben irrsinnige Geruechte im Weg von einem angeblich stornierten "GK100" oder weiss der Geier was noch. Der eigentliche treibende Zug fuer die Kepler Generation und schon immer als erster geplant war und ist GK104.

Duplex
2012-03-19, 19:56:30
Es sind nicht mehr als 550mm2, aber teuer ist das Tier schon.Hauptsache die Karte bekommt doppelt soviele Einheiten als GK104, dann wird sich das warten garantiert lohnen und man kann das als wahren GF110 Nachfolger sehen, mit 2x Karten @1Ghz OC > 8xSGSSAA :D

AnarchX
2012-03-19, 19:58:04
Der eigentliche treibende Zug fuer die Kepler Generation und schon immer als erster geplant war und ist GK104.

Also verbirgt sich hinter der Q2 Quadro-K (http://www.golem.de/1109/86310.html)auch GK104?
Da hat vielleicht dieser doch eine recht ansprechende DP-Leistung...

Moralelastix
2012-03-19, 20:02:13
Was bedeutet "teuer"? 1000 - 5000,- € Stückpreis?

Duplex
2012-03-19, 20:03:09
600-649$

boxleitnerb
2012-03-19, 20:04:12
Der Chip allein dürfte dann wieder um die 150 Dollar kosten. MSRP würde ich bei dem Ding nicht unter 599 erwarten.

Nightspider
2012-03-19, 20:15:39
Mit 512 Bit SI dürfte Big Kepler ein ganz schönes Monster werden.

Die Frage ist, wer Lust hat zu lange zu warten.
Wobei sich Frage sowieso erübrigt, wenn GK104 so teuer bleibt, bis zum Release des Big Kepler.

V2.0
2012-03-19, 20:15:48
In Q4 vielleicht, wenn TSMC bis dahin mehr 28nm Wafer für NV hat.

Die Frage ist halt sowieso, ob GK110 für den Desktop so spannend ist...

Ailuros
2012-03-19, 20:20:10
In Q4 vielleicht, wenn TSMC bis dahin mehr 28nm Wafer für NV hat.

Die Frage ist halt sowieso, ob GK110 für den Desktop so spannend ist...

Leistung schlummert schon genug in dem Ding, da die GK104+50% wohl wirklich kein Witz sein sollten. Die Frage bleibt aber mit welchen Kosten. Denn die +50% bei der Bandbreite und Anzahl der wahren Einheiten kann ich schon glauben, einen Stromverbrauch aber innerhalb von 250W TDP Grenzen dann aber verdammt schwer. Ich glaube das letzte erst wenn ich es sehe.

Mit 512 Bit SI dürfte Big Kepler ein ganz schönes Monster werden.

Die Frage ist, wer Lust hat zu lange zu warten.
Wobei sich Frage sowieso erübrigt, wenn GK104 so teuer bleibt, bis zum Release des Big Kepler.

Wenn AMD mit dem Preisdruck fuer Tahitis nach unten anfaengt, bleibt NVIDIA welche Wahl genau?

boxleitnerb
2012-03-19, 20:21:03
Bis Q4 sollte der Prozess so gut laufen, dass man die Spannungen etwas senken kann für einen bestimmten Takt, oder nicht?

Nightspider
2012-03-19, 20:22:21
Wenn AMD mit dem Preisdruck fuer Tahitis nach unten anfaengt, bleibt NVIDIA welche Wahl genau?

Wollen wir hoffen das es so kommt. Und das möglichst bald :)

Ailuros
2012-03-19, 20:25:06
Der Chip allein dürfte dann wieder um die 150 Dollar kosten. MSRP würde ich bei dem Ding nicht unter 599 erwarten.

GT200@65nm kostete ca. $120 herzustellen bei fast 53% wafer yields und dabei war 65nm zu diesem Zeitpunkt ziemlich ausgereift.

Das ist nicht das eigentliche Problem; NV plant eine GK104 mGPU und diese wird locker reichen dass sie erstmal HPC/Quadros ab Q3 bedienen koennen und danach wird GK110 gemuetlich irgendwann fuer den desktop daher trotteln.

Bis Q4 sollte der Prozess so gut laufen, dass man die Spannungen etwas senken kann für einen bestimmten Takt, oder nicht?

Egal um wieviel besser der Prozess in absehbarer Zeit wird, ueber 850MHz maximal erwarte ich persoenlich fuer so einen Brummer nicht. Braucht er auch wirklich nicht.

boxleitnerb
2012-03-19, 20:29:05
Ich meinte, dass man das Ding beim heutigen Stand des Prozesses vielleicht grad so in 300W kriegen würde, in 9 Monaten aber in 270 oder 250. Bei gleichem Takt, einfach weil der Prozess besser wird, was sich dann auf alle relevanten Parameter auswirkt.

Duplex
2012-03-19, 21:05:19
Mit 512 Bit SI dürfte Big Kepler ein ganz schönes Monster werden.
Die Frage ist, wer Lust hat zu lange zu warten.
Wobei sich Frage sowieso erübrigt, wenn GK104 so teuer bleibt, bis zum Release des Big Kepler.
Die meißten Leute die z.b. eine 580GTX haben werden auf GK110 warten, ich bin auch einer davon.
In Q4 vielleicht, wenn TSMC bis dahin mehr 28nm Wafer für NV hat.

Die Frage ist halt sowieso, ob GK110 für den Desktop so spannend ist...
Das ding wird locker 100% schneller als GF110.

Ailuros
2012-03-19, 21:13:56
Das ding wird locker 100% schneller als GF110.

Wenn die GTX680 mit zukuenftigen Treibern bzw. neueren Spielen sich im Durchschnitt um ca. 50% vor einer GTX580 platziert dann wohl schon.

Dural
2012-03-19, 21:37:54
An 512bit und 3000alu glaub ich nicht, 384bit und 2500 hören sich deutlich realistischer an :)

Nightspider
2012-03-19, 21:42:00
Wenn die GTX680 mit zukuenftigen Treibern bzw. neueren Spielen sich im Durchschnitt um ca. 50% vor einer GTX580 platziert dann wohl schon.

Dann wäre man schon über 100%. ;)

Es würde reichen wenn GK104 140% erreicht und Big Kepler nochmal 45% zulegt.

Duplex
2012-03-19, 21:42:51
An 512bit und 3000alu glaub ich nicht, 384bit und 2500 hören sich deutlich realistischer an :)
Weshalb soll das realistischer sein?
550mm² Chip & 2500 GPU Shader sind doch zuwenig wenn GK104 bei 290mm² bereits 1536 GPU Shader hat.
Und warum wird an einem 512 Bit SI gezweifelt, bereits bei GT200 war das kein Problem...

Man From Atlantis
2012-03-19, 21:54:52
I made some calculations according to GK104 dieshot, nothing serious just for geek curious.. GK110; 8GPCs, 16SMX, 2048CCs, 128TMUs, 64ROPs, 512bit, 4 pix/clk export by SMX and 1.5MB L2 Cache.. it's roughly ~526mm^2 :freak:

GK104 SMX 16,09mm2 (similar to GF114 which SM is 25% bigger than GF100)
GK110 SMX 12,87mm2

16ROPs+384KB L2 18,47mm2
GPC scheduler 5,09mm2

outer chip 294,00mm2
inner chip 210,70mm2
oc/ic ratio 1.3953

http://www.abload.de/img/diesize9gkpm.png

Ailuros
2012-03-19, 22:36:15
I made some calculations according to GK104 dieshot, nothing serious just for geek curious.. GK110; 8GPCs, 16SMX, 2048CCs, 128TMUs, 64ROPs, 512bit, 4 pix/clk export by SMX and 1.5MB L2 Cache.. it's roughly ~526mm^2 :freak:

GK104 SMX 16,09mm2 (similar to GF114 which SM is 25% bigger than GF100)
GK110 SMX 12,87mm2

16ROPs+384KB L2 18,47mm2
GPC scheduler 5,09mm2

outer chip 294,00mm2
inner chip 210,70mm2
oc/ic ratio 1.3953

http://www.abload.de/img/diesize9gkpm.png

Da Du Deutsch sprechen kannst tu mir den Gefallen und gewoehn es Dir an hier bei 3DC ;)

Sonst ist die obrige Milchmaedchen-rechnung nichts wert eben weil Deine Anzahl der Einheiten total falsch ist und weil caches und ALUs zwischen GK10x und GK110 eben nicht so leicht vergleichbar sind. Manche Einheiten sind zu wenig und einige zu viel ;)

Weshalb soll das realistischer sein?
550mm² Chip & 2500 GPU Shader sind doch zuwenig wenn GK104 bei 290mm² bereits 1536 GPU Shader hat.
Und warum wird an einem 512 Bit SI gezweifelt, bereits bei GT200 war das kein Problem...

Och lass ihn doch glauben was er will. Es dauerte auch ein Weilchen bis die 1536SPs ohne hotclock auf 104 endlich sassen bei so manchen.

AnarchX
2012-03-19, 22:58:45
Wenn wir am Donnerstag in Erfahrung bringen können, wie schnell GK104 bei DP ist, dann kann man da schon besser spekulieren.

Wenn GK104 wirklich über 1:3 fähig ist, dann wäre der Transistorbedarf bei den SMX für 1:2 wohl nicht so hoch wie bei GF104 vs GF110.

Momentane Spekulation:

8 GPC mit je 2 Compute-SMX
Compute-SMX: 6*32SPs, 6 Warp-Sheduler, 128KiB L1-Cache, zwei Quad-TMUs
512-Bit 2MiB L2 64 ROPs


Die 128 TMUs für GK110 stehen doch noch zur Debatte?

Ailuros
2012-03-19, 23:05:00
Wenn wir am Donnerstag in Erfahrung bringen können, wie schnell GK104 bei DP ist, dann kann man da schon besser spekulieren.

Wenn GK104 wirklich über 1:3 fähig ist, dann wäre der Transistorbedarf bei den SMX für 1:2 wohl nicht so hoch wie bei GF104 vs GF110.

Momentane Spekulation:

8 GPC mit je 2 Compute-SMX

Nein.

Compute-SMX: 6*32SPs, 6 Warp-Sheduler, 128KiB L1-Cache, zwei Quad-TMUs

Nein.

512-Bit 2MiB L2 64 ROPs

Ja.

Die 128 TMUs für GK110 stehen doch noch zur Debatte?

Sicher. Aber es kann eben nicht weniger als GK104 haben aus verstaendlichen Gruenden.

V2.0
2012-03-20, 07:22:13
Das ding wird locker 100% schneller als GF110.

Dafür kommt er später, wird deutlich mehr verbrauchen, ein großes PCB haben und recht aufwendig zu kühlen sein, im Vergleich zu GK104. Die Computepower der ALUs wird man auch erst einmal beschäftigen müssen. ICh würde das Ding pure-Enthusiast nennen - könnte eine neue Göttin werden.

Gaestle
2012-03-20, 08:45:34
Falls fuer NV irgendwann die HPC/Quadro Mengen mal genug sein sollte ausschliesslich HPC chips zu finanzieren, wird es wohl irgendwann mal so weit kommen dass davon vielleicht auch nichts mehr fuer desktop kommt.

Zustimmung meinerseits und ohne Deine Aussage irgendwie entwerten zu wollen:
Das wird ja schon länger (mehrere Jahre - seit GT200?) vermutet, da das HTC-Zeug in den Chips teuer ist und den Gamern (bislang?) nix bringt. Nur damals war noch nicht in dem Maße absehbar, dass das HPC-zeug mal so schnell ein so lukrativer Markt für NV werden könnte.


Leistung schlummert schon genug in dem Ding, da die GK104+50% wohl wirklich kein Witz sein sollten. Die Frage bleibt aber mit welchen Kosten.

Die Frage, die sich IMHO auch stellt:
Warum muss für die angedeutet Leistung ein GK110 notwendig sein? Wenn der GK110 wirklich so spät (später als Q4) für die Gamer kommen könnte, könnte das bis dahin (bzw. kurz danach) doch auch ein GK104-Refresh eventuell auch zu einem (für NV) geringeren Preis schaffen? Ein großer Chip ist auch auf ausgereiften Prozessen teuer und riskanter als ein kleinerer Chip (wie Dein Beispiel vom GT200 ja auch belegt).

Alle bis dahin erwartbaren AMD-Konter auf GK104 könnte man vielleicht auch mit GK104-Respins oder sogar besseren Yields abfangen.

Neurosphere
2012-03-20, 09:48:07
Dafür kommt er später, wird deutlich mehr verbrauchen, ein großes PCB haben und recht aufwendig zu kühlen sein, im Vergleich zu GK104. Die Computepower der ALUs wird man auch erst einmal beschäftigen müssen. ICh würde das Ding pure-Enthusiast nennen - könnte eine neue Göttin werden.

Verglichen mit GF100 wird sich der Chip aber wohl nicht viel nehmen, aber halt doppelt so schnell sein.


Och lass ihn doch glauben was er will. Es dauerte auch ein Weilchen bis die 1536SPs ohne hotclock auf 104 endlich sassen bei so manchen.

3000 Einheiten sind trotzdem unrealistisch. Wenn der ganze GPGPU kram zunimmt, man evtl. mehr Caches bereitstellt usw müsste man schon an den TMUs sparen um keine Platzprobleme zu haben.

Godmode
2012-03-20, 10:38:46
Verglichen mit GF100 wird sich der Chip aber wohl nicht viel nehmen, aber halt doppelt so schnell sein.



3000 Einheiten sind trotzdem unrealistisch. Wenn der ganze GPGPU kram zunimmt, man evtl. mehr Caches bereitstellt usw müsste man schon an den TMUs sparen um keine Platzprobleme zu haben.

Ja steht oben, nur die hälfte der TMUs pro SMX bezogen auf GK104.

Dural
2012-03-20, 11:10:07
die TMU sind wohl das kleinste Problem ;)

alles doppelt vorhanden + 1:2 DP und das unter 550mm2? ;D

da muss NV schon richtig zaubern ;)

mironicus
2012-03-20, 11:21:10
Ich kann mir gar nicht vorstellen, dass so eine mächtig schnelle GPU als Spielegrafikkarte auf den Markt kommen soll.

Godmode
2012-03-20, 12:46:55
die TMU sind wohl das kleinste Problem ;)

alles doppelt vorhanden + 1:2 DP und das unter 550mm2? ;D

da muss NV schon richtig zaubern ;)

Naja sie können damit etwas Platz einsparen, wieviel % der Fläche eines SMX auf die TMUs draufgeht muss man erst sehen.

Ich kann mir gar nicht vorstellen, dass so eine mächtig schnelle GPU als Spielegrafikkarte auf den Markt kommen soll.

Warum den nicht, in der Vergangenheit gabs auch verdammt schnelle GPUs?

AnarchX
2012-03-20, 14:20:10
Stellt sich die Frage, ob es bei den GPCs nicht vielleicht auch eine Grenze der Skalierbarkeit gibt.

Vielleicht sind es bei GK110 auch 4 GPCs, die aber dafür eine größere Granularität haben, wie z.B. 16 Pixel/1,5-2,0 Dreiecke pro Takt.

Godmode
2012-03-20, 18:55:04
Stellt sich die Frage, ob es bei den GPCs nicht vielleicht auch eine Grenze der Skalierbarkeit gibt.

Vielleicht sind es bei GK110 auch 4 GPCs, die aber dafür eine größere Granularität haben, wie z.B. 16 Pixel/1,5-2,0 Dreiecke pro Takt.

Das ist allerdings richtig und wir werden es wohl erst erfahren wenn es die erste Tech-Preview gibt.

highlife
2012-03-21, 10:40:49
Ich sehe die Frage eher darin, ob sich der Chip überhaupt lohnt.
Aktuelle Spiele müssen praktisch immer Rücksicht auf die Konsolenhardware nehmen, so daß bis ca. Mitte 2013 sich da nicht viel tun wird (modbare Spiele ala Skyrim mal ausgeschlossen). Ich hab eine 6970 und sehe Nichts was ein Upgrade auf 7970 oder 680 rechtfertigen würde. Wenn der GK110 sein Potenzial ausschöpft wird das so sein, als wenn ich mit einem Porsche fahre aber nur Reifen bekommen die bis 180 km/h zugelassen sind. Ich sehe auch keinen Markt für Doppelkarten mehr.
IMHO ist eigentlich schon die 7970 Overkill bei den aktuellen Spielen und auch bei denen die bis Ende 2013 rauskommen. Diese Karten kann man höchstens noch mit Multi-Monitor-Systemen in Schwierigkeiten bringen.

Knuddelbearli
2012-03-21, 10:47:03
naja bis der gk 110 da ist ist die wii schonmal draußen ^^

Iruwen
2012-03-21, 10:49:30
Ich hab eine 6970 und sehe Nichts was ein Upgrade auf 7970 oder 680 rechtfertigen würde.

Dann bist du halt kein Enthusiast und/oder kennst die Möglichkeiten die Karten auszureizen nicht. Wobei, na gut, mit 'ner 6970 gibts in DX11 nicht viel auszureizen :tongue:

Godmode
2012-03-21, 11:08:27
Ich sehe die Frage eher darin, ob sich der Chip überhaupt lohnt.
Aktuelle Spiele müssen praktisch immer Rücksicht auf die Konsolenhardware nehmen, so daß bis ca. Mitte 2013 sich da nicht viel tun wird (modbare Spiele ala Skyrim mal ausgeschlossen). Ich hab eine 6970 und sehe Nichts was ein Upgrade auf 7970 oder 680 rechtfertigen würde. Wenn der GK110 sein Potenzial ausschöpft wird das so sein, als wenn ich mit einem Porsche fahre aber nur Reifen bekommen die bis 180 km/h zugelassen sind. Ich sehe auch keinen Markt für Doppelkarten mehr.
IMHO ist eigentlich schon die 7970 Overkill bei den aktuellen Spielen und auch bei denen die bis Ende 2013 rauskommen. Diese Karten kann man höchstens noch mit Multi-Monitor-Systemen in Schwierigkeiten bringen.

Das hängt immer vom Anwender ab. Hab es bis jetzt immer noch geschafft jede Karte in den unspielbaren Bereich zu drücken. Selbst mit SLI geht das! Also Bedarf ist für mich auf jeden Fall vorhanden.

highlife
2012-03-21, 11:50:12
Klar kann man alles. Nur bringt das dann noch wirklich einen sichtbaren Gewinn? Man kann die Karten mit Einstellungen in die Knie zwingen, nur für normale Anwender sieht man kaum einen Unterschied. Früher gab es Spiele die eine High-End-Karte BRAUCHTEN um richtig gut auszusehen. Heute kitzelt man mit den Einstellungen vielleicht die letzten 2% Verbesserung raus, die man dann mit der Lupe im Standbild sucht. Meine 6970 ist inzwischen Mittelklasse und das reicht bei der heutigen Power immer für gutes Aussehen und spielbare Frameraten.

boxleitnerb
2012-03-21, 12:00:07
Normale Anwender kaufen so eine Karte auch nicht.

4xSSAA frisst 50% Performance, erzwungenes AO mindestens 30%, 3DVision ca. 50%, Eyefinity/Surround nochmal 50%. Geht alles und all diese Dinge tragen sichtbar zu einer Verbesserung des Erlebnisses bei. Ob man es braucht oder nicht steht auf einem anderen Blatt. Aber prinzipiell ist mehr Leistung und Fortschritt immer gut, da gibts doch gar keine Diskussion.

Um das mal weiterzudenken: Nicht nur Highend ist wichtig, sondern der Fortschritt sorgt auch dafür, dass es sparsamere und günstigere Karten gibt (die aktuelle Preistreiberei mal ausgenommen). Dann können nächstes Jahr die Leute, die sich keine kein Highend leisten können/wollen auch besser zocken.

Iruwen
2012-03-21, 12:20:59
Normale Anwender kaufen so eine Karte auch nicht.

Doch, leider. Weil mehr FPS = besser, Bildqualität egal. Die kaufen auch die Speichermonster mit den schönen bunten Kartons.

boxleitnerb
2012-03-21, 12:22:07
Ok dann anders ausgedrückt:
Der normale Anwender braucht so eine Karte nicht. Enthusiasten schon, und die wissen idR auch, wie sie die Power umsetzen können.

Ailuros
2012-03-21, 21:49:03
3000 Einheiten sind trotzdem unrealistisch. Wenn der ganze GPGPU kram zunimmt, man evtl. mehr Caches bereitstellt usw müsste man schon an den TMUs sparen um keine Platzprobleme zu haben.

Genauso unrealistisch wie 3x Mal so viele SPs zwischen GF110 und GK104? Erstens sind ALUs nicht unbedingt die teuersten Elemente einer GPU (eher das Gegenteil) und zweitens steigen die sonst relativ "teuren" Einheiten ausser den ROPs nicht mit einem Faktor 2:1 zwischen GK104 und GK110. Aber wenn Du schon mit Zahlen spielen willst, bearbeite es mehrere Male und beweiss mir dass bei fast doppelt so viel Transistoren wie GK104 nur 2k SPs wirklich Sinn machen. Auch der relevante Leistungs-unterschied von ~50% zwischen den beiden haut nicht hin. Und nein es ist nicht nur eine einfache "Schaetzung" offensichtlich.

Das eigentliche Problem bleibt dass GK104 eine hypothetische ausgezeichnete perf/transistor Relation hat, waehrend ich guten Grund habe etwas analoges auf GK110 zu bezweifeln.

V2.0
2012-03-21, 22:05:59
Das eigentliche Problem bleibt dass GK104 eine hypothetische ausgezeichnete perf/transistor Relation hat, waehrend ich guten Grund habe etwas analoges auf GK110 zu bezweifeln.

Das sollte auf die Definition von Performance ankommen.

AwesomeSauce
2012-03-21, 22:07:19
Das sollte auf die Definition von Performance ankommen.
Sehe ich genauso. Spieleperformance skaliert schlecht mit der Grösse der Caches...

Neurosphere
2012-03-22, 05:40:23
Genauso unrealistisch wie 3x Mal so viele SPs zwischen GF110 und GK104? Erstens sind ALUs nicht unbedingt die teuersten Elemente einer GPU (eher das Gegenteil) und zweitens steigen die sonst relativ "teuren" Einheiten ausser den ROPs nicht mit einem Faktor 2:1 zwischen GK104 und GK110. Aber wenn Du schon mit Zahlen spielen willst, bearbeite es mehrere Male und beweiss mir dass bei fast doppelt so viel Transistoren wie GK104 nur 2k SPs wirklich Sinn machen. Auch der relevante Leistungs-unterschied von ~50% zwischen den beiden haut nicht hin. Und nein es ist nicht nur eine einfache "Schaetzung" offensichtlich.

Das eigentliche Problem bleibt dass GK104 eine hypothetische ausgezeichnete perf/transistor Relation hat, waehrend ich guten Grund habe etwas analoges auf GK110 zu bezweifeln.

Wie in Stein gemeißelt sind die 550mm² denn?
Wäre ja auch nicht unmöglich das man bei der Chipgröße die Packdichte wieder etwas senken muss um vernünftigen Spielraum bei den Taktraten zu bekommen.

Ailuros
2012-03-22, 10:31:46
Wie in Stein gemeißelt sind die 550mm² denn?

So viel wie NV engineering ueber die 294mm2/3.54b fuer GK104 gelogen hat.

Wäre ja auch nicht unmöglich das man bei der Chipgröße die Packdichte wieder etwas senken muss um vernünftigen Spielraum bei den Taktraten zu bekommen.

Chancen dass Du GK110 irgendwo im GK104 Frequenz-bereich sehen wirst, sind gleich Null. Die Packdichte koennte leicht kleiner sein.

Das sollte auf die Definition von Performance ankommen.

Da GK110 ein eigentlicher HPC chip ist, ist wohl leider alles HPC fuer den Otto-Normalverbraucher irrelevant. Anders ueberzeug mich dass wenn Du auf einem GK104 hypothetisch einen 384bit Bus haettest und N mehr cluster dass das Resultat weit ueber 400mm2 sein koennte.

Hugo
2012-03-22, 12:13:48
so ein 400mm2 GK114 ( Gamerchip) mit mehr SPs und 384Bit Bus wäre doch ein schöner Refresh oder?

Gaestle
2012-03-22, 12:36:14
Dann bräuchte es aber im GAMERmarkt möglicherweise keinen GK110 mehr.

Godmode
2012-03-22, 13:20:58
Dann bräuchte es aber im GAMERmarkt möglicherweise keinen GK110 mehr.

Die Frage ist eher, ob es sich für nVidia lohnt einen Chip zu designen, der dann nur wenigen Enthusiasten verkauft werden kann? Mal ehrlich, wir wissen doch alle, dass die Stückzahlen in diesem Segment sehr niedrig sind und erst durch HPC wurden diese Die-Monster wieder attraktiv. Und wenn ich dann noch überlege, dass die Fertigung je kleiner sie wird umso teurer wird, dann sage ich klar nein zu einem 400mm+ Die für Spieler.

Ailuros
2012-03-22, 13:21:26
Dann bräuchte es aber im GAMERmarkt möglicherweise keinen GK110 mehr.

Das eigentliche Problem ist lediglich dass HPC/Quadro offensichtlich nicht genug ist das R&D fuer ein solches Projekt zu finanzieren. Zu einem maessigerem Massstab koennte man es auch fuer Pitcairn vs. Tahiti anwenden. Zwar bedeuten Profi-Maerkte sehr hohe Margen, aber der generierte Umsatz kann wohl in beiden schwer die R&D Kosten fuer einen HPC chip ohne desktop SKUs decken.

Hugo,

Der Lueckenfueller zwischen GK110 und GK104 wird wohl irgendwo im Mai eine 2*GK104 mGPU sein. Fuer enthusiasts die nichts gegen AFR haben koennte es sogar noch eine bessere Loesung insgesamt sein; nur diejenigen die gerechtfertigt allergisch gegen mGPU/AFR sein ziehen eigentlich den kuerzeren bis 110 endlich erscheint.

Wenn beide IHVs endlich eine hw basierende Loesung fuer mGPUs entwickelt haetten, haette ich auch nichts dagegen. Tut mir leid aber AFR ist IMHO nach wie vor ein albener sw hack; am Ende sind die Nachteile fuer solche Loesungen stets groesser als die eigentlichen Vorteile.

V2.0
2012-03-22, 13:30:16
Da GK110 ein eigentlicher HPC chip ist, ist wohl leider alles HPC fuer den Otto-Normalverbraucher irrelevant. Anders ueberzeug mich dass wenn Du auf einem GK104 hypothetisch einen 384bit Bus haettest und N mehr cluster dass das Resultat weit ueber 400mm2 sein koennte.

Das meinte ich. Die Perf./mm² oder Perf/w dürfte für den Hauptanwendungsbereich von GK110 sehr anständig sein. Nur ist die GeForce-Reihe wohl eher eine sekundäre Verwendung.

Ich habe es über Pitcairn und GK104 gesagt, dass beide die eigentlich bemerkenswerten Chips für den Heimanwender (Spieler) sind.

Knuddelbearli
2012-03-22, 13:30:24
entusiasts kaufen sich einfach 3mal GK104 ;-)

Hugo
2012-03-22, 13:59:12
@Ail
darum geht mir es ja. Ich möchte kein AFR.
Und NV könnte einen fetten Chip für HPC designen. Und einen fürs Gaming.
Damit sollten doch alle glücklich werden. Die Frage ist nur Kosten/nutzenrechnung?

Screemer
2012-03-22, 14:30:39
allerdings dürfte der lückenfüller, also der dual gk-104, mit den neuen vsync und frameratetarget optionen noch mal wesentlich interessanter werden. sollten sie das ganze noch ein wenig optimieren, dann sieht das doch ganz gut aus. könnte gk110 für viele obsolet machen. allerdings muss man da erst mal sehen was kommt.

Gaestle
2012-03-22, 15:32:58
Das eigentliche Problem ist lediglich dass HPC/Quadro offensichtlich nicht genug ist das R&D fuer ein solches Projekt zu finanzieren. Zu einem maessigerem Massstab koennte man es auch fuer Pitcairn vs. Tahiti anwenden. Zwar bedeuten Profi-Maerkte sehr hohe Margen, aber der generierte Umsatz kann wohl in beiden schwer die R&D Kosten fuer einen HPC chip ohne desktop SKUs decken.

Soweit klar.
Aber der F&E-Aufwand wird ja nicht nur für den HPC-Chip betrieben, sondern auch für den Gamerchip. Hälst Du es nicht für möglich, dass ein moderat weiterentwickelter (=breiterer) Gamerchip durch eine preiswertere Produktion (weil deutlich kleinerer Die) im Gamermarkt mehr zur Refinanzierung der F&E-Kosten beitragen kann, als ein HPC-Chip, der zwar schon fertig ist, dafür aber pro Stück in der Herstellung teuerer ist? Wie viel Stück wurden denn so z.B. von einer 580GTX produziert?

Skysnake
2012-03-22, 17:23:04
Also verbirgt sich hinter der Q2 Quadro-K (http://www.golem.de/1109/86310.html)auch GK104?
Da hat vielleicht dieser doch eine recht ansprechende DP-Leistung...
Also GK104 hat als GeForce nur 1:12 Wenn ich mich recht erinnere war es bei GF110 zwischen Quadro und GeForce eine Beschneidung von 1/4 gegeben. Würde bei GK104 dann bei 1:3 maximal bedeuten.

So entscheidend ist das aber gar nicht.... Die Caches sind nicht größer geworden -.- Schon bei GF1x0 warst du durch die Bandbreite des SI + Cache limitiert.... GK104 hat jetzt aber nur 8 SMs und GF110 hat 16 SMs. Das heißt du hast nur noch halb so viel L1/shared Cache -.-

Also was Compute betrifft sieht das eher schlecht aus... Das Ding geht eher in die Richtung von AMDs GPUs. Wenn die Caches unwichtig sind dick Leistung, aber das wars auch. Ergo zwischen theoreitschen Flop/s und Flop/s in der Anwendung liegen oft Welten.... :down:


Sonst ist die obrige Milchmaedchen-rechnung nichts wert eben weil Deine Anzahl der Einheiten total falsch ist und weil caches und ALUs zwischen GK10x und GK110 eben nicht so leicht vergleichbar sind. Manche Einheiten sind zu wenig und einige zu viel ;)

Die Caches müssen mindestens! um einen Faktor 2 zulegen, eher mehr...

TMUs kann man sich meiner Meinung nach aber komplett schenken. Da langen auch die aktuellen.


Das eigentliche Problem bleibt dass GK104 eine hypothetische ausgezeichnete perf/transistor Relation hat, waehrend ich guten Grund habe etwas analoges auf GK110 zu bezweifeln.
Kommt wohl drauf an, ob man Gameing oder Compute Performance betrachtet. Wenn ich mir die Daten so anschau von GK104, dann bin ich mir nicht mal sicher, ob man überhaupt an GF110 vorbei kommt bei SGEMM. Die Caches sind einfach zu klein/zu wenige für zu viel Rechenleistung.

Was Die Effizienz anbelangt, könnte man wegen dem niedrigeren Stromverbrauch aber eventuell dennoch vorne liegen.



Das eigentliche Problem ist lediglich dass HPC/Quadro offensichtlich nicht genug ist das R&D fuer ein solches Projekt zu finanzieren. Zu einem maessigerem Massstab koennte man es auch fuer Pitcairn vs. Tahiti anwenden. Zwar bedeuten Profi-Maerkte sehr hohe Margen, aber der generierte Umsatz kann wohl in beiden schwer die R&D Kosten fuer einen HPC chip ohne desktop SKUs decken.

Dem kann ich beipflichten. Es wäre einfach schwachsinnig, selbst wenn sich R&D daraus selbst finanzieren lassen würde, was ich bezweifle, da mit einer Mischlösung mehr Gewinn gemacht werden kann als bei einer Exklusivlösung. Es werden sich eben nur die Schwerpunkt verschieben. Für die kleinen Karten in Richtung Gameing und für die dicken Brummer in Richtung HPC, so das Sie aber noch immer ein gutes Stück schneller sind als die schnellste Gamer-Karte. Dann kaufen die Gamer das Ding nämlich trotzdem :rolleyes:

Soweit klar.
Aber der F&E-Aufwand wird ja nicht nur für den HPC-Chip betrieben, sondern auch für den Gamerchip. Hälst Du es nicht für möglich, dass ein moderat weiterentwickelter (=breiterer) Gamerchip durch eine preiswertere Produktion (weil deutlich kleinerer Die) im Gamermarkt mehr zur Refinanzierung der F&E-Kosten beitragen kann, als ein HPC-Chip, der zwar schon fertig ist, dafür aber pro Stück in der Herstellung teuerer ist? Wie viel Stück wurden denn so z.B. von einer 580GTX produziert?
Kannste knicken. Dafür ist R&D einfach zu teuer. Allein eine neue Revision eines chips zu bringen ist verdammt teuer.

Ailuros
2012-03-22, 18:27:00
Soweit klar.
Aber der F&E-Aufwand wird ja nicht nur für den HPC-Chip betrieben, sondern auch für den Gamerchip. Hälst Du es nicht für möglich, dass ein moderat weiterentwickelter (=breiterer) Gamerchip durch eine preiswertere Produktion (weil deutlich kleinerer Die) im Gamermarkt mehr zur Refinanzierung der F&E-Kosten beitragen kann, als ein HPC-Chip, der zwar schon fertig ist, dafür aber pro Stück in der Herstellung teuerer ist? Wie viel Stück wurden denn so z.B. von einer 580GTX produziert?

Solche Anzahlen sind mir leider nicht bekannt denn es ist ja nicht nur HPC fuer die high end cores benutzt werden sondern auch Quadros. Quadros sind ein gutes Stueck teurer als desktop Varianten und HPC/Tesla geht dann schon in den Wucherpreis Bereich im Vergleich zu desktop SKUs. Wuerdest Du nicht denken dass die Profis die Quadros kaufen eine eher begrenzte Anzahl sind und Teslas sind vielleicht irgendwo in der Region von ein paar dutzend Tausend pro Jahr?

In dem Fall waere es viel interessanter zu wissen wie viele GF100/110 GPUs fuer desktop insgesamt verkauft wurden.

So oder so aber fuer die obrige Logik braucht man keine Zahlen um es zu ueberdenken. Ein Monsterchip ist stets sauteuer zu entwickeln. Ich kann mir nicht vorstellen dass allein Quadro/Tesla Verkauefe diese Kosten decken koennen. Wenn sie hypothetisch jetzt GK110 auslassen wuerden vom desktop dann entfaellt erstmal der desktop Umsatz um einen Teil dieser Kosten zu decken und sie muessen noch weitere Entwicklungskosten auflegen fuer einen hypothetischen higher end "GK104" welcher offensichtlich auch nicht umsonst sein wird.

Also GK104 hat als GeForce nur 1:12 Wenn ich mich recht erinnere war es bei GF110 zwischen Quadro und GeForce eine Beschneidung von 1/4 gegeben. Würde bei GK104 dann bei 1:3 maximal bedeuten.

Fermi duerfte 1:8 sein. Theoretisch wenn ich es nicht falsch verstanden habe, 1 FP64/SMX ergo 64SPs * 8 SMX * 2 FLOPs * 1.006GHz = 1030 GFLOPs ergo zumindest theoretisch duerfte die hw nicht mehr als 1:3 schaffen. Was danach noch reduziert wurde keine Ahnung.

So entscheidend ist das aber gar nicht.... Die Caches sind nicht größer geworden -.- Schon bei GF1x0 warst du durch die Bandbreite des SI + Cache limitiert.... GK104 hat jetzt aber nur 8 SMs und GF110 hat 16 SMs. Das heißt du hast nur noch halb so viel L1/shared Cache -.-

Also was Compute betrifft sieht das eher schlecht aus... Das Ding geht eher in die Richtung von AMDs GPUs. Wenn die Caches unwichtig sind dick Leistung, aber das wars auch. Ergo zwischen theoreitschen Flop/s und Flop/s in der Anwendung liegen oft Welten.... :down:

Die Caches müssen mindestens! um einen Faktor 2 zulegen, eher mehr...

GK104 ist auch kein HPC chip. Scheduling ist einfacher mit festen Latenzen und anstatt 48+16 fuer die cache pro SM auf Fermi sind es jetzt 32+32. Und ja natuerlich muss und wird GK110 ziemlich grosszuegiger sein was caches betrifft, nicht nur weil die ALUs mit GK10x nicht identisch sind sondern man sollte auch bedenken dass was ALUs betrifft jeglicher GK104 einen halben Fermi pro GPC hat. Es sollte also nicht ueberraschen wenn auf GK110 es sich dann um einen ganzen Fermi/GPC handelt ;)

TMUs kann man sich meiner Meinung nach aber komplett schenken. Da langen auch die aktuellen.

Selbst wenn man weniger pro SMX (je nach der Aufteilung von diesem) einbaut ist die Anzahl immer noch ein gutes Stueck hoeher als bei GK104.

Kommt wohl drauf an, ob man Gameing oder Compute Performance betrachtet. Wenn ich mir die Daten so anschau von GK104, dann bin ich mir nicht mal sicher, ob man überhaupt an GF110 vorbei kommt bei SGEMM. Die Caches sind einfach zu klein/zu wenige für zu viel Rechenleistung.

Wie gesagt es interessiert nicht da GK104 kein HPC chip ist. Mir wird es als Normalverbraucher auch ziemlich wurscht sein was ein GK110 unter SGEMM auf die Schiene bringen und genau den Ueberschuss an Transistoren bezweifle ich eben.

Nochmal GF110 hatte 3Mrd vs. GF114 1.95Mrd Transistoren. Bei 2/3 der Transistoren und ca. 40% Leistungs-unterschied zwischen den beiden hab ich auch keinen besonderen Grund mich zu beschweren. Da wir aber diesmal um angegebene 50% mehr Leistung bei fast doppelt so viel Transistoren reden, aendert sich das Bild radikal und nein ich will als Ottonormalverbraucher eben nicht HPC fuer NVIDIA oder sonst wen so hoch finanzieren.

Skysnake
2012-03-22, 19:56:21
Fermi duerfte 1:8 sein. Theoretisch wenn ich es nicht falsch verstanden habe, 1 FP64/SMX ergo 64SPs * 8 SMX * 2 FLOPs * 1.006GHz = 1030 GFLOPs ergo zumindest theoretisch duerfte die hw nicht mehr als 1:3 schaffen. Was danach noch reduziert wurde keine Ahnung.

GF110 hat natürlich 1:8. 1/4 halt weniger als die Tesla Version mit 1:2 ;) Mehr wollte ich nicht damit sagen.


GK104 ist auch kein HPC chip. Scheduling ist einfacher mit festen Latenzen und anstatt 48+16 fuer die cache pro SM auf Fermi sind es jetzt 32+32. Und ja natuerlich muss und wird GK110 ziemlich grosszuegiger sein was caches betrifft, nicht nur weil die ALUs mit GK10x nicht identisch sind sondern man sollte auch bedenken dass was ALUs betrifft jeglicher GK104 einen halben Fermi pro GPC hat. Es sollte also nicht ueberraschen wenn auf GK110 es sich dann um einen ganzen Fermi/GPC handelt ;)

interessant, aber für diese Woche keine Zeit für so was ;)


Wie gesagt es interessiert nicht da GK104 kein HPC chip ist. Mir wird es als Normalverbraucher auch ziemlich wurscht sein was ein GK110 unter SGEMM auf die Schiene bringen und genau den Ueberschuss an Transistoren bezweifle ich eben.

Versteh ich gerade nicht, was du damit versuchst zu sagen. :confused:


Nochmal GF110 hatte 3Mrd vs. GF114 1.95Mrd Transistoren. Bei 2/3 der Transistoren und ca. 40% Leistungs-unterschied zwischen den beiden hab ich auch keinen besonderen Grund mich zu beschweren. Da wir aber diesmal um angegebene 50% mehr Leistung bei fast doppelt so viel Transistoren reden, aendert sich das Bild radikal und nein ich will als Ottonormalverbraucher eben nicht HPC fuer NVIDIA oder sonst wen so hoch finanzieren.
Dann bedank dich bei den Fanboys etc. die völlig hirnlos Hardware kaufen, so lange Sie nur einen ticken schneller ist als der Rest. Das spielt nVidia voll in die Hand. Man kann für HPC Transistoren in Massen "verschwenden" ohne das es Auswirkungen auf die Absatszahlen im Consumer-Markt hat -.-

Odal
2012-03-22, 20:18:12
Dann bedank dich bei den Fanboys etc. die völlig hirnlos Hardware kaufen, so lange Sie nur einen ticken schneller ist als der Rest. Das spielt nVidia voll in die Hand. Man kann für HPC Transistoren in Massen "verschwenden" ohne das es Auswirkungen auf die Absatszahlen im Consumer-Markt hat -.-

von welcher Hardware sprichst du da jetzt genau?

Zergra
2012-03-22, 20:24:10
Der GK110 wird doch wohl eher nicht für den Desktop Markt rauskommen, da NV dort keinen Handlungsbedarf hat solange AMD keine HD7980 oder so rausbringt. Vorher wird da wohl nichts kommen. NV braucht das imo einfach nicht da AMD geschlagen wurde egal um wie viel %. Und sie damit nur die Preise für GK104 drücken würden. So können sie den kleinen Chip im Desktop Markt für 500€ verkaufen und machen guten Profit. Der GK110 für dann für HPC eingesetzt! Und wohl 800€ kosten !

AwesomeSauce
2012-03-22, 20:37:17
The other change coming from GF114 is the mysterious block #15, the CUDA FP64 block. In order to conserve die space while still offering FP64 capabilities on GF114, NVIDIA only made one of the three CUDA core blocks FP64 capable. In turn that block of CUDA cores could execute FP64 instructions at a rate of ¼ FP32 performance, which gave the SM a total FP64 throughput rate of 1/12th FP32. In GK104 none of the regular CUDA core blocks are FP64 capable; in its place we have what we’re calling the CUDA FP64 block.

The CUDA FP64 block contains 8 special CUDA cores that are not part of the general CUDA core count and are not in any of NVIDIA’s diagrams. These CUDA cores can only do and are only used for FP64 math. What more, the CUDA FP64 block has a very special execution rate: 1/1 FP32. With only 8 CUDA cores in this block it takes NVIDIA 4 cycles to execute a whole warp, but each quarter of the warp is done at full speed as opposed to ½, ¼, or any other fractional speed that previous architectures have operated at. Altogether GK104’s FP64 performance is very low at only 1/24 FP32 (1/6 * ¼), but the mere existence of the CUDA FP64 block is quite interesting because it’s the very first time we’ve seen 1/1 FP32 execution speed. Big Kepler may not end up resembling GK104, but if it does then it may be an extremely potent FP64 processor if it’s built out of CUDA FP64 blocks.
http://www.anandtech.com/show/5699/nvidia-geforce-gtx-680-review/2

AnarchX
2012-03-22, 21:31:12
1536 FP64 CUDA-Cores wären für Spieler ziemlich unerfreulich...
Auf der anderen Seite sind FLOPs nicht alles, GK104 setzt seine ja eher schlecht im Vergleich zu GF110 um. :uponder:

Skysnake
2012-03-22, 21:52:08
Sorry, aber klingt für mich irgendwie an den Haaren herbei gezogen. Wenn die jetzt gesagt hätten ok, da ist ein Block, der 1:2 kann, und die anderen 2 Blöcke gar keine DP, dann von mir aus, aber doch nicht 1:1 mit so ominösen 8 "Cuda-Cores", die dann sogar nirgends auf tauchen...

Warum sollte man so fette ALUs rein bauen, und die anderen dann bei DP sinnlos in der Ecke liegen lassen... Zudem soll laut PCGH 1:12 gelten, auch für GK104 nämlich 2309 SP und 258 DP GFlop/s.

Mir klingt das schon sehr abwägig, zumal nichtmal bei CPUs die SIMDs 1:1 haben...

AnarchX
2012-03-22, 21:54:59
Die 1/24 wurden auch von Damien Triolet bestätigt: http://www.forum-3dcenter.org/vbulletin/showthread.php?p=9221477#post9221477

Coda
2012-03-22, 22:00:26
Sorry, aber klingt für mich irgendwie an den Haaren herbei gezogen. Wenn die jetzt gesagt hätten ok, da ist ein Block, der 1:2 kann, und die anderen 2 Blöcke gar keine DP, dann von mir aus, aber doch nicht 1:1 mit so ominösen 8 "Cuda-Cores", die dann sogar nirgends auf tauchen...

Warum sollte man so fette ALUs rein bauen, und die anderen dann bei DP sinnlos in der Ecke liegen lassen... Zudem soll laut PCGH 1:12 gelten, auch für GK104 nämlich 2309 SP und 258 DP GFlop/s.

Mir klingt das schon sehr abwägig, zumal nichtmal bei CPUs die SIMDs 1:1 haben...
Es war schon bei GF104 und GT200 der Fall, dass FP64 separate Hardware pro SM war.

Das 8 reine FP64-Einhjeiten natürlich auch 8 FP32-Instructions abarbeiten können mit sehr wenig Aufwand und gleicher Geschwindigkeit sollte klar sein. Allerdings glaube ich nicht wirklich daran, dass der Compiler das derzeit überhaupt benutzt. Der Geschwindigkeitsgewinn dürfte minimalst sein, wenn überhaupt einer zu messen ist.

AnarchX
2012-03-22, 22:05:34
Stand nicht bei GF104 zur Diskussion dass eine SIMD16 pro SM in 4 Takten FP64 berechnet hat?

Das könnte wohl auch auf GK104 zutreffen, aber nun eben pro SMX nur eine SIMD32, wodurch der Durchsatz nochmal halbiert wurde.

Coda
2012-03-22, 22:14:27
Sie haben explizit einen extra Scheduling-Port angegeben, was dagegen spricht. Vielleicht war es einfach weniger Aufwand 8 FP64-Einheiten zu verbauen anstatt ein 32er SIMD FP64 fähig zu machen.

Dürfte im Endeffekt aber kaum einen Unterschied machen.

Ailuros
2012-03-24, 12:52:30
Dann bedank dich bei den Fanboys etc. die völlig hirnlos Hardware kaufen, so lange Sie nur einen ticken schneller ist als der Rest. Das spielt nVidia voll in die Hand. Man kann für HPC Transistoren in Massen "verschwenden" ohne das es Auswirkungen auf die Absatszahlen im Consumer-Markt hat -.-

Wieso soll ich mich BIS JETZT den single core high end (GF110) Kaeufern "bedanken"? Nochmal GF110 hat ca. 40% mehr Leistung fuer 33% mehr Transistoren als GF114. Daran liegt nichts krummes sondern es ist sogar eine sehr anstaendige Investition.

Im Gegensatz zu GK110: ca. 50% mehr Leistung bei fast 100% mehr Transistoren im Vergleich zu GK104. Wenn Dir der Unterschied immer noch nicht einleuchtet kann ich nicht weiterhelfen. Fuer professionelle Maerkte wie HPC fuer DP ist GK110 im Vergleich zu GF110 natuerlich ein ausgezeichnetes Angebot aber von dem hat der Otto-normalverbraucher bzw. von mir aus gamer rein gar nichts und um das genau geht es mir.

Fuer NV als IHV der mit einer einzigen Architektur eine Vielzahl von Maerkten bedingt ist das Ganze ja durchaus logisch und gerechtfertigt und nein es kann fuer solche design-Entscheidungen nie nur Vorteile geben. Den kuerzeren wird aber trotz allem der desktop Kunde ziehen und wohl hauptsaechlich im Bereich Stromverbrauch. Wenn man sehr optimistisch ist koennte man glauben dass NV es schafft bei fast doppelt so viel Einheiten (mit ein paar Ausnahmen) einem 512bit bus und trotz geringerem Takt sich fuer GK110 desktop noch im 250W TDP Bereich zu bewegen, aber ich persoenlich glaube es wenn ich es sehe. 50% mehr Leistung gegen GK104 bei nur ~25-30% mehr Stromverbrauch?

Skysnake
2012-03-24, 13:49:06
Ich glaub du missverstehst mich da Ailuros ;)

Mir gings nicht um GF110 oder GFxyz, sondern einfach um die Grundeinstellung der Leute, einfach alles zu kaufen, auch wenns nur bischen schneller ist. Kurz um, dieses völlig hirnlose kaufen teilweise, was dann mit Enthusiasten, Perf brauch halt Leistung und was weiß ich was für nem geschwätz gerechtfertigt wird.

Die Preise für die HD7970 und die GTX680 halte ich für überzogen. Die Leute kaufen aber trotzdem.

Nur das meinte ich, nichts weiter.

Und das GF110 vs GF114 bzgl. Perf/Transistor noch im Rahmen war, bestreite ich auch nicht. Allerdings hat GF1x0 doch etwas viel Strom gefressen meiner Meinung nach. Man hat aber schon die Tendenz gesehen, wo es hin geht. Nichts weiter.

Kleinerer Chip ganz auf Gameing mit super Gaming-Effizienz großer Chip mit viel GPGPU Zeugs drin, und deutlich schlechterer GAmeing-Performance, aber noch immer klar schneller als der reine GAmer Chip.

WEiß nicht was du daran aus zu setzen hast. Ich sag eigentlich genau das Gleiche wie du nur mit anderen Worten :ugly:

Ailuros
2012-03-24, 14:10:48
Ich glaub du missverstehst mich da Ailuros ;)

Mir gings nicht um GF110 oder GFxyz, sondern einfach um die Grundeinstellung der Leute, einfach alles zu kaufen, auch wenns nur bischen schneller ist. Kurz um, dieses völlig hirnlose kaufen teilweise, was dann mit Enthusiasten, Perf brauch halt Leistung und was weiß ich was für nem geschwätz gerechtfertigt wird.

Kein einziger Einwand. Man sieht es auch am mGPU Phaenomen.

Die Preise für die HD7970 und die GTX680 halte ich für überzogen. Die Leute kaufen aber trotzdem.

Je hoeher die Preise desto kleiner die Nachfrage bzw. Verkaufszahlen. Die 680 ist noch ein ziemlich junges Tier aber hast Du irgendwo gehoert dass jemand eine 7970 haben wollte und er sich besonder grosse Muehe machen musste eine zu finden egal in welchem Arsch der Welt?

Und das GF110 vs GF114 bzgl. Perf/Transistor noch im Rahmen war, bestreite ich auch nicht. Allerdings hat GF1x0 doch etwas viel Strom gefressen meiner Meinung nach. Man hat aber schon die Tendenz gesehen, wo es hin geht. Nichts weiter.

GF114 = 175W vs. GF110 = 244W
GK104 = 195W vs. GK110 </= 300W?


WEiß nicht was du daran aus zu setzen hast. Ich sag eigentlich genau das Gleiche wie du nur mit anderen Worten :ugly:

Es ist offensichtlich diesmal nicht vergleichbar fuer GK110 vs. GK10x im Gegensatz zu Fermi, GT200 und co. Das Ganze gilt natuerlich nicht wenn GK110 am Ende doch mit einem 250W TDP ankommen sollte.

Sunrise
2012-03-24, 14:41:10
...Den kuerzeren wird aber trotz allem der desktop Kunde ziehen und wohl hauptsaechlich im Bereich Stromverbrauch. Wenn man sehr optimistisch ist koennte man glauben dass NV es schafft bei fast doppelt so viel Einheiten (mit ein paar Ausnahmen) einem 512bit bus und trotz geringerem Takt sich fuer GK110 desktop noch im 250W TDP Bereich zu bewegen, aber ich persoenlich glaube es wenn ich es sehe. 50% mehr Leistung gegen GK104 bei nur ~25-30% mehr Stromverbrauch?
Gebe es einen anderen Weg, würde NV diesen gehen. Ich sehe momentan noch nicht, wo genau ich den Kürzeren ziehe, wenn ich 50% mehr Leistung im Vergleich zu GK104 auf einer Single-GPU bekomme. Selbst wenn es 35 bzw. maximal 40% mehr Verbrauch sind, sehe ich garkein Problem. 50% mehr Leistung im High-End Desktop im Vergleich zu GK104, das ist eine ganze Menge, bei der Leistung, die GK104 hier vorgelegt hat.

Eine High-End-GPU mit 512bit Interface, brachialer Rechen- und Texturleistung finde ich weiterhin verdammt lecker. Da werden sämtliche Grenzen wieder ausgelotet, bzw. gesprengt, das ist doch das, was den High-End-Käufern gefällt. Das nehme ich dankend gerne, sofern das Teil nicht über 300 Watt schießt und wir keine Preise jenseits von $699 zahlen müssen.

Natürlich ginge hier sicher mehr, ganz ohne den "HPC-Kram", aber warum sollte mich das interessieren? Leistung und Preis zählen für mich im Endeffekt immer.

Das einzige Problem vor dem ich oft stehe ist, ich habe leider nicht mehr die Zeit um soviel zu spielen, wie früher. Aber wenn ich spiele, dann möchte ich eben nicht durch meine GPU ausgebremst werden und da ist mir der Stromverbrauch für 3-5 Stunden dann auch herzlich egal. Den Großteil der Zeit verbringt die GPU sowieso bei 2D/Video-Anwendungen und dort wird auch der Verbrauch wieder sehr niedrig sein.

Apropos, der Stromverbrauch interessierte mich bei G80 und GF110 auch nicht. GK110 kann garnicht früh genug kommen. Bis dahin leistet mir meine GTX580 Anarchy weiterhin sehr gute Dienste (20% über Werkstakt).

ameisenbaer
2012-03-24, 15:37:16
Die meißten Leute die z.b. eine 580GTX haben werden auf GK110 warten, ich bin auch einer davon.

Also ich hab meine Zweifel, dass das Ding überhaupt als
Spielegrafikkarte positioniert wird. Sofern AMD nicht
einen gewaltigen Schritt nach vorne macht, macht
es für Nvidia doch eigentlich wenig Sinn für eine
ähnliche Preisklasse wie jetzt die GTX 680
die Chipfläche und damit die Kosten so sehr zu erhöhen.
Würde mich also nicht wundern, wenn das Ding
für Tesla/Quadro Bereich mit entsprechenden
Preis positioniert wird.

Botcruscher
2012-03-24, 15:44:27
Natürlich kommt GK110 als Spielerkarte und wird auch so beworben. Alles andere wäre einfach nur dumm. Der Preis wird entsprechen ausfallen und gut ist. Bis dahin vergeht auch bei TSMC noch jede Menge Zeit. Wie sich die Preise schlussendlich entwickeln kann eh keiner voraus sagen.

Duplex
2012-03-24, 19:25:03
Ich weiß garnicht warum einige denken das GK110 nicht im Gamer Markt eingesetzt wird.

Diesmal hat man bzgl. Fläche mehr Spielraum als bei den Vorgänger

GF104 = 376mm²
GF110 = 530mm²
(GF110 hat 42% mehr Fläche & 52% mehr Shader als GF104 & hat 70% mehr Leistung)

GK104 = 294mm²
GK110 = 550mm²
(GK110 hat 90% mehr Fläche als GK104) | 3072 Shader @650MHz, 512 Bit, 4GiB würde ich nicht ausschließen!

desert
2012-03-24, 19:31:40
Also ich hab meine Zweifel, dass das Ding überhaupt als
Spielegrafikkarte positioniert wird. Sofern AMD nicht
einen gewaltigen Schritt nach vorne macht, macht
es für Nvidia doch eigentlich wenig Sinn für eine
ähnliche Preisklasse wie jetzt die GTX 680
die Chipfläche und damit die Kosten so sehr zu erhöhen.
Würde mich also nicht wundern, wenn das Ding
für Tesla/Quadro Bereich mit entsprechenden
Preis positioniert wird.

Naja da Ding ist fertig entwickelt und damit schlagen auch die ganzen Entwicklungskosten durch, und die werden sich nicht auf 20 Millionen dollar belaufen, sondern richtig ins geld gehen, also muss Nvidia den Chip in den consumermarkt bringen.

Und nur mit hpc werden sie kosten nicht reinbringen. Und ehrlicherweise glaube ich das nvidia mit einer 680 gtx für 300,00 euro wesentlich mehr gewinn einfährt als mit einer für 500,00 euro, für den preise kaufen verhältnissmässig wenig leute grafikkarten

Godmode
2012-03-24, 19:38:31
Und ehrlicherweise glaube ich das nvidia mit einer 680 gtx für 300,00 euro wesentlich mehr gewinn einfährt als mit einer für 500,00 euro, für den preise kaufen verhältnissmässig wenig leute grafikkarten

Davon bin ich auch überzeugt! Ich denke viele werden jetzt einfach mal abwarten, bis die Preise besser sind. Und wenn das bei TSMC alles mal rund läuft, wird GK110 auch zu einem "vernünftigen" Preis vorgestellt werden. Ich hoffe es ist früher als bis jetzt angenommen wird, aber wenn im April/Mai wirklich erstmal ein Dual-Chip-Board kommt, dann könnte es wirklich noch länger dauern.

Duplex
2012-03-24, 19:52:11
Also ich hab meine Zweifel, dass das Ding überhaupt als
Spielegrafikkarte positioniert wird.
GK104 (680gtx) ist aber kein High End Chip, der Chip ist nur 294mm² groß.

w0mbat
2012-03-24, 20:06:40
GK104 (680gtx) ist aber kein High End Chip, der Chip ist nur 294mm² groß.

Also wäre ein 500mm² Chip mit 6800 Ultra Performance für dich high-end und ein 200mm² Chip mit GTX 680 SLI Performance nur mainstream? Oder wie soll ich das verstehen?

Ich Idiot dachte ja immer, das hätte mehr was mit der Leistung zu tun ;D

Captain Future
2012-03-24, 20:11:32
Zwar bedeuten Profi-Maerkte sehr hohe Margen, aber der generierte Umsatz kann wohl in beiden schwer die R&D Kosten fuer einen HPC chip ohne desktop SKUs decken.

R&D sind Ausgaben, die müssen vom Gewinn gedeckt werden, nicht vom Umsatz, und da sieht Q/T gar nicht so schlecht aus im Vergleich mit GF.

Knuddelbearli
2012-03-24, 20:17:13
Davon bin ich auch überzeugt! Ich denke viele werden jetzt einfach mal abwarten, bis die Preise besser sind. Und wenn das bei TSMC alles mal rund läuft, wird GK110 auch zu einem "vernünftigen" Preis vorgestellt werden. Ich hoffe es ist früher als bis jetzt angenommen wird, aber wenn im April/Mai wirklich erstmal ein Dual-Chip-Board kommt, dann könnte es wirklich noch länger dauern.



doch tun sie, für die leute die 300$ grafikkarten wollen kommt dann ja die 660 die billiger zu fertigen ist asl die 680

Mancko
2012-03-24, 20:41:34
R&D sind Ausgaben, die müssen vom Gewinn gedeckt werden, nicht vom Umsatz, und da sieht Q/T gar nicht so schlecht aus im Vergleich mit GF.

Was aber auch daran liegt, dass Nvidia das R&D bisher komplett im GeForce Business kosolidiert hat -> auch der Teil für Quadro und Tesla.

Zergra
2012-03-24, 20:43:23
Naja da Ding ist fertig entwickelt und damit schlagen auch die ganzen Entwicklungskosten durch, und die werden sich nicht auf 20 Millionen dollar belaufen, sondern richtig ins geld gehen, also muss Nvidia den Chip in den consumermarkt bringen.

Und nur mit hpc werden sie kosten nicht reinbringen. Und ehrlicherweise glaube ich das nvidia mit einer 680 gtx für 300,00 euro wesentlich mehr gewinn einfährt als mit einer für 500,00 euro, für den preise kaufen verhältnissmässig wenig leute grafikkarten

Trotzdem ist es nicht sicher.... da kann man lieber die 670GTX für 300€ verkaufen und damit besserern Gewinn machen, GK110 ist allein in der Herstellung des Chips fast Doppelt so teuer. Die werden doch nicht den Preis von drücken wollen, wenn sie Gk110 rausbringen senkt AMD die Preise, wenn sie es nicht tun eben nicht. Sie verdienen weniger mit dem kleinen Chip.
Und der Abstand zwischen Tahiti und Kepler ist diesmal nicht so groß was NV wohl auch besser passt da AMD jetzt auch konkurenz Fähig ist und auch im Grafikverbesserungs Bereich vorschritte macht und nicht über den Preis Kontern muss.

Gk110 wird wohl nicht für den Gaming Bereich kommen, wenn dann für 700€, also für normal sterbliche eher unereichbar. Auch wenn GK110 20Millionen gekostet hat wird er das dann wohl nicht so schnell rausholen egal wie man es macht. Da kann man lieber einen billigen Chip teuer verkaufen !

Duplex
2012-03-24, 20:43:50
Also wäre ein 500mm² Chip mit 6800 Ultra Performance für dich high-end und ein 200mm² Chip mit GTX 680 SLI Performance nur mainstream? Oder wie soll ich das verstehen?

Ich Idiot dachte ja immer, das hätte mehr was mit der Leistung zu tun ;D
Das nicht zu verstehen ist dein Problem...

Man vergleicht GPU Chips anhand deren Größe nur wenn die GPU Architektur identisch ist. GK110 wird 90% größer als GK104, die Architektur Basis von GK110 ist ähnlich wie bei GK104.

GK104 (Performance)
- 1536 GPU Shader
- 256 Bit SI
- 2GB GDDR5
- 32 ROPs
- 294mm² Die Space
- 1006 MHz Chiptakt

GK110 (High End)
- 3072 GPU Shader
- 512 Bit SI
- 4GB GDDR5
- 64 ROPs
- 550mm² Die Space
- 700Mhz Chiptakt

Damit hätte GK110 3 wichtige Vorteile:

1. 100% mehr GPU Shader
2. 100% mehr Bandbreite
3. 100% mehr ROPs

als GK104 der aber 300MHz höher als GK110 taktet, jetzt ratet mal wie schnell der GK110 wirklich werden kann :D

Godmode
2012-03-24, 20:52:26
Also wäre ein 500mm² Chip mit 6800 Ultra Performance für dich high-end und ein 200mm² Chip mit GTX 680 SLI Performance nur mainstream? Oder wie soll ich das verstehen?

Ich Idiot dachte ja immer, das hätte mehr was mit der Leistung zu tun ;D

Wir haben schon eine Diskussion zu diesem Thema:
http://www.forum-3dcenter.org/vbulletin/showthread.php?t=523590

Bitte dort rein, das hat hier absolut nichts verloren!

BTT: GK110

desert
2012-03-24, 20:52:35
R&D sind Ausgaben, die müssen vom Gewinn gedeckt werden, nicht vom Umsatz, und da sieht Q/T gar nicht so schlecht aus im Vergleich mit GF.

? Also gewinn mache ich erst, wenn alle kosten abgedeckt sind und dazu gehören selbstverständlich auch r&D. Das sagt der Name "Gewinn" ja schon aus, wie soll etwas ein gewinn sein, wenn ich davon erst noch kosten abziehen muss.

Skysnake
2012-03-24, 22:38:36
ich sag jetzt dazu mal nichts ;D

hardtech
2012-03-24, 22:49:27
@duplex
also bei 90% mehr fläche auf 100% mehr shader zu spekulieren ist doch ein wenig gewagt, oder?
zumal ja noch gpgpu einheiten hinzukommen sollen. das macht den gk110 zwar fetter, aber steigert nicht explizit die spieleleistung.

kenne mich da jetzt nicht so sehr aus im detail mit gpu architektur, aber die jetzigen performance zuwächse nach 1,5 jahren warten seit der gtx580... das kann es noch nicht wirklich gewesen sein!

Neurosphere
2012-03-25, 00:15:58
? Also gewinn mache ich erst, wenn alle kosten abgedeckt sind und dazu gehören selbstverständlich auch r&D. Das sagt der Name "Gewinn" ja schon aus, wie soll etwas ein gewinn sein, wenn ich davon erst noch kosten abziehen muss.

Naja, im Prinzip wird R&D vom Gewinn der Vorgängergeneration getätigt. Die Kosten fürs R&D von Kepler hat quasi Fermi getragen.

Godmode
2012-03-25, 00:16:16
Ich sträube mich momentan an 8 GPCs zu glauben. In der Chiphell-Tabelle stand 6 für GK100, von daher könnte 8 wieder Sinn machen. Macht Sinn, weil er durch die spätere Vorstellung besser sein muss, als der originale GK100, falls es den überhaupt gab.

Warum sträube ich mich? Tja weil ich denke, dass es ziemlich kompliziert wird, den Rasterizer 8-fach auszulegen!? :confused:

Wenn ich mir jetzt die Specs angucke, von denen wir momentan ausgehen, wären 50%+ wirklich verdammt lahm. Was möglich wäre ist, dass GK110 extrem niedrig taktet, also vielleicht nur bei 650 MHz um den Stromverbrauch in Grenzen zu halten? Fragen über Fragen und schlauer wird man nicht...

hardtech
2012-03-25, 00:32:58
was tippt ihr denn, wann gk110 gpu kaufbar sein werden vom endanwender?

Captain Future
2012-03-25, 00:39:27
Was aber auch daran liegt, dass Nvidia das R&D bisher komplett im GeForce Business kosolidiert hat -> auch der Teil für Quadro und Tesla.

Das wusste ich nicht. Stimmt das wirklich?

Skysnake
2012-03-25, 09:40:37
sicherlich nicht...

So was sind aber eh immer nur Buchhaltungsstunts wie man was wo hin rechnet.

Daher lächerlich darüber zu streiten

Botcruscher
2012-03-25, 11:01:30
Bei den Chipdaten sind wir hier wirklich bei "Wünsch dir was" 100% mehr shader/rops, gpgpu und ein 512er Interface. 550mm² öhm ja. Wenn das bei den Daten um 2300SP werden ist es schon viel.

Coda
2012-03-25, 11:13:05
GF104: 367mm², 384 ALUs
GF110: 520mm²: 512 ALUs

Skalierte ziemlich linear (und das obwohl GF110 ineffizienter mit dem Platz umging, wegen anderer SM-Struktur). Für 3072 ALUs lägen wir nach der Milchmädchenrechnung also bei ~600mm² bei GK110. Da war GT200 auch schon. Nicht unmöglich.

Captain Future
2012-03-25, 11:26:11
GF104: 367mm², 384 ALUs
GF110: 520mm²: 512 ALUs

Skalierte ziemlich linear (und das obwohl GF110 ineffizienter mit dem Platz umging, wegen anderer SM-Struktur). Für 3072 ALUs lägen wir nach der Milchmädchenrechnung also bei ~600mm² bei GK110. Da war GT200 auch schon. Nicht unmöglich.
da sind aber auch 384 bit interface und doppelt soviele tmus pro sm drin.

=Floi=
2012-03-25, 11:35:03
was hat GK104?

Hades11
2012-03-25, 13:03:46
was hat GK104?
GK104 hat 294mm2

Godmode
2012-03-25, 17:56:15
Was haltet ihr von folgendem Aufbau:

256 SPs/SMX
16 TMUs/SMX
2 SMX/GPC
6 GPCs
64 ROPs
850 MHz

5,2 TFlop/s Single Precision = GK104 + 64%
2,6 (http://www.forum-3dcenter.org/vbulletin/showpost.php?p=9212018&postcount=6571) TFlop/s Double Precision
164 GTexel/s = GK104 + 28%


Meine Annahmen:
- SPs sind nicht sehr teuer, daher wäre eine Verdoppelung im Rahmen des Transistoren Budgets
- Kontrolllogik ist teuer, daher nur 6 GPC und nicht 8 (siehe Chiphell Tabelle (http://cdn.overclock.net/7/78/600x316px-LL-78782ab5_0718538639yabz3w3mak82.png))
- Gleiche Anzahl TMUs/SMX sonst passt das Verhältnis nicht mehr zwischen GK104 und GK110. Zwischen GF110 und GF114 war da auch kein all zu großer Unterschied (49 GTexel/s vs 52 GTexel/s). TMUs wachen also nur um 50% mit den GPCs
- Den übrige Platz wird dann nach belieben für GPGPU verschwendet.

Was meint ihr, kann so ein Ding 50+% schneller als GK104 sein? :confused:

boxleitnerb
2012-03-25, 17:57:35
Ailuros hat doch angedeutet, dass GK110 auch 128 TMUs haben könnte. Allerdings ist das schon ein Weilchen her, vielleicht hat sie ja mal was geändert.

ameisenbaer
2012-03-25, 18:10:53
Davon bin ich auch überzeugt! Ich denke viele werden jetzt einfach mal abwarten, bis die Preise besser sind. Und wenn das bei TSMC alles mal rund läuft, wird GK110 auch zu einem "vernünftigen" Preis vorgestellt werden. .

TSMC hat volle Auftragsbücher in 28 nm, die werden die Preise auch nicht so aus reiner Menschenliebe senken, wenn die Konkurenz keinen Dampf macht.

Godmode
2012-03-25, 18:11:06
Ailuros hat doch angedeutet, dass GK110 auch 128 TMUs haben könnte. Allerdings ist das schon ein Weilchen her, vielleicht hat sie ja mal was geändert.

Man hätte dann aber deutlich weniger Texturierleistung verglichen mit GF114 vs GF110.

boxleitnerb
2012-03-25, 18:18:41
GK104 geht damit doch eh ziemlich ineffizient um im Vergleich zu Fermi. Wenn man da bissl was drehen kann, sollte das nichts ausmachen.

Godmode
2012-03-25, 18:51:21
GK104 geht damit doch eh ziemlich ineffizient um im Vergleich zu Fermi. Wenn man da bissl was drehen kann, sollte das nichts ausmachen.

Kann sein, aber Ailuros (http://www.forum-3dcenter.org/vbulletin/showpost.php?p=9221164&postcount=84) deutete was anderes an:

Und ja natuerlich muss und wird GK110 ziemlich grosszuegiger sein was caches betrifft, nicht nur weil die ALUs mit GK10x nicht identisch sind sondern man sollte auch bedenken dass was ALUs betrifft jeglicher GK104 einen halben Fermi pro GPC hat. Es sollte also nicht ueberraschen wenn auf GK110 es sich dann um einen ganzen Fermi/GPC handelt ;)


Dh. für mich 4 SMX/GPC.


SPs/SMX 128
TMUs/SMX 8
SMX/GPC 4
GPCs 6
SPs 3072
TMUs 192
Takt 0.850
Flop/s SP 5,222
Flop/s DP 2,611
GTexel/s 163.2

Felixxz2
2012-03-25, 20:14:50
Da hast du aber ein Problem mit dem Rasterizer. Bei GK104 sinds 384 ALUs/Rasterizer. Bei deinem fiktiven GK110 wärns dann 512 ALUs/Rasterizer und dann bekommst du das gleiche Problem wie Tahiti (Ok da ist es noch deutlich krasser :freak:).

Also entweder 8 GPCs oder 16 Pixel/Takt Rasterizer.


Kurze OT Frage noch an die Experten: Warum kann GK104 die ALUs vernünftig auslasten obwohl die Gesamtrasterizerleistung wie bei Tahiti bei 32 Pixel/Takt liegt?

Nakai
2012-03-25, 20:23:56
Also entweder 8 GPCs oder 16 Pixel/Takt Rasterizer.

Es wird wohl Ersteres. Siehe GF110 und GF114. 4 GPCs und 2 GPCs.
Entweder wird GK110 deutlich kleiner oder deutlich fetter als erwartet. ;)

Felixxz2
2012-03-25, 20:46:24
Da wird nVidia wohl abwägen was sinnvoller ist aber ich denke auch 8 GPCs. Man muss auch die Tess-Leistung im Auge behalten bei der Anordnung der Einheiten. Ich denke schon dass GK110 doppelte GK104/GF110 Tess-Leistung haben wird.

Godmode
2012-03-25, 21:42:39
Mit 8 GPCs könnte man dann sowas machen:


SPs/SMX 96
TMUs/SMX 4
SMX/GPC 4
GPCs 8
SPs 3072
TMUs 128
Takt 0.850
Flop/s SP 5,222
Flop/s DP 2,611
GTexel/s 108

Wobei mir die Texelleistung nicht gefällt, 20% unter GK104...

Felixxz2
2012-03-25, 21:58:50
Dann hättest du aber 4x soviel Tess-Leistung wie GK104, das wär ein bisl viel und vor allem teuer. An TMUs könnte man ja auch 6/SMX verbauen oder?

Wieso eigentlich kein hochskalierter GK104? Also 192 ALUs/SMX, 8-16 TMUs/SMX, 2 SMX/GPC, 8 GPCs und das bei genannten 850 MHz?

Godmode
2012-03-25, 22:01:52
Dann hättest du aber 4x soviel Tess-Leistung wie GK104, das wär ein bisl viel und vor allem teuer. An TMUs könnte man ja auch 6/SMX verbauen oder?

Wieso eigentlich kein hochskalierter GK104? Also 192 ALUs/SMX, 8-16 TMUs/SMX, 2 SMX/GPC, 8 GPCs und das bei genannten 850 MHz?

Weil Ail schon sagte das ein GPC 4 SMX haben wird.


Und ja natuerlich muss und wird GK110 ziemlich grosszuegiger sein was caches betrifft, nicht nur weil die ALUs mit GK10x nicht identisch sind sondern man sollte auch bedenken dass was ALUs betrifft jeglicher GK104 einen halben Fermi pro GPC hat. Es sollte also nicht ueberraschen wenn auf GK110 es sich dann um einen ganzen Fermi/GPC handelt ;)

Felixxz2
2012-03-25, 22:20:38
Achso sry, hab ich nicht gelesen.

Dann vielleicht doch 16er Rasterizer? Weil 32 Polymorph 2.0 Engines wärn doch ziemlich krass oder? Die Geometrieleistung würde für die nächsten 10 Jahre reichen :freak:

Ich denke mal die Grenze von 384 ALUs/8er Rasterizer wird nicht überschritten, also könnts doch so aussehen:

4 GPCs
1 16er Rasterizer/GPC
4 SMX/GPC
192 ALUs/SMX
12 TMUs/SMX
48 ROPs
384 Bit SI @ 6GHz GDDR5

macht gesamt:

3072 ALUs
192 TMUs
48 ROPs
@ 850 MHz

Godmode
2012-03-25, 22:27:01
Achso sry, hab ich nicht gelesen.

Dann vielleicht doch 16er Rasterizer? Weil 32 Polymorph 2.0 Engines wärn doch ziemlich krass oder? Die Geometrieleistung würde für die nächsten 10 Jahre reichen :freak:

Ich denke mal die Grenze von 384 ALUs/8er Rasterizer wird nicht überschritten, also könnts doch so aussehen:

4 GPCs
1 16er Rasterizer/GPC
4 SMX/GPC
192 ALUs/SMX
12 TMUs/SMX
48 ROPs
384 Bit SI @ 6GHz GDDR5

macht gesamt:

3072 ALUs
192 TMUs
48 ROPs
@ 850 MHz


Glaube nicht an 4 GPCs da in der Chiphell Tabelle für GK100 schon 6 aufgezählt wurden. Also entweder wir haben 6 oder 8.

Es sind 512 Bit für das SI und 64 ROPs laut Ailurus:


GK104 ist 294mm2 mit einer ca. 12Mio/sqmm Packdichte. Ergo Vorsicht bei der Tranistoren-einschaetzung fuer GK110 denn ein 2x Mal so breiter Bus ist nicht gerade umsonst.

Erstens SPs != SPs zwischen 110 und 10x (deshalb auch die "1" zwischendrin beim ersten) und zweitens sind es tatsaechlich um einiges mehr SPs als oben geschaetzt wird. GPCs? hmmmm welch ein Teufelskreis ;)


IMO gibts diese zwei Möglichkeiten:

GK110-1 GK110-2
SPs/SMX 96 128
TMUs/SMX 4 8
SMX/GPC 4 4
GPCs 8 6
SPs 3072 3072
TMUs 128 192
Takt 0.850 0.850
TFlop/s SP 5,222 5,222
TFlop/s DP 2,611 2,611
GTexel/s 108.8 163.2

GK110-2. gefällt mir besser, da wir dort mehr TMUs haben. Andererseits spricht für GK110-1, dass ein SMX die halbe Anzahl SPs von GK104 hat.

Skysnake
2012-03-25, 22:57:59
Da hast du aber ein Problem mit dem Rasterizer. Bei GK104 sinds 384 ALUs/Rasterizer. Bei deinem fiktiven GK110 wärns dann 512 ALUs/Rasterizer und dann bekommst du das gleiche Problem wie Tahiti (Ok da ist es noch deutlich krasser :freak:).

Also entweder 8 GPCs oder 16 Pixel/Takt Rasterizer.


Kurze OT Frage noch an die Experten: Warum kann GK104 die ALUs vernünftig auslasten obwohl die Gesamtrasterizerleistung wie bei Tahiti bei 32 Pixel/Takt liegt?

Wo ist das Problem? Die TMUs reichen absolut, und das bringt dir nur was für die Gamer-Fraktion. Die anderen werden das wohl (nach meiner Einschätzung) nicht gebrauchen können.

Ergo passt das mit den 128 TMUs schon. Ich tendiere auch eher zu den 4 GPCs.

Man braucht Caches Caches Caches! Selbst GF1x0 hatte zu kleine Caches, wodurch man die Rechenleistung oft nicht auslasten konnte. Damit sinkt aber die Effizienz. Denn man muss öfters in den RAM zugreifen, und das kostet VIEL Energie.

Nakai
2012-03-25, 23:34:57
Man braucht Caches Caches Caches! Selbst GF1x0 hatte zu kleine Caches, wodurch man die Rechenleistung oft nicht auslasten konnte. Damit sinkt aber die Effizienz. Denn man muss öfters in den RAM zugreifen, und das kostet VIEL Energie.

Mhh, wenn GK110 64 ROPs hat, wird man mindestens 1MB l2-Cache einbauen. Ich hab da mehrere Ideen, wobei ich selber nicht genau weiß, wo genau der Cache-Flaschenhals ist. Liegt es beim L2-Cache oder eher beim L1-Cache. So oder so, man wird die GPCs und die SMXs relativ klein halten wollen. 64KB Cache pro SMXs ist nicht viel. Wichtig wird hier erstmal sein, dass die CudaCores mal ordentlich gefüttert werden, ergo das Verhältnis zwischen LDST und Rechenkernen muss verbessert werden. Ebenso muss ganz dringend die Anbindung zwischen den Caches und die Bandbreite von dem Cores zu den Caches verbessert werden. Da wird sich NV von GCN mal eine Scheibe abschneiden.
Evtl wird man die L1-Caches vergrößern, evtl auf 96 oder gar 128KB, dazu noch ein 1MB oder 2MB L2-Cache, aber dann erwarte ich nicht mehr als 2048SPs. :freak:

Godmode
2012-03-25, 23:36:58
Mhh, wenn GK110 64 ROPs hat, wird man mindestens 1MB l2-Cache einbauen. Ich hab da mehrere Ideen, wobei ich selber nicht genau weiß, wo genau der Cache-Flaschenhals ist. Liegt es beim L2-Cache oder eher beim L1-Cache. So oder so, man wird die GPCs und die SMXs relativ klein halten wollen. 64KB Cache pro SMXs ist nicht viel. Wichtig wird hier erstmal sein, dass die CudaCores mal ordentlich gefüttert werden, ergo das Verhältnis zwischen LDST und Rechenkernen muss verbessert werden. Ebenso muss ganz dringend die Anbindung zwischen den Caches und die Bandbreite von dem Cores zu den Caches verbessert werden. Da wird sich NV von GCN mal eine Scheibe abschneiden.
Evtl wird man die L1-Caches vergrößern, evtl auf 96 oder gar 128KB, dazu noch ein 1MB oder 2MB L2-Cache, aber dann erwarte ich nicht mehr als 2048SPs. :freak:

Es sind 2MB L2-Cache, siehe Eingangspost.

Skysnake
2012-03-26, 01:21:18
Mhh, wenn GK110 64 ROPs hat, wird man mindestens 1MB l2-Cache einbauen. Ich hab da mehrere Ideen, wobei ich selber nicht genau weiß, wo genau der Cache-Flaschenhals ist. Liegt es beim L2-Cache oder eher beim L1-Cache. So oder so, man wird die GPCs und die SMXs relativ klein halten wollen. 64KB Cache pro SMXs ist nicht viel. Wichtig wird hier erstmal sein, dass die CudaCores mal ordentlich gefüttert werden, ergo das Verhältnis zwischen LDST und Rechenkernen muss verbessert werden. Ebenso muss ganz dringend die Anbindung zwischen den Caches und die Bandbreite von dem Cores zu den Caches verbessert werden. Da wird sich NV von GCN mal eine Scheibe abschneiden.
Evtl wird man die L1-Caches vergrößern, evtl auf 96 oder gar 128KB, dazu noch ein 1MB oder 2MB L2-Cache, aber dann erwarte ich nicht mehr als 2048SPs. :freak:

Warum willste mehr LDS Einheiten? :ugly: Die können die Einheiten voll mit Daten versorgen in jeden Takt aus den Registern. Da braucht es nicht mehr oder bessere. Das Problem ist doch, dass du SEHR! schnell die Daten aus dem L1 nicht mehr gebrauchen kannst, und dann auf den L2 zugreifen musst, wo die Daten schnell auch nicht mehr die benötigten sind, und dann hängste am SI, was auf der einen Seite ne verdammt hohe Latenz bedeutet, und auf der anderen Seite halt eine EXTREM! niedrigere Bandbreite als die Caches hat.

Du musst einfach schauen, dass der Datenreuse erhöht werden kann, und das kann durch größere Caches recht einfach erreicht werden, wobei man dann natürlich immer applikationsabhängig ist. Für Single-Datause Anwendungen hat man halt rein gar nichts gewonnen dadurch, da hängt man halt immer an der SI-Bandbreite.

Fürs lösen von LGSs gewinnt man aber schon durch moderate Vergrößerungen recht viel, weil die Anzahl der reuses schneller steigt, als der benötigte Speicherplatz im Cache für die Daten.

große L1 helfen einem halt die ALUs am laufen zu halten, weil man schön hin und her switchen kann. Auf den L2 greifen dafür mehr Einheiten zu, ergo ist das Potenzial Zugriffe auf das SI je verbauten Byte größer als beim L1.

Problem am L2 ist halt, das man noch viel schlechter darauf hin die Software optimieren kann, als auf den L1. Das geht eigentlich ziemlich gut, darauf hin zu optimieren.

bakalu
2012-03-26, 09:53:30
I predict GK110

GK110:
2304 SP
4 GPCs
6 SMX/GPC (Total 24 SMX)
96 SP/SMX (Total 2304 SP)
8 TMUs/SMX (Total 192 TMU)
Core Speed 956 MHz
Memory Speed 1502 MHz, 384-Bit Bus, 3GB GDDR5
48 ROPs
Die size 485 mm²
5.84 billion Transistors
6+8 Pin

Time will tell :biggrin:

Coda
2012-03-26, 10:40:57
Man braucht Caches Caches Caches! Selbst GF1x0 hatte zu kleine Caches, wodurch man die Rechenleistung oft nicht auslasten konnte.
Du meinst, du konntest sie nicht auslasten :tongue:

hardtech
2012-03-26, 11:18:24
@baka
naja, der wäre dann kaum schneller als der gk104 und das, obwohl er 1/2 jahr später kommt und deutlich mehr die fläche hat. eine enttäuschung wäre das.

Skysnake
2012-03-26, 11:52:25
Du meinst, du konntest sie nicht auslasten :tongue:
Nein, ich mein, dass selbst die beste DGEMM Implementierung der Welt, die sogar schneller ist als die von nVidia und übelsten fancy shit verwendet, die GPU nicht auslasten kann. Ich nehme mich da absolut nicht als Maßstab. Meine Implementierung ist nicht schlecht, aber weit von dem weg was nVidia und paar ganz verrückte Leute gemacht haben.

Mit größeren Caches machste es den Leuten aber einfacher eine hohe Leistung zu erreichen, vor allem auch in komplizierteren Fällen als DGEMM. Ergo ist das erstrebenswert.

Oder meinste nicht?

Godmode
2012-03-26, 14:41:15
@baka
naja, der wäre dann kaum schneller als der gk104 und das, obwohl er 1/2 jahr später kommt und deutlich mehr die fläche hat. eine enttäuschung wäre das.

Hee? Mit dem Setup von bakalu hätten wir:

143% SP Leistung
214% DP Leistung
143% Texelleistung

bezogen auf GK104.

Aber es ist sowieso falsch, wenn man den Hints von Ail glauben schenken darf. Siehe Eingangspost. Ich habe alles rein editiert was wir bis jetzt "wissen"

Ailuros
2012-03-26, 18:55:01
Weil Ail schon sagte das ein GPC 4 SMX haben wird.

Errr Moment; eine Schaetzung der Anzahl der SPs/GPC garantiert ueberhaupt nicht die Anzahl der cluster pro GPC. Es koennten genauso 2 oder 4 cluster per GPC sein. Der einzige Unterschied ist dann dass fuer 2 cluster/GPC fuer jeglichen cluster 4 pixels/cluster/clock und fuer 4 cluster/GPC dann 2 pixels/cluster/clock.

Godmode
2012-03-26, 20:08:33
Errr Moment; eine Schaetzung der Anzahl der SPs/GPC garantiert ueberhaupt nicht die Anzahl der cluster pro GPC. Es koennten genauso 2 oder 4 cluster per GPC sein. Der einzige Unterschied ist dann dass fuer 2 cluster/GPC fuer jeglichen cluster 4 pixels/cluster/clock und fuer 4 cluster/GPC dann 2 pixels/cluster/clock.

Ok, dann habe ich das wohl falsch verstanden. Auch kein Wunder bei den ganzen Zahlen und Informationen zwischen den Zeilen. :wink:
Habs mir nochmal durchgelesen, ka wie ich da auf die SMX gekommen, weil es war klar auf die ALUs bezogen.

edit: Soll das dann heißen, dass ein GK110 GPC die doppelte Anzahl an SPs hat verglichen mit GK104. Weil wenn ja, dann würde ich wirklich zu 4 GPCs tendieren, 6 würden verdammt viele SPs ergeben und 8 ist dann sowieso unmöglich. Ja GPCs ein Teufelskreis :)

Felixxz2
2012-03-26, 20:09:51
Glaube nicht an 4 GPCs da in der Chiphell Tabelle für GK100 schon 6 aufgezählt wurden. Also entweder wir haben 6 oder 8.

Es sind 512 Bit für das SI und 64 ROPs laut Ailurus:




IMO gibts diese zwei Möglichkeiten:

GK110-1 GK110-2
SPs/SMX 96 128
TMUs/SMX 4 8
SMX/GPC 4 4
GPCs 8 6

SPs 3072 3072
TMUs 128 192
Takt 0.850 0.850
TFlop/s SP 5,222 5,222
TFlop/s DP 2,611 2,611
GTexel/s 108.8 163.2

GK110-2. gefällt mir besser, da wir dort mehr TMUs haben. Andererseits spricht für GK110-1, dass ein SMX die halbe Anzahl SPs von GK104 hat.


Da würde mir aber GK110-1 besser gefallen, da das Frontend (Rasterizer, Tesselation) dicker ist. TMUs braucht man nicht mehr, 128 sind viel genug.
Achja und wenn ich mir den Startpost anschaue dann wird GK110 ja runde 100% schneller als GF110 :eek:

Das werden aber dickste 300W unter Last.

Ailuros
2012-03-27, 20:12:05
Da würde mir aber GK110-1 besser gefallen, da das Frontend (Rasterizer, Tesselation) dicker ist. TMUs braucht man nicht mehr, 128 sind viel genug.
Achja und wenn ich mir den Startpost anschaue dann wird GK110 ja runde 100% schneller als GF110 :eek:

Das werden aber dickste 300W unter Last.

Bleiben wir mal vorruehergehend bei einer GF110+80-90% Schaetzung um auf Nummer Sicher zu gehen; sonst wird der Stromverbrauch tatsaechlich wohl ziemlich hoch sein.

Was jetzt den Rest betrifft:

1. Trisetups/rasterizer haben desktop GPU schon seit Fermi im Ueberschuss; sonst haetten sie die letzteren auch nicht fuer reine Geometrie-Raten nicht kastriert um Quadros besser zu verkaufen.

2. Dass Texel-fuellrate egal ist kann ich bei den heutigen groessten GPUs leider nicht sehen. Sowohl Tahiti als auch GK104 haben 128 TMUs und sind eher performance chips mit einem high end Preis als alles andere. Im Fall von AMD ist die TMU Anzahl im Vergleich zu Cayman um 50% gestiegen und im Fall GK104 (performance) gegen GF110 (former high end) um 100%. 128 TMUs fuer GK110 waeren kein Beinbruch trotz geringerer Frequenz da die Relation von Texel-fuellrate zu Bandbreite ganz anders aussehen wird auf GK110, aber das eigentliche Problem folgt in (3).

3. Ich lass mich gerne eines besseren belehren aber wie genau kommt man mit 3*32 pro cluster auf eine 1:2 DP/SP Relation wie oben in der Tabelle illustriert? Denn 2.6 TFLOPs DP sind eben genau die Haelfte von 5.2 TFLOPs SP. Wenn GK110 tatsaechlich eine 1:2 DP/SP Relation haben wird koennen es nur entweder 4*32 oder 8*32 pro SMX sein. Gerade Anzahlen haben eben die dumme Angewohnheit sich gerade teilen zu lassen.

Godmode
2012-03-27, 21:38:51
Bleiben wir mal vorruehergehend bei einer GF110+80-90% Schaetzung um auf Nummer Sicher zu gehen; sonst wird der Stromverbrauch tatsaechlich wohl ziemlich hoch sein.

Was jetzt den Rest betrifft:

1. Trisetups/rasterizer haben desktop GPU schon seit Fermi im Ueberschuss; sonst haetten sie die letzteren auch nicht fuer reine Geometrie-Raten nicht kastriert um Quadros besser zu verkaufen.

2. Dass Texel-fuellrate egal ist kann ich bei den heutigen groessten GPUs leider nicht sehen. Sowohl Tahiti als auch GK104 haben 128 TMUs und sind eher performance chips mit einem high end Preis als alles andere. Im Fall von AMD ist die TMU Anzahl im Vergleich zu Cayman um 50% gestiegen und im Fall GK104 (performance) gegen GF110 (former high end) um 100%. 128 TMUs fuer GK110 waeren kein Beinbruch trotz geringerer Frequenz da die Relation von Texel-fuellrate zu Bandbreite ganz anders aussehen wird auf GK110, aber das eigentliche Problem folgt in (3).

3. Ich lass mich gerne eines besseren belehren aber wie genau kommt man mit 3*32 pro cluster auf eine 1:2 DP/SP Relation wie oben in der Tabelle illustriert? Denn 2.6 TFLOPs DP sind eben genau die Haelfte von 5.2 TFLOPs SP. Wenn GK110 tatsaechlich eine 1:2 DP/SP Relation haben wird koennen es nur entweder 4*32 oder 8*32 pro SMX sein. Gerade Anzahlen haben eben die dumme Angewohnheit sich gerade teilen zu lassen.

1. Du meinst also wir brauchen nur 4 GPCs, da die Rasterizerleistung damit locker ausreicht? Kannst du was zu den 6 GPCs aus der Chiphell Tabelle (GK100) sagen?

2. Ok 8*4*4 (TMU*SMX*GPC) = 128 check!

3. Wenn man man meine Aufteilung aus Punkt 2 heranzieht, muss man um auf 3072 SPs zu kommen, 192 SPs pro SMX verbauen und dann passts doch wieder, oder?

Ailuros
2012-03-28, 10:56:57
1. Du meinst also wir brauchen nur 4 GPCs, da die Rasterizerleistung damit locker ausreicht? Kannst du was zu den 6 GPCs aus der Chiphell Tabelle (GK100) sagen?

Wieviele GPCs bekommst Du wenn Du fuer >3k SPs auf jedem GPC einen ganzen Fermi hast? Ich antwortete lediglich auf die 8 GPC These; 4 GPCs sind zu wenig fuer high end wenn performance (GK104) schon 4 hat. Es muss schon einen anstaendigen Quadro high end upgrade geben unter Kepler.

2. Ok 8*4*4 (TMU*SMX*GPC) = 128 check!

Huh?

3. Wenn man man meine Aufteilung aus Punkt 2 heranzieht, muss man um auf 3072 SPs zu kommen, 192 SPs pro SMX verbauen und dann passts doch wieder, oder?

Die zweite These koennte durchaus am naehesten an der Realitaet liegen; ich hab mir aber immer noch nicht ueberdacht wieviele clusters/GPC am besten waeren. Brennende Frage fuer jemand der etwas mehr schnallt als ich: unter der Vorraussetzung dass GK104 schon pro SMX 4 pixels/clock bearbeiten kann waere es nicht genauso sinnvoll die gleiche Anzahl fuer GK110 zu erwarten?

Dural
2012-03-28, 11:07:52
Leute wie will ein GK110 mit um die 500mm2 Die 3000SP / 64 ROPs / 512Bit / 2MB L2 Cache / mehr L1 Cache und in Anbetracht des GK104 mit seiner deutlichen GPGPU-Computing schwäche und dem fehlendem 1:2 DP aufweisen?!?

entweder kann NV die Alus noch mal verkleinern oder es werden max. 2500, jemanden hat auch schon mal 2000 erwägt und ich halte dies nicht mal für unmöglich wenn die dafür hoch Effizient Arbeiten.

Ailuros
2012-03-28, 11:14:10
Leute wie will ein GK110 mit um die 500mm2 Die 3000SP / 64 ROPs / 512Bit / 2MB L2 Cache / mehr L1 Cache und in Anbetracht des GK104 mit seiner deutlichen GPGPU-Computing schwäche und dem fehlendem 1:2 DP aufweisen?!?

Es sind 550mm2. Nimm einen Taschenrechner und rechne von GK104/294mm2/3.54b transistors auf 550mm2 hoch und nein es ist nicht das erste Mal dass ich es fuer Dich wiederhole.

entweder kann NV die Alus noch mal verkleinern oder es werden max. 2500, jemanden hat auch schon mal 2000 erwägt und ich halte dies nicht mal für unmöglich wenn die dafür hoch Effizient Arbeiten.

Die GK110 ALUs haben ein paar mehr Faehigkeiten als bei GK10x. Bis GK110 auf Regalen erscheint werden wir es wohl ein paar hunderte Male wiederholt haben.

Godmode
2012-03-28, 11:21:30
Wieviele GPCs bekommst Du wenn Du fuer >3k SPs auf jedem GPC einen ganzen Fermi hast? Ich antwortete lediglich auf die 8 GPC These; 4 GPCs sind zu wenig fuer high end wenn performance (GK104) schon 4 hat. Es muss schon einen anstaendigen Quadro high end upgrade geben unter Kepler.



Huh?



Die zweite These koennte durchaus am naehesten an der Realitaet liegen; ich hab mir aber immer noch nicht ueberdacht wieviele clusters/GPC am besten waeren. Brennende Frage fuer jemand der etwas mehr schnallt als ich: unter der Vorraussetzung dass GK104 schon pro SMX 4 pixels/clock bearbeiten kann waere es nicht genauso sinnvoll die gleiche Anzahl fuer GK110 zu erwarten?

Ok, dann passen die 6 also wirklich von hier:

http://cdn.overclock.net/7/78/78782ab5_0718538639yabz3w3mak82.png

TMUs sinds dann 192, aber halt nur 8 pro SMX verglichen mit 16 bei GK104. Da sparen wir also schon etwas Platz ein. TMUs sind eher teuer im Vergleich zu SPs, oder?

Zum letzten: das muss ich mir erstmal durch den Kopf gehen lassen.

Dural
2012-03-28, 11:24:01
mehr Fähigkeiten = fettere Alus :wink: auf genau das will ich ja auch hinaus.


Rechner? GF110 hat 33% mehr ALUs als GF114, verwendet dafür aber 60% mehr Transistoren. GF110 hat dabei aber nur 384 Bit, die selbe TMU menge und nur den doppelten L2 Cache ...

Ich frag mich gerade wer einen Rechner benötigt ;)


übrigens gab es von NV noch nie eine xx104 GPU die alles verdoppelt hat im vergleich zur xx100 version

Ailuros
2012-03-28, 11:40:47
mehr Fähigkeiten = fettere Alus :wink: auf genau das will ich ja auch hinaus.

Echt?


Rechner? GF110 hat 33% mehr ALUs als GF114, verwendet dafür aber 60% mehr Transistoren. GF110 hat dabei aber nur 384 Bit, die selbe TMU menge und nur den doppelten L2 Cache ...

Und wo hab ich GF110/114 in meiner obrigen Frage erwaehnt?

Ich frag mich gerade wer einen Rechner benötigt ;)


GK104 = 294mm2 - 3.54b transistors = 12.04 M transistors/ mm2

GK110 = 550mm2 * 12.04 M/mm2 = 6.62 b transistors (angenommen gleiche Packdichte)

übrigens gab es von NV noch nie eine xx104 GPU die alles verdoppelt hat im vergleich zur xx100 version

Spar Dir den Bloedsinn wir reden hier ueber Kepler. Es gab NIE einen GK100 und es gibt guten Grund dass der top dog GK110 heisst und nein es wird auch nicht alles verdoppelt nur stellenweise. Lesen bildet.

davidzo
2012-03-28, 11:50:36
512bit macht sinn, das ist für die CUDAfraktion wirklich ein nennenswerter mehrwert.

192 tmus dagegen sind für die Gamerfraktion kein wirklicher mehrwert, ich glaube kaum dass sich mehr als 128tmus lohnen, um nicht schlechter als gk104 dazustehen geht man möglicherweise auf 144tmus. War ja gf104 auch tmuseitig schon gf100 überlegen was keine praxisrelevanz hatte wird man hier kaum veruschen deutlich mehr als GK104 aufzubieten.
für wahrscheinlicher halte ich dagegen dass man 64 rops verbaut, als zugeständnis an die high quality gamer, denn GK104 kann mit AA und in hohen Auflösungen ja noch nicht wirklich überzeugen. Wer nur den längsten balken haben möchte holt sich sowieso dual-GK104. Wer allerdings auf bestmögliche qualität wert legt bleibt bei der schnellsten singleGPU und wird von der guten FSAAleistung bei 64rops sehr angetan sein.

Rechenleistung ist für nvidia im Gamerbereich egal, was zählt ist was hinten herauskommt, man wird also kaum wert auf magische zahlen wie 2560 oder 3072 wert legen, wie etwa bei AMD.
Im GPUcomputing bereich dagegen zählt nur DPleistung, Energieffizienz und Bandbreite, da wäre man mit 2304 1:2 DP und 512bit also ebenfalls gut bedient.

Was die Frontendleistung angeht, so werden es wohl 6 GPCs werden, denn bei GK104 ist man ja nur einen kleinen Schritt über den Takt gegangen. Der Abstand von Fermi zu RV870 war enorm, GTX580 vs Cayman immerhin beachtlich. Das wäre ein völliger Paradigmenwechsel wenn man diesen wichtigen Vorsprung nun so einfach kampflos schrumpfen lässt, ebensowenig wird man diesne aber auf kosten des energieverbrauchs noch weiter ausbauen. Vier GPCs sind also ebenso unwahrscheinlich wie 8 GPCs die für den gamingbereich prakitsch keine relevanz mehr hätten. Ich könnte mir übrigens vorstellen dass mit der Anzahl der GPCs auch einfach die Bandbreite und Assoziativität des L2 erhöht wird, da der Zugriff auf den level2 wohl pro GPC geschieht.

GK110-d
SPs/SMX 128
TMUs/SMX 8
SMX/GPC 3
GPCs 6

SPs 2304
TMUs 144
ROPs 64
Takt 1.000
Stakt 2.800
TFlop/s SP 4,608
TFlop/s DP 2,304
GTexel/s 128.0
Bandbreite 360GB/s


Damit hätte man die Granularität erhöht, die Shaderleistung in außreichendem Maße gesteigert und die Leistung in hohen Auflösungen mit hoher Filterqualität drastisch verbessert. Da man das Frontend nicht unnötig viel verbreitert und auf sinnlos hohe Alu bestückung (3072) verzichtet dürfte die Leistungsaufnahme bei diesem Kompromiss außerdem auch sehr gut sein.

Wer sich jetzt fragt wo die ganzen Transistoren für das 550mm² Die bleiben, der kann ja mal überlegen was es wohl kostet einen Core von 1:16 DP auf 1:2 umzubauen.

Jensens Aussage von 4x DPleistung gegenüber Fermi bezieht sich übrigens erstens auf die Energieffizienz und zweitens auf den Ur-Fermi (das sieht man schon weil fermi auf der Folie bei 2009 steht). Das ist dann gar nicht mal mehr so schwer, der damalige Tesla hatte nur 515 Tflop/s DP bei 225Watt. Es müssen also auch ohne Hotclock nicht viel mehr als 2000 Shadereinheiten sein um das versprechen einzulösen...

Die GPGPUfraktion bekommt alles nach dem sie schreit:
- DP-Leistung
- Bandbreite
- Granularität
- mehr L1 und L2
- geringerer Energieverbrauch

Die Gamerfraktion bekommt einen Chip der traditionelle nvidia sinleGPU stärken und ein bisschen mehr (FSAA4free) hat:
- Frontend und Triangleleistung (ca doppelt bis dreimal schneller als Tahiti, 50% mehr als GK104)
- Hochwertige Filter und Antialiasing for free, geringe Einbrüche bei Surroundgaming mit 3x+ Displays

Skysnake
2012-03-28, 12:38:16
Was würdet ihr denn hiervon halten?

GK110-e
4 GPC
4SM/GPC
128 ALUs/SM
-> 2048 ALUs/GPU

768 kB L2/GPC-> 3072kB=3MB L2/GPU
48 oder 64 oder 96 kB Shared+L1 Cache je SM

TMUs/ROPs usw. alles im gleichen Verhältnis wie bei GK104 bzgl. SM/GPC.

Damit hätte man 4 kleine GF1x0 auf einem DIE. Wenn man ein 512 Bit Inferface mit dem neuen schnellen RAMs kombiniert, wäre die Mainmemory-Bandbreite auch nicht soo das Problem, wobei man natürlich hier immer mehr gebrauchen kann.

Der große L2 Cache könnte allerdings den entscheidenden Faktor geben im Gegensatz zu Fermi, da man den Datenreuse so in vielen Fällen doch deutlich steigern können sollte, was das SI entlastet.

Wenn man 64kB Shared+L1 Cache nimmt, könnte man auch alle optimierten Allgorithmen für Fermi ohne Änderung weiter verwenden, da man einfach 32+32 macht im Zweifel, womit man die gleiche Shared größe wie bei Fermi hat, gleichzeitig aber den L1 eben etwas pimpen kann, was das SI auch wieder entlastet.

Mit 96kB wäre es natürlich optimal. Man könnte hier einfach die Workgroup-size verdoppeln, ohne an den grundlegenden Algorithmen groß etwas verändern zu müssen. Das sollte auch schon von sich auch seinen guten Performance-Schub ergeben.

davidzo
2012-03-28, 12:44:58
Als CUDAlösung denkbar, nicht aber als Highend Gaming GPU!

Die Lösung hat ja nur 25% mehr einheiten als GK104. Da der Takt wohl kaum an die GTX680 mit Turbo heranreicht, bleibt hier einfach zu wenig differenz. Da kann man ja kaum mit den werkseitig übertakteten GTX680 konkurrieren, die dann ja sogar den besseren Dreiecksdurchsatz und Tessleistung auf ihrer Seite hat.

Skysnake
2012-03-28, 14:17:59
Und wen juckt das, wenn das Ding dafür die Tesla C2090 nach Perf/W in die Tasche steckt?

Du darfst nicht vergessen, welche Versprechungen nVidia bzgl. DP Perf/W gemacht hat. Da muss schon einiges gehen, um das zu erreichen.

Und bessere Ausnutzung der Rohleistung ist hier hilfreicher als ein extrem breites und/oder hoch taktendes Design, welches die Rohleistung kaum auf die Straße bringt, weil zu wenig Bandbreite an die Caches/Speicher.

Du musst ja bedenken, das man schon bei Fermi oft durch die Caches/SI limitiert ist. Wenn man jetzt auf dieser Seite nichts tut und nur die Shaderleistung hoch knallt, dann kommt am Ende fast nicht mehr bei raus.

Es gibt ja drei Arten von Applikationen:

ALU-limitierte: Hier gewinnt man durch die höhere Shaderleistung
Memory-Bandwidth-limitiert: Hier hat man den Gewinn durch das 512 Bit Interface und den schnellen RAM
I/O-limitiert: Hier gewinnt man maximal 100% durch PCI-E 3.0

Das Problem bei Memory-Bandwidth-limitiert ist halt, das man zwar ein doppelt so breites Interface hat, aber die Rohleistung eben auch entsprechend steigt. Man gewinnt an Effizienz also rein gar nichts dazu, wenn man die Caches nicht an fasst.

Es ist halt immer die Frage, was besser ist:

X Rohleistung mit Effizienz 50%, oder Y Rohleistung mit Effizienz 80%.

Wie wir ja alles aber hoffentlich dank Gipsels link wissen, kostet das hin und her schieben der Daten vorallem verdammt viel Energie. Mehr ALUs helfen dir da rein gar nichts, um die Effizienz zu steigern. größere Caches schon, weil die Datenlokalität erhöht wird. -> weniger Daten die man über den Chip jagen muss.

Nighthawk13
2012-03-28, 14:44:54
Das Problem bei Memory-Bandwidth-limitiert ist halt, das man zwar ein doppelt so breites Interface hat, aber die Rohleistung eben auch entsprechend steigt. Man gewinnt an Effizienz also rein gar nichts dazu, wenn man die Caches nicht an fasst.
Genau, im Prinzip muss man Memory-Bandwidth-limitiert noch unterteilen in (external) RAM-bound und Cache-bound.

GK104 hat den L2-Cache zwar verkleinert, dessen Bandbreite aber erhöht. Ebenso hat man die Texunits verdoppelt ohne dass die Speicherbandbreite gestiegen wäre. Vermutlich hat man bei Performanceanalysen von Fermi festgestellt dass der L2-Cache viele Hits hat, aber nicht schnell genug liefern kann(und weniger das externe Speicherinterface das Bottleneck ist).

Kenne die Bottlenecks bei den üblichen HPC Anwendungen nicht genau. Bei Sparse Matrix z.B. kann ich mir vorstellen das Bandbreite zum L2-Cache wichtiger ist als die Bandbreite zum externen RAM.

Skysnake
2012-03-28, 15:12:29
Naja, die L2 Bandbreite kann man quasi als Multiplikator sehen.

Man muss den L2 nur so lange größer machen, bis man die (SI) Bandbreitenanforderung durch Datenreuse so weit runter knallt, dass das SI nicht mehr limitiert. Das ist sogar unabhängig von der Bandbreite des L2.

Die Bandbreite des L2 spielt eine Rolle in Verbindung mit der Größe des L1/shared Cache und dessen Hit-Ratio.

Das ganzen Memory limitierungen sind SEHR schwierig auf zu dröseln, zumal Sie eben von Anwendung zu Anwendung völlig unterschiedlich sein können.

Bei Fermi hätt z.B. ein doppelt so großer L1 Cache wohl schon ausgereicht, um die ALUs bei DGEMM durchgehend mit Daten versorgen zu können.

Mit Matrix-Vektor sieht das schon wieder ganz anders aus.

Von Vektor-Vektor ganz zu schweigen. Da hängste noch schneller im SI limit drin.

Kurz um zusammengefasst:

Größere Caches in den niedrigeren Memory-Hirachie-Stufen reduzieren die Bandbreitenanforderungen an die jeweils höhere Stufe, wenn die Hit-Ratio dadurch verbessert wird.

Beim L1/Shared hat man halt das Problem, dass dieser eben nur für einen SM gilt. Ein großer L2 ist daher durchaus sympatisch. Problem dabei ist allerdings, das man den Cache auch noch schnell genug durchsuchen können muss.

Ist halt alles nicht so einfach in dem Bereich. Man kann aber sagen: "Viel hilft viel" ;D

davidzo
2012-03-28, 15:58:49
Und wen juckt das, wenn das Ding dafür die Tesla C2090 nach Perf/W in die Tasche steckt?

Du darfst nicht vergessen, welche Versprechungen nVidia bzgl. DP Perf/W gemacht hat. Da muss schon einiges gehen, um das zu erreichen.


Du hast offensichtlich überhaupt nicht gelesen was ich direkt davor geschrieben habe.


Und bessere Ausnutzung der Rohleistung ist hier hilfreicher als ein extrem breites und/oder hoch taktendes Design, welches die Rohleistung kaum auf die Straße bringt, weil zu wenig Bandbreite an die Caches/Speicher.

Du musst ja bedenken, das man schon bei Fermi oft durch die Caches/SI limitiert ist. Wenn man jetzt auf dieser Seite nichts tut und nur die Shaderleistung hoch knallt, dann kommt am Ende fast nicht mehr bei raus.

natürlich, deshalb bin ich ja auch ein verfechter der 2.304 shader theorie mit eher höheren taktraten (= mehr L1+L2 speed) und 512bit @ca. 2,8Ghz. Zu den L2 caches habe ich ja noch kar keine aussage gemacht.
2560 oder 3072 Shadereinheiten halte ich aber auch für höchst unwahrscheinlich, aus den von dir genannten Gründen (habe übrigens fast dasselbe zwei posts vorher geschrieben aber du gibst dir wohl nicht die Mühe das zu lesen).



Memory-Bandwidth-limitiert: Hier hat man den Gewinn durch das 512 Bit Interface und den schnellen RAM

Es gibt auch L2 und L1 cache limitierung. Beim Cachesystem kann man sich drauf verlassen das sich gegenüber GK104 einiges ändert. Daher gehe ich genau wie du davon aus dass es mehr kleinere SMx gibt (mit ~128SPs) um durch die granularität die Gesamtverfügbare Bandbreite des L1 zu erhöhen. Den L2 wird man wohl zumindest vergrößern und die Assoziativität zumindest um die Menge an mehr GPCs erhöhen, höchstwahrscheinlich aber auch die Bandbreite radikal verbessern.

Ailuros
2012-03-28, 18:09:49
Seit wann sind irgendwelche bunte spekulativen Thesen ploetzlich irgend eine Theorie? Glauben kann jeder was er will, aber wie unwahrscheinlich die wahrscheinlichen GK104 specs vor dem launch waren haben wir ja gesehen.

Hades11
2012-03-28, 22:47:16
Seit wann sind irgendwelche bunte spekulativen Thesen ploetzlich irgend eine Theorie? Glauben kann jeder was er will, aber wie unwahrscheinlich die wahrscheinlichen GK104 specs vor dem launch waren haben wir ja gesehen.
sehen heißt aber nicht zwangsweise verstehen :freak:

ich denke dass es mindestens ungefähr 2500, im extremfall 3000 sein werden.
mit weniger als 2500 und weniger Takt (da Größerer chip) hilft auch ein breiteres SI nicht mehr viel um die nötige gaming leistung zu bekommen. Wenn ich mich nicht irre hattest du im alten Keppler Spekulationsthread mal angedeutet (ich such jetzt nicht die 7700 Posts durch :ujump2: ) dass der Abstand zwischen GK 104 und GK110 größer wird als der zwischen GF114 und GF110. Das mach ja auch noch soweit Sinn, wie man GK110 alleine schon wegen den Namen (auch wegen 680 mit 104) und dem großen zeitunterschied zu GK104 zum refresh zählen könnte. Vielleicht wird der leistungsunterschied GK104 -> GK110 dann ja eher wie GF104 ->GF110 ? aber das wäre schon sehr sehr viel.
Naja wie auch immer HPC und Profi-Zeug hin und her, die Gaming Leistung muss auf jeden fall ein gutes Stück über GK104 liegen, sonst bleiben sie auf dem Ding sitzen wie auf einer faulen Salami und das Problem weshalb man das Hpc zeug nicht in einem extra Chip entwickelt hat ( zu wenig Stückzahlen,...) wäre auch wieder da.
Daher denke ich eher dass NV sich ein Ziel von GK104+X% Gamingleistung gesetzt hat und versucht dabei noch möglichst viel HPC, SP/DP,... reinzuquetschen.

Skysnake
2012-03-28, 22:53:58
Würden sich die Leute bei 20% Mehrleistung von GK110<->GK104 den GK110 kaufen?

Ziemlich sicher.

Würde sich daran groß was ändern, wenn es statt 20% 30, 40 oder 50% wären? Ich glaube nicht. Nicht in dem Maße, in dem man GPGPU-Performance dafür opfern muss.

Ich würde GK110<->GK104 eher als Sockel2011<->Sockel1155 Äquivalent sehen.

Duplex
2012-03-28, 22:59:37
3072 Shader, 64 Rops, 512 Bit SI, 700MHz Takt, damit wird GK110 locker "Faktor 2" schneller als GK104.

Coda
2012-03-28, 23:24:12
Err, mit 700 Mhz wären es schon rechnerisch nur 40% mehr ALU-Leistung X-D

Nightspider
2012-03-28, 23:42:57
Naja...700 Mhz... so wenig wird GK110 nun auch nicht haben, wenn GK104 bei ~1Ghz rumschwimmt.

Coda
2012-03-29, 00:01:08
Natürlich nicht, aber das hat Duplex gesagt.

Selbst mit 900Mhz wird die Karte aber nicht praktisch doppelt so schnell sein. Spiele skalieren leider nicht linear mit der Einheitenzahl. Ich denke 50% schneller ist realistischer

Nightspider
2012-03-29, 00:03:53
Dennoch werden es wohl 50% wenn nicht sogar etwas mehr.
Dagegen wird die GTX680 schon ziemlich lahm aussehen.

Selbst wenn sie nur 40% schneller ist, ist das eine riesige Differenz zur GTX680.

Coda
2012-03-29, 00:40:28
Was heute noch als riesig durchgeht ;)

Hades11
2012-03-29, 01:38:25
Was heute noch als riesig durchgeht ;)
genau meine Meinung! 40% unterschied zwischen performance und refresh-Highend sind eher das zu erwartende minimum als riesig.

BigKid
2012-03-29, 05:43:15
genau meine Meinung! 40% unterschied zwischen performance und refresh-Highend sind eher das zu erwartende minimum als riesig.
Wo zum Geier nimmst du das Refresh-Highend her...
GK110 ist ein neuer Chip und kein GK104 Refresh und es gibt KEIN Anzeichen, dass es nicht so geplant war zuerst GK104 zu bringen und das es einen GK100 gab der es jemals zum Tapeout gebracht hat...
Refreshes kommen dann irgendwann Ende des Jahres oder Anfang nächsten Jahres...

Und bezüglich des Abstands... Scheint halt seit den GTX460 und GTX560 Karten mit ihrem guten Übertakt-Potential und ihrer auf Spiele optimierten Architektur so zu sein, dass der Abstand zum HighEnd schmilzt weil HighEnd Ballast für GPGPU (oder wie sich das schimpft) rumschleppt...
Ich erwarte also als Laie nun dass GK110 in etwa den selben Abstand zu GK104 bringt, wie GTX480 zur GTX460@OC.

Interessanter finde ich die Frage welchen Abstand wir von GTX680 zu GTX660 sehen werden... Ich denke der wird nämlich nicht mehr so klein bleiben... Aber das ist nu halt mal laienhaftes annehmen meinerseits... Auch die GTX670 ist im Moment ein großes "?"

Neurosphere
2012-03-29, 06:41:35
Ich stelle mal die These auf das erstmal ein teildeaktivierter GK110 kommen könnte um die Yields oben zu halten und um nen halbes Jahr später nochwas bringen zu können, da 20nm ja bis 2014 auf sich warten lässt.

Komplett gibts die Chips dann erstmal nur auf den Teslas.

=Floi=
2012-03-29, 07:05:41
welchen kotnamen soll denn der GK110 bekommen? leider fängt nv ja mit der gleichen strategie wie amd an. warum nicht einfach GK104=GTX660 GK110=GTX680?

PrefoX
2012-03-29, 08:14:14
welchen kotnamen soll denn der GK110 bekommen? leider fängt nv ja mit der gleichen strategie wie amd an. warum nicht einfach GK104=GTX660 GK110=GTX680?
laut meinen Quellen heisst GK110 = Geforce GTX 1337

Gaestle
2012-03-29, 08:25:18
http://www.forum-3dcenter.org/vbulletin/showthread.php?p=9152989#post9152989


Wenn sich NV genauso verhält, wie bei den letzten beiden Generationen,
dann verhält sich IMHO

GK110 zu GK104
wie
GF110 zu GF114 (150% zu 100%)
oder
GF100 zu GF104 (150% zu 100%).

Die Prozentangaben stammen aus dem jeweiligen CB-Rating (1920er Auflösung, 4xAA/16AF).

mictasm
2012-03-29, 09:00:17
laut meinen Quellen heisst GK110 = Geforce GTX 1337
dann ist sie schon gekauft, die muss ja gut sein^^

Odal
2012-03-29, 09:57:05
Ich stelle mal die These auf das erstmal ein teildeaktivierter GK110 kommen könnte um die Yields oben zu halten und um nen halbes Jahr später nochwas bringen zu können, da 20nm ja bis 2014 auf sich warten lässt.

Komplett gibts die Chips dann erstmal nur auf den Teslas.

da halte ich dagegen! Teildeaktivierter GK110 wäre wohl nicht/kaum schneller wie ein GK104 für den Standardanwender bei deutlich mehr Stromaufnahme und teurem PCB -> macht wenig Sinn
ich glaub nvidia hat sich ein Ei ins Nest gelegt mit dem hochgezüchteten GK104

Neurosphere
2012-03-29, 15:51:33
da halte ich dagegen! Teildeaktivierter GK110 wäre wohl nicht/kaum schneller wie ein GK104 für den Standardanwender bei deutlich mehr Stromaufnahme und teurem PCB -> macht wenig Sinn
ich glaub nvidia hat sich ein Ei ins Nest gelegt mit dem hochgezüchteten GK104

25% Prozent schneller und die Zielgruppe wird das Ding kaufen.

Ailuros
2012-03-29, 16:02:11
sehen heißt aber nicht zwangsweise verstehen :freak:

Eben.

ich denke dass es mindestens ungefähr 2500, im extremfall 3000 sein werden.

Es ist aber Gott sei Dank kein multiple choice. Specs liegen schon seit einer geraumen Zeit fest.

mit weniger als 2500 und weniger Takt (da Größerer chip) hilft auch ein breiteres SI nicht mehr viel um die nötige gaming leistung zu bekommen. Wenn ich mich nicht irre hattest du im alten Keppler Spekulationsthread mal angedeutet (ich such jetzt nicht die 7700 Posts durch :ujump2: ) dass der Abstand zwischen GK 104 und GK110 größer wird als der zwischen GF114 und GF110. Das mach ja auch noch soweit Sinn, wie man GK110 alleine schon wegen den Namen (auch wegen 680 mit 104) und dem großen zeitunterschied zu GK104 zum refresh zählen könnte. Vielleicht wird der leistungsunterschied GK104 -> GK110 dann ja eher wie GF104 ->GF110 ? aber das wäre schon sehr sehr viel.

GF110 vs. GF114 = ~40%
GK110 vs. GK104 = ~50%

da halte ich dagegen! Teildeaktivierter GK110 wäre wohl nicht/kaum schneller wie ein GK104 für den Standardanwender bei deutlich mehr Stromaufnahme und teurem PCB -> macht wenig Sinn
ich glaub nvidia hat sich ein Ei ins Nest gelegt mit dem hochgezüchteten GK104

Kommt drauf an wieviel man davon deaktiviert. Ein 110 salvage part schlaegt sogar eine uebertaktete Tahiti, da ich heute mal wieder gut aufgelegt bin :P

Was genau soll "hochgezuechtet" sein an einem 3.54Mrd./294mm2 chip im Vergleich zu den 550mm2 fuer GK110? Ja ich parke wohl auch parallel in einem diagonalem Universum.

Odal
2012-03-29, 18:21:00
hochgezüchtet in Form von

1. Takt 1006+boost vs vielleicht 700Mhz
und den GK110S* schneller zu takten als den GK110 selbst macht kaum Sinn (Ausbeute und Konkurenz zum GK110)

2. schmales Speicherinterface mit dafür um so schnelleren Speicher beim GK104 (spart Transen) und von GK110S* Speicher erwarte ich auch einen geringeren Takt als vom GK104 bei breiterem Interface

3. im GK110S sind noch so einige Transen (für Caches, GPGPU etc.) deren Leistung beim "Normalo" Consumer nicht ankommt

=> GK104 sehr effizient was Transistor/FPS anbelangt und noch deutlich höher getaktet

ich würde GK110S vs GK104 dann vom "Kosten/Nutzen" noch extremer einschätzen als GTX560TI448 vs GTX560TI (da liegen ja auch nur 16% im Schnitt dazwischen)
klar gibts irgendwo einen Sweep point zw. Aufwändigkeit des PCBs und Halbkaputte Chips wegwerfen aber wirklich viel Mehrleistung würde ich nicht erwarten (<=25%)


*GK110S = GK110 Salvage

dargo
2012-03-29, 18:44:58
GF110 vs. GF114 = ~40%
GK110 vs. GK104 = ~50%

Mittlerweile ist bekannt, dass GK104 recht stark an der Speicherbandbreite hängt. Der etwas höhere Speed zwischen GK110 und GK104 wird schon alleine durch die größere Speicherbandbreite vom ersteren zustande kommen. Du hast ja das 512Bit SI bereits bestätigt. Ich denke NV wird nicht unbedingt beim GK110 1,5Ghz GDDR5 nehmen müssen. Mit 1,35Ghz wäre man bereits bei 345,6GB/s.

Mal eine kleine Gegenüberstellung:

GF110 vs. GF114 = ~40%:
GF110 +~50% Speicherbandbreite

GK110 vs. GK104 = ~50%:
GK110 +~80% Speicherbandbreite

Vielleicht wird GK110 sogar ~60% zulegen.

Ailuros
2012-03-29, 19:25:59
hochgezüchtet in Form von

1. Takt 1006+boost vs vielleicht 700Mhz

Nur weil GPUz die 700MHz falsch aus nicht finalen Treibern fuer Kepler ausgelesen hat heisst nicht dass etwas daran liegt. GK104 war NIE unter 950MHz geplant und die zusaetzlichen 50+MHz sind stinknormal als Zusatz der letzten Minute wenn es der core aushaelt.

Der turbo boost ist eine Kepler Eigenschaft die auch nicht gestern erfunden wurde. Sie fummeln schon seit Jahren an dem Quark.

und den GK110S* schneller zu takten als den GK110 selbst macht kaum Sinn (Ausbeute und Konkurenz zum GK110)

Ist es Deine "Erfindung" dass der GK110 salvage part schneller getaktet sein soll als der GK110 denn ich hab nirgends etwas relevantes erwaehnt oder angedeutet.

2. schmales Speicherinterface mit dafür um so schnelleren Speicher beim GK104 (spart Transen) und von GK110S* Speicher erwarte ich auch einen geringeren Takt als vom GK104 bei breiterem Interface

Ja und?

3. im GK110S sind noch so einige Transen (für Caches, GPGPU etc.) deren Leistung beim "Normalo" Consumer nicht ankommt

Stimmt. Aendert aber trotzdem nichts an der Tatsache dass NV's top dog diesmal mehr als um 15% vor der groessten Performance GPU von AMD liegen wird als in der Vergangenheit. Wenn NV's Performance GPU (sprich GK104) schon ein Bruchteil von dem vorerwaehnten Prozentual erreicht, liegt diese Behauptung wohl nicht im Raum des unwahrscheinlichen.

=> GK104 sehr effizient was Transistor/FPS anbelangt und noch deutlich höher getaktet

Entschuldige aber wiederhol mir nicht den Mist den ich schon zich Male als erster hier erwaehnt habe und erlaube mir einen winzig besseren Einblick auf Kepler momentan zu haben als Du.

ich würde GK110S vs GK104 dann vom "Kosten/Nutzen" noch extremer einschätzen als GTX560TI448 vs GTX560TI (da liegen ja auch nur 16% im Schnitt dazwischen)
klar gibts irgendwo einen Sweep point zw. Aufwändigkeit des PCBs und Halbkaputte Chips wegwerfen aber wirklich viel Mehrleistung würde ich nicht erwarten (<=25%)


*GK110S = GK110 Salvage

Das wirkliche Problem fuer GK110 ist nicht seine eigentliche Leistung (mal das perf/transistor ratio zur Seite) sondern dass es womoeglich so spaet ankommt dass AMD mehr als genug Zeit haben wird einen Tahiti-Refresh zu veroeffentlichen um so schnell wie moeglich den Unterschied zu GK110 in der Zukunft zu vermindern. Und um es etwas deutlicher zu machen ich hab sogar Zweifel dass es 110 desktop noch dieses Jahr auf Regale schafft. Einfacher AMD fans koennen wieder ausatmen.

dargo
2012-03-29, 19:57:37
Und um es etwas deutlicher zu machen ich hab sogar Zweifel dass es 110 desktop noch dieses Jahr auf Regale schafft.
OMG... das darf doch nicht wahr sein. :usad:

Raff
2012-03-29, 20:24:15
Stimmt. Aendert aber trotzdem nichts an der Tatsache dass NV's top dog diesmal mehr als um 15% vor der groessten Performance GPU von AMD liegen wird als in der Vergangenheit. Wenn NV's Performance GPU (sprich GK104) schon ein Bruchteil von dem vorerwaehnten Prozentual erreicht, liegt diese Behauptung wohl nicht im Raum des unwahrscheinlichen.

Bin ich der Einzige, den das nicht ernsthaft beeindruckt? Wenn ich sehe, dass man praktisch jeder HD 7970 mit der richtigen Kühlung 1.200 MHz entlocken kann, dann muss GK110 verdammt schnell werden. Mit 1.250/3.600 MHz ist eine HD 7970 im Mittel 30 Prozent schneller (http://www.pcgameshardware.de/aid,875267/Overclocking-Test-Geforce-GTX-680-Radeon-HD-7970/Grafikkarte/Test/) als normalerweise. Das wird GK110 also wegpusten? Und man kann ihn ebenfalls übertakten. Astrein. Aber ...

Das wirkliche Problem fuer GK110 ist nicht seine eigentliche Leistung (mal das perf/transistor ratio zur Seite) sondern dass es womoeglich so spaet ankommt dass AMD mehr als genug Zeit haben wird einen Tahiti-Refresh zu veroeffentlichen um so schnell wie moeglich den Unterschied zu GK110 in der Zukunft zu vermindern. Und um es etwas deutlicher zu machen ich hab sogar Zweifel dass es 110 desktop noch dieses Jahr auf Regale schafft. Einfacher AMD fans koennen wieder ausatmen.

... woher plötzlich das Wackeln des Releases?

MfG,
Raff

Ailuros
2012-03-29, 20:36:31
* Fertig gestellt in 12/11', und leider eben nicht tape out wie mir falsch vermittelt wurde sondern Anfang 03/12'; somit war natuerlich auch SA's Meldung diesbezueglich falsch.

* Nach Geruechten eine relativ hohe Anzahl an SKUs fuer supercomputer deals. Vergiss auch nicht dass NV in oeffentlichen roadmaps Kepler Quadros und Teslas ab Q3 versprochen hat.

GK107 ist schon lange in Massen-produktion aber bleibt vorruebergehend notebook only, GK104 ist gerade erst im Anlauf und im Mai soll auch GK106 antanzen und es soll auch eine *gaehn* 2*GK104 mGPU im Mai geben etc. Unter all dem Druck von der einen Seite fuer ivy bridge deals und von der anderen Seite Profi-Markt deals wie viele wafer kann NV wirklich fuer einen 550mm2 high end desktop aufweisen?

Noch schlimmer wenn sich die 28nm GPU Preise nicht bald normalisieren will ich mir bei bestem Willen nicht vorstellen was so ein Monster kosten koennte wenn schon eine 680 bei bruellenden $499 liegt und die Verfuegbarkeit ist momentan alles andere als berauschend fuer die letzte.

Bin ich der Einzige, den das nicht ernsthaft beeindruckt? Wenn ich sehe, dass man praktisch jeder HD 7970 mit der richtigen Kühlung 1.200 MHz entlocken kann, dann muss GK110 verdammt schnell werden. Mit 1.250/3.600 MHz ist eine HD 7970 im Mittel 30 Prozent schneller (http://www.pcgameshardware.de/aid,875267/Overclocking-Test-Geforce-GTX-680-Radeon-HD-7970/Grafikkarte/Test/) als normalerweise. Das wird GK110 also wegpusten? Und man kann ihn ebenfalls übertakten. Astrein. Aber ...

Vorsicht ich sagte zwar dass ein 110 salvage part schneller ist als eine uebertaktete 7970, aber von dem Grad der Uebertaktung hab ich nichts erwaehnt; koennte alles oder gar nichts heissen :P

Skysnake
2012-03-29, 21:00:46
Raff, die Zweifel gabs auch schon zur CeBIT. Da haben auch einige daran Zweifel geäußert, ob man GK110 überhaupt noch dieses jahr sieht. Da wurde von Ende Q3 eher Q4 gesprochen, wann man eventuell mal damit rechnen könnte.

Godmode
2012-03-29, 21:49:35
Wirklich schade! Wäre eine heißes Eisen gewesen und vor allem eine Investition, die doch etwas länger gehalten hätte. So wird man quasi zur GTX 680 gezwungen.

dargo
2012-03-29, 22:28:56
Wirklich schade! Wäre eine heißes Eisen gewesen und vor allem eine Investition, die doch etwas länger gehalten hätte. So wird man quasi zur GTX 680 gezwungen.
Ich finds zwar auch schade. Befürchte aber, dass mit einem GK110 im März/April 2012 für 800-1000€ auch kaum jemandem im Desktop-Bereich geholfen wäre. ;(

G3cko
2012-03-30, 09:41:03
Wunder soll es ja immer wieder geben, aber was spricht gegen ein gutes P/L-V wie bei der 8800GTX?
http://www.computerbase.de/artikel/grafikkarten/2006/test-nvidia-geforce-8800-gtx/34/#abschnitt_preisleistungverhaeltnis

Zudem könnte man AMD ganz schön unter Druck setzen. GK104 ist ja schließlich viel günstiger zu produzieren.

M4xw0lf
2012-03-30, 10:04:27
Wunder soll es ja immer wieder geben, aber was spricht gegen ein gutes P/L-V wie bei der 8800GTX?
http://www.computerbase.de/artikel/grafikkarten/2006/test-nvidia-geforce-8800-gtx/34/#abschnitt_preisleistungverhaeltnis

Zudem könnte man AMD ganz schön unter Druck setzen. GK104 ist ja schließlich viel günstiger zu produzieren.

Wohl maximal 20% günstiger :wink:

Neurosphere
2012-03-30, 11:04:36
Wunder soll es ja immer wieder geben, aber was spricht gegen ein gutes P/L-V wie bei der 8800GTX?
http://www.computerbase.de/artikel/grafikkarten/2006/test-nvidia-geforce-8800-gtx/34/#abschnitt_preisleistungverhaeltnis

Die teure 28nm Fertigung.


Zudem könnte man AMD ganz schön unter Druck setzen. GK104 ist ja schließlich viel günstiger zu produzieren.


Wohl maximal 20% günstiger :wink:

Nein, das dürfte mehr sein. Von kleineren Chips passen nicht nur mehr auf den Wafer sondern die Yields dürften auch höher sein.

Coda
2012-03-30, 11:10:12
Dazu kommt noch, dass NVIDIA auch weniger Speicher-Chips verbaut, die Spannungswandler billiger sein sollten und das Platinenlayout einfacher ist.

yamo
2012-03-30, 12:30:24
Ich warte drauf. Und zwar auf die Big K´s.
No invest to GK104

aylano
2012-03-30, 13:34:33
Raff, die Zweifel gabs auch schon zur CeBIT. Da haben auch einige daran Zweifel geäußert, ob man GK110 überhaupt noch dieses jahr sieht. Da wurde von Ende Q3 eher Q4 gesprochen, wann man eventuell mal damit rechnen könnte.
Die Zweifel waren schon erheblich früher.
Man konnte ja eh schon sehen, wie viele Quartale die Probleme in der 40nm-Fertigung andauerten.
Den GK100/110 Ende 2011/Anfang 2012 konnte ich mir eigentlich nie während dem Jahr 2011 vorstellen. Auch bei Thaiti war ich auch etwas unsicher.

Wie dann in Dezember sowohl Nvidia und kurz danach AMD die umgelabelten Low-End & Mainstream-GPUs trotz Ive-Bridge-Einführung in April vorstellten, wahr doch eh schon klar wie extrem schlimm es um 28nm ausschaut. Da war ein GK110 für 4Q2012 nicht mehr unlogisch.

GK110 wird jetzt gegen Sea-Island antreten müssen. Um wieviel GK110 gegenüber Thaiti & GK104 schneller werden muss, ist somit irrelevant, wenn man noch nichts über Sea-Island wissen.

boxleitnerb
2012-03-30, 14:48:30
Ich frage mich, was Nvidia gemacht hätte, wenn Tahiti ein gutes Stück (20%) flotter gewesen wäre. Man hat ja offenbar wieder sowas wie GF114 vs. Cayman erwartet ganz ursprünglich. Jetzt hat Tahiti (und in Folge GK104) enttäuscht, soweit so gut.
Das heißt aber auch, dass Nvidia ursprünglich bereit gewesen war bzw. gezwungen gewesen wäre, die Performancekrone 2012 komplett AMD zu überlassen, weil GK110 eben nicht fertig war/ist. Irgendwelche Gedanken dazu?

dargo
2012-03-30, 14:55:11
Ich frage mich, was Nvidia gemacht hätte, wenn Tahiti ein gutes Stück (20%) flotter gewesen wäre.
Man hätte GK104 einfach 15-20% mehr Takt und entsprechend höhere TDP spendiert, ganz einfach.

Knuddelbearli
2012-03-30, 15:03:36
naja 20% mehr takt wären dann 1350Mhz ... das halte ich für kaum machbar.
30% mehr sind bei der 7970 "nur" 1200Mhz

dargo
2012-03-30, 15:14:28
Also bei mir sind 20% mehr Takt immer noch 1,2Ghz beim GK104.

y33H@
2012-03-30, 15:22:09
Und diese 1,2 GHz sind mit etwas mehr Spannung kein Problem. Das Referenzboard hat nicht umsonst noch eine ungenutzte Phase und kann auch mit 6P+8P ausgestattet werden.

OC_Burner
2012-03-30, 15:43:27
Ich frage mich, was Nvidia gemacht hätte, wenn Tahiti ein gutes Stück (20%) flotter gewesen wäre. Man hat ja offenbar wieder sowas wie GF114 vs. Cayman erwartet ganz ursprünglich. Jetzt hat Tahiti (und in Folge GK104) enttäuscht, soweit so gut.
Das heißt aber auch, dass Nvidia ursprünglich bereit gewesen war bzw. gezwungen gewesen wäre, die Performancekrone 2012 komplett AMD zu überlassen, weil GK110 eben nicht fertig war/ist. Irgendwelche Gedanken dazu?

Der GK100 wäre dann vielleicht die Lösung gewesen. Oder warum der der Chip gestoppt? Waren es nur die PCIe 3 Probleme oder ganz und gar Unwirtschaftlichkeit?

boxleitnerb
2012-03-30, 16:02:53
Ailuros hat doch mehrfach gesagt/angedeutet, dass es niemals einen GK100 gab.

Hugo
2012-03-30, 18:57:58
Jetzt hat Tahiti (und in Folge GK104) enttäuscht, soweit so gut.


Da bin ich nicht deiner Meinung. Mich hat GK104 Leistungsmäßig nicht enttäuscht, nur der Preis ist enttäuschend.

Neurosphere
2012-03-30, 19:00:48
Ailuros hat doch mehrfach gesagt/angedeutet, dass es niemals einen GK100 gab.

Aber warum?

Evtl hat nV schon gesehen das bei 28nm so schnell ein so großer Chip nicht umsetzbar wäre? Oder man wollte eine Strategie wie damals beim G92 umsetzen.

Das Tahiti nicht so schnell wird hätte man bei der Entscheidung keinen GK100 zu bringen noch nicht berücksichtigen können.

dargo
2012-03-30, 19:03:55
Da bin ich nicht deiner Meinung. Mich hat GK104 Leistungsmäßig nicht enttäuscht, nur der Preis ist enttäuschend.
Jup... sehe ich auch so. Die Karte ansich ist im Performance-Segment exzellent. Der Preis ist nur ca. 150€ zu hoch.

boxleitnerb
2012-03-30, 19:04:07
Da bin ich nicht deiner Meinung. Mich hat GK104 Leistungsmäßig nicht enttäuscht, nur der Preis ist enttäuschend.

Die Steigerung zur bisherigen schnellsten Karte (580) war geringer als bei den drei letzten Generationen. Dafür ist auch der Verbrauch zurückgegangen, ja. Aber der interessiert mich persönlich nicht so, solange er unter 250-270W bleibt.

dargo
2012-03-30, 19:06:31
Die Steigerung zur bisherigen schnellsten Karte (580) war geringer als bei den drei letzten Generationen.
Wie denn das? Eine GTX460 war afaik nur geringfügig schneller als die GTX285. Oder täuscht mich meine Erinnerung?

Edit:
Passt doch.
http://www.computerbase.de/artikel/grafikkarten/2010/test-nvidia-geforce-gtx-465/18/

Die GTX460 lag nur knapp über der GTX465. Dh. die GTX460 war ca. 10% (mit einzelnen Ausreißern auch mal 15-20%) schneller als die GTX285.

boxleitnerb
2012-03-30, 19:14:32
Ja eben, als 660 hätte ich ja auch nix gesagt, aber die Karte wird als 680 vermarktet und verkauft zu 680er Preisen. 8800GTX war 60+% flotter als die 1950XTX, die 280 60+% flotter als die 8800GTX und die 480 ebenfalls 60+% flotter, sogar wie die GTX285 (alles Computerbase).

Die "680" schafft nur ca. die Hälfte dieser Steigerungen im Vergleich zur 580.

dargo
2012-03-30, 19:18:16
So gesehen stimmt das schon. Aber was sollen die IHVs machen wenn 28nm so beschissen läuft? ;( Ursprünglich waren doch 299 bzw. 349$ für die GTX680 angesetzt.

PS: im übrigen vergleichst du aber etwas merkwürdig. Alle GPUs bei NV außer der GTX680 die du genannt hast waren High-End. Vergleich mal die Die-Größen.

Hugo
2012-03-30, 19:23:17
ich vergleich nicht zur GTX580 sondern zwischen GF114 und GK104

boxleitnerb
2012-03-30, 19:23:22
Ich weiß das doch selbst, ich predige schließlich auch, dass GK104 kein Highend ist und GF114 Nachfolger ist. Aus technischer Sicht enttäuscht der Chip mitnichten, im Gegenteil. Aber in der Position, in die er gedrückt wurde, eben schon.

Ailuros
2012-03-30, 20:04:24
Aber warum?

Nachdem sie so platt mit GF100 auf die Nase gefallen sind, duerfte Deine Frage eigentlich ueberfluessig sein. GK104 war STETS als erstes geplant und Anfang 2011 als IHVs immer noch hofften dass sie es innerhalb 2011 mit 28nm GPUs noch auf Regale schaffen war GK104 fuer Q3/4 2011 angelegt und GK110 NIE vor Q1 2012.

Es gab keine GK110 weil NV diesmal etwas mehr HPC relativen Humbug aus GK10x entfernt hat und die GK110 ALUs laufen auf einer ganz anderen Schiene. Noch schlimmer wie schon zich Male erwaehnt: NV ist eben nicht Intel die Millionen in ein so kompliziertes Projekt wie einen high end chip (hypothetischer "GK100") werfen koennen um diesen einfach so zu stornieren.

GK110 heisst so weil er exklusive Cuda next Faehigkeiten in seinen ALUs hat die eben in GK104 nicht existieren. Nach aller Wahrscheinlichkeit wird CUDA "next" in Mitte Mai bei der GTC vorgestellt und danach werden es hoffentlich die meisten verstehen koennen warum es nie einen GK100 gab.

Evtl hat nV schon gesehen das bei 28nm so schnell ein so großer Chip nicht umsetzbar wäre? Oder man wollte eine Strategie wie damals beim G92 umsetzen.

G92 war eine performance chip als Nachfolger fuer G80/high end und hat wohl GAR NICHTS mit Kepler gemeinsam.

Bis zu Kepler brachte NVIDIA stets den high end chip jeglicher Familie zur Produktion und danach basierend auf dem letzterem gab es die kleineren cores. Bei Kepler wurde von performance bis mainstream (GK104/GK107/GK106) zuerst entwickelt und GK110 high end als letzter core eben weil sie nach all den 40nm/GF100 eingesehen haben dass es eine Schnappsidee ist mit dem kompliziertestem core auf einem nagelneuen und unreifem Prozess zuerst ans Werk zu gehen. Noch schlimmer Herstellungsprozesse werden zunehmend komplizierter.

Das Tahiti nicht so schnell wird hätte man bei der Entscheidung keinen GK100 zu bringen noch nicht berücksichtigen können.

Soll ich Dir in paint ein quadrat malen, es gruen anstreichen und es "GK100" nennen? Etwas reales ausser diesem wirst Du nie sehen.

Die Steigerung zur bisherigen schnellsten Karte (580) war geringer als bei den drei letzten Generationen. Dafür ist auch der Verbrauch zurückgegangen, ja. Aber der interessiert mich persönlich nicht so, solange er unter 250-270W bleibt.

Da Du das obrige etwas unklar formuliert hast, wundern mich die obrigen Reaktionen darauf nicht besonders. Wenn eine 28nm performance GPU um zumindest 30% vor einer 40nm high end GPU liegt, dann gibt es auch nichts krummes an dem Bild. Der Preis (den Du ja schon selber erwaehnst) ist eben ein generelles momentanes Problem fuer alle 28nm GPUs. Das laecherlichste an der Geschichte ist nichtmal das letzte. 40nm GPUs beider IHVs der vorigen Generation bleiben (bis sich die 28nm GPU Preise normalisieren) auf laecherlichen Hoehen.

boxleitnerb
2012-03-30, 20:09:31
Der Punkt ist halt, dass sie eine Performance-GPU als Highend vermarkten, und damit kommen Erwartungen auf (zumindest bei mir), die so natürlich nicht erfüllt wurden. Wir müssen uns noch dran gewöhnen, dass das dicke Schiff erst später kommt und wir wohl in Zukunft statt +60% (neue Generation) und dann +15% (Refresh) zweimal je +30-40% sehen werden.

Ailuros
2012-03-30, 20:21:21
Der Punkt ist halt, dass sie eine Performance-GPU als Highend vermarkten, und damit kommen Erwartungen auf (zumindest bei mir), die so natürlich nicht erfüllt wurden. Wir müssen uns noch dran gewöhnen, dass das dicke Schiff erst später kommt und wir wohl in Zukunft statt +60% (neue Generation) und dann +15% (Refresh) zweimal je +30-40% sehen werden.

Das juckt mich persoenlich am wenigsten. Was mich eher juckt ist dass es nicht auch mit zukuenftigen Generationen (=/<20nm) fuer beide IHVs zur Angewohnheit wird performance und andere kleinere neue GPUs bei Wucherpreisen zu verkaufen. Schon diese Einzelheit versetzt um X Zeitspanne den eigentlichen Verkauf einer neuen Generation. AMD kann zwar locker momentan marketing-technisch behaupten dass sie ihre 28nm GPUs schon im Januar 2012 in die Startloecher gebracht haben, aber der wirkliche und eigentliche Verkaufsstart bei grossen Volumen laesst wohl immer noch auf sich warten. Ich weiss zwar nicht wie es anderswo aussieht aber hier liegt Pitcairn Verfuegbarkeit nur ein kleines Stueck vor der von GK104.

boxleitnerb
2012-03-30, 20:31:39
Hm, also WENN die 700er Generation preislich die 600er ersetzt und nicht noch teurer wird, wäre es ok, denn:

Erste 28nm Generation zu teuer für die gebotene Leistung
Zweite 28nm Generation vergleichsweise günstig für die gebotene Leistung (wenn man mit dem klassischen Refreshs vergleicht). z.B. GTX480 vs. 580 - gleicher MSRP aber nur +20%. GK104 vs. GK110: MSRP=499 und +50%

Aber ganz ehrlich: Ich glaub nicht, dass GK104 und GK110 beim jeweiligen Launch denselben MSRP haben. Ich glaube alle zukünftigen Karten werden beim Launch ein beschissenes PLV haben, egal ob erste Generation oder "Refresh" oder wie man es auch immer nennen will.

Neurosphere
2012-03-30, 20:33:38
Nachdem sie so platt mit GF100 auf die Nase gefallen sind, duerfte Deine Frage eigentlich ueberfluessig sein. GK104 war STETS als erstes geplant und Anfang 2011 als IHVs immer noch hofften dass sie es innerhalb 2011 mit 28nm GPUs noch auf Regale schaffen war GK104 fuer Q3/4 2011 angelegt und GK110 NIE vor Q1 2012.

Es gab keine GK110 weil NV diesmal etwas mehr HPC relativen Humbug aus GK10x entfernt hat und die GK110 ALUs laufen auf einer ganz anderen Schiene. Noch schlimmer wie schon zich Male erwaehnt: NV ist eben nicht Intel die Millionen in ein so kompliziertes Projekt wie einen high end chip (hypothetischer "GK100") werfen koennen um diesen einfach so zu stornieren.

GK110 heisst so weil er exklusive Cuda next Faehigkeiten in seinen ALUs hat die eben in GK104 nicht existieren. Nach aller Wahrscheinlichkeit wird CUDA "next" in Mitte Mai bei der GTC vorgestellt und danach werden es hoffentlich die meisten verstehen koennen warum es nie einen GK100 gab.


Das ist doch schon ein Grund. Irgendwann muss ja die Entscheidung gefallen sein so strategisch vorzugehen wie sie es im Moment tun.





G92 war eine performance chip als Nachfolger fuer G80/high end und hat wohl GAR NICHTS mit Kepler gemeinsam.

Das ist doch schon die Gemeinsamkeit mit GK104?!


Bis zu Kepler brachte NVIDIA stets den high end chip jeglicher Familie zur Produktion und danach basierend auf dem letzterem gab es die kleineren cores. Bei Kepler wurde von performance bis mainstream (GK104/GK107/GK106) zuerst entwickelt und GK110 high end als letzter core eben weil sie nach all den 40nm/GF100 eingesehen haben dass es eine Schnappsidee ist mit dem kompliziertestem core auf einem nagelneuen und unreifem Prozess zuerst ans Werk zu gehen. Noch schlimmer Herstellungsprozesse werden zunehmend komplizierter.

Ist im Prinzip das was ich geschrieben habe.




Soll ich Dir in paint ein quadrat malen, es gruen anstreichen und es "GK100" nennen? Etwas reales ausser diesem wirst Du nie sehen.

Ich hab nie behauptet das es überhaupt etwas reales gab...

Ailuros
2012-03-30, 20:42:15
Das ist doch schon ein Grund. Irgendwann muss ja die Entscheidung gefallen sein so strategisch vorzugehen wie sie es im Moment tun.

Solche Entscheidungen trifft man nicht in letzter Minute sonder verdammt frueh im Entwicklungsprozess. Und wenn es schon sein muss Ende 2009.

Das ist doch schon die Gemeinsamkeit mit GK104?!

Wo genau? Nochmal G92/performance kam spaeter als G80/high end, waehrend GK104 stets als erstes geplant war. Was genau ist daran so schwer zu verstehen?

Ist im Prinzip das was ich geschrieben habe.

Eben nicht. Wenn Du immer noch nicht verstehen kannst dass G92/performance spater als G80/high end kam und es bei Kepler genau umgekehrt ist, kann ich nicht weiterhelfen. GK104 hat eben gar nichts mit G92 zu tun; eher genau das grobe Gegenteil.

Neurosphere
2012-03-30, 20:48:30
Solche Entscheidungen trifft man nicht in letzter Minute sonder verdammt frueh im Entwicklungsprozess. Und wenn es schon sein muss Ende 2009.

Ich habe auch nie von letzter Minute gesprochen. Wie gesagt dürfte es an den unvermeindlichen Problemen zum Start eines neuen Prozesses gelegen haben.


Wo genau? Nochmal G92/performance kam spaeter als G80/high end, waehrend GK104 stets als erstes geplant war. Was genau ist daran so schwer zu verstehen?

Ich glaube da reden wir einfach aneinander Vorbei. Für mich ist G9x der Nachfolger von G8x und da kam halt nur nen Performance Chip, ebenso wie für mich GK10x der Nachfolger von GF11x ist. Vielleicht fasse ich das ja nur falsch auf.



Eben nicht. Wenn Du immer noch nicht verstehen kannst dass G92/performance spater als G80/high end kam und es bei Kepler genau umgekehrt ist, kann ich nicht weiterhelfen. GK104 hat eben gar nichts mit G92 zu tun; eher genau das grobe Gegenteil.


Evtl hat nV schon gesehen das bei 28nm so schnell ein so großer Chip nicht umsetzbar wäre?

Reaping_Ant
2012-03-30, 21:55:22
für mich ist G9x der Nachfolger von G8x und da kam halt nur nen Performance Chip, ebenso wie für mich GK10x der Nachfolger von GF11x ist.

Der Vergleich passt sogar recht gut:

G80 (90 nm, HighEnd) -> G92 (65 nm, Performance) -> GT200 (65 nm, HighEnd)
GF1x0 (45 nm, HighEnd) -> GK104 (28 nm, Performance) -> GK110 (28 nm, HighEnd)

Gut, es gibt auch viele Unterschiede: GK104 ist relativ gesehen schneller als GF110, als es bei G92 zu G80 der Fall war, dafür ist der Preis aber auch deutlich höher. Zudem ist noch nicht sicher, ob der Unterschied zwischen GK110 und GK104 ähnlich groß (oder gar größer) ausfallen wird wie zwischen GT200 und G92. Wenn's schlecht läuft dürfte aber zumindest der zeitliche Abstand ähnlich sein (8 Monate). Architektonisch ist der Unterschied zwischen GK104/GF110 natürlich größer als bei G92/G80, wo es sich bis auf Details eigentlich nur um einen Shrink handelte.

Inf1del
2012-03-31, 22:43:03
Sehen wir es doch so:

Beide IHV mussten zügig auf 28nm wechseln, um dem jeweils anderen nicht den Vorteil zu schenken. Obwohl es wahrscheinlich besser gewesen wäre zu warten bis die Produktion vernümftig läuft (siehe nVidia Wafer kosten Slide). Wenn man sich die Leidensgeschichte des 40 nm ansieht ist es durchaus zu nachvollziebar das GK110 erst später kommt.

Von daher ist es doch Haarspalterei ob GK104 nun technisch High end oder performance ist. Von der Markt Situation ist er das und damit könnte man die Diskussion doch endlich mal begraben.

AMD werkelt doch an seiner 8k serie. Wäre es nicht einfach möglich das bei 28nm (vll auch später) das wahre Highend erst im "refresh" kommt. Und die ganze GK104 vs GF114/GF110 sich von selber in luft auflösst?

Odal
2012-04-01, 11:09:09
naja ich denke generell muss man sehen das 28nm auch erstmal eine ganze Weile bleibt. Und irgendwie muß man ja für zukünftige Produkte Performance rausholen. Ein bisschen an der Architektur feilen bei gleicher Chipgröße@gleichem Takt wird nicht genug Performance für 1-2 Nachfolgeprodukte bringen daher bleibt irgendwo nur die Architektur verbreitern. Wenn man gleich mit 550mm² gestartet wäre dann gäbe es da wohl kaum eine Steigerung mehr.

Schlecht für uns Kunden ist das natürlich denn ich hätte auch lieber gleich einen 550mm² Chip und dann in 4 Jahren oder so den nächsten auf 22nm. Aber dann verdienen die nicht genug daher gibts lieber jedes Jahr was neues mit einer kleinen Steigerung.

Gaestle
2012-04-01, 11:16:51
GK110 heisst so weil er exklusive Cuda next Faehigkeiten in seinen ALUs hat die eben in GK104 nicht existieren.


Ich versuche gerade dem Namensschema auf die Spur zu kommen.
Hatte GF110 auch spezielle Cuda-Fähigkeiten, die es bei GF100 nicht gab?

Knuddelbearli
2012-04-01, 11:51:49
nö hatte er nicht genausowenig wie der GK114 sowas bekommen dürfte

Sorkalm
2012-04-01, 13:38:33
Hatte GF110 auch spezielle Cuda-Fähigkeiten, die es bei GF100 nicht gab?

Die GF11x-Generation kam einfach nur nach der GF10x-Generation. Vermutlich wird die zweite Ziffer hochgezählt, wenns nur kleine Änderungen im Vergleich zur vorherigen Generation gab (und einen anderen Fall gabs bisher noch nicht). Vergleiche z. B. auch GF104 -> GF114.

Damit kann man auch schon am Namen erkennen, das GK110 deutlich später kommt als GK104 und Co. Einfach weil er eine Generation später gedacht war.

Gaestle
2012-04-01, 14:03:34
Das mit dem einach hochzählen dachte ich auch. Allerdings ist die letzte Ziffer offenbar ein Hinweis auf die "Stellung" innerhalb der Chipfamilie. Dann hat Ail explizit die 1 in GK110 betont, und geschrieben, das GK110 auch CUDA-Specials beinhaltet (CUDA "next"). Nun war mir nicht klar, ob die fette 1 nur als Betonung zur GK100-Diskussion gemeint war, oder sich vielleicht auf den Cuda-Teil bezog.
Denn einfach hochzählen ist zwar naheliegend, es könnten ja aber noch andere Bedeutungen dahinter stehen.
Deswegen war die Frage, ob die verschiedenen Stellen der Nummer irgend eine spezielle Bedeutung haben (neben der letzten Nummer)...

Aber das GK114-Argument ist natürlich einleuchtend.

Aber warum zählt man nicht die erste Ziffer hoch? Warum hat man in der Benennung die 100 übersprungen? Die Chipfamilie selbst wird doch mit K spezifiziert. Dann könnte doch die erste Stelle die Revision bezeichnen. Tut es aber offenbar nicht.

Knuddelbearli
2012-04-01, 14:31:58
die 1 komtm daher das man früher den G90 und G92 hatte daanch folgt halt 100 ^^ und ab jetzt wird nicht mehr höher gezählt sondern mit dem 2ten buchstaben gearbeitet

Gaestle
2012-04-01, 14:44:01
Aber zwischen (G)92 und (GF)100 kam (GT)200.

Sorkalm
2012-04-01, 14:59:01
Aber zwischen (G)92 und (GF)100 kam (GT)200.

Offensichtlich wäre nach neuste Zählweise G8x-Chips wohl GT10x und G9x-Chips GT11x-Chips. So würde ich das sehen. Man hat wohl nachträglich ab den programmierbaren Shadern auf die neuen Codenamen umgestellt. Irgendsowas in die Richtung, dass man die G8x und G9x-Chips neu einsortieren kann, hatte ich damals gelesen. Ist aber trotzdem mehr Theorie als Wissen von mir.
Ist dann demnach ein kleinstufiges Modell, die mittlere Ziffer kennzeichnet kleine Änderungen, die vordere Ziffer etwas größere Umbauten, und mit den Buchstaben kennzeichnet man die "Hauptarchitektur".

Die letzte Ziffer ist die Stellung des Chips in der Familie, richtig, das ist das eindeutigste und war auch schon immer so. Je größer die Zahl, desto kleiner der Chip.

Gaestle
2012-04-02, 08:29:16
Das dachte ich ja auch erst, aber die "1"er-geschichte und die anderen Sachen (übersprungene Zahlen etc.) passen da gar nicht rein.
Bei dem Buchstaben und der letzten Zahl sind wir uns ja einig.

V2.0
2012-04-02, 08:48:18
Was bringt die Debatte. NV hat, bis zur GK-Serie, immer den größten Chip zuerst gelaunched, was sich aber als immer schwieriger erwiesen hat. Nicht nur von der Execution her sondern auch durch die Preise der Wafer und den erzielbaren Yields. Es dauert heute einfach länger, bis ein neuer Prozess günstiger ist als der alte. Für GK hat man nun das erste Mal den Ablauf geändert und geht mit Low-End -> Performance -> Mainstream -> High-End in den Markt. Wobei man sicher streiten kann ob GK110 wirklich ein direkter Verwandter der GK10X Serie ist, oder eher schon das erste Lebenszeichen eines Refresh.

Gaestle
2012-04-02, 11:28:43
Was bringt die Debatte. NV hat, bis zur GK-Serie, immer den größten Chip zuerst gelaunched, was sich aber als immer schwieriger erwiesen hat. Nicht nur von der Execution her sondern auch durch die Preise der Wafer und den erzielbaren Yields. Es dauert heute einfach länger, bis ein neuer Prozess günstiger ist als der alte. Für GK hat man nun das erste Mal den Ablauf geändert und geht mit Low-End -> Performance -> Mainstream -> High-End in den Markt.

Dass der Top-Dog (HighEnd) als letztes kommt, wird ja schön seit mindestens einem halben Jahr immer und immer wiederholt und ist IMHO absolut klar, logisch und nachvollziehbar.

Wobei man sicher streiten kann ob GK110 wirklich ein direkter Verwandter der GK10X Serie ist, oder eher schon das erste Lebenszeichen eines Refresh.

Genau das ist der Grund für die "Debatte" (ich würde es eher "rumstochern im Nebel" nennen, oder "Phantasieren einer Systematik, die NV vielleicht nie beabsichtigt hat").

Halten wir fest, was man als "gesichert" ansehen könnte:
- Es gab nie einen GK100
- Die Strategie hat sich geändert: Top-Dog einer Familie zuletzt


Wenn dies zutrifft, kann der GK110 nicht der Refresh von irgendwas sein. GK110 ist der Top-Dog des Kepler-Designs und eben kein Anzeichen für einen Refresh.

Ansonsten "wissen" wir recht viel über GK110:
Ca. 3000 ALUs
512bit
Spieleleistung ca. 50% über GK104
CUDA-next - "Spezialitäten"
Wartezeit für Desktop noch mindestens 6 Monate
Verzögerung resultiert aus Prozessproblemen

Es stellt sich nun lediglich für mich die Frage, ob die Nummerierung völlig willkürlich ist (was ich mir nicht so recht vorstellen kann), oder ob die Zahlen eben doch irgendetwas andeuten könnten, was über das bereits "Bekannte" hinaus geht. Dann würde sich nämlich vielleicht für die nächsten 6 Monate eine neue mögliche Richtung für Spekulationen ergeben, anstatt ewig auf den IMHO bereits jetzt schon recht ausgelutschten Leaks/Infos weiter rumzukauen. So lange keine neuen Leaks/Infos kommen, fände ich das nämlich ganz schön langweilig...

aylano
2012-04-02, 11:29:43
Die Frage ist IMO, ob GK110 sich als High-End noch stärker differenziert von Performance differenziert als es früher war.
Früher waren unterschiedliche Shader-TMU-Verhältnisser in der Architektur der Unterschied.

Jetzt ist die Frage, ob "Cuda-Next" die generelle 11x-Cores-Architektur ist oder ob GK110 andere Cuda-Cores hat als GK114, GK116 & Co.
Wenn zweiteres eintrifft, kann man schon zum diskutieren beginnen, ob GK110 überhaupt noch High-End-Gamer-GPU oder nicht doch schon als eine Profi-GPU besser zu benennen wäre.

V2.0
2012-04-02, 11:48:58
ALU ist nicht ALU - da fängt es eben schon an.

Gaestle
2012-04-02, 12:38:59
ALU ist nicht ALU - da fängt es eben schon an.

Auch hier sind wir im Konsens, deswegen schieb ich explizit auch, dass die Leaks sehr deutlich in Richtung 50% mehr Spieleleistung als GK104 gehen. Was anderes lässt sich ja jetzt gar nicht abschätzen, wenn man sich nur auf den Spielebereich konzentriert und damit die SP/DP-Relation außen vorlässt.

Die ganz konkreten Unterschiede bei den Fähigkeiten ALUs kann man doch sowieso erst hinterher mit einem entsprechendem Architekturdokument und mit vielen verschiedenen Tests sehen.

Falls Du das auf die Refresh-These beziehst, denke ich schon, dass die ALUs an sich von GK104 und GK110 gleich sind. Die Verbesserung der HPC-Tauglichkeit würde ich eher in der Organisation der Ansprache der ALUs sehen.


@aylano:
Bei Fermi war es AFAIR auch schon so, dass bei TOP-Dog das DP/SP-Verhältnis deutlich besser war, als bei den Derivaten, falls Du das meinst. Ansonsten war doch bis einschließlich Tesla die Anzahl der TMU/ALU-Einheiten pro Cluser bzw. SM fest, oder nicht?
Bei Tesla bin ich mir nicht mehr sicher, ob es zwischen dem Top-Dog (GT200) und den kleineren Derivaten (GT21x) in Sachen SP/DP-Relation Unterschiede gab.

V2.0
2012-04-02, 12:51:25
Und deswegen wird man GK110 erst zuordnen können wenn man die Nachfolger von GK104 usw. kennt. Finden sich die ALUs von GK110 auch in diesen, dann würde ich ihn zu dieser Generation einordnen, finden sie sich dort nicht, dann muss man sich mit dem Gedanken anfreunden, dass Big-K eine Sonderstellung einnimmt. Und ob BiG-K 505 mehr Spieleleistung bringt, wird man abwarten müssen. Das kommt ganz auf das TDP-Ziel an.

Gaestle
2012-04-02, 13:00:41
Das sehe ich eigentlich nicht so. GK bezeichnet die Familie und damit IMHO auch zentrale Eckpunkte, wie z.B. den Aufbau der ALUs.

Ansonsten würde ja auch Deine These dazu führen, dass die Nummerierung eben doch einen technischen Hintergrund hat. Und genau das versuch(t)e ich ja zu erfragen.

aylano
2012-04-02, 16:36:14
@aylano:
Bei Fermi war es AFAIR auch schon so, dass bei TOP-Dog das DP/SP-Verhältnis deutlich besser war, als bei den Derivaten, falls Du das meinst. Ansonsten war doch bis einschließlich Tesla die Anzahl der TMU/ALU-Einheiten pro Cluser bzw. SM fest, oder nicht?

Das TMU/ALU-Verhältnis war bei GF100 vs. GF104 eben nicht gleich.
GF100 hatte 16 SM mit je 32 Cores während GF104 8 SM mit je 48 Cores hatte.

Bei Fermi waren nur die Einheitenzahlen anders, aber die Architektur gleich.
(Das DP/SP-Verhältnis ist AFAIK absichtlich bei den kleinen Modellen deutlich kleiner, während beim GT200 aufgrund dem speziellen Einheiten-Verhältnis besser)

GT2x0-Serie hatte überall noch 24 Cores pro SM, was beim GF100 bzw. GF1x4 dann einen 50% bzw. 100%-Cuda-Core-Vergrößerung pro SM bedeutete.

Also, während bei GT noch die Einheiten-Verhältnisse gleich waren, gab es mit GF wegen SP/DP schon Einheiten-Unterschiede. Somit könnte könnte könnte als nächsten logischen Schritt der GK110 wegen SP/DP & Co nicht nur Unterschiede in den Einheiten sondern schon in der Architektur haben.

Wenn das so eintritt (und nicht GK110 die selben next-Cuda-Cores hat wie die GK11x-Geschwister) wird die Definition der 550mm²-High-End-Gamer-GPU schwieriger, wenn diese immer stärker zur Server-GPU wird. Vorallem wenn die enorme Die-Vergrößerung (von 3x0mm² auf 550mm" viel mehr in einen höheren Stromverbrauch (wegen GPGPU-Einheiten) endet als in erhöhten Spiele-Performance.
Bzw. die Ernüchterung entsprechend größer, auch wenn es jetzt genügend Anzeichend für Ernüchterung gäbe.

Ich wüsste nicht, wie GK110 eine 50% Performance-Steigerung bei 50% mehr Die-größe und Stromverbrauch schaffen sollten, wenn sich die zusätzlichen GPGPU-Einheiten eigentlich negativ dieser linearen 1:1-Steigerung auswirken sollte.

Deshalb merkte ich an, ob GK110 überhaupt noch als High-End-Gamer-GPU zu betrachten ist oder nicht schon als High-End-Server-GPU.
Genau wissen wir es erst, wenn wir wissen, ob die Next-Cuda-Cores die ganze GK11x-Serie hat oder nur GK110.

Falls GK110 in Juni wirklich schon 50% schneller sein kann als GK104, dann würden sich es wahrscheinlich trotz Wafer-Engpässe auch um 800-900$ auch bringen kann. Nur weil sei ein paar große Tesla-Aufträge haben mögen, heißt es doch nicht gleich, dass komplett alle karten für den plötzlichen Überbedarf an Tesla draufgehen.
Die Probleme scheinen tiefer zu liegen.
Diese +50% könnten wieder der Planfall sein, aber bei höheren Stromverbrauch als erwartet (der schon im Planfall auf 300W-Spiele projektiert sein konnte) sowie wegen Yields oder generell schlechteren 28nm-Fertigungs-Qualität höhere Spannungen als erwartet könnte die Performance-Steigerung des GK110 erheblich kleiner als erwartet ausfallen. Vorallem, wenn im GK110 viel mehr Server-Einheiten dazugekommen sind (=höherer Stromverbrauch --> geringere Spiele-Performancezuwachs zu GK104) als jetzt erwartet wird.

Ende

Felixxz2
2012-04-02, 17:01:04
Wenn GK110 550mm² groß ist, dann hat er 87% mehr Transistoren als GK104 ergo ~6,62 Milliarden Tranistoren.

GK110 ist dann in Spielen 50% schneller, der Rest geht in GPGPU.

Da gibts keine Überraschungen und von solchen Werten war auch immer auszugehen. Für Gamer vielleicht nicht optimal und der Stromverbrauch wird sicher deutlich deutlich über 200W liegen, aber das kennen wird doch schon von Fermi und auch von Tahiti.

Nightspider
2012-04-02, 17:07:13
Es wird aber sicherlich Situationen geben, wo GK110 60-70% vorne liegt, denn die GTX680 liefert in bestimmten Spiele auch kaum (20%) mehr Leistung als ne GTX580.

Vor allem bei Tessellation aber auch da, wo oft Compute Shader Verwendung finden könnte der GK110 Chip ordentlich Leistung abliefern.

Auf jeden Fall sollte der Schritt größer werden, als von GTX560 zur 580.
Gerade bei sehr hohen Auflösungen, Downsampling usw.

Dural
2012-04-02, 17:24:11
AMD verwendet für rund 45% mehr Einheiten 80% mehr Transistoren, das verhältnis stimmt auch bei fermi in etwa... :rolleyes:

wie ich schon mal gesagt habe, NV muss die kepler einheiten wie wir sie vom GK104 kennen bei den GK11x versionen deutlich verkleinern oder es geht mit doppelten einheiten + GPGPU bei doppelten transistoren einfach nicht auf.


Auf jeden Fall sollte der Schritt größer werden, als von GTX560 zur 580.


sollte ist nicht gleich müssen geschweige den das es so kommen wird ;)

Gaestle
2012-04-02, 17:52:16
Das TMU/ALU-Verhältnis war bei GF100 vs. GF104 eben nicht gleich.


Das habe ich ja auch nicht behauptet. Ich schrieb "bis einschließlich Tesla". Tesla ist GT.
(Ich habe aber dabei über sehen, dass HPC-Kepler auch oft als Tesla bezeichnet wird).


GF100 hatte 16 SM mit je 32 Cores während GF104 8 SM mit je 48 Cores hatte.

Bei Fermi waren nur die Einheitenzahlen anders, aber die Architektur gleich.
(Das DP/SP-Verhältnis ist AFAIK absichtlich bei den kleinen Modellen deutlich kleiner, während beim GT200 aufgrund dem speziellen Einheiten-Verhältnis besser)


ALUs müssen auch angesprochen werden. Also ist Steuerungslogik notwendig. Wie umfangreich ist die denn? Wie viel Steuerunglogik braucht man für DP und wie viel für SP?



Deshalb merkte ich an, ob GK110 überhaupt noch als High-End-Gamer-GPU zu betrachten ist oder nicht schon als High-End-Server-GPU.
Genau wissen wir es erst, wenn wir wissen, ob die Next-Cuda-Cores die ganze GK11x-Serie hat oder nur GK110.


Vorausgesetzt, es gäbe einen Unterschied zwischen GK10x und GK11x. Dann hätte die zweite Stelle wieder eine technische Bedeutung. Und dann wurde die GK10x-Linie auch ohne Top-Dog entwickelt, was ich mir nicht vorstellen kann.

Neurosphere
2012-04-02, 18:29:18
Auf jeden Fall sollte der Schritt größer werden, als von GTX560 zur 580.


Ich glaube man sollte lieber den Schritt 460 zu 580 heranziehen ;)


Wenn GK110 550mm² groß ist, dann hat er 87% mehr Transistoren als GK104 ergo ~6,62 Milliarden Tranistoren.

Das ist nur richtig wenn die Packdichte gleich bleibt, was aber unwahrscheinlich ist.

Ailuros
2012-04-02, 19:03:36
Der Vergleich passt sogar recht gut:

G80 (90 nm, HighEnd) -> G92 (65 nm, Performance) -> GT200 (65 nm, HighEnd)
GF1x0 (45 nm, HighEnd) -> GK104 (28 nm, Performance) -> GK110 (28 nm, HighEnd)

Dummerweise hast Du im ersten Fall eine einzige Generation (denn GT200 war nicht besonders mehr als ein refresh mit zusaetzlichen DP Einheiten) und im zweiten Fall eine bunten Mischung von zwei Generationen.

Fermi ist uebrigens auf 40nm der Haarspalterei zu Liebe.

Gut, es gibt auch viele Unterschiede: GK104 ist relativ gesehen schneller als GF110, als es bei G92 zu G80 der Fall war, dafür ist der Preis aber auch deutlich höher. Zudem ist noch nicht sicher, ob der Unterschied zwischen GK110 und GK104 ähnlich groß (oder gar größer) ausfallen wird wie zwischen GT200 und G92. Wenn's schlecht läuft dürfte aber zumindest der zeitliche Abstand ähnlich sein (8 Monate). Architektonisch ist der Unterschied zwischen GK104/GF110 natürlich größer als bei G92/G80, wo es sich bis auf Details eigentlich nur um einen Shrink handelte.

Siehe oben.


Falls GK110 in Juni wirklich schon 50% schneller sein kann als GK104, dann würden sich es wahrscheinlich trotz Wafer-Engpässe auch um 800-900$ auch bringen kann. Nur weil sei ein paar große Tesla-Aufträge haben mögen, heißt es doch nicht gleich, dass komplett alle karten für den plötzlichen Überbedarf an Tesla draufgehen.
Die Probleme scheinen tiefer zu liegen.

Ob die Probleme tiefer liegen bleibt abzusehen und nein kein IHV kann sich hinter seinem Finger verstecken. Nichtdestominder diese "ein paar grosse" Auftraege heisst ueberhaupt nichts so lange man die Anzahl der benoetigten chips pro Auftrag nicht weiss.

Diese +50% könnten wieder der Planfall sein, aber bei höheren Stromverbrauch als erwartet (der schon im Planfall auf 300W-Spiele projektiert sein konnte) sowie wegen Yields oder generell schlechteren 28nm-Fertigungs-Qualität höhere Spannungen als erwartet könnte die Performance-Steigerung des GK110 erheblich kleiner als erwartet ausfallen. Vorallem, wenn im GK110 viel mehr Server-Einheiten dazugekommen sind (=höherer Stromverbrauch --> geringere Spiele-Performancezuwachs zu GK104) als jetzt erwartet wird.

Ende

Welche "Server oder GPGPU Einheiten" genau? Es gibt auf GK110 keine dedizierte HPC Einheiten; breitere caches bzw. surrounding logic wo immer benoetigt schon. "Wieder der Planfall" bezueglich Kepler heisst was genau? GK104 war als "Planfall" fuer GTX580+30% projeziert und jetzt streng dich mal an mir zu beweissen dass es nicht in groben Linien der Fall ist.

Anders formuliert: wenn GK110 tatsaechlich nicht um ca. 50% als GK104 schneller sein sollte, dann ist daran dann nicht der Zusatz an HPC Transistoren schuld sondern eine verpatzte Architektur. Wie verpatzt sie sein koennte sehen wir schon an der ersten Indizie SKU sprich GTX680, aber da man von Dir sowieso nichts als Schwarzmalerei bezueglich NV erwarten kann frage ich mich wieso ich ueberhaupt Zeit damit verschwende.

Gaestle
2012-04-03, 08:26:14
Dummerweise hast Du im ersten Fall eine einzige Generation (denn GT200 war nicht besonders mehr als ein refresh mit zusaetzlichen DP Einheiten)

Interessant, würdest Du das noch etwas genauer ausführen? Was meinst Du mit "zusätzliche DP Einheiten"?

Das hier?

breitere caches bzw. surrounding logic wo immer benoetigt


Kannst Du noch was zur Frage der Nummerierung schreiben? Warum existiert kein GK100? Willkür in der Nummerierung?

V2.0
2012-04-03, 08:43:22
Falls GK110 in Juni wirklich schon 50% schneller sein kann als GK104, dann würden sich es wahrscheinlich trotz Wafer-Engpässe auch um 800-900$ auch bringen kann. Nur weil sei ein paar große Tesla-Aufträge haben mögen, heißt es doch nicht gleich, dass komplett alle karten für den plötzlichen Überbedarf an Tesla draufgehen.
Die Probleme scheinen tiefer zu liegen.
Diese +50% könnten wieder der Planfall sein, aber bei höheren Stromverbrauch als erwartet (der schon im Planfall auf 300W-Spiele projektiert sein konnte) sowie wegen Yields oder generell schlechteren 28nm-Fertigungs-Qualität höhere Spannungen als erwartet könnte die Performance-Steigerung des GK110 erheblich kleiner als erwartet ausfallen. Vorallem, wenn im GK110 viel mehr Server-Einheiten dazugekommen sind (=höherer Stromverbrauch --> geringere Spiele-Performancezuwachs zu GK104) als jetzt erwartet wird.

Ende

Die Probleme gehen wirklich tiefer. TSMC erreicht hinreichende Fertigungskapzitäten in 28nm frühstens in Q4/12.

So gesehen ist ein GK110 ca. 2 GK104 ca. 4 GK106 und ca. 6-7 GK107. Da GK104 für den Geforce-Markt schnell genug ist, warum sollte man, solange die verfügabren Wafer beschränkt sind, GK110 GPUs fertigen, die man nicht für Tesla Verträge braucht?

Hugo
2012-04-03, 10:09:24
Interessant, würdest Du das noch etwas genauer ausführen? Was meinst Du mit "zusätzliche DP Einheiten"?


GT200 hatte extra DP Einheiten