nVidia - GK110 - High-End-Kepler - Q1 2013 [Archiv] - Seite 7

Ailuros

2012-11-10, 08:05:25

Also sollte das stimmen, dann hätte K20 also wirklich nur ein 320Bit Interface und 13 SMX.

Die theoretische Rechenleistung entspricht zwar den Erwartungen, aber "nur" 5GB RAM und dann auch nur 320 Bit Interface sind schon bitter. Nen breites Speicherinterface macht einem einfach das Leben SEHR viel einfacher bzgl. der Auslastung der ALUs.

Naja, und die 13 SMX sind auch etwas enttäuschend. Gibt es also wohl doch eine reine HPC-Karte für die großen Cluster (oder gar OakRidge allein). Wenn ja, dürfte das so manchem sauer aufstoßen.

Bei welchem Stromverbrauch? Wie waere es mit DGEMM FLOPs/W und direkt danach perf/mm2 und perf/$ im Vergleich zu direkt konkurrierenden Loesungen.

In neuen Vertriebsunterlagen für Workstations ist die Tesla K20 folgend aufgeführt:
1x Kelper GK110 - 1170/3520 Gigaflops, 200GB/s Speicherbandbreite, 5GB RAM, 2496 CUDA Recheneinheiten
Available Q4/2012 - Auf dem Bildchen ohne Lüfter ist ein 8Pol/6Pol Anschluss zu sehen, nix besonderes, leider keine Rückseite bisher.

Eine Tesla K10 mit 2xGK104 hat nur 190/4577 Gigaflops bei 3072 CUDA Recheneinheiten (DP Krüppel eben, Tesla M2090 hatte 665/1331 Gigaflops)

M2090 hat 6GB Speicher mit einem TDP von 225W.

DGEMM
M2090 = ~1.2 GFLOPs/W
13/K20 = ~4.5 GFLOPs/W
--------------------------------
Unterschied 3.75x

XeonPhi (eingeschaetzt) ~3.3 GFLOPs/W

Skysnake

2012-11-10, 10:03:06

Hübie

2012-11-10, 11:45:37

nVidias eigene Angaben (http://www.nvidia.com/object/tesla-servers.html) sind 665GFlops, korrekt. Zu seiner Verteidigung muss ich aber sagen dass man langsam den Überblick verliert, da man ja nur noch mit Zahlen jongliert.

Ailuros

2012-11-10, 13:28:06

Wie kommst du denn bitte auf ~1.2 GFlop/s/W für M2090?

Was ich so gelesen (http://insidehpc.com/2012/05/18/new-whitepaper-nvidia%E2%80%99s-next-gen-cuda-compute-architecture-kepler-gk110/) habe, ist die Effizienz bei DGEMM für Fermi bei 60-65%.

M2090 hat 665 Peak-DP GFlop/s.

Damit käme ich dann aber eher auf etwa ~1,78 bis ~1,92 GFlop/s/W

Nehmen wir mal an, nVidia packt die 1TFlop/s in DGEMM, dann kommts nur noch auf den Verbrauch drauf an.

Schätzen wir mal den realen Verbrauch (den wir btw. oben NICHT genommen haben, aber leider habe ich dazu auch keine Daten gefunden -.-) zwischen 200 und 225W ein.

Dann hätten wir da ~4,4 bis ~5 GFlop/s/W

Das wäre dann im Bestcase ein Unterschied von 2,8 und im Worstcase von nur 2,3.

Sorry, aber mir erschließt sich wirklich nicht, wie du auf die 1,2 GFlop/s/W kommst. Es ist aber auch wirklich schwer dazu vernünftige Daten zu finden.

Brainfart weil ich dummerweise =/>40% in Erinnerung hatte:

Based on DGEMM performance: Tesla M2090 (Fermi) = 410 gigaflops, Tesla K20 (expected) > 1000 gigaflops

http://www.nvidia.com/content/tesla/pdf/nv-ds-teslak-family-jul2012-lr.pdf

Ergo self correction:

M2090 hat 6GB Speicher mit einem TDP von 225W.

DGEMM
M2090 = ~1.82 GFLOPs/W
13/K20 = ~4.50 GFLOPs/W
--------------------------------
Unterschied 2.47x

XeonPhi (eingeschaetzt) ~3.3 GFLOPs/W

14SMX@732MHz*80% = ~1.1 TFLOPs DGEMM

Skysnake

2012-11-10, 14:03:05

Puh ok :biggrin: Ich hatte schon an mir gezweifelt ;D

@Hübie:
Ja da haste absolut recht... es ist wirklich SEHR schwer den Überblick zu behalten.

Btt:
Damit hätte dann nVidia wohl wieder ihre Planung verpasst. Die liegt ja für Fermi->Kepler bei >=3.0 bzgl per DP-Perf/W.

Man erinnere sich ja an die orginal Roadmap (http://www.google.de/imgres?hl=de&client=firefox-a&hs=kxB&sa=X&rls=org.mozilla:de:official&biw=1920&bih=950&tbm=isch&prmd=imvns&tbnid=b5S0Yl-VMTS0VM:&imgrefurl=http://www.golem.de/1009/78141.html&docid=58ZCUtjxyP20mM&imgurl=http://scr3.golem.de/screenshots/1009/Nvidia-Roadmap/thumb480/Nvidia-Roadmap-2.jpg&w=480&h=315&ei=pU-eUNLCE4aF4gTg4oHABQ&zoom=1&iact=hc&vpx=187&vpy=157&dur=39&hovh=182&hovw=277&tx=208&ty=108&sig=105079518713896906719&page=1&tbnh=138&tbnw=210&start=0&ndsp=36&ved=1t:429,r:0,s:0,i:69), wo Kepler noch 2011 geplant war.

Das ist halt schon bitter. Erst die Verschiebung auf 2012, und dann packt man wieder nicht die angepeilt Perf/W... Ich habs schon direkt bei der Vorstellung der Roadmap nicht verstanden, warum die sich da selbst so unter druck setzen... Mit so ner Aussage kannste dich doch nur selbst in die Scheise reiten...

Erst Spaxschrauben Fermi, dann die lange Verzögerung von Fermi, dann die gebrochenen Perf/W Versprechen mit Fermi und jetzt wieder ne geringere Perf/W als verkündet...

So vergrault man sich auch zuverlässig die Kundschaft, und das ohne jede Not... Ich raffs echt nicht, warum nVidia das macht. Ihr?

boxleitnerb

2012-11-10, 14:09:12

13 und 14 SMX stimmen:

Nvidia and Advanced Micro Devices on Monday announced high-performance graphics chips for supercomputers.

Nvidia announced GPUs (graphics processing units) called K20 and K20X, with the latter being used in Titan, a 20-petaflop supercomputer at the U.S. Department of Energy's Oak Ridge National Laboratory. AMD announced the FirePro SM10000 graphics processor, which is targeted at high-performance computers and servers in virtualized environments.
[..]
The Titan supercomputer pairs 18,688 Nvidia Tesla K20X GPUs with 18,688 AMD 16-core Opteron 6274 CPUs,
[..]
Nvidia's K20 has 5GB of memory and delivers 1.17 teraflops of double-precision performance and 3.52 teraflops of single-precision performance.
[..]
The faster K20X has 6GB of memory and delivers 1.31 teraflops of double-precision performance.
[..]
AMD claimed that its FirePro SM10000 delivered 1.48 teraflops of peak double-precision performance. The graphics card has 6GB of memory.

http://www.computerworld.com.au/article/441702/nvidia_amd_release_graphics_processors_supercomputing/

Thx@sontin im Luxx.

Von AMD kommt eine FirePro mit 2 Tahiti GPUs (hätte ich jetzt nicht gedacht) mit 1.48 Teraflops DP. Also taktet ein Chip mit 732 MHz. TDP unbekannt.

Ailuros

2012-11-10, 14:16:45

Puh ok :biggrin: Ich hatte schon an mir gezweifelt ;D

@Hübie:
Ja da haste absolut recht... es ist wirklich SEHR schwer den Überblick zu behalten.

Btt:
Damit hätte dann nVidia wohl wieder ihre Planung verpasst. Die liegt ja für Fermi->Kepler bei >=3.0 bzgl per DP-Perf/W.

Oak Ridge K20 duerften bei einem Faktor 2.8x im Vergleich zur 2090 liegen, aber da marketing-technische Turnereien wie diese eben NIE auf den Punkt genau sind sondern mit Absicht so wage wie moeglich formuliert: GF100/Tesla war mit 3GB und einem 238W TDP bei 515 GFLOPs DP theoretischem Maximum. Willst Du die spekulative Rechen-turnerei selber weiterfuehren?

Man erinnere sich ja an die orginal Roadmap (http://www.google.de/imgres?hl=de&client=firefox-a&hs=kxB&sa=X&rls=org.mozilla:de:official&biw=1920&bih=950&tbm=isch&prmd=imvns&tbnid=b5S0Yl-VMTS0VM:&imgrefurl=http://www.golem.de/1009/78141.html&docid=58ZCUtjxyP20mM&imgurl=http://scr3.golem.de/screenshots/1009/Nvidia-Roadmap/thumb480/Nvidia-Roadmap-2.jpg&w=480&h=315&ei=pU-eUNLCE4aF4gTg4oHABQ&zoom=1&iact=hc&vpx=187&vpy=157&dur=39&hovh=182&hovw=277&tx=208&ty=108&sig=105079518713896906719&page=1&tbnh=138&tbnw=210&start=0&ndsp=36&ved=1t:429,r:0,s:0,i:69), wo Kepler noch 2011 geplant war.

Das ist halt schon bitter. Erst die Verschiebung auf 2012, und dann packt man wieder nicht die angepeilt Perf/W... Ich habs schon direkt bei der Vorstellung der Roadmap nicht verstanden, warum die sich da selbst so unter druck setzen... Mit so ner Aussage kannste dich doch nur selbst in die Scheise reiten...

Erst Spaxschrauben Fermi, dann die lange Verzögerung von Fermi, dann die gebrochenen Perf/W Versprechen mit Fermi und jetzt wieder ne geringere Perf/W als verkündet...

So vergrault man sich auch zuverlässig die Kundschaft, und das ohne jede Not... Ich raffs echt nicht, warum nVidia das macht. Ihr?

Ich bin mir sicher dass SA zusaetzliche Authoren braucht.

Ailuros

2012-11-10, 14:22:06

Interessant. Warum bringt man nicht einfach ne FirePro mit 1:2 DP/SP? Die Architektur gibts ja angeblich her. Wozu dann zwei Chips auf ein PCB packen? Die W9000 kostet jetzt schon $3999 (SRP), die K20 wird bei $3199 liegen, wobei hier nicht klar ist ob mit X oder ohne - eher ohne. Die W10000 wird sicher nicht billiger als die W9000 und nur gute 10% schneller als die K20 bei sicher mehr wie 225W TDP.

Und wie sieht es mit Intel aus?

boxleitnerb

2012-11-10, 14:25:11

Skysnake

2012-11-10, 14:27:08

Naja, es gibt schon einen GUTEN Grund dafür. Die K10 ist nämlich aus eben diesem Grund auch für manche Anwendung gar nicht sooo uninteressant, so lange man halt nicht auf DP oder ECC angewiesen ist.

Ram-Bandbreite!

Wenn man sich die Supercomputer in den letzten 10-30 Jahren anschaut, dann sieht man sehr schön, dass die Rechenleistung und die Effizienz immer weiter nach oben gegangen sind, genau so auch in gewissem Maße die Speicherbestückung mitskaliert hat, ein entscheidender Punkt aber stark nachgelassen hat, und zwar die RAM-Bandbreite/Flops

Dadurch wird es aber halt immer schwieriger die Maschinen auch wirklich aus zu lasten, weil man ja den Datenreuse erhöhen muss. Größere Caches kompensieren das, aber eben auch nur, wenn man Caching nutzen kann, was nicht immer der Fall ist.

Wenn man jetzt ne Dual-GPU Karte hat, dann hat man ~die doppelte RAM-Bandbreite. Das steuert eben genau dem entgegen, und macht es leichter die Rohleistung auch wirklich auf die Straße zu bekommen.

Im HPC-Umfeld ist es dann auch nicht soo das Problem, das man doppelt so viele GPUs hat. Das muss eh skalieren, was man da einsetzt.

Die TDP wird allerdings, so fürchte ich, bei 300W liegen, und das ist für viele Pizzaschachteln usw echt nen Problem. Dir fehlen einfach schon die Anschlüsse vom Netzteil usw usw. :ugly:

Mal schauen, wie groß die Karte wird :D

EDIT:
Intel hat den Vorteil der leichteren Portierung von Code. Wie schon gesagt, es fehlen Fachkräfte, die Code portieren können. Das will sich Intel eben zunutze machen. Die Softwarekosten sollen sinken.

@Ailuros:
Ich kritisiere die PR-Stunts von nVidia, das haben die eigentlich nicht nötig... Keine Ahnung, warum du mich da zu SA schicken willst ;D

Ailuros

2012-11-10, 14:40:03

Das musst du uns schon verraten :D

Da sie bei Perf/W aber wohl ziemlich abstinken trotz 22nm, wenn ich nach deinen Schätzungen gehe, wie ist Intel dann relevant?

Edit:
Die 225W TDP gelten jetzt für K20 oder K20X? Wenn für K20, dann wäre das schon etwas schade.

K20X afaik.

@Ailuros:
Ich kritisiere die PR-Stunts von nVidia, das haben die eigentlich nicht nötig... Keine Ahnung, warum du mich da zu SA schicken willst ;D

Wie ich schon im vorigen Post sagte es reicht eine K20X so wie es aussieht irgendwo zwischen 2.5x und 3.0x zwischen Kepler und Fermi Teslas in DGEMM zu liegen. Willst Du garantieren dass es keine weitere Versionen fuer K2x in der Zukunft geben wird und falls es irgendwo ueber 3.0x liegen sollte wird sich irgendjemand beschweren dass sie sich unterschaetzt haben?

Bei radikalen Unterschieden wie bei GF100 (zwischen den ersten Versprechungen und den dann ehlendingen finalen Resultaten) ist solche Kritik ja auch voll gerechtfertigt. Im gegebenen Fall wiederhole ich nochmal stur dass die Indizien nicht annaehernd so schlecht wie mit GF100 klingen und man wirklich bei so kleinen Unterschieden das eine Auge zudruecken kann.

GK110 war uebrigens NIE fuer 2011 geplant nichtmal annaehernd, sondern eher GK104 kurz vor Weihnachten WENN alles nach Plan gelaufen waere, was aber auch fuer AMD eine Tahiti Veroeffentlichung irgendwo im Oktober/November 2011 bedeutet haette.

Die Tendenz zu schnell und zu schlampig aus ein paar Fetzen doom und gloom Schlussfolgerungen zu ziehen ist eher eine Kunst in der SemiAccurate spezializiert; ergo wunder Dich nicht wenn ich Dich zum Artikel-schreiben zu Charlie schicken wuerde. Fehler machen wohl alle ohne Aussnahme, aber man kann es mit Schwarzmalerei auch uebertreiben.

fondness

2012-11-10, 14:47:25

Interessant. Warum bringt man nicht einfach ne FirePro mit 1:2 DP/SP? Die Architektur gibts ja angeblich her. Wozu dann zwei Chips auf ein PCB packen?

Weil es sich natürlich nicht mal annähernd lohnt für die paar benötigen Karten einen neuen Chip zu entwickeln und zu produzieren.

Skysnake

2012-11-10, 14:56:51

Ailuros, bei der Folie bezog man sich bzgl Kepler aber auf die DP-GFlops/W.

Da darf man dann schon von einer "Verspätung" sprechen. Immerhin erreichen Sie jetzt so mit ach und Krach das, was Sie für 2011 angekündigt haben auf der Folie, auch wen Sie diese relativ schnell geändert hatten. Ich würde in diesem speziellen Fall daher nicht von "schwarz" malen reden, sondern das ich mich halt schlicht an das halte, was Sie da gesagt haben, und das war halt nen richtiger selfowne... ohne jede Not... Ich hoffe Sie lernen draus und machen das nicht mehr...

Ich versteh das gehampel von den Marketingfutzis ja auch. Man will halt sich selbst möglichst gut darstellen. Irgendwo sind aber halt auch Grenzen, und die seh ich da schon überschritten. Nicht weit, aber doch überschritten. Fermi war da nen richtiges Fiasko und sollte kein Maßstab für nen Marketing-Fail sein :ugly: Schlimmer gehts ja kaum...

Ansonsten, gewöhn dich dran, das ich eher pessimistisch eingestellt bin ;)

Hat der Vorteil, das man nur selten negativ, aber dafür öfters positiv überrascht wird ;D

Ist mir auf jeden Fall sympathischer als überschenglich optimistisch zu sein.

Hübie

2012-11-10, 15:03:11

K20X wird es nicht frei zu kaufen geben. Die ist eben nur für HPC gedacht. K20 kostet 3200$ mit 225 Watt TDP. Auch K20X wird lt. Infos mit 225 Watt TDP angegeben.
Vielleicht takten beide auch unterschiedlich, wer weiß? ;) Thermal-Design Power ist ja auch nur als Indiz zu sehen.

@Skysnake: nVidia ist eine Aktiengesellschaft und muss sich immer erklären. Also gibst du immer großzügige Ausblicke in die Zukunft. So lang sich Prognose zu 80% Bewahrheiten verlierst du auch keine Geldgeber. Genau das macht nVidia. Das ist Marktwirtschaft. Wir können gerne in einem gesonderten Thread tiefer in die Materie gehen ;D
Meinem Arbeitgeber steht gerade die Nachgeburt einer Fusion ins Haus. Wenn du das nicht sauber über die Bühne bringst verlierst du eine Menge Vertrauen und Vertrauen ist gleich Geld...

Gipsel

2012-11-10, 15:09:01

K20X wird es nicht frei zu kaufen geben. Die ist eben nur für HPC gedacht. K20 kostet 3200$ mit 225 Watt TDP. Auch K20X wird lt. Infos mit 225 Watt TDP angegeben.
Vielleicht takten beide auch unterschiedlich, wer weiß? ;)Das ist doch längst kein Geheimnis mehr. K20 taktet mit 705 MHz, K20X mit 732 MHz. Die sind einfach nur strenger gebinned/selektiert.

Skysnake

2012-11-10, 15:19:25

Damit hätten wir dann

K20: 1173,12 DP-GFlop/s
K20x: 1311,74 DP-GFlop/s

Hübie

2012-11-10, 18:06:46

Das ist doch längst kein Geheimnis mehr. K20 taktet mit 705 MHz, K20X mit 732 MHz. Die sind einfach nur strenger gebinned/selektiert.

Wieso? Wo steht das denn öffentlich zugänglich? :smile:

Gipsel

2012-11-10, 18:30:18

Wieso? Wo steht das denn öffentlich zugänglich? :smile:
Ein paar Seiten weiter vorne im Thread. ;)

Hübie

2012-11-10, 18:32:32

Ich meinte offiziell. Also von Redaktionen oder einem Hersteller/Distributor.

Edit: Ich finde da nix. Nur ein post von boxleitnerb. Aber der bezog sich auf die AMD-Karte. Und wenn beide die gleiche TDP haben, wieso ist dann K20X mit mehr SMx höher getaktet :|

Gipsel

2012-11-10, 18:39:12

Ich meinte offiziell. Also von Redaktionen oder einem Hersteller/Distributor.
Zwar nicht hochoffiziell von nV, aber ja, eine Redaktion hat das vor 12 Tagen geschrieben.
HPCWire spricht übrigens von 732 MHz (http://www.hpcwire.com/hpcwire/2012-10-29/titan_sets_high-water_mark_for_gpu_supercomputing.html?featured=top). Und wenn die das nicht wissen, weiß es Keiner außerhalb von nV und dem ORNL.
Spricht also meiner Meinung nach für 14SMx und 1312 GFLOP/s Peak jeder Tesla-Karte.Die 705 MHz für die 13 SMx-Karte sind noch älter (edit: hier zitiert Ailuros vor knapp vier Wochen einen heise-Artikel mit der Angabe (http://www.forum-3dcenter.org/vbulletin/showthread.php?p=9504526&highlight=705#post9504526) [2 Posts weiter oben verlinkt, enthält eine schöne Tabelle mit den Specs, die von einem Distributor stammen]).
Außerdem muß Du doch nur mal nachrechnen, wie man auf die (im bereits oben verlinkten Artikel von ComputerWorld, der Ankündigungen von nV und AMD zitiert (http://www.computerworld.com.au/article/441702/nvidia_amd_release_graphics_processors_supercomputing)) angegebenen 1,17 bzw. 1,31 TFlop/s kommt. ;)
Den Thread mal nach "705" oder "732" zu durchsuchen, hätte nicht nur boxleitners Post zu Tage gefördert (in dem die "732" auch nur ein Zahlendreher ist, er meinte 723 MHz und vermutlich sind es bei der AMD-Karte 725 MHz, wie ich schon schrieb).

Hübie

2012-11-10, 19:51:34

Ich habe gerade keinen blassen Schimmer. Komme auf andere Werte als 1,17 TFlops :( Irgendwo hab ich n Fehler. 14*192*2*732=SP. Bei 1:4 dann also <1 TFlop (938)... :|

Bin verwirrt. Ich geh jetzt erst mal die Birne freizocken ;D

Den Thread mal nach "705" oder "732" zu durchsuchen, hätte nicht nur boxleitners Post zu Tage gefördert (in dem die "732" auch nur ein Zahlendreher ist, er meinte 723 MHz und vermutlich sind es bei der AMD-Karte 725 MHz, wie ich schon schrieb).

:P :P

Hugo78

2012-11-10, 20:02:19

1:3 bei Kepler, 1:4 bei Thaiti

Hübie

2012-11-10, 20:06:34

1:3 bei Kepler, 1:4 bei Thaiti

Öh. Hust. Wusst ich doch - wollt nur wissen ob ihrs auch wisst :freak:

Wenn ich nun die Effizienz mit einbeziehe komme ich auch tatsächlich auf den Wert. So ich geh nun ballern. :P

Spasstiger

2012-11-12, 12:37:47

Gipsel

2012-11-12, 13:17:03

Morgen wird die November-Liste von Top500.org auf der SC12 veröffentlicht: http://sc12.supercomputing.org/schedule/event_detail.php?evid=bof143.
Dann gibts vielleicht auch endgültige Spezifikationen der Tesla K20, die ja wahrscheinlich den Superrechner Titan auf den ersten Platz hieven wird.Ich dachte, es wäre langsam klar, daß im Titan K20X-Karten mit 6GB RAM (volles 384Bit-Interface) und 14 SMx@732 MHz werkeln, während der normale K20 erstmal mit 5GB (320Bit Interface) und 13 SMx@705 MHz auskommen muß. Später werden dann wahrscheinlich noch größere Versionen für andere Nutzer als Cray nachgeschoben.

HPVD

2012-11-12, 13:59:34

Ich dachte, es wäre langsam klar, daß im Titan K20X-Karten mit 6GB RAM (volles 384Bit-Interface) und 14 SMx@732 MHz werkeln, während der normale K20 erstmal mit 5GB (320Bit Interface) und 13 SMx@705 MHz auskommen muß. Später werden dann wahrscheinlich noch größere Versionen für andere Nutzer als Cray nachgeschoben.

jo, die 3. Variante hätte dann
15SMx
384Bit-Interface
plus hoffentlich mehr als 6GB Speicher...
und das ganze bei 225W (hoffentlich möglich durch Prozessverbesserungen und weitere Selektion)
=> je nach Takt: 1,4 DP TFlop/s :D

boxleitnerb

2012-11-12, 14:17:22

HPVD

2012-11-12, 14:41:23

http://pcper.com/news/General-Tech/NVIDIA-Launches-Tesla-K20X-Accelerator-Card-Powers-Titan-Supercomputer

K20X hat angeblich 93% DGEMM-Effizienz (1.22 TF bei 1.31 TF Rohleistung). Bandbreite liegt bei 250 GB/s.

da kann sich Intel mit seiner aktuellen XeonPhi Version mit ihren 0,8-0,9 TF DGEMM (bei einer sehr ähnlichen Leistungsaufnahme) warm anziehen...

Gipsel

2012-11-12, 14:45:52

DGEMM ist nicht Alles. Wenn es ein wenig irregulärer wird, sollten die Phis zum Überholen ansetzen können. Außerdem erst mal sehen, wie das wirklich in der Realität ankommt. Die 92% schaffen die mit totoptimiertem Code auf einer Einzelkarte (die 90% schaffte man so schon auf einer HD4870). In einem Knoten mit Dual CPU und Dual GPU liegt man bei noch 76%, im ganzen Titan schon nur noch bei <65%.

boxleitnerb

2012-11-12, 14:55:39

HPVD

2012-11-12, 15:19:33

Nividia gibt für einen einzelnen Xeon 2687 (8Core @3,1Ghz) 0,17 TFlops DGEMM an -interessant müsste doch aber auch der Vergleich mit einem einem Hashwell mit AVX2 werden, oder?
Mit welchem Zuwachs würdet ihr denn da rechnen?
Zusätzlich hat ein Server ja oft auch mehr als eine CPU...

HPVD

2012-11-12, 15:25:14

noch ein paar interessante Dinge gibts im Artikel bei heise.de

z.B. PCIe 3.0 nicht direkt offiziell/standardmäßig

http://www.heise.de/newsticker/meldung/SC12-Nvidia-praesentiert-Tesla-Rechenbeschleuniger-mit-GK110-GPU-1747555.html

HPVD

2012-11-12, 15:38:13

und hier gibts eine hübsche übersicht/Vergleich der Daten von Nvidia Ati:

Nvidia Tesla M2090
Nvidia Tesla K20
Nvidia Tesla K20X
AMD FirePro S10000
AMD FirePro S9000

http://www.computerbase.de/news/2012-11/nvidia-stellt-tesla-k20-kepler-mit-gk110-gpu-vor/

Gipsel

2012-11-12, 15:44:53

Und auf wieviel würde die S10000 oder S9000 in so einer Konfiguration kommen? Nvidia hat hier offenbar bei der Effizienz aufgeschlossen, das ist doch gut. Mich würden konkrete Vergleichswerte interessieren.
Schon ein bißchen älter, aber hier (http://university.jwdt.org/Reports/CALDGEMM.HPL.Technical.Report.pdf) kam man mit AMD-GPUs auch über hunderte Knoten noch auf ~70% DGEMM Effizienz mit Cypress-Karten.
Nur die GPU betrachtet kam man mit dem DGEMM Kernel auf >90%, ein einzelner Knoten erreichte ungefähr 85% Effizienz (gerechnete Flops / Summe der Peakflops von GPU und CPU) *), mit dem kompletten HPL-Code auf einem Knoten waren es dann noch bei 75,54% (kann man auch auf 76% runden ;)) und auf mehreren Knoten dann schlußendlich etwa 70% (70,6% auf 4 Knoten, 69,7% auf 550 Knoten). Das liegt also vollkommen gleichauf zu den Effizienzwerten mit K20X bzw. bei Titan (~65%).
Du hast also recht, gut das nV hier aufschließen konnte.

*):
Die Angaben von nV mit den 92% gelten auch nur für den Kernel und die 76% sind auch genau so (Summe der GPU- und CPU-Flops als Grundlage) berechnet.

john carmack

2012-11-12, 16:05:17

Wieviel mehrleistung zur GTX680 rechnet ihr wenn sich die K20X Hardware Daten bestätigen?

LSSJBroly

2012-11-12, 16:07:53

Wieviel mehrleistung zur GTX680 rechnet ihr wenn sich die K20X Hardware Daten bestätigen?

Wenn die GTX 780 ebenfalls mit 14SMX (vllt sogar 15SMX, bis März ist es ja noch etwas hin) antritt dann sollten schon rund 40% mehr Fps drin sein.

boxleitnerb

2012-11-12, 16:08:16

40% würd ich mal sagen. Lieber zu niedrig stapeln als zu hoch.

Hübie

2012-11-12, 16:11:41

Je nach Anwendung und Auflösung. Je mehr gefordert wird um so mehr kommen wir an die GTX690. Wenn GK110 100% entspricht wird die GTX 680 sicher um die 65-70% leisten. Das sind aber keine konstatierten Werte sondern lediglich Schätzungen auf Grund von Erfahrung und den bekannten Zahlen der K20(X).

Edit: Übrigens sehe ich 100% immer von oben nach unten. Theroretisch gibt es nicht mehr als 100 von 100 ;)

boxleitnerb

2012-11-12, 16:13:27

Ich hoffe, sie fahren die Speicherbandbreite ordentlich aus und verbauen 6 Gbps Chips auf einer GK110-Geforce.

LSSJBroly

2012-11-12, 16:16:06

Ich hoffe, sie fahren die Speicherbandbreite ordentlich aus und verbauen 6 Gbps Chips auf einer GK110-Geforce.

Ja. Man sieht ja wozu ein zu schmales SI führt (GK104). Durch eine hohe Speicherbandbreite sollte man allein schon in einigen Games wie z.B. Metro 2033 deutlich gegenüber der 680 zulegen können.

Duplex

2012-11-12, 16:23:27

http://www.computerbase.de/news/2012-11/nvidia-stellt-tesla-k20-kepler-mit-gk110-gpu-vor/

http://www7.pic-upload.de/12.11.12/62rcts8tkh7s.jpg

Wenn alles gut läuft, dann gibts evtl. im Januar/Februar 2013 diese Specs auch als Geforce aka GTX770, GTX780.

Schade das K20x nur aus 14x192 Shader besteht, vielleicht gibt es anschließend im Herbst 2013 noch ein Respin/Refresh auf GK110 Basis mit 15x192 Shader.

boxleitnerb

2012-11-12, 16:27:22

Nvidia wird wohl auch ein paar 15 SMX-Teile übrig haben. Was machen sie denn mit denen? Wegwerfen wäre zu schade, damit könnte man eine Art "Ultra" machen.

LSSJBroly

2012-11-12, 16:31:12

Nvidia wird wohl auch ein paar 15 SMX-Teile übrig haben. Was machen sie denn mit denen? Wegwerfen wäre zu schade, damit könnte man eine Art "Ultra" machen.

Hoffe ich auch mal. Zwar sind zwischen 14SMX und 15SMX nur rund 7% aber trotzdem: Der Vollausbau sollte mit 7% weniger Takt weiterhin die selbe Gaming-Performance erreichen, allerdings dadurch etwas sparsamer arbeiten können.

Duplex

2012-11-12, 16:32:39

Möglicherweise takten die Geforce aber höher als die Tesla Karten, dann sind wir wieder beim Thema "Leistungsaufnahme".
Ich denke 250W TDP wird das max. sein.

AnarchX

2012-11-12, 16:36:27

Eine 3GiB Karte dürfte wohl auch gute 20W weniger TDP haben, da hier die 12 zusätzlichen Speicherchips fehlen.
Insofern besteht da durchaus noch einiges an Spielraum für eine ~250W GTX 780.

LSSJBroly

2012-11-12, 16:38:06

Möglicherweise takten die Geforce aber höher als die Tesla Karten, dann sind wir wieder beim Thema "Leistungsaufnahme".
Ich denke 250W TDP wird das max. sein.

Sicherlich würde die Geforce höher takten. Da der Stromverbauch zwischen 14 und 15SMX aber kaum ansteigen soll (deutlich weniger als durch mehr Spannung und mehr Takt laut @Ailuros), wäre es sinnvoller, dann nur 800MHz statt 860MHz zu fahren, da mann für die 800MHz folglich auch weniger spannung braucht.

boxleitnerb

2012-11-12, 16:38:19

Könnte eigentlich der vergrößerte L2-Cache auch in Spielen mit Compute-Einsatz etwas bringen?

Hübie

2012-11-12, 16:56:02

Sicher. Mehr Cache bedeutet dass mehr zwischengelagert werden kann. Wie man sieht dauert es aber recht lange bis sicher Spiele großflächig die compute-power zu nutze machen.
Metro2033 war eines der ersten überhaupt (object based depth of field). USA haben wir aber schon seit G80.

dildo4u

2012-11-12, 17:04:24

Neue Top 500Liste mit K20X und Xeon Phi.

http://www.top500.org/lists/2012/11/

Keine Angabe zum Stromverbrauch des Xeon Phi System's,sowas sollte man imo gar nich erst aufnehmen,ohne diese Angabe kann man gar nix einschätzen.

Gipsel

2012-11-12, 18:19:59

Die Diskussion über die FirePros bitte im passenden Thread (http://www.forum-3dcenter.org/vbulletin/showthread.php?p=9541744#post9541744) weiterführen.

Danke.

Gipsel

2012-11-12, 18:36:35

Könnte eigentlich der vergrößerte L2-Cache auch in Spielen mit Compute-Einsatz etwas bringen?
Normalerweise nicht mehr, als er auch ohne Compute bringt (z.B. Entlastung der Speicherbandbreite für Texturing, Zwischenspeichern von Werten beim Routing von Daten zwischen den einzelnen DX11-Pipelinestages usw.).
USA haben wir aber schon seit G80.Seit der XBox360 mit ATIs Xenos. ;)
Aber das hilft überall, das ist nicht spezifisch für Compute. Seit dem G80 haben wir local/shared memory.

Hübie

2012-11-12, 19:44:15

Haarspalter :P Wie dem auch sei. Es wird so kommen dass auf der Graka Berechnung durchgeführt werden die eben nicht direkt visuell sichtbar sind sondern das Bild beeinflussen (Partikel- & Objektphysik, (Un-) Schärfefilter KI-Routinen). Dirt Showdowns Beleuchtungsmodell macht das schon ganz gut vor.

aufkrawall

2012-11-12, 19:54:10

Dirt Showdowns Beleuchtungsmodell macht das schon ganz gut vor.
Ist das nicht eher AMD-Marketing?

Gipsel

2012-11-12, 19:55:00

Ist das nicht eher AMD-Marketing?
Daß die DX11 Compute Shader dafür nutzen vermutlich nicht.

Skysnake

2012-11-12, 19:55:27

Brainfart weil ich dummerweise =/>40% in Erinnerung hatte:

http://www.nvidia.com/content/tesla/pdf/nv-ds-teslak-family-jul2012-lr.pdf

Ergo self correction:

M2090 hat 6GB Speicher mit einem TDP von 225W.

DGEMM
M2090 = ~1.82 GFLOPs/W
13/K20 = ~4.50 GFLOPs/W
--------------------------------
Unterschied 2.47x

XeonPhi (eingeschaetzt) ~3.3 GFLOPs/W

14SMX@732MHz*80% = ~1.1 TFLOPs DGEMM
In den Folien von AMD wird die M2090 mit 2,96 GFlop/s/Watt angegeben :ugly:

Wollen die sich absichtlich selbst schlecht machen?
http://www.pcgameshardware.de/AMD-Radeon-Hardware-255597/News/AMD-stellt-Firepro-S10000-vor-1035261/

aufkrawall

2012-11-12, 20:02:15

Daß die DX11 Compute Shader dafür nutzen vermutlich nicht.
Ich seh nur bei Dirt SD nicht wirklich den Vorteil: Das MSAA greift trotzdem ziemlich schlecht und Deferred GI-Beleuchtungsmodelle laufen offenbar auch auf sparsameren Gamer-Chips schnell.

Ich habs an anderer Stelle schon mal gefragt, aber leider keine Antwort erhalten: Wird das Cone RT von UE4 auch über Compute laufen?
Oder wo sind sonst entsprechende Lösungen in Sicht?

y33H@

2012-11-12, 20:07:32

XeonPhi (eingeschaetzt) ~3.3 GFLOPs/W
14SMX@732MHz*80% = ~1.1 TFLOPs DGEMMDGEMM bei K20X sind laut NV 1.220 DP-GFLOPS. Phi schätzt du bissi schwach ein ;-)

Hübie

2012-11-12, 20:23:12

Ich seh nur bei Dirt SD nicht wirklich den Vorteil: Das MSAA greift trotzdem ziemlich schlecht und Deferred GI-Beleuchtungsmodelle laufen offenbar auch auf sparsameren Gamer-Chips schnell.

Ich habs an anderer Stelle schon mal gefragt, aber leider keine Antwort erhalten: Wird das Cone RT von UE4 auch über Compute laufen?
Oder wo sind sonst entsprechende Lösungen in Sicht?

Versichern kann ich dir das nicht aber nach dem was man so liest ist die Wahrscheinlichkeit hoch. nVidia arbeitet ja auch an einer hardware-Lösung auf GPU-Basis fürs raytracing.
Das hier könnte dich interessieren: Investigating ray tracing, the next big thing in gaming graphics (http://www.extremetech.com/gaming/135788-investigating-ray-tracing-the-next-big-thing-in-gaming-graphics)

Sehr gut geschrieben und fasst endlich mal eine Menge Material zusammen. Will nicht wissen wie lang Joel Hruska daran gesessen hat (also inkl. Recherchen).

Edit: http://www.abload.de/img/gi_cone_gpuqbivr.png (http://www.abload.de/image.php?img=gi_cone_gpuqbivr.png)
Seite 12 (http://www.unrealengine.com/files/misc/The_Technology_Behind_the_Elemental_Demo_16x9_(2).pdf)

Skysnake

2012-11-12, 21:13:02

Hübie

2012-11-12, 21:21:16

Liegt an den Boards wenn ich das richtig weiß. Das gleiche Spielchen wie mit X79.

Skysnake

2012-11-12, 21:25:06

Dann gibt es aber eigentlich keinen Grund, die Karte nicht zu zertifizieren. Es wird ja meines wissens nach jede Komponente für sich zertifiziert...

AMD bekommts doch auch gebacken!

y33H@

2012-11-12, 21:25:32

Wo ist PCI-E 3.0 denn durchgehend der limitierende Faktor?

HPVD

2012-11-12, 21:26:09

ein Blick zur Konkurenz:

8 AMD FirePro S10000s (16 GPUs) achieve 8 TFLOPS real world (DGEMM) double precision compute performance

This 16 GPU (eight S10000s) Exxact Computing Server provides more than 8 TFLOPS of real world double precision computing performance. While these are early drivers, this still means you are still seeing around 70% efficiency of the theoretical peak double precision floating point performance of 11.84 TFLOPS (47.28 TFLOPS peak single precision performance!).

mehr + Bilder
http://fireuser.com/blog/8_amd_firepro_s10000s_16_gpus_achieve_8_tflops_real_world_double_precision_/

Hübie

2012-11-12, 21:29:31

Dann gibt es aber eigentlich keinen Grund, die Karte nicht zu zertifizieren. Es wird ja meines wissens nach jede Komponente für sich zertifiziert...

AMD bekommts doch auch gebacken!

Hm. Na ja verstehe davon zu wenig. Vielleicht schreibt die IEEE vor dass es überall lauffähig sein muss.
AMD bekommt dafür ganz andere Dinge nicht gebacken :freak:

Dural

2012-11-12, 22:12:14

btw: http://www.heise.de/newsticker/meldung/SC12-Nvidia-praesentiert-Tesla-Rechenbeschleuniger-mit-GK110-GPU-1747555.html

LOL?

GK110 "nur" mit "freischaltbarem" PCI-E 3.0, also standardmäßig mit PCI-E 2.0, sprich damit wohl auch nur zertifiziert???? Das doch nen schlechter Scherz oder????

Beide Rechenkarten hat Nvidia vorsichtshalber nur für PCIe 2.0 spezifiziert, weil es mit mit manchen Xeon-E5-Boards noch Probleme gab. Nvidia unterstrich gegenüber heise online, dass die Hardware PCIe 3.0 unterstütze, das Grafikkarten-BIOS die Karten jedoch auf PCIe 2.0 festsetzt. Es stehe den OEMs allerdings frei, für OEM-Systeme K20-Karten mit "freigeschaltetem" PCIe 3.0 einzusetzen.

für mich eine logische entscheidung das man die karten auf 2.0 fixt, eine frage bleibt jedoch offen, nämlich wo genau das problem liegt, an den intel boards oder der tesla hardware oder einfach an der software...

Skysnake

2012-11-12, 22:22:15

Wo ist PCI-E 3.0 denn durchgehend der limitierende Faktor?
Nirgends, du musst aber eben damit kürzer warten, um überhaupt mit dem rechnen an zu fangen. Sprich der Overhead reduziert sich halt, und damit steigt die Effizienz.

Hm. Na ja verstehe davon zu wenig. Vielleicht schreibt die IEEE vor dass es überall lauffähig sein muss.
AMD bekommt dafür ganz andere Dinge nicht gebacken :freak:
IEEE hat damit gar nichts zu tun.

Die PCI-Sig (http://www.pcisig.com/home) hält ihre Hand über PCI-E.

für mich eine logische entscheidung das man die karten auf 2.0 fixt, eine frage bleibt jedoch offen, nämlich wo genau das problem liegt, an den intel boards oder der tesla hardware...
PCI-E ist von sich aus selbstständig abwärtskompatibel, und so lange man sich an die Specs hält, läuft das auch alles ohne Probleme selbstständig mit genau den richtigen! settings. Genau das ist doch mit das Tolle von PCI-E. So lange man sich an die Specs hält läuft es einfach.

Hugo78

2012-11-12, 23:11:28

Die letzten Tage hatte ich den Eindruck, NV würde mit der 13SMX Version eventuell ggü. Intel verlieren, auch vom Preis her, mit knapp 3000 USD.
Aber von der Leistung und grade dem was am ende real, abseits vom Peakwert erreicht wird, steht selbst die 13 SMX Version gut dar.

Das mit dem PCIe 3.0 Bastelwerk ist natürlich Murks, aber man kann NV zumindest nicht unterstellen, sie hätten was unterschlagen, wenn sie selber sagen, dass es mit manchen Xeon-E5-Boards noch Probleme gab.

Also Intel hat trotz trigate und 22nm nicht mal den Salgave vom GK110 im Griff und AMD bietet ein MGPU Monster auf, was ein (theoretischer Vollausbau) GK110 mit 15SMX @ 800MHz @ < 300W mit Leichtigkeit (100W weniger) kontern könnte.

Skysnake

2012-11-12, 23:14:51

AMD hat da aber auch noch Luft nach oben, genau die nVida. Ich würde da eher von Ausgeglichen sprechen, wobei ich den Bandbreitenvorteil schon nett finde, dafür hat nVidia HyperQ und dynamic Parallelism...

Bei Intel sollte man halt echt nicht vergessen, das man den bestehenden Code mehr oder weniger weiter verwenden kann.
Wenn man sich in Erinnerung ruft, wie schon seit längerer Zeit darüber geklagt wird, das sehr sehr viele IT´ler fehlen, dann weiß man, welchen Vorteil Intel damit hat.

boxleitnerb

2012-11-12, 23:16:09

375W und Luft nach oben? Ich dachte, Cannabis ist nur in den USA legalisiert :D

Skysnake

2012-11-12, 23:28:56

:rolleyes:

Wir hatten es doch davon, dass die Karte nicht wirklich eine nachvollziehbare TDP hat. Das hat Gipsel doch nun hinreichend dargelegt oder nicht?

Gipsel

2012-11-12, 23:30:28

dafür hat nVidia HyperQ und dynamic Parallelism...Ich habe das schon ein paar Mal erwähnt, aber rate mal, was die 2 ACEs machen. Jeder SI-Chip (sogar CapeVerde) hat 3 unabhängige Hardware-Queues, die parallel bestückt werden können (HyperQ legt auf die Vorgabe noch eine Schippe drauf, okay, aber das Feature an sich ist extrem ähnlich). Und dieses "Dynamic Parallelism" könnten auch alle GCN-Chips, bei AMD läuft das iirc unter "Task Graph Execution" (es fehlt halt wie leider üblich eine entsprechende OpenCL-Erweiterung, das dauert schlicht zu lange, falls es denn überhaupt irgendwann kommt).
375W und Luft nach oben?AMD würde das Ganze vermutlich auch in <300W hinkriegen, wenn man niedriger getaktete, aber dafür unbeschnittene Tahitis genommen hätte. Siehe dem FirePro-Thread.

boxleitnerb

2012-11-12, 23:31:13

Ein bisschen Rumrechnerei ändert an der Angabe aber nunmal nix. Seit wann ist die TDP übrigens an die Stromsteckerkonfiguration gebunden? Hätten ja auch 330W oder 307W sein können. Klingt für mich irgendwie nach Schönreden, weil dir die 375W nicht gefallen. Mehr als diese Angabe gibts nunmal nicht, deal with it.

Würde, hätte, wäre...sie tun es nicht und haben wohl auch irgendeinen Grund dafür.

Skysnake

2012-11-12, 23:49:38

Ich habe das schon ein paar Mal erwähnt, aber rate mal, was die 2 ACEs machen. Jeder SI-Chip (sogar CapeVerde) hat 3 unabhängige Hardware-Queues, die parallel bestückt werden können (HyperQ legt auf die Vorgabe noch eine Schippe drauf, okay, aber das Feature an sich ist extrem ähnlich). Und dieses "Dynamic Parallelism" könnten auch alle GCN-Chips, bei AMD läuft das iirc unter "Task Graph Execution" (es fehlt halt wie leider üblich eine entsprechende OpenCL-Erweiterung, das dauert schlicht zu lange, falls es denn überhaupt irgendwann kommt).

Da hast du auch recht, aber es ist halt genau diese "Schippe" mehr, die es interessant macht.

Und bzgl "Tash Graph Execution" usw. hast du absolut Recht... leider -.-

In der Architektur schlummern noch ein paar echte Knaller, aber die sind per OpenCL leider nicht zugänglich... Oder wenn dann auf jeden Fall nicht LEICHT zugänglich, und genau das braucht man.

Wenn ich mich erst hinsetzen muss und lowlvl Programmieren muss, und Task Graph Execution usw zu nutzen, dann bringts das einfach nicht wirklich.

Klar gibts Situationen, wo einem das was nutzt UND man die Zeit auch dafür hat, sich damit auseinander zusetzen/zu implementieren, aber das hat man einfach nicht immer.

Und dann schließt AMD auch noch in Dresden die Softwarebude....:mad:

Gipsel

2012-11-13, 00:05:28

Ein bisschen Rumrechnerei ändert an der Angabe aber nunmal nix. Seit wann ist die TDP übrigens an die Stromsteckerkonfiguration gebunden? Hätten ja auch 330W oder 307W sein können. Klingt für mich irgendwie nach Schönreden, weil dir die 375W nicht gefallen.Das hat überhaupt nichts mit "Schönreden" oder "gefallen" zu tun, sondern schlicht damit, daß AMD die Möglichkeiten offenbar nicht ausnutzt (warum auch immer).
Oder um mal ein extremes Beispiel anzuführen: Hättest Du die HD5830 als Maßstab dafür genommen, was Cypress in der Kategorie Perf/Watt kann? ;)

boxleitnerb

2012-11-13, 00:12:48

Dann könntest du genauso anführen, dass Nvidia Ähnliches tun könnte und zwei GK110 auf ein Board pappen - womit man dann vermutlich den Abstand wieder hergestellt hätte.

Gipsel

2012-11-13, 00:27:33

Dann könntest du genauso anführen, dass Nvidia Ähnliches tun könnte und zwei GK110 auf ein Board pappen - womit man dann vermutlich den Abstand wieder hergestellt hätte.
Zwei GK104 (kräftig im Takt reduziert) hat nV bereits auf ein Board gepackt. Nennt sich Tesla K10, rennt auf 745 MHz, hat 8 GB GDDR5@5GBps und kommt mit 225W aus. ;)
GK110 ist bereits am unteren Ende des Taktspektrums, wenn er in 225W (in Quadro/Tesla Spezifikationsgüte) passen soll. Zwei davon wären also im Vergleich deutlich weniger praktikabel (liegt an der typischen Form eines Shmoo-Plots). Die Reserven liegen da eher in der Möglichkeit, recht deutlich Takt zulegen zu können, wenn man auf 300W gehen würde (auf dem Desktop wird man es vermutlich 250 oder 275W nennen).

Skysnake

2012-11-13, 00:29:42

GK110 ist aber auch ein "bischen" größer als Tahiti. Das sollte man nicht vergessen.

Dural

2012-11-13, 00:38:30

wie auch immer, kepler scheint das rennen in dieser generation auch gewonnen zu haben, sonst wäre er nicht im ersten platz der top500 drin.

ich denke nicht das AMD eine grosse konkurenz für NV ist... viel mehr wird es in dem bereich Intel vs NV heisen.

boxleitnerb

2012-11-13, 00:38:39

GTX590...hust ;)

Gipsel

2012-11-13, 00:42:01

GK110 ist aber auch ein "bischen" größer als Tahiti. Das sollte man nicht vergessen.
Das ist ja der Grund dafür, daß sich der "natürliche Lebensraum" eines GK110 passend zum doppelten Transistorcount auch ganz grob beim doppelten Verbrauch eines GK104 befinden dürfte. Die Taktraten von K10 (2 x GK104 @ 745 MHz, 8GB RAM) und K20 (1 x GK110 @ 705 MHz, 5 GB RAM) bei identischen 225W Spezifikation bzw. K20X (1 x GK110 @ 732 MHz, 6 GB RAM) bei 235W bestätigen das eigentlich ziemlich gut. :)
Und irgendwo dazwischen sitzt halt Tahiti.

Ailuros

2012-11-13, 07:21:51

In den Folien von AMD wird die M2090 mit 2,96 GFlop/s/Watt angegeben :ugly:

Wollen die sich absichtlich selbst schlecht machen?
http://www.pcgameshardware.de/AMD-Radeon-Hardware-255597/News/AMD-stellt-Firepro-S10000-vor-1035261/

Steht irgend etwas in der Folie von realer DGEMM Leistung dass ich es verpasst habe? AMD geht in der Folie nach den offiziellen maximalen theoretischen Daten von NVIDIA. Dementsprechend hat eine 2090 offiziell maximal 665 GFLOPs DP mit einem Stromverbrauch von 225W.

665 / 225 = 2.955555555555555........x

Ist Dein Rechner kapputt oder was? :P

Gegen GF110/Tesla ist der Vergleich auch korrekt; das daemliche ist eben nur dass wenn man auf K20X bzw. K20 als Beispiel genauso rechnet wie AMD in dem slide dann:

K20X
1312 / 235 = 5.58 GFLOPs/W
K20
1173 / 225 = 5.21 GFLOPs/W

Da AMD 3.94 GFLOPs/W angibt ist es kein besonderer Werbepunkt; in dem Fall sind solche Vergleiche mit Kepler eher ein Eigenthor.

Skysnake

2012-11-13, 11:19:35

:P

Sag ich doch, die rechnen sich selbst schlecht -.-

Ailuros

2012-11-13, 11:22:01

:P

Sag ich doch, die rechnen sich selbst schlecht -.-

Och zu AMD's "Verteidigung" war K20/K20X wohl noch nicht offiziell angekuendigt als sie die Praesentation entwickelten, aber dafuer hat NV's marketing Abteilung so schnell wie moeglich gesorgt.

Spasstiger

2012-11-15, 22:40:45

Ailuros

2012-11-16, 07:12:56

Die K20/K20X-Vorstellung hing imo eher mit der SC12 und der neuen Top500.org-Liste zusammen, die jetzt mit Nvidia-Technik angeführt wird. Eher wollte AMD im Gespräch bleiben und hat deshalb am selben Tag eine Neuvorstellung rausgehauen.

Och Intel Xeon Phi ist an dem ganzen Wirrwarr auch nicht unbeteiligt. Wer jetzt von den drein zuerst um N Stunden etwas angekuendigt hat ist relativ nebenwichtig. Einen gewissen Zusammenhang haben alle 3 Faelle schon.

Das einzige was man davon behalten kann ist dass NV wohl doch heftig Moneten aus der Geschichte geschaufelt hat, im Gegenteil zu dem was jegliche Schwarzmalerei erzaehlen wollte. Hier spielten natuerlich auch die heftigen 28nm desktop GPU Preise u.a. mit, aber wenn man den letzteren Sport fanatisch betreibt sollte man sich doch irgendwo fragen ob es irgendwo ein Loch in der insgesamten Logik gibt.

Skysnake

2012-11-16, 09:21:54

? Loch in welcher Lokig?

Ailuros

2012-11-16, 09:59:07

? Loch in welcher Lokig?

Hast Du Dich angesprochen gefuehlt? :D Ich hab nicht mal an Dich gedacht Tschuldigung :P

Spass beiseite:

http://semiaccurate.com/2012/11/02/nvidia-tesla-k20-specs-gives-hints-about-28nm-yields/

http://semiaccurate.com/2012/10/15/will-nvidia-make-a-consumer-gk110-card/

http://semiaccurate.com/2012/05/08/nvidias-five-new-keplers-raise-a-red-flag/

Reicht so viel oder muss ich noch weiter suchen?

Skysnake

2012-11-16, 12:03:11

Nein, ich fühle mich nicht angesprochen :P

Trotzdem würde ich gern verstehen, was du uns damit sagen wolltest/willst. Ich steh nämlich im Moment noch immer auf dem Schlauch :ugly:

Gipsel

2012-11-16, 14:27:35

Die Andeutungen gehen dahin, daß die 28nm Yields so schlecht inzwischen nicht mehr sind. TSMC verlangt halt immer noch deutlich mehr Kohle als für 40nm, aber es läuft inzwischen ganz passabel.

Skysnake

2012-11-16, 14:31:51

hm.. Naja, schaumer mal. Potenzial nach oben in der Fertigung ist auf jeden FALL noch da. Siehe 14SMX Version K20x <-> 13SMX K20

Btw. ich hab mir mal ein paar Gedanken gemacht. Die Green500 ist ja inzwischen auch drausen ;D

http://extreme.pcgameshardware.de/user-news/246033-wer-hat-den-gruensten-hpc-daumen.html#post4733707

boxleitnerb

2012-11-16, 14:40:39

Man sollte vielleicht auch beachten, dass sowohl das Phi-System als auch das K20X-System mit eher weniger effizienten Opterons laufen (im Vergleich zu den Sandy-Bridge Xeons). Auch weiß man nicht, wofür noch Energie bei den Systemen draufgeht: Speicher (HDDs und RAM), Netzwerkkomponenten, Netzteilwirkungsgrad usw.

Ich würde doch arg bezweifeln, dass das S10000-System unter gleichen Umständen gleich effizient wäre. Nach den Rohdaten dürfte die TDP nur bei 265W liegen - selbst wenn die 375W nicht ausgeschöpft werden, ist das doch sehr optimistisch.

Skysnake

2012-11-16, 15:02:37

Du vergisst aber die 8 S10000 Karten in einer Box, die man gezeigt hat. :biggrin:

Wenn AMD es endlich gebacken bekommen hat, da eine bessere Skalierung zu erreichen, dann können die Dinger ganz interessant werden. Vor allem was den Verbrauch angeht.

Man kann ja ohne Einschränkung 4-5 GPUs in einen Node stecken, wenn man Dual-Sockel-SB-E-Xeons verwendet.

Wobei man da eh XeonPhi auf dem Bildschirm behalten sollte. DA gibts nämlich wirklich richtig Luft nach oben ;D

boxleitnerb

2012-11-16, 15:10:52

Was hat das damit zu tun? Es bleibt die Tatsache, dass die Vergleichbarkeit ganzer Systeme so nicht gegeben ist. Lass es nur 300W Realverbrauch sein, da sind die Dinger immer noch ineffizienter.

Skysnake

2012-11-16, 15:21:42

Du verstehst nicht, worauf ich hinaus will. In den meisten Systemen stellen die Beschleuniger die Hauptrechenpower zur Verfügung. Man nutzt aber meist nur 1-2 Beschleuniger je node. Das ist deutlich weniger als das was eigentlich möglich ist.

Der Witz an obigen Setup ist vor allem, dass das bisher aufgrund von Software eigentlich GAR NICHT ging! Es macht halt schon einen Unterschied, ob man 4 Boxen mit jewelis 2 GPUs hat, oder nur noch eine Box mit 8 GPUs, wobei wie gesagt, sollte man bei 7 bleiben, damit man noch nen NIC mit 40GBit+ dazustecken kann.

Und Vergleichbarkeit ist eh schwierig. Du meintest ja, das die K20x Systeme "nur" Opterons haben. Dafür sind das auch Cray Systeme mit Flüssigkeitskühlung und Gemini Interconnect. Das ist auf der anderen Seite halt auch wieder ein Vorteil, und wie gesagt, die Hauptrechenleistung kommt eh von den Beschleunigern. Da machts dann nicht sooo viel aus, ob da nen Intel oder nen AMD drin werkelt als Host. Ein direkter Vergleich wäre aber trotzdem mal interessant.

Eine gewisse Tendenz ist aber klar ersichtlich. nVidia hat nicht DIE Überlegenheit, die Sie immer suggerierten zu haben...

Es ist halt ein "Kopf-an-Kopf-Rennen", wie ich auch am Schluss nicht ohne Grund schreibe (Fazit).

boxleitnerb

2012-11-16, 15:30:05

john carmack

2012-11-16, 15:43:55

Warum sind Tesla (K20x) Karten so unglaublich teuer?

Sind das nicht am Ende einfache "Kepler" Karten?

Und könnte ich mit denen auch spielen?

Skysnake

2012-11-16, 16:45:30

In die meisten Standardracks wirst du aber tendenziell weniger S10000 als K20(X) oder S9000 reinbekommen wegen Netzteil und Kühlung. Klar kann man sich so ein System mit 4 oder gar 8 S10000 hinstellen, das ist dann aber Custom-Made und damit auch nicht ganz billig.

Woher weißt du, welche Kühlung die Systeme auf Platz 1 und 2 haben? Oder wie energieeffizient (oder ineffizient) der Kram außenherum ist? Oder wie gut die Dämmung der Räume ist usw. Das alles zusammen kann schon viel ausmachen. Ich wäre mit etwaigen Schlussfolgerungen also sehr vorsichtig.

Lesen?

Dies macht natürlich den direkten Vergleich von Systemen noch schwerer. Dennoch wollen wir es nun versuchen, auch wenn wir die Kühlung erst einmal außen vor lassen.
Muss ich es noch ausführlicher schreiben, dass die Kühlung NICHT berücksichtigt wird?
Die Art und Weise wie der Stromverbrauch gemessen werden soll für die Green500 ist btw. eh nen bischen widersprüchlich. Einmal soll alles drin sein, aber dann misst man doch nur den einzelnen Node :freak:

Kann also durchaus sein, dass die Klima nicht mit drin ist. So wirklich aussagekräftig ist da die kurze FAQ nicht. Zumindest nicht für mich.

Gibt aber btw. noch nen zweiten sehr interessanten Plot:

Das Verhalten der FirePro ist da schon SEHR seltsam.

Hübie

2012-11-16, 17:24:25

Du solltest deine Quellen genauer prüfen oder ggf. selber nachfragen bevor du solche Graphen veröffentlichst ;) Vor allem wenn so etwas als News veröffentlicht wird.
Ansonsten Konjunktiv benutzen.

Green500 ist so wie die ADAC-Pannenstatistik und der Euro NCAP Crashtest. Ich sage damit natürlich nicht aus dass du bei PCGH Schwachsinn geschrieben hast ;) Es kann nur niemand überprüfen. Vergiss nie: Die kochen alle nur mit Wasser - Intel, AMD, nVidia und IBM und und und...

In diesem Sinne: Prost und schönes Wochenende Männers. ;D

Skysnake

2012-11-16, 17:26:33

Die Graphen passen schon, nur wie du schon sagst, man hat halt nur eine begrenzte Informationsgrundlage bei den ganzen Daten, was die Sache schwierig macht.

Gerade son Plot wie bei BlueGene/Q ist aber schon recht aussagekräftig. Son rumgezappel wie bei M2090 dagegen eher schwierig ;D

dildo4u

2012-11-16, 17:39:11

NV muss nich überlegen sein die haben ne Jahrelange Basis mit Cuda geschaffen,alle anderen müssten sie weit abhängen um da was abzugraben.

Gipsel

2012-11-16, 18:14:17

Gibt aber btw. noch nen zweiten sehr interessanten Plot:

Das Verhalten der FirePro ist da schon SEHR seltsam.
Wie im FirePro-Thread schon geschrieben (im Edit) (http://www.forum-3dcenter.org/vbulletin/showthread.php?p=9542433#post9542433), ist der Wert für die Peakleistung des FirePro-Systems in der Top500-Liste schlicht falsch. Die Linpack-Effizienz des FirePro-Clusters beträgt 62,4%. Oder welchen FirePro-Cluster hast Du da in der Grafik eingetragen (die Leistungsaufnahme beträgt übrigens nur ~179kW, nicht knapp 2 MW wie in Deiner Grafik)?

Skysnake

2012-11-16, 20:02:00

Hast Recht, ich bin in der Zeile verrutscht -.-

Das ist der richtige Plot.

Ist imPrinzip der Gleiche, nur die Positionierung/Abstände auf der X-Achse waren falsch.

Jetzt sollte es aber stimmen.

Gipsel

2012-11-16, 20:10:47

Hast Recht, ich bin in der Zeile verrutscht -.-

Das ist der richtige Plot.

Ist imPrinzip der Gleiche, nur die Positionierung/Abstände auf der X-Achse waren falsch.
Die Effizienz stimmt wie gesagt auch nicht. Das Teil liegt bei R_max = 421,2 TFLOP/s und R_peak = 674,7 TFLOP/s, einem Stromverbrauch von 179,15kW, die Effizienz beträgt 62,4%. Die Angabe von 1098 TFLOP/s Peak ist schlicht ein Fehler, wie man anhand der Angaben zur Konfiguration in der Pressemeldung der Uni Frankfurt (http://fias.uni-frankfurt.de/press121114.html) nachvollziehen kann. Aber selbst mit den 1098 TFLOP/s Peak wären es auch schon ~38%, nicht nur 23% oder so. In der ersten Version der veröffentlichten Top500-Liste war auch R_max falsch angegeben (da stand zuerst was von 241 TFLOP/s oder so, glaube ich). Das ist inzwischen korrigiert (http://www.top500.org/system/177996), R_peak aber genau wie die Anzahl der Kerne noch nicht. Es sind 3360 CPU-Kerne + 420 S10000 Karten, also 840 GPUs. Die Angabe der 38400 Kerne ist offenbar irgendein ganz abstruser Copy-Paste-Fehler aus den 3360 CPU-Kernen und 840 GPUs, deren Zahl irgendwie in die Mitte gerutscht ist. Und wie die auf die 1,098 PFLOP/s Peakleistung gekommen sind, weiß wohl auch niemand. :freak:
Kurz, der Eintrag war ursprünglich absoluter Schrott, inzwischen stimmen zumindest ein paar Angaben. Vermutlich kamen die bei der Übertragung aus dem Arabischen nicht klar, das schreibt man ja bekanntlich von rechts nach links. :rolleyes:

Edit:
Die haben ja auch eine Excel-Tabelle mit den Werten, und da stehen 33600 "accelerator cores" und 38400 insgesamt drin. Es sind aber tatsächlich 3360 CPU-Kerne (also genau ein Zehntel des Wertes für die Beschleunigerkerne). So wie das üblicherweise angegeben wird (CUs werden als ein Kern betrachtet), müßten das 840*28=23520 sein, zusammen mit den CPU-Kernen also 26880. Die haben wirklich einfach Müll abgeliefert. Keine Ahnung, wie das passieren kann.

Skysnake

2012-11-16, 21:12:15

[strideHalt, das was du meinst, ist der LoeweCES, und der ist da gar nicht aufgeführt![/stride]

Den hab ich, da eben noch die HD5k Serie, gar nicht aufgenommen.

Ansonstne was den FirePro Rechner anbelangt.
Ich hab ja auch gesagt, dass das wahrscheinlich einfach Müll ist, jetzt abgesehen von R_max und dem Verbrauch. Daher bin ich da gar nicht drauf eingegangen. Naja, und R_Peak ist halt so ne Sache, wo ich nicht einschätzen kann, wie falsch/richtig das ist.

Ich wollts nur erwähnt haben. Mal schauen, was die noch korrigieren. Die Daten sind auf jeden Fall aus der Liste, so wie Sie heute nachmittag online war/ist.

EDIT:
Oh, der SANAM steht ja auch in Frankfurt beim Prof. Lindenstruht ;D

LOL! Der hat doch erst nen Cluster/Supercomputer bekommen :ugly:

Ich glaub da muss ich mal ne Mail schreiben ;D

EDIT2:
Also doch 2 S1000 pro Node. Schade, hatte gehofft, das er doch mal mehr bringt, aber sind ja jetzt immerhin 4 "GPUs" pro Node statt 2 wie zuvor.

Ach man -.- ich muss mich echt ran halten... Wollte bei ihm eigentlich meine Diplomarbeit genau in dem Themenkomplex machen -.-

Godmode

2012-11-28, 00:13:15

Immerhin gibts die Karte jetzt schon zu kaufen, leider nicht zum Spiele spielen. ;(
http://www.computerbase.de/news/2012-11/nvidia-tesla-k20-mit-gk110-gpu-im-endkundenhandel/

Skysnake

2012-11-28, 00:59:16

Und auch nur die kleine Version mit beschnittenem SI.

Nightspider

2012-11-28, 01:03:31

Gab es nochmal Angaben zur 28nm Ausbeute in den letzten Wochen?
Oder wird TSMC erst in den nächsten 4 Wochen Gas geben?
Bis zum Jahreswechsel wollte man die Anzahl der ausgelieferten 28nm Wafer ja stark verbessert haben.

Hübie

2012-11-28, 01:07:55

War auch nicht anders zu erwarten. Wenn ich mir die Kommentare auf cb so ansehe... :facepalm: Bisher liegen die im Plan. Im Juni wurde September als Release genannt und Q4 als offenen Marktstart. Das deutet auf ausreichend gute yields hin. Desktop könnte also schon frühes 1. Quartal 2013 sein.

@Nightspider: Ohne jetzt vor Ort gewesen zu sein, aber mittlerweile sollten die neuen Produktionsstrassen anlaufen/laufen. Bis zu 33% mehr Kapazität hab ich im Hinterkopf...

VooDoo7mx

2012-11-28, 01:12:21

Also wenn wir mal annehmen das GTX 780 mit 15 SMX bei 850MHz kommt und die Taktrate finde ich noch relativ konservativ wenn man sich K20X anschaut, dann ist das ja von der GTX 680 doch nen ziemlich ordentlicher Sprung von mindestens 50% mehr. Wenn der 7970 Nachfolger wirklich nur diese 15-20% schneller als der Vorgänger ist, wird NV wohl deutlich vorne liegen.
Vielleicht lässt sich NV auch die Top Consumer SKUs vergolden und GTX 780 gibt es für $699 MSRP so wie damals bei der GTX280.

Nur bei GK104 wurde schon immer gesagt, dass das Speicherinterface zu eng ist, was sich auch gut mit Benchmarks nachweisen lässt.
Nur wie sieht es mit GK110 aus? Ich meine das sind ja immerhin fast doppelt so viele Recheneinheiten aber nur 50% breiteres Speicherinterface. Wenn GK104 an der Bandbreite verhungert, dürfte das Problem beim Gk110 nochmal deutlich schlimmer sein. Wäre da nicht ein 512Bit Interface sinnvoller gewesen?

Felixxz2

2012-11-28, 01:55:13

Die Bandbreitenanforderung steigt doch nicht linear mit der Shaderzahl?

Gipsel

2012-11-28, 01:57:15

Die Bandbreitenanforderung steigt doch nicht linear mit der Shaderzahl?
Wenn die Performance linear damit steigen soll und sich sonst nichts ändert (Frontend und ROPs sollte man natürlich ebenfalls mitskalieren), doch! ;)

Hübie

2012-11-28, 02:44:22

Äh, ja. Wieviel ROPs hatten wir gleich im GK110? 48?

AnarchX

2012-11-28, 08:50:52

Höchstwahrscheinlich schon, genaue Angaben dazu gab es aber noch nicht.

Nightspider

2012-11-28, 09:17:49

Ailuros

2012-11-28, 10:09:11

Höchstwahrscheinlich schon, genaue Angaben dazu gab es aber noch nicht.

Braucht man genaue Angaben dazu wenn sich pro ROP partition bei GK10x nichts geaendert hat? Bei 8 ROPs/partition * 6 = 48 ROPs.

Das einzige was noch irgendwie im Zweifel liegt ist die Anzahl der GPCs; afaik sind es 5; im Gegenfall dann eben 6.

Skysnake

2012-11-28, 10:15:20

Solange es nicht genau die gleiche architektur ist steigt der Bandbreitenbedarf nicht linear.
Ich denke das NV die Bandbreitennutzung optimiert haben wird beim großen GK110.

Ich habe nur Angst, das man mit dem GK110 auch bei 4K Auflösungen oder gar schon bei 1800p an sein limit stoßen wird.
So eine Karte käme mir nur für Downsampling oder 4K Monitore ins Haus.
An der Architektur ändert sich aber im Grunde nichts. Sie wird nur aufgeblasen und eben die DP-Fähigkeit verbessert, aber das hat nichts mit dem Datanmanagement zu tun.

Der einzige Unterschied ist der größere L2 Cache. Und da ist es halt so, wie es immer mit Caches ist. Wenn du keine Cachingeffekte hast, dann nutzt dir auch der größte Cache nichts.

Ailuros

2012-11-30, 06:38:03

An der Architektur ändert sich aber im Grunde nichts. Sie wird nur aufgeblasen und eben die DP-Fähigkeit verbessert, aber das hat nichts mit dem Datanmanagement zu tun.

Der einzige Unterschied ist der größere L2 Cache. Und da ist es halt so, wie es immer mit Caches ist. Wenn du keine Cachingeffekte hast, dann nutzt dir auch der größte Cache nichts.

http://www.nvidia.com/content/PDF/kepler/NVIDIA-Kepler-GK110-Architecture-Whitepaper.pdf

Seite 7: GF1xx und GK104 haben alle 63 max registers/thread gegen 255 max registers/thread in GK110 u.a. Ergo ist der einzige Unterschied eben nicht nur im Bereich L2 (Seite 11).

Hübie

2012-11-30, 07:38:11

Dazu kommen mehr SFU/SM(x) quad warp scheduler, DP-Insturktionen zu kombinieren usw. - also im Detail kann man sicher eine Menge Veränderungen finden.
Im Grunde genommen ist es aber erst dann etwas wert wenn die Software dazu passt. Hab selber gesehen wie dadurch die Effizienz noch mal um mehr als 10% gesteigert werden konnte. Wichtig ist ja nun auch die interne Bandbreite sowie die Assoziativität.

Ailuros

2012-11-30, 07:56:49

Im Grund hat Skysnake schon teilweise recht dass GK110 auf der exakt gleichen Architektur basiert. Ob man jetzt GK110 als aufgeblasene GK10x ansehen will oder GK10x als abgespeckte GK110 ist eher eine Angelegenheit der Perspektive ob das Glas jetzt halbvoll oder halbleer ist.

Skysnake

2012-11-30, 10:44:29

Danke,

aber das ist mir VÖLLIG neu, dass der GK104 auch "nur" 63 Register maximal pro Thread nutzen kann :ugly: Ich war da immer der felsen festen Überzeugung, dass der auch schon die 255 kann :ugly:

Da muss ich ehrlich immer unbewusst drüber gelesen haben, denn das Registerfile ist ja angewachsen, und man kann ja jetzt auch endlich die 32kB Partition zwischen L1/Shared nutzen.

Für die Programmierer natürlich ein Nachteil, das man nur maximal 63 Register/Thread nutzen kann, aber keine sooo gravierende Änderung im Allgemeinen.

Deine Analogie ist aber passend :up:

Hübie

2012-11-30, 20:46:03

Deshalb erstaunt mich Gipsel immer wieder. Der weiß dass alles aus dem Kopf. Ich muss immer und immer wieder nachsehen - nicht das ich dann mal wieder Quark schreibe ;D

Ailuros

2012-12-02, 10:54:15

Deshalb erstaunt mich Gipsel immer wieder. Der weiß dass alles aus dem Kopf. Ich muss immer und immer wieder nachsehen - nicht das ich dann mal wieder Quark schreibe ;D

Gipsel bedankt sich wohl :biggrin:

BigKid

2012-12-03, 14:25:18

Mal ne ernst gemeinte Frage:
Ich frage mich ob GK110 überhaupt noch als Gamer-Karte kommt.
Ich meine irgendwo sollte ja auch ein Refresh von GK104 mal zeitnah kommen...

Ist denn für beide überhaupt Platz ?

Auf der Hauptseite wird ja dieses Gedankenspiel gemacht:
GK114 für GTX760 und drunter...
Und GK110 für GTX770 und 780 ...

Das mag als Gedankenspiel ja Sinn machen... Abaer ich als Laie frag mich:
Ich würde ja von GK114 die 1.5x Leistung des Vorgängers erwarten... War doch grob bisher immer so - oder ?
Wenn GK110 laut Eingangspost 50% Mehrleistung bringen soll als GK104 - öhm... Dann hat er doch nix gekonnt... Weshalb sollte man ihn dann überhaupt in den Desktop Markt bringen ? Nur weil man es kann ? GK104 hat sich doch auch im HighEnd gut verlauft - warum sollte ich da nen schwerer zu fabrizierenden Chip bringen, wenn ich mit dem im Tesla bereich mehr Kohle scheffeln kann ?

Also unter den Vorzeichen frag ich mich halt ob für GK110 und GK104 refresh überhaupt Platz ist...

boxleitnerb

2012-12-03, 14:27:14

BigKid

2012-12-03, 14:41:34

GK114 würde 10-15% mehr Leistung bringen wie eine GTX680. GK110 bis zu 50% mehr. Da bleibt genug Platz für eine 770 und 780 auf GK110-Basis, die von der schnellsten GK114-Karte und voneinander jeweils ca. 15-20% entfernt sind. Das würde dann ja prima passen.

Hmm... Ja ok... Beim Refresh von Kepler hat man auch "nur" 15-20% zugelegt... Stimmt... Dass heisst aber auch - für einen Refresh könnte eine untypisch hohe Leistungssteigerung auf uns zukommen ?

Wird also echt spannend wie sich NV da aufstellt...

Sagen wir mal GK114 legt 20% zu und rutscht gleichzeitig in die GTX660...
Dann könnte die GTX760 einen deutlichen Sprung machen... Bis hin zu 1.5x zur GTX660ti und somit fast mehr als ne aktuelle GTX680 ...

Die GTX780 müsste dann aber auch ihrerseits 1.5x zur GTX680 machen sonst lohnt sich das doch alles nicht...

Das könnte für nen Refresh spannend werden...
Ich sag nicht dass sie das tun - aber ich habe das Gefühl sie KÖNNTEN es tun...
Warscheinlicher ist allerdings, dass sie den GK114 wieder "einbremsen" so wie sie es damals mit dem GF104 in der GTX460 gemacht haben um nicht zu nahe an GF100 zu rutschen... Und dank der neuen Spassbremse beim Übertakten haben sie auch gleich nen Abstandhalter zur Hand... Ob es also möglich wird mit ner GTX760 auf Max OC ne GTX770 zu schlagen wie damals mit der GTX460 ist fraglisch...

boxleitnerb

2012-12-03, 14:52:07

BigKid

2012-12-03, 14:59:26

GK110 ist ja kein Refresh von einem bisherigen Chip, sondern "lediglich" der Maximalausbau, den es eben vorher nicht gab. Eine Situation also, die vorher meines Wissens nach noch nie da war.

Es könnte so kommen:

GTX780 = GK110 = GTX680*150%
GTX770 = GK110 = GTX680*135%
GTX760 Ti = GK114 = GTX680*115%
GTX760 = GK114 = GTX680*100%

GK114 kann, sofern es nur eine kleine Weiterentwicklung von GK104 ist, gar nicht an GK110 heranreichen, da muss nichts gebremst werden. GK110 wird ca. 50% mehr Bandbreite, Texturierleistung und Rechenleistung haben wie GK104. Da kommt der Abstand von ganz allein.

Vermutlich hast du recht, die Situation bei Kepler war so gesehen halt auch einmalig und wird sich nicht wiederholen... Die GTX470/480 hatte halt echte Probleme, die man bei der GTX460 ausgeräumt hatte... Trotzdem macht der GK114 von unten gewaltig druck... Da muss GK110 tatächlich gut was bringen...

boxleitnerb

2012-12-03, 15:04:42

LSSJBroly

2012-12-03, 15:09:46

Trotzdem macht der GK114 von unten gewaltig druck...

Finde ich so gar nicht. Auch wenn man den GK104 jetzt z.B. 1920 Shader gegeben hätte, also 25% mehr, bei der Reinen Gaming-Performance kämen aber wohl meistens nur rund 10% raus. Das keine 256bit SI bremst halt zu stark. Allein durch 50% mehr Speicherbandbreite sollte es in Games bei gleicher Rechenleistung rund 15 bis 20% mehr Performance bringen (stark Gameabhängig). Und bei 2688 Shader eines 14SMX GK110 hätten wir schon rund 75% mehr Rechenleistung + 50% mehr Bandbreite...
Auch ein extrem aufgebohrter GK104 könnte niemals an einen GK110 rankommen. In extremen Situationen dürfte GK110 wohl auch in die Gefilde einer GTX 690 stoßen.

BigKid

2012-12-03, 15:12:10

Die wird sich ziemlich sicher wiederholen, denn bei 20nm wirds nicht besser. Ich fürchte, Nvidia wird ab sofort immer nur (vergleichsweise) kleine Brötchen backen zu Beginn. Vielleicht gibts nächstes Mal ein breiteres Interface oder sowas, aber ein 500mm2 Die werden wir nie mehr zu Beginn eines neuen Fertigungsprozesses sehen, jedenfalls nicht mit bestehender Technologie auf Siliziumbasis.
Ja und nein... Damit das NV den GK100 übersprungen hat vermeiden sie das Problem nen kleineren "refresh" am Hals zu haben, der mehr leisten kann wenn man ihn läßt... UND sie haben dazu jetzt noch ne Übertaktungsbremse... Ich glaube also nicht dass sowas wie GTX460 schlägt GTX470 nochmal "real" zustande kommt... Das meinte ich mit "auch einmalig"...

Finde ich so gar nicht. Auch wenn man den GK104 jetzt z.B. 1920 Shader gegeben hätte, also 25% mehr, bei der Reinen Gaming-Performance kämen aber wohl meistens nur rund 10% raus. Das keine 256bit SI bremst halt zu stark. Allein durch 50% mehr Speicherbandbreite sollte es in Games bei gleicher Rechenleistung rund 15 bis 20% mehr Performance bringen (stark Gameabhängig). Und bei 2688 Shader eines 14SMX GK110 hätten wir schon rund 75% mehr Rechenleistung + 50% mehr Bandbreite...
Auch ein extrem aufgebohrter GK104 könnte niemals an einen GK110 rankommen. In extremen Situationen dürfte GK110 wohl auch in die Gefilde einer GTX 690 stoßen.
Du zäumst deine Überlegungen halt anders herum auf als ich... Ich schaue zurück und sehe, dass ein Refresh-Chip bisher immer 15-20% Mehrleistung brachte. Wie sie das machen ist mir wurscht - geschafft haben sie es immer. Es geht mir aber letzlich nur darum was sie tun KÖNNTEN. Eventuell lehnen sie sich ja auch zurück und GK114 bringt nüscht - reicht ja schon wenn die GTX680 Leistung in die GTX760ti rutscht...

Aber jeder der Ahnung hat wird wissen, dass nicht weniger als GTX680 Leistung in der GTX760 für "lau" möglich ist. Bei einem Refresh sollte es sogar mehr sein.
GK110 MUSS also eigentlich 1.5x GTX680 Leistung bringen um sich von dem absetzen zu können - das meine ich mit "Druck" machen. Die Messlatte liegt. Wenn sie weniger bringen dürfte das die Fachpresse ziemlich "lahm" finden...

Am Ende könnte also nicht weniger ein Leistungssprung von 1.5x auf uns zukommen.

boxleitnerb

2012-12-03, 15:14:47

Ailuros

2012-12-03, 15:22:50

Nvidia hat den GK100 übersprungen, weil man ihn nicht hätte herstellen können. Das ist imo der einzige Grund. Ailuros hat doch gemeint, im September GK110 im Desktop zu bringen wäre von den Chipkosten her nicht machbar gewesen. Ein halbes Jahr vorher erst recht nicht ;)

Es gab keinen GK100. Bevor TSMC 32nm stornierte war von AMD Cayman und von NV ein "hybrider" Fermi refresh (Fermi uncore + Kepler ALUs) unter 32nm geplant. TSMC stornierte 32nm NV wusste dass sie mit GF110 gerade noch konkurrenzfaehig sein werden und das 32nm Projekt wurde storniert. Der codename interessiert zwar keinen aber er hat mit "GF" angefangen ergo nix mit GK100.

boxleitnerb

2012-12-03, 15:31:00

Jo ich hätte "den großen Chip" schreiben sollen. Ob du den jetzt GK100 oder GK110 nennst, ist ja erstmal nicht sooo wichtig, oder? Namen sind Schall und Rauch ;)

Ailuros

2012-12-03, 15:37:14

Jo ich hätte "den großen Chip" schreiben sollen. Ob du den jetzt GK100 oder GK110 nennst, ist ja erstmal nicht sooo wichtig, oder? Namen sind Schall und Rauch ;)

Generell schon, aber da schon seit einer Ewigkeit das alberne Geruecht kursiert dass NV einen angeblichen "GK100" stornierte und deshalb GK110 spaeter ankam als die kleineren Kepler chips, bin ich etwas allergisch gegen das Zeug geworden. NV hat Kepler von Anfang an so geplant dass der performance chip sprich GK104 als erster im desktop erscheint und der top dog dann erst wenn er wirtschaftlich herstellbar ist.

LSSJBroly

2012-12-03, 15:40:39

Aber jeder der Ahnung hat wird wissen, dass nicht weniger als GTX680 Leistung in der GTX760 für "lau" möglich ist. Bei einem Refresh sollte es sogar mehr sein.

Dazu habe ich ja auch nichts gesagt ;) Ich würde das in etwa so wie boxleitnerb sehen:
GK104 - GTX 670 - GTX 760 ~0%
GK104 - GTX 680 - GTX 760 Ti +10%
GK110 - GTX 680 - GTX 770 +30%
GK110 - GTX 680 - GTX 780 +50%

Ich denke, es wäre gar nicht mal so schlecht, wenn zwischen den Grakas etwas mehr Platz wäre. Bsp. GTX 680 und GTX 670. Die 10% Mehrleistung der GTX 680 sind einfach zu wenig im Verhältnis zu den rund 30% höeren Preis. Bei der HD 7950 und HD 7970 sind ebenfalls rund 20% gewesen, wie auch bei der GTX 480 und der 470.

So hätte man dann auch in dem Fall mit der GTX 770 die Radeon HD 8970 gut im Griff, wenn diese nur rund 15-20% auf die HD 7970 GHz Ed. drauflegt.

Hübie

2012-12-04, 10:35:18

boxleitnerb

2012-12-04, 10:38:53

Wann kann man denn endlich mit konkreten Leaks rechnen, die nicht der Silly Season zuzuordnen sind (gerne auch bzgl. HD8000)? Ich mein die Daten sind ja schon mehr oder weniger klar, aber irgendwas bzgl. Releasetermin, TDP oder eben wieviele SMX es jetzt wirklich werden.

VooDoo7mx

2012-12-04, 11:01:08

ich tippe doch mal eher darauf, dass GK104 refresh GK204 benannt wird. 15% gesteigerte IPC und fertig. GTX760/Ti könnte man dass dann nennen. Top dog werden GK110 aka GTX 770/780 mit entweder 14/15 oder 13/14 SMx. Der liegt dann genau zwischen GTX680 & 690. So würde sich imo ein rundes Bild ergeben.
15% gesteigerte IPC sind ausgemachter Schwachsinn. Bestenfalls wird es einen Respin mit minimalsten Veränderungen geben. WIe bei GF104 auf GF114.

Bei gleicher Taktfrequenz für Chip und Speicher hat GK110 87,5% mehr Rechen/Pixel/Texturing Leistung und 50% mehr Bandbreite zur GTX680. Je nach Situation und Taktfrequenz könnte da sogar mehr als 50% rausspringen.
Von K20X ausgehend sollte bei Taktfrequenzen bei 300W TDP genügend Luft für ordentlich Takt. Hoffentlich packt NV noch ordentlich schnellen Speicher drauf. Gibt es überhaupt 7gbps GDDR5 oder gar noch schneller lieferbar?
Ich vermute immer noch das GK110 an Bandbreite verhungern wird.

boxleitnerb

2012-12-04, 11:03:48

Der Chip wird schon teuer genug, glaub nicht, dass sie schnelleren Speicher als 6 Gbps nehmen, zumal der bei 7 Gbps nicht nur teuer, sondern vermutlich auch stromhungrig ist bei 3 GB. 300W TDP auch eher nicht, denn schätzungsweise irgendwo bei 850-900 MHz wird die Energieeffizienz den Bach runter gehen. Und man will die Binning-Yields sicher auch nicht vollkommen versauen. 250W ist denke ich realistisch.

AnarchX

2012-12-04, 11:10:53

Verdoppelt man die Leistung der GTX 660 Ti (3GiB) (http://www.computerbase.de/artikel/grafikkarten/2012/test-nvidia-geforce-gtx-660-ti/7/), kommt man etwa bei GTX 680 1,6x heraus. 2x GTX 660 Ti dürfte etwa der Rohleistung der eines Top-GK110 entsprechen.

Fraglich nur ob GK110 überhaupt so hoch taktet/boostet, weiterhin hat man wohl keine 8/7 GPCs (bzw. Tess/Geo-Leistung) wie die Doppel-660Ti und ebenso skalieren die großen Chips nicht perfekt.
Mit 50% gegenüber der GTX 680 könnte man wohl schon sehr zufrieden sein.

Hübie

2012-12-04, 12:26:31

15% gesteigerte IPC sind ausgemachter Schwachsinn. Bestenfalls wird es einen Respin mit minimalsten Veränderungen geben. WIe bei GF104 auf GF114.

Bei gleicher Taktfrequenz für Chip und Speicher hat GK110 87,5% mehr Rechen/Pixel/Texturing Leistung und 50% mehr Bandbreite zur GTX680. Je nach Situation und Taktfrequenz könnte da sogar mehr als 50% rausspringen.
Von K20X ausgehend sollte bei Taktfrequenzen bei 300W TDP genügend Luft für ordentlich Takt. Hoffentlich packt NV noch ordentlich schnellen Speicher drauf. Gibt es überhaupt 7gbps GDDR5 oder gar noch schneller lieferbar?
Ich vermute immer noch das GK110 an Bandbreite verhungern wird.

Wenn du ein paar mehr ALUs reinpackst und etwas optimierst hast du die 15% schnell erreicht. Keine Ahnung warum du dass so leichtfertig als ausgemachten Schwachsinn siehst. Das ist nun wirklich keine Kunst.

AnarchX

2012-12-04, 12:37:15

2 zusätzliche SMX einfügen, den Die etwas in die Breite ziehen und man kommt wohl bei einem GF114/104-großen Chip heraus. Auf dem Papier hätte man 25% mehr ALU/Tex-Leistung.

boxleitnerb

2012-12-04, 12:39:31

Der Takt und die Leistungsaufnahme sollten aber sinken, um wieder auf GTX460/560 Ti-Niveau zu kommen (124-150W, die 680 hat 169W im Schnitt):
http://www.3dcenter.org/artikel/eine-neubetrachtung-des-grafikkarten-stromverbrauchs

Skysnake

2012-12-04, 13:01:10

Bei dem ALU Vorteil von GK110 sollte man aber nicht vergessen, das man eben prozentual auch weniger Bandbreite pro ALU hat.

Zudem taktet GK110 sehr sehr sehr sicher niedriger als GK104. Und es wird wohl auch nur ne 13/14 SMX Version geben. Also bitte immer auf dem Boden bleiben.

Die Leistungsaufnahme soll ja auch nicht wieder explodieren.

Gipsel

2012-12-04, 13:19:49

ich tippe doch mal eher darauf, dass GK104 refresh GK204 benannt wird. 15% gesteigerte IPC und fertig.15% gesteigerte IPC sind ausgemachter Schwachsinn.Ich würde sagen, die Betrachtung von IPC macht bei GPUs nicht den gleichen Sinn wie bei CPUs. IPC pro was? Der gesamten GPU, pro SMx, pro ALU, pro Thread (Warp)? Und dann ist es bei GPUs sehr einfach, zugunsten anderer Vorteile darauf zu verzichten. Was brächte es z.B., die vier dual-Issue Scheduler Keplers durch zwei Quad-Issue-Scheduler zu ersetzen? Es ist aufwendiger, erhöht die IPC für jeden Thread deutlich und trotzdem wäre der Durchsatz eines solchen SMx geringer. Es ist also einfach nicht klar, was man mit gesteigerter IPC überhaupt meint.

Man sollte also eher an konkrete Änderungen denken, als pauschal von der IPC zu reden. Dies könnten z.B. identische Latenzen für alle (bzw. mehr) Befehle sein. Das erleichtert das Scheduling Keplers und erhöht insbesondere für gemischten Code den Durchsatz etwas (Integer- und FP-Befehle haben leicht unterschiedliche Latenzen, benutzen aber offenbar z.T. gemeinsame Pipelinestages, die Vermeidung von Konflikten kostet etwas Durchsatz). Was Einfacheres wäre die Erhöhung der maximalen Zahl der Warps pro SMx (zusammen mit Vergrößerung der Register und des local memory), wodurch Latenzen besser versteckt werden können (insbesondere für Threads mit hohen Anforderungen an Registerzahl oder Menge des lokalen Speichers).

Hübie

2012-12-04, 13:46:52

Hätte vielleicht auch einfach das Wort Rechenleistung nehmen sollen. Das ist unmissverständlicher. Ich meinte in dem Fall die IPC/GPU. Na ja niemand kann eben Gedanken des anderen lesen.
Was du ansprichst sind die damals kommunizierten "Optimizations in data movement compared to Fermi". Gruppierung von Instruktionen und größere Register sind wohl zwei dieser Optimierungen, aber du steckst da viel mehr in der Materie und müsstest mir eher einige Dinge erklären als ich dir also spar ich mir den Rest ;D
Edit: Würde eine Erhöhung der Warp-Anzahl den Verbrauch nicht ungünstig erhöhen (Stichworte: Perfomance pro Watt)

AnarchX

2012-12-04, 13:51:33

Auf jeden Fall scheint Nvidia an einem Computing Feature-Set zu arbeiten, welches sich von GK110 und GK104 unterscheidet, bzw. dazwischen angesiedelt ist: http://www.forum-3dcenter.org/vbulletin/showthread.php?p=9548184#post9548184

Vielleicht fällt da auch bei gleicher Rohleistung etwas mehr Endleistung ab.

BigKid

2012-12-04, 13:59:44

Wenn man das Pferd mal anders herum aufzäumt und nicht von dem ausgeht was technisch machbar und sinnvoll ist sondern mal eher nur ans Geld denkt (tun Firmen je was anderes ?) und an die "Zwänge" und Erwartungen des Marktes:

Ein Refresh hat meist soviel Mehrleistung wie gebraucht wird. Irgendwie kriegt man das schon hin - mehr Takt, breiter, ... In letzter Zeit waren es meistens um die 15-20%.

Die Frage ist also - macht es für NV Sinn einen GK114 (oder GK204) zu bringen der nochmal Leistung drauf packt ? Imho nicht weil er den GK110 von unten her unter Zugzwang bringt...

Angenommen ich würde hören dass NV jetzt den GK110 bringt für GTX780 und GTX770 (ist ja ne valide Annahme) und GK104 oder refresh kommt in die GTX760ti und kleiner. Dann wäre ich bei der GTX760ti von weniger als GTX680 Leistung enttäuscht und die Fachpresse doch auch - denn das hätten sie Quasi zum Nulltarif hinbekommen können (Denkfehler ? Yields ?).

Der GK110 muss sich also auf jeden Fall von GK104 (oder Refresh) absetzen... Mit einem Refresh von GK104 dass hier nochmal Leistung draufpackt würden sie sich doch nur noch mehr Druck machen - warum da also Kohle reinstecken ? Wenn Refresh dann doch eher mit dem Fokus irgendwie die Yields zu erhöhen ?

Wenn das alles so kommt kann sich IMHO GK110 in der GTX770 gar nicht weniger als 15-20% mehr Leistung erlauben und in der GTX780 50% (gemessen an GTX680/GK104).

Ich glaube einfach NV ist hier diesmal in der komfortablen Situation viele Möglichkeiten zu haben - vieles scheint machbar - GK114/204 mit 15-20% Mehleistung scheint auch möglich - aber wirds gebraucht ? GK110 mit 50% Mehrleistung (oder mehr ?) scheint auch drinn zu sein... Die Frage für NV ist IMHO wie holt man das Maximum raus...

Von den Gedankenspielen ausgehend - was spricht gegen:
GK110 nur in der GTX780
GK204/GK114 ab GTX770 und abwärts...

oder gar kein GK104 refresh und
sonst wie bereits oben von anderen vermutet

Oder mal ganz weit aus dem Fenster gelehnt:
Wer sagt und dass GK110 überhaupt im Gaming bereich kommt ?
Wenn man aus GK204/114 eventuell 15-20% rausquetschen könnte (breiteres Speicherinterface ?) - bräucht es dann den GK110 im Gamimgbereich überhaupt (für Nvidia) ?

*GK204/GK114 sind für mich schlicht refreshes des GK104 egal wie die nachher heissen mögen...

Nightspider

2012-12-04, 14:25:05

Ist unter hoher DX11 Last, also viel Tessellation, auch nur ein 50%iger Sprung beim GK110 zu erwarten?
Die GTX680 war da ja kaum schneller als eine GTX580.

BigKid

2012-12-04, 14:29:56

Ist unter hoher DX11 Last, also viel Tessellation, auch nur ein 50%iger Sprung beim GK110 zu erwarten?
Die GTX680 war da ja kaum schneller als eine GTX580.
Würde ich als Laie jetzt mal schwer vermuten... Sollte nicht genau da die Stärke von GK110 liegen ? PhysX, Tesselation und ComputeShader sind doch die Sachen (GPGPU) bei denen bei GK104 gespart wurde wenn ich das richtig verstanden habe und weshalb alle gesagt haben GK104 ist eigentlich ein Mainstream und kein Enthusiast Chip... Deshalb ist der Sprung von GTX580 zur GTX680 nicht so groß geworden - genau diese "Schwächen" sollte jetzt aber GK110 eigentlich nicht mehr haben - oder doch ?

LSSJBroly

2012-12-04, 15:24:08

Wer sagt und dass GK110 überhaupt im Gaming bereich kommt ?
Wenn man aus GK204/114 eventuell 15-20% rausquetschen könnte (breiteres Speicherinterface ?) - bräucht es dann den GK110 im Gamimgbereich überhaupt (für Nvidia) ?

Natürlich noch gar keiner. Aber bisher kam jeder Chip auch im Desktopbereich (soweit ich weiß).

Und wieso man den GK110 im Desktop bringen sollte? Lieg das nicht auf der Hand? Der Chip ist fertig, kann mit ein paar optimierungen noch etwas verbessert werden. Einen GK114 oder 204, ist egal wie der nun heißen will, mit mehr SMX und einem größeren SI müsste wieder neu entwickelt werden ->mehr Kosten. Da liegt das eigentlich auf der Hand, was man auswählt (falls die Fertigung gut läuft)
Und mit 20% mehr Performance zur GTX 680 wird man AMD sicherlich nicht schlagen können, dafür ist GCN einfach zu stark (allein dank der hohen Rechenleistung und des 384Bit SI.

Von den Gedankenspielen ausgehend - was spricht gegen:
GK110 nur in der GTX780
GK204/GK114 ab GTX770 und abwärts...
Eigentlich nur, dass die GTX 780 entweder deutlich langsamer als erwartet wird, oder dass ein GK104/114/204 zu stark wird. Wobei man das schon wieder ausschschließen kann, da man den Chip deutlich verändern müsste, damit man z.B. 30% mehr Performance bei weiterhin niedrigen Verbrauch hätte. Mit Mehr Takt ist das eigentlich sogut wie kaum zu erreichen.

Ailuros

2012-12-04, 16:32:05

NV braucht einen GK104 Nachfolger um teilweise mit Sea Islands zu konkurrieren. Sonst waere es wiederrum auch wieder Bloedsinn wenn sie GK110 desktop waferruns einsetzen und dann nur 15 SMX chips davon benutzen.

Mehr als 15-20% fuer den 104 Nachfolger sehe ich persoenlich nicht; wenn es stimmen sollte und es steht nichts einer 15SMX SKU im Weg, dann platziert sich dieser ziemlich gut unter dem GK110 salvage part.

Hübie

2012-12-04, 17:10:28

Also ausgehend von Erkenntnissen mit K20x kann ich klar sagen dass GK110 zwei GF110 ersetzt und dabei energiesparender zu Werke geht. Daran kann man sich recht gut orientieren, wobei es im gaming-Bereich da problematischer ist. Da man aber auch mit K20x visualisieren kann ist das umgemünzt nicht verkehrt wenn ich sage dass die GTX 780 recht genau zwischen der 680 und 690 ankommt - mit Tendenz zur 690. Allerdings werden im Profi-Bereich keine popeligen FullHD-Monitore eingesetzt ;D
Und hört auf mit den Prozenten. 152% gibt es einfach nicht da die 100 immer die Gesamtmenge darstellt und daraus eine Teilmenge reduziert wird :P

boxleitnerb

2012-12-04, 17:16:53

Ich hoffe, du nimmst da auch eine SLI-Skalierung von 90-95% an.
Dass ein GK110 weniger schluckt als zwei GF110 sollte jetzt keine solche Überraschung sein :freak:

BigKid

2012-12-05, 08:50:06

Natürlich noch gar keiner. Aber bisher kam jeder Chip auch im Desktopbereich (soweit ich weiß).

Und wieso man den GK110 im Desktop bringen sollte? Lieg das nicht auf der Hand? Der Chip ist fertig, kann mit ein paar optimierungen noch etwas verbessert werden. Einen GK114 oder 204, ist egal wie der nun heißen will, mit mehr SMX und einem größeren SI müsste wieder neu entwickelt werden ->mehr Kosten. Da liegt das eigentlich auf der Hand, was man auswählt (falls die Fertigung gut läuft)
Und mit 20% mehr Performance zur GTX 680 wird man AMD sicherlich nicht schlagen können, dafür ist GCN einfach zu stark (allein dank der hohen Rechenleistung und des 384Bit SI.

Verzeiht mir wenn ich das nur High-Level betrachten kann (aber hier ist ja das Spekulations-Forum):
Z.B. weil der GK110 ein Monster-Chip ist der schwer zu produzieren ist (oder zumindest schwerer als der GK104/Refresh) ? Und die Paar, die funktionieren verkauft man dann lieber als Teslas ?
Oder weil der GK104/Refresh evtl. wieder stark genug ist um im Dekstopbereich an der Spitze zu bleiben ? Die Performancekrone im Gaming Sektor braucht man doch eh nur aus Imagegründen - oder ?

Eigentlich nur, dass die GTX 780 entweder deutlich langsamer als erwartet wird, oder dass ein GK104/114/204 zu stark wird. Wobei man das schon wieder ausschschließen kann, da man den Chip deutlich verändern müsste, damit man z.B. 30% mehr Performance bei weiterhin niedrigen Verbrauch hätte. Mit Mehr Takt ist das eigentlich sogut wie kaum zu erreichen.
Auch hier wieder - Achtung: Laie... Aber wie aufwändig ist es dem Chip ein breiteres/bzw. schnelleres Speicherinterfacezu geben und ihn etwas breiter (mehr Einheiten) zu machen ? Dann noch ein paar kleinere Optimierungen und voila... Mehr als 15-20% mehr gab es bei einem Refresh in letzter Zeit eh selten...

AnarchX

2012-12-05, 09:06:15

Tahiti zeigt ja, dass man für einen ~250W 384-Bit@6Gbps+ Chip etwa 360mm² an Die-Size benötigt, um die nötige Fläche für die Pads zu erreichen.

Geht Nvidia nur auf knapp 200W und 320-Bit könnte man wohl unter 350mm² auskommen. Mit 7Gbps GDDR5 hätte man 30-40% mehr Bandbreite gegenüber der GTX 680.

Ailuros

2012-12-05, 09:52:39

Verzeiht mir wenn ich das nur High-Level betrachten kann (aber hier ist ja das Spekulations-Forum):
Z.B. weil der GK110 ein Monster-Chip ist der schwer zu produzieren ist (oder zumindest schwerer als der GK104/Refresh) ? Und die Paar, die funktionieren verkauft man dann lieber als Teslas ?
Oder weil der GK104/Refresh evtl. wieder stark genug ist um im Dekstopbereich an der Spitze zu bleiben ? Die Performancekrone im Gaming Sektor braucht man doch eh nur aus Imagegründen - oder ?

GK110 ist ein sehr teurer Projekt weil es ein sehr grosser und sehr komplizierter chip ist; es gibt bis jetzt keine Indizien dass die Profi-Maerkte (Quadro/Tesla) allein von sich selber die R&D Kosten von diesem decken koennen. Die Margen sind zwar sehr gross, aber die Volumen immer noch ziemlich klein.

Wenn sie high end jetzt nicht mit GK110 bedienen wuerden im desktop, muessten sie noch einen zusaetzlichen chip ueber dem GK104 Nachfolger entwickeln muessen um mit Sea Islands zu konkurrieren. In dem Fall hat man ein Loch in R&D Kosten oben und noch etliche dutzend $Mio fuer eine zusaetzliche chip-Entwicklung. Wirtschaftlich gesehen waere die Masche totaler Bloedsinn.

WENN es irgendwann mal so weit kommen koennte dass Profi-Maerkte auch alle Kosten eines high end chips decken koennen, werden sie auch wohl an getrennte Entwicklung denken. Wenn es ueberhaupt so weit kommt, denn sobald NV mit SoCs und Denver CPUs antanzt sind es schon wieder andere Konstanten.

Auch hier wieder - Achtung: Laie... Aber wie aufwändig ist es dem Chip ein breiteres/bzw. schnelleres Speicherinterfacezu geben und ihn etwas breiter (mehr Einheiten) zu machen ? Dann noch ein paar kleinere Optimierungen und voila... Mehr als 15-20% mehr gab es bei einem Refresh in letzter Zeit eh selten...

Nach aller Wahrscheinlichkeit hat der GK104 Nachfolger ein paar Prozess-bedingte Optimierungen um Sachen wie Packdichte bzw. Stromverbrauch minimal zu verbessern oder einfacher Massnahmen um einen ca. 15-20% schnelleren chip zu bekommen als GK104. Alles darueber wird dann mit GK110 und dessen salvage part bedient. Und nein mit nur mehr Bandbreite und mehr Einheiten erreichen sie GK110 Leistung eben nicht auf der GK104 Schiene.

BigKid

2012-12-05, 10:07:23

GK110 ist ein sehr teurer Projekt weil es ein sehr grosser und sehr komplizierter chip ist; es gibt bis jetzt keine Indizien dass die Profi-Maerkte (Quadro/Tesla) allein von sich selber die R&D Kosten von diesem decken koennen. Die Margen sind zwar sehr gross, aber die Volumen immer noch ziemlich klein.

Wenn sie high end jetzt nicht mit GK110 bedienen wuerden im desktop, muessten sie noch einen zusaetzlichen chip ueber dem GK104 Nachfolger entwickeln muessen um mit Sea Islands zu konkurrieren. In dem Fall hat man ein Loch in R&D Kosten oben und noch etliche dutzend $Mio fuer eine zusaetzliche chip-Entwicklung. Wirtschaftlich gesehen waere die Masche totaler Bloedsinn.

Ok. Also meinst du die Entwicklungskosten für GK110 sind so hoch und die Synergieeffekte mit GK104 zu gering um nur über Tesla richtig Gewinn zu machen. Sie brauchen also den Desktop Markt um über die Masse trotz deutlich geringerer Marge die Kohle reinzuholen. Aber wie stark sind die Anzeichen, dass GK110 tatsächlich so wenig mit GK104 gemein hat, dass hier die Synergieeffekte nicht ausreichen ?

WENN es irgendwann mal so weit kommen koennte dass Profi-Maerkte auch alle Kosten eines high end chips decken koennen, werden sie auch wohl an getrennte Entwicklung denken. Wenn es ueberhaupt so weit kommt, denn sobald NV mit SoCs und Denver CPUs antanzt sind es schon wieder andere Konstanten.

Dazu kann ich nichts beisteuern.

Nach aller Wahrscheinlichkeit hat der GK104 Nachfolger ein paar Prozess-bedingte Optimierungen um Sachen wie Packdichte bzw. Stromverbrauch minimal zu verbessern oder einfacher Massnahmen um einen ca. 15-20% schnelleren chip zu bekommen als GK104. Alles darueber wird dann mit GK110 und dessen salvage part bedient. Und nein mit nur mehr Bandbreite und mehr Einheiten erreichen sie GK110 Leistung eben nicht auf der GK104 Schiene.
GK110 Leistung müssen sie ja auch nicht erreichen. Die letzten Refreshes brachten ja auch nur 15-20% und so wie ich dich verstehe bestägist du mich ja darin, dass das auch drinn wäre. Aber aus den Überlegungen sehe ich dann keinen Platz für einen GK104 refresh UND einen GK110.
Wenn ich jetzt NV wäre würde ich
ENTWEDER einen GK104 refresh bringen (dann brauchts aber eigentlich den GK110 nur in der GTX780 wenn überhaupt)
ODER den GK104 einfach nur umlabeln zu GTX760(ti) und GK110 für GTX770+. Denn ein GK104 Refresh kostet ja auch Kohle und die Leistungssteigerung bekomme ich ja schon durchs umlableln und den GK110.

boxleitnerb

2012-12-05, 10:12:07

AnarchX

2012-12-05, 10:12:57

Aber wohl sollen die großen Besonderheiten bei GK110 für Gaming sein? Anders als GF110/100 ist man nun deutlich näher an der Gamer-Architektur.

Potentieller GK114/204 @ ~360mm² (GF114/104-Die-Size):

25% mehr ALU-Tex durch 2 zusätzliche SMX
30-40% mehr Bandbreite - 320-Bit 7Gbps
25% mehr ROP-Leistung
1GHz + Boost
225-235W TDP

Im Endeffekt stehen da 25% mehr Leistung als bei der GTX 680. Dagegen kann ein GK110 maximal 20% mehr Bandbreite und vielleicht 30% mehr ALU/Tex setzen. Oder man geht auf Tripple-Slot und 375W.

BigKid

2012-12-05, 10:35:06

Du musst aber in allen Segmenten Fortschritte machen. Wenn du nur immer den großen Chip obendraufsetzt und alles andere ein Segment runterschiebst, kannst du bei Perf/W nicht mehr mithalten.

bzgl. dem Post unter mir:
Das hat man doch ziemlich genau schon mit K20X in der jetzigen Form.
Ja und genau das ist mein Punkt weshalb ich nicht so recht sehe, dass es für NV Sinn machen würde den GK110 UND einen GK104 Refresh zu bringen. Und was Perf/Watt betrifft - das ist doch auch immer nur so wichtig wie es geredet wird. Dem Endanwender ist das doch meist ziemlich wurscht solange sein Netzteil reicht und er nicht extra ein neues braucht. Solange es also nicht schlechter wird.... Reichen nicht eventuell die Fortschritte beim Fertigen um hier etwas besser zu werden ?
Was reine Leistung betrifft soll AMD ja auch "nur" 20% zulegen von dem was man so liest...

Aber wohl sollen die großen Besonderheiten bei GK110 für Gaming sein? Anders als GF110/100 ist man nun deutlich näher an der Gamer-Architektur.

Potentieller GK114/204 @ ~360mm² (GF114/104-Die-Size):

25% mehr ALU-Tex durch 2 zusätzliche SMX
30-40% mehr Bandbreite - 320-Bit 7Gbps
25% mehr ROP-Leistung
1GHz + Boost
225-235W TDP

Im Endeffekt stehen da 25% mehr Leistung als bei der GTX 680. Dagegen kann ein GK110 maximal 20% mehr Bandbreite und vielleicht 30% mehr ALU/Tex setzen. Oder man geht auf Tripple-Slot und 375W.

Naja ... Eventuell versucht man damit zu Punkten dass der GK110 mehr CopmuteShader und Tesselation Leistung haben wird (sollte er doch - oder ?). So nach dem Motto unsere GTX7X0 ist überall superschnell - aber der HighEnd Chip punktet dann besonders wenns um HighEnd Features geht... Will sagen die GTX780/770 setzt sich dann halt nur noch in bestimmten Szenarien richtig von der GTX760 ab. Aber wie gesagt - ich glaube nicht so recht daran, dass beides kommt... Ein Refresh GK104 UND ein GK110...

Aber bewertest du GK110 nicht zu niedrig ? Ich dachte man geht von 50% gegen GK104@GTX680 aus ?

boxleitnerb

2012-12-05, 10:48:37

Ja und genau das ist mein Punkt weshalb ich nicht so recht sehe, dass es für NV Sinn machen würde den GK110 UND einen GK104 Refresh zu bringen. Und was Perf/Watt betrifft - das ist doch auch immer nur so wichtig wie es geredet wird. Dem Endanwender ist das doch meist ziemlich wurscht solange sein Netzteil reicht und er nicht extra ein neues braucht. Solange es also nicht schlechter wird.... Reichen nicht eventuell die Fortschritte beim Fertigen um hier etwas besser zu werden ?
Was ich so lese soll AMD ja auch "nur" 20% zulegen...

GK104 war ja eher fürs Performancesegment gedacht. Da ist AMD mit Pitcairn schon etwas effizienter, mit Oland wird man hier noch zulegen. Perf/W ist im Mobilbereich schon wichtig, dafür brauchst du auch Chips. Nicht umsonst hat Nvidia da massivst Marktanteile gewonnen.

BigKid

2012-12-05, 11:05:37

GK104 war ja eher fürs Performancesegment gedacht. Da ist AMD mit Pitcairn schon etwas effizienter, mit Oland wird man hier noch zulegen. Perf/W ist im Mobilbereich schon wichtig, dafür brauchst du auch Chips. Nicht umsonst hat Nvidia da massivst Marktanteile gewonnen.
Ja - der Mobilmarkt ist ein ganz anderes Biest. Aber da hält ja gerade erst Keppler wirklich Einzug. Bin mir nicht sicher ob das beüglich der GK110 und GK104@Refresh ne Rolle spielt...

boxleitnerb

2012-12-05, 11:09:05

GK107 war das erste Tapeout und soweit ich weiß wurden schon im Februar massenhaft Chips zu den Notebookherstellern geschickt. Vor Kepler-Launch. Es gab ja schon Videos von BF3-Gameplay auf einer GT630M auf Youtube Anfang März.

Ailuros

2012-12-05, 11:53:05

Ok. Also meinst du die Entwicklungskosten für GK110 sind so hoch und die Synergieeffekte mit GK104 zu gering um nur über Tesla richtig Gewinn zu machen.
Sie brauchen also den Desktop Markt um über die Masse trotz deutlich geringerer Marge die Kohle reinzuholen. Aber wie stark sind die Anzeichen, dass GK110 tatsächlich so wenig mit GK104 gemein hat, dass hier die Synergieeffekte nicht ausreichen ?

Was fuer synergie-effekte genau? Ein performance chip kann man eben nicht sinnvoll aufmoebeln um einen high end chip voll zu ersetzen im desktop.

GK110 Leistung müssen sie ja auch nicht erreichen. Die letzten Refreshes brachten ja auch nur 15-20% und so wie ich dich verstehe bestägist du mich ja darin, dass das auch drinn wäre. Aber aus den Überlegungen sehe ich dann keinen Platz für einen GK104 refresh UND einen GK110.

Wieso? Ein voller GK110 duerfte im Durchschnitt um die 50% schneller sein als eine GTX680. Rein theoretisch:

GK110/15SMX = GTX"780" = GTX680+50%
GK110/14SMX = GTX"770" = GTX680+30-35%
GKx04/xSMX = GTX"760" = GTX680+15-20%

Der GKx04 (104 Nachfolger) wird in dem Fall ja nicht nur den theoretischen "760" SKU Platz einnehmen sondern seine salvage parts auch "GTX750" und weiss der Geier was noch.

Wenn ich jetzt NV wäre würde ich
ENTWEDER einen GK104 refresh bringen (dann brauchts aber eigentlich den GK110 nur in der GTX780 wenn überhaupt)
ODER den GK104 einfach nur umlabeln zu GTX760(ti) und GK110 für GTX770+. Denn ein GK104 Refresh kostet ja auch Kohle und die Leistungssteigerung bekomme ich ja schon durchs umlableln und den GK110.

Natuerlich kostet ein 104 refresh Geld aber bei weitem nicht so viel als auf dieser Basis einen chip von Grund auf zu entwickeln um quasi GK110 Leistung zu erreichen.

Sind alles Einzelheiten die ueber die letzten 80+ Seiten etliche Male wiederholt wurden; generell vergisst Du wohl auch was fuer eine Banause GK10x und co. mit computing sind. Im Vergleich zu Tahiti ist GK104 im computing Bereich gnadenlos verloren; und nein NV wird wohl nicht so bloed sein und AMD den Vorteil ohne Bedenken zu schenken.

GK104 war von Anfang an als der erste offizielle Kepler desktop launch geplant; er bekam auch 4 GPCs um in Quadros besser eingesetzt zu werden u.a. und es ist das erste Mal dass NVIDIA lower end chips dem eigentlichem top dog/high end chip vorzieht. Bis zu GF110 musste zuerst der groesste chip zum tape out kommen und danach kamen erst die kleineren chips. Die Abhaengigkeit wurde mit Kepler beseitigt und die tape outs fuer Kepler in zeitlicher Reihe:

GK107
GK104
GK110
GK106

GK107 war das erste Tapeout und soweit ich weiß wurden schon im Februar massenhaft Chips zu den Notebookherstellern geschickt. Vor Kepler-Launch. Es gab ja schon Videos von BF3-Gameplay auf einer GT630M auf Youtube Anfang März.

Der erste 107 Schub kam bei OEMs im Dezember 2011 an. GK104 ist afaik das beste was man fuer notebooks sehen wird; zumindest bis vor einiger Zeit hatten sie nicht vor GK110 je in notebookes zu integrieren.

boxleitnerb

2012-12-05, 11:57:23

Der erste 107 Schub kam bei OEMs im Dezember 2011 an. GK104 ist afaik das beste was man fuer notebooks sehen wird; zumindest bis vor einiger Zeit hatten sie nicht vor GK110 je in notebookes zu integrieren.

Ich spielte auf GKx04, x06 und x07 an. Oder gedenkt Nvidia, mit unveränderten Chips das Mobilsegment bis 20nm zu halten?

Ailuros

2012-12-05, 12:00:33

Ich spielte auf GKx04, x06 und x07 an. Oder gedenkt Nvidia, mit unveränderten Chips das Mobilsegment bis 20nm zu halten?

Keine Ahnung; ein educated guess waere dass es von den OEMs abhaengt und wie wichtig fuer diese DX11.1 auf der Schachtel wirklich ist :P

boxleitnerb

2012-12-07, 07:10:03

Übrigens:

Wer sagt eigentlich, dass Nvidia mit GK110 auf einer GTX780 in die Vollen geht, also die kolpotierten 50% Mehrperformance zur GTX680 bringt? Man hat ja jetzt schon akzeptiert, dass die 7970 GE 10-15% schneller ist, ohne was nachzuschieben.

AnarchX

2012-12-07, 09:25:07

Hier darf man wohl nicht die GTX 690 vergessen, zu der von AMD selbst immer noch kein Antwort kam. Ebenso gibt es diverse Werks-OC-Versionen der 680 die gegen die 7970GE positioniert werden können.

Ausgehend von der K20X (14SMX/732MHz/235W/6GiB 24 Chips) und den Erfahrungen aus Vergangenheit zum Verhältnis Tesla:GeForce, könnte man wohl eine GeForce-Version bei ~250W mit 850-950MHz (Boost-Range) erwarten und eben 3GiB 6Gbps GDDR5. Vielleicht aus Yieldgründen auch nur mit 14 SMX.
Stehen da am Ende 40% Mehrleistung gegenüber GTX 680, kann man schon mindestens $599 zum Launch verlangen.

Bleibt nur die Frage, was AMD Anfang 2013 launchen kann. Vielleicht GTX 680 +20% @ $399? Dazu sind wohl auch einige potentielle Käufer verunsichert, ob AMD in seiner aktuellen Situation langfristig noch für eine vernünftige Treibersituation sorgen kann.

BigKid

2012-12-07, 10:00:09

Was fuer synergie-effekte genau? Ein performance chip kann man eben nicht sinnvoll aufmoebeln um einen high end chip voll zu ersetzen im desktop.

Ich bin da nicht tief genug drinn. Ich hätte angenommen, dass wenn man von vorneherein entsprechend an die Sache ranngeht und beim Design des kleineren Chips den größeren im Kopf behält - es möglich sein sollte grundlegende Teile der Architektur gemeinsam zu verwenden. Das meinte ich mit Synergie. Ausserdem kann man Erfahrungen mit dem Fertigungsverfahren sammeln etc. etc. etc.

Wieso? Ein voller GK110 duerfte im Durchschnitt um die 50% schneller sein als eine GTX680. Rein theoretisch:

GK110/15SMX = GTX"780" = GTX680+50%
GK110/14SMX = GTX"770" = GTX680+30-35%
GKx04/xSMX = GTX"760" = GTX680+15-20%

Das geht aber nur auf wenn beim GK110 aka GTX780 tatsächlich 50% mehr ankommt. Da scheinen sich hier nicht alle so sicher zu sein.

Also schauen wir mal:
GTX680->780 ~+50%
GTX670->770 ~+45%
GTX660->760 ~+40%
Ganz grob - hängt ja auch ganz stark vom Szenario ab...

Wenn das so kommt dürfen wir uns also auf einen Mix aus "neuem" Chip und "Refresh" freuen, das durch die Bank mehr als 40% mehr Leistung verspricht ? Wär ja mal wieder erfreulich...
Allein ich sehs nicht bzw. versuche auch die alternativen Szenarien zu sehen... Wenn NV den GK110 in Teslas und Quadros mit mehr Gewinnspanne verkaufen kann und wenn die Ausbeute nicht gut genug ist um über Masse zu gehen - wieso dann nicht weiter nur mit GK114/204 oder wie auch immer: Kleinerer Chip, einfacher herstellen, höhere Marge.

Der GKx04 (104 Nachfolger) wird in dem Fall ja nicht nur den theoretischen "760" SKU Platz einnehmen sondern seine salvage parts auch "GTX750" und weiss der Geier was noch.

Natuerlich kostet ein 104 refresh Geld aber bei weitem nicht so viel als auf dieser Basis einen chip von Grund auf zu entwickeln um quasi GK110 Leistung zu erreichen.

Das hab ich auch nirgends behauptet. Ich sagte: Die letzten Refreshes brachten 20-25% Mehrleistung und haben sich trotzdem verkauft - aus der Sicht bräuchte es also keinen GK110 denn ein Refresh 104 mit 20-25% wäre ja möglich und würde reichen...

Sind alles Einzelheiten die ueber die letzten 80+ Seiten etliche Male wiederholt wurden; generell vergisst Du wohl auch was fuer eine Banause GK10x und co. mit computing sind. Im Vergleich zu Tahiti ist GK104 im computing Bereich gnadenlos verloren; und nein NV wird wohl nicht so bloed sein und AMD den Vorteil ohne Bedenken zu schenken.

Das ist mir nicht entgangen und sollte GK110 keine 50% mehr bringen können als GK104 und sollte ein GK204/GK114 tatsächlich 20-25% mehr Leistung bringen - dann wird die Luft eng und der GK110 könnte sich tatsächlich "nur" noch durch ComputeShader, Tesseleation etc. in komplexeren Szenarien absetzen und ihn für Gamer interessant machen.
Vereinfacht: Man bekommt nicht mehr mehr FPS durch die Bank sondern der Trend verstärkt sich, dass sich der High-End Chip nur noch absetzen kann wenn High-End Eye-Candy eingesetzt wird...

[...]
Der erste 107 Schub kam bei OEMs im Dezember 2011 an. GK104 ist afaik das beste was man fuer notebooks sehen wird; zumindest bis vor einiger Zeit hatten sie nicht vor GK110 je in notebookes zu integrieren.
Sorry ja - verfügbar war der Keppler in den Notebooks schon - ich habe aber auch hier mit dem "Gaming" Auge draufgeschaut und im HighEnd angekommen ist er IMHO mit z.B. der GTX670MX erst seit ein paar Monaten, davor warens umgelabelt Fermis... Und mit Verfügbar meine ich "zu kaufen" - das dauert bei Laptops ja immer a bissle länger bis das Zeug dann auch wirklich zu haben ist...

Ailuros

2012-12-07, 16:24:29

Ich bin da nicht tief genug drinn. Ich hätte angenommen, dass wenn man von vorneherein entsprechend an die Sache ranngeht und beim Design des kleineren Chips den größeren im Kopf behält - es möglich sein sollte grundlegende Teile der Architektur gemeinsam zu verwenden. Das meinte ich mit Synergie. Ausserdem kann man Erfahrungen mit dem Fertigungsverfahren sammeln etc. etc. etc.

Das sollte klar sein fuer jeder Produkt-Familie, egal welche chips zuerst ankommen. Es gibt auch eine geringe Flexibilitaet zwischen SKU Kategorien einer Familie wo IHVs entweder mit den Frequenzen oder Ein- bzw. Ausschaltung von clusters einiges anpassen koennen.

Das geht aber nur auf wenn beim GK110 aka GTX780 tatsächlich 50% mehr ankommt. Da scheinen sich hier nicht alle so sicher zu sein.

Bei Vollausbau hat GK110 in der Mehrzahl der Faelle mehr als nur 50% Steigerungen je nach Fall genenueber GK104, wobei sich 50% mehr Bandbreite (konservativ 1500MHz GDDR5@384bit) irgendwo in der Mitte liegt und bei der Mehrzahl der Spiele sowieso meistens die Bandbreite limitiert. Sind es jetzt "nur" 14 anstatt 15 SMX auf einer "GTX780" dann Gott im Himmel sind es "bombastische" 5% weniger Leistung insgesamt. Wie NV selber den 110 salvage part gegenueber einer 7970GE einschaetzt wurde hier schon oefters gepostet.

Also schauen wir mal:
GTX680->780 ~+50%
GTX670->770 ~+45%
GTX660->760 ~+40%
Ganz grob - hängt ja auch ganz stark vom Szenario ab...

Wenn das so kommt dürfen wir uns also auf einen Mix aus "neuem" Chip und "Refresh" freuen, das durch die Bank mehr als 40% mehr Leistung verspricht ? Wär ja mal wieder erfreulich...

Es wird lediglich die LUECKE vom fehlenden high end chip gefuellt und nichts anderes. GK104 (egal was sie immer noch kostet) war und ist nie mehr als ein performance chip gewesen.

Allein ich sehs nicht bzw. versuche auch die alternativen Szenarien zu sehen... Wenn NV den GK110 in Teslas und Quadros mit mehr Gewinnspanne verkaufen kann und wenn die Ausbeute nicht gut genug ist um über Masse zu gehen - wieso dann nicht weiter nur mit GK114/204 oder wie auch immer: Kleinerer Chip, einfacher herstellen, höhere Marge.

NV wird die GK110 R&D Kosten nur von den Profi-Maerkten nicht decken koennen. Sie haben ihren insgesamten Umsatz insgesamt um ca. 20% erhoeht weil:

1. Verkaufen sie immer noch performance SKUs bei high end Preisen. Hier ist egal um wieviel groesser die 28HP Herstellungskosten sind die Gewinn-margen brutal gestiegen im Vergleich zu GF114. GK104 = 294mm2 -->MSRP GTX680 $499, GF114 = 354mm2 -->MSRP GTX560Ti $260 (?).

2. Tegra ist im Aufschwung.

3. Es wurden keinen Kapazitaeten fuer GK110 desktop verpatzt und auch keine verdammt hohen Herstellungskosten fuer Mitte 2012 dafuer und obwohl das Tesla Volumen groesser ist mit Kepler als in der Vergangenheit sind es nicht mehr fuer 2012 als weniger als eine handvoll =/<20k chip deals. Hier hat NV alles richtig gemacht was sie richtig machen konnten, kam nur zu sehr begrenzten wafer runs fuer Tesla K20x mit sehr grossem Gewinn, egal wieviel die Herstellung pro chip eigentlich gekostet hat.

4. Dank gutem perf/W hat NV mit Kepler eine Unzahl an mobilen bzw. OEM deals sichern koennen und eben die wafer die man NICHT fuer GK110 desktop verschwendet hat, wurden fuer low end Bums (hauptsaechlich GK107) eingesetzt, wo man zich Mal mehr chips pro wafer bekommt und auch um einiges bessere yields.

Das hab ich auch nirgends behauptet. Ich sagte: Die letzten Refreshes brachten 20-25% Mehrleistung und haben sich trotzdem verkauft - aus der Sicht bräuchte es also keinen GK110 denn ein Refresh 104 mit 20-25% wäre ja möglich und würde reichen...

Nein er reicht eben nicht gegen Sea Islands ueberhaupt wenn es zu computing kommt. Im Bereich computing ist GK104 ein Schlappschwanz selbst im Vergleich zu einer GTX580.

Das ist mir nicht entgangen und sollte GK110 keine 50% mehr bringen können als GK104 und sollte ein GK204/GK114 tatsächlich 20-25% mehr Leistung bringen - dann wird die Luft eng und der GK110 könnte sich tatsächlich "nur" noch durch ComputeShader, Tesseleation etc. in komplexeren Szenarien absetzen und ihn für Gamer interessant machen.
Vereinfacht: Man bekommt nicht mehr mehr FPS durch die Bank sondern der Trend verstärkt sich, dass sich der High-End Chip nur noch absetzen kann wenn High-End Eye-Candy eingesetzt wird...

Mehr als gleich oder etwas hoeher 15% fuer den 104 Nachfolger erhofft sich momentan keiner. Wie sie die Leistung vom obrigen Ende nach unten verteilen werden ist meistens eine Entscheidung die kurz vor der Massenproduktion der chips getroffen wird.

IHVs wissen schon ziemlich genau durch ausfuehrliche interne Simulationen wo sich leistungsmaessig ein chip platziert und da NV schon intern seit Mitte des Jahres voll operative GK110 hw in der Hand hat noch mehr.

Nebenbei damit ein GK"204" oder wie immer das Ding heissen wird erstmal 20-25% mehr Leistung im Vergleich zum 104 erreicht wird es nie wohl verdammt schwer sein mit nur einem 256bit bus. Zu hohe Frequenzen (core und Speicher) explodieren den Stromverbrauch und MSRP demzufolge zu stark und man klebt eben NICHT einfach so einen 384bit bus drauf und gut ist es. Es grenzt dann eben schon an eine extra chip-Entwicklung und wir drehen uns damit schon wieder im Kreis.

|MatMan|

2012-12-07, 17:12:35

Sie haben ihren insgesamten Umsatz insgesamt um ca. 20% erhoeht weil:

[...]

Tolle Zusammenfassung! :)

Da muss man das so oft kritisierte Management von nVidia mal loben. Sicherlich war auch etwas Glück dabei dass GK104 so konkurrenzfähig wurde. Unabhängig davon hat man sich anscheinend ideal auf den 28nm Prozess und dessen Probleme angepasst. AMD konnte aus dem zeitlichen Vorteil nicht viel herausholen. Uns Enthusiasten gefällt die Strategie natürlich nicht so gut (GK110 ist lange fertig, aber wir "dürfen" ihn nicht kaufen).

Denkst du die Startschwierigkeiten des 28nm Prozesses haben nVidia eher geholfen (hohe Margen, teilweise längere Lebensdauer der alten Generation, Tegra 3 hatte kaum 28nm Konkurrenz) oder eher behindert (niedrige Stückzahlen, hohe Herstellungskosten, Tegra 4 Verzögerung?)?

AnarchX

2012-12-07, 17:14:18

Nebenbei damit ein GK"204" oder wie immer das Ding heissen wird erstmal 20-25% mehr Leistung im Vergleich zum 104 erreicht wird es nie wohl verdammt schwer sein mit nur einem 256bit bus. Zu hohe Frequenzen (core und Speicher) explodieren den Stromverbrauch und MSRP demzufolge zu stark und man klebt eben NICHT einfach so einen 384bit bus drauf und gut ist es. Es grenzt dann eben schon an eine extra chip-Entwicklung und wir drehen uns damit schon wieder im Kreis.
320-Bit und 10 SMX und man ist wohl weiterhin unter 400mm².
Zumal zwischen G104 und seinem Refresh wohl auch fast/mehr als 12 Monate liegen, wo die GF11x nach schon 6 Monaten auftauchten.

Ailuros

2012-12-08, 02:29:15

320-Bit und 10 SMX und man ist wohl weiterhin unter 400mm².

Liefert aber auch keine 20-25% Mehrleistung. Schau Dir nochmal die Specs an die spekulativ Sea Islands zugesprochen werden und denk nach wieso "so viel" nur "so wenig" bringt.

reaperrr

2012-12-08, 13:38:49

320-Bit und 10 SMX und man ist wohl weiterhin unter 400mm².
Die Frage ist nur, wozu?
Solch ein Chip wäre bestimmt mindestens 20% größer und dadurch teurer in der Herstellung, die Entwicklungskosten würden wohl sogar ein vielfaches dessen betragen, was ein bisschen Feintuning am GK104 kosten würde (mehr SMX und Speichercontroller würden ein neues Layout erfordern). Die Boardkosten würden durch das breitere Interface und die zusätzlichen Speicherchips ebenfalls steigen, zumal man die Boards auch neu designen müsste.

Wenn ich in Nvidia's Position wäre, würde ich mir einfach GK104 schnappen, hier und da etwas optimieren, um noch 2-3% mehr Leistung pro Takt rauszukitzeln, mir ein paar allgemeine Kepler-Treiber-Verbesserungen für den Launch aufsparen und dann eine Geforce 770 Ti mit ~25-50 MHz höherem Chip- und ~10-15% höherem Speichertakt rausbringen, zum derzeitigen Preis der 670 Ti.
Du brauchst keine neuen Boards, keine neuen Kühler, und die Karten bleiben günstig genug in der Herstellung, um sie preislich gegen die (langsamere) zweitschnellste AMD-Karte positionieren zu können und trotzdem noch mehr als genug Gewinn pro verkauftem Chip zu machen. Wenn der Tahiti-Nachfolger größer und stromhungriger als Tahiti wird (was anzunehmen ist), braucht Nvidia hier mit dem GK104-Nachfolger performance-mäßig garnicht ganz mithalten, sie brauchen nur dicht genug dranzubleiben, dann sind sie wegen dem deutlich günstigeren Chip (und der populäreren Marke) weiter klar im Vorteil.

Das Verhältnis von zusätzlichem Aufwand zu zusätzlichem Ertrag würde meiner Einschätzung nach bei einem 10 SMX/320-bit-Chip enfach nicht passen.

Liefert aber auch keine 20-25% Mehrleistung. Schau Dir nochmal die Specs an die spekulativ Sea Islands zugesprochen werden und denk nach wieso "so viel" nur "so wenig" bringt.
Bei GCN scheint allerdings auch die Skalierung mit zusätzlichen CUs etwas schlechter zu sein als bei Nvidia mit zusätzlichen SMX. Der Ansatz mit den GPCs und Polymorph-Engines scheint in Bezug auf die Skalierung besser zu sein als AMD's Ansatz.
In meinen Augen übrigens ein weiterer Grund, warum GK204 keine zusätzlichen SMX braucht.

LSSJBroly

2012-12-08, 14:32:59

@reaperrr
Mit solchen kleinen verbesserungen funktioniert es aber eben nicht, dieses "dicht genug" aufschließen. Wenn man z.B. schon 25% auf die 7970 GHz Ed. draufpackt, ist die HD 8970 schon fast 40% schneller als die GTX 680. Da wird es nicht funktionieren den Takt etwas hochzuziehen, der bei der GTX 680 schon recht hoch ist. Mit allen optimierungen könnte man vllt rund 10, 15% gutmachen, würde aber dennoch nicht reichen, nichteinmal um ene HD 8950 richtig anzugreifen. Außerdem würde so eine verbesserte Karte auch um die 200, 210 Watt benötigen.

Ergo muss ein deutlich schnellerer Chip kommen, der mit AMDs Topmodellen konkurrieren kann. Und da bleibt einfach nur GK110 übrig.

Duplex

2012-12-08, 15:14:48

AnarchX

2012-12-08, 15:49:01

Wenn AMD den 15 SMX Chip von Nvidia "GK110" angreifen will, dann brauchen Sie ein Chip mit mind. 48 CUs (3072 Shader), 48-64 ROPs & neuen Frontend, der Chip würde dann vermutlich trotzdem 100mm² kleiner als GK110 ausfallen, aber 450mm² DIEs hat AMD schon lange nicht mehr entworfen, wenn man im Profimarkt damit glänzen könnte, dann wäre so ein Chip bis H2/14 garnicht mal so schlecht. Bei gleicher Fertigung spielt aber weiterhin der Stromverbrauch eine wichtige Rolle, die 40x64 aka 2560 Shader Variante wäre dann die wahrscheinlichste.
Gipsel hatte mal eine Aufstellung zum Die-Size-Bedarf bei Tahiti gemacht:
http://www.forum-3dcenter.org/vbulletin/showthread.php?p=9197796#post9197796
Da läge man mit 3072SPs schon allein bei ~450mm², ohne das wohl zusätzliche Verbindungen mit eingerechnet wurden. Mehr als 2560SPs, bei zusätzlichen Änderungen am Front-End, würde ich nicht erwarten.

Duplex

2012-12-08, 15:58:53

Gipsel hatte mal eine Aufstellung zum Die-Size-Bedarf bei Tahiti gemacht:
http://www.forum-3dcenter.org/vbulletin/showthread.php?p=9197796#post9197796
Da läge man mit 3072SPs schon allein bei ~450mm², ohne das wohl zusätzliche Verbindungen mit eingerechnet wurden. Mehr als 2560SPs, bei zusätzlichen Änderungen am Front-End, würde ich nicht erwarten.
Danke für den Link!
Dann wäre ein 3072 Shader Chip mit Frontend-Tuning & mehr ROPs doch über 500mm² groß, ziemlich unwahrscheinlich das AMD auf sowas setzen wird, man sollte nicht vergessen das Cayman beim gleichem Prozess nur 17% größer als Cypress war (335 vs. 390mm²). also sind die 2560 Shader weiterhin die wahrscheinlichste Variante die AMD auswählen wird, Stromverbrauch & DIE Space ist das Problem.

Ailuros

2012-12-09, 18:53:52

Bei GCN scheint allerdings auch die Skalierung mit zusätzlichen CUs etwas schlechter zu sein als bei Nvidia mit zusätzlichen SMX. Der Ansatz mit den GPCs und Polymorph-Engines scheint in Bezug auf die Skalierung besser zu sein als AMD's Ansatz.
In meinen Augen übrigens ein weiterer Grund, warum GK204 keine zusätzlichen SMX braucht.

Schwer zu beurteilen da zwischen den SKUs es auch Taktunterschiede gibt bzw. Bandbreiten-Unterschiede:

http://www.computerbase.de/artikel/grafikkarten/2012/test-nvidia-geforce-gtx-660/5/

Wenn ich auf die 680 zeige fuer 100% unter 1080p/4xAA:

GTX680, 8 SMXs@1006, 192GB/s = 100%
GTX670, 7 SMXs@915, 192GB/s = 92%
GTX660Ti, 7 SMXs@915, 144GB/s = 80%
GTX660, 5 SMXs@980, 144GB/s = 69%

Anhand der Daten bezweifle ich dass sich seit Fermi etwas geaendert hat und bei gleicher Frequenz und einem cluster mehr duerfte in der Mehrzahl der Faelle die Leistung um ca. 5% steigen.

Mehr SMXs braucht der 104 Nachfolger per se nicht, die Frage ist wieviel mehr Watts TDP fuer diesen NV genau tolerieren will. Denn wenn man ca. 15-20% mehrleistung erreichen will nur mit hoeheren core und Speicher-frequenzen wird der TDP eben NICHT nur um 20% steigen sondern um einiges mehr.

Rampage 2

2012-12-09, 21:11:10

Ich hätte eine Frage zu einem ganz anderen Aspekt des GK110-Launchs: Wie stark werden die Preise bei der GTX 6xx-Serie (660 Ti aufwärts) sinken, wenn der neue Kepler (GTX 7xx) wirklich im März gelauncht wird?

Botcruscher

2012-12-09, 21:51:07

Bei den absolut stabilen Preisen und dem noch immer ruhigen 28nm Volumen werden die eher ganz schnell auslaufen. Da wird kein Wafer verschwendet.

Rampage 2

2012-12-10, 04:19:36

Bei den absolut stabilen Preisen und dem noch immer ruhigen 28nm Volumen werden die eher ganz schnell auslaufen. Da wird kein Wafer verschwendet.

:confused:

Ich weiß jetzt nicht, wie ich das verstehen soll - meinst du etwa, die Preise werden steigen?:|

Nightspider

2012-12-10, 05:13:09

Ich hoffe jedenfalls das es im März GK110 Karten für 500-550 Euro zu kaufen gibt.

Ailuros

2012-12-10, 07:39:43

:confused:

Ich weiß jetzt nicht, wie ich das verstehen soll - meinst du etwa, die Preise werden steigen?:|

Fuer performance SKUs wie die 680 und Nachfolger wohl sicher nicht. Die Hoffnung ist eben dass GK110 und dessen salvage part die $599 bzw. $499 Positionen fuellen werden und der GK104 Nachfolger bei $399.

Skysnake

2012-12-10, 15:01:08

Wenn nicht mehr.

Btw. gibt es eigentlich schon Bilder von K20(x)?

und wenn ja, sieht man, ob es SLI-Bruecken gibt?

HarryHirsch

2012-12-10, 15:05:34

ja, zwei stück

Rampage 2

2012-12-10, 16:24:07

Fuer performance SKUs wie die 680 und Nachfolger wohl sicher nicht. Die Hoffnung ist eben dass GK110 und dessen salvage part die $599 bzw. $499 Positionen fuellen werden und der GK104 Nachfolger bei $399.

Hmmm... es ist also durchaus möglich, im März/April eine GTX 680 für unter 300€ zu bekommen? (neu und ungebraucht)

R2

Ailuros

2012-12-10, 16:52:18

Hmmm... es ist also durchaus möglich, im März/April eine GTX 680 für unter 300€ zu bekommen? (neu und ungebraucht)

R2

Hoffnung stirbt als letzte, selbst fuer mich.

Gaestle

2012-12-10, 18:04:07

Oder eine 760(Ti) mit entsprechender Leistung...

reaperrr

2012-12-10, 20:37:57

Mehr SMXs braucht der 104 Nachfolger per se nicht, die Frage ist wieviel mehr Watts TDP fuer diesen NV genau tolerieren will. Denn wenn man ca. 15-20% mehrleistung erreichen will nur mit hoeheren core und Speicher-frequenzen wird der TDP eben NICHT nur um 20% steigen sondern um einiges mehr.
Dass 15-20% Mehrleistung mit vertretbarer TDP/Hitzeentwicklung wohl nur über einen größeren Chip mit mehr Einheiten realisiert werden kann, sehe ich ja auch so.

Mein Gedanke ist halt: Macht es Sinn, ~20% höhere Produktionskosten pro Chip (durch die Fläche) und ein vielfaches an Entwicklungskosten (mehr Einheiten erfordern ein neues/überarbeitetes Layout, im Falle eines 320-bit-SI auch für die Platinen, was bei einem feingetunten GK104 beides nicht der Fall wäre) in Kauf zu nehmen, bloß um eine um 10-15 Prozentpunkte höhere Steigerung zu erzielen? Das macht nur dann Sinn, wenn die zusätzliche Performance Durchschnittspreise erlaubt, die so viel höher sind, dass sämtliche zusätzlichen Kosten mindestens gedeckt, besser noch übertroffen werden, und ich habe meine Zweifel, ob das Mehr an Performance in diesem Fall hoch genug ausfallen würde, um solche deutlich höheren Preise zu rechtfertigen.

Ich frage mich halt einfach, ob es nicht wirtschaftlich sinnvoller wäre stattdessen nur einen GK104 +5% zu aggressiveren Preisen in größeren Mengen rauszubringen.

Ailuros

2012-12-10, 21:06:49

Dass 15-20% Mehrleistung mit vertretbarer TDP/Hitzeentwicklung wohl nur über einen größeren Chip mit mehr Einheiten realisiert werden kann, sehe ich ja auch so.

Mein Gedanke ist halt: Macht es Sinn, ~20% höhere Produktionskosten pro Chip (durch die Fläche) und ein vielfaches an Entwicklungskosten (mehr Einheiten erfordern ein neues/überarbeitetes Layout, im Falle eines 320-bit-SI auch für die Platinen, was bei einem feingetunten GK104 beides nicht der Fall wäre) in Kauf zu nehmen, bloß um eine um 10-15 Prozentpunkte höhere Steigerung zu erzielen? Das macht nur dann Sinn, wenn die zusätzliche Performance Durchschnittspreise erlaubt, die so viel höher sind, dass sämtliche zusätzlichen Kosten mindestens gedeckt, besser noch übertroffen werden, und ich habe meine Zweifel, ob das Mehr an Performance in diesem Fall hoch genug ausfallen würde, um solche deutlich höheren Preise zu rechtfertigen.

Ich frage mich halt einfach, ob es nicht wirtschaftlich sinnvoller wäre stattdessen nur einen GK104 +5% zu aggressiveren Preisen in größeren Mengen rauszubringen.

Eigentlich schon fuer den letzten Satz aber es wuerde nur einwandfrei funktionieren wenn NV in einem Vakuum entwickeln wuerde ohne was AMD moeglicherweise auf die Regale bringt mitzuberechnen. Alternativ koennte NV in diesem Fall nochmal einen zweiten GK110 salvage part einlegen umd die Luecke zwischen der highest end SKU und der performance SKU besser zu decken, aber wenn Du wiederrum versuchst auszurechnen was es kosten wuerde N wafer fuer 550mm2 core Herstellung aufzulegen kostet, dann sind das obrige auch nicht absolute Totschlag-Argumente.

Wenn wir wuessten wie die binning yields genau aussehen bei GK110 haetten wir womoeglich schon einige mehr Antworten in der Hand; leider erfaehrt man solche Einzelheiten nie bis sehr selten. Bei einer halbwegs logischen Anzahl von =/<13 SMX bins vom GK110 rentiert es sich eben eher diese fuer Tesla bzw. Quadros zu verkaufen als im desktop.

Rampage 2

2012-12-10, 22:45:46

Oder eine 760(Ti) mit entsprechender Leistung...

Genau das wollte ich auch fragen - wäre eine GTX 760 Ti mit folgender Bestückung möglich oder sinnvoll:

256 Bit SI @2GB oder 4GB GDDR5-RAM mit 1500MHz Speichertakt
8 SMX
32 ROPs (??)
128 TMUs
1536 SPs
1100 - 1200MHz Chiptakt

bzw.

GTX 770:

256 Bit SI @2GB oder 4GB GDDR5-RAM mit 1500MHz Speichertakt
12 SMX
48 ROPs (??)
192 TMUs
2304 SPs
800 MHz Chiptakt

Was mir persönlich wichtig ist, dass die GK110-Abkömmlinge nicht unschön kastriert werden (wie es bei GTX4xx und aktuell GTX 6xx der Fall ist) - sprich keine "unrunde" Zahlen wie "112" statt 128 TMUs oder "320" statt 384Bit.

BTW, zu den ROPs und zum SI hätte ich eine Frage: ist die Anzahl/Größe unabhängig von der Anzahl der TMUs/SPs ?

R2

prinz_valium

2012-12-11, 00:06:29

Was mir persönlich wichtig ist, dass die GK110-Abkömmlinge nicht unschön kastriert werden (wie es bei GTX4xx und aktuell GTX 6xx der Fall ist) - sprich keine "unrunde" Zahlen wie "112" statt 128 TMUs oder "320" statt 384Bit.

R2

wieso wäre dir das wichtig?
ich fand die salvage parts des top dogs immer super und habe diese dem vollausbau dank P/L vorgezogen.

oder ganz ganz blöd gefragt. warum willst du lieber ein 256bit interface anstatt ein 320er? das verstehe ich wirklich nicht :D

Gipsel

2012-12-11, 00:11:46

BTW, zu den ROPs und zum SI hätte ich eine Frage: ist die Anzahl/Größe unabhängig von der Anzahl der TMUs/SPs ?Ja.

Rampage 2

2012-12-11, 00:12:46

wieso wäre dir das wichtig?
ich fand die salvage parts des top dogs immer super und habe diese dem vollausbau dank P/L vorgezogen.

oder ganz ganz blöd gefragt. warum willst du lieber ein 256bit interface anstatt ein 320er? das verstehe ich wirklich nicht :D

Du musst das so sehen:

Entweder 256Bit oder gleich 384Bit - es ist halt eine Geschmacksfrage, die jeglicher Logik entbehrt;)

Aber zurück zum Thema:

Ist zumindest die hypothetische GTX 770 die ich unten angegeben habe "sinnvoll" bestückt?

LSSJBroly

2012-12-11, 08:35:26

Ist zumindest die hypothetische GTX 770 die ich unten angegeben habe "sinnvoll" bestückt?

Überhaupt nicht. Deswegen ja 320Bit. Die Karte würde wohl nicht (oder kaum) schneller als eine GTX 680 sein (gerade mal so rund 10 bis 15%, da eben die Bandbreite nochmal stärker limitieren würde. GK110 braucht eine stärkere Bandbreite, und das ist sinnvoll nur durch ein größeres SI zu machen.
Ob jetzt 320Bit schlechter als 384 oder 256 aussieht, ist totaler schwachsinn. Man muss das optimalste ausprobieren. Und das wären entweder 384 oder 320 Bit.

Ailuros

2012-12-11, 08:57:25

Ja.

Stimmt schon aber ausser es hat sich etwas geaendert und ich hab es verpasst ist die Anzahl der ROPs auf GeForces immer noch abhaengig von der Busbreite.

Da bei Fermi bzw. Kepler es fuer jede partition 8 ROPs sind:

64bit = 8 ROPs
128bits = 16 ROPs
192bits = 24 ROPs
256bits = 32 ROPs
320bits = 40 ROPs
384bits = 48 ROPs
448bits = 56 ROPs
512bits = 64 ROPs

(und das nur weil rampage2 oben nach einer eher merkwuerdigen "770" fragt....)

Überhaupt nicht. Deswegen ja 320Bit. Die Karte würde wohl nicht (oder kaum) schneller als eine GTX 680 sein (gerade mal so rund 10 bis 15%, da eben die Bandbreite nochmal stärker limitieren würde. GK110 braucht eine stärkere Bandbreite, und das ist sinnvoll nur durch ein größeres SI zu machen.
Ob jetzt 320Bit schlechter als 384 oder 256 aussieht, ist totaler schwachsinn. Man muss das optimalste ausprobieren. Und das wären entweder 384 oder 320 Bit.

Wieso sollen 320 bzw. 384bits am optimalsten sein mit 4 GPCs? Ein breiteres SI macht in diesem Fall nur wirklich "Sinn" wenn >6Gbps GDDR5 zu teuer ist um es zu benutzen. Mehr als schaetzungsweise 20% mehr Bandbreite duerften sie fuer so ein refresh-Ziel IMHO nicht brauchen.

Sonst insgesamt fuer den ersten Satz bei 320 bzw. 384bits mit 4 GPCs hast Du quasi 8 bzw. 16 ROPs die ausser irgendwelchen corner case high sample AA Faellen in der Mehrzahl der Faelle dumm herumhocken, weil 4* 8 pixels/raster = 32 pixels/clock. In dem Bereich ist GK104 schon optimaler ausgelegt als in allen anderen Faellen; IMO sind die clusters einfach zu breit und die jeweilige pro SMX logic zu karg fuer einen solchen chip.

Ich bin zwar nur ein Laie aber im gegebenen Fall wuerde ich leicht die Frequenz erhoehen und mich auf die Stellen im core konzentrieren die mir eine logische Steigerung der internen Bandbreiten-Effizienz sichern koennten. Unter der Vorraussetzung dass es ueberhaupt moeglich ist in N begrenzten Zeitraum. Sonst leidet IMHO GK104 weder an ALU, TMU noch ROP Anzahl insgesamt.

AnarchX

2012-12-11, 09:51:33

Mit nur 1024SPs (je SMX 4*32) und 64 TMUs würde wohl GK104 kaum schlechter dastehen.
Der Performance-Unterschied zur GTX 580 ergibt sich häufig nur aus dem Mehrtakt der GPU - 772MHz vs ~1050MHz.

Fragt sich ob man da jemals mit den schmalen Caches pro SMX und der superskalaren Ausführung einen sinnvollen Leistungsgewinn aus den zusätzlichen 512SPs erfahren wird. Aber wahrscheinlich wäre GK104 ohne diese Einheiten nur vernachlässigbar kleiner.

Ailuros

2012-12-11, 09:56:53

Mit nur 1024SPs (je SMX 4*32) und 64 TMUs würde wohl GK104 kaum schlechter dastehen.
Der Performance-Unterschied zur GTX 580 ergibt sich häufig nur aus dem Mehrtakt der GPU - 772MHz vs ~1050MHz.

Und wieso ist dann die 660 nicht schneller als die 660Ti? Noch schlimmer der Leistungsunterschied zwischen einer 680 und einer 660 ist alles andere als "kaum schlechter": http://www.forum-3dcenter.org/vbulletin/showpost.php?p=9575579&postcount=1689

AnarchX

2012-12-11, 10:05:08

Und wieso ist dann die 660 nicht schneller als die 660Ti?
Weil sie nur 5 statt 7 SMX hat, die offenbar maßgeblich für die Performance sind.

boxleitnerb

2012-12-11, 10:37:43

Die 660 und 660 Ti haben dieselbe Speicherbandbreite. Und nicht selten sind die beiden Karten praktisch auf einem Level. Warum wohl? ;)

Die GTX680 hat 35% mehr Bandbreite als beide, aber nur 25% mehr Rechenleistung als die 660 Ti. Und dort, wo die 660 und 660 Ti gleich schnell sind (Bandbreitenlimit), ist die 680 diese 35% flotter und nicht nur 25%, nämlich in

AvP
Alan Wake
Crysis 2 (nur 1600p)
Hard Reset
Just Cause 2
Skyrim
http://www.techspot.com/review/603-best-graphics-cards/page1.html

Überall ist die 680 haargenau soviel schneller wie sie mehr Bandbreite hat.

AnarchX

2012-12-11, 10:40:23

Gibt es eigentlich irgendwo einen vernünftigen Bandbreiten-Skalierungs-Benchmark der GTX 680?
Also verschiedene Testszenen, wo man jeweils den Chiptakt absenkt, um zu schauen, ob schon ein Bandbreitelimit vorlag.

Gipsel

2012-12-11, 11:27:20

Stimmt schon aber ausser es hat sich etwas geaendert und ich hab es verpasst ist die Anzahl der ROPs auf GeForces immer noch abhaengig von der Busbreite.

Da bei Fermi bzw. Kepler es fuer jede partition 8 ROPs sind:

64bit = 8 ROPs
128bits = 16 ROPs
192bits = 24 ROPs
256bits = 32 ROPs
320bits = 40 ROPs
384bits = 48 ROPs
448bits = 56 ROPs
512bits = 64 ROPs

(und das nur weil rampage2 oben nach einer eher merkwuerdigen "770" fragt....)Die aus den Fingern gesaugten hypothetischen Specs seiner GTX770 hatte ich mir ehrlich gesagt gar nicht durchgelesen (:redface:) und nur die Frage nach der Abhängigkeit des Speicherinterfaces von der Anzahl der SMx (bzw. SPs) beantwortet.
Ansonsten hast Du natürlich recht, daß seine Aufstellung sehr wahrscheinlich nicht funktioniert, da bei nV (auch bei Kepler) immer ein L2-Tile (128kB, bei GK110 256kB), 8 ROPs und ein 64Bit Speichercontroller eine feste Einheit bilden. AMD ist da etwas flexibler, da sie noch eine (nicht voll verdrahtete) Crossbar zwischen den ROPs und dem Speicherinterface haben (weswegen bei Tahiti 32 ROPs an einem 384Bit-Interface möglich sind, aber bei Tahiti LE auch 32ROPs an einem 256Bit-Interface, es ist dort also [in Grenzen, da Crossbar nicht voll verdrahtet ist] unabhängig).

AnarchX

2012-12-11, 11:56:06

Aber Zwischenschritt wie 192- oder 320-Bit sind wohl bei AMD nicht möglich, da man die Speicherkanäle an allen ROPs deaktivieren muss (384-Bit -> 256-Bit -> 128-Bit).
Auf der anderen Seite kann wohl NV auch die Zahl der ROPs pro Cluster skalieren, wie GF108 mit nur 2 ROPs je Cluster gezeigt hat.

Ailuros

2012-12-11, 14:52:40

Weil sie nur 5 statt 7 SMX hat, die offenbar maßgeblich für die Performance sind.

Jegliche solche Formel hapert eben an der Tatsache dass GPUs ziemlich komplizierte Tiere sind. Ebenso wie im obrigen Fall wuerde auch eine hypothetische 1024SP@1GHz GK104 Variante stellenweise um einiges langsamer sein als eine heutige GTX680 selbst mit der gleichen Bandbreite.

Schon gar nicht mit der halben Texel-fuellrate.

Gibt es eigentlich irgendwo einen vernünftigen Bandbreiten-Skalierungs-Benchmark der GTX 680?
Also verschiedene Testszenen, wo man jeweils den Chiptakt absenkt, um zu schauen, ob schon ein Bandbreitelimit vorlag.

Mehr Daten sind stets willkommen aber die paar Tests die ich gesehen habe wo wechselweise einmal nur der core und einmal nur der Speicher uebertaktet wurden zeigten keinen merkwuerdigen Trend. Ich lass mich gerne eines besseren belehren aber wenn man z.B. nur den Speicher um ca. 15% uebertaktet aber die durchschnittliche Leistung um =/>5% skaliert hoert es mich nicht nach einer Bandbreiten-Limitierung per se an. Kann durchaus sein dass der Haken ganz woanders liegt.

LSSJBroly

2012-12-11, 15:21:42

Wieso sollen 320 bzw. 384bits am optimalsten sein mit 4 GPCs? Ein breiteres SI macht in diesem Fall nur wirklich "Sinn" wenn >6Gbps GDDR5 zu teuer ist um es zu benutzen. Mehr als schaetzungsweise 20% mehr Bandbreite duerften sie fuer so ein refresh-Ziel IMHO nicht brauchen.

Mir ging es jetzt gar nicht darum, ob ein 320 oder 384Bit passen würde. Ich denke nur, dass ein höherer Speichertakt eventuell mehr verbrauchen würde, als ein größeres SI. Und klar würden auch wohl 256Bit + 3500MHz z.B. gehen, aber wie gesagt, ich weiß jetzt nicht, wie effizient dies wäre. Und den Takt immer weiter in die Höhe zu treiben kann auch nicht das Allheilmittel sein.

Und ein 15% Speichertaktplus bei GK104 hat durchshcnittlich rund 8 bis 10% mehr Leistung gebracht, genausoviel oder sogar mehr wie reines GPU OC um 15%. Dagegen skaliert Fermi und auch GCN mit mehr GPU-takt deutlich linearer.

Ailuros

2012-12-11, 15:52:56

Mir ging es jetzt gar nicht darum, ob ein 320 oder 384Bit passen würde. Ich denke nur, dass ein höherer Speichertakt eventuell mehr verbrauchen würde, als ein größeres SI. Und klar würden auch wohl 256Bit + 3500MHz z.B. gehen, aber wie gesagt, ich weiß jetzt nicht, wie effizient dies wäre. Und den Takt immer weiter in die Höhe zu treiben kann auch nicht das Allheilmittel sein.

Stimmt auch so und nichts dagegen. Es haengt auch sehr viel von 28nm ab und inwiefern dieser ausgereift ist um N% hoehere Frequenzen zu erlauben. Wie dem auch sei dank Zeitmangel und Prozess-spezifischen Begrenzungen erwarte ich auch persoenlich nichts besonderes egal wie sie es am Ende realisieren.

Mein voriger Post war lediglich darauf gezielt dass auch ein 256bit bus genug zusaetzliche Bandbreite theoretisch liefern kann, wenn man analog hoch getakteten Speicher (=/>1700MHz) in anstaendigen Mengen und Preisen finden koennte.

Und ein 15% Speichertaktplus bei GK104 hat durchshcnittlich rund 8 bis 10% mehr Leistung gebracht, genausoviel oder sogar mehr wie reines GPU OC um 15%. Dagegen skaliert Fermi und auch GCN mit mehr GPU-takt deutlich linearer.

Man muss in dem Fall aber auch extrem vorsichtig sein dass der turbo boost nicht im Weg steht.

von Richthofen

2012-12-13, 20:25:36

Laut Heise.de werden GK110 in Form des K20 Beschleunigers nun ebenfalls in diversen Rechenzentren in Dresden eingesetzt (allerdings in ziemlich geringer Stückzahl).
http://www.heise.de/newsticker/meldung/Dresden-entwickelt-sich-als-Exzellenz-Standort-fuer-Supercomputer-1767553.html

Man könnte da natürlich wieder spekulieren, ob die Ausbeute an 14 SMX Chips doch nicht so rosig ausschaut oder warum werden keine K20X verwendet. (OAK Ridge only?). Möglicherweise hat man sich die Karten jedoch über den Retail-Markt und nicht direkt bei nVidia beschafft. Meines Wissens existiert dort bisher nur die Tesla K20.
Weiterhin wird im Text eine ominöse K20c angesprochen !?

Hübie

2012-12-13, 20:30:40

K20X ist nur für Cray-Systeme. Und die kosten mal richtig Asche. K20x kommt halt nicht in Steckkartenform vor. K20c könnte ein weitere salvage-part sein.

Ailuros

2012-12-14, 07:40:28

K20X ist nur für Cray-Systeme. Und die kosten mal richtig Asche. K20x kommt halt nicht in Steckkartenform vor. K20c könnte ein weitere salvage-part sein.

Koennte auch ein alberner Tippfehler sein. Im Gegenfall wo eine K20C tatsaechlich existiert sehe ich nichts im Artikel dass andeutet dass so ein Ding <K20X oder >K20X sein koennte.

AnarchX

2012-12-14, 07:44:09

K20Card. Also die Version mit Lüfter?

Hübie

2012-12-14, 08:33:46

Koennte auch ein alberner Tippfehler sein. Im Gegenfall wo eine K20C tatsaechlich existiert sehe ich nichts im Artikel dass andeutet dass so ein Ding <K20X oder >K20X sein koennte.

Ich auch nicht, aber ich wills einfach nicht ausschließen. Heise ist nicht für Tippfehler bekannt... Verstehe auch nicht warum die da ne News von machen. Gibt schon bedeutend mehr als diese 64 K20-Karten in good old germany :freak:

Maniac007

2012-12-15, 19:32:00

Darf ich vieleicht mal fragen wie die Experten hier die Chance dafür sehen, dass März/April 2013 ein GK110 in einer Consumer-Grafikkarte mit +50% Leistung im Vergleich zu GTX 680 im Handel verfügbar sein wird?

Ich habe mich beim Launch der GTX680 zurückgehalten, weil ich keinen High-End-Preis für eine Karte hinlegen wollte, die schon in einem halben Jahr um 50% geschlagen wird. Mittlerweile werde ich allerdings ungeduldig und fürchte ehrlich gesagt, dass ich am Ende 1,5 Jahre auf eine 30% schnellere Karte gewartet haben werde.

dildo4u

2012-12-15, 19:42:00

30% sind realistischer,wie bei der 480 und 580 wird einem zu erst ne gekürzte Version verkauft.Damit man 2014 was hat sollte sich Maxwell verschieben.

AnarchX

2012-12-15, 19:47:50

Setzt man GK110 auf ein 400-500W PCB zusammen mit 7Gbps GDDR5 kann der geneigte Enthusiast mit WaKü sicherlich einiges an Leistung herausholen.
Im Endeffekt wird wohl die finale Leistung der GK110-SKUs davon abhängen, wie AMD sich positioniert. Aber mit 40% gegenüber der GTX 680 würde ich schon rechnen.

dildo4u

2012-12-15, 19:57:26

AMD operiert ja schon bei 250Watt ich sehe von dort kein großen Druck,daher wird Nvidia vermutlich wie Intel es vormacht die Leistung über die Zeit verteilen.

Black-Scorpion

2012-12-15, 20:02:33

dildo4u

2012-12-15, 20:09:37

Die 780 scheint diesmal deutlich dichter am Launch der AMD 8000 Serie zu liegen.(Chip's sind in Produktion siehe K20)Der erste Kepler war verspätet 28nm dürfte aber mittlerweile weniger Probleme machen.

boxleitnerb

2012-12-15, 20:18:30

Ich finde es hochinteressant wie man sich eine solche Verspätung schön reden kann. :rolleyes: Hier wird wieder so getan als ob Nvidia die Wahl hatte und es einfach nicht für nötig hielt den GK110 in der Version für die User zu liefern. Sie haben es einfach nicht auf die Reihe bekommen.

Was heißt schön reden? Wenn der Plan, GK110 als letztes zu bringen, seit längerer Zeit so stand, ist es halt so. Sie haben es gar nicht erst probiert, weil es nicht machbar ist. Außerdem tust du ja so, als wäre es Nvidias Schuld, was ist mit TMSC? Soll AMD doch mal probieren, sowas auf die Beine zu stellen, dann sehen wir ja, wie einfach das ist :rolleyes:

Black-Scorpion

2012-12-15, 20:36:22

aufkrawall

2012-12-15, 20:40:03

Sie sind hinterher und da gibt es nichts zu beschönigen.
Wo denn? Sie werden diesmal eher ausnahmsweise der Konkurrenz voraus sein.

Duplex

2012-12-15, 20:40:53

Wann ist Nvidia auf die Schnauze gefallen?
Nvidia macht viel Gewinn im GPU Markt. AMD verdient keine 3% Netto vom Umsatz im GPU Markt...Also wer ist auf die schnauze gefallen....

Black-Scorpion

2012-12-15, 20:43:04

Wann ist Nvidia auf die Schnauze gefallen?
Nvidia macht viel Gewinn im GPU Markt. AMD verdient keine 3% Netto vom Umsatz im GPU Markt.
Lesen denken und verstehen. Was hat dein Beitrag mit meinem zu tun?

Und nein, sie sind nicht AMD voraus. Der GK110 gehört zur aktuellen Serie.

Maniac007

2012-12-15, 20:45:14

Aber einen Launch in März/April ist immer noch die wahrscheinlichste Möglichkeit? Oder muss man mit weiteren Verzögerungen rechnen?

aufkrawall

2012-12-15, 20:45:43

Und nein, sie sind nicht AMD voraus. Der GK110 gehört zur aktuellen Serie.
omg, tolle Art zu argumentieren.
Wayne ob sich an der Architektur was geändert hat oder nicht?
Wenn das Ding schneller als HD 8000 ist, interessiert das keine Wurst.

Duplex

2012-12-15, 20:47:48

Lesen denken und verstehen. Was hat dein Beitrag mit meinem zu tun?

Und nein, sie sind nicht AMD voraus. Der GK110 gehört zur aktuellen Serie.
Erspare dir besser deine geistigen Ergüsse, als AMD Fankind erster Klasse fehlt dir der Durchblick :rolleyes:

boxleitnerb

2012-12-15, 20:49:36

Es ist nicht das erste mal das Nvidia mit ihren Riesenchips auf die Schnauze fällt. Und was lernen sie daraus? Wie man sieht nichts. Sie probieren es immer wieder. Und da kann TMSC genau was dafür? Und natürlich ist schön reden wenn man jetzt die aktuelle gegen die nächste GPU des anderen stellt. Sie sind hinterher und da gibt es nichts zu beschönigen.

Das ist doch Unsinn. Hätten sie nichts gelernt, hätten sie versucht, GK110 im Frühjahr/Sommer als Geforce zu bringen. Der Punkt ist aber, sie haben es nicht versucht, also kann man damit auch nicht auf die Schnauze fallen, oder?

GK110 ist der Vollausbau und keine neue Generation. Wie kann man mit einem großen Chip hinterher sein, wenn man der einzige ist, der sowas baut? Auch das ergibt keinen Sinn.

Black-Scorpion

2012-12-15, 21:14:38

Erstens habe ich als AMD Fan eine Nvidia im Rechner. :confused:
Zweitens interessiert es sicher einige wenn AMD dann die zweite GPU Serie mit DX11.1 auf den Markt hat und Nvidia wieder einen DX11 Chip dagegen setzen will.
Und ganz genau es ist der Vollausbau der aktuellen Serie. Und natürlich hinkt man hinterher wenn sie es nicht schaffen ihre eigene Serie komplett auf den Markt zu bringen wenn der andere auf gut deutsch in den Startlöchern für den Nachfolger seiner GPUs steht.

boxleitnerb

2012-12-15, 21:20:53

War ja klar, dass man die 11.1-Keule rausholt, auch wenn das nicht direkt was mit dem Thema zu tun hat.

Nochmal:
Dass man etwas "schafft" impliziert, dass man es versucht. So gesehen könnte man genauso sagen, AMD hat es nie geschafft, einen so großen Chip wie Nvidia herauszubringen. Da siehst du mal, wie unsinnig das Argument ist.

Black-Scorpion

2012-12-15, 21:27:56

Vergiss es einfach. Wer nicht verstehen will tut das auch nicht. DX11.1 Keule sagt schon alles. Redet euch schön weiter ein das die Karte pünktlich ist und ganz genau gegen die nächste Serie von AMD stehen soll.

boxleitnerb

2012-12-15, 21:33:02

Dann erkläre es doch mal so, dass es Sinn macht und gehe auf die gebrachten Argumente ein, statt mit 11.1 das Thema zu wechseln.

Ri*g*g*er

2012-12-15, 21:47:15

Warum sollten die uns jetzt schon den dicken Vollausbau verkaufen wollen, wenn sie mit dem Consumer Chip ganz oben mitschwimmen und so viel mehr Gewinn erzielen können ?

Das hat nix mit können zu schaffen, sondern das nennt sich Marktwirtschaft.
Es werden einem nach und nach kleine Häppchen vorgesetzt und verkauft auch wenn man schon 200 % mehr Leistung rauskloppen könnte ...

Timbaloo

2012-12-15, 22:10:14

GK110 wird nicht DX 11.1 können? Na dann bleibe ich bei der HD3000 :(

Schaffe89

2012-12-15, 22:12:29

Es ist nicht das erste mal das Nvidia mit ihren Riesenchips auf die Schnauze fällt. Und was lernen sie daraus?

Bisher läuft doch alles gut, von was sprichst du da?
Man hat im GPGPU Markt die effizienteren Karten und hat im Gamer Markt durch eine minimal bessere Effizienz ( GTX 680 vs HD 7970) überzeugen können.

Klar vielleicht hat Nvidia nichts adequates gegen die GPGPU Karten der HD 8K Serie, aber selbst da sollte ein 15SMX Modell mit angepasstem Takt ausreichen.

Die Dual Variante mit 375 Watt TDP wirkt da eher als Notlösung.

Skysnake

2012-12-16, 09:09:01

Bisher läuft doch alles gut, von was sprichst du da?
Man hat im GPGPU Markt die effizienteren Karten und hat im Gamer Markt durch eine minimal bessere Effizienz ( GTX 680 vs HD 7970) überzeugen können.

Klar vielleicht hat Nvidia nichts adequates gegen die GPGPU Karten der HD 8K Serie, aber selbst da sollte ein 15SMX Modell mit angepasstem Takt ausreichen.

Die Dual Variante mit 375 Watt TDP wirkt da eher als Notlösung.
Beim GF100 sind Sie auf die Schnauze gefallen, GF110 war dann TOP (bzw eher der Chip, den man sich von GF100 versprochen hatte) und GK110 ist eben noch immer nicht im Consumer-Bereich auf dem Markt und selbst im Profimarkt NUR! als maximal 14 SMX Version, und die auch nur im HPC markt, und da auch NUR wieder in einem kleinen Bereich. Die "große" Masse (:freak:hier von groß reden WTF) bekommt aber ne 13 SMX Version, welche nicht mal das volle Speicherinterface hat....

Das ist jetzt nichts, wo ich in Jubelstürme ausbreche. Wenn man kritisch ist, kann man das schon als "auf die Schnauze gefallen" bezeichnen. Man bekommt halt keine voll funktionsfähigen Chip auf den Markt. Nicht mal als total überteuertes Nieschenprodukt für Prestige-Projekte.