nVidia - GK110 - High-End-Kepler - Q1 2013 [Archiv] - Seite 5

Ailuros

2012-08-22, 09:18:00

Es ist ja auch nur eine theoretische Frage:
Nur mal angenommen, Nvidia würde heute absolut verlässliche Informationen bekommen, dass die 8970 im November mit +30-40% an den Start geht. Würde man rechtzeitig (+/- 2-4 Wochen) mit GK110 kontern können? Das wären noch ca. 4 Monate hin.

Die Frage ist eher in solchen Faellen: wie gut kann sich jeglicher IHV von der "Spionage" eines jeglichen Konkurrenten so kurzfristig verstecken? Klar kommt es immer wieder mal vor dass einer den anderen fuer X Loesung falsch einschaetzt, aber in der Mehrzahl der Faelle stimmt irgend etwas nicht mit der Architektur oder es gibt irgendwelche Herstellungsprobleme die nicht unmittelbar vorhersehbar waren. In der Norm weiss der eine schon ueber den anderen mehr oder weniger bescheid was er kocht und das nicht nur ein paar Monate vor jeglichem launch.

Ich will zwar nichts ausschliessen aber nochmal wenn nichts krummes an einer Architektur liegt, wie oft ist es genau vorgekommen dass von einem Refresh durchschnittliche +30-40% zusaetzliche Leistung kommen? Einfaches Beispiel: R600 war von einer Reihe falscher Design-Entscheidungen geplagt (und auch TSMC's miserablem 80nm); RV670 war zwar schon ein gutes Stueck besser aber auch nicht gerade der Heilbringer. Erst mit RV7xx kam das erste "hoppla" und das u.a. weil die ROPs stark aufgepumpt wurden und man endlich single cycle 4xMSAA anbieten konnte.

Ich sehe nichts so krummes an GCN/Tahiti, dass ich mir etwas wie oben erhoffen koennte. Nun gut N mehr cluster und hoeherer Takt bleibt dann uebrig aber fuer durchschnittliche >30% Zusatz klingt weder der Aufwand/Kosten noch die Zwischenzeit ausreichend.

Ich kann natuerlich total falsch liegen, aber kann sein dass AMD ihre Vorteile anders ausspielen wird als viele erwarten:

http://forum.beyond3d.com/showpost.php?p=1661655&postcount=5326

robbitop

2012-08-22, 09:37:24

Erst mit RV7xx kam das erste "hoppla" und das u.a. weil die ROPs stark aufgepumpt wurden und man endlich single cycle 4xMSAA anbieten konnte.
Das hat schon was gebracht. Aber den Hauptgrund für den Riesensprung verheimlichst du gerade. Ganz nebenbei hatte RV770 2,5x so viele Recheneinheiten wie RV670. :D

Ich sehe nichts so krummes an GCN/Tahiti, dass ich mir etwas wie oben erhoffen koennte.
Naja - das leidige Thema: Front-End.
Wenn der Bremsklotz weg wäre, wäre man sicher ein ganze Stück flotter. NVIDIA schafft es mit deutlich weniger Rohleistung und Bandbreite ein ähnliches Ergebnis zu erzielen. Da ist mindestens noch ein Bremsklotz da. (das sieht man sehr schön, wenn man die Tahiti mit extremen Auflösungen + SSAA beläd - sie steht dann auf einmal deutlich besser da - so wie auch ihre Vorgänger. Das Verhältnis schiebt sich dann auf Pixellast)

Wenn man das Frontend deutlich fixer bekommt, muss man gar nicht so viel Rechenleistung dazu packen um einen netten kleinen Sprung zu bekommen.

Historisch bedingt erwarte ich hier persönlich aber auch nur +20 %, da ich mir absolut unsicher bin, um man bei Sea Islands wirklich alle Bremsklötze lösen kann. (wenn es so einfach gewesen wäre, hätte man es vermutlich bereits getan)

Ailuros

2012-08-22, 09:51:29

Das hat schon was gebracht. Aber den Hauptgrund für den Riesensprung verheimlichst du gerade. Ganz nebenbei hatte RV770 2,5x so viele Recheneinheiten wie RV670. :D

War auch eine total neue Generation. Der Punkt ist dass nicht all zu viele Aenderungen von R600 zu RV670 moeglich waeren auf fuer die ROPs obwohl es eigentlich nur nach einer "einfachen" Aenderung klingt.

Naja - das leidige Thema: Front-End.
Wenn der Bremsklotz weg wäre, wäre man sicher ein ganze Stück flotter. NVIDIA schafft es mit deutlich weniger Rohleistung und Bandbreite ein ähnliches Ergebnis zu erzielen. Da ist mindestens noch ein Bremsklotz da. (das sieht man sehr schön, wenn man die Tahiti mit extremen Auflösungen + SSAA beläd - sie steht dann auf einmal deutlich besser da - so wie auch ihre Vorgänger. Das Verhältnis schiebt sich dann auf Pixellast)

Wenn man das Frontend deutlich fixer bekommt, muss man gar nicht so viel Rechenleistung dazu packen um einen netten kleinen Sprung zu bekommen.

Historisch bedingt erwarte ich hier persönlich aber auch nur +20 %, da ich mir absolut unsicher bin, um man bei Sea Islands wirklich alle Bremsklötze lösen kann. (wenn es so einfach gewesen wäre, hätte man es vermutlich bereits getan)

Siehe oben und weiter oben ;)

fondness

2012-08-22, 09:53:42

Naja - das leidige Thema: Front-End.
Wenn der Bremsklotz weg wäre, wäre man sicher ein ganze Stück flotter. NVIDIA schafft es mit deutlich weniger Rohleistung und Bandbreite ein ähnliches Ergebnis zu erzielen. Da ist mindestens noch ein Bremsklotz da. (das sieht man sehr schön, wenn man die Tahiti mit extremen Auflösungen + SSAA beläd - sie steht dann auf einmal deutlich besser da - so wie auch ihre Vorgänger. Das Verhältnis schiebt sich dann auf Pixellast)

Wenn man das Frontend deutlich fixer bekommt, muss man gar nicht so viel Rechenleistung dazu packen um einen netten kleinen Sprung zu bekommen.

Historisch bedingt erwarte ich hier persönlich aber auch nur +20 %, da ich mir absolut unsicher bin, um man bei Sea Islands wirklich alle Bremsklötze lösen kann. (wenn es so einfach gewesen wäre, hätte man es vermutlich bereits getan)

Es geht darum in der Gesamtheit einen möglichst effizienten Chip (Die-Fläche, Perf/Watt, etc.) zu designen, nicht bei möglichst wenig Einheiten oder GPixel möglichst schnell zu sein. NV ist mit der GTX680 ganz bewusst den AMD-Weg gegangen: Die GTX680 hat dreimal so viele Einheiten wie eine GTX580, ist aber kaum schneller.

AMD wird das Frontend nicht weiter aufbohren, wenn die Kosten den Nutzen übersteigen. Man hat hier in den vergangenen Jahren immer nur so viel gemacht wie notwendig. 2013 stehen 4K Monitore für den Desktop an, die Last wird sich also in Zukunft ganz von alleine weiter in Richtung Pixel verschieben. Zumal die Leistung eh dann benötigt wird wenn die Karte gefordert wird, und nicht um in niedrigen Auflösungen die fps vielleicht noch um ein paar Prozent zu steigern.

Was ich damit sagen will: Das Frontend ist eine bewusste Designentscheidung und sicherlich kein "Bremsklotz".

y33H@

2012-08-22, 10:03:35

Kaum schneller?

fondness

2012-08-22, 10:12:03

Kaum schneller?

Das war natürlich Takt-bereinigt zu verstehen und vor allem im Verhältnis zu Steigerung der Einheitenanzahl.

robbitop

2012-08-22, 10:35:43

Es geht darum in der Gesamtheit einen möglichst effizienten Chip (Die-Fläche, Perf/Watt, etc.) zu designen, nicht bei möglichst wenig Einheiten oder GPixel möglichst schnell zu sein. NV ist mit der GTX680 ganz bewusst den AMD-Weg gegangen: Die GTX680 hat dreimal so viele Einheiten wie eine GTX580, ist aber kaum schneller.

Und genau da ist die Tahiti ggü der GK104 relativ schlecht. Sie ist deutlich größer - ein Hauptgrund sind die Erhöhte Anzahl der Ausführungseinheiten und ein 50 % größereres SI.

AMD wird das Frontend nicht weiter aufbohren, wenn die Kosten den Nutzen übersteigen.

GK104 hat ein vierfaches Frontend. Und das bei seiner kleinen Größe. Das kann nicht so Transistorfressend sein. Es ist schon enrom was GK104 aus der DIE Size holt.

2013 stehen 4K Monitore für den Desktop an, die Last wird sich also in Zukunft ganz von alleine weiter in Richtung Pixel verschieben. Zumal die Leistung eh dann benötigt wird wenn die Karte gefordert wird, und nicht um in niedrigen Auflösungen die fps vielleicht noch um ein paar Prozent zu steigern.

Sagst du so. GPUs werden nunmal leider nach Benchmarks verkauft. Und das werden auch 2013 FullHD und 25x14er Benchmarks sein.

Was ich damit sagen will: Das Frontend ist eine bewusste Designentscheidung und sicherlich kein "Bremsklotz".

Das bezweifle ich. Wenn man sich die Skalierung der Radeons seit der HD2000 ansieht und mit der Steigerung der Anzahl der Recheneinheiten vergleicht, sinkt das Verhältnis. Leistungssteigerung wird also immer teurer.
NVIDIA hat das früh erkannt und hat ordentlich R&D in genau das Nadelöhr investiert.
Das Front End zu parallelisieren ist nicht so trivial, dass es mal eben implementiert ist.
AMD hat sich ja bereits daran versucht mit dne Dual Rasterizern, was aber wenig gebracht hat.

Am Ende ist all das nur Spekulation und wir werden sehen, was dabei herauskommt. Im Moment liefert NV den effizienteren Chip.

fondness

2012-08-22, 10:54:50

Und genau da ist die Tahiti ggü der GK104 relativ schlecht. Sie ist deutlich größer - ein Hauptgrund sind die Erhöhte Anzahl der Ausführungseinheiten und ein 50 % größereres SI.

Der Vergleich hinkt und das weißt du auch. 1TFLOP DP oder ordentliche Registersize für GPGPU ist eben nicht umsonst. Ich bin gespannt wie sich ein GK106 gegen Pitcain schlägt. So wie es aktuell aussieht reicht es bei ähnlicher Die-Size nur für eine 7850. GK107 ist auch nicht wirklich ein Effizienzwunder.

/Edit:
Ich würde eher den Umkehrschluss ziehen: Ohne den GPGPU-Ballast wäre ein Tahiti wohl nicht größer als ein GK104, trotz breiterem SI und mehr Einheiten.
Pitcain: 212mm², 1280SPs, 256bit SI
Tahiti: 365mm², 2048 SPs, 384bit SI

Ailuros

2012-08-22, 11:08:02

Das war natürlich Takt-bereinigt zu verstehen und vor allem im Verhältnis zu Steigerung der Einheitenanzahl.

Es wird selbst Takt-bereinigt heikel zu verstehen da es 512SPs@1.544GHz gegen 1536SPs@1.006GHz sind. Wenn man die Frequenz-Unterschied beruecksichtigt, sind es nicht mehr 3x Mal sondern eher 2x Mal so viele Einheiten.

/Edit:
Ich würde eher den Umkehrschluss ziehen: Ohne den GPGPU-Ballast wäre ein Tahiti wohl nicht größer als ein GK104, trotz breiterem SI und mehr Einheiten.
Pitcain: 212mm², 1280SPs, 256bit SI
Tahiti: 365mm², 2048 SPs, 384bit SI

Und die TMUs sind umsonst im zweiten Fall oder wie soll ich das verstehen?

fondness

2012-08-22, 11:15:45

Und die TMUs sind umsonst im zweiten Fall oder wie soll ich das verstehen?

Wie kommst du darauf? Die TMUs verhalten sich proportional zu den ALUs. Das war nur eine kurze Auflistung um die überpropotionale Steigerung bei Tahiti aufgrund der GPGPU-Transistoren zu verdeutlichen.

Es wird selbst Takt-bereinigt heikel zu verstehen da es 512SPs@1.544GHz gegen 1536SPs@1.006GHz sind. Wenn man die Frequenz-Unterschied beruecksichtigt, sind es nicht mehr 3x Mal sondern eher 2x Mal so viele Einheiten.

Und die TMUs sind umsonst? :D
Die Leistungssteigerung ist trotzdem deutlich geringer...

So ich bin jetzt weg, geht ab in den Urlaub nach Kreta. :)

robbitop

2012-08-22, 11:23:05

Der Vergleich hinkt und das weißt du auch. 1TFLOP DP oder ordentliche Registersize für GPGPU ist eben nicht umsonst. Ich bin gespannt wie sich ein GK106 gegen Pitcain schlägt. So wie es aktuell aussieht reicht es bei ähnlicher Die-Size nur für eine 7850. GK107 ist auch nicht wirklich ein Effizienzwunder.

/Edit:
Ich würde eher den Umkehrschluss ziehen: Ohne den GPGPU-Ballast wäre ein Tahiti wohl nicht größer als ein GK104, trotz breiterem SI und mehr Einheiten.
Pitcain: 212mm², 1280SPs, 256bit SI
Tahiti: 365mm², 2048 SPs, 384bit SI

Ich kann leider nicht quantifizieren, wieviel davon für GPU drauf geht und wieviel für Rohleistung / SI. Pitcairn scheint auf jedem Fall wesentlich flächeneffizienter zu sein. Da hast du Recht. Allerdings hängt der auch kaum am Frontend und kann seine Leistung besser auf die Straße bringen. (und jetzt bitte nicht schon wieder mit SSAA/Oversampling Benchmarks kommen - ich rede von nicht Extremen Pixel/Geometrielastfällen sondern von normalen - danach werden die Dinger nunmal verkauft)

Ailuros

2012-08-22, 11:34:35

Wie kommst du darauf? Die TMUs verhalten sich proportional zu den ALUs. Das war nur eine kurze Auflistung um die überpropotionale Steigerung bei Tahiti aufgrund der GPGPU-Transistoren zu verdeutlichen.

Weil es eben nicht so einfach ist wie Du es illustrierst. Klar kostet die zusaetzliche HPC orientierte Logik mehr Transistoren (breiterer Bus mitberechnet), aber so gross ist die Menge nun auch wieder nicht wie man aus Deinem vorigen Post herauslesen koennte.

Und die TMUs sind umsonst? :D
Die Leistungssteigerung ist trotzdem deutlich geringer...

Du hast 3x Mal so viel Einheiten erwaehnnt; zwischen GK104 sind es lediglich 3x Mal so viel SPs und 2x Mal so viel TMUs wenn man den Takt ignoriert. Nur auf die SPs konzentriert sind es taktbereinigt 2x Mal so viele SPs auf GK104. Die Leistungsteigerung zwischen GTX680 und GTX580 ist bei +/-30% im Durchschnitt und das fuer einen performance vs. einen high end chip. Wenn man nicht Aepfel gegen Birnen vergleicht ist es wohl eher GK110 vs. GF110 und hier ist der Transistoren-Zusatz eher bombastisch.

So ich bin jetzt weg, geht ab in den Urlaub nach Kreta. :)

Schick mir eine PM.

fondness

2012-08-22, 11:37:44

Ich kann leider nicht quantifizieren, wieviel davon für GPU drauf geht und wieviel für Rohleistung / SI.

Da die GPGPU-Features das einzige sind was Tahiti von Pitcain abhebt kann der einzige Schluss nur lauten das ein Beträchtlicher Teil der Die-Size-Steigerungen dafür drauf geht.

Du wirst ja wohl mit mir übereinstimmen das 768 zusätzliche SPs und ein 50% breites SI nicht 153mm² Die Size benötigen wenn man bei Pitcain 1280SPs, ein 256bit SI und Front-/Backend in 212mm² unterbringt. :)

So jetzt aber wirklich, auch wenns spannend ist :)

AnarchX

2012-08-22, 11:41:00

Mal sehen ob AMD mit SeaIslands vielleicht einen Non-GPGPU-Chip bei 250-300mm² positioniert, der GK104 entsprechend gefährlich werden kann.

GK104 zieht konsequent Vorteile, daraus dass man die mittlerweile ineffizente ALU-Domain entsorgt hat und den GDDR5-IMC gefixt hat. Ansonsten ist er teilweise ziemlich verkrüppelt (Register-Size auf den Niveau von GF104).

Wichtig ist wohl nun erstmal, dass TSMC die Yield noch weiter steigert und die Stückzahlen in den Fabs erhöht.

Du wirst ja wohl mit mir übereinstimmen das 768 zusätzliche SPs und ein 50% breites SI nicht 153mm² Die Size benötigen wenn man bei Pitcain 1280SPs, ein 256bit SI und Front-/Backend in 212mm² unterbringt. :)

Der IMC von Tahiti ist aber wohl nicht nur breiter, sondern auch deutlich potenter: 7Gbps+ (vlt. testet man mit Tahiti entsprechend ES-GDDR5).
Zusammen mit einer ~300W Max-TDP ergibt sich da wohl schon ein entsprechend größerer Flächenbedarf beim Pin-Out.

robbitop

2012-08-22, 11:47:46

Laut Fudzilla soll TSMC gesagt haben, dass ab Q4 2012 sämtliche 28 nm Shortages beseitigt seien. Pünktlich zum GK110 Launch. Dann werden sich die Preise normalisieren und GK1x4 wirklich zum Performance Markt gehören.
Bei 40 nm hat es ja auch fast 1 Jahr gedauert, bis die Yields gut waren und die Lieferengpässe beseitigt werden konnten.

boxleitnerb

2012-08-22, 11:53:10

Fairerweise muss man aber auch sagen, dass (wie von Ailuros schon angedeutet) Tahiti GK104 davonrennt, wenn Compute richtig eingesetzt wird in Spielen. Wenn sich diese Fälle häufen, kann man die beiden Chips nicht mehr auf eine Stufe stellen, was die Performance angeht und dann sieht es bei Perf/mm2 und Perf/W schon anders aus.

Ailuros

2012-08-22, 11:54:57

Bei 40 nm hat es ja auch fast 1 Jahr gedauert, bis die Yields gut waren und die Lieferengpässe beseitigt werden konnten.

Ja nur kam die 560Ti nicht mit so einem bombastischem Preis an wie die GTX680 LOL :biggrin:

Fairerweise muss man aber auch sagen, dass (wie von Ailuros schon angedeutet) Tahiti GK104 davonrennt, wenn Compute richtig eingesetzt wird in Spielen. Wenn sich diese Fälle häufen, kann man die beiden Chips nicht mehr auf eine Stufe stellen, was die Performance angeht und dann sieht es bei Perf/mm2 und Perf/W schon anders aus.

Genau. Aber es kommt immer wieder auf's gleiche zurueck:

Nothing is for free in 3D. Kristof Beets

Skysnake

2012-08-22, 12:10:05

jup, dem kann man nur zustimmen.

Es sind halt einfach zwei unterschiedliche Chips mit unterschiedlichen Ausrichtungen. Gelungen sind meiner Meinung nach beide, auch wenn ich persönlich die Tahiti Ausrichtung als GPGPU-Mensch natürlich deutlich interessanter/besser finde ;D

y33H@

2012-08-22, 12:25:22

Fairerweise muss man aber auch sagen, dass (wie von Ailuros schon angedeutet) Tahiti GK104 davonrennt, wenn Compute richtig eingesetzt wird in Spielen.Beispiele?

Ailuros

2012-08-22, 12:26:20

Beispiele?http://www.forum-3dcenter.org/vbulletin/showpost.php?p=9434042&postcount=1009

Gaestle

2012-08-22, 13:57:48

Ich kann natuerlich total falsch liegen, aber kann sein dass AMD ihre Vorteile anders ausspielen wird als viele erwarten:

http://forum.beyond3d.com/showpost.php?p=1661655&postcount=5326

Bei meinem versuch, den Inhalt des Links zu deuten, bin ich über "forward+ rendering" gestolpert, weshalb mich eine Suchmaschine dann hierher geführt hat:
http://www.gamedev.net/topic/622221-revival-of-forward-rending/

Holzweg?

dildo4u

2012-08-22, 14:01:44

Dirt Showdown nutzt Forward+ und compute Shader.

http://www.legitreviews.com/article/2006/11/

Nvidia hat bis jetzt noch nicht optemiert aufs Game wird interresant ob sie das aufholen können.

aufkrawall

2012-08-22, 14:22:57

Dirt Showdown nutzt Forward+ und compute Shader.

http://www.legitreviews.com/article/2006/11/

Nvidia hat bis jetzt noch nicht optemiert aufs Game wird interresant ob sie das aufholen können.
Ist DX11 Compute Performance teilweise mit PhysX vergleichbar?
Bei vielen älteren PhysX-Titeln/Benchmarks ist GK104 ziemlich lahm, aber bei Borderlands 2 soll Kepler laut Nvidia ziemlich abgehen damit.

dildo4u

2012-08-22, 14:32:04

Ailuros

2012-08-23, 08:40:27

Imo alles ne Treiber Sache bzw wie die Shader geschrieben wurden,die 660Ti hat genug Shaderleistung um zumindest mit der 7870 gleich zu ziehen.Bei der 500 Generation war der Abstand zu AMD viel größer was da angeht.

http://www.computerbase.de/artikel/grafikkarten/2012/test-nvidia-geforce-gtx-660-ti/

Was nutzen sterile FLOP Anzahlen wenn moeglicherweise surrounding logic die Bremse sein koennte. Komischerweise aus genau dem gleichem Review:

http://www.computerbase.de/artikel/grafikkarten/2012/test-nvidia-geforce-gtx-660-ti/11/

http://www.computerbase.de/artikel/grafikkarten/2012/test-nvidia-geforce-gtx-660-ti/12/

Schoen es ist nicht ueberall eine win-win Situation fuer AMD's GCN GPUs, aber im Durchschnitt ist es schon ein sehenswerter Vorsprung.

Nebenbei ich bin mir gar nicht so sicher als Laie dass wenn man N% an die area dazugewinnt um bei X zu sparen und dann Y Resourcen aufwenden muss um moeglichen gaming code richtig hinzubiegen am Ende irgend einen besonderen Gewinn bringt was die Kosten betrifft.

Das einzige was ich diesbezueglich sagen wuerde, ist dass ich AMD's DevRel nicht zutraue so aggressiv zu sein einen besonders grossen Unterschied zu machen.

Skysnake

2012-08-23, 08:44:44

DevRel?

Gaestle

2012-08-23, 09:14:20

Wirkliche Verständnisfrage oder Ironie?

Developer Relation(ship) => Zusammenarbeit mit / Beziehungen zu den Entwicklern und damit in gewisser Weise auch Einfluss auf die Entwickler (und auf welchem von mehreren möglichen Wegen bestimmte Probleme gelöst werden)

Skysnake

2012-08-23, 09:34:19

Doch war ernst gemeint. Ich stand nämlich aufm Schlauch :P

Mancko

2012-08-23, 12:32:40

dildo4u

2012-08-23, 13:46:46

Was nutzen sterile FLOP Anzahlen wenn moeglicherweise surrounding logic die Bremse sein koennte. Komischerweise aus genau dem gleichem Review:

http://www.computerbase.de/artikel/grafikkarten/2012/test-nvidia-geforce-gtx-660-ti/11/

http://www.computerbase.de/artikel/grafikkarten/2012/test-nvidia-geforce-gtx-660-ti/12/

Schoen es ist nicht ueberall eine win-win Situation fuer AMD's GCN GPUs, aber im Durchschnitt ist es schon ein sehenswerter Vorsprung.

Nebenbei ich bin mir gar nicht so sicher als Laie dass wenn man N% an die area dazugewinnt um bei X zu sparen und dann Y Resourcen aufwenden muss um moeglichen gaming code richtig hinzubiegen am Ende irgend einen besonderen Gewinn bringt was die Kosten betrifft.

Das einzige was ich diesbezueglich sagen wuerde, ist dass ich AMD's DevRel nicht zutraue so aggressiv zu sein einen besonders grossen Unterschied zu machen.
Der einzige aufs Gameing bezogene Bench sieht die 660TI auf Level der 7970,DP Leistung ist dort ja nich gefragt.

Ailuros

2012-08-24, 02:46:23

Klingt durchaus ueberzeugend :rolleyes:

PHuV

2012-08-24, 20:55:29

Tesla K20: Mit Hyper-Q um Faktor 2,5 schneller (http://www.heise.de/newsticker/meldung/Tesla-K20-Mit-Hyper-Q-um-Faktor-2-5-schneller-1674734.html)

Blediator16

2012-08-25, 00:07:49

Der Benchmark simuliert dabei 864 Wassermoleküle mit einem 16-Kern-Interlagos-System von AMD und einer Tesla-K20-Rechenkarte.

:biggrin:

Knuddelbearli

2012-08-25, 00:27:13

damit man möglichst viel rausholt muss die IPC möglichst gering sein mit zugleich sehr vielen kernen

und schon hat man eine werbewirksame folie die nicht erfunden ist aber wo es in echt deutlich weniger ausmacht ^^

Skysnake

2012-08-26, 12:37:37

Tesla K20: Mit Hyper-Q um Faktor 2,5 schneller (http://www.heise.de/newsticker/meldung/Tesla-K20-Mit-Hyper-Q-um-Faktor-2-5-schneller-1674734.html)
Das ist ja mal die MEGA Verarsche....

Warum sollte man nur einen MPI-Prozess je Core laufen lassen? Ok, wenn man extrem viel Kommunikation hat, und damit dann praktisch busy waiting macht, dann ok, aber ansonsten....

Der Vergleich ist absolut nicht gerecht, wie ich finde. Mit nur einem MPI-Prozess nutzt man nur 1/16 der CPU-Ressourcen (sofern man nicht noch z.B. PThreads nutzt). Dazu kommt dann eben auch noch, das man die GPU sehr wahrscheinlich nicht voll ausnutzt.

Hyper-Q bringt zwar einiges, aber hier sollte allein schon die Möglichkeit mehreren Prozessen den Zugriff auf die GPU zu erlauben einen Performancegewinn bringen.

Ich weiß gerade nicht mehr, oder man auf ein DEVICE mit mehreren Prozessen zugreifen kann, aber sollte eigentlich möglich sein. Der GPU-Treiber sollte dann das Sheduling übernehmen.

Also wie gesagt, meiner Meinung nach ein ganz böser Äpfel mit Birnen Vergleich, soweit ich es zumindest bis jetzt abschätzen kann

HPVD

2012-08-26, 22:50:37

ist zwar nicht soviel neues drin und schon vom 19.juni - aber ich habs noch nicht in dieser übersichtlichen Form gesehen: ein offizielles whitepaper zum GK110
http://www.nvidia.com/content/PDF/kepler/NVIDIA-Kepler-GK110-Architecture-Whitepaper.pdf

wenns hier schon verlinkt wurde - sorry

Hübie

2012-08-27, 10:10:15

Ist der selbe oberflächliche Marketingquark wie schon seit Juni bekannt ;)

@skysnake: Vielleicht sollte damit auch einfach nur die größere Unabhängigkeit von der Anzahl der Kerne aufgezeigt werden? ;) Maaarketing min Jung!

Hades11

2012-08-28, 10:43:20

CB hat auch mal wieder was geschrieben, wie erwartet keine Überraschungen.
http://www.computerbase.de/news/2012-08/kommt-nvidias-gk110-fuer-desktop-pcs-nicht-vor-maerz-2013/

Hübie

2012-09-01, 02:13:03

GK110 soll 1536 KB L2 Cache haben. Pro SMX oder insgesamt? Oder wie oder wat? Ail, was sagst? :|

y33H@

2012-09-01, 02:32:10

1,5M für den kompletten Chip und damit das Doppelte eines GF110.

Spasstiger

2012-09-01, 08:39:02

Gibt es eigentlich (ggf. theoretische) Untersuchungen zum Cacheeinfluß bei aktuellen GPU-Architekturen? Man muss ja bei der Flächennutzung immer abwägen zwischen Cache und Recheneinheiten. 1,5 MiB auf über 500 mm² in 28 nm klingt erstmal sehr wenig (max. 2% der Diefläche macht das wohl aus), die Frage ist aber, ob es z.B. einen Vorteil bringen würde, auf einen SMX zu verzichten und die Fläche für Caches zu verwenden.
Caches können auch attraktivere Redundanzen darstellen als Recheneinheiten, um die Yieldraten bei so großen Chips hochzuhalten. Im Moment spielen die Caches auf GPUs vermutlich keine nennenswerte Rolle als Redundanz, ganz im Gegensatz zu den CPUs.

Skysnake

2012-09-01, 12:00:07

Gibt es eigentlich (ggf. theoretische) Untersuchungen zum Cacheeinfluß bei aktuellen GPU-Architekturen? Man muss ja bei der Flächennutzung immer abwägen zwischen Cache und Recheneinheiten.

Das kann man so pauschal nicht sagen. Das liegt halt in der Natur von Caches. Sie cachen halt, und je nach dem wie der Workload aussieht liegt der der Einfluss eines Caches zwischen 0 und 100%. Kommt halt immer auf die Art und Weise drauf an, wie du auf deine Daten zugreifst.

Bei Streams (also du verwendest jedes Datum nur einmalig) bringen Caches z.B. gar nichts. Wenn können Sie noch dafür genutzt werden die Lese/Schreibvorgänge zu verbessern, wenn nicht eh schon alligned gelesen/geschrieben wird.

Wenn dein Workload dafür komplett in den Cache passt, dann ist dein Speedup optimal, weil du die Speicherstufe drüber eigentlich gar nicht mehr brauchst.

1,5 MiB auf über 500 mm² in 28 nm klingt erstmal sehr wenig (max. 2% der Diefläche macht das wohl aus), die Frage ist aber, ob es z.B. einen Vorteil bringen würde, auf einen SMX zu verzichten und die Fläche für Caches zu verwenden.

Also für 1,5 MB würde ich eher was in die Richtung von 20 mm² setzen. Sind also eher so 5%, aber ohne die ganze Ansteuerlogik und die breiten Busse, die man auf GPUs hat. Bis zu 10% für den Cache würde ich daher schon als durchaus realistisch betrachten. Es ist also nicht wirklich komplett umsonst, aber auch nicht unrealistisch teuer. Wenn seh ich hier eher die Leistungsaufnahme als kritisch. Man muss den größeren Cache ja auch immer durchsuchen, und GPUs sind Power-limited.

Caches können auch attraktivere Redundanzen darstellen als Recheneinheiten, um die Yieldraten bei so großen Chips hochzuhalten. Im Moment spielen die Caches auf GPUs vermutlich keine nennenswerte Rolle als Redundanz, ganz im Gegensatz zu den CPUs.
Kann man so wohl nicht wirklich sagen. Ich gehe davon aus, dass die das so machen wie die DRAM-Hersteller. Einfach für jede Line 1-2 Bits mehr verbauen und auch paar Lines insgesamt mehr, und dann halt schauen was funktioniert. Das funktioniert zumindest bei DRAM extrem gut, und kann ich mir hier auch gut vorstellen. Damit hat man halt quasi 0% Ausschauss, weil immer genug funktioniert, und was man nicht braucht kann man komplett tot legen, und die paar bits kosten auch nicht die Welt, wenn man bedenkt, das man dafür praktisch immer voll funktionsfähige Caches hat.

Spasstiger

2012-09-01, 15:28:44

Also für 1,5 MB würde ich eher was in die Richtung von 20 mm² setzen.
Hm, hatte mit deutlich weniger gerechnet, bin aber auch von der Größe einzelner SRAM-Zellen ausgegangen. Wenn ich mit der "raw gate density" von 3900 kGates/mm² eines 64-Mbit-SRAM-Chip in 28 nm rechne (Quelle (http://www.eetasia.com/ART_8800576177_499486_NT_bf357f4c.HTM)), komme ich auch auf die 20 mm² für 1,5 MiB Cache. Gegenüber 500-550 mm² ist das trotzdem nicht die Welt.

Skysnake

2012-09-01, 20:48:02

Naja, klar ist es nicht "die Welt", aber son Cache muss halt bei JEDEM Zugriff durchsucht werden, und das verbrennt schon kräftig Strom, klar ist es nur ein kleiner Bruchteil, aber sind halt doch wieder ein paar Watt.

Ich sehs aber als Schritt in die richtige Richtung an, wobei mir 3 oder mehr MB noch lieber gewesen wären. Wenn ich es mir sogar hätte aussuchen können, dann hätte ich nen doppelt so großen SharedMemory genommen, also "Cache" für die SMX, den ich direkt ansprechen kann.

Fermi z.B. war bei DGEMM rein durch die Bandbreite/Cachegröße limitiert, weil man nicht genug Daten zu den ALUs geschafft hat.

Wie gesagt, mehr L2 ist ganz nett, weil man eben nichts tun muss, Shared memory ist aber interessanter, weil ich das die Ausnutzung viel gezielter steuern kann, muss allerdings auch wieder von Hand die Sachen nutzen/anpassen.

GPUs brauchen auf jeden Fall für GPGPU Anwendungen viel mehr Cache, weil die Speicherbandbreiten einfach VIEL zu gering sind, und im Vergleich zur Rechenleistung auch noch VIEL zu langsam ansteigen. Ist halt genau die gleiche Entwicklungen wie schon sehr lange bei den CPUs. Rechenleistung und Speicherbandbreite gehen immer weiter auseinander....

Daher ist der HybridMemoryCube (oder auch sonst was, mit der gleichen Idee dahinter) auch so ne wichtige Entwicklung. Man schließt die Lücke endlich mal wieder (hoffentlich)

boxleitnerb

2012-09-10, 17:00:49

Von techpowerup, gefunden von UHJJ36 ausm Luxx:

http://www.abload.de/img/unbenannt75bpu.jpg (http://www.abload.de/image.php?img=unbenannt75bpu.jpg)

Glaub ich nicht ganz. Entweder keine 900 MHz oder keine 2880 SPs oder keine 225-250 W TDP (angenommen von mir) sondern eher 300 W. So kämen 1.728 TF DP raus.

Die "0" bei TMUs und ROPs sollen wohl heißen, sie wissen es nicht. Spricht aber irgendwas dagegen, die TMUs irgendwie komplett zu deaktivieren auf Teslas oder spart das keine nennenswerte Energie bei üblichen HPC-Lasten?

AnarchX

2012-09-10, 17:02:47

Nvidia schreibt doch selbst im Whitepaper, dass K20 keine 15 aktiven SMX bekommt.
Das wird einfach nur ein Datenbank-Eintrag bei TPU sein, der nicht ganz korrekt bzw. fertig ist.

Hübie

2012-09-11, 00:03:51

Kann man die ROPs für GPGPU nicht gebrauchen? :|

Die "News" ist einfach mal um wieder etwas Benzin auf die Glut zu kippen ;D Ist ja an sich nix neues und die 900 MHz sind mit Sicherheit nur spekuliert.

boxleitnerb

2012-09-11, 23:54:30

Erste K20 werden ausgeliefert, Nvidia hat "schon" 1000 Stück zusammengekratzt:

Oak Ridge National Laboratory (ORNL) has received a handful of the GPUs that will power their upcoming Titan supercomputer. Jeff Nichols, the lab’s scientific computing chief, confirmed that 32 Kepler processors from NVIDIA have been installed in the “development platform” when speaking with the Knoxville News Sentinel last week.

ORNL expects to receive roughly 1,000 more Tesla K20’s this week, enabling the next phase of the upgrade process to begin in earnest.

http://www.hpcwire.com/hpcwire/2012-09-10/oak_ridge_receives_first_batch_of_kepler_gpus_for_titan_supercomputer.html

Ich dachte, die Auslieferung ist viel später. D.h. die Yields können nicht sooooo schlecht sein. Jetzt ärgere ich mich wirklich, dass die GTX780 erst 2013 kommt. Eine Handvoll könnte man doch schon im Herbst unters Volk werfen, die Enthusiasten würden es dankbar annehmen.

Hübie

2012-09-12, 00:01:40

Afaik bekommen die aber (erst mal?) "nur" 996 Stück davon ;D Hatten ja durch ihr Projekt (Titan) die Zusage seitens nVidia bekommen als eine der ersten K20 zu bekommen. Kanada kommt als nächstes ;)

LG Hübie

boxleitnerb

2012-09-12, 00:03:08

Also wer arbeitet dort und schmuggelt ein paar Kärtchen raus? :D

Hübie

2012-09-12, 01:20:54

Kenne wen in Kanada. Aber psst. =) Is aber auch nich gesagt dass da wirklich was bei raus kommt. Man müsste mal mit wem direkt bei nV anbändeln ;D ;D

Ailuros

2012-09-12, 01:31:25

Erste K20 werden ausgeliefert, Nvidia hat "schon" 1000 Stück zusammengekratzt:

http://www.hpcwire.com/hpcwire/2012-09-10/oak_ridge_receives_first_batch_of_kepler_gpus_for_titan_supercomputer.html

Ich dachte, die Auslieferung ist viel später. D.h. die Yields können nicht sooooo schlecht sein. Jetzt ärgere ich mich wirklich, dass die GTX780 erst 2013 kommt. Eine Handvoll könnte man doch schon im Herbst unters Volk werfen, die Enthusiasten würden es dankbar annehmen.

Wenn Kepler Teslas tatsaechlich nur mit <15SMXs ankommen, dann heisst es vielleicht dass NV die voll operativen cores fuer einen desktop launch spaeter sammelt. Neben wafer yields (operative chips pro wafer) gibt es dann auch noch binning yields von den wafer yields wo es X% von 15SMX chips gibt, Y% von 14 SMX chips usw. Je weniger operative clusters desto hoeher die Anzahl.

Fuer GT200/65nm waren die yields fuer den monster die von 570+mm2 bei 62% und fuer Fermi/GF100 etwas ueber 50%. Ich kann mir schwer vorstellen dass die 28HP yields bei so hochkomplizierten chips besser als bei 40G am Anfang. Ergo mal rein aus der Luft geschaetzt sagen wir mal 50-60 operative chips von jeglichem wafer und weiss der Geier wie viele von diesen 15SMX schaffen.

Die 1000 chips fuer Oak Ridge sind ja nur ein Bruchteil von dem was NV an sie ausliefern muss. Ich kann mich jetzt nicht mehr an die genaue Anzahl erinnern aber es duerften schon noch um die 13000 uebrig sein. Ganz zu schweigen von allen anderen Tesla deals.

NV liefert Stueck fuer Stueck chips fuer Supercomputers aus, sammelt brav die 15 SMX Brocken von jedem production run und die chips mit der kleinsten SMX Anzahl kommt dann wie immer in Quadros.

Was genau ist eine handvoll von GK110 chips fuer desktop heute z.B.? Gerade genug samples um die Presse auszuliefern fuer reviews und sonst einen kunterbunten semi-paper launch? Wie dem auch sei es ist eine gute Indizie wenn man bedenkt dass GK110 mit aller Wahrscheinlichkeit seinen finalen tape out Anfanng Maerz hatte. Sieht wohl so aus als ob die Massenproduktion fast genau auf Trab liegt.

Hübie

2012-09-12, 01:44:30

Ich glaube das die binning yieldrate angesichts der Komplexität verschwindend gering ist. Ob es sich da lohnt die paar Chips bei Seite zu legen um später den topdog per paperlaunch rauszuhauen? Ich könnte mir eher denken dass man sich den 15. SMX als "Trumpf" für einen refresh offen hält sobald die yieldrate annehmbare Werte erreicht.
Aber gut das können wir alles nur erraten. Ich tippe auf 14 SMX für Tesla K20/GTX780 und 13 für Quadro. Später dann mal 15 für Desktop-Refresh.
Wenn ich mich richtig erinnere läuft bereits seit Ende Juli die Massenproduktion. Ein Mitarbeiter in HH erwähnte das "beiläufig".

Edit: Ist ja auch ne Frage des Verbrauchs...

Ailuros

2012-09-12, 10:00:24

Ich glaube das die binning yieldrate angesichts der Komplexität verschwindend gering ist. Ob es sich da lohnt die paar Chips bei Seite zu legen um später den topdog per paperlaunch rauszuhauen?

Dafuer muesste man wissen in welchem Zustand GK110 genau ist. GF100 mit dem problematischem interconnect erlaubte lediglich 1 operativen die pro wafer (und seltener 2) mit 16SMs und dazu mit ziemlich brutalem Stromverbrauch. Ein aehnliches Problem wird wohl GK110 schwer haben, aber bei so hoher Komplexitaet kann so manches mal schief gehen.

Anders wenn sie pro wafer zumindest sagen wir mal 20% von den wafer yields mit 15SMXs bekommen ist das Ganze natuerlich problemfrei. Bei 50-60 operativen chips pro wafer schaetzungsweise waeren es aber auch nicht mehr als 10-12 chips/wafer. Um auf eine hypothetische Anzahl von sagen wir mal 10k chips zu kommen mit sehr begrenzter weltweiter Verfuegbarkeit ist der Weg trotz allem ziemlich lang.

Ich könnte mir eher denken dass man sich den 15. SMX als "Trumpf" für einen refresh offen hält sobald die yieldrate annehmbare Werte erreicht.
Aber gut das können wir alles nur erraten. Ich tippe auf 14 SMX für Tesla K20/GTX780 und 13 für Quadro. Später dann mal 15 für Desktop-Refresh.
Wenn ich mich richtig erinnere läuft bereits seit Ende Juli die Massenproduktion. Ein Mitarbeiter in HH erwähnte das "beiläufig".

Ich wuerde sogar um einiges weniger SMXs fuer Quadros erwarten denn es wird ja nicht nur eine GK110/Quadro SKU geben. Anstatt z.B. einen 8 SMX chip wegzuschmeissen ist es immer noch besser diesen um etliche tausend $ zu verscherpeln.

Nach Geruechten und NV's Angaben sollen die yields/Kapazitaeten ab Q3 12' um ein gutes Stueck steigen. In dem Fall koennen sie theoretisch schon einen anstaendigeren desktop launch Anfang 2013 schaffen. Wenn die Dinger ueberhaupt GTX7xx genannt werden, gibt es dann halt "GTX780" in begrenzten Quantitaeten und "GTX770" mit um einiges besserer Verfuegbarkeit.

Edit: Ist ja auch ne Frage des Verbrauchs...

Wenn ein Tesla K20 mit hypothetischen 14 SMX um die 225-230W TDP haben sollte sehe ich kein besonderes Problem insgesamt. Die angeblichen 900MHz Takt fuer diese glaube ich aber persoenlich erst wenn ich sie sehe. Ich wuerde persoenlich nicht mehr als 700-750MHz fuer die Dinger erwarten. Wenn ein 14SMX Tesla bei 700-750MHz um die 225W verbraucht (auch Speicherueberschuss mitberechnet), koennte man fuer 15SMX dann schon bei 800-850MHz/3GB um die 250W TDP erwarten. Ist aber keineswegs sicher, anhand fehlender Einzelheiten momentan.

Sonst wuerde ich mir auch denken dass superteure Tesla chips die in supercomputers 24/7 einwandfrei laufen muessen, etwas vorsichtiger getestet werden als restliche chips. Wenn ja sind es dann eben nicht sagen wir mal 100 wafers fuer 1000 chips sondern um einiges mehr.

Hübie

2012-09-12, 10:16:36

Dafuer muesste man wissen in welchem Zustand GK110 genau ist. GF100 mit dem problematischem interconnect erlaubte lediglich 1 operativen die pro wafer (und seltener 2) mit 16SMs und dazu mit ziemlich brutalem Stromverbrauch. Ein aehnliches Problem wird wohl GK110 schwer haben, aber bei so hoher Komplexitaet kann so manches mal schief gehen.

Anders wenn sie pro wafer zumindest sagen wir mal 20% von den wafer yields mit 15SMXs bekommen ist das Ganze natuerlich problemfrei. Bei 50-60 operativen chips pro wafer schaetzungsweise waeren es aber auch nicht mehr als 10-12 chips/wafer. Um auf eine hypothetische Anzahl von sagen wir mal 10k chips zu kommen mit sehr begrenzter weltweiter Verfuegbarkeit ist der Weg trotz allem ziemlich lang.

Also steigen binning yields proportional zu wafer yields? Bin den Produktionsabläufen bin ich nicht sehr vertraut. Schon gar nicht wenn es um die Ausbeute und Anzahl der Wafer pro Tag o. Schicht geht. Probleme haben die garantiert nicht - jedenfalls nichts in der Größenordnung wie GF100.

Ich wuerde sogar um einiges weniger SMXs fuer Quadros erwarten denn es wird ja nicht nur eine GK110/Quadro SKU geben. Anstatt z.B. einen 8 SMX chip wegzuschmeissen ist es immer noch besser diesen um etliche tausend $ zu verscherpeln.

Nach Geruechten und NV's Angaben sollen die yields/Kapazitaeten ab Q3 12' um ein gutes Stueck steigen. In dem Fall koennen sie theoretisch schon einen anstaendigeren desktop launch Anfang 2013 schaffen. Wenn die Dinger ueberhaupt GTX7xx genannt werden, gibt es dann halt "GTX780" in begrenzten Quantitaeten und "GTX770" mit um einiges besserer Verfuegbarkeit.

Die größte Quadro mit weniger als 13? Glaube ich nicht. Man will doch Hollywood überzeugen ;) Als Namen stehen auch die 5er im Raum. Also GTX 685, 675 etc... würde aber imonicht deutlich genug den Performancesprung suggerieren - sofern er denn so groß ist?!

Wenn ein Tesla K20 mit hypothetischen 14 SMX um die 225-230W TDP haben sollte sehe ich kein besonderes Problem insgesamt. Die angeblichen 900MHz Takt fuer diese glaube ich aber persoenlich erst wenn ich sie sehe. Ich wuerde persoenlich nicht mehr als 700-750MHz fuer die Dinger erwarten. Wenn ein 14SMX Tesla bei 700-750MHz um die 225W verbraucht (auch Speicherueberschuss mitberechnet), koennte man fuer 15SMX dann schon bei 800-850MHz/3GB um die 250W TDP erwarten. Ist aber keineswegs sicher, anhand fehlender Einzelheiten momentan.

Sonst wuerde ich mir auch denken dass superteure Tesla chips die in supercomputers 24/7 einwandfrei laufen muessen, etwas vorsichtiger getestet werden als restliche chips. Wenn ja sind es dann eben nicht sagen wir mal 100 wafers fuer 1000 chips sondern um einiges mehr.

Ich glaube auch nicht an die 900 MHz in Tesla. Mir wurden 850@14SMX gesteckt. Aber ohne durchs Schlüselloch zu stiehlen weiß mans ja eh nicht.

Abseits dieser Sachen finde ich die Fragen ob turb-mode ja/nein, HyperQ sinnig ja/nein und dyn.paralism sinnig ja/nein viel spannender.

ps: Du hast mir mal gesagt dass du gerne verbessert wirst: es heißt verscherbeln nicht verscherpeln :freak: ;D

Ailuros

2012-09-12, 10:40:08

Also steigen binning yields proportional zu wafer yields? Bin den Produktionsabläufen bin ich nicht sehr vertraut. Schon gar nicht wenn es um die Ausbeute und Anzahl der Wafer pro Tag o. Schicht geht. Probleme haben die garantiert nicht - jedenfalls nichts in der Größenordnung wie GF100.

IMHO (und ich bin bei weitem auch nicht sooo gut informiert was das Thema betrifft) hat das eine mit dem anderen nichts zu tun. Verdammt vereinfacht niedrige wafer yields sind meistens foundry Verantwortung, waehrend niedrige binning yields des eigentlichen IHVs. TSMC bzw. jegliche foundry interessiert es wenig was die Bezahlung betrifft was die jeweiligen operativen chips schaffen oder nicht. Fuer die foundry sind es N% operative chips und X% total tote und danach die Sintflut.

Bei problematischer hw kann es durchaus vorkommen dass wafer yields anstaendig sind waehrend binning yields miserabel. GF100 ist so ein Beispiel; >50% wafer yields waren fuer den Anfang durchaus anstaendig fuer einen 530mm2 die auf einem neuen Prozess. 1% binning yields fuer 16SM chips dann natuerlich vollkommen miserabel.

Die größte Quadro mit weniger als 13? Glaube ich nicht. Man will doch Hollywood überzeugen ;) Als Namen stehen auch die 5er im Raum. Also GTX 685, 675 etc... würde aber imonicht deutlich genug den Performancesprung suggerieren - sofern er denn so groß ist?!

Alles 6xx ist eher absurd da GK110 ja auch seine zusaetzlichen Faehigkeiten behaupten wollen wird beim marketing (HyperQ, Dynamic Parallelism).

Sonst kann NV Quadros mit 8 SMX GK104 bedienen. Fuer alles zwischen 8 und 13 sollte es kein Angebot geben? Ich weiss es zwar nicht, aber bei den Wucherpreisen die die Quadros kosten, sehe ich nichts das dagegen spricht. Bei hypothetischen >50% wafer yields duerfte jeglicher core um die $100-120 kosten heute schaetzungsweise. Ist doch scheissegal wenn man N SMXs deaktiviert wenn man bei einer mainstream Quadro ein paar tausend $ reinholt.

Ich glaube auch nicht an die 900 MHz in Tesla. Mir wurden 850@14SMX gesteckt. Aber ohne durchs Schlüselloch zu stiehlen weiß mans ja eh nicht.

Abseits dieser Sachen finde ich die Fragen ob turb-mode ja/nein, HyperQ sinnig ja/nein und dyn.paralism sinnig ja/nein viel spannender.

ps: Du hast mir mal gesagt dass du gerne verbessert wirst: es heißt verscherbeln nicht verscherpeln :freak: ;D

Wenn's 850MHz fuer Tesla werden, wird GK110 desktop wohl noch schneller als ich erwarten wuerde. Abwarten und Tee trinken.

Danke fuer's "b". Wurde notiert und wird in Zukunft hoffentlich richtig benutzt ;)

Hübie

2012-09-12, 14:11:54

IMHO (und ich bin bei weitem auch nicht sooo gut informiert was das Thema betrifft) hat das eine mit dem anderen nichts zu tun. Verdammt vereinfacht niedrige wafer yields sind meistens foundry Verantwortung, waehrend niedrige binning yields des eigentlichen IHVs. TSMC bzw. jegliche foundry interessiert es wenig was die Bezahlung betrifft was die jeweiligen operativen chips schaffen oder nicht. Fuer die foundry sind es N% operative chips und X% total tote und danach die Sintflut.

Aber für die operativen Chips zahlen die doch nicht immer den selben Preis oder? Also bspw. bei GF100 für 14 Cluster 90$, 15 Cluster 100$ und 16 Cluster 110$... So stellte ich es mir bisher vor...?!

Alles 6xx ist eher absurd da GK110 ja auch seine zusaetzlichen Faehigkeiten behaupten wollen wird beim marketing (HyperQ, Dynamic Parallelism).

Full ack. Wollte es nur nicht unerwähnt lassen. Ich schmunzel regelmäßig über neu aufgetauchte Tabellen wo man einfach GK104, GF110 und GK110 in den Mixer geworfen hat und wilde Zahlenkombinationen hinschreibt. So las ich schon von 2688 Cores mit 256 Bit SI und 3 GiB VRAM :freak:

Sonst kann NV Quadros mit 8 SMX GK104 bedienen. Fuer alles zwischen 8 und 13 sollte es kein Angebot geben? Ich weiss es zwar nicht, aber bei den Wucherpreisen die die Quadros kosten, sehe ich nichts das dagegen spricht. Bei hypothetischen >50% wafer yields duerfte jeglicher core um die $100-120 kosten heute schaetzungsweise. Ist doch scheissegal wenn man N SMXs deaktiviert wenn man bei einer mainstream Quadro ein paar tausend $ reinholt.

Leider wird so etwas ja nie dargestellt. Man kann echt nur Rohstoff-, Großhandels und Endpreise nehmen um daraus ein geschätzten Mittelwert für PCB, Chip etc. zu ermitteln. Von Apple wurde so etwas mal geleaked. Waren afair ~200$ fürs iPhone 3GS (oder 3G?) :D
Übrigens haben die Kepler-Quadros doch 8 SM oder nicht? Lediglich der Takt wurde glaub ich gesenkt. Müsste nun aber losglupschen und da hab ich ehrlich gesagt gerade keine Lust zu =)

Wenn's 850MHz fuer Tesla werden, wird GK110 desktop wohl noch schneller als ich erwarten wuerde. Abwarten und Tee trinken

War nur von GK110 die Rede. Ob Tesla oder nicht muss man dann erraten. Ebenso ob plus Turbo oder nicht. Na ja aber besser als nix. ;D Die Info ist von Ende Juli. Glaube nicht dass die so spät noch die Taktschraube drehen oder? Da war ja schon "Massenfertigung"...

Danke fuer's "b". Wurde notiert und wird in Zukunft hoffentlich richtig benutzt ;)

Gern geschehen :biggrin:

john carmack

2012-09-14, 18:36:13

sagt mal... so ne frage zwischendurch...

Wieviel mehrleistung könnte Nvidia und AMD rausholen wenn man Adaptive Vertical Sync,3d Vision,Cuda,PhysX,ZeroCore, gpu computing und wie der ganze schnickschnack bei AMD heisst weglässt.

Frisst der ganze kram nicht auch irgendwie "Transistoren"
Könnte man die Transistoren nicht in "Mehrleistung" reinstecken?

Solche sachen wie Cuda,PhysX usw... nutze ich und ich denke auch viele andere Gamer eigentlich nicht wirklich...

Hades11

2012-09-15, 00:17:26

...Frisst der ganze kram nicht auch irgendwie "Transistoren"
Könnte man die Transistoren nicht in "Mehrleistung" reinstecken?

Ja das frisst auch etwas an transistoren (bzw. Chipfläche) und ja man könnte stattdessen auch mehr Gamingleistung in einen Chip bringen.
Kurz bis Mittelfristig wird das aber mit ziemlicher sicherheit nicht geschehen.
Physx ist eigentlich eine richtig gute sache - Sacred2 war da ein gutes beispiel für richtig geile PhysX effekte - die imho mit ausgeschaltetem PhysX nicht annähernd so gut aussahen. nur schade dass AMD es nicht hinbekommt das auch zu unterstützen, sonst wäre es vielleicht etwas populärer.
was 3Dvision betrifft - bist du dir sicher dass es dafür extra Hardwareeinheiten gibt? es werden einfach (ganz grob) 2 Bilder berechnet und mit hilfe der Brille für Jedes Auge eines dargestellt - ich wüsste nicht wofür man da extra einheiten bräuchte.

edit: was hat das eigentlich mit GK110 zu tun?

Blediator16

2012-09-15, 01:03:13

Ja das frisst auch etwas an transistoren (bzw. Chipfläche) und ja man könnte stattdessen auch mehr Gamingleistung in einen Chip bringen.
Kurz bis Mittelfristig wird das aber mit ziemlicher sicherheit nicht geschehen.
Physx ist eigentlich eine richtig gute sache - Sacred2 war da ein gutes beispiel für richtig geile PhysX effekte - die imho mit ausgeschaltetem PhysX nicht annähernd so gut aussahen. nur schade dass AMD es nicht hinbekommt das auch zu unterstützen, sonst wäre es vielleicht etwas populärer.
was 3Dvision betrifft - bist du dir sicher dass es dafür extra Hardwareeinheiten gibt? es werden einfach (ganz grob) 2 Bilder berechnet und mit hilfe der Brille für Jedes Auge eines dargestellt - ich wüsste nicht wofür man da extra einheiten bräuchte.

edit: was hat das eigentlich mit GK110 zu tun?

Das hat wohl eher weniger mit Wollen als mit Dürfen zutun:freak:

N0Thing

2012-09-15, 01:18:31

sagt mal... so ne frage zwischendurch...

Wieviel mehrleistung könnte Nvidia und AMD rausholen wenn man Adaptive Vertical Sync,3d Vision,Cuda,PhysX,ZeroCore, gpu computing und wie der ganze schnickschnack bei AMD heisst weglässt.

Meiner Meinung nach nicht viel, denn Adaptive V-Sync, 3D Vision und mit Abstrichen Zero Core sind primär Sachen des Treiber und zusätzlicher Software.
Cuda, PhysX (über Cuda), gpu computing lassen sich/werden über die GPGPU-Fähigkeiten der Grafikkarten realisiert. Gerade im professionellen Bereich kann und will man darauf nicht verzichten und solange Nvidia und AMD keine extra Chips für ihre Quadro/Tesla, bzw. FireGL-Karten auflegen, kommt man auch als Privatanwender in diesen Genuß.

Wenn man so will, hat man mit dem GK104 schon einen Chip, der nicht auf GPGPU ausgerichtet ist, sondern primär auf gute Performance in 3D-Anwendungen. Das GPGPU-Paket der Kepler-Reihe kommt ja erst mit dem GK110.

Ailuros

2012-09-15, 08:35:12

Aber für die operativen Chips zahlen die doch nicht immer den selben Preis oder? Also bspw. bei GF100 für 14 Cluster 90$, 15 Cluster 100$ und 16 Cluster 110$... So stellte ich es mir bisher vor...?!

Dann stellst Du es Dir falsch vor. Binning yields gehen die foundry nichts an da sie design-bedingt sind.

Leider wird so etwas ja nie dargestellt. Man kann echt nur Rohstoff-, Großhandels und Endpreise nehmen um daraus ein geschätzten Mittelwert für PCB, Chip etc. zu ermitteln. Von Apple wurde so etwas mal geleaked. Waren afair ~200$ fürs iPhone 3GS (oder 3G?) :D
Übrigens haben die Kepler-Quadros doch 8 SM oder nicht? Lediglich der Takt wurde glaub ich gesenkt. Müsste nun aber losglupschen und da hab ich ehrlich gesagt gerade keine Lust zu =)

Schon. GK110 fuer 8SMX/Quadro werden sie nur benutzen falls sie eine anstaendige Anzahl von so schlechten bins haben.

Ja das frisst auch etwas an transistoren (bzw. Chipfläche) und ja man könnte stattdessen auch mehr Gamingleistung in einen Chip bringen.
Kurz bis Mittelfristig wird das aber mit ziemlicher sicherheit nicht geschehen.
Physx ist eigentlich eine richtig gute sache - Sacred2 war da ein gutes beispiel für richtig geile PhysX effekte - die imho mit ausgeschaltetem PhysX nicht annähernd so gut aussahen. nur schade dass AMD es nicht hinbekommt das auch zu unterstützen, sonst wäre es vielleicht etwas populärer.
was 3Dvision betrifft - bist du dir sicher dass es dafür extra Hardwareeinheiten gibt? es werden einfach (ganz grob) 2 Bilder berechnet und mit hilfe der Brille für Jedes Auge eines dargestellt - ich wüsste nicht wofür man da extra einheiten bräuchte.

edit: was hat das eigentlich mit GK110 zu tun?

Gar nichts; in solch einem Fall ratet man einfach dass er eine 7870 bzw. 660 wasauchimmer kaufen sollte oder im besten Fall eine GTX680/670 und gut ist es.

Hades11

2012-09-15, 22:15:35

Das hat wohl eher weniger mit Wollen als mit Dürfen zutun:freak:
mir ist schon klar dass sie es dürften - alles was ich ausdrücken wollte ist dass sie keine PhysX unterstützenden graka´s rausgebracht haben.

Hübie

2012-09-15, 23:04:06

Hö? Dachte NVIDIA will Kohle wenn AMD PhysX unterstützt? :| Hab ich was verpasst?

Hades11

2012-09-16, 14:25:25

Ailuros

2012-09-17, 12:06:37

ob NV dafür geld verlangen würde weiß ich auch nicht genau - ich meine nur mal gelesen zu haben dass AMD wenn sie wirklich wollen auch PhysX unterstützen könnten und dürften. Ob sie das was an Patentgebüren kostet? ka

Dann hast Du wohl verpasst dass AMD PissX umsonst haben wollte und NV einfach nur f*** off antwortete :D

Hades11

2012-09-17, 13:02:46

und ich dachte mir NV wäre sich sicher mehr PhysX leistung als AMD hinzubekommen.
Wenn AMD jetzt auch PhysX hätte würde dieses vielleicht öfter genutzt - und die größere PhysX leistung wäre wieder ein Argument pro NV. Denn bei der Momentanen anzahl an Spielen die dass nutzen ist es eher nebensächlich. Hätte mich aber auch etwas gewundert wenn die genau so denken wie ich...:freak:

Blediator16

2012-09-17, 13:06:31

Dural

2012-09-17, 13:06:34

nv hat mal gesagt das jeder physx haben darf, jedoch will amd nicht.

laut nv ist physx lizenskosten frei.

seintens amd ist es aber nur logisch physx nicht zu unterstützten.

Iruwen

2012-09-17, 13:49:12

Als Alleinstellungsmerkmal? :D

Ailuros

2012-09-17, 13:56:43

nv hat mal gesagt das jeder physx haben darf, jedoch will amd nicht.

laut nv ist physx lizenskosten frei.

seintens amd ist es aber nur logisch physx nicht zu unterstützten.

Von einer Lizenz war nie die Rede, von konstenloser Unterstuetzung wohl schon :D

robbitop

2012-09-17, 13:58:42

Man wäre immer abhängig. Und NV würde es sicherlich für die eigene HW massiv besser optimieren. Wenn sich der Kram dann deswegen durchsetzt, ist es langfristig schlecht für AMD. Dann lieber nicht unterstützen und man gerät erst gar nicht in diese Situation. Kann ich schon gut verstehen.
Besser wäre eine unabhängige Physikengine die über OpenCL die GPUs nutzt.

aufkrawall

2012-09-17, 15:37:38

Besser wäre eine unabhängige Physikengine die über OpenCL die GPUs nutzt.
Wieso nicht gleich Compute?

N0Thing

2012-09-17, 15:51:57

Welchem Vorteil siehst du in Direct Compute gegenüber OpenCL? Ich sehe da aus der Perspektive des Anwenders nur eine Beschränkung auf Windows Vista/7/8.

aufkrawall

2012-09-17, 15:59:24

Welchem Vorteil siehst du in Direct Compute gegenüber OpenCL?

OpenCL soll bisweilen recht beschissen von den Treibern unterstützt werden.

Ich sehe da aus der Persketive des Anwenders nur eine Beschränkung auf Windows Vista/7/8.
Geht mit OpenGL überall.
UE4 wird ja auch Partikel-Physik über Compute haben.

Spasstiger

2012-09-17, 15:59:45

ComputeShader dürften Vorteile beim Kontextwechsel gegenüber OpenCL haben, wenn eh schon wie in fast allen neuen Spielen DirectX genutzt wird. Bei der Kombo Direct3D 10/11 plus DirectCompute 10/11 ist afaik überhaupt kein Kontextwechsel erforderlich.

N0Thing

2012-09-17, 16:26:53

OpenCL soll bisweilen recht beschissen von den Treibern unterstützt werden.

Was kann man sich darunter vorstellen? Schlechte Performance? Funktioniert gar nicht?

Geht mit OpenGL überall.
UE4 wird ja auch Partikel-Physik über Compute haben.

Was hat OpenGL mit DirectCompute zu tun?:confused: DirectCompute ist ein Teil der DirectX-Api.
Bei UE4 kommt für alle Kollisionsabfragen PhysX zum Einsatz. Link (http://www.geforce.com/whats-new/articles/stunning-videos-show-unreal-engine-4s-next-gen-gtx-680-powered-real-time-graphics/)

Eine Physik-Engine unter Verwendung von OpenCL wäre hersteller- und plattformunabhängig, also auch unter Unix-Systemen nutzbar. Und eventuell auch auf den nächsten Konsolen nutzbar.

aufkrawall

2012-09-17, 16:32:35

Was kann man sich darunter vorstellen? Schlechte Performance? Funktioniert gar nicht?

Ich meine hier mal gelesen zu haben, dass der Intel-Treiber weite Teile von OpenCL gar nicht unterstützt und dass Nvidia sich wenig Mühe gibt bis absichtliches Ausbremsen.

Was hat OpenGL mit DirectCompute zu tun?:confused: DirectCompute ist ein Teil der DirectX-Api.

OpenGL 4.3 unterstützt Compute Shader.

Bei UE4 kommt für alle Kollisionsabfragen PhysX zum Einsatz. Link (http://www.geforce.com/whats-new/articles/stunning-videos-show-unreal-engine-4s-next-gen-gtx-680-powered-real-time-graphics/)

Epic: Unreal Engine 4 nutzt mehr als die Hälfte der GPU-Leistung nicht mehr für Grafikdarstellung (http://www.pcgameshardware.de/Neue-Technologien-Thema-71240/News/Unreal-Engine-4-Was-leistet-die-Grafikkarte-907154/) (und das auch ohne PhysX ;) )

Eine Physik-Engine unter Verwendung von OpenCL wäre hersteller- und plattformunabhängig, also auch unter Unix-Systemen nutzbar.
Das interessiert mich nicht und für die Konsolen/Mobile Platforms muss eh alles angepasst werden bzw. da täte es zum Großteil sicherlich CPU-Physik.

N0Thing

2012-09-17, 17:10:47

Ich meine hier mal gelesen zu haben, dass der Intel-Treiber weite Teile von OpenCL gar nicht unterstützt und dass Nvidia sich wenig Mühe gibt bis absichtliches Ausbremsen.

Würde sich vielleicht ändern, wenn es eine Notwendigkeit zur besseren Unterstützung geben würde.

OpenGL 4.3 unterstützt Compute Shader.

Du hast immer nur etwas von compute geschrieben und im Zusammenhang mit OpenCL bin ich davon ausgegangen, daß du DirectCompute meinen würdest und nicht Compute Shader. Allerdings dazu auch direkt wieder eine Frage: Sind Compute Shader nicht die Einheiten auf der Grafikkarte, die über OpenCL, DirectCompute oder CUDA erst angesprochen werden müssen/können?

Epic: Unreal Engine 4 nutzt mehr als die Hälfte der GPU-Leistung nicht mehr für Grafikdarstellung (http://www.pcgameshardware.de/Neue-Technologien-Thema-71240/News/Unreal-Engine-4-Was-leistet-die-Grafikkarte-907154/) (und das auch ohne PhysX ;) )

Das wurde meiner Meinung nach von dem Autor nicht akkurat übersetzt, Tim Sweeney spricht davon: In the UE4 Elemental demo, the majority of the GPU’s FLOPS are going into general compute algorithms, rather than the traditional graphics pipeline.
Es geht also darum wie die Grafikdarstellung erreicht wird, nähmlich über die flexiblen Einheiten der Grafikkarte und weniger über die altbekannten fixed function Einheiten. ;)
Mir ging es in Bezug auf den Beitrag von robbitop immer noch um die Physik-Engine.

Das interessiert mich nicht und für die Konsolen/Mobile Platforms muss eh alles angepasst werden bzw. da täte es zum Großteil sicherlich CPU-Physik.

Ohne Support auf den Konsolen wird es auch für den PC auf lange Sicht keine durch die GPU beschleunigte Physikeffekte auf breiter Basis geben. Die 1-3 PhysX-Spiele pro Jahr mal ausgenommen, die sind ja sponsored by Nvidia. Extra für die paar PC-Verkäufe* lohnt sich das für keinen Publisher, wenn es auf den Konsolen nicht nutzbar ist. Man muß ja nicht wie bei vielen PhysX-Spielen daraus einen Showcase machen und mit Kanonen auf Spatzen schießen.

(*Im Vergleich zu den Absatzzahlen bei den Konsolen)

aufkrawall

2012-09-17, 17:38:30

Du hast immer nur etwas von compute geschrieben und im Zusammenhang mit OpenCL bin ich davon ausgegangen, daß du DirectCompute meinen würdest und nicht Compute Shader. Allerdings dazu auch direkt wieder eine Frage: Sind Compute Shader nicht die Einheiten auf der Grafikkarte, die über OpenCL, DirectCompute oder CUDA erst angesprochen werden müssen/können?

DirectCompute ist doch nur der Name der DX-API, über die die Compute Shader angesprochen werden können, oder nicht?
Ob das jetzt per OpenCL oder DirectCompute, erscheint mir oberflächlich erstmal wumpe. Ich lass mich allerdings gerne eines Besseren belehren.
Allerdings gibt es bisher afaik noch kein einziges Spiel, dass Compute via OpenCL mal irgendwie veranschaulicht hat. Vielleicht zu umständlich/aufwändig & es gibt mit DirectCompute eine sauberere Lösung?
DX ist ja eigentlich eh state of the art für aufwändige Projekte wie Crysis 3.

Mir ging es in Bezug auf den Beitrag von robbitop immer noch um die Physik-Engine.

Ok, wird sich zeigen, in wie weit die Compute-Physik gehen wird.
Läuft das Cone Raytracing nicht auch über Compute?

Ohne Support auf den Konsolen wird es auch für den PC auf lange Sicht keine durch die GPU beschleunigte Physikeffekte auf breiter Basis geben. Die 1-3 PhysX-Spiele pro Jahr mal ausgenommen, die sind ja sponsored by Nvidia. Extra für die paar PC-Verkäufe* lohnt sich das für keinen Publisher, wenn es auf den Konsolen nicht nutzbar ist. Man muß ja nicht wie bei vielen PhysX-Spielen daraus einen Showcase machen und mit Kanonen auf Spatzen schießen.

(*Im Vergleich zu den Absatzzahlen bei den Konsolen)
Die Next Gen Konsolen würden mit Compute via DX/OpenGL ja keine Probleme haben.

Skysnake

2012-09-27, 15:12:51

Zurueck zu Tesla K20; vor kurzem gab es eine Meldung dass NV um die 1000 dieser an Oak Ridge ausgeliefert haben. Eine plausible These waere dass sie dafuer um die 100 wafers brauchten und die paar 15 SMX bzw. 13 oder weniger operativen SMX chips auf die Seite gelegt fuer Quadros und desktop spaeter. Wenn momentan NV mit einem 550mm2 Brummer wie GK110 mehr als 50-55% wafer yields erreicht fress ich einen Besen, was wohl um die 50-60 operative chips pro wafer bedeutet. Schafft die Mehrzahl der bins 15 SMX beim ersten run mit so einem kompliziertem chip auf einem so neuen Prozess? Wer's glaubt tut mir leid. Im idealsten Fall sind es 10-15 chips/wafer und mit der Anzahl kann man eben momentan nicht alle ihre supercomputer deals bedienen, weil eben die Anzahl der 14 SMX bins nur um einiges groesser sein kann. Wenn TSMC genug Kapazitaeten haben wuerde und IHVs mit wafer Anzahlen nur so herumschmeissen koennten waere die Geschichte natuerlich anders.

Genau das führ ich doch als Grund für einen zweiten Refresh auf Seiten nVidias an!

Auch mit 12, 13 oder 14 SMX hat man mehr als genug Leistung, und bekommt eben mehr Chips von einem Wafer runter, die man verhöckern kann. (Wie bei GF100 halt, nur aus anderen Gründen, aber der Effekt ist der Gleiche. Man bekommt einfach nicht genug voll funktionsfähige chips aus den Wafern, die man hat)

Wenn der Prozess gereift ist, kann man dann 9-12 Monate später halt noch den Vollausbau inkl dann wahrscheinlich höherer Taktraten bringen.

Und davor kann man die ganzen 1A Chips für einen "frühen" Tesla Launch zu einem unverschämten Preis sammeln.

Ja GF110 basierende Teslas kamen mit allen SMs an, nur als GF110 in die Produktion ging war das interconnect Problem weg und die Anzahl der wafer die NV bei TSMC gebucht hatte um zich Mal hoeher als am Anfang mit GF100.

Ja ist mir bekannt :ugly: Und was sagt mir das, und vor allem, was hat das jetzt mit dem Thema zu tun?

Also nochmals kurz zusammengefasst.

Du sagst selbst, das man bei GK110 nicht erwarten kann voll funktionsfähige Chips zu erhalten, sondern für Tesla Karten eher 14 oder noch weniger SMX statt der 15. Hat nVidia ja auch schon selbst gesagt, wenn ich mich recht erinnere.

Für die Quadros und GeForce solls ja noch weniger werden nach deiner Aussage, der ich so btw. auch zustimme ;)

Jetzt komm ich, und sag, siehste, und da haste den Platz für dem zweiten Refresh, einfach als Vollausbau dann ~1 Jahr später.
Du meinst aber dazu nur: Nein, das ist ein zu kleines Leistungsplus.
Sag ich: Bei GF1x0 wars doch auch so, und da hat das Leistungsplus doch auch ausgereicht, um einen Refresh zu bringen.
Sagst du: Das ist aber was ganz anderes, und wird nicht kommen.

:ugly:

Wo ist, denn jetzt für den Kunden, dem erstmal Kack egal ist, warum da ein beschnittener Chip kommt, der Unterschied zwischen nem Beschnittenen GF100 und nem beschnittenen GK110, die auf den Markt kommen?

Bei beiden ist meiner Meinung nach genug Luft dadurch da, um einen Refresh auf dieser Basis zu bringen.

Vor allem kann man bei GK110 ja noch eher erwarten, dass der Prozess an und für sich noch deutlich reift. Da ist sicherlich auch noch ein Taktplus drin neben allen aktiven SMX für einen Refresh.

AMD wird den Weg garantiert nicht gehen, sondern wenn, wie ich denke einmal mehr Shader bringen und das andere mal das FrontEnd aufbohren+paar mehr Shader. Bei AMD hat man ja auch noch Platz, um den Chip größer zu machen, und ich glaube daran, das man auch bei AMD eher einen größeren Chip bringt, als "übereilt" auf 20nm zu gehen. Mit 32nm hat man sich schon mal richtig auf die Nase gelegt, und auch bei 40 und 28nm gabs mehr als genug Probleme.

Ich finde es da nur logisch, das man sich da etwas zurück hält, und eben auf Nummer sicher geht.

Vor allem da ja nVidia sich auch in letzter Zeit die Finger oft genug verbrannt hat, und bei beiden eigentlich so ziemlich Gleichstand bei den Produkten herrscht, wobei man nicht sieht, das der eine versucht den anderen irgendwie aus zu booten.

Das ist alles sehr sachte und bedacht. Kein Vergleich mehr zu den Kampfpreisen von vor einiger Zeit bei AMD, wo man Marktanteile dazugewinnen wollte. Die Zeiten sind wohl erstmal vorbei würde ich sagen.

Ich versteh daher auch nicht, warum du dennoch so kategorisch einen zweiten Refresh auf Basis des 28nm Prozesses ausschließt. :ka:

Uhmm IHVs wissen schon heute wo's mit 20nm langgehen wird, egal was fuer welchen Mist die Marketing-Abteilung jeder Seite behaupten wird.

Was IHVs vorhaben? AMD wird moeglicherweise einen Anteil der Herstellung zu Glofo schicken, NV einen Anteil an Samsung und es gibt noch so manches anderes was sich generell in der foundry Landschaft aendern koennte. Das Problem ist damit IMHO nicht geloest, sondern man wird eben nicht nur TSMC als Suendenbock haben in solch einem Fall. Eine Alternative fuer IHVs waere sich auf eine hw basierende mGPU Loesung zu konzentrieren ohne den AFR Quark wie ich schon erwaehnte. Wenn wird abe vor 14nm nichts davon zu sehen sein.[/QUOTE]

Ailuros

2012-09-27, 15:53:13

Genau das führ ich doch als Grund für einen zweiten Refresh auf Seiten nVidias an!

Und ich Idiot versuche schon etliche Male zu erklaeren WARUM alle clusters beim Produktionsstart nicht moeglich sind um all die HPC deals zu bedienen, aber entweder ueberfliegst Du das Zeug einfach oder willst nur das verstehen was gerade passt. Dass Tesla K20 nicht mit 15 SMXs ankommt ist keine Indizie ueber die eigentlichen binning yields fuer 15 SMX chips.

Auch mit 12, 13 oder 14 SMX hat man mehr als genug Leistung, und bekommt eben mehr Chips von einem Wafer runter, die man verhöckern kann.

Bis GK110 im desktop ankommt koennte es einen leicht schnelleren GK104 refresh schon geben. Dagegen waere der Unterschied zu einem hypothetischem 12 SMX 110 salvage part eher laecherlich.

Du sagst selbst, das man bei GK110 nicht erwarten kann voll funktionsfähige Chips zu erhalten, sondern für Tesla Karten eher 14 oder noch weniger SMX statt der 15. Hat nVidia ja auch schon selbst gesagt, wenn ich mich recht erinnere.

Nein sagte ich nicht und auch NV auch nicht. Mit einem Maerz tapeout fuer GK110 und den Produktionsstart Monate spaeter ist es nicht moeglich genug 15 SMX chips zu sammeln um die HPC deals voll zu bedienen. Man nimmt eben fuer so grosse deals den bin mit dem groessten yield und dieses ist eben nicht der volle chip.

Jetzt komm ich, und sag, siehste, und da haste den Platz für dem zweiten Refresh, einfach als Vollausbau dann ~1 Jahr später.
Du meinst aber dazu nur: Nein, das ist ein zu kleines Leistungsplus.
Sag ich: Bei GF1x0 wars doch auch so, und da hat das Leistungsplus doch auch ausgereicht, um einen Refresh zu bringen.
Sagst du: Das ist aber was ganz anderes, und wird nicht kommen.

Ehrlich gesagt ich spiel es Dir beim naechsten Versuch in Noten auf dem Klavier ab, in der Hoffnung dass Du endlich verstehst was ich meine und wir uns nicht endlos um den gleichen bloeden Brei drehen.

Wo ist, denn jetzt für den Kunden, dem erstmal Kack egal ist, warum da ein beschnittener Chip kommt, der Unterschied zwischen nem Beschnittenen GF100 und nem beschnittenen GK110, die auf den Markt kommen?

Dem Kunden wird es eben NICHT egal sein wenn ein kastrierter GK110 einen zu kleinen Unterschied gegen die performance GPU von Sea Islands haben wird.

AMD wird den Weg garantiert nicht gehen, sondern wenn, wie ich denke einmal mehr Shader bringen und das andere mal das FrontEnd aufbohren+paar mehr Shader. Bei AMD hat man ja auch noch Platz, um den Chip größer zu machen, und ich glaube daran, das man auch bei AMD eher einen größeren Chip bringt, als "übereilt" auf 20nm zu gehen. Mit 32nm hat man sich schon mal richtig auf die Nase gelegt, und auch bei 40 und 28nm gabs mehr als genug Probleme.

Cayman war anfangs fuer 32nm geplant (man sieht es am Stromverbrauch), waehrend NV ihr gesamtes 32nm stornierte.

Ich versteh daher auch nicht, warum du dennoch so kategorisch einen zweiten Refresh auf Basis des 28nm Prozesses ausschließt. :ka:

Weil vielleicht die Zeiten schlecht sind dass IHV nur so mit Resourcen herumschmeissen, ueberhaupt wenn Herstellung immer noch so suendhaft teuer ist?

boxleitnerb

2012-09-27, 16:10:02

Nein sagte ich nicht und auch NV auch nicht. Mit einem Maerz tapeout fuer GK110 und den Produktionsstart Monate spaeter ist es nicht moeglich genug 15 SMX chips zu sammeln um die HPC deals voll zu bedienen. Man nimmt eben fuer so grosse deals den bin mit dem groessten yield und dieses ist eben nicht der volle chip.

Hm, wie verhält sich denn die Zahl an Chips, die man für die HPC-Deals braucht ggü. der Zahl, die man für einen GTX780-Launch braucht (also 15 SMX)? Wenn es nicht für HPC reicht, könnte es auch nicht für Geforce reichen. Oder sammelt man jetzt durchgehend bis März 2013? :freak:

Schaffe89

2012-09-27, 16:17:04

Weil vielleicht die Zeiten schlecht sind dass IHV nur so mit Resourcen herumschmeissen, ueberhaupt wenn Herstellung immer noch so suendhaft teuer ist?

Kapier ich nicht.
Grade die 28nm Herstellung dürfte mitte 2013 bis mitte 2014 preislich deutlich attraktiver sein, als 20nm.
Und ein zweiter Refresh kann auch nur aus ein bischen GPC oder SMX aktivieren bestehen, siehe GF100, AMD? naja, die takten vielleicht und hauen sowas wie neGHZ Ultra Shizzle ma Nizzle Karte raus.
Niemand weiß wie schnell GK110 wird, vielleicht reichen auch 12 oder 13 SMX mit ~1000mhz Chiptakt um noch schöne 20 bis 30% vor nem übertakteten GK104 zu landen.

Ailuros

2012-09-27, 16:17:41

Hm, wie verhält sich denn die Zahl an Chips, die man für die HPC-Deals braucht ggü. der Zahl, die man für einen GTX780-Launch braucht (also 15 SMX)? Wenn es nicht für HPC reicht, könnte es auch nicht für Geforce reichen. Oder sammelt man jetzt durchgehend bis März 2013? :freak:

Wenn alles nach Plan laeuft das zweite. Gegenfrage wieso sind auf Intel Phi nicht alle cores aktiviert und wieso hat es Intel ebenso so eilig supercomputer deals zu bedienen? Ach ja Intel hat zufaelligerweise ihre eigene foundry und auch einen sehenswerten Vorteil was Fertigungs-technologie betrifft.

boxleitnerb

2012-09-27, 16:21:41

Ach du dickes Ei...das heißt ja nicht gerade gute Verfügbarkeit dann...

Zu deiner Gegenfrage:
Wohl weil die Ausbeute schlecht ist und weil man nicht will, dass Nvidia alles abkassiert ;)

Ailuros

2012-09-27, 16:26:58

Kapier ich nicht.
Grade die 28nm Herstellung dürfte mitte 2013 bis mitte 2014 preislich deutlich attraktiver sein, als 20nm.
Und ein zweiter Refresh kann auch nur aus ein bischen GPC oder SMX aktivieren bestehen, siehe GF100, AMD? naja, die takten vielleicht und hauen sowas wie neGHZ Ultra Shizzle ma Nizzle Karte raus.
Niemand weiß wie schnell GK110 wird, vielleicht reichen auch 12 oder 13 SMX mit ~1000mhz Chiptakt um noch schöne 20 bis 30% vor nem übertakteten GK104 zu landen.

Dass Kepler effizienter ist als Fermi sollte nicht heissen dass der Kepler top dog jetzt ploetzlich 70-80% vor einem GK104 liegen sollte. Jegliche GK110 Variante wird stets niedriger takten muessen als jegliche GK1x4 Variante dank hoeherer Chipkomplexitaet. Und nein 20-30% liegen dann nicht mehr in einem 12 SMX GK110 Kasten, es reicht ein einziger Blick auf den kleinsten GF100 salvage part gegen GF104, wobei Gott sei Dank dieser nicht alle SMs aktiviert hatte und auch nicht auf vollem Potential getaktet.

AMDs Sea Islands geht eher in die Breite und die Frequenz-Unterschiede im Vergleich zur heutigen Generation sind gering.

Ach du dickes Ei...das heißt ja nicht gerade gute Verfügbarkeit dann...

Zu deiner Gegenfrage:
Wohl weil die Ausbeute schlecht ist und weil man nicht will, dass Nvidia alles abkassiert ;)

Es ist nicht nur Verfuegbarkeit. NV kann N% von wafers heute unter begrenzter Kapazitaet fuer HPC widmen weil davon Schweine-Margen kommen und sie auch nicht wollen dass Intel zu viel verkauft (gilt fuer beide Seiten). Daher faellt die Konzentration erstmal auf supercomputer deals und dann kann man sich mit Quadros bzw. GeForces spaeter beschaeftigen. Um wieviel wuerde heute eine volle GK110 verkaufen muessen? Sicher nicht unter 800-900 Euros.

Irgendwo machen IHVs auch halt. Ich weiss zwar nicht warum genau AMD das gesamte 7990 Projekt selber vorruebergehend aufgegeben hat, aber bei $1000 GPUs wie der GTX690 wird es langsam laecherlich selbst cents in eine Gegen-antwort zu schuetten.

Skysnake

2012-09-27, 16:49:34

Ailuros, sorry, aber das versteht wirklich kein Mensch, was du da sagst.

Warum sollten die 15SMX Chips, die ja rar gesät sein werden wie noch was, sammeln (also totes Kapital), um die dann ausgerechnet als GeForce oder so zu bringen. :ugly:

Wenn bring ich die dann doch als Tesla und/oder Quadro mit so nem abartigen Aufschlag, das ich selbst mit der geringen Menge noch in komme. Oder nicht? :ugly:

Also sorry, wenn man fürn HPC keinen vollen Chip launched, dann wird man das für GeForce auch nicht machen, oder so abartige Preise verlangen, das es lächerlich wird.

Deine Ausführung macht nur Sinn, wenn GK110 entweder gar nicht kommt, oder so was von abartig spät, das man sich das Ding mehr oder weniger gleich für den Desktop sparen kann.

Denn ein Refresh macht eigentlich immer Sinn, wenn am Anfang nur beschnittene Chips ausgeliefert werden.

Oder meinst du, das man GK110 für den Desktop auch als beschnittene Version belassen würde?
Bzw Gegenfrage: Meinst du, das GK110 auf dem Desktop nur als Vollausbau erscheint (als Topdog).

boxleitnerb

2012-09-27, 17:12:44

Man kann ja schlecht 10 "15-SMX" und 990 "13-SMX" ausliefern, wenn der HPC-Kunde 1000 Chips/Karten bestellt. So gesehen versteh ich Ailuros schon. Man liefert das, was man jetzt in Massen herstellen kann. Wobei ich aber mit dir konform gehe und sagen würde, man könnte die wenigen 15-SMX, die man jetzt schon hat, auch gleich mitverkaufen.

Edit:
Vielleicht könnte man das irgendwie in den GK110-Thread auslagern?

StefanV

2012-09-27, 17:13:27

Skysnake

2012-09-27, 17:22:27

Irgendwie hab ich das Gefühl, dass ihr beide das gleiche sagt, aber irgendwie aneinander vorbei redet. Sorry, Ailuros, aber die Diskussion ist unnötig,.

Was Skysnake sagt, ist ja nicht soo weit von dem entfernt, was du auch sagst, irgendwie ;)
Das Gefühl hab ich auch, daher will ich auch verstehen, warum er so kategorisch das verneint, was ich sage. :confused:

Irgend einen Grund muss es ja geben, nur scheine ich, und wohl auch einige andere hier, nicht zu verstehen :rolleyes:

|MatMan|

2012-09-27, 18:26:35

Das Gefühl hab ich auch, daher will ich auch verstehen, warum er so kategorisch das verneint, was ich sage. :confused:

Irgend einen Grund muss es ja geben, nur scheine ich, und wohl auch einige andere hier, nicht zu verstehen :rolleyes:
Nach meinem Verständnis verneint er vor allem einen (2.) Refresh, den du fast zwingend siehst.
Ich muss zugeben, dass für mich bei einer so langen voraussichtlichen Laufzeit, ein Refresh analog zu GF110 Sinn ergeben könnte. Also eine Überarbeitung eher auf Transistorebene, die den Stromverbrauch etwas senkt und somit mehr Takt erlaubt, aber evtl. ist GK110 (wie der Name sagt) schon dieses ausgefeiltere Design...

Wartet doch einfach mal das halbe Jahr noch ab bis GK110 überhaupt erst richtig auf dem Markt erscheint :freak:

Schaffe89

2012-09-27, 18:32:32

Dass Kepler effizienter ist als Fermi sollte nicht heissen dass der Kepler top dog jetzt ploetzlich 70-80% vor einem GK104 liegen sollte.

Ne nicht 70 bis 80% sondern eher ~50%, was machbar sein könnte, vor allem bei straffen Settings.
Da kann doch auch noch eine OC GK 104 dazwischenpassen, müssen ja keine 75% sein.

Ailuros

2012-09-27, 19:48:46

Ne nicht 70 bis 80% sondern eher ~50%, was machbar sein könnte, vor allem bei straffen Settings.
Da kann doch auch noch eine OC GK 104 dazwischenpassen, müssen ja keine 75% sein.

GF110 ist im Durchschnitt um die 42% schneller als GF114. Besonders viel Mehrleistung als ca. 50% (ergo in etwa analog zum Bandbreiten-Unterschied) erwaehnt nicht mal NV im Vergleich zu GK104. Ein "GK114" mit sagen wir mal 10-15% mehr Leistung als GK104 klingt mir schwer immer noch einen 30% Unterschied zu einem 12 SMX salvage part zu glauben. Tesla K20 taktet etwas ueber 700MHz wenn meine Infos momentan stimmen.

Ailuros, sorry, aber das versteht wirklich kein Mensch, was du da sagst.

Versucht Du es ueberhaupt?

Warum sollten die 15SMX Chips, die ja rar gesät sein werden wie noch was, sammeln (also totes Kapital), um die dann ausgerechnet als GeForce oder so zu bringen. :ugly:

Weil es weniger sind als 14 SMX chips; komischerweise hat boxleiternerb doch verstanden was ich meine. Wenn man fuer so einfache Einzelheit zich Posts verschwenden muss, faengt es irgendwo an zu nerven. NV ist unter Zeitdruck genauso wie Intel Phi GPUs so frueh wie moeglich auszuliefern ergo nimmt man den groesstmoeglichen bin um auch so schnell wie moeglich anzukommen.

Und das mit dem Kapital ist auch vom falschen Ende angepackt. Ich brauche angenommen 20000 chips fuer einen einzelnen HPC deal und bekomme sagen wir mal 10 15-er chips/wafer und 35 14-er chips/wafer.

Wenn man den deal jetzt mit 15 SMX chips bedient braucht man 2000 wafer dafuer gegen 14 SMX chips wo man dann eben 571 wafers braucht. Insgesamte Kosten pro wafer duerften zwar hoeher um einiges hoeher sein als bei 40G aber ich nimm mal den $7000 Wert vom 40G Produktionsstart pro wafer = $14Mio vs. knapp $4Mio. Noch bloeder den Unterschied von >1400 wafers haette man in dem Fall fuer bescheidene Billig-Kepler cores verwenden koennen wo man eben nicht nur 50-60 chips pro wafer bekommen kann, sondern um zich Male mehr und auch noch mit um einiges besseren yields.

Je teurer die Herstellung wird desto merkwuerdiger die strategischen Formeln mit denen IHVs herstellen.

Wenn bring ich die dann doch als Tesla und/oder Quadro mit so nem abartigen Aufschlag, das ich selbst mit der geringen Menge noch in komme. Oder nicht? :ugly:

Na mal sehen ob das obrige rein erfundene Beispiel erstmal hilft.

Also sorry, wenn man fürn HPC keinen vollen Chip launched, dann wird man das für GeForce auch nicht machen, oder so abartige Preise verlangen, das es lächerlich wird.

GK110 desktop wird (wenn alles nach Plan gelaufen ist blah blah blah) nur zu einem Bruchteil von den angesammelten chips bestehen. So bald Kapazitaeten radikal steigern kann NV auch zich mehr wafer auflegen und die Kosten werden sich auch reduzieren. NV hat enormen Druck sowohl ihre low end OEM als auch high end HPC deals so rechtzeitig wie moeglich zu bedienen. In dem Fall mit den begrenzten Kapazitaeten haben sie keinen Luxus wafer so zu verschwenden wie Du Dir vorstellen willst und auch nicht Millionen einfach so in die Luft zu verpuffern. Es gibt deadlines fuer alle Auslieferungen; jegliche Verspaetung kann verdammt teuer werden.

Deine Ausführung macht nur Sinn, wenn GK110 entweder gar nicht kommt, oder so was von abartig spät, das man sich das Ding mehr oder weniger gleich für den Desktop sparen kann.

Und NV finanziert die GK110 R&D Kosten in dem sie Pantoffeln und Gurken verkaufen oder? GK110 kann noch nicht alleine von Quadro und Tesla Maerkten finanziert werden. Im Fall wo sie dazu gezwungen sein werden, wird es ein ziemlich grosses Loch in der Rechnung geben.

Denn ein Refresh macht eigentlich immer Sinn, wenn am Anfang nur beschnittene Chips ausgeliefert werden.

Wobei Du konstant die ganze Zeit auf einer einzigen Ausnahme herumkaust wobei die hw zufaelligerweise problematisch war. Gibt es sonst noch ein Beispiel in NV's Geschichte wo sie immer und immer wieder kastrierte high end chips vorstellen um den vollen chip als refresh zu praesentieren? Nur so nebenbei GT200@65nm wiegte 575mm2.

Oder meinst du, das man GK110 für den Desktop auch als beschnittene Version belassen würde?
Bzw Gegenfrage: Meinst du, das GK110 auf dem Desktop nur als Vollausbau erscheint (als Topdog).

Wenn alles nach Plan gelaufen ist (was alles oder gar nichts heissen kann) dann wird es fuer desktop sowohl volle als auch salvage parts von GK110 geben. Aber eben nicht bevor sich die Kapazitaeten bzw. Herstellungkosten fuer 28nm um einiges normalisiert haben.

Skysnake

2012-09-27, 21:04:30

boxleitnerb

2012-09-27, 21:26:35

Skysnake,

die HPC-Deals müssen jetzt bedient werden, bevor die Kapazitäten signifikant steigen. Die GTX780 kommt später, wenn man die kritischsten Deals schon komplett abgewickelt hat und sobald die Kapazität hoch genug ist. Nicht vorher. Das Zeitliche lässt du komplett außer Acht. Bedenke, zwischen den ersten Auslieferungen von Chips für Tesla und ersten Chips für Geforce liegen dann 6-9 Monate, mindestens!
15 vs 14 kann schon einen beträchtlichen Unterschied bewirken bei den Yields (nicht Yealds ;)), siehe GF100 nach Ailuros: 16 Cluster = Yields beschissen, 15 Cluster = launchfähig = GTX480.

Aber eines verstehe ich auch nicht, da könnte Ailuros doch noch was dazu sagen:
Wenn man sich die Mengen an Chips anschaut, die man angeblich für HPC-Systeme verkauft hat, sollte es doch trotzdem noch genug 15 SMX Chips geben, um eine extra Serie dafür auf zu legen.

Sind denn alle HPC-Deals auf einen Chip-Typ beschränkt oder kann man denen nicht auch eine Mischung aus 13, 14 und 15-SMX Dingern andrehen - sprich alles, was aus der Fab jetzt rauskommt?

Ailuros

2012-09-27, 21:33:04

Also Ailuros, du widersprichst dir gerade am laufenden Band selbst.

Auf der einen Seite sollen die Yealds zu schlecht sein, um im HPC 15 SMX Versionen zu bringen, auf der anderen Seite soll es aber für GeForce dann genug 14er/15er geben, wo doch die Waferzahlen so begrenzt sind. Dann schreibst du aber wieder, dass die Kapazitäten massiv ansteigen, und das alles kein Ding sei...

Heute sind die Kapazitaeten zu knapp verdammt noch mal. Ab Q3 werden sie besser und GK110 wird wohl aus guten Grund so oder so nicht innerhalb des Jahres im desktop erscheinen. Entweder bist Du tatsaechlich zu faul die Posts richtig zu lesen oder Du hast gerade nichts besseres zu tun als Deine Zeit so zu verplermern.

Entscheide dich doch mal bitte, was denn nu Sache ist... Entweder man hat viel zu schlechte (Binning)yealds, und/oder zu wenige Wafer, so das man gezwungen ist, nur 14 SMX Versionen zu nehmen, dann könnte man aber auch gleich 13 SMX Versionen nehmen, und die 15er als extra teure Version auflegen, bis sich das alles allgemein beruhigt hat in der Fertigung.

Ich hab mich ueber gar nichts zu entscheiden. Scroll up, lies es so oft durch bis es sitzt. Woher willst Du wissen wie die 13 SMX bins genau aussehen? Von mir aus probier jegliche idiotische Kombination von bins bis sich Deine Logik durchsetzt. Ich greif den eigentlichen Grundsatz vom Thema nicht aus der Luft. Ich benutzte lediglich meine eigenen Beispiele um die Situation so einfach wie moeglich zu erklaeren.

Kommt GK110 fürn Desktop etwa SEHR viel später, wie schon mal gesagt, oder gibts doch Probleme mit dem Chip, und man hat eine schlechtere Effizienz als den HPC Kunden versprochen, womit man mehr SMX bei weniger Takt brauch, um die versprochene Effizienz zu bekommen, als man eigentlich erwartet hat?

Tut mir leid ich kann Deinen Hirngespinsten nicht weiter folgen. Tesla K20 das momentan ausgeliefert wird ist afaik momentan 14 SMX bei ueber 700MHz.

Weil warum sollten 15 SMX Yealds so dermaßen schlecht sein, 14 SMX dann aber schon plötzlich ausreichend sein, um alles glatt zu machen?

Wieso gibt es keine Intel Phi mit allen 64 cores aktiv momentan? Binning yields sind eben nicht so wie Du Dir es vorstellen willst zum 10x Mal bei so hoch komplizierten chips beim Produktionsstart.

Das macht irgendwie absolut keinen Sinn. Da würde ich eher erwarten, das man auf 13 runter geht für die Masse, und eben die 15er mit fettem Aufschlag verkauft.

Hast Du das Beispiel im vorigen Post ueberhaupt gelesen oder muss ich den gleichen Brei um X Mal wiederholen?

PS: Ja, ich versuch dich zu verstehen, aber du widersprichst dir nach meinem Verständnis fortlaufend selbst, wie oben angeführt. Wenn du mehr weißt, es aber nicht sagen willst, dann raus damit, das versteht man dann, aber nicht so um den heisen Brei herum, so das es keinen Sinn macht.

Nein es ist fuer mich EOD. Nimm einen Rechner zur Hand und versuch das Beispiel im vorigem Post zu folgen, von da ab glaub was Du willst oder im Notfall sprich mal ausnahmsweisse jemand anders an wie es unter normalen Umstaenden mit binning yields bei komplizierten chips aussieht und nein die Antwort wird eben bei Dir leider auch wieder keinen Sinn machen.

Sind denn alle HPC-Deals auf einen Chip-Typ beschränkt oder kann man denen nicht auch eine Mischung aus 13, 14 und 15-SMX Dingern andrehen?

Nix mit Mischung. Eine jegliche Bestellung ist entweder alles 13, alles 14 oder alles 15. Wie viele Petaflops von den GPUs hat Oak Ridge fuer ihren supercomputer als Beispiel angegeben?

boxleitnerb

2012-09-27, 21:37:47

Nix mit Mischung. Eine jegliche Bestellung ist entweder alles 13, alles 14 oder alles 15. Wie viele Petaflops von den GPUs hat Oak Ridge fuer ihren supercomputer als Beispiel angegeben?

Das ist interessant! Und es gibt keine kleineren Deals, die nur 15 SMX geordert haben? Oder bietet Nvidia das aktuell gar nicht an eben aus binning-yield Gründen?

20 PetaFLOPs waren es für den gesamten Supercomputer mit 18.000 Karten. 14 SMX mit 700 MHz sind 1,254 TeraFLOPs. Mal 18.000 macht dann 22,58 PetaFLOPs (theoretische Leistung, also real sicher unter 20).

Edit:
Okay, sollen "nur" 14.592 sein. Also 18,30 PetaFLOPs.

Ailuros

2012-09-27, 21:50:32

Das ist interessant! Und es gibt keine kleineren Deals, die nur 15 SMX geordert haben? Oder bietet Nvidia das aktuell gar nicht an eben aus binning-yield Gründen?

20 PetaFLOPs waren es für den gesamten Supercomputer mit 18,000 Karten. 14 SMX mit 700 MHz sind 1,254 TeraFLOPs. Mal 18,000 macht dann 22,58 PetaFLOPs (theoretische Leistung, also real sicher unter 20).

Es gibt keine 15 SMX im Angebot momentan fuer Tesla afaik. Es sind etwas ueber 14k Module die ausgetauscht werden, der Rest ist Fermi wenn ich mich nicht irre. >700MHz uebrigens.

Ronny145

2012-09-27, 21:52:27

Heute sind die Kapazitaeten zu knapp verdammt noch mal. Ab Q3 werden sie besser

Q3 2013? Q3 dieses Jahr ist fast durch, nächste Woche beginnt Q4.

boxleitnerb

2012-09-27, 21:53:09

Danke, das macht Sinn.
So wie man keine GTX780 mit 1000 Chips launchen würde, würde man sicher auch keine 15-SMX Tesla anbieten, wenn man nur eine Handvoll davon hat. Oak Ridge ist ja nicht der einzige Besteller, man würde die Nachfrage nicht befriedigen können, das wäre schlecht für den Ruf.

Ailuros

2012-09-27, 21:58:26

Q3 2013? Q3 dieses Jahr ist fast durch, nächste Woche beginnt Q4.

http://www.electronicsweekly.com/blogs/david-manners-semiconductor-blog/2012/08/tsmc-gets-28nm-yield-up-over-8.html

According to another Taiwan newspaper, the Taiwan Economic News, TSMC's 28nm capacity is now running at 100,000 wafers a month, up from the 25,000 wafers a month capacity in Q2.

TSMC's fab 15, in the Central Taiwan Science Park, is said to be ending Q3 with 69,000 28nm wafer per month capacity and will expand that to 135,000 wpm in Q4.

Ab Q3 ging/geht es aufwaerts und erst richtig ab Q4.

Wenn man bedenkt wie viele IHVs unter 28nm genau herstellen sind die 25k wafer/Monat in Q2 2012 brutal laecherlich wenn man bedenkt wie viel davon AMD und NV abbekommen koennte.

Danke, das macht Sinn.
So wie man keine GTX780 mit 1000 Chips launchen würde, würde man sicher auch keine 15-SMX Tesla anbieten, wenn man nur eine Handvoll davon hat. Oak Ridge ist ja nicht der einzige Besteller, man würde die Nachfrage nicht befriedigen können, das wäre schlecht für den Ruf.

NV hat immer noch keine Einzelheiten auf ihrer Hauptseite ueber Tesla K20; das wesentliche ist alles TBA.

Hübie

2012-09-27, 22:41:55

Ailuros

2012-09-27, 22:59:48

Man muss dabei berücksichtigen dass TSMC viele SoC fertigt. Also sind es vielleicht 40-50% die für GPUs genutzt werden - das ist jedoch nur geschätzt. Ich müsste jetzt wirklich nachsehen wie die Verteilung zum Jahreswandel war.
Fab 15 liegt übrigens vor dem Zeitplan.

Eben. Noch dazu erwaehnen solche Berichte lediglich 28nm, ohne dass fuer LP, HP etc. aufgeteilt wird. Qualcomm dreht und wendet sich um ihre 28nm Nachfrage zu decken und es gibt schon etliche Geruechte dass sie vielleicht mit UMC verhandeln um eine Megasumme in diese zu investieren. Eine Verteilung innerhalb 28nm waere schon nutzvoll.

NV fertigt ja auch ihre SoCs bei TSMC. Bleibt nur noch die Frage ob sie auch selber zu dual sourcing bei Samsung greifen werden.

boxleitnerb

2012-09-27, 23:01:24

Warum kann Nvidia nicht zu Globalfoundries gehen? Ist das nicht der zweit"beste" Auftragsfertiger nach TMSC?

fondness

2012-09-27, 23:07:49

Warum kann Nvidia nicht zu Globalfoundries gehen? Ist das nicht der zweit"beste" Auftragsfertiger nach TMSC?

Könnte sie theoretisch, allerdings hat Huang bereits mehrmals betont das man bei Globalfoundries nicht fertigen wird. „Globalfoundries is an AMD fab, right?“

Ailuros

2012-09-27, 23:11:56

Warum kann Nvidia nicht zu Globalfoundries gehen? Ist das nicht der zweit"beste" Auftragsfertiger nach TMSC?

Koennen oder wollen? So oder so kommt es auch aufs insgesamte Angebot an. Nebenbei sollen es momentan >$8000/28HP wafer sein. 40G war am Start bei etwas unter 7k fuer NV afaik und weiss der Geier was sonst noch teurer geworden ist.

mczak

2012-09-28, 01:01:19

Wahrscheinlich ist es für den HPC-Markt sowieso nicht so entscheidend ob man da jetzt 15 oder bloss 14 SMX hat. Die Fermi-Tesla's gab's ja auch nur mit 14 (von 16) SMs, obwohl auf dem Desktop auch eine (wenn auch eher verunglückte) 15 SM Variante existierte (erst gf110 Tesla's gab's deutlich später mit 16 SMs).

Wer lässt eigentlich bei GloFo fertigen? Die sollten ja jetzt auch jede Menge 28nm Chips produzieren (erst in Fab1 noch nicht Fab8), man hört ja viel wer dann irgendwann einmal dort fertigen lassen könnte aber wenn die ja jetzt schon Chips produzieren müssen die ja auch irgendwohin :-).

Hübie

2012-09-28, 01:34:53

Warum kann Nvidia nicht zu Globalfoundries gehen? Ist das nicht der zweit"beste" Auftragsfertiger nach TMSC?

Da fällt mir doch diese (http://ht4u.net/news/26199_amds_kommende_gpus_segeln_bei_den_sea_islands_volcanic_islands_und_pirates _islands/) News ein:

Neben TSMC stünden zukünftig eventuell Global Foundries, IBM oder Samsung zur Wahl. Jedoch hat keiner dieser Giganten Erfahrung mit so komplizierten Fertigungstechniken wie sie die Herstellung eines Grafikchips erfordert. Denn hier ist eine deutlich erhöhte Packdichte (Transistoren pro Quadratmillimeter) zu realisieren als beispielsweise bei SoC für Smartphones oder Tablets.

Es bräuchte ja auch nur AMD zu GF "wechseln". Dann wäre TSMC einen dicken Batzen los und könnte sich eine Menge kleinerer ins Boot holen. Das dürfte am Ende sogar profitabler sein - theoretisch!

@Ail: NVIDIAs SoC sind noch ausschließlich 40nm. Ob teile jedoch in 28nm gefertigt werden weiß ich nicht - schätze jedoch nicht. Tegra3 war für 28nm designed, wird nun aber mit 40nm gefertigt und das macht sich ja auch bemerkbar.
Snapdragon S4 und TI Omap5 sind in 28nm. Wo fertigt TI? Afaik bei UMC. Qualcomm bei TSMC.

Ich habe vor kurzem gelesen das UMC tatsächlich wie blöd investiert und 28nm-Kapazitäten baut. Welche Dimensionen weiß ich nicht mehr.

Hugo78

2012-09-28, 07:17:12

@Hübie (& mczak)
Qualcomm lässt bei TSMC, UMC, Samsung und Globalfoundries fertigen.
- http://www.computerbase.de/news/2012-07/qualcomm-erneuert-bedenken-wegen-28-nm-knappheit/

NV sollte natürlich auch bei SoCs langsam auf 28nm gehen, aber bisher war die 40nm Strategie einfach eine Punktlandung in der aktuellen Situation.

Gaestle

2012-09-28, 09:01:23

Wer lässt eigentlich bei GloFo fertigen? Die sollten ja jetzt auch jede Menge 28nm Chips produzieren (erst in Fab1 noch nicht Fab8), man hört ja viel wer dann irgendwann einmal dort fertigen lassen könnte aber wenn die ja jetzt schon Chips produzieren müssen die ja auch irgendwohin :-).

Ist die Llano-Serie schon in 28nm?

BTW: http://semimd.com/lammers/2012/03/16/the-globalfoundries-yield-rebound/

Ailuros

2012-09-28, 11:18:41

Es bräuchte ja auch nur AMD zu GF "wechseln". Dann wäre TSMC einen dicken Batzen los und könnte sich eine Menge kleinerer ins Boot holen. Das dürfte am Ende sogar profitabler sein - theoretisch!

TSMC untersucht den Gedanken fuer dedizierte fabs fuer IHVs. Falls es so weit kommt wuerde es mich nicht ueberraschen wenn Apple und NV unter diesen legen werden.

@Ail: NVIDIAs SoC sind noch ausschließlich 40nm. Ob teile jedoch in 28nm gefertigt werden weiß ich nicht - schätze jedoch nicht.

Massenproduction ist alles 40G momentan; stimmt schon so. Nur wenn NV einen Q1 13' launch plant fuer Wayne/Tegra4 muesste die Produktion dafuer auch schon dieses Jahr anfangen.

Tegra3 war für 28nm designed, wird nun aber mit 40nm gefertigt und das macht sich ja auch bemerkbar.

Sagt wer? Ich hoere es zum ersten Mal und wo genau soll sich dieses bemerkbar machen? T3@40nm ist ~80mm2 gross; es ist weder der SoC zu gross noch ist der Stromverbrauch ausserhalb jeglicher Norm. Im Gegenteil zeig mir einen 40/45nm SoC wo die GPU auf 520MHz taktet.

Snapdragon S4 und TI Omap5 sind in 28nm. Wo fertigt TI? Afaik bei UMC. Qualcomm bei TSMC.

TI bei UMC und Qualcomm nicht nur bei TSMC wie oben erwaehnt wird. TI wird vom smartphone/tablet Market aussteigen und sich auf embedded konzentrieren eben weil sie gegen Qualcomm, NV, Samsung und dergleichen nicht mehr auf gleicher Ebene konkurrieren koennen.

Ich habe vor kurzem gelesen das UMC tatsächlich wie blöd investiert und 28nm-Kapazitäten baut. Welche Dimensionen weiß ich nicht mehr.

UMC sucht nach Investitionen in der Hoehe von 10%. Nach Geruechten ist Qualcomm daran interessiert und die Summe wird auf keinen Fall weniger als 1 Mrd. betragen. In solch einem Fall wird Qualcomm wohl Prioritaet fuer Herstellung bei UMC sichern koennen und TI waere automatisch in genau gleicher beschissener Situation wie sie bei Samsung mit der Apple Prioritaet waren.

G 80

2012-09-28, 16:56:15

Ne nicht 70 bis 80% sondern eher ~50%, was machbar sein könnte, vor allem bei straffen Settings.
Da kann doch auch noch eine OC GK 104 dazwischenpassen, müssen ja keine 75% sein.

Um das nochmal aufzugreifen: Mit genau den 50 % (+/- bischen natürlich) rechne ich auch. 50 % auf 130 % (680 zu Fermi) sind für GK 110 195 % auf Fermi und damit die, ansehnliche, Verdoppelung von Highend zur nächsten Highend Generation.

Da jetzt mehr zu erwarten ist mehr als Wunschdenken.

OgrEGT

2012-09-28, 17:31:58

boxleitnerb

2012-09-28, 17:35:28

Der Jen-Hsun hat doch zwei Kinder, die haben sicher als allererste die neuesten Karte im Rechner :D

G 80

2012-09-28, 18:21:06

Wer weis, vielleicht sind das große Heimwerker die gerne mit Holzschrauben spielen; :freak:

die Kinder vom AMD Scheffe hingegen habens statt mit Schrauben mehr mit Feilen und Schleifen...:upara:

Ailuros

2012-09-28, 20:01:37

Der Jen-Hsun hat doch zwei Kinder, die haben sicher als allererste die neuesten Karte im Rechner :D

Wenn die GK110 Treiber erstmal voll operativ sind momentan. Es ist ja nicht so dass Jensen oder seine Kinder im Nachteil mit GTX690-ern waeren; bezahlen wird er das Zeug wohl sowieso nicht.

Godmode

2012-09-29, 15:38:51

http://wccftech.com/nvidia-geforce-gtx-780/

OBR meint das die GTX 780 einen eigenen Core bekommt, der nicht GK110 ist. Was meint ihr dazu, ist da was dran, oder spinnt OBR nur wieder rum?

G 80

2012-09-29, 16:39:28

Nachdem jedesmal erklärt warum 2 Chips für Gaming und HPC sich (noch) nicht rechnen, und sogar AMD, die bisher hauptsächlich FPS Schlampen rausbrachten und sich um jeden mm² für ein breiteres SI herumdrücken, nun einen Gamer/HPC-Kombi-Chip mit viel HPC Ballast und Bandbreite (breites SI in dem Fall) gebracht haben?

Letzteres. :rolleyes:

Timbaloo

2012-09-29, 17:28:51

Ailuros

2012-09-29, 17:46:47

Dem widerspricht der Artikel auch erstmal nicht:

GK114 -> GTX 780
GK110 -> HPC und _evtl_ auch als GraKa (GeForce)

Ich halte es aber auch für unwahrscheinlich. Es sei denn die yields sind beim GK110 so bescheiden, dass eine Consumer-Graka ein zu großes Verlustgeschäft ist.

Ich schaetze G 80 meinte dass das R&D fuer GK110 nicht nur von Profi-Maerkten alleine finanzieren laesst. Die letzteren haben zwar brutal hohe Margen aber auch ziemlich kleine Verkaufsvolumen waehrend es im desktop Markt genau umgekehrt ist.

Ich frag sicherheitshalber nochmal nach aber so weit riecht es nach ueblichem Bullshit. Die wichtigere Frage waere warum NV einen hypothetischen GK114 oder sonst welchen core ploetzlich "780" nennen solte. OBR deutet natuerlich nirgends auf einen GK114, aber der eigentliche Grund warum NV moeglicherweise auf 7xx gehen wuerde ist dass GK110 exklusive Faehigkeiten hat die auf GK10x cores nicht vorhanden sind.

Hugo78

2012-09-29, 18:07:30

Gaestle

2012-09-29, 19:03:18

GK114 = 780
später: GK110 = 880?

Ailuros

2012-09-29, 19:04:10

Mit Blick auf die aktuelle Konkurrenzsituation, wäre ein auf Gaming optimierter und ein HPC optimierter Chip nicht die schlechteste Idee.
Sicherlich teuer, man verliert viel Marge im HPC Sektor, aber Intel und AMD haben hier aufholt und grad Intel wird NV sicher nicht auf die leichte Schulter nehmen.

Na und beim Gaming haben wir ja balkentechnisch Gleichstand zwischen NV und AMD.
Wenn es sich auszahlen sollte, keinen irgendwie gearteten "HPC Ballast" mitzuschleppen, ist dies sicher nicht verkehrt.
Und wenns nur ist um den Chip von der Fläche her klein zuhalten.

GK114 mit 12 SMX und 384Bit SI wäre nach der Milchmädchenrechnung ca. 440mm groß. Wenn jetzt noch die Packdichte etwas höher ausfällt, noch kleiner.

Meine Fragezeichen diesbezueglich waeren dann:

1. Werden zukuenftige Spiele zu einem Anteil an computing setzen und wenn ja sind GK104's Faehigkeiten und dessen Nachfolger's Faehigkeiten genug sich gegen Tahiti und dessen Nachfolger sich dort zu behaupten?

2. 12 SMXs bei theoretischen 1GHz und ein 384bit bus duerften auf Papier schon theoretisch maximale Werte liefern die fast gleichauf zu GK110 kommen wuerden bei ebenso theoretischen ~850MHz, aber caches sind eben nicht so grosszuegig in kleineren cores wie GK110 was ein ganz anderes Verhaeltnis zur eigentlichen brauchbaren Bandbreite eines jeglichen cores bedeutet. Je mehr Daten on chip bleiben (caching) desto weniger reads/writes und ergo kleinerer Bandbreiten-Verbrauch.

Es ist eben nicht so einfach dass man ploetzlich nur einen breiteren Bus auf eine Architektur klatscht und glaubt dass man genau das gleiche erreichen wird.

Hugo78

2012-09-29, 19:20:13

Ailuros

2012-09-29, 20:08:23

@Ailuros

Ob meine Überlegung jetzt tatsächlich auch technisch sinnvoll ist, kann ich dir nicht beantworten. :D
Ich halt es halt nur für denkbar, dass man Intel einen hochoptimierten HPC Chip entgegensetzt,
der dann möglicherweise, vielleicht bei Spielen wieder nicht so toll von der Perf./Watt abschneidet, als wenn man GK104 nur um 50% vergrößert.

Och schnell genug scheint GK110 schon zu sein, aber wohl eben analog zum die area bzw. Transistoren-Unterschied im Vergleich zu GK104. Waere Intel so bloed eine desktop GPU auf der gleichen Architektur wie Xeon Phi zu veroeffentlichen waere dieser im Vergleich zu GK110 desktop wohl eher im Bereich high end standalone GPU vs. low end PC SoC GPU :freak:

Nach NV selber ist der Leistungs-unterschied zwischen GK110 und 104 im Durschnitt in etwa zum Bandbreiten-Unterschied (mit natuerlich um einiges hoeheren peak Leistungs-unterschieden), aber ich wuerde nicht so leicht so weit greifen dass man mit N% mehr Einheiten und 50% mehr Bandbreite als Beispiel auf einem GK1x4 refresh auch automatisch so viel Leistung erreichen wuerde wie ein GK110.

So bald sie solche einen theoretischen GK114 oder was auch immer auch noch mit fetteren caches ausruesten damit die Leistung irgendwie in GK110 Region kommt, ist der ganze Versuch schon wieder absurd eben weil die die area noch weiter wachsen wird denn caches sind verdammt teuer. Ergo wenn dann diese Uebung irgendwo ueber 450mm2 betragen sollte, hat es genau welchen Zweck 110 links liegen zu lassen und die Entwicklungskosten so verrueckt durch die Decke zu jagen?

Wenn GK110 aber überall wie Sau geht, wäre meine Überlegung eh für die Katz und OBR labert nur FUD. ;)

Wie gesagt ich hab sicherheitshalber mal nachgefragt denn Fragen kosten ja nichts, aber Du solltest auch bedenken dass viele es zu einem Sport entwickelt haben Leute wie OBR so oft und so gut wie moeglich auf die Palme zu schicken. So oft wie sich der Kerl blamieren laesst (obwohl er gute Beziehungen zu NV hat) frag ich mich ob er eigentlich ueberhaupt noch von der Palme runterklettert ;D:eek:

Hugo78

2012-09-29, 20:26:34

Ailuros

2012-09-29, 20:43:41

Ich weiß schon wie ich OBR einordnen muss. ;)
Aber Intel hat halt neben x86, auch noch einen Fertigungsvorteil und solang sie den haben, werden sie sicherlich NV nicht grad wenige Kunden abjagen, da mach ich mir keine Illusionen.
Gut der HPC Markt ist relativ klein und zur Not senkt man halt die Preise, statt gleich einen 100% HPC optimierten CHip zubringen, aber ganz ausschließen würd ich es dennoch nicht.

Total schliesse ich es auch nicht aus, aber es waere trotz allem extrem merkwuerdig. Sagen wir es mal so: wenn es trotz allem stimmen sollte und es handelt sich um einen GK104 refresh der wirklich ca. 50% Mehrleistung im Durchschnitt liefern kann ohne den 7.1b/550mm2 Ballast eines GK110 wird es nur eher eine Eulogie sein fuer den Endverbraucher.

Hingegen wuerde ich es aber als wahrscheinlicher halten dass Tahiti's Nachfolger doch nichts besonderes ist und sie einfach GK114 im Programm gelassen haben, was aber bedeuten wuerde dass PC GPUs extrem langweilig geworden sind.

Knuddelbearli

2012-09-29, 22:07:47

den fertigungsvorteil brauchen sie um nur annähernd mithalten zu köännen ...

40nm gegen 22nm gewinnt intel gaaaaaaanz knapp

Hugo78

2012-09-29, 22:40:04

wird es nur eher eine Eulogie sein fuer den Endverbraucher.

Ich hab auch nichts dagegen, sollte sich so ein Schritt auszahlen.
Ich muss keinen > 550mm^2 Monsterchip haben, solang der Speed stimmt.
Ein Core i7-3770K ist ja auch nur 160mm^2 klein und hier mosert keine Sau, dass das Teil so mini ist.

Natürlich sollten dann auch die Preise in Zukunft wieder niedriger sein, sollte der Chip kleiner ausfallen.
Aber bei mittlerweile, wie die sagst 8000 USD pro Wafer, ggü. 5000 (oder ?!) zuletzt, wird das nicht so schnell der Fall sein.

NV / AMD bleibt bei solchen Preissteigerungen gar nichts anderes übrig, als die Preise hochzuhalten.

@Knuddelbearli

Das ist auch meine Ansicht, aber Intel hat mit Larrabee schon soviel Ausdauer bewiesen, dass es denen am ende um mehr geht als nur um eine GPU, die man erstmal nur für HPC verwendet.
Die wollen sicher irgendwann mal ohne eingekaufte PowerVR Lizenz "APUs" bauen, die (GPU Part) dann auch perfekt zu ihren CPUs passen, mit gemeinsamen Caches und RAM ect. pp.
Nicht umsonst zahlt man 1,5 Mrd. USD an NV für ihre (wenn auch nur alten?!) Patente.

Ailuros

2012-09-30, 00:14:59

Ich hab auch nichts dagegen, sollte sich so ein Schritt auszahlen.
Ich muss keinen > 550mm^2 Monsterchip haben, solang der Speed stimmt.
Ein Core i7-3770K ist ja auch nur 160mm^2 klein und hier mosert keine Sau, dass das Teil so mini ist.

Wirkliche single chip high end Leistung (ergo zumindest >15% ueber dem schnellsten performance chip) kann auch heutzutage nicht von <450mm2 kommen. GK110 ist eben dank dem HyperQ und co Zeug so gross ausgefallen.

Das ist auch meine Ansicht, aber Intel hat mit Larrabee schon soviel Ausdauer bewiesen, dass es denen am ende um mehr geht als nur um eine GPU, die man erstmal nur für HPC verwendet.

Was heisst Ausdauer? Intel hat schon seit einigen Jahren eingesehen dass die LRB Architektur nur fuer HPC taugt. Unter 3D waere so ein Ding nach wie vor laecherlich langsam im Vergleich zur Konkurrenz und dazu noch mit hoeherem Stromverbrauch trotz Prozess-Vorteil.

Die wollen sicher irgendwann mal ohne eingekaufte PowerVR Lizenz "APUs" bauen, die (GPU Part) dann auch perfekt zu ihren CPUs passen, mit gemeinsamen Caches und RAM ect. pp.

Intel baut schon seit dem Tot von IGPs desktop/notebook SoCs. PowerVR GPU IP wird nur fuer small form factor benutzt; ob Intel eigene GPUs oder GPU IP weiterhin benutzt ist weniger wichtig. Intel hat den small form factor Markt immer noch nicht verstanden nach all den Jahren und veroeffentlicht das eine daemliche Produkt nach dem anderen. In diesem Markt ist Stromverbrauch die hoechste Prioritaet; von der CPU Seite mag Intel zwar in allen bunten Farben behaupten dass ihre Atom CPUs besser sind als ARM's CPU IP, hat aber auch nichts mit der Realitaet zu tun. So bald sie den Stromverbrauch um N% reduzieren leidet darunter die Leistung.

Es kommen bald Intel's Clovertrail windows8 tablets auf den Markt. Der Preis wird ziemlich hoch sein fuer ein tablet und die Dinger werden ziemlich lahmarschig gegen ein iPad3 als Beispiel dastehen mehr oder weniger auf dem gleichen Preisnivaeu. Noch schlimmer wenn man nicht so viel bezahlen will kann man stets um zich Male billigere Android tablets haben mit vergleichbarer Leistung zu dem Ding und es fehlt eben dann (Gott was fuer ein Verlust...:rolleyes: ) windows.

Nicht umsonst zahlt man 1,5 Mrd. USD an NV für ihre (wenn auch nur alten?!) Patente.

Nicht dass ich mich an mehr als 1Mrd erinnern kann, aber es ist auch weniger wichtig. Was genau hat jetzt das Zeug mit Intel's bekloppten SFF Design-Entscheidungen zu tun?

G 80

2012-09-30, 00:18:08

Stimmer die im großen und ganzen zu nur,

Ein Core i7-3770K ist ja auch nur 160mm^2 klein und hier mosert keine Sau, dass das Teil so mini ist.

halt mal! Ich moser nur zu gerne rum. Leider zieht BD als oversized Piece of Shit, ders schaft trotz besserer Fertigung zT langsamer zu sein als der Vorgänger aus dem eigenen Haus, schon den großteil an Hohn und Spott auf sich.

Aber gerne, diese ~ 110! mm² CPU ist ein Witz!, wäre BD nicht so extrem scheiße würde das auch bissl mehr auffallen. Ein 6 Kerner mit 90 W TDP und unveränderten Preis wäre angemessen; mit oder ohne iGPU - ohne würde sich nichtmal bei der Fläche was tun. :freak:

Ailuros

2012-09-30, 00:49:39

Herrschaften CPUs und GPUs sind zwei total verschiedene Tiere.

G 80

2012-09-30, 00:57:07

Klar, nur das konnte ich nicht so stehen lassen. ;)

Ist dasselbe wie der Übertakten kostet bei Intels aktuellen CPUs nur 10€/$ -Blödsinn.

boxleitnerb

2012-09-30, 10:51:44

Sollte es stimmen und ein GK114 in die GTX780 wandern, hoffe ich inständig, dass Nvidia den Chip nicht wieder an der Bandbreite verhungern lässt und ruhig auch die TDP um 10-20% raufsetzt.

aufkrawall

2012-09-30, 11:23:30

Ein GK114, der wieder etwa DP-Leistung bei Compute verkackt, wäre wirklich ziemlich langweilig.
Würd ich nicht kaufen.

AnarchX

2012-09-30, 11:28:24

Wohl kaum ein einstelliges Prozent der GeForce Käufer wird sich für DP/Compute-Leistung interessieren.

Im Endeffekt könnte man wohl weiterhin auf GK104 setzen, mit besseren Yield vielleicht die durchschnittliche Taktrate um 10% steigern und dazu noch den 7Gbps GDDR5, der für Q1 2013 gelistet wird. Dazu vielleicht noch einen MSRP von $399.

boxleitnerb

2012-09-30, 11:31:37

Die Frage ist, ob solche Geschichten wie Dirt Showdown und AvP in Zukunft häufiger vorkommen. Auch ist (mir) nicht klar, ob es an der Art der Implementierung liegt, an der fehlenden Bandbreite oder ob GK104 wirklich zu wenig Leistung in Teilbereichen hat, um hier aufschließen zu können.

aufkrawall

2012-09-30, 11:47:20

Wohl kaum ein einstelliges Prozent der GeForce Käufer wird sich für DP/Compute-Leistung interessieren.

Eine potentielle Compute-Schwäche wirkt auf mich aber total abschreckend.
Bei GK104 ist das ok, das Teil ist ja eh nur Übergang.
AMD ärgert Nvidia ja jetzt schon mit High Res und shaderlastigen Anwendungen.
Wäre vielleicht unklug, auch noch bei Compute geschlagen zu werden.
Zumal das womöglich die Innovation bremst, da sich mit Compute offenbar viel anstellen lässt.

boxleitnerb

2012-09-30, 11:50:58

Das liegt aber möglicherweise "nur" an der reinen geringeren Rohleistung. Wie sähe die Sache aus, wenn GK104 auch 2048 Einheiten hätte?

fondness

2012-09-30, 12:28:41

Das liegt aber möglicherweise "nur" an der reinen geringeren Rohleistung. Wie sähe die Sache aus, wenn GK104 auch 2048 Einheiten hätte?

Coda hat mit seinem kleine Bench jedenfalls schon klar gezeigt das es auch eine Register-Schwäche gibt, also die Register deutlich kleiner sind als bei den direkten Vorgängern und bei AMD. Solange die Daten in den Registern Platz haben scheint GK104 bei Computer (ohne DP) durchaus konkurrenzfähig. Wenn nicht bricht die Leistung natürlich deutlich ein.

boxleitnerb

2012-09-30, 12:51:34

Jo eben. Den Benchmark kenn ich - man kann sicherlich viele Probleme entsprechend anpassen. Ich könnte mir auch vorstellen, dass das z.B. bei Showdown auch gegangen wäre - wenn AMD gewollt hätte. So ist es halt heutzutage, beide lassen einzelne Spiele für die eigene Architektur optimieren, die Konkurrenz geht leer aus. Das sagt halt wenig über die Architektur an sich.

Gipsel

2012-09-30, 13:21:29

Der Rohleistungsunterschied ist deutlich kleiner als der Abstand in einigen Compute-Anwendungen. Das Problem bei GK104 (und kleiner) ist dort vermutlich mehr die Anzahl der zur Verfügung stehenden Register (GK104 hat insgesamt 2MB Register, 256kB für je 192 ALUs; Tahiti hat insgesamt 8MB Register, 256kB für je 64 ALUs) oder auch die größe des local memory (GK104 maximal 48kB für 192 ALUs, Tahiti hat 64kB für 64 ALUs; dies schränkt auf GK104 die Anzahl der gleichzeitig laufenden Warps und somit die nutzbare Datenparallelität ab und zu empfindlich ein). Und in einigen Anwendungen ist auch die Bandbreite bzw. Latenz des local memory bzw. die Performance von atomics (sowohl local als auch global) sehr wichtig, auch wenn Kepler dort offenbar im Vergleich zu Fermi zugelegt hat, aber das ist vermutlich nur selten für die manchmal großen Unterschiede entscheidend (da liegen Kepler und Tahiti dichter zusammen als bei der Größe).

Edit:
Jo eben. Den Benchmark kenn ich - man kann sicherlich viele Probleme entsprechend anpassen.So einfach ist das nicht. Für viele Probleme benötigt man schlicht eine gewisse Größe für den aktiven Datensatz, um eine effiziente Implementation zu bekommen. Daß man einfach mal so den benötigten Platz auf ein Drittel oder so einschränken kann, ist eigentlich ziemlich selten.

Hübie

2012-10-01, 06:39:52

Meine Fragezeichen diesbezueglich waeren dann:

1. Werden zukuenftige Spiele zu einem Anteil an computing setzen und wenn ja sind GK104's Faehigkeiten und dessen Nachfolger's Faehigkeiten genug sich gegen Tahiti und dessen Nachfolger sich dort zu behaupten?

2. 12 SMXs bei theoretischen 1GHz und ein 384bit bus duerften auf Papier schon theoretisch maximale Werte liefern die fast gleichauf zu GK110 kommen wuerden bei ebenso theoretischen ~850MHz, aber caches sind eben nicht so grosszuegig in kleineren cores wie GK110 was ein ganz anderes Verhaeltnis zur eigentlichen brauchbaren Bandbreite eines jeglichen cores bedeutet. Je mehr Daten on chip bleiben (caching) desto weniger reads/writes und ergo kleinerer Bandbreiten-Verbrauch.

Es ist eben nicht so einfach dass man ploetzlich nur einen breiteren Bus auf eine Architektur klatscht und glaubt dass man genau das gleiche erreichen wird.

1.) Der Trend ist abzusehen: Mehr und mehr Effekte werden über compute-shader gelöst. Das sah man erst mals beim object based depth of field aus Metro2033 und setzt sich im Nachfolger fort.
Auch Dirt 3 ist mit dem illumination-Algorythmus auf compute-power angewiesen. In beiden Spielen stampft GCN GK104 in den Boden. Da liegen GTX670 und HD 7870 auf Augenhöhe (200€ vs. 330€).
2.) Ack. Zumindest auf dem Papier - wie da ja bereits geschrieben hast. Ich glaube jedoch das an den Gerüchten viel fud klebt ;D

NVIDIA sagte vor dem GK104-Release, dass die data-movements analysiert haben und Kepler daraufhin optimierten. Wie man sieht kämpft sich der Chip in den meisten Spielen gut durch und verbraucht auch weniger. Größere, teils ungenutzte, Caches bedeuten halt mehr Verbrauch. Mehr Daten die hin und her bewegt werden ebenso. NVIDIA hat imo hier schon richtig aber nicht weitsichtig gehandelt. In zwei Jahren steht Tahiti XT in dann aktuellen Titeln sicher besser dar als GK104. Siehe 1.) ;)

Iruwen

2012-10-01, 09:33:05

Eigentlich schon weitsichtig, dann kaufen sich die Leute in zwei Jahren neue Grafikkarten - wenn sie bis dahin zufrieden waren wieder von Nvidia.

fondness

2012-10-01, 09:42:40

Eigentlich schon weitsichtig, dann kaufen sich die Leute in zwei Jahren neue Grafikkarten - wenn sie bis dahin zufrieden waren wieder von Nvidia.

Also ob es ein Kunde positiv finden würde wenn seine damals sogar teurere Karte zwei Jahre später vom ehemals ebenbürtigen Konkurrenten verrissen wird wage ich zu bezweifeln. Da bin ich lieber als Kunde weitsichtig und kaufe mir gleich etwas nachhaltiges. ;)

Iruwen

2012-10-01, 10:12:15

Du vielleicht, das tut die relevante Masse der Kunden aber nicht. Warum auch, das wird gerade mal hier von ein paar Cracks diskutiert. Und selbst denen ist es offensichtlich nicht wichtig, wir tauschen unsere Karten eh längst wieder aus bevor das relevant wird. Es geht ja auch in zwei Jahren keiner hin und sagt den Leuten dass ihre alten Karten von Anfang an eine geringe Halbwertszeit hatten.

Hübie

2012-10-01, 11:14:04

Ähm. Ja ich meinte weitsichtig im Sinne des Konsumenten. NVIDIA selbst hat ein sehr gutes Marketing. Die könnten selbst einem Eskimo einen Kühlschrank verkaufen ;D

V2.0

2012-10-01, 11:31:08

Iruwen

2012-10-01, 12:05:19

Kommt drauf an wann die neuen Konsolen nun wirklich kommen :D

Hübie

2012-10-01, 13:36:07

Ach Gott, wer kann schon sagen welche Karte in 2 Jahren besser performt. Aber es wäre schon eine Schande, wenn Tahiti bis dahin seine Mehrpower nicht umsetzen kann. Und vor allem, wenn juckt es? Käufer von High-End-Karten spielen in Full-HD (+) mit max. Details, ich denke das schaffen beide gegenwärtigen Topkarten in 2 Jahren nicht mehr.

GF110 ist ca. zwei Jahre alt *räusper* Kaum zu glauben wie die Zeit vergeht, aber sind beinahe zwei Jahre. Und meine spielt immer noch in der Oberliga. Tahiti wird in zwei Jahren ebenfalls in der Oberliga bleiben.
Bisher kenne ich kein Spiel welches bei mir nicht @max. Details läuft. Erst mit eye-candy alá SSAA/DS/ENB-SSAO etc. gehen entweder power oder VRAM zu neige.
Also sei nicht zu voreilig mit solchen Schlüssen ;) Der Trend ist jedenfalls zu erahnen: compute-power wird in Zukunft benötigt.

V2.0

2012-10-01, 13:39:01

Und wenn ich sehe wie gut einen 680 in BL2 mit Grafik + Physics umgeht, dann hat sie evtl. auch genug Computepower für die Zukunft. Evtl. fehlt es Tahiti in Zukunft ja an Tesselation-Power :D

Ailuros

2012-10-01, 13:57:07

1.) Der Trend ist abzusehen: Mehr und mehr Effekte werden über compute-shader gelöst. Das sah man erst mals beim object based depth of field aus Metro2033 und setzt sich im Nachfolger fort.
Auch Dirt 3 ist mit dem illumination-Algorythmus auf compute-power angewiesen. In beiden Spielen stampft GCN GK104 in den Boden. Da liegen GTX670 und HD 7870 auf Augenhöhe (200€ vs. 330€).
2.) Ack. Zumindest auf dem Papier - wie da ja bereits geschrieben hast. Ich glaube jedoch das an den Gerüchten viel fud klebt ;D

NVIDIA sagte vor dem GK104-Release, dass die data-movements analysiert haben und Kepler daraufhin optimierten. Wie man sieht kämpft sich der Chip in den meisten Spielen gut durch und verbraucht auch weniger. Größere, teils ungenutzte, Caches bedeuten halt mehr Verbrauch. Mehr Daten die hin und her bewegt werden ebenso. NVIDIA hat imo hier schon richtig aber nicht weitsichtig gehandelt. In zwei Jahren steht Tahiti XT in dann aktuellen Titeln sicher besser dar als GK104. Siehe 1.) ;)

Es wuerde aber nicht das erste Mal sein; siehe R5x0 vs. G7x. Als die Unterschiede langsam zum Vorschein kamen bombardierte NVIDIA den Markt mit dem G80 und es haben sich wohl wenige bis niemand mehr ueber G7x den Kopf zerbrochen.

Das dumme mit dem Beispiel ist eben dass sowohl R5x0 als auch G7x high end single chip Loesungen waren. ATI aenderte nach dem R600 FLOP ihre Strategie und machte mit single chips bei performance SKUs halt.

Jetzt aenderte NV ihre Strategie um einen kleineren Grad in dem man performance, mainstream und low end Vorrang gab und high end fast fuer das Ende der Entwicklung gelassen hat, welches wie bei allen alternativen Loesungen sowohl mit Vor- als auch mit Nachteilen kommt. Ich will nach wie vor bezweifeln dass NV GK110 nicht fuer desktop benutzen wird (obwohl ich noch keine Antwort bekommen hab) und jemand wird eben dafuer sorgen muessen jemand dem Herren auf der Palme Zigaretten zu liefern :D

Technisch gesehen gibt es auch keinen einzigen Anlass selbst daran zu denken dass GK110 fuer 3D schwaecheln wuerde. Register files, cache Groessen, Anzahl der DP Einheiten,HyperQ, dynamic parallelism, Busbreite/ROP Anzahl etc zur Seite ist GK110 im Grund nichts anderes als eine ziemlich grosse Erweiterung von GK10x. Es sind genauso viele SPs/SMX vorhanden wie auf GK104 und co. und ebenso 16 TMUs/SMX u.a.

Ich war sogar ziemlich stark ueber GK110 ueberrascht und dessen Verteilung von Einheiten, denn ich erwartete wie jeder lesen konnte dass dieses ganz anders aussehen wird mit einem 2:1 SP/DP Verhaeltnis. Ausserdem wissen IHVs schon wie jegliches Projekt dank Simulationen am Ende aussehen wird schon vor der Produktion. Es ist uebrigens eben nicht so dass NVIDIA nicht schon mehr oder weniger heute weiss wo sie Sea Islands einschaetzen sollten.

Thunder99

2012-10-01, 13:58:25

Wir sehen grad wie damals zu Rxx Zeiten (X1900er) das im derzeitigen Angebot die AMD Karte ausgewogener ist und daher besser in der Zukunft performen kann

GK110 wirds aber wieder richten, da dann die volle Power wirklich High-End sein wird und die Performance Klasse dann GK104/114?) übernimmt :wink:

Ich gehöre zu den Freaks die gerne alle 2 Jahre ne neue Karte kauft :freak: , bin aber wie das Forum nicht repräsentativ für die Masse

Hübie

2012-10-01, 14:36:26

und jemand wird eben dafuer sorgen muessen jemand dem Herren auf der Palme Zigaretten zu liefern :D

Den Ausdruck kannte ich noch gar nicht :up: ;D

Technisch gesehen gibt es auch keinen einzigen Anlass selbst daran zu denken dass GK110 fuer 3D schwaecheln wuerde. Register files, cache Groessen, Anzahl der DP Einheiten,HyperQ, dynamic parallelism, Busbreite/ROP Anzahl etc zur Seite ist GK110 im Grund nichts anderes als eine ziemlich grosse Erweiterung von GK10x. Es sind genauso viele SPs/SMX vorhanden wie auf GK104 und co. und ebenso 16 TMUs/SMX u.a.

Ich glaube dass kommt noch vom Fermi wo es einfach nur hieß, der habe zuviel compute-Balast. Was man darunter verstehen soll sei mal dahingestellt. :rolleyes:
GK110 hat beste Vorraussetzungen um am Windwos-Spiele-Desktop anzutreten. Ob jedoch dynP und HyperQ am Windows-PC was bringen weiß ich nicht so recht, aber ich bezweifel es erst mal. Ich weiß ja immer noch nicht ob das nun expliziten code erfordert oder nicht.
Wenn ja ist auch nicht klar ob ein Treiber das immer realisieren/erzwingen kann (i.d. Theorie sollte er zumindest HyperQ können). Dynamic paralism sieht mir nach hardware-function aus. Bin aber zu wenig Experte um so etwas reell zu beurteilen. Da brauchts einen Coda, demirug oder so :naughty:

Ich war sogar ziemlich stark ueber GK110 ueberrascht und dessen Verteilung von Einheiten, denn ich erwartete wie jeder lesen konnte dass dieses ganz anders aussehen wird mit einem 2:1 SP/DP Verhaeltnis. Ausserdem wissen IHVs schon wie jegliches Projekt dank Simulationen am Ende aussehen wird schon vor der Produktion. Es ist uebrigens eben nicht so dass NVIDIA nicht schon mehr oder weniger heute weiss wo sie Sea Islands einschaetzen sollten.

Na ja. Was haben wir jetzt? 1/24 DP GK104 und 1/8 DP GK110 oder wie stehts? Fand deine Prognose eh optimistisch :P Das wiederspräche der "Salami-Taktik".

Ailuros

2012-10-01, 15:25:50

Ich glaube dass kommt noch vom Fermi wo es einfach nur hieß, der habe zuviel compute-Balast. Was man darunter verstehen soll sei mal dahingestellt. :rolleyes:

Performance Fermi GPUs im Vergleich zu GK104 sicher.

GK110 hat beste Vorraussetzungen um am Windwos-Spiele-Desktop anzutreten. Ob jedoch dynP und HyperQ am Windows-PC was bringen weiß ich nicht so recht, aber ich bezweifel es erst mal. Ich weiß ja immer noch nicht ob das nun expliziten code erfordert oder nicht.

Cloud gaming vielleicht?

Wenn ja ist auch nicht klar ob ein Treiber das immer realisieren/erzwingen kann (i.d. Theorie sollte er zumindest HyperQ können). Dynamic paralism sieht mir nach hardware-function aus. Bin aber zu wenig Experte um so etwas reell zu beurteilen. Da brauchts einen Coda, demirug oder so :naughty:

Ich lass mich auch eines besseren belehren, aber es sieht alles nach hw aus und dazu noch alles andere als billig.

Na ja. Was haben wir jetzt? 1/24 DP GK104 und 1/8 DP GK110 oder wie stehts? Fand deine Prognose eh optimistisch :P Das wiederspräche der "Salami-Taktik".

Um wieviel sie GK110 desktop fuer DP genau kastrieren werden hat nichts damit zu tun ueber was die eigentliche hw faehig ist. Nebenbei laesst sich die Bullshit Angabe von videoardz von bis zu 2304 SPs eben nicht mit 196 teilen fuer den mysterioesen GK11x chip, welches das Ganze noch kunterbunter macht und rein zufaellig auf der gleichen Basis liegt wie mein original albernes Zeug fuer GK110.

Hübie

2012-10-05, 08:16:13

Ailuros

2012-10-05, 09:40:37

Na ja HyperQ ginge afaik via compiler. Wäre dann jedoch wenig performance-fördernd.
Ich beömmel mich über die aberwitzigen angeblich brandaktuellen Daten zu GK110 (wenn er denn für Desktop kommt). NVIDIA ist ja mittlerweile auch dafür bekannt schnell mal was über den Haufen zu werfen bzw. noch einmal nach zu legen. Ein hypotethischer GK114 für highend-Desktop erscheint mir auch nicht ganz fern, da man ja hier Kosten sparen könnte. Jeder Lemming würde doch wieder Luftsprünge machen wenns das Ding für 600 Tacken exakt zwischen 680 und 690 schafft... und das wird so der Fall sein.

Tja nur ist das Problem dass ein GK104 refresh zwar etwas schneller sein wird als eine 680 und tatsaechlich zwischen 680 und 690 liegen wird, nur eben nicht so nahe an der 690 wie ein GK110.

Wegen der DP-Kastration mach ich mir keine Sorgen. Das spielt eh noch zweite Geige und wird so oder so mehr als bei GK104 sein.

Selbst GK110 desktop wuerde zwar mit mehr DP als jegliches GK1x4 ankommen aber trotz allem kastriert. Es geht hier nicht um DP sondern eher um register file bzw. cache Groessen. Es ist eben nicht so dass sie einem GK114 N% mehr SMXs spendieren koennten und X% mehr Bandbreite und dass man automatisch annaehernd GK110 Leistung erwarten koennte. Im besten Fall platziert sich ein GK114 verdammt konkurrenzfaehig zum Sea Islands performance Teil und das wars dann auch. Im Gegensatz zu GK110 wobei es auch zu erwarten waere dass ein so grosser die und bei so viel hoeherem Strassenpreis sich um einiges mehr vom vorigen distanzieren koennte.

Wie auch immer dieses Märchen ausgehen wird, gekauft wird das Teil eh. (Wenn nicht von uns beiden, ailuros, dann von wen anders)

Wenn gar nichts von NV von GK110 desktop kommen sollte hat NV automatisch ihre treue high end Kundschaft erstmal grandios angepinkelt. Die Menge ist zwar nicht uebermaessig gross, aber glaub bloss nicht dass sie fuer NV nicht wichtig ist. Ihr support hat sogar extra ein quad SLi (mit high end SKUs) in der Vergangenheit zusammengestellt um einen einzigen Kunden zu unterstuetzen; ob quad SLi jetzt absurd ist oder nicht ist nebenwichtig.

Es gibt etliche GTX580 Benutzer die die 680 aus gutem Grund ueberfluegelt haben und ich glaube auch nicht dass es bei einem etwas schnelleren refresh anders sein wird. Ein single high end chip User wird auch nicht zu dem mGPU Quark greifen, eben weil er genau weiss was er will. Von da ab sollte sich NV eben dann nicht wundern wenn einige dieser User einfach zu Sea Islands greifen in der Zukunft und Schwamm drueber.

Das laecherliche ist dass in diversen fora unendlich Bandbreite verschwendet wird nur weil die zwielichtigste "Quelle" ueberhaupt ein paar Linien von bullshit geschrieben hat. So lange er N hits auf seinem blog bekommt ist es auch wurscht ob die Meldung Hand und Fuesse hat.

Sonst insgesamt hiess es z.B. dass GK106 desktop storniert wurde, woanders dass GK104 es nie in laptops schaffen wird und so manch anderer Bloedsinn der von Zeit zu Zeit im Netz kursiert. Mit ein paar verstaendlichen kleinen Aenderungen/Verzoegerungen hat sich die Kepler Veroeffentlichung genau so entwickelt wie sie mir von Anfang an beschrieben wurde:

1. GK107 in grossen Massen fuer mobile deals ohne dass eine Kepler Ankuendigung folgt bis GK104 als "halo" Produkt in Massenproduction liegt.
2. GK104 war als naechstes an der Leine mit einer Leistungs-projektion von ca. 580+30% fuer desktop und sollte auch als permanentes "flagship" fuer mobile deals gelten.
3. GK110 direkt danach mit einer Leistungs-Projektion von 680+~50%.
4. GK106 als letztes an der Leine mit einer Leistungs-Projektion fuer die groesste Variante bei einem Schnitt ueber 570.

Neben den Fehlern fuer die GK110 bzw. GK106 Einheiten-Anzahl und den Zeitpunkt des eigentlichen 110 finalen tape outs, ist die timeline eben fast genau auf den Punkt so wie beschrieben wurde und das Ganze kam nicht gestern an, sondern bevor 2011 ausgelaufen ist.

Moeglichkeiten untersuchen schadet zwar nicht, aber ein bullshit-meter fuer jeglichen Bloedsinn der von jeder 0815 Seite berichtet wird braucht man dann auch schon.

Wenn jetzt NV's Marketing so besoffen sein sollte einen GK114 "GTX780" zu nennen und GK110 dann als "GTX790" ankommt (was auch nicht besonders viel Sinn macht) heisst es natuerlich nicht dass jemand hier ploetzlich "recht" hatte. Marketiers spinnen mehr als oefters und "780" fuer GK114 waere ziemlich absurd.

***edit: HyperQ bzw. dynamic parallelism sind weder sw features noch vergleichsmaessig billig in R&D und hw Logik. Momentan werden zwar GRID Maschinen mit dual mGPU ausgestattet, aber gerade in dem Feld hat GK110 sehenswerte Vorteile. GK104 wurde eben (im Gegensatz zur Vergangenheit) als low-end Tesla, "higher end" Quadro Kepler und mainstream GRID Maschinen benutzt.

Hübie

2012-10-05, 10:20:25

Ehrlich gesagt wäre ich einer jener Jünger die beleidigt wären ;) Ich bestreite einen GK114 nicht grundsätzlich aber weigere mich zu glauben dass GK110 nicht am Endkundenmarkt aufschlägt. Und GK110 wird ziemlich exakt die Mitte aus 680 & 690 treffen (war oben missverständlich ausgedrückt), während GK114 wohl eher GK104 +8% darstellen wird.
Fände ich allein vom Namensschema logischer. Und ich wette, dass wenn TSMC die Kapazitäten gehabt hätte, nVidia GK110 mittlerweile zumindest vorgstellt hätte (eher veröffentlicht). Das tapeout war afaik vor 8 Monaten und da K20 bereits ausgeliefert wird ist hardwareseitig alles in Stein gemeißelt (clocks sind ja variabel).
Also sehe ich eigentlich auch keinen konkreten Grund uns dieses Monster vorzuenthalten.

btw: *klugschiss* Plural von Forum ist Foren und das Sprichwort heisst "ob es Hand oder Fuß hat" - so jetzt fühl ich mich wieder überlegen ;D

Bei grid computer rechnen doch viele bzw. mehrere Projekte auf verteilten Farmen oder?

Ailuros

2012-10-05, 10:46:03

Mir wurde Anfang 2012 vermittelt dass GK110 "fertig" ist seit Dezember 2011. Dieses "done" hab ich dummerweise als tape out interpretiert, wobei es eigentlich fuer "design finished" stand. Finaler tape out war Anfang Maerz 2012 und die Liste in meinem vorigen Post ist natuerlich fuer chip tape outs.

GK107 war schon vor 2011 auslief in Partner Haenden und der 104 tape out war irgendwo Oktober 2011 bin mir aber nicht mehr sicher darueber.

Ergo ist der GK110 tape out eben nicht 8 sondern lediglich 5 Monate her. Dass sie schon etwas ausgeliefert haben ist erstmal eine positive Indizie, dass sich zumindest der Produktions-start des 110 vom tape out nicht verspaetet hat. Ueber genaue Mengen bzw. yields kann man natuerlich noch nichts wissen.

Ich hab mal jemand im Hintergrund etwas Gedankenfutter zugeschickt dass er etwas weiterforscht und wir werden schon sehen ob es wieder einen langwierigen "GK110 unmanufacturable" drivel geben wird ;)

***edit: kommt natuerlich drauf an wie man genau Erbsen zaehlen will, aber in der Mitte zwischen 680 und 690 wird GK110 im hypothetischen Vollausbau nicht liegen. Eher ein uebersehbares Prozentual unter der 690 in 2560+AA und mit etwas Glueck sogar Gleichstand in multi-monitor+AA.

N0Thing

2012-10-05, 11:58:41

Mir wurde Anfang 2012 vermittelt dass GK110 "fertig" ist seit Dezember 2011. Dieses "done" hab ich dummerweise als tape out interpretiert, wobei es eigentlich fuer "design finished" stand. Finaler tape out war Anfang Maerz 2012...

[...]

Ergo ist der GK110 tape out eben nicht 8 sondern lediglich 5 Monate her.

Wenn der tape out des GK110 Anfang März gewesen war, dann sind seit dem laut meinen Fingern nun sieben Monate vergangen. ;)

Was ich aber viel interessanter finde, ist deine Einschätzung der Performance des GK110. Ich hätte da auch eher die Richtung von Hübie eingeschlagen und +40%/50% in FullHD und höheren Auflösungen erwartet.

V2.0

2012-10-05, 12:06:20

Wenn der tape out des GK110 Anfang März gewesen war, dann sind seit dem laut meinen Fingern nun sieben Monate vergangen. ;)

Was ich aber viel interessanter finde, ist deine Einschätzung der Performance des GK110. Ich hätte da auch eher die Richtung von Hübie eingeschlagen und +40%/50% in FullHD und höheren Auflösungen erwartet.

Sie leifern GK110 ja auch schon aus. Nur nicht für den Desktop.

Ailuros

2012-10-05, 12:13:21

Wenn der tape out des GK110 Anfang März gewesen war, dann sind seit dem laut meinen Fingern nun sieben Monate vergangen. ;)

5 Monate fuer die erste Auslieferung und ja ich denke schneller als ich tippen kann.

Was ich aber viel interessanter finde, ist deine Einschätzung der Performance des GK110. Ich hätte da auch eher die Richtung von Hübie eingeschlagen und +40%/50% in FullHD und höheren Auflösungen erwartet.

NV sagte 50% im Durchschnitt; willst Du peak Werte wagen dort wo GK104 wirklich die Puste, Speicher und Bandbreite ausgeht?

aufkrawall

2012-10-05, 12:20:14

NV sagte 50% im Durchschnitt; willst Du peak Werte wagen dort wo GK104 wirklich die Puste, Speicher und Bandbreite ausgeht?
Wie wärs mit Metro 2033? :D

Duplex

2012-10-05, 13:34:18

Wenn GK110 im März seinen Tapeut hatte, dann kommt der Chip garantiert zwischen Januar/Februar 2013 im Handel, wahrscheinlich auch als Geforce GTX780/770 mit 250/225W.
Hoffentlich gelingt es AMD das die HD8970 30-40% schneller* als die HD7970 wird (* Frontend-Verbesserungen (+20%), ROPS (+50%), GPU Shader (+25%)), damit dann die Preise bei Nvidia nicht zu hoch sind. Ich denke wenn AMD keinen großen Sprung mit der 8970 machen wird, z.b. nur 20%, dann wird Nvidia GK110 einfach mit weniger Takt & TDP vermarkten und trotzdem 500-549$ kassieren.

N0Thing

2012-10-05, 13:34:26

NV sagte 50% im Durchschnitt; willst Du peak Werte wagen dort wo GK104 wirklich die Puste, Speicher und Bandbreite ausgeht?

Der Durchschnitt einer breiten Basis interessiert mich persönlich mehr, als die gezielte Auswahl einzelner Sahnestücke.
Wenn du nun schreibst, daß sich GK110 bei 2560+AA nur ein übersehbares Prozentual unter einer GTX 690 einreiht, finde ich das überraschend stark. Das klingt nach 10% weniger Leistung, als eine GTX 690 bietet.

Duplex

2012-10-05, 13:37:34

Natürlich sollte man nicht vergessen das "GK110" dann als Single GPU Karte besser als die mGPU "GTX690" skalieren wird, mit der Zeit werden auch die Treiber besser, dann haste die 10% Differenz wieder beseitigt :D

Ailuros

2012-10-05, 14:45:36

Der Durchschnitt einer breiten Basis interessiert mich persönlich mehr, als die gezielte Auswahl einzelner Sahnestücke.
Wenn du nun schreibst, daß sich GK110 bei 2560+AA nur ein übersehbares Prozentual unter einer GTX 690 einreiht, finde ich das überraschend stark. Das klingt nach 10% weniger Leistung, als eine GTX 690 bietet.

Wuerde es Dich ueberraschen wenn der Unterschied in 1080p bzw. 720p zunehmend schrumpfen wuerde zwischen einer 690 und einem hypothetischen GK110 oder kann es vielleicht zufaellig sein dass die CPU Limitierung je kleiner die Aufloesung waechst und dieses noch schlimmer bei mGPU?

Ich persoenlich wuerde eine GK110 desktop GPU auch nicht fuer 1080p kaufen; fuer so eine Aufloesung waere alles andere als Sea Islands bzw. GK114 fuer die Mehrzahl der Faelle eine Verschwendung.

Hugo78

2012-10-05, 15:08:53

Ich persoenlich wuerde eine GK110 desktop GPU auch nicht fuer 1080p kaufen;

Für nur 60Hz mag sein, aber bei 120+ zählt jeder Frame.

So ein zb. ASUS VG278HE (http://geizhals.at/de/807004) mit 144Hz dürfte trotz "nur" Full HD, immernoch viel Freude bereiten, wenn man ihm ein Rig beseite stellt, dass auch immer 144FPS liefert, als Minimum.

aufkrawall

2012-10-05, 15:10:23

Ist wegen der CPU doch gar nicht machbar.
Außerdem hat man mit SSAA auch für 1080p keine Leistung zu verschenken.

Dass ein Refresh +~100% bringt, glaub ich auch erst, wenn ichs sehe.

Ailuros

2012-10-05, 15:42:53

Für nur 60Hz mag sein, aber bei 120+ zählt jeder Frame.

So ein zb. ASUS VG278HE (http://geizhals.at/de/807004) mit 144Hz dürfte trotz "nur" Full HD, immernoch viel Freude bereiten, wenn man ihm ein Rig beseite stellt, dass auch immer 144FPS liefert, als Minimum.

Oder man hockt wie ich immer noch vor einem 21" CRT Dinosaur mit 2048*1536*32@75Hz, wobei dadurch dass die Maske auf der einen Achse ueberschritten wird ich 2x oversampling umsonst bekomme :freak:

Hugo78

2012-10-05, 19:08:03

Ailuros

2012-10-05, 22:31:44

So gehts natürlich auch, wobei 75Hz sind aber auch nicht grad das Wahre.
Bei meinem letzten 19" Iiyama A902MT CRT, hab ich immer 85Hz gebraucht, alles darunter war für mich flimmrig.
In 1280*960, mehr war damals in den meisten Spielen ja eh nicht sinnvoll, konnte der CRT sogar über 100Hz darstellen und ich fand das sehr angenehm.

1280 ist Irrsinn auf 21". Alternativ geht 1920*1440@85Hz fuer 3D, aber ich sehe kein Flimmern in 2048; das freie oversampling opfere ich nicht so leicht. Fuer Bueroarbeit und im Buero benutz ich natuerlich TFTs, aber die meisten Filme schau ich mir auf dem CRT an. Egal wie weit ich vom Fernseher hocke grault es mir jedesmal von dem noise die die Dinger haben.

Zu stark OT aber.

@aufkrawall

Man kann ja zur Not, "CPU kritische Details" reduzieren... :D

Wie meinen?

Hugo78

2012-10-05, 23:02:06

Wie meinen?

Na sowas wie "Sichtweite" oder "Spieleranzahl in MP Games", sollte man im CPU Limit hängen.
Ich selber merk es immerwieder, wie flüssig zb. BF3 mit bis zu 32 Spielern ist und wie laggy es bei 64er Servern wird (trotz 90+ fps fühlt es sich oft laggy an).

Also ggü. einem CPU Limit ist man nicht machtlos, man muss nur wissen wo Spiel XY die CPU (oder halt das Netzwerk) überfordert.
Dann klappt das auch mit den 120fps + X, für so einen 144Hz TFT.

Hübie

2012-10-06, 13:34:28

Meine Performanceprognose bezog sich aufgrund der breiten Masse auch auf full HD. Mit steigender Auflösung und/oder BQ rückt GK110 logischerweise näher an die 690. Breiteres Interface und mehr VRAM sei dank.
Und solang DS geht bringt man auch mit einem 120 Hz full HD Monitor jede Hardware in Schwitzen.
Übrigens bin ich nicht so optimistisch was die HD 8970 angeht...

boxleitnerb

2012-10-06, 20:55:30

Hübie

2012-10-07, 00:59:25

Treffen wir uns in der Mitte bei 280. Obwohl das eine der Faktoren ist die mir persönlich scheißegal sind.
Geklärt ist das sicher nur weiß es hier keiner bzw. ist es nicht offiziell. Es wird bald etwas Licht ins Dunkel kommen, soviel ist klar.

Ailuros

2012-10-07, 03:13:13

Es ist ja immer noch nicht geklaert, ob der hypothetische Vollausbau ueberhaupt kommt bzw. wenn er kommt, ob es eine ultrateure und ultrahungrige 780 Ultra wird mit 300W TDP. GK104 +50% in 250W ist...schwierig.

Ich kann Dich nicht versichern dass es stimmt, aber Geruechte wollen dass die ersten Oak Ridge chips 14SMXs haben bei ca. 760MHz und einem Stromverbrauch von ~225W. Wuerde NV die relevanten Luecken fuer Tesla K20 auf ihrer Hauptseite fuellen, koennte ich die Augenbraue wieder herunterlassen; bis zum Punkt wo konketres erscheint bleibt diese oben ;)

Wenn es stimmen sollte und auch mitberechnet dass desktop Varianten zwar hoehere Frequenzen haben aber auch meistens doppelt so grosse Framebuffer, klingt mir 300W brutal uebertrieben.

Nimmt es aber nicht als bahre Muenze denn es koennten in Echtzeit weniger SMXs sein bei kleinerer Frequenz und hoeherem TDP. Die erste zuverlaessige Indizie waeren eben OFFIZIELLE Tesla Spezifikationen.

Vor Q4 erwarte ich nicht dass hier etwas eingetragen wird: http://www.nvidia.com/content/tesla/pdf/nv-ds-teslak-family-jul2012-lr.pdf

Skysnake

2012-10-07, 07:14:32

wir sind schon im Q4 ;)

hies es aber nicht mal Dezember?

Hübie

2012-10-07, 14:50:13

Ich kann Dich nicht versichern dass es stimmt, aber Geruechte wollen dass die ersten Oak Ridge chips 14SMXs haben bei ca. 760MHz und einem Stromverbrauch von ~225W. Wuerde NV die relevanten Luecken fuer Tesla K20 auf ihrer Hauptseite fuellen, koennte ich die Augenbraue wieder herunterlassen; bis zum Punkt wo konketres erscheint bleibt diese oben ;)

Dann muss was dran sein, da es auch exakt meine Infos sind. Vom wirtschaftlichen Aspekt ist das auch sinnvoll, da du bessere yields erhälst und deine ersten Großdeals erfüllen kannst. Allerdings glaub ich Sachen erst wenn ichs entweder selbst sehe oder wenns offiziell ist. Was die Seiten schreiben glaube ich dagegen schon lange nicht mehr, da eine Menge fud verbreitet wird.
GK114 kann ich aber noch nicht zuordnen (wenns den denn gibt).

Duplex

2012-10-07, 15:57:07

GK114 ist total uninteressant, die Sprünge werden doch immer lächerlicher, die GTX680 ist durchschnittlich 30% schneller als GF110, was wollt ihr jetzt mit nochmal 20% mehr Leistung als GK104... Es ist echt lächerlich was in letzter Zeit passiert, früher gab es noch größere Sprünge, direkt 80% mehr Leistung, z.b. GT200 vs. GF100 und nicht vergessen die Hersteller zocken die Kunden mit einem billigen 290mm² Chip ab während GF100 noch 530mm² groß war! Augen öffnen...

Ich will GK110 mit 2880 Shader @250W TDP bei 850MHz sehen! Sonst gibt es für mich keine Fortschritte, ich hab eine GTX680 Lightning mit 1,1Ghz und brauche keinen dummen GK114, selbst für Aufrüster ist der komplett daneben!!! Bei GPGPU ist selbst GF110 noch hochwertiger :rolleyes:

Timbaloo

2012-10-07, 16:10:22

Ein bißchen viel "ich" ;)

Thunder99

2012-10-07, 16:16:10

Ich sehs schon kommen das wir eine Situation haben werden wie zu G92 / GT200 Zeiten.

Erst war G92(+) als High-End vermarktet worden und ist dann in der GTS250 gewandert. So wirds auch mit GK104 werden als GTX76x mit seinen ablegern

reaperrr

2012-10-07, 16:29:35

(...) :rolleyes:
Beschwere dich bei TSMC und den Grenzen der Physik ;)

Im Ernst, GF1x0 konnte nur so günstig verkauft werden weil man bei TSMC so dämlich war sich von NV einen Vertrag anschwatzen zu lassen, dass NV nur für funktionierende Chips bezahlen muss, statt wie üblich ganze Wafer zu kaufen. Das hat Nvidia ein wenig den Ar... gerettet, weil sie ihre großen GF1x0 und 1x4 so zu ähnlichen Preisen verkaufen konnten wie AMD ihre deutlich kleineren Chips und trotzdem mehr Gewinn übrig blieb.

Für 28nm hat TSMC dann wegen der hohen Nachfrage und der knappen Kapazitäten die eh schon deutlich höheren Waferpreise wenige Monate vor dem Start der neuen Generation Grafikkarten noch weiter erhöht, zusammen mit den anfangs schlechteren Yields war ein Chip gleicher Fläche sicher locker zwei-, eher noch bis dreimal so teuer in der Herstellung.

Außerdem wird sich bei Shrinks die Skalierung sowohl der Fläche als auch des Stromverbrauches aus physikalischen Gründen weiter immer mehr verschlechtern, wenn nicht bei irgendwelchen neuen Techniken der Durchbruch gelingt, was aber weitere Jahre und Milliarden an Entwicklungskosten verschlingen wird, letztere müssen dann logischerweise auf die Endverbraucher umgelegt werden wenn das ganze rentabel bleiben soll.

Duplex

2012-10-07, 17:03:44

Beide Hersteller bekommen seit über 10 Monaten 28nm HP Wafer von TSMC, einfach Augen öffnen und wahr haben das GK104 nur GF110 x 1.3 ist...Früher hat Nvidia noch Anfang´s größere Chips mit 60-80% mehr Leistung als der Vorgänger vermarktet, die Zeiten sind vorbei, die Hersteller können sich ihren Refresh mit 20% in den Arsc.. schieben, das ist alles nur noch abzocke! Auch wenn ich mir selber ein GK104 gekauft habe, die Situation sollte man ernster nehmen...

Ailuros

2012-10-07, 18:07:09

wir sind schon im Q4 ;)

hies es aber nicht mal Dezember?

Ja nur hat die Auslieferung nicht in Q4 angefangen, sondern eigeintlich in Q3. Mag sein dass sie die ersten HPC deals fuellen moechten und dann die Tueren weiter aufmachen fuer was auch immer ab Q4. Dass sie aber keine K20 Daten noch nicht erwaehnen ist erstmal merkwuerdig. Gut sie sind mit Fermi platt auf die Nase gefallen da sie mehr versprochen hatten Ende 2009 in Tesla whitepapers und am Ende um einiges weniger und mit um einiges mehr Stromverbrauch liefern konnten, aber heute duerfte die GK110 Situation ziemlich klar aussehen.

GK114 ist total uninteressant, die Sprünge werden doch immer lächerlicher, die GTX680 ist durchschnittlich 30% schneller als GF110, was wollt ihr jetzt mit nochmal 20% mehr Leistung als GK104... Es ist echt lächerlich was in letzter Zeit passiert, früher gab es noch größere Sprünge, direkt 80% mehr Leistung, z.b. GT200 vs. GF100 und nicht vergessen die Hersteller zocken die Kunden mit einem billigen 290mm² Chip ab während GF100 noch 530mm² groß war! Augen öffnen...

Die Luecke in der obrigen Logik liegt eben direkt in der die area die Du selber erwaehnst. GF110 ist ein high end Fermi chip, waehrend GK104 lediglich ein performance Kepler chip ist. Zwischen GK104 und GF114 hast Du dann schon den Leistungs-unterschied einer neuen Generation, mit der eher ungluecklichen Kleinigkeit dass GTX680 eben leider immer noch einen high end Preis hat. Bis GK110 ankommt wird sich schwer etwas daran aendern, aber es ist auch ziemlich fraglich wie lange genau sich NVIDIA ohne jegliche Preisreduzierungen halten werden wird:

http://www.anandtech.com/show/6357/amd-cuts-radeon-hd-7850-prices-again

Ich will GK110 mit 2880 Shader @250W TDP bei 850MHz sehen! Sonst gibt es für mich keine Fortschritte, ich hab eine GTX680 Lightning mit 1,1Ghz und brauche keinen dummen GK114, selbst für Aufrüster ist der komplett daneben!!! Bei GPGPU ist selbst GF110 noch hochwertiger :rolleyes:

Wie Du in meinen vorigen Posts sehen kannst ist das Sentiment im Netz von vielen aehnlichen Faellen nicht gerade fremd.

Beide Hersteller bekommen seit über 10 Monaten 28nm HP Wafer von TSMC, einfach Augen öffnen und wahr haben das GK104 nur GF110 x 1.3 ist...Früher hat Nvidia noch Anfang´s größere Chips mit 60-80% mehr Leistung als der Vorgänger vermarktet, die Zeiten sind vorbei, die Hersteller können sich ihren Refresh mit 20% in den Arsc.. schieben, das ist alles nur noch abzocke! Auch wenn ich mir selber ein GK104 gekauft habe, die Situation sollte man ernster nehmen...

Das dumme ist eben dass beide IHVs erst in diesem Quartal Kapazitaeten erreichen werden die sie nach um einiges weniger Monaten nach dem Produktionsstart unter 65 bzw. 55nm in der Vergangenheit hatten. Und es ist auch ein ziemlich merkwuerdiges Beispiel denn zu dem Zeitpunkt stellten AMD und NVIDIA eben NICHT auf dem gleichen Herstellungsprozess her, da NV erst ab 40G auf den kleinsten Herstellungsprozess von Anfang ging.

Anders GT200 kam zuerst mit 65nm an waehrend AMD zu dem Zeitpunkt auf 55nm herstellte. Nach Monaten stellte zwar auch NVIDIA auf 55nm um, aber es ist schon ein gewaltiger Unterschied von einem grossen GPU IHV fuer einen Prozess Kapazitaeten bereitzustellen und dann ploetzlich ab 40nm gleich zwei mit vergleichbaren Volumen-Anspruechen was mainstream GPUs betrifft.

NVIDIA brauchte nach dem 40nm disaster eine Loesung die erstmal sichert dass der top dog nicht die Herstellung bzw. Veroeffentlichung der gesamten Produkt-Familie hindert. Deshalb wurde bei Kepler die Entwicklung bzw. tape out timelines so angelegt dass der top dog eben nicht mir als erstes an der Linie steht. Zuerst budget, dann performance, danach high end und als letztes mainstream.

Was jetzt TSMC betrifft bunte Spekulation meinerseits, aber es sind alle durch die 28nm Problematik bei TSMC betroffen und nicht nur NV bzw. AMD und mehr oder weniger selbst indirekt miteinander verbunden:

1. Kann durchaus sein dass AMD tatsaechlich einen Anteil der Sea Islands Fertigung auf GloFo auslastet. Dieses entspannt erstmal die zu hoehen Ansprueche von 2 IHVs gleichzeitig fuer den gleichen Prozess und wenn TSMC tatsaechlich dedizierte fabs an IHVs goenne wird wuerde ich NVIDIA unter einen der Kandidaten zaehlen.

2. Ob 28HP oder 28LP die Problematik ist gleich. Qualcomm kann ihre Projektionen dank begrenzter Kapazitaeten nicht liefern. Wahrscheinlich wird Qualcomm einen Anteil ihrer Produktion bei TSMC lassen, etwas an GloFo auslasten und auch parallel UMC mitbenutzen fuer ihre SoCs. Da es Geruechte gibt dass UMC fuer Investierungen sucht, kann es durchaus sein dass Qualcomm in diese rund eine Milliarde schuettet, welches erstmal Qualcomm als dediziertem fab Partner bei TSMC ausschliessen koennte.

3. Samsung hat bei ihren foundries die Tueren weiter aufgemacht fuer neue Partner. ST Micro (siehe ST Ericsson) haben seit neuestem bei Samsung fuer deren 32/28nm Prozesse unterschrieben. Gleichzeitig ist es kein Geheimnis dass NVIDIA an Samsung test-SoC-chips geschickt hat. Entweder hat Samsung zu viele Kapazitaeten nach der Oeffnung ihrer Texas foundry uebrig oder Apple hat doch irgend einen Mega-Vertrag mit TSMC abgeschlossen was wir sowieso nicht bald herausfinden werden.

Diese merkwuerdige wenn--->aber--->dann Masche ist dann eben so dass man noch nichts ausschliessen kann und es mich kein bisschen ueberraschen wuerde wenn NV fuer ihre Tegras nach Samsung wandert, die uebrigens auch sehr gut mit ihrer SoC-Herstellung sind.

Einfacher die Mehrzahl der grossen IHVs egal in welchem Kernmarkt haben die gesamte Problematik mit den Herstellungs-prozessen bzw. Kapazitaeten erkannt und es suchen fast alle nach Alternativen wenn auch nur fuer einen Anteil ihrer Herstellung. Es wird sich ziemlich viel in der Landschaft kurzfristig aendern und falls Apple bzw. Qualcomm fuer die weniger vorhersehbare Zukunft noch ambitionsreichere Plaene haben sollte wird es generell in 10 Jahren brutal anders aussehen als heute. Weiss der Geier wer sich aus welchem Maerkten zurueckziehen wird und wer wen aufkaufen koennte in dem Zeitraum.

Beschwere dich bei TSMC und den Grenzen der Physik ;)

Im Ernst, GF1x0 konnte nur so günstig verkauft werden weil man bei TSMC so dämlich war sich von NV einen Vertrag anschwatzen zu lassen, dass NV nur für funktionierende Chips bezahlen muss, statt wie üblich ganze Wafer zu kaufen. Das hat Nvidia ein wenig den Ar... gerettet, weil sie ihre großen GF1x0 und 1x4 so zu ähnlichen Preisen verkaufen konnten wie AMD ihre deutlich kleineren Chips und trotzdem mehr Gewinn übrig blieb.

NV hat fuer Fermi NIE pro operativem die bezahlt. Dank hoeherer Vorbestellung hatte NV damals unter 40G einen kleinen zusaetzlichen Rabbatt und es hat sie am Anfang der GF100 Herstellung im Durchschnitt jeglicher wafer um die $6800 gekostet, waehrend AMD naeher an 7k lag, wobei aber AMD auch hoehere yields/wafer hatte; ihre Herstellungskosten ueberhaupt fuer 5850-er war aber doch grenzwertig was sie auch gezwungen hat nochmal $20 Aufpreis kurzfristig nach dem launch auf die 5850 SKUs zu stecken.

Für 28nm hat TSMC dann wegen der hohen Nachfrage und der knappen Kapazitäten die eh schon deutlich höheren Waferpreise wenige Monate vor dem Start der neuen Generation Grafikkarten noch weiter erhöht, zusammen mit den anfangs schlechteren Yields war ein Chip gleicher Fläche sicher locker zwei-, eher noch bis dreimal so teuer in der Herstellung.

Es sind die tools die verdammt teurer geworden sind; hier ging eben der Schnitt pro Wafer ueber die 8k Grenze. Was sich genau in NV's Vertrag fuer Kepler bzw. 28HP genau geaendert haben kann noch keine Ahnung, aber Jensen erzaehlt auch gerne so manches zwielichtiges Maerchen wenn der Tag lang ist.

Denn haette NV wirklich unter 40G nur pro operativem chip bezahlen muessen in Q3 2009 haetten sie auch gleich damals in die Produktion mit GF100 gehen koennen. Die Realitaet ist eben dass zumindest nach NV engineering jeglicher GF100 zu dem Zeitpunkt fast $200 gekostet haette herzustellen waehrend es am wahren Produktionsstart in Q1 10' um einiges logischere $110 pro chip Durchschnitt waren.

Außerdem wird sich bei Shrinks die Skalierung sowohl der Fläche als auch des Stromverbrauches aus physikalischen Gründen weiter immer mehr verschlechtern, wenn nicht bei irgendwelchen neuen Techniken der Durchbruch gelingt, was aber weitere Jahre und Milliarden an Entwicklungskosten verschlingen wird, letztere müssen dann logischerweise auf die Endverbraucher umgelegt werden wenn das ganze rentabel bleiben soll.

Deshalb sage ich ja dass IHVs sich irgendwann auf ernsthafte hw basierende mGPU (abseits AFR Quark) konzentrieren sollten. Wird zwar auch nicht umsonst kommen in R&D, aber Milliarden wird es auf jeden Fall nicht kosten und bei einer sehr guten Loesung ist die insgesamte Flexibilitaet auch um einiges besser.

N0Thing

2012-10-07, 19:46:14

Es ist echt lächerlich was in letzter Zeit passiert, früher gab es noch größere Sprünge, direkt 80% mehr Leistung, z.b. GT200 vs. GF100

Wenn ich mir den Launch-Artikel von ht4u anschaue und die Speedups durch DX11 außen vor lasse, dann hat man eher eine Performancesteigerung von 30%-50% von einer GTX 285 auf eine GTX 480.

Der Sprung von einer GTX 580 auf eine GTX 680 ist in vielen Fällen aber kleiner, da hast du recht, da sind es gerne mal nur 10%-30%.

aufkrawall

2012-10-07, 19:59:24

Wenn ich mir den Launch-Artikel von ht4u anschaue und die Speedups durch DX11 außen vor lasse, dann hat man eher eine Performancesteigerung von 30%-50% von einer GTX 285 auf eine GTX 480.

Dürften bei starker Shaderlast und viel AA schon mehr sein.

Raff

2012-10-07, 20:18:14

Der Sprung von einer GTX 580 auf eine GTX 680 ist in vielen Fällen aber kleiner, da hast du recht, da sind es gerne mal nur 10%-30%.

Oft aber auch mal +60 Prozent. Mit 8x AA sind die aktuellen GTX-600-Karten recht gurkig gegenüber den großen Fermis, aber mit weniger MSAA oder direkt SSAA drehen die neuen Kisten auf. The Real Johannes wird das mit fetter Speichertransferrate schon schaukeln.

MfG,
Raff

Ailuros

2012-10-07, 22:33:43

http://www.computerbase.de/artikel/grafikkarten/2012/test-amd-radeon-hd-7950-mit-925-mhz/3/

GTX560Ti (GF114, 1.95b, 365mm2@40G) vs. GTX680 (GK104, 3.54b, 294mm2@28HP)=

1920*1200/4xAA = +93%
1920*1200/8xAA = +82%

Mit 4xSSAA in 1080p ist die 680 immer noch um 88% schneller als die 560Ti. Gegen die 580 ist die 680 sogar um 37% schneller in der Aufloesung. Mit knapp 60% mehr Texelfuellrate und zumindest 50% mehr Bandbreite sind wie Raff schon andeutete die ca. 80% Leistungsunterschied zwischen GK110 und GTX580 keine besondere Ueberraschung.

Wenn NV's Angaben stimmen und sie GK110 selbst mit nur 14SMX veroeffentlichen sollten, liegen sie immer noch zumindest 15% vor dem Tahiti Nachfolger, welches natuerlich auch keine besondere Ueberraschung ist bei einem 7.1Mrd/550mm2 Monsterchip und einer ganz anderen Preis-kategorie.

Wichtiger ist vor allem NV's Preispolitik bei einem GK110 desktop; ich erwarte nicht dass Sea Islands top dog in 2013 teurer als maximal $350-399 wird. Hat jetzt GK110 einen hoeheren MSRP von $599 spinnen die Kerle wohl total.

boxleitnerb

2012-10-08, 17:13:12

Ich kann Dich nicht versichern dass es stimmt, aber Geruechte wollen dass die ersten Oak Ridge chips 14SMXs haben bei ca. 760MHz und einem Stromverbrauch von ~225W.

Das klingt doch schon sehr gut. Das Milchmädchen sagt 15/14 sind 7% mehr, also 240W. 10% mehr Takt und man ist bei ca. 265W. Bisschen was weg für 3 statt 6GB und man landet ca. bei 250W.

Ailuros

2012-10-08, 20:10:52

Das klingt doch schon sehr gut. Das Milchmädchen sagt 15/14 sind 7% mehr, also 240W. 10% mehr Takt und man ist bei ca. 265W. Bisschen was weg für 3 statt 6GB und man landet ca. bei 250W.

Der Haarspalterei zu Liebe macht die Deaktivierung eines clusters weniger aus was den Stromverbrauch betrifft als z.B. hoehere Frequenzen. Man merkt es in Echtzeit auch nie, eben weil SKUs mit weniger clusters traditionell auch mit niedrigeren Frequenzen ankommen.

Stattdessen wuerde ich einen moeglichen turbo modus dazurechnen, fuer den ich ernsthaft bezweifle dass er fuer Teslas benutzt wird, lass mich aber gerne eines besseren belehren.

Hübie

2012-10-09, 07:55:06

Stattdessen wuerde ich einen moeglichen turbo modus dazurechnen, fuer den ich ernsthaft bezweifle dass er fuer Teslas benutzt wird, lass mich aber gerne eines besseren belehren.

Dem ist nichts weiter hinzuzufügen, ausser dass es wohl mehr als nur 10% mehr Takt sein werden.
Die kommunizierten 280 Watt klingen "überzeugender" wenn wir von 2GiB, 15 SMX @850 MHz + Turbo ausgehen. Ist nur wieder die Frage obs TDP- oder reell gemessene Werte sind. Die 225 eher letzteres.

Ailuros

2012-10-09, 08:39:29

V2.0

2012-10-09, 08:48:03

Teslas haben keinen Turbo weil sie einen garantierte Leistung innerhalb des System bringen müssen. Da in solchen Einsatzgebieten durchaus mal mehrere Tage Volllast anstehen können, ist Turbo ein unnötiges Stabilitätsrisiko.

Skysnake

2012-10-09, 09:07:05

2GB sind wohl ein Tippfehler; zumindest 3GB oder 4GB.

Meine Logik fuer keinen turbo fuer Teslas ist dass NV ihn fuer lower end Loesungen ausgelassen hat um Strom zu sparen. Servers laufen auch 24/7 und die hw muss die hoechstmoegliche Stabilitaet vorweisen. Fuer den extra Happen an Leistung dass turbo bringt wuerde ich zumindest das Zeug weglassen.
Genau deswegen willst! du ja aber den Turbo...

Wenn dein Problem nicht wirklich gut auf die GPU passt, wird der Turbotakt aktiviert, und du rechnest eben schneller. Wenn es sehr gut darauf passt, dann haste halt keinen Turbo, aber der Turbo ist ja eh nur eine Dreingabe, die nicht immer da sein muss.

Damit sparst du am Ende viel Geld, da sich die Laufzeiten der Programme tendenziell verkürzen. Ansonsten kannst du eben die TDP besser ausschöpfen, ohne! Sie zu überschreiten.

Also von daher erwarte ich auf jeden Fall den Turbo bei den Teslas zu sehen. Es hilft einem einfach. Ganz abgesehen davon kann man eben bei Teillast auch noch Strom sparen. Gerade im Cloud-Gameing-Bereich dürfte das öfters passieren, genau wie beim Virtualisieren. Da haste ja mal nur 10 Maschinen zu virtualisieren, und dann vielleicht 15. Da ist nen Turbo schon sehr gut um Strom zu sparen, einfach weil man nicht immer die volle Leistung braucht.

Ailuros

2012-10-09, 10:09:00

aufkrawall

2012-10-09, 12:34:36

Diese moegliche Schwankung in maximaler theoretischer Leistung wuerde ich persoenlich bei so verdammt teurer hw einem jeglichem Kunden nicht antun, ist aber auch stets IMHO.

Im Consumermarkt ist die Schwankung allerdings unerheblich.
Wobei ich natürlich keine Ahnung habe, ob man das im Profimarkt nicht kritischer sieht.

Hübie

2012-10-09, 18:38:50

Äh ja. War n Tippfehler - 3 GiB meinte ich. Smartphone halt ;)
Afair ist der Turbo nicht mal auf dem PCB der Tesla K10 verbaut. Müsste aber noch mal nachsehen. Hab gerade keine Zeit.
Geht mal davon aus dass er auch bei K20 fern bleibt.

Ailuros

2012-10-09, 18:52:52

Wenn Du schon dabei bist, hast Du irgendwelche TDP Angaben fuer K10?

N0Thing

2012-10-09, 19:19:19

Dürften bei starker Shaderlast und viel AA schon mehr sein.

Kannst dir das Review zur GTX 480 bei ht4u ja gerne nochmal selber durchlesen. Ohne Vergleich zwischen DX10 und DX11, FullHD und 4xMSAA gibt es Ausnahmen, die deine Aussage stützen und eine größere Menge an Ergebnissen, die meine Aussage stützen.

Oft aber auch mal +60 Prozent. Mit 8x AA sind die aktuellen GTX-600-Karten recht gurkig gegenüber den großen Fermis, aber mit weniger MSAA oder direkt SSAA drehen die neuen Kisten auf. The Real Johannes wird das mit fetter Speichertransferrate schon schaukeln.

MfG,
Raff

Ich hab mir die Benchmarks unter FullHD mit 4xMSAA angeschaut, soweit möglich. Einzelne Anwendungen kommen natürlich auf höhere Werte, wenn man sich aber die Masse anschaut, sind 60% die Ausnahme und nicht die Regel, was auch der Performance-Index am Ende des Reviews zeigt.
Der GK104 ist eben eigentlich der Nachfolger des GF104/114.

Damit es hier nicht noch mehr OT wird und es sich am Ende nur um die Vergangenheit dreht: Mir ging es nur darum, daß 80% Speedup in den letzten Jahren nicht üblich waren, was von Duplex behauptet worden war und ich trotz der Andeutungen von Ailuros auch jetzt noch nicht an einen Speedup von deutlich über 50% durch GK110 gegenüber GK104 glaube (bzw. kaum merklich weniger Leistung seitens GK110 gegenüber einer GTX 690, wie Ailuros es formulierte).

Schaffe89

2012-10-09, 19:37:14

Ist es jetzt sicher, dass GK110 für den Gamermarkt kommt?

Raff

2012-10-09, 19:51:18

Ich hab mir die Benchmarks unter FullHD mit 4xMSAA angeschaut, soweit möglich. Einzelne Anwendungen kommen natürlich auf höhere Werte, wenn man sich aber die Masse anschaut, sind 60% die Ausnahme und nicht die Regel, was auch der Performance-Index am Ende des Reviews zeigt.
Der GK104 ist eben eigentlich der Nachfolger des GF104/114.

Das stimmt vollkommen. Ich wollte auch nur erwähnen, dass der Gamer Kepler seine Stärke bei der Rechenleistung und nicht bei der Speichertransferrate hat (verglichen mit Fermi). :)

MfG,
Raff

Skysnake

2012-10-09, 21:52:09

Tesla K10 besteht zwar aus 2 GK104 cores, aber jeglicher core taktet auf lediglich 745MHz fuer den core und 1250MHz fuer den Speicher. Zugegeben NV erwaehnt nirgends dass ein turbo modus auf den Dingern operativ ist und auch keinen Stromverbrauch, aber mir klingt der turbo modus nach wie vor als redundant. Ausser natuerlich die Dinger takten eigentlich auf 695MHz und erreichen bis zu 2288 GFLOPs SP/core mit turbo@745MHz. Der turbo modus ist aber relativ zu jeweiligem power envelope und ist nicht immer unter allen Umstaenden eine Garantie.

Diese moegliche Schwankung in maximaler theoretischer Leistung wuerde ich persoenlich bei so verdammt teurer hw einem jeglichem Kunden nicht antun, ist aber auch stets IMHO.

Warum "an tun"?

Bei den CPUs interessierts doch auch keine Sau, das es da den Turbo gibt, oder nicht?

Es ist ja nicht so, das man ohne Turbo die gleiche Rechenleistung bekommen würde. Man würde halt auf den Wert ohne Turbo fallen, oder minimal drüber. Von daher ist der Turbo eben kein Nachteil. Man muss halt nur bedenken, dass der Turbo eben ein Kann und kein Muss ist.

Sonst:

http://www.nvidia.com/content/tesla/pdf/nv-ds-teslak-family-jul2012-lr.pdf

Nach Geruechten: 14 SMX bei 760MHz = 4.171 TFLOPs SP / 3 = 1.390 TFLOPs DP * ~80% (angegebene Echtzeit-Effizient fuer DGEMM) = 1.112 TFLOPs DP @DGEMM
naja, schaumer mal. 1.112 TFlop/s wären schon etwas knapp von der reinen Rechenleistung.

Entscheidend ist aber auch, was die Karte Verbraucht. 225 oder 300 W.

Wobei ich ehrlich gesagt eher von 225W ausgehe. Die meisten Server haben einfach keine 8Pin Stecker, und die Netzteile an sich sind auch nicht all zu üppig dimensioniert. Ok klar, bei nem komplett neuen Rechner kann man darauf schon achten, aber 225W scheint allgemein schon so die "magische Grenze" zu sein.

Hübie

2012-10-09, 23:55:23

Wenn Du schon dabei bist, hast Du irgendwelche TDP Angaben fuer K10?

Nein. nVidia hält sich bedeckt. Ich habe Messergebnisse, aber da ich die nächsten Wochen nicht zuhaus bin kann ich die dir vorläufig nicht liefern ;-) Kann noch mal anfragen.

@skysnake: Der Turbo in bspw. Intels SandyBridge wird von einer PowerControlUnit überwacht und gesteuert die etwa die Komplexität eines 386 hat. Selbst bei meinen 4500 MHz greift die Fehlerkorrektur extrem selten ein. Die Latenzen sind fürs menschliche empfinden sehr gering (tmonitor zeigt das ganz gut).
Bei GPUs kann man davon nur träumen. Hier werden Fehler ohne Ende produziert wenn mann mal GF110 @900 MHz betreibt. Die Spannung und Kühlung is dabei irgendwann Wurscht.
Klar kannst du mit konservativen Taktraten + Turbo auch hier im Promillebereich bleiben aber ich möchte da dann doch auf Nummer sicher gehen und Null Komma Null (Rechen-) Fehler.

Ailuros

2012-10-10, 08:31:03

Wobei ich ehrlich gesagt eher von 225W ausgehe. Die meisten Server haben einfach keine 8Pin Stecker, und die Netzteile an sich sind auch nicht all zu üppig dimensioniert. Ok klar, bei nem komplett neuen Rechner kann man darauf schon achten, aber 225W scheint allgemein schon so die "magische Grenze" zu sein.

Es gibt auch Aussnahmen wie z.B. beim problematischen GF100. Nicht nur waren die Frequenzen niedriger als anfangs eingeschaetzt, sondern auch der anfangs angegebene TDP von ~225W war am Ende bei 238W (14SMs@1.15GHz). GF110 war dann bei 16SMs@1.3GHz bei 225W. Anders GF100 Tesla 2.16GFLOPs/W vs. GF110 Tesla 2.95GFLOPs/W.

Sind es jetzt maximal theoretisch 1390 GFLOPs DP / 225W = 6.17 GFLOPs/W.

Ich hab sogar das Gefuehl anhand der obrigen Daten dass sie mit Absicht die GTX580 etwas konservativer angelegt haben um den TDP auf nur 244W zu halten. IMHO haetten sie locker noch hoeher takten koennen und einen =/>20% Unterschied zur GTX480 zu erreichen und einem TDP von =/>260W. Es war wohl eher eine gezielte Entscheidung von "gut genug".

Sonst reicht glaube ich Huebie's Antwort oben fuer den Rest ;)

Insgesamt bleibt ein muerbiges Gefuehl mit NV's Geheimnistuerei generell fuer alles Tesla Kx0. Bei den ziemlich niedrigen Frequenzen einer K10 und trotz dem 4GB/chip Speicher duerfte der Stromverbrauch nicht all zu hoch sein dass nirgends etwas erwaehnt wird.

Hübie

2012-10-12, 10:04:09

Ist es jetzt sicher, dass GK110 für den Gamermarkt kommt?

Sicher is gar nix, aber man muss andererseits auch nicht jeden fud aus dem Netz auf die Waage legen...
Geh mal beruhigt davon aus ;)
ps: Ich warte noch auf den Klassiker mit XDR2 RAM ;D Nur weil ein Hersteller (wie jeder andere auch) bei Rambus eine Lizenz kauft entstand gleich so ein Gerücht. Obwohl es natürlich interessant geworden wäre.

Godmode

2012-10-12, 10:45:48

Denkt ihr es wird wieder eine Dual GPU Karte geben, weil meine Aufrüstpfade sind sonst sehr beschränkt?

boxleitnerb

2012-10-12, 10:47:44

Höchstens wieder abgespeckt wie bei der 590.

AnarchX

2012-10-12, 10:50:27

Höchstens wieder abgespeckt wie bei der 590.
Die war aber auch nur beim Takt abgespeckt um die Anzahl der Stromanschlüsse überschaubar zu halten. ;D

Im Endeffekt kommt es wohl auch darauf an, wie weit sich AMD mit der "HD 8990" wagt. Mit der 7990 sieht ja es momentan eher nach ein Abkehr von Dual-Karten aus.

Godmode

2012-10-12, 10:51:08

Höchstens wieder abgespeckt wie bei der 590.

Wohl hauptsächlich aus TDP Gründen, oder?

Die war aber auch nur beim Takt abgespeckt um die Anzahl der Stromanschlüsse überschaubar zu halten. ;D

Im Endeffekt kommt es wohl auch darauf an, wie weit sich AMD mit der "HD 8990" wagt. Mit der 7990 sieht ja es momentan eher nach ein Abkehr von Dual-Karten aus.

Naja die GTX690 war bis jetzt die beste Dual-GPU Karte und ich denke das könnte man fortsetzen.

AnarchX

2012-10-12, 10:58:57

Wenn aber der Single-GK110 bei ~250W startet, ist eine solche Lösung wie bei der 690 nicht so einfach möglich. Für eine leise 375W Lösung braucht es da wohl mindestens 3 Slots.

Ailuros

2012-10-12, 11:32:08

Herrschaften ein Schritt nach dem anderen; erstmal zu 100% sichern dass GK110 desktop erscheinen wird und dann koennen wir ueber eine moegliche mGPU davon reden, obwohl wohl eher 2*Gk114 sinnvoller waere.

Ebenso fuer die 8990; es hat nichtmal eine hauseigene 7990 von AMD gegeben. Die Leistung von den 7990-er vendor Initiativen ist ja auch nicht gerade berauschend im Vergleich zur 690. Wenn ich mir das Powercolor Dingsda so ansehe hab ich das Gefuehl dass es mit einem Baugeruest im Paket mitkommen sollte um die Mordslast in jeglichem case zu unterstuetzen :P

boxleitnerb

2012-10-12, 11:37:06

Es wird tatsächlich ein Stützdings mitgeliefert ;D
http://www.abload.de/thumb/hd7990-64uuxm.jpg (http://www.abload.de/image.php?img=hd7990-64uuxm.jpg)

Godmode

2012-10-12, 11:40:36

Es wird tatsächlich ein Stützdings mitgeliefert ;D
http://www.abload.de/thumb/hd7990-64uuxm.jpg (http://www.abload.de/image.php?img=hd7990-64uuxm.jpg)

Lol, saugeil :)

boxleitnerb

2012-10-12, 11:44:40

Ailuros, wenn du schätzen müsstest, würdest du sagen dass GK110 im Desktopmarkt erscheint oder nicht?

Ailuros

2012-10-12, 11:52:09

Ailuros, wenn du schätzen müsstest, würdest du sagen dass GK110 im Desktopmarkt erscheint oder nicht?

NV waere IMHO schoen bloed wenn sie es nicht veroeffentlichen wuerden im naechsten Jahr. Da aber nichts besonderes berauschendes von AMD zu kommen scheint nach den neuesten Indizien, wuerde es mich nicht wundern wenn NV es trotz allem nur auf Profi-Maerkte konzentrieren wuerde. Der einzige Kopfschmerz waere wie sie die R&D Kosten fuer GK110 wieder reinholen werden.

Es wird tatsächlich ein Stützdings mitgeliefert ;D
http://www.abload.de/thumb/hd7990-64uuxm.jpg (http://www.abload.de/image.php?img=hd7990-64uuxm.jpg)

ROFL :biggrin: wusste ich nicht, aber das Ding sieht sauschwer und ziemlich lang aus. Da koennte sich leicht jegliche Rueckseite eines Gehaeuses ohne etwas Unterstuetzung krumm biegen. Im Notfall kann man wohl auch noch oben das Ding mit einer Waescheklammer aufhaengen.

boxleitnerb

2012-10-12, 11:55:28

Wäre es denkbar, GK114 als GTX770/780 zu bringen und GK110 als 790/790 Ultra für einen satten Aufpreis wenn man 30% vor AMD liegen sollte?

Ailuros

2012-10-12, 12:09:19

Wäre es denkbar, GK114 als GTX770/780 zu bringen und GK110 als 790/790 Ultra für einen satten Aufpreis wenn man 30% vor AMD liegen sollte?

Ich weiss nichtmal fuer was GK114 genau steht und wieso der codename gerade eine "1" in der Mitte hat. Bis zu GK110 war NV's off the record Erklaerung dass das Ding nicht 100 sondern 110 genannt wurde weil es exklusive features im Vergleich zu den GK10x cores hat.

Ich schaetze lediglich ohne jegliche Infos zu haben dass der 114 um einen Brocken (ca. 15%) schneller wird als GK104 weil eben wenn bei AMD die area bzw. Stromverbrauch limitiert es auch nicht viel besser fuer NV sein wird. Ich kann mir auch schwer vorstellen dass NV einen 114 mit hoeherem Stromverbrauch als seine direkte Konkurrenz vorstellen wuerde.

Ich kann so oder so meistens den Unfug von diversen Marketing-Abteilungen nicht verstehen. Einen GK114 wuerde ich persoenlich eben nicht GTX7xx-wasauchimmer nennen sondern eher GTX685. Die Zahl platziert so ein Produkt eben zwischen einer 680 und einer 690 was die Leistung betrifft.

reaperrr

2012-10-12, 14:43:43

Ich schaetze lediglich ohne jegliche Infos zu haben dass der 114 um einen Brocken (ca. 15%) schneller wird als GK104 weil eben wenn bei AMD die area bzw. Stromverbrauch limitiert es auch nicht viel besser fuer NV sein wird.
Schreibt Charlie jetzt schon hier ab, oder ist das Zufall bzw. hast du einfach nur so gut geschätzt? ;D
http://semiaccurate.com/2012/10/12/what-is-going-on-with-nvidias-gk114/

Godmode

2012-10-12, 15:08:13

Schreibt Charlie jetzt schon hier ab, oder ist das Zufall bzw. hast du einfach nur so gut geschätzt? ;D
http://semiaccurate.com/2012/10/12/what-is-going-on-with-nvidias-gk114/

Es soll schon manchmal vorgekommen sein, oder war es OBR? :whistle:

Ailuros

2012-10-12, 16:36:43

Wenn Charlie ueber A berichtet wird er innerhalb einer logischen Grenze auch ueber B berichten. Es hat nichts mit 3DC zu tun und meine "Schaetzung" dass GK114 ist alles andere als neu wenn man in der Datenbank nachsucht.

Wenn einer von der die area und dem Stromverbrauch limitiert ist (stets innerhalb von N Grenze fuer die spezielle chip-Kategorie) dann wird es auch beim anderen nicht fundamental anders sein.

Natuerlich koennten beide oder einer der beiden etwas mehr aufs Gaspedal treten theoretisch, aber erstens kostet es zu viel und zweitens sprechen eben zich Faktoren dagegen.

Charlie hat seine eigenen Quellen und die sind zugegeben verdammt gut. Was er in den meisten Faellen aus dem Material dann macht ist eine andere Geschichte und nicht unbedingt Material zur Diskussion.

Sein letzter Satz im write-up mag zwar wieder auf der radikalen Seite liegen, aber langfristig werden sich IHV schon zunehmend mit SoCs beschaeftigen. Und um Missverstaendnissen zu entgehen: es sind nicht die IHVs die vielleicht in Zukunft den standalone GPU Markt zum schrumpfen bringen werden, sondern eher eine lange Liste an Faktoren die einfach die Affaere in der Zukunft in die Richtung treiben werden.

Godmode,

Es war chiphell mit den GK104 ersten rohen Spezifikationen.

***edit: wir muessen einen GK114 thread aufmachen. Nebenbei wenn GK114 NICHT seinen tape out innerhalb von diesem Monat hat kann man locker einen Maerz 2013 release vergessen. Im Gegenfall werden sich die ueblichen Verdaechtigen unaufgerufen kurz vor Weihnachten melden ;)

Hübie

2012-10-13, 09:07:37

Der letzte Satz bedeutet für mich nur dass es die letzte GPU-Gen ist welche so aufgebaut ist wie man es seit G80 kennt (konservativ). Next-Gens haben alle einen kleinen ARM-Core drin. Ein SoC ist das deshalb noch lange nicht ;-)
Edit: GK114 hat mglw. HyperQ & dyn.P onboard. Wären special-features ;D

Timbaloo

2012-10-13, 13:28:40

***edit: wir muessen einen GK114 thread aufmachen. Nebenbei wenn GK114 NICHT seinen tape out innerhalb von diesem Monat hat kann man locker einen Maerz 2013 release vergessen. Im Gegenfall werden sich die ueblichen Verdaechtigen unaufgerufen kurz vor Weihnachten melden ;)
Warum sind wir mittlerweile so überzeugt, dass es einen GK114 geben wird? Ich hab den Thread nochmal überflogen, aber keinen wirklichen "Beweis" gefunden.

PS: Die Stützstange ist genial :freak:

Hübie

2012-10-13, 17:11:13

Weil es sicher nicht nur Highend-Modelle geben wird. Und verfolgen wir dass aktuelle sowie vergangene Namensschema ergibt sich eine plausible Möglichkeit dass es in der Folgegeneration einen GK114-Chip geben wird.
Klar soweit? :smile:

boxleitnerb

2012-10-13, 17:30:18

Was spricht dagegen, GK110 als 770/780 zu bringen und GK104 dorthin zu rücken wo er hingehört? (und den Rest der Chips auch).

Mancko

2012-10-13, 17:44:01

Was spricht dagegen, GK110 als 770/780 zu bringen und GK104 dorthin zu rücken wo er hingehört? (und den Rest der Chips auch).

Gar nichts ausser AMDs Gesamtperformance bei der GPU Palette. Wenn die gut ausfällt wird Nvidia genau das machen. Wenn sie nicht gut ausfällt wird Nvidia sich GK110 sparen und lieber die finanziell attraktivere Variante mit dem GK104 Nachfolger fahren. Nvidia muss im Prinzip nur jeweils knapp besser sein oder gleich schnell und das schnellste Halo Produkt haben. Das reicht für sie gegenwärtig um Marktanteile von AMD zu holen.

Ailuros

2012-10-13, 18:54:21

Was spricht dagegen, GK110 als 770/780 zu bringen und GK104 dorthin zu rücken wo er hingehört? (und den Rest der Chips auch).

Die Tatsache dass es teurer ist zu viele 110 salvage parts zu veroeffentlichen um eine Antwort bei aehnlichem Preis fuer die Tahiti Nachfolger zu haben vielleicht?

Hübie

2012-10-13, 20:04:36

Es würde mich keineswegs wundern, wenn nVidias Marketing GK104 eine Sieben vorn dranklebt, weil es neben GK110 alias 780 besser aussähe. Allerdings nur wenn es denn tatsächlich bei dem 7xx-Namensschema bliebe ;)
Edit: später rückt dann GK114 alias GTX 775 nach um GK104 alias 770 zu ersetzen. (Nur mal so eine Idee...)

][immy

2012-10-13, 20:16:55

Was spricht dagegen, GK110 als 770/780 zu bringen und GK104 dorthin zu rücken wo er hingehört? (und den Rest der Chips auch).
die frage wäre ja auch, ob der GK110 überhaupt schneller als der aktuelle GK104 wäre (zumindest in aktuellen Spielen).
Der Chip ist bedeutend größer und dürfte daher nicht so taktfreudig sein.
Es würde nvidia nichts bringen einen um einiges teurerern Chip auf den Markt zu bringen der sich aktuell nicht richtig gut absetzen kann. Denn die Ich glaube kaum das die aktuellen Taktraten für GK104 wirklich in so eingeplant waren. Das sollte immerhin ein Midrange Chip werden, kein High-End. Der GK110 hat ja den ganzen Ballast noch mit an Bord der in aktuellen Spielen nichts oder nicht viel bringt den man im GK104 über Bord geschmissen hat. Das Begrenzt ja ziemlich automatisch die Taktrate des GK110 oder die Verlustleistung steigt eben enorm an.

Ailuros

2012-10-13, 20:26:56

[immy;9500750']die frage wäre ja auch, ob der GK110 überhaupt schneller als der aktuelle GK104 wäre (zumindest in aktuellen Spielen).
Der Chip ist bedeutend größer und dürfte daher nicht so taktfreudig sein.

Eben weil der chip bedeutend groesser ist weil er eben N% mehr Einheiten und Bandbreite hat braucht er erstmal keine so hohen Frequenzen. Sonst ist die Frage redundant da es bekannt ist wie viele Einheiten GK110 genau hat.

Es würde nvidia nichts bringen einen um einiges teurerern Chip auf den Markt zu bringen der sich aktuell nicht richtig gut absetzen kann. Denn die Ich glaube kaum das die aktuellen Taktraten für GK104 wirklich in so eingeplant waren.

Nein waren sie nicht. Original geplant war etwas ueber 900MHz, weniger Bandbreite und ein kleinerer PCB.

Das sollte immerhin ein Midrange Chip werden, kein High-End. Der GK110 hat ja den ganzen Ballast noch mit an Bord der in aktuellen Spielen nichts oder nicht viel bringt den man im GK104 über Bord geschmissen hat. Das Begrenzt ja ziemlich automatisch die Taktrate des GK110 oder die Verlustleistung steigt eben enorm an.

Ach und die laecherlichen zusaetzlichen 100MHz machen aus einem GK104 ploetzlich einen high end chip?

Nochmal nach Geruechten sollen die ausgelieferten K20 Tesla chips 14 aktive SMXs haben bei ~760MHz und 225W TDP. Keine einzige Garantie dass es stimmt, aber als Indizie alleine sieht es danach aus dass selbst ein 14SMX@850MHz einem GK104 durchschnittlich zumindest um >40% im Vorsprung liegen wuerde.

Sonst da es wirklich langweilig wird das gleiche immer und immer wieder zu wiederholen: egal mit welcher Leistung bzw. Preisplan war GK104 stets als erste Kepler GPU geplant und ja mit dem GTX680 Namen. GK110 war stets fuer spaeter geplant und NV's einzige Dilemma seit dem eigentlichen tape out vom 110 Anfang Maerz war ob sie 110 noch dieses Jahr oder erst in 2013 veroeffentlichen werden fuer desktop. 104 tape out war im Oktober 2011.

Kann sein dass sie wieder ihre Meinung geaendert haben und 110 am Ende doch nicht bringen, aber wenn es soweit kommt heisst es einfach dass sie AMD mit dem GK114 gerade noch bewaeltigen koennen und sie haben genug HPC deals um die GK110 R&D Kosten zu decken. Das letzte ist zwar ziemlich unwahrscheinlich aber better safe than sorry. An Leistung mangelt es an dem Ding garantiert nicht; eher das grobe Gegenteil.

Hübie

2012-10-13, 20:44:17

Und wieder frage ich (dieses Mal an ][immy gerichtet): Was bitte genau ist der Balast der immer erwähnt wird?

Ailuros

2012-10-13, 20:57:59

Und wieder frage ich (dieses Mal an ][immy gerichtet): Was bitte genau ist der Balast der immer erwähnt wird?

Der "Ballast" ist schon da, nur eben liegt er unter den doppelt so vielen Transistoren (7.1 vs. 3.54Mrd). Zwischen GF110 (3 Mrd) und GF114 (1.95Mrd.) war der Unterschied in Transistoren zwar kleiner, aber der Leistungsunterschied unter 3D liegt immer bei >40%.

][immy

2012-10-13, 21:24:09

Und wieder frage ich (dieses Mal an ][immy gerichtet): Was bitte genau ist der Balast der immer erwähnt wird?
Das hier: http://www.anandtech.com/show/5699/nvidia-geforce-gtx-680-review/17
Der GK110 wird wohl eher auf GPGPU Bedürfnisse zugeschnitten sein, während der GK104 auf aktuelle Spiele zugeschnitten ist.
Daher wäre aktuell meine Annahme eher, das auch durch die gesteigerten Taktraten sich die beiden Chips nicht viel nehmen. Spätestens mit einem höheren Power-Target könnte eventuell ein GK104 in aktuellen Spielen ähnlich gut darstehen wie ein GK110.
Mir ist bewusst das die Specs von einem deutlich breiteren Chip sprechen, aber wenn man es auf den "normalen" markt werfen will, muss das Ding sich auch rechnen können. Mit einer höheren Taktrate als im Profi-Markt rechne ich hier eher nicht, weil hier wohl schon eher selektierte Chips verwendet werden (da diese einfach mehr Geld einbringen lohnt sich einen Selektierung der Chips hier eher). Das Ding ist schließlich ein ziemlich großer Chip, d.h. es wird wohl viele fehlerhafte Chips geben (abgesehen noch von den Problemen beim 28nm Prozess). Also entweder selektiert man sehr stark und verkauft mit hoher Taktrate (dafür nur wenige Chips) oder die Taktrate wird niedriger (oder deaktiviert Teilbereiche) und man kann mehr verkaufen. Und hier wäre die Frage ob der GK104 in letzteren Fall nicht schon sehr nah an den GK110 ran kommen würde.

Aktuell wird sie ja nur im Profi-Markt verkauft. Da hier wohl kaum millionen von den Chips bestellt worden sind, ist das Ding also entweder schwer zu produzieren (auch aufgrund der 28nm Prozess-Probleme) oder es würde sich nicht lohnen da die Performance nicht wesentlich besser ist der Chip aber teuerer. Wenn man mit dem Ding zu lange warten würde, hätte man das Problem das die Konkurrenz schon nachgelegt hat und man nur noch einen teuren Chip ins rennen schicken kann. Der vermutlich zwar schneller wäre, aber eben teurer zu produzieren.

Hübie

2012-10-13, 21:26:12

Ich sehe das nicht als Ballast sondern Potenzial. Du kannst auch die großzügigen Caches etc. fürs gaming nutzen. Und genau das wird passieren, wenn die software dann endlich mal mitkommt. Man sollte sich endlich mal vom lahmen DirectX-Rythmus lösen.
Edit: Deine Antwort kam während ich schrieb.
GK110 hat laut die-shots 15 Cluster. Laut Infos werden Teslas mit "nur" 14 ausgeliefert. Dies bedeutet entweder dass alle mit 15 SMX für highend-Desktop festgesetzt werden und/oder der Prozess in der Tat schwierig ist. Angesichts der Packdichte und Anzahl der Transistoren ist letzteres ja nun auch nicht unwahrscheinlich. Vielleicht liegt die Wahrheit auch in der Mitte.
Kurzfristig muss nVidia GK110@15SMX, auch nicht in großen Quantitäten bereitstellen, da sich die großen Chips langsam absetzen. Also eher kontinuierliche als hohe Zahlen. Schau dir mal auf PCGH die Umfrageergebnisse zu den GPUs an. Da kam die GTX 580 immer so ungefähr auf die gleichen Prozentsätze. Damit will ich nur sagen: 14 SMX-Chips musst du nicht so doll selektieren, die kannst du aber teuer verscherbeln und ggf. nach Bedienung des HPC-Marktes als moderne GTX 570 alias GTX 770 verramschen. Während du funktionierende 15-Cluster-Chips schön auf die dicken Enthusiastenkarten packen kannst, die du mit hohen Preisen abschreckend gestaltest.

Das alles sind aber nur Ideen wie ich mir das Lineup vorstelle.

Ailuros

2012-10-13, 21:38:59

Das hier: http://www.anandtech.com/show/5699/nvidia-geforce-gtx-680-review/17
Der GK110 wird wohl eher auf GPGPU Bedürfnisse zugeschnitten sein, während der GK104 auf aktuelle Spiele zugeschnitten ist.
Daher wäre aktuell meine Annahme eher, das auch durch die gesteigerten Taktraten sich die beiden Chips nicht viel nehmen. Spätestens mit einem höheren Power-Target könnte eventuell ein GK104 in aktuellen Spielen ähnlich gut darstehen wie ein GK110.

Wenn Du mit einem 104 Dich in eine Tiefkuehltruhe setzt dann vielleicht schon. Es eben NICHT so dass wenn Du den Takt z.B. um 20% erhoehst dass der Stromverbrauch nur um 20% steigen wird.

Mir ist bewusst das die Specs von einem deutlich breiteren Chip sprechen, aber wenn man es auf den "normalen" markt werfen will, muss das Ding sich auch rechnen können. Mit einer höheren Taktrate als im Profi-Markt rechne ich hier eher nicht, weil hier wohl schon eher selektierte Chips verwendet werden (da diese einfach mehr Geld einbringen lohnt sich einen Selektierung der Chips hier eher).

Wieso rechnest Du NICHT mit einer hoeheren Frequenz als mit Teslas genau?

GF100 Tesla = 448SPs@1.15GHz/6GB@238W
GTX480 = 480SPs@1.4GHz/3GB@250W

GF110 Tesla = 512SPs@1.30GHz/6GB@225W
GTX580 = 512SPs@1.544GHz/3GB@244W

(nach Geruechten)
GK110 Tesla = 2744SPs@0.76GHz/6GB@225W

Das Ding ist schließlich ein ziemlich großer Chip, d.h. es wird wohl viele fehlerhafte Chips geben (abgesehen noch von den Problemen beim 28nm Prozess). Also entweder selektiert man sehr stark und verkauft mit hoher Taktrate (dafür nur wenige Chips) oder die Taktrate wird niedriger (oder deaktiviert Teilbereiche) und man kann mehr verkaufen. Und hier wäre die Frage ob der GK104 in letzteren Fall nicht schon sehr nah an den GK110 ran kommen würde.

Nochmal Nordpol, Alaska oder Gefriertruhe? Es wird eben NICHT so weit kommen dass unter normalen Umstaenden ein 104 um 50% schneller wird im Durchschnitt. Was yields betrifft beschissener wie auf Gf100 wo auch die hw problematisch ist wird es nicht sein; komischerweise trotz allem war GF100 ueber 40% schneller als GF104.

Aktuell wird sie ja nur im Profi-Markt verkauft. Da hier wohl kaum millionen von den Chips bestellt worden sind, ist das Ding also entweder schwer zu produzieren (auch aufgrund der 28nm Prozess-Probleme) oder es würde sich nicht lohnen da die Performance nicht wesentlich besser ist der Chip aber teuerer. Wenn man mit dem Ding zu lange warten würde, hätte man das Problem das die Konkurrenz schon nachgelegt hat und man nur noch einen teuren Chip ins rennen schicken kann. Der vermutlich zwar schneller wäre, aber eben teurer zu produzieren.

Wo und wann wird die Konkurrenz genau zu dem Grad eines GK110 zulegen? Soll das der Witz des Tages sein?

Ich sehe das nicht als Ballast sondern Potenzial. Du kannst auch die großzügigen Caches etc. fürs gaming nutzen. Und genau das wird passieren, wenn die software dann [I]endlich mal mitkommt. Man sollte sich endlich mal vom lahmen DirectX-Rythmus lösen.

Dass der DX Rythmus nachgelassen hat ist eher eine Eulogie fuer den Endverbraucher, aber nicht unbedingt fuer die ISVs da sie eben laenger auf erwuenschte Aenderungen warten muessen. Wehe wenn alle 2 Jahre eine GPU jeglichen zusaetzlichen neuen DX Ballast mitschleppen muesste; es wuerde auch wieder an der Endleistung knabbern.