nVidia - Kepler - 28nm - 2012 [Archiv] - Seite 4

Archiv verlassen und diese Seite im Standarddesign anzeigen : nVidia - Kepler - 28nm - 2012

Ailuros

2011-08-12, 14:29:19

Die Frage ist halt wer momentan wirklich eine neue API will. DX11/11.1 reichen für den embedded Market noch sehr lange und im Zeitalter von APUs fällt mir kaum ein Marktteilnehmer ein, der Interesse an gestiegenen Hardwareanforderungen an eine GPU haben könnte. Und ob MS ne neue DX Version braucht. Ich habe da Zweifel.

Man kann die alten Projektionen weit gehend vergessen, weil sie noch nicht den embedded / mobil Trend berücksichtigten.

Darum geht es ja gar nicht; es geht eher darum dass IHVs wenigstens ein paar Anhaltspunkte haben fuer die zukuenftige DX12 GPU Entwicklung. Zugegeben sie raten so oder so meistens mehr oder weniger was aus N werden koennte, aber wenn N=0 ist dann ist es tatsaechlich ein Problem. Geht jetzt am Ende DX12 in eine ganz andere Richtung als die meisten geschaetzt haben, muessen dann die engineers Feuer unter ihre Hintern legen damit es nicht zu Verspaetungen kommt.

Uebrigens es geht mir eher um die hw und zumindest fuer Maxwell koennte X12 vielleicht relevant sein, aber wenn M$ kein X12 braucht dann ist X11.1 ebenso ueberfluessig oder genauer genommen noch ueberfluessiger. Neue APIs kommen nicht an um hw entwickler ins Narrenhaus zu schicken sondern damit die sw Entwickler von zukuenftiger hw mehr Flexibilitaet bzw. Effizienz herausknallen koennen. Nach Deiner Logik muesste X11 bzw. 11.1 der Perfektion gleichen und man wuerde zumindest fuer etliche Jahre kein neues API brauchen.

V2.0

2011-08-12, 16:00:48

Coda

2011-08-12, 16:06:05

DirectX 12 wird allein schon als Grundlage für zukünftige GPGPU-Unterstützung gebraucht.

Ailuros

2011-08-12, 17:04:21

Das ist schon klar, aber von der Softwareseite ist halt die Frage wie groß der Wunsch nach einer übe Dx11.1 hinaus gehenden API aktuell ist. Im Hinblick auf die Gerüchte über die kommenden Spielkonsolen und auf den mobilen Markt, ist auch auf der Softwareseite imho kein gravierender Druck vorhanden. Zumindest für niemanden, der groß genug ist um MS Druck zu machen. Und im Hinblick auf Windows-Phone / Win8 und Öffnung für ARM mag auch bei MS selber der Augenmerk gerade auf anderen Dingen liegen.

Der embedded Markt liegt bis jetzt um eine Technologie-Generation hinter dem desktop und ich sehe ehrlich gesagt die Relevanz nicht. Ausser Du willst mir einreden dass embedded ISVs mit Spiel-entwicklung in Relevanz zu PC Spielen liegen. Fuer Konsolen liegt oben tatsaechlich ein Punkt aber dieser Markt war nie ein treibender Faktor fuer Weiter-entwicklung sondern hinkte stets dem PC hinterher (welches sich wohl auch nicht aendern wird).

Neben Coda's GPGPU Punkt wage ich noch hinzuzufuegen was wohl passieren koennte wenn sich die Zukunft noch mehr in Richtung micro-Polygonen optimierten Architekturen orientieren sollte. In solch einem Fall muessen alle IHVs zu radikaleren Aenderungen in ihren Architekturen greifen; kann sein dass so etwas nicht mal mit DX12 kommt, aber nichts darueber zu wissen hilft eben nicht.

Noch schlimmer egal wie bloed es klingen mag, Du weisst besser was DX-Bums auf der Schachtel fuer den Otto-Normalverbraucher heissen kann. Microsoft wird es zwar wohl nie zulassen, aber stell Dir mal vor wie es aussehen wuerde wenn nach all den Jahren irgendwann OpenGL/OpenCL den Vorrang haben sollte was die Feature-Unterstuetzung betrifft gegenueber D3D. Ich will ja jetzt nichts schwarzmahlen dank einem verstreuten Geruecht, aber so einfach ist es nun auch wieder nicht wie Du es illustrierst. Microsoft hat die eigen eingebrockte "Verantwortung" gegenueber den Entwicklern mit ihren APIs im Vorsprung zu liegen.

Am schlimmsten ist es jedoch fuer den hw Entwickler; ohne hypothetische API Projektionen muss er sich fuer ein Fahrzeug entscheiden ohne zu wissen ob er auf Asphalt oder einer Kieselstrasse fahren muss.

Hugo78

2011-08-12, 19:36:06

Wenn ja koennen sich die IHVs nicht einig werden oder schlampert Microsoft einfach?

Eventuell haben wir auch ein Luxusproblem im Moment.

Was soll man den Kunden noch zeigen, wenn nicht Raytracing.
Aber wird das nicht schon durch GPUs effizient, im Rahmen ihrer Möglichkeiten berechnet?!

"Unlimited Detail" wird ja noch viel Entwicklungsarbeit benötigen, zumindest wird Maxwell wohl kaum davon betroffen sein.
Und wenn es nicht Raytracing oder "Unlimited Detail" ist, was bleibt dann noch für die nächsten 2-3 Jahre,
ausser Effizienzverbesserungen fürs aktuelle DX11 und besseren Support für GPGPU*?!

* = Wovon Spieler aber kaum was merken sollten

V2.0

2011-08-12, 20:54:44

Der embedded Markt liegt bis jetzt um eine Technologie-Generation hinter dem desktop und ich sehe ehrlich gesagt die Relevanz nicht. Ausser Du willst mir einreden dass embedded ISVs mit Spiel-entwicklung in Relevanz zu PC Spielen liegen. Fuer Konsolen liegt oben tatsaechlich ein Punkt aber dieser Markt war nie ein treibender Faktor fuer Weiter-entwicklung sondern hinkte stets dem PC hinterher (welches sich wohl auch nicht aendern wird).
..
..
Am schlimmsten ist es jedoch fuer den hw Entwickler; ohne hypothetische API Projektionen muss er sich fuer ein Fahrzeug entscheiden ohne zu wissen ob er auf Asphalt oder einer Kieselstrasse fahren muss.

Ich kann es gegenwärtig nur wage umschreiben, aber es gibt einen Interessenkonflikt zwischen Windows für ARM und einer deutlichen Erweiterung von DX. Im Vergleich zu dem Potential der ARM-Welt sind Spiele ein Pubs, wenn man die Anzahl an echten und reinen PC Spielen ansieht.

Ohne Zweifel wird sich etwas tun müssen, gerade auch im GPGPU-Bereich, die Frage ist halt der Zeitrahmen. Ich würde auf nach Maxwell schätzen und das könnte bereits knapp werden.

RLZ

2011-08-12, 21:39:07

Was soll man den Kunden noch zeigen, wenn nicht Raytracing.
Was erwartet ihr euch eigentlich immer davon?
Es löst nicht die anstehenden Probleme und wirft gelöste Probleme erneut auf.

Hugo78

2011-08-12, 22:08:00

Was erwartet ihr euch eigentlich immer davon?
Es löst nicht die anstehenden Probleme und wirft gelöste Probleme erneut auf.

Mit Blick auf die Qualität der Renderfarmen aus der Traumfabrik, oder auch dem was 3DSMax iRay so zaubert, könnte man schon von einem nächsten Sprung reden, sobald der Speed vorhanden ist.
Was als Einzelchip natürlich noch paar Jahr dauern dürfte.

Aber genau hier setzt ja meine Frage an, könnte denn ein DX12 irgendwie was beschleunigen, wenn man "dedicated silicon" dafür verbaut?!

RLZ

2011-08-12, 22:24:06

Mit Blick auf die Qualität der Renderfarmen aus der Traumfabrik, oder auch dem was 3DSMax iRay so zaubert, könnte man schon von einem nächsten Sprung reden, sobald der Speed vorhanden ist.
Was als Einzelchip natürlich noch paar Jahr dauern dürfte.
In der "Traumfabrik" wird viel weniger mit Raytracing gemacht als die meisten meinen. Dort nutzt man es nur dort, wo es wirklich was bringt. Ansonsten ist es ihnen zu langsam.
Um mal Pixar zu zitieren:
The ray tracing and global illumination features have been integrated with Pixar's highly evolved implementation of the REYES "scanline" rendering algorithm so that you only incur the overhead associated with these effects when and where you need them. RenderMan shader developers can selectively invoke RenderMan's ray tracing subsystem to invent new solutions to difficult production problems or to achieve physically correct illumination effects.
Im Offlinebereich kann man es sich auch besser leisten mehrere Beschleunigerstrukturen mit sich rumzuschleppen. Das Mixen von mehreren Renderingverfahren im Gamesbereich halte ich für sehr problematisch.

Hugo78

2011-08-12, 22:51:25

Gaestle

2011-08-13, 09:30:49

Soweit mir bekannt, sind seit DX9c nicht sehr viele direkt SICHTBARE Features dazu gekommen, sondern vieles ist "unter der Haube" passiert. Die meisten Neuerungen seit DX9c betreffen AFAIK die Verbesserung der Berechnungs- und Renderingeffizienz sowie der Flexibilität.

Insofern hat man den Kunden (im Sinne der Standard-Käufer, die GraKas zum Zocken kaufen) seit DX9c nicht soviel Neues "vorgesetzt". Eher haben die Devs die Möglichkeiten, die sich durch die Effizienzverbesserungen "unter der Haube" ergeben haben genutzt, um mehr Effekte einzubauen (wovon aber AFAIK viele - nicht alle - auch unter DX9c technisch möglich wären, wenn auch nicht sehr effektiv).

Vielleicht geht das mit DX11.1 und DX12 so weiter. Wobei auch ich vermute, dass sie schon anfangen(!) werden, ein bisschen(!) auf den Embedded-Markt zu schielen.

Weitere Möglichkeiten liegen sicher in der Verbesserung von Bestehendem: Irgendjemand hat z.B. mal angedeutet, dass es bessere AF-Algorithmen gäbe, als jetzt verwendet werden (also sie existieren grundsätzlich).

Ailuros

2011-08-13, 23:31:01

@RLZ

Ok, dann wäre Raytracing nicht der große Sprung, aber die Frage bleibt halt, was soll man dem Kunden noch vorsetzen bis 2014?

Ich selber hätte kein großes Problem damit, dass sich allein die DX11 Leistung jedes Jahr um +50% verbessert.
Dann kauft man alle zwei Jahre die nächste Mittelklasse (was aktuell eine 560Ti wäre) und erhält so kostengünstig, den doppelten Speed.

Mehr Rawspeed kann man immer in irgendwas investieren und sei es nur in mehr DS.

http://www.forum-3dcenter.org/vbulletin/showthread.php?t=496241

Mein erster Link mal ganz grob kombiniert mit Coda's Link (letzter Post) braucht eine ziemlich umgekrempelte Architektur um wirklich sehr hohe Effizienz mit Micro-polygonen zu erreichen.

Heutige Architekturen werden irgendwann mal in eine Sackgasse rennen mit Tessellation. Fuer die heutigen Verhaeltnisse ist es kein Problem, aber wenn Tessellation erstmal richtig ins Rollen kommt wird es zunehmend Kopfschmerzen geben, welche teilweise in den obrigen verlinkten research whitepapers illustriert werden.

Wie willst Du ueberhaupt jegliche "DX11 Leistung" in der Zukunft steigern wenn selbst wenn ein poly so gross ist wie ein pixel heutige GPUs den Geist aufgeben? In den whitepapers geht es sogar um micropolygons die 1/2 so gross sind wie ein pixel.

RLZ

2011-08-13, 23:44:07

Ok, dann wäre Raytracing nicht der große Sprung, aber die Frage bleibt halt, was soll man dem Kunden noch vorsetzen bis 2014?
Für den Endkunden selbst nicht viel. Aber was hat zum Beispiel DX10 dem Endkunden gebracht? Was DX11 außer Tesselation?

Eine Sache, die wohl gesetzt ist:
John Carmack hat ja erwähnt, dass die Herstelliger zustimmen, dass einige Lowlevel Sachen wie beispielsweise Speicherlayout von Texturen standardisiert werden sollten, um mehr Leistung aus der Hardware kitzeln zu können. Damit kann der Entwickler direkt auf die Daten zugreifen ohne durch 10 andere API-Layer zu müssen.

Ailuros

2011-08-14, 00:07:24

Hat jemand etwas dagegen wenn ich den Threadtitel auf:

Next-Gen-Architekturen: Kepler, Maxwell und Echelon

aendere?

Gaestle

2011-08-14, 00:39:05

Wenn polygone < 1 Pixel werden, gibt es doch sicher eine Möglichkeit ähnlich LOD um damit umzugehen?

Was ist Echelon? Die Generation nach Kepler und Maxwell, oder was dazwischen/davor? Echelon oder Echolon?

Ui ... Googles erstes Ergebnis zu Echelon verweist auf Wikipedia - mit dem Auszug:
Zitat: Echelon ist der Name eines Spionagenetzes. Die Staaten USA, Vereinigtes Königreich (UK), Kanada, Australien und Neuseeland sind daran beteiligt.

Ailuros

2011-08-14, 00:57:12

Wenn polygone < 1 Pixel werden, gibt es doch sicher eine Möglichkeit ähnlich LOD um damit umzugehen?

Lies Dir mal das von Coda verlinkte whitepaper durch.

Was ist Echelon? Die Generation nach Kepler und Maxwell, oder was dazwischen/davor? Echelon oder Echolon?

Ui ... Googles erstes Ergebnis zu Echelon verweist auf Wikipedia - mit dem Auszug:
Zitat: Echelon ist der Name eines Spionagenetzes. Die Staaten USA, Vereinigtes Königreich (UK), Kanada, Australien und Neuseeland sind daran beteiligt.

http://eetimes.com/electronics-news/4210815/Nvidia-describes-10-teraflops-processor#

Bisher als Design-Studie abgestempelt.

Knuddelbearli

2011-08-14, 01:29:37

echelon würde ich schon als extra thread führen

Gaestle

2011-08-14, 11:49:07

Danke für die Hinweise!

AnarchX

2011-09-07, 22:06:43

Kepler GeForce für das Q1 2012 projiziert: http://www.heise.de/newsticker/meldung/Nvidia-Mit-Kal-El-in-den-Notebook-Markt-1338799.html?view=zoom;zoom=2

SamLombardo

2011-09-08, 10:35:41

Für den Endkunden selbst nicht viel. Aber was hat zum Beispiel DX10 dem Endkunden gebracht? Was DX11 außer Tesselation?
.
DX 10 akzeptiert. DX 11 bringt aber ne ganze Menge, und das nicht nur in der Theorie. Und das im Gegensatz zu DX 10 "von Anfang an". Selbst die ersten dx11 Spiele, etwa metro2033 haben zb eine deutlich schickere Beleuchtung. Richtig schön finde ich auch das DX11 DOF, was Imho die Grafik enorm aufwertet, allerdings ordentlich Leistung kostet. Der Einsatz von Tessellation bietet auch noch reichlich Potential. Insofern wäre eine deutlich gestiegene DX 11 Leistung schon sinnvoll.

Coda

2011-09-08, 12:33:30

Es gibt kein "DX11 DOF".

Ailuros

2011-09-08, 12:44:02

Es wuerde mich uebrigens ziemlich stark wundern wenn Kepler bzw. GCN etwas fuer DX11.1 fehlen sollte.

Coda

2011-09-08, 12:52:07

Naja, vielleicht pullt NVIDIA mal wieder einen GT200?

SamLombardo

2011-09-08, 12:52:54

Es gibt kein "DX11 DOF".
Was ist denn dann das so genannte Advanced/Diffuse DOF, was Metro 2033 und auch anderen games (zb. Dragon Age 2) durch Compute Shader realisiert wird? Ohne DX11 isses jedenfalls nicht in den Optionen auswählbar.

Ailuros

2011-09-08, 12:55:53

Naja, vielleicht pullt NVIDIA mal wieder einen GT200?

Du duerftest einen weit besseren Einblick haben wie X11.1 in etwa oder genau aussieht. Ich hab zwar keine Einzelheiten aber es klingt nach einem "sehenswerterem" update im Vergleich DX10->DX10.1.

Duplex

2011-09-08, 13:21:54

Mit 1024 Shader wäre doch Kepler ein breites Fermi Design ähnlich wie G80 > GT200 oder nicht?

Coda

2011-09-08, 13:23:31

Was ist denn dann das so genannte Advanced/Diffuse DOF, was Metro 2033 und auch anderen games (zb. Dragon Age 2) durch Compute Shader realisiert wird? Ohne DX11 isses jedenfalls nicht in den Optionen auswählbar.
Es ist ein DOF-Verfahren, das sie nur für Compute Shader implementiert haben. Das heißt noch lange nicht, das es nicht auf einer DX9-GPU ebenso machbar wäre - wenn auch langsamer.

SamLombardo

2011-09-08, 13:27:24

Ah. OK. Danke;)

Ailuros

2011-09-08, 13:37:25

Mit 1024 Shader wäre doch Kepler ein breites Fermi Design ähnlich wie G80 > GT200 oder nicht?

Tja nur ist es theoretisch allein von 2*16 auf 4*16 pro cluster zu gehen technisch kein einfacher refresh mehr.

Hugo

2011-09-08, 13:38:10

kepler wird 2011 produziert und kommt 2012 in die Läden
http://www.computerbase.de/news/2011-09/nvidia-kepler-produziert-2011-verkauft-2012/

Ailuros

2011-09-08, 13:42:46

kepler wird 2011 produziert und kommt 2012 in die Läden
http://www.computerbase.de/news/2011-09/nvidia-kepler-produziert-2011-verkauft-2012/

Ist zwar verdammt OT aber es ist schoen zu sehen dass sie Ken mehr und mehr an die frische Luft lassen bei NV. Ken gehoert zu den Kerlen wo es einem verdammt schwer faellt ihn nicht gern zu haben ;)

Hugo

2011-09-08, 14:15:27

also hat Ken recht?

Ailuros

2011-09-08, 17:35:44

also hat Ken recht?

Die eigentliche Aufgabe von PR ist sich stets optimistisch zu zeigen. Lass erstmal AMD in die eigentliche Massenproduktion gehen und es wird schon helfen ein bisschen etwas von den ersten Eindruecken etwas spekulativ abzulesen.

Blediator16

2011-09-08, 19:43:42

Die eigentliche Aufgabe von PR ist sich stets optimistisch zu zeigen. Lass erstmal AMD in die eigentliche Massenproduktion gehen und es wird schon helfen ein bisschen etwas von den ersten Eindruecken etwas spekulativ abzulesen.

Ich dachte AMD benutzt zu Anfang einen etwas anderen Fertigungsprozess?

Gipsel

2011-09-08, 21:27:36

Kepler GeForce für das Q1 2012 projiziert: http://www.heise.de/newsticker/meldung/Nvidia-Mit-Kal-El-in-den-Notebook-Markt-1338799.html?view=zoom;zoom=2
Man beachte, daß dort "FY" dransteht, also "fiscal year" gemeint ist, was bei nvidia um einen Monat gegenüber dem Kalenderjahr verschoben ist (eigentlich 11 Monate, aber egal). Das Q1 enthält also auch noch April und endet nicht mit dem März. Das gibt ihnen also im Prinzip noch einen Monat mehr Spielraum, um den Termin zu halten.
Eventuell ist diese Differenz ja auch verantwortlich für die sich etwas widersprechenden Aussagen mit Produktionsbeginn in diesem Jahr oder Anfang nächsten Jahres (dieses Fiskaljahr kann auch noch im Januar des nächsten Kalenderjahres heißen), wenn es nicht einmal Produktionsbeginn der Chips bei TSMC und das andere Mal Produktionsbeginn der Karten heißt.

Ailuros

2011-09-08, 22:27:08

Ich dachte AMD benutzt zu Anfang einen etwas anderen Fertigungsprozess?

Bis jetzt nur sinnvolle Spekulation; es ist noch nichts sicher diesbezueglich und AMD behaelt natuerlich mit Absicht ihre Karten sehr dicht geschlossen.

Ailuros

2011-09-09, 10:20:32

http://semiaccurate.com/2011/09/08/exclusive-tsmc-raises-prices-on-amd-and-nvidia/

geezer

2011-09-09, 10:56:27

http://semiaccurate.com/2011/09/08/exclusive-tsmc-raises-prices-on-amd-and-nvidia/

Muss man also damit rechnen, dass die Endkundenpreise entsprechend anziehen? Auf eine entsprechende Marge werden AMD/Nvidia wohl kaum verzichten ...

Bye Bye P/L-Knaller in Form einer GTX 660???

Ailuros

2011-09-09, 12:27:37

Muss man also damit rechnen, dass die Endkundenpreise entsprechend anziehen? Auf eine entsprechende Marge werden AMD/Nvidia wohl kaum verzichten ...

Bye Bye P/L-Knaller in Form einer GTX 660???

Wenn es ueberhaupt stimmt erstmal. Dass AMD mehr und mehr Zeug zu GloFo verfrachten wird, ist ja wohl so oder so zu erwarten. Ich wuerde eher erwarten dass die IHVs eher den Zusatz schlucken werden, denn den Endkundenpreis mag man wohl kinderleicht in der Mitte einer globalen finanziellen Krise erhoehen, aber der Endkunde muss nicht unbedingt darauf positiv reagieren. Je weniger verkauft wird theoretisch, desto mehr werden IHVs gezwungen sein die Preise zu reduzieren.

Dural

2011-09-09, 12:41:01

bis Apple 28nm Chips fertigen lässt dürfte schon lange genug Kapazitäten zu Verfügung stehen...

Ailuros

2011-09-09, 12:56:59

bis Apple 28nm Chips fertigen lässt dürfte schon lange genug Kapazitäten zu Verfügung stehen...

Wenn Apple nicht zu dual sourcing greifen sollte (welches mir mehr Sinn macht als ein exklusiver Deal mit TSMC), dann wird Apple bei den Volumen mit den sie normalerweise umgehen schon einige Kapazitaet fuer ihr Zeug buchen.

Dass AMD eine Portion von zukuenftigen SIs auf GLoFo verfrachtet wird zwar helfen, aber wenn Apple einen Semi Hersteller wie Samsung ins Ruckeln gebracht hat (und Samsung einige Stammkunden dadurch verloren hat), dann kann man nicht so leicht sagen dass es bei TSMC problemlos sein koennte.

Wenn's stimmt interessiert ja eigentlich was Apple vorhat weniger, aber umso mehr dass TSMC vorhat ein Preis-premium anderen IHVs auf den Deckel zu hauen um sie indirekt zu zwingen Bestellungen zu reduzieren. Wenn ja dann ist es eine ziemliche Frechheit. Zwar ist "business as usual" egal wo skrupellos, aber so stark die Hosen runterziehen nur fuer Apple kann langfristig auch nicht gehen. Apple bekommt so was es haben will unter den von ihnen gesetzten Vorraussetzungen und man foegelt so mit so manchen anderen jahrelangen Stammkunden damit ab.

Skysnake

2011-09-09, 13:20:44

ja, die Sache kann ganz böse nach hinten losgehen auf lange Sicht. Apple muss nur mal ins straucheln kommen, was früher oder später passieren wird, dann haut das sehr rein, wenn man sich so sehr auf einen Kunden versteift hat, der auch noch einen derart unter druck setzt und einen zur Not auch ausbluten lässt.

G 80

2011-09-09, 13:47:51

Ailuros

2011-09-09, 15:56:44

So dumm wird TSMC schon nicht sein da AMD und NV zu vergraulen.

Seblst WENN sie sie jetzt höhere Preise zahlen lassen, weil die Nachfrage hoch ist, werden die dann garantierte Rabatte auf spätere Produktionslose geben, wenn die Kapazität gestiegen ist, oder so etwas ähnliches einfach um die guten Geschäftsbeziehungen zu erhalten.

Charlie macht einen wichtigen Fehler: es bezahlt kein IHV nur $5000 pro wafer sondern um ein gutes Stueck mehr ueberhaupt wenn die yields nicht besonders gut sind. Je besser die yields werden desto naeher reduziert sich der Preis zu den $5000 bis ein neuerer Herstellungsprozess in die Startloecher geht.

Wobei man ja noch anmerken muss: NV ist eherd der Premium Kunde. Bestellt idR mehr, hat auch nicht grad die kleinen Dies ( ;D dh bei gleich GPU Zahl mehr Wafer verkauft) und bei AMD steht stattdessen immer die Frage im Raum wann und wieviel sie zu GloFo verlagern.

Fuer das groessere Volumen hatte zumindest bis zu Gf110 wo ich das letzte Mal nachfragte einen relativ kleinen Rabbatt im Vergleich zu AMD; der Unterschied war aber eher eine handvoll an hundert $ per wafer.

***edit: ROFL zur Unterschrift und nein ich hab natuerlich nichts dagegen ;)

Hugo

2011-09-10, 13:31:58

Ailuros

2011-09-10, 14:21:28

kommt vor Kepler doch noch ein Fermi-shrink?
und Kepler erst auf der GTC 2012 vom 14. - 17. Mai?
http://www.hardwareluxx.de/index.php/news/hardware/grafikkarten/19856-nvidia-vor-kepler-noch-mit-einem-fermi-shrink-auf-28-nm.html

Gott Kepler waere sowieso nie vor Q2 erschienen auf Regalen. Wieso soll es sich jetzt noch ploetzlich lohnen in Q1 einen Fermi shrink herzustellen?

Waere 28nm schon in H2 Produktionsreif gewesen dann ja koennte ich so etwas verstehen; aber nur ein paar Monate vor dem Kepler launch ist absoluter Bloedsinn IMHO.

Konami

2011-09-10, 15:42:49

http://semiaccurate.com/2011/09/08/exclusive-tsmc-raises-prices-on-amd-and-nvidia/
Wenn das stimmt, muss man sich ja schon fragen, wieso TSMC das mit sich machen lässt. Wenn Apple 28nm-Wafer braucht, dann sind sie viel mehr auf TSMC angewiesen als umgekehrt. Da müsste TSMC doch wohl in der Lage sein zu sagen "Ja, aber zu unseren Bedingungen". :|

mapel110

2011-09-10, 15:46:13

Gott Kepler waere sowieso nie vor Q2 erschienen auf Regalen.

? Seit wann hat sich das denn schon wieder um ein weiteres Quartal nach hinten verschoben?

Hugo

2011-09-10, 19:10:22

Gott Kepler waere sowieso nie vor Q2 erschienen auf Regalen. Wieso soll es sich jetzt noch ploetzlich lohnen in Q1 einen Fermi shrink herzustellen?

Waere 28nm schon in H2 Produktionsreif gewesen dann ja koennte ich so etwas verstehen; aber nur ein paar Monate vor dem Kepler launch ist absoluter Bloedsinn IMHO.

dass Kepler nicht vor Q2 zu kaufen gibt dacht ich mir auch schon ;)
Ich find eher den 28 Fermi shrink für unglaubwürdig oder?

Ailuros

2011-09-10, 22:34:23

? Seit wann hat sich das denn schon wieder um ein weiteres Quartal nach hinten verschoben?

Errr kein Quartal per se: http://www.forum-3dcenter.org/vbulletin/showpost.php?p=8924172&postcount=785

Gipsel

2011-09-20, 20:16:28

Mal wieder eine Story von Charlie über Kepler-Tapeouts (http://semiaccurate.com/2011/09/20/exclusive-nvidia-has-two-keplers-in-house-but-not-the-big-one/). Laut ihm läuft es natürlich wieder auf eine mittelschwere Katastrophe hinaus (:rolleyes:), mal sehen, was davon nachher stimmt.

Angeblich gibt es bisher zwei Tapeouts: GK117 als Fermi-Kepler-Hybrid ohne Display-Controller (:confused:, er spekuliert über einen Testchip) und den GK107. GK100 soll erst später kommen, die fangen also angeblich diesmal von unten an.

Hugo

2011-09-20, 20:41:58

Fermi-Kepler-Hybrid? ohne Display Controller? was soll denn das sein, damit könnte man den Chip doch nur doch nur Tesla nutzen.
Der schreibt doch nur Quark

Hugo78

2011-09-20, 21:05:52

Wenn GK107 früher, bessere Yields erreicht, ist es ne Option die Nvidia gehen sollte.
Vorallem dann wenn GK107 den Speed eines GF110 erreicht oder gar knapp drüber liegt.
Wird sich sicher keiner beschweren, den Speed er GTX 580 für 200-250€ zubekommen.

LovesuckZ

2011-09-20, 21:20:08

Der schreibt doch nur Quark

Bingo. Den Quatsch kann ich dir auch zusammenschreiben. :rolleyes:

Das nVidia 28nm Testchips hat, wissen wir seit der CC zu den Q2 Ergebnissen von Anfang August. No Display macht auch sinn, wenn man diesen als Notebookchip bringt. Da jede Intel-CPU heutzutage mit einer IGP ausgeliefert wird, ergibt sich sichtnmal ein Nachteil. Ich glaube, das wurde sogar schonmal spekuliert.

Ich sehe an dem Geschriebenen keine Neuigkeit.

Neurosphere

2011-09-20, 22:44:42

Bingo. Den Quatsch kann ich dir auch zusammenschreiben. :rolleyes:

Das nVidia 28nm Testchips hat, wissen wir seit der CC zu den Q2 Ergebnissen von Anfang August. No Display macht auch sinn, wenn man diesen als Notebookchip bringt. Da jede Intel-CPU heutzutage mit einer IGP ausgeliefert wird, ergibt sich sichtnmal ein Nachteil. Ich glaube, das wurde sogar schonmal spekuliert.

Ich sehe an dem Geschriebenen keine Neuigkeit.

Wenn das Ding keinen Ramdac hat bringt er dir auch im Notebook nix:wink:

LovesuckZ

2011-09-20, 22:46:55

Wenn das Ding keinen Ramdac hat bringt er dir auch im Notebook nix:wink:

Inwieweit benötige ich einen Ramdac, wenn die Ausgabe über die Intel-GPU erfolgt?

Aus meiner Sicht bereitet ja nicht die nVidia-Karten das Signal auf, sondern schickt nur die Daten weiter in den Intel-Speicher.

Neurosphere

2011-09-20, 23:12:04

Hmm, wüsste nicht das das möglich ist.

Gipsel

2011-09-21, 01:12:51

Wenn GK107 früher, bessere Yields erreicht, ist es ne Option die Nvidia gehen sollte.
Vorallem dann wenn GK107 den Speed eines GF110 erreicht oder gar knapp drüber liegt.Nee, das dürfte eher GF106-Niveau sein, also so ziemlich die kleinste GPU.

Edit:
RAMDACs benötigt man eigentlich nur für den VGA-Ausgang. Und LS hat da schon ganz recht, wenn die GPU ihre Daten immer fleißig in den Speicher der iGPU der CPU spiegelt (Optimus und dynamic switchable Graphics oder wie das auch immer gerade heißt), benötigt sie selber keinen eigenen Displaycontroller.

Hugo78

2011-09-21, 07:42:40

Nee, das dürfte eher GF106-Niveau sein, also so ziemlich die kleinste GPU.

Ja gut stimmt, aber egal, wenns passt immer her damit.
Und überhaupt ich meinte GTX 580(M). :biggrin:

V2.0

2011-09-21, 07:57:53

Charlie ist doch ein Witz. Wenn sie wirklich Fermi-Shrinks bringen wollen, dann ist es doch logisch, dass Keppler nicht vor Ende Q1 errscheinen kann, da die Shrinks sonst null Sinn machen. Bei Fermi hat er NV aufgezogen, weil sie mit dem dicken Chip im neuen Prozess angefangen haben, jetzt macht er das gleiche weil sie angeblich zuerst kleine Chips im Tape-Out hatten. Abgesehen vom Zeitraum in dem NV 2 kleine Keppler zum Tape-Out geführt hat, würde ich bei der Nachricht kein Wort glauben. Charlie hat ja ganz gute Quellen wenn es um Tape-Outs geht.

LovesuckZ

2011-09-23, 11:56:25

nVidia hat den nächsten Design-Win für Kepler, diesmal in Form von Quadros:
http://www.xbitlabs.com/news/other/display/20110922133359_Stampede_Supercomputer_to_Use_Next_Gen_Xeon_MIC_Knights_Corner_Ac celerators_Nvidia_Quadro_Kepler_Graphics_Cards.html

Ich denke, dass Huang auf der Supercomputer in November die Architektur von Kepler offiziell vorstellen wird. Immerhin hält er die Eröffnungsrede.

Charlie hat ja ganz gute Quellen wenn es um Tape-Outs geht.

Und trotzdem verpasste er das Tape-Out von GF104 und GF110. ;)

Skysnake

2011-09-23, 12:34:09

Also ein Design-Win würde ich das nicht unbedingt nennen. 128 Karten bei einem 10PFlop rechner.... Das ist NICHTS. Also wirklich rein gar nichts. Die schreiben doch auch selbst, dass das nur zur Visualisierung von Analysen genutzt werden soll.

Also ich nenne das eher einen gewaltigen Rückschlag für nVidia. Die Arbeit erledigen MICs.

Gipsel

2011-09-23, 13:41:12

LovesuckZ

2011-09-23, 13:43:22

Natürlich ist es ein Design-Win - nämlich für die Quadro-Abteilung. Und es zeigt, dass nVidia wohl schon mit Kepler hausieren geht.

Und wenn es ein Rückschlag für nVidia wäre, dann auch für AMD. In welchen Markt wollten die mit SI nochmal rein? :D

Cyphermaster

2011-09-23, 15:57:15

Natürlich ist es ein Design-WinIch denke nicht, daß die Verwendung als reines Ausgabegerät da ein "win" ist, während man bei den Leistungs-Chips auf MIC setzt. Der einzige (imo Marketing- und nicht Design-)"win" für nVidia ist, daß die Visualisierungskarten nicht auch noch von anderen Firmen stammen.
Und wenn es ein Rückschlag für nVidia wäre, dann auch für AMD.Natürlich. Die hätten sicher auch gern ihre Chips im "Stampede" gesehen, und nicht die der Konkurrenz.

Ailuros

2011-09-23, 16:03:40

Jeglicher deal ueber N Einheiten ist ein design win per se. Wie dem auch sei Charlie hat hoechstwahrscheinlich wieder den tape out verpasst und falls GK117 tatsaechlich der test chip ist dann ist er alles andere als "neu" was seinen tape out betrifft.

Sonst aus dem xbitlabs link lese ich lediglich dass die Universitaet den spezifischen Supercomputer fuer nicht erwaehnte Zeitspanne plant, aber da auch Intel 22nm im Text fuer andere Komponenten drinsteht braucht man keine besonders grosse Phantasie um den Zeitraum (im besten Fall) einzuschaetzen.

Skysnake

2011-09-23, 16:24:55

Naja, MICs gehen wohl zur Zeit rum, hab ich die Flöhe husten hören. Wann die Karten aber in den Stückzahlen kommen ist wieder eine ganz andere Sache.

So ein "Deal" ist auch nicht in Stein gemeißelt. IBM hat ja neulich auch erst einen ganz großen Deal abgesägt, weil beide Seiten wohl mit dem gebotenen nicht zufrieden waren, bzw. IBM nicht das halten konnte was angedacht war. Von daher, so lange der Rechner nicht da steht, ist noch gar nichts in trockenen Tüchern.

Hugo78

2011-09-23, 16:35:38

@Ailuros
Jop, da steht ja auch das Teil soll irgendwann 2013 fertig sein.

@Skysnake
1. Intel wird aktuell ganz allgemein auch sicher gute Preise machen, um ihr Paket aus Xenon + MIC schmackhaft zumachen.

2. Im fall von TACC ändern die nicht ein bisschen an ihrem bisherigen Weg.
Die haben bisher immer nur auf Xenon CPUs gesetzt und da ist klar, dass MIC perfekt in deren Konzept passt, denn sie brauchen nicht eine Zeile an ihrem Code ändern.

Für Visualization nutzen die schon seit G80 Tagen Nvidia Karten.
Von daher nichts neues im Westen, aber gut zuwissen das man hier auch weiter auf NV setzt.

Skysnake

2011-09-23, 16:59:25

Ja gute Preise müssen die auch machen. Die haben in letzter Zeit einfach zu viel Mist gebaut und zu viel versprochen und NICHTS gebracht.

Am CERN hatten Sie ja anscheinend auch ein paar Karten im Einsatz zum Testen. Mal schauen ob Sie da rein kommen.

Naja, und ansonsten werden wie gesagt aktuell scheinbar wieder mal Karten verteilt. Ich geh mal stark davon aus for free. Ich muss mir die demnächst mal genauer anschauen :D

Ailuros

2011-09-24, 08:19:24

@Ailuros
Jop, da steht ja auch das Teil soll irgendwann 2013 fertig sein.

Bis dahin liegen aber irgendwo 1.5-2 Jahre dazwischen. Ergo noch nichts ist absolut in Stein gemetzelt fuer alle interessierten Seiten, auf fuer Intel nicht.

Dural

2011-10-04, 10:16:12

In einem Beta Treiber sind 610M und 630M unterstütz

http://www.computerbase.de/news/2011-10/baldiger-start-von-nvidias-geforce-600m-serie/

dann geht es wohl nicht mehr lange :smile:

LovesuckZ

2011-10-06, 16:20:21

/edit: Spam von AMD Typen auf eine einfache Meldung. Deswegen gelöscht.

Skysnake

2011-10-06, 16:58:49

Na hoffen wir es mal, alles andere wäre enttäuschend. Es ist schon November, und es ist faktisch nicht bekannt über Kepler. Auf der anderen Seite hat AMD auf dem FDS schon relativ viel erzählt und Systeme in die Runde gehalten. Da sollten die mal nach ziehen.

Was wäre denn das nächste Event danach, wo man über Kepler reden könnte? Mir fällt gerade nur noch das nVidia Dingens da Anfang 2012 in Asien ein.

LovesuckZ

2011-10-06, 16:59:55

Und was hat es uns gebracht, dass AMD über GCN gesprochen hat? nVidia tat das selbe mit Fermi auch - und kaufen konnte man erst 6 Monate später. nVidia hat sowieso keinen Druck über Kepler zu sprechen.

Die nächste Veranstaltung ist die Supercomputer, wo Huang die Eröffnungskeynote hält. Danach kommt die Asien GTC und dann CES anfang Januar.

Gipsel

2011-10-06, 17:03:54

Und was hat es uns gebracht, dass AMD über GCN gesprochen hat?Man weiß, daß die Chips existieren und daß sie laufen (es wurden aktuelle Spiele gezeigt) und man jetzt im Prinzip nur noch auf die Fertigung wartet. Ist zugegebenermaßen wenig, aber doch etwas besser, als wenn man noch die Unsicherheit besteht, daß Kepler sich wegen Problemen am Design verzögert und nicht nur wegen der Fertigung.

LovesuckZ

2011-10-06, 17:09:18

nVidia zeigte GF100 auf der GTC2009 als Chip und lies eine Demo drauflaufen. Sie zeigten eine fertige GF100 Karte auf der Supercomputer 2009 und hatten mehrere Systeme auf der CES2010. Wann konnte man GF100 kaufen? Mitte April.
AMD hat den Leuten Juniper auf der Computex 2009 gezeigt - das war anfang Juni. Zu kaufen gab es Juniper Mitte Oktober - 4 Monate später.

AMD zeigte weder einen Chip noch eine Demo auf der FDS. Erst vor 2 Wochen haben sie das erste, funktionsfähige Samples präsentiert. Man kann also selbst sehen, wie lange es noch dauert, bis man was kaufen kann, wenn man nVidia und Juniper als Maßstab nimmt.

Huang hat sich Anfang August klar dazu geäußert, dass nVidia 28nm da haben. Nur weil sie nichts zeigen, heißt es nicht, dass sie nichts zeigbares hätten.

Gipsel

2011-10-06, 17:54:16

AMD zeigte weder einen Chip noch eine Demo auf der FDS. Erst vor 2 Wochen haben sie das erste, funktionsfähige Samples präsentiert.Das wird jetzt zwar OT, aber es war das erste Mal, daß sie lauffähige Samples präsentiert haben, nicht die ersten funktionsfähigen Samples. Die geistern schon ein wenig länger bei AMD rum (mindestens seit Ende Q2, seit dem gibt es nämlich schon Fixes für kleinere GCN-Bugs im Treiber und die findet man wohl nur mit funktionierendem Silizium ;)).

LovesuckZ

2011-10-06, 17:59:11

Du weißt also, dass dies nicht die ersten lauffähigen Samples waren?
Ich möchte für diese Aussage bitte Beweise sehen.

Gipsel

2011-10-06, 18:06:07

Du weißt also, dass dies nicht die ersten lauffähigen Samples waren?
Ich möchte für diese Aussage bitte Beweise sehen.
Der Catalyst 11.6 (Build vom 25. Mai 2011) enthält bereits einen Fix für GCN namens "R1000_BUG301460_WORKAROUND". Lade Dir das Treiberpaket runter und suche selber danach, wenn Du mir nicht glaubst. Die Liste ist in den folgenden Monaten noch länger geworden, aber das tut ja nichts zur Sache. Also wenn Du nicht glaubst, daß AMD im Mai schon die finale Revision der Chips hatte, dann waren die kürzlich präsentierten Versionen nicht die ersten lauffähigen Samples.

Edit:

R1000_ZEXP_BUG337892
R1000_SPI_NULL_WAVE_WORKAROUND_BUG335260
R1000_BYTE_SHORT_WRITE_WORKAROUND_BUG317611
R1000_BUG301460_WORKAROUND

Aber wenn Du diese Unterhaltung weiterführen willst, dann eventuell besser im GCN/SI-Thread.

Edit2: Habe das mal verschoben kopiert.

LovesuckZ

2011-10-06, 18:12:30

/edit: Macht ja kein Sinn mit dir über solche Dinge zu reden.

Löscht bitte jemand die Diskussion ab Posting #822. Mehr als "nVidia doof, AMD voll geil" kommt ja in diesem Forum nicht mehr herum, wenn man über Kepler reden will.

Coda

2011-10-06, 18:29:03

LovesuckZ

2011-10-06, 18:32:42

http://www.myfacewhen.net/uploads/954-not-sure-if-serious.jpg

Er hat dir doch gerade Fakten auf den Tisch gelegt. Es ergibt also keinen Sinn mehr mit ihm zu reden, weil er Argumente hat und du nicht? Danke für die Einsicht.

Nö, weil es kein Sinn macht mit Mister "Ein 25% besseres Perf/Watt Verhältnis erreicht man zu 99% durch einen Kühlerwechsel" Gipsel über nVidia, AMD und der deutschen, sowie englischen Sprache zu reden.

Ich habe eben gemerkt, dass eine weitere Diskussion zu nichts führt. Deswegen habe ich es diesmal eben früher als später beendet.

Achja Coda, du bist uns allen noch schuldig, dass Geometrieerzeugung und Rastering ganz viel Leistung kosten würde. Wobei, die Diskussion hast du ja beendet als dir jemand "Fakten auf den Tisch gelegt" hat. :freak:

Coda

2011-10-06, 18:34:17

Mein Nick ist Coda, und da bin ich dir garantiert keinerlei Rechenschaft schuldig. So weit kommt's noch. Ich glaub es hackt.

Schon allein, weil du meine Ausführung offensichtlich nicht verstanden hast. Es ging um die Shader-Last von Domain- und Hull-Shadern und wer die abstreitet hat - pardon - keinerlei Ahnung von der Materie.

Weißt du, das ist das größte Problem mit dir. Du lehnst dich viel zu oft viel zu weit aus dem Fenster. Gipsel und ich können Programmieren und Shader schreiben und haben die Konzepte hinter GPUs verstanden. Das gibt uns eine Sicht auf die Dinge, die du einfach nicht hast.

Gipsel

2011-10-06, 18:40:11

Mister "Ein 25% besseres Perf/Watt Verhältnis erreicht man zu 99% durch einen Kühlerwechsel" Gipsel
Nachdem Dir bestimmt schon 3 oder 4 Mal der diesbezügliche Sachverhalt erklärt wurde, werden weitere Wiederholungen ohne einen Link zu einem entsprechenden Post, der Deine in Anführungszeichen (also Zitat?) stehenden Prozentzahlen aufweist, wahlweise wegen Spam oder Offtopic geahndet.

Verstanden?

Im Übrigen bitte ich auch alle anderen, wieder zum Thema zurückzukommen.

Skysnake

2011-10-06, 18:42:51

LovesuckZ können wir nicht einfach alle den Kindergarten da lassen wo er hin gehört, was meinste? Sticheln in die eine wie die andere Richtung bringt doch nichts.

So BTT das mit dem GF100 auf der GTC09, war das nicht das mit der Fake Fermi? Keine Ahnung wann was war, ist aber gerade auch zweitrangig. Hat auch deiner Meinung nach nVidia mit dieser und anderer Aktionen ihre Glaubwürdigkeit verspielt?

Sorry, nVidia kann viel sagen, wenn der Tag lang ist. Zumal die Aussagen auch widersprüchlich sind. Die sollten nämlich erst September oder Oktober erste Samples von TSMC bekommen. Nach der/den Aktion/nen, die sich nVidia mit Fermi geleistet hat, haben Sie diesbezüglich jedwede Glaubwürdigkeit in meinen Augen verloren. So lange Sie nichts zeigen, können die erzählen was Sie wollen....

AMD hat wenigstens die Eier auf den Tisch gelegt. Zwar nur eine kurze Ansicht, aber man weiß woran man ist.

Gipsel

2011-10-06, 18:44:59

So BTT das mit dem GF100 auf der GTC09, war das nicht das mit der Fake Fermi? Keine Ahnung wann was war, ist aber gerade auch zweitrangig. Hat auch deiner Meinung nach nVidia mit dieser und anderer Aktionen ihre Glaubwürdigkeit verspielt?LS sprach von der Supercomputer Conference etwas später. Da gab es (nicht laufende) Systeme mit den Karten zur Ansicht und eine Vorführung eines laufenden Systems.

Und dann ist Fermi Schnee von gestern bzw. heute. Wir wollen eine Kepler-Vorführung! :D

Skysnake

2011-10-06, 18:53:28

Definitiv.

Btw. ich hätte gern einmal GCN und Kepler für die nächsten 6 Monate. Die GPU-Computing Vorlesung ist wieder am start. Wäre cool, wenn man sich da schon mal anschauen könnte, was die neuen Karten bringen, anstelle auf dem "alten" rotz rum zu rechnen, den es aktuell gibt :biggrin:

LovesuckZ

2011-10-06, 18:55:38

So BTT das mit dem GF100 auf der GTC09, war das nicht das mit der Fake Fermi? Keine Ahnung wann was war, ist aber gerade auch zweitrangig. Hat auch deiner Meinung nach nVidia mit dieser und anderer Aktionen ihre Glaubwürdigkeit verspielt?

Und sie haben sie letztes Jahr mit GF110 wiederbekommen. So what?

Zumal die Aussagen auch widersprüchlich sind. Die sollten nämlich erst September oder Oktober erste Samples von TSMC bekommen. Nach der/den Aktion/nen, die sich nVidia mit Fermi geleistet hat, haben Sie diesbezüglich jedwede Glaubwürdigkeit in meinen Augen verloren. So lange Sie nichts zeigen, können die erzählen was Sie wollen....

nVidia hat überhaupt nichts gesagt. Ken Brown antworte bzw. schrieb, dass sie später im Jahr Samples erhalten werden und erst 2012 in Produktion gehen würden. Danach revidierte er es gegenüber Fuad.

Mehr ist nicht bekannt und wer was anderes behauptet, verliert wohl seine Glaubwürdigkeit.

AMD hat wenigstens die Eier auf den Tisch gelegt. Zwar nur eine kurze Ansicht, aber man weiß woran man ist.

Und? nVidia hat Tegra 3 auch schon vor 7 Monaten vorgeführt.

Dural

2011-10-06, 19:11:53

weder nv noch amd werden diese jahr kepler beziehungsweisse gnc karten in den handel ausliefern...

sag ich ja eh schon länger, leute wir haben oktober und wir sehen weit und breit noch keine 28nm GPUs im handel...

übrigens wer sagt das amd lauffähige gnc chips gezeigt hat?!? könnten auch einfache shrinks von den 40nm gpus sein ;)

Gipsel

2011-10-06, 19:32:17

übrigens wer sagt das amd lauffähige gnc chips gezeigt hat?!? könnten auch einfache shrinks von den 40nm gpus sein ;)
Das sagte AMDs Corporate Vice President and General Manager of AMD’s Graphics Division, Matt Skynner.
Aussagen zu der Vorführung der Notebookplattform mit Dragon Age 2 waren:
28 nm next-generation graphics processor
28nm process node, coupled with new innovations in our underlying graphics architecture

Also ziemlich sicher GCN.

Edit:
Argh! Das ist ja der Kepler-/Maxwell-Thread. Wir sollten die GCN-Dinger wirklich hier raushalten.

Nightspider

2011-10-06, 23:18:28

Was schätzt ihr wann die ersten TriGate Transistoren in HighEnd Grafikchips zu finden sein werden? Beim Fermi Refresh mit Sicherheit noch nicht aber 2013?

Mancko

2011-10-06, 23:30:39

Sorry, nVidia kann viel sagen, wenn der Tag lang ist. Zumal die Aussagen auch widersprüchlich sind. Die sollten nämlich erst September oder Oktober erste Samples von TSMC bekommen. Nach der/den Aktion/nen, die sich nVidia mit Fermi geleistet hat, haben Sie diesbezüglich jedwede Glaubwürdigkeit in meinen Augen verloren. So lange Sie nichts zeigen, können die erzählen was Sie wollen....

AMD hat wenigstens die Eier auf den Tisch gelegt. Zwar nur eine kurze Ansicht, aber man weiß woran man ist.

Ich würde das anders formulieren. Nvidia hat die schnellste single GPU Karte seit geraumer Zeit, nimmt AMD Marktanteile ab und verdient auch deutlich mehr Geld mit GPUs als AMD. Zumindest war das mal in den letzten 2 Quartalen so. Ehrlich gesagt erscheint mir Nvidia derzeit nicht unter Zugzwang. Solange AMD nicht gelauncht hat brauchen die nicht reden. Da verkaufen die lieber noch ein paar GTX580 und GTX570 anstatt Leute davon abzuhalten. Sobald AMD's Launch näher rückt oder sich Reviews ankündigen bzw. genauere Details durchsickern kann ich Dir garantieren, dass Nvidia schön mit Salamitaktik Infos rausrücken wird und genau so ist es auch richtig. Wie gesagt den Zugzwang haben andere.

V2.0

2011-10-07, 07:17:11

Das einzige was NV sicher gesagt hat ist dass sie 2011 keine Kepler-Karten mehr im Handel haben werden.

Die Tape-Outs wurden von NV selber nie kommentiert und die Gerüchte sind nicht schlüssig. Es gab Gerüchte über eine GK100 Tape-Out lange vor dem GK107. Ich persönlich vermute, dass AMD und NV schon Tape-Outs hatten der Produktionsbeginn in Abhängigkeit vom Die-Size und den Yields aber unterschiedlich terminiert werden muss.

boxleitnerb

2011-10-07, 09:52:51

Im Luxx wird darüber spekuliert, dass Kepler eine dedizierte kleine 2D/3D-Einheit haben könnte. Also einen extra Core zum Stromsparen wie Kal-El. Ist sowas möglich? Für Aero braucht man ja 3D, d.h. eine reine 2D-Einheit würde nicht ausreichen. Und einen 5 Mrd. Transistoren-Chip kann man inkl. Stromversorgung vermutlich nicht auf unter 30W drücken.

Was auch endlich zeitgemäß wäre:
Wenn man bei SLI alle nicht benötigten Karten (fast) komplett abschalten könnte. Ist die Frage, wie schnell man die wieder initialisieren kann, dass der Benutzer möglichst wenig davon mitkriegt und ihm keine Nachteile entstehen. Ist das über PCIe 2.0/3.0 überhaupt möglich?

Coda

2011-10-07, 10:53:47

Natürlich kannst du einen Chip auf 30W drücken, wenn du den Rest per Power-Gating abschältst.

LovesuckZ

2011-10-07, 10:59:20

Der einfachste Weg weniger Strom bei Office- und Multimediabetrieb zu verbrauchen ist die Reaktivierung von Hybrid-Power. Laut nVidia unterstützt jede Fermi-Karte ab GF104 (also nicht GF100!) die Voraussetzung, um Optimus auch auf dem Desktop anzubieten. Ist auch der logischte Schritt, da bald jede x86 CPU mit einer iGPU daherkommt.

Jedenfalls hat sich nVidia auch zum Thema Strom in Bezug auf Tegra geäußert, dass man in "Zukunft" die Erfahrungen aus der Tegra Entwicklung mit in die Grafikkartenentwicklung einbeziehen werde.

boxleitnerb

2011-10-07, 11:52:50

Natürlich kannst du einen Chip auf 30W drücken, wenn du den Rest per Power-Gating abschältst.

Ich schrieb "unter 30W" und meinte damit, dass das Ding so gut wie nichts verbraucht, also 1-5W. Du kriegst keine aktuelle Highendkarte (GTX580, HD6970) unter 25W im idle.

fondness

2011-10-07, 12:06:35

Ich schrieb "unter 30W" und meinte damit, dass das Ding so gut wie nichts verbraucht, also 1-5W. Du kriegst keine aktuelle Highendkarte (GTX580, HD6970) unter 25W im idle.

Erstens musst du auch noch den Speicher und die Spannungsversorgung/Platine berücksichtigen, zweitens weiß ich auch nicht inwieweit diese Chips bereits power-gatering unterstützen. Der Chip selbst verbraucht bei 25W für die gesamte Karte wohl kaum mehr als 5W-10W. Ein spezieller Low-Power Kern macht für Teillast Sinn, unter idle bringt das bei einem ordentlich power-gegateten Chip wohl kaum was. Für eine High-End-Karte daher IMO kaum sinnvoll.

boxleitnerb

2011-10-07, 12:07:40

Ja dann müsste man eben entweder die ganze Karte komplett abschalten oder die Stromversorgung so auslegen, dass man einen großen Teil davon im idle auch schlafenlegen kann. Und alle Speicherchips bis auf einen mit einem Teil des Speicherinterfaces deaktivieren.

Coda

2011-10-07, 12:13:06

Ich schrieb "unter 30W" und meinte damit, dass das Ding so gut wie nichts verbraucht, also 1-5W. Du kriegst keine aktuelle Highendkarte (GTX580, HD6970) unter 25W im idle.
Man beachte "aktuell". Technisch ist das nicht unmöglich.

boxleitnerb

2011-10-07, 12:20:03

Okay, das ist schonmal gut zu wissen. Vielleicht geht da ja bei der nächsten Generation was.

Gipsel

2011-10-07, 13:36:04

Man beachte "aktuell". Technisch ist das nicht unmöglich.
Mit TSMCs 28nm Prozeß ist Powergating sehr aufwendig, zumindest wenn man mehr als wenige Ampere (/Watt) abschalten will. Ich würde also arg daran zweifeln, daß daß jemand für eine High-End-GPU implementiert.
Überlegenswert wäre es vielleicht, ob man zwei oder gar mehr Powerplanes einführen kann und dann eine davon (für 90% des Shaderarrays oder so) auf Null legen könnte. Ist praktisch eine "externe" Variante des Powergatings.

Coda

2011-10-07, 14:00:07

Ja, dann wäre auch vorteilhaft, dass man für diese Power-Plane auch andere Spannungswandler (weniger Phasen) benutzen könnte. Kostet halt alles Geld.

Hugo78

2011-10-07, 14:37:50

Wie ist das eigentlich, werden heute nicht schon einzelne SMs des Chips deaktiviert als teil der Stromsparfunktion,
oder geht das aktuell rein über die Takt- und damit Spannungsabsenkung?!

Ein GK100 mit angenommen wieder 16 SMs und dann vermutlich 64ALUs/ SM sollte doch mit einem SM allein,
schon schnell genug für alle alltäglichen 2D Aufgaben sein.

|MatMan|

2011-10-07, 15:26:48

Wie wäre es denn auf Displaycontroller und Videoprozessor bei GK100 komplett zu verzichten? Man hätte dann eine Art Tesla-Karte die mit Optimus die Bilder zur integrierten GPU der CPU schiebt. Würde die Herstellungskosten etwas senken und evtl. die Fertigung vereinfachen.

Man könnte dann noch eine 2. Variante für Computer ohne integrierte GPU mit einem separaten "lowest-end"-Chip anbieten (GK10x oder so) in dessen Framebuffer GK100 dann schreibt. Zumindest vom groben Aufbau der Karte her ähnlich dem NVIO-Chip, nur deutlich aufwendiger da ein eigenes Speicherinterface benötigt wird. Damit könnte man dann Optimus / Hybrid Power auf der Platine der Karte selbst machen. Für Dual-Karten bräuchte man nur einen solcher "lowest-end"-Chips...

LovesuckZ

2011-10-07, 15:34:42

IO-Ausgliederung ist nur interessant, um bei Low-Cost Modellen die Kosten zu sparen. Bei High-End Geräten ist es kaum von Bedeutung und nimmt nur einem minimalen Platzbedarf ein. Deswegen hat nVidia den NVIO-Chip mit Fermi auch wieder seingelassen. Das taten sie z.B. bei G92 auch, sowie allen kleineren Chips.

Coda

2011-10-07, 15:36:19

IO-Ausgliederung ist nur interessant, um bei Low-Cost Modellen die Kosten zu sparen.
Hä? Die hatten doch niemals NVIO.

Gipsel

2011-10-07, 16:15:20

Wie ist das eigentlich, werden heute nicht schon einzelne SMs des Chips deaktiviert als teil der Stromsparfunktion,
oder geht das aktuell rein über die Takt- und damit Spannungsabsenkung?!Bei teildeaktivierten Dies werden die deaktivierten Teile lediglich vom Taktsignal getrennt, Spannung liegt trotzdem an.
Ansonsten machen heutige GPUs überhaupt kein Powergating (okay, die Llano-iGPU kann es, aber das gehört hier nicht rein, wir reden hier über diskrete GPUs), das läuft alles über Clockgating sowie Takt- und Spannungsänderungen.

boxleitnerb

2011-10-07, 16:18:42

Dann wirds mal Zeit dafür. Ich verbrate hier 50W für nichts mit zwei Karten - das muss nicht sein. Könntest du bitte näher erläutern, was genau das Problem mit Powergating und dem 28nm TSMC Prozess ist?

Gipsel

2011-10-07, 16:23:12

Könntest du bitte näher erläutern, was genau das Problem mit Powergating und dem 28nm TSMC Prozess ist?
Ganz einfach, die können keine gescheiten Gating-Transistoren bauen.
Also welche, die bei annehmbarem Flächenbedarf sehr hohe Ströme mit minimalem Widerstand durchlassen.

LovesuckZ

2011-10-07, 17:01:38

Inwieweit wirkt sich das auf die ARM-SoCs aus? Powergating wird mit 28nm noch eine größere Rolle einnehmen, wenn man in höhrere Leistungsklassen will.

Gipsel

2011-10-07, 17:07:12

Inwieweit wirkt sich das auf die ARM-SoCs aus? Powergating wird mit 28nm noch eine größere Rolle einnehmen, wenn man in höhrere Leistungsklassen will.Da gatest Du aber selbst bei High-End-Versionen vielleicht maximal 5 Ampere (edit: also das kriegt man schon hin). Bei einer HighEnd-GPU in 28nm reden wir aber über 300+A, die durch die Gating-Transistoren wollen.

|MatMan|

2011-10-07, 19:20:18

Da gatest Du aber selbst bei High-End-Versionen vielleicht maximal 5 Ampere (edit: also das kriegt man schon hin). Bei einer HighEnd-GPU in 28nm reden wir aber über 300+A, die durch die Gating-Transistoren wollen.
Dann verbaut man eben ~60x mehr Transistoren fürs Powergating. Man hat doch auch ein ganz anderes Transitorbudget... wo ist da das Problem dabei?

|MatMan|

2011-10-07, 19:25:20

IO-Ausgliederung ist nur interessant, um bei Low-Cost Modellen die Kosten zu sparen. Bei High-End Geräten ist es kaum von Bedeutung und nimmt nur einem minimalen Platzbedarf ein.
Ich habe keinen IO-Chip gemeint sondern eine "richtige" low-end GPU welche Desktop und von mir aus auch Videobeschleunigung macht. Für die "fetten" Aufgaben wird dann die Highend-GPU angeworfen.

edit: sorry für 2 Posts...

Gipsel

2011-10-07, 20:50:10

Dann verbaut man eben ~60x mehr Transistoren fürs Powergating. Man hat doch auch ein ganz anderes Transitorbudget... wo ist da das Problem dabei?
GPUs sind nicht 60mal so groß wie ein SoC. Tegra2 als einer der kleineren mißt 49mm², Apples A5 bereits 122mm². Man hat also ein maximal 10mal so hohes Budget dafür. Wobei das Gating bei lowpower SoCs wahrscheinlich wichtiger ist und relativ eher mehr als Fläche kosten darf als bei einer Highend-GPU (und Powergate-Transistoren sind sehr groß).

LovesuckZ

2011-10-07, 21:28:45

Ich habe keinen IO-Chip gemeint sondern eine "richtige" low-end GPU welche Desktop und von mir aus auch Videobeschleunigung macht. Für die "fetten" Aufgaben wird dann die Highend-GPU angeworfen.

edit: sorry für 2 Posts...

GF118 ist ca. 75mm^2 groß und die kleinste Variante von Fermi mit einem 64bit Interface. Das sind 14% vom GF110 Die.

Es macht keinen Sinn. Der Aufwand ist wesentlich größer als der Ertrag.

|MatMan|

2011-10-08, 01:50:10

GPUs sind nicht 60mal so groß wie ein SoC. Tegra2 als einer der kleineren mißt 49mm², Apples A5 bereits 122mm². Man hat also ein maximal 10mal so hohes Budget dafür. Wobei das Gating bei lowpower SoCs wahrscheinlich wichtiger ist und relativ eher mehr als Fläche kosten darf als bei einer Highend-GPU (und Powergate-Transistoren sind sehr groß).
Naja man könnte sich ja auch irgendwo in der Mitte treffen. Ist eine Frage der Prioritäten. Für mich mich muss ne Highend-GPU ohnehin kein Stromsparwunder sein. Ich denke man könnte trotzdem etwas mittels Powergating tun - wenn auch nicht so extrem wie bei den SoCs.

GF118 ist ca. 75mm^2 groß und die kleinste Variante von Fermi mit einem 64bit Interface. Das sind 14% vom GF110 Die.

Es macht keinen Sinn. Der Aufwand ist wesentlich größer als der Ertrag.
Wie groß war denn NVIO? Ich denke der war zumindest in einem ähnlichen Bereich und das war auch wirtschaftlich...

Der "Ertrag" in meinen Augen wäre, dass man immer mehr in Richtung Co-Prozessor geht (als Add-In Board). Die neuen CPUs (außer Bulldozer) haben eh ne GPU, Tendenz steigend, also kann man sich die grundlegende OS Desktop Beschleunigung auch gleich sparen. Das kann auch ne Intel GPU. Halt wie Optimus in nem Laptop. Aber ist wohl zu früh bei Kepler...

LovesuckZ

2011-10-08, 02:18:13

Und da Optimus nur eine minimale Hardwareanpassung benötigt, ist Optimus der Weg und nicht ein extra Chip oder sonstige Umsetzungen.

|MatMan|

2011-10-08, 02:49:16

und wie sollte Optimus bei bei nem Bulldozer/Piledriver oder Phenom/Athlon funktionieren?

Nightspider

2011-10-08, 02:52:22

Was schätzt ihr wann die ersten TriGate Transistoren in HighEnd Grafikchips zu finden sein werden? Beim Fermi Refresh mit Sicherheit noch nicht aber 2013?

:confused:

Gipsel

2011-10-08, 03:14:18

und wie sollte Optimus bei bei nem Bulldozer/Piledriver oder Phenom/Athlon funktionieren?
Man benötigt schon einen Llano oder Trinity dafür (nur die haben eine Grafik-Ausgabe). Aber dann funktioniert es im Prinzip genauso wie Optimus mit der HD2000/3000 iGPU eines i3/i5/i7 oder dynamic switchable graphics mit HD2000/3000 bzw. der Llano- oder Trinity-iGPU.

Gipsel

2011-10-08, 03:19:28

Naja man könnte sich ja auch irgendwo in der Mitte treffen.In dem Fall gibt es keinen Kompromiß. Entweder könen die Powergate-Transen den Strom für die komplette GPU durchleiten oder sie können es nicht. Die Fähigkeit z.B. 50 A zu gaten, spart Dir vielleicht 20% idle Power. Das ist kaum den Aufwand wert.

Dural

2011-10-08, 09:18:46

Was schätzt ihr wann die ersten TriGate Transistoren in HighEnd Grafikchips zu finden sein werden? Beim Fermi Refresh mit Sicherheit noch nicht aber 2013?

laut intel doch erst in 4jahren :eek:

Skysnake

2011-10-08, 11:33:58

Ich glaub beim 16nm Prozess wollten die anderen Fertiger Tri-Gate auch bringen. Keine Ahnung, wann der kommt. so 3-4 Jahre dürften es etwa sein.

Spasstiger

2011-10-11, 23:16:25

Ich hab einen versteckten Hinweis auf Kepler-Specs gefunden: ORNL awards contract to Cray for Titan supercomputer (http://www.ornl.gov/info/press_releases/get_press_release.cfm?ReleaseNumber=mr20111011-00).
Der geplante Supercomputer Titan des Oak Ridge National Laboratory soll bis 2013 mit 18.000 Kepler-Tesla-GPUs ausgestattet werden.

Die Rede ist von 10 bis 20 Petaflops Peak-Rechenleistung (mit doppelter Präzision selbstredend) bei konfigurierten 7.000 bis 18.000 GPUs. Wenn man die CPU-Rechenleistung in allen möglichen Konfigurationen als konstant annimmt, dann ergibt sich ein reiner GPU-Anteil von 909 GFlops pro GPU und ein CPU-Anteil von insgesamt 3,64 Petaflops.
Zum Vergleich: Die Fermi-basierende Tesla M2090 bringt es auf 665 GFlops pro GPU. Damit wäre diese Kepler-Tesla-GPU nur 37% schneller als die schnellste Fermi-Telsa-GPU.

Die Pressemitteilung gibt aber noch mehr Infos her. So soll das System insgesamt über 299.008 Cores verfügen und ich nehme an, dass sich die Aussage auf den Vollausbau mit 18.000 GPUs bezieht. Nun muss man wissen, dass im HPC-Bereich bei Nvidia-GPUs nicht die CUDA-Cores als Cores bezeichnet werden, sondern die Streaming-Multiprozessoren. Eine Tesla M2090 wird mit 14 Cores angerechnet, da sie 14 Streaming-Multiprozessoren besitzt.
Ich rechne nun 299.008 Cores geteilt durch 18,000 GPUs (wobei ich die CPUs noch unterschlage), ergibt maximal 16 Cores pro GPU, also maximal 16 Streaming-Multiprozessoren.

Rechnet man die CPUs dazu, wirds aber ein wenig nebelös. Die Pressemitteilung erzählt uns noch, dass 16-Kern-CPUs zum Einsatz kommen sollen. Aus der Rechnung im zweiten Absatz wissen wir, dass die Gesamt-CPU-Rechenleistung bei 3,64 PFlops liegt. Nimmt man an, dass es wie bei den in Jaguar verwendeten Opterons bei 4 GFlops pro Core und GHz bleibt, wären das bei angenommenen 2-4 GHz Takt zwischen 128 und 256 GFlops pro CPU. Entsprechend bräuchte man zwischen 14.000 und 28.000 CPUs, um auf die 3,64 PFlops zu kommen. Passend zur Anzahl von GPUs nehmen ich 18.000 CPUs an. Dann hätte man das Core-Budget von 299.008 Cores aber schon alleine mit den CPUs fast erreicht. Evtl. erreichen die CPUs aber auch 8 GFlops pro Core und GHz, dann würden schon 9.000 CPUs reichen (2 GPUs pro CPU) und es blieben 8 Cores pro GPU übrig. 8 Streaming-Multiprozessoren acht aber auch nicht soviel Sinn, wenn man die Rechenleistung von 909 GFlops pro GPU kennt.

Was diese Erkenntnisse jetzt konkret für Kepler bedeuten, will ich angesichts der etwas widersprüchlichen Daten in diesem Posting nicht weiter erörtern. Vielleicht können wir ja noch ein paar Fakten zum neuen Supercomputer des Oak Ridge National Laboratory zusammentragen, um Licht ins Dunkel zu bringen.

LovesuckZ

2011-10-11, 23:28:42

Laut dem neuen Typen von nVidia sollen es ca. 20 Petaflops werden, wovon mehr als 85% von den GPUs bei gesteuert werden. Bei 18k Kepler-GPUs wären es ca. 944 GFlops pro GPU.

boxleitnerb

2011-10-11, 23:30:20

Wow, soviel Geschreibsel mit soviel im Nebel Herumgestochere. Und das nennst du "einen versteckten Hinweis auf die Kepler Specs"? Ich bitte dich, du bist Ingenieur/Wissenschaftler. Das geht auch besser ;)

Laut Roadmap soll sich die DP-Leistung/W grob verdreifachen. 900 vs 600 GF wären etwas mager, es sei denn die Dinger verbrauchen mind. 30% weniger Saft.

Spasstiger

2011-10-12, 02:37:37

Hab mich schlauer gemacht, Computerbase hat zwischenzeitlich auch eine News zu dem Thema online: http://www.computerbase.de/news/2011-10/interlagos-und-kepler-fuer-den-titan/.
Was ich beim Überfliegen der Pressemitteilung des ORNL übersehen hatte, war, das es sich bei den 16-Core-Prozessoren um AMDs Interlagos handelt, also einen Bulldozer-Ableger. Diese Prozessoren müssten 64 GFlops pro GHz an Peakrechenleistung haben, wenn ich die Bulldozer-Slides richtig interpretiere. Genau das hab ich aber auch schon in der Rechnung oben angenommen, ohne die genaue Architektur zu kennen. :wink:

Was ich oben auch nicht ganz realisiert hatte, ist, dass der neue Supercomputer "Titan" ein Upgrade von "Jaguar" darstellt und die Anzahl an Nodes gleichbleibt und somit weiterhin bei 18.688 liegt. Dies entspricht auch der Anzahl an Prozessoren, da nach dem Upgrade pro Node ein 16-Core-Interlagos von AMD zum Einsatz kommt. Mit den oben geschätzen 18.000 Prozessoren lag ich also auch nicht verkehrt.
Und somit gibt die genannte Core-Anzahl von 299.008 leider nur die CPU-Cores und nicht die GPU-Cores an. Somit sind auch keine Rückschlüsse auf die Anzahl an SMs in Nvidias Kepler möglich und ebenso wenig Rückschlüsse auf die Taktraten. :(
Da hat wohl ein NDA seitens Nvidia die Nennung der vollständigen Anzahl an Cores verhindert.

Bekannt ist jetzt lediglich, dass jede Kepler-GPU, die in Titan zum Einsatz kommen wird, irgendwo zwischen 900 und 950 GFlops an Peak-Rechenleistung (fp64) liefert.

Laut dem neuen Typen von nVidia sollen es ca. 20 Petaflops werden, wovon mehr als 85% von den GPUs bei gesteuert werden. Bei 18k Kepler-GPUs wären es ca. 944 GFlops pro GPU.
Ich hab den CPU-Anteil im Posting oben selbst ausgerechnet anhand der Angaben aus der Pressemitteilung des ORNL. Die von mir ermittelten CPU-seitigen 3,64 Petaflops würden runde 3 GHz für die Interlagos-Prozessoren bedeuten, was ja voll im Bereich des Wahrscheinlichen liegt. Wenn der CPU-Anteil 3,64 Petaflops von insgesamt 20 Petaflops ausmacht, dann liegt der GPU-Anteil bei 82% und nicht über 85%. Wobei das je nach Benchmark natürlich anders ausssehen kann, ich beziehe mich nur auf die Peakwerte.
Aber so oder so liegen unsere Zahlen nahe beieinander (909 GFlops vs. 944 GFlops).

Laut Roadmap soll sich die DP-Leistung/W grob verdreifachen. 900 vs 600 GF wären etwas mager, es sei denn die Dinger verbrauchen mind. 30% weniger Saft.
Ist nicht ungewöhnlich, relativ langsam getaktete GPUs im HPC-Einsatz zu verwenden, Energieeffizienz ist nicht unwichtig. Ist auch denkbar, dass z.B. aus Kostengründen gar nicht der Vollausbau von Kepler zum Einsatz kommt. Und man darf nicht vergessen, dass eine bestehende Anlage um immerhin 18.000 Grafikkarten erweitert wird. Eventuell hat die bestehende Infrastuktur des Gebäudes schon Grenzen gesetzt.
Die 900-950 GFlops kann man auf jeden Fall als gesichert ansehen, wenn sowohl die Angaben des ORNL als auch die Aussagen eines leitenden NV-Angestellten diese Zahlen stützen.
Nicht alles, was ich im obigen Posting geschrieben hatte, war Stochern im Nebel. Hatte auch vor dem Schreiben des Postings erstmal Rechnungen angestellt.

Gipsel

2011-10-12, 04:09:07

Ich hab einen versteckten Hinweis auf Kepler-Specs gefunden: ORNL awards contract to Cray for Titan supercomputer (http://www.ornl.gov/info/press_releases/get_press_release.cfm?ReleaseNumber=mr20111011-00).
Aaalt (http://www.forum-3dcenter.org/vbulletin/showthread.php?p=8875278#post8875278) und noch älter (http://www.forum-3dcenter.org/vbulletin/showthread.php?p=8874484#post8874484).;)

Dural

2011-10-12, 11:13:13

Die 900-950 GFlops kann man auf jeden Fall als gesichert ansehen....

512SP @ 1800MHz = ~920 GFlops DP

768SP @ 1200MHz = ~920 GFlops DP

1024SP @ 1000MHz = ~1020 GFlops DP

"gesichert" wie auch immer :wink:

Ich erwarte vom GK100 min. ~3700 SP / 1850 DP GFlops (1024SP @ 1800MHz) alles andere wäre schon
etwas entäuschend, gerade auf 28nm bezogen! OK Takt kann auch leichtes OC sein.

Gipsel

2011-10-12, 11:59:18

Ich erwarte vom GK100 min. ~3700 SP / 1850 DP GFlops (1024SP @ 1800MHz) alles andere wäre schon
etwas entäuschend, gerade auf 28nm bezogen!
Von Anfang August:
1,8TF in DP ist etwas sehr viel, meinst du nicht auch? :rolleyes:

Da müssten 1024SP ja schon mit rund 1800MHz takten um das zu erreichen :rolleyes:
:tongue:

Die 1,8 TFlop/s waren damals die (wahrscheinlich unrealistische) Maximalinterpretation aus den Daten. Die ~1,4 TFlop/s (+- ein bißchen natürlich) ist wohl die wahrscheinlichere Variante und paßt auch zu den 2,5 bis 3 mal höheren DP-GFlops/W (die 2050/2070er Teslas haben 515 GFlop/s, die höher GF110 basierten 2090er kann man da ja eher nicht heranziehen).

V2.0

2011-10-12, 12:08:34

Dural

2011-10-12, 12:28:23

Das war aber auf Tesla Bezogen, ich schreibe jetzt auf GeForce Bezogen :)

Und die Tesla werden nie 1,8 TFlops erreichen, sieht man ja auch schön am neuen Super Computer :)

boxleitnerb

2011-10-12, 12:37:10

Oder der Verbrauch sinkt und man gibt wie AMD mehr Augenmerk auf eine Dual-GPU-Karte fürs absolute High-End. Für Tesla-Anwendungen ist Flops/W teilweise wichtiger als die Anzahl der GPUs, die man dafür verwenden muss.

Hoffentlich macht man das nicht. Wen der Verbrauch stört, der nimmt eine kleinere Karte. Von Dualkarten halte ich rein gar nichts, da hab ich lieber ein hochgezüchtetes Monster mit einer GPU (250W, mehr sollte es dann nicht sein), mit dem man dann gescheit SLI machen kann.

Btw was für eine Speicherkonfiguration erwartet ihr für GTX 670 und 680 (wenn wir dem jetzigen Namensschema folgen)?

Dural

2011-10-12, 16:14:21

ich denke das sie bei 384Bit bleiben werden und die Speicherkontroller und ROP etwas überarbeiten (falls dies überhaupt möglich ist) um die Speicher Takt "schwäche" vom Fermi zu beseitigen.

An 512Bit / GDDR5 glaub ich ehrlich gesagt nicht, wäre schon Krass :eek: zudem für Dual GPU Karten 512Bit einfach zu viel sind :)

GTX680 hätte somit:

1,5 oder 3GB
1024SP
48ROPs
384Bit

GPU 800/1600MHz = 3280 SP GFlops
Speicher 2500MHz = 240 GB/s

boxleitnerb

2011-10-12, 16:18:23

Dann hoffe ich inständig, dass es 3GB gleich zu Release geben wird. Hab keinen Bock, nochmal 6 Monate auf mehr Speicher zu warten.

Dural

2011-10-12, 16:25:33

naja die Frage ist ja noch ob NV die Speicher Takt schwäche von Fermi ausbügeln kann, ich glaube nämlich nach wie vor nicht das es am Speicherkontroller selber liegt sondern andere teile die über den Speichertakt laufen (cache?!) dafür verantwortlich sind!

Wenn NV nichts an dem "problem" ändern kann, wird ihnen wohl oder übel so wie so nichts anderes möglich sein als 512Bit zu verwenden :rolleyes: = 2GB

Ailuros

2011-10-12, 16:35:01

Es werden schon 3GB beim top dog sein denn AMD wird mit 4 bzw. 2GB im high end spielen (nicht mGPU). Sonst sind fuer meine Gier die Erwartungen fuer Kepler zu schwach. Tesla ist eine schlechte Ausgangslatte zum spekulieren da die Dinger fehlerfrei 24/7 arbeiten muessen und daher die Frequenzen und Stromverbrauch stets ziemlich mager sind im Vergleich zum desktop und es kommt normalerweise auch eine Unmenge von zusaetzlichem Speicher dazu der auch etwas mehr Strom verbraucht.

Anders ich will zumindest 6 GPCs bei zumindest 800MHz sehen.

LovesuckZ

2011-10-13, 13:59:01

Steve Scott sagt:
The next-generation Kepler GPUs used in the Titan system will provide more than one teraflop of performance per chip
http://blogs.nvidia.com/2011/10/titan-supercomputer-points-the-way-to-exascale/

Ich bleib dabei: 100% mehr Leistung + 33% weniger Verbrauch = 3x Perf/Watt Verhältnis.

Spasstiger

2011-10-13, 17:00:14

Wenn NV von über 1 TFlops pro GPU ausgeht, dann liegt die Gesamtrechenleistung doch noch 5-10% über den genannten 20 PFlops, oder die Interlagos-CPUs takten mit deutlich unter 2 GHz.
Wahrscheinlich sollen die 20 PFlops nur eine grobe Hausnummer markieren und eigentlich sind es ~21 PFlops.

LovesuckZ

2011-10-13, 17:01:08

Es könnten auch einfach weniger GPUs sein. :D

Spasstiger

2011-10-13, 17:06:23

Es könnten auch einfach weniger GPUs sein. :D
In dem Punkt ist die Pressemitteilung des ORNL recht unmissverständlich.
7.000-18.000 konfigurierte GPUs bringen das System auf eine Peak-Rechenleistung von 10-20 GFlops. Wobei diese runden Zahlen annehmen lassen, dass man hier jeweils noch 10% Spielraum nach oben und unten hat.
Ich würde außerdem annehmen, dass es im Vollausbau nicht 18.000 GPUs sein werden, sondern 18.688. Eben eine GPU pro Node.
Den wirklich interessanten Punkt für den Thread, nämlich die Anzahl an GPU-Cores, verraten die Aussagen von Nvidia und des ORNL leider nicht.

/EDIT: Dass die Interlagos-CPUs mit unter 2 GHz takten, glaube ich übrigens aus dem Grund nicht, da die aktuell noch verbauten Six-Core-Opterons bereits mit 2,6 GHz takten. Und da man pro Node zwei Six-Cores durch einen Bulldozer-basierenden 16-Core ersetzt, sollte die Taktrate schon im selben Bereich bleiben oder sogar steigen, damit der Wechsel aus Performancesicht Sinn ergibt. Man könnte natürlich argumentieren, dass man die CPUs durch welche mit mehr Cores und weniger Takt ersetzt, um das System energieeffizienter zu machen, aber das dürfte in diesem Fall ein schwieriges Unterfangen werden. Die Investitionskosten in die neuen CPUs müssen ja auch noch reingeholt werden.

Gipsel

2011-10-13, 22:34:30

In dem Punkt ist die Pressemitteilung des ORNL recht unmissverständlich.
Eigentlich läßt es einigen Spielraum für Spekulationen.

Die Pressemeldung sagt z.B. auch, daß der Vertrag mit Cray Optionen enthält, die den Wert des Vertrages noch erhöhen können. Damit wird wohl auch eine Erhöhung der Leistung einhergehen.

Das ORNL weist auf seiner Titan Seite übrigens auch aus, daß die Zahl der Kepler GPUs noch nicht feststeht. Ende Juli hat ein Verantwortlicher vom ORNL in einem Interview (http://blogs.knoxnews.com/munger/2011/07/ornls-titan-could-become-30-pe.html) gesagt, daß es nur von der (noch unklaren) Finanzierung abhängt, wo man im Fenster von 10-30 PFlop/s dann letztendlich landen wird.
As for the size of Titan and its capabilities, Mason said that'll depend on Congress and the funding that becomes available.

"We think we can get to 30 (petaflops) when it's fully built up," he said. "Now how quickly we get there will depend on what happens in the budget discusions and so forth. But it'll be somewhere in the 10 to 30 petaflops (range), depending on the funding and how quickly we can populate these GPU slots."

Is it conceivable that Titan could become a 30-petaflops machine in 2012?

''It's all dependent on money," Mason said.
Und da nvidias Pressemeldung von "over 20 petaflops" spricht (und als maximum 18000 GPUs erwähnt), kommen so oder so über 1 TFlop/s pro Karte raus (die nvidia ja auch explizit behauptet).

Hier bin ich vollkommen bei LS, was die Interpretation angeht. Wahrscheinlich fehlt das Geld, um gleich alle GPU-Slots zu bestücken, so daß erstmal als Maximum 20 PFlop/s anvisiert werden. Bei Vollbestückung (und natürlich falls bei nvidia alles glatt läuft, was die angepeilten Taktraten angeht) könnte man dann sogar auf 30 PFlop/s kommen (Vielleicht nur knapp? Sind ja nur 18688 CPUs/GPUs statt den maximal möglichen 19200 in den 200 Racks). Ich habe ja schon vor einiger Zeit geschrieben, daß nv offenbar auf ~1,4 TFlop/s für die Kepler-Karten zielt.

Gipsel

2011-10-14, 11:17:32

Mit der Titan-Diskussion, die nichts zum Thema beiträgt, geht es hier (http://www.forum-3dcenter.org/vbulletin/showthread.php?t=515626) weiter.

Gipsel

2011-10-14, 14:00:15

Ach übrigens, aus einer Folie vom ORNL stammt dies:

http://www.abload.de/img/titan_nodefqr6.png

Ein 16Kern-BD mit mal konservativ angenommenen 2,3 GHz steuert übrigens 147 GFlop/s dazu bei.

LovesuckZ

2011-10-14, 14:17:50

2,3GHz ist doch eher die realistischere Zahl für Interlagos und 8 Module. Das wären dann wohl ca. 1400 GFLOPs für Kepler und damit >2x gegenüber 2090.

Gipsel

2011-10-14, 14:36:49

Sag' ich doch. ;)
Das "konservativ" meinte hier einen halbwegs sicheren Wert, ohne irgendwelche unwahrscheinlichen/abstrusen Annahmen. Insofern ist der natürlich realistisch.

boxleitnerb

2011-10-14, 14:38:18

Das lässt nicht unbedingt einen Schluss auf die SP-Leistung zu, richtig?

LovesuckZ

2011-10-14, 14:40:32

Wenn ich per Google suche, sind die 2,3GHz eher das höhste der Gefühle...

Das lässt nicht unbedingt einen Schluss auf die SP-Leistung zu, richtig?

Wenn nVidia bei 2:1 bleibt, dann wären es mindesten 2,8TFLOPs.

boxleitnerb

2011-10-14, 14:45:04

Gipsel

2011-10-14, 14:47:25

Wenn nVidia bei 2:1 bleibt, dann wären es mindesten 2,8TFLOPs.
Die theoretisch denkbare (unwahrscheinliche?) Maximalvariante wären GF104-artige SMs mit 1:3 Rate. Aber das dürfte vielleicht etwas groß werden (man bräuchte 1536 SPs, 32 SMs). Aber wer weiß? :rolleyes:

Edit: Mein bisheriger Tipp waren eigentlich eher SMs mit 64 SP-FMA-ALUs (und 1:2 wie bisher).

LovesuckZ

2011-10-14, 14:49:39

Die theoretisch denkbare (unwahrscheinliche?) Maximalvariante wären GF104-artige SMs mit 1:3 Rate.

Die Effizienz ist aber wesentlich schlechter gegenüber GF1x0 und es macht sich nicht in der Die-Größe bemerkbar.

Gipsel

2011-10-14, 15:03:14

Die Effizienz ist aber wesentlich schlechter gegenüber GF1x0 und es macht sich nicht in der Die-Größe bemerkbar.
Meinst Du die Effizienz bei DP-Berechnungen oder allgemein?
Das dürfte auch davon abhängen, was nv da so noch alles in den SMs umstellt.
Einfach mal als spontane Idee, man könnte sich beispielsweise denken, daß sie die SFUs irgendwie einsparen und ähnlich wie Cayman durch die Kopplung von 3 ALUs berechnen. Wenn man dazu die gleichen Mechanismen wie für DP nutzen könnte, stellt sich die Effizienzfrage vielleicht etwas anders.

LovesuckZ

2011-10-14, 15:20:20

Mir ist bis jetzt keine GF1x4 Konfiguration bekannt, die 1/3 DP-Berechnung erlaubt.
Die generelle Effizienz, also die Auslastung der Einheiten, ist jedoch geringer. Der Abstand zwischen GF110 und GF114 entspricht fast exakt dem Größenunterschied und deutlich mehr als es der Unterschied zwischen ALU/Tex-Verhältnis vermuten lassen würde.

Spasstiger

2011-10-14, 15:27:48

Ach übrigens, aus einer Folie vom ORNL stammt dies:

http://www.abload.de/img/titan_nodefqr6.png

Ein 16Kern-BD mit mal konservativ angenommenen 2,3 GHz steuert übrigens 147 GFlop/s dazu bei.
Ist die Folie noch aktuell? Wenn ja, dann kommt das tatsächlich hin mit den 1,4 TFlops für Kepler und dann wären auch die genannten 20 PFlops Gesamt-Peak-Leistung eher konservativ angesetzt für einen eventuellen Nicht-Vollausbau.

@boxleiternb: Es gibt auch Fälle, wo NV keine Stiche gegenüber AMD macht, wenn es um die SP-Rechenleistung geht. Siehe Bitcoin-Mining. Auch bei Spielen zeigen die Radeons mehr Reserven, wenn man sich an extreme Auflösungen (Eyefinity) ran macht. Dann überholt eine HD 6970 gerne mal die GTX 580.

boxleitnerb

2011-10-14, 15:31:49

@boxleiternb: Es gibt auch Fälle, wo NV keine Stiche gegenüber AMD macht, wenn es um die SP-Rechenleistung geht. Siehe Bitcoin-Mining.

Mir geht es nur um Spiele.
Das versteh ich ehrlich gesagt nicht:

Die Radeons haben mehr Pixel- und Texelleistung, mehr Rechenleistung und sind trotzdem langsamer im Schnitt. Bei den Geforces gabs auch noch eine Besonderheit der ROPs. Ob das so bleibt? Wäre es nicht effizienter, wenn es "aufgehen" würde? Wie ist das bei den Radeons?

Die Pixelfüllrate wird bei den Fermis nicht klassisch durch die ROPs limitiert (erst, wenn viel FP16 oder FP32 berechnet wird, da die ROPs hier zwei bzw. vier Takte benötigen), sondern durch die Anzahl der SMs. Daher erreicht die GTX 580 bei 772 MHz und 48 ROPs "dank" ihrer 16 SMs auch nur 24,7 GPix/s, denn ein SM kann pro Takt nur zwei Pixel verarbeiten (0,772 GHz * 16 SMs * 2 Pixel/Takt). Die "übrigen" ROPs können zB bei Kantenglättung in die Bresche springen, denn bei rechnerischen 37,1 GPix/s haben die noch genug Luft.

Das habe ich nicht geschrieben, ich meinte damit nur, dass eine gewisse Anzahl an ROPs keine Arbeit hat, da eben die Verarbeitung durch SMs limitiert. Die ROPs machen freilich das, was ROPs auch sonst machen. Würden die SMs die Arbeit der ROPs erledigen, bräuchte Fermi ja keine ROPs mehr :ugly:

Spasstiger

2011-10-14, 15:38:16

Die Radeons haben aber auch weniger Speicherbandbreite und ein schwächeres Architekturkonzept. Irgendwo muss man halt Kompromisse eingehen, wenn man einen derart viel kleineren Die als bei NV im gleichen Fertigungsprozess realisiert.
Die ROPs beim GF110 können mit AA voll ausgelastet werden. Ein GF110 schreibt nicht mehr als 32 Pixel pro Takt raus, da jeder SM nur einen Durchsatz von 2 Pixel pro Takt hat. Mit AA werden mehr als 32 ROPs benötigt, um 32 Pixel pro Takt rauszuschreiben, ohne AA nicht.

AnarchX

2011-10-14, 15:38:35

Die generelle Effizienz, also die Auslastung der Einheiten, ist jedoch geringer. Der Abstand zwischen GF110 und GF114 entspricht fast exakt dem Größenunterschied und deutlich mehr als es der Unterschied zwischen ALU/Tex-Verhältnis vermuten lassen würde.
Auf SM-Ebene soll ein GF104-SM 25% größer sein als ein GF100-SM, bei 50% mehr SP-Peak und 100% mehr Texel-Leistung.

Da der Texeldurchsatz um nur wohl nur ~10%* gesunken ist, kann man wohl annehmen das man bei Kepler auf "SMs" mit zwei Quad-TMUs setzt.

4,2 TFLOPs SP, wenn wohl möglich auch nur superskalar erreicht, wäre schon eine nette Steigerung. :D

*D3D Rightmark Tri + 16xAF (http://techreport.com/articles.x/19934/6)

boxleitnerb

2011-10-14, 15:42:39

Gipsel

2011-10-14, 15:43:50

Mir ist bis jetzt keine GF1x4 Konfiguration bekannt, die 1/3 DP-Berechnung erlaubt.Wir reden ja auch über Kepler/Maxwell in diesem Thread. ;)

Spasstiger

2011-10-14, 15:45:51

32 superskalare SMs wie bei GF104 fände ich jetzt fast ein wenig hochgegriffen. Das könnte recht eng werden mit unter 600 mm² in 28 nm.

170GB/s vs. 190GB/s...jetzt nicht die Welt.
Der Performanceunterschied in Spielen zwischen einer GTX 580 und einer Radeon HD 6970 ist abseits von Tessellation auch nicht viel größer.

boxleitnerb

2011-10-14, 15:49:19

32 superskalare SMs wie bei GF104 fände ich jetzt fast ein wenig hochgegriffen. Das könnte recht eng werden mit unter 600 mm² in 28 nm.

Der Performanceunterschied in Spielen zwischen einer GTX 580 und einer Radeon HD 6970 ist abseits von Tessellation auch nicht viel größer.

Limitiert überhaupt die Speicherbandbreite? Ich hab in Erinnerung, dass das eher nicht der Fall ist. Ich glaube, da ich hab dazu mal einen Test gesehen, aber ich weiß nicht mehr wo.

LovesuckZ

2011-10-14, 15:49:51

Wir reden ja auch über Kepler/Maxwell in diesem Thread. ;)

Ich weiß.

Ich erwarte von nVidia aber immernoch, dass sie schon mit Kepler eine Lösung ihres SP-Problems haben.

AnarchX

2011-10-14, 15:50:50

http://www.forum-3dcenter.org/vbulletin/showthread.php?t=493628
Eine unbeantwortete alte Frage: Sind SMs mit 2x DP und 1x SP, also DP:SP 1:1,5 möglich?

Spasstiger

2011-10-14, 15:52:16

Limitiert überhaupt die Speicherbandbreite? Ich hab in Erinnerung, dass das eher nicht der Fall ist.
Wenn ich es recht in Erinnerung habe, bringt bei einer HD 6970 dieselbe prozentuale Erhöhung des Speichertaktes deutlich mehr als bei einer GTX 580.
Von Limitieren kann bei einer HD 6970 nicht direkt die Rede sein, aber ich glaube, dass eine HD 6970 mit 384-Bit-Speicherinterface abseits von Tessellation fast durchweg schneller wäre als eine GTX 580.

http://www.forum-3dcenter.org/vbulletin/showthread.php?t=493628
Eine unbeantwortete alte Frage: Sind SMs mit 2x DP und 1x SP, also DP:SP 1:1,5 möglich?
Das Verhältnis läge bei 1:3, weil dp-Einheiten - sinnvoll realisiert - immer mindestens den doppelten sp-Durchsatz wie dp-Durchsatz haben. Bei GF104/GF114 liegt ja das Verhältnis bekanntermaßen bei 1:12 und selbst ohne künstliche Beschränkungen wäre es nur 1:6.

Gipsel

2011-10-14, 16:21:07

32 superskalare SMs wie bei GF104 fände ich jetzt fast ein wenig hochgegriffen. Das könnte recht eng werden mit unter 600 mm² in 28 nm.Deswegen sage ich ja auch, daß es vielleicht etwas groß wird (aber wie gesagt vereinfacht nv ja vielleicht auch etwas, wie z.B. die Wegrationalisierung der SFUs). Mein bisheriger Favorit ist eigentlich schon ziemlich lange 16 SMs mit jeweils 64 SPs (also 1024 insgesamt), ein glatter Faktor 2 bei der Rechenleistung, wo der Aufwand für die ganzen Crossbars für die Verteilung der Daten (skaliert deutlich schneller als linear mit der Anzahl der SMs) unter Kontrolle bleibt.Ich weiß.

Ich erwarte von nVidia aber immernoch, dass sie schon mit Kepler eine Lösung ihres SP-Problems haben.
Was meinst Du mit SP-Problem? Das Zurückliegen in der nominellen SP-Rechenleistung gegenüber AMD? Das Problem wird sich mit GCN sowieso abschwächen und eine 1:3-Rate würde sie dann wohl sogar nach vorne bringen.
http://www.forum-3dcenter.org/vbulletin/showthread.php?t=493628
Eine unbeantwortete alte Frage: Sind SMs mit 2x DP und 1x SP, also DP:SP 1:1,5 möglich?
Die Vorstellung bei GF100/110, daß ein Vec16-ALU-Block DP kann und der andere nicht, paßt nicht ganz zur Beschreibung der Funktionalität, die nvidia liefert (auch wenn Rys es so in dem Artikel schreibt). Es ist viel wahrscheinlicher, daß DP-Instruktionen die Resourcen von beiden Vec16-Blöcken gleichzeitig benutzen. Deswegen macht 1:1,5, also eine Kombination von 2 DP-fähigen und einem SP-fähiger ALU-Block in einem SM auch keinen besonderen Sinn. Und wie Spaßtiger schon schrieb, macht jede ordentlich entworfene DP-Einheit 2*SP praktisch for free. Und SP ist und bleibt wichtig.

LovesuckZ

2011-10-14, 16:27:34

Was meinst Du mit SP-Problem? Das Zurückliegen in der nominellen SP-Rechenleistung gegenüber AMD? Das Problem wird sich mit GCN sowieso abschwächen und eine 1:3-Rate würde sie dann wohl sogar nach vorne bringen.

Die Zuwachsrate von G80 -> GF110 ist zu gering. Vollkommen unabhängig von AMD ist das ein Problem, dass sie für die Zukunft lösen müssen.

Gipsel

2011-10-14, 16:38:20

Die Zuwachsrate von G80 -> GF110 ist zu gering. Vollkommen unabhängig von AMD ist das ein Problem, dass sie für die Zukunft lösen müssen.
Wenn Du bei G80 mal die "missing MULs" wegläßt (Fermis haben das Problem ja nicht), dann paßt es eigentlich gar nicht sooo schlecht. Fermi hat 4 mal mehr SPs als ein G80, also eigentlich genau das, was man für 2 Full-Node Shrinks erwarten könnte (okay, waren zweieinhalb).

Zum Vergleich, auf der ATI/AMD Seite steht von R600 bis Cypress zwar eine Steigerung um den Faktor 5 in der SP-Zahl (und hier waren es wirklich nur 2 Full-Node-Shrinks), allerdings fand bei nvidia zwischendurch auch eine deutlich stärkere Evolution der Geometriefähigkeiten statt (G80 lag noch bei der Hälfte eines R600). Sowas kostet natürlich auch, genau wie die (nicht gefallene) Entscheidung für 1:4 DP wohl noch ein paar Prozentpünktchen mehr SP-Leistung gebracht hätte.

LovesuckZ

2011-10-14, 16:43:36

G80 kam mit 1350MHz und hatte bei 480mm^2 einem Verbrauch von knapp weniger als 150 Watt. GF110 kommt mit ca. 1566MHz bei 520mm^2 und einem Verbrauch von 250Watt+.

Um die Recheneinheiten gegenüber GT200 zu verdoppeln, mussten sie die Textureinheiten wieder auf 64 zurückfahren* (G80 Niveau) und die Pixelleistung einschränken. Ich sehe da ein riesiges Problem, dass die Erhöhung der SP-Rechenleistung nur durch immensen Aufwand zur Zeit vorangetrieben werden kann.

*Natürlich können wir die Schuld auch dem neuen FrontEnd zu schieben. :D

AnarchX

2011-10-14, 17:16:03

Erwartest du wohl noch 20 TFLOPs für 2013 (http://www.forum-3dcenter.org/vbulletin/showthread.php?p=6744107#post6744107)? :D

LovesuckZ

2011-10-14, 17:26:33

2014 soll Maxwell kommen und ein 15x faches besseres Perf/Watt bei DP zu Fermi bieten. Das wäre nach dem Bild auch der einzige Bereich, wo man annährend dran wäre...

boxleitnerb

2011-10-14, 17:32:05

Was ist eigentlich daraus geworden?
http://www.forum-3dcenter.org/vbulletin/showthread.php?p=7408986#post7408986

Gabs davon auch mal was in Bewegung?

AnarchX

2011-10-14, 17:33:53

2014 soll Maxwell kommen und ein 15x faches besseres Perf/Watt bei DP zu Fermi bieten. Das wäre nach dem Bild auch der einzige Bereich, wo man annährend dran wäre...

Mit der oben genannten vernünftigen SP-Umsetzung wären das ja fast 20 TFLOPs.

Dally hatte die Projektion später noch korrigiert: 20 TFLOPs @ 11nm 2015 (http://www.forum-3dcenter.org/vbulletin/showthread.php?p=7445960#post7445960).

Was ist eigentlich daraus geworden?
http://www.forum-3dcenter.org/vbulletin/showthread.php?p=7408986#post7408986

Gabs davon auch mal was in Bewegung?
Wohl nur ein paar Offline-Render-Bilder wo das NV-Logo eingefügt wurde.

boxleitnerb

2011-10-14, 17:39:52

LovesuckZ

2011-10-14, 17:44:31

Mit der oben genannten vernünftigen SP-Umsetzung wären das ja fast 20 TFLOPs.

Dally hatte die Projektion später noch korrigiert: 20 TFLOPs @ 11nm 2015 (http://www.forum-3dcenter.org/vbulletin/showthread.php?p=7445960#post7445960).

Selbst mit 20 TFlops im Jahr 2015 müsste man massiv viel verändern. Geht man davon aus, dass Kepler irgendwo bei 3,0 TFlops aussteigt, müsste man in 3 Jahren 17 TFLOPs finden...

Gipsel

2011-10-14, 17:51:57

Selbst mit 20 TFlops im Jahr 2015 müsste man massiv viel verändern. Geht man davon aus, dass Kepler irgendwo bei 3,0 TFlops aussteigt, müsste man in 3 Jahren 17 TFLOPs finden...
Logaritmische Skalen passen bei sowas traditionell besser. ;)
Geht man von 1024SPs bei Kepler aus und den 2,5 Fullnode-Shrinks zwischen 28nm und 11nm, kommt man schon mit dem simplifiziertem Skaling auf erwartbare 5,66 fache SP-Zahl in dem Prozeß, also knapp 6000. 2 Flops/SP und einen Takt in etwa in heutigen Regionen (~1,7 GHz Shadertakt) reichten dann schon aus, um auf 20 TFlop/s zu kommen (allerdings dürften wir 2015 keine 11nm GPUs sehen).

AnarchX

2011-10-14, 17:55:05

2014 soll Maxwell kommen und ein 15x faches besseres Perf/Watt bei DP zu Fermi bieten. Das wäre nach dem Bild auch der einzige Bereich, wo man annährend dran wäre...
Eine Korrektur:
Er soll ~15 DP GFLOPs pro Watt (http://www.forum-3dcenter.org/vbulletin/showthread.php?p=8281445#post8281445) bieten: 3,7 TFLOPs DP und 7,4TFLOPs SP bei 250W.
Dafür braucht es etwa 2048SPs.

Mit 10nm(?) kann man diese Zahl wohl verdoppeln und 3D-Transistoren erlauben vielleicht eine größeren Taktsprung in Zukunft..

Zurück zu Kepler:
Ob man hier noch mit den 4 GPC und 16 Geometrie-Einheiten (mit eventuell kleinen Optimierungen) auskommen kann, während man die SMs eben auf 64 SPs und 8 TMUs aufbohrt?

LovesuckZ

2011-10-14, 17:59:23

Und der Stromverbrauch? Der Taktunterschied zwischen 8800GTX und GTX580 liegt auch bei nur 200MHz bei einem im Worst-Case fast doppelt so hohem Stromverbrauch.

Eine GTX460 hat 907GFlops bei einem Verbrauch von 150 Watt. Eine 8800GTX kommt auf 345,6GFlops bei 150 Watt. Das ist ein Anstieg von weniger als 3x im selben Powerbudget.

Genau das meine ich mit SP-Problem. Ohne eine Lösung, wird ein weiterer Anstieg in Zukunft nicht möglich nur unter riesigen Anstrenungen möglich sein. Außer man möchte mit einer SingleGPU die 350 Watt grenze im Durchschnitt durchbrechen...

AnarchX

2011-10-14, 18:02:59

Muss eben aus der Grafikkarte eine externe Grafikbox mit >500W Powerbudget werden. :ulol:

Spasstiger

2011-10-14, 18:05:29

Schade. Ein gescheites Shaderantialiasing wäre langsam mal angebracht. Aber der Trend geht ja leider zu FXAA und Co. Erwartet ihr da für Kepler irgendwas Neues oder nur bekannte Modi, halt schneller?
Shader-AA muss die Anwendung realisieren und das geht heute schon. Die Spieleentwickler opfern aber offenbar nicht gerne Performance für AA.

boxleitnerb

2011-10-14, 18:09:47

Den Entwicklern das zu überlassen ist keine gute Idee. Aus Zeit/Geld/Performancegründen oder Desinteresse wird da meist nichts gemacht.

Deshalb hätte ich lieber was im Treiber, was effizienter ist als Downsampling oder SGSSAA. FXAA ist in Bewegung oft nicht zu gebrauchen und beruhigt kaum - das kann keine Lösung sein.

Gipsel

2011-10-14, 18:12:13

Zurück zu Kepler:
Ob man hier noch mit den 4 GPC und 16 Geometrie-Einheiten (mit eventuell kleinen Optimierungen) auskommen kann, während man die SMs eben auf 64 SPs und 8 TMUs aufbohrt?
Das hatte ich jetzt schon mehrfach als durchaus machbare Möglichkeit erwähnt. :wink:

Ailuros

2011-10-15, 00:23:34

Zurück zu Kepler:
Ob man hier noch mit den 4 GPC und 16 Geometrie-Einheiten (mit eventuell kleinen Optimierungen) auskommen kann, während man die SMs eben auf 64 SPs und 8 TMUs aufbohrt?

Mir sind 6 GPCs (4SMs/GPC, 4*16/SM) mit 4 TMUs/SM eigentlich lieber. Da ich aber leider bis jetzt nichts handfestes habe, ist es nur Wunschdenken.

Skysnake

2011-10-15, 02:19:31

Hm, das wäre in etwa doppelt soviel wie bei einer GTX480 und etwa auf HD6970 Level. Ich frage mich warum Nvidia hier mit halber SP-Leistung den Radeons trotzdem die Butter vom Brot nimmt. Sind letztere derart ineffizient? Die Frage ist auch, wie oft/stark limitiert die Rechenleistung in heutigen Spielen im Gegensatz zu Pixel/Texeldurchsatz/Speicherbandbreite.
Die haben größere Caches, wobei der L1 Cache, sogar ein echter Cache ist, weil für den Programmierer transparent, dann haben Sie das breitere Speicherinterface zum RAM, was auch einiges bringt. Das sind halt die entscheidenden Punkte. Bei "vielen" Anwendungen bekommst du einfach nicht schnell genug die Daten zu den ALUs. Oft musst du ein Datum, dass du in den Cache geladen hast, mindestens 8-20 mal verwenden, bevor du wieder in den RAM schreibst/neu lädst, ansonsten geht die Performance in den Keller, weil du einfach keine neuen Daten da hast.

DAS ist das Hauptproblem von GPU und gerade von AMD. Brachiale Rohleistung, aber in vielen fällen verhungern die ALUs einfach :(
Bei Brutforce-Sachen kann AMD dann aber perfekt ihre Rohleistung ausspielen, und auch einige Erweiterungen nutzen, die nVidia nicht hat. Bei Brutforce hast du normal halt SEHR wenig Kommunikation. Damit sind die Bandbreiten zu den ALUs kein Flaschenhals, und du bekommst die volle Leistung raus :biggrin:

Kleines Beispiel:
letztes Semester, Matrikmultiplikation auf einer GTX460 mit 1GB RAM.
Triviale Herangehensweise, wie man es von der CPU-Programmierung gewohnt ist. -> 8 GFLops glaub waren es
Submatrix verwendet, um Datenlokalität zu erhöhen->maximum war glaub 100 GFlops
Submatrix+eine fixe Submatrix+Datenparallelität innerhalb des Threads-> ~190GFLops

Das war dann auch das Maximum, das ich raus bekommen habe. Ansonsten hatte ich keine Idee mehr, wie ich die Sache hätte noch weiter beschleunigen können. Den L2 hätte ich noch explizit verwenden können, indem ich halt einmal die Sachen lade, bis der fast voll läuft, und dann dort Permutationen drauf durchführe und eben danach dann nur die nicht fixe Submatirx aus dem RAM nachlade. Damit hätte man wahrscheinlich nochmals eine Vordoppelung der Rechenleistung hin bekommen schätze ich. Man ist halt 100% Bandbreiten limitiert. Man bekommt das an Flops hin in dem Bsp. was man an Bandbreite schafft, um die Daten zu den ALUs zu bringen. :freak:
Den Aufwand, der dafür aber nötig gewesen wäre, willst du dir nicht vorstellen, ich hab allein für die ~190 GFlops fürs gesamte Programm und debugging etc. gut und gerne 40-50h versenkt -.-
Für eine nochmalige Verdoppelung wären es wahrscheinlich nochmal so viele geworden, bis es fehlerfrei gelaufen wäre. Vielleicht aber auch weniger, bin an ein paar Fehler gehangen, die unlogisch waren, und in der Doku auch nicht dokumentiert.... *kotz

Limitiert überhaupt die Speicherbandbreite? Ich hab in Erinnerung, dass das eher nicht der Fall ist. Ich glaube, da ich hab dazu mal einen Test gesehen, aber ich weiß nicht mehr wo.
Siehe oben ;)

Ja die limitiert. Rechne dir doch einfach mal aus, wieviele Daten du lesen musst, um 1 TFlop/s Berechnungen in SP durch zu führen, und dann vergleiche das mal mit den Bandbreiten von Memory und Cache ;)

Deswegen sehe ich auch den "Wahn" von immer mehr Flops als sehr kritisch an. Das Speicherinterface ist jetzt schon viel zu klein... Da muss deutlich aufgebohrt werden. Bei den Caches genau so. Bei AMD noch VIEL mehr als bei nVidia, aber auch die müssen noch weiter die Caches auf bohren, ansonsten verhungern die ALUs, und man gewinnt in sehr viele Anwendungen einfach nichts dazu....

Ich hätte ja gern stacked RAM auf der GPU :biggrin: so mit dem 1024 Bit Interface, oder gleich 2048 und schön hohen Taktraten ;D

boxleitnerb

2011-10-15, 08:17:48

Thx für die ausführliche Erklärung. Ich bezog mich allerdings hauptsächlich auf Spiele. Dass hier Speichertakterhöhung gleichviel oder mehr bringt als Chiptakterhöhung wage ich zu bezweifeln. Jedenfalls habe ich das bei Nvidia soweit ich mich erinnere nicht gesehen.
Ich kann wenn ich lustig bin mal selbst einen Test machen, aber ich schätze, der Speichertakt wird einen recht geringen Einfluss auf die Performance haben.

Skysnake

2011-10-15, 10:30:24

Wayne Spiele?

Jetzt nicht falsch verstehen, aber weder nVidia noch AMD sehen an Games noch ein "großes" Interesse. Gamer sollen die Dinger auch kaufen, damit man Geld verdient und einfach die Stückkosten gering halten kann, weil man die Fixkosten aus Entwicklung etc. auf eine größere Stückzahl von Karten verteilen kann, aber primär für die Gamer wird seit der letzten Generation schon nicht mehr entwickelt.

Das ist inzwischen mehr oder weniger ein Abfallprodukt, was halt mit bei raus kommt. Bedanke dich bei den Konsolen. Du brauchst keine der neuen Karten. Das haben AMD und nVidia begriffen, daher gehen Sie auch einen etwas anderen Weg und erschließen sich neue Märkte. Ganz einfach deswegen, weil dort gutes Geld zu verdienen ist. Aber auch nur, wenn der Gamer-Markt bestehen bleibt! Der bringt nämlich die riesigen Stückzahlen. Alles andere ist halt die Sahne oben drauf, die man sich halt abschöpft.

Ohne diese "Sahne" für die man natürlich so einiges tun muss, wären die Karten kleiner, billiger und weniger Stromhungrig...

boxleitnerb

2011-10-15, 10:47:54

Das ist ja alles schon einleuchtend, aber wie gesagt, mich interessieren nur Spiele und was es braucht, um dort mehr Performance zu erreichen. Und ich denke, damit bin ich hier im Forum nicht allein :)

LovesuckZ

2011-10-15, 11:42:06

Wayne Spiele?

Huang, interessierts.

Jetzt nicht falsch verstehen, aber weder nVidia noch AMD sehen an Games noch ein "großes" Interesse. Gamer sollen die Dinger auch kaufen, damit man Geld verdient und einfach die Stückkosten gering halten kann, weil man die Fixkosten aus Entwicklung etc. auf eine größere Stückzahl von Karten verteilen kann, aber primär für die Gamer wird seit der letzten Generation schon nicht mehr entwickelt.

Stimmt. Also wenn wir GPU-PhysX, AA, AF, das verbesserte Front-End, die CS-Implementierung sowie die extra für Gamer ausgerichteten ab GF104 Chips... ignorieren, dann wird wirklich nicht primär für Gamer entwickelt.

Das ist inzwischen mehr oder weniger ein Abfallprodukt, was halt mit bei raus kommt. Bedanke dich bei den Konsolen. Du brauchst keine der neuen Karten. Das haben AMD und nVidia begriffen, daher gehen Sie auch einen etwas anderen Weg und erschließen sich neue Märkte. Ganz einfach deswegen, weil dort gutes Geld zu verdienen ist. Aber auch nur, wenn der Gamer-Markt bestehen bleibt! Der bringt nämlich die riesigen Stückzahlen. Alles andere ist halt die Sahne oben drauf, die man sich halt abschöpft.

Yeah, genau. Deswegen richtet nVidia zur Zeit auch die Geforce-Lan zu Ehren von Battlefield 3 auf einem US-Schiff aus. :freak:

Ohne diese "Sahne" für die man natürlich so einiges tun muss, wären die Karten kleiner, billiger und weniger Stromhungrig...

Jap, weil die Karten Abfallprodukte für den HPC-Markt sind. Jeder Blinde erkennt, dass die Karten mehr Umsetzungen für Grafik bieten als für Berechnungen.

Ehrlich, solche Postings kannst du dir in diesem Forum sparen. Wir studieren vielleicht nicht, aber wir können 1+1 zusammenzählen. Huang hat klar gesagt: nVidia wird immer für Gamer Produkte produzieren. Wer anderes behauptet, lügt.

Skysnake

2011-10-15, 12:12:31

Erzählen kann man viel, wenn der Tag lang ist.

In den GF und noch mehr in den GK Karten steckt aber verdammt viel, was für Gamer absolut wayne ist.

Allein der ECC-Support. Das kostet einiges an Logik. Dann die Sache mit dem Cache, der dann auch noch variabel in der Zuteilung zwischen private und shared ist.

So was braucht du einfach NICHT fürs gamen. Wenn du wirklich ne reine Gamer-Karte haben wollen würdest, würde da so manches raus fliegen. Gerade die Caches könnten wohl zu einem guten Teil anders aussehen.

Wenn ich wirklich ne reine Gamer-Karte bauen würde, würde ich z.B. eine surjektive Abbildung der Auflösung auf die SIMDs machen. Am besten sogar bijektiv. Dann entsprechend den Filtern, die man sich so vorstellen kann die Caches über die SIMDs verteilen bzgl. der Zugriffsmuster/Zugriffsmöglichkeiten.

Da würdest du sehr sehr sehr viel sparen. Für andere Sachen als reine Grafikausgabe könnteste das Ding aber nur noch schwerlich gebrauchen. Da ist selbst die HD4k/5k/6k Serie deutlich geeigneter von den Strukturen her.

Inputlag etc. wäre da auch dann alles kein Problem. Willste mehr Auflösung, dann nimmste mehr Karten :ugly: Man müsste halt das ganze Frontend nochmals massiv aufbohren, aber wenn man auf alles außer Grafikausgabe nen feuchten Furz gibt, dann gibt es da schon sehr viele andere Möglichkeiten.

Meiner Meinung nach sollte das dann auch "recht" effizient arbeiten. Zumindest wäre ne gute Skalierbarkeit für mehr Auflösung drin.

Naja, wobei man eigentlich dann auch direkt Raytracing machen könnte, wenn man die Sache so aufgelegt hat. Macht eigentlich mehr Sinn. Man hat ja schon so viel Aufwand betrieben. Mit der Zuordnung würde man pro SIMD dann einfach die Strahlverfolgung machen. Dort müsste man allerdings dann die Caches anders strukturieren, da man ja auf jeden Datensatz zugreifen können muss. Sollte aber durch Clusterung auch lösbar sein. Man kann da ja schön tweaken, da man a priori festlegen kann, wie viele Ablenkungen der Strahl haben darf. Dementsprechend kann man die Latenzen dann auslegen und super verstecken. So was geht dann aber verdammt in die Richtung FixFunctionUnit.

Kurz um. Klar, die Sachen kann man fürs Gamen benutzen, und man schaut auch darauf, das die Gamer die Karten kaufen, schmiert ihnen also Honig ums Maul, die sollen ja die großen Stückzahlen abnehmen, ohne die es halt nicht geht. Würde man aber wirklich den HPC-Bereich als Abfall des Gamer-Bereichs sehen, und nicht umgekehrt, erst mal für HPC entwickeln und dann das dementsprechend anpassen, damit die Gamer auch ihren Anteil bekommen, dann würden die Karten sehr viel radikaler ausgelegt sein. Es ist ja nicht negativ gemeint für die Gamer. Die leben doch ganz gut mit dem was Sie bekommen. Sie können halt vieles auch irgendwie einsetzen, und werden bei den FFUs ja auch bedacht. Die könnte man ja auch einfach weglassen. Sie könnten aber VIEL mehr haben, wenn Sie uneingeschränkte Bedeutung hätten.

Es ist halt folgende Entscheidung:
-Machen wir ne HPC Karte, mit einigen Gamer-Erweiterungen, mit denen alle leben können
-Machen wir ne reine Gamer Karte die so OMFG owesame ist und alles weg rockt, aber dafür für nichts anderes zu gebrauchen ist.

Jetzt rate mal, für was sich der Hersteller entscheidet ;)

LovesuckZ

2011-10-15, 12:40:48

Erzählen kann man viel, wenn der Tag lang ist.

In den GF und noch mehr in den GK Karten steckt aber verdammt viel, was für Gamer absolut wayne ist.

Achso. Und das macht die Grafikkarten also zum Abfall-Produkt für den Gaming-Markt, weil 10-20% des Dies für die Beschleunigung von anderen Aufgabengebieten verwendet werden, wo auch einiges als Synergie rüberschwabt? Wow.

Allein der ECC-Support. Das kostet einiges an Logik. Dann die Sache mit dem Cache, der dann auch noch variabel in der Zuteilung zwischen private und shared ist.

Der ECC-Support wird kaum was gekostet haben und ist im OffChip-Bereich auch nur sehr rudimentär.
Das Cachesystem ist der Grund, um Tessellation überhaupt in dieser Geschwindigkeit abarbeiten zu können. Gleichzeitig hilft es Fluid-Simulationen zu beschleunigen wie man sie in Dark Void oder auch Alice per GPU-PhysX gesehen hat. Vergessen ist auch nicht Raytracing, selbst wenn es heute mehr für den Workstation gilt als für den Gamer.

So was braucht du einfach NICHT fürs gamen. Wenn du wirklich ne reine Gamer-Karte haben wollen würdest, würde da so manches raus fliegen. Gerade die Caches könnten wohl zu einem guten Teil anders aussehen.

Was passiert, wenn man Tessellation mit einem veralterten Cache-System abarbeiten will, zeigt eindrucksvoll AMD. Du solltest deine Argumentationskette mal ein bisschen überdenken.

Wenn ich wirklich ne reine Gamer-Karte bauen würde, würde ich z.B. eine surjektive Abbildung der Auflösung auf die SIMDs machen. Am besten sogar bijektiv. Dann entsprechend den Filtern, die man sich so vorstellen kann die Caches über die SIMDs verteilen bzgl. der Zugriffsmuster/Zugriffsmöglichkeiten.

Da würdest du sehr sehr sehr viel sparen. Für andere Sachen als reine Grafikausgabe könnteste das Ding aber nur noch schwerlich gebrauchen. Da ist selbst die HD4k/5k/6k Serie deutlich geeigneter von den Strukturen her.

Doof nur, dass GPGPU auch im Gamermarkt von immer stärkeren Interesse wird. :freak:
Aber nach deiner Meinung wäre G80 auch nur ein Abfallprodukt für Gamer gewesen, weil nVidia ab hier auch den HPC-Markt in den Fokus nahm.

Kurz um. Klar, die Sachen kann man fürs Gamen benutzen, und man schaut auch darauf, das die Gamer die Karten kaufen, schmiert ihnen also Honig ums Maul, die sollen ja die großen Stückzahlen abnehmen, ohne die es halt nicht geht. Würde man aber wirklich den HPC-Bereich als Abfall des Gamer-Bereichs sehen, und nicht umgekehrt, erst mal für HPC entwickeln und dann das dementsprechend anpassen, damit die Gamer auch ihren Anteil bekommen, dann würden die Karten sehr viel radikaler ausgelegt sein. Es ist ja nicht negativ gemeint für die Gamer. Die leben doch ganz gut mit dem was Sie bekommen. Sie können halt vieles auch irgendwie einsetzen, und werden bei den FFUs ja auch bedacht. Die könnte man ja auch einfach weglassen. Sie könnten aber VIEL mehr haben, wenn Sie uneingeschränkte Bedeutung hätten.

Ich check hier überhaupt nichts. Du erzählst, es handle sich hier um im Grundsatz einer HPC-Karte und sagst dann, dass nVidia fleißig Fläche für Techniken opfert, die dem Gamer zu gute kommt?! :confused:

Es ist halt folgende Entscheidung:
-Machen wir ne HPC Karte, mit einigen Gamer-Erweiterungen, mit denen alle leben können
-Machen wir ne reine Gamer Karte die so OMFG owesame ist und alles weg rockt, aber dafür für nichts anderes zu gebrauchen ist.

Und beides ist nicht Fermi. Was nun? Es ist erstaunlich, dass man nicht sieht, dass die Mehrheit der Fläche von Fermi für Grafik(berechnung) draufgeht. Wie man dann von einer "HPC Karte" sprechen, ist mir nicht nur unbegreiflich, sondern auch befremdlich. Als ob Recheneinheiten nur für den HPC-Markt von Bedeutung wären...

Jetzt rate mal, für was sich der Hersteller entscheidet ;)

Den Fermi-Weg. Ein Sorglospaket für jeden Bereich. Es ist erstaunlich, dass jemand denkt, dass nVidia es sich erlauben dürfte, ein Großteil der Fläche für einen $100 Millionen Jahresumsatz auszugeben, wenn sie das meiste Geld mit Gamerprodulten verdienen. Und selbst der Umsatz im Workstationmarkt fast 3x so hoch liegt.

Dural

2011-10-15, 13:16:57

LovesuckZ

2011-10-15, 13:48:10

Gerade auch die punkte die für den HPC-Markt wichtig sind, sind auch für Gamer von Vorteil :rolleyes:

Klar ECC gehört da nicht dazu, aber viele andere Sachen wie Cache usw.
Gerade profitiert auch zb. GPU PhysX extrem durch die HPC-Markt Entwiklung.

Die wenigen Sachen die in Kepler drin sind die für Gamer völlig uninteressant sind, haben so wie so bei einem 5 Milliarden + Chip keine relevante Auswirkung :wink:

Vorallem hat nVidia schon angekündigt, dass die Geforce-Kepler Karten als erste erscheinen werden.

Und wenn nVidia den Gaming-Markt einzig allein als Abfallproduktmarkt ansieht, scheint man sich ja anscheinend viel zu viel Mühe zu machen:
http://www.youtube.com/watch?v=8zq4ktun5e8

Skysnake

2011-10-15, 15:07:38

LovesuckZ, du musst unterscheiden zwischen:

Ist nicht schlecht für...

und

Ist die Optimale Lösung für...

Viele Sachen die für den HPC-Bereich eingebaut werden, nimmt man halt mit, aber nur für den Gamer Markt würde man die Sachen wohl kaum einbauen. Grad die ganzen Phys-X Sachen, sind doch zu einem großen Teil einfach auch nur deswegen entstanden, weil man halt die Möglichkeit hat. Aber wie man an AMD sieht, kann man auch SEHR gut ohne leben. Phys-X wurde von nVidia halt mit Gewalt in den Markt gedrückt.

Was ist daran so schwer zu verstehen, das eine reine Gamer-GPU sehr wahrscheinlich ziemlich anders aussehen würde. Man geht halt Kompromisse ein, und da der GAmer-Markt relativ "anspruchslos" ist, tut es auch nicht so weh, wenn man da Sachen mit einbaut, die man eigentlich nicht brauch.

Und ECC frisst einiges, das sollte man nicht unterschätzen. Von IEEE konformem DP mal ganz zu schweigen. Wenn man sich da auf SP und dann am Besten noch nicht IEEE konform beschränken würde, dann würde das schon einiges an Luft geben. Auch So manche Sachen wie trigonometrische Funktionen etc. etc. könnte man sicherlich weg lassen.

Wenn man etwas einbaut, was man nicht zwingend brauch, ist es ja nicht nur so, das man Platz verschwendet, nein es nimmt einem Sogar Platz weg, mit dem man andere Sachen besser routen könnte, kleinere Chips fertigen könnte, was wieder bessere Yealds/Ausbeute_pro_Wafer bedeutet, was niedrigere Fertigungskosten usw. bedeutet.

Es ist halt immer eine Gradwanderung. Die Gamer darf man nicht enttäuschen, wegen den großen Stückzahlen, ohne die man die Entwicklungskosten nicht rein bekommt. Aber nur auf DIE sich zu fokusieren, ist halt auch hirnrissig, weil die Anforderungen stagnieren. Im Markt tut sich da kaum etwas. Man muss sozusagen das Rad neu erfinden, und mit GPGPU-Computing hat man dies eben getan, und dort lässt sich halt richtig gut die Sahne Abschöpfen. Allein kann man davon nicht leben, aber wenn man sich nicht blöd anstellt, und darauf optimiert, kann man den Gamer-Markt noch immer zufrieden stellen, die haben ja eh nichts besseres, und gleichzeitig die Entwicklung blockierende Konsolen am Hals, aber im HPC Bereich hat die GPU die CPU als Konkurrenz, und auch die FPGAs. Gegen die müssen die sich durchsetzen, und wenn Sie das nicht schaffen, sind Sie halt weg vom Fenster.

Daher muss man dem Markt eben das geben, was er will, zumal dieser Markt eben relativ genau weiß, was er will, wobei es eher zutreffend ist, zu sagen, er weiß, was er NICHT will.

Also, wo leg ich meinen Fokus?

Da wo es drum geht, ob ich überhaupt verkaufe oder gar nicht, oder dort, wo ich so ziemlich egal, was ich bringe eh verkaufen werde, da ich eben eine gewisse Grundleistung durch die Entwicklung bekomme, auch wenn es bei weitem nicht das Effizienteste ist.

AMD und nVidia verfolgen beide die gleiche Marschrichtung. Da kann keiner einfach ausreißen und etwas komplett anders machen. Ne GPU, die Raytracing bringt, das absolut tauglich ist fürs gamen, würde gnadenlos unter gehen, einfach weil die Hersteller sich dann auf eine neue Architektur festnageln müssten, die halt inkompatibel zu allem anderen auf dem Markt wäre. Selbst als überlegender Standard, würde sich die Sache einfach nicht durch setzen, weil die Software fehlt.

So ein Risiko geht keiner ein. Bevor Intel nicht meint mit RAytracing in den Markt zu gehen, und richtig die Taschen für die Entwickler zu öffnen, wird sich Raytracing nicht etablieren. Die Chance, das es schief geht, ist einfach viel zu groß, und dann wäre egal ob AMD oder nVidia einfach Pleite. Die haben nämlich nicht einfach nahezu unbeschränkte Finanzmittel wie Intel dies quasi hat. Intel traue ich zu, dass die doch noch versuchen werden Raytracing durch zu bocken, und ein eventuelles Scheitern zu überleben. Bei allen anderen, die dies versuchen, gehe ich davon aus, dass die das nicht überleben werden, wenn es scheitert, oder sich auch nur über einige Jahre hin zieht.

LovesuckZ

2011-10-15, 16:20:35

LovesuckZ, du musst unterscheiden zwischen:

Ist nicht schlecht für...

und

Ist die Optimale Lösung für...

Das Cache-System ist die zur Zeit optimalste Lösung für Tessellation. Und nun? :rolleyes:

Du scheinst nicht unterscheiden zu können zwischen...

... dedizierte Transistoren für...

und

...Synergieeffekte durch...

Viele Sachen die für den HPC-Bereich eingebaut werden, nimmt man halt mit, aber nur für den Gamer Markt würde man die Sachen wohl kaum einbauen. Grad die ganzen Phys-X Sachen, sind doch zu einem großen Teil einfach auch nur deswegen entstanden, weil man halt die Möglichkeit hat. Aber wie man an AMD sieht, kann man auch SEHR gut ohne leben. Phys-X wurde von nVidia halt mit Gewalt in den Markt gedrückt.

Richtig: GPU-PhysX konnte deswegen realisiert werden, weil die Hardware in der Lage war anders angesprochen zu werden. Merkst du, wie Erweiterungen für HPC auch den Gamer betrifft? Im Gegensatz dazu wurde der Weg über DX9 und Pixelshader nicht weiterverfolgt. Ironisch, nicht? Spricht dies exakt gegen deine Behauptung, dass Gamerhardware besser für Games bzw. Features wäre.

Was ist daran so schwer zu verstehen, das eine reine Gamer-GPU sehr wahrscheinlich ziemlich anders aussehen würde. Man geht halt Kompromisse ein, und da der GAmer-Markt relativ "anspruchslos" ist, tut es auch nicht so weh, wenn man da Sachen mit einbaut, die man eigentlich nicht brauch.

Merkst du wirklich nicht, was du schreibst? :confused:
Wenn ich einer Gamer-GPU Erweiterungen für einen anderen Markt gebe, dann handelt es sich weiterhin primär um eine Gamer-GPU. Deine Argumentation ist unlogisch und macht keinen Sinn.

Und ECC frisst einiges, das sollte man nicht unterschätzen. Von IEEE konformem DP mal ganz zu schweigen. Wenn man sich da auf SP und dann am Besten noch nicht IEEE konform beschränken würde, dann würde das schon einiges an Luft geben. Auch So manche Sachen wie trigonometrische Funktionen etc. etc. könnte man sicherlich weg lassen.

ECC frisst bei Fermi kaum was. Was soll auch so dermaßen viel Transistoren kosten, wenn man kaum OnChip-Speicher hat?
rv670 hatte auch schon DP und war eine reine Gamer-GPU. Der Aufwand für DP und Konsorten ist minimal. Sieht man auch sehr schön an GF1x0 und GF1x4.

Wenn man etwas einbaut, was man nicht zwingend brauch, ist es ja nicht nur so, das man Platz verschwendet, nein es nimmt einem Sogar Platz weg, mit dem man andere Sachen besser routen könnte, kleinere Chips fertigen könnte, was wieder bessere Yealds/Ausbeute_pro_Wafer bedeutet, was niedrigere Fertigungskosten usw. bedeutet.

Und was unsinn ist und was nicht entscheidest du? Also derjenige, der meint, dass Fermi's Cachesystem überflüssig wäre, trotz es der Grund ist, dass Tessellation (u.a. ein Gamer-Feature durch DX11) überhaupt vernünftig nutzbar ist? nVidia's L2 Cache hat z.B. fast alle anderen dedizierten Caches ersetzt. Aber nach dir sind Caches sowieso Verschwendung, so what...

Es ist halt immer eine Gradwanderung. Die Gamer darf man nicht enttäuschen, wegen den großen Stückzahlen, ohne die man die Entwicklungskosten nicht rein bekommt. Aber nur auf DIE sich zu fokusieren, ist halt auch hirnrissig, weil die Anforderungen stagnieren. Im Markt tut sich da kaum etwas. Man muss sozusagen das Rad neu erfinden, und mit GPGPU-Computing hat man dies eben getan, und dort lässt sich halt richtig gut die Sahne Abschöpfen. Allein kann man davon nicht leben, aber wenn man sich nicht blöd anstellt, und darauf optimiert, kann man den Gamer-Markt noch immer zufrieden stellen, die haben ja eh nichts besseres, und gleichzeitig die Entwicklung blockierende Konsolen am Hals, aber im HPC Bereich hat die GPU die CPU als Konkurrenz, und auch die FPGAs. Gegen die müssen die sich durchsetzen, und wenn Sie das nicht schaffen, sind Sie halt weg vom Fenster.

AMD hat eindrucksvoll bewiesen, dass veralterte Technik nicht dem Anspruch von neuen Anforderungen erfüllt. Der HPC Markt ist für die Entwicklung von GPUs unbedeutend. Man nimmt ihn mit, weil man seine Gaminghardware anpasst.

Da wo es drum geht, ob ich überhaupt verkaufe oder gar nicht, oder dort, wo ich so ziemlich egal, was ich bringe eh verkaufen werde, da ich eben eine gewisse Grundleistung durch die Entwicklung bekomme, auch wenn es bei weitem nicht das Effizienteste ist.

Tja, wieso ist Fermi dann keine HPC-GPU? ;D

Skysnake

2011-10-15, 17:12:34

Fermi ist ne HPC GPU, nur eben nicht konsequent zuende gegangen. Die Caches sind noch etwas zu klein. Der Programmierer muss sich noch zu viele Gedanken machen, um die Leistung auch ab zu rufen. Mit größeren Caches und mehr Bandbreite wird dies weniger zum Problem.

Dahin geht auch eher die Sache. Du wirst die Bandbreiten/Caches stärker vergrößern als die reine ALU-Leistung. In Games bekommste das auch jetzt ausgelastet zu einem guten Teil. Das ist halt Hardware die du nicht fürs Gamen brauchst.

Überhaupt gibt es eben viele Stellen, wo Fermi Transistoren verballert, ohne diese wirklich zu benötigen. Und unterschätz ECC nicht. das ist schon einiges. Allein, dass du eben noch ein paar Bits mitführen musst verursacht halt, dass du ein paar mehr Leitungen brauchst, und die verschlechtern deine Routing Möglichkeiten. Und btw. wegen was wurde der GF 100 verschoben? Ach ja richtig, das Onchip-Netzwerk hat nicht funktioniert. Hat ja gar keinen Zusammenhang gell.

Du verstehst einfach nicht, das wenn man auf das ganze GPUGPU-Computing Zeug nen feuchten Furz lassen würde und gut ist, einfach VIEL mehr freie Hand hätte, um sich wirklich um die Darstellung zu kümmern. Ray-Tracing wäre da z.B. so etwas, wobei man schon sehr viel mit FFU machen könnte. Das würde dir aber für alles andere eben nichts bringen, und das macht NIEMAND mehr.

Selbst die aktuellen FFUs sollen ja wenn möglich entweder wegfallen, oder zumindest ansprechbar werden. Es wird inzwischen durchaus als "Platzverschwendung" angesehen, weil es eben nur für 3D-Grafikausgabe nutzbar ist. Da wird durchaus in Kauf genommen, dass das dann Leistungseinbußen (weniger Energieeffizient ist) als wenn man die FFUs beibehalten würde wie jetzt. So wie aktuell, kann man es aber nicht nutzen, und wie gesagt, die Gamer befriedigt man auch mit 40% Mehrleistung. Die halten die Klappe. Wenn die GPU im HPC-Bereich nicht Effizienter wird, dann holen die CPUs weiter auf, und die GPUs werden uninteressanter.

MIC ist da auch so ne Sache, vor der sich AMD UND nVidia in Acht nehmen müssen. MIC ist sicherlich nicht so Effizient wie die GPUs von AMD und nVidia, aber wenn du einfach sehr leicht einen guten Speedup hin bekommst, ohne teures Know-How einkaufen zu müssen, sondern "einfach" deinen "DAU"-Programmierer hin setzen kannst, der einfach das macht, was er schon seit vielen Jahren macht UND KANN!!! Dann rentiert sich das unter Umständen sehr sehr schnell.

LovesuckZ

2011-10-15, 18:41:47

Fermi ist ne HPC GPU, nur eben nicht konsequent zuende gegangen. Die Caches sind noch etwas zu klein. Der Programmierer muss sich noch zu viele Gedanken machen, um die Leistung auch ab zu rufen. Mit größeren Caches und mehr Bandbreite wird dies weniger zum Problem.

Also doch keine HPC-Karte? Also mein Straßen-Opel ist auch ein Rennwagen, aber eben nicht ganz zuende gedacht. ;D

Dahin geht auch eher die Sache. Du wirst die Bandbreiten/Caches stärker vergrößern als die reine ALU-Leistung. In Games bekommste das auch jetzt ausgelastet zu einem guten Teil. Das ist halt Hardware die du nicht fürs Gamen brauchst.

?! Hä?
Texture-L2-Cache ist überflüssig? Man, bei AMD und nVidia müssen echt nur Idioten arbeiten.

Überhaupt gibt es eben viele Stellen, wo Fermi Transistoren verballert, ohne diese wirklich zu benötigen. Und unterschätz ECC nicht. das ist schon einiges. Allein, dass du eben noch ein paar Bits mitführen musst verursacht halt, dass du ein paar mehr Leitungen brauchst, und die verschlechtern deine Routing Möglichkeiten. Und btw. wegen was wurde der GF 100 verschoben? Ach ja richtig, das Onchip-Netzwerk hat nicht funktioniert. Hat ja gar keinen Zusammenhang gell.

ECC war überhaupt nicht verantwortlich, dass die OnChip-Kommunikation probleme bereitete. Und man benötigt eine entsprechende Kommunikation, um Tessellation leistungstechnisch umsetzbar zu machen. Für HPC ist dies vollkommen überflüssig. Aber diese kleinen Fakten scheinst du gekonnt zu ignorieren.

Du verstehst einfach nicht, das wenn man auf das ganze GPUGPU-Computing Zeug nen feuchten Furz lassen würde und gut ist, einfach VIEL mehr freie Hand hätte, um sich wirklich um die Darstellung zu kümmern. Ray-Tracing wäre da z.B. so etwas, wobei man schon sehr viel mit FFU machen könnte. Das würde dir aber für alles andere eben nichts bringen, und das macht NIEMAND mehr.

:confused:
Das macht doch null Sinn. nVidia hat Raytracing dank dem L1 Cache - ja, das was du als unnötig bezeichnest - deutlich beschleunigt. Dazu kommt, dass der Zusammenhang zwischen Compute-Pipeline+Graphics-Pipeline und anderen Möglichkeiten nicht in Verbindung steht. Ich verstehe dich daher richtig, dass du willst, dass die Firmen DX11-nicht-konforme Architekturen entwickeln?! Wie soll das dem Gamer mehr helfen als z.B. Fermi?

Selbst die aktuellen FFUs sollen ja wenn möglich entweder wegfallen, oder zumindest ansprechbar werden. Es wird inzwischen durchaus als "Platzverschwendung" angesehen, weil es eben nur für 3D-Grafikausgabe nutzbar ist. Da wird durchaus in Kauf genommen, dass das dann Leistungseinbußen (weniger Energieeffizient ist) als wenn man die FFUs beibehalten würde wie jetzt. So wie aktuell, kann man es aber nicht nutzen, und wie gesagt, die Gamer befriedigt man auch mit 40% Mehrleistung. Die halten die Klappe. Wenn die GPU im HPC-Bereich nicht Effizienter wird, dann holen die CPUs weiter auf, und die GPUs werden uninteressanter.

So zusammenfassend: Fermi ist eine HPC Karte. Deswegen haut nVidia ein Großteil des Dies mit Transistoren zu, die nicht für HPC angewendet werden können.

Ähm. Okay. :|

Aber ich lass es jetzt. Du denkst, die Erde ist eine Scheibe und weder ein Globus noch Bilder aus dem Weltall können dich überzeugen, weil du die Welt eben nicht als "Kugel" wahrnehmen kannst. Akzeptiere ich.

Bucklew

2011-10-15, 18:47:40

Vielleicht solltet ihr euch mal einigen über welchen Chip ihr nun sprecht, ein GF100/110 hat ne ganz andere Konstruktion was euren Streitpunkt angeht als ein GF104/114.

LovesuckZ

2011-10-15, 18:59:42

Zwischen GF110 und GF114 gibt es kaum großartige Unterschiede im Aufbau, die sagen würden: Gamer-Chip und HPC-Chip.

GF114 hat zwar mehr Funktionseinheiten pro SM, dafür ist die Effizienz geringer. Herausragende Architekturpunkt bleiben dagegen erhalten: Mehrere Geometriepipelines, Hierarchisches Cache-System, konfigurierbarer SM-Cache, DP etc.

GF110 hat doch nur die schnellere DP-Berechnung und ECC auf seiner Seite.

Liest dir durch, was laut ihm eine Architektur zum HPC-Chip macht. Bis auf ECC findet sich alles auch in den kleineren Chips wieder.

Bucklew

2011-10-15, 20:59:26

Zwischen GF110 und GF114 gibt es kaum großartige Unterschiede im Aufbau, die sagen würden: Gamer-Chip und HPC-Chip.
Es gibt mehr als nur Schwarz/Weiß. GF104/114 hat mehr Cores und Textureinheiten pro SM, dafür kein ECC und weniger DP-Leistung.

Man sieht schon, dass beim kleineren Chip ein stärker Focus auf 3D-Grafik gelegt wurde, während der große 100/110er mehr in Richtung HPC geht.

Deswegen würde ich allerdings nicht sagen, dass der GF100/110 ein HPC-Chip wäre, das ist Quatsch. Zu über 90% ist er immer noch ein Grafikchip, der mit ein paar zusätzlichen Funktionen eben auch wunderbar als Rechenbeschleuniger genutzt werden kann.

Skysnake

2011-10-15, 21:15:18

LovesuckZ, bei Interconntect kam NICHTS an laut Aussage von nVidia...

Jetzt überleg dir mal. Ist es einfacher oder schwieriger mit mehr Leitungen ein Interconnect auf zu bauen?

Einfacher/Schwieriger reicht, mehr will ich nicht hören.

Und LovesuckZ, du verstehst es einfach nicht... Bei Fermi hat nVidia einen großen Schritt richtung HPC gemacht. Mit Kepler wird dieser Schritt nochmals deutlich größer sein.

Wenn du WIRKLICH auf den HPC-Bereich kacken würdest, und nur die ultimative Gamer-Karte haben willst, ist Fermi nicht das, was man sich vorstellt. Da gäbe es einfach andere Architekturansätze, die deutlich interessanter wären. Wenn du das aber sinnvoll machen willst, dann gn8. Dann taugt der Chip eben zur Grafikausgabe und das wars dann. nVidia als auch AMD sehen das aber gar nicht ein, daher nehmen Sie eben eine langsamere Entwicklung im Gamermarkt in kauf. Die Vorteile, die sich im HPC-Bereich dadurch ergeben wiegen halt schwerer.

EDIT:
Bucklew: Nein er ist kein astreiner HPC-Chip. Kepler wird aber noch mehr ein HPC-Chip sein als Fermi, da müssen wir uns hoffentlich nicht drüber streiten.
Es geht mir einfach nur darum, das wenn HPC wayne gewesen wäre, du den Chip deutlich kleiner hättest machen können, weil vieles eben Wayne gewesen wäre, da es direkt für den Gamer-Bereich keinen Vorteil bringt. Und kleinerer Chip=besser bei gleicher Leistung, weil billiger herzustellen und weniger Verbrauch...
Ist das so schwer nach zu vollziehen?

Du verstehst den Unterschied zwischen einer nicht schlechten und einer optimalen Architektur einfach nicht.

Coda

2011-10-15, 21:22:00

Ich wüsste angesicht von DirectCompute in D3D11 allerdings auch nicht sehr viel was man weglassen sollte.

Die komplett kohärenten Caches, ECC und der virtuelle Adressraum. Was noch?

Skysnake

2011-10-15, 21:30:51

Caches kleiner machen, bzw. mehr ALUs dran hängen.

Funktionsumfang reduzieren, also die ganzen C/C++/Fortran Sachen raus nehmen.

Dann das Sheduling verändern, bzw ganz streichen.

überhaupt den L1 würde ich streichen. Das Caching wird schon einiges fressen.

Naja, und dann könnte man eben noch den Shared Mem komplett streichen, und das über höhere Latenzen, die man versteckt übern L2 regeln, wobei das halt wirklich so ne Sache ist, die man sich dann genau anschauen muss.

Allgemein aber eher weniger Cache mehr ALUs.

Das sind aber eben nur Sachen in DX11. Konsequent wäre es, auf DX11 zu verzichten, und stattdesssen etwas komplett anderes zu entwickeln, das eben nicht anderes kann als z.B. Raytracing machen. Das ist ja das was ich sag. WEnn man die Notwendigkeit von z.B. DX11 weg nimmt, hat man sehr sehr viele Möglichkeiten, und ne Raytracing Architektur wäre da z.B. mal ein Ansatz.

Coda

2011-10-15, 21:48:03

Shared Memory brauchst du für Compute Shader. Genauso das Scheduling und Caches.

Sonst wird es grottenlahm.

V2.0

2011-10-15, 21:50:27

Caches sind heute nicht nur für HPC-Anwendungen relevant. Im Gegenteil.

Hugo78

2011-10-15, 22:08:03

Mädels, ich finde zwar diese Grundsatzdiskussion grundsätzlich spannend, aber wäre dafür das "Grafikkarten und Spielegrafik - wohin geht die Reise?" Thema nicht passender?!
http://www.forum-3dcenter.org/vbulletin/showthread.php?t=515589

Bucklew

2011-10-15, 22:09:39

Bucklew: Nein er ist kein astreiner HPC-Chip. Kepler wird aber noch mehr ein HPC-Chip sein als Fermi, da müssen wir uns hoffentlich nicht drüber streiten.
Es geht mir einfach nur darum, das wenn HPC wayne gewesen wäre, du den Chip deutlich kleiner hättest machen können, weil vieles eben Wayne gewesen wäre, da es direkt für den Gamer-Bereich keinen Vorteil bringt. Und kleinerer Chip=besser bei gleicher Leistung, weil billiger herzustellen und weniger Verbrauch...
Ist das so schwer nach zu vollziehen?

Du verstehst den Unterschied zwischen einer nicht schlechten und einer optimalen Architektur einfach nicht.
Tja und genau hier ist das Problem, wenn man einfach nur einen Nebenkriegsschauplatz bekämpft und sich nicht das große Bild anschaut. Denn das Problem ist ganz einfach: Ein reiner HPC-Chip lohnt sich schlichtweg nicht, man MUSS den Chip auch als Gamingkarte verkaufen um die Massenproduktion und Entwicklung bezahlen zu können.

Und daraus resultiert automatisch, dass die großen Nvidiachips auch in Zukunft eine Mischung aus Grafik- und Rechenchip sein werden. Aber eben immer noch mit einem Hauptfocus auf Grafik, während man das Rechenzeug im Hinterkopf hat.

Wenn du einen reinen Grafikchip sehen willst, dann guck dir den GF104/114 an. Der ist nebenbei genauso "Fermi" wie GF100/110 ;)

Den ersten reinen HPC-Chip werden wir wohl wenn überhaupt erst mit Maxwell sehen.

Ailuros

2011-10-15, 22:24:59

Den ersten reinen HPC-Chip werden wir wohl wenn überhaupt erst mit Maxwell sehen.

Sag doch gleich Echelon oder wie immer das Ding heissen wird; es ist sowieso kein besonderes Geheimnis mehr hinter den Kulissen.

V2.0,

Multi-level caches werden wenn ich mich nicht irre in Maxwell ankommen. Und natuerlich hast Du recht; fortschrittliche caching Systeme sind alles andere als nur HPC relevant, sonst wuerde es solche nicht schon seit Jahren sogar in embedded GPUs geben.

Skysnake

2011-10-15, 22:39:48

Anja, die Marschrichtung ist aber wohl klar oder? Wenn der gt noch mehr als 50% Grafik war, war der Fokus beim gf doch schön eher in Richtung 50/50 und wird sich halt weiter in Richtung von HPV entwickeln, einfach, weil doch in Sachen reiner Grafik kaum noch was passiert. Wo sind denn noch große Schritte zu erwarten?

Eskalation kann der gf eigentlich schon genug. wird doch teils schon nur des Selbstzweck eingesetzt, meiner Meinung nach.

einen 100% Hpc Chip werden wir aber so wenig stehen wie einen reinen Games Chip. Man braucht halt stückzahlen, und das schafft man nur durch beide Märkte, wobei eben wie ich schon die ganze zeit sage, sich die Gewichtung ganz klar verschiebt.

ailurus, das hängt aber auch an der Art zusammen, wie die grafikdarstelljng heutenfjnktiojiert mit seinem AA, AF und den anderen postprozessing Effekten. Man kann ja aber wie gesagt auch andere Konzepte verlangen.

und die Caches sind sinnvoll, weil die Daten halt mehr als einmal verwendet werden. Man könnte sich aber auch wieder sehr lange Pipeline vorstellen, wo alles nur noch zurückgeschoben Wird, aber vergessen wir's einfach, dasmwird alles so schnell nicht kommen. Mit dem aktuellen Konzepte lassen sich ja alle zufrieden stellen.

Bucklew

2011-10-15, 23:12:16

Ailuros

2011-10-15, 23:31:48

und die Caches sind sinnvoll, weil die Daten halt mehr als einmal verwendet werden. Man könnte sich aber auch wieder sehr lange Pipeline vorstellen, wo alles nur noch zurückgeschoben Wird, aber vergessen wir's einfach, dasmwird alles so schnell nicht kommen. Mit dem aktuellen Konzepte lassen sich ja alle zufrieden stellen.

Selbst wenn man Daten nicht mehr als einmal verwendet ist fortschrittliches caching wuenschenswert, ueberhaupt wenn Du total unterschiedliche threads durch die pipeline ohne jeglichen overhead jagen willst. Es gibt noch eine Unmenge von "low hanging fruit" fuer alles multi-threading oder sogar super-threading oder wie man es genau nennen will.

Generell sorgen caches uebervereinfacht dafuer dass so viel Daten wie moeglich on chip bleiben und dadurch mehr und mehr Bandbreite gespart wird.

ailurus, das hängt aber auch an der Art zusammen, wie die grafikdarstelljng heutenfjnktiojiert mit seinem AA, AF und den anderen postprozessing Effekten. Man kann ja aber wie gesagt auch andere Konzepte verlangen.

PowerVR SGX (winzige embedded GPUs) haben multi-level cache; keine "lange" oder "tiefe" pipelines, es wird so oder so das meiste on chip gehalten da stets um einen frame verzoegert wird und das Ding verbraucht unter anderem am wenigsten Speicher und Bandbreite fuer Sachen wie AA, postprocessing oder sogar MRTs. Ergo muessten nach Deiner Logik caches bzw. noch schlimmer multi-level cache eigentlich ueberfluessig sein.

boxleitnerb

2011-10-15, 23:36:43

Könnte man hier vielleicht ne Spekulationsumfrage zur Performance von Kepler reinbasteln? Dafür einen extra Thread aufmachen, lohnt sich irgendwie nicht, das würde sich mit diesem hier wahrscheinlich ziemlich überschneiden.

Coda

2011-10-15, 23:41:35

Gibt doch noch keinerlei technische Details, wie willst du da Performance vorhersagen?

boxleitnerb

2011-10-15, 23:45:31

Ailuros

2011-10-15, 23:49:32

Spekulation? :)
Oder ist dir das zu diffus, weil im Endeffekt wäre es nichts weiter als raten. Andererseits ist es doch langweilig, wenn man schon einen eingegrenzten Bereich hat, wo Kepler in etwa rauskommt.

Bis zu 2x Mal schneller als GF100 da es so oder so das design-Ziel von jeglichem IHV fuer jede neue Generation ist.

Coda

2011-10-16, 00:07:44

Das Ziel sollte doch sein wenigstens 2x so schnell. Oder wurde das Prinzip schon begraben? ;)

boxleitnerb

2011-10-16, 00:13:41

Na da haben wir es doch. Weniger als 2x so schnell, 2x so schnell, mehr als 2x so schnell - da ist Spielraum zum Raten :)
Kommt aber auch drauf an, was man vergleicht. Releasetreiber können Bugs haben, die überproportional reinhauen, dann was vergleicht man, was ist "der Schnitt"?
Ich wäre trotzdem für so eine Umfrage, zu Fermi gabs das glaub ich auch von tombman.

Ailuros

2011-10-16, 00:47:11

Das Ziel sollte doch sein wenigstens 2x so schnell. Oder wurde das Prinzip schon begraben? ;)

Na dann viel Spass in jeder aelteren Bums-applikation immer zumindest 100% Mehrleistung zu erreichen. Unter normalen Umstaenden ist sehr viel moeglich da 32nm ausgefallen ist, aber der vorige Satz ist auch nicht komplett wertlos. G80 war bis zu 3x Mal schneller als G71 unter der Vorraussetzung die allerhoechste Aufloesung, 4xAA/16xAF und natuerlich "high quality AF" was jeglicher GF7x noch eine zusaetzliche Ohrfeige verpasste. Und selbst dass auch nur in ein paar Faellen und nicht ueberall.

Na da haben wir es doch. Weniger als 2x so schnell, 2x so schnell, mehr als 2x so schnell - da ist Spielraum zum Raten :)
Kommt aber auch drauf an, was man vergleicht. Releasetreiber können Bugs haben, die überproportional reinhauen, dann was vergleicht man, was ist "der Schnitt"?
Ich wäre trotzdem für so eine Umfrage, zu Fermi gabs das glaub ich auch von tombman.

Ohne die geringsten Eckdaten hat Coda leichter recht dass man fast gar nichts einschaetzen kann. Sonst koennen wir ein neues Unterforum eroeffnen unter dem Titel "Wunschdenken" denn mehr als dieses kommt bei sei einer Umfrage heute nicht raus.

Skysnake

2011-10-16, 03:04:17

Ailuros, noch was zu den Caches. Klar, die sind atm extrem wichtig, da eben die RAM-Bandbreite stark limitiert. Ist halt off-Chip. Da kommste nicht drum rum, das so zu machen. Du musst ja einen Gewissen Datendurchsatz X haben. Und den erreichst du einfach nur durch Verwendung von kleinen Caches on Chip atm. Ist doch alles nur getrickse.

Jetzt denk aber mal drüber nach, was möglich ist, wenn du den RAM direkt auf den Chip packen würdest, oder direkt daneben ;)

Da ergeben sich ganz neue lustige Möglichkeiten. Denk nur mal an den lustigen Memory-Cube, den man auf dem IDF gesehen hat, und jetzt überleg dir noch, wie man dieses Konzept etwas aufbohren könnte. Ich denke du weißt, wohin mein Weg führt.

Hochgradig integrierte Recheneinheit aus GPU&RAM wo man auf der einen Seite die Daten rein schiebt und auf der anderen wieder raus fallen lässt. Die Bandbreiten sind immer noch ein gewisses Problem, aber bei weitem nicht mehr so wie vorher. Was planen die nochmal? 500 GB/s oder so waren es, und da hockt das Ding noch offchip. Lass das mal onchip wandern mit TSV. Da sollte gut was möglich sein, aber wie gesagt, wenn man so was radikal ausgerichtetes macht, taugts halt für nichts anderes mehr.

Bucklew

2011-10-16, 13:10:48

Na dann viel Spass in jeder aelteren Bums-applikation immer zumindest 100% Mehrleistung zu erreichen.
Ähm, wozu auch? Die älteren Applikationen laufen doch eh bei 60+, was bringen einem 120fps statt 60? ;)

Das neuere Applikationen IMMER notwendig sind um die volle Leistung auszuschöpfen ist doch irgendwie logisch.

boxleitnerb

2011-10-16, 13:15:41

Äh, SGSSAA? Downsampling? 30"? Mach das mal bei älteren Spielen, da kriegst du sogar zwei 580er kaputt ;)

Bucklew

2011-10-16, 13:19:08

Na dann pumpst du die Bildqualität aber auch auf ein ganz anderes Level. Ich rede natürlich von gleichen Settings.

boxleitnerb

2011-10-16, 13:31:13

Man sollte die Karten schon irgendwie auslasten. Im CPU-Limit vergleichen bringt ja nichts.

Bucklew

2011-10-16, 13:35:05

Und neue Generation mit SGSSAA vs. alte ohne bringt etwas? ;D

LovesuckZ

2011-10-16, 13:35:27

Na, wenn wir Fortschritt wollen, müssen wir auch akzeptieren, dass gewisse Transistoren für verbesserte Umsetzungen verwendet werden. Dir bringt es ja nichts, dauernd nur Textur- und Rechenleistung zu erhöhen, wenn dein Front-End bei Tessellation limitiert. Gleichzeitig bringt dir ein verbessertes Front-End ihne Tessellation kaum Mehrleistung.

boxleitnerb

2011-10-16, 13:43:30

Und neue Generation mit SGSSAA vs. alte ohne bringt etwas? ;D

Ich verstehe nicht, was du damit sagen willst. Wenn ich in 1080p mit 4xSGSSAA benche und die neuen Karten doppelt so flott sind wie die alten, ist ja alles in Butter. Das sind dann eben 20 vs 40fps z.B.

Na, wenn wir Fortschritt wollen, müssen wir auch akzeptieren, dass gewisse Transistoren für verbesserte Umsetzungen verwendet werden. Dir bringt es ja nichts, dauernd nur Textur- und Rechenleistung zu erhöhen, wenn dein Front-End bei Tessellation limitiert. Gleichzeitig bringt dir ein verbessertes Front-End ihne Tessellation kaum Mehrleistung.

Korrekt. Allerdings steigt die Rohleistung doch deutlich langsamer an als ich mir das als Laie wünschen würde. Also bei gleichem Verbrauch alle 2 Jahre 50%, mit Shrink nochmal 10%. Das ist mir zu wenig - auch mit neuen Features. Bisher konnte man auch die Leistungsaufnahme deutlich steigern, aber so langsam ist Schluss mit lustig. Oder geht das dann so weiter, bis wir 500W pro Karte haben? Das kann nicht das Ziel sein.

dargo

2011-10-16, 13:56:11

Bis zu 2x Mal schneller als GF100 da es so oder so das design-Ziel von jeglichem IHV fuer jede neue Generation ist.
Hmm... bis zu Faktor 2 fände ich schon etwas schwach. Man muss auch bedenken, dass die Zyklen zwischen neuen Generationen deutlich länger geworden sind als früher. Vor nicht allzu langer Zeit hat man die Leistung fast jedes Jahr in etwa verdoppelt. Kepler und GF100 trennen mittlerweile stolze 2 Jahre. Da sollte man mindestens Faktor 2 einer GTX580 erwarten können. Ich hoffe es zumindest.

Bucklew

2011-10-16, 14:00:37

Ich verstehe nicht, was du damit sagen willst. Wenn ich in 1080p mit 4xSGSSAA benche und die neuen Karten doppelt so flott sind wie die alten, ist ja alles in Butter. Das sind dann eben 20 vs 40fps z.B.
Ich muss ehrlich sagen ich sehe keinen großen Sinn von Benches mit weniger als 20fps. Ist dann ja interessant, aber praxisorientiert ist was anderes. Und darum gehts ja nunmal unterm Strich: Zocken ;D

boxleitnerb

2011-10-16, 14:20:17

Es ist doch praxisorientiert: Ich kann Settings fahren, die ich vorher nicht fahren konnte. Dann nimm von mir aus 2xSGSSAA oder irgendwas anderes, dass 30 vs 60fps rauskommt. Das war doch nur ein Beispiel.

Dural

2011-10-16, 16:54:05

GTX680 wird um die 82,68% im schnitt schneller sein als die GTX580 ;D :biggrin:

Ailuros

2011-10-17, 12:08:53

Ähm, wozu auch? Die älteren Applikationen laufen doch eh bei 60+, was bringen einem 120fps statt 60? ;)

Das neuere Applikationen IMMER notwendig sind um die volle Leistung auszuschöpfen ist doch irgendwie logisch.

Mir geht es doch lediglich darum dass dieses bis zu 2x oder 3x Mal schneller etwas klarer wird. Es gab NIE eine GPU die in ALLEN Faellen um Nx Mal schneller war als ihr Vorgaenger.

Hmm... bis zu Faktor 2 fände ich schon etwas schwach. Man muss auch bedenken, dass die Zyklen zwischen neuen Generationen deutlich länger geworden sind als früher. Vor nicht allzu langer Zeit hat man die Leistung fast jedes Jahr in etwa verdoppelt. Kepler und GF100 trennen mittlerweile stolze 2 Jahre. Da sollte man mindestens Faktor 2 einer GTX580 erwarten können. Ich hoffe es zumindest.

Wer will NICHT eine Steigerung um bis zu 3x oder sogar 4x Mal? Die eigentliche Frage ist aber dann eher ob es wirklich realistisch ist.

Nimm von mir aus das 1024 oder sogar 1536SP szenario und erzaehl mir warum Fuellraten und Bandbreiten nicht um so grosse Faktoren steigen koennen momentan und das Resultat gleichzeitig im bezahlbarem Bereich zu halten.

Vielleicht haben manchen von Euch Bock auch Kepler XDR Speicher zuzuschreiben; wir brauchen ja stets guten Grund uns ueber etwas amuesieren zu koennen.

AnarchX

2011-10-17, 12:25:26

512-Bit@5Gbps wäre doch schon eine vernünftige Steigerung. :D

Und gerade im Bezug auf das Postprocessing in mancher Anwendung ist wohl reine ALU-Leistung wichtig.

dargo

2011-10-17, 12:36:31

Wer will NICHT eine Steigerung um bis zu 3x oder sogar 4x Mal? Die eigentliche Frage ist aber dann eher ob es wirklich realistisch ist.

Wir müssen nicht gleich übertreiben. 2x GTX580 ist nicht 3-4x GF100. ;) Ich sags mal so... 2x GTX580 wäre schon fein, alles drüber ein netter Bonus. :)

Skysnake

2011-10-17, 12:38:17

Eine Anpassung beim Speicherinterface muss aber kommen. Die 384 Bit sind einfach zu wenig. 512 Bit kostet aber wieder.....

Man wird über kurz oder lang nicht an einem neuen Speicherstandard vorbei kommen, und ich hoffe er kommt früher als später.

dargo

2011-10-17, 12:44:44

Theoretisch könnte man ja auch 448Bit beim SI für das Topmodell nehmen. Damit wären 280GB/s drin was wohl reichen sollte. Mit der Speicherbestückung wäre das aber wieder schwierig. 1280MB fürs Topmodell wären zu wenig, 2560MB wohl etwas zuviel (Kosten). :freak:

Knuddelbearli

2011-10-17, 12:47:45

2560 wäre gerade richtig ^^

Skysnake

2011-10-17, 13:07:13

Also ich hätte gern ein 1024/2048 Bit Interface :ugly:

Naja, zumindest so lange ich es nicht zahlen muss ;D

Palpatin

2011-10-17, 13:07:47

Ailuros

2011-10-17, 13:11:31

Wir müssen nicht gleich übertreiben. 2x GTX580 ist nicht 3-4x GF100. ;) Ich sags mal so... 2x GTX580 wäre schon fein, alles drüber ein netter Bonus. :)

Und was genau schwer Euch Herren bei bis zu 2x Mal so schnell zu verdauen? Es wird IMMER Applikationen geben wo nichts mehr oder nicht mehr viel herauszuholen ist; wenn Ihr dass nicht kapieren koennt kann ich auch nicht weiterhelfen. Das "bis zu" 2x Mal ist schon korrekt beschrieben denn es benutzen IHVs selber. Der Durschnitt kann aber nicht bei 2x Mal liegen weil es selbst zwischen G80 und G71 nicht so hoch war.

Eine Anpassung beim Speicherinterface muss aber kommen. Die 384 Bit sind einfach zu wenig. 512 Bit kostet aber wieder.....

Man wird über kurz oder lang nicht an einem neuen Speicherstandard vorbei kommen, und ich hoffe er kommt früher als später.

Dann sind 256bit noch weniger bei GCN; gerade eben auch der sarkastische Kommentar ueber XDR. Wie waere es anstatt ausnahmsweise an bessere Verwaltung der existierenden Bandbreite zu denken? Vielleicht sogar mit etwas mehr caches und/oder fortschrittlicherem caching? *ooops* der perpetuum mobile Effekt ist wieder da :P

Skysnake

2011-10-17, 13:16:42

Ailuros

2011-10-17, 13:26:06

Caches, insbesondere, wenn es keine echten Caches sind, also nicht transparent für den Programmierer, erfordern halt mehr Aufmerksamkeit und Programmieraufwand. Wenn ich das MONSTER Speicherinterface habe und praktisch auf Caches ganz verzichten könnte, wäre das für den Programmierer das geschickteste, weil er nichts falsch machen kann :ugly:

Matrox Parhelia hatte ein "monster interface" fuer seine Zeit. Und was danach die Sintflut?

Weder Busbreite noch bunten Bandbreiten-Zahlen auf Papier sagen etwas besonderes. Lieber eine Architektur weiss am elegantestem mit jeglicher vorhandenen Bandbreite umzugehen, als sterile Gigabytes die nur dumm herumhocken.

Es ist aber trotzdem immer amuesant wenn Leute "wissen wollen" dass zukuenftige Architektur N so und so viel Busbreite bzw. Speicherart bzw. Speicherfrequenz haben "muss" ohne die geringste Ahnung ueber die Architektur die Effizienz pro Einheit und die Anzahl dieser zu haben.

Dass man dann ueber 2048 bit Busbreiten spottet ist wohl eher zu erwarten :P

LovesuckZ

2011-10-17, 13:26:26

Korrekt. Allerdings steigt die Rohleistung doch deutlich langsamer an als ich mir das als Laie wünschen würde. Also bei gleichem Verbrauch alle 2 Jahre 50%, mit Shrink nochmal 10%. Das ist mir zu wenig - auch mit neuen Features. Bisher konnte man auch die Leistungsaufnahme deutlich steigern, aber so langsam ist Schluss mit lustig. Oder geht das dann so weiter, bis wir 500W pro Karte haben? Das kann nicht das Ziel sein.

Deswegen müssen in Zukunft immer genau die Techniken eingesetzt werden, die am effektivsten sind: Echte Geometrie statt POM. CS statt PS.

Schau doch mal hier: http://www.hardware.fr/articles/813-7/tests-theoriques-geometrie.html

POM ist auf einer Fermi-Karte erheblich langsamer als Tessellation. Und selbst das normale Setting läuft auf einer AMD Karten deutlich schneller. Solche Verarschungen wie in Dragon Age 2, wo man POM inkl. Fehldarstellungen für Oberflächenstrukturen eingesetzt hat, ist reine Leistungsverschwendung.

Skysnake

2011-10-17, 13:42:18

Matrox Parhelia hatte ein "monster interface" fuer seine Zeit. Und was danach die Sintflut?

Weder Busbreite noch bunten Bandbreiten-Zahlen auf Papier sagen etwas besonderes. Lieber eine Architektur weiss am elegantestem mit jeglicher vorhandenen Bandbreite umzugehen, als sterile Gigabytes die nur dumm herumhocken.

Es ist aber trotzdem immer amuesant wenn Leute "wissen wollen" dass zukuenftige Architektur N so und so viel Busbreite bzw. Speicherart bzw. Speicherfrequenz haben "muss" ohne die geringste Ahnung ueber die Architektur die Effizienz pro Einheit und die Anzahl dieser zu haben.

Dass man dann ueber 2048 bit Busbreiten spottet ist wohl eher zu erwarten :P

Den Teil hast du schon gelesen oder?

Naja, zumindest so lange ich es nicht zahlen muss

Sollte doch klar machen, dass das mit einem GANZ großen ;) zu sehen ist. Wäre schön wenn, aber realistisch ist was anderes.

Würdest dich ja auch nicht über ne 20 TFlop/s meckern, wenn du Sie zum gleichen Preis einer 2 TFlop/s Karte bekommen würdest oder? ;)
Realistisch ist aber was anders :D