nVidia - Kepler - 28nm - 2012 [Archiv] - Seite 6

Archiv verlassen und diese Seite im Standarddesign anzeigen : nVidia - Kepler - 28nm - 2012

Coda

2011-11-27, 20:42:17

Ich sprach von Spielern.

Nightspider

2011-11-27, 21:24:57

es bringt in der praxis auch noch nichts. was nützt mir pcie 3.0, wenn die cpu lahm ist?!

Redest du jetzt von deinem PC oder wie?
Ich wüsste nicht was an einem 2600K @ 4,7 Ghz langsam sein sollte.
Dennoch will ich PCI-E3.0 auf meinem Mainstream Mainboard, da die 2. GPU nur mit 8x angeschlossen ist.

Ich sprach von Spielern.

Spieler könnten durchaus merken, ob ein HighEnd Kepler beim SLI nur mit 8x oder 16 angeschlossen ist. Deswegen ist da 16x durchaus sinnvoll.

Bisher kann man noch nicht abschätzen wie stark PCI2.0 8x limitieren würde. Sicherlich ähnlich wie PCI 2.0 4x bei einer GTX580.

Dural

2011-11-28, 12:52:51

ja für 2x8 PCI-E ist es sicher nützlich, doch wer betreibt den zwei Grafikkarten in einem 2x8 MB ;)

boxleitnerb

2011-11-28, 12:55:41

ja für 2x8 PCI-E ist es sicher nützlich, doch wer betreibt den zwei Grafikkarten in einem 2x8 MB ;)

Ich :tongue:
Und jeder, der das Geld lieber in eine stärkere/zusätzliche Karte/SSD etc. steckt als in einen deutlich teureren Prozessor.

Dural

2011-11-28, 17:58:07

bei AMD gibt es günstige 2x 16fach Systeme ;)

boxleitnerb

2011-11-28, 17:59:32

Ähm, ja...nein danke :D

dargo

2011-11-28, 18:45:42

Redest du jetzt von deinem PC oder wie?
Ich wüsste nicht was an einem 2600K @ 4,7 Ghz langsam sein sollte.
Dennoch will ich PCI-E3.0 auf meinem Mainstream Mainboard, da die 2. GPU nur mit 8x angeschlossen ist.

Das wird auch so bleiben, es sei denn du willst auf Ivy Bridge wechseln.

bei AMD gibt es günstige 2x 16fach Systeme ;)
Dafür aber lahme CPUs. :devil:

Ailuros

2011-11-28, 18:52:35

Es gibt zwar leider nichts Neues zu berichten, aber gibt es wirklich noch was zum PCI-E Zeug zu sagen?

Sonst denke ich steht in der vorigen 4gamers Bums-meldung "Furagushippuchipputaru" fuer den 'flagship chip' im Pokemon Dialekt :D

Tesseract

2011-11-28, 22:17:26

Bisher kann man noch nicht abschätzen wie stark PCI2.0 8x limitieren würde. Sicherlich ähnlich wie PCI 2.0 4x bei einer GTX580.
sicherlich nicht, warum sollte es? heutige grakas sind in den meisten fällen nicht durch den interconnect limitiert weil es dafür keinen grund gibt. wenn die shader, texturen, mashes usw. mal hochgeladen sind, gibt es abgesehen von ein paar kommandos pro frame kaum etwas, das über den pci muss. daran wird sich auch mit der nächsten und übernächsten generation kaum was ändern wenn nicht ein gröberer paradigmenwechsel eintritt.
ob die graka diese daten in einen 800*600 oder 8000*6000 framebuffer zeichnet, ob sie 512 oder 2048 cores hat, ob du das mesh 2x oder 64x tesselliert, ob du 8xSGSSAA drüberbügelst oder nicht... das alles interessiert die CPU genau null.

Nightspider

2011-11-28, 22:19:57

Das wird auch so bleiben, es sei denn du willst auf Ivy Bridge wechseln.

Dafür aber lahme CPUs. :devil:

Ich werde zu Ivy Bridge wechseln. ;)

sicherlich nicht, warum sollte es? heutige grakas sind in den meisten fällen nicht durch den interconnect limitiert weil es dafür keinen grund gibt. wenn die shader, texturen, mashes usw. mal hochgeladen sind, gibt es abgesehen von ein paar kommandos pro frame kaum etwas, das über den pci muss. daran wird sich auch mit der nächsten und übernächsten generation kaum was ändern wenn nicht ein gröberer paradigmenwechsel eintritt.
ob die graka diese daten in einen 800*600 oder 8000*6000 framebuffer zeichnet, ob sie 512 oder 2048 cores hat, ob du das mesh 2x oder 64x tesselliert, ob du 8xSGSSAA drüberbügelst oder nicht... das alles interessiert die CPU genau null.

Hier gabs doch vor ~2-3 Monaten mal nen Link zu einem (glaube) englischsprachen Test mit PCI 8x und 4x und da ist 4x schon deutlich stärker eingebrochen.
Das kann man auch so extrapolieren, das PCI-E 8x bei Kepler Karten limitieren wird, zumindest teilweise.

Chris Lux

2011-11-28, 22:25:33

Coda, das ist aber SEHR kurzsichtig. Nur bei Games spielt es kaum eine Rolle. Bei vielen Anwendungen, schlägt das 1 zu 1 durch, und führt oft sogar dazu, das es sich gar nicht lohnt etwas auf Die GPU zu schieben, weil der Datentransfer schon länger dauert, als wenn man es einfach auf der cpu rechnet.

also 3.0 ist mehr als überfällig und selbst eine nochmalige Verdoppelung würde heute schon sehr viele Erfreuen.
nur weil ich mich wieder einmal damit rumplagen muss: dann zeige mir mal wie man die daten wirklich schnell auf die GPU bekommt. irgendwie tut sich da seit urzeiten wenig. klar die bus-bandbreite steigt, aber wege schnell daten auf die GPU zu bekommen sind nicht gegeben... ich bastel gerade an einem test für die dual DMA-engines der Fermis und bisher ist das mehr frust als erfolg!

Tesseract

2011-11-28, 22:27:18

Hier gabs doch vor ~2-3 Monaten mal nen Link zu einem (glaube) englischsprachen Test mit PCI 8x und 4x und da ist 4x schon deutlich stärker eingebrochen.
Das kann man auch so extrapolieren, das PCI-E 8x bei Kepler Karten limitieren wird, zumindest teilweise.
eben nicht. wenn du eine situation findest, in der kepler von 8x gebremst wird, wird fermi auch gebremst werden. das hängt nicht von der graka ab sondern davon, was die API bzw. der treiber bzw. die engine wann und in welchen mengen über den interconnect schaufelt und das steigt nicht zwingend mit der komplexität der szene.

Skysnake

2011-11-29, 17:31:40

eben nicht. wenn du eine situation findest, in der kepler von 8x gebremst wird, wird fermi auch gebremst werden. das hängt nicht von der graka ab sondern davon, was die API bzw. der treiber bzw. die engine wann und in welchen mengen über den interconnect schaufelt und das steigt nicht zwingend mit der komplexität der szene.
Denk an Rage, und wie dort Daten gestreamt werden. Das hat eigentlich ziemlich viel Potenzial, da man so auch wirklich extrem hochauflösende Texturen verwenden kann, die nie und nimmer in den RAM der GPU passen würden. Da kann sich in naher Zukunft schon ein extremer Flaschenhals auf tun.

nur weil ich mich wieder einmal damit rumplagen muss: dann zeige mir mal wie man die daten wirklich schnell auf die GPU bekommt. irgendwie tut sich da seit urzeiten wenig. klar die bus-bandbreite steigt, aber wege schnell daten auf die GPU zu bekommen sind nicht gegeben... ich bastel gerade an einem test für die dual DMA-engines der Fermis und bisher ist das mehr frust als erfolg!
Pinned Memory bei CUDA bzw. HOST(-PTR?) Memory bei OpenCL sind das Zauberwort, wenn du viel Bandbreite haben willst. Damit wird nämlich die ganze Kontrolle und Umrechnung von Virtuellen in Physische Adressen etc. umgangen/beschleunigt, weil man schon weiß, wo das Zeug hin soll, und dass die Sachen auch wirklich da sind, und nicht gerade auf die HDD geswapped wurden oder sonst wo hin.
Man reduziert damit aber vor allem auch die Zugriffslatenzen

Tesseract

2011-11-29, 17:49:49

Denk an Rage, und wie dort Daten gestreamt werden. Das hat eigentlich ziemlich viel Potenzial, da man so auch wirklich extrem hochauflösende Texturen verwenden kann, die nie und nimmer in den RAM der GPU passen würden. Da kann sich in naher Zukunft schon ein extremer Flaschenhals auf tun.
und inwiefern sollte sich da z.B. fermi von kepler unterscheiden? so lange man nicht zwischen den karten auch die ingame-einstellungen und damit die voraussetzungen ändert sollte das doch keinen unterschied machen.

LovesuckZ

2011-11-30, 10:34:40

Meine gedankliche Checkliste:
1. Cray will 2012 ihren Titan mit HPC Kepler ausstatten.

Und sie wollen auch 2012 fertig sein. Wohl spätesten im Oktober, so dass man mit dem 20 Petaflops System an die #1 der Top500 Liste sowie mit 2,5 GFlops/Watt auch an die #1 der Green500 Liste kommt.

Da nVidia hierbei 18k Kepler Karten zur Verfügung stellen will/soll/muss, muss die Geforce-Kepler Karte mindesten 6 Monate früher auf dem Markt kommen. Und das wäre spätesten im April. Ansonsten könnte nVidia nichtmal annährend die 18k Chips für Titan produzieren.

Spasstiger

2011-11-30, 10:55:17

AnarchX

2011-11-30, 11:03:38

4Gamer hat schon viel Unsinn spekuliert. Wörtlich sollte man die Daten von dort nicht nehmen.

Imo könnte man es auch so interpretieren, dass GK100 wohl möglich in der Fertigung anfangs noch zu teuer ist für GeForces und man deshalb erstmal auf eine Dual-GK104-Lösung setzt.

Die Aussagen von Nvidia sind ja recht eindeutig:
The next-generation Kepler GPUs used in the Titan system will provide more than one teraflop of performance per chip.
http://blogs.nvidia.com/2011/10/titan-supercomputer-points-the-way-to-exascale/

Spasstiger

2011-11-30, 11:15:02

Man kann auch zwei Dies auf einem Träger als einen Chip bezeichnen, das ist sogar recht gängig. Beispiele: Intel Pentium D, Intel Core 2 Quad, Intel Core i3/i5 "Clarkdale", AMD Opteron "Interlagos", ATI Xenos.

4Gamer hat schon viel Unsinn spekuliert. Wörtlich sollte man die Daten von dort nicht nehmen.
Xbitlabs spricht auch von GK110 = Dual-GK104: http://www.xbitlabs.com/news/mobile/display/20111128233316_Nvidia_s_Next_Gen_Kepler_Graphics_Chips_to_Support_DirectX_11_1.h tml.

AffenJack

2011-11-30, 11:18:56

Xbitlabs spricht auch von GK110 = Dual-GK104: http://www.xbitlabs.com/news/mobile/display/20111128233316_Nvidia_s_Next_Gen_Kepler_Graphics_Chips_to_Support_DirectX_11_1.h tml.

Weil xbitlabs 4gamer als Quelle nennt, seit wann werden dinge wahr, wenn sie nur oft genug nachgeplappert werden?

AnarchX

2011-11-30, 11:21:29

Trotzdem fragwürdig, ob NV "vollen" DP-Durchsatz und vielleicht noch einen Interconnect auf ihrem Consumer-Zugpferd mitschleppen will.

Xbitlabs spricht auch von GK110 = Dual-GK104: http://www.xbitlabs.com/news/mobile/display/20111128233316_Nvidia_s_Next_Gen_Kepler_Graphics_Chips_to_Support_DirectX_11_1.h tml.
Man bezieht sich auf 4Gamer.

Und hier mal was zu Prognosegenauigkeit von 4Gamer:
http://img843.imageshack.us/img843/2199/001bmn.jpg
http://translate.google.de/translate?hl=de&sl=ja&tl=en&u=http%3A%2F%2Fwww.4gamer.net%2Fgames%2F099%2FG009929%2F20101015013%2F
4Gamer.net führt in ihrer Roadmap einen 216SPs 40nm D3D10.1 Chip, worüber es seit September in der Industrie Gerüchte geben soll:
http://translate.google.ch/translate?u=http%3A%2F%2Fwww.4gamer.net%2Fgames%2F095%2FG009528%2F20091105001%2F&sl=ja&tl=en&hl=de&ie=UTF-8

|MatMan|

2011-11-30, 11:24:19

Ist es denkbar, dass Titan mit Dual-GPU-Karten ausgestattet wird? Offenbar gibt NV der Dual-GK104-Lösung den Namen GK110. Vielleicht besitzt GK104 ja einen PCIe-Sideport, so dass man zwei GK104 auf einen Träger packen und diese Lösung als eine GPU verkaufen kann. Gerade im HPC-Business sind die Probleme bei AFR völlig irrelevant.
Dann müsste nVidia aber einen "turboschnellen" Interconnect erfunden haben, was vielleicht nicht gerade unmöglich ist bei der extrem kurzen Entfernung. Aber mit PCIe braucht man da nicht erst anfangen.
Trotzdem halte ich diesen Paradigmenwechsel in nVidias Strategie für unwahrscheinlich, außer vielleicht es gab wirklich extreme Probleme mit der Herstellung eines ~500 mm² Chips bei TSMC.

LovesuckZ

2011-11-30, 11:25:17

GF110 sieht gut aus. :D

Spasstiger

2011-11-30, 11:27:27

Dann müsste nVidia aber einen "turboschnellen" Interconnect erfunden haben, was vielleicht nicht gerade unmöglich ist bei der extrem kurzen Entfernung. Aber mit PCIe braucht man da nicht erst anfangen.
Ich hab ja vom HPC-Bereich gesprochen, der Supercomputer Titan wird 18.000 GPUs haben und die sind untereinander noch langsamer als über PCIe verbunden. Trotzdem kann man die Chips bis fast an die Peak-Performance heran auslasten.

Und AFR skaliert über PCIe auch sehr gut. Ich hab den Punkt mit dem PCIe-Sideport nur deshalb angesprochen, weil es ungeschickt wäre, noch einen dritten Die (nämlich einen PCIe-Switch) auf den GPU-Träger zu pfanzen.

Gipsel

2011-11-30, 11:57:28

Ist es denkbar, dass Titan mit Dual-GPU-Karten ausgestattet wird?Nein. Das paßt mechanisch nicht. So sehen die GPU-Steckkarten im Titan aus:
http://regmedia.co.uk/2011/05/22/cray_xk6_super_x2090_gpu.jpg

Sogar ein 512Bit Speicherinterface wird da mächtig knapp. :rolleyes:
Und größere Karten als die oben abgebildete X2090 passen einfach nicht in Die XK6-Blades. Die müssen außerdem mechanisch praktisch identisch aussehen (Befestigungslöcher zum Verschrauben mit dem Mainboard). Ich denke kaum, daß Cray Mitte/Ende 2012 nochmal alle Boards im Titan tauschen will. ;)

Spasstiger

2011-11-30, 12:23:20

Wer sagt denn, dass ein Dual-GK104-Package größer ausfallen müsste als ein GF110-Package? Man muss auch nicht das volle Speicherinterface anbinden, 2*256 Bit wären nicht gerade wenig. Vielleicht könnte man die verbleibenden 2*128 Bit sogar als Sideport mißbrauchen.

Im Supercomputing-Bereich spielt es keine Rolle, ob man Rechenleistung x bei Leistungsaufnahme y über einen dicken Die auf einem Träger oder über zwei Dies auf einem Träger erreicht, da ohnehin massiv parallelisiert wird. Consumer-Problem wie Mikroruckler @ AFR kennt man dort nicht.

Total abwegig finde ich den Gedanken nicht, mit einer Dual-Die-GPU im HPC-Segment anzutreten.

V2.0

2011-11-30, 12:32:18

Wer sagt, dass GK104 mehr als 256Bit hat...

Dural

2011-11-30, 12:33:08

naja schon beim GF104 kamen ja solche Gedanken hervor und ich denke das sie schon berechtigt sind, den der rechteckige Die des GF104/GF114 spricht ganz klar für diese These.

Ich hab nämlich gerade letzte Woche GF110 und GF114 Package verglichen und bin fast davon überzeugt das zwei GF114 Die in ein GF110 Package passen könnten, jedoch aber ohne PCI-E Chip.

|MatMan|

2011-11-30, 12:58:38

Ich hab ja vom HPC-Bereich gesprochen, der Supercomputer Titan wird 18.000 GPUs haben und die sind untereinander noch langsamer als über PCIe verbunden. Trotzdem kann man die Chips bis fast an die Peak-Performance heran auslasten.
Ja ok in dem Anwendungsbereich spielt eine quasi Verdopplung der GPUs, wenn sich deren Problem so perfekt paralleliseren lässt, wohl eine untergeordnete Rolle. Mir klang deine Aussage nur etwas zu allgemein auf den compute Bereich von GPUs bezogen.

Ohne "dicke" GPU wäre ja das ganze Tesla Business betroffen. Es gäbe praktisch keine Leistungssteigerung von der aktuellen zur nächsten Generation wenn die Leistung pro GPU etwa gleich bleibt. Es ist schon schwierig genug performanten Code zu schreiben um eine GPU auszulasten. Über mehrere GPUs zu skalieren ist nochmal eine andere Geschichte.

Neurosphere

2011-11-30, 13:42:14

Irgendwie kann ich mir diese Dualchipversion die dann auch noch langsamer sein soll (glaubt man mal der Roadmap) als der spätere, wahre High End Chip nicht vorstellen.

Coda

2011-11-30, 14:38:46

Dann müsste nVidia aber einen "turboschnellen" Interconnect erfunden haben, was vielleicht nicht gerade unmöglich ist bei der extrem kurzen Entfernung. Aber mit PCIe braucht man da nicht erst anfangen.
Trotzdem halte ich diesen Paradigmenwechsel in nVidias Strategie für unwahrscheinlich, außer vielleicht es gab wirklich extreme Probleme mit der Herstellung eines ~500 mm² Chips bei TSMC.
Sie haben ein Patent darauf Teile des Speicherinterfaces dafür zu verwenden.

|MatMan|

2011-11-30, 14:55:27

Sie haben ein Patent darauf Teile des Speicherinterfaces dafür zu verwenden.
Was für Bandbreiten würdest du damit denn als realistisch erreichbar schätzen?
Wenn man auf L2 Cache Ebene synchronisieren wollte wären das bei Fermi so ~250 GB/s (hab die genaue Zahl für die L2 Cache Bandbreite grad nicht zur Hand) hmm...

AnarchX

2011-11-30, 14:57:31

Mehr als die 4-5Gbps, mit der auch der GDDR betrieben wird, wird wohl nicht möglich sein. Bei 128 von 384-Bit: 64-80GB/s.

Dural

2011-11-30, 15:17:13

sinnvoller wäre da sicher einen gemeinsamen speicher, dies dürfte jedoch nicht so einfach werden.

Coda

2011-11-30, 15:19:40

Der Interconnect muss dafür da sein, dass der Speicher gemeinsam genutzt werden kann, sonst funktioniert es nicht.

Mehr als die 4-5Gbps, mit der auch der GDDR betrieben wird, wird wohl nicht möglich sein. Bei 128 von 384-Bit: 64-80GB/s.
Da wird sicher mehr gehen auf dem Träger mit festen Leitungslängen etc.

Aber: Reine Spekulation, ich sehe da auch viele Probleme. Die Bandbreite müsste schon recht hoch sein.

Gipsel

2011-11-30, 17:38:39

Silicon Interposer to the rescue. ;)

Xilinx packt bis zu vier Dies nebeneinander, die sich dann wie ein einziger FPGA verhalten. Die haben mehrere tausend Verbindungen, da kommt ein 128 Bit DDR Interface nie hin.

|MatMan|

2011-11-30, 18:44:37

Das ganze von einem 20W FPGA auf eine 200-300W GPU zu skalieren ist sicherlich nicht trivial. Wäre toll wenn nVidia so eine Lösung hinbekommen hätte - ich kanns mir trotzdem nur schwer vorstellen dass nVidia so innovativ ist. Gerade wo man die größeren Veränderungen bisher doch eher mit Maxwell erwartet hat.

Gipsel

2011-11-30, 23:03:48

Ich hab ja nicht gesagt, daß es mit Kepler kommt, sondern nur, daß man das Problem eventuell so lösen kann. Und der Stromverbrauch ist doch auch kein Argument. Es ist doch so, daß bei GPUs das (Power-)Budget sogar noch mehr bzw. schnellere Verbindungen als bei den FPGAs hergeben würde. ;)

Coda

2011-11-30, 23:31:56

Ich fürchte aber, dass da der Pinout evtl. kosten würde?

Gipsel

2011-11-30, 23:45:14

Das ist ja das gute an den Si-Interposern, die Verbindungen muß man weder auf's externe Package durchführen (die kosten also keinen einzigen Pin am Package), noch muß man die mit riesigen Treibern wie die externen Verbindungen versehen (die ja bekanntlich nicht mit der Prozeßgröße schrumpfen). Der Pitch für die Interposer-Verbindungen ist auch deutlich enger (http://www.forum-3dcenter.org/vbulletin/showthread.php?p=9010340#post9010340), man bekommt auf die gleiche Fläche also anderthalb Größenordnungen mehr Verbindungen (geht quadratisch mit dem Pitch).

Edit:
Wie in dem verlinkten Post schon gesagt, behauptet Xilinx bei gleichem Stromverbrauch eine Faktor 100 (!) höhere Bandbreite mit einem Fünftel der Latenz im Vergleich zu Verbindungen der Dies über das organische Substrat.

Coda

2011-12-01, 00:15:59

Ah okay, das wusste ich nicht, dass der Pitch geringer ist. Wieso eigentlich?

|MatMan|

2011-12-02, 13:36:33

Und der Stromverbrauch ist doch auch kein Argument. Es ist doch so, daß bei GPUs das (Power-)Budget sogar noch mehr bzw. schnellere Verbindungen als bei den FPGAs hergeben würde. ;)
Mir ging es bei der Leistungsaufnahme nicht darum was die Verbindung an Strom verbraucht, sondern dass die 200-300W durch den Interposer durch müssen (so wie ich das verstanden habe) - also bezogen auf z.B. dadurch verursache Störsignale, thermische Auswirkungen, ... .

Ein anderer Punkt sind Kosten. Der Interposer muss ja genauso groß sein wie alle Dies zusammen. Zwar ist der Prozess ein billigerer, trotzdem braucht man dafür eben noch einmal zusätzliche Waferfläche. Wenn der Interposer-Prozess halb so teuer wie der "GPU-Prozess" wäre würde das die Kosten ja immernoch um 50% pro "verschmolzener" GPU nach oben treiben (oder hat hier jemand bessere Zahlen?). Das wäre schon eine immense Verteuerung bis Interposer durch ein spezielisiertes Herstellungsverfahren sehr billig werden ...

Coda

2011-12-02, 14:37:14

Warum sollte das ein Problem sein? Das sind effektiv nur mehr Metallagen.

AnarchX

2011-12-02, 14:45:17

Ein anderer Punkt sind Kosten. Der Interposer muss ja genauso groß sein wie alle Dies zusammen. Zwar ist der Prozess ein billigerer, trotzdem braucht man dafür eben noch einmal zusätzliche Waferfläche. Wenn der Interposer-Prozess halb so teuer wie der "GPU-Prozess" wäre würde das die Kosten ja immernoch um 50% pro "verschmolzener" GPU nach oben treiben (oder hat hier jemand bessere Zahlen?). Das wäre schon eine immense Verteuerung bis Interposer durch ein spezielisiertes Herstellungsverfahren sehr billig werden ...
Bei Xilinx wird für die 28nm FPGAs ein 65nm CMOS Interposer verwendet. Das dürfte doch deutlich günstiger als 50% sein?

btw.
GK107 bestätigt:

[DEV_0FDB&SUBSYS_10AC1043] NVIDIA GK107-ESP-A1
[DEV_0FDB&SUBSYS_14471043] NVIDIA GK107-ESP-A1
[DEV_0FDB&SUBSYS_21031043] NVIDIA GK107-ESP-A1
[DEV_0FDB&SUBSYS_21051043] NVIDIA GK107-ESP-A1
[DEV_0FDB&SUBSYS_21151043] NVIDIA GK107-ESP-A1
[DEV_0FDB&SUBSYS_21161043] NVIDIA GK107-ESP-A1
[DEV_0FDB&SUBSYS_21171043] NVIDIA GK107-ESP-A1
[DEV_0FDB&SUBSYS_21181043] NVIDIA GK107-ESP-A1
[DEV_0FDB&SUBSYS_212D1043] NVIDIA GK107-ESP-A1
http://forums.laptopvideo2go.com/topic/29042-v29518-windows-7vista-64bit-asus-mobile/
Das dürften auch GK107 SKUs sein:

[DEV_0FD1&SUBSYS_21031043] NVIDIA N13P-GT
[DEV_0FD1&SUBSYS_21051043] NVIDIA N13P-GT
[DEV_0FD2&SUBSYS_10BC1043] NVIDIA N13P-GS
[DEV_0FD2&SUBSYS_10CC1043] NVIDIA N13P-GS
[DEV_0FD2&SUBSYS_14471043] NVIDIA N13P-GS
[DEV_0FD2&SUBSYS_10AC1043] NVIDIA N13P-GS
[DEV_0FD4&SUBSYS_21151043] NVIDIA N13E-GE
[DEV_0FD4&SUBSYS_21161043] NVIDIA N13E-GE
[DEV_0FD4&SUBSYS_21171043] NVIDIA N13E-GE
[DEV_0FD4&SUBSYS_21181043] NVIDIA N13E-GE
[DEV_0FD4&SUBSYS_212D1043] NVIDIA N13E-GE
Die dazu gehörigen Bezeichnung von CB:

GTX 660M N13E-GE 128 Bit
GT 650M N13P-GT 128 Bit
GT 640M N13P-GS 128 Bit
http://www.computerbase.de/news/2011-11/details-zu-anstehenden-28-nm-grafikloesungen-von-nvidia/

Wohl eine kleine 128-Bit Cash-Cow.

Die 560M (192SPs@1550Mhz + 192-Bit@2,5Gbps) heißt es zu überbieten.

Dural

2011-12-02, 15:10:33

gross überbieten wird nichts, das ding hat wohl nur 256SP

GTX270 Leistung dürfte aber sicher drin liegen.

AnarchX

2011-12-02, 15:20:08

Laut Charlie soll N13E-GE 11.000 Punkte wohl im 3DMark Vantage erreichen: http://semiaccurate.com/2011/08/23/nvidias-28nm-mobile-lineup-leaked/
Also wohl etwa ~20% Leistungszuwachs gegenüber 560M: http://www.notebookcheck.com/NVIDIA-GeForce-GTX-560M.48293.0.html
Gleichzeitig sollte aber auch die TDP um fast 30W(40%) sinken.

LovesuckZ

2011-12-02, 15:33:09

Die 670M ist auch schon im Treiber gelistet. Das müsste dann GK104 sein. Immerhin hat nVidia für die GTX570M auch GF104/GF114 verwendet.

AnarchX

2011-12-02, 15:41:49

Die Device-ID spricht eher für GF114:
[DEV_1210&SUBSYS_14871043] NVIDIA GeForce GTX 570M
[DEV_1210&SUBSYS_21041043] NVIDIA GeForce GTX 570M
[DEV_1213&SUBSYS_21191043] NVIDIA GeForce GTX 670M

Für die P15K müsste dieser aber dann auf GTX 580M Niveau laufen: http://www.notebookcheck.com/NVIDIA-GeForce-GTX-580M.56633.0.html

Oder die Pläne haben sich mittlerweile etwas geändert...

LovesuckZ

2011-12-02, 15:59:31

Ich bezweifel, dass wir nochmal alten Prozeß und neuen Prozeß in solch einer Konstellation nach dem 40nm Debakel sehen werden. Vorallem, wenn nVidia gleichzeitig das Perf/Watt verhältnis von Kepler gegenüber Fermi hervorhebt.

Ailuros

2011-12-06, 14:57:45

So das einzige was an der daemlichen road-map (silly season yadda yadda) stimmen soll ist dass GK104 tatsaechlich ueber 2TFLOPs hat. Sonst gibt es keine mGPU um high end zu decken und auch keinen "GK112". Und ja natuerlich gibt es einen high end chip nach GK104.

GK106 und 107 sind nicht der gleiche chip. Ich will nur hoffen dass NV nicht AMD's Schiene nachmacht und den 104 ebenso mit ziemlich hohem Preis veroeffentlicht.

AnarchX

2011-12-06, 15:00:33

Also wohl mehr als 512SPs?

Spekulation:
GK104: 768SPs@256-Bit
GK106: 384SPs@192-Bit
GK107: 256SPs@128-Bit

GK100/GK110: 1024 Extreme-SPs @ 512-Bit

Dural

2011-12-06, 15:08:21

256Bit für 768SP wäre bischen mager und 512Bit für 1024SP etwas extrem, meinst du nicht auch? :)

vielleicht hat GK100 ja über 1024SP, wie wäre es mit 1280SP :)

ich denke aber ehner das es 384Bit bei 1024SP sein werden

AnarchX

2011-12-06, 15:10:41

Wenn man doch wieder mit GK104 in Richtung 400mm² geht, wären wohl auch mehr als 256-Bit denkbar. Auf der anderen Seite könnte man aber auch den IMC auf die Verwendung von 6Gbps GDDR5 optimieren.

Dural

2011-12-06, 15:13:20

Mainstream mit 384Bit? Das glaub ich nicht.

6Gbps wäre sicher eine lösung, aber ob das NV hinbekommt :confused:

Ailuros

2011-12-06, 15:21:34

Also wohl mehr als 512SPs?

Spekulation:
GK104: 768SPs@256-Bit
GK106: 384SPs@192-Bit
GK107: 256SPs@128-Bit

GK100/GK110: 1024 Extreme-SPs @ 512-Bit

Keine Ahnung zu den SPs aber ja afaik 256bit fuer 104; was zum Henker sind wieder "extreme" SPs? Wieso 512bit fuer den top dog? Weil irgend jemand eine roadmap frei erfunden hat und es fuer ihn Sinn machte? Ich kann zwar noch nichts ausschliessen aber mir wuerden auch 384bit keinen Eindruck machen.

Wie erwartet es gibt keinen "GK112".

Wenn man doch wieder mit GK104 in Richtung 400mm² geht, wären wohl auch mehr als 256-Bit denkbar. Auf der anderen Seite könnte man aber auch den IMC auf die Verwendung von 6Gbps GDDR5 optimieren.

Ihr scheint zu vergessen dass GF114 eine relativ hohe theoretische floating point Leistung hat im Vergleich zur verfuegbaren Bandbreite.

GF114 = 1263 GFLOPs <-> 128.0 GB/s
GF110 = 1581 GFLOPs <-> 192.4 GB/s

Waeren die Unterschiede zwischen den beiden chips nicht so gross und man wuerde nur von der Bandbreite vom GF110 ausgehen muesste der 114 gleich 154 GB/s haben (und ja es ist eine alberne Milchmaedchren-rechnung, aber es soll helfen dass man fuer solche chips keine Uebermengen an Bandbreite braucht).

AnarchX

2011-12-06, 15:23:23

Ein 512-Bit SI Kepler könnte aber große Mengen an Speicher mit niedriger Spannung verwenden, ohne bei der Bandbreite Einbußen zu erfahren, bezogen auf den Einsatz als Tesla. ;)

Ailuros

2011-12-06, 15:55:12

Ein 512-Bit SI Kepler könnte aber große Mengen an Speicher mit niedriger Spannung verwenden, ohne bei der Bandbreite Einbußen zu erfahren, bezogen auf den Einsatz als Tesla. ;)

HPC GPUs brauchen so oder so weniger Bandbreite als im Desktop; wie dem auch sei seit wann sind Kosten in dem Bereich ueberhaupt relevant bei den Preisen die die Dinger kosten?

Skysnake

2011-12-06, 16:23:28

Ailuros

2011-12-06, 16:45:24

ähm Ailuros, da bist du aber extrem daneben. GPUs sind sehr oft rein durch den RAM limitiert, bzw durch de PCI-E Port.

Also Bandbreite auf den ram braucht man definitiv.Die heute haben doch schon zu wenig Bandbreite/zu wenig Cache für die gegebene Rechenleistung. Deswegen schafft man ja z.b. Nur rund 350 GFlop/s bei DGEMM und ner Tesla. Du bist da schlicht bandbreitenlimitiert.

Ich hab nirgends behaupte dass professionelle GPUs keine Bandbreite brauchen sondern weniger als im desktop als indirektes Resultat der geringeren FLOP Raten. Zeig mir mal wieviel Bandbreite alle bisherige Teslas hatten im direkten Vergleich zu desktop GPUs mit den gleichen chips ausgeruestet.

Wenn es einer jeglichen Architektur an Bandbreite bzw. cache fehlt dann ist es eher ein Architektur-bedingtes Problem und es wird Dir ein jegliches Problem nicht loesen selbst wenn man theoretisch auf einer Tesla den Speicher fuer >200GB/s Bandbreite uebertakten koennte.

Skysnake

2011-12-06, 16:53:14

Ailuros

2011-12-06, 17:07:23

naja, man hat halt gewisse flaschenhälse, die sollte man aber nicht schlimmer machen als nötig. Bei den Teslas hängt die niedrigere Bandbreite meines Wissens nach ja mit dem ECC-RAM zusammen.

Na uns oc macht halt da keiner, auch wenn es teils 1 zu 1 in Mehrleistung umgesetzt werden würde.

und wie gesagt, selbst sie Desktop-Bandbreiten wären noch zu gering. Die doppelte bis 3fache Bandbreite das perfekt. Alternativ halt größere Caches um die Datenlokalität zu verbessern

Dann uebertakt mal bei einer high end Desktop GPU nur den Speicher und lass mich wissen was dabei raus kommt. Ausser ich hab irgend einen Grenzfall verpasst bekam ich bis stets 1/3 mehr Leistung bei N Speicher-Frequenzsteigerung (z.B. +15% Speicherfrequenz = ~+5% Leistung im Durchschnitt und noch dummer ab einem Punkt dann gar nicht mehr). Ausser natuerlich Du willst mir einreden dass die 3D Leistung auf einer GTX580 um >66% steigen wird bei einer hypothetischen Speicheruebertaktung auf dem Nordpol fuer 200% hoehere Speicherfrequenz (und nein irgend ein daemlicher Fall in einer Ueberaufloesung mit einer Unzahl an SSAA samples ist wohl nicht die richtige Antwort).

HPC ist NV's Bier und den Kunden die solche Systeme brauchen und bezahlen koennen. Du kannst mir als Endverbraucher fuer eine desktop GPU nicht einen um X% hoeheren Preis verlangen nur sie mit zusaetzlichen Uebermengen an Bandbreite auszuruesten damit sie in der Mehrzahl der Faelle nur dumm rumhockt.

Irgendwann wird es schon brutale Bandbreiten-Steigerungen geben in der Zukunft, aber dafuer wird auch die eigentliche hw sich brutal in Leistung steigern.

V2.0

2011-12-06, 17:44:05

Ailuros

2011-12-06, 19:11:12

Aber ob das eine Verbreiterung des Interfaces, oder einfach schnelleren Speicher bedeutet, wird man sehen müssen. Imho hat NV im Bezug auf GF114 durchaus genug Raum um mit 256Bit ausreichende Leistung zu schaffen und wahrscheinlich wird auch 384Bit für den großen Chip reichen. (müssen)

Wie gesagt ich kann einen 512bit bus noch nicht ausschliessen. High end Kepler duerfte in dem Fall so viel Bandbreite benoetigen dass GDDR5@384bit sie nicht mehr liefern kann. Wenn sie auf 512bit gestiegen sind, wird mit aller Wahrscheinlichkeit sowieso die Speicherfrequenz niedriger sein als mit 384bit, sonst wird die GPU zu teuer.

Skysnake

2011-12-06, 20:38:47

Dann uebertakt mal bei einer high end Desktop GPU nur den Speicher und lass mich wissen was dabei raus kommt. Ausser ich hab irgend einen Grenzfall verpasst bekam ich bis stets 1/3 mehr Leistung bei N Speicher-Frequenzsteigerung (z.B. +15% Speicherfrequenz = ~+5% Leistung im Durchschnitt und noch dummer ab einem Punkt dann gar nicht mehr). Ausser natuerlich Du willst mir einreden dass die 3D Leistung auf einer GTX580 um >66% steigen wird bei einer hypothetischen Speicheruebertaktung auf dem Nordpol fuer 200% hoehere Speicherfrequenz (und nein irgend ein daemlicher Fall in einer Ueberaufloesung mit einer Unzahl an SSAA samples ist wohl nicht die richtige Antwort).

HPC ist NV's Bier und den Kunden die solche Systeme brauchen und bezahlen koennen. Du kannst mir als Endverbraucher fuer eine desktop GPU nicht einen um X% hoeheren Preis verlangen nur sie mit zusaetzlichen Uebermengen an Bandbreite auszuruesten damit sie in der Mehrzahl der Faelle nur dumm rumhockt.

Irgendwann wird es schon brutale Bandbreiten-Steigerungen geben in der Zukunft, aber dafuer wird auch die eigentliche hw sich brutal in Leistung steigern.

Wer redet von zocken?

Ich rede von DGEMM und nichts anderem...

Meine CUDA3 SGEMM Version war z.b. Rein durch den Speicher limitiert, und das trotz nutzen des shared Mems etc. Da hab ich über 60% vom Peak-wert erreicht, den Nvidia aus den Karten presst. Wir haben das vorher schon ausgerechnet, was wir aufgrund der Caches, Ram, Interfacebreite und damit halt der Bandbreite, mit der wir die Daten zu den ALUs bekommen. Damit ergibt sich dann die maximal erreichbaren FLop/s. Naja und die haben wir auf ein paar % auch erreicht.

Datenlokalität erhöht und BAMM Faktor 2 schneller gewesen. SGEMM war bei der GTX460 halt komplett von der Bandbreite limitiert. Ich hab's jetzt nicht testen können, aber da hätte jede Bandbreitenethohung so ziemlich 1:1 in mehr FLop/s umgesetzt werden sollen.

Ist halt immer die Frage, ob man Compute oder Bandbreiten/IO limitierte ist.

Na ja und Flächenhafte eliminieren ist immer gut, da man dadurch öfters auch die GPUs gewinnbringend einsetzen kann.

Dural

2011-12-06, 20:48:56

GK100 muss eh richtig krass reinhauen, aktuell ist schon die GTX580 eine Wucht gerade mit OC dreht die Karte kreise um die 6970... da die Fermi Architektur exzellent mit Einheiten und Takt skaliert, was bei AMD überhaupt nicht der Fall ist! zudem sind es richtige OC krücken, was ich persönlich gar nicht ausstehen kann. :frown:

NV muss nur ein paar Detail Verbesserungen vornehmen und schauen das man die gute Skalierung auch mit doppelt so vielen Einheiten (die dank 28nm möglich sein sollten) so gut hinbekommt, wenn ja haben sie schon mal einen Chip mit ca. 80% mehr Leistung als GF110.

Das grösste Problem sehe ich Aktuell bei der Bandbreite / ROPs.

Ailuros

2011-12-06, 20:58:10

Wer redet von zocken?

Ich rede von DGEMM und nichts anderem...

Gut dann zitiere ich aus Deinem vorigen Post:

und wie gesagt, selbst sie Desktop-Bandbreiten wären noch zu gering...

Meine CUDA3 SGEMM Version war z.b. Rein durch den Speicher limitiert, und das trotz nutzen des shared Mems etc. Da hab ich über 60% vom Peak-wert erreicht, den Nvidia aus den Karten presst. Wir haben das vorher schon ausgerechnet, was wir aufgrund der Caches, Ram, Interfacebreite und damit halt der Bandbreite, mit der wir die Daten zu den ALUs bekommen. Damit ergibt sich dann die maximal erreichbaren FLop/s. Naja und die haben wir auf ein paar % auch erreicht.

Die maximalen theoretischen Werte die NV oder jegliches NV angibt (wobei Intel's LRB von "Natur" aus ein anderes Tier ist; ist aber auch nur in diesem Bereich ein wirkliches "Talent") wirst Du so oder so wohl schwer erreichen. Es ist nicht so dass mehr Speicher bzw. Bandbreite nicht bessere Raten geben wuerde, aber ich bezweifle ernsthaft dass es das eigentliche Problem loesen wuerde. Eine Alternative waere Intel Knights Corner, aber setz den Brummer um Himmel's Willen nicht als 3D GPU ein.

http://semiaccurate.com/2011/11/17/intel%E2%80%99s-22nm-knights-corner/

Datenlokalität erhöht und BAMM Faktor 2 schneller gewesen. SGEMM war bei der GTX460 halt komplett von der Bandbreite limitiert. Ich hab's jetzt nicht testen können, aber da hätte jede Bandbreitenethohung so ziemlich 1:1 in mehr FLop/s umgesetzt werden sollen.

Ist halt immer die Frage, ob man Compute oder Bandbreiten/IO limitierte ist.

Na ja und Flächenhafte eliminieren ist immer gut, da man dadurch öfters auch die GPUs gewinnbringend einsetzen kann.

Das dumme ist eben dass egal ob AMD oder NVIDIA keine dedizierte HPC GPUs entwickeln koennen, weil dafuer die Maerkte einfach nicht gross genug sind. In solch einem und da man sowohl Profi als auch mainstream-Maerkte mit einem chip bedienen muss, kann es auch nur tradeoffs fuer beide Seiten geben. Es kann nur eine so gut wie moegliche Balance geben; sonst werden entweder fuer die oder die andere Seite zu viele Transistoren geopfert.

Und nein Platz fuer IHVs die nur professionelle GPUs herstellen gibt es leider nicht mehr.

boxleitnerb

2011-12-06, 20:58:33

80%, bei gleicher Leistungsaufnahme? Das wäre bei Nvidia neu. Ich will es glauben, kann es aber nicht so recht.

Ailuros

2011-12-06, 21:10:10

Dural

2011-12-06, 21:14:47

80%, bei gleicher Leistungsaufnahme? Das wäre bei Nvidia neu. Ich will es glauben, kann es aber nicht so recht.

Deswegen schreib ich auch ganz bewusst vom "Chip" und nicht von Grafikkarte, den ich denke auch nicht das NV eine Single Chip Karte raus bringt die deutlich mehr Verbraucht als die GTX580.

Es wird an 28nm liegen...

Kepler ist momentan genauso ein grosses Fragezeichen wie auch GCN/SI.

sehe ich nicht so.

Ailuros

2011-12-06, 21:19:26

sehe ich nicht so.

Es sind nichtmal rohe Daten fuer weder/noch bekannt und Du weisst schon ueber die Uebertaktbarkeit beider bescheid? :rolleyes:

Dural

2011-12-06, 21:28:54

Es sind nichtmal rohe Daten fuer weder/noch bekannt und Du weisst schon ueber die Uebertaktbarkeit beider bescheid? :rolleyes:

Das war rein auf die Architektur bezogen und da dürfte Kepler zum grössten teil auf Fermi passieren oder siehst du das nicht so? Und somit ist es sicher nicht die grosse unbekannte wie es bei AMD der fall ist, da komplett was neues.

Ailuros

2011-12-06, 21:41:05

Das war rein auf die Architektur bezogen und da dürfte Kepler zum grössten teil auf Fermi passieren oder siehst du das nicht so?

Kepler ist offensichtlich keine so verschiedene Architektur wie Fermi im Vergleich zu G8x/GT2xx war. Das sollte aber nicht heissen dass es eine ziemlich naive Weiter-entwicklung ist; dafuer haetten sie sich gleich die Kosten sparen koennen und haetten lieber zu einem shrink mit ein paar Modifikationen gegriffen.

Weder noch sagt aber etwas ueber die Uebertaktbarkeit einer GPU aus. Es gibt noch zu viele unbekannte Faktoren.

Und somit ist es sicher nicht die grosse unbekannte wie es bei AMD der fall ist, da komplett was neues.

Siehe letzter Paragraph oben.

Raff

2011-12-06, 21:44:24

GK100 muss eh richtig krass reinhauen, aktuell ist schon die GTX580 eine Wucht gerade mit OC dreht die Karte kreise um die 6970... da die Fermi Architektur exzellent mit Einheiten und Takt skaliert, was bei AMD überhaupt nicht der Fall ist! zudem sind es richtige OC krücken, was ich persönlich gar nicht ausstehen kann. :frown:

Cayman dreht erst mit einer WaKü gescheit auf, da kann man schon mit 1,05 GHz rechnen. Unter Luft bleibt's bei höchstens einem Gigahertz, ja. Das genügt aber, um bei fiesen Einstellungen (2.560x1.600 mit SSAA) einer GTX 580 @ 950 MHz das Leben schwer zu machen. Je höher die Pixellast pro Polygon, desto ärger kotzt Fermi. Hoffentlich kann Kepler hier aufschließen, dieser Fokus auf (weitgehend ungenutzte) Polygonpower bringt aktuell wenig.

MfG,
Raff

Dural

2011-12-06, 22:01:15

naja da dürfte Cayman aber die 2GB "retten" (?) da ich eh nicht in so einer hohen Auflösung spiele (halt nur 24") ist mir das aber so ziemlich egal.

1000MHz von 880MHz ist ein plus von 15% die kaum auf dem Boden ankommen...

950MHz von 770MHz ist ein plus von 25% die ziemlich gut auf den Bildschirm kommen ;)

Da hat man im schnitt locker 30-40% unterschid zwischen den beiden Karten

Gipsel

2011-12-06, 22:04:20

naja da dürfte Cayman aber die 2GB "retten" (?)Da schlägt auch die höhere Roh-Shaderpower durch. Mehr Pixel pro Dreieck, mehr Pixel pro Statechange, Wavefront- <=> Warpgröße und so.
1000MHz von 880MHz ist ein plus von 15% die kaum auf dem Boden ankommen...

950MHz von 770MHz ist ein plus von 25% die ziemlich gut auf den Bildschirm kommen ;)Warum vermutest Du das?

Raff

2011-12-06, 22:07:11

Ja, es ist primär die Rechenkraft. Die gute Leistung gilt auch (bzw. gerade in) für Einstellungen, für die 1,5 GiB ausreichen. OC schlägt bei Cayman mit SSAA übrigens bestens durch – man sollte nur nicht vergessen, das Powertune-Limit auf +20 Prozent zu setzen. ;)

MfG,
Raff

gedi

2011-12-06, 23:25:39

Da schlägt auch die höhere Roh-Shaderpower durch. Mehr Pixel pro Dreieck, mehr Pixel pro Statechange, Wavefront- <=> Warpgröße und so.
Warum vermutest Du das?

weil er, abseits synthetischer Benchs, überhaupt keine Ahnung hat!

Hugo

2011-12-07, 06:00:07

Das war rein auf die Architektur bezogen und da dürfte Kepler zum grössten teil auf Fermi passieren oder siehst du das nicht so? Und somit ist es sicher nicht die grosse unbekannte wie es bei AMD der fall ist, da komplett was neues.

G80 war auch komplett neu und hat eingeschlagen wie ein Bombe ;)
Ohne konkrete Infos würde ich GCN/Kepler Leistungstechnisch nicht vergleichen oder gar einen davon abschreiben/bevorzugen

MorPheuZ

2011-12-08, 11:14:55

Weiss man eigentlich schon was über die Namensgebung? 6xxM Namensshema scheint ja der Mobilen Lösung zugehören. Wird ev. die GK1xx Variante unter Umständen GTX 7xx heissen können?

AnarchX

2011-12-08, 11:20:39

GK107 wird laut 295.18 als GeForce 600M vorgestellt werden. Und das es keine Desktop-OEM-GeForce 600 bisher gibt, sollte GK1xx auf dem Desktop GeForce 600 sein.

boxleitnerb

2011-12-08, 11:20:53

Ich könnte es mir gut vorstellen. Nvidia hat es ja schon bei der GTX280 und der GTX480 gemacht.

Edit:
M steht doch für Mobil. Was hat das mit Desktop zu tun?

Ailuros

2011-12-08, 11:22:40

GT(X) 6xx; es gibt keinen Grund fuer die erste Kepler Familie die 6xx zu ueberspringen. Von mir aus koennen sie die Dinger auch Bums9999 nennen so lange das Preis-/Leistungs-Verhaeltnis stimmt.

MorPheuZ

2011-12-08, 13:54:53

... Bums9999 ...

:biggrin: Netter Name.

Aber bei der letzten Version wars doch auch so dass die Mobile Sparte die 300er Zähler erhielten und Fermi dann 400er wiso diesmal nicht?

Ailuros

2011-12-08, 15:22:45

:biggrin: Netter Name.

Aber bei der letzten Version wars doch auch so dass die Mobile Sparte die 300er Zähler erhielten und Fermi dann 400er wiso diesmal nicht?

Daran hab ich nicht gedacht; um die Fermi basierenden cores (mobile hauptsaechlich) und desktop cores (Kepler) zu separieren hast Du tatsaechlich recht, dass es wieder Sinn machen koennte.

Hugo78

2011-12-08, 16:42:38

Naja die 300er waren nur Platzhalter.
Mobile 400er gabs dann auch schnell, als erstmal die Desktop 400er kamen.

Zumal NV mit ihren 600M namentlich bisher nur das Low-End abdeckt.
Da ist noch viel Raum > 635.

AnarchX

2011-12-08, 17:57:26

Hoffentlich, die .inf-Files der letzten Mobile-Treiber deuten abseits von GK107 als GTX 660M/GT 650M/GT 640M (http://www.forum-3dcenter.org/vbulletin/showthread.php?p=9061209#post9061209), eher auf eine Wiederverwendung von GF114 als GTX 670M/GTX 675M:
[DEV_1210] NVIDIA GeForce GTX 570M
[DEV_1211] NVIDIA GeForce GTX 580M
[DEV_1212] NVIDIA GeForce GTX 675M
[DEV_1213] NVIDIA GeForce GTX 670M
http://forums.laptopvideo2go.com/topic/29056-v28586-windows-7vista-32bit-nvidia-mobile/

Das wirft nicht gerade das positivste Licht auf eine baldige Verfügbarkeit von GK104. :|

Hugo78

2011-12-08, 19:45:55

Das wäre dann ja:
Fermi GF106/GF116 als 610M - 635M, dann Kepler GK107 als 640M - 660M und dann wieder Fermi GF114 = 670M/675M.
Hmm, klingt erstmal zu seltsam, da muss noch mehr kommen und sei es ein 28nm Shrink, aka GF114b.

Ich mein zwischen GF116 und GF114 ist ja leistungstechnisch nicht viel Luft.
Also sollten die GTX 670/675M doch noch mal schneller werden müssen damit GK107 da auch abseites besser Perf./W noch Platz hat.

Na mal schauen.

Edit #1:
Ich seh grad dein anderes Thema dazu.
http://www.forum-3dcenter.org/vbulletin/showthread.php?t=518475

Wenn GF106/116 nur Platzhalter für GF117 / 119 wären und ebend so GF114 nur solange die Fahne hoch hält, bis GK104 am Start ist, wäre es ne mögliche Variante.

Edit #2:
Das will ich aber nicht, denn es würde ja doch bedeuten, dass uns eine eher längere Durststrecke bis GK104 bevorsteht. meh ...

john carmack

2011-12-09, 12:46:34

Für wann sind die Desktop Kepler Karten für den Verkauf eigentlich geplant?

Raff

2011-12-09, 12:48:15

2012 aka "When it's done." ;)

Genaues weiß man nicht. Zur Cebit vermutlich. Oder gibt's neue Gerüchte?

MfG,
Raff

LovesuckZ

2011-12-09, 12:48:26

Zwischen Anfang Februar und Ende April.

john carmack

2011-12-09, 12:57:00

ok, jedenfalls 2-3 Monate nach AMD wenn es keine verzögerrungen gibt.
damit lässt sich doch erst mal leben.

Spannend wirds aber.

AMD mit ner neuer Architektur (was auch schwierigkeiten mit sich birngen kann)
Nvidia mit nem "verbesserten" Fermi...

Knuddelbearli

2011-12-09, 19:05:12

Zwischen Anfang Februar und Ende April.

na ich sage eher ende februar bis Anfang Mai, aber ist jetzt Haarspalterei ^^

LovesuckZ

2011-12-09, 19:20:32

nVidia's Q1 liegt aber zwischen Ende Januar und Ende April. :D

Knuddelbearli

2011-12-09, 19:24:41

nur traue ich NV aus Prinzip nicht mehr über den weg wenn es um den Launch geht seit ihrer Holzfermi ^^

Hugo78

2011-12-09, 19:35:19

Wo war das ein Launch?

Knuddelbearli

2011-12-09, 19:45:12

es war eine Ankündigung und eine Vorstellung.

Glaubst du jemand der dir gesagt hat die Fußgänger Ampel ist grün obwohl sie rot war etwa auf einmal wenn es um eine Fahrrad Ampel geht? ( sry doofer Vergleich aber mir fällt gerade nichts besseres ein ^^ )

LovesuckZ

2011-12-09, 19:50:19

Und was wurde angekündigt und vorgestellt? :|

Skysnake

2011-12-09, 20:13:10

das du dich an diese Dreistigkeit von Huang nicht erinnerst war ja klar...

Gipsel

2011-12-09, 22:13:55

Leute! In Bezug auf Kepler und Maxwell ist es doch vollkommen egal ob oder was damals angekündigt oder vorgestellt wurde (es war die Architektur), als Huang die Dummy-Karte mit den Worten "This puppy here is Fermi" in die Kameras hielt. Darüber solltet Ihr Euch hier nun wirklich nicht mehr streiten.

Skysnake

2011-12-09, 22:53:33

naja, aber es lässt aber schon gewisse Zweifel an nvidias Aussagen aufkommen.

zumal man ja erst von 2011 auf 2012 verschoben hat. Ich glaub schon, dass sie erst in Q2 kommen werden mit den Desktop-GeForce Karten.

davidzo

2011-12-09, 23:33:10

Gipsel, es ging doch darum ob man abschätzen kann wielange nach der Vorstellung der neuen Architektur (nicht erfolgt bis jetzt) man mit Karten rechnen kann (könnte lange dauern siehe Fermi).

Dass nvidia da letztes mal etwas zu dick aufgetragen hat um die Leute über den wahren Stand der Dinge hinwegzutäuschen ist ohne Frage, auch wenn du das gerne zu relativieren versuchst.
Das ist aber nur ein prekäres Detail, die Frage ist doch vielmehr, ob Kepler nicht vielleicht doch viel weiter entfernt ist als gedacht.

Es gibt ja schon fast traditionell einen deutlichen Abstand zwischen Architekturvorstellung und Verfügbarkeit und ersteres ist eben noch nicht erfolgt und nichtmal angekündigt (die presse muss geladen werden). Eine formale Architekturvorstellung gab es bei AMD ebenfalls noch nicht, dadurch ist man zumindest theoretisch noch im Rennen wer zuerst liefern kann...

Gipsel

2011-12-10, 00:01:40

Strategien ändern sich auch mal. Früher gab es z.B. von AMD immer erst Informationen über die Architektur, wenn die Karte zum Launch anstand (und nV hat mit dem G80 ja auch viele überrascht). Diesmal gab es für GCN schon ein halbes Jahr vorher eine Architekturpräsentation. Wer sagt denn, daß sich bei nVidia diese ~6Monate Abstand wie bei Fermi (die wahrscheinlich gar nicht so geplant waren) wiederholen werden? Warum nicht nur 3 oder 2 Monate vorher bzw. wenn die Architektur für die Software recht ähnlich aussieht sogar mal wieder erst direkt mit dem Launch?

Edit:
Eine formale Architekturvorstellung gab es bei AMD ebenfalls noch nicht,Das ist jetzt aber nitpicking. AMD hat zwar nichts zur Einheitenzahl und keine Details zu Frontend und ROPs verlauten lassen, aber die Architektur der Compute Units haben sie ziemlich breit ausgewälzt. Da gab es viel mehr Informationen, als nVidia je zu Fermi rausgegeben hat (die detaillierte Funktionsweise der SMs ist bis heute unbekannt).

Hugo78

2011-12-10, 01:04:04

Wer sagt denn, daß sich bei nVidia diese ~6Monate Abstand wie bei Fermi (die wahrscheinlich gar nicht so geplant waren) wiederholen werden?

Ja ebend.
Der Kepler basiert auf Fermi, so eine Weiterentwicklung hat bisher noch keiner verkackt.
NV wird einfach die Füsse stillhalten, bis sich definitiv abzeichnet ab wann sich die Produktion lohnt.

Alles steht und fällt mit der Yield.
Die Designs sind sicher schon alle fertig... genau wie Tegra3.

Neon3D

2011-12-10, 03:32:18

Ja ebend.
Der Kepler basiert auf Fermi, so eine Weiterentwicklung hat bisher noch keiner verkackt.
NV wird einfach die Füsse stillhalten, bis sich definitiv abzeichnet ab wann sich die Produktion lohnt.

Alles steht und fällt mit der Yield.
Die Designs sind sicher schon alle fertig... genau wie Tegra3.

seh' ich genau so. das ist doch auch der grund warum nvidia kepler erst ende april rausbringen wird, denn der umstieg auf 28nm ist nicht so einfach. in nem interview hat sich ein ingenieur darüber schon "ausgeweint", das die lebenszyklen der gpu/cpu`s deswegen deutlich gestiegen sind.
ati wird daher auch nicht gerade in riesigen mengen kommen, selbst wenn sie im januar si rausbringen. die ganzen mobile-hersteller muß man erst mal versorgen, der desktop-markt wird dann zuletzt bedient, also wieder 1-2 monate zusätzlich warten. dazu noch das neue design -> treiber werden auch nicht gerade top sein, wogegen bei kepler die nähe zu fermi deutlich bessere treiber vermuten läßt + der fokus auf leichtere programmierbarkeit des kepler => nvidia macht bei erscheinen den deutlich besseren eindruck.

und das dural nur bei synt.benches ahnung hat, finde ich vermessen. seine überlegungen machen doch durchaus sinn. ati bringt eine komplett neue architektur raus, weil die skalierung von cayman auf 28nm möglicherweise nicht die gewünschte performance leistet. hinzu kommt sicherlich noch ati`s fokus auf einen geringeren stromverbrauch, welche wieder für eine neue archtitektur spricht.

Ailuros

2011-12-10, 17:57:50

AnarchX

2011-12-10, 18:03:41

Lag wohl 4Gamer doch richtig mit dem 384-Bit SI? ~4 TFLOPs wird wohl GK104 nicht leisten können oder? :D

Bei 384-Bit könnte man wohl aber vermuten, dass NV bei seinen ~4Gbps bleibt, AMD wird wohl mit Tahiti wieder ~6Gbps erreichen wollen, was entsprechende Kosten am IMC und Pin-Out verursacht.

Hugo

2011-12-10, 18:10:00

@Ail
damit würde sich GK104 mit Tahiti messen. Da bin ich wirklich überrascht.
Weißt auch was zum Stromverbrauch? liegen da auch beide auf ähnlichem niveau?

boxleitnerb

2011-12-10, 18:11:44

4 TF für GK104 wäre eine extreme Steigerung. Wenn da noch zeitnah ein richtiges Highend-Modell darüber kommt (?) hätte Nvidia endlich die große Lücke bei der Rechenleistung nicht nur geschlossen sondern würde sogar mehr bieten. Kann ich mir nicht so wirklich vorstellen, das wäre ein krasser Bruch mit der bisherigen Strategie.

Ailuros

2011-12-10, 18:18:19

boxleitnerb

2011-12-10, 19:03:41

Hier stand Blödsinn.

AnarchX

2011-12-10, 19:07:22

264GB/s, also 5,5Gbps Speichertakt, wofür man aber wohl trotzdem 6Gbps Chips verwenden wird.

V2.0

2011-12-10, 19:37:10

Dei Frage ist eher in welchen Bedingungen GK104 ähnlich ist. TDP, Leistung, Anbindung des Speichers, Erscheinungsdatum, Die-Größe.

Raff

2011-12-10, 19:44:36

264GB/s, also 5,5Gbps Speichertakt, wofür man aber wohl trotzdem 6Gbps Chips verwenden wird.

Vermutlich. Die meisten HD-6970-Karten stemmen beim OC ihre 3 GHz, oft auch etwas mehr. Das wären an 384 Bit schon kranke 288 GB/s. =) Mit 3.125 MHz fiele die 300er-Mauer ... Davon können GF110-Karten nur träumen, da schaffen gute Modelle 2.400 MHz und die Lightnings/Matrizen mit der Keule auch 2.500-2.600 MHz.

MfG,
Raff

boxleitnerb

2011-12-10, 19:52:55

AwesomeSauce

2011-12-10, 19:59:55

Er schreibt von einer Überraschung und setzt einen Grinsesmiley dahinter. Ich will da jetzt nicht zuviel hineininterpretieren, aber das klingt für mich recht positiv.

Ich tippe auf Leistung oder Erschienungsdatum. Ich könnte mir vorstellen, dass GK100 ein 512bit Interface hat und GK104 auch ein 384bit. Reine Spekulation natürlich. Es ist ruhig um Kepler, das könnte ein gutes Zeichen sein wie bei G80 (was hier schon angesprochen wurde).
Ich würde da gar nich zu viel hineininterpretieren. Im Endeffekt lachen sich sowieso die Wissenden über die Spekulationen der Unwissenden einen ab.

Kommt Zeit, kommt Rat. Irgendwer wird schon nicht dichthalten können;)

boxleitnerb

2011-12-10, 20:01:27

AwesomeSauce

2011-12-10, 20:06:02

Das ist doch verständlich. Kepler wird anscheinend eher eine Evolution von etwas bekanntem. Bei AMD hingegen steht ein Architekturwechsel an, da sind halt mehr Fragezeichen vorhanden.

davidzo

2011-12-10, 20:13:03

Naja irgendwas muss man doch machen, sonst ist hier tote Hose. Ich find das generell interessant - in den Radeon Spekuthreads ist immer viel mehr los, nicht nur in diesem Forum, sondern im ganzen Netz.

die habens ja auch mehr nötig. amd ist halt der underdog, derzeit zwar kaum grafiktechnisch, aber man gönnt esIhnen einfach mehr, fiebert mit - das ist ganz natürlich, schließlich wollen wir consumer auf keinen Fall den Wettbewerber verlieren, kaufen aber im zweifelsfalle doch das überlegene Produkt :D

LovesuckZ

2011-12-10, 20:45:07

die habens ja auch mehr nötig. amd ist halt der underdog, derzeit zwar kaum grafiktechnisch, aber man gönnt esIhnen einfach mehr, fiebert mit - das ist ganz natürlich, schließlich wollen wir consumer auf keinen Fall den Wettbewerber verlieren, kaufen aber im zweifelsfalle doch das überlegene Produkt :D

Und ich dachte, dort ist mehr los, weil es auch schon mehr Informationen gibt. :|

Raff

2011-12-10, 20:46:37

Es ist ruhig um Kepler, das könnte ein gutes Zeichen sein wie bei G80 (was hier schon angesprochen wurde).

Es könnte aber auch bedeuten, dass die Kiste wirklich noch weit weg ist.

die habens ja auch mehr nötig. amd ist halt der underdog, derzeit zwar kaum grafiktechnisch, aber man gönnt esIhnen einfach mehr, fiebert mit - das ist ganz natürlich, schließlich wollen wir consumer auf keinen Fall den Wettbewerber verlieren, kaufen aber im zweifelsfalle doch das überlegene Produkt :D

Wenn Kepler erst im Frühjahr erscheint, Tahiti aber schon zu Neujahr, dann ist klar, wer lange das überlegene Produkt auf dem Markt hat. ;)

MfG,
Raff

boxleitnerb

2011-12-10, 20:51:46

Es könnte aber auch bedeuten, dass die Kiste wirklich noch weit weg ist.

Mach mir keine Angst...sowas wie HD5000 vs. Fermi will hier keiner nochmal sehen.

Wenn man nur auf bessere Yields warten würde, könnte man doch trotzdem ein paar Karten in homöopathischen Dosen zeitnah zu HD7000 launchen oder? Aber es ist ja nichtmal klar, ob GK100 existiert oder ob er seinen Tapeout gehabt hat. Wann war das denn bei G80 bekannt?

LovesuckZ

2011-12-10, 20:55:16

Es könnte aber auch bedeuten, dass die Kiste wirklich noch weit weg ist.

Und Tahiti kommt ca. 6 Monate nach der Ankündigung der Architektur. Es sagt also überhaupt nichts aus viel oder nichts zu wissen. ;D

boxleitnerb

2011-12-11, 07:51:59

Kepler könnte wirklich früher kommen als von vielen erwartet. Bei Newegg sind bereits seit fast zwei Wochen 580er von sechs Herstellern ausverkauft. Auf Anfrage wurde einem User auf Anandtech von Zotac gesagt, dass es nur noch die 580er gibt, die gelagert sind, neue kommen keine rein. Fry's (Hardwarekette in den USA) hat in ganz Kalifornien kaum noch 580er.

Die 560Ti/448 würde auch dafür sprechen, um die letzten GF110 Chips noch loszuwerden, bevor was Neues kommt.

HarryHirsch

2011-12-11, 07:56:02

boxleitnerb

2011-12-11, 08:03:53

Mal eine kurze Zwischenfrage:
Sind aktuelle Spiele eher durch die Füllrate oder durch die SP-Rechenleistung limitiert? Sind 4TF überhaupt nötig, wenn man beim Rest ein effizientes ausgewogenes Design hat?

Hugo78

2011-12-11, 08:34:04

Mal eine kurze Zwischenfrage:
Sind aktuelle Spiele eher durch die Füllrate oder durch die SP-Rechenleistung limitiert?

Sowohl als auch.

Die Frage, ist ja eine nach der Effizienz.
Doch wenn du so fragst, müssten wir wohl erstmal darüber reden, ob es nicht sinnvoller wäre, zunächst näher an der Hardware zuproggen und RAM und VRAM zuvereinen, statt weiter die Leistung zuerhöhen.

Nicht dass das letztlich realistisch wäre, aber wenn man sieht was man noch aus den Konsolen rausholen kann, nur weil man dort beides kann (mehr oder weniger),
dann wäre das eigentlich an erster Stelle.

Aber so, abhängig von APIs für maximale Kompatibilität, ist es glaube ich nicht sehr sinnvoll, darüber zu philosophieren, denn am ende müssen die Spieleentwickler mit dem leben was der HW Markt her gibt.

Wobei, wenn AMD und NV sich jetzt annhähern zum Grundkonzept her, wird die Frage nach Füllrate oder SP Leistung wohl eh hinfällig,
wenn beide IHVs vergleichbare Leistung in jedem Teilbereich liefern in Zukunft.

fondness

2011-12-11, 09:19:11

Damit es endlich mal Ruhe gibt und da ich gerade die meisten specs von 7970 im anderen thread bestaetigt habe: die Ueberraschung ist dass sich 104 dem vorigen mehr aehnelt als man sich vorstellen koennte. :D

Finde ich jetzt nicht so überraschend. IMO gibt NV mit Kepler den hot-clock auf, hoher Takt kostet zu viel perf/watt. Dann wären sich die beiden Architekturen wohl tatsächlich relativ ähnlich wenn NV auch noch etwas weiter entwickelt hat, bzw. wären dann natürlich bei GK104 genau so 2048SPs möglich.

Skysnake

2011-12-11, 09:28:04

Wo wurde denn bitte gesagt, das nVidia hotclock aufgibt???

john carmack

2011-12-11, 09:56:02

Ailuros

2011-12-11, 23:40:51

Finde ich jetzt nicht so überraschend. IMO gibt NV mit Kepler den hot-clock auf, hoher Takt kostet zu viel perf/watt. Dann wären sich die beiden Architekturen wohl tatsächlich relativ ähnlich wenn NV auch noch etwas weiter entwickelt hat, bzw. wären dann natürlich bei GK104 genau so 2048SPs möglich.

Wieso sollte NV den hotclock schon jetzt aufgeben? Zwar handelt es sich um eine alberne Milchmaedchen-rechnung denn GPUs bestehen NICHT nur aus ALUs, aber ich hab im Fall von TahitiXT 2048SPs@925MHz die (insgesamt als GPU und nicht nur ALUs) schaetzungsweise 50% mehr Leistung liefern als eine GTX580 mit 512SPs@1.544GHz.

3.79 TFLOPs = 1.581 TFLOPs +50%

Wenn eine GK104 hypothetisch ein Preis-/Leistungsziel einer 7950 hat (und nicht mehr) koennte man 20-25% davon reduzieren und auch bedenken dass wenn man an GF1x4 zurueckdenkt mehr SPs bzw. FLOPs pro SM nicht unbedingt insgesamt das bringen wie im high end.

davidzo

2011-12-12, 00:26:18

Dei Frage ist eher in welchen Bedingungen GK104 ähnlich ist. TDP, Leistung, Anbindung des Speichers, Erscheinungsdatum, Die-Größe.

Im Zweifelsfalle nur das Fett markierte.
Ich denke schon dass Tahiti etwas (nicht viel) höher ziehlt, alleine schon bei der Bandbreite müsste GK104 ja 448 oder gar 512bit haben um mit Tahiti gleichzuziehen.

Wieso sollte NV den hotclock schon jetzt aufgeben? Zwar handelt es sich um eine alberne Milchmaedchen-rechnung denn GPUs bestehen NICHT nur aus ALUs, aber ich hab im Fall von TahitiXT 2048SPs@925MHz die (insgesamt als GPU und nicht nur ALUs) schaetzungsweise 50% mehr Leistung liefern als eine GTX580 mit 512SPs@1.544GHz.

3.79 TFLOPs = 1.581 TFLOPs +50%

was ist denn das für ne rechnung?
1.581 tflops +50% sind 2.3715 tflops. korrekt müsste in deinem Satz 140% stehen, da du dich ja auf die gtx580 beziehst...
davon abgesehen, dass die prozentrechnung falsch ist ist, ist das auch rein auf die ALUs bezogen schon eine milchmädchenrechnung weil die Effizienz der GCN SPs noch eine große Unbekannte ist.

Skysnake

2011-12-12, 00:47:56

Ailuros, irgendwie versteh ich die heute und gestern nicht :ugly:

Du redest irgendwie wirsches Zeug stellenweise.

Du meinst, du hättest XY bestätigt und dann so was hier, wie 2048SPs@925 MHz. etc etc.

Kennst du die Daten von beiden Karten, oder nicht?

Man kanns echt nicht mehr stehen im Moment. Zur Not auch gern per PM an mich zu klären, aber so verstehen glaub ich die Leute grad nur Bahnhof, was du erzählst. Also zumindest mir geht es so.

Ailuros

2011-12-12, 01:14:07

was ist denn das für ne rechnung?

Es steht Milchmaedchenrechnung in meinem eigenen Text und auch dass eine GPU nicht nur aus ALUs besteht. Wie viele Warnungen braucht man denn in einem Paragraph damit sie der Leser auch verstehen kann?

1.581 tflops +50% sind 2.3715 tflops. korrekt müsste in deinem Satz 140% stehen, da du dich ja auf die gtx580 beziehst...

Nur sind die 50% die eingeschaetzte Zusatzleistung von einer 7970 im Vergleich zu einer GTX580. So in etwa GTX580+50% Leistung und ja nochmal bis es sitzt ES IST EINE SINNLOSE MILCHMAEDCHENRECHNUNG.

davon abgesehen, dass die prozentrechnung falsch ist ist, ist das auch rein auf die ALUs bezogen schon eine milchmädchenrechnung weil die Effizienz der GCN SPs noch eine große Unbekannte ist.

Moment vielleicht hilft es beim dritten Versuch: ES IST EINE SINNLOSE MILCHMAEDCHENRECHNUNG...argghhh :mad:

Ailuros, irgendwie versteh ich die heute und gestern nicht :ugly:

Du redest irgendwie wirsches Zeug stellenweise.

Mit Absicht.

Skysnake

2011-12-12, 01:17:52

Na dann :ugly:

=Floi=

2011-12-12, 01:42:30

warum sollte man die hotclock domäne wegtun? das ergibt doch keinen sinn und schon jetzt ist man problemlos bei 1,8ghz. Es zählt hier jedes mhz und selbst nur 30% mehr takt würden sich lohnen...

Gipsel

2011-12-12, 10:56:02

warum sollte man die hotclock domäne wegtun? das ergibt doch keinen sinn und schon jetzt ist man problemlos bei 1,8ghz. Es zählt hier jedes mhz und selbst nur 30% mehr takt würden sich lohnen...
Wenn Du mit der Hotclock-Domäne nur 30% mehr Takt rausholen würdest, aber dafür die Pipelinelänge verdoppeln mußt (Fermi hat eine mehr als doppelt so lange Pipeline wie die AMD-GPUs), macht es irgendwann keinen Sinn mehr. Längere Pipeline bedeutet nämlich mehr Threads in Flight nötig und damit größere Register notwendig usw. usf. Je nach genauem Design kann (muß aber nicht) es günstiger werden, auf Hotclock zu verzichten und lieber ein paar mehr normal getaktete Einheiten auf die gleiche Fläche zu quetschen (weil die dann auch kleiner sind, geht das).

Dural

2011-12-12, 11:02:04

wie so nur 30% :confused:

zb. 6970 hat 880MHz und zb. GF114 1650MHz auf den ALUs, das sind rund 90% mehr Takt.

Und Fermi hat so wie so einen recht nidrigen Hot-Clock, G92 hatte schon 1800MHz.

Übrigens war der Shader Takt bei alles NV GPUs bis jetzt nie gross das Problem, Die Shader benötigen nur sehr wenig Spannung um auf einen hohen Takt zu kommen! Ganz anders sieht es aber mit dem Core Takt aus, da wird recht schnell mehr spannung benötigt um höher zu kommen. Ich weis zwar nicht wie es bei Fermi ist, da man dies nicht aus testen kann dank fixem 1:2 teiler, aber ich bin davon überzeugt das auch bei Fermi ganz klar zuerst der Core Takt limitiert.

LovesuckZ

2011-12-12, 11:41:18

warum sollte man die hotclock domäne wegtun? das ergibt doch keinen sinn und schon jetzt ist man problemlos bei 1,8ghz. Es zählt hier jedes mhz und selbst nur 30% mehr takt würden sich lohnen...

Laut Scott sei es in Zukunft immer schwerer die Spannung mit einem Shrink zu senken. Dadurch wirkt sich ein Hochtaktdesign negativ deutlich stärker aus als wenn man mehr Cores mit geringerer Taktung und Spannung laufen lässt.

Coda

2011-12-12, 12:00:40

Keine Hotclock ist aber schon eine sehr deutliche Architekturänderung.

So etwas würde ich eher für Maxwell erwarten, außer Kepler bringt doch mehr Veränderungen als erwartet.

Gipsel

2011-12-12, 12:00:59

Und Fermi hat so wie so einen recht nidrigen Hot-Clock, G92 hatte schon 1800MHz.Fermi hat aber auch eine kürzere Pipeline als G80 und GT200 (18 vs. 24). ;)

Ailuros

2011-12-12, 15:30:13

Keine Hotclock ist aber schon eine sehr deutliche Architekturänderung.

So etwas würde ich eher für Maxwell erwarten, außer Kepler bringt doch mehr Veränderungen als erwartet.

Kann sein dass es doch stimmt am Ende; das zwielichtige Zeug dass ich bisher bekommen habe ist schwer auf Anhieb zu deuten und da im gleichen Text Tahiti mit 104 Infos vermischt waren, dachte ich dummerweise dass GK104 einen 384bit bus hat. Es sind nur 256bit auf GK104.

V2.0

2011-12-12, 16:56:15

Also dürfte GK104 in der Leistung deutlich unter Tahiti liegen.

AnarchX

2011-12-12, 17:03:38

Mit ~2,5 TFLOPs und 5,5Gbps GDDR5 könnte man sich wohl ähnlich positionieren, wie die GTX 560 Ti zu den HD 6900ern. Zumal der Unterschied bei der Rechenleistung diesmal um einiges geringer sein könnte: ~50% statt 100% Unterschied.

Ailuros

2011-12-12, 17:25:38

Also dürfte GK104 in der Leistung deutlich unter Tahiti liegen.

Nein. Da Tahiti IMHO ihre Bandbreiten-Steigerung mehr fuer arithmetischen Schnickschnack und relativ weniger fuer 3D braucht, koennte es durchaus sein dass die 256bit Busbreite bzw. die dadurch entstehende Bandbreite fuer den GK104 nicht unbedingt limitieren. NV wird den 104 wohl nicht fuer HPC einsetzen sondern GF110.

AMD hat im gegebenen Fall keine andere Wahl als nur Tahiti fuer HPC; einen groesseren single chip wird es ja nicht geben.

Sonst lehn ich mich mal aus dem Fenster und behaupte dass die area:

Tahiti/28nm > GF114/40nm > GK104/28nm.

AnarchX,

Die Meldung fuer GK104 war "weit ueber 2TFLOPs".

AnarchX

2011-12-12, 17:30:06

Sonst lehn ich mich mal aus dem Fenster und behaupte dass die area:

Tahiti/28nm > GF114/40nm > GK104/28nm.

So etwas ähnliches behauptet mittlerweile auch PHK.

Die Meldung fuer GK104 war "weit ueber 2TFLOPs".
"weit über" = größer 3 TFLOPs?

Gipsel

2011-12-12, 17:38:14

"weit über" = größer 3 TFLOPs?
Oder knapp 3 TFlops/s (bspw. 768 * 2 * 1,8G = 2,76T).

Ailuros

2011-12-12, 17:40:42

Oder knapp 3 TFlops/s (bspw. 768 * 2 * 1,8G = 2,76T).

Inwiefern wuerden sich dann (Busbreite zur Seite) die sonstigen Spezifikationen aehneln?

Hugo78

2011-12-12, 17:46:21

Wo wird sich GK104 denn jetzt einordnen?
GTX 580 + (0 -10%) ?!

LovesuckZ

2011-12-12, 17:46:59

Ailuros

2011-12-12, 17:56:10

Und ich frage mich, ob Leute hier wirklich glauben, dass nVidia 1,2 TFLOPs DP in eine Die Size packen kann, die unter GF114 liegt. Vorallem stellt sich mir dann die Frage, wo a) GF110 liegen sollte und b) ob GF110 die 400 Watt Marke sprengen wird.

DP hat auf einer GK104 genauso viel Wichtigkeit wie auf GF114. Wo wird GF114 in Teslas eingesetzt und selbst wenn dem so waere (jegliche Begrenzungen zur Seite) wie genau willst Du 3*16 alle SIMDs von SP auf DP bringen?

Eine 560Ti hat theoretisch 1.26 TFLOPs und eine 580 1.58TFLOPs oder anders 25% mehr GFLOPs in Papier-spezifikationen.

LovesuckZ

2011-12-12, 18:03:19

Ailuros

2011-12-12, 18:13:26

nVidia hat doch ihre Roadmap gezeigt. In F-Q2 gibt es Quadro und in F-Q3 Tesla. Da verkauft man kein Mid-Range. Vorallem der Quadro-Bereich ist für sie immens wichtig. Und durch Maximus brauchen sie hier auch gleich deutlich mehr Karten inkl. vollem DP-Ausbau.

Es aendert trotzdem nichts daran dass GK104 frueher kommt und um diese geht es momentan. Die die area von dieser soll kleiner sein als beim GF114 und kleiner als einem direktem GF110 shrink auf 28nm (und ja es gab Exemplare davon obwohl es nie veroeffentlicht wird). Mit den ersten beta Treibern soll GK104 "nur" etwas schneller sein als eine GTX580 und das Ziel liegt natuerlich ein gutes Stueck darueber was erstmal Tahiti territory bedeutet.

Sie behaupten auch knallhart immer und immer wieder dass sie ein besseres perf/W, perf/mm2 und perf/transistor ratio als AMD bei diesem Schub haben. In Kepler Werbedemos wird Dawn wieder erscheinen und ja ich hab alles nur aus meiner lebendigen Phantasie gezogen.

Was jetzt GK110 betrifft mir wurde gesagt dass Kepler um einiges mehr als nur "2.5x" im Vergleich zu Fermi mit DP erreicht.

Gipsel

2011-12-12, 18:14:56

nVidia hat doch ihre Roadmap gezeigt. In F-Q2 gibt es Quadro und in F-Q3 Tesla. Da verkauft man kein Mid-Range. Vorallem der Quadro-Bereich ist für sie immens wichtig.
Als Quadro schlägt nVidia alles los, nicht nur HighEnd.

Edit:
Quadro 400 mit einem einzigen SM, sprich 48 SPs und 64bit Speicherinterface (http://www.nvidia.de/object/product-quadro-400-de.html).

AffenJack

2011-12-12, 18:32:07

Inwiefern wuerden sich dann (Busbreite zur Seite) die sonstigen Spezifikationen aehneln?

32 Rops, 128 TMUs wären schonmal 2 ähnliche Sachen.
Um noch mehr Ähnlichkeit zb bei der Rechenleistung zu kriegen bräuchte man ja eher 1024SP inner 64Sp pro SM Anordnung wie du früher mal als Möglichkeit erwähnt hast. Aber da fände ich die Erwähnung mehr als 2TF schon ne arge Untertreibung und die Bandbreitenlimitierung stell ich mir da auch böse vor.

Ailuros

2011-12-12, 18:45:34

32 Rops, 128 TMUs wären schonmal 2 ähnliche Sachen.
Um noch mehr Ähnlichkeit zb bei der Rechenleistung zu kriegen bräuchte man ja eher 1024SP inner 64Sp pro SM Anordnung wie du früher mal als Möglichkeit erwähnt hast. Aber da fände ich die Erwähnung mehr als 2TF schon ne arge Untertreibung und die Bandbreitenlimitierung stell ich mir da auch böse vor.

GF114 hat auch eine Unmenge an GFLOPs mit ziemlich wenig Bandbreite. Eine 560Ti schoeft aber auch nicht die Mehrzahl ihrer Leistung aus ihren ALUs alleine. Anders auf einem Performance chip wie GF114/GK104 duerfte die rohe GFLOP Leistung um einiges weniger Bedeutung haben als bei einem high end chip. SMs sind ja so oder so noch lange nicht die gesamte Geschichte auf einer GF114. Mit nur 2 raster/trisetups liegt sie auch an anderen Stellen ein gutes Stueck hinter einer GF110.

Darum geht es ja gar nicht. Ich frage mich lediglich ob man was rohe Spezifikationen betrifft fast jegliche Referenz zu Fermi vergessen sollte. Wenn sie die hotclocks losgeworden sind (welches mich aber auch verdammt ueberraschen wuerde) waeren erstmal 1024SPs fuer einen performance chip verdammt wenig.

So geht es natuerlich auch:

http://pcworldpc.blogspot.com/2011/12/nvidia-small-point-on-roadmap-of-kepler.html

ROFL :D

Gipsel

2011-12-12, 19:16:08

Um noch mehr Ähnlichkeit zb bei der Rechenleistung zu kriegen bräuchte man ja eher 1024SP inner 64Sp pro SM Anordnung wie du früher mal als Möglichkeit erwähnt hast. Aber da fände ich die Erwähnung mehr als 2TF schon ne arge Untertreibung und die Bandbreitenlimitierung stell ich mir da auch böse vor.Das war auch eher eine Idee für GK100/102 oder wie immer die das nennen wollen (kam die eigentlich von mir?). Und dann natürlich auch mit Hotclock, wobei man auch fast in Richtung 1280 SPs tendieren könnte, da nV ja die Leistung um Faktor 2,5 steigern wollte (vielleicht auch "nur" Perf/Clock oder schlicht über höheren Takt).

Und zu dem pcworldpc-Blog, den Ailuros verlinkt hat, die sind wahrscheinlich beim Abschreiben um eine Zeile verrutscht? ;D

Ailuros

2011-12-12, 19:24:36

fondness

2011-12-12, 19:26:21

Sie behaupten auch knallhart immer und immer wieder dass sie ein besseres perf/W, perf/mm2 und perf/transistor ratio als AMD bei diesem Schub haben. In Kepler Werbedemos wird Dawn wieder erscheinen und ja ich hab alles nur aus meiner lebendigen Phantasie gezogen.

Sie behaupten das wohl nicht ohne Grund. Auch gibt es ja schon einige Aussagen das NV dieses mal verdammt viele mobile Deals einsammeln konnte. Würde mich nicht wundern wenn GCN der nächste fail von AMD wird, bzw. NV mit Kepler dank der guten Basis mit Fermi eine mächtig auftrumpfen kann.

Spasstiger

2011-12-12, 19:29:06

Die 2,5x waren bezogen auf GF100. Mit dem GF110 hat man ja schon einen Vorschuss von rund einem Faktor 1,3 geleistet, vergleiche z.B. die Tesla M2090 und die Tesla M2070. Damit muss Kepler gegenüber dem GF110 "nur" noch einen Faktor 1,9 erreichen.

boxleitnerb

2011-12-12, 19:29:31

Auf was sollen diese ganzen Effizienzgrößen bezogen sein? DP? Das bringt ja dem Notebookkäufer nichts, sondern ist für die Teslas interessant.

AnarchX

2011-12-12, 19:32:44

GK107 könnte wohl pro Watt die Leistung gegenüber GF116 verdoppeln, bezogen auf GeForce Mobile: http://www.forum-3dcenter.org/vbulletin/showthread.php?p=9061250#post9061250

Gipsel

2011-12-12, 19:33:45

Worst Case Scenario für den Spieler wäre übrigens, daß sich das auf den DGEMM-Benchmarkwert und nicht auf die Peak-Leistung beziehen würde. Das würde eventuell auch die insgesamt niedrigen Werte in dem Slide erklären (Fermi unter 2 GFlops/W), außerdem hat nVidia für Kepler explizit eine höhere Effizienz in DGEMM versprochen. Aber malen wir den Teufel mal nicht an die Wand.

Skysnake

2011-12-12, 19:53:36

War es nicht so im beruehmten NV slide dass sie ~2.5x mehr DP perf/W fuer Fermi behaupteten? Ist die perf/W diesmal generell hoeher (was keine besondere Ueberraschung ist wenn man sich Tahiti ansieht), dann koennte es sein dass wenn man die rohen maximalen DP FLOPs einer jeglichen heutigen Tesla mit 2.5 multipliziert eben nicht das richtige Resultat bekommt.
das konnte man noch nie, da immer nur von Effizienz gesprochen wurde, und diese eben erhöht wird, egal ob man am Verbrauch oder an der Leistung schraubt.

Das sagt also rein gar nichts über die Leistung von Kepler aus, was ich schonseit Monaten sage...

Ich denke so langsam nVidia vollzieht den Split nun vollends, den sie mit GF100 und GF104 begonnen haben. Ein kleiner Chip für die Gamer und ein richtig fetter für den Rest. Dafür spricht ja auch das vermutete 512 Bit Interface und eben die Tatsache, das der kleine Kepler zwar früher kommt, sich aber deutlich unter Tahiti einordnet.

Naja, schaumer mal was draus wird. Ich glaub aber, das es erst mal einige lange Gesichter geben wird.

AwesomeSauce

2011-12-12, 20:54:44

Ich denke so langsam nVidia vollzieht den Split nun vollends, den sie mit GF100 und GF104 begonnen haben. Ein kleiner Chip für die Gamer und ein richtig fetter für den Rest. Dafür spricht ja auch das vermutete 512 Bit Interface und eben die Tatsache, das der kleine Kepler zwar früher kommt, sich aber deutlich unter Tahiti einordnet.
Hab ich was verpasst? Ail redet für GK104 von Ziel Tahiti-Territory. Wie kommst du auf "deutlich unter Tahiti"? Das ganze natürlich auf Spieleperformance bezogen.

Captain Future

2011-12-12, 22:19:33

Als Quadro schlägt nVidia alles los, nicht nur HighEnd.

Edit:
Quadro 400 mit einem einzigen SM, sprich 48 SPs und 64bit Speicherinterface (http://www.nvidia.de/object/product-quadro-400-de.html).

Sorry for nitpicking aber da das eine DX10.1-Karte ist sind das eher 2 SMs à 24 ALUs aka GF216.

Hugo78

2011-12-12, 22:26:40

Mit den ersten beta Treibern soll GK104 "nur" etwas schneller sein als eine GTX580 und das Ziel liegt natuerlich ein gutes Stueck darueber was erstmal Tahiti territory bedeutet.

Coole Sache.

Was sagt denn deine Quelle zur TDP?
Die 190W aus der pcworldpc Tabelle klingen zwar nicht schlecht, man wäre ja unter Tahiti mit bisher geschätzten 210W,
aber wäre das jetzt der Worst Case oder geht da noch was tiefer, so eher in Richtung 170W wie die GTX 560Ti?!

Ich denke so langsam nVidia vollzieht den Split nun vollends, den sie mit GF100 und GF104 begonnen haben. Ein kleiner Chip für die Gamer und ein richtig fetter für den Rest. Dafür spricht ja auch das vermutete 512 Bit Interface ...
Na genau das hast du doch im SI Thema schon so als Wunschvorstellung geäussert.

Um das mal herunter zu brechen:
Gamerchip -> mehr ALUs von Gen zu Gen., kohärenter Anstieg der Bandbreite
HPC Chip -> relativ "nur paar" mehr ALUs von Gen zu Gen., dafür aber soviel Bandbreite wie techisch möglich und sei es mit extrem teuren XDR2.

... und eben die Tatsache, das der kleine Kepler zwar früher kommt, sich aber deutlich unter Tahiti einordnet.

Wenn GK104 5-10% langsamer sein sollte, dass aber bei max. 170-190W passiert, Tahiti aber bis 210W geht, könnte ich auf 5-10% verzichten.
Aus Sicht von NV geben sie die Perf.Krone eh nur 1 Quartal ab bis GK100 kommt.

Naja, schaumer mal was draus wird. Ich glaub aber, das es erst mal einige lange Gesichter geben wird.

Fragt sich bei wem.

Gipsel

2011-12-12, 23:37:32

Sorry for nitpicking aber da das eine DX10.1-Karte ist sind das eher 2 SMs à 24 ALUs aka GF216.
I stand corrected. NVidia verkauft nicht nur langsamen sondern zudem auch alten Kram als Quadro. :wink:

Coda

2011-12-13, 00:29:45

Als Quadro verkaufen die (so gut wie?) alles was sie auch im Desktop-Segment haben.

Tesla ist was anderes.

V2.0

2011-12-13, 07:12:56

Neurosphere

2011-12-13, 07:34:05

Ich muss lachen, wenn NV über Perf./mm² redet. Früher war das für die auch kein relevanter Faktor. Ich denke das sagt viel über die Leistungsfähigkeit gegen über CGN. Ich würde von Keppler nur sehr wenig erwarten.

Perf./mm² ist im ganzen PC-Sektor so wichtig geworden wie es zuvor nie war. Es ist also nur nachzuvollziehen das sie davon reden, gerade weil sie es bisher nie so wichtig genommen haben.

Dural

2011-12-13, 09:18:31

wo spricht NV den von Perf./mm² ?

übrigens interessiert das keiner, viel wichtiger ist hier die Perf./Watt

V2.0

2011-12-13, 09:26:05

Juckte NV in der letzten Generation auch nicht. Bisher war das immer das Argument der langsameren Karte.

Hugo78

2011-12-13, 09:33:14

Ich muss lachen, wenn NV über Perf./mm² redet.

Tun sie nicht.

Deinorius

2011-12-13, 10:12:53

Ich muss lachen, wenn NV über Perf./mm² redet. Früher war das für die auch kein relevanter Faktor. Ich denke das sagt viel über die Leistungsfähigkeit gegen über CGN. Ich würde von Keppler nur sehr wenig erwarten.

Das ist überall ein Thema, nicht nur bei nvidia. Früher hat das keiner ernst genommen. Also nicht zuviel hinein interpretieren.

AnarchX

2011-12-13, 10:41:31

Wenn nicht gerade ein Faktor 2 dazwischen liegt, scheint die Die-Size wohl wirklich weniger ein Problem zu sein, bzw. erlauben die größeren Dies wohl zum Teil bessere Yields.

Neurosphere

2011-12-13, 11:02:08

Das ist überall ein Thema, nicht nur bei nvidia. Früher hat das keiner ernst genommen. Also nicht zuviel hinein interpretieren.

Wo hab ich jetzt was anderes geschrieben?

Deinorius

2011-12-13, 11:18:52

What the... Irgendwie hab ich den falschen Beitrag erwischt. Fixed.

Dural

2011-12-13, 12:38:30

mal schauen ob es wirklich keinen hotclock mehr gibt, aber ich wette ganz klar dagegen. ich sehe auch keinen grund dies derzeit zu ändern, NV hat mit Fermi eine extrem gute basis. wenn sie es geschaft haben die einheiten etwas kompakter zu gestalten und etwas am verbrauch gearbeitet haben plus die neue 28nm fertigung dürfte das locker reichen.

erst mit Maxwell dürfte es grössere änderungen geben.

AnarchX

2011-12-13, 12:45:58

Maxwell hat vielleicht LowPower-ALUs auf halben TMU/ROP-Takt. :D

btw.
Fudo: Nvidia Kepler 28nm samples in house
[...]
He said: “We are on track with our Kepler roadmap. We have 28nm silicon in house now. Our transition to 28nm is going better than 40nm, and yields are better than our original plan.”[...]
http://www.fudzilla.com/graphics/item/25195-nvidia-kepler-28nm-samples-in-house

LovesuckZ

2011-12-13, 12:58:02

Na, das hätte ich auch sagen können.
Laut dem IR Typen von nVidia beginnt die Auslieferung von 28nm GPUs für die Notebooks in Q1.

Gaestle

2011-12-13, 13:08:10

Was sagt denn deine Quelle zur TDP?

Milchmädchenrechnung:

WENN GK104 in allen Performance-Belangen in etwa die 580GTX erreicht
und WENN der Faktor 2,5 bei Perf/Watt auch für GK104 vs. 580GTX gilt,

dann sollte es ungefähr so aussehen:
TDP GK104 = TDP 580GTX x 1/2,5
Die offizielle TDP ist 244Watt für die 580GTX, die reale ungedrosselt wahrscheinlich irgendwo bei 350Watt

TDP GK104 = 244 Watt (offiziell) x 1/2,5 = 98Watt
TDP GK104 = 350 Watt (ungedrosselt) x 1/2,5 = 140Watt

WENN GK104 in allen Performance-Belangen die 580GTX in etwa um 15% übertrifft
und WENN der Faktor 2,5 bei Perf/Watt auch für GK104 vs. 580GTX gilt,

dann sollte es ungefähr so aussehen:
TDP GK104 = (TDP 580GTX x 1/2,5) +15%
Die offizielle TDP ist 244Watt für die 580GTX, die reale ungedrosselt wahrscheinlich irgendwo bei 350Watt

TDP GK104 = 244 Watt (offiziell) x 1/2,5 = 98Watt +15% = 113Watt
TDP GK104 = 350 Watt (ungedrosselt) x 1/2,5 = 140Watt = 161 Watt

Alles WENN und MILCHMÄDCHEN und ohne Berücksichtigung des Einflusses von Speicher und Platinenlayout...

Skysnake

2011-12-13, 13:34:49

Na genau das hast du doch im SI Thema schon so als Wunschvorstellung geäussert.

Um das mal herunter zu brechen:
Gamerchip -> mehr ALUs von Gen zu Gen., kohärenter Anstieg der Bandbreite
HPC Chip -> relativ "nur paar" mehr ALUs von Gen zu Gen., dafür aber soviel Bandbreite wie techisch möglich und sei es mit extrem teuren XDR2.

Wenn GK104 5-10% langsamer sein sollte, dass aber bei max. 170-190W passiert, Tahiti aber bis 210W geht, könnte ich auf 5-10% verzichten.
Aus Sicht von NV geben sie die Perf.Krone eh nur 1 Quartal ab bis GK100 kommt.

Fragt sich bei wem.
Naja, meine Ansicht hat sich halt geändert :ugly: Darf Sie doch oder?

Ich hab das halt als SEHR unwahrscheinlich gehalten, das nVidia wirklich erst mal nur einen "kleinen" Chip bringen könnte, der dann wohl nicht ganz mit Tahiti mit halten kann, aber dann eben später noch nen richtig fetten, der dann wohl Tahiti plättet.

Tahiti ist jetzt aber doch kleiner als gedacht mit den ~380mm² und somit hat man wohl genug Spielraum nen Chip darunter als auch einen Chip drüber zu bringen, die signifikante Performanceunterschiede haben.

Ich halt es halt inzwischen nicht mehr für ganz unmöglich, sondern inzwischen sogar eher für möglich statt nicht möglich.

PS: das mit den langen Geischtern war genau so gemeint ;)
Ich glaub ja, das alle sehr lange Gesichter machen werden, nur die einen früher als die anderen, aber unterm Strich alle.

AnarchX

2011-12-13, 13:53:20

Interessant wäre wohl, wenn Nvidia es schafft noch vor New Zealand (~HD 7990) eine Dual-GK104-Lösung zu präsentieren.

Skysnake

2011-12-13, 14:03:34

Hängt wahrscheinlich davon ab, wann der GK100 dann wirklich kommt. Wenn der noch recht lange braucht, könnten Sie einen schnellen Launch eines Dual-GK104 forcieren, um gegen AMD was in der Hand zu halten.

Also z.B. folgende Erscheinungsreihenfolge:

7970->GK104(evtl mit Dual-GK104)->Dual-GK104->7990->GK100

damit würden AMD und nVidia sich die Leistungskrone freudig hin und her schieben, bis halt der GK100 kommt, der dann die Sache wohl erst mal fix macht. Zu welchem Preis, also Kosten, Stromverbrauch etc. etc. ist dann natürlich noch fraglich, genau wie der genaue Erscheinungszeitpunkt.

Auch ist fraglich, wie lange die Sache dann vor hält, und wie AMD darauf reagiert mit der zweiten GCN-Serie. Da könnte man dann ja auch nachlegen. Bleibt auf jeden Fall spannend, wenn es so kommt.

V2.0

2011-12-13, 14:20:09

Die Frage ist wann GK104 kommt. Q2 oder doch noch gerade Q1?

Skysnake

2011-12-13, 15:18:55

Je kleiner er ist, desto früher. ICH vermute mal Ende Q1, falls nicht irgend ein großes Problem plötzlich auftaucht, und dann Anfang-Ende Q3 der große Bruder

LovesuckZ

2011-12-13, 15:20:00

Je kleiner er ist, desto früher.

Das ist leider falsch. :(

Ailuros

2011-12-13, 15:39:36

Interessant wäre wohl, wenn Nvidia es schafft noch vor New Zealand (~HD 7990) eine Dual-GK104-Lösung zu präsentieren.

Natuerlich wird es eine dual chip Loesung von NV geben; die Frage ist lediglich ob mit GK104 oder GK110. Es gab aehnliche Geruechte auch vor dem Fermi launch und am Ende wurden es doch 2*GF110 fuer die 590. Vor New Zealand garantiert nicht.

Skysnake

2011-12-13, 15:40:42

Warum?

Bei nem extrem kleinen Chip, hat man gerade bei einem neuen Fertigungsprozess weniger Probleme. Oder warum kommen wies scheint dieses mal sowohl von AMD als auch nVidia die kleinen Mobile-Chips zuerst?

Ailuros, ich glaub aber nicht, das nVidia bis Ende 2012 mit ner Dual-GPU Lösung warten wird. Da wird sicherlich eine auf der GK104 Basis aufschlagen. Egal ob noch eine auf GK100 Basis irgendwann mal kommt oder nicht.

Ailuros

2011-12-13, 15:44:38

Je kleiner er ist, desto früher. ICH vermute mal Ende Q1, falls nicht irgend ein großes Problem plötzlich auftaucht, und dann Anfang-Ende Q3 der große Bruder

Falsche Perspektive; bei beschissenen yields je frueher desto mehr die Herstellungskosten und desto hoeher die Preise. Kann sein dass ich etwas falsch aufgeschnappt habe, aber ich hab den Eindruck dass NV bei dieser Generation die Preise nicht hoeher schnallen will als bei Fermi. Ergo?

Die 2,5x waren bezogen auf GF100. Mit dem GF110 hat man ja schon einen Vorschuss von rund einem Faktor 1,3 geleistet, vergleiche z.B. die Tesla M2090 und die Tesla M2070. Damit muss Kepler gegenüber dem GF110 "nur" noch einen Faktor 1,9 erreichen.

Zwischen GF100 und 110 Teslas gibt es so manchen Unterschied was die DP perf/W betrifft. Noch schlimmer keiner weiss wo NV den TDP einer einzigen Kepler Tesla geplant hat. Frequenzen und auch Stromverbrauch sind stets niedriger als im desktop. Wenn man wuesst dass der TDP einer GK110 z.B. bei =/<240W liegen wird koennte man vielleicht 210-220W fuer eine Tesla einschaetzen. Ohne genaue Daten kann man nur mit von-bis Raten spekulieren.

Hübie

2011-12-13, 15:53:33

Ich glaube er bezog sich auf die Fläche des Chips ;)
Eine Duallösung wird in jedem Falle der letzte release, wenn nicht ein IHV schon vorher was bastelt, wetten?!

Ich erwarte dieses mal echt einiges bzgl. des Verbrauchs/Abwärme. Wenn die Performance 30% mit SSAA steigt ist das mehr als ausreichend und alles weitere wäre für mich ein Bonbon. Leider wird es wohl eher auf 15-20% mehr Performance hinauslaufen.

Ailuros

2011-12-13, 15:54:06

Warum?

Gut dann nochmal: je miserabler die yields desto hoeher die Herstellungskosten und der finale GPU Preis. Tahiti wird extrem frueh hergestellt kommt aber auch mit einem um einiges pfiffigeren MSRP an als selbst Cypress. NV hat hoechstwahrscheinlich keinen Bock die Preise so hoch anzuschlagen. Was ist daran so schwer zu verstehen?

Ich weiss zwar nicht wie die 28nm yields momentan aussehen, aber selbst bei einem <400mm2 kannst Du Gift darauf nehmen dass bei ~30% durchschnittlichen yields jeder chip etwas weniger als $200 kosten wird. Cypress kostete bei >40% yields in Q3 2009 etwa $120 pro Stueck und sobald die yields besser wurden rutschte es auf ~$80 pro chip, waehrend zum gleichen Zeitpunkt GF100 in die Produktion ging mit ca. $110+ pro chip.

Bei nem extrem kleinen Chip, hat man gerade bei einem neuen Fertigungsprozess weniger Probleme. Oder warum kommen wies scheint dieses mal sowohl von AMD als auch nVidia die kleinen Mobile-Chips zuerst?

Ein >350mm2 chip ist nicht klein. Alles andere ueberhaupt wenn man sich die Anzahl der Transistoren ausrechnen wuerde (wenn man auch weiss wie die Transistoren-Dichte aussieht noch besser). Ich wuerde doch denken dass das uralte Geruecht stimmen koennte dass NV fuer Kepler eine um einiges hoehere Transistoren-Dichte anzielte.

Ailuros, ich glaub aber nicht, das nVidia bis Ende 2012 mit ner Dual-GPU Lösung warten wird. Da wird sicherlich eine auf der GK104 Basis aufschlagen. Egal ob noch eine auf GK100 Basis irgendwann mal kommt oder nicht.

Wenn die yields bzw. Kapazitaeten nicht fuer solche alberne Turnereien ausreichen sollten bis zu H2 2012 dann ist es logischer dass jeglicher IHV seine gebuchte Kapazitaeten eher fuer low end Krampf benutzt von dem man auch massenhaft Umsatz machen kann heutzutage anstatt ueberteurten mGPUs die dank zu hohen Preisen nur Spinnweben auf Regalen sammeln werden.

Skysnake

2011-12-13, 16:03:37

Na Ailuros, du übersiehst da einiges.

Man vergleicht natürlich immer Chips mit gleicher Transistordichte. Ein kleinerer Chip würde also auch weniger Performance bedeuten, da man ja von gleichartigen Chips ausgeht.

Gerade am Anfang einer Produktion, aber eigentlich immer, hast du Fehler auf deinem Chip. Manche Fehler beudeuten Totalausfälle und andere nur, das man nicht die Taktraten bei den entsprechenden spannungen erreicht etc.

Die Wahrscheinlichkeit bei einem großen DIE einen Totalausfall zu erhalten ist größer als bei einem kleinen DIE, einfach deswegen, weil man weniger DIEs pro Wafer hat, die Anzahl der Totalausfälle aber gleich bleibt, und bei einer kleineren Stückzahl haut ein Totalausfall halt stärker rein, als wenn man lauter kleine Chips hat.

Zudem kommt halt noch das Problem auf, das es auch Fehler gibt, die man kompensieren kann, aber eben nur zu einem gewissen Grad. Bei kleinen Chips ist die Wahrscheinlichkeit für Mehrere Fehler auf einem DIE geringer, als bei großen DIEs. Gerade was Laufzeiten etc. angeht, können mehrere kleinere Fehler am Ende dann dazu führen, das ein Chip nicht funktiert, oder nicht in den Settings, in denen er laufen sollte.

Das ist halt das Problem mit den großen Chips. Was bringts einen wenn man 99,999999% vom Chip 1A produziert, aber dann halt ein Totalversager drin ist, den man auch nicht umgehen kann. Dann kannste das ganze Ding weg schmeißen, und je größer der Chip wird, desto mehr tut einem das halt weh.

Warum sollte also ein kleinerer Chip nicht früher produziert werden, als ein großer?

Die Frage steht immer noch. Ich seh dafür kein Gegenargumnent.

EDIT:
Kurz um. Die Yeald-Rate ist einfach auch eine Funktion die mit von der DIE-Size abhängt.

LovesuckZ

2011-12-13, 16:05:37

Warum?

Bei nem extrem kleinen Chip, hat man gerade bei einem neuen Fertigungsprozess weniger Probleme. Oder warum kommen wies scheint dieses mal sowohl von AMD als auch nVidia die kleinen Mobile-Chips zuerst?

nVidia und AMD haben für das Notebooksegment gerade Ausführungen umbenannt, um sie ins Low-End abzuschieben. AMD wird mit Tahiti ihr High-End als erstes präsentieren.

Anscheinend ist den Leuten einfach nicht bewusst, dass es dem Wafer egal ist, was man ablichtet. Und je kleiner Chips sind, umso geringer ist die Leistung und der endgültige Verkaufspreis. Damit verschwendet man einfach nur Geld.

Es hat schon sein Grund, wieso zuerst immer High-End eingeführt wird.

Hübie

2011-12-13, 16:06:02

War da nicht die Aussage es laufe besser als damals mit dem 40nm-Prozess??

LovesuckZ

2011-12-13, 16:08:59

War da nicht die Aussage es laufe besser als damals mit dem 40nm-Prozess??

Ja. Neu von Fudo und alt aus den Conference Calls.

Ailuros

2011-12-13, 16:20:24

Na Ailuros, du übersiehst da einiges.

Man vergleicht natürlich immer Chips mit gleicher Transistordichte. Ein kleinerer Chip würde also auch weniger Performance bedeuten, da man ja von gleichartigen Chips ausgeht.

Du willst mir also garantieren dass sowohl Tahiti als auch GK104 genau die gleiche Transistoredichte haben werden?

Gerade am Anfang einer Produktion, aber eigentlich immer, hast du Fehler auf deinem Chip. Manche Fehler beudeuten Totalausfälle und andere nur, das man nicht die Taktraten bei den entsprechenden spannungen erreicht etc.

Ich rede von yields und nicht von bins vereinfacht. Mit schlechten yields heisst es bei mir dass ein wafer nur N% operativer dies abgeben kann und das restliche Prozentual ist ko dank dem Herstellungsprozess und nicht der Architektur selber. Wenn ein wafer jetzt z.B. Dir fuer chip X sagen wir mal 100 dies maximal abgeben kann und nur 30 sind im Durschnitt operativ dann kostet jeglicher die den IHV verdammt viel.

Die Wahrscheinlichkeit bei einem großen DIE einen Totalausfall zu erhalten ist größer als bei einem kleinen DIE, einfach deswegen, weil man weniger DIEs pro Wafer hat, die Anzahl der Totalausfälle aber gleich bleibt, und bei einer kleineren Stückzahl haut ein Totalausfall halt stärker rein, als wenn man lauter kleine Chips hat.

Ist doch alles nachschlagbar im Netz. Meine Zahlen kamen in 2009 direkt vom Maul des Loewen und es sind keine ueblichen Schaetzungen oder Spekulationen.

Zudem kommt halt noch das Problem auf, das es auch Fehler gibt, die man kompensieren kann, aber eben nur zu einem gewissen Grad. Bei kleinen Chips ist die Wahrscheinlichkeit für Mehrere Fehler auf einem DIE geringer, als bei großen DIEs. Gerade was Laufzeiten etc. angeht, können mehrere kleinere Fehler am Ende dann dazu führen, das ein Chip nicht funktiert, oder nicht in den Settings, in denen er laufen sollte.

Das ist halt das Problem mit den großen Chips. Was bringts einen wenn man 99,999999% vom Chip 1A produziert, aber dann halt ein Totalversager drin ist, den man auch nicht umgehen kann. Dann kannste das ganze Ding weg schmeißen, und je größer der Chip wird, desto mehr tut einem das halt weh.

Warum sollte also ein kleinerer Chip nicht früher produziert werden, als ein großer?

Gott im Himmel wie oft muss ich den gleichen Scheiss meiner These nochmal posten damit es endlich sitzt? AMD veroeffentlicht Tahiti trotz miserabler yields, bei einem ziemlich hohen Preis fuer eine Performance GPU und die Verfuegbarkeit soll nach Geruechten bis zum April vielleicht noch schlimmer sein als bei Cypress.

GK104 hat mit A1 = tape out seine clock targets erreicht, es wird fieberhaft an den Treibern gearbeitet und sie lassen sich hoechstwahrscheinlich ein paar Monate Zeit um keine hohen Summen pro chip zu bezahlen damit das Ding am Ende auch nicht ueber $400 kosten wird. Wie gesagt nur eine These, aber auch anhand der Mitteilung dass NV heutzutage von zu hohen Preisen nichts wissen will.

Unter Deiner Logik koennte NV auch im Januar eine GK110 vorstellen mit einem $700 MSRP und gerade so viel samples um die Presse auszuliefern und ein paar tausend Exemplare pro Region und aus damit.

Die Frage steht immer noch. Ich seh dafür kein Gegenargumnent.

Es gibt genug Gegenargumente in diesem und meinen vorigen Posts; Vorraussetzung man will sie nicht uebersehen.

EDIT:
Kurz um. Die Yeald-Rate ist einfach auch eine Funktion die mit von der DIE-Size abhängt.

Ich hab nirgends gesagt dass die die area egal ist. Je groesser der die desto hoeher die Herstellungskosten pro chip. Das hat aber ueberhaupt NICHTS damit zu tun wenn yields fuer ueberdurchschnittliche cores miserabel sind. Beim Anfang von 40G gab es brutale yield Schwankungen und das Minimum fuer die Cypress Herstellung waren 4% yields welches sich aber Gott sei Dank auf <500 wafer begrenzte. Der eigentliche Durchschnitt aber war natuerlich um zich Male hoeher. CypressXT hatte einen MSRP von knapp $380 und diesmal wird Tahiti XT ein heftiges Stueck darueber liegen , ohne dass die eigentliche die area brutal gestiegen ist.

Skysnake

2011-12-13, 16:23:05

boxleitnerb

2011-12-13, 16:23:37

Ist es möglich, dass GK100/GK110 sein Tapeout schon hatte und nur noch niemand davon weiß?

Skysnake

2011-12-13, 16:29:38

Gott im Himmel wie oft muss ich den gleichen Scheiss meiner These nochmal posten damit es endlich sitzt? AMD veroeffentlicht Tahiti trotz miserabler yields, bei einem ziemlich hohen Preis fuer eine Performance GPU und die Verfuegbarkeit soll nach Geruechten bis zum April vielleicht noch schlimmer sein als bei Cypress.

GK104 hat mit A1 = tape out seine clock targets erreicht, es wird fieberhaft an den Treibern gearbeitet und sie lassen sich hoechstwahrscheinlich ein paar Monate Zeit um keine hohen Summen pro chip zu bezahlen damit das Ding am Ende auch nicht ueber $400 kosten wird. Wie gesagt nur eine These, aber auch anhand der Mitteilung dass NV heutzutage von zu hohen Preisen nichts wissen will.

Unter Deiner Logik koennte NV auch im Januar eine GK110 vorstellen mit einem $700 MSRP und gerade so viel samples um die Presse auszuliefern und ein paar tausend Exemplare pro Region und aus damit.

WO sag ich das denn bitte :ugly: Ich sag doch genau das Gleiche wie du....

Je größer der Chip -> desto schlechter die Yealds ->desto teuerer der Chip -> umso späterer Produktionsstart

AMDs und nVidias Chips kannste doch nicht vergleichen, und tu ich auch nicht...

Ich sag nur. Hypothetischer GK104 mit 250mm² und Leistung X werden wir früher sehen als einen Hypothetischen GK104 mit 500mm² und Leistung 2X.

Da bring ich keine anderen Produktionsverfahren, kein anderes Design, keine andere Packdichte, noch sonst irgendwas anderes rein als rein die DIE-Size.

Und wie gesagt, wo widerspricht das bitte dem was du sagst?

LovesuckZ

2011-12-13, 16:30:19

LovesuckZ, kleine DIEs lassen sich aber früher überhaupt gewinnbringend produzieren, da die Yealds höher sind.

Die Yeald-Rate ist ja insbesondere am Anfang eines Prozesses mehr oder weniger stark (eher mehr) abhängig von der DIE-Size.

Wie gesagt, was bringts dir große DIEs zu produzieren, wenn du die fast alle wegwerfen kannst, weil Sie nicht die nötige Qualität erreichen, oder gar überhaupt nicht funktionieren. Da doch lieber auf die vorhandenen Kapazitäten einen kleinen DIE packen. Da verdienste am einzelnen DIE nicht viel, aber noch immer besser als gar nichts. Zumal man auch wieder Erfahrungen sammeln kann mit dem Prozess.

Waferprobleme betreffen alle Ablichtungen. Und je kleiner die Chips sind, umso größer sind die negativen Auswirkungen, da deutlich weniger "Redundanz" vorhanden ist. Deswegen ist die Yield auch bei großen Chips besser, da man prozentual mehr Chips verwenden kann.

Ist es möglich, dass GK100/GK110 sein Tapeout schon hatte und nur noch niemand davon weiß?

Natürlich. Siehe auch GF104 oder GF110.

Ailuros

2011-12-13, 16:30:35

War da nicht die Aussage es laufe besser als damals mit dem 40nm-Prozess??

Von dem was ich bisher hoerte gibt es erstmal keine brutalen Schwankungen bei den 28nm yields. Dass muss aber nicht heissen dass die durchschnittlichen yields bei 28nm unbedingt besser sind.

TSMC blubberte erst vor kurzem dass sie die 28nm Kapazitaeten in Q3 12' aufruesten werden. Ergo neben den seit 40G ueblichen yield Problemen, haelt sich TSMC genauso konservativ wie mit 40G was Kapazitaeten betrifft.

AnarchX

2011-12-13, 16:30:40

Ist es möglich, dass GK100/GK110 sein Tapeout schon hatte und nur noch niemand davon weiß?
Durchaus denkbar, dass man schon einen A0 GK100 hat.
Vielleicht gibt Jensen morgen in GTC Asia Keynote ein paar Infos: http://www.gputechconf.cn/page/keynote-en.html

Ailuros

2011-12-13, 16:35:06

WO sag ich das denn bitte :ugly: Ich sag doch genau das Gleiche wie du....

Je größer der Chip -> desto schlechter die Yealds ->desto teuerer der Chip -> umso späterer Produktionsstart

AMDs und nVidias Chips kannste doch nicht vergleichen, und tu ich auch nicht...

Ich sag nur. Hypothetischer GK104 mit 250mm² und Leistung X werden wir früher sehen als einen Hypothetischen GK104 mit 500mm² und Leistung 2X.

Ohne sicher zu sein duerfte GK104 um die 350-360mm2 wiegen. Kleiner als Tahiti ja, aber IMHO um nicht besonders viel und es bleibt immer noch die Transistoren-dichte offen. Bei sehr hoher Transistoren-dichte ist uebrigens IMHO hotclock eine Schnappsidee.

Da bring ich keine anderen Produktionsverfahren, kein anderes Design, keine andere Packdichte, noch sonst irgendwas anderes rein als rein die DIE-Size.

Und wie gesagt, wo widerspricht das bitte dem was du sagst?

NV will hoechstwahrscheinlich unter den heutigen Bedingungen selbst GK104 noch nicht herstellen, obwohl der die hoechstwahrscheinlich leicht kleiner ist als Tahiti.

Durchaus denkbar, dass man schon einen A0 GK100 hat.
Vielleicht gibt Jensen morgen in GTC Asia Keynote ein paar Infos: http://www.gputechconf.cn/page/keynote-en.html

A0? :rolleyes:

Skysnake

2011-12-13, 17:20:44

nVidia hat aber voraussichtlich Hotclock und insgesamt eh ein anderes Design. Direktvergleiche kannst du nur innerhalb eines Designs ziehen, aber nicht unbedingt zwischen unterschiedlichen Designs, geschweige denn zwischen unterschiedlichen Herstellern.

Ailuros

2011-12-13, 17:33:47

nVidia hat aber voraussichtlich Hotclock und insgesamt eh ein anderes Design.

NV behauptet dass es sich um ziemlich grosse Aenderungen bei Kepler handelt und dass alle bisherige Spekulationen bzw. scenarios auf dem falschen Bein stehen. Kann alles oder gar nicht heissen im gegebenen Fall.

Designs sind selbstverstaendlich unterschiedlich zwischen IHVs. Man kann eventuell Tahiti's ALUs als "1D" bezeichnen, wird aber wohl nicht heissen dass es nicht weiterhin fundamentale Unterschiede zu Fermi und/oder Kepler gibt.

Direktvergleiche kannst du nur innerhalb eines Designs ziehen, aber nicht unbedingt zwischen unterschiedlichen Designs, geschweige denn zwischen unterschiedlichen Herstellern.

Sicher; mir geht es lediglich darum wieso NV sich etwas Zeit lassen wird mit den Keplers. So oder so haben sie Kepler von Anfang an etwas "flexibler" ausgelegt so dass es diesmal nicht notwendig ist den top dog zuerst fertigzustellen um mit den kleineren chips weiterzumachen.

Da auch NV seit Fermi auf den kleinsten erhaeltlichen Herstellungsprozess setzt und diese zunehmend haariger wurden in letzter Zeit ist es nach wie vor eine bloede Idee allein von den Herstellungskosten anfangs einen sehr grossen chip sehr frueh in die Produktion zu jagen.

Zu einem kleineren Mass gilt es dann eventuell auch fuer Tahiti bzw. GK104. AnarchX hat gerade im Tahiti thread domaninhaber gequotet wo Tahiti 500 Euro kosten soll.

Skysnake

2011-12-13, 18:14:37

Sicher; mir geht es lediglich darum wieso NV sich etwas Zeit lassen wird mit den Keplers. So oder so haben sie Kepler von Anfang an etwas "flexibler" ausgelegt so dass es diesmal nicht notwendig ist den top dog zuerst fertigzustellen um mit den kleineren chips weiterzumachen.

Da auch NV seit Fermi auf den kleinsten erhaeltlichen Herstellungsprozess setzt und diese zunehmend haariger wurden in letzter Zeit ist es nach wie vor eine bloede Idee allein von den Herstellungskosten anfangs einen sehr grossen chip sehr frueh in die Produktion zu jagen.

Zu einem kleineren Mass gilt es dann eventuell auch fuer Tahiti bzw. GK104. AnarchX hat gerade im Tahiti thread domaninhaber gequotet wo Tahiti 500 Euro kosten soll.

:ugly: Und was sag ich die ganze Zeit? :ugly:

Je kleiner der GK104 ausfallen wird, desto eher werden wir ihn im Handel sehen....

Kleiner Chips kommt zuerst, und je kleiner, desto früher. Wir wissen ja noch immer nicht, wie viel Leistung er haben wird, und wie groß er sein wird. Er wird aber wohl relativ "klein" werden. Weit weg von nem GF100 Monster auf jeden Fall.

Ailuros

2011-12-13, 18:19:45

:ugly: Und was sag ich die ganze Zeit? :ugly:

Je kleiner der GK104 ausfallen wird, desto eher werden wir ihn im Handel sehen....

Aber nicht vor Tahiti sondern spaeter, trotz relativ kleinerem die.

Kleiner Chips kommt zuerst, und je kleiner, desto früher. Wir wissen ja noch immer nicht, wie viel Leistung er haben wird, und wie groß er sein wird. Er wird aber wohl relativ "klein" werden. Weit weg von nem GF100 Monster auf jeden Fall.

Wenn ein IHV eine Archikektur nicht dafuer auslegt ist es ein no-go. Bei Fermi musste NV zuerst auf den top dog warten um die kleineren aufs Laufband zu bringen.

GK107 soll ca. einen Monat vor GK104 kommen und dabei ist der erste auch nicht der kleinste chip der Kepler Familie.

N0Thing

2011-12-13, 19:09:59

War da nicht die Aussage es laufe besser als damals mit dem 40nm-Prozess??

Darauf würde ich nicht so viel geben, damals bei der 40nm Produktion hat man auch positive Wasserstandsmeldungen von sich gegeben, die im Nachhinein nicht richtig gewesen sein können.

Und besser als damals mit dem 40nm-Prozess kann auch noch ziemlich mies sein. ;)

aylano

2011-12-13, 19:33:08

War da nicht die Aussage es laufe besser als damals mit dem 40nm-Prozess??
besser kann ja alles mögliche bedeuten.

Die 2 Jahres-Fertigungsstrukturverkleinerung-Rythmus ist ja kein Naturgesetz bzw. sonstige (Recht) Gesetze.
Somit könnte die Einführung des 28nm-Nvidia-Portfolie (Top-to-Bottom) innerhalb von 3 Monaten 4 Jahre nach der 40nm-Einführung viel besser laufen, da es damals 1 Jahr brauchte (GT218, GT216, GT215, GF100)
Im Falle von Nvidia könnte das "besser" auch heißen, den Fermi-Fehler (Teildeaktiverung des 16.Blocks) nicht mehr zu machen

Nvidia hat AFAIK doch schon mal verkündet, dass sie 28nm-Low-End & mainstream-GPUs haben und wegen der Wirtschaftlichkeit auf bessere Yields warten.
Wenn Nvidia damals mit GT218 & GT216, die 1 Jahr vor GF100 kamen) steigende Gewinne & Marktanteile erreichen konnte, dann könnte es noch ziemlich mies mit 28nm-Yield-TSMC aussehen.

Aus diesem Grund würde es mich seit vielen Monaten nicht überraschen, wenn wir >500mm²-GPU-Dies (AMD & Nvidia) mit guter Verfügbarkeit erst Ende 2012 sehen.
Ich hoffe, ich irre mich da.

Hübie

2011-12-13, 19:50:08

Und besser als damals mit dem 40nm-Prozess kann auch noch ziemlich mies sein. ;)

;D So hab ich das noch nicht gesehen. Kann mir mal einer näher bringen was 512bit memory interface bzgl. der Fütterung bedeuten? Werden da einfach x controller "zusammengeschnallt"? Wie war das noch mal beim R600 *wühl*

AnarchX

2011-12-13, 20:07:58

GK107 soll ca. einen Monat vor GK104 kommen und dabei ist der erste auch nicht der kleinste chip der Kepler Familie.
Vor GK104 im Notebook oder auch Desktop? Eine neue Architektur mit einer Mainstream-GPU zu launchen ist aber auch mal eine Neuerung. :ugly:

LovesuckZ

2011-12-13, 20:16:45

GK107 ist Notebookmarkt. Das wird dort - z.B. genauso wie GF106 und GF108 oder die GT21x Ableger - zu erst gebracht.

AnarchX

2011-12-13, 20:23:10

GT21x basierte noch auf der Vorgängergeneration und GeForce 400M startete mit der 480M@GF100.

LovesuckZ

2011-12-13, 20:25:44

GT21x basierte noch auf der Vorgängergeneration und GeForce 400M startete mit der 480M@GF100.

"Basierte", sie waren trotzdem in vielen Bereichen neu. Ich gehe nicht davon aus, dass Kepler so weitreichende Neuerungen hat, wie man sie von GT2xx -> Fermi sah. Vorallem marketingstechnisch kann es problematisch werden.

GK107 ist klar für Ivi Bridge Notebooks bestimmt und wird dort zu erst gelauncht werden. Die restlichen 28nm Ressourcen bekommt dann der High-End Chip für's Desktop und Quadro.

Sunrise

2011-12-13, 20:30:52

NV will hoechstwahrscheinlich unter den heutigen Bedingungen selbst GK104 noch nicht herstellen, obwohl der die hoechstwahrscheinlich leicht kleiner ist als Tahiti.
Das steht denke ich außer Frage. Kein IHV produziert Produkte unter schwierigeren Bedingungen lieber als bereits etablierte, auf einem mittlerweile sehr gut "yieldendem" Prozess.

Selbst AMD macht das nur deshalb, weil das ASIC produktionsreif ist, der Zeitpunkt günstig ist (Kepler kommt später) und man anhand der Performance einen höheren Preis rechtfertigen kann, trotz anfänglich schwieriger Produktionsbedingungen.

Wir wissen ja, dass AMD (ATI) da schon seit Jahren eine ganz andere Philosophie als NV verfolgt hat (Prozesswechsel sehr schnell zu vollziehen), mit welcher NV im Übrigen jetzt wohl seit langer Zeit bricht.

AMD hat die eigenen Ziele scheinbar erreicht, die Performance-Projektionen stimmen und man kann nun für einen höheren Preis verkaufen. Wir werden spätestens im Januar auch sehen, warum das so ist.

PS: Skysnake ging es da mehr um anfängliche Produktionsprobleme aufgrund der Defektrate, sprich der Defekte, die über den Wafer verteilt am Anfang der Produktion ungewöhnlich hoch sind. Man kann im Prinzip beide Seiten (auch die, die LovesuckZ nannte) gut vertreten, wenn das Design entsprechend redundant ausgelegt ist. Nur das kostet (die 28nm Wafer haben aktuell ein zweistelliges Preis-Premium) anfangs dann auch wieder mehr. Ist alles die Frage des Designs und der Projektionen, die "normalerweise" mit kleineren ASICs durchgeführt werden.

Skysnake

2011-12-14, 01:07:06

Aber nicht vor Tahiti sondern spaeter, trotz relativ kleinerem die.

Ahhhhhhh... Jetzt glaub ich weiß ich, was dein Problem ist :D

Du denkst, ich würde meinen, das GK104 oder sonst was VOR Tahiti kommt. Das meinte ich aber NICHT. Ich meinte jedeglich, dass wir für einen kleineren GK104 weniger lang warten müssen als für nen größeren GK104.

Jetzt mal rein fiktive Zahlenwerte:
Also z.B. 250mm² GK104 kommt Anfang Februar; 300mm² GK104 kommt Ende Februar und nen 350mm² GK104 kommt erst Mitte März.

So meinte ich das. Also das wir halt länger warten müssen, wenn GK104 größer ausfällt, und kürzer, wenn er kleiner ausfällt, da sich bei kleinerem DIE eher die Produktion lohnt und bei größerem halt etwas Tage/Wochen später.

PS: Skysnake ging es da mehr um anfängliche Produktionsprobleme aufgrund der Defektrate, sprich der Defekte, die über den Wafer verteilt am Anfang der Produktion ungewöhnlich hoch sind. Man kann im Prinzip beide Seiten (auch die, die LovesuckZ nannte) gut vertreten, wenn das Design entsprechend redundant ausgelegt ist. Nur das kostet (die 28nm Wafer haben aktuell ein zweistelliges Preis-Premium) anfangs dann auch wieder mehr. Ist alles die Frage des Designs und der Projektionen, die "normalerweise" mit kleineren ASICs durchgeführt werden.
ALUs etc. kannst du aber eigentlich nicht redundant auslegen. Da ist einfach alles unterschiedlich. Zudem sind die ganzen Sachen laufzeitkritisch. Da würde man sich selbst ins Bein schießen, wenn man da was redundant macht, da man dann nicht so gut optimieren kann.

Redundanz bei Chips wird meines Wissens nach eigentlich nur bei DRAM etc gemacht, wo halt alles 100% gleichartig ist, und man auch locker irgendwas schieben kann. Da machts ja auch Sinn, ein paar Bits mehr mit zu geben. Bei ALUs etc. kannste das aber eigentlich nicht machen, wenn du wirklich auf Performance dein Design auslegst und nicht auf Fehlertoleranz.

Sunrise

2011-12-14, 07:17:18

ALUs etc. kannst du aber eigentlich nicht redundant auslegen. Da ist einfach alles unterschiedlich. Zudem sind die ganzen Sachen laufzeitkritisch. Da würde man sich selbst ins Bein schießen, wenn man da was redundant macht, da man dann nicht so gut optimieren kann.
Da gibt es natürlich auch Patente dafür und das Design muss bereits so konstruiert worden sein, dass dies berücksichtigt wurde.

Hier ein Patent von ATI dazu:
http://www.faqs.org/patents/app/20100017652

Hier gibt es noch ein schönes Diagramm, das den Aufbau auch optisch zeigt:
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.74.4142&rep=rep1&type=pdf (im PDF nach "redundant ALU" suchen.)

Ich wüsste jetzt auch im praktischen Sinne nicht, was da dagegen sprechen sollte, denn es werden vom IHV ja schon seit Jahren teildefekte ASICs verbaut, die nur im gleichen Maße langsamer sind, wie die Summe der Einheiten, die deaktiviert wurden. Die intakten Teile des ASICs zeigen sich davon völlig unbeeindruckt, weil es bereits im Design selbst berücksichtigt wurde.

Ein interessantes Beispiel hinsichtlich Chipdefekte (passt eigentlich nicht wirklich zum Thema) war damals R300, den man noch eigenhändig mit dem bekannten Treibermod freischalten konnte und man dann sogar mit den eigenen Augen sehen konnte, wann und wieviele der Shaderpipes einen Defekt hatten, nämlich anhand der bekannten Schachbrett-Muster, die je nach Defektrate anders aussahen. Das war aber noch keine wirkliche Chip-Redundanz wie ich sie meine, sondern wohl eher die Konsequenz aus anfangs noch schwierigen Bedigungen auf 150nm. Aber wie man gesehen hatte (und deshalb bringe ich dieses Beispiel) konnten auch hier Teile einfach abgeschaltet werden, ohne das der restliche Chip davon betroffen war.

EDIT: Patentschreiben ergänzt zur besseren Nachvollziehbarkeit.

So meinte ich das. Also das wir halt länger warten müssen, wenn GK104 größer ausfällt, und kürzer, wenn er kleiner ausfällt, da sich bei kleinerem DIE eher die Produktion lohnt und bei größerem halt etwas Tage/Wochen später.
Ja, wobei ich vermute, dass bei Kepler noch andere Faktoren eine Rolle spielen. NV hätte sicherlich auch sofort mit einem größeren DIE kommen können, nur schlägt man dieses Mal wohl eine den Zielgruppen zielgerichtetere Strategie ein, damit die Margen nicht unnötig leiden*. Ab oder um Q2 kann man sich das dann eher leisten, da Quadro und besonders Tesla ja mit sehr hohen Preisen verkauft werden können (bereits am Markt erfolgreich etablierte Produkte) und anhand der üblichen Mischkalkulation diese ASICs dann auch für Desktops (für einen deutlich niedrigeren Preis) angeboten werden können.

*Zudem ist die 28nm-Produktionskapazität noch zu stark begrenzt, wenn man sich mal anschaut, wie wenig Wafer hier von TSMC produziert werden können, wenn man das mal mit den bereits sehr gut etablierten Prozessen vergleicht.

Das Wort Paper-Launch hört man ja auch nicht sonderlich gerne. Im Optimalfall möchte NV das sicher vermeiden. Bei GF100 sind so einige Sachen schief gelaufen, die vielen hier Anwesenden ja bekannt sind. Solche Erfahrungen sind aber dennoch wichtig (wer sich nicht manchmal selbst in Frage stellt, der kann sich nicht weiter entwickeln) und daraus kann man lernen.

AnarchX

2011-12-15, 08:22:11

http://we.pcinlife.com/data/attachment/forum/201112/15/0908157p020sn1srmmmkln.png

http://we.pcinlife.com/thread-1802355-1-1.html

Hugo78

2011-12-15, 08:32:49

Mein Bauchgefühl sagt Fake.
Wäre aber schön wenn es so kommt und die GTX 760 auf halben Wege zwischen 580 und 780 landen würde. ;)

V2.0

2011-12-15, 09:25:19

Als Wunschwerte glaubwürdig. Als echte Benchmarks hingegen... dafür muss man funktionierende Chips haben..

=Floi=

2011-12-15, 09:32:47

foto ist von wikipedia und rechts unten steht was in chinesisch

MorPheuZ

2011-12-15, 10:21:23

Könnte ich doch rechte gehabt haben mit der Namensgebung 7xx Serie?
Die Folie ist schliesslich nicht von mir :biggrin:

LovesuckZ

2011-12-15, 10:46:18

Sie sieht jedenfalls deutlich schöner aus als die für AMD erstellte. :)

Als Wunschwerte glaubwürdig. Als echte Benchmarks hingegen... dafür muss man funktionierende Chips haben..

Da du so gerne trollst:
Beweise doch mal, dass nVidia keine Chips hat, die diese Leistung erreichen könnten.

Duplex

2011-12-15, 12:08:43

Für Faktor 2 braucht der Chip locker 1024 Shader, ob es so einen Chip direkt am Anfang gibt?

Gaestle

2011-12-15, 12:19:20

Für Faktor 2 braucht der Chip locker 1024 Shader, ob es so einen Chip direkt am Anfang gibt?

AFAIK sind das alles DX11-Titel.

Vielleicht wurde daran besonders geschraubt?

Mehr Shader, bessere Effizienz ... die Taktfrage (Hot Clock oder nicht) ist ja - so wie ich die Diskussion verstanden habe - auch noch nicht endgültig geklärt.

Jemand (Ail?)hat ja angedeutet, dass wenn auf HotClock verzichtet würde, auch einiges im ALU-Aufbau geändert werden müsste.

Edit ...Außerdem zeigt das Bild keine Auflösung. Vielleicht waren das 9Mpix oder so und dort schlägt dann die Speicherbandbreite durch....

boxleitnerb

2011-12-15, 12:21:25

Da unten steht was von 2560x1600, das dahinter kann man schlecht lesen weil da das Logo drüber ist. AA kann man aber noch erkennen.

Gaestle

2011-12-15, 12:23:08

Ooops.
Wer lesen kann, ist klar im Vorteil :freak:
Hab's oben mal editiert.

Skysnake

2011-12-15, 12:51:54

Na das könnte schon stimmen.

Man bedenke aber, dass der GK100 wohl erst Ende Q2 Anfang Q3 wohl kommen soll, wenn man den Gerüchten glauben schenkt, und es ist davon aus zu gehen, dass die GTX780 wohl auf dem GK100 basieren wird.

Also von daher schaumer mal.

Ich finds aber kacke, wie Inflationär nvidia die namensgebung betreibt...

GTX200->GTX400-GTX500->GTX700

Warum muss so was sein... -.-

V2.0

2011-12-15, 14:05:05

Da du so gerne trollst:
Beweise doch mal, dass nVidia keine Chips hat, die diese Leistung erreichen könnten.

Warum sollte ich das beweisen? Über Marketingfolien können wir sprechen, wenn ein Launch ansteht.

serp202

2011-12-15, 14:47:25

http://we.pcinlife.com/data/attachment/forum/201112/15/0908157p020sn1srmmmkln.png

http://we.pcinlife.com/thread-1802355-1-1.html
Metro last Night? ;D
Maybe it's Last Light :biggrin:

Ailuros

2011-12-15, 17:43:02

Ahhhhhhh... Jetzt glaub ich weiß ich, was dein Problem ist :D

Du denkst, ich würde meinen, das GK104 oder sonst was VOR Tahiti kommt. Das meinte ich aber NICHT. Ich meinte jedeglich, dass wir für einen kleineren GK104 weniger lang warten müssen als für nen größeren GK104.

Ahhh der Groschen ist endlich gefallen. GK104 kann nicht vor Tahiti kommen, weil die hotclocks verschwunden sind aber NV trotz allem auf sehr hohe Frequenzen setzt.

Jetzt mal rein fiktive Zahlenwerte:
Also z.B. 250mm² GK104 kommt Anfang Februar; 300mm² GK104 kommt Ende Februar und nen 350mm² GK104 kommt erst Mitte März.

So meinte ich das. Also das wir halt länger warten müssen, wenn GK104 größer ausfällt, und kürzer, wenn er kleiner ausfällt, da sich bei kleinerem DIE eher die Produktion lohnt und bei größerem halt etwas Tage/Wochen später.

Es gibt nur einen 104 (von dem es offensichtlich N Varianten mit verschiedenen Specs geben wird).

Das steht denke ich außer Frage. Kein IHV produziert Produkte unter schwierigeren Bedingungen lieber als bereits etablierte, auf einem mittlerweile sehr gut "yieldendem" Prozess.

Selbst AMD macht das nur deshalb, weil das ASIC produktionsreif ist, der Zeitpunkt günstig ist (Kepler kommt später) und man anhand der Performance einen höheren Preis rechtfertigen kann, trotz anfänglich schwieriger Produktionsbedingungen.

Wir wissen ja, dass AMD (ATI) da schon seit Jahren eine ganz andere Philosophie als NV verfolgt hat (Prozesswechsel sehr schnell zu vollziehen), mit welcher NV im Übrigen jetzt wohl seit langer Zeit bricht.

AMD hat die eigenen Ziele scheinbar erreicht, die Performance-Projektionen stimmen und man kann nun für einen höheren Preis verkaufen. Wir werden spätestens im Januar auch sehen, warum das so ist.

Siehe meine vorige Antwort an Skysnake.

PS: Skysnake ging es da mehr um anfängliche Produktionsprobleme aufgrund der Defektrate, sprich der Defekte, die über den Wafer verteilt am Anfang der Produktion ungewöhnlich hoch sind. Man kann im Prinzip beide Seiten (auch die, die LovesuckZ nannte) gut vertreten, wenn das Design entsprechend redundant ausgelegt ist. Nur das kostet (die 28nm Wafer haben aktuell ein zweistelliges Preis-Premium) anfangs dann auch wieder mehr. Ist alles die Frage des Designs und der Projektionen, die "normalerweise" mit kleineren ASICs durchgeführt werden.

Ich behalte vorruebergehend mein Bauchgefuehl dass AMD's Preise so hoch sind, weil die Herstellungskosten auch analog hoch sind fuer ein so fruehe Vorstellung. Wenn NV um N Monate spaeter ankommt und mit vergleichbarem Preis (stets der relativen Leistung auch angepasst) muss ich mich wohl fuer die These entschuldigen.

Nebenbei hiess bis vor ein paar Tagen dass AMD doch daran dachte auf 1GHz zu steigen fuer TahitiXT. Es wurde aber wohl nichts daraus und ich war mir zu 90% sicher dass es am Ende doch 925MHz sein werden. NV zeigt sich intern ziemlich selbstsicher mit diesen Spezifikationen. Was aber trotzdem nichts garantiert, bis wir beide Produkte in Echtzeit von unabhaengigen Quellen getestet sehen. GK104 duerfte im Vergleich zu Tahiti hauptsaechlich an Bandbreite hungern.

AnarchX

2011-12-15, 17:45:34

Ahhh der Groschen ist endlich gefallen. GK104 kann nicht vor Tahiti kommen, weil die hotclocks verschwunden sind aber NV trotz allem auf sehr hohe Frequenzen setzt.

Sicher das man da nicht Verwirrung stiften will? :|

Sehr hohe Frequenzen für 28nm könnten wohl 1-1,1GHz sein, da bräuchte man für deutlich über 2 TFLOPs trotzdem mehr als 1024SPs.

3GPCs mit je 4SMs (8 TMUs, 96SPs)?

Ailuros

2011-12-15, 17:57:39

Sicher das man da nicht Verwirrung stiften will? :|

Sehr hohe Frequenzen für 28nm könnten wohl 1-1,1GHz sein, da bräuchte man für deutlich über 2 TFLOPs trotzdem mehr als 1024SPs.

3GPCs mit je 4SMs (8 TMUs, 96SPs)?

Ich frage jeden Tag ein Stueckchen weiter und versuche aus den gesammelten Infos ein eigenes spekulatives Puzzle zusammenzulegen. Es klang bis gestern verdammt von Anfang an nach keinen hotclock (viel mehr ALUs stattdessen) und heute kam eine Bestaetigung dafuer. Man kann immer auf die Palme getrieben werden, aber da die gleiche Quelle bis auf das letzte i-Tuepfelchen zu 100% genau mit den Tahiti specs lag hab ich ziemlich wenig Grund fuer Zweifel momentan.

Und ja ohne zu viel vorzeitig zu verraten die Frequenzziele liegen ueber 1GHz.

Schon als man mir sagte dass 104 weit ueber weit ueber 2TFLOPs faehig ist war es schon ziemlich offensichtlich. Mit der bisherigen Fermi Masche haette man nie so viel gebraucht fuer einen Performance chip der schaetzungsweise zumindest 20% schneller sein soll als eine 580.

Skysnake

2011-12-15, 18:31:05

Jup.

aber interessant, das nvidia sich wirklich vom hotclock verabschiedet.

Ailuros

2011-12-15, 18:49:22

Jup.

aber interessant, das nvidia sich wirklich vom hotclock verabschiedet.

Tja klingt mir fuer 104 zumindest nicht nach einer win-win Situation. Angenommen alles taktet auf >1GHz und die Anzahl der TMUs ist gleich zu Tahiti, duerfte logischerweise die Bandbreite durch den 256bit bus noch mehr wuergen.

***edit: uebrigens war vor dem Fermi launch NV engineering ziemlich deutlich dass sie bei jeder neuen Architektur nach G80 diverse Einheiten durch Simulationen jagten um zu definieren ob und wo es Sinn macht. Offensichtlich machten bis zu Fermi nur ALUs Sinn. Da aber sich mit Dally und der uebernaechsten Echelon Architektur so einiges so oder so geaendert hatte, kann es durchaus sein dass sie die Masche frueher geaendert haben als sich so mancher von uns bis jetzt vorstellen konnte.

fondness

2011-12-15, 18:52:43

Ich frage jeden Tag ein Stueckchen weiter und versuche aus den gesammelten Infos ein eigenes spekulatives Puzzle zusammenzulegen. Es klang bis gestern verdammt von Anfang an nach keinen hotclock (viel mehr ALUs stattdessen) und heute kam eine Bestaetigung dafuer. Man kann immer auf die Palme getrieben werden, aber da die gleiche Quelle bis auf das letzte i-Tuepfelchen zu 100% genau mit den Tahiti specs lag hab ich ziemlich wenig Grund fuer Zweifel momentan.

Und ja ohne zu viel vorzeitig zu verraten die Frequenzziele liegen ueber 1GHz.

Schon als man mir sagte dass 104 weit ueber weit ueber 2TFLOPs faehig ist war es schon ziemlich offensichtlich. Mit der bisherigen Fermi Masche haette man nie so viel gebraucht fuer einen Performance chip der schaetzungsweise zumindest 20% schneller sein soll als eine 580.

Dachte ich mir doch das der hotclock weg ist. Frequenzziel über 1Ghz hört sich allerdings sehr ambitioniert an.

Ailuros

2011-12-15, 18:56:53

Dachte ich mir doch das der hotclock weg ist. Frequenzziel über 1Ghz hört sich allerdings sehr ambitioniert an.

Schon. Aber mit so wenig Informationen kann man auch kein klares Bild haben.

Raff

2011-12-15, 18:58:44

Also gemäß deinen Infos wird es Lil' Crapler mit Tahiti aufnehmen können, ohne Hotclock?

MfG,
Raff

Ailuros

2011-12-15, 19:01:36

Also gemäß deinen Infos wird es Lil' Crapler mit Tahiti aufnehmen können, ohne Hotclock?

MfG,
Raff

Versuchen wird er es allemal; dass es zu 100% gelingt will ich ernsthaft bezweifeln mit einem 256bit Bus. Wichtiger ist wohl das insgesamte Paket wie Preis-/Leistungs-/Stromverbrauch-Verhaeltnis u.a.

AnarchX

2011-12-15, 19:07:59

Vielleicht nutzt ja Nvidia XDR2? :ulol:

NV30 ist wohl langsam aus den Köpfen, sodass man sich wieder ein Design erlaubt, was stärker von der erreichbaren Frequenz abhängt...
Jedenfalls könnte man das neue Design wohl werbewirksam vermarkten, wenn wohl möglich schon ein GK107 fast soviel CUDA-Cores wie die Vorgänger-High-End-Desktop-Karte hat.

LovesuckZ

2011-12-15, 19:10:43

Oder das Design ist nicht bandbreitenabhängig, weil man mehr Daten "OntheChip" hält und vorallem Datentransfer verringert, was sich deutlich positiv auf den Stromverbrauch auswirken kann.

Siehe auch Tessellation bei Fermi: Dank dem Cache-System ist man wohl fast vollständig losgelöst von der Bandbreite. Etwas, dass AMD bei Cayman nicht schaffte.

Ailuros

2011-12-15, 19:26:07

Vielleicht nutzt ja Nvidia XDR2? :ulol:

Ich wuerde liebend gerne einen engineer bei beiden IHVs sehen bei dem sich nicht der Kopf dreht sobald man Rambus sagt...

NV30 ist wohl langsam aus den Köpfen, sodass man sich wieder ein Design erlaubt, was stärker von der erreichbaren Frequenz abhängt...

Erst mal sehen ob's stimmt und wir werden wohl leider erst nach dem launch erfahren was sie genau mit den TMUs bzw. ROPs und co. angestellt haben damit sie so hohe Frequenzen tolerieren koennen. Obwohl wenn man es nicht uebertreibt duerfte 28HP schon einiges schlucken koennen. Fuer smart-phone SoCs duerfte unter 28LP eine GPU Frequenz von 500MHz ein Kinderspiel sein.

Jedenfalls könnte man das neue Design wohl werbewirksam vermarkten, wenn wohl möglich schon ein GK107 fast soviel CUDA-Cores wie die Vorgänger-High-End-Desktop-Karte hat.

Wieso nur CUDA cores? Man hatte frueher N FLOPs und hat in der absebahren Zukunft zich mehr FLOPs/W. Wie es aber mit der eigentlichen Effizienz pro FLOP aussieht ist dann vielleicht ein anderes Kapitel. "Nothing is for free in 3D" - Kristof Beets ;)

Oder das Design ist nicht bandbreitenabhängig, weil man mehr Daten "OntheChip" hält und vorallem Datentransfer verringert, was sich deutlich positiv auf den Stromverbrauch auswirken kann.

Ausser Kepler hat ein revolutionaeres caching System was Effizienz betrifft (z.B. dual level cache design welches eigentlich Maxwell zugesprochen wurde), caches kosten in die area und Tahiti hat ohnehin schon eine Unmenge. Anders N% mehr caches um den Bandbreiten-Unterschied theoretisch zu decken wird auch Y% mehr die area bedeuten.

Sonst ist es garantiert kein TBDR :biggrin:

Siehe auch Tessellation bei Fermi: Dank dem Cache-System ist man wohl fast vollständig losgelöst von der Bandbreite. Etwas, dass AMD bei Cayman nicht schaffte.

Die OoO Verbindung koennte vielleicht eines der Gruende sein dass sie womoeglich hotclocks losgeworden sind.

Gipsel

2011-12-15, 19:31:44

Dachte ich mir doch das der hotclock weg ist. Frequenzziel über 1Ghz hört sich allerdings sehr ambitioniert an.
Für die ALUs selber sollte das kein Problem sein. GCN läuft mit ~900MHz bei 4 Takten Latenz. Nvidia könnte da etwas mehr einplanen. Und ich könnte mir vorstellen, daß man die ROPs/TMUs whatever auch in den Griff bekommt. Im Zweifelsfall dauert eine Filterung oder das Blenden in den ROPs dann ein paar Takte länger (z.B. nur RGBA8888 single cycle, alles andere halbiert oder viertelt die Raten, die Cayman-ROPs können auch 4xFP16 fullrate blenden [und Tahiti wohl ebenfalls]). Dann dürfte nVidia die TMU- und ROP-Taktraten auch von momentan ~800 MHz auf deutlich über 1GHz hieven können.

Ailuros

2011-12-15, 19:35:00

Für die ALUs selber sollte das kein Problem sein. GCN läuft mit ~900MHz bei 4 Takten Latenz. Nvidia könnte da etwas mehr einplanen. Und ich könnte mir vorstellen, daß man die ROPs/TMUs whatever auch in den Griff bekommt. Im Zweifelsfall dauert eine Filterung oder das Blenden in den ROPs dann ein paar Takte länger (z.B. nur RGBA8888 single cycle, alles andere halbiert oder viertelt die Raten, die Cayman-ROPs können auch 4xFP16 fullrate blenden [und Tahiti wohl ebenfalls]). Dann dürfte nVidia die TMU- und ROP-Taktraten auch von momentan ~800 MHz auf deutlich über 1GHz hieven können.

Dumme Frage: haben sie den hotclock seit G80 nicht quasi mit etwas Handarbeit integriert? Wie abweging waere es zu denken dass sie diesmal fast ueberall in der Art eingegriffen haben, oder ist es Schwachsinn fuer eine Einheit wie z.B. eine TMU?

Gipsel

2011-12-15, 19:47:01

Dumme Frage: haben sie den hotclock seit G80 nicht quasi mit etwas Handarbeit integriert? Wie abweging waere es zu denken dass sie diesmal fast ueberall in der Art eingegriffen haben, oder ist es Schwachsinn fuer eine Einheit wie z.B. eine TMU?
Meiner Meinung nach sollte es kein Problem sein, eine GPU praktisch vollautomatisch von einem entsprechendem Programm layouten zu lassen (auch mit Hotclocks oder ohne hotclocks aber dafür >1GHz Targetfrequenz, das Design muß nur entsprechend ausgelegt sein). Ein wenig Feintuning wird man an ein paar kritischen Pfaden dann noch betreiben, um das Frequenzziel noch ein bißchen höher zu schieben, aber das dürfte es dann auch schon bald gewesen sein. Die Layout-Tools geben die kritischen Pfade soweit ich weiß ja direkt an. Da steckt natürlich nur eine Modellierung mit den von TSMC angegebenen Eigenschaften dahinter, kein echter Test. Dafür benötigt es ein Tapeaout und echtes Silizium, weswegen manchmal/oft(?) kleine Testchips (meist keine vollständigen GPUs) vorab gefertigt werden, um irgendein spezifischen Teil (z.B. eine Vektor-ALU oder eine TMU) etwas stärker zu optimieren.

LovesuckZ

2011-12-15, 23:55:31

Ausser Kepler hat ein revolutionaeres caching System was Effizienz betrifft (z.B. dual level cache design welches eigentlich Maxwell zugesprochen wurde), caches kosten in die area und Tahiti hat ohnehin schon eine Unmenge. Anders N% mehr caches um den Bandbreiten-Unterschied theoretisch zu decken wird auch Y% mehr die area bedeuten.

Sonst ist es garantiert kein TBDR :biggrin:

Die OoO Verbindung koennte vielleicht eines der Gruende sein dass sie womoeglich hotclocks losgeworden sind.

Es ist jedenfalls das, was nVidia in Zukunft klar angehen wird, das ist von Scott von der Supercomputing:
http://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=41420&stc=1&d=1323989697
http://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=41421&stc=1&d=1323989697

Effizienter mit der Bandbreite umzugehen, scheint dabei sehr weit oben zu stehen.