nVidia - GF104 - Q2/2010 - und andere GF10x [Archiv] - Seite 5

Gast

2010-06-27, 23:00:25

Dass das der WARP-Scheduler macht kann ich mir nicht vorstellen. Tex-Instructions haben ja Latenzen von potentiell mehreren 100 Takten. Das muss andere Logik sein die das verwaltet. Sprich eine Tex-Instructions bringt einen Texture-Fetch-"Thread" (jaja) auf den Weg, der dann auf dem Scheduler der lokalen TMUs ausgeführt wird - und dann hoffentlich fertig ist bis der WARP wieder an der Reihe ist.
Ich glaube nicht, dass die TMU einen eigenen Scheduler hat. MMn läuft das über das Front-End der "SM" genannten Organisationsstruktur: Dort wird adressiert und dann die TMU beauftragt. Danach wird der Thread geparkt, bis die TMU Vollzug meldet. Bereichert um den angeforderten Wert wird der Thread dann wieder in die Rotation aufgenommen.

Warum sollte das am Warp-Scheduler vorbeilaufen? Der Sinn dahinter entzöge sich mir.

-carsten

Coda

2010-06-27, 23:04:46

Weil sich auch jemand um das "TMU beauftragen" kümmern muss. Es sind ja auch potentiel zig Texture-Fetches "in flight".

Gipsel

2010-06-27, 23:49:16

Die Tex-Instructions werden aber nebenläufig(er) ausgeführt, denn wie du schon sagst werden solange das Tex läuft schon wieder andere WARPs ausgeführt.Wieviel nebenläufiger denn als z.B. SFU-Instruktionen? Da passiert doch genau das Gleiche!
Dass das der WARP-Scheduler macht kann ich mir nicht vorstellen. Tex-Instructions haben ja Latenzen von potentiell mehreren 100 Takten. Das muss andere Logik sein die das verwaltet. Sprich eine Tex-Instructions bringt einen Texture-Fetch-"Thread" (jaja) auf den Weg, der dann auf dem Scheduler der lokalen TMUs ausgeführt wird - und dann hoffentlich fertig ist bis der WARP wieder an der Reihe ist.
Nun, viel was anderes benötigt man ja auch nicht auf einem GF100. Im Instruktionsstrom steht eine TEX-Anweisung. Zu dieser gibt es Adressen und Zielregister, deren Werte zum exakt richtigen Zeitpunkt gelesen und wieder geschrieben (oder die Ausführung des Warps wegen einer Abhängigkeit ausgesetzt) werden müssen. Genau das managed der Scheduler doch schon für alle anderen Instruktionen, die ebenfalls variable Latenz besitzen, wie die schon erwähnten SFU-Instruktionen aber auch Zugriffe auf das local memory (variable Latenz wegen möglicher Bankkonflikte) und auch Zugriffe auf das global memory, die ja erwiesenermaßen über die Warp-Scheduler und die L/S-Einheiten laufen und genauso lange dauern, wie Texturzugriffe. Der kann das also sehr wohl handhaben.

Eine TEX-Anweisung schleift man meiner Meinung nach am günstigsten über die L/S-Einheiten durch. Damit hat man zum einen den Aufhänger um die Adressen aus den Registerfiles zu bekommen (irgendwie muß man die ja mal lesen) und "reserviert" sozusagen gleichzeitig die Zielregister, um später die Werte zurückzuliefern. Das Management der ganzen Abhängigkeiten ist damit volkommen erledigt (der Scheduler kann das ja). So eine TEX-Anweisung sieht doch im Prinzip auch vollkommen gleich einem Zugriff auf das local/global memory aus und muß auch genauso gehandhabt werden. Es gibt einen Zeiger auf eine Struktur im Speicher (Array oder Textur) und einen dazugehörigen ein- oder mehrdimensionalen Offset (Texturkoordinten bzw. Indizes). Das einzige, was sich unterscheidet, ist die komplizierte Adressberechnung bei Texturen, die Möglichkeit der Filterung sowie der Kompression von Texturen, weswegen das eine (noch?) getrennte Speicherhierarchie mit eigenem Cache darstellt. Deswegen wird die dann auch an die TMUs weitergeleitet, wo die spezialisierten TAs und Filter sitzen. Aber vom Scheduling unterscheidet sich das in nichts von Zugriffen auf den globalen Speicher, der über die L/S-Einheiten abgewickelt wird.

Davon unbenommen bleibt natürlich, daß die Speicherzugriffe selber noch über einige Puffer laufen, und versucht wird, dabei möglichst zusammenhängende Speicherbereiche zu fetchen (Stichwort Coalescing), um die Bandbreite möglichst effektiv zu nutzen, aber das sitzt sozusagen noch "hinter" den TMUs.

Gipsel

2010-06-27, 23:57:16

Ich glaube nicht, dass die TMU einen eigenen Scheduler hat. MMn läuft das über das Front-End der "SM" genannten Organisationsstruktur: Dort wird adressiert und dann die TMU beauftragt. Danach wird der Thread geparkt, bis die TMU Vollzug meldet. Bereichert um den angeforderten Wert wird der Thread dann wieder in die Rotation aufgenommen.

Warum sollte das am Warp-Scheduler vorbeilaufen? Der Sinn dahinter entzöge sich mir.

-carsten
Ja, so sehe ich das auch.
Kleine Anmerkung, logisch adressiert wird in den ALUs (Texturkoordinaten, Array-Indizes). Die Werte aus den ALU-Registern wandern dann bei einem Texturfetch irgendwie (ich meine ja über die L/S-Einheiten, damit wäre nämlich der ganze Verwaltungskram mittels bereits bestehender Strukturen erledigt) zu den TAs in den TMUs, wo die physische Adressierung und schließlich das Fetchen und gegebenenfalls Filtern erfolgt, bevor die Werte in Register geschrieben werden und der betroffene Warp weiterlaufen kann.

Coda

2010-06-27, 23:57:54

Wieviel nebenläufiger denn als z.B. SFU-Instruktionen? Da passiert doch genau das Gleiche!
Eine Tex-Instruction hat eine viel höhere Latenz als die SFU. Und die SFU-Instructions haben ja auch eine fixe Latenz (oder nicht?). Speicherzugriffe müssen natürlich auch asynchron laufen und würden dann genauso zusätzliche "Threads" erzeugen.

Mag sein, dass diese Funktionalität auch näher an den Warp-Schedulern sitzt als ich denke (vor allem bei Fermi).

Gipsel

2010-06-28, 00:02:13

Weil sich auch jemand um das "TMU beauftragen" kümmern muss. Es sind ja auch potentiel zig Texture-Fetches "in flight".
Ja, die TMUs werden von den L/S-Einheiten beauftragt :D

Und es sind prinzipiell nie mehr Fetches in flight als normale Instruktionen das sein könnten ;)

Coda

2010-06-28, 00:07:07

Und es sind prinzipiell nie mehr Fetches in flight als normale Instruktionen das sein könnten ;)
Ja sicher, aber ich brauche doch zumindest irgendwo eine Queue in der ausstehende Texture-Fetches drinstehen und eine Einheit die diese abarbeitet.

Soweit ich weiß hatte ATI bei R600 noch das Konzept, dass die TMUs an alle ALUs angebunden waren. Da ist das Konzept das ich meine evtl. noch eher offensichtlich.

Gipsel

2010-06-28, 00:08:28

Eine Tex-Instruction hat eine viel höhere Latenz als die SFU. Und die SFU-Instructions haben ja auch eine fixe Latenz (oder nicht?).
Nun, fast jede SFU-Instruktion hat bei nv eine andere Latenz (:rolleyes:), die natürlich unter der eines typischen Fetches liegt. Der Punkt ist, daß SFU-Instruktionen auch "asynchron" ausgeführt werden kann, sprich Nichts blockiert. Die Frage ging ja eher in Richtung des prinzipiellen Unterschiedes. Und bei Zugriffen auf den globalen Speicher ist dann auch die Latenz praktisch die Gleiche.

Gipsel

2010-06-28, 00:12:35

Ja sicher, aber ich brauche doch zumindest irgendwo eine Queue in der ausstehende Texture-Fetches drinstehen und eine Einheit die diese abarbeitet.
Nun, zu irgendwas muß das ganze Scoreboarding in den Schedulern ja gut sein ;)
Und ausstehende Texturefetches wurden ja schon zu den TMUs geschickt, die die hoffentlich abarbeiten und dann irgendwann die Vollendung signalisieren.

Coda

2010-06-28, 00:15:16

Nun, fast jede SFU-Instruktion hat bei nv eine andere Latenz (:rolleyes:)
Jaja, schon gut. Hast ja gewonnen. Wo gibt's denn nochmal die SFU-Latenzen zum nachlesen?

Ich hatte die Idee noch aus der Vergangenheit im Kopf. Es gab def. Architekturen in denen Texture-Fetches separat durch den Chip gingen (afaik R5xx, Xenos und R6xx).

Gipsel

2010-06-28, 00:28:28

Ich hatte die Idee noch aus der Vergangenheit im Kopf. Es gab def. Architekturen in denen Texture-Fetches separat durch den Chip gingen (afaik R5xx, Xenos und R6xx).
Ja, ich schrieb oben doch, daß bis RV670 Deine Beschreibung gar nicht so schlecht paßt. Aber ab RV770 kamen die TMUs in die SIMDs. Das macht den ganzen Kram mit der Adressierung und den Datenstrom viel lokaler, die L1-Tex-Caches auf einem Cypress haben aggregiert immerhin eine Bandbreite von über 1 TB/s. Das routet man nicht mal so eben über den halben Chip. Und auch die maximal 80 Texturefetches pro Takt sind etwas viel für einen (globalen) Scheduler eine Stufe höher.

Coda

2010-06-28, 00:29:43

Gut, ergibt alles Sinn. Danke für die Aufklärungsarbeit ;)

Ich ging bisher davon aus, dass die Instructions alle feste Latenzen haben und damit der Warp-Scheduler sehr viel einfacher ausfallen kann. Aber das kann er ja schon allein nicht wegen den Loads - man braucht auf jeden Fall irgend ein Scoreboarding.

Expandable

2010-06-28, 08:50:09

Nvidia empfiehlt ja sogar, Speicherzugriffe so früh wie möglich zu machen. Ein Thread kann nämlich problemlos weiterlaufen, solange es keine Register verwendet, die noch auf eine Speicheroperation warten. Ich vermute fast, dass hierbei kein Unterschied zwischen Texture Fetches und Zugriff auf globalen/lokalen Speicher besteht, da ja inzwischen eh alles gecached wird.

Der Warpscheduler "weiß", ob ein Thread die nächste Instruktion ausführen kann oder aber noch auf Daten warten muss. Entsprechend wird der Warp dann gescheduled oder eben nicht.

Gast

2010-06-28, 10:56:40

So, jetzt.
Ich habe schon das ein oder ander Mal PR gefiltert, danke. :) Ich suche den Wortlaut morgen mal raus, wenn ich wieder Zugriff auf meine Mails habe.

-carsten

Hier habe ich das schonmal in indirekter Rede beschrieben:
http://www.pcgameshardware.com/aid,743526/Some-gory-guts-of-Geforce-GTX-470/480-explained/News/

Unter "Regarding Load/Store units:" steht:
"As we've learnt, there are 16 of them per shader multiprocessor, thus yielding a convenient number of 256 for the whole chip an 240 for a GTX 480. Operating on atomic values, that'd be a perfect fit to double for fetching textures. But as Nvidia told us, that's not the case. Because LD/ST is separate from the texture fetch path. The Load/Store units use a different path, through the L1, then L2, then Framebuffer. Texture units first look in texture cache (there's 12k each), then L2 cache, then FB memory."

Allerdings gibt das nicht 100% her, dass die Fetches wirklich komplett getrennt laufen, sprich, Hardware zweimal vorhanden ist wie im R600.

-carsten

Aquaschaf

2010-06-28, 11:04:10

Nvidia empfiehlt ja sogar, Speicherzugriffe so früh wie möglich zu machen.

Schon G80 ordnet Instruktionen sogar um, um die Latenzen von Speicherzugriffen besser zu verstecken.

Gipsel

2010-06-28, 12:02:17

Hier habe ich das schonmal in indirekter Rede beschrieben:
http://www.pcgameshardware.com/aid,743526/Some-gory-guts-of-Geforce-GTX-470/480-explained/News/

Unter "Regarding Load/Store units:" steht:
"As we've learnt, there are 16 of them per shader multiprocessor, thus yielding a convenient number of 256 for the whole chip an 240 for a GTX 480. Operating on atomic values, that'd be a perfect fit to double for fetching textures. But as Nvidia told us, that's not the case. Because LD/ST is separate from the texture fetch path. The Load/Store units use a different path, through the L1, then L2, then Framebuffer. Texture units first look in texture cache (there's 12k each), then L2 cache, then FB memory."

Allerdings gibt das nicht 100% her, dass die Fetches wirklich komplett getrennt laufen, sprich, Hardware zweimal vorhanden ist wie im R600.

-carsten
Das paßt eigentlich ziemlich gut zu meiner Beschreibung hier:
Eine TEX-Anweisung schleift man meiner Meinung nach am günstigsten über die L/S-Einheiten durch. Damit hat man zum einen den Aufhänger um die Adressen aus den Registerfiles zu bekommen (irgendwie muß man die ja mal lesen) und "reserviert" sozusagen gleichzeitig die Zielregister, um später die Werte zurückzuliefern. Das Management der ganzen Abhängigkeiten ist damit volkommen erledigt (der Scheduler kann das ja). So eine TEX-Anweisung sieht doch im Prinzip auch vollkommen gleich einem Zugriff auf das local/global memory aus und muß auch genauso gehandhabt werden. Es gibt einen Zeiger auf eine Struktur im Speicher (Array oder Textur) und einen dazugehörigen ein- oder mehrdimensionalen Offset (Texturkoordinten bzw. Indizes). Das einzige, was sich unterscheidet, ist die komplizierte Adressberechnung bei Texturen, die Möglichkeit der Filterung sowie der Kompression von Texturen, weswegen das eine (noch?) getrennte Speicherhierarchie mit eigenem Cache darstellt. Deswegen wird die dann auch an die TMUs weitergeleitet, wo die spezialisierten TAs und Filter sitzen. Aber vom Scheduling unterscheidet sich das in nichts von Zugriffen auf den globalen Speicher, der über die L/S-Einheiten abgewickelt wird.
Daß die eigentlichen Fetches nicht direkt von den L/S-Einheiten ausgeführt werden, ist doch klar. Trotzdem dürften sie diese auf dem Weg zu den TMUs passieren.

Gipsel

2010-06-28, 12:04:33

Schon G80 ordnet Instruktionen sogar um, um die Latenzen von Speicherzugriffen besser zu verstecken.
Solche Umordnungen sollte schon der Compiler machen, auf der GPU passiert das sicher nicht mehr.

Coda

2010-06-28, 12:27:48

Nvidia empfiehlt ja sogar, Speicherzugriffe so früh wie möglich zu machen. Ein Thread kann nämlich problemlos weiterlaufen, solange es keine Register verwendet, die noch auf eine Speicheroperation warten. Ich vermute fast, dass hierbei kein Unterschied zwischen Texture Fetches und Zugriff auf globalen/lokalen Speicher besteht, da ja inzwischen eh alles gecached wird.
Das meinte ich ja mit asynchronen Texturzugriffen. Ich hatte nur noch die Idee von getrennten Texturthreads, die wohl bei NVIDIA nie vorhanden waren.

Daß die eigentlichen Fetches nicht direkt von den L/S-Einheiten ausgeführt werden, ist doch klar. Trotzdem dürften sie diese auf dem Weg zu den TMUs passieren.
Falls nicht fehlt ja auch was im Blockdiagram.

Aquaschaf

2010-06-28, 12:46:05

Solche Umordnungen sollte schon der Compiler machen, auf der GPU passiert das sicher nicht mehr.

Das hat mal jemand mit in Assembler geschriebenen Microbenchmarks ausprobiert.

Edit - siehe diesen Thread: http://forums.nvidia.com/index.php?showtopic=169246

Coda

2010-06-28, 13:41:29

Meinst du mit "Umordnung", dass er ALU-Instructions vorzieht solange die Tex-Instruction noch läuft?

Eigentlich ergibt es wirklich sehr wenig Sinn noch irgendeine Instruktionsumordnung auf der GPU durchzuführen, denn man kann Latenzen ja mit anderen Warps verdecken.

Aquaschaf

2010-06-28, 14:06:06

Meinst du mit "Umordnung", dass er ALU-Instructions vorzieht solange die Tex-Instruction noch läuft?

Edit: nein, dass er Load/Store-Requests vorzieht. Wenn der Instruktionsstrom so aussieht: L/S-Request, Alu-Operation,.. Alu-Operation, L/S-Request, dann wird daraus unter bestimmten Bedingungen: L/S-Request, L/S-Request, Alu-Operation,.. Alu-Operation. Das geht bei G80/G200 wohl für maximal 5 L/S-Requests, zwischen denen nicht mehr als 25 andere Instruktionen liegen dürfen.

Coda

2010-06-28, 14:19:06

Versteh ich nicht. Warum ordnet es dann nicht gleich der Compiler um?

Aquaschaf

2010-06-28, 14:23:48

Versteh ich nicht. Warum ordnet es dann nicht gleich der Compiler um?

Spekulation: der Compiler weiß ja z.B. gar nicht wieviele thread blocks und warps von einem kernel tatsächlich auf einem Multiprozessor laufen können (Blockgröße und Bedarf an shared memory pro Block sind zur compile-Zeit ja unbekannt), und daher auch nicht wann Speicherlatenzen limitieren.

Coda

2010-06-28, 14:33:08

Das würde zumindest dazu passen dass die NVIDIA-SIMDs im Vergleich zu ATI ziemlich riesig sind.

Gipsel

2010-06-28, 14:54:21

Das hat mal jemand mit in Assembler geschriebenen Microbenchmarks ausprobiert.

Edit - siehe diesen Thread: http://forums.nvidia.com/index.php?showtopic=169246
Nee, der hat das nicht in Assembler geschrieben, sondern in PTX (Pseudo-Assembler, benutzt virtuelles Registerset und ist von der eigentlichen Hardware abstrahiert, d.h. in gewissem Umfang hardwareunabhängig, entspricht ATIs IL).
Im Treiber sitzt noch ein PTX->ISA JIT-Compiler, der erst den eigentlichen Binärcode erzeugt (cubin) und auch erst die eigentlichen Umordnungen vornimmt. Mann muß sich also schon mit DeCUDA den eigentlichen Binärcode ansehen (oder mit dem dazugehörigem Assembler selber welchen erstellen), um wirkliche Aussagen treffen zu können. Auf der PTX-Ebene geht das genausowenig wie bei ATI anhand des IL-Codes.

Gipsel

2010-06-28, 14:59:23

Spekulation: der Compiler weiß ja z.B. gar nicht wieviele thread blocks und warps von einem kernel tatsächlich auf einem Multiprozessor laufen können (Blockgröße und Bedarf an shared memory pro Block sind zur compile-Zeit ja unbekannt), und daher auch nicht wann Speicherlatenzen limitieren.
Der nvcc, der PTX-Code erzeugt, muß das tatsächlich nicht wissen. Allerdings weiß man es spätestens, wenn der auf die spezielle GPU zugeschnittene Binärcode erzeugt wird. Dies passiert entweder ebenfalls schon beim Kompilieren, wenn mit cubin-Files gearbeitet wird, allerdings verliert man dann die Vorwärtskompatibilität (der Code wird auf neuen Karten nicht laufen, bzw. nur auf Karten, für die beim Erstellen Binärcode erzeugt wurde). Oder eben erst zur Laufzeit des Programmes, wenn der in die .exe-Datei eingebettete PTX-Code in den nativen Maschinencode für die gerade eingebaute GPU übersetzt wird. Dann läuft ein Programm üblicherweise auch auf allen neueren GPUs, auch auf denen, die es zur Kompilierungszeit noch gar nicht gab. Bei ATI läuft das im Prinzip genauso.

Aquaschaf

2010-06-28, 15:11:07

Der nvcc, der PTX-Code erzeugt, muß das tatsächlich nicht wissen. Allerdings weiß man es spätestens, wenn der auf die spezielle GPU zugeschnittene Binärcode erzeugt wird.[...]

Naja, wie gesagt: die Anzahl an thread blocks bzw. warps die auf einem Prozessor laufen kann von Parametern abhängen die erst zur Laufzeit bekannt sind. Da müsste ein Kernel wirklich erst genau vor dem Punkt an dem er ausgeführt wird kompiliert werden.

Das von mir verlinkte Experiment schließt ja einen Eingriff der Cuda runtime mit an Sicherheit grenzender Wahrscheinlichkeit aus.

Coda

2010-06-28, 15:15:28

Und was genau hätte das für Auswirkungen? Es ist trotzdem immer am besten, wenn der Tex-Zugriff frühstmöglich gesetzt wird.

Aquaschaf

2010-06-28, 15:28:53

Und was genau hätte das für Auswirkungen? Es ist trotzdem immer am besten, wenn der Tex-Zugriff frühstmöglich gesetzt wird.

Sicher? Ich weiß es nicht. Irgendeinen Grund wird es haben dass die Hardware diese Fähigkeit hat.

Coda

2010-06-28, 15:30:40

Ich gehe auch eher davon aus, dass sie es eben nicht hat, sondern der Compiler umsortiert.

Gipsel

2010-06-28, 15:37:50

Da müsste ein Kernel wirklich erst genau vor dem Punkt an dem er ausgeführt wird kompiliert werden.

Das von mir verlinkte Experiment schließt ja einen Eingriff der Cuda runtime mit an Sicherheit grenzender Wahrscheinlichkeit aus.
So ist das auch (zumindest der erste Punkt). Auch die DX-oder OpenGL Shader werden immer erst zur Laufzeit kompiliert. Schau Dir einfach mal ein CUDA-Programm mit einem stinknormalen Texteditor an. Da steht der Klartext des PTX-Codes drin, der wird einfach als Zeichenkettenkonstante in das Programm eingebaut.
Zur Laufzeit des Programmes wird dann beim ersten Aufruf eines Kernels diese Zeichenkette an die CUDA-Runtime übergeben, die erst dann den PTX->CUBIN Compiler aufruft, der die GPU-spezifischen Sachen festlegt und auch noch den Code ordentlich durcheinanderwürfeln kann. Das läuft exakt so wie bei ATI, nur die Namen sind andere.

Edit:
Gerade gesehen, daß die PTX-Kompilierung schon beim Programmstart durchgeführt wird und der Treiber angeblich sogar das Ergebnis auf der Platte für die spätere Verwendung zwischenspeichert.

Aquaschaf

2010-06-28, 15:54:10

Ich gehe auch eher davon aus, dass sie es eben nicht hat, sondern der Compiler umsortiert.

Siehe den von mir verlinkten Thread. Das kann in dem Fall nicht sein, außer die Cuda runtime kann auch noch an cubins etwas ändern, was aber sehr unwahrscheinlich ist.

Zur Laufzeit des Programmes wird dann beim ersten Aufruf eines Kernels diese Zeichenkette an die CUDA-Runtime übergeben, die erst dann den PTX->CUBIN Compiler aufruft, der die GPU-spezifischen Sachen festlegt und auch noch den Code ordentlich durcheinanderwürfeln kann.

Dass das auch bei Cuda per default so ist war mir gar nicht bewust. Aber wie gesagt, in den von mir verlinkten Experimenten werden cubins benutzt.

Coda

2010-06-28, 15:58:49

Das ist sogar ziemlich wahrscheinlich, denn Fermi hat ein völlig anderes Instructionset als G80. Oder werden die zur Laufzeit generiert?

Gipsel

2010-06-28, 16:00:21

Siehe den von mir verlinkten Thread. Das kann in dem Fall nicht sein, außer die Cuda runtime kann auch noch an cubins etwas ändern, was aber sehr unwahrscheinlich ist.
An den cubins werden nur Sprungadressen entsprechend angepaßt. Diese Umsortierung geschieht wie gesagt beim Erzeugen der cubins, also bei der Kompilierung von PTX zu Cubin. Die Cubins sind ja schon direkt auf eine bestimmte Architektur zugeschnitten. Ein Cubin für GT200 läuft auch nicht auf einer GF100 oder umgedreht. Der identische PTX-Code wird einfach in unterschiedlichen Maschinencode übersetzt.

Aquaschaf

2010-06-28, 16:07:47

An den cubins werden nur Sprungadressen entsprechend angepaßt. Diese Umsortierung geschieht wie gesagt beim Erzeugen der cubins, also bei der Kompilierung von PTX zu Cubin.

Ich wiederhole mich langsam: den verlinkten Thread doch bitte einmal lesen. Das Umordnen kommt in dem Fall nicht vom Compiler (außer, wie gesagt, die runtime wäre dazu in der Lage das mit cubins zu machen). Die Tests wurden mithilfe von decuda/cudasm erstellt. D.h. es gab da keine Übersetzung PTX->Cubin.

Gipsel

2010-06-28, 16:34:00

Siehe den von mir verlinkten Thread. Das kann in dem Fall nicht sein, außer die Cuda runtime kann auch noch an cubins etwas ändern, was aber sehr unwahrscheinlich ist.

Dass das auch bei Cuda per default so ist war mir gar nicht bewust. Aber wie gesagt, in den von mir verlinkten Experimenten werden cubins benutzt.
Die PTX-Variante wird von nvidia aufgrund der Vorwärtskompatibilität dringend empfohlen. Ansonsten passiert es nämlich, daß kein CUDA-Programm auf einer GTX480 laufen würde.

Aber um nochmal auf Deinen Einstieg hier zurückzukommen:
Das hat mal jemand mit in Assembler geschriebenen Microbenchmarks ausprobiert.

Edit - siehe diesen Thread: http://forums.nvidia.com/index.php?showtopic=169246
Was hat der denn Deiner Meinung nach dort überhaupt gezeigt? Ich habe das nur überflogen, aber ein paar Schlußfolgerungen dort sind definitiv falsch (zumindest die mit der Taktzählung zur Ermittlung der Latenz für die ersten paar Beispiele sind zumindest dubios). Ich bin der Meinung, die dort gemachten Tests zeigen nicht, daß einer Umordnung auf der GPU stattfindet. Das einzige, was er da sieht, ist daß Fetches die Ausführung anderer Instruktionen nicht blockiert, solange sie unabhängig sind. Das wußte man aber schon vorher.

Edit:
Gerade Deinen Satz hier noch gelesen:
Edit: nein, dass er Load/Store-Requests vorzieht. Wenn der Instruktionsstrom so aussieht: L/S-Request, Alu-Operation,.. Alu-Operation, L/S-Request, dann wird daraus unter bestimmten Bedingungen: L/S-Request, L/S-Request, Alu-Operation,.. Alu-Operation. Das geht bei G80/G200 wohl für maximal 5 L/S-Requests, zwischen denen nicht mehr als 25 andere Instruktionen liegen dürfen.
In welchem Test dort siehst Du das? Der letzte aufgeführte (fetch, 25 unabhängige ALU-Instruktionen, fetch) zeigt, daß die ALU-Instruktionen in dem Fall nicht parallel zu den fetches laufen (genauer, zu dem gemessenen Teil der Latenz, die ganze Messung ist insofern Humbug, als daß die abschließende Zeitmessung schon vor Beendigung aller ausstehenden Operation stattfindet). Wäre das der Fall, wäre die gemessene Ausführungsdauer doch kleiner als exakt die Summe der Einzelinstruktionen, oder?

Ganz allgemein scheint er die Tests mit ein wenig zu vielen Threads (mehr Warps als SMs) gestartet zu haben, ansonsten kommen 8 Takte pro unabhängiger ALU-Instruktion einfach nicht hin, das sollten real nur 4 Takte sein, oder gibt es da eine Beschränkung, die ich nicht kenne? Bei ATI sind es 8 Takte (weil immer 2 Wavefronts abwechselnd ausgeführt werden), allerdings unabhängig davon, ob es abhängige oder unabhängige Instruktionen sind (logische Latenz aller ALU-Operationen ist immer genau 1 Takt), bei nvidia sollten es 4 (unabhängig) oder 20/24 Takte (abhängig) sein.

Fetter Fettsack

2010-06-28, 19:57:31

Sorry, Jungs, dass ich nochmal damit komme, aber weiß jemand schon etwas über bzw. hat man brauchbare Ansätze für den Strombedarf?

Gast

2010-06-28, 20:00:23

150 bis 225 Watt.

Gast

2010-06-28, 21:19:22

150 bis 225 Watt.
Bei der 768MiB Karte sind auch <150W TDP denkbar.

davidzo

2010-06-28, 21:24:15

nvidia TDP (x+10%=real) oder nach der üblichen industriellen Angabe (x-20%=real)?

Gast

2010-06-28, 21:29:19

nvidia TDP (x+10%=real) oder nach der üblichen industriellen Angabe (x-20%=real)?
Power-Viruses werden natürlich nicht von der TDP abgedeckt, auch bei AMD nicht.
In Spielen liegt auch Nvidia unter ihrer TDP, wenn auch nicht ganz so weit wie AMD.

Gast

2010-06-28, 21:45:39

Versteh ich nicht. Warum ordnet es dann nicht gleich der Compiler um?
weil bei den allerwenigsten cuda programmen der program flow statisch ist.

Gipsel

2010-06-28, 22:54:08

weil bei den allerwenigsten cuda programmen der program flow statisch ist.
Es findet aber auch keine Umordnung über Controlflow-Anweisungen hinweg statt :rolleyes:

davidzo

2010-06-29, 03:31:16

Power-Viruses werden natürlich nicht von der TDP abgedeckt, auch bei AMD nicht.
In Spielen liegt auch Nvidia unter ihrer TDP, wenn auch nicht ganz so weit wie AMD.

Naja, die Thermal Design Power ist in erster Linie eine Größe um den Kühler zu dimensionieren. Da man allerdings mit einer höheren TDPangabe die lebensdauer des Grafikchips eher erhöht weil er kühler läuft, setzen 99% der Industrie bisher die TDP etwas über dem realen Verbrauch an.
Im übrigen sprengt die gtx480 durchaus in einigen tests ihre TDP, bei CB zum Beispiel (Crysis warhead).
Wollen wir hoffen das mit GF104 nach Thermi nun endlich ein zeitgemäßer Umgang mit Energie (weniger ist ab jetzt gefragt) von nvidia kommt.

Gast

2010-06-29, 06:49:53

Im übrigen sprengt die gtx480 durchaus in einigen tests ihre TDP, bei CB zum Beispiel (Crysis warhead).
Seit wann misst CB den Grafikchip isoliert?

Und nein, aus einer Differenzmessung kann man das nicht ableiten.

Gast

2010-06-29, 10:44:16

Seit wann misst CB den Grafikchip isoliert?

Und nein, aus einer Differenzmessung kann man das nicht ableiten.

Das ist auch unbedeutend.
Der Kühler kühlt die ganze Karte und nicht nur den Chip.
Also muss die TDP für die ganze Karte gelten, was denn sonst?

Gast

2010-06-29, 10:56:47

Es findet aber auch keine Umordnung über Controlflow-Anweisungen hinweg statt :rolleyes:
AFAIK, wenn nur ein Counter iteriert wird, dann kann die HW das, alles statische, wie Coda schon sagte, wird zur compile-time gemacht.

Aquaschaf

2010-06-29, 11:28:27

[...](genauer, zu dem gemessenen Teil der Latenz, die ganze Messung ist insofern Humbug, als daß die abschließende Zeitmessung schon vor Beendigung aller ausstehenden Operation stattfindet). Wäre das der Fall, wäre die gemessene Ausführungsdauer doch kleiner als exakt die Summe der Einzelinstruktionen, oder?

Gut, damit wäre das geklärt :) Seine Messmethode hatte ich nicht genauer beachtet.

Gast

2010-06-29, 11:30:10

Das ist auch unbedeutend.
Der Kühler kühlt die ganze Karte und nicht nur den Chip.
Also muss die TDP für die ganze Karte gelten, was denn sonst?
Korrektur: Seit wann misst CB denn die Grafikkarte isoliert... usw.

Bucklew

2010-06-29, 12:05:07

Im übrigen sprengt die gtx480 durchaus in einigen tests ihre TDP, bei CB zum Beispiel (Crysis warhead).
CB misst nicht isoliert, sondern das Gesamtsystem.

Gipsel

2010-06-29, 12:12:58

AFAIK, wenn nur ein Counter iteriert wird, dann kann die HW das, alles statische, wie Coda schon sagte, wird zur compile-time gemacht.
Es wird nur der statische Kram zur Compilezeit gemacht. Oder kannst Du mir irgendwo was anderes zeigen?
Die Scheduler haben schon genug damit zu tun, alle Abhängigkeiten zu verwalten. Bei massiv-parallelen Problemen ist die einfachste und billigste Lösung sowieso mehr Threads anzuwerfen, da lohnt sich der Aufwand einfach nicht. Es hat schon einen Grund, warum die GPUs so viel mehr Rechenleistung/mm² haben als out-of-order CPUs mit Sprungvorhersage und spekulativer Ausführung ;)

Iruwen

2010-06-29, 13:01:51

Naja, die Thermal Design Power ist in erster Linie eine Größe um den Kühler zu dimensionieren. Da man allerdings mit einer höheren TDPangabe die lebensdauer des Grafikchips eher erhöht weil er kühler läuft, setzen 99% der Industrie bisher die TDP etwas über dem realen Verbrauch an.
Im übrigen sprengt die gtx480 durchaus in einigen tests ihre TDP, bei CB zum Beispiel (Crysis warhead).
Wollen wir hoffen das mit GF104 nach Thermi nun endlich ein zeitgemäßer Umgang mit Energie (weniger ist ab jetzt gefragt) von nvidia kommt.

Ob der Chip jetzt 4 oder 5 Jahre lebt ist doch ziemlich unerheblich, vor allem im High-End Segment. Hätte AMD keine Absicherung gegen Furmark in Hardware gegossen würden die HD 5000er auch locker ihre TDP überschreiten, bzw. die 5970 schafft es offenbar sogar trotzdem über 300W.

Gaestle

2010-06-29, 13:57:44

OMG.

Kann man die ewige und bis zum Zerfall ausgelutschte Stromdiskussion nicht irgendwohin auslagern? Spielwiese oder so?

Wer Leistung will, muss auch Strom investieren.

Henroldus

2010-06-29, 14:31:09

OMG.

Kann man die ewige und bis zum Zerfall ausgelutschte Stromdiskussion nicht irgendwohin auslagern? Spielwiese oder so?

Wer Leistung will, muss auch Strom investieren.
nö, so einfach ist es nicht.
Leistung durch schlichtes Hochskalieren und Einheiten dranklatschen kann nicht die Lösung sein.
Höhere Leistung bei gleichem oder geringeren Verbrauch ist die Devise, sprich Effizienz.
Das sollte doch heutzutage überall angekommen sein, nicht nur in der Autoindustrie.
Ich brauch keine künftigen Bundles von Grafikkarte mit neuem Netzteil :P

Gaestle

2010-06-29, 18:52:10

Schau dir doch die Balkenlängen der verschiedenen Generationen an und vergleiche es mit dem Stromvebrauch. Das Verhältnis von Balkenlänge zu Stromverbrauch wird mit jeder Generation besser.
Bei jeder Generation steht einem Balkenplus von vielleicht 50% ein Verbrauchsplus von lediglich 30% gegenüber (Zahlen frei phantasiert).

Diese "OMG - der Stromverbrauch"-Never-Ending-Jammer-Story gibt's doch mindestens seit der Voodoo 5. Hier (http://www.dooyoo.de/grafikkarten/3dfx-voodoo5-5500-110-0896-141/444984/) z.B. schildert ein User den Zitat "wahnsinnigen, gigantischen Stromverbrauch" einer Voodoo5 5500 mit 88Watt als großes Manko der Karte. Die aktuelle 480GTX braucht vielleicht das dreifache an Strom, aber wie viel mehr Balkenlänge bietet sie dazu im Vergleich zur Voodoo 5 5500?

Die 5500 wurde HIER (http://alt.3dcenter.org/artikel/voodoo5-5500/6.php) in Q3 Arena unter 1280*1024*32Bit mit sage und schreibe 48fps gemessen. Ob die 480GTX wohl die auch dreimal soviel fps liefert, wenn sie schon dreimal soviel Strom zieht?

Eine inzwischen antiquarisch alte X800 Pro schaffte jedenfalls die ca. 7-fache Balkenlänge einer Voodoo 5 5500 (= 350 fps) bevor sie ins CPU-Limit rennt, wie LeChuck HIER (http://www.forum-3dcenter.org/vbulletin/showpost.php?p=2637086&postcount=52) zeigt.

Können wir uns darauf einigen, dass die 480GTX in Q3 Arena mindestens die Leistung einer alten X800 erreicht? Stellen wir dann auch noch gemeinsam fest, dass im Vergleich V5 5500 vs. 480GTX einer Verdreifachung des Stromverbrauchs mindestens eine Versiebenfachung der Balkenlänge gegenüber steht? Ich würde das dann so interpretieren, dass die 480 mehr Balkenlänge pro Stromeinheit produziert als die Voodoo 5 und somit auch effizienter als die Voodoo 5 ist.

Gast

2010-06-29, 19:00:07

Schau dir doch die Balkenlängen der verschiedenen Generationen an und vergleiche es mit dem Stromvebrauch. Das Verhältnis von Balkenlänge zu Stromverbrauch wird mit jeder Generation besser.
Bei jeder Generation steht einem Balkenplus von vielleicht 50% ein Verbrauchsplus von lediglich 30% gegenüber (Zahlen frei phantasiert).

Diese "OMG - der Stromverbrauch"-Never-Ending-Jammer-Story gibt's doch mindestens seit der Voodoo 5. Hier (http://www.dooyoo.de/grafikkarten/3dfx-voodoo5-5500-110-0896-141/444984/) z.B. schildert ein User den Zitat "wahnsinnigen, gigantischen Stromverbrauch" einer Voodoo5 5500 mit 88Watt als großes Manko der Karte. Die aktuelle 480GTX braucht vielleicht das dreifache an Strom, aber wie viel mehr Balkenlänge bietet sie dazu im Vergleich zur Voodoo 5 5500?

Die 5500 wurde HIER (http://alt.3dcenter.org/artikel/voodoo5-5500/6.php) in Q3 Arena unter 1280*1024*32Bit mit sage und schreibe 48fps gemessen. Ob die 480GTX wohl die auch dreimal soviel fps liefert, wenn sie schon dreimal soviel Strom zieht?

Eine inzwischen antiquarisch alte X800 Pro schaffte jedenfalls die ca. 7-fache Balkenlänge einer Voodoo 5 5500 (= 350 fps) bevor sie ins CPU-Limit rennt, wie LeChuck HIER (http://www.forum-3dcenter.org/vbulletin/showpost.php?p=2637086&postcount=52) zeigt.

Können wir uns darauf einigen, dass die 480GTX in Q3 Arena minestens die Leistung einer alten X800 erreicht? Stellen wir dann auch noch gemeinsam fest, dass einer Verdreifachung des Stromverbrauchs mindestens eine Versiebenfachung der Balkenlänge gegenüber steht? Ich interpretiere das so, dass die 480 mehr Balkenlänge pro Stromeinheit produziert als die Voodoo 5 und somit effizienter ist.

Na und?
Wenn die aufgenommene Leistung einmal linear zur Leistung steigen sollte ist Ende im Gelände.
Die GTX 480 ist in der Kritik weil Sie im Vergleich zu AKTUELLEN Karten viel Leistung aufnimmt und nicht im Vergleich zu uralten Multichipkarten.

Bucklew

2010-06-29, 19:20:06

Die GTX 480 ist in der Kritik weil Sie im Vergleich zu AKTUELLEN Karten viel Leistung aufnimmt und nicht im Vergleich zu uralten Multichipkarten.
Die Topmodelle der aktuellen Generation haben immer eine deutlich höhere Leistungsaufnahme im Vergleich zur geboten Leistung.

Botcruscher

2010-06-29, 19:28:22

Positiv Denken. Schlimmer als bei der 480 kann der Verbrauch für eine normale Single-Referenzkarte nicht kommen. Um 300W ist erst mal Ende.

Gast

2010-06-29, 19:39:32

Eure Gammelgrafikkarten will ich mal mit Tesselation sehen, oder DX7 Karten die Battlefield BC2 in der Qualität wiedergeben wie es die jetzige Gen tut. Ihr setzt am falschen Punkt an. Was für ein Rechenaufwand dahinter steckt ist wohl nur den wenigstens Bewusst, aber das zwischen den angeführten Beispielen von früher und Games von Heute ein krasser Unterschied herrscht... wers nicht sieht hat in diese Forum nix verloren ^^

boxleitnerb

2010-06-29, 19:58:11

Die Topmodelle der aktuellen Generation haben immer eine deutlich höhere Leistungsaufnahme im Vergleich zur geboten Leistung.

Aber es gibt auch Grenzen - Verhältnismäßigkeit und so...

Gaestle

2010-06-29, 19:58:54

Na und?
Wenn die aufgenommene Leistung einmal linear zur Leistung steigen sollte ist Ende im Gelände.
Die GTX 480 ist in der Kritik weil Sie im Vergleich zu AKTUELLEN Karten viel Leistung aufnimmt und nicht im Vergleich zu uralten Multichipkarten.

Die Linearität existiert aber nicht. Sie ist Wunsch- und/oder Panikdenken irgendwelcher Leute, die nicht einsehen können oder wollen, dass Leistung immer einen Preis hat.

Die Leistung (in Balkenlänge) von Grafikkarten stieg bislang im Gesamtbild immer stärker als der Stromverbrauch. Siehe die GTX480 im Computerbase Rating (http://www.computerbase.de/artikel/grafikkarten/2010/test_nvidia_geforce_gtx_480/26/#abschnitt_leistungsaufnahme): 30% mehr Strom (im Gesamtsystem) als die GTX285 aber zwischen 60 und 70% längerer Balken.
Bei ht4u.net (http://ht4u.net/reviews/2010/nvidia_geforce_gtx_480/index15.php) sind es immer noch 50% mehr Balken für die 480GTX bei nur 25% mehr Strom (nur bezogen auf die Karte) als die 285GTX.

Zweites Beispiel: Die GTS 240 (http://www.computerbase.de/artikel/grafikkarten/2009/test_nvidia_geforce_gt_240/22/#abschnitt_leistungsaufnahme) bietet die Leistung einer 9600GT, zieht aber (im Gesamtsystem) 10% weniger Saft. Und? Wer ist jetzt richtig rollig auf die GTS 240, in gleichzeitiger freudiger Erwartung auf ein High-End-Game mit 1920er Auflösung und 4xAA? Niemand zwingt Euch zum Kauf von High-End-Karten.

Wuge

2010-06-29, 19:59:05

Stellen wir dann auch noch gemeinsam fest, dass im Vergleich V5 5500 vs. 480GTX einer Verdreifachung des Stromverbrauchs mindestens eine Versiebenfachung der Balkenlänge gegenüber steht?

Fermi schaltet bei Q3 in den Low-Power Modus und verbraucht etwa 100W ;) Hilft man manuell nach, kommt man auch unter den Verbrauch einer V5 - zumindest mit einer GTX470.

LovesuckZ

2010-06-29, 20:00:02

Stromverbrauch kann ich minimieren, weniger Features nicht aufbessern.
Ist ja schön, dass viele wegen dem Stromverbrauch heulen, aber dann gleichzeitig mit einer AF Qualität vorlieb nehmen, die nichtmal auf dem Niveau einer GF3 ist? Das ist Verhältnismäßigkeit...

boxleitnerb

2010-06-29, 20:02:43

Das ist richtig.
Aber man kann nicht von jedem Käufer erwarten, dass er seine Karten undervoltet oder so gut kühler (Wakü), dass die Leistungsaufnahme nochmal sinkt (Garantieverlust durch Kühlerwechsel). Der Großteil der Käufer besteht eben aus Noobs, die sich sowas nicht trauen.

LovesuckZ

2010-06-29, 20:03:19

Die kaufen sich auch keine Karte über 200€.

boxleitnerb

2010-06-29, 20:04:31

Hast du ne Ahnung...geh mal in die Kaufberatungsforen vom Luxx oder von CB...da wird es einem Angst und Bange! Die Hälfte der Käufer weiß bestimmt nichtmal, was SSAA ist ;D
Sagen wir es so: Bei der 470 ist es in Anbetracht der ganzen Features noch zu verschmerzen (für mich allerdings nur, wenn ich die Karte unter Wasser setzen würde). Solange es wieder runter geht mit der Leistungsaufnahme, kann man bei diesem Ausrutscher ein Auge zudrücken.

Bucklew

2010-06-29, 20:20:14

Aber es gibt auch Grenzen - Verhältnismäßigkeit und so...
Definiere "verhältnismäßig". Die aktuellen Top-Karten brauchen immer mehr Strom als die Mittelklasse. Das war schon immer so und wird auch immer so sein. Der 500PS-Ferrari wird auch immer mehr verbrauchen als der 100PS Kleinwagen :rolleyes:

Gast

2010-06-29, 20:42:06

nö, so einfach ist es nicht.
Leistung durch schlichtes Hochskalieren und Einheiten dranklatschen kann nicht die Lösung sein.
Höhere Leistung bei gleichem oder geringeren Verbrauch ist die Devise, sprich Effizienz.
Das sollte doch heutzutage überall angekommen sein, nicht nur in der Autoindustrie.

Ein heutiges Auto muss auch nicht schneller fahren als eines von vor 10 Jahren.

Eine heutige Grafikkarte muss aber um ein vielfaches schneller sein als vor 10 Jahren.

boxleitnerb

2010-06-29, 20:43:24

Es geht hier um den Vergleich mit der Konkurrenz. Ca. 250W in Spielen für die 480 ist schon sehr sehr heftig, trotz der höheren Leistung. Ich würde fast behaupten, da hat die GTX285 noch eine bessere Effizienz.

Es ist ja auch so, dass eine hohe Leistungsaufnahme
1. einen größeren und teureren Kühler erfordert
2. den Spielraum einer deutlichen Performanceerhöhung senkt (es sei denn, man fängt jetzt an, den Chip hinten und vorne zu kastrieren, aber dann hätte man ihn ja gleich so auslegen können. Zwar ist man prinzipiell an die neuen Fertigungsprozesse gebunden, die nur ca. alle 18 Monate kommen, aber ich denke AMD könnte gut Paroli bieten, wenn sie die Kurve mit Tessellation kriegen und auf einen ähnlichen Verbrauch wie Fermi zielen würden - eben weil mehr Luft da ist).
3. einen Haufen potentielle Käufer vergrault. Es ist nunmal ein Trend geworden, dass vermehrt nach möglichst geringer Leistungsaufnahme geschaut wird. Ob das jetzt im Highend Sinn macht oder nicht, ist erst mal nebensächlich, aber es hat halt Bedeutung gewonnen in den letzten Jahren und fließt bei vielen in die Kaufentscheidung mit ein (auch über Preis/Lautstärke (AMP! scheißteuer) und Nebenkosten (Netzteil).

Ich sag mal, solange man auf dem momentan etablierten Niveau bleibt (auch wenn es natürlich hoch ist im Vergleich zu vor 5 Jahren), ist es ok. Fermi ist hier halt ein deutlicher Ausrutscher nach oben. Hoffe, es geht wieder runter.

y33H@

2010-06-29, 20:59:45

1) Ist im High-End-Bereich nicht sonderlich wichtig
2) Die GTX480 ist im Mittel 60-80% vor der GTX285, eine HD5870 nur 50-70% vor einer HD4890. Und die GTX 480 ist kein Fermi-Vollausbau und keine "vollen" Taktraten, zudem lässt sich sich bei geringerem Spannungseinsatz (und damit in Relation sparsamer) klar besser übertakten als eine HD5870. Und die Leistungsaufnahme ist aufs Jahr gerechnet lächerlich höher.

boxleitnerb

2010-06-29, 21:08:53

1) richtig
2) Ein Vollausbau mit den entsprechend angepeilten Taktraten würde ja auch nochmal ein bisschen mehr schlucken. Im Vergleich zur 4890 ist die Leistungsaufnahme der 5870 sogar leicht zurückgegangen.
Ist die Frage, wo die beiden sich bei der Leistungsaufnahme treffen - und vor allem, ob sich dieser Punkt mit Southern Islands nicht verschieben wird. Und wie die Performance dann aussieht. Es wird interessant zu sehen, wie das zweite 40nm Duell in diesem Bereich ausgeht.
Von den StromKOSTEN sprach ich nicht ;)

y33H@

2010-06-29, 21:15:45

Ob die "große Mehrheit aller Käufer" überhaupt HD58x0 oder GF100-Karten kauft? Ich denke nicht, aber das ist OT.

Wenden wir uns wieder der GTX 460 zu =)

pest

2010-06-29, 21:31:36

2) Die GTX480 ist im Mittel 60-80% vor der GTX285, eine HD5870 nur 50-70% vor einer HD4890.

bist du eigentlich bei der PCGH?

AwesomeSauce

2010-06-29, 21:32:40

bist du eigentlich bei der PCGH?
Besser, man merkt es spät, als nie;D

pest

2010-06-29, 21:34:12

rhetorische fragen und so

y33H@

2010-06-29, 21:48:49

Und wenn, tut es nichts zur Sache. Ich leake nichts und bin objektiv *Schulter zuck*

V2.0

2010-06-30, 07:21:52

Der Stromverbrauch ist schon entscheident. Wenn mehr Strom verbraucht wird, dann wird entweder der Kühler lauter oder größer. Gelichzeitig muss die Gehäusekühlung besser werden, da insgesamt mehr Wärme abgeführt werden muss. Und wer glaubt, dass heute im Perfromancesegment (ich würde fast sagen in allen Segmenten) die Lautstärke der Karte nicht verkaufsrelevant ist, der dürfte sich irren.

Gaestle

2010-06-30, 09:12:12

Es geht hier um den Vergleich mit der Konkurrenz. Ca. 250W in Spielen für die 480 ist schon sehr sehr heftig, trotz der höheren Leistung. Ich würde fast behaupten, da hat die GTX285 noch eine bessere Effizienz.

Wenn Du mein Posting gelesen und verstanden hättest, wüsstest Du, dass Du nachweislich objektiv messbar falsch liegst.

Aber das interessiert Dich (aber nicht nur Dich allein) ja nicht, denn Du "würde[st] fast behaupten". Aha. "Behaupten" / "vermuten" / "glauben". Nicht "nachweisen" oder "belegen, dass" ...
(Sorry, dass dieser ... Ausbruch ... Dich trifft, ist nicht persönlich gemeint).

Ansonsten:
Es würde mich sehr wundern, wenn es bei gleichbleibender Basistechnologie (= Elektronen basierte Transistorenchips) im Stromvebrauch wieder runter gehen würde.
Ein Sinken der Stromaufnahme kann IMHO erst erwartet werden, wenn sich die Basistechnologie grundsätzlich ändert (z.B. mit der Einführung optischer Chips oder so).

boxleitnerb

2010-06-30, 09:17:49

Wenn Du mein Posting gelesen und verstanden hättest, wüsstest Du, dass Du nachweislich objektiv messbar falsch liegst.

Natürlich hab ich es gelesen und verstanden. Ich bestreite ja gar nicht, dass die Leistung stärker steigt als die Leistungsaufnahme, und dass Highend oft überproportional Strom frisst bzw. das fps/W Verhältnis der Midrangekarten sogar besser sein kann.
Ich sage nur, dass Fermi sich in diesem Trend und in seiner Kategorie (Highend) im Vergleich zu aktuellen Karten einen ordentlichen Ausrutscher erlaubt hat.

Gast

2010-06-30, 09:23:43

Es wird nur der statische Kram zur Compilezeit gemacht. Oder kannst Du mir irgendwo was anderes zeigen?
das steht doch in dem quote von dir
alles statische, wie Coda schon sagte, wird zur compile-time gemacht.

Die Scheduler haben schon genug damit zu tun, alle Abhängigkeiten zu verwalten. Bei massiv-parallelen Problemen ist die einfachste und billigste Lösung sowieso mehr Threads anzuwerfen, da lohnt sich der Aufwand einfach nicht. Es hat schon einen Grund, warum die GPUs so viel mehr Rechenleistung/mm² haben als out-of-order CPUs mit Sprungvorhersage und spekulativer Ausführung ;)
Und das wichtigste ist die Einheiten nicht brach liegen zu lassen, deswegen haben sie ab G80 Branch-Prediction und ab Fermi sogar Hint-Instructions für die Branch-Prediction (http://www.google.de/search?q=fermi+branch+prediction).
Auch die Instruction-Pipeline _vor_ dem "Warp Scheduler" ist schon lang, die Instructions werden in eine Queue gestopft und kommen irgendwann beim "Warp-Sheduler" an, entsprechend hast du schon einen Instruction-Stream den du nach Memory-Fetches durchsuchen kannst.
Und deswegen gibt es das Prefetching, nicht um statisch optimierte Shader zu beschleunigen, denn die sind schon durch den Compiler optimal, sondern um Cuda-Kernel mit Branches (die predictable sind) zu beschleunigen.

Nochmal deutlich:
- Prefetching bei statischem Flow -> Sinnfrei (sagte Coda schon)
- Prefetching ohne Prediction -> relativ Sinnfrei (weil der Scope genauso eng gesteckt ist wie der Compiler den auch sieht)
- Prediction ist wichtiger als Data-Prefetching, weil Instruction-Fetching first class citizen ist.
- Der "Warp Scheduler" hat damit nichts zu tun, er ist nur ein Instruction-Dispatcher wie ihn jede CPU hat.

Henroldus

2010-06-30, 09:46:18

Ansonsten:
Es würde mich sehr wundern, wenn es bei gleichbleibender Basistechnologie (= Elektronen basierte Transistorenchips) im Stromverbrauch wieder runter gehen würde.
Ein Sinken der Stromaufnahme kann IMHO erst erwartet werden, wenn sich die Basistechnologie grundsätzlich ändert (z.B. mit der Einführung optischer Chips oder so).
nö, die Leistungsaufnahme sinkt doch auch, wenn ich den gleichen Chip in einem kleineren Fertigungsverfahren herstelle und somit zum Beispiel die Spannung senken kann.
Deswegen sind ja Mainstreamkarten der Folgegeneration oft so schnell wie die Highendklasse der alten Gen. bei GERINGEREM Stromverbrauch
Die "Basistechnologie" wie Du es nennst, wird uns noch eine Weile erhalten bleiben, keine Sorge ;)

Gast

2010-06-30, 11:14:48

Here is the some highlights;

- Launch date is July 12th > Its official
- There are two GTX 460 configurations > Its official
- One of them supports 192-bit memory interface with 768 MB GDDR5 and other is 256-bit with 1 GB GDDR5
- TDP is 150 Watt for 192-bit model and 160 Watt 256-bit model.
- Clock speeds are same for both > 675MHz GPU and 3600 MHz memory
- Both models have 336 stream processors
- GeForce GTX 460 has DisplayPort (only 256-bit) and also has Dual DVI and Mini HDMI.
- Launch price of GeForce GTX 460 (192-bit) will probably under $200.
http://forums.vr-zone.com/showthread.php?p=8249032#post8249032

Dural

2010-06-30, 11:19:53

160Watt ist ja mal ok und dürfte somit ca. auf gleicher höhe wie die 5830/5850 sein, die leistung wird so oder so sich bei den zwei karten einpenteln.

ShinyMcShine

2010-06-30, 11:21:31

Schade, keine News zur GTX 468...

Dural

2010-06-30, 11:31:20

denke nicht das wir die sobald sehen werden, schade! ein voller gf104 mit ca. 700mhz würde eine 470er überflüssig machen...

Ailuros

2010-06-30, 11:38:20

160Watt ist ja mal ok und dürfte somit ca. auf gleicher höhe wie die 5830/5850 sein, die leistung wird so oder so sich bei den zwei karten einpenteln.

Wenn es die gleich "TDP Logik" wie auf GF100 verfolgt dann ist es nicht "ok".

Leicht OT aber NV's eigener Tessellations Weihrauch hier: http://www.highperformancegraphics.org/media/Hot3D/HPG2010_Hot3D_NVIDIA.pdf

aylano

2010-06-30, 12:20:32

Die Leistung (in Balkenlänge) von Grafikkarten stieg bislang im Gesamtbild immer stärker als der Stromverbrauch. Siehe die GTX480 im Computerbase Rating (http://www.computerbase.de/artikel/grafikkarten/2010/test_nvidia_geforce_gtx_480/26/#abschnitt_leistungsaufnahme): 30% mehr Strom (im Gesamtsystem) als die GTX285 aber zwischen 60 und 70% längerer Balken.
Bei ht4u.net (http://ht4u.net/reviews/2010/nvidia_geforce_gtx_480/index15.php) sind es immer noch 50% mehr Balken für die 480GTX bei nur 25% mehr Strom (nur bezogen auf die Karte) als die 285GTX.
Ich weiß jetzt nicht, was daran jetzt so gut sein soll, wenn die neue GPU mit kleinerer Fertigung (doch) schneller als die alte GPU mit alter Fertigung ist.

Das Problem für Nvidia ist, AMD schaffte diesmal die Ganzen Performance-Steigerungen ohne Stromverbrauchsanstieg und das bei gleicher Spannungssenkung & Fertigung.

Man darf ja nicht vergessen, der GTX285 (=gleiche Fertigung wie HD4870/90) hatte gegen HD4870/90 IMO eine 15-20% bessere Effizienz (Performance-pro-Watt) und die ist jetzt extrem gekippt.
Auch wenn GF104-384 die selbe Effizienz wie der HD5000 schaffen wird, wäre das immer noch eine nicht unerhebliche Effizenz-Verschlechterung gegenüber GTX285.

Das Problem des Stromverbrauchs ist ja nicht unbedingt diese Fermi-Generation, sondern die nächste und übernächste, wenn es ungefähr so weitergeht, wie die letzten Monate/Quartale/Jahre.

Gast

2010-06-30, 12:23:22

160Watt ist ja mal ok und dürfte somit ca. auf gleicher höhe wie die 5830/5850 sein, die leistung wird so oder so sich bei den zwei karten einpenteln.

Wenn wie bei GF100 der "normale" Verbrauch in Spielen gemeint ist dann ist das selbst mehr als eine 5870.

V2.0

2010-06-30, 12:36:09

Hoffen wir, dass die TDP nicht NV-GF100-TDP ist und es locker auch mal 30W mehr sein können. Sollte das wirlich die typische Leistungsaufnahme sein, dann wäre das übel. Als maximale Leistungsaufnahme wäre es ok.

ShinyMcShine

2010-06-30, 12:38:34

denke nicht das wir die sobald sehen werden, schade! ein voller gf104 mit ca. 700mhz würde eine 470er überflüssig machen...

Hängt ggf. auch davon ab, wie schnell die "restlichen" 470er abverkauft werden? Ich könnte mir gut vorstellen, dass nVidia keine GF100 Chips mehr für die GTX 470 verkauft (wenn die Ausbeute mittlerweile besser geworden ist). Der GF104 ist ja auch wirtschaftlicher herzustellen. Wenn dann eine GTX 468 in die gleiche preisliche Nische springt wie die alte GTX 470 kann das für nVidia doch nur positiv sein. :wink:
Ich hoffe auf ein Release spätestens zum Herbst... :cool:

VG
Shiny

Gast

2010-06-30, 13:29:30

Auch wenn GF104-384 die selbe Effizienz wie der HD5000 schaffen wird, wäre das immer noch eine nicht unerhebliche Effizenz-Verschlechterung gegenüber GTX285.

Das ist überhaupt keine Effizienzverschlechterung, im Gegenteil, die Effizienzsteigerung fällt nur deutlich geringer als bei den letzten 2 ATI-Generationen aus.

Dural

2010-06-30, 13:30:27

denke schon das die 160watt stimmen, im üblichem TDP rahmen ist! das ist eine reine Massen/OEM Karte und da kann sich sowas nicht mal NV erlauben... und wie schon oft gesagt, bei High-End ist den meisten den Stromverbrauch egal, aber sicher nicht in dieser Preisklasse!

naja NV dürfte immer GF100 mit 448SP haben, ist ja wie bei der GTX260 oder 8800GTS.

im idealfall müsste eine GTX475 kommen, aber ob und wie das mit dem GF100 A3 ausehen würde... denke NV wartet bis zum Bx... vorher kein voller GF104 oder nur Preislich zu teuer im vergleich zur GTX470! aber wer macht schon gerne im eigenen haus konkurenz ;)

ShinyMcShine

2010-06-30, 14:05:09

Wenn die Ausbeute beim GF100 besser wird, könnte es auch sein, dass nVidia die GTX 470 und GTX 480 einstampft, eine GTX 475 mit 480SPs und Taktraten auf 470er Niveau rausbringt, und eben die GTX485 mit den vollen 512SPs und leicht erhöhtem Takt (von der GTX 485 gibt's doch auch schon die entsprechenden Gerüchte).
Somit wäre der Weg frei für die GTX 468. Ich hoffe schon sehr auf einen Release im Herbst, damit die im Q3/Q4 erscheinenden Spiele auch akzeptabel laufen. ;)

VG
Shiny

Iruwen

2010-06-30, 14:22:21

Und wer glaubt, dass heute im Perfromancesegment (ich würde fast sagen in allen Segmenten) die Lautstärke der Karte nicht verkaufsrelevant ist, der dürfte sich irren.
Performance ist jawohl auch kein Problem, im High-End wirds röhrig. Allerdings weiß die Kundschaft sich da dann auch eher zu helfen.

Gaestle

2010-06-30, 15:21:13

nö, die Leistungsaufnahme sinkt doch auch, wenn ich den gleichen Chip in einem kleineren Fertigungsverfahren herstelle und somit zum Beispiel die Spannung senken kann.
Deswegen sind ja Mainstreamkarten der Folgegeneration oft so schnell wie die Highendklasse der alten Gen. bei GERINGEREM Stromverbrauch

Genau. Erstens WENN und zweitens SO SCHNELL WIE .

Und eben nicht:

Höhere Leistung bei gleichem oder geringeren Verbrauch

boxleitnerb

2010-06-30, 15:29:06

Dann vergleich mal die 5870 mit der 4890 und da hast du beides ;)

Gast

2010-06-30, 16:27:02

Die Linearität existiert aber nicht. Sie ist Wunsch- und/oder Panikdenken irgendwelcher Leute, die nicht einsehen können oder wollen, dass Leistung immer einen Preis hat.

Die Leistung (in Balkenlänge) von Grafikkarten stieg bislang im Gesamtbild immer stärker als der Stromverbrauch. Siehe die GTX480 im Computerbase Rating (http://www.computerbase.de/artikel/grafikkarten/2010/test_nvidia_geforce_gtx_480/26/#abschnitt_leistungsaufnahme): 30% mehr Strom (im Gesamtsystem) als die GTX285 aber zwischen 60 und 70% längerer Balken.
Bei ht4u.net (http://ht4u.net/reviews/2010/nvidia_geforce_gtx_480/index15.php) sind es immer noch 50% mehr Balken für die 480GTX bei nur 25% mehr Strom (nur bezogen auf die Karte) als die 285GTX.

Zweites Beispiel: Die GTS 240 (http://www.computerbase.de/artikel/grafikkarten/2009/test_nvidia_geforce_gt_240/22/#abschnitt_leistungsaufnahme) bietet die Leistung einer 9600GT, zieht aber (im Gesamtsystem) 10% weniger Saft. Und? Wer ist jetzt richtig rollig auf die GTS 240, in gleichzeitiger freudiger Erwartung auf ein High-End-Game mit 1920er Auflösung und 4xAA? Niemand zwingt Euch zum Kauf von High-End-Karten.

Ich glaube nicht dass du verstanden hast, was ich geschrieben habe.
Man kann durch Strukturverkleinerung immer Mehrleistung ohne Mehrstromverbrauch erzielen.
Der Mehrverbrauch kommt daher dass man mit der Mehrleistung nicht zufrieden war und noch mehr Transistoren und höhere Taktraten wollte.
Und was ist das bitte für ein merkwürdiges Beispiel?
Eine HD 5770 hat in etwa die Leistung der HD 4870 und benötigt die Hälfte der Energie.

Hätte man in der IT Mehrleistung "immer einen Preis" (also in Leistungsaufnahme) gehabt, hättest du noch nie einen Rechner aus der Nähe betrachten können.

AwesomeSauce

2010-07-01, 14:32:39

Darf ich mal frech die Frage in den Raum werfen, warum Nvidia die 192bit und 256-bit (bzw. 768MB und 1024MB) Versionen der GTX460 gleich benennt? Es wäre nun wirklich keine Sache, die beiden Karten durch eine kleine Nuance im Namen (eg. GTX455 u. GTX460) voneinander zu distanzieren. Was für einen triftigen Grund gibt es überhaupt, solch ähnlich spezifizierte Karten zu releasen? Ich glaube, die (laut Fudzilla (http://www.fudzilla.com/graphics/graphics/graphics/the-gtx-460-1gb-to-be-around-%E2%82%AC30-more-expensive)) 30€ Aufpreis zur 1GB-Version wird sich jeder gönnen...

Coda

2010-07-01, 14:52:28

Um Leute zu verarschen.

Bucklew

2010-07-01, 14:57:47

Gab ja auch eine 8800GTS und 8800GTS 512

ShinyMcShine

2010-07-01, 14:57:49

Die 8800 GTS und die GTX 260 gab es auch in drei bzw. zwei unterschiedlichen Versionen. Vielleicht macht es nVidia bei der GTX 460 ähnlich wie bei der 8800 GTS und hängt die Speichergröße hinten dran:

GTX 460 768MB
GTX 460 1024MB

VG
Shiny

Edit: Bucklew war schneller! ;)

Gast

2010-07-01, 14:58:20

Um Leute zu verarschen.

Korrekt, eine andere Begründung gibt es dafür einfach nicht. Für die Tests verschickt NV die schnelleren 256-bit Varianten und verkauft werden dann zu 90% die abgespeckten GXT460 192-bit.

V2.0

2010-07-01, 15:15:06

Wer das kauft ist blöd.

Dural

2010-07-01, 16:05:27

... und eine 8800GTS 320MB ;)

retail dürfte es die 192bit so wie so kaum geben, die ist doch mehr für OEMs

y33H@

2010-07-01, 16:09:44

Es gab vier 8800 GTS: GTS/320, GTS/640, GTS/640 (112 ALUs) und GTS/512.

dildo4u

2010-07-01, 16:40:21

Ich hoffe NV lässt die Karten nur mit dem Neusten beta Treiber testen dann sehen die Karten sehr gut aus gegen 5850.Stehen die Karten schon bei den 190er Treiber in der ini?Hoffe nicht ich hasse es wenn neue Karten mit altem Treiber auf CD getestet werden.

Gipsel

2010-07-01, 16:51:39

das steht doch in dem quote von dir
Ja, was ich damit sagen will, ist, daß statisch mögliche Umordnungen zur Compilezeit gemacht werden und danach nichts mehr ;)
Und das wichtigste ist die Einheiten nicht brach liegen zu lassen, deswegen haben sie ab G80 Branch-Prediction und ab Fermi sogar Hint-Instructions für die Branch-Prediction (http://www.google.de/search?q=fermi+branch+prediction).
ROTFL
Damit die Einheiten nicht brach liegen, läßt man möglichst viele Threads los, um die Latenzen zu verstecken. Der Google Link fördert neben sehr viel Blödsinn auch ein nvidia pdf zu Tage, in dem die nichtvorhandene Branch prediction von Fermi sogar Thema ist. Oder um das mal klar auszudrücken:
Keine derzeitige GPU macht Branch Prediction. Punkt. Das ist viel zu aufwendig für den bei massiv parallelen Problemen zu erwartenden (nicht existenten) Vorteil. Übrigens, Predication ist was völlig anderes als Prediction. Ich habe so die leise Vermutung, Du verwechselt das ;)
Auch die Instruction-Pipeline _vor_ dem "Warp Scheduler" ist schon lang, die Instructions werden in eine Queue gestopft und kommen irgendwann beim "Warp-Sheduler" an,Eine Pipeline ist schon was Schönes. Genau wie ein FIFO-Buffer kommt da hinten auch alles in der gleichen Reihenfolge raus, wie man es vorne reinstopft. Und dazu ist es noch super einfach in Hardware zu gießen ;)
Und deswegen gibt es das Prefetching, nicht um statisch optimierte Shader zu beschleunigen, denn die sind schon durch den Compiler optimal, sondern um Cuda-Kernel mit Branches (die predictable sind) zu beschleunigen.

Nochmal deutlich:
- Prefetching bei statischem Flow -> Sinnfrei (sagte Coda schon)
- Prefetching ohne Prediction -> relativ Sinnfrei (weil der Scope genauso eng gesteckt ist wie der Compiler den auch sieht)
- Prediction ist wichtiger als Data-Prefetching, weil Instruction-Fetching first class citizen ist.Sorry, das ist ziemlicher Quatsch.

- Der "Warp Scheduler" hat damit nichts zu tun, er ist nur ein Instruction-Dispatcher wie ihn jede CPU hat.
Das stimmt sogar fast ;)

Gast

2010-07-01, 16:53:44

Es gab vier 8800 GTS: GTS/320, GTS/640, GTS/640 (112 ALUs) und GTS/512.
Fünf mit der kaum verfügbaren GTS 1024MB.

y33H@

2010-07-01, 17:08:27

Oh stimmt =) Gainward hatte iirc ein 1G-Modell.

Dural

2010-07-01, 17:52:50

für alle die sagen: die DIE ist bei NV so und so viel grösser und kostet deswegen so und so viel mehr. ;)

http://www.computerbase.de/news/treiber/grafikkarten/2010/juli/amd_tsmc_garde/

wer das wirklich glaubt ist naiv wie die News auch ganz klar zeigt...

Gast

2010-07-01, 17:55:38

Da kann man nur hoffen, das man in den kommenden Monaten ein paar Millionen GF104-Dies in den Markt wirft, damit es zur Konkurrenz zwischen den Herstellern kommt und die UVPs schnell unterschritten werden.

Gast

2010-07-01, 18:00:03

http://img215.imageshack.us/img215/8422/a4031189s.jpg (http://img215.imageshack.us/i/a4031189s.jpg/)

http://diybbs.zol.com.cn/10/198_97564.html

Bucklew

2010-07-01, 18:03:23

17734Mhz Default Clock?:freak:

LovesuckZ

2010-07-01, 18:06:25

Es gab vier 8800 GTS: GTS/320, GTS/640, GTS/640 (112 ALUs) und GTS/512.

Es gab nie eine 8800GTS mit 112 ALUs und/oder 1024mb.

y33H@

2010-07-01, 18:08:15

@ LovesuckZ

Tja, da muss ich dich enttäuschen - die gab es beide. G80 mit 112 ALUs und 640M sowie G92 als 8800 GTS mit 1G.

LovesuckZ

2010-07-01, 18:12:38

Dann kannst du das bestimmt auch mit Links untermauern?

derguru

2010-07-01, 18:14:16

jep wenn ich mich nich täusche hatte evga eine gts mit 112.

edit:http://geizhals.at/a293575.html

was sind das denn für nvfanboys hier,schwach.:tongue:

LovesuckZ

2010-07-01, 18:17:18

Nur von Evga. Und so überpräsent, dass es nur die wenigsten wissen können.
Schien wohl wie die MSI 7900GTO ein Abverkauf gewesen zu sein - 6.11.2007.

Gast

2010-07-01, 18:23:08

Gainward's 8800 GTS with 1GB listed (http://web.archive.org/web/20080211070320/http://www.fudzilla.com/index.php?option=com_content&task=view&id=5640&Itemid=1)

ShinyMcShine

2010-07-01, 18:29:35

Hat jemand eigentlich eine Ahnung wann das NDA (wenn es das schon gibt) für die GTX 460 abläuft?

VG
Shiny

mapel110

2010-07-01, 18:33:45

Hat jemand eigentlich eine Ahnung wann das NDA (wenn es das schon gibt) für die GTX 460 abläuft?

VG
Shiny
Angeblich Montag 12. Juli.

y33H@

2010-07-01, 18:35:15

@ LovesuckZ

Links? Klar.

Review der GTS/640 mit 112 ALUs (http://www.hardwarecanucks.com/forum/hardware-canucks-reviews/3173-evga-8800gts-640mb-w-112sps-ssc-edition-review.html)
EVGA 8800 GTS/1G bei Geizhals (http://geizhals.at/deutschland/a313484.html) [verkauft gerade einer bei PCGH]

Beide Karten waren AIB-Lösungen, kein official IHV-Design.
Angeblich Montag 12. Juli. Wurde doch geleakt :usad:

AwesomeSauce

2010-07-01, 18:39:53

Angeblich Montag 12. Juli.
Ist das nicht eher der Verkaufsstart? NDA könnte schon am Wochenende davor fallen...

ShinyMcShine

2010-07-01, 18:44:22

Ich dachte auch 12. Juli ist Verkaufsstart...

LovesuckZ

2010-07-01, 18:45:00

Nein, 12. Juli ist NDA Fall. Das bedeutet nicht, dass es an dem tag auch keine Karten zum Kaufen geben kann.

y33H@

2010-07-01, 19:44:14

Paper-Launch bei einer Midrange-Karte? ;D

LovesuckZ

2010-07-01, 19:47:08

3870/8800GT anyone?

Gaestle

2010-07-01, 19:59:06

Ich möchte den Thread eigentlich nicht weiter mit dieser Diskussion belasten ... vielleicht gliedert dass ja ein Mod aus.

Dann vergleich mal die 5870 mit der 4890 und da hast du beides ;)

Da kann man mal sehen, was für eine super Karte die 5870 im Vergleich zur 4970 ist: laut CB unter Last 5% weniger Strom, aber ca. 60% schneller. Super gemacht ATi (ohne Ironie). Leider ist ein solcher Fall nicht Standard. Weder bei den Einen, noch bei den Anderen.

Der Mehrverbrauch kommt daher dass man mit der Mehrleistung nicht zufrieden war und noch mehr Transistoren und höhere Taktraten wollte.
Und was ist das bitte für ein merkwürdiges Beispiel?
Eine HD 5770 hat in etwa die Leistung der HD 4870 und benötigt die Hälfte der Energie.

WER war nicht mit der Leistung zufrieden? Wenn es nach den Herstellern gehen würde, würden die eine Kuh so lange es geht so teuer wie möglich verkaufen. in der Regel sind es Enthusiasten, denen 20 oder 30% mehr Balkenlänge im Vergleich zum alten HighEnd zu wenig sind. Außerdem brauchen neue Features auch neue Transistoren. Wenn es jetzt eine Möglichkeit gäbe, z.B. mit 600 Mio. Transistoren die Balkenlänge eines 2 Mrd. Transistoren-Chips zu erreichen, würden wir den sicherlich sehen.

Und warum ist der Vergleich 240GTS zu 9600GT ein merkwürdiges Beispiel? Es ist doch das Gleiche wie bei Deinem Beispiel, besserer Prozess, weitere Hardware-Optimierungen (die sicherlich auch durch die Erfahrung entstanden sind) und am Ende gleiche Balkenlänge bei geringerem Strombedarf.

Natürlich werden die Prozesse weiterentwickelt und natürlich können durch diese Optimierungen Verbraucheinsparungen erzielt werden. Diese brauchen aber Zeit und Erfahrung, die gerade bei neuen HighEnd Chips schlicht fehlt, weil die Chips schnell auf den Markt kommen müssen, bevor man in Sachen Performance durch den Konkurrenten überholt wird.

Letztlich (damit bin ich wieder bei der Ausgangsthese) muss man sich entscheiden, will man sofort VIEL mehr Balkenlänge und nimmt dafür eine höhere Leistungsaufnahme in Kauf, oder wartet man auf die Reife im Prozess, die aber durch ein Zögern auch später erreicht wird, oder gibt man bei der neuen Generation ein weniger deutliches Plus an Balkenlänge und senkt den Stromverbrauch? Das beides geht, wie die 5870 zeigt, ist eben eher ungewöhnlich.

Ich bin mir sicher, dass die jeweils neuen Generationen, die auf dem Markt landen, das jeweils Beste sind, was ein Hersteller mit dem gegebenen Ressourceneinsatz in der Entwicklung leisten kann.

LovesuckZ

2010-07-01, 20:07:13

Die 5870 zeigt es eben nicht, dass es beides geht. Sonst wäre die Karte mit Tessellation nicht deutlich langsamer als die Vorgängergeneration.

Gast

2010-07-01, 20:14:59

Wieder das T-Wort...
Da es hier um eine allgemeine Aussage bzw. einen allgemeinen Vergleich von alten und neuen Karten geht, sollte man nicht wieder Rosinenpickerei betreiben.

Im Schnitt geht natürlich beides. Zumal Tessellation in allen Spielen/Benches, die mir bekannt sind, DX11 voraussetzt - was die HD4000 gar nicht kann. Subba Vergleich! Typisch Lovesuckz, du musst alles mit deinen dämlichen Einwürfen kaputtmachen.
Es geht in diesem Fall nicht um Fermi, der für T und DX11 ausgelegt ist, es geht um HD4000 vs HD5000 bzgl. der Effizienz in einem breiten Spektrum von Spielen. Und da haben boxleitnerb und Gaestle Recht.

LovesuckZ

2010-07-01, 20:21:40

Und wieder G-Gast. :rolleyes:
Cypress ist eine DX10 Karte, die für optisch ansprechendes Tessellation ungeeignet ist. Hier funktioniert die Aussage nicht mehr.
Das die Karte effizient ist bei Spielen, die kein Tessellation einsetzen, sollte beim Aufbau mehr als ersichtlich sein. Aber das gilt auch für GF100 - z.B. ist die Karte mehr als doppelt so schnell in Dark Void als eine GTX285.

Gast

2010-07-01, 20:26:07

Dark Void ist ein Spezialfall wegen GPU-PhysX.
Außerdem verbraucht die 480 ja wohl klar mehr Saft als eine 285. Das "im Schnitt" ignorierst du geflissentlich. Und nur das ist wichtig. Spielen ja nicht alle Dark Void. Oder Crysis. Oder sonstwas.
Im Vergleich zur jeweiligen Vorgängerkarte liefern die aktuellen Karten IM SCHNITT in etwa dieselbe Mehrperformance. Die 5870 braucht dafür sogar weniger Strom, die 480 mehr. Go figure. Es geht also doch.

LovesuckZ

2010-07-01, 20:32:40

Es ist logisch, dass eine Karte, die weitaus mehr ist als DX10+angepanschtem Tessellation, nicht auf 95% der heutigen Spiele optimiert ist. Das nennt sich Realität.
Fakt ist auch, dass die tolle Effizienz einer 5870 nichts wert ist, wenn ein Spiel wirklich stark auf Tessellation setzt. Dann darf man sich seine Effizienz nämlich bei einem Neukauf suchen. Die Ironie ist ja, dass der 40nm Nachfolger unter DX10 kaum schneller sein wird und dabei mehr Strom benötigt, aber dafür wohl unter Tessellation davonzieht. Man steht als jetziger Verfechter dann vor einem riesigen Problem...

Gast

2010-07-01, 20:38:19

Also ich will mit einer aktuellen Karte heutige Spiele spielen und nicht warten, bis die Spiele kommen, auf die die Karte ausgelegt ist. 95%, du sagst es selbst.

Und bis diese Spiele in Masse kommen (sind ja heute so unglaublich viele - 5 von 500 Neuerscheinungen im Jahr?), haben die, die 300+ Euro für eine Grafikkarte ausgeben, sowieso eine neue. Die dann noch schneller ist, noch mehr Features bietet. Weshalb man sich eine neue Grafikkarte eben kauft.

Wie sich Southern Islands schlagen wird, sollten wir lieber diskutieren, wenn er auch wirklich da ist.

Und von der Effizienz hat man JETZT was, nämlich eine leisere und kühlere Karte als die der Konkurrenz.

LovesuckZ

2010-07-01, 20:42:38

Nö, da die Effizienz sich erstmal reinvestieren muss. Und wenn man für Tessellation wieder eine neue Karte benötigt, man einen zusätzlichen Wertverlust hinnehmen darf.
Alleine schon, dass 28nm in weiter Zukunft ist, zeigt doch schon, dass beim ersten Titel mit massiven Tessellationeinsatz, man als Evergreen-user in die Effizienzröhre gucken wird: Denn es wird nichts effizienteres als Evergreen im Durchschnitt geben.

Gast

2010-07-01, 20:50:25

Wie reinvestieren?
Und eine neue Karte benötigen...ja klar - jeder, dem die Tessellationperformance von Cypress zu schlecht ist, wird dann wegen ein, zwei guten Spielen, in denen man von T optisch auch wirklich profitiert (ich sag nur, aufgeblähte Schreibmaschinen) extra eine neue Karte kaufen? Bestimmt nicht.

Nein, die Karten mit der schlechten T-Performance werden nach ihrem natürlichen Lebenszyklus einfach ersetzt (klar, ein paar Freaks gibts immer, die alle 6 Monate die Karte wechseln). Und dann schaut sich der Käufer neu um. Bis dahin ist AMD wohl konkurrenzfähig(er) bei der T-Performance - genau zum richtigen Zeitpunkt, wenn mehr Spiele als jetzt T benutzen und die Entwickler gelernt haben, damit auch einen optischen Gewinn zu erzielen.
Und von jetzt bis zu diesem Zeitpunkt hat man eine effizientere Karte.

V2.0

2010-07-01, 20:59:07

Tesselation ist irrelevant. Bis das sinnvoll und flächendeckend auftaucht, taugt die GF100 nur noch als Haartrockner.

Gast

2010-07-01, 21:03:30

Nein so extrem würde ich es nicht ausdrücken. Es wird sicherlich in 1-2 Jahren einige Spiele geben, die von T richtig profitieren. Nur dann ist die 5870 auch fast 3 Jahre alt und wird so oder so ersetzt.

LovesuckZ

2010-07-01, 21:19:59

Also sind auch AMD's 11 Millionen DX11 Karten irrelevant?

Gast

2010-07-01, 21:22:22

Deine Polemik ist dumm.
Die Karten stellen DX9/10 schneller und schöner dar als ihre Vorgänger - DAS ist ihr Haupteinsatzgebiet (momentan).

Gast

2010-07-01, 21:24:24

Edit:
Denn DX11 Titel sind auch ein knappes Jahr nach Release immer noch massiv in der Minderheit im Vergleich zu DX9/10. Und das wird auch noch ein Weilchen so bleiben.

Byteschlumpf

2010-07-01, 21:24:48

Wieder dieses T-(Un)Wort!

Fermi wär nicht Thermi ohne TessiMessi! :D
Um es kurz und knapp auszudrücken. ;)

Und...
... wär Fermi nicht Thermi hätt ich auch ne Fermi! :D

LovesuckZ

2010-07-01, 21:24:48

aylano

2010-07-01, 21:30:01

Fakt ist auch, dass die tolle Effizienz einer 5870 nichts wert ist, wenn ein Spiel wirklich stark auf Tessellation setzt.
"Fermi ist ein Mißgriff der Natur... mit ihrem Tesselation-Überschuß und ihrer Übertemperatur körperlich und geistig minderwertiger Effizienz...eine Art verstümmelter, verfehlter, mißlungener Massen-Grafikkarte...die volle Verwirklichung der Grafikkarte in ihrer Art ist nur der RV870."

Gast

2010-07-01, 21:32:22

Edit:
Denn DX11 Titel sind auch ein knappes Jahr nach Release immer noch massiv in der Minderheit im Vergleich zu DX9/10. Und das wird auch noch ein Weilchen so bleiben.

Wobei ich diese Argumente nur schwer nachvollziehen kann.
Das letzte mal wo ich mich intensiv mit Grafikkarten auseinandnergesetzt habe, Stichwort DX10.1 war es noch das Killerfeature, war zudem Zeitpunkt häufiger im Luxx und dort wurden die ATI Fans nicht müde gebetsmühlenartig DX10.1 als Killerfeature und grossen Vorteil zu predigen.

Jetzt wo Nvidia bei DX11 die Nase vorn hat, wird es kleingeredet und als unwesentlich eingestuft.

Gast

2010-07-01, 21:37:06

Ähnliches bei PhysX, wäre ATI in diesem Punkt im Vorteil würde man nicht müde werden das zu betonen, hat Nvidia den Feature Vorteil, ist es unbedeutend und billige Effekthascherei.

Gast

2010-07-01, 21:40:01

Das AMD mal das Niveau von nVidia erreicht hat, ist loblich. Ändert nur nichts daran, dass nVidia schon im Januar 10 Millionen 40nm Produkte verkaufte. Und wir die Ironie nunmal so ist: DX11 ist nur dann für die AMD Fanboys wichtig, wenn es um Steam oder die 11 Millionen DX11 Karten geht.

Was für ein Bullshit!
Was zur Hölle haben die Verkaufszahlen mit Effizienz zu tun? Erklär mir das!
DX11 wird wichtig werden. Momentan ist es mäßig wichtig. Und nicht so wichtig, dass man alle anderen Negativpunkte von Fermi schönreden muss.
Btw, auch den DX11-Hype um Cypress fand ich bekloppt.

Zur Erinnerung:
Es ging um Effizienz. Fermi ist IM SCHNITT ineffizienter als Cypress. Punkt. Dass sich dieses Bild verzerren kann, wenn man sich nur auf die Stärken/Schwächen der Karten bezieht, ist logisch und spricht einem solchen Vergleich völlig die Sinnhaftigkeit ab.

Byteschlumpf

2010-07-01, 21:42:51

Wäre PhysX ein offener Standard, könnte man PhysX auch ohne "Mod" nutzen. Hätte AMD sich PhyX angeeignet, müsste man die Argumentation entsprechend umdrehen. ;)

Bei zunehmender Auflösung fällt die GTX470 unter DX11 sogar unter das Niveau einer HD5850 oder zieht mit dieser gleich.

LovesuckZ

2010-07-01, 21:45:36

Zur Erinnerung:
Es ging um Effizienz. Fermi ist IM SCHNITT ineffizienter als Cypress. Punkt. Dass sich dieses Bild verzerren kann, wenn man sich nur auf die Stärken/Schwächen der Karten bezieht, ist logisch und spricht einem solchen Vergleich völlig die Sinnhaftigkeit ab.

Nö, es ging um die Behauptung, dass Cypress so toll effizient wäre. Das ist er nur deswegen, weil es sich um einen vornehmlich auf DX10 ausgelegten Chip handelt, der das Feature von DX11 - nämlich Tessellation - mit der minimalsten Implementierung umgesetzt hat.
Logisch ist der Chip im Durchschnitt effizienter, wenn man sich massenweise Transistoren in eine vernünftige Tessellationimplementierung sparen konnte.
Nur doof, dass du mit deiner Effizienzbombe hoffen musst, dass Tessellation sich nicht so schnell durchsetzt. Irgendwie ein saudummes gefühl.

Gast

2010-07-01, 21:46:09

Ähnliches bei PhysX, wäre ATI in diesem Punkt im Vorteil würde man nicht müde werden das zu betonen, hat Nvidia den Feature Vorteil, ist es unbedeutend und billige Effekthascherei.

Das finde ich allerdings auch sehr heuchlerisch! Die AMD Fanboys jammern "meine Radeon kann kein PhysX, böses Nvidia" und gleichzeitig "PhysX ist scheiße, will ich nicht, brauch ich nicht!" Fakt ist aber doch - 99.5% aller Spiele lassen sich wunderbar ohne PhysX zocken und man verpasst recht wenig. Bei Tessellation genauso. Niemand wechselt nur für PhysX seine Grafikkarte. Und für Tessellation genausowenig.

AwesomeSauce

2010-07-01, 21:47:03

Ich hätte nicht gedacht, dass (u.a dank der Gäste) das Niveau hier im 3DCenter-Forum derart sinken kann. Man möge doch bitte wieder zum Thema zurückkehren:mad:

Gast

2010-07-01, 21:49:56

Nö, es ging um die Behauptung, dass Cypress so toll effizient wäre. Das ist er nur deswegen, weil es sich um einen vornehmlich auf DX10 ausgelegten Chip handelt, der das Feature von DX11 - nämlich Tessellation - mit der minimalsten Implementierung umgesetzt hat.
Logisch ist der Chip im Durchschnitt effizienter, wenn man sich massenweise Transistoren in eine vernünftige Tessellationimplementierung sparen konnte.
Nur doof, dass du mit deiner Effizienzbombe hoffen musst, dass Tessellation sich nicht so schnell durchsetzt. Irgendwie ein saudummes gefühl.

Find ich nicht. Ich bezweifle auch, dass es sich schneller durchsetzen wird als dass sich der Großteil der DX11-Kartenbesitzer wieder neue Hardware kauft.

aylano

2010-07-01, 22:01:41

Nö, es ging um die Behauptung, dass Cypress so toll effizient wäre. Das ist er nur deswegen, weil es sich um einen vornehmlich auf DX10 ausgelegten Chip handelt, der das Feature von DX11 - nämlich Tessellation - mit der minimalsten Implementierung umgesetzt hat.

Interessant, ich wusste garnicht, dass der RV810 die selbe Tesselation-Performance hat wie Cypress.

Logisch ist der Chip im Durchschnitt effizienter, wenn man sich massenweise Transistoren in eine vernünftige Tessellationimplementierung sparen konnte.

Wie dumm auch.
AMD hat sich dadurch auch eine vernünftige Heizplattenimplementierung erspart.

Dass du mit deiner Effizienzbombe hoffen musst, dass Tessellation sich nicht so schnell durchsetzt. Irgendwie ein saudummes gefühl.
Das ist wirklich ein sau dummes gefühl.
Wenn es so weitergeht, kann er sich den RV870 zum Einkaufspreis verkaufen und dann damit sich einen ineffizienten 28nm-North-Island kaufen.

Iruwen

2010-07-01, 22:02:54

Deine Polemik ist dumm.
Die Karten stellen DX9/10 schneller und schöner dar als ihre Vorgänger - DAS ist ihr Haupteinsatzgebiet (momentan).

DX10? Da geht doch gar kein SGSSAA oder? Ansonsten würde ich mir das "schöner" verkneifen :freak:

Gast

2010-07-01, 22:04:03

DX10? Da geht doch gar kein SGSSAA oder? Ansonsten würde ich mir das "schöner" verkneifen :freak:

Das "schöner" war natürlich auf DX9 bezogen. Sorry, war nicht klar genug ausgedrückt :)

Iruwen

2010-07-01, 22:06:11

"Fermi ist ein Mißgriff der Natur... mit ihrem Tesselation-Überschuß und ihrer Übertemperatur körperlich und geistig minderwertiger Effizienz...eine Art verstümmelter, verfehlter, mißlungener Massen-Grafikkarte...die volle Verwirklichung der Grafikkarte in ihrer Art ist nur der RV870."
Thomas von Aquin wusste halt Bescheid, der alte Torfstecher ;D

dildo4u

2010-07-02, 00:03:00

Die "kleine" GTX 460.

http://img43.imageshack.us/img43/9510/2w7fux1.jpg

http://www.xtremesystems.org/forums/showpost.php?p=4452957&postcount=29

Schrotti

2010-07-02, 00:05:40

Ich hätte nicht gedacht, dass (u.a dank der Gäste) das Niveau hier im 3DCenter-Forum derart sinken kann. Man möge doch bitte wieder zum Thema zurückkehren:mad:

Du bist noch neu hier.

Leider ist das schon seit Jahren so.

y33H@

2010-07-02, 00:09:22

@ dildo4u

Wurde schon gepostet iirc. 1.720 MHz bei stock-Spannung (1.00V oder weniger?) wäre nice.

dildo4u

2010-07-02, 00:10:42

@ dildo4u

Wurde schon gepostet iirc..
Mit dem Treiber?

y33H@

2010-07-02, 00:21:13

Gute Frage *grübel*

V2.0

2010-07-02, 07:27:44

Das AMD mal das Niveau von nVidia erreicht hat, ist loblich. Ändert nur nichts daran, dass nVidia schon im Januar 10 Millionen 40nm Produkte verkaufte. Und wir die Ironie nunmal so ist: DX11 ist nur dann für die AMD Fanboys wichtig, wenn es um Steam oder die 11 Millionen DX11 Karten geht.

DX11 ist mehr als Tesselation. Und "wichtig" ist es gegenwärtig kaum. Angesichts der Limitierungen der gegenwärtigen Konsolen würde es mich sogar überraschen, wenn es scih schnell durchsetzen würde.

Viele Pro und Kontras sind reine Fanboy-Argumenten, die kaum einen Endkunden kratzen.

Bei NV kann man imho PhysiX und die bessere Filterung gelten lassen.
Bei ATI ist es primär der geringere Stromverbrauch und bis vor kurzem die besseren Customdesignkarten der Hersteller. (was aber mit der Zotac 470 hinfällig wurde)

BlackBirdSR

2010-07-02, 07:43:33

So und jetzt macht jemand schön nen "Unwort des Jahres" (also Tess.) Thread im Technologieforum auf. Möchte hier keinen nicht technischen Details zu diesem Feature mehr in diesem Thread sehen :ujump:
... findet nich auch jemand, dass der Smiley ein paar mehr Polygone vertragen könnte ? :)

Nein im Ernst: Macht nen eigenen Thread, das bringt sonst nichts.

Henroldus

2010-07-02, 08:31:58

Fudzilla schreibt zu den 2 kommenden Versionen @ 12.Juli:

GTX460 768MB 675MHz/900MHz 192Bit 189-199€
GTX460 1GB 675MHz/900MHz 256Bit 230€

schaun mer mal wo die sich einordnen.
wenn die 1GB Version schneller als die HD5850 bei dem Preis ist tut sich endlich was am Markt

ShinyMcShine

2010-07-02, 08:37:18

Jupp, preislich sieht es nicht ganz schlecht aus. :D
Aber ich habe noch so meine Zweifel ob die 5850 wirklich geknackt wird.

Auf jeden Fall macht diese preisliche Einordnung auch mal Hoffnung auf eine GTX 468 in ebenfalls akzeptablen Preisregionen. ;)

VG
Shiny

Gast

2010-07-02, 09:21:17

Das AMD mal das Niveau von nVidia erreicht hat, ist loblich. Ändert nur nichts daran, dass nVidia schon im Januar 10 Millionen 40nm Produkte verkaufte. Und wir die Ironie nunmal so ist: DX11 ist nur dann für die AMD Fanboys wichtig, wenn es um Steam oder die 11 Millionen DX11 Karten geht.

10mio sehr kleine Lowend-Chips mit veralteten Featureset. Aber als völlig verblendeter Fanboy wirft man natürlich alles in einen Topf. Zumal AMD schon deutlich mehr hätte wenn TSMC NV nicht bevorzugen würde. Und DX11 ist mehr als nur Tesslation und vorallem ist die AMD-Generation eben nicht zu schwach dafür in heutigen Spielen.

Dural

2010-07-02, 09:52:43

dürfte etwas unter der 5850 sein...

Gast

2010-07-02, 10:08:35

GTX 460 1024MB vs GTX 465:
+ 12,5% Bandbreite
+ 43% Texelfüllrate
+ 12,5% ROP-Leistung
+ 7% ALU-Leistung

Im Benchmark-Parkour von Computerbase könnte das reichen um mit der 5850 gleich zu ziehen bzw. sie zu übertreffen: http://www.computerbase.de/artikel/grafikkarten/2010/test_nvidia_geforce_gtx_465/18/#abschnitt_performancerating_qualitaet

Die 768MB Karte dürfte eher auf die HD 5830 abzielen und dort wohl problemlos sich behaupten.

Gast

2010-07-02, 10:14:47

http://www.abload.de/img/nvidia_gtx460__023puf.jpg
(http://www.abload.de/img/nvidia_gtx460__023puf.jpg)

ist das eigentlich offiziell die GTX460?

Wenn ja, kommt die Karte so für ich nicht in Frage.

1. Stromanschlüsse hinten geht nicht klar (hinter der Karte befindet sich ein 12mm Lüfter)
2. Lüfter zu weit vorne. Warme Luft wird auch nach hinten befördert (und somit in die falsche Richtung).
3. Der Slot unter der Karte ist nur mit einer Lowprofilekarte nutzebar weil der Lufteinlass sonst zu sehr verdeckt wird (schätze ich mal)

Ich habe ja immer was zu meckern, aber die Punkte würden mich sogar eher eine Stromverschwendende GTX470 kaufen lassen :( Also wenn das so umgesetzt werden sollte. An sonsten muss ich doch eben noch warten und sehen wie es um die GTX468 steht, falls sie kommen sollte, oder Herstellereigene Layouts der GTX460.

y33H@

2010-07-02, 10:18:59

1) Ja, doof
2) Dafür leiser und kühler als DHE
3) Wer hat schon mehr als GraKa + Sound?

Hmmm ...

ShinyMcShine

2010-07-02, 10:39:10

Ich werde definitiv abwarten, ob die GTX 468 kommt. ;) Und dann noch 3-4 Wochen länger warten, bis die Preise ein wenig fallen und gute Custom Layouts vorgestellt werden. Das Herstellerdesign der GTX 460 mit dem mittigen Lüfter gefällt mir auch nicht richtig. Aber mal schauen was die Tests bezüglich Geräusch- und Wärmeentwicklung sagen.

Die GTX 460 sieht auf jeden Fall mal sehr "kurz" aus. Wenn die GTX 468 genauso ausfällt (sollte ja durchaus so sein) , so wäre das die kürzeste Grafikkarte seit langem in meinem Rechner. :D

VG
Shiny

Dural

2010-07-02, 10:39:16

die karte ist sehr kurz, da dürfte der strom anschluss sicher nicht im weg sein sonst würde karten wie die 5830 usw. gar nicht rein passen...

davidzo

2010-07-02, 10:40:39

Schau dir doch die Balkenlängen der verschiedenen Generationen an und vergleiche es mit dem Stromvebrauch. Das Verhältnis von Balkenlänge zu Stromverbrauch wird mit jeder Generation besser.
Bei jeder Generation steht einem Balkenplus von vielleicht 50% ein Verbrauchsplus von lediglich 30% gegenüber (Zahlen frei phantasiert).

Du denkst im System. Klar dass die Erde eine Scheibe ist, wenn man doch darauf gehen kann.
Für manche Dinge darf man aber nicht innerhalb des Systems bleiben, sondern muss sie objektiv von außen betrachten. Und objektiv betrachtet ist die Geschichte der Grafikkarte eine einzige Katastrophe und die GTX480 ein Tiefpunkt sondergleichen. Es ist längst überfällig dass jede Industrie, nicht nur die Autoindustrie den Energieverbrauch ihrer Produkte und Produktion erheblich senkt, nicht erhöht.
Unsere Nachfolgenden Generationen werden keinerlei Verständnis dafür haben, dass sie 500millionen(kernbrennstäbe) Jahre unseren Dreck bewachen und aufbewahren muss nur weil wir kurzfristig mal ein bisschen energie brauchten. Der neanderthaler ist im übrigen 30 mio jahre her. Das 20. und 21. Jahrhundert wird als das Jahrhundert der größten Fehlinvestitionen der Menscheitsgeschichte gelten, aber ich bin sicher dass wir wenn nicht alle Leute so denken wie du, schnell darüber hinweg sind wenn das hauptziel von nun an erneuerbare energien und verbrauchsminimierung heißt. die sonne strahlt mehr energie als wir jemals benötigen werden, wird nur endlich zeit dass man das mal nicht als unrealistisch abstuft, sondern anpackt.
Ich sehe amd hier auch in der pflicht, absolut.

Positiv Denken. Schlimmer als bei der 480 kann der Verbrauch für eine normale Single-Referenzkarte nicht kommen. Um 300W ist erst mal Ende.
Naja, in wirklichkeit sollte der verbrauch sinken. nicht steigen. nur weil es immer einen miesepeter gibt der die leistung auf kosten des stromverbrauchs steigern muss und weil es immer welche gibt die das auch noch kaufen, zieht der zweite hersteller dann nach. das muss nicht sein, dieses gegenseitig hochschaukeln.

AwesomeSauce

2010-07-02, 11:08:43

@davidzo
Schon mal daran gedacht, dass ein Grossteil des Verbrauchs von GF100 dem unterirdisch schlechten 40nm-Prozess geschuldet ist, und AMD diesen einfach besser im Griff hat?

aylano

2010-07-02, 11:26:07

Captain Future

2010-07-02, 11:30:09

Und warum sollte die bei AMD besser sein?
Weil die Chips kleiner sind und weniger Transistoren haben. Ob das jetzt ein Bug oder ein Feature ist muss jeder selber wissen.:eek:

Gast

2010-07-02, 11:58:30

1) Ja, doof
2) Dafür leiser und kühler als DHE
3) Wer hat schon mehr als GraKa + Sound?

Hmmm ...
Gibts bestimmt einige, aber bei mir ist das das Problem der µATX Boards. Erster Slot PCIe 8x, zweiter PEG, dritter wird blockiert durch die Grafikkarte und der vierte ist ein PCI-Slot und dort steckt eine X-Fi. Und nur wegen ner ollen Grafikkarte ne neue Soundkarte kaufen ist auch blöde ;)

Mit dem oder einen ähnlichen Problem werden sicherlich mehre zu kämpfen haben die kleine Gehäuse haben. Jedenfalls passt bei mir eine GTX470 besser als die GTX460.

davidzo

2010-07-02, 12:02:01

@davidzo
Schon mal daran gedacht, dass ein Grossteil des Verbrauchs von GF100 dem unterirdisch schlechten 40nm-Prozess geschuldet ist, und AMD diesen einfach besser im Griff hat?

es geht nicht darum einen schuldigen zu finden, sondern es besser zu machen.
das geht da nicht nur um TSMC, sondern um die gesamtwirtschaft, auch bei AMD mache ich da keine ausnahme, die bekommen auch tadel weil die jetzige generation immer noch nicht viel sparsamer als die letzte ist.
andererseits hätte nvidia mit ihrer erfahrung (nv30?) damit rechnen müssen und daher nie ein so gigantisches projekt anfangen dürfen. gf104 reicht doch, wieso also immer diese prestigeprojekte ala tesla, gtx480, etc.?

aylano

2010-07-02, 12:03:07

Weil die Chips kleiner sind und weniger Transistoren haben.
Das hört sich eher nach einer effizienten bzw. guten Architektur an, wenn sie die Chips kleiner mit weniger Transistoren machen können, aber nicht, warum die einzelnen Transistoren mehr Strom verbrauchen.

Wenn ich das jetzt richtig in Erinnerung haben, war der GTX285 um ca. 65% größer und hatte 50% mehr Transistoren, aber der war genauso Effizient wie die Konkurrenz.
Heute ist der GTX480 AFAIK auch so ca. 65% größer mit 50% mehr Transistoren, aber eben um 30-35% (wo Tesselation nicht extrem gefordert wird) oder so ineffizienter.

Daumen-mal-Pi ist da GTX480 im dieser Betrachtung um ca. 30% ineffizienter geworden.

Das ist für mich eine Größenordnung, die viel zu viel für einen Grund ist, da AMD ja auch mit den selben Problemen zu kämpfen hat und Nvidia dazu auch die Spannung noch ordentlich gesenkt hat.

Für mich ist es eigentlic selber noch ein Rätsel, warum die so viel mehr Verbraucht.
Vielleicht auch wegen der C++-Implementierung oder die ATI-Grafikkarten hatten immer schon Tesselation-Einheiten oder DX10.1, die aber nicht genutzt werden konnten, aber Die-Fläche brauchten bzw. etwas Strom verbrauchten?
Oder weil Nvidia beim GT200 & GT200b die hohen Effizienzen wegen den vielen Steppings bekommen hat?

Na ja, mal sehen, vielleicht bringt der GF104 etwas aufklärung

boxleitnerb

2010-07-02, 12:05:38

Sparsamer heißt aber auch, dass man dafür Geschwindigkeit opfert.

Hypothetische 40% schneller für eine neue Generation ist halt etwas schwach. Soll ja auch ein Anreiz da sein, dass neue Karten gekauft werden. Wenn man sich auf 150-180W einpendelt und dann einfach die Performance steigert soweit möglich, wäre das schon nicht übel.

Was mich darüberhinaus auch mal interessieren würde:
Es gab doch in der Vergangenheit leise Lüfter/Kühler (siehe z.B. 8800GTX). Warum wird ein erfolgreiches Design eigentlich nicht beibehalten? Das meine ich jetzt für beide IHVs. Sagen wir ein Kühler, der 200W abführen kann und den dann auf alle Highendprodukte draufpappen (in der entsprechenden TDP-Klasse). Aber nein, jedesmal wird was Neues entwickelt, das potentiell lauter/nerviger ist als etwas, was schon dagewesen ist und funktioniert hat.

AwesomeSauce

2010-07-02, 12:12:39

Und warum sollte die bei AMD besser sein?
Gibts eine 40nm-AMD-Edition, aber zum Ausgleich weniger Waferkapazitäten?
Lies dir erstmal folgenden Artikel durch:
http://www.anandtech.com/show/2937/8
Ever since NV30 (GeForce FX), NVIDIA hasn’t been first to transition to any new manufacturing process. Instead of dedicating engineers to process technology, NVIDIA chooses to put more of its resources into architecture design. The flipside is true at ATI. ATI is much less afraid of new process nodes and thus devotes more engineering resources to manufacturing. Neither approach is the right one, they both have their tradeoffs.

NVIDIA’s approach means that on a mature process, it can execute frustratingly well. It also means that between major process boundaries (e.g. 55nm to 40nm), NVIDIA won’t be as competitive so it needs to spend more time to make its architecture more competitive.

LovesuckZ

2010-07-02, 12:14:27

nVidia ging in der selben Zeit auf 40nm wie AMD. Sie haben sogar bis heute mehr 40nm Produkte abgesetzt als AMD.
Die Aussage von Anandtech.com ist daher falsch.

Hypothetische 40% schneller für eine neue Generation ist halt etwas schwach. Soll ja auch ein Anreiz da sein, dass neue Karten gekauft werden. Wenn man sich auf 150-180W einpendelt und dann einfach die Performance steigert soweit möglich, wäre das schon nicht übel.

Weil das so nicht funktioniert. Eine 8800GTX verbrauchte knapp das doppelte einer 7900GTX. Um die selbe Leistungsaufnahme bei 8800GTX Speed zu erreichen, hätte man mindesten 1 Jahr länger warten müssen...
Eine 5870 hat zwar dem selben TDP Rahmen wie eine 4890, ist dafür mit Tessellation einfach unbrauchbar.

AwesomeSauce

2010-07-02, 12:20:05

@LovesuckZ
Ich denke schon, dass man sagen kann, AMD hat mit RV870 die Probleme und Eigenheiten des 40nm-Prozesses besser im Griff als Nvidia mit GF100.

Zu "Wer war zuerst?":
NVIDIA however picked a smaller die. While the RV740 was a 137mm2 GPU, NVIDIA’s first 40nm parts were the G210 and GT220 which measured 57mm2 and 100mm2. The G210 and GT220 were OEM-only for the first months of their life, and I’m guessing the G210 made up a good percentage of those orders. Note that it wasn’t until the release of the GeForce GT 240 that NVIDIA made a 40nm die equal in size to the RV740. The GT 240 came out in November 2009, while the Radeon HD 4770 (RV740) debuted in April 2009 - 7 months earlier.

Bucklew

2010-07-02, 12:23:01

3. Der Slot unter der Karte ist nur mit einer Lowprofilekarte nutzebar weil der Lufteinlass sonst zu sehr verdeckt wird (schätze ich mal)
Egal, der Lüfter kriegt seine Luft, da sei dir mal sicher ;)

LovesuckZ

2010-07-02, 12:28:19

@LovesuckZ
Ich denke schon, dass man sagen kann, AMD hat mit RV870 die Probleme und Eigenheiten des 40nm-Prozesses besser im Griff als Nvidia mit GF100.

Ja? Die GT21x Chips verbrauchen bei ähnlicher Leistung ähnlich viel Strom mit mehr Transistoren. Und nVidia konnte ca. 90% mehr Transistoren auf dem selben Platz packen. AMD schaffte nur ca. 70%.

Zu "Wer war zuerst?":

nVidia hatte drei Chips in der Pipeline und mit dem GT215 einen, der mit 130mm^2 ebenfalls nicht klein war.
Ansonsten sollte Anandtech.com bedenken, dass der rv740 zur Cebit als Mobile-Chip angekündigt wurde (Vaporware) und nach dem Release Ende April über Monate nicht verfügbar war.

AwesomeSauce

2010-07-02, 12:30:14

Ja? Die GT21x Chips verbrauchen bei ähnlicher Leistung ähnlich viel Strom mit mehr Transistoren. Und nVidia konnte ca. 90% mehr Transistoren auf dem selben Platz packen. AMD schaffte nur ca. 70%.
Deshalb schrieb ich ja auch "mit GF100";)

Captain Future

2010-07-02, 12:30:30

Das hört sich eher nach einer effizienten bzw. guten Architektur an, wenn sie die Chips kleiner mit weniger Transistoren machen können, aber nicht, warum die einzelnen Transistoren mehr Strom verbrauchen.

Wenn ich das jetzt richtig in Erinnerung haben, war der GTX285 um ca. 65% größer und hatte 50% mehr Transistoren, aber der war genauso Effizient wie die Konkurrenz.
Heute ist der GTX480 AFAIK auch so ca. 65% größer mit 50% mehr Transistoren, aber eben um 30-35% (wo Tesselation nicht extrem gefordert wird) oder so ineffizienter.

Daumen-mal-Pi ist da GTX480 im dieser Betrachtung um ca. 30% ineffizienter geworden.

Was meinst du konkret mit "effizient" bzw. "gut"? Die Chips sind nicht "gleich" - da bringt auch die Aussage "die Chips kleiner mit weniger Transistoren machen" iwie nix.

Gast

2010-07-02, 12:32:17

Ja? Die GT21x Chips verbrauchen bei ähnlicher Leistung ähnlich viel Strom mit mehr Transistoren.

Dafür ist das Featureset unterlegen.

Und nVidia konnte ca. 90% mehr Transistoren auf dem selben Platz packen. AMD schaffte nur ca. 70%.

Sie haben noch immer eine geringere Packdichte als AMD.

nVidia hatte drei Chips in der Pipeline und mit dem GT215 einen, der mit 130mm^2 ebenfalls nicht klein war.
Ansonsten sollte Anandtech.com bedenken, dass der rv740 zur Cebit als Mobile-Chip angekündigt wurde (Vaporware) und nach dem Release Ende April über Monate nicht verfügbar war.

Auch die GT21x-Chips waren lange nicht lieferbar.

LovesuckZ

2010-07-02, 12:33:01

Deshalb schrieb ich ja auch "mit GF100";)

Das macht keinen Sinn, da die kleinen Chips ebenfalls das selbe Problem haben müssten. Immerhin ist ein GT215 ca. 730 Millionen Transistoren schwer und verbraucht ca. 20 Watt weniger als eine 9600GT mit 510 Millionen bei gleichem Speed.
Und die Leistungsaufnahme beim IDLEN mit weniger als 10 Watt spricht auch nicht dafür, dass nVidia den Prozeß nicht im Griff haben würde.

Dafür ist das Featureset unterlegen.

Nö. Vollständige 3D Blu-Ray Dekodierung (Stromsparen!) sowie Technik zur kompletten Abschaltung der GPU unter Win7 (Stromsparen!!).
Wir haben ja gelernt, dass DX11 unwichtig ist.

Gast

2010-07-02, 12:37:40

Das macht keinen Sinn, da die kleinen Chips ebenfalls das selbe Problem haben müssten. Immerhin ist ein GT215 ca. 730 Millionen Transistoren schwer und verbraucht ca. 20 Watt weniger als eine 9600GT mit 510 Millionen bei gleichem Speed.
Und die Leistungsaufnahme beim IDLEN mit weniger als 10 Watt spricht auch nicht dafür, dass nVidia den Prozeß nicht im Griff haben würde.

Gewisse Probleme zeigen sich halt erst ab einer gewissen Komplexität. Selbst GT215 ist Lowend. NV schafft es nicht ein Produkt zu liefern das alle Einheiten eines GF100 ausnutzt, nichtmal im Tesla-Markt wo die Stückzahlen kaum der rede wert sein. Die Yields sind offensichtlich bei annähernd 0. Bei GF104 scheint es genau so los zu gehen. AMD hat keine Probleme "volle" Chips zu verkaufen. Ganz im Gegenteil, es fehlt nur Wafer von TSMC.

Gast

2010-07-02, 12:39:58

Nö. Vollständige 3D Blu-Ray Dekodierung (Stromsparen!) sowie Technik zur kompletten Abschaltung der GPU unter Win7 (Stromsparen!!).
Wir haben ja gelernt, dass DX11 unwichtig ist.

Was für Argumente. Entschuldige, ich habe kurz wirklich geglaubt das du auch sachlich Antworten kannst.

boxleitnerb

2010-07-02, 12:42:53

Weil das so nicht funktioniert. Eine 8800GTX verbrauchte knapp das doppelte einer 7900GTX. Um die selbe Leistungsaufnahme bei 8800GTX Speed zu erreichen, hätte man mindesten 1 Jahr länger warten müssen...
Eine 5870 hat zwar dem selben TDP Rahmen wie eine 4890, blablabla (Schallplatte? :P)

Dann frag ich dich, wenn man eine Steigerung der Leistungsaufnahme in Kauf nimmt, wo das enden soll? Schlage pro Generation mal 30W drauf, wo sind wir dann 2015? Bei einer Karte kann man es ja gerade noch so verschmerzen, wenn man beide Augen zudrückt, aber wenn man das Gesamtbild betrachtet, stößt man irgendwann an Grenzen bei der Bereitschaft der Kunden, laute und heiße Karten zu kaufen, bei den Kosten, die damit verbunden sind (leiserer Kühler, Netzteil, (Strom), erhöhte Ausfallwahrscheinlichkeit). Jetzt mal egal, ob so ein Monster von AMD oder Nvidia kommt.

Hypothetisch:
Fändest du es gut, wenn GF400 350W verbraucht, dafür halt sehr schnell ist? HD7000 400W? Wo hört das Ganze auf, wenn man nicht jetzt schon bei der Entwicklung Wert darauf legt, ein ausgewogenes Produkt zu schaffen und eben Kompromisse eingeht. Die eierlegende Wollmilchsau gibt es nunmal leider nicht - Kompromisse sind unvermeidbar.

BlackBirdSR

2010-07-02, 12:44:14

90% mehr statt 70% Transistoren,
Prozess im Griff oder nicht im Griff...

Wenn alle nur so schwarz weiss sehen könnten, wie Ihr, dann hätten wir heute noch kein Farbfernsehen. Seit Fermi führt sich die ganze Community wie damals zum Release des Athlon und Coppermine auf.

Natürlich hat Nvidia 90% statt 70% mehr Transistoren unterbekommen, weil ein zusammenhängender Verbund nunmal einfacher zu realisieren ist. Wenn die ALUs dann noch so komplex sind (DP) und man ne Menge Cache hat, dann wurdert das doch auch keinen. Ist ja so, als beschimpfe man einen Plasma, dass er kein LED Backlight hat.

Man kann einen Prozess nicht per SE im Griff haben. Es wird immer ein Kompromiss sein, der optimalerweise auf das Hauptgewinnsegment ausgelegt ist. Wenn also relativ taktarme und transistorschwache ASICs gut laufen, muss das gar keine Rückschlüsse auf hochgetaktete Monster ASICs geben.
Es gibt in einem Prozess so viele Unterschiede, da können sogar im gleichen Prozess nur durchs Layout gravierende Unterschiede entstehen.

Also was soll das? Können wir uns endlich darauf einigen wer böse und wer gut ist? Ich wünschte es gäbe ein spezielles Forum für diesen BS.

AwesomeSauce

2010-07-02, 12:46:46

Bei GF104 scheint es genau so los zu gehen.
Woran machst du das fest? Nur weil GF104 nicht mit dem Vollausbau in Retail startet? Blödsinn, man entgeht ganz einfach der Konkurrenz aus den eigenen Reihen (GTX468 vs. GTX470). Auch dürfte die Nachfrage nach einer sub 200€ GPU signifikant höher sein als bei einer 250€+ GPU.
AMD hat keine Probleme "volle" Chips zu verkaufen. Ganz im Gegenteil, es fehlt nur Wafer von TSMC.
Immer das Geheule, hätten sie halt mehr Wafer bestellen sollen.

aylano

2010-07-02, 12:46:57

Lies dir erstmal folgenden Artikel durch:
http://www.anandtech.com/show/2937/8
Dann müssen die Probleme bei GF104 eigentlich halbwegs behoben sein.
Denn Nvidia hat doch nicht ewig die 40nm-Probleme ignoriert.
Beim GF100 lasse ich es mir noch einreden, aber nach dem GF100 muss doch bekannt sein, dass man die Probleme berücksichtigen muss und GF104 eben daraus dementsprechend besser aussehen soll.

Ganz im Gegenteil.
Die GF104-Karten werden bei der Einführung sogar noch stärker teilaktiviert und das obwohl die Die-Große schon fast wie RV870 ist.

Die Frage ist eben auch, ob die 40nm-Probleme sich hauptsächlich auf die Yieldrate auswirkte oder auf den Stromverbrauch.

Was meinst du konkret mit "effizient" bzw. "gut"? Die Chips sind nicht "gleich" - da bringt auch die Aussage "die Chips kleiner mit weniger Transistoren machen" iwie nix.
Mit Effizienz meine ich Performance-pro-Watt.

@Topic
Das witzig ist ja.
Zuerst warten wie auf Fermi, weil dieser deutlich besser als RV870 sein soll, aber Fermi enttäuscht dann.
Aber das B-Stepping wird alle Problem lösen auf das wir warten.
Aber davor kommt jetzt der GF104, der aufgrund der Effizienteren Architektur eh deutlich besser aussehen wird.
Nun kommt dieser und wir werden immer noch auf die erste nicht-Teildeaktiverte Karte warten müssen, die eben deshalb wichtig ist um die Fermi-Archiektur besser einschätzen zu können.
Und auf die GF106 & GF108 müssen wir auch weiter warten, obwohl Nvidia eigentlich diese GPUs aufgrund flexibleren Archiektur diese viel schneller auf dem Markt bringen kann.
Puh, das warten ist schon ziemlich mühevoll.

Gast

2010-07-02, 12:50:43

Immer das Geheule, hätten sie halt mehr Wafer bestellen sollen.

Glaubst du das läuft da ab wie im Supermarkt? Wer zuerst da ist malt zuerst? Dann bist du ganz schön naiv. Natürlich bevorzugt TSMC NV, das ist schon lange kein Geheimnis mehr. Siehe zB ganz aktuell hier:
http://www.digitimes.com/news/a20100701PD207.html

AMD's chip supply from Taiwan Semiconductor Manufacturing Company (TSMC) may face shortages in the second half as Nvidia has already placed a large amount of orders to TSMC in March and April and may squeeze AMD's order out of the already fully-loaded capacity, according to sources from graphics players.

Since TSMC is likely to give its major clients, Nvidia and Qualcomm, supply priority, the sources believe AMD may not be able to share much of TSMC's capacity in the second half of 2010.

Auch im zweiten Halbjahr 2010 wird es also nicht besser.

AwesomeSauce

2010-07-02, 12:52:41

Nochmal: was ist daran verwerflich:confused:

Bucklew

2010-07-02, 12:54:34

Nochmal: was ist daran verwerflich:confused:
das es nicht ATI ist.

Gast

2010-07-02, 12:55:24

Nochmal: was ist daran verwerflich:confused:

Hat niemand behauptet. Du hast gesagt "hätten sie halt mehr Wafer bestellen sollen". So läuft das eben nicht. AMD haut nach Globalfoundries ab und TSMC schaut jetzt natürlich das sie NV halten können und bevorzugt sie entsprechend bei den knappen Kapazitäten.

LovesuckZ

2010-07-02, 12:56:17

Gast

2010-07-02, 13:22:40

DX11 ist mehr als Tesselation. Und "wichtig" ist es gegenwärtig kaum.

Für Grafik ist DX11 eigentlich kaum mehr als DX10-Tesselation.

Wie wichtig das heute ist, ist natürlich eine andere Frage ;)

BlackBirdSR

2010-07-02, 13:23:48

Wäre mein Kunde ATI und ich weiß, dass dieser mit großer Wahrscheinlichkeit zu GF abwandert, egal was ich tue, dann würde ich denen auch keine Priorität vor anderen einräumen.

Ich würde sogar meine anderen Kunden noch stärker an mich binden, in der Hoffnung diese nicht zu einem Exkurs zu verleiten. Es hindert ja niemand Nvidia daran, zu GF auszulagern und mal zu sehen wie es dort läuft.

Sicherlich haben Nvidia und TSMC Angst davor, dass GF sich als überlegene Foundry beweist und ATI einen gewichtigen Vorsprung verschafft. ATI hat Angst davor, dass GF das eben nicht tut und man sogar einen Nachteil daraus zieht, während man TSMC als Kunden wohl nicht mehr so einfach zurückgewinnen kann.

Natürlich vorausgesetzt der Markt entwickelt sich nicht so, dass TSMC händeringend nach Aufträgen sucht.

Bucklew

2010-07-02, 13:26:39

Wäre mein Kunde ATI und ich weiß, dass dieser mit großer Wahrscheinlichkeit zu GF abwandert, egal was ich tue, dann würde ich denen auch keine Priorität vor anderen einräumen.

Ich würde sogar meine anderen Kunden noch stärker an mich binden, in der Hoffnung diese nicht zu einem Exkurs zu verleiten. Es hindert ja niemand Nvidia daran, zu GF auszulagern und mal zu sehen wie es dort läuft.
Soweit braucht man doch gar nicht zu gehen. Es ist nunmal so, dass Nvidia deutlich mehr Chips verkauft als ATI. Ergo bestellt natürlich Nvidia deutlich mehr Chips/Wafer bei TSMC. Wenn Nvidia also 100.000 Chips bestellt und ATI nur 50.000 ist es doch logisch, dass TSMC bei einer maximalen Kapazität von 60.000 Chips 2/3 davon für Nvidia und 1/3 für ATI macht, oder nicht?

Nakai

2010-07-02, 13:27:50

Prozessoren sprengen zum Glück nicht den Rahmen des Stromverbrauchs. Die ging zwar seit den ersten Prozessoren zwar auch dramatisch in die Höhe, aber jetzt hat man wohl das Limit erreicht. Mehr lässt sich kaum noch vernünftig Kühlen.

Bei GPUs kommt das Limit auch irgendwann, spätestens, wenn der Fertigungsprozess nicht mehr will. Ebenso wenn es nicht mehr möglich ist eine Karte vernünftig mit den engen Ausmaßen zu kühlen.

Sicherlich haben Nvidia und TSMC Angst davor, dass GF sich als überlegene Foundry beweist und ATI einen gewichtigen Vorsprung verschafft. ATI hat Angst davor, dass GF das eben nicht tut und man sogar einen Nachteil daraus zieht, während man TSMC als Kunden wohl nicht mehr so einfach zurückgewinnen kann.

Das wird sich mit hoher Wahrscheinlichkeit erfüllen, aber jetzt noch nicht.

mfg

Gast

2010-07-02, 13:31:43

Soweit braucht man doch gar nicht zu gehen. Es ist nunmal so, dass Nvidia deutlich mehr Chips verkauft als ATI. Ergo bestellt natürlich Nvidia deutlich mehr Chips/Wafer bei TSMC. Wenn Nvidia also 100.000 Chips bestellt und ATI nur 50.000 ist es doch logisch, dass TSMC bei einer maximalen Kapazität von 60.000 Chips 2/3 davon für Nvidia und 1/3 für ATI macht, oder nicht?

Ließ dir den Link durch. Der immer gut informierten Branchendienst Digitimes schreibt nicht zum Spaß das Nv eine höhere Priorität eingeräumt wird, das hat nichts mit der Bestellmenge zu tun. Und um das noch mal klar zu stellen: Natürlich würde ich an TSMCs Stelle genau so handeln.

Bucklew

2010-07-02, 13:43:04

Ließ dir den Link durch. Der immer gut informierten Branchendienst Digitimes schreibt nicht zum Spaß das Nv eine höhere Priorität eingeräumt wird, das hat nichts mit der Bestellmenge zu tun.
Nein, das steht da nicht. Man sollte auch lesen können und ein wenig Englisch schadet auch nicht:

"Since TSMC is likely to give its major clients, Nvidia and Qualcomm, supply priority"

Das ist also nur eine Behauptung von Digitimes, für denen es ihnen an Indizen und Beweisen fehlt. Sonst würden sie die ja posten.

Spannend dürfte werden, wie sich das auf SI auswirkt. Verschiebung? Oder wieder mit dem Kopf durch die Wand und monatelang nur marginale Verfügbarkeit?

Ailuros

2010-07-02, 13:45:44

Bitte dass sich der Ton wieder normalisiert. Ich hab keine Lust unendlich Bloedsinn loeschen zu muessen. Danke.

Gast

2010-07-02, 13:47:59

ATI hat Angst davor, dass GF das eben nicht tut und man sogar einen Nachteil daraus zieht, während man TSMC als Kunden wohl nicht mehr so einfach zurückgewinnen kann.

ATI muss überhaupt keine Angst haben. Die werden ja nicht von heute auf morgen umsteigen, sondern langsam mit einzelnen Produkten den Prozess von GF mal testen. Sollte sich herausstellen, dass dieser besser als jener von TSMC ist, wird man natürlich immer mehr Produkte Richtung GF auslagern und am Ende eventuell komplett umsteigen.

Sollte sich der Prozess als schlechter erweisen, ist es auch kein Problem, man kann ja immer noch bei TSMC fertigen lassen.

Ailuros

2010-07-02, 13:50:46

Dann lösch doch bitte auch den Blödsinn, der von den registrierten Membern kommt. Ist sonst ziemlich einseitig.

Am besten waere wenn Ihr Herren auch Reg-Pflicht haben wuerdet aber es liegt auch ausserhalb meiner Hand. Damit es aber etwas klarer wird wenn ein Post geloescht wird von der Moderation kommst mir DU nicht gleich 3 Mal und postest den gleichen Quark. Aus und Ende damit.

AwesomeSauce

2010-07-02, 14:35:14

Nur GTX460 mit 192bit MemInterface und 768MB VRAM ist Referenz Design von Nvidia. (http://www.fudzilla.com/graphics/graphics/graphics/nvidias-gtx-460-is-768mb-one) Anscheinend sind die Boardpartner für die 1GB-Version verantwortlich.

Gast

2010-07-02, 14:38:02

Nur dumm, dass die bisher gezeigte Karte schon ein 256-Bit SI hat. Da werden wohl eher die Partner den Weg gehen und der 192-Bit Karte ein günstigeres, natives PCB zu verpassen.

Gast

2010-07-02, 14:41:28

Bei 150W Max. Board Power für die 192-Bit Karte würde sogar nur 1x 6-Pin reichen, jedenfalls war das bei der GTS 250 der Fall.

aylano

2010-07-02, 14:44:11

Wäre mein Kunde ATI und ich weiß, dass dieser mit großer Wahrscheinlichkeit zu GF abwandert, egal was ich tue, dann würde ich denen auch keine Priorität vor anderen einräumen.

Trotzdem ist es unklug sich mit den Konkurrenten öh Araabern zu verschwerzen, wo dann ein so richtiger Wettstreit daraus entstehen kann.

Dazu kommt es bei anderen Chipdesignern wahrscheinlich nicht gut an, wenn einer benachteiligt wird, aber der Konkurrent gut liefern kann.

Sicherlich haben Nvidia und TSMC Angst davor, dass GF sich als überlegene Foundry beweist und ATI einen gewichtigen Vorsprung verschafft. ATI hat Angst davor, dass GF das eben nicht tut und man sogar einen Nachteil daraus zieht, während man TSMC als Kunden wohl nicht mehr so einfach zurückgewinnen kann.

Interessant wir die Geschichte, wenn einer Probleme mit 28nm hat bzw. einen erheblichen Abstand.
Vorallem bei Nvidia ist das Risiko viel höher, wenn TSMC-Probleme haben wird und sie nicht rechtzeitig zu GF wechselten bzw. "rechtzeitig genügend Wafer bestellten"

Vorallem ist der Sprung von Problem-40nm-Fertigung zu High-K&Metal-Gates-28nm-Fertigung ein verdammt großer.

Auf den 28nm-Wechsel bin ich sehr gespannt.

Gast

2010-07-02, 14:48:45

Einige Hersteller planen schon 2GB Modelle: http://translate.google.de/translate?u=http%3A%2F%2Fwww.donanimhaber.com%2FGeForce_GTX_460_icin_2GB_GDDR5_b ellekli_ozel_tasarimlar_hazirlaniyor-20855.htm&sl=tr&tl=en&hl=&ie=UTF-8
Im August sollen sie verfügbar sein.

Bucklew

2010-07-02, 14:53:40

Interessant wir die Geschichte, wenn einer Probleme mit 28nm hat bzw. einen erheblichen Abstand.
Vorallem bei Nvidia ist das Risiko viel höher, wenn TSMC-Probleme haben wird und sie nicht rechtzeitig zu GF wechselten bzw. "rechtzeitig genügend Wafer bestellten"
Das Problem ist für beide gleich groß. Wenn TSMC Probleme hat kann Nvidia nicht einfach zu GF und wenn GF Probleme hat kann ATI nicht einfach zu TSMC. Diese Kapazitäten sind Monate im vorraus bestellt.

AwesomeSauce

2010-07-02, 14:56:16

Die Prozesse sind doch in der Regel nicht mal kompatibel zueinander. Dass da einfach fröhlich Produzent geswitcht werden kann, halte ich nicht für möglich. Da dürften einige Anpassungen vorzunehmen sein.

aylano

2010-07-02, 15:30:09

Das Problem ist für beide gleich groß. Wenn TSMC Probleme hat kann Nvidia nicht einfach zu GF und wenn GF Probleme hat kann ATI nicht einfach zu TSMC. Diese Kapazitäten sind Monate im vorraus bestellt.
Nur wenn AMD die GPUs nur bei GF design/vorbereitet hat und nicht, so wie man jetzt vermutet,gleichzeitig/parallel bei TSMC & GF

Dural

2010-07-02, 16:40:08

Und warum sollte die bei AMD besser sein?
Gibts eine 40nm-AMD-Edition, aber zum Ausgleich weniger Waferkapazitäten?

es ist ja ganz offensichtlich das es zum grossen teil am 40nm prozess liegt! siehe auch GT21x vs G9x da hat sich in sachen strom verbrauch zwischen 40nm und dem bekannten 55/65nm nicht wirklich viel getan.

sehr warscheinlich liegt es am hohen alu takt in verbindung mit dem 40nm prozess

Bucklew

2010-07-02, 16:42:11

Nur wenn AMD die GPUs nur bei GF design/vorbereitet hat und nicht, so wie man jetzt vermutet,gleichzeitig/parallel bei TSMC & GF
Halte ich für schlicht unmöglich, dafür sind die Prozesse zu unterschiedlich. Und selbst wenn sie es tun werden: Wir reden hier über den nächsten Node-Sprung und daher werden die ersten Wafer auch entsprechende begehrt sein. Glaubt da jemand wirklich ernsthaft, dass TSMC von heute auf morgen freie Kapazitäten haben wird, die AMD nutzen könnte?

aylano

2010-07-02, 16:59:42

BlackBirdSR

2010-07-02, 17:00:18

glaub ich auch nicht. der wechsel zu gf ist sicherlich ein risiko. die aussichten allerdings verlockend und gf hat als amd eine gute vergangenheit vorweisen.

Bucklew

2010-07-02, 17:56:57

Ich schrieb ja nicht, dass die Prozesse gleich sind, sondern dass sie GPUs für TSMC & GF eingeführt werden können.
Auch wenn es insgesamt die doppelte Arbeit ist, aber wenn irgendwas bzw. bei einem Herrsteller etwas schiefgeht (früher dachte man an GF, da sie bisher noch keine GPUs produzierten), dann können sie wenigstens beim anderen Produzieren & Verdienen.
Werden sie nicht tun. Doppelte Arbeit bedeutet ja auch was? Richtig, entweder doppelte Mitarbeiter oder aber doppelte Zeit. Ersteres ist wohl unrealistisch und letzteres könnte (!) zu einem großen Hintertreffen führen. Nein, sie werden nicht für beide Prozeße entwickeln, sie werden einen kleinen Chip bei GF einführen, schauen was passiert und dann entscheiden, welchen sie für den großen nehmen. Und dann heißt es Augen zu und durch.

Warum sollte AMD keine Wafer bei TSMC bestellen, wenn man schon dort GPUs einführt.
Allein wenn GF & TSMC gleich gute Prozesse haben, können sie am Anfang mit Waferbestellungen bei GF & TSMC schneller bzw. mehr 28nm-GPUs liefern, als wenn sie nur bei einem Bestellen.
Ganz einfach: Weil man sie bezahlen muss ;) Wie gesagt: Doppelte Pipeline werden sie nicht fahren, sie werden sich für einen von beiden entscheiden. Und damit natürlich beim anderen deutlich weniger Kapazitäten ordern. Und die können sie nicht urplötzlich verdoppeln, wenn sie merken, dass der Prozeß beim Ausgewählten dann doch nicht so toll ist. Dann ist es viel zu spät.

Gast

2010-07-02, 18:25:30

Immer noch Offtopic Leute!

Bei den 2GB Varianten könnte der RAM Takt gesenkt sein wegen der erhöhten Leistung die benötigt wird, GDDR5 ist ja nicht gerade als Stromsparer bekannt.

Gibts schon Gerüchte wer die 1GB/256Bit Variante designt? Oder ist das komplett offen... dann müssten die GPU ja in rauhen Mengen vorhanden sein wenn man damit um sich wirft.

Gast

2010-07-02, 18:46:55

Halte ich für schlicht unmöglich, dafür sind die Prozesse zu unterschiedlich.

Natürlich werden identische GPUs nicht 2x gefertigt, aber AMD wird verschiedene GPUs bei verschiedenen Herstellern fertigen lassen.

Vermutlich wird es bei GF einen ähnlichen Testballon wie RV740 für 40nm geben.

Gast

2010-07-02, 18:47:31

Bei den 2GB Varianten könnte der RAM Takt gesenkt sein wegen der erhöhten Leistung die benötigt wird, GDDR5 ist ja nicht gerade als Stromsparer bekannt.

GDDR5 ist bei gleichem Takt deutlich sparsamer als die Vorgänger.

Captain Future

2010-07-02, 18:55:44

Mit Effizienz meine ich Performance-pro-Watt.

'Tschuldige, aber das kann doch wohl nicht alles sein, oder? Es ist doch allgemein bekannt, dass spezialisierte Schaltkreise die effizientesten sind. Je programmierbarer Rechenwerke sind, desto weniger können sie pro Watt, pro Fläche oder pro sonstwas leisten.

Ich möchte ungern das T-Wort wiederholen, weil es für mich persönlich eines der weniger wichtigen DX11-Features ist, aber wenn du "Performance" sagst, kannst du nicht einfach gewisse Fälle ausklammern und sagen "Tjaaa, das zählt nicht".

Stell dir mal einen reinen FP24-DX9-Chip mit 3 Mrd. Transistoren vor. Das sind 18,75 X850 XTPEs!
300 "Pipelines"
300 TMUs
300 ROPS
4800 Bit Speicherinterface

WOW! Nur leider Baseline-DX9.

Schau dir zum Vergleich einfach mal Mobile Chips an, die mit einigen Dutzend Milliwatt H.264-Baseline decodieren können - aber eben sonst nichts.

BlackBirdSR

2010-07-02, 19:06:20

'Tschuldige, aber das kann doch wohl nicht alles sein, oder? Es ist doch allgemein bekannt, dass spezialisierte Schaltkreise die effizientesten sind. Je programmierbarer Rechenwerke sind, desto weniger können sie pro Watt, pro Fläche oder pro sonstwas leisten.

Stell dir mal einen reinen FP24-DX9-Chip mit 3 Mrd. Transistoren vor. Das sind 18,75 X850 XTPEs!

Naja so direkt umsetzen kann man das nicht. Aber es ist klar, dass dedizierte HW immer besser wegkommt in diesen Fällen.
Das ist auch ein Grund, warum GF100 sein Budget ordentlich ausschöpft. Sehr viel sehr schnell zu erledigen kostet sehr viel Energie. Wo wir wieder beim GF104 wären, der ja integrale Bestandteile der GF100 Philosophie streichen muss, damit wohl aber auch erfolgreicher wird.

Captain Future

2010-07-02, 19:09:41

Naja so direkt umsetzen kann man das nicht. Aber es ist klar, dass dedizierte HW immer besser wegkommt in diesen Fällen.
Das ist auch ein Grund, warum GF100 sein Budget ordentlich ausschöpft. Sehr viel sehr schnell zu erledigen kostet sehr viel Energie. Wo wir wieder beim GF104 wären, der ja integrale Bestandteile der GF100 Philosophie streichen muss, damit wohl aber auch erfolgreicher wird.
Natürlich geht das so 1:1 nicht. :)
Aber - wie du ja auch ausführst - vergessen die "Performance-pro-Watt"-Anhänger immer wieder, dass Flexibilität eben nicht umsonst ist und Fermi eben die flexiblere, mächtigere Architektur ist.

Bucklew

2010-07-02, 19:14:55

Natürlich werden identische GPUs nicht 2x gefertigt, aber AMD wird verschiedene GPUs bei verschiedenen Herstellern fertigen lassen.

Vermutlich wird es bei GF einen ähnlichen Testballon wie RV740 für 40nm geben.
Das schrieb ich bereits, danke. Aylano schrieb allerdings, das ATI denselben Chip für die Fertigung bei GF und TSMC bauen könnte.

boxleitnerb

2010-07-02, 19:18:25

Natürlich geht das so 1:1 nicht. :)
Aber - wie du ja auch ausführst - vergessen die "Performance-pro-Watt"-Anhänger immer wieder, dass Flexibilität eben nicht umsonst ist und Fermi eben die flexiblere, mächtigere Architektur ist.

Das ist alles richtig. Man könnte höchstens anführen, dass Fermi seiner Zeit zu weit voraus ist.

aylano

2010-07-02, 19:19:18

Werden sie nicht tun. Doppelte Arbeit bedeutet ja auch was? Richtig, entweder doppelte Mitarbeiter oder aber doppelte Zeit. Ersteres ist wohl unrealistisch und letzteres könnte (!) zu einem großen Hintertreffen führen.

Sie haben immerhin das ganze Jahr 2010 dafür Zeit.
Und die Vorbereitungen für einen parallele Einführung könnten schon bei der Architektur bzw. im Ablauf bzw. sonst wo berücksichtigt werden.
Denn das einmal AMD seine GPUs bei sich selber produzieren lässt, ist seit vielen Jahren bekannt und bei einer Architektur die auf (Effizienz &) Kostengünstig ausgelegt ist, könnte eben so eine Wechsel bzw. Parallel-Einführung berücksichtigt (wie immer das aussehen mag) sein.

Außerdem hat AMD bei 40nm-TSMC mehr als genug bewiesen, wie flexibel sie auf Probleme reagieren & agieren können.

Unmöglich ist es somit nicht.

Und die können sie nicht urplötzlich verdoppeln, wenn sie merken, dass der Prozeß beim Ausgewählten dann doch nicht so toll ist. Dann ist es viel zu spät.
Wie der Prozess läuft, weiß AMD eben schon Monate/Quartale davor.
Wir bekommen das nicht so schnell mit. Dazu bekommen wir auch nicht so schnell mit, wo und wie viele Wafer AMD & Nvidia für 2011 schon geordert hat, oder eben noch nicht.

Wie gesagt, AMD hat auf 40nm richtig reagiert & agiert und im Vergleich zur Konkurrenz deutlich besser.
Das Problem waren "nur" die Kapazitäten und die das alles genau abgelaufen ist, wissen wir auch noch nicht.
Außerdem hätten sie noch den Vorteil früh zu wissen, wie gut bzw. wie schlecht die TSMC-28nm-Fertigung im Vergleich zu GF ist.

Ganz einfach: Weil man sie bezahlen muss
Die Araaber haben nicht viele Mrd. $ investiertet um ein paar Mio. $ zu sparen.
Alleine zu wissen, wie gut TSMC mit 28nm ist, wäre wahrscheinlich den Araabern & GF viele Mio. $ Wert.
Vorallem, bevor man weitere Mrd. $ inverstiert und genau das ist ja vor paar Tagen/Wochen passiert wo man weiterte Investitionen & Ausbauten in Fab-Dresden & Fab-New-York bekanntgegeben hat.
Und das zu einer Zeit, wo Fab-Dresden-Modul 2 noch immer nicht produziert und Fab-New-York noch lange nicht fertig ist.

Das schrieb ich bereits, danke. Aylano schrieb allerdings, das ATI denselben Chip für die Fertigung bei GF und TSMC bauen könnte.
Schrieb ich nicht.
Überleg mal was es bedeutet, wenn AMD die doppelte arbeit für die Einführung von einem GPU in zwei Foundrys hat.

LovesuckZ

2010-07-02, 19:25:27

Das ist alles richtig. Man könnte höchstens anführen, dass Fermi seiner Zeit zu weit voraus ist.

Eigentlich nicht. Für Tessellation ist es immens wichtig, dass Geometrie parallel abgearbeitet werden und die Kommunikation schneller erfolgen muss.
Cache-System, 4 Setup-Engines und die Intgeration der Geometrieeinheiten in die SM sind das Resultat aus dieser Betrachtung.

boxleitnerb

2010-07-02, 19:27:29

Du weißt, dass es anders gemeint war. Du denkst leider immer nur in eine Richtung, die ich nicht meinte.

LovesuckZ

2010-07-02, 19:33:38

Du weißt, dass es anders gemeint war. Du denkst leider immer nur in eine Richtung, die ich nicht meinte.

Nein, denn das sind die Vorraussetzungen, um die Anforderungen von Tessellation an die Hardware vernünftig umzusetzen.
Das hat nichts mit "weit voraus" zu tun.

boxleitnerb

2010-07-02, 19:34:50

Willst du mir jetzt auch noch vorschreiben, was ich wie gemeint hab? Mit dir kann man echt keinen Meter diskutieren. Bin raus.

Gast

2010-07-02, 19:35:10

Wie gesagt, AMD hat auf 40nm richtig reagiert & agiert und im Vergleich zur Konkurrenz deutlich besser.
Das Problem waren "nur" die Kapazitäten und die das alles genau abgelaufen ist, wissen wir auch noch nicht.

Du hast wohl das Forum das letzte halbe Jahr nicht verfolgt, hier und bei Beyond wurde oft genug aufgezeigt das die Yields absolut mist waren um eine hohe Fertigung zu fahren. Das hat garnichts mit Kapazitäten zu tun gehabt sondern mit dem 40nm Prozess selbst der locker 6Monate "reifen" musste.

Bucklew

2010-07-02, 19:36:07

Schrieb ich nicht.
Überleg mal was es bedeutet, wenn AMD die doppelte arbeit für die Einführung von einem GPU in zwei Foundrys hat.
Ach so, ich habe mich verlesen. Alles klar, ich dachte du meinst dieselbe GPU bei TSMC + GF gleichzeitig.

LovesuckZ

2010-07-02, 19:38:00

Willst du mir jetzt auch noch vorschreiben, was ich wie gemeint hab? Mit dir kann man echt keinen Meter diskutieren. Bin raus.

Du schreibst auf die Aussage, dass Fermi flexibler und mächtiger sei: Dafür ist Fermi der Zeit weit vorraus.
Ich habe dies anhand von Argumenten negiert. Zeige dochmal, wo genau GF100 der Zeit weit vorraus wäre und wenn der Zeitpunkt für GF100 eigentlich genau richtig wäre.

aylano

2010-07-02, 19:44:19

Ich möchte ungern das T-Wort wiederholen, weil es für mich persönlich eines der weniger wichtigen DX11-Features ist, aber wenn du "Performance" sagst, kannst du nicht einfach gewisse Fälle ausklammern und sagen "Tjaaa, das zählt nicht".

Die Leute wollen aber jetzt ihre Performance haben und wenn es die Spiele nicht gibt, die ein Bedürfnis nach starker Tesselation haben, dann interessiert Tesselatioen eben momentan keinem.

Das gleiche könntes du auch über dei R6x0-Architektur sagen, die damals schlechtgerade wurde, aber vielleicht war diese Architektur zu weit in die Zukunft gedacht.

Und das könnte mit der Fermi-Architektur auch so sein, oder eben nicht.

Zu weit in die Zukunft entwickeln ist der Falsche weg für eine Erfolgreiche Grafikkarte.
Es muss ein Kompromiss aus aktuellen Spiele und Spiele naher Zukunft (1 Jahr oder so).
Danach gibts sowieso einen neuen Prozess und dann interessiert sich keiner mehr für die alten Karten.

Es hat ja auch keinen Interessiert, dass X1900XT jahre später seine Power erst so richtig ausüben konnte.
Denn da stand schon lange G80 im Mittelpunkt der Grafikwelt.

Mal sehen, was mit North-Island kommt.
Eventuell die Einführung von C++, was wieder Effizienz kosten könnte.
Oder Flimmerfreies AF.
Dazu noch das Tesselation-Modul AFAIK 5.Generation.
Mal sehen, ob diese Maßnahmen+Architektur-verbesserungen zu Effizienzsteigerungen oder Effizenz-Verschlechterungen führt.
Und was dann rauskommt, ist dann für das Jahr 2011 mit den jeweiligvorhandenen Spiele interessant.

boxleitnerb

2010-07-02, 19:48:08

Ich habe es nicht auf diese Aussage bezogen. Ich schrieb schon in diesem Thread - und in anderen - wie ich es meine: Auf den Nutzen, den der Kunde daraus zieht, bezogen. Auf die Umsetzung dieser Technologie (aktuell und in den nächsten 1-2 Jahren) bezogen.
Jetzt den grundsätzlichen Grundstein legen für T, aber erst dann so richtig auf diese Technik setzen (mit all den Kompromissen, die wir jetzt bei Fermi sehen), wenn die Softwarebasis da ist. Ja, Henne-Ei Problem. Ohne Hardware keine Softwareentwicklung. Ich persönlich finde halt, man hätte es langsamer einführen können. Jetzt noch verstärkt (soweit es die Flexibilität des Designs erlaubt) auf DX10/10.1+Texelleistung setzen und bei Fermi 2 dann T richtig hochfahren. Eben über zwei Chips den Anstieg der T-Leistung skalieren. So hätte man zu jedem Zeitpunkt das, was von Softwareseite gefordert wird. Sollte SI zu Fermi bei T aufschließen, ist das (imo) früh genug.

V2.0

2010-07-02, 19:50:43

back to topic plz

Bucklew

2010-07-02, 19:52:23

Es ist nicht nur Tessellation, was Fermi besser kann, sondern einfach grundsätzlich Geometrie. Das sollte man nicht vergessen.

aylano

2010-07-02, 20:02:37

Jetzt den grundsätzlichen Grundstein legen für T, aber erst dann so richtig auf diese Technik setzen (mit all den Kompromissen, die wir jetzt bei Fermi sehen), wenn die Softwarebasis da ist. Ja, Henne-Ei Problem.
ATI hat es eh schon sehr lange drinnen.
AFAIK hat Nvidia das ewig verhindert. Angeblich auch die Nutzung von Tesselation in DX10.
Und jetzt setzten sie aufeinmal so massiv drauf und das mit den ganzen Effizienz-Problemen.
Eigentlich selber Schuld und wenn die Vorgeschichte stimmt, dann geschied ihnen das schon fast recht.
Sie hätten auch die Möglichkeit gehabt, schon damals mit ATI & wichtigsten Spiele-Entwickler zusammensetzen und Mindest-Ansprüche zu definieren.

Du hast wohl das Forum das letzte halbe Jahr nicht verfolgt, hier und bei Beyond wurde oft genug aufgezeigt das die Yields absolut mist waren um eine hohe Fertigung zu fahren. Das hat garnichts mit Kapazitäten zu tun gehabt sondern mit dem 40nm Prozess selbst der locker 6Monate "reifen" musste.
Du anscheinend viel länger nicht, da die ersten 40nm-GPUs vor über einem Jahr am Markt kamen, während heute und in naher Zukunft Nvidia immer noch keinen Vollständigen Chip am Markt wirft.
Das Problem ist, die Kapazitäten-Steigerung erfolgt über Quartale und Kapazitäten würden in Abhängigkeit von Yields errichtet.
Man ist halt von guten 40nm-Yields ausgegangen, womit wahrscheinlich eine Fabrik gereicht hätte.
So hat nähmlich die Yield einfluss auf die Kapazitäten.

back to topic plz
Leider ist es verdächtig still.
Da muss man halt irgendwie diese Lücke füllen.

Bucklew

2010-07-02, 20:21:16

ATI hat es eh schon sehr lange drinnen.
AFAIK hat Nvidia das ewig verhindert. Angeblich auch die Nutzung von Tesselation in DX10.
Ja, weil für Tessellation auch eine erhöhte Geometrieleistung vonnöten ist. Von daher ist die Reihenfolge von Nvidia schon richtig.

Captain Future

2010-07-02, 21:37:47

Die Leute wollen aber jetzt ihre Performance haben und wenn es die Spiele nicht gibt, die ein Bedürfnis nach starker Tesselation haben, dann interessiert Tesselatioen eben momentan keinem.
Die Leute haben ja jetzt ihre Performance. Die meisten mir bekannten Reviews sehen GF100 > Cypress, und zwar nicht nur in Sachen Preis, Transistoren, Feature-Set und Leistungsaufnahme sondern auch in Sachen Fps.

Das gleiche könntes du auch über dei R6x0-Architektur sagen, die damals schlechtgerade wurde, aber vielleicht war diese Architektur zu weit in die Zukunft gedacht.
Es gibt aber einen bedeutenden Unterschied: Der R600 konnte zum Launch gerade so mit der zweitschnellsten Single-Chip-Karte, der 8800 GTS mithalten und bot darüberhinaus weder umfassendere Programmierbarkeit (oder verpasse ich da grade was?), noch bessere Bildqualität noch sonst irgendwas.

Im Gegenteil: Kannst du dich an den Rummel vor dem Launch erinnern? Ich denke da an Stichworte wie "50x Geometrie-Shader-Performace als G80" (hat ja ironischerweise auch was mit Geometrie-Performance zu tun) - witzigerweise fanden damals besonders Nvidia-Fans Geometrie-Performance doof. :) Oder der revolutionäre Ring-Bus in dritter bis vierter Generation - bei dem man sobald man die Chance hatte, nichts besseres zu tun hatte, als ihn in der HD4000-Reihe abzutreiben.

Im Gegensatz zur X1900 hat sich der R600 aber leider auch im Nachhinein nicht als Knaller erwiesen. Dafür musste AMD ihn auch preislich attraktiv positionieren.

Ich finde den Vergleich, wie du aus meinen Sätzen wohl gemerkt haben wirst, zwischen R600 und GF100 unpassend.

Und das könnte mit der Fermi-Architektur auch so sein, oder eben nicht.

Zu weit in die Zukunft entwickeln ist der Falsche weg für eine Erfolgreiche Grafikkarte.
Es muss ein Kompromiss aus aktuellen Spiele und Spiele naher Zukunft (1 Jahr oder so).
Danach gibts sowieso einen neuen Prozess und dann interessiert sich keiner mehr für die alten Karten.

Es hat ja auch keinen Interessiert, dass X1900XT jahre später seine Power erst so richtig ausüben konnte.
Denn da stand schon lange G80 im Mittelpunkt der Grafikwelt.

Mal sehen, was mit North-Island kommt.
Eventuell die Einführung von C++, was wieder Effizienz kosten könnte.
Oder Flimmerfreies AF.
Dazu noch das Tesselation-Modul AFAIK 5.Generation.
Mal sehen, ob diese Maßnahmen+Architektur-verbesserungen zu Effizienzsteigerungen oder Effizenz-Verschlechterungen führt.
Und was dann rauskommt, ist dann für das Jahr 2011 mit den jeweiligvorhandenen Spiele interessant.
Hm, die Technik soll also maximal ein Jahr aktuell sein und danach sind 400-Euro-Grafikkarten für alle uninteressant? Sag das denen, die soviel Kohle für eine Karte raustun.

Interessant ist auch dein letzter Satz: Das, was Ati mit den Inseln macht, ist also für 2011 interessant - egal ob sie dann Geometrie massiv verbessern oder links liegen lassen? Oder wie ist das gemeint?

kunibätt

2010-07-02, 21:42:18

Bucklew

2010-07-02, 21:52:07

Kannst du die Behauptung, dass GF100 eine höhere Geometrieleistung als RV870 habe auch belegen?
Die theoretische Geometrieleistung von GF100 ist 3-4x größer,wenn ich das jetzt Recht im Kopf habe.

Eine Überlegenheit ist nocht zu sehen, es herrscht vielmehr absoluter Gleichstand.
Weiß die genauen Zahlenwerte gerade nicht, reicht scheinbar noch nicht. Bei Unigine aber z.B. merkt man es ja schon.

LovesuckZ

2010-07-02, 22:16:01

@ Bucklew

Kannst du die Behauptung, dass GF100 eine höhere Geometrieleistung als RV870 habe auch belegen?
Ich habe einen Thread in der NV-Sektion offen der die Leistung beider Chips in Crysis in der Map Townfight von Superheld vergleicht.
Die Map stellt pro Frame bis zu 100 Millionen Polygone dar.
Eine Überlegenheit ist nocht zu sehen, es herrscht vielmehr absoluter Gleichstand.

Kommt die CPU und das Bus-System mit dem Erzeugen überhaupt hinterher?
Um Geometrieleistung zu messen, sollte man schon die Geometrie auf der GPU erzeugen/berechnen. Alles andere führt nur zu einem Bottleneck der CPU und dem Bus-System.