nVidia - GT400/GF100 - Q1/2010, DX11, CUDA 3.0 [Archiv] - Seite 14

Gipsel

2009-10-01, 21:20:44

Von einem Video hab ich nix gewusst. Aber Fermi kann man wohl eher nicht in Echtzeit simulieren, da bräuchte man schon gewaltige Rechenkapazitäten. Ich hatte mal die Möglichkeit, solch einen Hardwaresimulator bei IBM live zu sehen, hab mir aber erzählen lassen, dass das einfach nur ein Serverraum mit vielen Rechenschränken ist, und deshalb die Besichtigung des Hardwarelabors vorgezogen.
3 GTX295 (eventuell auch ein wenig übertaktetes Tesla S1070-System mit 4 GPUs) und Du bist dabei. Damit bekommst Du auch die gezeigten Leistungssteigerungen hin.

Gipsel

2009-10-01, 21:24:29

Und atomare Operationen hat G80 auch noch nicht.
Und FMA, und SIMD shared Register (kann RV770 auch schon), und wahlfreien Zugriff auf den LDS (kann ebenfalls schon RV770) und so weiter. Wie schon mal gesagt, bereits RV770 hat den G80 featuremäßig überholt.

LovesuckZ

2009-10-01, 21:30:37

Um welches Video und welche eventuelle Aufzeichnung einer Präsentation gehts eigentlich? Link? Ich kenne nur die Folien und hat man wohl die Werte reingeschrieben, die die Hardware tatsächlich bringt (sei es durch einen Test mit realer Hardware oder durch einen Test mit simulierter Hardware).

Keynote von Jen-Hsun Huang (http://www.nvidia.com/object/gpu_technology_conference.html)

Irgendwo ab der Mitte.

AnarchX

2009-10-01, 21:32:54

Etwas zum amüsieren:
Sure. I have posted the size, 23.x * 23.x, the NVIO chip, and a few other things like tapeout, first silicon and good dies from first silicon hot lots.

What else? 2:1 SPP ratio, and the number they don't want to tell people is that the numbers are 1.5TF SP and 768GF DP, but that is dependent on their ability to hit clock targets. If you do the math, the 512 shader, 384b memory part would need clocks in the 750MHz +/- a bit to hit that.

The memory is very high clocked, I am hearing 1.5Ghz GDDR5, and this doesn't surprise me given their memory woes. If you notice, the 216/218 are all slated to use GDDR3 even though they have a GDDR5 controller. Why? Because the NV GDDR5 controller is totally hosed, it is so bad that it basically doesn't work, forcing the 216/218 into GDDR3/DDR3. This means half+ bandwidth goes poof, and performance blows. See a problem for pricing?

The GDDR5 controller is very likely the same thing that sunk the 215, basically they couldn't feed it, or couldn't feed it in a way that would make a financially viable chip.

If GT300 uses the same, or a close derivative part, well, it is hosed. I would almost bet that the respin, if real, is due to memory controller problems.

If you think about it, 384b 6GHz (effective) GDDR5 is vastly faster than 512b 1.xGHz GDDR3. NV basically doubled the shader count on GT300, no shock there, and upped the bandwidth by a lot more than that. Much much more. They either decided to piss away a lot of area, power, and board cost on stupidly high frequency memory, or their controller efficiency blows. Some of my sources are saying they have to buy high bin parts to get the tolerances they need to run at much lower speeds.

As a side note, all the stuff about 40nm yields being fine that Fudo et all are saying, there is only one question, where are the parts? If yields are fine, and NV is running more 40nm wafers than anyone else, why can't you find one of the parts at any place other than a few OEMs? Why can't you buy GDDR5 variants? Why are the laptop versions that basically mandate GDDR5 being replaced by ATI parts on most laptops?

If yields are fine, and there is no GDDR5 controller problems, what is the explanation again? I REALLY wish some people would ask questions like that before they posted stories.

-Charlie
http://www.semiaccurate.com/forums/showthread.php?t=822&page=5

:D

w0mbat

2009-10-01, 21:35:02

Ist ein Tesselator in Hardware ein muss für DX11 oder kann man dass auch problemlos in Software machen (ich meine nicht ob es machbar ist, sonder ob man damit die Spec erfüllt)?

LovesuckZ

2009-10-01, 21:35:50

Ist ein Tesselator in Hardware ein muss für DX11 oder kann man dass auch problemlos in Software machen (ich meine nicht ob es machbar ist, sonder ob man damit die Spec erfüllt)?

Ja, da Microsoft nicht vorschreibt, wie etwas zu erledigen sei, sondern dass es möglich ist.

reunion

2009-10-01, 21:37:01

Ist ein Tesselator in Hardware ein muss für DX11 oder kann man dass auch problemlos in Software machen (ich meine nicht ob es machbar ist, sonder ob man damit die Spec erfüllt)?

Man kann prinzipiell alles in Software machen.

StefanV

2009-10-01, 21:45:26

Hm, jetzt bleibt nur zu hoffen, das der Charlie nicht so ganz recht hat, sonst wärs etwas arg doof für nV.

Das Problem ist aber, das es nicht abwegig klingt, was er da schrieb.

w0mbat

2009-10-01, 21:45:41

Also hätte Fermi mit einem Software-Tesselator keine Probleme den DX11 Stempel zu bekommen. Danke.

LovesuckZ

2009-10-01, 21:49:11

nVidia wirbt ja selbst mit D3D11. Also dort gibt es keine Probleme. Die Tesselation wird auch nicht vollständig in Software gelöst - laut Rys soll es noch zusätzliche Hardware geben.

Gast

2009-10-01, 21:51:37

Wann hat Charlie schonmal recht? Der führt einen Privatkrieg gegen NVidia. Von daher, wayne was der von sich gibt.

Spasstiger

2009-10-01, 21:52:30

Es gibt eine D3D10-Demo von Nvidia, die Tesselation verwendet:
http://developer.download.nvidia.com/SDK/10.5/direct3d/samples.html#InstancedTessellation
Ich weiß nicht, ob das ansatzweise an das rankommt, was D3D11 fordert, aber es scheint wohl prinzipiell ohne dedizierte Hardwareeinheiten bei brauchbarer Performance zu gehen (wobei der Performancehit auf meiner HD 2900 Pro im Vergleich zur AMD-Tesselation-Demo heftig ist).

Undertaker

2009-10-01, 22:07:30

Kam hier afair noch nicht:

http://www.brightsideofnews.com/news/2009/9/30/nvidia-gt300-fermi-cgpu-to-power-worlds-most-powerful-supercomputer.aspx

10 Petaflops auf Fermi-Basis sind mal eine Ansage...

Tarkin

2009-10-01, 22:34:22

Ich habe den Link dazu gefunden:

http://www.computerbase.de/news/hardware/grafikkarten/nvidia/2009/september/nvidias_antwort_atis_hd5k-serie_ende_november/

Ende November 2009 also und CB weiß was, allerdings besteht NDA. Vielleicht doch nur ein Pokern? Ich glaube langsam, CB weiß genauso wenig, wie alle anderen.

ein typischer Fall von "hach, ich schreib mal schnell irgend einen Shice von Fudzilla ab - merkt eh keiner" ;D

PHuV

2009-10-01, 22:35:30

Kam hier afair noch nicht:

http://www.brightsideofnews.com/news/2009/9/30/nvidia-gt300-fermi-cgpu-to-power-worlds-most-powerful-supercomputer.aspx

10 Petaflops auf Fermi-Basis sind mal eine Ansage...

Doch, war schon siehe

http://www.heise.de/newsticker/GTC-Nvidia-Chef-zeigt-erste-Fermi-Grafikkarte-Update--/meldung/146166

(Update) Das US-amerikanische Oak Ridge National Laboratory (ORNL), das den weltweit zweiten Petaflops-Supercomputer Jaguar betreibt – ein Cray XT5 mit AMD-Opteron-Prozessoren –, zieht auch den Einsatz von Nvidia-Fermi-Karten in einem künftigen HPC-System in Betracht, das im Laufe der nächsten zehn Jahre Exaflops-Rechenleistung erreichen soll. Konkretere Planungen gibt es aber offenbar noch nicht.

dildo4u

2009-10-01, 22:39:27

Es gibt eine D3D10-Demo von Nvidia, die Tesselation verwendet:
http://developer.download.nvidia.com/SDK/10.5/direct3d/samples.html#InstancedTessellation
Ich weiß nicht, ob das ansatzweise an das rankommt, was D3D11 fordert, aber es scheint wohl prinzipiell ohne dedizierte Hardwareeinheiten bei brauchbarer Performance zu gehen (wobei der Performancehit auf meiner HD 2900 Pro im Vergleich zur AMD-Tesselation-Demo heftig ist).
Wann kommt da der Performance Hit bzw was muss man einstellen?Hab da mit 4800 immer 60fps max vom TFT.

LovesuckZ

2009-10-01, 22:40:45

Vsync im Menü ausmachen.

dildo4u

2009-10-01, 22:43:58

Dann läuft ja schneller ich will wissen wo der Performancehit kommt,wenn ich das maximale einstelle sinds immer noch 60fps.

Spasstiger

2009-10-01, 23:06:41

Dann läuft ja schneller ich will wissen wo der Performancehit kommt,wenn ich das maximale einstelle sinds immer noch 60fps.
Tesselation höher stellen. Bei Tesselation Level 32 hab ich in 1920x1200 nur noch 8,6 fps. Die AMD-Demos laufen bei jedem Tesselation-Level und mit jeder AA-Einstellung in 1920x1200 flüssig.

dildo4u

2009-10-01, 23:09:17

Tesselation höher stellen. Bei Tesselation Level 32 hab ich in 1920x1200 nur noch 8,6 fps. Die AMD-Demos laufen bei jedem Tesselation-Level und mit jeder AA-Einstellung in 1920x1200 flüssig.
Ah ok wie erhöhe ich die Auflösung?

PHuV

2009-10-01, 23:10:30

Keynote von Jen-Hsun Huang (http://www.nvidia.com/object/gpu_technology_conference.html)

Irgendwo ab der Mitte.

Hat sich das jemand mal komplett angeschaut. Die Raytracing-Demo in Echtzeit ist doch der Hammer. :eek: Also, ich mach mir keine Sorgen, daß die GT300 die Spieleleistung bringt. Nvidias Anspruch ist viel höher, und da muß die Karte definitiv die Power haben, dazu noch die künftige Darstellung in 3D. Da wird wirklich viel weiter gedacht. Fermi kann wirklich ein Hit werden, wenn man sich überlegt, wo heute überall visuelle Effekte eingesetzt werden. Jedes Filmstudio, jede Marketing-Firma wird sich um so ein System reisen.

Spasstiger

2009-10-01, 23:13:36

Ah ok wie erhöhe ich die Auflösung?
Unter "Change Device". Bei mir ist 1920x1200 die Desktopauflösung, da musste ich nix umstellen.
Hier kannst du die AMD-Tesselation-Demos benchen: http://www.forum-3dcenter.org/vbulletin/showthread.php?t=457346

dildo4u

2009-10-01, 23:18:03

Unter "Change Device". Bei mir ist 1920x1200 die Desktopauflösung, da musste ich nix umstellen.
Hier kannst du die AMD-Tesselation-Demos benchen: http://www.forum-3dcenter.org/vbulletin/showthread.php?t=457346
Also 76fps bei 1680*1050(4xMSAA) mher schafft mein Monitor nicht,die Software Lösung scheint nicht so langsam zu sein hab nur eine 4850.

http://www.abload.de/img/telationm6c5.jpg

Coda

2009-10-01, 23:19:21

Dann hättest Du auch gleich schreiben können, daß er oberhalb von GT200 liegt ;)
Für mich ist G80-GT200 und RV770-RV870 ggü. Fermi alles auf dem gleichen Niveau. Sind doch nur Feinheiten.

ATI hat eben erst mit RV770 auf G80 Niveau aufgeschlossen (und ja, ich weiß DP bla)

Gipsel

2009-10-01, 23:29:32

Für mich ist G80-GT200 und RV770-RV870 ggü. Fermi alles auf dem gleichen Niveau. Sind doch nur Feinheiten.

ATI hat eben erst mit RV770 auf G80 Niveau aufgeschlossen (und ja, ich weiß DP bla)
Und warum nicht auch R600? Fehlt doch auch bloß die Feinheit des Local Data Shares (aka shared memory) :rolleyes:

Spasstiger

2009-10-01, 23:31:37

Also 76fps bei 1680*1050(4xMSAA) mher schafft mein Monitor nicht,die Software Lösung scheint nicht so langsam zu sein hab nur eine 4850.

http://www.abload.de/img/telationm6c5.jpg
Selbst in 640x480 hab ich bei Tesselation-Level 32 nur 9,4 fps. Da scheint irgendwas im R600 generell zu limitieren.
Die Demo verwendet übrigens standardmäßig 4xAA. Aber wenn ich AA in der Demo deaktivieren möchte, schmiert sie ab ("InstancedTesselation.exe funktioniert nicht mehr").

LovesuckZ

2009-10-01, 23:34:19

Selbst in 640x480 hab ich bei Tesselation-Level 32 nur 9,4 fps. Da scheint irgendwas im R600 generell zu limitieren.
Die Demo verwendet übrigens standardmäßig 4xAA. Aber wenn ich AA in der Demo deaktivieren möchte, schmiert sie ab ("InstancedTesselation.exe funktioniert nicht mehr").

Ja, das Problem muss wohl an dem r600 liegen.
Mit 2xGTX280 geht es von knapp 1000FPS auf 40FPS in 1680x1050 runter.

Spasstiger

2009-10-01, 23:36:16

Mit 2xGTX280 geht es von knapp 1000FPS auf 40FPS in 1680x1050 runter.
Mit zwei GTX 280 nur halb so schnell wie mit einer HD 4850 (siehe dildo4u)? Die Demo ist echt kurios. Aber vom Performanceeinbruch her liegst du fast gleich wie ich. Auf Tesselation-Level 1 habe ich in 1680x1050 rund 480 fps, auf Tesselation-Level 16 noch 32 fps.

/EDIT: Die AMD-Tesselation-Demo geht übrigens nur bis Tesselation Level 15.

LovesuckZ

2009-10-01, 23:49:38

Mit zwei GTX 280 nur halb so schnell wie mit einer HD 4850 (siehe dildo4u)? Die Demo ist echt kurios. Aber vom Performanceeinbruch her liegst du fast gleich wie ich. Auf Tesselation-Level 1 habe ich in 1680x1050 rund 480 fps, auf Tesselation-Level 16 noch 32 fps.

/EDIT: Die AMD-Tesselation-Demo geht übrigens nur bis Tesselation Level 15.

Nein, war ein Fehler von mir. Single-GTX280 sind es ca. 40 und mit SLI 80 in 1680x1050.

fdk

2009-10-01, 23:59:15

Fuer den Gamer wie mich ist AMD's Strategie insgesamt auch die bessere. Erstens weil es keine Verspaetungen mehr gibt und zweitens weil AMD somit schafft die Preise bis zur Laecherlichkeit zu reduzieren.
Klar ist das für unsereins toll, keine Frage. Allerdings sollte AMD damit auch mal Gewinn machen, sonst ist die Grafiksparte das nächste was ausgelagert wird. Ein CCC+ bei den Ratingagenturen + der angehäufte Schuldenberg kosten AMD $100m / Quartal. Das will erstmal finanziert werden.

Aquaschaf

2009-10-02, 00:04:10

Für mich ist G80-GT200 und RV770-RV870 ggü. Fermi alles auf dem gleichen Niveau. Sind doch nur Feinheiten.

Konfigurierbarer Cache und größerer/einheitlicher Adressraum sind die einzigen Merkmale die Fermi von RV870 abheben. Das erstere ist auch nur eine Feinheit. Letzteres nicht, aber das Killerfeature ist es genauso wenig. Am allerwichtigsten finde ich nebenläufige Ausführung von Kernels und Cache für den globalen Speicher.

Gipsel

2009-10-02, 00:18:29

Am allerwichtigsten finde ich nebenläufige Ausführung von Kernels und Cache für den globalen Speicher.
Ersteres kann laut Jawed bei B3D wohl schon RV770-Level Hardware (aber die Software mal wieder nicht) und das Zweite gibt es im RV870 auch. Das ist der 8kB Cache pro SIMD, der in einigen Blockdiagrammen gezeigt wurde, die 16kB L1-Texture-Cache pro SIMD existieren weiterhin parallel.
RV870 hat also an SRAM pro SIMD (außer Register) 32kB LDS, 16kB L1-Texture und 8kB L1. Fermi hat 64 kB für alles zusammen, verschwendet bei DX11 aber wohl 16kB davon (weil shared memory mindestens 32kB sein muß, also nach bisherigen Infomationen nur 16kB L1 übrig bleiben, da nicht 32/32 geteilt werden kann).

Noebbie

2009-10-02, 02:28:27

Die Karte, die der Typ bei der Präsentation hoch gehalten hat, war ein Fake.

Die Karte war abgesägt und in ein Lüftergehäuse neu verpackt.

Das wird noch ewig dauern, ich schätze ~Februar, bis es das Teil überhaupt zu kaufen gibt.

Gast

2009-10-02, 02:29:49

Die Karte, die der Typ bei der Präsentation hoch gehalten hat, war ein Fake.

Die Karte war abgesägt und in ein Lüftergehäuse neu verpackt.

Das wird noch ewig dauern, ich schätze ~Februar, bis es das teil überhaupt zu kaufen gibt.

Du bist hier nicht bei Wünsch dir was...

Noebbie

2009-10-02, 02:38:57

Du bist hier nicht bei Wünsch dir was...

Also doch Anfang Sommer? :freak:

Coda

2009-10-02, 03:02:16

Konfigurierbarer Cache und größerer/einheitlicher Adressraum sind die einzigen Merkmale die Fermi von RV870 abheben. Das erstere ist auch nur eine Feinheit. Letzteres nicht, aber das Killerfeature ist es genauso wenig. Am allerwichtigsten finde ich nebenläufige Ausführung von Kernels und Cache für den globalen Speicher.
Wenn man deswegen vollständige C/C++ Unterstützung bekommt ist es das für mich sehr wohl.

Die Implementierung mag oder mag nicht schwierig sein, aber es ist ein sehr wichtiger Schritt.

Und warum nicht auch R600? Fehlt doch auch bloß die Feinheit des Local Data Shares (aka shared memory) :rolleyes:
R600 kann soweit ich weiß nichtmal Kernel direkt ausführen sondern geht immer über die Pixelshader. Und das "nur" der LDS fehlt ist... naja...

Gipsel

2009-10-02, 03:11:09

R600 kann soweit ich weiß nichtmal Kernel direkt ausführen sondern geht immer über die Pixelshader. Und das "nur" der LDS fehlt ist... naja...
Aber verstanden, worauf ich hinaus wollte?
Den RV870 mit G80 in einen Topf zu werfen, wird ihm keineswegs gerecht.

Wie sich ein Shader nennt, ist erstmal ziemlich egal. Entscheidend ist, was man für Instruktionen darin ausführen kann. Und die entscheidende Einschränkung gegenüber dem G80 (außer LDS) war das fehlende Scatter (wahlfreies Schreiben). Wenn man das braucht, wird es bei R600 extrem langsam.

PS:
Pixelshader sind manchmal ganz bequem, da sie einem (zumindest für 2D-Arrays) das Memory-Layout abnehmen. Das machen die GPUs dann automatisch (und transparent) ziemlich optimal, um spatial locality mit den Caches ausnutzen zu können. Bei Compute-Shadern muß der Programmierer seine Arrrays selber in Tiles zerlegen (mit entsprechendem Overhead bei der Adressberechnung), um den gleichen Effekt zu erreichen. Also sage mir nichts gegen Pixelshader!

Coda

2009-10-02, 03:12:55

Finde ich schon. Zumindest was "Innovationen" angeht. DP ist eine logische Schlussfolgerung, aber was hat er denn sonst zu bieten?

ATI hinkt NV schon auch was die HW-Enticklung angeht hinterher. Das ist überhaupt nicht beurteilend, sondern einfach nur meine Beobachtung.

Gipsel

2009-10-02, 03:29:05

Finde ich schon. Zumindest was "Innovationen" angeht. DP ist eine logische Schlussfolgerung, aber was hat er denn sonst zu bieten?Was sind denn "Innovationen"? Programmierbare Shader sind auch eine logische Schlußfolgerung gewesen, genau wie Pipelining oder Caches. Innovationen sind äußerst selten irrational. Ich glaube so kommen wir nicht weiter :rolleyes:

Coda

2009-10-02, 03:52:10

Innovationen sind etwas vor der Konkurrenz anbieten zu können. ATI hat mehr als ein Jahr gebraucht um von G80 aus mit RV770 wirklich aufzuschließen was GPGPU angeht, und ich wittere ähnliches mit Fermi.

C++ - und damit auch LISP, Fortran, usw. - ist ein großes Argument um GPGPU salonfähig zu machen. Das hat ATI def. mal wieder verschlafen.

Ich verstehe ihre Strategie aber auch. Wenn NVIDIA nicht bald liefern kann dann bring ihnen all ihr R&D-Vorsprung nichts. Und wenn der Chip wegen der Komplexität so richtig in die Hose geht erst recht nicht.

Gast

2009-10-02, 06:08:17

Also 76fps bei 1680*1050(4xMSAA) mher schafft mein Monitor nicht,die Software Lösung scheint nicht so langsam zu sein hab nur eine 4850.

http://www.abload.de/img/telationm6c5.jpg

da komm ich drüber:

http://www.abload.de/thumb/tesl00kc.jpg (http://www.abload.de/image.php?img=tesl00kc.jpg)

V2.0

2009-10-02, 06:57:02

Finde ich schon. Zumindest was "Innovationen" angeht. DP ist eine logische Schlussfolgerung, aber was hat er denn sonst zu bieten?

ATI hinkt NV schon auch was die HW-Enticklung angeht hinterher. Das ist überhaupt nicht beurteilend, sondern einfach nur meine Beobachtung.

Und trotzdem liefert ATI mehr FPS/$ was für die allermeisten Käufer relevant sein dürfte. Ich denke dieses Missverhältnis wird mit Fermi nur schlimmer.

reunion

2009-10-02, 07:03:38

Konfigurierbarer Cache und größerer/einheitlicher Adressraum sind die einzigen Merkmale die Fermi von RV870 abheben. Das erstere ist auch nur eine Feinheit. Letzteres nicht, aber das Killerfeature ist es genauso wenig. Am allerwichtigsten finde ich nebenläufige Ausführung von Kernels und Cache für den globalen Speicher.

Das ist ja dann sehr überschaubar. Und deshalb das ganze Theater? Naja. Das mag zwar nicht unwichtig sein, aber manche tun ja hier wieder so als ob das die mega Innovation wäre die alles andere um Jahre zurück wirft.

reunion

2009-10-02, 07:08:17

Innovationen sind etwas vor der Konkurrenz anbieten zu können. ATI hat mehr als ein Jahr gebraucht um von G80 aus mit RV770 wirklich aufzuschließen was GPGPU angeht, und ich wittere ähnliches mit Fermi.

Welcher Chip war als erstes in der Lage als GPGPU-Chip missbraucht zu werden und Dinge wie Folding@home auszuführen? R5xx. Erstes DP? RV670. Man kann sich immer alles so zurecht legen wie man es braucht. Und momentan ist RV870 alles was man bekommt, von Fermi hat man bis auf gefakte Karten und ein paar Folien noch nicht viel gesehen.

Ailuros

2009-10-02, 07:33:22

Etwas zum amüsieren:

http://www.semiaccurate.com/forums/showthread.php?t=822&page=5

:D

Man macht es so; man laesst ein paar offensichtliche Gruende seines Verhaltens links liegen und versucht sich auszudenken was wahr sein koennte und was nicht.

Er wurde von Rys bei B3D erstmal oeffentlich aufgefordert eine Artikel zu schreiben; ein Forum-Post sagt mir persoenlich gar nichts.

Er und seine Quelle wissen besser als jeder andere dass bei der Frequenzgeschichte der "divider" wichtiger ist als die core-Frequenz selber. Liegt er bei 2.1x, 2.5x wo genau?

Wie dem auch sei ich hab keinen einzigen Zweifel dass wenn AMD behauptet dass die Frequenz-Affaere nicht besonders besser ist bei 40nm im Vergleich zu 55nm. Es ist und bleibt aber trotz allem Architektur-bedingt und sowohl AMD als auch Charlie spekulieren hier lediglich.

Das mit dem Speichercontroller ist interessant auf jeden Fall und ein weiterer klassischer Fall von sogenanntem "sidepedalling". Ergo wurde aus den angeblichen power circuit Problemen (ala R600) fuer alle NV 40nm Produkte ploetzlich ein Speichercontroller Problem.

1.5GHz GDDR5 duerfte uebrigens verdammt teuer sein :rolleyes:

Welcher Chip war als erstes in der Lage als GPGPU-Chip missbraucht zu werden und Dinge wie Folding@home auszuführen? R5xx. Erstes DP? RV670. Man kann sich immer alles so zurecht legen wie man es braucht. Und momentan ist RV870 alles was man bekommt, von Fermi hat man bis auf gefakte Karten und ein paar Folien noch nicht viel gesehen.

Ausser der Tatsache dass AMD mit RV770 ihren Marktanteil im Profi-Markt bis zu 50% (8 zu 12%) erhoehen koennte sah ich sonst nichts generell bewegendes. Frag mal ein paar Profis wie es auf der sw Seite bzw. Unterstuetzung fuer professionelle Loesungen aussieht und dann koennen wir lange darueber debattieren welcher chip wo und was fuer Vorteile hat. Wenn einfachere DP Leistung wirklich das alpha und omega der ganzen Geschichte waere, haette AMD bombastisch zulegen muessen seit RV670.

Ja Fermi ist zweifellos ein Papiertieger momentan, aber das gesamte Paket sw Unterstuetzung wie z.B. Nexus und all dem hw Zusatz ist gut genug um von Innovation zu sprechen. Da kannst Du von mir aus tagelang mit sterilen FLOPs an die Wand schmeissen.

V2.0

2009-10-02, 07:43:25

Er erscheint mir gut informiert. Fermi using up to 6GB äh 6GHZ RAM

Ailuros

2009-10-02, 07:50:51

Er erscheint mir gut informiert. Fermi using up to 6GB äh 6GHZ RAM

Ach Du meinst das teuer bezahlte Fl....ooops :tongue:

Aquaschaf

2009-10-02, 08:15:09

Das ist ja dann sehr überschaubar. Und deshalb das ganze Theater?

Es gibt Anwendungen die das sehr gut gebrauchen können, oder dadurch überhaupt erst möglich werden. Aber alles vor Fermi in einen Topf werfen zu wollen wie Coda es hier andeutet ist etwas übertrieben.

puntarenas

2009-10-02, 08:56:09

Nvidia-Chef Jen-Hsung Huang im Interview mit Heise Online:
GTC: Fermi seit vier Jahren in Entwicklung (http://www.heise.de/newsticker/GTC-Fermi-seit-vier-Jahren-in-Entwicklung--/meldung/146224)

Leider wenig Substanz, BlaBla, Parallel Computing wird Milliardenmarkt, Spiel-PCs sowieso und Intel ist eine Patentkrake.

svenw

2009-10-02, 09:29:19

Die Frage ist doch: Lohnt sich das?

Fermi hat sicher einige interessante Features, aber ob sich die Profifeatures für Otto-Normaldaddler rechnen? Ich bezweifele es wirklich! Denn der Chip wird sehr groß was praktisch zwangsläufig zu höherem Ausschuß + höheren Siliziumkosten führt. Also wird Nvidia bei der neuen Generation das gleiche Problem haben wie aktuell: Die Karten sind vielleicht etwas schneller, aber die höheren Kosten gleichen das nicht aus. Sachen wie PhysX werden an Bedeutung verlieren, denn die Entwickler werden eher auf Effekte setzen die mit allen Karten laufe.

Nvidia ist aktuell technisch vorne nur ob es ihnen etwas nützt bezweifele ich. Das Weihnachtsgeschäft ist für sie praktisch schon gelaufen, denn der einzige der dafür liefern kann wird ATI sein. Solche Sachen brauchen Minumum 2 Monate Vorlauf. Wenn sie heute nicht sagen können wann sie liefern können, ist der Release Termin mindestens 3 Monate entfernt.

Hübie

2009-10-02, 09:36:13

Innovation ist aber auch sowas was man als erster hat und allen zugänglich macht. Hätte Volvo damals nicht so gehandelt hätte jeder doofe Autohersteller horrende Lizenzgebühren für Dreipunktgurte zahlen müssen und wir säßen heute mit Sicherheit nicht in so sicheren Fahrzeugen wie heute!
nVidia ist in vielen Dingen Vorreiter bzw. setzt Dinge konsequenter am Markt um, von Innovation rede ich aber nicht.
Ist und bleibt aber wohl auch Definitionssache, was zur Innovation gehört und was nicht!

bye Hübie

Gast

2009-10-02, 09:47:50

Vor allem müssen sie wieder nen guten Performancechip bringen. G92(b) hat ihnen wohl teilweise den Arsch gerettet. Konnte noch sehr gut getaktet werden so dass die 4850 kein Problem war und war recht billig zu fertigen. R&D Kosten konnte man sich für einen neuen Chip sparen. Der Chip wird(ok mit einem Shrink zwischendurch) nach 2 Jahren immer noch gefertigt.

Nvidia braucht wieder so nen kleinen der wenigstens ne 4850 frühstückt.

Und gescheite Notebookkarten. Sollte man mittlererweile nicht mehr unterschätzen, den Markt.

aylano

2009-10-02, 09:47:50

Was mich am Anfang beeindruckte, wie klein die Tesla-Karte ist/war.

Da dachten ich, die Grüchte um den niederen Stromverbrauch (<=GTX285) könnten stimmen.

Interessant, dass dieser jetzt bis zu 300Watt ziehen könnte, auch wenn die Karte ein Fake ist.

RV870 konnte im Vergleich zu RV790 mit 125% Mehr-Transistoren den Stromverbrauch halten.
Hauptsächlich, weil die Volt von 1,28 auf 1,15 stark viel.

GTX285 & 280 haben schon 1,18 Volt. Damit Femi mit 115% Mehr-Transistoren den Stromverbrauch halten können, müssten die höchstwahrscheinlich auch die Volt so stark senken und dann müsste ein Femi ca. 1,05 Volt haben.

Das hört sich verdammt wenig an, aber der RV740 hatte auch nur 1,03 Volt, aber nur 750 Mhz.
Ein Volt-Niveau, den CPUs eigentlich im Notebooks haben bzw. teils schon als LV oder gar ULV-CPUs.

Daran sieht man eigentlich gut, dass im High-End-/Performance-Markt Nvidia breite GPUs rausbringt, aber mit etwas niederen Takt & Volt um den Stromverbrauch im Maßen zu halten, und AMD Wirtschaftliche GPUs rausbringt, indem sie die die möglichts klein machen und dann Takt & Volt etwas erhöhen.

Die Frage ist jetzt, wie Nvidia den Takt & Volt jetzt dann tatsächlich hinbekommen. Vorallem, weil es bei GT200 & GT200b da auch nicht gut lief.
Eigentlich hätte schon paar Andeutungen über den Takt bei dieser GPU-Veranstaltung erwartet, aber es IMO eher das Gegenteil rausgekommen.
Da dürfte es noch ziemlich Probleme geben.

puntarenas

2009-10-02, 09:54:18

Die Karten sind vielleicht etwas schneller, aber die höheren Kosten gleichen das nicht aus.
Fragt sich halt, was die Alternative wäre? Die Luft wird dünner und Nvidia braucht eine Zukunft, günstige Spielegrafikkarten erscheinen auf Dauer wenig vielversrechend.

Sachen wie PhysX werden an Bedeutung verlieren, denn die Entwickler werden eher auf Effekte setzen die mit allen Karten laufe.

"Sachen wie PhysX" sicher nicht, aber PhysX als proprietäre Exklusivlösung hoffentlich möglichst schnell.

Das Weihnachtsgeschäft ist für sie praktisch schon gelaufen, denn der einzige der dafür liefern kann wird ATI sein.

Anzunehmen. Wenn das hier der Anfang der Neuausrichtung ist, spielt es jedoch keine große Rolle. Ich denke, das muss man längerfristig sehen und nicht in Quartalszahlen. Wenn das allerdings die Strategie ist, dann braucht Nvidia in erster Linie satte Wachstumszahlen im Parallel Computing (und was sich sonst noch an Chancen für Fermi und Co auftut) und muss dann vor allem das Momentum halten, dann sollten Verluste erstmal auch kein Problem sein.

Vor allem müssen sie wieder nen guten Performancechip bringen. G92(b) hat ihnen wohl teilweise den Arsch gerettet.
Hmm, verkehrte Welt. Das klingt so, als sei Nvidia seit Jahren abgeschlagen, dabei ist doch das Gegenteil der Fall. :uponder:
Mal sehen, wie günstig und konkurrenzfähig sich Fermi-Ableger einordnen werden.

Hübie

2009-10-02, 10:07:38

Was mich am Anfang beeindruckte, wie klein die Tesla-Karte ist/war.

Da dachten ich, die Grüchte um den niederen Stromverbrauch (<=GTX285) könnten stimmen.

Interessant, dass dieser jetzt bis zu 300Watt ziehen könnte, auch wenn die Karte ein Fake ist.

RV870 konnte im Vergleich zu RV790 mit 125% Mehr-Transistoren den Stromverbrauch halten.
Hauptsächlich, weil die Volt von 1,28 auf 1,15 stark viel.

GTX285 & 280 haben schon 1,18 Volt. Damit Femi mit 115% Mehr-Transistoren den Stromverbrauch halten können, müssten die höchstwahrscheinlich auch die Volt so stark senken und dann müsste ein Femi ca. 1,05 Volt haben.

Das hört sich verdammt wenig an, aber der RV740 hatte auch nur 1,03 Volt, aber nur 750 Mhz.
Ein Volt-Niveau, den CPUs eigentlich im Notebooks haben bzw. teils schon als LV oder gar ULV-CPUs.

Daran sieht man eigentlich gut, dass im High-End-/Performance-Markt Nvidia breite GPUs rausbringt, aber mit etwas niederen Takt & Volt um den Stromverbrauch im Maßen zu halten, und AMD Wirtschaftliche GPUs rausbringt, indem sie die die möglichts klein machen und dann Takt & Volt etwas erhöhen.

Die Frage ist jetzt, wie Nvidia den Takt & Volt jetzt dann tatsächlich hinbekommen. Vorallem, weil es bei GT200 & GT200b da auch nicht gut lief.
Eigentlich hätte schon paar Andeutungen über den Takt bei dieser GPU-Veranstaltung erwartet, aber es IMO eher das Gegenteil rausgekommen.
Da dürfte es noch ziemlich Probleme geben.

Irgendwie bekomm ich gerade ne kleine Krise. Von Elektronik hast du entweder nicht viel Ahnung oder scherst dich nicht um Begriffe.

Strom kann man nicht verbrauchen. Elektrische Energie schon.
Volt = Spannung. Volt ist eine Einheit und nicht geschlechtlich. Oder sagst du auch die Meter statt Länge (z.B. die Meter der Mauer sind 2)?

Naja aber wir verstehen ja worauf du hinaus möchtest. Das ein 3Mrd.Chip nur 1.0xV braucht erscheint mir doch sehr unwahrscheinlich. Selbst die Energiesparmodi benötigen gewisse Spannungen um zu funktionieren.

Gast

2009-10-02, 10:25:37

Hab noch nicht hier gesehen, deshalb dir Link - ohne Kommentar:
http://www.semiaccurate.com/2009/10/01/nvidia-fakes-fermi-boards-gtc/

Ailuros

2009-10-02, 10:28:32

Was mich am Anfang beeindruckte, wie klein die Tesla-Karte ist/war.

Da dachten ich, die Grüchte um den niederen Stromverbrauch (<=GTX285) könnten stimmen.

Interessant, dass dieser jetzt bis zu 300Watt ziehen könnte, auch wenn die Karte ein Fake ist.

Nein der TDP fuer eine theoretische 6GB Tesla GPU wird um die 250W ausfallen.

Daran sieht man eigentlich gut, dass im High-End-/Performance-Markt Nvidia breite GPUs rausbringt, aber mit etwas niederen Takt & Volt um den Stromverbrauch im Maßen zu halten, und AMD Wirtschaftliche GPUs rausbringt, indem sie die die möglichts klein machen und dann Takt & Volt etwas erhöhen.

Das ist mir zu vereinfacht, wenn man bedenkt dass fast ein Viertel der NV-chips seit 2006 auf >1.2GHz laufen. Wenn man Chipkomplexitaet mit Stromverbrauch vergleichen wuerde ist AMD's Verhaeltnis blamierend schlecht, aber daran ist auch ihre Tendenz die Transistoren so dicht zu verpacken wahrscheinlich schuld.

Auf jeden Fall sind solche Vergleiche wertlos.

Die Frage ist jetzt, wie Nvidia den Takt & Volt jetzt dann tatsächlich hinbekommen. Vorallem, weil es bei GT200 & GT200b da auch nicht gut lief.
Eigentlich hätte schon paar Andeutungen über den Takt bei dieser GPU-Veranstaltung erwartet, aber es IMO eher das Gegenteil rausgekommen.
Da dürfte es noch ziemlich Probleme geben.

Es war eine GPGPU zentrische Fermi Vorstellung; basta.

reunion

2009-10-02, 10:31:50

Hab noch nicht hier gesehen, deshalb dir Link - ohne Kommentar:
http://www.semiaccurate.com/2009/10/01/nvidia-fakes-fermi-boards-gtc/

Das lustige daran ist das:

Nvidia PR was asked to comment on the faked cards earlier this evening. Their reply was, "I'm glad you're asking us before you write. That statement is false. The product that we displayed was an actual Fermi board. The demo ran on Fermi silicon."

Wer so offensichtlich auffliegt und das dann auch noch abstreitet macht sich schon etwas lächerlich.

Ailuros

2009-10-02, 10:32:31

Hab noch nicht hier gesehen, deshalb dir Link - ohne Kommentar:
http://www.semiaccurate.com/2009/10/01/nvidia-fakes-fermi-boards-gtc/

Ist der Artikel innerhalb seines AMD Lohns oder hat er es ihnen als bonus geschenkt? Ich kann mir vorstellen dass sich der Kerl ins Fleisch schneidet wenn GF100 frueher ankommt und dazu auch noch schneller als Cypress ist. :freak:

Gast

2009-10-02, 10:37:21

Ist der Artikel innerhalb seines AMD Lohns oder hat er es ihnen als bonus geschenkt? Ich kann mir vorstellen dass sich der Kerl ins Fleisch schneidet wenn GF100 frueher ankommt und dazu auch noch schneller als Cypress ist. :freak:
Charlie hin oder her - die Photos gibts ja auch auf anderen Seiten, und mich ham sie überzeugt (besonders die Stromanschlüsse).

Fairy

2009-10-02, 10:39:15

Und die Schrauben. ;)

deekey777

2009-10-02, 10:39:30

Welcher Chip war als erstes in der Lage als GPGPU-Chip missbraucht zu werden und Dinge wie Folding@home auszuführen? R5xx. Erstes DP? RV670. Man kann sich immer alles so zurecht legen wie man es braucht. Und momentan ist RV870 alles was man bekommt, von Fermi hat man bis auf gefakte Karten und ein paar Folien noch nicht viel gesehen.
Du legst dir auch alles zurecht, wie du es gerade brauchst.
Der erste GPU-Client nutzte BrookGPU. BrookGPU kam 2004 zur Welt, als es noch "stinknormale" Grafikkarten gab. Der GPU-Client kam Anfang Oktober 2006 und er war von Anfang an IHV-unabhängig, da er DX9 als Backend nutzte. Dass er nicht auf 7800/7900 lief, lag daran, weil diese dafür ungeeignet waren. Aber was kam im November 2006? Genau der G80. Und dieser war unstreitig viel besser als der R580. Dass der GPU-Client nicht auf dem G80 lief, lag an mehreren Gründen: Das Zusammenspiel zwsichen Treiber und dem Client wollte nicht so recht klappen, und Nvidia wollte, dass sie auf CUDA setzen, was Stanford damals nicht wollte.
Also bitte...

Soundwave1983

2009-10-02, 10:39:35

wenn GF100 frueher ankommt und dazu auch noch schneller als Cypress ist.

Deutet etwas darauf hin? So...zwischen den Zeilen? :biggrin:

Ailuros

2009-10-02, 10:43:56

Deutet etwas darauf hin? So...zwischen den Zeilen? :biggrin:

Frueher als er es oder sein Arbeitgeber gern haette.

reunion

2009-10-02, 10:44:28

Du legst dir auch alles zurecht, wie du es gerade brauchst.
Der erste GPU-Client nutzte BrookGPU. BrookGPU kam 2004 zur Welt, als es noch "stinknormale" Grafikkarten gab. Der GPU-Client kam Anfang Oktober 2006 und er war von Anfang an IHV-unabhängig, da er DX9 als Backend nutzte. Dass er nicht auf 7800/7900 lief, lag daran, weil diese dafür ungeeignet waren. Aber was kam im November 2006? Genau der G80. Und dieser war unstreitig viel besser als der R580. Dass der GPU-Client nicht auf dem G80 lief, lag an mehreren Gründen: Das Zusammenspiel zwsichen Treiber und dem Client wollte nicht so recht klappen, und Nvidia wollte, dass sie auf CUDA setzen, was Stanford damals nicht wollte.
Also bitte...

Und was war jetzt daran falsch das R5xx der erste Chip war den man für soetwas brauchen konnte? Das G80 besser war habe ich nie bestritten, aber der kam auch deutlich später. G7x war da jedenfalls "ungeeignet", wie du selbst sagst. Also bitte....

Ailuros

2009-10-02, 10:46:42

Koennen wir die alberne Brook/2004, G80 und 69 Zwerge bitte zur Seite lassen? Selbst die Geschichte mit den Schrauben auf dem Tesla board klingt interessanter als das Zeug.

OBrian

2009-10-02, 11:00:44

Nehmen wir mal an, die Karte war tatsächlich gefakt, es deutet ja einiges darauf hin. Was bedeutet das dann genau?

Ich bin ja völlig unbedarft, aber meiner Meinung nach ist der Entwurf eines passenden PCBs weit weniger kompliziert als die Entwicklung des Chips, und es würde den Test der ersten Chips bedeutend vereinfachen, wenn man ihn auf die bereits fertige Platine setzen könnte. Es sollte auch problemlos möglich sein, die Platine zu fertigen, ohne lauffähige Chips zu haben.

OK, wenn der Kühler noch nicht 100%ig fertig ist, egal, aber für ein Dummy-Gebastel wäre es leichter und sinnvoller (und weniger auffällig) gewesen, wenn man die richtige Platine genommen hätte. Wenn sie also aus einer anderen Platine was zurechtsägen mußten, damit JHH was hochhalten kann, dann bedeutet das, es existiert kein fertiges Platinenlayout.

Kann also nur bedeuten, daß sie nicht der Meinung sind, in nächster Zeit eine Platine zu brauchen. Kann man daraus ableiten, daß sie auch noch keine lauffähigen Chips haben?

AnarchX

2009-10-02, 11:01:39

Interessant ist auch wie Fermi in die unteren Marktsegemente skalieren wird.

Bei AMD hat man ja die kleineren Chips um DP beschnitten, wohl um Transitoren zu sparen, zu GT21x gibt es hier leider keine Infos. Wohlmöglich ist dieser Schritt auch bei Fermi denkbar.

Mal eine Spekulation:

GF102: 10 Cluster - 320SPs - 80 TMUs - 32 ROPs - 256-Bit - Taktraten ~700/1800/2400MHz - 300-350mm² - vs Cypress

GF104: 5 Cluster - 160SPs - 40 TMUs - 16 ROPs - 128-Bit - Taktraten ~700/1800/2400MHz - 200mm² - vs Juniper

GF106: 2 Cluster - 64SPs - 16 TMUs - 16 ROPs - 128-Bit - Taktraten ~700/1800/2400MHz - 100mm² - vs Redwood

GF108: 2 Cluster - 32SPs - 16 TMUs - 8 ROPs - 64-Bit - Taktraten ~700/1800/2000MHz - 70mm² - vs Cedar

LovesuckZ

2009-10-02, 11:04:16

Kann also nur bedeuten, daß sie nicht der Meinung sind, in nächster Zeit eine Platine zu brauchen. Kann man daraus ableiten, daß sie auch noch keine lauffähigen Chips haben?

Nein. Die Demo lief auf Fermi.

Tarkin

2009-10-02, 11:07:42

Frueher als er es oder sein Arbeitgeber gern haette.

Tschuldige, aber die Berichterstattung über Fermi und die Aussagen von nVidia selbst legen nicht gerade nahe, dass wir die Dinger noch vor Ende 2009 in den Läden sehen.

Wen es wäre wäre, hätte man

1. gesagt JA, die kommen noch Ende 2009 (und nicht gesagt "a few short months" - etwas sehr schwammig!)
2. nicht einen offensichtlichen FAKE gezeigt um die Leute in die Irre zu führe.

Vielleicht überdenkst du mal deinen Standpunkt? Spätestens nachdem was da vorgestern gezeigt wurde sollte selbst dir klar sein, dass das heuer nicht mehr klappt. Selbst Q1 scheint da noch optimistisch IMO.

RLZ

2009-10-02, 11:09:07

Wer so offensichtlich auffliegt und das dann auch noch abstreitet macht sich schon etwas lächerlich.
Bitte genau das Statement lesen.
Die Demo lief auf nem funktionierendem Fermi Chip und die gezeigte Karte ist eine Fermikarte. Davon das die Karte funktionstüchtig ist steht da nichts.
Die Chips sind offensichtlich rar und eine der funktionierenden Karten zu verschwenden um sie auf der Bühne zu zeigen statt sie einem Entwickler in den Rechner zu stecken, wäre imo ziemlich lächerlich.
Für die Präsentation der Karte tuts ein Dummy genauso und für die Livedemo hatten sie ja eine Karte.

Ailuros

2009-10-02, 11:10:42

Nehmen wir mal an, die Karte war tatsächlich gefakt, es deutet ja einiges darauf hin. Was bedeutet das dann genau?

Ich bin ja völlig unbedarft, aber meiner Meinung nach ist der Entwurf eines passenden PCBs weit weniger kompliziert als die Entwicklung des Chips, und es würde den Test der ersten Chips bedeutend vereinfachen, wenn man ihn auf die bereits fertige Platine setzen könnte. Es sollte auch problemlos möglich sein, die Platine zu fertigen, ohne lauffähige Chips zu haben.

OK, wenn der Kühler noch nicht 100%ig fertig ist, egal, aber für ein Dummy-Gebastel wäre es leichter und sinnvoller (und weniger auffällig) gewesen, wenn man die richtige Platine genommen hätte. Wenn sie also aus einer anderen Platine was zurechtsägen mußten, damit JHH was hochhalten kann, dann bedeutet das, es existiert kein fertiges Platinenlayout.

Kann also nur bedeuten, daß sie nicht der Meinung sind, in nächster Zeit eine Platine zu brauchen. Kann man daraus ableiten, daß sie auch noch keine lauffähigen Chips haben?

Ich hab nicht die Hoffnung dass das Zeug bald begraben wird denn tolle Konspirationsthesen ueberhaupt wenn es zu NVIDIA kommt sind ja aeusserst populaer aber afaik kommen erstmal die desktop GPUs vor dem Profi-Zeug ergo Tesla und der DIE der gezeigt wurde (mit dem A1 + Datum + ichbincharlieichhabimmer recht) ist kein desktop chip.

Ich will jetzt nicht unbedingt jede Kleinigkeit erlaeutern weil eben dieser laecherliche Zirkus der vorgeht mehr als nur amuesant ist anzusehen. :P;D Einige Redakteure die dafuer bezahlt werden haben ja auch guten Grund; die fanboys die den Scheiss ohne wenigstens einen Blitzen Zweifel weiterblubbern sind das tollste an dem ganzen Flohzirkus.

AnarchX

2009-10-02, 11:12:45

Ich hab nicht die Hoffnung dass das Zeug bald begraben wird denn tolle Konspirationsthesen ueberhaupt wenn es zu NVIDIA kommt sind ja aeusserst populaer aber afaik kommen erstmal die desktop GPUs vor dem Profi-Zeug ergo Tesla und der DIE der gezeigt wurde (mit dem A1 + Datum + ichbincharlieichhabimmer recht) ist kein desktop chip.

GF100 - ~550mm² Tesla+Quadro
G300 - ~452mm² für GeForce
?

Ailuros

2009-10-02, 11:15:38

GF100 - ~550mm² Tesla+Quadro
G300 - ~452mm² für GeForce
?

http://forum.beyond3d.com/showpost.php?p=1343078&postcount=315

Willst Du Dir die 100 Quadratmillimeter Unterschied nochmal ueberdenken? :biggrin:

tombman

2009-10-02, 11:19:25

Also, ich glaube auch, daß Nvidia da was gefaked hat. Die benchmarks liefen entweder auf

a.) einem Okta-Sli GT200 System

oder

b.) "Fermi", aber auf ner Monsterplatine mit haufenweise Handarbeit und 10 Sklaven rundherum, die alles überwachen und beten ;D

Wie gesagt, bei mir hat Nvidia bis Hemlock Zeit was anzukündigen...

Godmode

2009-10-02, 11:20:04

Ich frage mich auch gerade, ob es nicht eine wahnsinnige Verschwendung an Die Fläche wäre, wenn der Fermi TMUs hätte? Andererseits könnte man somit viel Geld sparen, wenn man nur einen Chip entwickeln muss.

Ailuros

2009-10-02, 11:23:36

Ich frage mich auch gerade, ob es nicht eine wahnsinnige Verschwendung an Die Fläche wäre, wenn der Fermi TMUs hätte? Andererseits könnte man somit viel Geld sparen, wenn man nur einen Chip entwickeln muss.

Dann haettest Du miserablere Leistung als auf Larabee bei dem die TMUs die einzigen ff hw ist. Fermi hat insgesamt 128 TMUs, egal ob manche komischerweise auf 256 kommen.

Godmode

2009-10-02, 11:26:28

Dann haettest Du miserablere Leistung als auf Larabee bei dem die TMUs die einzigen ff hw ist. Fermi hat insgesamt 128 TMUs, egal ob manche komischerweise auf 256 kommen.

Stop, vielleicht hab ich mir unklar ausgedrückt. Ich meinte dass es vielleicht zwei Chips gibt: einen für TESLA = Fermi und einen für GEFORCE = Fermi + TMUs etc.

Ich wollte nur sagen das TMUs fürs Supercomputing IMO verschwendete DIE-Fläche sind.

edit:
Da gibts ein paar Bilder dich bis jetzt noch nicht kannte:
http://www.computerbase.de/news/hardware/grafikkarten/nvidia/2009/oktober/bilder_physx-techdemo_fermi-gpu/

Ailuros

2009-10-02, 11:32:07

Stop, vielleicht hab ich mir unklar ausgedrückt. Ich meinte dass es vielleicht zwei Chips gibt: einen für TESLA = Fermi und einen für GEFORCE = Fermi + TMUs etc.

Ich wollte nur sagen das TMUs fürs Supercomputing IMO verschwendete DIE-Fläche sind.

Und anders rum einige extra Transistoren fuer supercomputing im desktop Bereich. Zweischienig zu entwickeln fuer jeden Markt waere zwar schoen fuer uns Gamer aber es waere umstaendlicher und wuerde um einiges mehr kosten. Wenn ich mich nicht irre hat der desktop chip NVIO und der tesla chip das Zeug integriert.

deekey777

2009-10-02, 11:35:20

Koennen wir die alberne Brook/2004, G80 und 69 Zwerge bitte zur Seite lassen? Selbst die Geschichte mit den Schrauben auf dem Tesla board klingt interessanter als das Zeug.
Wo bleibt dann der Spaß?
Aber Recht hast du: Denn es ist genau wie bei dem Quake3-Cheat.

Darum zurück zur Gegenwart: Es wurde schonmal angesprochen, aber mich quält die Frage immernoch, was der Mist mit L1/Shared Memory soll. Von Shared Memory bekommt man nicht genug, oder? Aber wenn man sich für 32 KB geeinigt hat (DX11), warum sind es aufeinmal 48 KB möglich? Das ist doch ein Nachteil für den Fermi, wenn der Programmierer seine Kernel so schreibt, dass die Blöcke gerade für 32 KB passen.

puntarenas

2009-10-02, 11:35:55

Wenn ich mich nicht irre hat der desktop chip NVIO und der tesla chip das Zeug integriert.
Hat sich am NVIO eigentlich was getan, Stand der Technik ist ja nun AMDs Eyefinity mit seinen Möglichkeiten.

LovesuckZ

2009-10-02, 11:38:03

edit:
Da gibts ein paar Bilder dich bis jetzt noch nicht kannte:
http://www.computerbase.de/news/hardware/grafikkarten/nvidia/2009/oktober/bilder_physx-techdemo_fermi-gpu/

Schau dir die Keynote an - dort gibt es noch eine Smoke- eine Destruction-Demo. Sehen richtig nett aus und zeigen, wohin Effektphysik in Zukunft gehen kann.

Wenn ich mich nicht irre hat der desktop chip NVIO und der tesla chip das Zeug integriert.

Wie soll das gehen? Dafür müsste der Teslachip auf einen anderen Chip basieren...

Godmode

2009-10-02, 11:39:01

Und anders rum einige extra Transistoren fuer supercomputing im desktop Bereich. Zweischienig zu entwickeln fuer jeden Markt waere zwar schoen fuer uns Gamer aber es waere umstaendlicher und wuerde um einiges mehr kosten. Wenn ich mich nicht irre hat der desktop chip NVIO und der tesla chip das Zeug integriert.

Also gibt es doch zwei unterschiedliche Chips, mit eigenem Tapeout, etc. Könnte man sowas nicht nach dem Baukastenprinzip entwickeln? Bin leider kein Hardwareentwickler, darum die dumme Frage!

Schau dir die Keynote an - dort gibt es noch eine Smoke- eine Destruction-Demo. Sehen richtig nett aus und zeigen, wohin Effektphysik in Zukunft gehen kann.

meinst du das:
http://www.youtube.com/watch?v=iyg9HgiD8X0

Ailuros

2009-10-02, 11:41:54

Also gibt es doch zwei unterschiedliche Chips, mit eigenem Tapeout, etc.

Charlie behauptete es, ergo muss es doch stimmen oder? :biggrin: Spass beiseite so wie es aussieht ja. Ausser ihr glaubt ernsthaft dass NV zu A1 erst Anfang September kam.

reunion

2009-10-02, 11:42:32

Eine Tesla-Karte hat keinen Monitorausgang und damit auch keinen NVIO. Ein extra Tapeout inkl. Entwicklung eines separaten Chips für das Tesla-Segment wäre IMHO viel zu aufwändig bei den Stückzahlen. Die vielleicht max. 100mm² welche für die TMUs draufgehen kommen da sicherlich deutlich billiger.

igg

2009-10-02, 11:42:34

Also dich wieder zwei Chips? Vorgestern hat es sich so angehört als wäre es immer der gleiche.

AnarchX

2009-10-02, 11:43:00

Oder NV hat es bei Fermi diesmal mit A1 geschafft einen produktionsreifen Chip zu erreichen.:D

reunion

2009-10-02, 11:44:30

Oder NV hat es bei Fermi diesmal mit A1 geschafft einen produktionsreifen Chip zu erreichen.:D

Oder man ist doch noch nicht so weit wie man lange glaubte.

Godmode

2009-10-02, 11:54:46

Oder man ist doch noch nicht so weit wie man lange glaubte.

Auf jedenfall läuft noch keine Massenproduktion, sonst hätten die Chinesen schon was geleaked.

V2.0

2009-10-02, 11:56:27

Mal eine Spekulation:

GF102: 10 Cluster - 320SPs - 80 TMUs - 32 ROPs - 256-Bit - Taktraten ~700/1800/2400MHz - 300-350mm² - vs Cypress

Das wäre ein GT212 "Ersatz". Und da sie denn wohl beschleunigt haben sollte er 1Q/10 schaffen.

tombman

2009-10-02, 12:01:14

Fudo glaubt 2009 Launch für Fermi, Dienstag kommt die Ankündigung :eek:

http://www.fudzilla.com/content/view/15784/1/

Quelle angeblich ein Senior, der die Klappe nicht halten konnte...

Und schneller als HD5870 soll er auch sein:
Nvidia is confident that in gaming performance they will win versus ATI and since they’ve seen what 5870 is capable of, they are quite confident they'll have an upper hand.

G!ZMo

2009-10-02, 12:08:17

meinst du das:
http://www.youtube.com/watch?v=iyg9HgiD8X0
Das läuft aber IMHO nicht alles auf der GPU, bspw. sind da ja auch ein paar Szenen aus Star Trek dabei (Zerstörung von Vulkan, Enterprise steigt aus dem Planetenring hoch).

Gast

2009-10-02, 12:21:11

Fudo glaubt 2009 Launch für Fermi, Dienstag kommt die Ankündigung :eek:

http://www.fudzilla.com/content/view/15784/1/

Quelle angeblich ein Senior, der die Klappe nicht halten konnte...

Und schneller als HD5870 soll er auch sein:

mhm, confident heisst nicht, dass sie sicher sind.
50% schneller als 5870 hätte man wohl anders formuliert.
Sieht eher nach 15% wie bei 4890-285GTX aus...

igg

2009-10-02, 12:21:30

Quelle angeblich ein Senior, der die Klappe nicht halten konnte...

Und schneller als HD5870 soll er auch sein:
Ist nur die Frage, wieviel schneller. 20 %? Und dann kommt ATI im März mit gesteigerten Karten.

Ich frage mich allerdings, ob NV zukünftig mi gaming-Bereich brachliegende GPGPU Funktionen nutzen kann, um die Leistung der Karten mit optimierten Treibern nachträglich mehr zu steigern.

Ailuros

2009-10-02, 12:21:33

Eine Tesla-Karte hat keinen Monitorausgang und damit auch keinen NVIO. Ein extra Tapeout inkl. Entwicklung eines separaten Chips für das Tesla-Segment wäre IMHO viel zu aufwändig bei den Stückzahlen. Die vielleicht max. 100mm² welche für die TMUs draufgehen kommen da sicherlich deutlich billiger.

http://www.semiaccurate.com/2009/08/13/gt300-have-nvio-chip/

G!ZMo

2009-10-02, 12:22:53

Ich frage mich allerdings, ob NV zukünftig mi gaming-Bereich brachliegende GPGPU Funktionen nutzen kann, um die Leistung der Karten mit optimierten Treibern nachträglich mehr zu steigern.
Vielleicht werden die "brachliegenden" GPGPU-Funktionen dann für PhysX genutzt?

Spasstiger

2009-10-02, 12:24:03

mhm, confident heisst nicht, dass sie sicher sind.
50% schneller als 5870 hätte man wohl anders formuliert.
Sieht eher nach 15% wie bei 4890-285GTX aus...
15% sind auch meine Einschätzung seit die Details zu Fermi bekannt geworden sind. Davor habe ich auf 40% getippt, aber das wird wohl nicht zu halten sein mit nur ~1,7 Teraflops Peak-Rechenleistung.

/EDIT: Ich entschuldige mich für meine saloppe Ausdrucksweise. Meine Schätzung basiert leider nicht - wie durch LovesuckZ angedeutet - alleine auf der Shaderleistung, sondern auch auf anderen Leistungsdaten wie der Speicherbandbreite, der Texelfüllrate und der Pixelfüllrate. Ich schreibe in Zukunft lieber wieder 50 Sätze statt 2 Sätze, um allen Missverständnissen vorzubeugen. Wenn ihr dann meine Postings nicht mehr lest, geschieht mir das recht.

Wer Ironie findet, darf sie behalten.

LovesuckZ

2009-10-02, 12:25:31

15% sind auch meine Einschätzung seit die Details zu Fermi bekannt geworden sind. Davor habe ich auf 40% getippt, aber das wird wohl nicht zu halten sein mit nur ~1,7 Teraflops Peak-Rechenleistung.

5870 hat 2,7 mal so viel Rechenleistung als eine GT285. Wie groß ist nochmal der Vorsprung?

Spasstiger

2009-10-02, 12:34:39

5870 hat 2,7 mal so viel Rechenleistung als eine GT285. Wie groß ist nochmal der Vorsprung?
Jetzt fang bitte nicht mit Äpfel vs. Birnen an. Ich bin der Letzte, der hier einen Flamewar anzetteln möchte. Meine Schätzung basiert auf einem Vergleich GTX 285 vs. GTX 380 und dem Kenntnis der Benchmarks HD 5870 vs. GTX 285.
Hier eine von mir "speziell für dich" erstellte Tabelle mit den technischen Daten:

http://www.abload.de/img/gpu_vergleich_lovesuck26v9.png

reunion

2009-10-02, 12:34:58

5870 hat 2,7 mal so viel Rechenleistung als eine GT285. Wie groß ist nochmal der Vorsprung?

Groß wenn man wirklich nur die Shaderleistung misst. In Spielen scheint das aber (noch?) nicht/kaum durchzuschlagen.

tombman

2009-10-02, 12:35:57

Jo, für games sagen die Tflops anscheinend kaum was aus, sonst müßte eine HD5870 eine GTX285 massiv überflügeln, was ja real nicht der Fall ist...

Ich glaube nicht, daß Fermi viel schneller als eine HD5870 sen wird, schneller aber schon- und das reicht für meine Zwecke ;)

Ailuros

2009-10-02, 12:47:48

Jetzt fang bitte nicht mit Äpfel vs. Birnen an. Ich bin der Letzte, der hier einen Flamewar anzetteln möchte. Meine Schätzung basiert auf einem Vergleich GTX 285 vs. GTX 380 und dem Kenntnis der Benchmarks HD 5870 vs. GTX 285.
Hier eine von mir "speziell für dich" erstellte Tabelle mit den technischen Daten:

Mein Problem mit dem Ding ist es keine Differenzierung zwischen MADD+MUL und FMA zwischen den beiden gibt.

Entweder erwaehnst Du nur moegliche MADD vs. FMA Werte oder Du legst eine Notiz ein dass GT200 MADD+MUL ist. Schau Dir Deine Beschreibung links genau an. Es steht zwar MADD/FMA drin, aber von MUL steht da nichts.

Ja natuerlich war es marketing das den MUL seit 2006 mitrechnete aber so wie Deine Tabelle dasteht nix da mit 1080 GFLOPs fuer GT200, sondern 707 GFLOPs denn ueber genau so viele MADDs ist das Ding auch faehig.

LovesuckZ

2009-10-02, 12:48:00

Jetzt fang bitte nicht mit Äpfel vs. Birnen an. Ich bin der Letzte, der hier einen Flamewar anzetteln möchte. Meine Schätzung basiert auf einem Vergleich GTX 285 vs. GTX 380 und dem Kenntnis der Benchmarks HD 5870 vs. GTX 285.
Hier eine von mir "speziell für dich" erstellte Tabelle mit den technischen Daten:

http://www.abload.de/img/gpu_vergleich_lovesuck26v9.png

Und was soll mir deine Tabelle sagen? Was limitiert denn bei der GTX285? Weißt du, deine theoretischen Spielchen sind nett, sie lassen sich nicht auf die wirkliche Welt komplett übertragen.
Nehmen wir doch einfach die theoretische Shaderleistung. Du rechnest hier zusätzlich mit einer MUL, die zwar PR mäßig 33% mehr Rechenleistung zur Verfügung stellt, aber in vielen Fällen nicht genutzt werden kann.
Von der reinen MADD Leistung hat Fermi ohne Taktsteigerung schonmal 2,13 mal soviel.
nVIdia betont, dass man mit der Auslastung vor Fermi nicht wirklich zufrieden war und hat hier nochmal nachgeholfen.
Und wenn nicht die Rechenleistung limitieren sollte, dann hat man von der Einheitenzahl 60% mehr TMUs und 50% mehr ROPs zur GTX und zum Cypress. Selbst mit reduzierter Taktung auf 700MHz hätte man 31% Texturleistung und 23% mehr Pixelleistung im Vergleich zur 5870.

AnarchX

2009-10-02, 12:51:41

Eine einfach Schätzung wäre - Fermi (~650/1600/1200MHz) vs GTX 285:
+ 60% Tex-Fill
+ 50% C/Z-Fill
+ 50% Bandbreite
+ 110% MADD FLOPs

Entsprechend dürfte sich Fermi wohl locker 50% über einer GTX 285 bewegen mit einer steigenden Tendenz in ALU-lastigen Szenarien.
Mal sehen ob nun endlich etwas mit dem 8xMSAA passiert ist oder ob das NV noch weitere Jahre begleiten wird.

Spasstiger

2009-10-02, 12:52:01

Mein Problem mit dem Ding ist es keine Differenzierung zwischen MADD+MUL und FMA zwischen den beiden gibt.

Entweder erwaehnst Du nur moegliche MADD vs. FMA Werte oder Du legst eine Notiz ein dass GT200 MADD+MUL ist. Schau Dir Deine Beschreibung links genau an. Es steht zwar MADD/FMA drin, aber von MUL steht da nichts.

Ja natuerlich war es marketing das den MUL seit 2006 mitrechnete aber so wie Deine Tabelle dasteht nix da mit 1080 GFLOPs fuer GT200, sondern 707 GFLOPs denn ueber genau so viele MADDs ist das Ding auch faehig.
Da man das MUL anscheinend in 90% der Fälle nutzen kann, hab ich es dazugerechnet. Unter MADD verstehe ich übrigens multiply und add, also auch multiply (MUL). Machen ja auch die Reviewer so, deshalb sehe ich nichts Verwerfliches daran. Keine Ahnung, waurm ihr jetzt auf mich deshalb eindrescht.

@LovesuckZ: Laut den Gurus hier ist die Auslastung beim GT200 sehr gut, über 80% der theoretischen Rechenleistung kann anscheinend umgesetzt werden.

Entsprechend dürfte sich Fermi wohl locker 50% über einer GTX 285 bewegen mit einer steigenden Tendenz in ALU-lastigen Szenarien.
Aber eben nicht 40-50% über einer HD 5870.

Ich wiederhole mich nochmal gerne: Meine Einschätzung auf Basis aller bekannten technischen Daten ist, dass die GTX 380 im Schnitt um ~15% schneller wird als die HD 5870. Vielleicht sinds auch nur 10%, vielleicht auch 20%, so genau will ich mich nicht festlegen.

AnarchX

2009-10-02, 12:56:32

Oder NV hat es geschafft, dass Fermi seine Rechenleistung/Füllrate so effektiv einsetzt wie ein G96 bzw. G94. ;)

derguru

2009-10-02, 12:59:28

zwischen 0-20% schneller als eine 5870 würde ich tippen,der Preis von ca.399$ bestätigt es doch sogar ein bissel.

xiao didi *

2009-10-02, 13:04:07

der Preis von ca.399$ bestätigt es doch sogar ein bissel.
Der Preis ist von Fud geraten.

Ailuros

2009-10-02, 13:08:40

Da man das MUL anscheinend in 90% der Fälle nutzen kann, hab ich es dazugerechnet.

Es wird nichts davon in der Tabelle klargemacht. Wo ist die Seitennotiz dass GT200 MADD+MUL ist?

Unter MADD verstehe ich übrigens multiply und add, also auch multiply (MUL).

MADD+MUL fuer GT200. Du rechnest mit 3 FLOPs und nicht mit 2.

Machen ja auch die Reviewer so, deshalb sehe ich nichts Verwerfliches daran. Keine Ahnung, waurm ihr jetzt auf mich deshalb eindrescht.

Weil ich hoehere Ansprueche von jemand wie Du habe und ja es ist ernst gemeint.

Ich wiederhole mich nochmal gerne: Meine Einschätzung auf Basis aller bekannten technischen Daten ist, dass die GTX 380 im Schnitt um ~15% schneller wird als die HD 5870. Vielleicht sinds auch nur 10%, vielleicht auch 20%, so genau will ich mich nicht festlegen.

:rolleyes:

Spasstiger

2009-10-02, 13:12:20

Wenn meine persönliche Meinung nicht akkzeptabel ist, halte ich mich halt aus dem Thread raus.

/EDIT: Als Abschiedsgeschenk:

http://www.abload.de/img/gpu_vergleichn6d2.png

derguru

2009-10-02, 13:14:42

Der Preis ist von Fud geraten.
aber realistsch geraten,wenn es nach dem alten preisschema gehen würde also 599euro,was soll dann die dual kosten,etwa 999euro?:wink:
füllrate im 5870 bereich also wird sie auch nicht davon rennen wie schmitzkatz.

Ailuros

2009-10-02, 13:15:58

Eine einfach Schätzung wäre - Fermi (~650/1600/1200MHz) vs GTX 285:
+ 60% Tex-Fill
+ 50% C/Z-Fill
+ 50% Bandbreite
+ 110% MADD FLOPs

Entsprechend dürfte sich Fermi wohl locker 50% über einer GTX 285 bewegen mit einer steigenden Tendenz in ALU-lastigen Szenarien.
Mal sehen ob nun endlich etwas mit dem 8xMSAA passiert ist oder ob das NV noch weitere Jahre begleiten wird.

1. C/Z Raten per ROP sind lediglich Spekulation bis jetzt. Ich hab keine Ahnung.
2. Leute wie Rys oder Degustator spielen immer noch mit der Moeglichkeit von 256 TMUs; ich glaube es erst wenn ich es sehe.
3. Bandbreite weiss jemand schon die Frequenz des Speichers? =/>1200MHz und selbst dann ist es nicht die gesamte Geschichte mit den Aenderungen was die Speicherverwaltung betrifft. Da kannst Du gerne bei 1200MHz nochmal 20% hoehere Effizienz mitberechnen.

Uebrigens die 650MHz These ist direkt mit der 256 TMU These verbunden, denn bei so obszoener Fuellrate braucht man wohl den core nicht so stark ueberfoerdern. 700MHz duerfte erreichbar sein obwohl NV wohl liebend gerne auf 800MHz steigen wuerde, was mir aber erstmal sagt dass die 256 TMU These fuer die Muelltonne ist.

Na ja wir werden sehen.

pest

2009-10-02, 13:16:39

nich eingeschnappt sein Spasstiger

Ailuros

2009-10-02, 13:20:21

Wenn meine persönliche Meinung nicht akkzeptabel ist, halte ich mich halt aus dem Thread raus.

/EDIT: Als Abschiedsgeschenk:

http://www.abload.de/img/gpu_vergleichn6d2.png

Deine Meinung ist durchaus gewuenscht zumindest von mir. So und wieviele "Stunden" dauerte dieser mickrige edit fuer die Tabelle? ;D

PHuV

2009-10-02, 13:21:49

und das reicht für meine Zwecke ;)

Jaaa, wissen wir doch schon längst. :mad: Es nervt langsam!

5870 hat 2,7 mal so viel Rechenleistung als eine GT285. Wie groß ist nochmal der Vorsprung?

So sehe ich das auch, Theorie und Praxis. Für die Rechenleistung der 5870 ist der tatsächliche Output etwas schwach, mal abwarten, was die diversen Treiberoptimierungen noch bringen. Jedoch glaube ich, daß alleine die Rohleistung von Fermi schon einiges an Leistung herausholt, ich schätze mindestens 30% Steigerung zu einer GTX 285

Godmode

2009-10-02, 13:27:34

1. C/Z Raten per ROP sind lediglich Spekulation bis jetzt. Ich hab keine Ahnung.
2. Leute wie Rys oder Degustator spielen immer noch mit der Moeglichkeit von 256 TMUs; ich glaube es erst wenn ich es sehe.
3. Bandbreite weiss jemand schon die Frequenz des Speichers? =/>1200MHz und selbst dann ist es nicht die gesamte Geschichte mit den Aenderungen was die Speicherverwaltung betrifft. Da kannst Du gerne bei 1200MHz nochmal 20% hoehere Effizienz mitberechnen.

Uebrigens die 650MHz These ist direkt mit der 256 TMU These verbunden, denn bei so obszoener Fuellrate braucht man wohl den core nicht so stark ueberfoerdern. 700MHz duerfte erreichbar sein obwohl NV wohl liebend gerne auf 800MHz steigen wuerde, was mir aber erstmal sagt dass die 256 TMU These fuer die Muelltonne ist.

Na ja wir werden sehen.

Wie will man bitte 256 TMUs mit dem mickrigen Memoryinterface versorgen?

Ailuros

2009-10-02, 13:32:17

Wie will man bitte 256 TMUs mit dem mickrigen Memoryinterface versorgen?

Das frage ich mich auch. Fall es stimmen sollte will ich zumindest 32xAF umsonst haben (nicht dass es mir Sinn macht) bei solch einer Bandbreitenlimitierung.

Godmode

2009-10-02, 13:45:18

Das frage ich mich auch. Fall es stimmen sollte will ich zumindest 32xAF umsonst haben (nicht dass es mir Sinn macht) bei solch einer Bandbreitenlimitierung.

Vielleicht haben sie dafür nur 128 TAUs verbaut, wie wirs schonmal bei GTS 512 gesehen haben.

Hugo

2009-10-02, 14:04:41

wenn es 2 getrennte Chips für Gaming und GPGPU sind könnte der Gamerchip doch auch nen 512Bit Speicherinterdace haben um die spekulierten 256TMU's mit Daten zu versorgen oder?

boxleitnerb

2009-10-02, 14:07:08

Das wäre sehr geil aber die Wahrscheinlichkeit für eine so teure Lösung geht wohl gegen Null.

Gast

2009-10-02, 14:15:20

Bitte genau das Statement lesen.
Die Demo lief auf nem funktionierendem Fermi Chip und die gezeigte Karte ist eine Fermikarte. Davon das die Karte funktionstüchtig ist steht da nichts.
Die Chips sind offensichtlich rar und eine der funktionierenden Karten zu verschwenden um sie auf der Bühne zu zeigen statt sie einem Entwickler in den Rechner zu stecken, wäre imo ziemlich lächerlich.
Für die Präsentation der Karte tuts ein Dummy genauso und für die Livedemo hatten sie ja eine Karte.

Zumindest das Raytray-Tech-Demo könnte auch auf einen GT200 gelaufen sein.

"Update: 02.10.2009
Heute können wir Ihnen die erwähnte Raytracing-Demo des Bugatti Veyron auch als Video präsentieren. Nach unseren Informationen lief die Demo allerdings nicht auf Nvidia Fermi, sondern auf GT200-basierenden Grafikkarten."

http://www.pcgameshardware.de/aid,696381/Geforce-G300-Fermi-Bilder-der-Raytracing-und-Physik-Demos-Update-Raytracing-Video/Grafikkarte/News/

LovesuckZ

2009-10-02, 14:16:28

Lief sie auch nicht. Auch die PhysX Demos wurden auf GT200 Karten präsentiert.

Ailuros

2009-10-02, 14:23:00

Vielleicht haben sie dafür nur 128 TAUs verbaut, wie wirs schonmal bei GTS 512 gesehen haben.

G80 hat 32TA/64TF; G92 hat 64/64.

Ich glaube Rys hat sich fuer die logischere These ueberreden lassen (gerade erst gesehen):

http://www.beyond3d.com/images/reviews/gf100-arch/gf100-big.png

http://forum.beyond3d.com/showthread.php?t=55289

Henroldus

2009-10-02, 14:36:29

4 Clockdomainen?
bisher waren doch immer base/shader/memory :confused:

AnarchX

2009-10-02, 14:38:49

Nein, Sheduler gibt es seit G80. Dieser ist der halbe Shadertakt, weswegen wohl auch Shader:Base nicht unter 2:1 liegen darf.

KonKorT

2009-10-02, 14:49:14

Um das Rätselraten mit den TMUs zu klären: GF100 verfügt über 256 Interpolatoren. Zum Texturieren sind jedoch zwei Interpolatoren notwendig, deswegen kann man effektiv von 128 TMUs sprechen.

Nvidia GF100: 128 TMUs und 48 ROPs

http://www.hardware-infos.com/news.php?news=3228

pest

2009-10-02, 14:54:41

wieviele rechtschreibfehler man auf so ne kleine seite packen kann ;)

Ailuros

2009-10-02, 15:05:37

Um das Rätselraten mit den TMUs zu klären: GF100 verfügt über 256 Interpolatoren. Zum Texturieren sind jedoch zwei Interpolatoren notwendig, deswegen kann man effektiv von 128 TMUs sprechen.

Nvidia GF100: 128 TMUs und 48 ROPs

http://www.hardware-infos.com/news.php?news=3228

Haarspalterei - Meckermodus:

Die Tabelle gibt den bloeden Eindruck dass GF100 512 SP und 256 DP Einheiten hat.

***edit: uebrigens wundere ich mich auch ob 1Tri/clock setup in Rys' Diagram eine weitere Schaetzung ist.

Coda

2009-10-02, 15:26:32

Welcher Chip war als erstes in der Lage als GPGPU-Chip missbraucht zu werden und Dinge wie Folding@home auszuführen? R5xx.
Das stimmt so nicht. Jede SM3-GPU konnte genauso angesprochen werden. R5xx macht dort nichts anderes als Pixelshader ausführen. Für GPGPU wurden damals genau null Transistoren verbaut.

Erstes DP? RV670.
Nur MADD, wie bis heute. Das lasse ich so halbwegs gelten, brauchbar war es trotzdem nicht - hautpsächlich auch wegen der Software. Fermi scheint die erste Architektur zu sein die Brauchbarkeit und Leistung dort verreint ;)

Ich bleibe dabei: Sämtliche GPGPU Innovationen in den letzten Jahren - sowohl Hardware wie auch Software - kamen von NVIDIA.

Jetzt fang bitte nicht mit Äpfel vs. Birnen an. Ich bin der Letzte, der hier einen Flamewar anzetteln möchte. Meine Schätzung basiert auf einem Vergleich GTX 285 vs. GTX 380 und dem Kenntnis der Benchmarks HD 5870 vs. GTX 285.
Ich sag's wie so oft nochmal: Deine Schätzungen bringen nichts, weil du die Archtitektur nicht kennst.

Blanke Zahlen sagen überhaupt nichts aus. Schau dir doch allein G70 ggü. G80 an. Soviel wie bei Fermi wurde seit G80/R600 an keiner Architektur mehr geändert.

G80 hat 32TA/64TF; G92 hat 64/64.

Ich glaube Rys hat sich fuer die logischere These ueberreden lassen (gerade erst gesehen):
Es sind 256 Load/Store-Units und wohl 128 TA. Man braucht jeweils zwei Load-Store-Units für ein bilineares Sample weil jede nur einen skalaren Interpolator hat. Der Vorteil ist, dass man eben statt den zwei "halben" Samples auch einfach zwei Datensätze laden kann.

Dural

2009-10-02, 15:37:34

aber realistsch geraten,wenn es nach dem alten preisschema gehen würde also 599euro,was soll dann die dual kosten,etwa 999euro?:wink:

Der Preis der Gamer-Grafikkarten richtet sich IMMER nach der Leistung! Die Leistung des GF100 wird über den Preis entscheiden, war doch schon immer so! 8800GTX/ULTRA waren nur so teuer weil es nichts vergleichbares gab, GT200 Karten sind nur so billig weil ATI mit dem RV770 schneller war als gedacht und und und...

4850 - GTS 250
4870 - GTX 260
4890 - GTX 275
xxxx - GTX 285
4870X2 - xxxx
xxxx - GTX 295

GF100 Karten werden angepasste preise in bezug auf die Leistung zu den Radeon 5xxx Karten haben, ganz einfach.

V2.0

2009-10-02, 15:49:48

Gedulded euch doch noch ein Weilchen. Man kann soviel spekulieren, aber was am Ende raus kommt sieht man daran nicht.

igg

2009-10-02, 16:00:35

Nvidia übt einen in Geduld. Überall liest man von Q1, Ail sagt früher als AMD will, Fud sagt kommenden Dienstag...

Soundwave1983

2009-10-02, 16:14:41

Die Frage ist wohl, ob Fermi aka GT300 auch in den neuen Geforces zum Einsatz kommt, oder ob es dafür einen G300 gibt.

Ailuros? :biggrin:

Gipsel

2009-10-02, 16:27:27

Mal noch eine andere Spekulation. Im Vergleich von Fermi zu GT200 hat jetzt jeder SM 32 statt nur 8 ALUs, also eine Vervierfachung. Die Anzahl der Register hat sich aber angeblich nur verdoppelt. D.h. jeder ALU steht nur noch die Hälfte der Register zu Verfügung, die GT200 hatte. Dies hat direkte Auswirkungen auf die Anzahl der gleichzeitig auf einem SM laufenden Warps, da sich alle Warps die zur Verfügung stehenden Register teilen müssen.

Es gibt verschiedene mögliche Schlußfolgerungen. Zum einen könnte nvidia die Ausführungslatenzen der Befehle verringert haben, so daß weniger Warps nötig sind, um sie zu verstecken. Dies würde allerdings eventuell den erreichbaren Takt einschränken und hilft nicht bei den Speicherlatenzen, es sei denn, nvidia wettet hier auf die Caches. Oder nvidia nutzt den L1/SM, um das Überlaufen der Register zu Handhaben, sprich, die in den L1/L2 auszulagern. Oder aber bei den bisher veröffentlichten Zahlen fehlt der Faktor 2. :rolleyes:

absolute Registergrößen im Vergleich:

GT200
30 * 8 * 2048 * 32 bit = 1,875 MiB (SMs * Einheiten * Register * Breite eines Eintrags)

Fermi
16 * 32 * 1024 * 32 Bit = 2,0 MiB (SMs * Einheiten * Register * Breite eines Eintrags)

RV870
20 * 16 * 1024 * 128 Bit = 5,0 MiB (SIMDs * Einheiten * Register * Breite eines Eintrags)

Ein kleine Anmerkung noch zu den Registern. Bei Realworldtech z.B. liest man von einem 128kB Registerfile eines SMs bei Fermi, ebenfalls ist von utopischen Portanzahlen die Rede. Aber so ist das nicht implementiert. Jede Einheit hat ihr eigenes Registerfile, ein SIMD bei ATI hat z.B. 16 getrennte Registerfiles. Dies ist anders als bei den Vektorerweiterungen von CPUs (oder wohl Larrabee). Dadurch kommt man mit einer kleinen Anzahl von Ports aus. Für eine SP-ALU reichen 3 Read-Ports und ein Write-Port (w = r1 * r2 + r3) . Der Datenaustausch zwischen einzeln Threads (und damit Registerfiles) findet sowieso über shared memory statt und nicht über die Register (bei ATI geht das allerdings zwischen den Threads, die auf einer VLIW-Einheit laufen).
Das nur als Vorbemerkung zu einer Anmerkung für die Implikationen für DP.

Bei Fermi werden jeweils zwei "Cuda Cores" (ALUs) zur Ausführung von DP-Instruktionen gekoppelt. Damit das funktioniert, müssen im Prinzip beide ALUs auf die Register der jeweils anderen ALU zugreifen können. Effektiv müssen also die Werte aus einem der zu den beiden ALUs gehörenden Registerfiles (je nachdem aus welchem Warp die DP-Anweisung kommt) an beide verteilt werden. Dies heißt dann aber für DP, daß nun sechs 32bit Werte gelesen und zwei geschrieben werden müssen. Es wäre überraschend, wenn nv einfach die Ports verdoppelt hat (das ist recht teuer). Da gibt es mehrere Mölichkeiten, daß zu umgehen. Am wahrscheinlichsten ist wohl folgende.

Die Portanzahl wurde gar nicht oder nur moderat erhöht. Nicht alle Anweisungen erfordern die volle Portanzahl (MUL, ADD). Wenn man das Lesen der Register über mehrere Takte verteilt, kann man das ausnutzen, indem die später benötigten Wert schon vorher in Phasen geringerer Registeraktivität gelesen werden. David Kanter von Realworltech hat explizit den "Operand Collector" diskutiert, allerdings nur im Zusammenhang mit den SFUs und meiner Meinung nach irreführenden Portanzahlen. Wahrscheinlich erledigt der genau das. Nachteil der Lösung ist, daß man nicht dauerhaft einen höheren Durchsatz erreichen kann, als die Bandbreite zu den Registerfiles zuläßt. Dies wäre eine Möglichkeit dafür, daß z.B. die DP-Matrix-Multiplikation (nur FMAs) deutlich unter dem Faktor 8 bleibt (nur ~4.2 laut nvidia).
Falls das wirklich an dem ist, verstehe ich noch weniger, warum nv nicht zu einem zweifach superskalaren Design (2*SP oder 1*DP) übergegangen ist, d.h. ein SM hätte einfach aus 16 zweifach superskalaren (VLIW könnte man das wohl nicht nennen) Kernen bestanden. Für SP hätte man vielleicht eine minimal niedrigere Auslastung (obwohl die bei ATI im Schnitt bei 3,5/5 liegt, mit zweien sollte man alo keine Probleme haben), dafür aber den zweiten Scheduler pro SM gespart (und dann wohl 18 bis 20 statt 16 SMs auf gleicher Fläche verbauen können um das locker wieder reinzuholen). Und im DP-Betrieb hätte man die Register-Bandbreiten-Problem nicht, da man für die x und y ALU in einem "CUDA Core" getrennte Registerfiles benutzen kann (siehe ATI).

Und bevor einer fragt, die Registerfiles bei ATI für jeweils 5 Einheiten (optimal wäre 15 Readports und 5 Writeports) sparen auch ein wenig an der Stelle. Man hat (in einem ziemlich kompliziertem Schema, was aber der Compiler für einen handhabt) maximal 12 Readports und 4 Writeports (eigentlich gibt es 4 getrennte Registerfiles mit jeweils genau 3 Read- und einem Writeport, in einem SIMD sind bei ATI also physisch 64 einzelne Registerfiles mit jeweils 1024 32bit-Einträgen). Die ATI-Lösung dafür sieht so aus, daß direkt in der Pipeline noch 5 Register existieren, auf die zusätzlich zugegriffen werden kann. In diesen werden automatisch jeweils die Ergebnisse der 5 einzelnen ALUs festgehalten. Wenn also auch voneinander abhängige Befehlen vorkommen (das ist ja der Regelfall), stößt man da nicht an.

Gipsel

2009-10-02, 16:32:19

Nur MADD, wie bis heute.
RV870 kann SP und DP nach IEEE-754r-2008 (inklusive FMA, schnelle denorms, Rundungsmodi für beides). Und es gibt schon Leute, die den im Handel gekauft haben.

Gast

2009-10-02, 16:38:51

Ich tippe einfach mal die Karten kommen noch dieses Jahr. Nvidia kann sich das Weihnachtsgeschäft nicht durch die Lappen gehen lassen. Ausserdem muss gehandelt werden bevor sich flächendeckend mit DX11 Karten von ATI eingedeckt wird. Eine Spekulation meinerseits;)

Riplex

2009-10-02, 17:14:58

Also in meinen Augen lässt sich Nvidia im Moment viele Käufer durch die Lappen gehen.
Die sollen endlich mal mit Game Benchmarks rausrücken. Im November bekomme ich Weihnachtsgeld und wenn es bis dahin keine Benchmarks gibt, wandert mein Geld dieses Jahr zu AMD.

reunion

2009-10-02, 17:23:34

RV870 kann SP und DP nach IEEE-754r-2008 (inklusive FMA, schnelle denorms, Rundungsmodi für beides). Und es gibt schon Leute, die den im Handel gekauft haben.

Coda behauptet halt einfach irgend was, wie üblich. In der Regel kann ihm ohnehin niemand widersprechen.

Leonidas

2009-10-02, 17:50:12

Interessant ist auch wie Fermi in die unteren Marktsegemente skalieren wird.

Bei AMD hat man ja die kleineren Chips um DP beschnitten, wohl um Transitoren zu sparen, zu GT21x gibt es hier leider keine Infos. Wohlmöglich ist dieser Schritt auch bei Fermi denkbar.

Mal eine Spekulation:

GF102: 10 Cluster - 51SPs - 80 TMUs - 32 ROPs - 256-Bit - Taktraten ~700/1800/2400MHz - 300-350mm² - vs Cypress

GF104: 5 Cluster - 160SPs - 40 TMUs - 16 ROPs - 128-Bit - Taktraten ~700/1800/2400MHz - 200mm² - vs Juniper

GF106: 2 Cluster - 64SPs - 16 TMUs - 16 ROPs - 128-Bit - Taktraten ~700/1800/2400MHz - 100mm² - vs Redwood

GF108: 2 Cluster - 32SPs - 16 TMUs - 8 ROPs - 64-Bit - Taktraten ~700/1800/2000MHz - 70mm² - vs Cedar

Das wären inkl. GF100 fünf Chips pro Generation - IMO zu viel. nVidia wird mit vier auskommen wollen und muß daher Kompromisse eingehen:

GF100: 16 Cluster - 512SPs - 128 TMUs - 48 ROPs - 384-Bit - Taktraten ~700/1800/2400MHz - 470mm² - vs Cypress

GF102: 8 Cluster - 256SPs - 64 TMUs - 32 ROPs - 256-Bit - Taktraten ~800/2000/2000MHz - 260mm² - vs Juniper

GF104: 4 Cluster - 128SPs - 32 TMUs - 16 ROPs - 128-Bit - Taktraten ~800/2000/2000MHz - 130mm² - vs Redwood

GF106: 2 Cluster - 64SPs - 16 TMUs - 8 ROPs - 64-Bit - Taktraten ~600/1500/900MHz - 70mm² - vs Cedar

Vermutlich allesamt etwas größer und etwas schneller ausgelegt wie die ATI-Varianten - so wie es der bisherigen Strategie bei nVidia entspricht.

Jo, für games sagen die Tflops anscheinend kaum was aus, sonst müßte eine HD5870 eine GTX285 massiv überflügeln, was ja real nicht der Fall ist...

Theoretische Rechenleistungen haben den Zweck, innerhalb einer Architektur deselben Herstellers unterscheiden zu können. Hersteller- oder Architekturübergreifend geht der Vergleich immer in die Hose.

Coda

2009-10-02, 18:00:35

Mal noch eine andere Spekulation. Im Vergleich von Fermi zu GT200 hat jetzt jeder SM 32 statt nur 8 ALUs, also eine Vervierfachung.
Nein. Die Warp-Size bleibt bei 32 Threads. Weniger als 4 Takte Latenz pro Befehl ist auch fast auszuschließen, deshalb wird die SIMD-Breite ziemlich sicher bei 8 bleiben.

RV870 kann SP und DP nach IEEE-754r-2008 (inklusive FMA, schnelle denorms, Rundungsmodi für beides). Und es gibt schon Leute, die den im Handel gekauft haben.
Wo widerspricht das mir? MADD und FMA ist doch effektiv das gleiche. Und Support für transzendente Funktionen mit DP hat T doch immer noch nicht.

Coda behauptet halt einfach irgend was, wie üblich. In der Regel kann ihm ohnehin niemand widersprechen.
Ach der Herr hat schon wieder keine Argumente mehr *gähn*

Gipsel

2009-10-02, 18:05:08

Wo widerspricht das mir? MADD und FMA ist doch effektiv das gleiche.
Nun, der Unterschied ist nur eine weitere Feinheit :rolleyes:

Nun mal ehrlich, Du sagst das DP von RV670/RV770 war unbrauchbar und jetzt negierst Du die Änderungen, dies es in Deinen Augen brauchbar machen müßten? Eine stringente Argumentation ist das nicht.

Und Apropos brauchbar. Mein DP-Code läuft schon auf einer HD3850 schneller als auf einer GTX285 und liefert übrigens exakt die gleichen Ergebnisse wie eine CPU. Und ich benutze auch transzendente Funktionen. Erste Tests auf einer (im Handel gekauften) HD5870 zeigen übrigens einen Geschwindigkeitsvorsprung von ziemlich genau Faktor 8,5 gegenüber der CUDA-Version auf einer GTX285 (an der ein nvidia Ingeneur mitgewirkt hat, während die ATI-Variante nur auf meinem Mist gewachsen ist). Also Fermi legt besser ordentlich was drauf. Falls ATI den OpenCL-Support gescheit hinbekommen (ausdrücklich falls), ist es sonst mit der Überlegenheit in dem Bereich für Fermi nämlich nicht weit her.

Nakai

2009-10-02, 18:06:00

GF100: 16 Cluster - 512SPs - 128 TMUs - 48 ROPs - 384-Bit - Taktraten ~700/1800/2400MHz - 470mm² - vs Cypress

GF102: 8 Cluster - 256SPs - 64 TMUs - 32 ROPs - 256-Bit - Taktraten ~800/2000/2000MHz - 260mm² - vs Juniper

GF104: 4 Cluster - 128SPs - 32 TMUs - 16 ROPs - 128-Bit - Taktraten ~800/2000/2000MHz - 130mm² - vs Redwood

GF106: 2 Cluster - 64SPs - 16 TMUs - 8 ROPs - 64-Bit - Taktraten ~600/1500/900MHz - 70mm² - vs Cedar

Mhh, das wäre sehr lasch geschätzt. Imo wäre der GF102 sehr interessant. Gehe jedoch von mehr als 256SPs aus. 12 Cluster wäre besser. GF104 könnte 6 Cluster haben. Der GF102 wäre damit in direkter Konkurrenz zum Cypress. Damit hätte Ati nix zum lachen. Im unteren Segment kann man das so lassen.
6 Cluster oder etwas mehr wären für den GF104 aber besser.^^

mfg Nakai

Coda

2009-10-02, 18:07:30

Nun mal ehrlich, Du sagst das DP von RV670/RV770 war unbrauchbar und jetzt negierst Du die Änderungen, dies es in Deinen Augen brauchbar machen müßten? Eine stringente Argumentation ist das nicht.
Wo habe ich denn FMA gefordert? Meine x87-FPU im Prozessor kann das auch nicht. Es geht darum dass die Dinger wohl z.B. keine Wurzel ziehen können mit voller Präzision und das ist eine Forderung von IEEE754.

Mal ganz abgesehen davon, dass es da auch ziemlich an der Software hängt mal wieder. Kann man über OpenCL jetzt wenigstens nen DP-Sinus benutzen? X-D

Gipsel

2009-10-02, 18:16:29

Nein. Die Warp-Size bleibt bei 32 Threads. Weniger als 4 Takte Latenz pro Befehl ist auch fast auszuschließen, deshalb wird die SIMD-Breite ziemlich sicher bei 8 bleiben.
Ähm, vielleicht solltest Du Dir die verfügbaren Informationen zu Fermi mal genauer ansehen :rolleyes:

Coda

2009-10-02, 18:19:41

In dem Whitepaper steht etwas von 32 Threads pro Warp. Wie willst du sonst auf diese Zahl kommen?

Das in dem Block-Schaubild 16 zusammengefasst werden ist wohl DP geschuldet, weil dort dann wohl 16 wie 8 angesprochen werden. Ich bin mir sehr sicher, dass es sonst 4xVec8 ist für SP.

Gipsel

2009-10-02, 18:28:45

Erstes DP? RV670.Nur MADD, wie bis heute.
RV870 kann SP und DP nach IEEE-754r-2008 (inklusive FMA, schnelle denorms, Rundungsmodi für beides). Und es gibt schon Leute, die den im Handel gekauft haben.
Wo widerspricht das mir? MADD und FMA ist doch effektiv das gleiche.
Aha. Scheinst Dich ja dann anfangs mißverständlich ausgedrückt zu haben.

Um das nochmal klarzustellen. MADD ist ungleich FMA. Bezeichnet zwar mathematisch die gleiche Operation, beim MADD wird für die Multiplikation aber nur die Mantisse in der Breite der Operanden benötigt, beim FMA in der doppelten Breite. Daß FMA deutlich aufwendiger ist, versteht sich wohl von selbst. Und wofür das gut sein kann, wirst Du sicher selbst herausfinden können.

Coda

2009-10-02, 18:32:15

Ich kennen den Unterschied zwischen MADD und FMA, danke. Bisher sind aber ziemlich viele bei CPUs ohne ausgekommen. Itanium kann es, x86 aber bisher nicht.

Aber jetzt weiß ich auch woher sie die Wurzel nehmen ;)

Gipsel

2009-10-02, 18:32:55

In dem Whitepaper steht etwas von 32 Threads pro Warp. Wie willst du sonst auf diese Zahl kommen?

Das in dem Block-Schaubild 16 zusammengefasst werden ist wohl DP geschuldet, weil dort dann wohl 16 wie 8 angesprochen werden. Ich bin mir sehr sicher, dass es sonst 4xVec8 ist für SP.
Damit liegtst Du aber falsch.
Ein SM in Fermi hat 32 SPs, die als 1*16 für DP und 2*16 für SP organisiert sind. Es werden von zwei verschiedenen Warps jeweils ein Halbwarp pro Takt abgeliefert, wie sich übrigens nicht nur aus meinem länglichen Post ergibt, sondern auch aus sämtlichem nvidia-Material zu Fermi. Also vielleicht doch noch mal ansehen!

Gipsel

2009-10-02, 18:33:49

Ich kennen den Unterschied zwischen MADD und FMA, danke.
Jetzt dann hoffentlich auch alle anderen.

=Floi=

2009-10-02, 18:36:40

das versaut mir heute den ganzen tag, weil nv nur auf 384bit setzt und nur auf 48ROPs. Das kann es ja nicht sein.

Gipsel

2009-10-02, 18:38:06

Bisher sind aber ziemlich viele bei CPUs ohne ausgekommen. Itanium kann es, x86 aber bisher nicht.
Itanium hat im Gegensatz zu x86 z.B. keinen nativen Befehl für die Division, übrigens genau wie GPUs ;)

Coda

2009-10-02, 18:38:58

Es werden von zwei verschiedenen Warps jeweils ein Halbwarp pro Takt abgeliefert
Öh nochmal deutlicher. Für einen halben Warp bräuchte man doch 4 ALUs für 4 Takte, wie kommt das denn hin?

mictasm

2009-10-02, 18:40:37

das versaut mir heute den ganzen tag, weil nv nur auf 384bit setzt und nur auf 48ROPs. Das kann es ja nicht sein.
Hä, dir versaut die geschätzte Abwandelung einer anderen Schätzung den Tag? Ui, welche Farbe haben deine Wände? ;)

Gipsel

2009-10-02, 18:42:47

Öh nochmal deutlicher. Für einen halben Warp bräuchte man doch 4 ALUs für 4 Takte, wie kommt das denn hin?
In Wirklichkeit benötigt die ALU noch länger, aber bisher hat der Scheduler im Prinzip einen Warp über 4 Takte verteilt (4*8=32). Jetzt ist es eben ein Halbwarp pro Takt (2*16=32).
Jeder SM hat zwei Scheduler, so daß immer 2 Halbwarps aus unterschiedlichen Warps ausgeführt werden. Im Falle von DP kann nur ein Halbwarp (1*16) gescheduled werden. Mein langer Post vorhin hat sich übrigens mit den Einschränkungen befaßt, die sich damit aus der Portanzahl der Registerfiles ergeben, um vielleicht das Mißverhältnis zwischen der um Faktor 8 gestiegenen Peakleistung und von nur Faktor 4 gestiegener Leistung bei Matrixmultiplikationen aufzuklären.

Coda

2009-10-02, 18:43:42

Also so wie ich das da rauslese werden halt an einen 16er-ALU-Block zwei Befehle von zwei verschiedenen Warps geschickt. Dafür braucht man intern aber trotzdem 2xVec8, weil die Instructions unterschiedlich sein können. Wo ist dann da der Unterschied zu 4xVec8 was ich gesagt habe?

In Wirklichkeit benötigt die ALU noch länger, aber bisher hat der Scheduler im Prinzip einen Warp über 4 Takte verteilt (4*8=32). Jetzt ist es eben ein Halbwarp pro Takt (2*16=32).
In 2 Takten ein Ergebnis? Bestimmt nicht.

Da steht imho genau das was ich meinte. Man kann zwei Instructions von zwei unterschliedlichen Warps auf einer "Vec16" in 4 Takten ausführen was sich effektiv genau wie 2xVec8 verhält bei SP. Wenn es DP ist hat man nur einmal Vec8 weil kein Dual Issue möglich ist.

Gast

2009-10-02, 18:56:01

sieht schwer danach aus als habe sich jen hsun von intel aufs kreuz legen lassen. sie haben ihn so an seinem ego gepackt, dass er sich tatsächlich dazu hat hinreißen lassen, intel auf ihrem eigenen gebiet schlagen zu wollen - unglaublich dumm sowas! das kann nur ins auge gehen, intels prozesstechnik und v.a. der cache technologie hat nv sowas von garnix entgegenzusetzen ... das wird ein totales gemetzel und wahrscheinlich das ende von nv :(
das ist extrem ärgerlich für alle konsumenten, weil sie ausschließlich die position intels stärken, wenn sie die marginalisierung von ff hw mit vorantreiben.
in 5 jahren werden wir nur noch softwarerendering haben auf intel cpus, wo das einstiegsmodell 500 euro kostet ... danke, nvidia!!! :(

Gipsel

2009-10-02, 18:58:17

Also so wie ich das da rauslese werden halt an einen 16er-ALU-Block zwei Befehle von zwei verschiedenen Warps geschickt.
Nein. An einen 16er ALU-Block wird genau ein Halbwarp geschickt. An den zweiten Block ein anderer Halbwarp.

In 2 Takten ein Ergebnis? Bestimmt nicht.
Was habe ich geschrieben? Das dauert bei GT80/200 (und auch ATI) in Wirklichkeit auch länger als 4 Takte. The Magic of Pipelining. Was glaubst Du, warum man so viele Threads in flight benötigt?

Da steht imho genau das was ich meinte.
Dann liest Du entweder was anderes oder schreibst was anderes als Du meinst.

Coda

2009-10-02, 18:59:34

Nein. An einen 16er ALU-Block wird genau ein Halbwarp geschickt. An den zweiten Block ein anderer Halbwarp.
Wo steht das? Und was soll ein "Halbwarp" sein? 4 Threads?

Fermi’s dual warp scheduler selects two warps, and issues one instruction from each warp to a group of sixteen cores, sixteen load/store units, or four SFUs.
"Fermi's doppelter Warp Scheduler wählt zwei Warps aus und schickt eine Instruction von jedem Warp (Anmerkung der Redaktion: Insgesamt also 2x8 Threads) an eine Gruppe von 16 Cores, 16 Load/Store-Units oder 4 SFUs"

Wo steht da irgendwas von "Halbwarps"?

Was habe ich geschrieben? Das dauert bei GT80/200 (und auch ATI) in Wirklichkeit auch länger als 4 Takte.
Eine Instruction hat jedenfalls für einen Thread effektiv eine Latenz von 4 Takten. Das hat schon seinen Grund, denn ein ein Dot-Product oder ein MADD/FMA unter 4 Takten ist sehr schwer zu bauen.

Gipsel

2009-10-02, 19:06:38

Wo steht das? Und was soll ein "Halbwarp" sein? 4 Threads?Ein Halbwarp ist ein halber Warp, also 32/2 = 16 Threads. :rolleyes:
Und wo das steht? Im nv-Material (http://www.nvidia.com/content/PDF/fermi_white_papers/NVIDIAFermiArchitectureWhitepaper.pdf), bei B3D, bei realworldtech, eigentlich überall.

Eine Instruction hat jedenfalls für einen Thread effektiv eine Latenz von 4 Takten.Kommt drauf an, was Du unter effektiv verstehst. Physisch sind es wohl eher um die 20 Takte (Messungen im Cuda Developer Forum), bei ATI sind es dokumentiert 8 Takte Latenz. In der Zeit werden einfach andere Warps/Wavefronts vorne in die Pipeline reingeschoben, weswegen man so viele benötigt (bei ATI sind es nur 2 Wavefronts, um die ALU-Latenzen zu verstecken, bei nv benötigt man bisher 6 Warps).

Coda

2009-10-02, 19:09:02

Ein Halbwarp ist ein halber Warp, also 32/2 = 16 Threads. :rolleyes:
Und wo das steht? Im nv-Material (http://www.nvidia.com/content/PDF/fermi_white_papers/NVIDIAFermiArchitectureWhitepaper.pdf), bei B3D, bei realworldtech, eigentlich überall.
Zeig mir die Passage. Und außerdem habe ich gerade daraus zitiert. Ich finde nichts wenn ich nach "Half" suche. Und nein es werden bestimmt nicht 16 Threads auf einer Vec16 ausgeführt. Das funktioniert nicht.

Das Schaubild in dem Material ist nicht ganz korrekt. Für Dual-Issue braucht man zwei Cores:
Fermi’s dual warp scheduler selects two warps, and issues one instruction from each warp to a group of sixteen cores, sixteen load/store units, or four SFUs.
Because warps execute independently, Fermi’s scheduler does not need to check for dependencies from within the instruction stream. Using this elegant model of dual-issue, Fermi achieves near peak hardware performance.
Es wird also hier explizit davon gesprochen, dass das Dual-Issue von den zwei ausgeführten Warps kommt. Und dann:
Most instructions can be dual issued; two integer instructions, two floating instructions, or a mix of integer, floating point, load, store, and SFU instructions can be issued concurrently. Double precision instructions do not support dual dispatch with any other operation.

Ich verstehe auch nicht warum du dich so dagegen wehrst. Alles andere macht doch überhaupt keinen Sinn.

Gast

2009-10-02, 19:10:22

Hier nochmal das Nvidia dieses Jahr den launch der Karten plant http://www.fudzilla.com/content/view/15795/34/

Gipsel

2009-10-02, 19:16:17

Zeig mir die Passage. Ich finde nichts wenn ich nach "Half" suche.
Versuch's mal mit dem CUDA Programming Guide (http://developer.download.nvidia.com/compute/cuda/2_0/docs/NVIDIA_CUDA_Programming_Guide_2.0.pdf) ;)
The multiprocessor SIMT unit creates, manages, schedules, and
executes threads in groups of 32 parallel threads called warps. (This term originates
from weaving, the first parallel thread technology. A half-warp is either the first or
second half of a warp.)
Das habe ich mir schon nicht ausgedacht ;)
Das Schaubild in dem Material ist nicht ganz korrekt.Aha, also soll ich Dir glauben und nicht nvidia selber und den anderen Leuten wie Rhys oder David Kanter. Warum?

Für Dual-Issue braucht man zwei Cores:
Ich verstehe auch nicht warum du dich so dagegen wehrst. Alles andere macht doch überhaupt keinen Sinn.
Dual Issue bezeichnet einfach, daß zwei halbe Warps gleichzeitig auf einem SM gescheduled werden. Bei DP geht das nicht, weil die Resourcen in einem Core nicht ausreichen, un die zweite Hälfte des SM mitbenutzen muß.

Ich verstehe gar nicht, daß Du das nicht siehst. Ist doch überall genau so beschrieben.

Also das wird mir sonst auf Dauer hier zu blöde. Lies nach und gut ist.

Coda

2009-10-02, 19:18:15

Versuch's mal mit dem CUDA Programming Guide (http://developer.download.nvidia.com/compute/cuda/2_0/docs/NVIDIA_CUDA_Programming_Guide_2.0.pdf) ;)
G80-GT200 führen eine Warp-Instruction in 4 Takten auf einer Vec8 aus. Die Half-Warps spielen nur bei Speicherzugriffen eine Rolle.

Aha, also soll ich Dir glauben und nicht nvidia selber und den anderen Leuten wie Rhys oder David Kanter. Warum?
Im Text stehen widersprüchliche Sachen wie im Schaubild dargestellt.

Gipsel

2009-10-02, 19:22:36

Im Text stehen widersprüchliche Sachen wie im Schaubild dargestellt.Außer der Registerzahl sieht das für mich alles schlüssig aus.

Aber egal, habe heute auch noch was anderes vor.

Coda

2009-10-02, 19:27:57

G80-GT200: Der Scheduler läuft auf der halben Taktrate wie die ALUs, deshalb braucht für ihn eine Instruction 2 Cycles, in den ALUs aber 4. Es wird immer abwechselnd ALU/SFU gescheduled, deshalb passen da die zwei Takte genau rein

Das sie das geändert haben sollten ergibt überhaupt keinen Sinn.

Gipsel

2009-10-02, 19:29:25

"Fermi's doppelter Warp Scheduler wählt zwei Warps aus und schickt eine Instruction von jedem Warp (Anmerkung der Redaktion: Insgesamt also 2x8 Threads) an eine Gruppe von 16 Cores, 16 Load/Store-Units oder 4 SFUs"
Na dann rechne mal nach. Also bei kommt da Folgendes raus:

16 SM * 2x8 Threads = 256 Instruktionen pro Takt. Oops, sollten das nicht 512 sein? ;)

Komischerweise kommen die hier richtig raus:
16 SM * 2x16 Threads = 512 Instruktionen pro Takt.

Denk einfach noch mal drüber nach! Bis morgen.

Coda

2009-10-02, 19:29:53

Na dann rechne mal nach. Also bei kommt da Folgendes raus:
Das war eine Übersetzung direkt aus dem Whitepaper :ulol:

16 SM * 2x8 Threads = 256 Instruktionen pro Takt. Oops, sollten das nicht 512 sein? ;)
4x8 Threads. Es werden pro 16er ALU zwei Instructions gescheduled bei SP.

Du kannst scheinbar nicht lesen, das steht da klipp und klar:
Fermi’s dual warp scheduler selects two warps, and issues one instruction from each warp to a group of sixteen cores, sixteen load/store units, or four SFUs.
Es gibt aber zwei "group of sixteen cores". Insgesamt werden also maximal vier Instructions pro Takt gescheduled. 4*8 = 32. Check?

Denk einfach noch mal drüber nach! Bis morgen.
Nein, es sind ganz sicher keine 16 Threads pro scheduling.

Gipsel

2009-10-02, 19:41:17

Jetzt aber wirklich mein letzter Kommentar heute dazu.
4x8 Threads. Es werden pro 16er ALU zwei Instructions gescheduled bei SP.

Du kannst scheinbar nicht lesen, das steht da klipp und klar:
Fermi’s dual warp scheduler selects two warps, and issues one instruction from each warp to a group of sixteen cores, sixteen load/store units, or four SFUs.
Du kannst scheinbar die englische Aussage nicht richtig interpretieren. Zu deutsch:
Jeder der beiden Scheduler nimmt sich einen Warp und schickt jeweils 16 Threads zu den Einheiten. Es gibt 4 mögliche Empfänger, 2 Gruppen zu je 16 ALUs, die 16 L/S-Einheiten und die SFUs. Solange beide Warps nicht das Gleiche (oder DP) machen wollen, kommen die sich nicht in die Quere und Dual-Issue funktioniert.

Es sind also folgende Kombinationen möglich:

16 ALU + 16 ALU
ALU + SFU (und andersrum)
ALU + L/S (und andersrum)

Beide 16er Gruppen können natürlich nicht gleichzeitig die SFUs (btw., deswegen gibt es auch vier statt zwei SFUs, vergleiche den Schritt 8->16 bei den ALUs), die L/S-Einheiten oder eben DP benutzen.

Die Beschreibung paßt übrigens auch sehr gut mit dem Schaubild zusammen. Die werden ja wohl nicht beides vergurkt haben ;)

Alles klar?

Coda

2009-10-02, 19:42:42

Du kannst scheinbar die englische Aussage nicht richtig interpretieren.
Nein, die Streiterei von uns beruht darauf, dass die Aussage nicht eindeutig ist. Das kann entweder bedeuten, dass er zwei Warps aussucht und diese auf zwei Gruppen verteilt, oder zwei Warps auswählt und diese auf eine Gruppe verteilt.

Deine Auslegung ergibt aber wenn man die bisherige G80-Architektur betrachtet sehr wenig Sinn. Der Scheduler läuft auf halben Takt wie die ALUs, er müsste also wenn eine ALU-Instruction nur zwei Takte braucht jeden Takt eine ALU-Instruction issuen. Bisher war es immer abwechselnd ALU/SFU weil die beiden auch unabhängig laufen. Ein Warp lief also garantiert in 4 Takten auf den Vec8-ALU pro Instruction.

Außerdem bringen sie das Dual-Issue meiner Meinung nach eindeutig mit den zwei Warps in Verbindung, was weiterhin für meine These spricht.

Deshalb bin ich mir ziemlich sicher, dass deine Auslegung von diesem Satz nicht zutrifft. Wir sollten aber evtl. doch mal NVIDIA fragen ;)

Armaq

2009-10-02, 19:46:22

Du kannst scheinbar die englische Aussage nicht richtig interpretieren. Zu deutsch:
Jeder der beiden Scheduler nimmt sich einen Warp und schickt jeweils 16 Threads zu den Einheiten. Es gibt 4 mögliche Empfänger, 2 Gruppen zu je 16 ALUs, die 16 L/S-Einheiten und die SFUs. Solange beide Warps nicht das Gleiche (oder DP) machen wollen, kommen die sich nicht in die Quere und Dual-Issue funktioniert.

Da steht "selects" - ich bin eurem Fachlatein hinterher, aber was genau soll in dem Zusammenhang selects meinen?

Gipsel

2009-10-02, 19:50:52

Deine Auslegung ergibt aber wenn man die bisherige G80-Architektur betrachtet sehr wenig Sinn. Der Scheduler läuft auf halben Takt wie die ALUs, er müsste also wenn eine ALU-Instruction nur zwei Takte braucht jeden Takt eine ALU-Instruction issuen. Bisher war es immer abwechselnd ALU/SFU weil die beiden auch unabhängig laufen.
Du sagst es, bisher.
Es gibt zwei Scheduler und beide können jeden Takt genau eine Instruktion (egal ob ALU, SFU oder L/S) für einen Halbwarp (alle zwei Takte ein Warp, dann kommt das auch wieder mit dem halben Takt hin) absetzen. Wo ist das Problem? Ist doch einfacher als vorher!

Gipsel

2009-10-02, 19:52:11

Da steht "selects" - ich bin eurem Fachlatein hinterher, aber was genau soll in dem Zusammenhang selects meinen?Auswählen.
Also irgendeinen Warp nehmen, für den die Argumente der Befehle schon da sind (und nicht noch auf den Speicher oder sonstwas warten).

Gast

2009-10-02, 19:56:43

coda + gipsel, ihr streitet hier über ungelegte eier ... vielleicht solltet ihr mit der erörterung solcher technischer spitzfindigkeiten warten, bis man bei nvidia wieder gelernt hat, wie man die stromanschlüsse aufs pcb kriegt?! ;-)
scheibar wurden im zuge der wirtschaftskrise viele stellen dort durch praktikanten ersetzt :D

Armaq

2009-10-02, 19:57:06

Das wäre die klassische Übersetzung, allerdings bin ich fit genug um zu behaupten - muss nicht stimmen. :)

Gipsel

2009-10-02, 20:00:38

Das wäre die klassische Übersetzung, allerdings bin ich fit genug um zu behaupten - muss nicht stimmen. :)
Fängst Du jetzt auch noch zu streiten an? ;)

Nein, das "select" kommt bei der Beschreibung von Schedulern öfter vor und heißt wirklich nicht mehr. Irgendwie muß doch festgelegt werden, welcher Befehl als nächster von mehreren möglichen abgearbeitet werden soll. Na und da wählt der Scheduler dann einfach einen davon aus (meist nach bestimmten Kriterien). ;)

Armaq

2009-10-02, 20:04:27

Fängst Du jetzt auch noch zu streiten an? ;)

Nein, das "select" kommt bei der Beschreibung von Schedulern öfter vor und heißt wirklich nicht mehr. Irgendwie muß doch festgelegt werden, welcher Befehl als nächster von mehreren möglichen abgearbeitet werden soll. Na und da wählt der Scheduler dann einfach einen davon aus (meist nach bestimmten Kriterien). ;)
achwas, ich habe davon keine Ahnung. Ich streite mich höchstens über die de-minimis-Verordnung mit euch. ;)

Ich wollte nur anmerken, dass diese Formulierung nicht eineindeutig ist.

Aquaschaf

2009-10-02, 20:23:53

Ich weiß nicht was daran unklar sein soll? Die Scheduler wählen 2 warps aus und geben von beiden warps Instruktionen an 16 der 32 Prozessoren bzw. load/store-units oder sf-units. Was soll das anderes bedeuten als 16 Threads (aka eine half-warp) aus 2 verschiedenen warps pro Takt? Das Schaubild darunter ist ja auch eindeutig, dort sieht man auch immer Instruktionen aus unterschiedlichen warps zu einem Zeitpunkt.

Darum zurück zur Gegenwart: Es wurde schonmal angesprochen, aber mich quält die Frage immernoch, was der Mist mit L1/Shared Memory soll. Von Shared Memory bekommt man nicht genug, oder? Aber wenn man sich für 32 KB geeinigt hat (DX11), warum sind es aufeinmal 48 KB möglich? Das ist doch ein Nachteil für den Fermi, wenn der Programmierer seine Kernel so schreibt, dass die Blöcke gerade für 32 KB passen.

In C for CUDA und in OpenCL (bei letzterem bin ich mir nicht ganz sicher) kann man den Speicher ganz nutzen. Zu wissen wieso es gerade diese 16/48-Konfiguration ist wäre trotzdem interessant.

LovesuckZ

2009-10-02, 20:56:05

Fuad über die Geschichte mit dem Board (http://www.fudzilla.com/content/view/15798/65/)

The card that Jensen showed and we all pictured is not a working sample. Some key people at Nvidia have promised to show us the picture of the real one. Stay tuned.

Ansonsten redet er von drei Kartentypen zum Start - GTX, GT und GX2 (http://www.fudzilla.com/content/view/15795/65/)

Fairy

2009-10-02, 21:03:06

Eine Fermi GT die sich mit der Radeon 5850 messen soll, na mal sehen ob da was dran ist.

Neocroth

2009-10-02, 21:03:53

Ansonsten redet er von drei Kartentypen zum Start - GTX, GT und GX2 (http://www.fudzilla.com/content/view/15795/65/)

Also an eine GX2 direkt zum Start glaube ich nicht - außer Fermi sollte deutlich langsamer sein als Cypress, wovon ich doch nicht ausgehe.
Die IHVs fokussieren sich üblicherweise erst dann auf eine Dual-GPU-Lösung, wenn bereits genug Dies verfügbar sind und die Single-GPU-Karten am Markt sind - siehe 7950GX2, 3870X2, 4870X2, 9800GX2, GTX295. Warum sollte es diesmal anders sein? :confused:

Coda

2009-10-02, 21:06:40

Ich weiß nicht was daran unklar sein soll? Die Scheduler wählen 2 warps aus und geben von beiden warps Instruktionen an 16 der 32 Prozessoren bzw. load/store-units oder sf-units. Was soll das anderes bedeuten als 16 Threads (aka eine half-warp) aus 2 verschiedenen warps pro Takt? Das Schaubild darunter ist ja auch eindeutig, dort sieht man auch immer Instruktionen aus unterschiedlichen warps zu einem Zeitpunkt.

In C for CUDA und in OpenCL (bei letzterem bin ich mir nicht ganz sicher) kann man den Speicher ganz nutzen. Zu wissen wieso es gerade diese 16/48-Konfiguration ist wäre trotzdem interessant.
Leute. Es ist bisher bei jeder GPU seit R600 und G80 so, dass eine Instruction 4 Takte braucht. Da gibts auch keine Pipeline. Es werden bei R600 alle 4 Takte 64 Threads und bei G80 32 Threads fertig. Nicht jeden Takt. Dann wäre der Durchsatz vier mal so hoch.

Die Warp-Size bei Fermi ist weiterhin 32 und die 4 Takte werden garantiert nicht auf zwei reduziert werden.

Und jetzt denkt mal nochmal darüber nach bitte. Das passt nicht was ihr da rauslest.

LovesuckZ

2009-10-02, 21:09:19

Also an eine GX2 direkt zum Start glaube ich nicht - außer Fermi sollte deutlich langsamer sein als Cypress, wovon ich doch nicht ausgehe.
Die IHVs fokussieren sich üblicherweise erst dann auf eine Dual-GPU-Lösung, wenn bereits genug Dies verfügbar sind und die Single-GPU-Karten am Markt sind - siehe 7950GX2, 3870X2, 4870X2, 9800GX2, GTX295. Warum sollte es diesmal anders sein? :confused:

Eine GX2 muss nicht in riesen Mengen verfügbar sein. Eine GX2 zu haben, sichert einen den ersten Platz ab. Und dank der GTX295 V2 haben sie alle Vorraussetzungen, um sofort mit einer GX2 auf den Markt zu kommen.
Der einzige Knackpunkt könnte der Stromverbrauch werden. Aber ansonsten sehe ich kein Problem.

Neocroth

2009-10-02, 21:13:19

Eine GX2 muss nicht in riesen Mengen verfügbar sein. Eine GX2 zu haben, sichert einen den ersten Platz ab. Und dank der GTX295 V2 haben sie alle Vorraussetzungen, um sofort mit einer GX2 auf den Markt zu kommen.
Der einzige Knackpunkt könnte der Stromverbrauch werden. Aber ansonsten sehe ich kein Problem.

Ich sage nicht, dass es unmöglich ist. Aber es ist meiner Meinung nach unwahrscheinlich.
Eine GX2 auf Papier könnte gut möglich sein - einfach nur um wieder die Performance-Krone inne zu haben. Aber gleichzeitig mit den anderen Karten verfügbar... das kann ich mir nicht vorstellen.

reunion

2009-10-02, 21:13:31

Vorallem da sich der Chip etwas verspätet bleibt ja deshalb die Entwicklung der anderen Dinge nicht stehen. Deshalb wäre es durchaus möglich das gleich eine Dual-GPU kommt. Wobei man marketingtechnisch anders vielleicht mehr Aufmerksamkeit erhaschen würde.

dargo

2009-10-02, 21:15:34

Der einzige Knackpunkt könnte der Stromverbrauch werden.
Warum? Wenn die Karte in etwa auf GTX285-Niveau liegen soll dürfte es kein Problem sein, siehe GTX295.

AnarchX

2009-10-02, 21:15:50

Macht man halt ein Pre-Preview mit der GX2 in 2009 und verteilt ein paar Samples an die Profi-OCer. Mit der GTX 295 hat man es schon vorgemacht, vielleicht will man sich diesmal noch etwas weiter vortasten. :D

Interessant klingt jedenfalls, dass Fermi GT gegen die $259 HD 5850 antreten will. Ob man das wirklich mit einem ~500mm² Die macht?

Neocroth

2009-10-02, 21:16:23

Vorallem da sich der Chip etwas verspätet bleibt ja deshalb die Entwicklung der anderen Dinge nicht stehen. Deshalb wäre es durchaus möglich das gleich eine Dual-GPU kommt. Wobei man marketingtechnisch anders vielleicht mehr Aufmerksamkeit erhaschen würde.

Das Problem ist meiner Meinung nach, dass man mit einer Dual-GPU-Karte einen kleineren Markt als mit einer Single-Karte abdeckt. Die Marge ist höher bei einer Dual-Karte, aber der potentielle Markt ist viel kleiner. Der Enthusiast, der sich ernsthaft für die GX2 interessiert, steckt sich gegebenenfalls auch einfach zwei GTX380 rein.

Aquaschaf

2009-10-02, 21:19:00

Und jetzt denkt mal nochmal darüber nach bitte. Das passt nicht was ihr da rauslest.

Ich lese nichts heraus, sondern gebe nur wieder was dort eindeutig steht und auch im Schaubild genauso aussieht. Du weißt ja z.B. auch nicht wie das Verhältnis der Taktrate der Scheduler zum Rest aussieht.

LovesuckZ

2009-10-02, 21:19:06

Interessant klingt jedenfalls, dass Fermi GT gegen die $259 HD 5850 antreten will. Ob man das wirklich mit einem ~500mm² Die macht?

Klingt irgendwie nach einem Déjà-vu. :confused:

boxleitnerb

2009-10-02, 21:20:35

Da die 5850 nicht wirklich um Welten schneller ist als die GTX285 wäre das imho etwas enttäuschend, wenn das etwa derselbe Performancelevel wäre. Naja warten wir mal ab.

Coda

2009-10-02, 21:21:03

Du sagst es, bisher.
Es gibt zwei Scheduler und beide können jeden Takt genau eine Instruktion (egal ob ALU, SFU oder L/S) für einen Halbwarp (alle zwei Takte ein Warp, dann kommt das auch wieder mit dem halben Takt hin) absetzen. Wo ist das Problem? Ist doch einfacher als vorher!
Es geht aber technisch nicht. Selbst ATI mit viel niedrigerem ALU-Takt braucht 4 Takte. Mit zwei hätten sie 32er Wavefronts und damit viel bessere Branching-Effizienz. Es geht einfach nicht.

Ich fress nen Besen wenn Fermi eine Warp-Instruction alle zwei Takte abliefert.

AnarchX

2009-10-02, 21:21:45

Klingt irgendwie nach einem Déjà-vu. :confused:
14 aktive Cluster und 4 ROP-Partitionen @600/1500/2200MHz für $229 wäre natürlich eine Kampfansage.:D
Aber bei der 8800 GT hieß es, dass man eine solche SKU nur im Abstand einiger Jahre bringen kann. Zumal man damals wohl auch die Konkurrenz etwas überschätzte.

Aquaschaf

2009-10-02, 21:23:06

Ich fress nen Besen wenn Fermi eine Warp-Instruction alle zwei Takte abliefert.

Edit: hier stand eventuell Mist. Es bleibt aber dabei dass das was im Whitepaper steht eindeutig bedeutet: Scheduler weisen in jedem Schritt 2 half warps aus 2 unterschiedlichen warps zu. Was das letztendlich in Hinsicht auf Latenzen usw. bedeutet kann man mit den bisherigen Informationen nur raten.

LovesuckZ

2009-10-02, 21:24:27

14 aktive Cluster und 4 ROP-Partitionen @600/1500/2200MHz für $229 wäre natürlich eine Kampfansage.:D
Aber bei der 8800 GT hieß es, dass man eine solche SKU nur im Abstand einiger Jahre bringen kann.

Reichen zwei Jahre nicht? :eek:

V2.0

2009-10-02, 21:26:38

Macht man halt ein Pre-Preview mit der GX2 in 2009 und verteilt ein paar Samples an die Profi-OCer. Mit der GTX 295 hat man es schon vorgemacht, vielleicht will man sich diesmal noch etwas weiter vortasten. :D

Interessant klingt jedenfalls, dass Fermi GT gegen die $259 HD 5850 antreten will. Ob man das wirklich mit einem ~500mm² Die macht?

Davon würde ich nicht ausgehen. GT302 ist ja schon lange ein Gespenst.

Gast

2009-10-02, 21:26:39

Klingt irgendwie nach einem Déjà-vu. :confused:

Ob se denn auch so laut wird? Je länger die Diskussion hier geführt wird, desto mehr fühlt man sich tatsächlich in alte Zeiten aka R300/NV30.....

Wird denn DX11 wenigstens komplett unterstützt?

xiao didi *

2009-10-02, 21:30:24

Wird denn DX11 wenigstens komplett unterstützt?
Halb unterstützen geht wohl kaum. :rolleyes:

Gast

2009-10-02, 21:32:04

s. z.B. NV3X@dx9 :)

AnarchX

2009-10-02, 21:34:12

NV30 hat D3D9.0/a natürlich vollständig unterstützt, wenn auch die Implementierung nicht so performant war wie bei R300.

Bei Fermi ist höchstens eine mögliche Softwareimplementierung des Tesselators fragwürdig.

LovesuckZ

2009-10-02, 21:34:14

Das ist auch ein bissl unfair vom NV3x zu verlangen, dass er auch das SM3.0 unterstützt. :(

Jake Dunn

2009-10-02, 21:43:26

das versaut mir heute den ganzen tag, weil nv nur auf 384bit setzt und nur auf 48ROPs. Das kann es ja nicht sein.

Ja klar "nur" ;D

Die GTX380 (wathever) hat sicher gut Dampf und wird ca. 30% schneller sein als die HD5870 ;)

Gast

2009-10-02, 21:50:48

TMUs+setup"pretender"?!

Gast

2009-10-02, 22:19:06

Ja klar "nur" ;D

Die GTX380 (wathever) hat sicher gut Dampf und wird ca. 30% schneller sein als die HD5870 ;)

Ja, und 50% teurer ... Außerdem, bis GTX380 für alle käuflich/erschwinglich ist, wird sein Gegner nicht mehr HD5870 sein.

PS: Meine Aussagen sind genauso aus der Luft gegriffen wie deine. Es wird sich noch alles zeigen müssen, vor allem die 30%.

w0mbat

2009-10-02, 22:27:15

Ebenfall eine interessante Randnotiz: Einen NVIO wird es beim aktuell geplanten Fermi-Chip nicht geben. Tamasi bestätigte, dass die Display-I/O-Funktionalität komplett im Haupt-Chip integriert sei.
http://www.pcgameshardware.de/aid,696537/Nvidia-Fermi-Weitere-Architektur-Details-im-Gespraech-mit-Nvidias-Toni-Tamasi/Grafikkarte/News/

Ich dachte ich hätte bei Fudzilla etwas von einem NVIO gelesen, oder verwechsle ich das jetzt etwas?

Gast

2009-10-02, 22:27:52

Macht man halt ein Pre-Preview mit der GX2 in 2009 und verteilt ein paar Samples an die Profi-OCer. Mit der GTX 295 hat man es schon vorgemacht, vielleicht will man sich diesmal noch etwas weiter vortasten. :D

Interessant klingt jedenfalls, dass Fermi GT gegen die $259 HD 5850 antreten will. Ob man das wirklich mit einem ~500mm² Die macht?

Hm, wenn der G300 so performat wäre wie manche glauben, müsste doch der kleinere Ableger gegen die HD5870 antreten, wie eben GTX260 vs HD4870. Sonst gibt es eine rießen Lücke zwischen Fermi GT und GTX380 über die sich ATI freuen wird.

mapel110

2009-10-02, 22:32:18

http://www.pcgameshardware.de/aid,696538/Nvidia-bestaetigt-Erste-Fermi-Grafikkarten-gegen-Jahresende/Grafikkarte/News/
Wie wir soeben von Nvidia erfahren haben, gibt es nun eine offizielle Aussage zur Verfügbarkeit der ersten Grafikkarten auf Basis der kürzliche angekündigten Fermi-Architektur.

First products based on Fermi are expected to launch towards the end of the year"

Gipsel

2009-10-02, 22:34:34

Es geht aber technisch nicht. Selbst ATI mit viel niedrigerem ALU-Takt braucht 4 Takte. Mit zwei hätten sie 32er Wavefronts und damit viel bessere Branching-Effizienz. Es geht einfach nicht.

Ich fress nen Besen wenn Fermi eine Warp-Instruction alle zwei Takte abliefert.Dann fang schon mal an!

Selbst ATI benötigt mit ihrem niedrigerem ALU-Takt 8 (acht) Zyklen, bis die Ergebnisse bereit stehen, G80 sowie GT200 noch länger (und wahrscheinlich Fermi auch). Die Issue-Rate hat doch erstmal nichts mit den Latenzen zu tun. ATI könnte auch 16 Threads als Wavefront-Size anbieten, wenn sie statt 4 Threads aus einer Wavefront 4 Threads aus verschiedenen Wavefronts auf jede VLIW-Einheit loslassen würden. Dazu bräuchten sie dann 4 Thread-Sequenzer (wie die Scheduler bei ATI heißen) statt nur einen. Tja, und nv hat bei Fermi vor jedem SM zwei Scheduler gesetzt (statt nur einen). Was das wohl bedeuten mag?
Im Prinzip ist es simultanes Multithreading mit zwei Frontends und einem gemeinsamen Backend, wobei L/S sowie SFUs geteilt werden. Wird DP ausgeführt, wird eine Hälfte des Frontends blockiert und beide ALU-Lanes mit je 16 Einheiten können von einer Hälfte in Beschlag genommen werden. Das war's.

Und zum Pipelining, natürlich gibt es das bei GPUs! Vielleicht ein (halbwegs) analoges Beispiel aus der Welt der CPUs: (Vektor-)SSEx auf einem Athlon 64 bzw X2 (oder allen anderen CPUs vor Core2 und Phenom). Die Befehle arbeiten auf 128bit (Warp), die Einheiten sind 64 Bit breit (Halbwarp) und haben für die Multiplikation z.B. 4 Takte Latenz. Man kann jetzt alle zwei Takte einen SSE-Multiplikationsbefehl absetzen, der Scheduler issued jeden Takt den Befehl für eine Hälfte der durch das Instruction Set vorgegebenen Breite aus und hinten fällt jeden Takt auch die Hälfte des Ergebnisses raus (bzw. alle zwei Takte das komplette). Ob die Latenz jetzt 4 Takte ist oder 10 spielt nicht die geringste Rolle, solange genügend unabhängige Anweisungen da sind, mit der man die Pipeline vorne füttern kann. Bei seriellem Code wird das sehr schnell eng, so daß hier viel Wert auf kurze Latenzen gelegt wird.
Bei einer GPU ist das in nullter Näherung erstmal egal. Ich habe ja (hoffentlich) genügend Threads und Warps, die alle garantiert unabhängig sind, und unter denen der Scheduler locker auswählen kann. Wenn also genügend Warps in flight sind, stören auch 20 Takte Latenz nicht. Vor allem da eine Speicherzugriff sowieso gleich ein paar hundert Takte Latenz hat.

Was ist also ein wichtiges Optimierungsziel bei Shadern, damit sie performant laufen? Möglichst wenige Register zu benutzen. Warum? Weil dann mehr Warps in flight sein können (die teilen sich alle die zur Verfügung stehenden Register).

LovesuckZ

2009-10-02, 22:39:25

http://www.pcgameshardware.de/aid,696538/Nvidia-bestaetigt-Erste-Fermi-Grafikkarten-gegen-Jahresende/Grafikkarte/News/
Wie wir soeben von Nvidia erfahren haben, gibt es nun eine offizielle Aussage zur Verfügbarkeit der ersten Grafikkarten auf Basis der kürzliche angekündigten Fermi-Architektur.

First products based on Fermi are expected to launch towards the end of the year"

Hm, klingt ziemlich komisch.
Da stellt sich die Frage: Wann wurde das gesagt?

mapel110

2009-10-02, 22:41:54

Hm, klingt ziemlich komisch.
Da stellt sich die Frage: Wann wurde das gesagt?
Ich glaube nicht, dass Carsten so olle Kamellen als brandneue Info verkaufen würde.

Coda

2009-10-02, 22:50:26

Edit: hier stand eventuell Mist. Es bleibt aber dabei dass das was im Whitepaper steht eindeutig bedeutet: Scheduler weisen in jedem Schritt 2 half warps aus 2 unterschiedlichen warps zu. Was das letztendlich in Hinsicht auf Latenzen usw. bedeutet kann man mit den bisherigen Informationen nur raten.
So eindeutig ist das nicht. Der Satz kann sehr wohl auch bedeuten dass die zwei Instructions auf einer 16er Gruppe ausgeführt werden per dual issue.

Anders kann es eigentlich auch nicht sein. Ich weiß dass das Schaubild anderes vermuten lässt aber es spricht sehr gewichtiges dagegen.

@Gipsel: Lassen wir das, ich werde versuchen das direkt zu klären.

Gipsel

2009-10-02, 22:58:27

So eindeutig ist das nicht. Der Satz kann sehr wohl auch bedeuten dass die zwei Instructions auf einer 16er Gruppe ausgeführt werden per dual issue.

Anders kann es eigentlich auch nicht sein. Ich weiß dass das Schaubild anderes vermuten lässt aber es spricht sehr gewichtiges dagegen.
Dual Issue heißt bei Fermi, daß zwei Halbwarps gleichzeitig von den zwei Schedulern abgesetzt werden.
David Kanter schreibt dazu: (http://www.realworldtech.com/page.cfm?ArticleID=RWT093009110932&p=5)
Every cycle, the two schedulers can issue (or dispatch in Nvidia parlance) two warps [Anmerkung: bei halbem Takt, also einen Warp jeden zweiten bzw. einen halben jeden Takt] from the head of these queues – one for each of the two pipelines.
[..]
Another big change for programmers and the scheduler is the relative execution latency. Since each pipeline has 16 execution units, a simple warp now takes only 2 fast cycles to finish (or one scheduler cycle). This means that hiding a fixed amount of memory latency will take twice as many warps as it did before.
Du bist irgendwie der Einzige, der das anders sieht. :rolleyes:

Aquaschaf

2009-10-02, 23:04:21

So eindeutig ist das nicht. Der Satz kann sehr wohl auch bedeuten dass die zwei Instructions auf einer 16er Gruppe ausgeführt werden per dual issue.

Und was ist mit dem Schaubild darunter? Was ist an diesem Satz uneindeutig? - "Fermi’s dual warp scheduler selects two warps, and issues one instruction from each warp to a group of sixteen cores, sixteen load/store units, or four SFUs." Dual Issue bedeutet in dem Kontext dann dass beide Scheduler Instruktionen absetzen können, bzw. in manchen Fällen (DP) nur einer. Letzteres ist dann auch der Grund warum es 2 Scheduler für je 16 Threads gibt, anstatt einen einzigen für 32 Threads(?).

Mich würde interessieren ob es bei der maximalen Blockgröße von 512 geblieben ist.

Gast

2009-10-02, 23:19:57

Ich möchte mich als Mitleser mal bei Gipsel bedanken. Was von Ihm bisher technisch rüberkam ist sowas von Welten besser als dass, was bisher hier geschrieben wurde, dass ich zum ersten mal glaube, es ist hier nicht nur Marketing unterwegs. Bitte weitermachen.

Vielleicht haben einige Member anderseits auch einfach nur Angst, andere mit technische Details zu langweilen, aber wenn dann mal was fundiertes kommt, wirds auf einmal sehr ruhig. Ich hoffe, das bleibt nicht so, sondern wir können mal etwas wirklich Interessantes erfahren. Es ist klar, dass viele Programmierer nicht mehr in die Tiefen der Hardware einsteigen, aber wenn man das nicht tut, sollte man über die wirklichen Fähigkeiten einer Hardware vielleicht auch nicht vorschnell urteilen.

Gipsel

2009-10-03, 00:12:47

Mich würde interessieren ob es bei der maximalen Blockgröße von 512 geblieben ist.
Mir schwirrt gerade im Kopf herum, daß das auf 1536 angehoben wurde (eigenartig, ich weiß). Mir fällt bloß gerade nicht mehr ein, wo ich das her habe, kann es also auch nicht beschwören. Vielleicht hat damit auch die eigenartige Größe von maximal 48kB Local Data Share Shared Memory zu tun, da man so jedem Thread die gleiche Menge Speichers (ich weiß, es gibt jetzt auch wahlfreien Zugriff) wie bei 512 Blockgröße zuteilen kann, keine Ahnung.

Coda

2009-10-03, 00:48:31

Und was ist mit dem Schaubild darunter? Was ist an diesem Satz uneindeutig? - "Fermi’s dual warp scheduler selects two warps, and issues one instruction from each warp to a group of sixteen cores, sixteen load/store units, or four SFUs." Dual Issue bedeutet in dem Kontext dann dass beide Scheduler Instruktionen absetzen können, bzw. in manchen Fällen (DP) nur einer. Letzteres ist dann auch der Grund warum es 2 Scheduler für je 16 Threads gibt, anstatt einen einzigen für 32 Threads(?).

Mich würde interessieren ob es bei der maximalen Blockgröße von 512 geblieben ist.
Ich finde schon, dass es uneindeutig ist ob dieses dual dispatch für eine Vec16-ALU gilt oder für zwei.

Es ist ja nicht so als würde ich mir das ohne Grund denken. Wobei das was RWT und Rys schreiben deine These natürlich klar untermauert - möglicherweise schreiben sie aber alle nur voneinander ab. Ich frag mal nochmal bei B3D, ob jemand anderes das bestätigen kann.

Mir kommt das weiterhin etwas seltsam vor. 2 Takte sind verdammt wenig, vor allem braucht man dann auch doppelt so viele Warps um die Latenzen zu verstecken. Und was gewinnt man dadurch?

Nightspider

2009-10-03, 02:55:33

Was heißt zurückschlagen ?

Bei der Verfügbarkeit hat ATI noch nichtmal zugeschlagen ^^

Falls ATI den Markt 2-3 Monate aufmischt wäre es ja gut für AMD aber mit der Verfügbarkeit siehts ja gerade wieder nicht so gut aus, laut PCGH.

=Floi=

2009-10-03, 03:48:08

"doppelten" G200b mit mehr takt hätte ich schon erwartet. ausgerechnet die ROPs und das SI bremsen den chip dann in den wirklich wichtigen bereichen. Da nützt mir die ganze rechenleistung nichts, wenn diese dort verpufft. siehe G80 vs G92 etc. Ebenso wird das setup bei sli limitieren.

mapel110

2009-10-03, 03:58:39

Wo spielen denn die ROPs eine Rolle? Doch nur bei diesen deferred Shading Games, oder?! Auf die kann ich verzichten. Zukunft hat das sowieso nicht.
Stalker sieht aus wie ein DX7-Spiel und hat bald DX11-Features. So lol.
/edit
Muss dazu sagen, hab nur das Ur-Stalker gespielt, alles was danach kam nicht. Vielleicht hat sich da ja was getan.
/edit

Die Speicherbandbreite steigt um 60% oder gar mehr, die Texturfüllrate auch. Shaderperformance steigt wesentlich stärker und das sollte sich dann auch bemerkbar machen bei neuen Games.
Insgesamt würde ja ein plus von 50% im Schnitt gegenüber GTX285 völlig ausreichen. ATI hat auch nicht mehr geschafft im Vergleich zur alten Generation.

Außerdem, man stelle sich vor, nvidia bringt ein Bildqualitätsfeature, das man in allen Spielen nutzen kann, auch in aktuellen. Dann kann ATI ganz einpacken. Wer dann noch ATI empfehlen sollte, dem ist nicht mehr zu helfen.

Coda

2009-10-03, 04:04:33

Zukunft hat das sowieso nicht.
Natürlich tut es das. Ich würde sogar soweit gehen und sagen, dass Forward Rendering mittelfristig komplett verschwinden wird. Es wird im Verhältnis immer ineffizienter.

mapel110

2009-10-03, 04:08:39

Natürlich tut es das. Ich würde sogar soweit gehen und sagen, dass Forward Rendering mittelfristig komplett verschwinden wird. Es wird im Verhältnis immer ineffizienter.
Beißt sich aber doch mit AA ganz offensichtlich. Oder liegt das an DX9-Kompatibilität und ist mit DX10+ Geschichte?

Coda

2009-10-03, 04:21:07

Beißt sich aber doch mit AA ganz offensichtlich.
Man braucht halt für bestimmte Fälle D3D10.1. Mit 11 hat sich das auf jeglicher HW gegessen.

Muss man nur noch die Entwickler davon überzeugen es zu implementieren ;)

mapel110

2009-10-03, 04:23:27

Okay, dann sind die ROPs wohl doch relativ wichtig. :( Ists vorstellbar, dass die eine eigene Taktdomäne bekommen und relativ hoch getaktet sind?

Aquaschaf

2009-10-03, 08:22:00

Mir kommt das weiterhin etwas seltsam vor. 2 Takte sind verdammt wenig

Gipsel hat das doch ganz gut erklärt. Wieviele Scheduler-Takte notwendig sind um eine warp abzusetzen hat nicht direkt etwas damit zu tun nach wie vielen Takten sie mit einer Instruktion fertig ist. Bei G80/GT200 können das 24 Takte sein, wenn es read-after-write-Abhängigkeiten auf Register gibt.

Für 16 Threads jeweils 2 Instruktionen ergibt doch nicht so viel Sinn, oder? Es können schließlich Abhängigkeiten dazwischen sein. Garantiert unabhängige Instruktionen pro Takt abzuschicken ist einfacher. Und genau das steht ja zusätzlich in dem Textabschnitt des Whitepapers - "Because warps execute independently, Fermi’s scheduler does not need to check for dependencies from within the instruction stream."

Selbst wenn man pro Prozessor nun mehr Warps braucht: es sind ja wieder 16 statt 30 Prozessoren. Absolut ist die Zahl an Threads die man haben sollte damit wahrscheinlich nicht sehr angestiegen. Dazu kommt der Cache, welcher zumindest Speicherlatenzen im Schnitt gut absenken kann.

reunion

2009-10-03, 09:03:42

Ich möchte mich als Mitleser mal bei Gipsel bedanken. Was von Ihm bisher technisch rüberkam ist sowas von Welten besser als dass, was bisher hier geschrieben wurde, dass ich zum ersten mal glaube, es ist hier nicht nur Marketing unterwegs. Bitte weitermachen.

Dem schließe ich mich an.

http://www.pcgameshardware.de/aid,696538/Nvidia-bestaetigt-Erste-Fermi-Grafikkarten-gegen-Jahresende/Grafikkarte/News/
Wie wir soeben von Nvidia erfahren haben, gibt es nun eine offizielle Aussage zur Verfügbarkeit der ersten Grafikkarten auf Basis der kürzliche angekündigten Fermi-Architektur.

First products based on Fermi are expected to launch towards the end of the year"

Ich denke man hat aktuell das Ziel es wie bei der GTX295 zu machen. Paperlaunch Ende des Jahres und Verfügbarkeit mal abwarten.

Außerdem, man stelle sich vor, nvidia bringt ein Bildqualitätsfeature, das man in allen Spielen nutzen kann, auch in aktuellen. Dann kann ATI ganz einpacken. Wer dann noch ATI empfehlen sollte, dem ist nicht mehr zu helfen.

Träumen kann man viel. DX10/11 erlaubt das eben nicht, da können noch so ultimative Features kommen.

S940

2009-10-03, 09:13:21

Die GTX380 (wathever) hat sicher gut Dampf und wird ca. 30% schneller sein als die HD5870 ;)
Die Frage ist aber nachwievor:
Bei Fermi ist höchstens eine mögliche Softwareimplementierung des Tesselators fragwürdig.
Wie schnell das ist ... schlimmstenfalls bricht Fermi mit DX11 - Tesselator Code ein. :(

Hätte jemand eine Grobschätzung parat, wie anspruchsvoll so ein Tesselator Softwarecode die SPUs auslasten würde ?

ciao

Alex

Gast

2009-10-03, 09:16:07

NV30 hat D3D9.0/a natürlich vollständig unterstützt, wenn auch die Implementierung nicht so performant war wie bei R300.

Bei Fermi ist höchstens eine mögliche Softwareimplementierung des Tesselators fragwürdig.

Ups - hatte ich falsch in Erinnerung. Aber da war doch mal was - ähm Parhelia?

Ailuros

2009-10-03, 09:28:48

Okay, dann sind die ROPs wohl doch relativ wichtig. :( Ists vorstellbar, dass die eine eigene Taktdomäne bekommen und relativ hoch getaktet sind?

Man koennte sie auf Speicherfrequenz takten aber es gibt keinerlei aehnliche Indizie dafuer; hast Du Dir ueberhaupt ueberdenkt wie viel 48 Pixels/Takt sind?

Cypress hat einen dual rasterizer und da wo sich Dreiecke in tiles nicht ueberdecken bearbeitet jeder raster einen separaten tile. Es ist dann eben schick genug dass wenn es endlich zum anderen Ende kommt man jeweils 16 Pixels/Takt hat.

NV hat im Gegensatz in GF100 keinen dual rasterizer und es ist leider noch ein grosses Fragezeichen was sie genau hier angestellt haben. Vielleicht haben sie den rasterizer einfach in Effizienz aufgepumpt (wenn das ueberhaupt Sinn macht). So oder so 48 Pixel/Takt!

Ich bin neugieriger wie es mit 8xMSAA Leistung aussieht und nein die Anzahl oder spekulierten Faehigkeiten der ROPs sagen mir momentan gar nichts diesbezueglich.

Letztendes ist das SI oder die rohe Bandbreite auch nicht der wichtigste Punkt; wenn die Architektur so umgekrempelt wurde dass sie ein Stueck besser mit ihrer verfuegbaren Bandbreite umgeht dann ist momentan ein breiterer Bus auch ueberfluessig. Ob dem so ist musst Du aber jemand wie Gipsel oder Coda fragen wenn die bisherigen Daten etwas in der Richtung vermuten lassen. Momentan sind sie gerade dabei das warp Zeug zu entziffern; mal sehen ob wir sie ablenken koennen ;)

AnarchX

2009-10-03, 10:53:13

Nvidia Fermi: Weitere Architektur-Details im Gespräch mit Nvidias Toni Tamasi (http://www.pcgameshardware.de/aid,696537/Nvidia-Fermi-Weitere-Architektur-Details-im-Gespraech-mit-Nvidias-Toni-Tamasi/Grafikkarte/News/)

Regelmäßige Leser werden sich sicherlich an das "Missing MUL" im G80 und GT200 erinnern: Neben der Multiply-Add-Leistung konnten die älteren Chips unter bestimmten Umständen eine Multiplikation zusätzlich ausführen. Tamasi nannte eine IPC-Rate von durchschnittlich 1,2. Man konnte also im circa 20 Prozent der Fälle eine zusätzliche Instruktion pro Takt aus den Funktionseinheiten herausholen. Bei der Fermi-Architektur, welche ebenfalls zwei Instruktionen pro Takt beauftragen kann (in den beiden 16er-Gruppen der SMs), läge diese Rate bei beinahe 2,0.
Also wohl:
240 * 2 FLOPs * 1,2 * 1,47GHz = 846GFLOPs vs 1597 GFLOPs = 256* 2 FLOPs * 1,95 * 1,6GHz

tombman

2009-10-03, 10:59:47

Träumen kann man viel. DX10/11 erlaubt das eben nicht, da können noch so ultimative Features kommen.
Erlaubt DX10/11 nachträgliches Downsamplen also dem game einfach ne höhere res als die native anbieten, und dann einfach am Ausgang "runterpolieren"? ;)
Müßte doch transparent gehen, oder?

Falls gar nix mehr geht, kauft man sich einen Edge Videoprozessor und zwingt ihn auf 720p Ausgabe bei 1080p Eingabe- und dann läßt man den TFT/LCD wieder auf 1080p fullscreen hochrechnen ;D

IVN

2009-10-03, 11:02:48

@tombman

Das nennt sich SSAA. ;)

Und der einzige Unterschied zu dem, was man hier im Forum als "Downsampling" bezeichnet, ist wohl der, das die Graka das Runterrechnen übernimmt, statt dem Chip im Monitor.

AnarchX

2009-10-03, 11:09:55

Nein, der Unterschied ist, dass beim Ausgabe-Downsampling das hochaufgelöste Bild nach dessen Fertigstellung herunterskaliert wird und damit auch feste Anzeigen eben verkleinert werden. Bei Nvidias OGSSAA wird dieses wohl auf einzelne Rendertargets angwendet und AMD RGSSAA/SGSSAA basiert auf der Verechnung von rotierten Einzelbildern, weshalb auch eine externe LOD-Anpassung nötig ist.

IVN

2009-10-03, 11:15:15

Nein, der Unterschied ist, dass beim Ausgabe-Downsampling das hochaufgelöste Bild nach dessen Fertigstellung herunterskaliert wird und damit auch feste Anzeigen eben verkleinert werden. Bei Nvidias OGSSAA wird dieses wohl auf einzelne Rendertargets angwendet und AMD RGSSAA/SGSSAA basiert auf der Verechnung von rotierten Einzelbildern, weshalb auch eine externe LOD-Anpassung nötig ist.

Das was du da schreibst steht doch in keinem Widerspruch zu meiner Aussage.

Slipknot79

2009-10-03, 12:19:46

Scheinbar sind sogar 2GB VRAM zu wenig (zumindest für 2560x1600) :redface:

http://www.pcgameshardware.de/aid,696419/Ati-Radeon-HD-5850/5870-Crossfire-vs-Nvidia-Geforce-GTX-285-SLI-im-Test-Multi-GPU-Shootout/Grafikkarte/Test/?page=10

AnarchX

2009-10-03, 12:23:24

Scheinbar sind sogar 2GB VRAM zu wenig (zumindest für 2560x1600) :redface:

http://www.pcgameshardware.de/aid,696419/Ati-Radeon-HD-5850/5870-Crossfire-vs-Nvidia-Geforce-GTX-285-SLI-im-Test-Multi-GPU-Shootout/Grafikkarte/Test/?page=10
Wie kommst du darauf?
Die 2GiB GTX 285 verliert von 1920x1200 auf 2560x1200 42% Leistung, theoretisch wären es 44%.
Mit einem Quad-Crossfire mit 2GiB pro GPU dürfte man hier wohl >=30 FPS in der Anzeige erreichen.

Undertaker

2009-10-03, 12:23:27

Scheinbar sind sogar 2GB VRAM zu wenig (zumindest für 2560x1600) :redface:

http://www.pcgameshardware.de/aid,696419/Ati-Radeon-HD-5850/5870-Crossfire-vs-Nvidia-Geforce-GTX-285-SLI-im-Test-Multi-GPU-Shootout/Grafikkarte/Test/?page=10

Unwahrscheinlich, wenn unter 1920x1200 1GB und 2GB noch exakt gleichschnell sind...

pervert

2009-10-03, 12:28:57

Wie kommst du darauf?
Die 2GiB GTX 285 verliert von 1920x1200 auf 2560x1200 42% Leistung, theoretisch wären es 44%.
Mit einem Quad-Crossfire mit 2GiB pro GPU dürfte man hier wohl >=30 FPS in der Anzeige erreichen.
Weil die GTX285/2G in 2560er Auflösung mit Abstand die schnellste Karte ist?! 50% vor dem 1G Modell und noch vor der 5870!

2GB als zu wenig zu bezeichnen wäre allerdings etwas übertrieben. 1.5GB der Fermi würde ich als langfristig zu wenig bezeichnen. Wollen wir mal hoffen, dass es überhaupt eine NV Dualkarte mit mehr RAM geben wird!

tombman

2009-10-03, 12:32:49

Nein, der Unterschied ist, dass beim Ausgabe-Downsampling das hochaufgelöste Bild nach dessen Fertigstellung herunterskaliert wird und damit auch feste Anzeigen eben verkleinert werden. Bei Nvidias OGSSAA wird dieses wohl auf einzelne Rendertargets angwendet und AMD RGSSAA/SGSSAA basiert auf der Verechnung von rotierten Einzelbildern, weshalb auch eine externe LOD-Anpassung nötig ist.
Jo, dann müßte doch DS auch völlig ohne Unterstützung des games gehen, DX10/11 könnte das dann nicht mehr verhindern. Wäre doch DAS Killerfeature schlechthin, wodurch auch SLI/TSLI/QSLI wieder rechtfertigbar wäre ;)
Zb. Stalker CS, 2560x1600, 4xAA, maximiert @ 4x GT300 Quad-Sli downsampled auf 1920x1200 :cool:

Undertaker

2009-10-03, 12:35:52

Schaut euch aber auch mal die fps-Bereiche an... Selbst mit der 3-fachen Performance der GTX285/2GB wäre das Spiel in diesen Settings noch zu langsam - und so schnell wird auch der GT300 nicht sein. In spielbaren Settings sollten 1,5GB durchaus noch eine Weile reichen... Für SLI dann eine 3GB Version.

AnarchX

2009-10-03, 12:36:15

Weil die GTX285/2G in 2560er Auflösung mit Abstand die schnellste Karte ist?! 50% vor dem 1G Modell und noch vor der 5870!

Aber wie schon vorgerechnet, verhält sich die Leistung passend zum erhöhten Aufwand. Clear Sky ist einfach ein Killer-App, was man auch schon an den FPS @ 1280x1024 sieht.
Bei 2560x1600 sind 1GiB natürlich hier zu wenig, aber 2GiB reichen offensichtlich noch völlig aus.

Schaut euch aber auch mal die fps-Bereiche an... Selbst mit der 3-fachen Performance der GTX285/2GB wäre das Spiel in diesen Settings noch zu langsam - und so schnell wird auch der GT300 nicht sein.
Vielleicht sieht es nach dem Big Bang (http://www.forum-3dcenter.org/vbulletin/showthread.php?p=7553245#post7553245) anders aus. :D

dargo

2009-10-03, 12:40:18

Jo, dann müßte doch DS auch völlig ohne Unterstützung des games gehen, DX10/11 könnte das dann nicht mehr verhindern.
DS funktioniert natürlich auch unter DX10/11. Es gibt keinen logischen Grund warum es nicht gehen sollte. Das einzige Problem sind halt nur die Games die sich bei DX10 (bei DX11 weiß ich es noch nicht) aus dem EDID vom Bildschirm bedienen. Da muss man einfach nur den Treiber (Registry) umgehen/überlisten. BeetleatWar1977 hats geschafft (mit VGA und Vista x86). Ich leider noch nicht (mit DVI und Vista x64/Win7 x64).

Edit:
Eine gewisse Unterstützung der Games muss es auch geben. Wenn die Games keine hohen Auflösungen bieten nützt auch das tollste DS nichts. In diesem Punkt sehe ich aber nicht so das Problem. Neuere Games bieten alle mindestens 3360x2100, wenn nicht sogar 3840x2400 an.

tombman

2009-10-03, 12:57:20

2560x1600 müßte eigentlich immer gehen, weil das native 30 Zoll TFT res ist ;)

Slipknot79

2009-10-03, 13:07:56

Wie kommst du darauf?
Die 2GiB GTX 285 verliert von 1920x1200 auf 2560x1200 42% Leistung, theoretisch wären es 44%.
Mit einem Quad-Crossfire mit 2GiB pro GPU dürfte man hier wohl >=30 FPS in der Anzeige erreichen.

Ach ok, habe mich verschaut, falschen Balken ins Auge gefasst :redface:

dargo

2009-10-03, 13:22:10

2560x1600 müßte eigentlich immer gehen, weil das native 30 Zoll TFT res ist ;)
Ich kenne Spiele die nur auf 1920x1200/1080 begrenzt sind (zumindest im Ingamemenü), zugegeben - es werden immer weniger. Keine Ahnung was die Entwickler dazu geritten hat 30 Zöller völlig zu ignorieren.
Wahrscheinlich liegts an den Konsolenportierungen, da haben die Entwickler nicht weiter nachgedacht.

AnarchX

2009-10-03, 13:35:57

Für Diskussionen über Downsampling, sofern nicht Fermi betreffend, gibt es doch einen passenden Thread. ;)

IVN

2009-10-03, 14:13:28

Jo, dann müßte doch DS auch völlig ohne Unterstützung des games gehen, DX10/11 könnte das dann nicht mehr verhindern.
Hmmm, jetzt geht das wohl auch, oder? Komplett unabhängig von der API, der GPU, und was sonst noch. Aber der LCD muss runterrechnen können.

Wobei ich nicht verstehe, wieso es da Probleme am PC gibt, wenn schon jeder ALDI-LCD-Fernseher runterrechnen kann? :confused:
Sollten die PC-Monitore nicht noch vielseitiger einsetzbar sein?

Zb. Stalker CS, 2560x1600, 4xAA, maximiert @ 4x GT300 Quad-Sli downsampled auf 1920x1200 :cool:
Der IQ-Boost wäre gering.

Coda

2009-10-03, 14:34:50

Gipsel hat das doch ganz gut erklärt. Wieviele Scheduler-Takte notwendig sind um eine warp abzusetzen hat nicht direkt etwas damit zu tun nach wie vielen Takten sie mit einer Instruktion fertig ist. Bei G80/GT200 können das 24 Takte sein, wenn es read-after-write-Abhängigkeiten auf Register gibt.
Es geht mir nur darum, dass es jetzt nur noch zwei "Execute" Pipeline Stages gibt und nicht wie bei allen anderen D3D10/11-GPUs vier. Vor allem wenn man bedenkt dass sie in diesen bei >1.5Ghz vollen denorm Support anbieten.

Ich finde das nach wie vor höchst ungewöhnlich. Ihr tut das als Anekdote ab was es imho überhaupt nicht ist. Das ist ganz erheblicher Mehraufwand für die Schaltungsdesigner und ich verstehe nach wie vor nicht was dadurch der große Vorteil sein soll.

Für 16 Threads jeweils 2 Instruktionen ergibt doch nicht so viel Sinn, oder? Es können schließlich Abhängigkeiten dazwischen sein.
Man bräuchte mehr wohl WARP-Scheduler für das was ich meine. Aber nun gut, ich kau den Besen wohl ;)

pervert

2009-10-03, 14:43:33

Schaut euch aber auch mal die fps-Bereiche an... Selbst mit der 3-fachen Performance der GTX285/2GB wäre das Spiel in diesen Settings noch zu langsam - und so schnell wird auch der GT300 nicht sein. In spielbaren Settings sollten 1,5GB durchaus noch eine Weile reichen... Für SLI dann eine 3GB Version.
Das kann man überhaupt nicht pauschalisieren.

Habe kürzlich NOLF2 (2002!) gespielt (1280x1024). Standard Speicherverbrauch 42 MB. Mit 4xAA ca. 80-90.

Mit 32xSAA 880MB!!! :freak:

Nicht jedes Spiel das den Speicher füllen kann, muss auch den Rest der Karte gleich überfordern. FPS waren natürlich mehr als genug zu sehen (GTX285/1GB).

Wer nur ein bisschen von der Norm abweicht und Downsampling oder Texturmods oder hohe AA Modi nutzen möchte, kann selbst mit heutigen Spielen bei hohen Auflösungen schnell in Speichernot geraten. Und wir reden über Grafikhardware für die Spiele von morgen!
Und da werden speziell die 1.5GB einer 384er Karte auf einem Dual Monster wieder zu wenig sein für die Zielgruppe die mit der Rechenleistung der Karte eigentlich etwas anzufangen wüsste. Und ich glaube nicht, dass NV eine GTX395 mit 6GB bringt :eek:

Aquaschaf

2009-10-03, 15:00:33

Nein, können nicht. Eine Warp führt auf alle Threads immer die gleiche Instruction aus.

Das weiß ich doch. Wie du es beschrieben hast klang es so als ob für 16 Threads jeweils 2 Instruktionen ausgeführt würden. Nicht für 32 jeweils eine.

Gast

2009-10-03, 15:04:19

Hey Leute, wo bekommt man denn solche Holzschrauben, ich möchte mir auch eine GT300 Karte bauen :D

Coda

2009-10-03, 15:14:20

Das weiß ich doch. Wie du es beschrieben hast klang es so als ob für 16 Threads jeweils 2 Instruktionen ausgeführt würden. Nicht für 32 jeweils eine.
Nein, was ich meinte ist, dass zwei Warps auf einer Vec16 ausgeführt werden für SP und nur ein Warp für DP.