PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Quo vadis ATI? Eine aktuelle Bestandsaufnahme


Seiten : 1 [2]

Demirug
2005-11-12, 12:33:02
Naja. Beim Shadermark sind sie auf gleicher Höhe. Dafür ist der R520 beim dynamischen Branching ist der R520 doppelt bis dreimal schneller und beim HSR auch doppelt so schnell. Wirklich platt macht der G70 den R520 auch nur bei manchen Shadern, wenn er FP16 rechnet und der R520 FP32...

Der Shadermark misst keine reine Shaderleistung.

Ich dachte du hast FEAR gemessen. Oder hast du die FEAR Shader einfach geschnappt und in einem Tool durchlaufen lassen, was es den IHVs unmöglich macht, die Shader zu optimieren?

Shader extrahiert und dann mit einem Spezialtool das alle sekundäreffekte eliminiert gemessen. Der Shadercompiler darf dabei natürlich arbeiten aber er hat keine Infos das es Fear Shader sind.

(Wieso rennt FEAR eigentlich so erbärmlich langsam?)

Woher soll ich das wissen? Ich habe nun wirklich nicht mehr die Zeit mich da Tagelang mit den ganzen Analysetools hinzusetzten und die Flaschenhälse zu suchen.

aths
2005-11-12, 12:37:07
(Wieso rennt FEAR eigentlich so erbärmlich langsam?)Erst wird gejammert, dass die DX9-Karten nicht ausgenützt würden. Dann bringt ein Spiel die Karten an ihre Grenzen, und das wird dann "erbärmlich" genannt.

aths
2005-11-12, 12:38:12
Naja. Beim Shadermark sind sie auf gleicher Höhe. Dafür ist der R520 beim dynamischen Branching ist der R520 doppelt bis dreimal schneller und beim HSR auch doppelt so schnell. Wirklich platt macht der G70 den R520 auch nur bei manchen Shadern, wenn er FP16 rechnet und der R520 FP32...Der G70 rechnet, abgesehen von NRM_PP, auch in FP32.

Beim dynamischen Branching kann der R520, je nach Situation, sehr viel schneller als nur 2x oder 3x so schnell sein wie der G70. Was für eine HSR-Methode meinst du?

Mr. Lolman
2005-11-12, 12:51:44
Der Shadermark misst keine reine Shaderleistung.
Ok. Aber praxistauglich ist das Ding trotzdem, oder?


Shader extrahiert und dann mit einem Spezialtool das alle sekundäreffekte eliminiert gemessen. Der Shadercompiler darf dabei natürlich arbeiten aber er hat keine Infos das es Fear Shader sind.
Andererseits kanns ja auch gut sein dass bei Atis Shadercompiler noch Optimierungspotential fürn R520 besteht.


Woher soll ich das wissen? Ich habe nun wirklich nicht mehr die Zeit mich da Tagelang mit den ganzen Analysetools hinzusetzten und die Flaschenhälse zu suchen.
Sry, hätt ja sein können, dass du das (von irgendwoher) weisst.

Mr. Lolman
2005-11-12, 12:51:55
Erst wird gejammert, dass die DX9-Karten nicht ausgenützt würden. Dann bringt ein Spiel die Karten an ihre Grenzen, und das wird dann "erbärmlich" genannt.

Weils imo in keinem guten Verhältnis zur optischen Qualität steht. NFSMW bekommt den Spagat besser hin.

Der G70 rechnet, abgesehen von NRM_PP, auch in FP32.
http://www.ixbt.com/video2/images/r520-syn/ps-complx-1.png


Beim dynamischen Branching kann der R520, je nach Situation, sehr viel schneller als nur 2x oder 3x so schnell sein wie der G70. Was für eine HSR-Methode meinst du?

Keine Ahnung, welche Methode digit-life verwendet hat: http://www.digit-life.com/articles2/video/r520-part2.html

Mr. Lolman
2005-11-12, 12:54:27
@Ailuros: SS:SE, OpenGL, 1024x768/4xAA/16xAF:

6800GT:____________ Radeon 9500:
http://img478.imageshack.us/img478/1700/11palenqueshot00008or.th.jpg (http://img478.imageshack.us/my.php?image=11palenqueshot00008or.jpg) http://img464.imageshack.us/img464/3337/11palenqueshot00014ui.th.jpg (http://img464.imageshack.us/my.php?image=11palenqueshot00014ui.jpg)

Demirug
2005-11-12, 13:03:08
Ok. Aber praxistauglich ist das Ding trotzdem, oder?

Wenn du wissen willst wie tod die IHVs einen Benchmark optimieren können.

Andererseits kanns ja auch gut sein dass bei Atis Shadercompiler noch Optimierungspotential fürn R520 besteht.

Genau so viel wie für den R420.

aths
2005-11-12, 14:08:25
Weils imo in keinem guten Verhältnis zur optischen Qualität steht. NFSMW bekommt den Spagat besser hin.Die optische Qualität ist stark auch eine Frage des Artworks. Da kann man die Shader noch so lange analyisieren – die besten Shader können nutzlos sein, wenn die Texturen (bzw. generell Eingangsdaten) nicht stimmen.

http://www.ixbt.com/video2/images/r520-syn/ps-complx-1.pngDa sagt er: "Forbidden
You don't have permission to access /video2/images/r520-syn/ps-complx-1.png on this server."

Keine Ahnung, welche Methode digit-life verwendet hat: http://www.digit-life.com/articles2/video/r520-part2.htmlJa toll jetzt haste mal n Benchmark und denkst, daraus kann man gleich ablesen, wie viel schneller die eine oder andere Architektur ist? Was die Granularität angeht, hab ich doch im R520-Überblick geschrieben wie es aussieht. Der Benchmark zeigt, wie schnell die Karten bei diesem Benchmark sind – es wird keine generelle Aussage getroffen, wie viel schneller der R520 beim Dynamic Branching ist. Den Artikel-Link finde ich reichlich nutzlos – wo genau wird da Dynamic Branching und wo "HSR" getestet? Wenn du nicht weißt, welche HSR-Methode genutzt wird, warum zitierst du den Artikel?

Black-Scorpion
2005-11-12, 14:54:53
Da sagt er: "Forbidden
You don't have permission to access /video2/images/r520-syn/ps-complx-1.png on this server."
Linkschutz
Linkadresse kopieren und in einen neuen Tab oder neuem Fenster öffnen.

Ailuros
2005-11-12, 16:09:57
@Ailuros: SS:SE, OpenGL, 1024x768/4xAA/16xAF:

6800GT:____________ Radeon 9500:
http://img478.imageshack.us/img478/1700/11palenqueshot00008or.th.jpg (http://img478.imageshack.us/my.php?image=11palenqueshot00008or.jpg) http://img464.imageshack.us/img464/3337/11palenqueshot00014ui.th.jpg (http://img464.imageshack.us/my.php?image=11palenqueshot00014ui.jpg)

Und das soll mir genau was sagen? Probiel mal den Technologie Test und renn mal vor und zurueck auf beiden mit texture LOD auf "normal" und nein in stillen Screenshots und schon gar nicht mit albernem alpha tested Gruenzeug kann man das was ich meine sehen.

***edit: wieso SS:SE in OGL ueberhaupt? Bei SS2 hast Du eben guten Grund OGL zu benutzen wegen der Leistung. OGL ist in SS:SE langsamer als in D3D.

Quasar
2005-11-12, 16:13:07
http://www.ixbt.com/video2/images/r520-syn/ps-complx-1.png

Bitte sag' mir jetzt nicht, im Shader für Cook-Torrance-Lighting kommen viele Normalisierungen vor und bitte sage mir jetzt auch nicht, dass dieser Shader viele Temps frisst.

Ailuros
2005-11-12, 16:14:07
Erst wird gejammert, dass die DX9-Karten nicht ausgenützt würden. Dann bringt ein Spiel die Karten an ihre Grenzen, und das wird dann "erbärmlich" genannt.

Das Problemchen ist eben dass ich mich fuehle dass der etwas starke Leistungsverlust nicht voll in IQ ausgezahlt wird. Vielleicht hab ich zu hohe Erwartungen aber ich haette viel mehr erwartet als nur das.

Coda
2005-11-12, 16:28:20
Erst wird gejammert, dass die DX9-Karten nicht ausgenützt würden. Dann bringt ein Spiel die Karten an ihre Grenzen, und das wird dann "erbärmlich" genannt.Ich bezweifle dass in FEAR wirklich die Shader der große Bottleneck sind.

Mr. Lolman
2005-11-12, 22:09:16
Und das soll mir genau was sagen? Probiel mal den Technologie Test und renn mal vor und zurueck auf beiden mit texture LOD auf "normal" und nein in stillen Screenshots und schon gar nicht mit albernem alpha tested Gruenzeug kann man das was ich meine sehen.

Alphablending mein Guter.(ich könnts auch ausschalten, aber in Wahrheit gefällt die wohl eher die grüne Grastextur nicht ;)) BTW: Das Lod war auf 0.0 und die Bildschärfe ist trotzdem ein Unterschied wie Tag und Nacht.


***edit: wieso SS:SE in OGL ueberhaupt? Bei SS2 hast Du eben guten Grund OGL zu benutzen wegen der Leistung. OGL ist in SS:SE langsamer als in D3D.

Serious Sam war iirc doch immer OpenGL mit D3d als Dreingabe. Sry kann sein, dass es am NV40 mit d3d schneller ist, aber ich habs bis jetzt immer mit OpenGL gespielt. (V.A. weil ich damals noch ne Voodoo5 im Rechner hatte und mit der war OpenGL definitiv flotter)

Und die SS2 OpenGL Leistung ist auch nicht viel höher als unter D3D. Meistens weniger als 5% (wenn man die Details angleicht) Ich verwende für BQ Vergleiche v.A. deswegen OpenGL weil NV unter D3d mit dem Clamp Dinge anstellt wie sie gerade lustig sind. (soll heissen, dass zumindest bei SS2 auch mit deaktiviertem Clamp ein negatives tex_flodbias unter d3d weit geringere Auswirkungen hat wie unter OpenGL -> es wirkt einfach nicht negativ genug. Gibt man in der Konsole dann mal GFXrestart ein, dann lädt er 1. mal ewig und 2. sind die fps danach deutlich niedriger (sicher bis ~20%) und 3. funktioniert das LODBias plötzlich so wies soll. Vll. nur ein Einzelfall, aber bevor ich mir da ne potentielle Fehlerquelle in meine Posts hol, mach die die Screenshots nach möglichkeit gleich unter OpenGL. Denn selbst ich hab tw. was besseres zu tun, als den ganzen Tag BQ-Polizei zu spielen. ;)

Gespielt hab ich das Spiel mit d3d, da man bei OpenGL teile des Occlussioncullings deaktivieren müsste, damit das tw. auftretende Bildfalckern weggeht. (was sicher tw. 20-40% Leistung kostet)

Mr. Lolman
2005-11-12, 22:26:10
Die optische Qualität ist stark auch eine Frage des Artworks. Da kann man die Shader noch so lange analyisieren – die besten Shader können nutzlos sein, wenn die Texturen (bzw. generell Eingangsdaten) nicht stimmen.

Ja dann haben sie eben das Artwork verbockt. FEAR ist imo trotzdem kein Nextgentitel, auch wenns so performed...


Ja toll jetzt haste mal n Benchmark und denkst, daraus kann man gleich ablesen, wie viel schneller die eine oder andere Architektur ist? Was die Granularität angeht, hab ich doch im R520-Überblick geschrieben wie es aussieht. Der Benchmark zeigt, wie schnell die Karten bei diesem Benchmark sind – es wird keine generelle Aussage getroffen, wie viel schneller der R520 beim Dynamic Branching ist. Den Artikel-Link finde ich reichlich nutzlos – wo genau wird da Dynamic Branching und wo "HSR" getestet? Wenn du nicht weißt, welche HSR-Methode genutzt wird, warum zitierst du den Artikel?

Weil das der 1. war, den ich bei der Hand hatte. Ich such dir sicher nicht die ganzen Benchmarks raus.

Wegen HSR : Weisst du etwa, was für HSR getestet wird? Ich schrieb von HSR generell und lehnte mich dabei nichteinmal so weit aus dem fenster wie jemand der behauptet, dass der G70 den R520 shaderleistungsmässig plattmacht. BTW: Dass Atis R420 beim HSR tw. enorme Vorteile hat, geht auch aus Leos theoretischen G70 Benchmarks hervor.

Das Nachtreten ist zwar unfein, aber wer ist das schon nicht in dem Thread: Habt ihr nicht behauptet, dass der NV40 den R420 genauso abzieht? Als ich dann die Shaderleistung zw. NV40 und R420 anhand von Leos Benchmarks prozentuell verglichen hatte und der R420 gewann, interessierte es auch niemanden. Auch hab ich noch nirgends was von NVs Overdrawschwäche gelesen (der Aquamark und GTA-SA zeigens aber deutlich), genausowenig wie die per default miese NV-AF-BQ für euch solang kein Thema war, bis es im Forum schon drunter und drüber ging...

Ailuros
2005-11-13, 04:06:31
Alphablending mein Guter.(ich könnts auch ausschalten, aber in Wahrheit gefällt die wohl eher die grüne Grastextur nicht ;)) BTW: Das Lod war auf 0.0 und die Bildschärfe ist trotzdem ein Unterschied wie Tag und Nacht.

Komischerweise kann ich mich irgendwie an alpha tests erinnern. Mir geht es nicht um Bildschaerfe sondern um generelles aliasing was auf Radeons stets leicht intensiver war in SS:SE. Und nein man kann es im intro mit dem Gruenzeug nicht sehen. Der Technologie-Test ist nur ein click im Hauptmenu und es gibt zahllose aehnliche Szenen im Spiel.


Serious Sam war iirc doch immer OpenGL mit D3d als Dreingabe. Sry kann sein, dass es am NV40 mit d3d schneller ist, aber ich habs bis jetzt immer mit OpenGL gespielt. (V.A. weil ich damals noch ne Voodoo5 im Rechner hatte und mit der war OpenGL definitiv flotter)

Aechz mein "brainfart"; SS:SE ist natuerlich OGL und D3D ist um einiges langsamer.

Und die SS2 OpenGL Leistung ist auch nicht viel höher als unter D3D. Meistens weniger als 5% (wenn man die Details angleicht)

5%? Ich glaub ich muss mir das Zeug nochmal naeher ansehen.

Ich verwende für BQ Vergleiche v.A. deswegen OpenGL weil NV unter D3d mit dem Clamp Dinge anstellt wie sie gerade lustig sind. (soll heissen, dass zumindest bei SS2 auch mit deaktiviertem Clamp ein negatives tex_flodbias unter d3d weit geringere Auswirkungen hat wie unter OpenGL -> es wirkt einfach nicht negativ genug. Gibt man in der Konsole dann mal GFXrestart ein, dann lädt er 1. mal ewig und 2. sind die fps danach deutlich niedriger (sicher bis ~20%) und 3. funktioniert das LODBias plötzlich so wies soll. Vll. nur ein Einzelfall, aber bevor ich mir da ne potentielle Fehlerquelle in meine Posts hol, mach die die Screenshots nach möglichkeit gleich unter OpenGL. Denn selbst ich hab tw. was besseres zu tun, als den ganzen Tag BQ-Polizei zu spielen. ;)

Die BQ-Polizei spielst Du so oder so und ich hab bei bestem Willen auch nicht gerade unendlich Zeit. LOD war schon immer anders in OGL auf GeForces da brauch ich nicht lange rumforschen oder unendliche screenshots hochladen. Gleiches gilt auch fuer UT2k3/4 als weiteres Beispiel.

***edit: ich bin gerade wieder dabei einen kleinen Artikel zu schreiben; zwar werde ich auch SS2 benutzen aber da sich das Ding auf andere Aspekte konzentrieren wird, bin ich noch nicht sicher ob ich Zeit dafuer finde.

Mr. Lolman
2005-11-13, 12:26:29
Bitte sag' mir jetzt nicht, im Shader für Cook-Torrance-Lighting kommen viele Normalisierungen vor und bitte sage mir jetzt auch nicht, dass dieser Shader viele Temps frisst.

Ja keine Ahnung wieviele Temps und Normalisierungen man für so eine Formel braucht:

http://img391.imageshack.us/img391/4719/cooktorrance23bd.gif

aths
2005-11-13, 18:27:25
Ja dann haben sie eben das Artwork verbockt. FEAR ist imo trotzdem kein Nextgentitel, auch wenns so performed...Ja ... was sagt uns das? Kann es denn nicht sein, dass die Entwickler mit neuer Shadertechnik erst mal warm werden müssen? Ich habe Fear noch nicht gesehen, finde aber den entgegengesetzten Weg à la HL2 auch nicht besonders toll: Dort ist die Geschwindigkeit ok, die Grafik dennoch alles andere als Nexgen für 2004. Betrachtet man den abnehmenden Grenzertrag, kostet es eine Menge Rechenleistung, die Grafikqualität entscheidend zu verbessern – vom teuren hochwertigen Artwork abgesehen. Das Artwork ist als Kostentreiber wahrscheinlich (auf die meisten Spiele bezogen) der "Flaschenhals" der Grafikqualität.

Viele Leute sind von der Doom-3-Grafik nicht so begeistert – für mich ist Doom 3 ein Grund, es dereinst auf einem Highend-System zu spielen. Wobei die Texturqualität einerseits durchwachsen ist, und die Interaktionsmöglichkeit mit der Umwelt andererseits sehr begrenzt – so kann man Bildschirme nicht kaputtschießen. Das ging schon bei Max Payne.

(Wenn ich das noch anmerken darf: Das Wort "performt" würde ich nicht mit -ed hinten schreiben.)

Weil das der 1. war, den ich bei der Hand hatte. Ich such dir sicher nicht die ganzen Benchmarks raus.Der erstbeste Benchmark ist selten der beste. Worauf ich hinaus will ist, dass man Benchmarks ohne Architekturverständnis schlecht bewerten kann. Ohne einen einzigen Benchmark dazu gesehen zu haben weiß ich, dass der R520 den G70 beim dynamic Branching fast um jeden beliebigen Faktor übertreffen kann – sofern der Benchmark entsprechend konstruiert ist. Nun habe ich aber schon (ansonsten unveröffentlichte) Benchmarks gesehen, die seltsamerweise zeigen, dass der NV40 effizienter brancht als der G70. Fehlerursache: Die Shader liefen auf dem G70 natürlich schneller, und zwar so schnell, dass der relative Performancegewinn durchs Branching ggü. dem NV40 abnahm. Da muss man höllisch aufpassen, um zu gültigen Ergebnissen zu kommen.

Wegen HSR : Weisst du etwa, was für HSR getestet wird? Ich schrieb von HSR generell und lehnte mich dabei nichteinmal so weit aus dem fenster wie jemand der behauptet, dass der G70 den R520 shaderleistungsmässig plattmacht. BTW: Dass Atis R420 beim HSR tw. enorme Vorteile hat, geht auch aus Leos theoretischen G70 Benchmarks hervor.

Das Nachtreten ist zwar unfein, aber wer ist das schon nicht in dem Thread: Habt ihr nicht behauptet, dass der NV40 den R420 genauso abzieht? Als ich dann die Shaderleistung zw. NV40 und R420 anhand von Leos Benchmarks prozentuell verglichen hatte und der R420 gewann, interessierte es auch niemanden. Auch hab ich noch nirgends was von NVs Overdrawschwäche gelesen (der Aquamark und GTA-SA zeigens aber deutlich), genausowenig wie die per default miese NV-AF-BQ für euch solang kein Thema war, bis es im Forum schon drunter und drüber ging...HSR heißt "Hidden Surface Removal" – was jede Karte beherrscht, sei es "nur" via Z-Testing. Zu sprechen, HSR würde schneller sein, ohne zu sagen welches HSR gemeint ist, sagt gar nichts. Welche Benchmarks von Leo zeigen, dass ATIs R420 beim HSR "enorme Vorteile" hat?

Messen Leos Benchmarks zur Shaderleistung wirklich die reine Shaderleistung?

Was die Vermeidung vom Overdraw angeht, hatte ich glaube ich bezüglich Doom3 erwähnt, dass der R420 im besten Fall mehr pro Takt wegschneiden kann, der NV40 dafür eine feinere Granularität bietet. Schreib doch was zum Overdraw, wenn der Text in lesbarem Deutsch ist, wüsste ich nicht warum Leo ihn nicht veröffentlichen würde.

Ein Vorteil in der Granularität von arithmetischen Shadern hat natürlich der R520 – ein MAD pro ALU, nicht zwei. Der G70, der niedrigeren Takt durch mehr Pipes ausgleicht, hat zwei MADs – die braucht man nicht immer pro Takt. Wenn man sie braucht, gehts rund – dass Demirug beim G70 deutlich höhere reine Shaderleistung als beim R520 misst, halte ich für verständlich. Dass reine Shaderleistung wenig über übliche Spiele-Leistung aussagt, ist ebenso einsichtig, obwohl der Anteil an Arithmetik in Shadern tendenziell zunimmt. Schade, dass der R520 ohne spezielle Profile seinen Speichercontroller nicht sonderlich effektiv nutzen kann, aber die 8x-Unterteilung ist in meinen Augen ein sinnvoller Fortschritt, und ich frage mich wieso der G70 sowas nicht hat. Könnte er imo brauchen. Der G70 ist in großen Teil ein traditioneller Streamdaten-Prozessor. Einmal in Fahrt, schwer zu schlagen – dafür bietet der R520 die Möglichkeit, mittels bedingten Sprüngen im Pixelshader richtig Rechenzeit zu sparen. Baut ATI noch schön neue ALUs ein, hat NV schlechte Karten.

Die Beschreibung der G70-ALU liest sich wie die Wunschliste von Entwicklern: "Ach, wir hätten aber gerne zwei volle MADs! Und weil wir hin und wieder normalisieren müssen, ein extra NRM!" Dann, bei der Umsetzung, mussten Kompromisse eingegangen werden: NRM-Beschleunigung nur für FP16 (was für die Zwecke allerdings reicht), dann nur 4 Temps pro Pixel (was unter Umständen nicht reicht) und so weiter.

Die Beschreibung der R520-ALU liest sich für mich wie die Entscheidung eines kühlen Kopfes: "Jungs, jeder Transistor ist kostbar. Lasst uns dafür sorgen, jeden Teil des Chips pro Takt nach Möglichkeit arbeiten zu lassen".

Coda
2005-11-13, 18:35:58
Ja keine Ahnung wieviele Temps und Normalisierungen man für so eine Formel braucht:Solche rein arithmetischen Formeln schmecken G70 auf jedenfall besser als R520.

Quasar
2005-11-13, 19:01:39
Solche rein arithmetischen Formeln schmecken G70 auf jedenfall besser als R520.
Es ging eigentlich um FP16 – und warum Cook-Torrance-Lighting im PS2.A-Profil mit FP16 schneller als mit voller Präzision bei dem XBit-Test ist.

Coda
2005-11-13, 20:45:20
In der Formel ist so ja gar keine normalisierung drin (zumindest nicht sofort ersichtlich), also wird es wahrscheinlich an den Temps liegen.

Coda
2005-11-13, 20:46:23
OGL ist in SS:SE langsamer als in D3D.Der D3D-Port kam ja erst mit einem Patch und war nicht schneller iirc.

Sry kann sein, dass es am NV40 mit d3d schneller istDas wäre höchst ungewöhnlich.

Bzgl. HSR: nVIDIA hat afaik kein Hier-Z, das kann Vor- und Nachteile haben.