7800GTX hat 48 ALUs? [Archiv]

3d

2006-03-22, 17:23:42

laut dieser seite: ATI-News (http://www.ati-news.de/HTML/Berichte/Sapphire/X1900-XTX/Seite3.shtml), hat die 7800GTX 2 pixelshadereinheiten pro pipeline. das wären dann doch 48 ALUs oder?
laut 3dcenter hat die aber 24 pixelshadereinheiten.

was ist denn jetzt richtig? und wieviel hat die 7900GT(X)?
bin jetzt etwas verwirrt und hab leicht den überblick verloren.

(oder sind pixelshadereinheiten und ALUs verschiedene sachen?)

Spasstiger

2006-03-22, 17:36:48

Zu diesem Thema empfiehlt sich folgender Artikel: Die neuen Features im G70-Chip (http://www.3dcenter.org/artikel/2005/06-26_a.php).

Der G70-Chip kann zwei MAD-Anweisungen auf ein Pixel je Pixelpipeline anwenden. Allerdings gibt es auch Rechenoperationen, die nur von einer der beiden Shadereinheiten ausgeführt werden können.
Bei ATI im R580 können dagegen alle Shadereinheiten alles.

DrumDub

2006-03-22, 17:38:03

pixelshadereinheiten hat der g70 und auch der g71 24. man kann diese als zwei alus zählen, wobei dann der begriff alu nicht mehr stimmt, da es zwei unterschiedliche alus sind, die nicht dasselbe können.

3d

2006-03-22, 17:42:40

aaahhh, die MADs.
schön kompliziert ist das geworden. :rolleyes:

also kann man sagen physikalisch 24 aber logisch 48?

warum ist die 7800GTX dann aber nicht viel schneller als die 1800XT?
gibt es gar keine spiele die dieses "feature" nutzen?
oder sind die G70 pipes so uneffizient?

Coda

2006-03-22, 17:43:58

warum ist die 7800GTX dann aber nicht viel schneller als die 1800XT?Weil die Pixelshader-Leistung sehr selten der Bottleneck ist.

IVN

2006-03-22, 17:50:19

aaahhh, die MADs.
schön kompliziert ist das geworden. :rolleyes:

also kann man sagen physikalisch 24 aber logisch 48?

warum ist die 7800GTX dann aber nicht viel schneller als die 1800XT?
gibt es gar keine spiele die dieses "feature" nutzen?
oder sind die G70 pipes so uneffizient?
Sie ist es auch,wenn man die PS limiteren laesst.Das geschieht in hohen Aufloesungen ohne AA und AF.

Spasstiger

2006-03-22, 17:54:45

warum ist die 7800GTX dann aber nicht viel schneller als die 1800XT?
gibt es gar keine spiele die dieses "feature" nutzen?
oder sind die G70 pipes so uneffizient?
Dazu sollte man folgenden Artikel anschauen: Ein erster Blick auf die R520-Architektur (http://www.3dcenter.org/artikel/2005/10-05_a.php).
Das ist wohl der wichtigste Punkt:
ATI hat es dabei aber nicht belassen, sondern stattete den R520 mit einem Threading-Algorithmus aus. Das heißt, neue Quads, die berechnet werden müssen, kommen in die am wenigsten belastete Pipeline. Das bietet Nvidia im Prinzip auch, jedoch ist das Optimierungspotenzial im R520 größer: Sobald eine Quadpipe freie Kapazität hat, bekommt sie einen neuen Thread. Wenn also nicht gerechnet werden kann, weil das Textursampling noch nicht abgeschlossen ist, wird der Thread "schlafen gelegt", und die Pipeline rechnet dann erst einmal an an einem anderen Thread. Ist das Textursample endlich fertig, wird der Thread wieder "aufgeweckt" und rechnet weiter. Damit lassen sich Textursampling-Latenzen hervorragend verstecken – jedenfalls bis zu einer bestimmten Grenze.

3d

2006-03-22, 18:03:34

wenn die theoretisch aber 3x mehr shaderpower haben soll, finde ich das ergebniss etwas mau.
http://www.ati-news.de/Bilder/Sapphire/X1900-XTX/Bench/fear/1600.png
http://www.ati-news.de/Bilder/Sapphire/X1900-XTX/Bench/cod2/1600.png

auch wenn die benchmarks bei anderen seiten nicht so deutlich ausfallen, kann man doch sagen, daß man von den "theoretisch 48 logischen ALUs" nicht viel sieht.

(wie, Coda hat ein neues bildchen und ist kein 3d guru mehr? abgestiegen? runtergestuft? gedowngraded?) :D

IVN

2006-03-22, 18:43:53

wenn die theoretisch aber 3x mehr shaderpower haben soll, finde ich das ergebniss etwas mau.
http://www.ati-news.de/Bilder/Sapphire/X1900-XTX/Bench/fear/1600.png
http://www.ati-news.de/Bilder/Sapphire/X1900-XTX/Bench/cod2/1600.png

auch wenn die benchmarks bei anderen seiten nicht so deutlich ausfallen, kann man doch sagen, daß man von den "theoretisch 48 logischen ALUs" nicht viel sieht.

(wie, Coda hat ein neues bildchen und ist kein 3d guru mehr? abgestiegen? runtergestuft? gedowngraded?) :D
Hier kann man es wunderbar sehen. (http://www.xbitlabs.com/articles/video/display/radeon-x1900xtx_20.html)
-Die 7800GTX512 hat sogar einen Taktnachteil.(550vs.650)

Gast

2006-03-22, 19:08:25

Der G70-Chip kann zwei MAD-Anweisungen auf ein Pixel je Pixelpipeline anwenden. Allerdings gibt es auch Rechenoperationen, die nur von einer der beiden Shadereinheiten ausgeführt werden können.
Bei ATI im R580 können dagegen alle Shadereinheiten alles.

afiak können auch bei ATI nicht alle ALUs alle spezialfunktionen.

Gast

2006-03-22, 19:09:25

wenn die theoretisch aber 3x mehr shaderpower haben soll, finde ich das ergebniss etwas mau.
http://www.ati-news.de/Bilder/Sapphire/X1900-XTX/Bench/fear/1600.png
http://www.ati-news.de/Bilder/Sapphire/X1900-XTX/Bench/cod2/1600.png

auch wenn die benchmarks bei anderen seiten nicht so deutlich ausfallen, kann man doch sagen, daß man von den "theoretisch 48 logischen ALUs" nicht viel sieht.

fear ist lange nicht so shaderlimitiert wie manche glauben

LordDeath

2006-03-22, 19:13:41

Sie ist es auch,wenn man die PS limiteren laesst.Das geschieht in hohen Aufloesungen ohne AA und AF.

steigen eigentlich die pixelshader-anforderungen linear zur auflösung? also doppelt so hohe auflösung = doppelt soviele arbeit bei den ALUs?

IVN

2006-03-22, 19:20:49

steigen eigentlich die pixelshader-anforderungen linear zur auflösung? also doppelt so hohe auflösung = doppelt soviele arbeit bei den ALUs?
Es gibt keine Antwort die fuer alle aehnliche Fragen korrekt ist.(es gibt keine Pauschalaussage die einer Analyze trotzen koennte)

Gast

2006-03-22, 19:37:15

steigen eigentlich die pixelshader-anforderungen linear zur auflösung? also doppelt so hohe auflösung = doppelt soviele arbeit bei den ALUs?

solange die durchschnittliche anzahl an PS-operationen/pixel gleich bleibt ja.

Neomi

2006-03-22, 20:06:05

solange die durchschnittliche anzahl an PS-operationen/pixel gleich bleibt ja.

Je höher die Auflösung ist, desto größer ist die Zahl an Pixeln pro Dreieck. Damit sinkt der Verschnitt und alles funktioniert ein wenig effektiver. Aber prinzipiell ist es schon so, wie du sagst.

On Topic:
Eine "Pixelpipeline" (die es im klassischen Sinne nicht mehr lange gibt) kann beim R580 an drei verschiedenen Pixeln parallel arbeiten, beim G70 nur an einem. Die kann zwar den einen etwas effektiver und schneller abarbeiten, aber trotzdem immer nur einen Pixel gleichzeitig.

DFDFE

2006-03-22, 20:28:45

Je höher die Auflösung ist, desto größer ist die Zahl an Pixeln pro Dreieck. Damit sinkt der Verschnitt und alles funktioniert ein wenig effektiver. Aber prinzipiell ist es schon so, wie du sagst.

On Topic:
aber trotzdem immer nur einen Pixel gleichzeitig.

Und irgend wann blockieren dann die Alus ?!!!!

Gast

2006-03-22, 20:49:45

(wie, Coda hat ein neues bildchen und ist kein 3d guru mehr? abgestiegen? runtergestuft? gedowngraded?) :DCoda hatte doch noch nie den Usertitel "3D-Guru", oder irre ich mich da?

MikBach

2006-03-22, 20:52:14

Coda hatte doch noch nie den Usertitel "3D-Guru", oder irre ich mich da?
Richtig. Wobei ich nicht glaube, dass man von dem Titel 3D-Guru runtergestufft wird.

3d

2006-03-22, 20:57:56

ich meine er hatte den titel.

Neomi

2006-03-22, 21:28:44

Und irgend wann blockieren dann die Alus ?!!!!

Inwiefern sollten die blockieren? Stell dir einfach ein Quadrat vor, das auf dem Bildschirm gezeichnet wird, unterteilt in zwei Dreiecke. Es werden immer Pixelquads berechnet. Wenn das Quadrat genau ein Pixelquad überdeckt, dann wird dieses Quad für beide Dreiecke berechnet, also 8 berechnete Pixel (2 Quads) brutto für 4 Pixel netto, quasi 50% Effizienz. Ist das Quadrat vier mal so groß (also zwei mal so hoch und zwei mal so breit), überdeckt es 4 Pixelquads, jedes der beiden Dreiecke überdeckt 3 Quads (je einen ganz und zwei halb). Damit werden also 24 Pixel (2x 3 Quads) brutto berechnet, um netto 16 Pixel zu erhalten. Die Effizienz steigt dank größerer Dreiecke auf 66%. Und da die gleichen Dreiecke bei einer höheren Auflösung jeweils mehr Pixel überdecken, ist das nicht rein linear umrechenbar.

Neomi

2006-03-22, 21:36:48

(wie, Coda hat ein neues bildchen und ist kein 3d guru mehr? abgestiegen? runtergestuft? gedowngraded?) :D

Keine Ahnung, ob das so war (habe nie drauf geachtet), aber ist das nicht völlig egal, wer jetzt was für einen Titel hat? So eine zur Schau gestellte Schadenfreude ist doch kindisch.

Coda

2006-03-22, 23:58:49

Coda hatte doch noch nie den Usertitel "3D-Guru", oder irre ich mich da?Nein, solang mir niemand was freiwillig verleiht werde ich auch nicht danach betteln.

deekey777

2006-03-23, 00:20:37

(wie, Coda hat ein neues bildchen und ist kein 3d guru mehr? abgestiegen? runtergestuft? gedowngraded?) :D
Das ist alles andere als nett. Und nein, Coda hatte nie einen Sondertitel.

Über Sondertitel entscheidet weiterhin der Boss, da können sich die User bewerben, bis sie grün werden, da passiert nichts. Es sei denn, man sprengt seinen PC und nimmt alles auf Video auf.

So oder so: Die 7800GTX hat 48 ALUs, die 7600GT 24.

Gast

2006-03-23, 09:26:47

Bei Nvidia blockieren die Tmus..

reunion

2006-03-23, 10:42:13

So oder so: Die 7800GTX hat 48 ALUs, die 7600GT 24.

Definitionssache.
Eine 7800GTX kann jedenfalls immer nur maximal an 24 Pixel parallel arbeiten. Nach deiner ansicht hätte ein R580 96 ALUs.

IVN

2006-03-23, 12:08:11

Definitionssache.
Eine 7800GTX kann jedenfalls immer nur maximal an 24 Pixel parallel arbeiten. Nach deiner ansicht hätte ein R580 96 ALUs.
Sure :rolleyes:

Coda

2006-03-23, 12:25:36

Nach deiner ansicht hätte ein R580 96 ALUs.Ist ja auch korrekt. Eine ALU ist einfach nur eine Recheneinheit, die Anordnung ist dabei völlig irrelevant. Es spielt auch keine Rolle welche Ops diese ausführen können.

Aber so ein Vergleich ist eh völlig dämlich. Wenn jemand CPUs an der ALU-Zahl vergleichen würde und darauf auf die Leistung schließt würde man ihn genauso auslachen.

Wobei der Begriff ALU eigentlich immer für Integer-Einheiten verwendet wurde, ich weiß auch nicht warum sich das bei GPUs eingebürgert hat.

ShadowXX

2006-03-23, 12:31:31

afiak können auch bei ATI nicht alle ALUs alle spezialfunktionen.

Doch...können Sie.

Bei ATI ist jeder der 48Alus ein kompletter Pixelshader ala r300 (natürlich + verbesserungen).
Alle 48 könne also MADD + ADD + SpecialFunktions.
Zusätzlich sind die TMUs mehr oder weniger entkoppelt (Sie blockieren zumindest keine ALUs).

Also ist bei ATI ein PS = eine ALU (wobei man sagen müsste, das diese "eine" ALU aus 2 Komponenten besteht, diese aber eigentlich von allen als Einheit betrachtet wird...dadurch kommt reunion dann auch auf die 96).

Bei nV sieht es so aus, das ein PS immer aus 2 (klar getrennten) ALUs besteht, wovon beide ein MADD, aber nur einer von beiden jeweils bestimmte SF kann)
Zusätzlich blockieren TexOps die erste der beiden ALUs (inwieweit die zweite dann doch noch rechnen kann, oder auch nicht, ist AFAIK noch nicht ganz geklärt).

Ums weiter zu verkomplizieren sind die PS bei ATI nebenläufig (also parallel) geschaltet, während bei nV die beiden ALUs die einen PS ergeben seriell geschaltet sind.

Bei nV ist PS dann != ALU, da ein PS aus 2 ALUs besteht.

Das ganze ist natürlich extrem schwer auseinanderzunehmen und es hängt auch sehr stark von der Betrachungsweise ab, da die Architekturen sich doch ganz schön unterscheiden, auch wenn man das erst auf den 2ten Blick bemerkt....
Eben auch aus diesem Grund ist es IMHO etwas unsinnig die FLOPs der beiden gegeneinanderzustellen, da diese überhaupt nicht aussagen, wer von beiden die PS-Power besser auf die Strasse bekommt.
(Als reine oberflächliche erste Grundbetrachtung helfen die FLOPs dagegen schon...)

Coda

2006-03-23, 12:32:21

Doch...können Sie.Nein. Die eine kann MADD, die andere nicht in einem Shaderprozessor.

Also ist bei ATI ein PS = eine ALUNein, eben nicht. Shaderprozessor != ALU.

Nochmal: ALU ist einfach eine Recheneinheit, was diese können, wie diese angeordnet oder auf dem Chip verteilt sind spielt keine Rolle und die Anzahl war auch noch nie ein guter Performanceindikator. Da spielen andere Sachen eine viel wichtigere Rolle.

ShadowXX

2006-03-23, 12:38:00

Nein. Die eine kann MADD, die andere nicht in einem Shaderprozessor.

Nein, eben nicht. Shaderprozessor != ALU.

Bitte lies meinen Text ganz durch....dann verstehst du auch die Aussage.

Bisher wurde bei ATI immer ALU = PS genommen (seit r300)....das das ganze eigentlich 2 ALUs sind, ist mir durchaus bewußt, wurde aber quasi immer von jedem unterschlagen.

Wir können jetzt natürlich anfangen das ganze noch weiter auseinanderzunehmen, aber dann müsste a.) sehr mehrere Artikel auf 3DC umgeschrieben werden und b.) würde wir die Leute endgültig vollständig verwirren.

Aber prinzipiel gebe ich dir natürlich recht. Es müsste eigentlich heissen:
G70/71: 24 PS, 48ALUs
r520: 16PS, 32 ALUs
r580: 48 PS, 96 ALUs

reunion

2006-03-23, 14:12:18

Sure :rolleyes:

Ist was? :|

Also ist bei ATI ein PS = eine ALU (wobei man sagen müsste, das diese "eine" ALU aus 2 Komponenten besteht, diese aber eigentlich von allen als Einheit betrachtet wird...dadurch kommt reunion dann auch auf die 96).

Bei nV sieht es so aus, das ein PS immer aus 2 (klar getrennten) ALUs besteht, wovon beide ein MADD, aber nur einer von beiden jeweils bestimmte SF kann)

Diese zählweise ist einfach dadurch entstanden, dass ATi selbst diese beiden Einheiten immer nur als eine ALU betrachtet hat, während nV eben schon immer beide Einheiten extra gezählt hat.

Ailuros

2006-03-23, 14:54:02

Diese zählweise ist einfach dadurch entstanden, dass ATi selbst diese beiden Einheiten immer nur als eine ALU betrachtet hat, während nV eben schon immer beide Einheiten extra gezählt hat.

Die ADD-Funktion der mini-ALU gab es schon seit R3xx.

Wenn man ALUs so oder so zaehlt kommt die eine oder andere Seite mit idiotischen Zahlen an und wenn man versucht theoretische FLOPs pro SIMD Kanal auszurechnen (was IMHO eine etwas nuechterne Art das Ganze zu verstehen) wird gleich wieder gemeckert.

Die Frage ist wer, wieso und was genau eine "ALU" bezeichnet. Hat Deine 6600GT nun 8 oder 16 ALUs? Soll ich nur die MADD der ersten subunit in Betracht nehmen oder auch den MUL der zweiten subunit? Sag ich dann 16 ALUs ist dann nicht auch irrefuehrend im Vergleich zu G7x usw. usw.

ATI behauptet hartnaeckig dass sie unter allen Umstaenden die ADDs benutzen kann, was ich ohne Beweise die klar dagegensprechen auch gezwungen bin zu akzeptieren; ein etwas muerbes Gefuehl hab ich damit schon....

Dementsprechend nochmal der ganze bloede Rechenfusel (und ja nur rein theoretisch):

NV4x ALU/SIMD Kanal:

4D MADD = 8 FLOPs
4D MUL = 4 FLOPs

--------------------------------
12 FLOPs

G7x ALU/SIMD Kanal:

4D MADD = 8 FLOPs
4D MADD = 8 FLOPs

--------------------------------
16 FLOPs

R520 ALU/SIMD Kanal:

4D MADD = 8 FLOPs
4D ADD = 4 FLOPs

---------------------------------
12 FLOPs

R580 ALU/SIMD Kanal:

4D MADD = 8 FLOPs
4D ADD = 4 FLOPs

---------------------------------
12 FLOPs * 3 = 36 FLOPs

NV4x = 16 * 12 FLOPs * 0.4 GHz = 77 GFLOPs
G70 = 24 * 16 FLOPs * 0.55GHz = 211 GFLOPs (165@430MHz)
R520 = 16 * 12 FLOPs * 0.625GHz = 120 GFLOPs
R580 = 16 * 36 FLOPs * 0.65GHz = 374 GFLOPs
G71 = 24 * 16 FLOPs * 0.65GHz = 250 GFLOPs

So und jetzt zurueck zum Thema: bevor R520 auch irgendwo in der Naehe eines launches war erwaehnten mehr als nur eine unabhaengige Quelle wie B3D dass G70 insgesamt 48 fragment Prozessoren hat. Wo erwaehnte je NVIDIA im Gegenteil dass NV40 32 fragment Prozessoren hat?

Ich zaehle Dir sehr gerne angebliche "96 ALUs" auf R580, wenn die Haelfte dieser auch ueber mehr als nur 4D ADD faehig waeren. Sonst steht mir persoenlich die oede FLOP-Rechnerei um einiges besser, denn mir ist wichtiger was genau jede Einheit kann, sonst sind solche ALU-Anzahl-Rechnereien noch sinnloser als sinnlos.

Ailuros

2006-03-23, 15:06:53

Definitionssache.
Eine 7800GTX kann jedenfalls immer nur maximal an 24 Pixel parallel arbeiten. Nach deiner ansicht hätte ein R580 96 ALUs.

Eigentlich 16 Pixel und 24 Texel auf G7x. Auf R5x0 dann 16/16 :P

Ailuros

2006-03-23, 15:12:23

fear ist lange nicht so shaderlimitiert wie manche glauben

MT Fuellraten-limitiert ist es auf R5x0 aber nun auch wieder nicht.

http://www.xbitlabs.com/images/video/radeon-x1900xtx-gameperformance/fear_pure.gif

http://www.xbitlabs.com/articles/video/display/radeon-x1900xtx_20.html

1600*1200
X1800XT = 10.0 GTexels/s ---> 51 fps
X1900XTX = 10.4 GTexels/s ---> 67 fps (+31%)

Woher kommen denn die 31% mehr Leistung? Von den 400 MTexels/s mehr MT Fuellrate?

Gast

2006-03-23, 15:17:32

Eigentlich 16 Pixel und 24 Texel auf G7x. Auf R5x0 dann 16/16 :P

nö, es können schon 24 pixel gleichzeitig bearbeitet werden, aber nur 16/takt auch in den speicher geschrieben werden.

Gast

2006-03-23, 21:35:59

Woher kommen denn die 31% mehr Leistung? Von den 400 MTexels/s mehr MT Fuellrate?

bei 300% mehr an theoretischer shaderleistung sind reale 30% mehrperformance nicht gerade viel.

ich sagte ja nicht dass es überhaupt nicht shaderlimitiert ist, nur eben nicht sehr stark.

was aber bei diesem vergleich der x1900 imo sehr viel mehr hilft als die zusätzliche shaderleistung ist die doppelte Z/stencilleistung gegenüber der x1800.

wäre mal interessant die beiden karten mit deaktivierten schatten zu vergleichen.

Booby

2006-03-23, 21:51:25

Es sind 200% mehr an shaderleistung... die gesamtperformance ist aber auch von anderen faktoren abhängig, Speicherbandbreite vorallem
von daher sind 30% doch nicht wenig

Coda

2006-03-23, 21:57:16

nö, es können schon 24 pixel gleichzeitig bearbeitet werden, aber nur 16/takt auch in den speicher geschrieben werden.Eigentlich sind es 24 Fragments. Aber Direct3D verwendet da ja auch die falsche Nomenklatur.

Vanilla

2006-03-26, 13:19:47

Aber prinzipiel gebe ich dir natürlich recht. Es müsste eigentlich heissen:
G70/71: 24 PS, 48ALUs
r520: 16PS, 32 ALUs
r580: 48 PS, 96 ALUs

Bedeutet das jetzt das es auch beim R580, neben den 48 MADD-fähigen ALUs, auch noch 48 ALUs gibt die (wie beim G70/71) kein MADD können (also nur subtraktion und addition?) :confused: ... oder ist das jetzt schon wieder was anderes, *hmmmm* ...

Ailuros

2006-03-26, 13:35:20

bei 300% mehr an theoretischer shaderleistung sind reale 30% mehrperformance nicht gerade viel.

ich sagte ja nicht dass es überhaupt nicht shaderlimitiert ist, nur eben nicht sehr stark.

was aber bei diesem vergleich der x1900 imo sehr viel mehr hilft als die zusätzliche shaderleistung ist die doppelte Z/stencilleistung gegenüber der x1800.

wäre mal interessant die beiden karten mit deaktivierten schatten zu vergleichen.

Die R580 kann in synthetischen Applikationen schon ihre Zaehne zeigen, aber mal 3x im Vergleich zu R520 wird sie wohl selten erreichen, weil andere Faktoren dann eben limitieren.

Dein Vorschlag macht guten Sinn (keeps notes ;) ).

Ailuros

2006-03-26, 13:42:22

Bedeutet das jetzt das es auch beim R580, neben den 48 MADD-fähigen ALUs, auch noch 48 ALUs gibt die (wie beim G70/71) kein MADD können (also nur subtraktion und addition?) :confused: ... oder ist das jetzt schon wieder was anderes, *hmmmm* ...

G7x haben zwei "sub-units" von welchen beide jeweils ueber 4 MADDs/clock faehig sind. Eine der beiden behandelt dann auch noch texture OPs. Man kann hier entweder 24 * 8 MADDs/clock oder 48 * 4 MADDs zaehlen; das Resultat multipliziert mit der Taktrate ist das Gleiche.

R5x0 (und sogar Vorgaenger) haben eine "sub-unit" oder "mini-ALU" oder wie man auch immer sie bezeichnen will die nur ueber ADDs faehig ist.

Ergo:

G7x = 24 * (4 MADDs [=8 FLOPs] + 4 MADDs[=8 FLOPs) oder 48 * 4 MADDs [=8 FLOPs]
R580 = 48 * (4 MADDs [=8 FLOPs] + 4 ADDs [=4 FLOPs])

(siehe auch oben die oede FLOP-Rechnerei).

***edit: um der Verwirrung weiter zu entgehen:

MADD = multiply + add
4D MADD = 8 FLOPs
4D ADD = 4 FLOPs
4D MUL = 4 FLOPs

Neomi

2006-03-26, 16:11:03

Die R580 kann in synthetischen Applikationen schon ihre Zaehne zeigen, aber mal 3x im Vergleich zu R520 wird sie wohl selten erreichen, weil andere Faktoren dann eben limitieren.

Gestern Abend (bzw. heute morgen, reine Interpretationssache) habe ich noch einen Pixelshader geschrieben, der mit 61 arithmetischen Instruktionen daherkommt, aber keine einzige Texturinstruktion verwendet. Der wird zwar nicht in Spielen vorkommen, aber ist auch nicht wirklich synthetisch.

Es ist ein Shader, der in einem perspektivischen Viewport (für eine Testumgebung) den Boden inklusive einem unendlichen Gitter zeichnet. Es gibt eine LoD-Bestimmung für das Gitter und anisotrop gefiltert wird auch noch, wenn man das ohne Texturen so sagen kann. Ich habe zwar keinen R580, aber ich kann mir vorstellen, daß der das Ding so durchpustet, wie es keine andere Karte schafft.

http://img61.imageshack.us/img61/7892/grid2fb.th.gif (http://img61.imageshack.us/my.php?image=grid2fb.gif)

Ailuros

2006-03-26, 23:29:31

Gestern Abend (bzw. heute morgen, reine Interpretationssache) habe ich noch einen Pixelshader geschrieben, der mit 61 arithmetischen Instruktionen daherkommt, aber keine einzige Texturinstruktion verwendet. Der wird zwar nicht in Spielen vorkommen, aber ist auch nicht wirklich synthetisch.

Es ist ein Shader, der in einem perspektivischen Viewport (für eine Testumgebung) den Boden inklusive einem unendlichen Gitter zeichnet. Es gibt eine LoD-Bestimmung für das Gitter und anisotrop gefiltert wird auch noch, wenn man das ohne Texturen so sagen kann. Ich habe zwar keinen R580, aber ich kann mir vorstellen, daß der das Ding so durchpustet, wie es keine andere Karte schafft.

http://img61.imageshack.us/img61/7892/grid2fb.th.gif (http://img61.imageshack.us/my.php?image=grid2fb.gif)

Falls ich das Ding brauchen sollte fuer einen R580-review koennen wir irgend etwas aus machen dass ich die Applikation benutzen kann?

Neomi

2006-03-27, 00:47:05

Falls ich das Ding brauchen sollte fuer einen R580-review koennen wir irgend etwas aus machen dass ich die Applikation benutzen kann?

Klar. Der besagte Shader hat zwar jetzt nur noch 52 Instruktionen (hab ein wenig optimiert) bei hübscherem Ergebnis, ist aber immer noch extrem arithmetiklimitiert.

http://nemonical.gmxhome.de/files/testwnd.zip

Mit der rechten Maustaste kann man grob navigieren, Space pausiert. Die Frames/s werden über die letzten 64 Bilder gemittelt ausgegeben. MSAA ist auf 4x forciert, das sollte aber keine große Auswirkung haben. Für einen fairen Vergleich sollte das Fenster maximiert werden, ansonsten sorgt je nach Fensterposition das Pixelalignment für abweichende Ergebnisse.

Der Unterschied zwischen R520 und R580 würde mich da wirklich sehr interessieren. :D

Ailuros

2006-03-28, 07:52:25

Herzlichen Dank Neomi. Wenn und wann ich relevante HW in die Hand bekomme werde ich es auch ausprobieren.

svenw

2006-03-28, 10:26:10

Aua, das Ding prügelt meine 800XL auf 3,6 Frames runter.

Neomi

2006-03-28, 11:41:41

Aua, das Ding prügelt meine 800XL auf 3,6 Frames runter.

Hoppla, das sollte so nicht passieren. Eine Radeon 9800 Pro kommt schon auf weit über 100 Bilder/s in der initialen Fenstergröße (zumindest bei 1280x960 Desktopauflösung). War das bei stehender Ansicht oder während die Kamera bewegt wurde? Bei letzterem habe ich nämlich einen kleinen Bug in der Zeitmessung, der aber nur die Anzeige beeinflußt (mehrere Redraws in einer PeekMessage-Schleife, also ohne raufzählen).

Eigentlich wird da nichts großartig gemacht, nur ein großer Quad gezeichnet. Wie viele Bilder/s erreichst du denn, wenn du die Kamera unter das Gitter drehst? Dann wird das Gitterquad rausgecullt und die Framerate sollte in die Höhe schnellen.

The_Invisible

2006-03-28, 12:34:59

hö, genau 1000fps, ist das zufall oder nen limit?

http://hadler.kirchbach.at/fx/testapp/testapp.gif

mfg

Neomi

2006-03-28, 12:41:59

hö, genau 1000fps, ist das zufall oder nen limit?

Ein Limit habe ich da nicht gesetzt, durch Verkleinern des Fensters auf ein Minimum (Framecounter noch gerade sichtbar) habe ich auch schon über 10000 geschafft. Um Timerungenauigkeiten auszuschließen, wird die Zeitspanne für die letzten 64 Bilder herangezogen. Also eher ein seltsamer Zufall. Allerdings ist es trotzdem noch so "ungenau", daß es bei sehr hohen Zahlen bei bestimmten Zwischenschritten einrasten kann.

So sieht es auf einer simplen 6600 (PCIe) aus:
http://img60.imageshack.us/img60/9025/66001pf.gif (http://imageshack.us)

The_Invisible

2006-03-28, 12:46:32

Ein Limit habe ich da nicht gesetzt, durch Verkleinern des Fensters auf ein Minimum (Framecounter noch gerade sichtbar) habe ich auch schon über 10000 geschafft. Um Timerungenauigkeiten auszuschließen, wird die Zeitspanne für die letzten 64 Bilder herangezogen. Also eher ein seltsamer Zufall.

wenn ich das mache habe ich ab ner gewissen größe immer genau 12800.00... mein system macht mir langsam angst ;D

mfg

ShadowXX

2006-03-28, 13:01:45

Ein Limit habe ich da nicht gesetzt, durch Verkleinern des Fensters auf ein Minimum (Framecounter noch gerade sichtbar) habe ich auch schon über 10000 geschafft. Um Timerungenauigkeiten auszuschließen, wird die Zeitspanne für die letzten 64 Bilder herangezogen. Also eher ein seltsamer Zufall. Allerdings ist es trotzdem noch so "ungenau", daß es bei sehr hohen Zahlen bei bestimmten Zwischenschritten einrasten kann.

So sieht es auf einer simplen 6600 (PCIe) aus:
http://img60.imageshack.us/img60/9025/66001pf.gif (http://imageshack.us)

Den 6600-Wert kann ich bestätigen.

Meine 6600 hier auf der Arbeit macht due gleichen ca. 5800FPS wenn man nur noch den Framecounter übrig lässt und in der Initialauflösung ca. 68-72 FPS (auf einem 1600x1200 Desktop).

Werds heute Abend auch mal durch die x1900xt durchjagen.

misterh

2006-03-28, 13:38:55

Funkt nicht mit Gammachrome S18 :rolleyes:

wollte ja sehn, wieviel dieser schaffen würde.

Raff

2006-03-28, 13:50:53

Hoppla, das sollte so nicht passieren. Eine Radeon 9800 Pro kommt schon auf weit über 100 Bilder/s in der initialen Fenstergröße (zumindest bei 1280x960 Desktopauflösung).

Meine nicht. Mit Defaulttakt (378/338) sind's knapp 48 Fps, übertaktet auf 460/410 dann knapp 60 Fps. Getestet in Vollbild-1280x1024 ohne Mausbewegung und dem Catalyst 5.6.

MfG,
Raff

Aquaschaf

2006-03-28, 14:35:15

Mit einer 1900XT gibt es in 1280x960 mit maximiertem Fenster etwa 421FPS.

Neomi

2006-03-28, 15:00:04

Meine nicht. Mit Defaulttakt (378/338) sind's knapp 48 Fps, übertaktet auf 460/410 dann knapp 60 Fps. Getestet in Vollbild-1280x1024 ohne Mausbewegung und dem Catalyst 5.6.

Bei mir war die Auflösung ein wenig niedriger und das Fenster nicht maximiert. Und zwar war es die Größe, die Windows bei der Nutzung von CW_USEDEFAULT zugeteilt hat, welche das jetzt genau war weiß ich nicht. Der Unterschied kann also durchaus dadurch kommen. Und dann ist noch das Pixelalignment im Fenstermodus wichtig. Wirklich vergleichbar ist also nur ein maximiertes Fenster bei identischer Desktopgröße, wobei gleichzeitig noch Windowstheme (im Falle XP) und Ausblendverhalten der Taskleiste übereinstimmen sollten.

Die Probleme mit dem Gammachrome könnten daher kommen, daß ich eine Mischung aus einer deviceimpliziten Swapchain (SWAPEFFECT_COPY) ohne MSAA in der Größe des Desktops und einer expliziten Swapchain (DISCARD) mit forciertem MSAA nutze. Das hat den Vorteil, daß ich keine matschigen Skalierungsoperationen beim Ändern der Fenstergröße habe und das Device nicht resetten muß, wenn sich die Größe geändert hat.

Das Ding ist eigentlich auch nur eine schnell zusammengeschusterte Testumgebung, das war nicht wirklich als Benchmark gedacht. Dazu müßte ich den Vollbildmodus nutzen und einen Kameraflug über das Gitter (oder besser durch einen Würfel damit) machen. Vielleicht mache ich das irgendwann nächste Tage mal, aber vorerst habe ich kaum Zeit dafür.

BUG

2006-03-28, 15:04:48

..meine X1600 Pro ruckelt mit knapp 4 FPS vor sich hin in der default Fenstergröße und etwas über 2 FPS wenn ich das Fenster maximiere (1024x768). :|

cu
BUG

Black-Scorpion

2006-03-28, 15:26:05

X800 XL (Standard) 1280x1024

minimiert: 10666.67
Standardgröße: 231.xx
maximiert: 124.xx

aths

2006-03-28, 16:03:59

G7x haben zwei "sub-units" von welchen beide jeweils ueber 4 MADDs/clock faehig sind. Eine der beiden behandelt dann auch noch texture OPs.Eine der beiden leitet die Daten zur Tex-Unit durch, aber übernimmt die eigentlichen Tex-Ops nicht. (Schließlich kann man mit dem bisschen MAD keine Texturoperation ausführen.)

LovesuckZ

2006-03-28, 18:31:42

Mit einer 1900XT gibt es in 1280x960 mit maximiertem Fenster etwa 421FPS.

7800 512 (580/1700) sind ca. 430fps maximiert in 1280*1024.

Frank1974

2006-04-04, 19:56:46

Hab das auch mal probiert, aber meine 1900XT schaltet nicht in den 3D-Modus, habe das mit dem Rivatuner überprüft, läuft nur mit dem 2D Takt bei mir, 500MHz-Core/594MHz-Speicher :|, ist das normal?
Bei allen anderen Spielen und 3dmarks usw, läuft die Karte mit 625/725MHz 3D-Takt...

Naja hier Trotzdem mal meine Werte:

1900XT
1280x960@2D-Takt 500/594MHz

minimiert: 16000.xx
Standard: 760.xx
maximiert: 405.xx

MFG
Frank