AMD/ATI - ATIs Überlegenheit in 8xMSAA mit aktuellen Karten [Archiv]

Lawmachine79

2008-02-29, 20:08:53

http://www.computerbase.de/artikel/hardware/grafikkarten/2008/test_nvidia_geforce_9600_gt_sli/24/#abschnitt_performancerating_qualitaet

Wie kommt es, daß die 3870 mit 8xAA eine 88GTX überholt? Ist da beim Testen was schief gegangen? Oder wurde bei der 3870 kein echtes Multisampling genommen?

deekey777

2008-02-29, 20:15:16

http://www.computerbase.de/artikel/hardware/grafikkarten/2008/test_nvidia_geforce_9600_gt_sli/24/#abschnitt_performancerating_qualitaet

Wie kommt es, daß die 3870 mit 8xAA eine 88GTX überholt? Ist da beim Testen was schief gegangen? Oder wurde bei der 3870 kein echtes Multisampling genommen?
Sagen wir es so: Der G80 sowie seine Abkömmlinge wurden nicht für 8xMSAA (8xQ/16xQ) gebaut.

AnarchX

2008-02-29, 20:16:51

Liegt einfach daran, dass die GF8-Architektur kein 8xMSAA mag bzw. nicht darauf optimiert ist.

In Zahlenwerten:
http://www.hardware.fr/articles/671-4/ati-radeon-hd-2900-xt.html (Kapitel ROPs)
R600/RV670: 4x auf 8x Z-Fill halbiert sich nur
G80/G92: 4x auf 8x Z-Fill fünftelt/viertelt sich
-> G80 und R6xx liegen nun praktisch gleich auf

Dazu kommt wohl bei ATi die schon immer ziemlich guten Maßnahmen zum Sparen von Z-Fillrate, die dann schliesslich dazu führen, dass man sich vor die GF8 setzt.

Nicht ohne Grund gibt es CSAA. ;)

Gast

2008-02-29, 20:17:54

Naja so gut sind die 3870 bei 8xAA auch nicht wenn man sich die einzelnen Tests genauer ansieht z.b. Jericho

Gast

2008-02-29, 20:18:47

http://www.computerbase.de/artikel/hardware/grafikkarten/2008/test_nvidia_geforce_9600_gt_sli/24/#abschnitt_performancerating_qualitaet

Wie kommt es, daß die 3870 mit 8xAA eine 88GTX überholt? Ist da beim Testen was schief gegangen? Oder wurde bei der 3870 kein echtes Multisampling genommen?

Schau Dir mal andere Benches der R3850/3870 hinsichtlich AA an und vergleiche dann mit den GeForces. Du wirst feststellen, dass die Radeon wesentlich besser mit AA performen bzw. bei weitem nicht so stark einbrechen wie die NVIDIA Modelle. Das krasseste ist aber noch wie ich finde, dass die 256MB Version der 3850 im Vergleich zur 512MB Variante nur sehr wenig an fps einbüßen muss, selbst bei hohen AA Modi.

Lawmachine79

2008-02-29, 20:20:58

Schau Dir mal andere Benches der R3850/3870 hinsichtlich AA an und vergleiche dann mit den GeForces. Du wirst feststellen, dass die Radeon wesentlich besser mit AA performen bzw. bei weitem nicht so stark einbrechen wie die NVIDIA Modelle. Das krasseste ist aber noch wie ich finde, dass die 256MB Version der 3850 im Vergleich zur 512MB Variante nur sehr wenig an fps einbüßen muss, selbst bei hohen AA Modi.
Das kann ja nur an der guten Speicherverwaltung der ATI - Karten liegen (AFAIK zieht sich das seit den 9xxx-Karten wie eine rote Linie durch die Entwicklung).

Liegt einfach daran, dass die GF8-Architektur kein 8xMSAA mag bzw. nicht darauf optimiert ist.

In Zahlenwerten:
http://www.hardware.fr/articles/671-4/ati-radeon-hd-2900-xt.html (Kapitel ROPs)
R600/RV670: 4x auf 8x Z-Fill halbiert sich nur
G80/G92: 4x auf 8x Z-Fill fünftelt/viertelt sich
-> G80 und R6xx liegen nun praktisch gleich auf

Dazu kommt wohl bei ATi die schon immer ziemlich guten Maßnahmen zum Sparen von Z-Fillrate, die dann schliesslich dazu führen, dass man sich vor die GF8 setzt.

Nicht ohne Grund gibt es CSAA. ;)

Ok - das ist plausibel und nachvollziehbar - mich wundert nur, daß ATI bei den ROPs nicht wieder das verliert, was sie beim Z-Testing rausgeholt haben, bei 4xAA sind die NV-Karten ja deutlich überlegen.

Naja so gut sind die 3870 bei 8xAA auch nicht wenn man sich die einzelnen Tests genauer ansieht z.b. Jericho

Die Frage ist nicht ob sie "gut" ist oder nicht, sondern warum in dieser Einstellung die 150€ Karte der 400€ Karte davonrennt.

Gast

2008-02-29, 20:30:56

Testet man auf Spielbarkeit sind die 8xAA Werte nämlich gegenstandslos oder seht ihr ein Games was mit 8xAA noch spielbar ist wo es das auf ner NV Karte nicht mehr ist?

Lawmachine79

2008-02-29, 20:44:45

Testet man auf Spielbarkeit sind die 8xAA Werte nämlich gegenstandslos oder seht ihr ein Games was mit 8xAA noch spielbar ist wo es das auf ner NV Karte nicht mehr ist?
Naja, das ist die praktische Frage, mir ging es um eine technische Frage. Sobald 8xAA spielbar ist schalte ich auf 8xS um - jetzt wissen wir ja auch, warum ein Hybridmodus mit Supersamplinganteil teilweise schneller ist als ein reiner Multisamplingmodus - das ist das Ergebnis wenn brachiale Füllrate mit miserablem Speichermanagement kombiniert wird :D

Gast

2008-02-29, 21:10:42

In Zahlenwerten:
http://www.hardware.fr/articles/671-4/ati-radeon-hd-2900-xt.html (Kapitel ROPs)
R600/RV670: 4x auf 8x Z-Fill halbiert sich nur
G80/G92: 4x auf 8x Z-Fill fünftelt/viertelt sich
-> G80 und R6xx liegen nun praktisch gleich auf

sehr seltsam, allerdings ist die z-füllrate beim G80 trotzdem noch höher, die performance aber oft nicht.

Gast

2008-02-29, 21:14:17

N Sobald 8xAA spielbar ist schalte ich auf 8xS um - jetzt wissen wir ja auch, warum ein Hybridmodus mit Supersamplinganteil teilweise schneller ist als ein reiner Multisamplingmodus - das ist das Ergebnis wenn brachiale Füllrate mit miserablem Speichermanagement kombiniert wird :D

auch dann sollte 8xS niemals schneller sein, schließlich wird gleich viel speicher, aber mehr füllrate und bandbreite gebraucht.

da muss irgendein bug sein, und da es den G80 schon lange gibt wohl ein hardwarebug, eventuell ähnlich wie beim R600 nur dass er glücklicherweise erst bei 8xMSAA auftritt.

LovesuckZ

2008-02-29, 21:29:18

auch dann sollte 8xS niemals schneller sein, schließlich wird gleich viel speicher, aber mehr füllrate und bandbreite gebraucht.

Und wenn dies nicht die limitierenden Faktoren sind? Texturleistung hat der G80 und G92 in Überfluss. Bei 8xS wird nur ein 2x1 OG verwendet und vier MS-Colorsamples. Selbst 2x2OGSS ist nur minimal langsamer als 8xMSAA auf der 8800GT.
Die G8x Architektur ist auf 4 Color/z-Samples optimiert.

da muss irgendein bug sein, und da es den G80 schon lange gibt wohl ein hardwarebug, eventuell ähnlich wie beim R600 nur dass er glücklicherweise erst bei 8xMSAA auftritt.

Warum sollte ein Hardwarebug sein?
Hat AMD also einen ansiotropen Filter Bug, weil die Leistung wesentlich stärker einbricht? :rolleyes:
Nicht jeder Leistungsabfall ist ein Bug. Es kann auch einfach nur eine technische Limitierung sein. Und das sind keine Bugs.

Spasstiger

2008-02-29, 22:32:05

Das war in hohen Auflösungen schon bei der HD2900 XT so. Und die HD3870 ist trotz geringerer Speicherbandbreite in der Regel noch einen Tick schneller, vor allem das Shader-Resolve fürs Multisampling wurde optimiert.

Ich denke, dass der R600 dem G80 fast durchweg überlegen gewesen wäre, wenn man gleich 32 fp16-bi-TMUs statt 16 fp16-bi-TMUs + 16 Point-Sampling-TMUs verbaut hätte. Aber das Transistorbudget war nunmal begrenzt, zumal man ja arge Probleme mit Leckströmen hatte.

Ich persönlich warte auf den GT200 für 4xTMSAA in Crysis @ very high und 16xS in allen anderen Spielen. ;)

MartinRiggs

2008-02-29, 22:40:48

Naja, das ist die praktische Frage, mir ging es um eine technische Frage. Sobald 8xAA spielbar ist schalte ich auf 8xS um - jetzt wissen wir ja auch, warum ein Hybridmodus mit Supersamplinganteil teilweise schneller ist als ein reiner Multisamplingmodus - das ist das Ergebnis wenn brachiale Füllrate mit miserablem Speichermanagement kombiniert wird :D

Das ist mir auch schon in ein paar Games aufgefallen und es ist echt mal albern bei der Geforce 8, 8xMSAA ruckelt und läuft wie ein Sack Nüsse 8xS funzt einwandfrei.
Fairnesshalber muss ich sagen das meine frühere HD3870 dafür bei 8xMSAA auch meist eingegangen ist.

Manchmal hab ich bei den Grakas das Gefühl man hat die Wahl zwischen Pest und Cholera.:biggrin:
Aber wie sagt man so schön, irgendwas ist ja immer.....

Lawmachine79

2008-02-29, 22:52:10

auch dann sollte 8xS niemals schneller sein, schließlich wird gleich viel speicher, aber mehr füllrate und bandbreite gebraucht.

da muss irgendein bug sein, und da es den G80 schon lange gibt wohl ein hardwarebug, eventuell ähnlich wie beim R600 nur dass er glücklicherweise erst bei 8xMSAA auftritt.
4xMSAA + 1x2SSAA braucht nicht mehr Speicher und Bandbreite als 8xMSAA. Mit der Füllrate liegst Du richtig - die ist bei NV-Karten auch traditionell ausreichend vorhanden, und überschüssige Füllrate lässt sich gut in BQ umsetzen - ATI Karten sind traditionell Arithmetikmonster (im Vergleich zu NV), die überschüssige Mathepower lässt sich aber schlecht in BQ umsetzen.

Das ist mir auch schon in ein paar Games aufgefallen und es ist echt mal albern bei der Geforce 8, 8xMSAA ruckelt und läuft wie ein Sack Nüsse 8xS funzt einwandfrei.
Fairnesshalber muss ich sagen das meine frühere HD3870 dafür bei 8xMSAA auch meist eingegangen ist.

Manchmal hab ich bei den Grakas das Gefühl man hat die Wahl zwischen Pest und Cholera.:biggrin:
Aber wie sagt man so schön, irgendwas ist ja immer.....

Naja, da 8xS besser aussieht als 8xMSAA finde ich das nicht wirklich schlimm.

LovesuckZ

2008-02-29, 22:55:32

Ich denke, dass der R600 dem G80 fast durchweg überlegen gewesen wäre, wenn man gleich 32 fp16-bi-TMUs statt 16 fp16-bi-TMUs + 16 Point-Sampling-TMUs verbaut hätte. Aber das Transistorbudget war nunmal begrenzt, zumal man ja arge Probleme mit Leckströmen hatte.

Noe, die Schwächen wären immer noch da. Das Problem ist weniger die Texturleistung - da schummelt man einfach - sondern eher der Ansatz zu Realisierung vom AA und der Aufbau der Recheneinheiten.

Hvoralek

2008-03-01, 01:02:15

sehr seltsam, allerdings ist die z-füllrate beim G80 trotzdem noch höher, die performance aber oft nicht.Wenn man nur auf die rechnerische Leistung schaut, müsste jeder G8x den jeweils vergleichbaren R6xx ziemlich plattmachen. ATI geht imM effizienter mit ihrer Rohleistung um, G8x braucht anscheinend diese enormen Füllraten.

4xMSAA + 1x2SSAA braucht nicht mehr Speicher und Bandbreite als 8xMSAA.Mehr Speicher nicht, aber mehr Bandbreite (Texturen).

Mit der Füllrate liegst Du richtig - die ist bei NV-Karten auch traditionell ausreichend vorhanden, und überschüssige Füllrate lässt sich gut in BQ umsetzen - ATI Karten sind traditionell Arithmetikmonster (im Vergleich zu NV), die überschüssige Mathepower lässt sich aber schlecht in BQ umsetzen."Traditionell" würde ich das nicht nennen. Das ist erst seit R580 so.

Lawmachine79

2008-03-01, 01:05:57

Wenn man nur auf die rechnerische Leistung schaut, müsste jeder G8x den jeweils vergleichbaren R6xx ziemlich plattmachen. ATI geht imM effizienter mit ihrer Rohleistung um, G8x braucht anscheinend diese enormen Füllraten.

Mehr Speicher nicht, aber mehr Bandbreite (Texturen).

"Traditionell" würde ich das nicht nennen. Das ist erst seit R580 so.
Das war schon bei R4xx so. Deshalb war ATI ja bei shaderlastigen Spielen vorne. Und der R600 hat deutlich mehr Arithmetikleistung als der G80.

Hvoralek

2008-03-01, 01:12:17

Das war schon bei R4xx so. Deshalb war ATI ja bei shaderlastigen Spielen vorne. Und der R600 hat deutlich mehr Arithmetikleistung als der G80.Bei NV4x hatte dafür Nvidia leichte Vorteile, bei G70 deutliche gegenüber R520.

Lawmachine79

2008-03-01, 02:08:16

Bei NV4x hatte dafür Nvidia leichte Vorteile, bei G70 deutliche gegenüber R520.

Mit Sicherheit nicht. Nimm Dir mal aktuelle shaderlastige Games und spiel:

X800XT vs 6800GT

7800GTX vs X1800XT

7900GTX vs X1900XT

Ich glaub in aktuellen Spielen würde die X1800XT auch eine 7900GTX plätten.

Das Auge

2008-03-01, 02:21:53

Mal ganz ketzerisch gefragt: Wer zur Hölle braucht 8x MSAA???

Also mir persönlich sind da SS-Modi für den absoluten Qualitätskick eindeutig lieber und da bekleckern sich beide IHV's nicht gerade mit Ruhm. Allerdings kann man das bei nv beim G80/G92 zumindest per nhancer forcieren und das sieht einfach richtig geil aus. Einziges Manko: In aktuellen Spielen mit einer Karte nicht wirklich einsetzbar, wenn man nicht gerade in 1024x768 zockt.
Als frisch gebackener 24"-Besitzer hab ich mich aber eh recht schnell dran gewöhnt auf AA, zumindest in Hardwarefressern der neuesten Generation, ganz zu verzichten. Warum die Auflösung künstlich aufbohren, wenn man die auch so hochdrehen kann? :naughty:

Gast

2008-03-01, 02:55:26

Mal ganz ketzerisch gefragt: Wer zur Hölle braucht 8x MSAA???

Also mir persönlich sind da SS-Modi für den absoluten Qualitätskick eindeutig lieber und da bekleckern sich beide IHV's nicht gerade mit Ruhm. Allerdings kann man das bei nv beim G80/G92 zumindest per nhancer forcieren und das sieht einfach richtig geil aus. Einziges Manko: In aktuellen Spielen mit einer Karte nicht wirklich einsetzbar, wenn man nicht gerade in 1024x768 zockt.
Als frisch gebackener 24"-Besitzer hab ich mich aber eh recht schnell dran gewöhnt auf AA, zumindest in Hardwarefressern der neuesten Generation, ganz zu verzichten. Warum die Auflösung künstlich aufbohren, wenn man die auch so hochdrehen kann? :naughty:

Crysis wird dir für AA danken, auch für 8xMSAA und der Auflösung 1920x1200, aber leider gibt es zurzeit keine leistungsfähige Lösung die das ausreichend bewältigt.

Stormscud

2008-03-01, 09:09:24

Wohl eher für TAA oder einen Supersampling / -Hybridmodus. 8xMSAA killt doch nicht die Kanten an der zahlreichen Vegetation.

Mr. Lolman

2008-03-01, 09:14:47

Mal ganz ketzerisch gefragt: Wer zur Hölle braucht 8x MSAA???

Brauchen tuts niemand. Aber es ist ein nice-to-have-Feature.

Also mir persönlich sind da SS-Modi für den absoluten Qualitätskick eindeutig lieber und da bekleckern sich beide IHV's nicht gerade mit Ruhm. Allerdings kann man das bei nv beim G80/G92 zumindest per nhancer forcieren und das sieht einfach richtig geil aus. Einziges Manko: In aktuellen Spielen mit einer Karte nicht wirklich einsetzbar, wenn man nicht gerade in 1024x768 zockt.
Als frisch gebackener 24"-Besitzer hab ich mich aber eh recht schnell dran gewöhnt auf AA, zumindest in Hardwarefressern der neuesten Generation, ganz zu verzichten. Warum die Auflösung künstlich aufbohren, wenn man die auch so hochdrehen kann? :naughty:

Hm. Wenn ich am Beamer zock (1280x720), bei weit mehr als 100" Bilddiagonale ist jedes bisschen mehr an AA-Qualität erfreulich.

reunion

2008-03-01, 09:36:40

Bei NV4x hatte dafür Nvidia leichte Vorteile, bei G70 deutliche gegenüber R520.

Das ist hoffentlich nicht dein ernst. Jeder CineFX-Chip hat im Laufe der Zeit enorm abgebaut, die Probleme mit der Shaderleistung sind evident.

AnarchX

2008-03-01, 10:08:39

Das ist hoffentlich nicht dein ernst. Jeder CineFX-Chip hat im Laufe der Zeit enorm abgebaut, die Probleme mit der Shaderleistung sind evident.
Naja, NV40 hat schon die stärke Arithmetik in der Theorie, in der Praxis hat man aber eben das Problem, dass durch die Koppelung der TMUs und ALUs, diese nicht wirklich erreicht werden kann:
Wer nochmal in die Vergangenheit schauen will:
http://www.3dcenter.org/artikel/r420_technik/index3.php

Im Endeffekt kann man durchaus Parallelen zu G80 und R600 ziehen, R600 hat zwar wie NV40 eine hohe theoretische Leistung, die aber Aufgrund des Aufbaus der ALUs nur sehr schwer in der Praxis erreichbar ist.

reunion

2008-03-01, 10:16:54

Naja, NV40 hat schon die stärke Arithmetik in der Theorie, in der Praxis hat man aber eben das Problem, dass durch die Koppelung der TMUs und ALUs, diese nicht wirklich erreicht werden kann:
Wer nochmal in die Vergangenheit schauen will:
http://www.3dcenter.org/artikel/r420_technik/index3.php

Ich habe bei NV40 MADD+MUL bei 400Mhz, ein R420 hatte MADD+ADD bei 520Mhz. Dazu kam bei NV40 noch das Problem das man nur eine Pipeline für ALU und TEX Anweisungen hatte - ein enormer Nachteil der die erste ALU oft blockieren ließ. Spezielle Einheiten für SF hatten beide. Der Artikel ist längst nicht mehr zeitgemäß, damals wusste man es nicht besser. Es wurde sogar lange auf die höhere Shaderleitstung des NV40 gepocht, übrig blieb davon nichts außer viel Gelächter.

Im Endeffekt kann man durchaus Parallelen zu G80 und R600 ziehen, R600 hat zwar wie NV40 eine hohe theoretische Leistung, die aber Aufgrund des Aufbaus der ALUs nur sehr schwer in der Praxis erreichbar ist.

Nein, kann man nicht, da ein R6xx im Laufe der Zeit mit zunehmender Arithmetiklast sicher nicht abbaut, sondern höchstens aufholt.

AnarchX

2008-03-01, 10:58:59

Ich habe bei NV40 MADD+MUL bei 400Mhz, ein R420 hatte MADD+ADD bei 520Mhz. Dazu kam bei NV40 noch das Problem das die erste ALU oft blockiert war. Spezielle Einheiten für SF hatte garantiert beide. Der Artikel ist längst nicht mehr zeitgemäß, damals wusste man es nicht besser. Es wurde sogar lange auf die höhere Shaderleitstung des NV40 gepocht, übrig blieb davon nichts außer viel Gelächter.
Sicherlich wurde da einiges übertrieben, aber die Pro-Takt-Leistung, war dann bei NV4x doch nicht so schlecht, sodass man mit dem laut dir massiv überlegenen R420 gleichzog bzw. diesen gar überholte.
Für den Kunden damals ein schwierige Situation: potentielle, effiziente Leistung mit einem veralteten Techlevel vs zukunftsweisendes Techlevel mit sich andeutenden Effizienzschwächen.

Aber lassen wir diese alten Geschichten besser ruhen und konzentrien uns auf die aktuellen Generationen, wo solche massiven Unterschied zum Glück nicht mehr existieren und so es für den Kunden doch imo einfacher ist...

Nein, kann man nicht, da ein R6xx im Laufe der Zeit mit zunehmender Arithmetiklast sicher nicht abbaut, sondern höchstens aufholt.
Diese Karte wird G8x/G9x wohl aber auch ausspielen können, je weniger texturlastig die Shader werden, umso weniger werden seine ALUs durch die nötigen Interpolationen belastet und sind für andere Berechnungen frei.

Im Endeffekt bleibt es dabei, dass R600 auf speziellen Shadercode angewiesen ist und G8x/G9x ein "Allesfresser" ist.

LovesuckZ

2008-03-01, 12:02:56

Nein, kann man nicht, da ein R6xx im Laufe der Zeit mit zunehmender Arithmetiklast sicher nicht abbaut, sondern höchstens aufholt.

Nein, das ist falsch. Nicht hoher Rechenbedarf ist bestimmend, sondern wie gut man diesen auf die Architektur optimieren kann. Und da ist das r6xx Design einfach wesentlich ineffizienter.

Gast

2008-03-01, 12:42:57

Und der R600 hat deutlich mehr Arithmetikleistung als der G80.

die arithmetikleistung von G80 (und natürlich auch G92) im vollausbau ist mehr oder weniger identisch mit dem R600, je nach situation kann mal der eine oder andere schneller sein, im endeffekt geben sich beide architekturen auf arithmetikseite aber nicht viel.

Gast

2008-03-01, 12:44:20

4xMSAA + 1x2SSAA braucht nicht mehr Speicher und Bandbreite als 8xMSAA.

speicher nicht, bandbreite schon, SSAA braucht mehr bandbreite da mehr texturen gefiltert werden müssen und da die framebufferkompression lange nicht so effizient wie bei MSAA sein kann.

deekey777

2008-03-01, 12:52:11

Nein, das ist falsch. Nicht hoher Rechenbedarf ist bestimmend, sondern wie gut man diesen auf die Architektur optimieren kann. Und da ist das r6xx Design einfach wesentlich ineffizienter.
Wenn die Entwickler auf eine oder die andere Architektur optimieren, wird immer jemand im Nachteil sein.
reunion hat schon Recht: Wenn die künftigen Spiele mehr und mehr auf "Mathematik" setzen, wird die geringe Texturierungsleistung nicht ausschlaggebend.
Es ist aber ein Trugschluss, wenn man denkt, dass der G80 in so einem Fall an Leistung verlieren wird.
Das Design des R600 ist vielleicht im Vergleich zum G80-Design (was auch seine Schwachstellen hat) ineffizienter, aber es ist nicht per se ineffizient.

tombman

2008-03-01, 12:54:18

Mal ganz ketzerisch gefragt: Wer zur Hölle braucht 8x MSAA???
Kein Mensch ;D

Also mir persönlich geht 8xAA am AA vorbei ;) 4xAA glättet bei den Auflösungen, die ich spiele (1600x1000 und 1920x1200), eh gut genug.

Und bei älteren oder nicht fordenden Sachen haut man eben SSAA rein, das bringt weit mehr als 8xAA.

Gast

2008-03-01, 12:55:13

Und wenn dies nicht die limitierenden Faktoren sind? Texturleistung hat der G80 und G92 in Überfluss. Bei 8xS wird nur ein 2x1 OG verwendet und vier MS-Colorsamples. Selbst 2x2OGSS ist nur minimal langsamer als 8xMSAA auf der 8800GT.
Die G8x Architektur ist

SSAA braucht von allem den faktor der supersampleanzahl mehr an leistung, es ist egal was auf der grafikkarte limitiert. die einzige situation wo SSAA nicht um den faktor der sampleanzahl einbricht ist wenn die cpu limitiert, aber da dürfte auch MSAA nicht mehr kosten.

der einzige sinn von MSAA ist weniger ressourcen bei annähernd gleicher qualität zu brauchen, wenn es das nicht schafft ist es fehlerhaft.

in der theorie wird MSAA mit höherer sampleanzahl auch effizienter, sollte also prozentuell weniger leistung kosten, das tut es auch nicht, im gegenteil teilweise bewirkt eine verdopplung der multisamples von 4 auf 8 einen einbruch von mehr als 50%, die Z-fillrate bricht auf 1/4-1/5 ein, obwohl sie nur auf die hälfte einbrechen dürfte.

da muss ein bug vorliegen, was es auch immer ist, vielleicht gibt es irgendwelche stalls in den ROPs wenn sie loopen müssen, aber bei den monster-ROPs im G80 sollte selbst das nicht dermaßen viel kosten.

Gast

2008-03-01, 12:59:22

der einzige sinn von MSAA ist weniger ressourcen bei annähernd gleicher qualität zu brauchen, wenn es das nicht schafft ist es fehlerhaft.
Genau da versagt MSAA immer mehr. Mit der Krücke T-AA kann es zwar noch zum Teil kompensiert werden, aber bei 8xMSAA fragt man sich echt was die Tester da geritten hat nicht mal die anderen Schalter zu probieren.

deekey777

2008-03-01, 13:03:56

Und wenn dies nicht die limitierenden Faktoren sind? Texturleistung hat der G80 und G92 in Überfluss. Bei 8xS wird nur ein 2x1 OG verwendet und vier MS-Colorsamples. Selbst 2x2OGSS ist nur minimal langsamer als 8xMSAA auf der 8800GT.
Die G8x Architektur ist auf 4 Color/z-Samples optimiert.

2x1 OGSSAA ist bei 1024x768 Verdopplung aller Pixel in eine Richtung (hier in die horizontale). Es ist in etwa die gleiche Belastung, wenn man mit 2048x768 samt 4xMSAA spielt.
Genau da versagt MSAA immer mehr. Mit der Krücke T-AA kann es zwar noch zum Teil kompensiert werden, aber bei 8xMSAA fragt man sich echt was die Tester da geritten hat nicht mal die anderen Schalter zu probieren.
MSAA = Kantenglättung. Wie soll MSAA dort versagen, wenn es nicht zu seinem "Aufgabenbereich" gehört?

Gast

2008-03-01, 13:13:05

MSAA = Kantenglättung. Wie soll MSAA dort versagen, wenn es nicht zu seinem "Aufgabenbereich" gehört?
Es versagt, weil es eben nicht mehr alles glättet, in Vergleich zu SSAA.

LovesuckZ

2008-03-01, 13:36:35

reunion hat schon Recht: Wenn die künftigen Spiele mehr und mehr auf "Mathematik" setzen, wird die geringe Texturierungsleistung nicht
ausschlaggebend.

Der höhrere Rechenbedarf bedeutet nicht, dass das r6xx Design besser zurecht kommt. Die hohe Optimierungsarbeit zur vollständigen Auslastung der Einheiten ist immer noch vorhanden.

Das Design des R600 ist vielleicht im Vergleich zum G80-Design (was auch seine Schwachstellen hat) ineffizienter, aber es ist nicht per se ineffizient.

Natürlich ist es ineffizient. Deswegen auch die 64 Recheneinheiten. Mehr Einheiten, um den Nachteil durch Brute-Force auszugleichen.

der einzige sinn von MSAA ist weniger ressourcen bei annähernd gleicher qualität zu brauchen, wenn es das nicht schafft ist es fehlerhaft.

Aha. Dann ist AMD's AA auch fehlerhaft, weil der 4xMSAA Modus langsamer ist als bei nVidia. :rolleyes:
Die Texturleistung ist vom G70 zum G80 um das 2,3 fache gestiegen - dazu kommt noch die Trennung der Einheiten. Es ist daher nur logich, dass Einstellungen, die auf die Texturleistung schlagen, jetzt besser laufen.

da muss ein bug vorliegen, was es auch immer ist, vielleicht gibt es irgendwelche stalls in den ROPs wenn sie loopen müssen, aber bei den monster-ROPs im G80 sollte selbst das nicht dermaßen viel kosten.

Für dich ist wohl jede technische Limitierung ein Bug. Gut, dann hat AMD neben einem AA Bug, auch einen AF und D3D10 Bug.

Hvoralek

2008-03-01, 13:46:01

Mit Sicherheit nicht. Nimm Dir mal aktuelle shaderlastige Games und spiel:

X800XT vs 6800GT

7800GTX vs X1800XT

7900GTX vs X1900XT

Ich glaub in aktuellen Spielen würde die X1800XT auch eine 7900GTX plätten.Ich habe leider keine der genannten Karten zur Verfügung, kann das also schwer testen :wink:

R580 ist arithmetisch stärker als G71, das ist klar. Dass R520 insgesamt schneller ist als G70, auch. Das liegt aber nicht daran, dass er arithmetisch so stark wäre, sondern an Füllraten und Architektureffizienz. Gerade in Fällen, in denen R580 sich klar von R520 absetzen konnte (R520 wird leider seit längerem kaum noch irgendwo mitgetestet) wie etwa AoE III oder Oblivion- Innenleveln hat aber eine X1800XT schon schwer an einer 7800GT zu knabbern. G70 hat arithmetisch eindeutig mehr auf dem Kasten als R520.

Zu NV40 und R420 hat sich AnarchX ja schon ausführlich geäußert. Auf dem Papier ist R420 durch den höheren Takt in jeder Hinsicht schneller, i.E. lag eine 6800 Ultra aber ohne AA etwa gleichauf mit einer X800XT, oft auch davor. Vorteile konnten sich eigentlich fast nur aus dem Aufbau der Shader ergeben.

Mal ganz ketzerisch gefragt: Wer zur Hölle braucht 8x MSAA???

Also mir persönlich sind da SS-Modi für den absoluten Qualitätskick eindeutig lieber und da bekleckern sich beide IHV's nicht gerade mit Ruhm.Ideal wäre eigentlich 2x SGSSAAmit 2x oder 4x SGMSAA. Aber darauf kann man abseits von Crossfire und S3 wohl lange warten.

Aha. Dann ist AMD's AA auch fehlerhaft, weil der 4xMSAA Modus langsamer ist als bei nVidia. :rolleyes:Ist er das? 4x/16x ist langsamer.

Für dich ist wohl jede technische Limitierung ein Bug. Gut, dann hat AMD neben einem AA Bug, auch einen AF und D3D10 Bug.Ist das nicht ziemliche Wortklauberei? Aber bitte: Die Probleme, die R600 mit AF hat, ergeben sich logisch aus der Architektur (und mit D3D10 sehe ich gar keine). Warum die G8x- ROPs mit 8x MSAA so einbrechen, ist nicht ersichtlich. Auf dem Papier dürften sie das nicht tun.

Lawmachine79

2008-03-01, 13:46:18

speicher nicht, bandbreite schon, SSAA braucht mehr bandbreite da mehr texturen gefiltert werden müssen und da die framebufferkompression lange nicht so effizient wie bei MSAA sein kann.

Klar braucht SSAA auch mehr Bandbreite, ich meinte aber im Vergleich zu MSAA. Und ich glaube, der Unterschied in der Bandbreite von:
4xMSAA ---> 8xMSAA
4xMSAA ---> 4xMSAA + 1x2 SSAA
ist bei 4 --> 8 größer, also der Hit auf die Bandbreite fällt bei 8xMSAA größer aus, als bei 8xS. Ich denke auch, daß bei 8xMSAA eher die Bandbreite als die ROP-Leistung (bei NV) limitiert. Daher hat das schlechte Speichermanagement von NV auch so große Auswirkungen.
Bei einem SSAA Anteil von 2x2 dürfte der Bandbreitenverbrauch dann höher sein. Aber bei 8xS wird ja "nur" eine Achse doppelt gesampelt.

Beweisen kann ich natürlich nix :D

Hvoralek

2008-03-01, 13:49:07

Klar braucht SSAA auch mehr Bandbreite, ich meinte aber im Vergleich zu MSAA. Und ich glaube, der Unterschied in der Bandbreite von:
4xMSAA ---> 8xMSAA
4xMSAA ---> 4xMSAA + 1x2 SSAA
ist bei 4 --> 8 größer, also der Hit auf die Bandbreite fällt bei 8xMSAA größer aus, als bei 8xS.Der Framebuffer braucht in beiden Fällen gleich viel Bandbreite, sind ja beides acht Textursamples. Bei 8xS kommen aber zusätzlich noch weitere Texturdaten hinzu, das muss eigentlich mehr Bandbreite brauchen.

Captain Future

2008-03-01, 13:52:33

Ich habe bei NV40 MADD+MUL bei 400Mhz, ein R420 hatte MADD+ADD bei 520Mhz. Dazu kam bei NV40 noch das Problem das man nur eine Pipeline für ALU und TEX Anweisungen hatte - ein enormer Nachteil der die erste ALU oft blockieren ließ. Spezielle Einheiten für SF hatten beide. Der Artikel ist längst nicht mehr zeitgemäß, damals wusste man es nicht besser. Es wurde sogar lange auf die höhere Shaderleitstung des NV40 gepocht, übrig blieb davon nichts außer viel Gelächter.

Ein paar Kleinigkeiten hast du vergessen glaube ich.
http://graphics.stanford.edu/projects/gpubench/results/X800XT-4955-PCIe/
http://graphics.stanford.edu/projects/gpubench/results/6800Ultra-6722/

In Spielen kam natürlich die shared-Pipe zum Tragen, aber die reine Rechenleistung war wesentlich besser in vielen Situationen. MIMD-VS, NRM_PP und FP16-Filterung mal gar nicht mitgerechnet.

Gast

2008-03-01, 13:53:20

7800GTX vs X1800XT
Warum nicht:
7800GTX vs X850XT

Die 7800GTX war erst lange Zeit der Gegner der X850, dann für sehr kurze Zeit der der X1800. Der wahre X1800 Gegner war dann die 7800GTX 512.

Captain Future

2008-03-01, 13:53:46

MSAA = Kantenglättung. Wie soll MSAA dort versagen, wenn es nicht zu seinem "Aufgabenbereich" gehört?
MSAA bedeutet Multisampling Antialiasing. Aliasing tritt aber nicht nur an "Kanten" auf und selbst von denen wirkt MSAA nur bei Geometriekanten.

Das Auge

2008-03-01, 13:54:46

Crysis wird dir für AA danken, auch für 8xMSAA und der Auflösung 1920x1200, aber leider gibt es zurzeit keine leistungsfähige Lösung die das ausreichend bewältigt.

Wohl eher für TAA oder einen Supersampling / -Hybridmodus. 8xMSAA killt doch nicht die Kanten an der zahlreichen Vegetation.

Jo, so siehts aus. Gut, als ich Crysis mal am Pseudo-HDTV in 1360x768 getestet hab, brachte schon 2xAA einen deutlichen BQ-Gewinn, allerdings kann man dieses Beispiel kaum auf einen normalen PC-Monitor übertragen, so riesige Pixel gibt es dort einfach nicht.

Anonsten halte ich 8xMSAA nachwievor für mehr als sinnlos. Wenn noch Reserven vorhanden sind bringt TMSAA oder TSSAA bzw. ein Hybridmodi mit SS-Anteil deutlich mehr für das Bild als eine reine zusätzliche Filterung der Kanten mit MSAA. Schon ab 4xMSAA sind mir die Kanten nämlich weich genug, aber die Shader, Zäune oder andere eklige Texturen flimmern noch fröhlich vor sich hin und genau da muß man ansetzen. Nämlich mit dem SS-Hammer, MS bringt da rein gar nichts ;)

Von daher halte ich 8xMSAA für einen reinen Deppenmarketingmodus, sry wenn ich das so offen sage.

deekey777

2008-03-01, 13:54:54

Der höhrere Rechenbedarf bedeutet nicht, dass das r6xx Design besser zurecht kommt. Die hohe Optimierungsarbeit zur vollständigen Auslastung der Einheiten ist immer noch vorhanden.
Ehm, das ist Quark mit dem hohen Optimierungsbedarf. Und was für welcher. Was soll da "hochoptimiert" werden?

Natürlich ist es ineffizient. Deswegen auch die 64 Recheneinheiten. Mehr Einheiten, um den Nachteil durch Brute-Force auszugleichen.

Irgendwelche Belege, dass das Design "natürlich ineffizient" ist? Brute-Force ist beim G80 zu suchen, wo die Shader-ALUs mindestens doppelt so hoch takten.

_DrillSarge]I[

2008-03-01, 13:59:18

MSAA bedeutet Multisampling Antialiasing. Aliasing tritt aber nicht nur an "Kanten" auf und selbst von denen wirkt MSAA nur bei Geometriekanten.
msaa wirkt doch auch bei alpha-blending. das nutz nur (fast?) niemand.
€: gibt auch noch dieses "alpha-to-coverage" zB in quake wars, worüber dann alpha-test sachen mit msaa erfasst werden können.
warum das selten genutzt wird ist mit schleierhaft.

LovesuckZ

2008-03-01, 14:10:29

Ehm, das ist Quark mit dem hohen Optimierungsbedarf. Und was für welcher. Was soll da "hochoptimiert" werden?

Troll dich woanders. :mad:

Irgendwelche Belege, dass das Design "natürlich ineffizient" ist? Brute-Force ist beim G80 zu suchen, wo die Shader-ALUs mindestens doppelt so hoch takten.

Also nVidia macht Brute-Force? Stimmt, dann war es AMD, die nur 8 Recheneinheiten haben, die fast immer voll ausgelastet werden. :rolleyes:

Ist er das? 4x/16x ist langsamer.

Ja. (http://www.computerbase.de/news/hardware/grafikkarten/ati/2008/januar/ati-karten_unreal-engine-3-spielen_aa/)

Ist das nicht ziemliche Wortklauberei? Aber bitte: Die Probleme, die R600 mit AF hat, ergeben sich logisch aus der Architektur (und mit D3D10 sehe ich gar keine). Warum die G8x- ROPs mit 8x MSAA so einbrechen, ist nicht ersichtlich. Auf dem Papier dürften sie das nicht tun.

Und warum bricht AMD mit D3D10 stärker ein als die nVidia Hardware? :confused:

Hvoralek

2008-03-01, 14:24:46

Also nVidia macht Brute-Force? Stimmt, dann war es AMD, die nur 8 Recheneinheiten haben, die fast immer voll ausgelastet werden. :rolleyes:Wo gibt es denn 8 Recheneinheiten? G80 hat 16. Im übrigen Vec8 statt Vec5 und mit sehr hohen Taktraten. Warum wohl?

Wenn man die Effizienz einer Architektur ermitteln möchte, muss man sich schon angucken, was für Rohleistungseckdaten die einzelnen Einheitengruppen jeweils produzieren. Bei R600/ RV670 gegen G80/ D8P gilt jeweils grob:
Arithmetik: Gleichstand (alle um 500 GFLOPS)
Filterleistung: Himmelweiter Vorsprung für Nvidia
Pixelfüllrate: Etwa gleich
Z- Füllrate: Himmelweiter Vorsprung für Nvidia
Leistung: Leichter bis moderater Vorsprung für Nvidia.

Ergebnis: G8x erreicht mit einer ähnlichen Arithmetikleistung, aber enormen Füllraten einen kleinen Vorsprung. Was daran effizient sein soll, sehe ich nicht so recht.

Ja. (http://www.computerbase.de/news/hardware/grafikkarten/ati/2008/januar/ati-karten_unreal-engine-3-spielen_aa/)In diesem Fall braucht AMDs Hack mehr Leistung als der Nvidia- Hack. Und wie sieht es mit regulärem MSAA aus? http://www.computerbase.de/artikel/hardware/grafikkarten/2007/test_ati_radeon_hd_3870_rv670/5/#abschnitt_aa_und_af_skalierung

Bei R600 ähnliche Verluste wie bei G80 und bei RV670 geringere als bei D8P.

Und warum bricht AMD mit D3D10 stärker ein als die nVidia Hardware? :confused:Ist dem so? Komm jetzt bitte nicht mit irgendwelchen Spielen, bei denen sich im D3D10- Pfad auch die dargestellten Inhalte ändern!

Gast

2008-03-01, 14:33:16

Weil die meisten D3D10 meist optimiert auf NV-HW sind.
Du NV-Troll...
Welche optimierten Anwendungen?

Kein Spiel ist für NV optimiert, wäre auch Schwachsinn, seh es doch einfach ein:
ein G8X/9X ist immer stark, ein RXXX kann nur mit optimierungen mithalten.

y33H@

2008-03-01, 14:46:18

ein G8X/9X ist immer stark, ein RXXX kann nur mit optimierungen mithalten.
Sofern man aktuelle Titel nimmt, trifft das wohl schon zu, wobei sicher Spiele erscheinen, welche den R6xxx liegen, nur sind die bis dahin eh zu lahm.

cYa

LovesuckZ

2008-03-01, 14:52:47

Wo gibt es denn 8 Recheneinheiten? G80 hat 16. Im übrigen Vec8 statt Vec5 und mit sehr hohen Taktraten. Warum wohl?

8 Recheneinheiten, die aus 2xVec8 bestehen und für 16 Pixel einen Kanal berechnen.

Ergebnis: G8x erreicht mit einer ähnlichen Arithmetikleistung, aber enormen Füllraten einen kleinen Vorsprung. Was daran effizient sein soll, sehe ich nicht so recht.

Zwar komplett den Zweig verfehlt, aber danke für deine Meinung.

In diesem Fall braucht AMDs Hack mehr Leistung als der Nvidia- Hack.

Belege? Beweis? Aber man sollte es dann doch eher sagen, wie es ist: Bug. :rolleyes:

Und wie sieht es mit regulärem MSAA aus? http://www.computerbase.de/artikel/hardware/grafikkarten/2007/test_ati_radeon_hd_3870_rv670/5/#abschnitt_aa_und_af_skalierung
Bei R600 ähnliche Verluste wie bei G80 und bei RV670 geringere als bei D8P.

Anhand von drei Spielen eine absolute Aussage zu treffen, ist gewagt.
Wieso ist eigentlich die 3870 in CoH (Dx9) mit 4AA/16AF langsamer als die 8800GTX? :confused:

Ist dem so? Komm jetzt bitte nicht mit irgendwelchen Spielen, bei denen sich im D3D10- Pfad auch die dargestellten Inhalte ändern!

Tja, wenn es langsamer ist, ist es ein Bug. Dabei spielt es keine Rolle, wie es realisiert wird.

Coda

2008-03-01, 15:12:30

Und der R600 hat deutlich mehr Arithmetikleistung als der G80.
Hat er nicht.

Ergebnis: G8x erreicht mit einer ähnlichen Arithmetikleistung, aber enormen Füllraten einen kleinen Vorsprung. Was daran effizient sein soll, sehe ich nicht so recht.
Wenn die Spiele Füllratenlimitiert sind, dann macht G8x R6xx so unglaublich kalt dass es nicht mehr schön ist. Die Leistung ist also sehr wohl abrufbar. Sind sie aber nicht. Dafür muss G8x nicht an der BQ beim AF sparen und es ist allgemein quasi umsonst.

Dafür dass man 4x so viele TMUs hat und dann noch bei gleichem Prozess weniger Strom verbraucht ist das Ding weit effizienter als R6xx.

Captain Future

2008-03-01, 15:14:19

In diesem Fall braucht AMDs Hack mehr Leistung als der Nvidia- Hack. Und wie sieht es mit regulärem MSAA aus? http://www.computerbase.de/artikel/hardware/grafikkarten/2007/test_ati_radeon_hd_3870_rv670/5/#abschnitt_aa_und_af_skalierung

Bei R600 ähnliche Verluste wie bei G80 und bei RV670 geringere als bei D8P.
Ist das ein korrekter rechnerischer Ansatz, den CB da betreibt?

Gast

2008-03-01, 15:23:16

Und ich glaube, der Unterschied in der Bandbreite von:
4xMSAA ---> 8xMSAA
4xMSAA ---> 4xMSAA + 1x2 SSAA
ist bei 4 --> 8 größer, also der Hit auf die Bandbreite fällt bei 8xMSAA größer aus, als bei 8xS.

das kann nicht sein, der framebuffer ist in beiden fällem mit 8 samples gleich groß, durch den SS-anteil müssen aber in jedem fall 2 samples/pixel geschrieben werden (auch bei 8xMSAA wird innerhalb eines polygons nur 1 sample geschrieben).
die framebufferkompression mit reinem MSAA ist auch auf jeden fall effizienter und für die zusätzlichen textursamples müssen auch erstmal texturen eingelesen sein.

bei gleicher sampleanzahl MUSS die bandbreite bei einem modus mit SS-anteil mehr beansprucht werden und es kann nicht mal theoretisch einen fall geben wo der modus mit SS-anteil weniger bandbreite braucht.

Gast

2008-03-01, 15:24:53

Hat er nicht.

Wenn die Spiele Füllratenlimitiert sind, dann macht G8x R6xx so unglaublich kalt dass es nicht mehr schön ist. Die Leistung ist also sehr wohl abrufbar. Sind sie aber nicht. Dafür muss G8x nicht an der BQ beim AF sparen und es ist allgemein quasi umsonst.

Dafür dass man 4x so viele TMUs hat und dann noch bei gleichem Prozess weniger Strom verbraucht ist das Ding weit effizienter als R6xx.
Dafür das das Ding für die Shadereinheiten über 1GHz braucht von effizent zu sprechen kann auch nur die einfallen.
Aber das wird immer wieder schön verschwiegen. Umsonst wird der hohe Takt bestimmt nicht gebraucht.

Gast

2008-03-01, 15:29:54

Ergebnis: G8x erreicht mit einer ähnlichen Arithmetikleistung, aber enormen Füllraten einen kleinen Vorsprung. Was daran effizient sein soll, sehe ich nicht so recht.

Kleiner Vorsprung?
AMD wird von NVs Karten regelrecht vernichtet!

LovesuckZ

2008-03-01, 15:32:37

Dafür das das Ding für die Shadereinheiten über 1GHz braucht von effizent zu sprechen kann auch nur die einfallen.
Aber das wird immer wieder schön verschwiegen. Umsonst wird der hohe Takt bestimmt nicht gebraucht.

Man erreichet die hohen Taktraten nur, weil man eben auch nur 8 breite Recheneinheiten hat. Dafür werden sie fast immer vollständig ausgelastet. Das ist effizient. Nachteilig ist der Stromverbrauch: Die Spitze wird bei voller Auslastung erreicht.
AMD benötigt für eine ähnliche praktische Rechenleistung mehr Recheneinheiten, die nicht nur "schmaler" sind, sondern auch wesentlich schlechter ausgelastet werden können.
Weniger, breitere, höher getaktete und besser ausgelastete Recheneinheiten vs. mehr, kleinere, schlechter ausgelastetete Recheneinheiten.
Effizienter bezüglich der praktischen Erreichbarkeit ist nVidia's Weg.

Aquaschaf

2008-03-01, 15:33:29

Dafür das das Ding für die Shadereinheiten über 1GHz braucht von effizent zu sprechen kann auch nur die einfallen.

Taktrate hat mit Effizienz doch überhaupt nichts zu tun.

Gast

2008-03-01, 15:36:38

Für dich ist wohl jede technische Limitierung ein Bug. Gut, dann hat AMD neben einem AA Bug, auch einen AF und D3D10 Bug.

nein, aber wenn eine verdopplung der multisamples gleich viel performance kostet wie eine verdopplung der auflösung muss ein fehler vorliegen.

es ist völlig logisch erklärbar warum ATI-karten beim AF stark einbrechen (dank AF-cheating brechen sie sogar verhältnismäßig wenig ein)

es ist aber nicht erklärbar warum 8xMSAA bei NV dermaßen viel leistung kostet, genausowenig wie es erklärbar war warum der R600 generell bei MSAA extrem stark einbricht.

möglicherweise funktioniert die framebufferkompression mit 8xMSAA nicht mehr, was auch immer der grund ist. (wäre mal interessant ein paar skalierungstests von G8x/9x mit 8xMSAA und unterschiedlichen GPU und speichertaktraten zu sehen um das problem möglicherweise eingrenzen zu können)

dass die z-fillrate bei 8xMSAA dermaßen stark einbricht ist auch nicht normal, wobei das aber nicht alles sein kann, da sie trotztem noch höher als bei ATI ist.

Coda

2008-03-01, 15:48:14

Vielleicht ist aber auch die Speicherhierarchie (Caches, Interface, Prefetch-Logik usw.) nicht auf 8x ausgelegt. Das wäre mein Tipp.

Gast

2008-03-01, 15:53:53

Wayne zu 8xQ, wenn es 16xQ zu kaum höherem Preis gibt, oder 8xS.

Spasstiger

2008-03-01, 16:01:46

Wayne zu 8xQ, wenn es 16xQ zu kaum höherem Preis gibt, oder 8xS.
16xQ hat gegenüber 8xQ optisch kaum Vorteile.
Da würde ich 8xS schon klar vorziehen, da es offenbar schneller ist als 8xQ und halt den SSAA-Anteil hat.

reunion

2008-03-01, 16:14:17

Sicherlich wurde da einiges übertrieben, aber die Pro-Takt-Leistung, war dann bei NV4x doch nicht so schlecht, sodass man mit dem laut dir massiv überlegenen R420 gleichzog bzw. diesen gar überholte.
Für den Kunden damals ein schwierige Situation: potentielle, effiziente Leistung mit einem veralteten Techlevel vs zukunftsweisendes Techlevel mit sich andeutenden Effizienzschwächen.

NV40 sparte massiv bei dem Samples, das berühmte Quality-Flimmern kam nicht von ungefähr, HQ kostete schonmal 50% der Leitung. Ne, das einzige was bei NV40 überlegen war, war vielleicht das Marketing, mit dem nV viele täuschen konnte. Im Endeffekt war ein R420 rein von der Leistung klar vorzuziehen.

Im Endeffekt bleibt es dabei, dass R600 auf speziellen Shadercode angewiesen ist und G8x/G9x ein "Allesfresser" ist.

Wie kommst du darauf? Ein R6xx hat eine höhere Maximalleistung, erreicht aber selten 100% Auslastung, ein G8x kommt nicht an diese Leistung heran, hat aber den Vorteil auch bei ungünstigen Code keine Leistung zu verlieren. Je nach Szenario ist der ein oder andere Chip im Vorteil.

Gast

2008-03-01, 16:22:23

Ne, das einzige was bei NV40 überlegen war, war vielleicht das Marketing, mit dem nV viele täuschen konnte.
Immerhin kann man mit einem NV40 heute immer noch alles spielen.
Ein R420 war zudem später am Markt, musste deshalb am Ende noch gegen einen G70 ankämpfen.

LovesuckZ

2008-03-01, 16:22:58

Je nach Szenario ist der ein oder andere Chip im Vorteil.

Nein, der Gast hat fast vollständig recht. Das r6xx Design ist viel zu anfällig für unoptimierten Code. Dafür gleicht es AMD mit der Masse an Einheiten aus. Die Maximalleistung wurde bis jetzt in nur einer Anwendung erreicht: Die von AMD geschriebene beim r600 Launch.

Gast

2008-03-01, 16:23:25

Und ein X8x0 flimmerte auch und sparte auch an Samples.

reunion

2008-03-01, 16:23:30

Der höhrere Rechenbedarf bedeutet nicht, dass das r6xx Design besser zurecht kommt. Die hohe Optimierungsarbeit zur vollständigen Auslastung der Einheiten ist immer noch vorhanden.

Optimiert wird da genau gar nichts. Je nach Code ist die Auslastung eben höher oder niedriger. Was geht erledigt der Shadercompiler.

Natürlich ist es ineffizient. Deswegen auch die 64 Recheneinheiten. Mehr Einheiten, um den Nachteil durch Brute-Force auszugleichen.

Effizienz ist Leistung/Transistor. Von mir aus können AMD oder nV auch 76786786686789689 sehr schmale Recheneinheiten verbauen wenn das machbar ist und eine höhere Effizienz als jetzt erlaubt. AMD quetscht dafür auch 320 voll D3D10.1 fähige MADD ALUs in 666mio Transistoren. Das wäre mit dem G8x-Design nicht mal ansatzweise möglich. Natürlich erreicht man nicht dieselbe Auslastung, doch zählen tut was hinten raus kommt.

Gast

2008-03-01, 16:24:43

Effizienz ist Leistung/Transistor.
Nö.
Effiziens ist Leistung/W.

Cpl. Dwayne Hicks

2008-03-01, 16:27:09

AMD benötigt für eine ähnliche praktische Rechenleistung mehr Recheneinheiten, die nicht nur "schmaler" sind, sondern auch wesentlich schlechter ausgelastet werden können.

Das kommt doch auf den Shader Code an.... die Treiber Programmierer werden sich gefreut haben als sie rausfanden dass der R600 keinen scheduler bekommen wird. Aber Ich denke es ist fair zu sagen dass die ALUs im Durchschnitt zu 75% ausgelastet werden... die Leute bei ATi machen einen ausgezeichneten Job was den Compiler angeht.
Und beim G80 liegt die MUL doch auch meistens brach, ihre Spitzenwerte erreichen also meistens keiner der beiden Chips.

Hätte ich mir damals eine 640MB 8800GTS gekauft wäre ich jetzt auch nicht besser dran... im Gegenteil.

reunion

2008-03-01, 16:28:44

Immerhin kann man mit einem NV40 heute immer noch alles spielen.
Ein R420 war zudem später am Markt, musste deshalb am Ende noch gegen einen G70 ankämpfen.

Darum ging es aber nicht.

Und ein X8x0 flimmerte auch und sparte auch an Samples.

Nein, das kam erst mit R5xx. R4xx filterte nur bri.

Nö.
Effiziens ist Leistung/W.

Oder Leistung/Transistor.

deekey777

2008-03-01, 16:29:44

Troll dich woanders. :mad:

Also nVidia macht Brute-Force? Stimmt, dann war es AMD, die nur 8 Recheneinheiten haben, die fast immer voll ausgelastet werden. :rolleyes:

Wie verblendet bist du?
Der sehr hohe Shader-Takt kommt nicht von ungefähr, sondern um konkurrenzfähig zu bleiben.

Der R600 kann vier Kanäle in einem Takt berechnen, nebenbei kann er noch eine SF ausführen. Der G80 braucht dafür vier Takte (ohne SF), also müssen die Shader-ALUs sehr hoch getaktet sein. Der G80 kann seinen Vorteil nur dann ausspielen, wenn nicht alle Kanäle berechnet werden müssen.
Und jetzt erkläre mal, warum für den R600 "hoher Optimierungsaufwand" betrieben werden muss?

LovesuckZ

2008-03-01, 16:30:47

Optimiert wird da genau gar nichts. Je nach Code ist die Auslastung eben höher oder niedriger. Was geht erledigt der Shadercompiler.

Der Shadercompiler ist nicht annährend so gut als wenn der Code schon vom Entwickler/Schreiber direkt optimiert wird.

Effizienz ist Leistung/Transistor. Von mir aus können AMD oder nV auch 76786786686789689 sehr schmale Recheneinheiten verbauen wenn das machbar ist und eine höhere Effizienz als jetzt erlaubt. AMD quetscht dafür auch 320 voll D3D10.1 fähige ALUs in 666mio Transistoren.
Das wäre mit dem G8x-Design nicht mal ansatzweise möglich. Natürlich erreicht man nicht dieselbe Auslastung, doch zählen tut was hinten raus kommt.

Muss auch garnicht, wenn schon 505 Millionen Transistoren reichen, um gegen 666 Millionen mehr als nur zu bestehen.

Gast

2008-03-01, 16:33:23

Nein, das kam erst mit R5xx. R4xx filterte nur bri.

Nee das gabs auch mit den X8x0 schon. Ich hab die Karte ja hier und sehe diese Schweinerein. Vieleicht nicht ganz so extrem wie beim NV40 aber flimmern tut sie trotzdem recht extrem in einiges Games.

LovesuckZ

2008-03-01, 16:38:09

Nein, das kam erst mit R5xx. R4xx filterte nur bri.

Schon die Verarsche an der Presse vergessen?

http://www.techreport.com/r.x/filtering/slide3.gif
http://www.techreport.com/articles.x/6754

reunion

2008-03-01, 16:39:38

Der Shadercompiler ist nicht annährend so gut als wenn der Code schon vom Entwickler/Schreiber direkt optimiert wird.

Natürlich ist er das nicht. Was solls? Ein G8x kommt nie an diese Leistung heran, ein R6xx in der Praxis auch nicht. Das Design ist nicht darauf ausgelegt 100% Auslastung zu erreichen, muss es auch nicht.

Muss auch garnicht, wenn schon 505 Millionen Transistoren reichen, um gegen 666 Millionen mehr als nur zu bestehen.

Das nützt nur genau gar nichts wenn nV dann 240mm² Die-Fläche dafür benötigt. Das Ding wäre auch in 55nm kaum kleiner als ein RV670. Und gegen eine 3870 ist das Ding sicher nicht überlegen sondern höchstens ebenbürtig. Und da fehlen noch so einige Features auf Seiten von NV.

reunion

2008-03-01, 16:43:04

Schon die Verarsche an der Presse vergessen?

http://www.techreport.com/r.x/filtering/slide3.gif
http://www.techreport.com/articles.x/6754

Da steht nichts vom Sampleoptimierungen, sondern nur von LOD-Spielereine. Auch nicht schön, aber deutlich besser als das, was nV mit NV40 Q aufführte. Und ja ich konnte das direkt vergleichen.

Lawmachine79

2008-03-01, 16:46:41

Hat er nicht.

Dann verstehe ich nicht, wie ATI bei ihrem Rückständ was Füllrate angeht überhaupt noch mithalten kann. Bin aber durchaus lernwillig, was das angeht ;).

Warum nicht:
7800GTX vs X850XT

Die 7800GTX war erst lange Zeit der Gegner der X850, dann für sehr kurze Zeit der der X1800. Der wahre X1800 Gegner war dann die 7800GTX 512.

Der Gegner der X850XT war die 6800 Ultra. Ich befürchte allerdings, daß die X850XT die 7800GTX (auch die GTX512) mittlerweile vernichtend schlägt. Du musst auch mal vergleichen, WANN welche Karte auf dem Markt war, Du willst zwei verschiedene Generationen gegeneinander antreten lassen, Dein Vergleich auf heute gemünzt wäre umgekehrt 7800GTX 512 vs X1900XT (und wir wissen wie das enden würde).

Effiziens ist Leistung/W.
Nein, das ist Effizienz ;)

Gast

2008-03-01, 16:50:33

Oder Leistung/Transistor.
oder Leistung/Takt.
Ist doch wurst, wollen wir jetzt Transistoren zählen? Ja toll der G92 hat mehr davon als ein RV670, dafür bietet er mehr BQ und ist schneller und frisst alles.

Als nächstes zählen wir die PCB Layer, ja der R600 hatte ein weitaus komplexeres als der G80.
Oder zählen wir die Bauteile auf dem PCB, zb Kondensatoren oder Spawas.

Lawmachine79

2008-03-01, 16:53:20

das kann nicht sein, der framebuffer ist in beiden fällem mit 8 samples gleich groß, durch den SS-anteil müssen aber in jedem fall 2 samples/pixel geschrieben werden (auch bei 8xMSAA wird innerhalb eines polygons nur 1 sample geschrieben).
die framebufferkompression mit reinem MSAA ist auch auf jeden fall effizienter und für die zusätzlichen textursamples müssen auch erstmal texturen eingelesen sein.

bei gleicher sampleanzahl MUSS die bandbreite bei einem modus mit SS-anteil mehr beansprucht werden und es kann nicht mal theoretisch einen fall geben wo der modus mit SS-anteil weniger bandbreite braucht.

Also ist die "Z-Problematik" der absolut einzige Grund, warum 8xS schneller ist als 8xQ? Habe ich das richtig verstanden, daß NV auch Kanten glättet, die verdeckt sind?

Coda

2008-03-01, 16:54:04

Dann verstehe ich nicht, wie ATI bei ihrem Rückständ was Füllrate angeht überhaupt noch mithalten kann. Bin aber durchaus lernwillig, was das angeht ;).
Weil sehr viel Texturzugriffslatenz hinter Arithmetik versteckt werden kann, vor allem wenn man bei den Takten für Tex spart.

Die reine Arith-Leistung ist auf R6xx meinen Messungen nach bei vernünftigen Shadern nicht höher als auf G8x.

Habe ich das richtig verstanden, daß NV auch Kanten glättet, die verdeckt sind?
Du hast Multisampling offenbar nicht verstanden. Die Frage ergibt so keinen Sinn.

reunion

2008-03-01, 16:54:21

oder Leistung/Takt.

Falsch, Leistung/Takt ist vollkommen irrelevant. Von mir aus kann ein Chip auch mit fünf Gigaherz takten, wenn er trotzdem Effizient(er) ist.

Ist doch wurst, wollen wir jetzt Transistoren zählen? Ja toll der G92 hat mehr davon als ein RV670, dafür bietet er mehr BQ und ist schneller und frisst alles.

Es ist eben nicht wurscht. Ein Design ist dann effizient, wenn es aus wenig Transistoren und/oder wenig Watt eine hohe Leistung heraus holen kann. Und nur dann ist es auch wirtschaftlich konkurrenzfähig.

reunion

2008-03-01, 16:59:21

Die reine Arith-Leistung ist auf R6xx meinen Messungen nach bei vernünftigen Shadern nicht höher als auf G8x.

Was wohl nicht selten an der mangelnden TEX-Leistung liegt. Die klassischen ALU-Tests greifen da viel zu kurz, und messen oft nur das Füllratenlimit. Umso höher der arithmetikanteil in den Shadern, umso besser schlägt sich ein R6xx.

Banshee18

2008-03-01, 16:59:30

Ich befürchte allerdings, daß die X850XT die 7800GTX (auch die GTX512) mittlerweile vernichtend schlägt.
Diese Aussage halte ich für sehr gewagt.
Interessieren würden mich Benchmarks mit aktuellen Spielen aber schon.

Coda

2008-03-01, 17:00:40

Was wohl nicht selten an der mangelnden TEX-Leistung liegt.
Reine Arithmetik. Und nein ich war nicht ROP limitiert.

Bevor jemand fragt, war ein Zusammengewürfel aus verschiedenen Artith-Fragmenten von rellen Shadern (Phong, Displacement-Mapping, usw.)

Umso höher der arithmetikanteil in den Shadern, umso besser schlägt sich ein R6xx.
Nö.

reunion

2008-03-01, 17:04:02

Reine Arithmetik. Und nein ich war nicht ROP limitiert.

Nagut, dann muss ich das mal glauben.

Nö.

Doch. Vielleicht ist die ALU-Leistung in der Praxis nicht höher, aber allemal konkurrenzfähiger als die Filterleistung.

Coda

2008-03-01, 17:05:29

Doch. Vielleicht ist die ALU-Leistung in der Praxis nicht höher, aber allemal konkurrenzfähiger als die Filterleistung.
So gesehen ja. Sie ist ungefähr gleichwertig.

Gast

2008-03-01, 17:05:48

Es ist eben nicht wurscht. Ein Design ist dann effizient, wenn es aus wenig Transistoren und/oder wenig Watt eine hohe Leistung heraus holen kann. Und nur dann ist es auch wirtschaftlich konkurrenzfähig.
Wirtschaftlichkeit hat viele Gesichter. AMD fertigt günstig in 55nm, ein AMD Transistor ist demnach erheblich billiger.

Deshalb schrieb ich Leistung/W. Leistung/Die-Size wäre auch ok.

AnarchX

2008-03-01, 17:09:57

Das nützt nur genau gar nichts wenn nV dann 240mm² Die-Fläche dafür benötigt. Das Ding wäre auch in 55nm kaum kleiner als ein RV670. Und gegen eine 3870 ist das Ding sicher nicht überlegen sondern höchstens ebenbürtig.
Hätte NV nichts gegen GDDR4 und würde eine ähnliche TDP anzielen wie RV670XT, so würde RV670 in diesem Vergleich den kürzeren ziehen.

Und da fehlen noch so einige Features auf Seiten von NV.
Ein unnützer Tesselator?
Volle HW-Kodierung von VC-1, was mit dem Ende von HD-DVD wohl auch an Bedeutung verlieren wird?
Oder das kleinste D3D-Upgrade, was es jemals gab, und dessen Implementierung man sich wohl nur traute, da man einen bescheidenen D3D10-Markanteil hatte und so relativ wenige Kunden enttäuschte, was sich NV mit ihrem Marktanteil nicht erlauben konnte?

y33H@

2008-03-01, 17:14:14

Ich befürchte allerdings, daß die X850XT die 7800GTX (auch die GTX512) mittlerweile vernichtend schlägt.
No way, eine X1800XT packt mit Müh' und Not die 78GTX/256 - die X8x0XT hat keine Chance.

cYa

reunion

2008-03-01, 17:15:52

Hätte NV nichts gegen GDDR4 und würde eine ähnliche TDP anzielen wie RV670XT, so würde RV670 in diesem Vergleich den kürzeren ziehen.

Wenn man das könnte ja. Doch offensichtlich schafft nV nichtmal bei der 9800GTX eine Taktfrequenz über 675Mhz.

Ein unnützer Tesselator?

Das Ding ist voll D3D11-kompatibel und wird in zukünftigen Designs eben keine zusätzlichen Transistoren verballern.

Volle HW-Kodierung von VC-1, was mit dem Ende von HD-DVD wohl auch an Bedeutung verlieren wird?

Es ist vorhanden, es kostet Transistoren.

Oder das kleinste D3D-Upgrade, was es jemals gab, und dessen Implementierung man sich wohl nur traute, da man einen bescheidenen D3D10-Markanteil hatte und so relativ wenige Kunden enttäuschte, was sich NV mit ihrem Marktanteil nicht erlauben konnte?

Was ist denn das für eine irrsinnig dumme, kurzsichtige und lächerliche Begründung für das fehlen eines D3D-Levels? Das kann doch hoffentlich nicht dein ernst sein. Auch dir sollte bekannt sein das sämtliche DX-Versionen voll abwärtskompatibel sind.

Lawmachine79

2008-03-01, 17:22:29

Du hast Multisampling offenbar nicht verstanden. Die Frage ergibt so keinen Sinn.
Multisampling glättet Polygonkanten in dem es zusätzliche Farbwerte (Samples) in der Umgebung abtastet und mit dem Ergebnis die Polygonkante "weichzeichnet". Was aber ist, wenn die Poylgonkante in einem dreidimensionalen Raum von einem anderen Objekt verdeckt ist?

Captain Future

2008-03-01, 17:22:29

Das Ding ist voll D3D11-kompatibel und wird in zukünftigen Designs eben keine zusätzlichen Transistoren verballern.
Du kennst schon die DX11 Specs? Hast du dazu mal 'nen Link?

Gast

2008-03-01, 17:22:42

Wenn man das könnte ja. Doch offensichtlich schafft nV nichtmal bei der 9800GTX eine Taktfrequenz über 675Mhz.

Schafft oder will?
NV hat keinen Stress damit die Führung langsam auszubauen.

Captain Future

2008-03-01, 17:24:05

Was aber ist, wenn die Poylgonkante in einem dreidimensionalen Raum von einem anderen Objekt verdeckt ist?
Dann wird dies aufgrund der WErte im Z-Buffer erkannt und die Per-Pixel-Berechnung verworfen. Die zusätzlichen Geometrie-Samples sind dann mWn allerdings bereits (vergeblich) generiert worden.

LovesuckZ

2008-03-01, 17:34:15

Was solls? Ein G8x kommt nie an diese Leistung heran, ein R6xx in der Praxis auch nicht.

An was? Ein G8x ist dafür ausgelegt in vielen Fällen ausgelastet zu sein.

Das Design ist nicht darauf ausgelegt 100% Auslastung zu erreichen, muss es auch nicht.

Deswegen auch die vielen Recheneinheiten und die wenigen Textureinheiten und schlechteren ROPs.

Das nützt nur genau gar nichts wenn nV dann 240mm² Die-Fläche dafür benötigt. Das Ding wäre auch in 55nm kaum kleiner als ein RV670. Und gegen eine 3870 ist das Ding sicher nicht überlegen sondern höchstens ebenbürtig. Und da fehlen noch so einige Features auf Seiten von NV.

Na, entscheide dich bitte: Effizienz ist entweder Leistung/Transistor, Leistung/Waferfläche, Leistung/Watt.
Und auf Seiten von AMD fehlt Bildqualität. Abgesehen davon, verbraucht die 3870 wesentlich mehr Strom unter Last. Bei gleichem Stromverbrauch wäre eine 9600GT selbst ohne AA und AF wohl genauso schnell, wenn nicht sogar schneller.

Und jetzt erkläre mal, warum für den R600 "hoher Optimierungsaufwand" betrieben werden muss?

Abgesehen, dass die Berechnungen unabhängig sein müssen? :rolleyes:

deekey777

2008-03-01, 17:41:00

...

Abgesehen, dass die Berechnungen unabhängig sein müssen? :rolleyes:
Und das hat mit Spielen welche Relevanz?

reunion

2008-03-01, 17:41:48

Du kennst schon die DX11 Specs? Hast du dazu mal 'nen Link?

Frag Ailuros, er hat in dieser Hinsicht sehr viel Insiderwissen und laut ihm ist der Tesslator in R6xx voll D3D11 kompatibel.

An was?

An einem voll ausgelasteten R6xx.

Ein G8x ist dafür ausgelegt in vielen Fällen ausgelastet zu sein.

Habe ich auch nicht bestritten.

Na, entscheide dich bitte: Effizienz ist entweder Leistung/Transistor, Leistung/Waferfläche, Leistung/Watt.

Da gibt es nicht zu entscheiden. Effizienz ist wie du richtig sagst entweder Leistung/Transistor (genauer Leistung/Waferfläche) oder Leistung/Watt. Alles andere hat mit Effizienz bei einem Siliziumchip IMHO nicht zu tun.

Lawmachine79

2008-03-01, 17:42:12

Diese Aussage halte ich für sehr gewagt.
Interessieren würden mich Benchmarks mit aktuellen Spielen aber schon.

Mist, ich finde das nicht mehr. Irgendeine Seite hat das mal getestet. Sehr umfangreich. War auch hier verlinkt. Woran ich mich noch genau erinnere war TDU, da war es vernichtend, wenn ich es recht in Erinnerung habe, wurde eine 7800GTX da sogar von einer X800XL (die kleinste 16-Pipekarte von ATI) versägt.

y33H@

2008-03-01, 17:49:57

wurde eine 7800GTX da sogar von einer X800XL (die kleinste 16-Pipekarte von ATI) versägt.
Ha, ich wusste meine gute, alte XL hatte es drauf - wäre super wenn du das noch mal ausgraben könntest :)

cYa

LovesuckZ

2008-03-01, 17:52:32

An einem voll ausgelasteten R6xx.

Richtig, aber wie du sagst: Der r6xx soll ja nie ausgelastet sein. ;)

Da gibt es nicht zu entscheiden. Effizienz ist wie du richtig sagst entweder Leistung/Transistor (genauer Leistung/Waferfläche) oder Leistung/Watt. Alles andere hat mit Effizienz bei einem Siliziumchip IMHO nicht zu tun.

Wir redeten über die Effizienz der Recheneinheiten bei Zunahme vom Rechenbedarf. Und da wird das r6xx Design nicht besser dastehen, wenn der Shadercode nicht auf ihre Architektur angepasst werde.

Und das hat mit Spielen welche Relevanz?

Einen großen, wenn die nVidia Architektur schneller ist.
Aber du kannst gerne darlegen, warum man für das r6xx Design nicht mehr optimieren müsste.

Captain Future

2008-03-01, 17:54:09

Frag Ailuros, er hat in dieser Hinsicht sehr viel Insiderwissen und laut ihm ist der Tesslator in R6xx voll D3D11 kompatibel.
Danke, werde ich mal tun.
Effizienz ist wie du richtig sagst entweder Leistung/Transistor (genauer Leistung/Waferfläche) oder Leistung/Watt.
Dann sieht der RV670 aber nur bei "pro Waferfläche" gut aus. Pro Transistor und pro Watt eher nicht.

Fläche Leistungsaufnahme(Last) Leistungsrating (Qualität, 1280x1024
HD3870 192mm² (82%) 252 Watt (114%) 97%
9600GT 235mm² (100%) 222 Watt (100%) 100%

reunion

2008-03-01, 17:59:50

Richtig, aber wie du sagst: Der r6xx soll ja nie ausgelastet sein. ;)

Nein, das habe ich nicht gesagt, das ist nur deine übliche Polemik.

Raff

2008-03-01, 18:01:28

Ergebnis: G8x erreicht mit einer ähnlichen Arithmetikleistung, aber enormen Füllraten einen kleinen Vorsprung. Was daran effizient sein soll, sehe ich nicht so recht.

Das ist so nicht ganz korrekt. G80/92/whatever-Karten werden stets mit HQ gebencht, bei Ati bleibt aber A.I. und damit alle AF-"Optimierungen" an. Auf einem R5x0 hat A.I. Off oft für enorme Einbrüche gesorgt, die vom Mangel von Texelfüllrate herrühren. Solche Tests hat AMD beim R(V)6x0 effektiv verhindert, indem einfach jede A.I.-Stufe weiter "optimiert".

Was ich sagen will: Es würde komplett anders aussehen, müsste die Radeon "sauberes" R5x0-AF berechnen. So aber schlägt die G80/92-Überlegenheit bei der Füllrate nur in älteren Spielen, 16x AF ohne MSAA ... oder SSAA durch.

MfG,
Raff

reunion

2008-03-01, 18:02:03

Dann sieht der RV670 aber nur bei "pro Waferfläche" gut aus. Pro Transistor und pro Watt eher nicht.

Fläche Leistungsaufnahme(Last) Leistungsrating (Qualität, 1280x1024
HD3870 192mm² (82%) 252 Watt (114%) 97%
9600GT 235mm² (100%) 222 Watt (100%) 100%

Leistung/Transistor ist auch nur eine Annäherung zur Leistung/Waferfläche. Eigentlich ist natürlich nur letztere von Relevanz, doch bei unterschiedlichen Fertigungsprozessen kaum vergleichbar. Die pro Watt Leistung ist bei einem G8x aber in der Tat besser. Dafür gibt es unter idle keine effektiven Stromsparmechanismen.

LovesuckZ

2008-03-01, 18:09:16

Dafür gibt es unter idle keine effektiven Stromsparmechanismen.

Benötigt man auch nicht. Die Spannung ist schon auf niedrigem Niveau. Es fehlt einzig eine Taktabsenkung.

y33H@

2008-03-01, 18:10:50

Es fehlt einzig eine Taktabsenkung.
Welche bei einer 88GT via Rivatuner nur um die 10 Watt bringt. Senkt man die VCore noch mit runter (zB auf 0.95v, damit rennen die 602/1512 noch stable in 3D), kann man noch mal 10 Watt rausholen. Eine 2D/3D-Taktumschaltung geht per Rivatuner, ein 2D/3D-VCore klappt nicht *nerv* 1.05v in 3D und 0.85v in 2D wäre schon nett ...

cYa

Raff

2008-03-01, 18:18:24

Benötigt man auch nicht. Die Spannung ist schon auf niedrigem Niveau. Es fehlt einzig eine Taktabsenkung.

Bitte nicht schönreden. "Niedriges Niveau" ist relativ ... und über dem einer Radeon HD 38x0. Da ginge noch einiges. Aber mit Hybrid-SLI wird ja alles gut *Marketing ftw*

MfG,
Raff

LovesuckZ

2008-03-01, 18:23:01

Bitte nicht schönreden. "Niedriges Niveau" ist relativ ... und über dem einer Radeon HD 38x0. Da ginge noch einiges. Aber mit Hybrid-SLI wird ja alles gut *Marketing ftw*
MfG,
Raff

Jaja. Blah. Sry, aber man kann nicht alles vergleichen. Eine Taktabsenkung wäre fein. Wenn die Karte dann noch mehr Strom benötige, ist dies tragisch, aber kein Beinbruch.

y33H@

2008-03-01, 18:33:20

Eine Taktabsenkung wäre fein. Wenn die Karte dann noch mehr Strom benötige, ist dies tragisch, aber kein Beinbruch.
Warum dann nicht gleich noch eine VCore-Absenkung? Die Karte idelt doch eh die meiste Zeit, 10 Watt machen da schon was aus.

cYa

Captain Future

2008-03-01, 18:33:48

Dafür gibt es unter idle keine effektiven Stromsparmechanismen.
Ja, aber wir reden ja gerade von etwas anderem.

deekey777

2008-03-01, 18:41:18

...

Einen großen, wenn die nVidia Architektur schneller ist.
Aber du kannst gerne darlegen, warum man für das r6xx Design nicht mehr optimieren müsste.
Warum sollte ich für deine Behauptungen etwas darlegen?
Behauptung Nr. 1:
Nein, das ist falsch. Nicht hoher Rechenbedarf ist bestimmend, sondern wie gut man diesen auf die Architektur optimieren kann. Und da ist das r6xx Design einfach wesentlich ineffizienter.
Wo ist das R600-Design wesentlich ineffizienter?
Behauptung Nr. 2:
Der höhrere Rechenbedarf bedeutet nicht, dass das r6xx Design besser zurecht kommt. Die hohe Optimierungsarbeit zur vollständigen Auslastung der Einheiten ist immer noch vorhanden.
Nr. 3:

Troll dich woanders. :mad:
...
Ich sehe null Argumente.

Captain Future

2008-03-01, 18:57:35

Wo ist das R600-Design wesentlich ineffizienter?

R600 hat im Vergleich zu G80
- mehr Transistoren
- mehr Leistungsaufnahme (trotz Prozessvorteilen)
- mehr Recheneinheiten
- nicht mehr (SPiel) Leistung

Ich kann da schon eine gewisse ineffizienz sehen.

Gast

2008-03-01, 19:03:07

... eine schlechtere BQ

Gast

2008-03-01, 19:03:57

Der Chip wird einfach (noch) nicht effizient genug genutzt.
Die meisten Spiele sind derzeit shaderlastig und als solche auch eher auf den Martkführer optimiert. Der R600 hat die Marktanteile von AMD stark reduziert, Spieleentwickler sahen somit keine derart hohe Relevanz ihre Engines auf AMD-Karten auszulegen/optimierungen einzuarbeiten.

Gast

2008-03-01, 19:04:38

Die BQ bestimmt hier der Treiber nicht die GPU..,

Spasstiger

2008-03-01, 19:24:09

Die BQ bestimmt hier der Treiber nicht die GPU..,
Die Winkelabhängigkeit des AF wird durchaus von der Hardware bestimmt.

Gast

2008-03-01, 19:53:25

... eine schlechtere BQ

blödsinn.....

LovesuckZ

2008-03-01, 19:53:58

Wo ist das R600-Design wesentlich ineffizienter?

Im Recheneinheitenaufbau.
Und du hast immer noch nicht dargelegt, wieso man für den r600 nicht mehr optimieren müsste als für den G8x.

Gast

2008-03-01, 19:55:04

Ihr bewegt euch die ganze Zeit im Offtopic. Wo erscheint mal ein sinnvoller Beitrag zum 8xMSAA?

Gast

2008-03-01, 20:15:31

Im Recheneinheitenaufbau.
Und du hast immer noch nicht dargelegt, wieso man für den r600 nicht mehr optimieren müsste als für den G8x.
Wieso denn das?
Du glaubst auch noch, dass kein Spielehersteller für NV optimiert!

In diesem Zusammenhang kann man nur 3D-Mark als letzte Bezugsquelle eines halbwegs objektiven Leistungsvergleichs heranziehen, so makaber es klingen mag. Weil da für keine der beiden Plattformen optimiert wird, solange keiner der beiden Kontrahenten "cheatet".

_DrillSarge]I[

2008-03-01, 20:22:28

In diesem Zusammenhang kann man nur 3D-Mark als letzte Bezugsquelle eines halbwegs objektiven Leistungsvergleichs heranziehen, so makaber es klingen mag. Weil da für keine der beiden Plattformen optimiert wird, solange keiner der beiden Kontrahenten "cheatet".
eigentlich eine "nette" idee, nur optimieren die ihvs auch dort selber.

Lawmachine79

2008-03-01, 20:23:29

Wieso denn das?
Du glaubst auch noch, dass kein Spielehersteller für NV optimiert!

In diesem Zusammenhang kann man nur 3D-Mark als letzte Bezugsquelle eines halbwegs objektiven Leistungsvergleichs heranziehen, so makaber es klingen mag. Weil da für keine der beiden Plattformen optimiert wird, solange keiner der beiden Kontrahenten "cheatet".

Ich glaube diese "3D-Mark-Kultur" hat überhaupt erst zu den Cheatereien geführt.

Gast

2008-03-01, 20:27:38

Keine seriöse Site sollte 3DMark zum Test heranziehen.

deekey777

2008-03-01, 20:29:01

Im Recheneinheitenaufbau.
Und du hast immer noch nicht dargelegt, wieso man für den r600 nicht mehr optimieren müsste als für den G8x.
Wo habe ich geschrieben, dass für den G80 mehr optimiert werden muss?

Lawmachine79

2008-03-01, 20:37:35

Keine seriöse Site sollte 3DMark zum Test heranziehen.

Naja, diese Medaille hat 2 Seiten - einerseits die negative Seite, bereits erwähnte "Motivation" für die IHVs, zu betrügen. Andererseits schaffen sie aber einen gewissen "Index", sie setzen einen Orientierungspunkt im Sprachgebrauch der Leute, die sich für die Materie interessieren. Wenn man sagt "Ich habe im 3DM06 x Punkte" kann man den PC leistungsmässig SOFORT einordnen, zwar nicht präzise aber ab sofort sprechen alle eine Sprache. Wenn ich sage "Ich habe in UT2K7 113 FPS" - welche Res? Details? AA? AF? Map? Wo auf der Map? Welche Timedemo? Gegner? Savegame? - da kann nur noch in einem vergleichenden Testbericht was Sinnvolles bei rumkommen, aber nicht, wenn man eben schnell eine "Orientierungsmarke" braucht. Beim 3DMark fragt man höchstens noch, wie hoch die CPU-Marks waren. Außerdem ist der Knopf "Run 3DMark06" der Hauptgrund für den Erfolg der 3DMark-Reihe: er testet sofort jedes System auf immer identischen Einstellungen und zeigt direkt danach eine Zahl an. Also können endlich auch die Schraubergehilfen von der Computerbild "seriöse" Testberichte erstellen (jetzt brauchts nur noch 'nen Lektor, der fehlt anscheinend auch ;) ). 3DMark macht Leistungsmessungen dem DAU zugänglich. So einfach ist das.

Raff

2008-03-01, 20:40:45

Richtig. Und zum Testen von Geforce-Karten untereinander taugt das Teil ebenso wie als Leistungsindikator von Radeon-Karten untereinander. Zumindest zeigt der 3DMark stets die bestmögliche Leistung. ;)

MfG,
Raff

_DrillSarge]I[

2008-03-01, 20:56:52

jo, untereinander vergleichen ist sicherlich das beste als sowas wie gf2mx vs. kyro 2 @3dmark01 ;D

Gast

2008-03-01, 21:00:31

Untereinander? Der gewaltige Unterschied zwischen 8800GT 256MiB und 512MiB ist im 3DMark gering, in der harten Realität gewaltig.

Aber man muss sagen 3Dmark ist einfach für den Tester. :)
Und Tester haben es gerne einfach, sonst würden sie auch mal abseits der unsinngen Standard AA Regler drehen.

y33H@

2008-03-01, 21:05:56

Der 3D Mark springt doch nur auf Shader und Rohleistung an, Bandbreite und VRAM kommen iwie zu kurz - gerade die VRAM-Problematik der Geforce 8/9 fällt völlig unter den Tisch. Auch ist der prozentuale Einbruch mit 8xAA geringer als bei Spielen ;)

cYa

_DrillSarge]I[

2008-03-01, 21:06:49

mag auch daran liegen, dass 3dm06 einfach zu alt ist. ist ja dann auch nur noch ein aufgeblasenes 3dm05

Gast

2008-03-01, 21:22:55

Auch ist der prozentuale Einbruch mit 8xAA geringer als bei Spielen ;)
Da 8xMSAA eh nicht praxisrelevant ist spielt das keine Rolle. :)

y33H@

2008-03-01, 21:24:34

Da 8xMSAA eh nicht praxisrelevant ist spielt das keine Rolle.
Rein theoretisch ist 8xAA zwar interessant oder für alle Games, aber rein optisch und auch von den Fps her nutzt man doch eh SSAA oder Hybrid-Modi.

cYa

Gast

2008-03-01, 21:51:37

Woran ich mich noch genau erinnere war TDU, da war es vernichtend, wenn ich es recht in Erinnerung habe, wurde eine 7800GTX da sogar von einer X800XL (die kleinste 16-Pipekarte von ATI) versägt.

nur dass TDU mit SM2 deutlich weniger als mit SM3 rechnet, da werden auch ATIs SM3-karten von ihren eigenen vorgängern überholt. (zumindest die ersten)

Gast

2008-03-01, 23:17:21

nur dass TDU mit SM2 deutlich weniger als mit SM3 rechnet, da werden auch ATIs SM3-karten von ihren eigenen vorgängern überholt. (zumindest die ersten)
Das wüsste ich aber...

Grestorn

2008-03-01, 23:18:39

Das wüsste ich aber...

Hey, Seneca, was machst Du denn hier?! :) [Insider Joke]

Gast

2008-03-01, 23:58:20

was? Seneca ich Bin nicht

Hvoralek

2008-03-02, 00:23:40

8 Recheneinheiten, die aus 2xVec8 bestehen und für 16 Pixel einen Kanal berechnen.Es sind physisch Vec8- Prozessoren. Dass die jeweils in Zweierblöcken verbaut und angesprochen werden, ist wofür genau wichtig?

Zwar komplett den Zweig verfehlt, aber danke für deine Meinung.Ach so, ich vergaß: Es darf natürlich nur bzgl. der Arithmetikleistung gefragt werden, wer eher auf Brute Force statt Effizienz setzt, weil es nur dort ATI ist :rolleyes:

Belege? Beweis? Aber man sollte es dann doch eher sagen, wie es ist: Bug. :rolleyes:Welches UE3- Spiel bietet selbst im D3D9- Pfad MSAA an? Offiziell geht das dort auf MRTs überhaupt nicht.

Anhand von drei Spielen eine absolute Aussage zu treffen, ist gewagt.Anhand dreier normaler Spiele solche Aussagen zu treffen, ist gewagt, anhand eines einzelnen mit Ninja- AA- Methoden kann man das aber tun. *rofl* Du übertriffst Dich gerade selbst;D

Wieso ist eigentlich die 3870 in CoH (Dx9) mit 4AA/16AF langsamer als die 8800GTX? :confused:Noch Fragen? :rolleyes:

Mit Blick auf die rechnerischen Leistungsdaten solltest Du Dich vlt. eher fragen, warum die 3870 nicht viel weiter hinter der GTX liegt.

Tja, wenn es langsamer ist, ist es ein Bug. Dabei spielt es keine Rolle, wie es realisiert wird.Es ist für Dich also egal, was dargestellt wird: Wenn die Leistung sinkt, ist die Hardware verbuggt. Dann schau Dir mal die D3D10- Modi von CoH, CoJ oder den meisten anderen an, da verliert jede Karte Leistung. Das hat allerdings nicht mit der Nutzung de D3D10- Pfades zu tun, sondern mit den zusätzlich dargestellten Inhalten. Aber gut, wenn Du so willst, hat ausnahmslos jede D3D10- Hardware einen "D3D10- Bug" :rolleyes:

Gut, es gibt 1 mir bekanntes Beispiel, in dem die im D3D10- Pfad hinzugefügten Inhalte nur auf AMD- Karten nennenswert Leistung kosten, auf Nvidiakarten nicht. Auch das liegt aber an diesen Inhalten, nicht am Renderpfad. Das ist kein "D3D10- Bug", sondern, wenn Du so willst, ei "Shadowmap- Bug". Wobei auch das kein unerklärlicher Bug ist, sondern bei der Architektur kein Wunder. Anders als die 8x- MSAA- Einbrüche auf G8x.

Wenn die Spiele Füllratenlimitiert sind, dann macht G8x R6xx so unglaublich kalt dass es nicht mehr schön ist. Die Leistung ist also sehr wohl abrufbar.Laut dargo hängt zumindest die D8P-Leistung auch in erheblichem Maße am Kerngrundtakt (TMUs/ ROPs). Ganz ohne Grund scheint man G8x diese Füllraten auch nicht verpasst zu haben.

Ist das ein korrekter rechnerischer Ansatz, den CB da betreibt?Wenn eine Karte in einem Leistungsbereich liegt, in dem die CPU- Leistung eine größere Rolle spielt als bei der anderen, wären die prozentualen Einbrüche geringer. Die Karten dort sind aber alle grob gleich schnell, sodass der Einfluss nur gering sein sollte. Und wenn es ihn gibt, würden die Einbrüche der schnelleren Karten (also G80/ D8P) etwas kleiner aussehen, als sie sind.

Das Ding ist voll D3D11-kompatibel und wird in zukünftigen Designs eben keine zusätzlichen Transistoren verballern.Was ist bitte ineffizienter, als Chipfläche für Dinge zu verschenden, die auf dem Chip nie genutzt werden können (außer unter OpenGL, hoho)?

Das ist so nicht ganz korrekt. G80/92/whatever-Karten werden stets mit HQ gebencht, bei Ati bleibt aber A.I. und damit alle AF-"Optimierungen" an. Auf einem R5x0 hat A.I. Off oft für enorme Einbrüche gesorgt, die vom Mangel von Texelfüllrate herrühren.Werden nicht G8x meist mit Q getestet? Und die Einbrüche ohne AI rühren m.W. immer noch nicht nur von ausgeschalteten BQ- Verschlechterungen her.

Coda

2008-03-02, 02:27:25

Was ist bitte ineffizienter, als Chipfläche für Dinge zu verschenden, die auf dem Chip nie genutzt werden können (außer unter OpenGL, hoho)?
Nichtmal dort. Es gibt keinerlei Extensions für irgendeine D3D10-Fähigkeit von ATI.

Laut dargo hängt zumindest die D8P-Leistung auch in erheblichem Maße am Kerngrundtakt (TMUs/ ROPs). Ganz ohne Grund scheint man G8x diese Füllraten auch nicht verpasst zu haben.
Dann sollte er mal messen woran es genau liegt. Am besten kein AF vs. 16xAF usw. Die TMUs auf G8x sollten es sehr viel seltener sein als bei R6xx.

http://www.computerbase.de/artikel/hardware/grafikkarten/2007/test_ati_radeon_hd_3870_rv670/5/#abschnitt_aa_und_af_skalierung - Sehr eindeutig wie ich finde.

reunion

2008-03-02, 09:18:13

Nichtmal dort. Es gibt keinerlei Extensions für irgendeine D3D10-Fähigkeit von ATI.

Kommt wohl mit dem nächsten Catalyst:

Also new to the Catalyst v8.3 release is official support at the software level for DirectX 10.1 and the hardware tessellator built into the RV670 GPU. Although support for DX10.1 and hardware tessellation was available in hardware, the software mechanisms necessary to expose the functionality had not been incorporated into ATI’s drivers until now.

http://www.hothardware.com/articles/ATI_Catalyst_83_Sneak_Peek_CrossFireX_and_More/

Dann sollte er mal messen woran es genau liegt. Am besten kein AF vs. 16xAF usw. Die TMUs auf G8x sollten es sehr viel seltener sein als bei R6xx.

http://www.computerbase.de/artikel/hardware/grafikkarten/2007/test_ati_radeon_hd_3870_rv670/5/#abschnitt_aa_und_af_skalierung - Sehr eindeutig wie ich finde.

Bei B3D wurde das auch schon mal genauer beobachtet:

I think the key point we may wish t consider given the 9600GT's performance is that G92 was very much limited by the 'non-scalable' parts of the pipeline, such as triangle setup, input assembly, and so forth. G92 SKUs are also limited by bandwidth, especially with 4xMSAA. There are some other factors to consider but I certainly think those are the most interesting and surprising ones here.

http://forum.beyond3d.com/showpost.php?p=1131482&postcount=40

reunion

2008-03-02, 09:52:50

Was ist bitte ineffizienter, als Chipfläche für Dinge zu verschenden, die auf dem Chip nie genutzt werden können (außer unter OpenGL, hoho)?

Natürlich ist es nicht toll das die Einheit jetzt brach liegt, aber es zeigt zumindest das der Chip trotz dieses aktuell überflüssigem Features sich noch ganz gut schlägt was Leistung/Waferfläche trifft. Zudem hat ja nicht nur AMD eine Tesslator-Einheit in ihren D3D10-GPUs, was den Verdacht nahe legt, dass die Specs hier noch relativ spät gedreht wurden um anderen wie nV auch D3D10-compliance zu ermöglichen.

Captain Future

2008-03-02, 09:57:41

Wenn eine Karte in einem Leistungsbereich liegt, in dem die CPU- Leistung eine größere Rolle spielt als bei der anderen, wären die prozentualen Einbrüche geringer. Die Karten dort sind aber alle grob gleich schnell, sodass der Einfluss nur gering sein sollte. Und wenn es ihn gibt, würden die Einbrüche der schnelleren Karten (also G80/ D8P) etwas kleiner aussehen, als sie sind.
Es kann ja auch sein, dass Treiber unterschiedlich viel CPU-Last verursachen. Dann sehen die Einbrüche schon wieder anders aus.

Solche theoretischen Fragen sollte man auch theoretisch klären, nicht mit Spielen (wer spielt schon mit AA aber ohne AF?).

Gast

2008-03-02, 10:18:23

(wer spielt schon mit AA aber ohne AF?).
Leider sehr Viele, es gibt auch Viele, die kein AA dafür AF nutzen und noch viel mehr, die trotz High End Karte weder AA noch AF nutzen. ;(

Captain Future

2008-03-02, 10:51:16

Leider sehr Viele, es gibt auch Viele, die kein AA dafür AF nutzen und noch viel mehr, die trotz High End Karte weder AA noch AF nutzen. ;(
Für die ist diese Diskussion aber eh hinfällig.

robbitop

2008-03-02, 11:37:28

Ich habe bei NV40 MADD+MUL bei 400Mhz, ein R420 hatte MADD+ADD bei 520Mhz. Dazu kam bei NV40 noch das Problem das man nur eine Pipeline für ALU und TEX Anweisungen hatte - ein enormer Nachteil der die erste ALU oft blockieren ließ. Spezielle Einheiten für SF hatten beide. Der Artikel ist längst nicht mehr zeitgemäß, damals wusste man es nicht besser. Es wurde sogar lange auf die höhere Shaderleitstung des NV40 gepocht, übrig blieb davon nichts außer viel Gelächter.

Naja das ADD aus den Mini-ALUs gegenüber einem vollständigen dedizierten MUL/TEX zu zählen ist aber auch seltsam. Das ADD stand ja nicht zur freien Verfügung. Mini-ALUs zählt man eigentlich nicht. Hinzu kam das kostenlose NRM_PP, was bei Normalmapping ja nochmals ein paar Takte spart. Der NV40 hatte schon eine höhere arithmetische Rohleistung als der R420.
Zur NV40 Zeit war allerdings die Arithmetik jetzt noch nicht so hammer wichtig, dass das Rampage-Konzept da jetzt so gestört hätte. Bei neueren Spielen wirkte es sich dann allerdings immer mehr aus. Je nach TEX:ALU ratio.

Irgendwelche Belege, dass das Design "natürlich ineffizient" ist? Brute-Force ist beim G80 zu suchen, wo die Shader-ALUs mindestens doppelt so hoch takten.
Die ALUs beim G80 sind eigentlich IMHLO recht effizient. Durch den hohen Takt hat man auch weniger davon. Sie sind unabhängiger, haben eine bessere Granularität, SFU klaut keine MAD-Leistung und sie müssen kein Downsampling erledigen. So kommt man mit deutlich weniger MAD-Rohleistung auf ähnliche effektive Rechenleistung.

Ergebnis: G8x erreicht mit einer ähnlichen Arithmetikleistung, aber enormen Füllraten einen kleinen Vorsprung. Was daran effizient sein soll, sehe ich nicht so recht.
RV670 vs G94 schon gesehen? NV braucht zur Zeit anscheinend nur eine GPU mit halbierter Anzahl an Clustern vom Vollausbau und kommt damit an die IPC vom ATI Vollausbau heran. Wenn das nicht effizient ist, weiß ich auch nicht. Und das mit flimmerfreiem und vorbildlichem AF.
Beim G80 vs R600 war es genauso. Das einzige, was NV derzeit nicht so effizient handelt, scheinen die DIE Größen zu sein. Sie scheinen sich bei der Skalierung und beim Shrink nicht so recht Zeit genommen zu haben, wie ATI es beim RV670 vorbildlich zeigte.

Dafür das das Ding für die Shadereinheiten über 1GHz braucht von effizent zu sprechen kann auch nur die einfallen.
Aber das wird immer wieder schön verschwiegen. Umsonst wird der hohe Takt bestimmt nicht gebraucht.
Wenn custom gates mit einem so hohen Takt und einer starken Transistorersparnis für eine Mehrzahl an ALUs nicht effizient und technologisch fortgeschritten sein soll, dann weiß ich auch nicht.
Mit einer deutlich niedrigeren MAD-Rohleistung kommt man (Shaderclock eingerechnet) auf eine ähnliche effektive MAD-Rohleistung. Auch das ist effizient.

Effizienz ist Leistung/Transistor. Von mir aus können AMD oder nV auch 76786786686789689 sehr schmale Recheneinheiten verbauen wenn das machbar ist und eine höhere Effizienz als jetzt erlaubt. AMD quetscht dafür auch 320 voll D3D10.1 fähige MADD ALUs in 666mio Transistoren. Das wäre mit dem G8x-Design nicht mal ansatzweise möglich. Natürlich erreicht man nicht dieselbe Auslastung, doch zählen tut was hinten raus kommt.
D3D10.1 ist jetzt nicht so der fette Sprung. Und es sind auch keine 320 ALUs sondern 64 SIMD ALUs. Da die Dinger ja auch nicht richtig skalar arbeiten, ist das reines PR.
ATIs RV670 bringt, wenn man sich mal den G94 mit 500 Mio Transistoren und den G92 mit 750 Mio Transistoren anschaut, nicht allzuviel. Je nach Spiel bricht er extrem ein (MRT-Last, Füllraten-Last).
Zumal NV mit dem DIE-Space der G9x Serie anscheinend ziemlich geast hat.
Ein G92 und ein G94 dürften eigentlich bei vernünftiger Optimierung, wie RV670 sie hinter sich hatte, bei weitem nicht so viele Transistoren kosten. AiL hat allerdings bereits angedeutet, dass NV darauf wohl nicht solch besonderen Wert gelegt hat.
Insofern ist immerhin der Fertigungsteil (Shrink, Floorplan) des RV670 effizient (kleiner 200 mm^2).
Das Design aber pro Transistor nicht sonderlich.

Nein, das kam erst mit R5xx. R4xx filterte nur bri.

Das lag IIRC an der LOD-Präzision, die beim R4xx aus Ungenauigkeitsgründen das Flimmern quasi wie ein Tiefpassfilter weggebügelt hat.
Da hatte man beim R4xx einfach Glück, dass die Filteroptimierungen dadurch nicht so sichtbar waren. Gespart wurde bei ATI zu der Zeit beim Filter nicht gerade unwesentlich.

Dann wird dies aufgrund der WErte im Z-Buffer erkannt und die Per-Pixel-Berechnung verworfen. Die zusätzlichen Geometrie-Samples sind dann mWn allerdings bereits (vergeblich) generiert worden.
Nicht unbedingt. Bei einem Z-First-Pass ja oder wenn zufällig das vordere Objekt zeitlich vor dem hinteren Objekt gerendert würde. (oder wir einen TBDR haben) Aber gerendert (Reihenfolge) wird eben nicht front-to-back sondern eher nach der Reihenfolge der Drawcalls also für den Betrachter "zufällig.
Insofern passiert es relativ häufig, dass Pixel auch nach ihrer Berechnung noch verworfen werden müssen. Und auf diese wurde, falls aktiv, natürlich auch Multisampling angewandt. (ich glaube darauf wollte WM hinaus)

Gast

2008-03-02, 12:27:51

Insofern passiert es relativ häufig, dass Pixel auch nach ihrer Berechnung noch verworfen werden müssen. Und auf diese wurde, falls aktiv, natürlich auch Multisampling angewandt. (ich glaube darauf wollte WM hinaus)

allerdings sollte multisampling innerhalb eines polygons praktisch keine und an polygonkanten nur wenig (und mit steigender sampleanzahl nur geringfügig mehr) leistung kosten.

robbitop

2008-03-02, 12:32:19

allerdings sollte multisampling innerhalb eines polygons praktisch keine und an polygonkanten nur wenig (und mit steigender sampleanzahl nur geringfügig mehr) leistung kosten.
Es kostet in jedem Falle RBE-Leistung und Bandbreite. Dank der Framebufferkompression ist es natürlich gedämpft.

reunion

2008-03-02, 12:44:40

Naja das ADD aus den Mini-ALUs gegenüber einem vollständigen dedizierten MUL/TEX zu zählen ist aber auch seltsam. Das ADD stand ja nicht zur freien Verfügung. Mini-ALUs zählt man eigentlich nicht.

Laut ATi stand das ADD immer zur Verfügung, wenn man das nicht glaubt, dann braucht man gar nicht anfangen zu diskutieren, denn dann kann man alles in Frage stellen.

Hinzu kam das kostenlose NRM_PP, was bei Normalmapping ja nochmals ein paar Takte spart. Der NV40 hatte schon eine höhere arithmetische Rohleistung als der R420.

Höchstens taktbereinigt, aber niemals im Auslieferungszustand. Und schon gar nicht wenn man dann in die Praxis ging und auch mal filtern wollte, denn das war schlicht nicht möglich ohne die ALU-Berechnungen zu unterbrechen. Ein R420 konnte die TEX-Anweisungen schön hinter den ALU-Anweisungen verstecken.

Zur NV40 Zeit war allerdings die Arithmetik jetzt noch nicht so hammer wichtig, dass das Rampage-Konzept da jetzt so gestört hätte. Bei neueren Spielen wirkte es sich dann allerdings immer mehr aus. Je nach TEX:ALU ratio.

Man sah ja dann was geschah als mehr und mehr Spiele rauskamen die eine höhere Rechenleistung erforderten.

RV670 vs G94 schon gesehen? NV braucht zur Zeit anscheinend nur eine GPU mit halbierter Anzahl an Clustern vom Vollausbau und kommt damit an die IPC vom ATI Vollausbau heran. Wenn das nicht effizient ist, weiß ich auch nicht.

NV braucht bei gleichem Fertigungsprozess ungefähr die gleiche Die-Größe um die gleiche Leistung zu erzielen, was da jetzt so übermäßig effizient sein soll sehe ich bei besten Willen nicht. Zumal ein G94 deutliche Defizite in der ALU-Leistung ggü. einem RV670 hat, was in Zukunft sicher nicht von Vorteil sein wird.

Das einzige, was NV derzeit nicht so effizient handelt, scheinen die DIE Größen zu sein. Sie scheinen sich bei der Skalierung und beim Shrink nicht so recht Zeit genommen zu haben, wie ATI es beim RV670 vorbildlich zeigte.

Das halte ich für ein Gerücht. Schon G84/G86 hatten für die vorhandenen Einheiten sehr viele Transistoren im Vergleich zu G80. Einzig G80 war hier sehr sparsam, aber da fehlte auch so einiges im Vergleich zu den anderen Chips. Der externe NVIO, Videoprozessor, Adresseinheiten und sonstige Optimierungen kosten eben. Zudem wäre es ja wohl kompletter Schwachsinn hier zu sparen und so unnötig teuren Waferplatz zu verschenken.

Ein G92 und ein G94 dürften eigentlich bei vernünftiger Optimierung, wie RV670 sie hinter sich hatte, bei weitem nicht so viele Transistoren kosten. AiL hat allerdings bereits angedeutet, dass NV darauf wohl nicht solch besonderen Wert gelegt hat.
Insofern ist immerhin der Fertigungsteil (Shrink, Floorplan) des RV670 effizient (kleiner 200 mm^2).
Das Design aber pro Transistor nicht sonderlich.

Pro Transistor ist auch uninteressant. Ein RV670 hat immerhin 32KB L1- und 256KB L2 Texturcache integriert und erlaubt u.a. deshalb eine deutlich bessere Packdichte pro Transistor als ein G9x. Zum restlichen siehe oben: Auch ein G84 hatte bei nur zwei ROP und Shadercluster schon 289mio Transistoren, die 505mio für einen exakt verdoppelten G94 plus kleineren Optimierungen gehen vollkommen in Ordnung. Einzig G80 tanzt hier aus der Reihe, aber da wurde auch einiges gespart.

Das lag IIRC an der LOD-Präzision, die beim R4xx aus Ungenauigkeitsgründen das Flimmern quasi wie ein Tiefpassfilter weggebügelt hat.
Da hatte man beim R4xx einfach Glück, dass die Filteroptimierungen dadurch nicht so sichtbar waren. Gespart wurde bei ATI zu der Zeit beim Filter nicht gerade unwesentlich.

Das Ergebnis war jedenfalls eindeutig, NV40_Q verursachte ein enormes Texturgriseln, R420 war da deutlich besser, das konnte niemand bestreiten der einmal den direkten Vergleich gesehen hatte. Viele Seiten schwenkten dann später auch nicht ohne Grund auf HQ um, was zumindest einen NV40 enorm einbrechen ließ. Beim G70 hatte man da schon vorgesorgt und kurzerhand auch bei HQ optimiert.

Mr. Lolman

2008-03-02, 12:57:11

Das lag IIRC an der LOD-Präzision, die beim R4xx aus Ungenauigkeitsgründen das Flimmern quasi wie ein Tiefpassfilter weggebügelt hat.
Da hatte man beim R4xx einfach Glück, dass die Filteroptimierungen dadurch nicht so sichtbar waren. Gespart wurde bei ATI zu der Zeit beim Filter nicht gerade unwesentlich.

Es waren (und sind zT immernoch) aber nicht nur Ungenauigkeitsgründe, sondern tw. auch Übergenauigkeitsgründe. Nicht umsonst, haben ATi-Karten kein allzugroßes Problem mit Mipmaplodschiebereien, während auf NV-Karten alles <0 gleich übel flimmrig wird.

Captain Future

2008-03-02, 12:58:52

Laut ATi stand das ADD immer zur Verfügung, wenn man das nicht glaubt, dann braucht man gar nicht anfangen zu diskutieren, denn dann kann man alles in Frage stellen.
Laut Ati verschlechterte AI ja auch die BIldqualität nie. Laut Nvidia kann G80 MAD+MUL...
Kaum ein Test sieht mehr als max. +20% ADD durch doppelte ADD-ALU-Anzahl, also bitte. Oder wo verbirgt sich deiner Meinung nach das ADD?

Höchstens taktbereinigt, aber niemals im Auslieferungszustand. Und schon gar nicht wenn man dann in die Praxis ging und auch mal filtern wollte, denn das war schlicht nicht möglich ohne die ALU-Berechnungen zu unterbrechen. Ein R420 konnte die TEX-Anweisungen schön hinter den ALU-Anweisungen verstecken.
Reden wir hier von arithmetischen Peaks oder von praktischer Spieleleistung?
Reine Vec4-MADD-Leistung war bei Ati höher, ja. Ansonsten war das bei weitem nicht so einseitig, wie du es darstellst.

Man sah ja dann was geschah als mehr und mehr Spiele rauskamen die eine höhere Rechenleistung erforderten.
Tatsächlich war das hauptsächlich bei Xbox360-Ports problematisch. Technisch fortschrittliche Spiele haben auf NV4x/G7x deutliche Vorteile ggü. R420. Zum Beispiel können Sie mit vollen Details laufen (außer bei der GF6200).

NV braucht bei gleichem Fertigungsprozess ungefähr die gleiche Die-Größe um die gleiche Leistung zu erzielen, was da jetzt so übermäßig effizient sein soll sehe ich bei besten Willen nicht. Zumal ein G94 deutliche Defizite in der ALU-Leistung ggü. einem RV670 hat, was in Zukunft sicher nicht von Vorteil sein wird.
Welche Chips gibt es, die das von dir geasagt belegen?

Das halte ich für ein Gerücht. Schon G84/G86 hatten für die vorhandenen Einheiten sehr viele Transistoren im Vergleich zu G80. Einzig G80 war hier sehr sparsam, aber da fehlte auch so einiges im Vergleich zu den anderen Chips. Der externe NVIO, Videoprozessor, Adresseinheiten und sonstige Optimierungen kosten eben. Zudem wäre es ja wohl kompletter Schwachsinn hier zu sparen und so unnötig teuren Waferplatz zu verschenken.

Pro Transistor ist auch uninteressant. Ein RV670 hat immerhin 32KB L1- und 256KB L2 Texturcache integriert und erlaubt u.a. deshalb eine deutlich bessere Packdichte pro Transistor als ein G9x. Zum restlichen siehe oben: Auch ein G84 hatte bei nur zwei ROP und Shadercluster schon 289mio Transistoren, die 505mio für einen exakt verdoppelten G94 gehen vollkommen in Ordnung. Einzig G80 tanzt hier aus der Reihe, aber da wurde auch einiges gespart.
Macht der Texturcache die AMD-Chips damit irgendwie besonders? Nein. Zufällig hat G80 (und vermutlich auch G9x) ebenfalls 16 Kb L2-Cache pro TPC (256k insgesamt)...

Das Ergebnis war jedenfalls eindeutig, NV40_Q verursachte ein enormes Texturgriseln, R420 war da deutlich besser, das konnte niemand bestreiten der einmal den direkten Vergleich gesehen hatte. Viele Seiten schwenkten dann später auch nicht ohne Grund auf HQ um, was zumindest einen NV40 enorm einbrechen ließ. Beim G70 hatte man da schon vorgesorgt und kurzerhand auch bei HQ optimiert.
Ja, bei NV4x/G7x hat Nvidia die Optimierungen beim Q-Texturfilter übertrieben. "Enorm" einbrechen ist definitionssache. Was meinst du mit Enorm und findest du ~50% bei AI off ebenfalls "enorm"?

robbitop

2008-03-02, 13:01:22

Laut ATi stand das ADD immer zur Verfügung, wenn man das nicht glaubt, dann braucht man gar nicht anfangen zu diskutieren, denn dann kann man alles in Frage stellen.
Die wurden aber oft für andere Dinge benötigt. NVs MUL im G80 steht ja prinzipiell auch immer zur Verfügung. Wenns halt nicht gebraucht wird.
Was meinst du warum das ADD in den MiniALUs war. Die Dinger machen ersteinmal SFU bevor andere Dinge gemacht werden.

Höchstens taktbereinigt, aber niemals im Auslieferungszustand. Und schon gar nicht wenn man dann in die Praxis ging und auch mal filtern wollte, denn das war schlicht nicht möglich ohne die ALU-Berechnungen zu unterbrechen. Ein R420 konnte die TEX-Anweisungen schön hinter den ALU-Anweisungen verstecken.
Du erzählst mir Dinge, die allgemein bekannt sind. Ja das Rampage Design hat die Rechenleistung gemindert. Hinzu kam, dass die Tempregister mit FP32 stets knapp waren, weil die CineFX Pipeline recht tief ist.
Die theoretische Rechenleistung, sofern diese Komponenten nicht limitieren, ist m.E. höher als beim R420. In der Praxis sah es allerdings anders aus, da hast du Recht.

Man sah ja dann was geschah als mehr und mehr Spiele rauskamen die eine höhere Rechenleistung erforderten.
Das sagte ich ja bereits. ;)

NV braucht bei gleichem Fertigungsprozess ungefähr die gleiche Die-Größe um die gleiche Leistung zu erzielen, was da jetzt so übermäßig effizient sein soll sehe ich bei besten Willen nicht. Zumal ein G94 deutliche Defizite in der ALU-Leistung ggü. einem RV670 hat, was in Zukunft sicher nicht von Vorteil sein wird.
Ja da hast du Recht. Allerdings ist ATI derzeit kaum konkurrenzfähig außer im Bereich der DIE-Size. Ich hoffe, dass sich das ändert.

Das halte ich für ein Gerücht. Schon G84/G86 hatten für die vorhandenen Einheiten sehr viele Transistoren im Vergleich zu G80. Einzig G80 war hier sehr sparsam, aber da fehlte auch so einiges im Vergleich zu den anderen Chips. Der externe NVIO, Videoprozessor, Adresseinheiten und sonstige Optimierungen kosten eben. Zudem wäre es ja wohl kompletter Schwachsinn hier zu sparen und so unnötig teuren Waferplatz zu verschenken.
G80 war nicht viel größer als R600, wenn überhaupt. Und wie alle GF8/9 GPUs in den meisten Punkten überlegen.
Woran es genau liegt, dass NV derzeit recht lachhaft große GPUs baut, maße ich mir nicht an das zu beurteilen als Laie.
Allerdings ist die Skalierung schon etwas merkwürdig und AiL Aussage wirkt für mich schlüssig (zumal er verdammt gute Quellen hat).
NVIO und Videoprozessor kosten fast nix. Das sind einstellige Mio Transistorzahlen. Die TAs kosten sicher ein bisschen, aber so viel? Zumal man beim G92 einen Batzen ROPs und einen großen Teil des Speichercontrollers einsparen konnte.

Pro Transistor ist auch uninteressant. Ein RV670 hat immerhin 32KB L1- und 256KB L2 Texturcache integriert und erlaubt u.a. deshalb eine deutlich bessere Packdichte pro Transistor als ein G9x. Zum restlichen siehe oben: Auch ein G84 hatte bei nur zwei ROP und Shadercluster schon 289mio Transistoren, die 505mio für einen exakt verdoppelten G94 gehen vollkommen in Ordnung. Einzig G80 tanzt hier aus der Reihe, aber da wurde auch einiges gespart.
Ich weiß nicht, ob SRAM mitgezählt wird. Es sind ja nur ein paar kiB.

Das Ergebnis war jedenfalls eindeutig, NV40_Q verursachte ein enormes Texturgriseln, R420 war da deutlich besser, das konnte niemand bestreiten der einmal den direkten Vergleich gesehen hatte. Viele Seiten schwenkten dann später auch nicht ohne Grund auf HQ um, was zumindest einen NV40 enorm einbrechen ließ. Beim G70 hatte man da schon vorgesorgt und kurzerhand auch bei HQ optimiert.
Wie gesagt, war das pures Glück wegen mangelnder LOD Präzision. Mehr Takte steckten aber nicht in der Filterarbeit.

Gast

2008-03-02, 13:05:57

Höchstens taktbereinigt, aber niemals im Auslieferungszustand. Und schon gar nicht wenn man dann in die Praxis ging und auch mal filtern wollte, denn das war schlicht nicht möglich ohne die ALU-Berechnungen zu unterbrechen. Ein R420 konnte die TEX-Anweisungen schön hinter den ALU-Anweisungen verstecken.

wenn man nur die auf beiden seiten kaum lieferbaren topmodelle ansieht ja, dann war ATI speedmäßig deutlich überlegen.

es gab aber nicht nur X800XT gegen 6800Ultra sondern auch 6800GT gegen X800pro und X600 gegen 6600, in beiden fällen war nv überlegen.

deekey777

2008-03-02, 13:08:44

...

Die ALUs beim G80 sind eigentlich IMHLO recht effizient. Durch den hohen Takt hat man auch weniger davon. Sie sind unabhängiger, haben eine bessere Granularität, SFU klaut keine MAD-Leistung und sie müssen kein Downsampling erledigen. So kommt man mit deutlich weniger MAD-Rohleistung auf ähnliche effektive Rechenleistung.

...
Jemand, der das G80-Design als ineffizient bezeichnet, sollte eingewiesen werden.
Aber nur weil das G80-Design so effizient bei der Ausnutzung der Recheneinheiten ist, ist es verkehrt, das R600-Design als ineffizient zu bezeichnen.
Die SFU klaut bei R600 eigentlich keine Rechenleistung, dafür ist die fette ALU vorgesehen. Downsampling per Shader? Warum nicht? Die ROPs sind die am wenigsten ausgelasteten Einheiten, die sollten eh abgeschafft werden. Nur ist da was nach hinten gegangen, was beim RV670 verbessert werden konnte.

Mr. Lolman

2008-03-02, 13:10:37

Wie gesagt, war das pures Glück wegen mangelnder LOD Präzision. Mehr Takte steckten aber nicht in der Filterarbeit.

aths meinte da mal Gegenteiliges (hinsichtlich zwangsläufigem Überfiltern, da die Logik im Ggs zu NV keine Zwischenstufen beim AF beherrsch(te?)). Außerdem erklärt mangelnde LOD-Präzision nicht, warum ATI bei negativen LOD, oder gar fehlenden Mipmaps soviel besser filtert als NV: http://www.forum-3dcenter.org/vbulletin/showthread.php?p=3660525#post3660525

Captain Future

2008-03-02, 13:14:45

Wie gesagt, war das pures Glück wegen mangelnder LOD Präzision. Mehr Takte steckten aber nicht in der Filterarbeit.
Vielleicht ist das auch der Grund, warum AMD jetzt so ein Problem mit den Filtern hat?

robbitop

2008-03-02, 13:24:27

Jemand, der das G80-Design als ineffizient bezeichnet, sollte eingewiesen werden.
Aber nur weil das G80-Design so effizient bei der Ausnutzung der Recheneinheiten ist, ist es verkehrt, das R600-Design als ineffizient zu bezeichnen.
Die SFU klaut bei R600 eigentlich keine Rechenleistung, dafür ist die fette ALU vorgesehen. Downsampling per Shader? Warum nicht? Die ROPs sind die am wenigsten ausgelasteten Einheiten, die sollten eh abgeschafft werden. Nur ist da was nach hinten gegangen, was beim RV670 verbessert werden konnte.
Das Downsampling klaut ja jetzt keine Z-Fill oder sonst was. Das ist normalerweise per FF-Units realisiert.
R600 ist sicher nicht ineffizient. Aber wie sagt man so schön: das bessere ist des guten Feind.

Vielleicht ist das auch der Grund, warum AMD jetzt so ein Problem mit den Filtern hat?
Seit R520 hat man die LOD Präzision ja erhöt. Seitdem flimmert A.I.-AF ja auch. Je Kontent.
Das Problem ist, dass man derzeit mangels Füllrate vermutlich beim Texturfilter sparen muss, um nicht all zu stark zurück zu fallen.

aths meinte da mal Gegenteiliges (hinsichtlich zwangsläufigem Überfiltern, da die Logik im Ggs zu NV keine Zwischenstufen beim AF beherrsch(te?)). Außerdem erklärt mangelnde LOD-Präzision nicht, warum ATI bei negativen LOD, oder gar fehlenden Mipmaps soviel besser filtert als NV: http://www.forum-3dcenter.org/vbulletin/showthread.php?p=3660525#post3660525
Die genauen Gründe dafür kenne ich derzeit nicht. Fehlende MIPMaps gehören in die 90er Jahre oder zu schlechten PS2-Ports. ;)

Der Punkt ist, dass der R420 nicht mehr Rechenarbeit/Takte in die Texturfilterung investierte als NV40.
Seit R520 ist das Flimmern ja auch bei ATI-GPUs zu sehen. Und was hat man vor allem verändert? Man hat die LOD-Präzision erhöht und diverse andere Dinge in den TMUs modernisiert.

Captain Future

2008-03-02, 13:28:45

Die SFU klaut bei R600 eigentlich keine Rechenleistung, dafür ist die fette ALU vorgesehen.
Wenn sie SFU macht, kann sie aber nicht gleichzeitig noch MADD beisteuern, insofern "klaut" sie schon, wenn man es mit dezidierten SFUS vergleicht.

Downsampling per Shader? Warum nicht? Die ROPs sind die am wenigsten ausgelasteten Einheiten, die sollten eh abgeschafft werden.
Aber warum nimmt man ihnen dann noch mehr Arbeit ab und sie hocken nur so da und produzieren Hitze?

reunion

2008-03-02, 13:36:16

Der Punkt ist, dass der R420 nicht mehr Rechenarbeit/Takte in die Texturfilterung investierte als NV40.

Und das hast du wie nachgemessen?

Seit R520 ist das Flimmern ja auch bei ATI-GPUs zu sehen. Und was hat man vor allem verändert? Man hat die LOD-Präzision erhöht und diverse andere Dinge in den TMUs modernisiert.

Nur ist AI_low auch auf R5xx noch immer deutlich besser als NV40 oder G70 Q. Nicht umsonst wurde später häufig auf HQ umgeschwenkt.

Mr. Lolman

2008-03-02, 13:36:58

Seit R520 hat man die LOD Präzision ja erhöt. Seitdem flimmert A.I.-AF ja auch. Je Kontent.
Das Problem ist, das man derzeit mangels Füllrate vermutlich beim Filter sparen muss, um nicht all zu stark zurück zu fallen.

Ist halt die Frage in welche Richtung man die Präzision erhöht hat. Wenn man dem R520 bspw die Fähigkeit spendiert hat, beim AF auch Zwischenstufen filtern zu können (bspw 6xAF), ist an der Stelle sowohl die Präzision höher, als auch die Flimmerneigung bei Einsparung von Textursamples.

Die genauen Gründe dafür kenne ich derzeit nicht. Fehlende MIPMaps gehören in die 90er Jahre oder zu schlechten PS2-Ports. ;)

Die genauen Gründe kennt außerhalb NV wohl niemand. Fehlende Mipmaps gabs zwar zuletzt bei GTA-SA, aber negatives LOD verwendet man immerwieder gerne bei Rennspielen um trotz 16xAF die Seitenbegrenzungslinien bis zum Horizont scharf darstellen zu können.

Der Punkt ist, dass der R420 nicht mehr Rechenarbeit/Takte in die Texturfilterung investierte als NV40.

Kommt drauf an bei welchen Settings. Mit Q+Opts wollte NVidia wohl etwaige Blockaden in den Pipeline möglichst minimieren.

reunion

2008-03-02, 13:41:13

Laut Ati verschlechterte AI ja auch die BIldqualität nie. Laut Nvidia kann G80 MAD+MUL...
Kaum ein Test sieht mehr als max. +20% ADD durch doppelte ADD-ALU-Anzahl, also bitte. Oder wo verbirgt sich deiner Meinung nach das ADD?

Natürlich wird das ADD auch für andere Dinge gebraucht, genauso wie das MUL bei NV40. Es einfach zu ignorieren ist sicher nicht richtig.

Reden wir hier von arithmetischen Peaks oder von praktischer Spieleleistung?
Reine Vec4-MADD-Leistung war bei Ati höher, ja. Ansonsten war das bei weitem nicht so einseitig, wie du es darstellst.

Beides war/ist auf R420 höher.

Welche Chips gibt es, die das von dir geasagt belegen?

Ein fiktiver 55nm Shrink eines G94 musste herhalten. Der Chip dürfte kaum kleiner sein als ein RV670 bei ähnlicher Leistung.

Macht der Texturcache die AMD-Chips damit irgendwie besonders? Nein.

Habe ich das irgendwo behauptet? Es ist halt eine mögliche Erklärung für die höhere Packdichte bei ATi. Cache lässt sich nun mal deutlich dichter packen.

Ja, bei NV4x/G7x hat Nvidia die Optimierungen beim Q-Texturfilter übertrieben. "Enorm" einbrechen ist definitionssache. Was meinst du mit Enorm und findest du ~50% bei AI off ebenfalls "enorm"?

Natürlich, wenn 50% nicht enorm ist, was dann?

Captain Future

2008-03-02, 13:43:43

Seit R520 hat man die LOD Präzision ja erhöt. Seitdem flimmert A.I.-AF ja auch. Je Kontent.
Das Problem ist, dass man derzeit mangels Füllrate vermutlich beim Texturfilter sparen muss, um nicht all zu stark zurück zu fallen.
Eben. Ati konnte "früher" sparen, ohne dass es auffiel. Daraus leiteten sie dann ab, dass 16 Textureinheiten genug sind, zumal entkoppelt. Dann mussten Sie aber einsehen, dass sie mit den anfangs nicht so wahnsinnig höheren Frequenzen nicht mehr die R480-Leistung erreichten, wenn R520 "richtig" filterte, R420 aber wie bisher. Das hätte dann ja auch doof ausgesehen, wenn ältere Karten schneller als neuere gewesen wären.

Also hat man das Flimmern in Kauf genommen und bis heute noch kein verbreitertes Design hingelegt und Nvidia hat die Textureinheiten jetzt auch entkoppelt und noch mehr davon und kann so schneller filtern und schöner.

reunion

2008-03-02, 14:02:05

Du erzählst mir Dinge, die allgemein bekannt sind.

Du erzählst auch keine Weltneuheiten. Ich begründe wie jeder andere meine Meinung.

Ja da hast du Recht. Allerdings ist ATI derzeit kaum konkurrenzfähig außer im Bereich der DIE-Size. Ich hoffe, dass sich das ändert.

Solange man kein größeres Die für die gleiche Leistung benötigt braucht man ja nur den Chip zu verbreitern.

Woran es genau liegt, dass NV derzeit recht lachhaft große GPUs baut, maße ich mir nicht an das zu beurteilen als Laie.
Allerdings ist die Skalierung schon etwas merkwürdig und AiL Aussage wirkt für mich schlüssig (zumal er verdammt gute Quellen hat).

AiL spekuliert in dieser Hinsicht genau so wie jeder andere. Später schob er die hohe Transistorenanzahl auf die höheren Taktraten. Als das dann auch nichts wurde war er auch relativ ratlos und glaubte an einen Misserfolg bei G92.

NVIO und Videoprozessor kosten fast nix. Das sind einstellige Mio Transistorzahlen.

NVIO wurde deshalb extern verlegt, um Interferenzen zu vermeiden. Der Chip selbst kostet vielleicht nicht viele Transistoren, aber die Integration könnte durchaus einiges an Massetransistoren verschlingen um eben diese Interferenzen zu vermeiden. Denn wie schon gesagt, jeder Chip ohne NVIO ist deutlich breiter im Verhältnis zu den Ausführungseinheiten.

Gast

2008-03-02, 14:02:24

Warum nicht? Die ROPs sind die am wenigsten ausgelasteten Einheiten, die sollten eh abgeschafft werden.

ja eben deshalb weil sie nicht ausgelastet sind sollte man ihnen ja nicht noch mehr arbeit abnehmen und dafür anderen recheneinheiten aufbrummen die eh schon am hecheln sind.

aber auf lange sicht wird es sicher so kommen, dass sowohl texturadresseinheiten als auch ROPs abgeschafft werden und durch allgemeine LOAD/STORE-einheiten ersetzt werden.

Gast

2008-03-02, 14:04:08

Der Chip selbst kostet vielleicht nicht viele Transistoren, aber die Integration könnte durchaus einiges an Massetransistoren verschlingen. Denn wie schon gesagt, jeder Chip ohne NVIO ist deutlich breiter im Verhältnis zu den Ausführungseinheiten.

gerade umgekehrt, im NVIO sind sicher jede menge massetransistoren um den chip überhaupt auf eine größe zu bringen dass er vernünftig zu fertigen ist, integriert werden diese sicher kaum gebraucht.

Captain Future

2008-03-02, 14:09:51

Natürlich wird das ADD auch für andere Dinge gebraucht, genauso wie das MUL bei NV40. Es einfach zu ignorieren ist sicher nicht richtig. Das Mul ist frei bei NV40 - abgesehen von der inhärenten Schwäche der Rampage-Architektur.

Beides war/ist auf R420 höher.
Nö. MAD-Leistung, ja. Gesamtarithmetisch ist sicher der NV40 stärker.

Ein fiktiver 55nm Shrink eines G94 musste herhalten. Der Chip dürfte kaum kleiner sein als ein RV670 bei ähnlicher Leistung.
(55²/65²)*240 = ~165mm². Sind über 15%.

Habe ich das irgendwo behauptet? Es ist halt eine mögliche Erklärung für die höhere Packdichte bei ATi. Cache lässt sich nun mal deutlich dichter packen.
G80 hat ebensoviel Cache wie ich bereits sagte. Sollte sich der nicht genauso packen lassen?

Natürlich, wenn 50% nicht enorm ist, was dann?
Dann bricht Ati genaus "enorm" ein, wenn du die Schummelfilter abschaltest

reunion

2008-03-02, 14:17:07

Nö. MAD-Leistung, ja. Gesamtarithmetisch ist sicher der NV40 stärker.

Hat man ja auch gesehen. :|

(55²/65²)*240 = ~165mm². Sind über 15%.

Wie kommst du auf 165? Ich komme auf 171.8343mm² bei einem idealen Shrink, den es in der Praxis nie geben wird. 180-185mm² wäre wohl realistisch und das ist nur minimal unter Rv670.

G80 hat ebensoviel Cache wie ich bereits sagte. Sollte sich der nicht genauso packen lassen?

Sollte er ja. Aber offensichtlich schafft es AMD die Transistoren enger zu packen. Der Cache war nur eine mögliche Erklärung, ich wusste die Cachegröße von G9x nicht im Kopf.

Dann bricht Ati genaus "enorm" ein, wenn du die Schummelfilter abschaltest

Das war zu R420-Zeiten aber anders.

AnarchX

2008-03-02, 14:28:27

Lol, wie kommst du auf 165? Ich komme auf 171.8343mm² bei einem idealen Shrink, den es in der Praxis nie geben wird. 180-185mm² wäre wohl realistisch und das ist nur minimal unter Rv670.

Aber dank 55nm würde G94 wohl gegenüber RV670 nochmals seine Pro-Watt-Leistung steigern können. Und wenn NV auf 55GC setzen würde, dann würde ich mich nicht wundern, wenn im Rahmen der RV670XT-TDP bis zu 800MHz GPU-Takt möglich wären bzw. ein höheres Shaderdomain-Verhältnis.

VP3 und D3D10.1 sollten wohl zudem, wenn denn G94 featuremäßig aufschliessen sollte, wohl auch kaum mehr als 550M Transistoren bedeuten.

AMD hat mit 55nm, was glücklicherweise für sie sehr früh zur Verfügung stand, einen Vorteil, der aber wohl nicht ewig währen wird...

Nakai

2008-03-02, 14:31:12

AMD hat mit 55nm. was glücklicherweise für sie sehr früh zur Verfügung stand, einen Vorteil, der aber wohl nicht ewig währen wird...

Das ist klar, aber nichts währt für ewig, jedenfalls nicht in der Hardwarebranche.
Mal schaun was der RV770 bringt. Vll konnte man dort nochmal etwas anpacken und das Design verbessern, vom Stromverbrauch und der Performance.

mfg Nakai

reunion

2008-03-02, 14:38:13

Aber dank 55nm würde G94 wohl gegenüber RV670 nochmals seine Pro-Watt-Leistung steigern können.

Die 55nm Shrinks von AMD zeigen da aber was anderes. 55nm ist vielleicht billiger, aber nicht unbedingt Energieeffizienter.

Und wenn NV auf 55GC setzen würde, dann würde ich mich nicht wundern, wenn im Rahmen der RV670XT-TDP bis zu 800MHz GPU-Takt möglich wären bzw. ein höheres Shaderdomain-Verhältnis.

Ja, das glaube man bei G92 auch mal. Zudem verwendet AMD bei RV670 wohl auch nicht 55GC.

AMD hat mit 55nm, was glücklicherweise für sie sehr früh zur Verfügung stand, einen Vorteil, der aber wohl nicht ewig währen wird...

Solange nV immer erst so spät auf neue Fertigungsprozesse umstellt hat AMD diesen Vorteil.

Captain Future

2008-03-02, 14:56:43

Solange nV immer erst so spät auf neue Fertigungsprozesse umstellt hat AMD diesen Vorteil.
AMD hat möglicherweise demnächst noch ganz andere Vorteile, wenn man evtl. in-house fertigen kann.

AnarchX

2008-03-02, 15:01:22

Die 55nm Shrinks von AMD zeigen da aber was anderes. 55nm ist vielleicht billiger, aber nicht unbedingt Energieeffizienter.
Naja, vor Q2 würde man wohl bei NV kein 55nm GPU sehen und bis dahin wird der Prozess wohl nicht stehen bleiben, wenn 45nm erst 2009 brauchbar für TSMC ist.

Ja, das glaube man bei G92 auch mal.

Bisher gibt ihm NV auch nicht mehr als 1.2V, selbst auf der 98GTX, da ist ATi bei 55nm doch agressiver.

AMD hat möglicherweise demnächst noch ganz andere Vorteile, wenn man evtl. in-house fertigen kann.
AMD ist dabei massiv die Fab-Kosten zu senken, da wird wohl die In-House-Fertigung von reinen GPUs das letze sein, was man machen würde.

Coda

2008-03-02, 15:03:01

AMD quetscht dafür auch 320 voll D3D10.1 fähige MADD ALUs in 666mio Transistoren.
Es gibt keine D3D10.1 spezifischen Rechenoperationen. Das betrifft alles andere Baugruppen. Und wie schon gesagt ist die Interfacelogik nur 64-wide.

http://www.hothardware.com/articles/ATI_Catalyst_83_Sneak_Peek_CrossFireX_and_More/
Ich denke eher dass sie es wieder in Direct3D reinhacken (wie will ich am besten gar nicht wissen).

Das D3D10-Zeug dürften wir bei ATI erst mit OpenGL 3.0 sehen.

Hat man ja auch gesehen. :|
Wenn man nur rechnet ist das in der Tat so. Bringt halt real nichts.

G80 hat ebensoviel Cache wie ich bereits sagte. Sollte sich der nicht genauso packen lassen?
ATI hat ab R6xx einen Voll-Assoziativen Cache vor dem SI implementiert. Laut CUDA-Doku ist das bei NVIDIA nicht so. Aber von den Größen habe ich keine Ahnung.

Hvoralek

2008-03-02, 15:10:06

Es kann ja auch sein, dass Treiber unterschiedlich viel CPU-Last verursachen. Dann sehen die Einbrüche schon wieder anders aus.Da gibt es keine großen Unterschiede. Und wenn, wäre das ein Problem für alle GPU- Benchmarks, die kein 100%iges GPU- Limit erreichen, und nicht nur für diesen (Wenn er es nicht tut).

Solche theoretischen Fragen sollte man auch theoretisch klären, nicht mit Spielen (wer spielt schon mit AA aber ohne AF?).Wie soll man das theoretisch klären? Dafür sind die Architekturen zu unterschiedlich und zu wenige Details öffentlich bekannt (Ansonsten wäre die Frage mit Blick auf AMDs ROPs schnell beantwortet).

Oder meinst Du synthetische Tests (ggf.: welche)?

RV670 vs G94 schon gesehen? NV braucht zur Zeit anscheinend nur eine GPU mit halbierter Anzahl an Clustern vom Vollausbau und kommt damit an die IPC vom ATI Vollausbau heran. Wenn das nicht effizient ist, weiß ich auch nicht.Die 9600 GT liegt zwar arithmetisch ein Stück hinter einer 3850. Ich muss Dir aber wohl nicht vorrechnen, wie weit sie im Gegenzug bei Füllraten vorne liegt.

Wenn custom gates mit einem so hohen Takt und einer starken Transistorersparnis für eine Mehrzahl an ALUs nicht effizient und technologisch fortgeschritten sein soll, dann weiß ich auch nicht.
Mit einer deutlich niedrigeren MAD-Rohleistung kommt man (Shaderclock eingerechnet) auf eine ähnliche effektive MAD-Rohleistung. Auch das ist effizient.Die Arithmetikeinheiten auf G8x sind effizienter, keine Frage. Dafür macht R6xx insgesamt aus vergleichbarer Rohleistung sicher nicht weniger als G8x, sondern eher mehr.

Hat man ja auch gesehen. :|Genau. Eine X800/850XT war ohne AA etwa genauso schnell wie eine 6800Ultra und nur mit AA/AF schneller (http://www.computerbase.de/artikel/hardware/grafikkarten/2006/test_geforce_7600_gt_7900_gt_7900_gtx/25/#abschnitt_performancerating). MSAA und AF belasten nur Füllraten und Bandbreite, sodass die Arithmetikleistung dadurch erheblich an Bedeutung verliert. Was könnte also dazu geführt haben, dass die bei Füllraten und Bandbreite offensichtlich (und auch rechnerisch) trotz aller "Optimierungen" unterlegene 6800 ohne AA/AF einen Gleichstand erreichte?

Captain Future

2008-03-02, 15:17:11

Hat man ja auch gesehen. :|
Ja, wenn man nicht die Auagen voer der Wahrheit verschliesst.
http://graphics.stanford.edu/projects/gpubench/results/6800Ultra-6722/instrissue_scalar.pdf
http://graphics.stanford.edu/projects/gpubench/results/X800XT-4650/instrissue_scalar.pdf

Wie kommst du auf 165? Ich komme auf 171.8343mm² bei einem idealen Shrink, den es in der Praxis nie geben wird. 180-185mm² wäre wohl realistisch und das ist nur minimal unter Rv670.
Vertippt. 171,x ist richtig. Trotzdem: Auch von R600 auf RV670 legte AMD einen "mehr als idealen" shrink hin. Wieviel Transistoren könnte G94 einsparen?

Das war zu R420-Zeiten aber anders.
Stimmt, damals waren es nur 33-41% Gewinn durch Filterschummeln. Eine völlig andere Dimension.

Coda

2008-03-02, 15:17:56

Die Arithmetikeinheiten auf G8x sind effizienter, keine Frage. Dafür macht R6xx insgesamt aus vergleichbarer Rohleistung sicher nicht weniger als G8x, sondern eher mehr.
Wie kommst du zu dem Schluss? Limitiert die Arithemetik ist keiner der beiden Chips wirklich schneller und da hat NVIDIA deutlich weniger Logik verbraut.

Wenn man reine Tex-Limitierung oder Fillrate-Limitierung hat. Naja ich will nich darüber reden...

robbitop

2008-03-02, 15:22:16

Und das hast du wie nachgemessen?
Das kannst du relativ einfach über synthetische Füllratenbenchmarks nachmessen, sofern verzerrte Texturen vorliegen.

Nur ist AI_low auch auf R5xx noch immer deutlich besser als NV40 oder G70 Q. Nicht umsonst wurde später häufig auf HQ umgeschwenkt.
Wie gesagt, wegen der LOD-Präzision.

Ist halt die Frage in welche Richtung man die Präzision erhöht hat. Wenn man dem R520 bspw die Fähigkeit spendiert hat, beim AF auch Zwischenstufen filtern zu können (bspw 6xAF), ist an der Stelle sowohl die Präzision höher, als auch die Flimmerneigung bei Einsparung von Textursamples.
Welche Zwischenstufen sind denn auf Geforces möglich? Bei der Geforce8 glaube ich war das in 2er Stufen (natürlich je nach LOA fand das Anwendung).

Die Arithmetikeinheiten auf G8x sind effizienter, keine Frage. Dafür macht R6xx insgesamt aus vergleichbarer Rohleistung sicher nicht weniger als G8x, sondern eher mehr.
Verstehe ich jetzt nicht. Liest sich erstmal wie ein Oxymoron. :D

Captain Future

2008-03-02, 15:24:22

Oder meinst Du synthetische Tests (ggf.: welche)?

Ja. Zum Beispiel Archmark, GPUBench, Fillrate-Tester oder ähnliche. Stichwort: Flaschenhals-Eingrenzung.

reunion

2008-03-02, 15:25:54

Wie kommst du zu dem Schluss? Limitiert die Arithemetik ist keiner der beiden Chips wirklich schneller und da hat NVIDIA deutlich weniger Logik verbraut.

Welche beiden Chips vergleichst du?

Wenn man reine Tex-Limitierung oder Fillrate-Limitierung hat. Naja ich will nich darüber reden...

Die scheint aber dann praktisch nie zu limitieren wenn man bedenkt das Nv gut die 4x(!) Tex- und Z-Füllrate hat. IMO hat AMD deutlich effektivere Mechanismen was das sparen der Z-Füllrate betrifft. Bei der TEX-Füllrate hilft man sich natürlich zumindest tw. durch AI.

Coda

2008-03-02, 15:30:31

Welche beiden Chips vergleichst du?
G80 vs. R600, G92 vs. RV670. Ist eigentlich egal. Der Platz für 4x so viel TMUs muss ja irgendwoher kommen bei ähnlichem Transistorcount.

Die scheint aber dann praktisch nie zu limitieren wenn man bedenkt das Nv gut die 4x(!) Tex- und Z-Füllrate hat.
Bei den Shadowmaps und Z-First macht das schon was aus.

IMO hat AMD deutlich effektivere Mechanismen was das sparen der Z-Füllrate betrifft.
Nicht mehr. G8x hat jetzt auch ein hierarchisches Verfahren.

Bei der TEX-Füllrate hilft man sich natürlich zumindest tw. durch AI.
"teilweise". Du bist lustig. Damit sparen sie über das ganze Bild mindestens so viel Samples wie 8x vs. 16x.

Hvoralek

2008-03-02, 15:35:52

Wie kommst du zu dem Schluss? Limitiert die Arithemetik ist keiner der beiden Chips wirklich schneller und da hat NVIDIA deutlich weniger Logik verbraut.

Wenn man reine Tex-Limitierung oder Fillrate-Limitierung hat. Naja ich will nich darüber reden...Normalerweise kommt es nicht nur auf einen einzelnen Faktor an. Auf dem Papier liegen G8x in den meisten Punkten weit vor vergleichbaren R6xx, in der Praxis kommt aber nur eine moderate Mehrleistung am Ende heraus. Insofern scheint mir R6xx aus der rechnerisch vorhandenen Rohleistung mehr zu machen.

Ja. Zum Beispiel Archmark, GPUBench, Fillrate-Tester oder ähnliche. Stichwort: Flaschenhals-Eingrenzung.Dabei ging es erst einmal darum, ob G8x oder R6xx bei 4x AA mehr Leistung verliert, und (noch) nicht darum, warum das so ist.

reunion

2008-03-02, 15:37:09

G80 vs. R600, G92 vs. RV670. Ist eigentlich egal. Der Platz für 4x so viel TMUs muss ja irgendwoher kommen bei ähnlichem Transistorcount.

Naja, G92 hat immerhin gut 90mio Transistoren mehr als RV670. Wenn man nach Die-Size geht ist der Unterschied noch deutlich krasser. So viel sollten die fehlenden 32 Adressierer und 48 Filtereinheiten auch nicht verschlingen.

Nicht mehr. G8x hat jetzt auch ein hierarchisches Verfahren.

Es ist halt auffällig das ein G92 bei 8xMSAA, wo die Z-Füllrate auf ein ähnliches Niveau wie bei RV670 fällt gleich so einbricht. Siehe:
http://www.hardware.fr/articles/671-4/ati-radeon-hd-2900-xt.html

"teilweise". Du bist lustig. Damit sparen sie über das ganze Bild mindestens so viel Samples wie 8x vs. 16x.

Ich habe ja nichts anderes behauptet. Nur vollständig ausgleichen wird man denn Füllratennachteil damit nicht können, deshalb "teilweise".

Coda

2008-03-02, 15:37:22

Normalerweise kommt es nicht nur auf einen einzelnen Faktor an.
Nur wenn man es auf einen Faktor beschränkt kann man solche Aussagen verifizieren. Es stimmt einfach nicht was du sagst.

Auf dem Papier liegen G8x in den meisten Punkten weit vor vergleichbaren R6xx, in der Praxis kommt aber nur eine moderate Mehrleistung am Ende heraus.
Ich habe dir schonmal erklärt, dass man sehr viel Tex hinter Alu verstecken kann, vor allem wenn man bei Tex pfuscht.

Insofern scheint mir R6xx aus der rechnerisch vorhandenen Rohleistung mehr zu machen.
Nein. G8x mit 16 TMUs und Pfuschfilter wäre sehr wahrscheinlich auch nicht langsamer.

Captain Future

2008-03-02, 15:38:01

Dabei ging es erst einmal darum, ob G8x oder R6xx bei 4x AA mehr Leistung verliert, und (noch) nicht darum, warum das so ist.
Genau. Und meine Frage war, ob man das Anhand der Tests bejahen könnte, was IMO nur sehr eingeschränkt der Fall ist.

Coda

2008-03-02, 15:40:14

Naja, G92 hat immerhin gut 90mio Transistoren mehr als RV670. Wenn man nach Die-Size geht ist der Unterschied noch deutlich krasser. So viel sollten die fehlenden 32 Adressierer und 48 Filtereinheiten auch nicht verschlingen.
48 TMUs sollen nicht viel verschlingen? Du bist wirklich echt ein Scherzkecks. TMUs und ihre Caches sind mit die größten Bauteile auf einem Chip. Die 64 TMUs bei G80 sollten mindestens die Hälfte der Die-Size ausmachen.

Captain Future

2008-03-02, 15:42:51

Naja, G92 hat immerhin gut 90mio Transistoren mehr als RV670. Wenn man nach Die-Size geht ist der Unterschied noch deutlich krasser. So viel sollten die fehlenden 32 Adressierer und 48 Filtereinheiten auch nicht verschlingen.
Knapp, nicht gut. Es sind 'genau' 88. Die Die-Size gibt keinen Anhaltspunkt auf verbaute Logik, da unterschiedliche Prozesse. Außerdem sind da noch mehr Unterschiede, als du sagst

reunion

2008-03-02, 15:45:56

48 TMUs sollen nicht viel verschlingen? Du bist wirklich echt ein Scherzkecks. TMUs und ihre Caches sind mit die größten Bauteile auf einem Chip. Die 64 TMUs bei G80 sollten mindestens die Hälfte der Die-Size ausmachen.

Ist das dein ernst? Damit habe ich wirklich nicht gerechnet. Immerhin hatte selbst ein R420 schon 16TMUs, und der brachte nur 160mio Transistoren auf die Waage. Zudem schätzte ich die ALUs wesentlich transistorenintensiver ein. Aber da wird mit D3D10 wohl noch einiges an Zeug dazu gekommen sein.

reunion

2008-03-02, 15:49:28

Knapp, nicht gut. Es sind 'genau' 88.

Natürlich, Rechenfehler.

Die Die-Size gibt keinen Anhaltspunkt auf verbaute Logik, da unterschiedliche Prozesse.

Wenn ein G92 ein ca. 70% größeres Die als RV670 bei nur ~13% mehr Transistoren und der Prozessunterschied nur 65nm vs 55nm ist dann ist das schon ein Anhaltspunkt.

Außerdem sind da noch mehr Unterschiede, als du sagst

Du darfst mich gerne ergänzen.

Coda

2008-03-02, 15:49:37

Ist das dein ernst? Damit habe ich wirklich nicht gerechnet.
Natürlich ist das mein Ernst. Eine ALU braucht im Prinzip ein MAD- und ein Special-Function-Rechenwerk und Kontrolllogik drumrum.

Eine TMU-Pipe braucht die Adressierer, die ziemlich komplexe Logik um die Line-Of-Anisotropy zu berechnen, dann noch die linearen Interpolatoren, Caches usw.

Eine G80-TMU sollte mindestens so groß sein wie eine G80-ALU.

Aber da wird mit D3D0 wohl auf einiges an Zeug dazu gekommen sein.
Vor allem bei ATI ist da einiges dazugekommen.

Captain Future

2008-03-02, 16:08:24

Immerhin hatte selbst ein R420 schon 16TMUs, und der brachte nur 160mio Transistoren auf die Waage.
Die TMUs waren aber auch an der absolut untersten Grenze des vertretbaren. FP24-Adressierung, INT-Filterung, sparsame LOD-Berechnung usw. Der Sprung von 160M auf 320M mit R520 ist dir ja sicher im Gedächtnis.

Captain Future

2008-03-02, 16:14:19

Wenn ein G92 ein ca. 70% größeres Die als RV670 bei nur ~13% mehr Transistoren und der Prozessunterschied nur 65nm vs 55nm ist dann ist das schon ein Anhaltspunkt.
Allein durch die Fertigung sind's knapp 40%, welche ein 65nm chip größer als ein 55nm ist. dann noch die höheren Transen und schon sinds ~57 Prozent Die-Space. (1,396*1,13). 13 Prozentpunkte sind dann auch nicht mehr so wahnsinnig viel.

Du darfst mich gerne ergänzen.
Na, zum Beispiel die Fähigkeiten der ROP. Ati kann 2z/clk, Nvidia 8. Dafür müssen nicht nur Recheneinheiten vorhanden sein, auch die Datenpfade dahin schlucken dann mehr Transistoren.

deekey777

2008-03-02, 16:15:18

Die TMUs waren aber auch an der absolut untersten Grenze des vertretbaren. FP24-Adressierung, INT-Filterung, sparsame LOD-Berechnung usw. Der Sprung von 160M auf 320M mit R520 ist dir ja sicher im Gedächtnis.
Der Sprung von R420 auf R520 ist eher mit der Abkehr vom Phasenkonzept zum Threading-Konzept zu erklären.

Captain Future

2008-03-02, 16:17:21

ATI hat ab R6xx einen Voll-Assoziativen Cache vor dem SI implementiert. Laut CUDA-Doku ist das bei NVIDIA nicht so. Aber von den Größen habe ich keine Ahnung.
Steht auch in der CUDA-Doku: 16 Kb pro 8er-Multiprocessor.

Captain Future

2008-03-02, 16:17:58

Der Sprung von R420 auf R520 ist eher mit der Abkehr vom Phasenkonzept zum Threading-Konzept zu erklären.
Worin genau liegt der Unterschied, welcher soviele Transistoren kostet?

Coda

2008-03-02, 16:35:01

Steht auch in der CUDA-Doku: 16 Kb pro 8er-Multiprocessor.
Aber es sind besitmmte Daten nicht gecached. Direkte Speicherzugriffe z.B. Das ist bei ATI nicht so.

Der Sprung von R420 auf R520 ist eher mit der Abkehr vom Phasenkonzept zum Threading-Konzept zu erklären.
Da hat sich auch sonst einiges getan.

Captain Future

2008-03-02, 16:57:27

Aber es sind besitmmte Daten nicht gecached. Direkte Speicherzugriffe z.B. Das ist bei ATI nicht so.
Aha!

Hvoralek

2008-03-02, 17:04:41

Nur wenn man es auf einen Faktor beschränkt kann man solche Aussagen verifizieren. Es stimmt einfach nicht was du sagst.Dann betrachtest Du nur die Effizienz bzgl. dieses einzelnen Merkmals. Hältst Du es für unmöglich, Aussagen über die Gesateffizienz einer Architektur zu machen?

Wie erklärst Du Dir z.B., dass in Oblivion- Außengebieten R6xx gut mithalten können? Arithmetikleistung ist da absolut nachrangig, siehe R520/580. Ach, lass mich raten: AMD spart genug an der Filterung, um den kompletten Rückstand an Texel- und Z- Füllrate kompensieren zu können?

Ich habe dir schonmal erklärt, dass man sehr viel Tex hinter Alu verstecken kann, vor allem wenn man bei Tex pfuscht.Kannst Du das mal näher erläutern?

Nein. G8x mit 16 TMUs und Pfuschfilter wäre sehr wahrscheinlich auch nicht langsamer.Wenn Du das als "sehr wahrscheinlich" bezeichnest, geht das wohl nicht nur auf Deine Intuition zurück, sondern auf fundierte Schätzungen dazu, wie viel Filterleistung AMD auf die Weise einspart und wie viel langsamer ein G80 mit n% weniger Filtereinheiten (oder mit 16 TFs und vergleichbaren Einsparungen) wäre?

Genau. Und meine Frage war, ob man das Anhand der Tests bejahen könnte, was IMO nur sehr eingeschränkt der Fall ist.Warum das?

Zudem schätzte ich die ALUs wesentlich transistorenintensiver ein. Aber da wird mit D3D10 wohl noch einiges an Zeug dazu gekommen sein.Schau Dir mal R520/580 an. ALUs sind nicht so wahnsinnig groß.

Coda

2008-03-02, 17:19:44

Dann betrachtest Du nur die Effizienz bzgl. dieses einzelnen Merkmals. Hältst Du es für unmöglich, Aussagen über die Gesateffizienz einer Architektur zu machen?

Wie erklärst Du Dir z.B., dass in Oblivion- Außengebieten R6xx gut mithalten können? Arithmetikleistung ist da absolut nachrangig, siehe R520/580. Ach, lass mich raten: AMD spart genug an der Filterung, um den kompletten Rückstand an Texel- und Z- Füllrate kompensieren zu können?
Oblivion rendert alles ohne Culling in Software, d.h. es ist wahrscheinlich dass ATI immer noch ein etwas besseres Hier-Z-Verfahren hat. Früher war das noch krasser.

Kannst Du das mal näher erläutern?
Siehst du genau das ist das Problem. Das sind einfach Grundlagen wenn man hier über sowas diskutieren will vor allem in deinem Ton. Lehn dich nicht so weit aus dem Fenster.

Wenn Du das als "sehr wahrscheinlich" bezeichnest, geht das wohl nicht nur auf Deine Intuition zurück, sondern auf fundierte Schätzungen dazu, wie viel Filterleistung AMD auf die Weise einspart und wie viel langsamer ein G80 mit n% weniger Filtereinheiten (oder mit 16 TFs und vergleichbaren Einsparungen) wäre?
Größtenteils Intuition, die mich allerdings sehr selten im Stich lässt. Ich weiß ziemlich genau wie ein 3D-Chip funktioniert und was er verarbeiten muss weil ich damit ziemlich oft arbeite. Ich sehe ja selber was ATI und NVIDIA schmeckt und was nicht. Da lässt sich schon eine Aussage darüber treffen.

Wenn die TMUs von den ALUs entkoppelt sind und man bei gleicher ALU-Last gleiche Ergebnisse erzielt unter TMU-Last aber deutlich andere dann spricht das schon dafür, dass ATI deutliche Probleme bei der Texturfüllrate hat.

Die meisten Apps sind nunmal entweder ALU- oder Tex limitiert. Bei anderen Dingen wird's dann schwieriger.

Hvoralek

2008-03-02, 17:24:20

Oblivion rendert alles ohne Culling in Software, d.h. es ist wahrscheinlich dass ATI immer noch ein etwas besseres Hier-Z-Verfahren hat. Früher war das noch krasser.Und das gehört für Dich allein zur Z-Effizienz?

Coda

2008-03-02, 17:33:01

Das ist das entscheidende wenn es darum ganze Polygone effizient zu verwerfen wenn sie gar nicht sichtbar sind, ja.

Hvoralek

2008-03-02, 17:35:12

Entschuldige, ich habe das Hineineditierte gerade erst bemerkt.

Siehst du genau das ist das Problem. Das sind einfach Grundlagen wenn man hier über sowas diskutieren will vor allem in deinem Ton. Lehn dich nicht so weit aus dem Fenster.Es gibt sicherlich Leute, die sich hier mit noch weniger Kenntnissen beteiligen. Das "mal" oben war aber wirklich daneben.

Größtenteils Intuition, die mich allerdings sehr selten im Stich lässt. Ich weiß ziemlich genau wie ein 3D-Chip funktioniert und was er verarbeiten muss weil ich damit ziemlich oft arbeite. Ich sehe ja selber was ATI und NVIDIA schmeckt und was nicht. Da lässt sich schon eine Aussage darüber treffen.

Wenn die TMUs von den ALUs entkoppelt sind und man bei gleicher ALU-Last gleiche Ergebnisse erzielt unter TMU-Last aber deutlich andere dann spricht das schon dafür, dass ATI deutliche Probleme bei der Texturfüllrate hat.Dass R6xx "Probleme bei der Texturfüllrate" hat, ist keine wirklich neue Erkenntnis :wink:

Die meisten Apps sind nunmal entweder ALU- oder Tex limitiert. Bei anderen Dingen wird's dann schwieriger.Du erklärst Dir also das meist noch vergleichsweise gute Abschneiden von R6xx einfach damit, dass eben meist die Arithmetikleistung wichtiger sei?

Coda

2008-03-02, 17:37:11

Du erklärst Dir also das meist noch vergleichsweise gute Abschneiden von R6xx einfach damit, dass eben meist die Arithmetikleistung wichtiger sei?
Nein, damit dass in den allermeisten Shadern Tex hinter Alu versteckt werden kann und weil sie gleichzeitig bei Tex sparen. Zum 100. Mal.

G8x und R6xx können parallel Texturen samplen und rechnen. Solange man das Ergebnis des Samplens nicht braucht und etwas zu rechnen hat verliert man deshalb keine Geschwindigkeit. Tex blockiert erst die ALU wenn das Ergebnis auch wirklich gebraucht wird.

Gast

2008-03-02, 17:42:06

Wie erklärst Du Dir z.B., dass in Oblivion- Außengebieten R6xx gut mithalten können? Arithmetikleistung ist da absolut nachrangig, siehe R520/580. Ach, lass mich raten: AMD spart genug an der Filterung, um den kompletten Rückstand an Texel- und Z- Füllrate kompensieren zu können?

oblivion-außenlevels sind extrem cpu-limitiert, das war bereits beim erscheinen so und ist heute noch viel schlimmer (GPUs haben inzwischen deutlich mehr speed als CPUs zugelegt)

Hvoralek

2008-03-02, 17:57:52

oblivion-außenlevels sind extrem cpu-limitiert, das war bereits beim erscheinen so und ist heute noch viel schlimmer (GPUs haben inzwischen deutlich mehr speed als CPUs zugelegt)Z.B. hier (http://www.computerbase.de/artikel/hardware/grafikkarten/2008/test_nvidia_geforce_9600_gt_sli/13/) spielt ab etwa 90 fps wirklich fast nur noch die CPU eine Rolle. Damit kann man aber nicht erklären, dass in 1600x1200 4x/16x eine 3870 mit gut 50 fps klar vor einer 8800GT/ GTS640 liegt.

Captain Future

2008-03-02, 18:16:15

Warum das?
Weil nicht allein FSAA hier ein limitierender Faktor wird, wie bei einem syntehtischen Test.

Hvoralek

2008-03-02, 18:24:18

Weil nicht allein FSAA hier ein limitierender Faktor wird, wie bei einem syntehtischen Test.Bei reinen Füllratentests (Das meinst Du?) verlieren beide bei 4x MSAA ziemlich genau 3/4: http://www.behardware.com/articles/671-4/ati-radeon-hd-2900-xt.html

Captain Future

2008-03-02, 18:24:52

Wie erklärst Du Dir z.B., dass in Oblivion- Außengebieten R6xx gut mithalten können? Arithmetikleistung ist da absolut nachrangig, siehe R520/580.
Xbox360? Außerdem das Renderverfahren, bei dem die Radeon ihre Hier-Z-Stärken ausspielen können.

Coda

2008-03-02, 18:35:32

Bei reinen Füllratentests (Das meinst Du?) verlieren beide bei 4x MSAA ziemlich genau 3/4: http://www.behardware.com/articles/671-4/ati-radeon-hd-2900-xt.html
Vorsicht. Multisampling kann man praxistauglich nicht mit einem reinen Füllratetest messen, weil es nur an den Kanten Bandbreite braucht. Wenn man also Fullscreen-Quads rendert misst man nur wieviel Samples die ROPs bearbeiten können, nicht aber die Effizienz der Bandbreitenkompression dahinter.

Das bestätigt auch meine Vermutung, dass es eben an der Speicherhierarchie liegt und diese bei G8x nicht auf 8xMSAA optimiert wurde.

Captain Future

2008-03-02, 18:36:59

Bei reinen Füllratentests (Das meinst Du?) verlieren beide bei 4x MSAA ziemlich genau 3/4: http://www.behardware.com/articles/671-4/ati-radeon-hd-2900-xt.html
Das ist nur die Z-Rate. Da die hauptsächlich von der Bandbreite abhängt, ist das ERgebnis vorhersehbar.

Vielleicht etwas interessanter wären andere Füllraten. Pixel- oder Single-Textured.

Fillrate Tester
--------------------------
Display adapter: ATI Radeon HD 2900 PRO
Driver version: 6.14.10.6755
Display mode: 1600x1200 A8R8G8B8 60Hz
Z-Buffer format: D24S8
--------------------------
kein AA 4xAA
FFP - Pure fillrate - 12234.931641M pixels/sec 5453.078613M pixels/sec
FFP - Z pixel rate - 22424.917969M pixels/sec 6025.953613M pixels/sec
FFP - Single texture - 11766.263672M pixels/sec 5433.143555M pixels/sec
FFP - Dual texture - 6363.272949M pixels/sec 5173.700195M pixels/sec
FFP - Triple texture - 4278.060059M pixels/sec 4134.915039M pixels/sec

Fillrate Tester
--------------------------
Display adapter: NVIDIA GeForce 8800 GTS
Driver version: 6.14.10.9702
Display mode: 1600x1200 A8R8G8B8 60Hz
Z-Buffer format: D24S8
--------------------------
kein AA 4xAA
FFP - Pure fillrate - 9926.665039M pixels/sec 9381.559570M pixels/sec
FFP - Z pixel rate - 46869.933594M pixels/sec 14980.953125M pixels/sec
FFP - Single texture - 9921.327148M pixels/sec 9362.806641M pixels/sec
FFP - Dual texture - 5862.221191M pixels/sec 5685.553711M pixels/sec
FFP - Triple texture - 3927.746094M pixels/sec 3838.973877M pixels/sec

Gast

2008-03-02, 21:04:10

Z.B. hier (http://www.computerbase.de/artikel/hardware/grafikkarten/2008/test_nvidia_geforce_9600_gt_sli/13/) spielt ab etwa 90 fps wirklich fast nur noch die CPU eine Rolle. Damit kann man aber nicht erklären, dass in 1600x1200 4x/16x eine 3870 mit gut 50 fps klar vor einer 8800GT/ GTS640 liegt.

ähm, hier liegt die 3870 in der von dir genannten auflösung genau 2,4fps vor der 8800GT, oder anders ausgedrückt knappe 5%. zwar immer noch ungewöhnlich, da es meistens umgekehrt ist aber kein großartiger unterschied.

bei dem test kann es sich auch nicht um ein reinrassiges oblivion-außenlevel handeln, da limitiert die cpu schon bei 1/2-1/3 der gezeigten framerate.

Hvoralek

2008-03-02, 22:03:30

Vielleicht etwas interessanter wären andere Füllraten. Pixel- oder Single-Textured.Spielen die überhaupt (noch) eine Rolle?

ähm, hier liegt die 3870 in der von dir genannten auflösung genau 2,4fps vor der 8800GT, oder anders ausgedrückt knappe 5%. zwar immer noch ungewöhnlich, da es meistens umgekehrt ist aber kein großartiger unterschied.Dass eine 3870 hier 5% vorne liegt und nicht wie normalerweise etwa 20% hinten, findest Du also nicht erwähnenswert?

bei dem test kann es sich auch nicht um ein reinrassiges oblivion-außenlevel handeln, da limitiert die cpu schon bei 1/2-1/3 der gezeigten framerate.Ein 3,46- GHz- Conroe soll in Oblivion nur 30 - 50 fps schaffen? Zum einen sagen meine Erfahrungen mit einem nicht einmal halb so schnellen X2 3800+ etwas anderes, und auch andere Reviews rennen nicht so tief in CPU- Limits (hier (http://www.behardware.com/articles/704-7/radeon-hd-3850-and-geforce-8800-gt-256-vs-512-mb.html) z.B. > 100 fps mit einem QX6850). Wenn Du unter "reinrassigen" Oblivionaußenlevels die am stärksten fordernden Ecken verstehst, könnte das vlt. noch hinkommen. Typische Szenen sind aber recht genügsam.

Captain Future

2008-03-02, 22:55:53

Spielen die überhaupt (noch) eine Rolle?

Nicht um ihrer selbst willen.

Raff

2008-03-02, 23:59:01

Nur ist AI_low auch auf R5xx noch immer deutlich besser als NV40 oder G70 Q. Nicht umsonst wurde später häufig auf HQ umgeschwenkt.

Das halte ich für ein unkaputtbares Gerücht (http://www.forum-3dcenter.org/vbulletin/showthread.php?t=291789).

MfG,
Raff

y33H@

2008-03-03, 00:16:18

Wer ein bissl die Augen aufmacht, sieht doch sofort, dass es bei den R5xx bei aktivem AI (ein bissl) flimmert.
Sehe bald jeden 2ten Tag beim CoD4 online zocken - so schlimm wie bei den G7x ists aber trotzdem nicht, nervig aber definitiv.

cYa

Mr. Lolman

2008-03-04, 09:51:02

Das halte ich für ein unkaputtbares Gerücht (http://www.forum-3dcenter.org/vbulletin/showthread.php?t=291789).

MfG,
Raff

AIlow am R580 war sicher nicht schlechter als NV40 Q. Garantiert nicht, Raff!

Es war zwar nicht so gut wie HQ (zumindest solang die Apps das LOD schön bei 0.0 hielten), aber schlechter als Q wars mit absoluter Garantie nicht. Die himmelschreienden BQ Unterschiede bei NV default waren doch überhaupt erst der Grund warum sich div. HW-Seiten dazu entschlossen haben, HQ (!) vs. AIlow zu benchen.

Nimm ne beliebige App und überprüfs, wenn du mir nicht glaubst. BTW: Mit Xmas Filtertest hab ich übrigens das Problem der zerreissenden Begrenzungslinien auf NV40 GraKas sogar bei LOD 0.0 nachstellen können. Bei Bedarf such ich den Thread raus. aths errinnert sich auch sicher noch daran.

Gast

2008-03-04, 09:54:08

Dafür flimmert der R600 noch etwas mehr.

The_Invisible

2008-03-04, 09:56:27

wo bleibt eigentlich der thread "NVIDIAs Überlegenheit in 16xAF mit aktuellen Karten"? :D

mfg

_DrillSarge]I[

2008-03-04, 10:00:18

http://forum-3dcenter.org/vbulletin/showthread.php?t=397691
;)

Mr. Lolman

2008-03-04, 10:09:15

Dafür flimmert der R600 noch etwas mehr.

Das stimmt. Deswegen ists ihm auch möglich, trotz gleicher Texelfillrate wie beim R580 etwas mehr fps rauszukitzeln. Naja, wenn sich der GPU-Load in Zukunft auch weiterhin so kontinuierlich Richtung Arithmetik verschiebt, sehe ich eigentlich keinen Grund, warum man noch weiter an der Filterqualität sparen könnte. Allerdings vergeht auch wohl noch min. 1 Jahr, bis dementsprechende Spiele verfügbar sind.

Aquaschaf

2008-03-04, 12:36:21

wo bleibt eigentlich der thread "NVIDIAs Überlegenheit in 16xAF mit aktuellen Karten"? :D

Zwar gibt es den Thread, aber das ist kein interessantes Thema weil die Erklärung dafür trivial ist.

Gast

2008-03-04, 22:15:21

Ein 3,46- GHz- Conroe soll in Oblivion nur 30 - 50 fps schaffen?

nachdem ein 3GHz Conroe in außenlevels (also im gestrüpp) gerade mal 30fps schafft sollte einer mit 3,4 GHz nicht wahnsinnig schneller sein.

Hvoralek

2008-03-04, 23:19:17

nachdem ein 3GHz Conroe in außenlevels (also im gestrüpp) gerade mal 30fps schafft sollte einer mit 3,4 GHz nicht wahnsinnig schneller sein.Wie schon einmal gefragt: Meinst Du damit absolute Worst- Case- Szenarien? Bei typischen Außengebieten sollte es deutlich mehr sein.

Spasstiger

2008-03-05, 00:16:21

Wie schon einmal gefragt: Meinst Du damit absolute Worst- Case- Szenarien? Bei typischen Außengebieten sollte es deutlich mehr sein.
Bei meinem Core 2 Duo @ 3,15 GHz habe ich in Außenlevels mit max. Details typischerweise 35 fps (CPU-limitiert). Mit Gegnern (v.a. bei den Obliviontoren) sinds auch gerne mal nur 25 fps.
Ein niedrigerer CPU-Takt wirkt sich sofort auf die Framerate aus.
Und mit Grafikmods wirds auch nicht unbedingt besser.

Das Schöne an der Geschichte ist, dass ich auch 4xadaptives AA ohne großartige Einbrüche verwenden kann (HD2900 Pro).
Das Schlimme ist aber das sehr ruckelige Handling bei weniger als 30 fps.

Mit der angepassten ini-Datei, die ich auf dem alten Rechner (P4, Radeon 9700) benutzt haben, rennt Oblivion übrigens mit dauerhaft 60-150 fps. Auf dem alten Rechner waren es damit 15-40 fps.
Und es sieht gar nicht so übel aus, zumindest hat man einigermaßen Weitblick und die Bäume und Pflanzen werden auch noch einigermaßen dicht dargestellt. Auf Parallaxmapping muss man ebenfalls nicht verzichten.

Gast

2008-03-05, 00:23:43

Das wird jetzt auch von der KI Einstellung abhängen.

Spasstiger

2008-03-05, 00:30:47

Das wird jetzt auch von der KI Einstellung abhängen.
Das meiste fressen meiner Erfahrung nach bei Oblivion die Grasdichte und der Radius von Lichtquellen. Wobei die KI wohl auch keinen unbedeutenden Anteil trägt.

_DrillSarge]I[

2008-09-14, 13:34:35

Ich liebe CFAA :biggrin:

seit ich die 4850 habe, ist das cfaa auch in nicht ganz so alten spielen schön nutzbar und ich muss sagen, es ist traumhaft.
gerade in spielen wie ut2004 sorgt 8xmsaa + edge-detect (24cfaa) für sehr, sehr, beinahe perfekte kanten. in verbindung mit aaa (auf welchem auch die custom-modi angewendet werden) sieht alles nahezu ideal aus :).
jetzt braucht es nur noch einen korrekten af-filter oder super sampling :D.

Raff

2008-09-14, 13:36:38

Für sich gesehen ist 24x ED-CFAA wirklich hübsch. Im Direktvergleich mit dem ähnlich teuren 16xS auf Nvidia-Karten stinkt es aber ab. Die Blur-Modi haben auch mal ihren Reiz, etwa bei Crysis oder anderen Flimmer-Urwäldern.

MfG,
Raff

_DrillSarge]I[

2008-09-14, 13:42:27

Für sich gesehen ist 24x ED-CFAA wirklich hübsch. Im Direktvergleich mit dem ähnlich teuren 16xS auf Nvidia-Karten stinkt es aber ab.
weswegen? wegen des supersampling anteils bei nv? sowas wünsch ich mir auch bei ati.

die reine kantenglättung dürfte bei 16xs (afaik 4xmsaa + 2x2ssaa) doch nicht großartig besser (eher gleich/schlechter????) sein.

Die Blur-Modi haben auch mal ihren Reiz, etwa bei Crysis oder anderen Flimmer-Urwäldern.
die erachte ich meist als unbrauchbar. hab mal versucht flimmern in ut3 mit wide-tent zu "bekämpfen", da kam aber dann nur ein "brei-flimmern" raus.

Raff

2008-09-14, 13:46:00

I[;6782653']die reine kantenglättung dürfte bei 16xs (afaik 4xmsaa + 2x2ssaa) doch nicht großartig besser (eher gleich/schlechter????) sein.

Die reine Kantenglättung von 24x ED ist besser als bei 16xS – um nicht "perfekt" zu sagen. Die Übergänge sind bei korrekt funktionierendem 24x kaum noch zu erkennen (http://www.3dcenter.org/artikel/ati-radeon-hd-2900-xt-review/praxisvergleich-custom-filter-coverage-sample-anti-aliasing). Aber das vierfache Supersampling von 16xS reißt eben sehr viel Qualität in neuen Spielen heraus. Wie gesagt: Was nutzt einem die perfekte Glättung von Polygonkanten, wenn 90 Prozent des vershaderten Bildes weiterflimmert?

MfG,
Raff

_DrillSarge]I[

2008-09-14, 13:54:08

ich hab schon mehrfach angedeutet, dass ich super-sampling haben will. ausser über dxtweaker lässt sich da ja nix machen. am besten ssaa nach 3dfx art @8x :biggrin:.
das kann doch nicht soviel arbeit am treiber sein ("normales" ssaa), wie herr makedon mal meinte.

Wie gesagt: Was nutzt einem die perfekte Glättung von Polygonkanten, wenn 90 Prozent des vershaderten Bildes weiterflimmert?
24xcfaa lässt sich vernünftig eh nur in etwas nicht ganz so neuen games einsetzen, wo noch nicht so viele flimmer-effekte verwendet wurden

Hvoralek

2008-09-14, 14:12:15

24xcfaa lässt sich vernünftig eh nur in etwas nicht ganz so neuen games einsetzen, wo noch nicht so viele flimmer-effekte verwendet wurden16xS ebenso; in UE3- Spielen dürfte auf einer GTX 260 o.ä. selbst "einfaches" 4x SSAA nur in mittleren Auflösungen gehen (Und FSSGSSAA gibt es ja nicht ;(). Allerdings gibt es auch ältere Spiele mit bösen Flimmershadern. Bei Riddick z.B. dürfte 16xS auf heute kräftiger Hardware kein Problem sein.

Raff

2008-09-14, 14:13:31

4x OGSSAA kostet ähnlich viel wie der 4x-MSAA-Hack bei UT3. Mit einer GTX 280 ist das zumindest in 1.680x1.050 überhaupt kein Problem.

MfG,
Raff

robbitop@work

2008-10-08, 07:54:09

Für sich gesehen ist 24x ED-CFAA wirklich hübsch. Im Direktvergleich mit dem ähnlich teuren 16xS auf Nvidia-Karten stinkt es aber ab.
Nicht bei der reinen Kantenglättung. (beim Flimmerbekämpfen oh ja) Denn dort hat man mit dem Box-Filter einfach eine Grenze erreicht. ATIs ED-CFAA ist IMO der größte Sprung im MSAA seit Jahren. In Kombination mit CSAA könnte man es sogar noch etwas billiger oder besser machen.

reunion

2008-10-08, 08:06:41

In Kombination mit CSAA könnte man es sogar noch etwas billiger oder besser machen.

In Kombination mit CSAA mache ich mir höchstens das schöne Ergebnis zu nichte. Für was braucht man aufwändige Filter wenn dank CSAA die Kanten völlig ausgefranst werden?

robbitop@work

2008-10-08, 14:22:47

In Kombination mit CSAA mache ich mir höchstens das schöne Ergebnis zu nichte. Für was braucht man aufwändige Filter wenn dank CSAA die Kanten völlig ausgefranst werden?
Das Eine hat mit dem Anderen nichts zu tun. Das Eine befasst sich mit der Ermittlung der Samples und das Andere mit der Verrechnung dieser. Das kann man nicht vergleichen.

CSAA sollte die verwendeten Samples durch Gewichtung verbessern. Natürlich kommt es qualitativ nicht gegen eine gleiche Anzahl von echten Subsamples heran. Die NV-Lösung sollte allerdings sowohl qualitativ als auch von der Geschwindigkeit lange nicht das Ende der Fahnenstange sein.
Somit könnte man ein günstiges "24xEDCFAA" eventuell auch mit ähnlich guter Qualität mit 4x MSAA Samples erreichen, oder ein besseres "24xEDCFAA" mit 8xMSAA Samples + Gewichtung.

Gast

2008-10-08, 17:26:56

Wo stellt man Cfaa ein?

Raff

2008-10-08, 17:29:31

Wo stellt man Cfaa ein?

Im Catalyst Control Center beim AA. Statt des Box-Filters nimmst du entweder "Narrow Tent" (matschig), "Wide Tent" (very matschig) oder "Edge Detect". Letzteres zermatscht nur noch die Polygonkanten anstatt des ganzen Bildes, was bei 8x MSAA-Samples die "gefühlte" Qualität eines weit besseren Modus erzeugt.

MfG,
Raff

Schlammsau

2008-10-08, 17:39:01

Im Catalyst Control Center beim AA. Statt des Box-Filters nimmst du entweder "Narrow Tent" (matschig), "Wide Tent" (very matschig) oder "Edge Detect". Letzteres zermatscht nur noch die Polygonkanten anstatt des ganzen Bildes, was bei 8x MSAA-Samples die "gefühlte" Qualität eines weit besseren Modus erzeugt.

MfG,
Raff

Und was ist bei 4xMSAA? Lohnt sich da auch Edge Detect?

Raff

2008-10-08, 17:40:38

IMO nicht. Du belastest damit die ALUs, obwohl du stattdessen für ähnliche Qualität günstigeres 8x MSAA haben kannst. Probier's einfach aus, ich hab' das nur kurz angetestet. :)

MfG,
Raff

robbitop

2008-10-08, 18:04:47

was bei 8x MSAA-Samples die "gefühlte" Qualität eines weit besseren Modus erzeugt.

MfG,
Raff

Nicht nur gefühlt sondern auch faktisch. Der Weggang vom Box-Filter ist die einzige Möglichkeit, die BQ nochmal signifikant nach vorn zu bringen.

Gast

2008-10-08, 20:13:53

Nicht nur gefühlt sondern auch faktisch.

aber nicht MSAA, dort ist der boxfilter der einzig korrekte, auch wenn andere filter subjektiv besser wirken können.

Schlammsau

2008-10-08, 20:37:09

IMO nicht. Du belastest damit die ALUs, obwohl du stattdessen für ähnliche Qualität günstigeres 8x MSAA haben kannst. Probier's einfach aus, ich hab' das nur kurz angetestet. :)

MfG,
Raff

Hast recht....kostet sehr viel Leistung und sieht eher noch schlechter als 8xMSAA aus. Hab grad ein wenig Crysis + meiner Config in 8xMSAA gezockt, läuft erstaunlich gut!

robbitop

2008-10-08, 20:37:22

aber nicht MSAA, dort ist der boxfilter der einzig korrekte, auch wenn andere filter subjektiv besser wirken können.
Edge-Detect greift ja nur dort ein, wo es verschiedene Farb und Z Samples pro Pixel gibt. Genau diese Bereiche wären mit SSAA auch nicht anders.

Narrow- und Widetent hingegen sind ohne Frage faktisch schlechter als ein Boxfilter.

Raff

2008-10-08, 20:52:03

Hast recht....kostet sehr viel Leistung und sieht eher noch schlechter als 8xMSAA aus. Hab grad ein wenig Crysis + meiner Config in 8xMSAA gezockt, läuft erstaunlich gut!

Speziell auf der HD4870 mit ihrer fetten Bandbreite ist das kaum verwunderlich. Die Karte bräuchte noch viel mehr Rechenleistung, um in ernsthafte Bandbreitenprobleme zu geraten – gerade in Crysis. Dabei fährt dieses Spiel wegen der fetten Polygonmenge einiges zum Glätten auf.

MfG,
Raff

Gast

2008-10-08, 20:55:46

Nicht bei der reinen Kantenglättung. (beim Flimmerbekämpfen oh ja) Denn dort hat man mit dem Box-Filter einfach eine Grenze erreicht. ATIs ED-CFAA ist IMO der größte Sprung im MSAA seit Jahren. In Kombination mit CSAA könnte man es sogar noch etwas billiger oder besser machen.

Nur braucht man keine glatteren Kanten. Ab 1600x1200 und höher fällt es zunehmend schwerer den Unterschied der Kantenglättung noch wahrzunehmen. 16xS hingegen beruhigt das Bild ungemein und die Kantenglättung ist nahezu perfekt.

Raff

2008-10-08, 20:57:57

24x Bitch-Detect schaut an den Polygonkanten trotzdem besser aus als "boxed" 16xS (oder 32xS) – gerade unter der L00pe. ;) Die Übergänge sind fast fließend, während man sie bei den Hybriden noch sieht. Natürlich ist das mal wieder Meckern auf elitärem Niveau, aber es sind Fakten.

Hier sieht man, was gemeint ist: http://www.3dcenter.org/artikel/ati-radeon-hd-2900-xt-review/praxisvergleich-custom-filter-coverage-sample-anti-aliasing

Ein Hybrid mit 'nem Custom Filter wäre godlike. Bis dahin ist in neuen Spielen XXxS hübscher ... Shaderaliasing ahoi.

MfG,
Raff

Gast

2008-10-08, 21:00:20

24x Bitch-Detect schaut an den Polygonkanten trotzdem besser aus als "boxed" 16xS (oder 32xS) – gerade unter der L00pe. ;) Die Übergänge sind fast fließend, während man sie bei den Hybriden noch sieht. Natürlich ist das mal wieder Meckern auf elitärem Niveau, aber es sind Fakten.

Glatter als glatt geht nicht ;) genausowenig erkennt man einen Unterschied zwischen 16xS und 32xS das ist dermaßen minimal das man fast von gleichwertig reden kann. Und mit ner Lupe sitzt keiner vor dem Monitor oder doch? :-)

robbitop

2008-10-08, 21:00:55

Nur braucht man keine glatteren Kanten. Ab 1600x1200 und höher fällt es zunehmend schwerer den Unterschied der Kantenglättung noch wahrzunehmen. 16xS hingegen beruhigt das Bild ungemein und die Kantenglättung ist nahezu perfekt.
Eben nicht. Mit dem Box-Filter rennt man schon mit rund 6-8x Samples gegen eine Wand. Danach bringt die Erhöhung der Anzahl der Samples keine spürbare Besserung der Kanten. Ich habe im 2900XT Review mal Screenshots gemacht. ED-CFAA hat eine wahnsinnig gute, viel viel bessere Kantenglättung als es 16xS oder sonstein BoxAA hat. Und ich sehe den Unterschied in der Praxis durchaus.

Glatter als glatt geht nicht ;) genausowenig erkennt man einen Unterschied zwischen 16xS und 32xS das ist dermaßen minimal das man fast von gleichwertig reden kann. Und mit ner Lupe sitzt keiner vor dem Monitor oder doch? :-)
Der Box-Filter erzeugt eben kein glattes Ergebnis sondern ein gestuftes. Schau dir die Bilder bitte an.

Raff

2008-10-08, 21:08:51

Eben nicht. Mit dem Box-Filter rennt man schon mit rund 6-8x Samples gegen eine Wand. Danach bringt die Erhöhung der Anzahl der Samples keine spürbare Besserung der Kanten.

Hast du Quellen, die einem näherbringen, warum die Grenze gerade bei 8 Samples liegt? Ich würde ja gerne mal "echtes 16x Sparse FSAA mit Box-Filter sehen ... und mit 8x fairgleichen.

MfG,
Raff

Gast

2008-10-08, 21:09:39

Der Box-Filter erzeugt eben kein glattes Ergebnis sondern ein gestuftes. Schau dir die Bilder bitte an.

Welche Bilder meinst du?

Ich meinte ja auch desto höher die Auflösung, desto weniger erkennt man dann noch die Unterschiede. Klar auf Bildern sieht man hier und da ne paar feinere Übergänge aber das ist dermaßen fein, daß man das dann garnicht mehr wahrnehmen kann.

Raff

2008-10-08, 21:11:48

Welche Bilder meinst du?

Ich meinte ja auch desto höher die Auflösung, desto weniger erkennt man dann noch die Unterschiede. Klar auf Bildern sieht man hier und da ne paar feinere Übergänge aber das ist dermaßen fein, daß man das dann garnicht mehr wahrnehmen kann.

Die Bilder, die ich nachträglich in meinen Senf reineditiert habe: http://www.3dcenter.org/artikel/ati-radeon-hd-2900-xt-review/praxisvergleich-custom-filter-coverage-sample-anti-aliasing

Bei noch flacheren Winkeln wäre wohl auch noch eine Art 32x CFAA produktiv. Ich sehe bei hochkontrastigen HDR-Spielen immer wieder solche Fälle, etwa ein Hausdach in einem solchen Winkel, dahinter eine fiese Sonne.

MfG,
Raff

robbitop

2008-10-08, 21:14:28

Hast du Quellen, die einem näherbringen, warum die Grenze gerade bei 8 Samples liegt? Ich würde ja gerne mal "echtes 16x Sparse FSAA mit Box-Filter sehen ... und mit 8x fairgleichen.

MfG,
Raff
Na subjektiv. 16xQ und 16xS sind kaum besser bei der Kantenglättung mit Boxfilter.