R580 schon Anfang 2006? [Archiv] - Seite 5

ShadowXX

2006-01-16, 14:54:37

Aber doch nicht in 1024 ohne AA/AF.

Warum nicht?
Ich sage ja nicht, das die CPU überhaupt keine Rolle spielt, würde bei FEAR aber eher von einer Shaderlimitierung ausgehen.

Wenn die Garfikkarte limitieren würde, dann würde auch eine DC-Optimierung nichts bringen.

Kommt drauf an was die DC-Optimierung so macht.....ich glaube aber nicht, das FEAR großartig CPU-limitiert ist auf einem FX55/60.
(Zumindest ist es wohl weniger CPU als Shaderlimitiert.)

Aber insgesamt könnte man da wohl sowieso erst aussagen treffen, wenn da mehr Benches vorhanden wären (mehr verschiedenen Auflösungen und auch mal was mit AA/AF).

Davon abgesehen traue ich diesem Test aus dem Forum inzwischen nicht mehr besonders.

Warum?
Xenos dürfte NV40 leistungsmäßig in Schach halten, und das bei ähnlichen Transistorenverbrauch und höherem tech-Level (jetzt mal vom eDRAM abgesehen).

Wenn wir das eDram mal aus dem Daugther Die rausholen würde und alles notwendigie in das Papa/Mama-Die reinpacken (also Rops & Co) wäre ich mir gar nicht so sicher ob er dann noch mit dem nv40 mithalten könnte.

Gleichstand eher und dazu hätte dieser C1 dann mehr Transis.

AFAIR meinte Demi mal, dass man die Leistungsfähigkeit des C1 durchaus mit den High-End der letzen Gen (also nv40/r4x0) vergleichen sollte.

Und selbst ATI sagt, das ein r520 stärker als der C1 ist.

seahawk

2006-01-16, 14:57:54

Schön finde ich die "more dynamic Pixels" durch länger Shader. :D

Also Leute die sich eine R520 XT gekauft haben, dürften sich bald ziemlich verarscht vorkommen.

ShadowXX

2006-01-16, 14:59:47

Naja, der Dispatch Prozessor ist 12-fach unterteilt (RV530 hat keinen unterteilten Dispatch-Prozessor AFAIK), und auch die "Register Arrays" wurden massiv aufgestockt (logisch bei mehr Pixelprozessoren). Und es sind jetzt definitivv 8 VS.

Bist du sicher das die 12 Dinger zum Dispatch Prozessor gehören??

Da steht nämlich "Quad Pixel Shader Core" jeweils drauf.

reunion

2006-01-16, 15:35:29

Warum nicht?
Ich sage ja nicht, das die CPU überhaupt keine Rolle spielt, würde bei FEAR aber eher von einer Shaderlimitierung ausgehen.

Weil man durch einen schnelleren Prozessor Performance gewinnt?

Kommt drauf an was die DC-Optimierung so macht.....ich glaube aber nicht, das FEAR großartig CPU-limitiert ist auf einem FX55/60.
(Zumindest ist es wohl weniger CPU als Shaderlimitiert.)

Naja, Shaderarbeit wird man kaum auf die zweite CPU verlagern.
Also muss die CPU limitieren, sonst würde auch eine DC-Optimierung nichts bringen, was mich in dieser Auflösung bei einer derartigen Grafikkarte auch nicht wundert.

Aber insgesamt könnte man da wohl sowieso erst aussagen treffen, wenn da mehr Benches vorhanden wären (mehr verschiedenen Auflösungen und auch mal was mit AA/AF).

Davon abgesehen traue ich diesem Test aus dem Forum inzwischen nicht mehr besonders.

*zustimm*

Wenn wir das eDram mal aus dem Daugther Die rausholen würde und alles notwendigie in das Papa/Mama-Die reinpacken (also Rops & Co) wäre ich mir gar nicht so sicher ob er dann noch mit dem nv40 mithalten könnte.

Es ist natürlich beinahe unmöglich, die Performance nur anhand theoretischer Werte zu vergleichen. Aber die 48US-ALUs von Xenos sollten denen von NV40 IMO doch überlegen sein. Beide haben dann noch 16 TMUs. Bei den ROPs ist der Vergleich besonders schwer, da hier Xenos aufgrund des eDRAM 8 extrem leistungsfähige ROPs bietet, während NV40 16 "normale" ROPs hat. Diese sollten aber bei keinem Chip limitieren. Und dann gibt es natürlich noch unzählige andere Punkte, die einen solchen Vergleich ziemlich sinnlos machen.

Gleichstand eher und dazu hätte dieser C1 dann mehr Transis.

Xenos ist aber auch technologisch jedem anderen aktuellen Chip voraus.
Er übertrifft teilweise die SM3-Spezifikationen (http://www.beyond3d.com/articles/xenos/index.php?p=09), bietet vermutlich ebenso schnelles dyn. Branching wie R520, sehr performates VT (logisch, bei einem US-Core), vermutlich das gleiche AF wie R520, FP10/FP16-MSAA, MEMEXPORT, etc.

Alles Dinge, für welche NV40 keine Transistoren aufbringen muss.
Außerdem sollte er performacemäßig einen NV40 in Schach halten können IMO.

Und selbst ATI sagt, das ein r520 stärker als der C1 ist.

Alles andere wäre auch ein Armutszeugnis, bei ~80mio mehr an Transistoren und 125Mhz mehr Takt.

reunion

2006-01-16, 15:41:52

Bist du sicher das die 12 Dinger zum Dispatch Prozessor gehören??

Da steht nämlich "Quad Pixel Shader Core" jeweils drauf.

Ich meine nicht die Pixelprozessoren, sondern den Dispatch-Prozessor. Man sieht auf der Grafik ganz deutlich, dass dieser in zwölf kleine Quadrate aufgeteilt ist. RV530 hatte für das eine Quad noch keine Aufspaltung.

ShadowXX

2006-01-16, 15:48:53

Xenos ist aber auch technologisch jedem anderen aktuellen Chip voraus.
Er übertrifft teilweise die SM3-Spezifikationen (http://www.beyond3d.com/articles/xenos/index.php?p=09), bietet vermutlich ebenso schnelles dyn. Branching wie R520, sehr performates VT (logisch, bei einem US-Core), vermutlich das gleiche AF wie R520, FP10/FP16-MSAA, MEMEXPORT, etc.

Alles Dinge, für welche NV40 keine Transistoren aufbringen muss.

Auch der nv40/G70 überbieten AFAIR teilweise die SM3.0 Spezifikationen, auch der nv40 bietet dyn. Branching (ich glaube nicht das es wesentlich weniger Transistoren kostet, nur weil es langsamer ist...davon abgesehen wissen wir nicht wie schnell der C1 brancht).
VTF hat der nv40 auch (vielleicht nicht so schnell, aber Transitoren kostet dieses auch und im Fall des nV40 wahrscheinlich mehr als beim C1).

Ob der C1 wirklich das AF des r520 hat wissen wir nicht, dafür wird es zuwenig bei der XBox360 eingesetzt....an AreaAF glaube ich nicht so ganz.

Der nv40 hat zwar kein HDR+MSAA, dafür aber FP-Filtering, was auch ein paar Transistoren kosten dürfte.

Ich würde mal sagen, das wenn man einen C1 ohne eDram auf einem einzigen Die hätte, hätte dieser mehr Transistoren als ein nv40.

ShadowXX

2006-01-16, 15:51:08

Ich meine nicht die Pixelprozessoren, sondern den Dispatch-Prozessor. Man sieht auf der Grafik ganz deutlich, dass dieser in zwölf kleine Quadrate aufgeteilt ist. RV530 hatte für das eine Quad noch keine Aufspaltung.

Ja...passend zu den 12 Quad Shader Cores.

Aber was sollen diese Quad Shader Cores denn überhaupt sein??

deekey777

2006-01-16, 15:55:49

Naja, der Dispatch Prozessor ist 12-fach unterteilt (RV530 hat keinen unterteilten Dispatch-Prozessor AFAIK), und auch die "Register Arrays" wurden massiv aufgestockt (logisch bei mehr Pixelprozessoren). Und es sind jetzt definitivv 8 VS.

Es war auch zu erwarten, daß es 12 Dispatcher sein werden, du hast es selbst vor 5-6 Seiten geschrieben, da die Threadgröße ums Dreifache gestiegen ist.

Gast

2006-01-16, 15:56:32

Die Grafik ist ein wenig irreführend. Sie soll dem Betrachter suggerieren, dass R580 wirklich 12 Quads hätte. Hat er aber nicht. Es sind 4 Quads mit je 12 ALUs.

deekey777

2006-01-16, 15:57:52

Die Grafik ist ein wenig irreführend. Sie soll dem Betrachter suggerieren, dass R580 wirklich 12 Quads hätte. Hat er aber nicht. Es sind 4 Quads mit je 12 ALUs.

Ich glaub, 12 Quads könnte passender sein (12x4).

reunion

2006-01-16, 15:58:06

Es war auch zu erwarten, daß es 12 Dispatcher sein werden, du hast es selbst vor 5-6 Seiten geschrieben, da die Threadgröße ums Dreifache gestiegen ist.

Bei RV530 wurde die Threadgröße ebenfalls verdreifach. Dieser hat aber nur einen Dispatch-Prozessor (pro Quad). Hier scheint jedes Quad drei Dispatch-Prozessoren zu bekommen.

Gast

2006-01-16, 16:00:28

Ich glaub, 12 Quads könnte passender sein (12x4).?

reunion

2006-01-16, 16:01:46

Ich würde mal sagen, das wenn man einen C1 ohne eDram auf einem einzigen Die hätte, hätte dieser mehr Transistoren als ein nv40.

Logisch, alleine schon das Haupt-Die hat mehr Transistoren als der gesamte NV40, allerdings bietet C1 wie gesagt dafür auch einen deutlichen Mehrwert. Wobei es natürlich unmöglich ist, diesen Feature und ev. Performancemehrwert in Transistoren umzumünzeln.

Jedenfalls zeigt Xenos IMHO deutlich, dass ein US-Chip nicht unbedingt mehr Transistoren verbrauchen muss, als bei einer heute üblichen Architektur mit spezialisierten Einheiten.

ShadowXX

2006-01-16, 16:06:02

Die Grafik ist ein wenig irreführend. Sie soll dem Betrachter suggerieren, dass R580 wirklich 12 Quads hätte. Hat er aber nicht. Es sind 4 Quads mit je 12 ALUs.

Ja....zumindest finde die Grafik sehr irreführend.

Speziell da diese "Quad Shader Cores" ebenfalls nochmal 4-Fach unterteilt sind (was das Quad ja auch bedeutet).

Könnte mal einer von den Gurus das Bild näher erleutern?

deekey777

2006-01-16, 16:06:22

Bei RV530 wurde die Threadgröße ebenfalls verdreifach. Dieser hat aber nur einen Dispatch-Prozessor (pro Quad). Hier scheint jedes Quad drei Dispatch-Prozessoren zu bekommen.

Vielleicht sollte ATi deren Blockdiagram zum RV530 überarbeiten und das des R580 anpassen, zB damit man sieht, daß es drei Dispatcher im "Ultra Threaded Dispatcher"-Prozessor sind?

reunion

2006-01-16, 16:06:47

Die Grafik ist ein wenig irreführend. Sie soll dem Betrachter suggerieren, dass R580 wirklich 12 Quads hätte. Hat er aber nicht. Es sind 4 Quads mit je 12 ALUs.

Alles definitionssache.
Wenn man die Pipelineanzahl an der TMU-Anzahl festmacht hast du natürlich recht. Man könnte aber auch genauso wie ATi die Shaderprozessoren zählen.

Im Grunde sind es schon 12 Quads, allerdings hat natürlich längst nicht jede Pipeline auch eine TMU.

reunion

2006-01-16, 16:07:37

Ja...passend zu den 12 Quad Shader Cores.

Aber was sollen diese Quad Shader Cores denn überhaupt sein??

Die ALUs?
Alles andere ist ja laut dem Schaubild mehr oder weniger stark entkoppelt.

ShadowXX

2006-01-16, 16:11:32

Alles definitionssache.
Wenn man die Pipelineanzahl an der TMU-Anzahl festmacht hast du natürlich recht. Man könnte aber auch genauso wie ATi die Shaderprozessoren zählen.

Im Grunde sind es schon 12 Quads, allerdings hat natürlich längst nicht jede Pipeline auch eine TMU.

Aber warum fasst ATI die Shader in 4er-Gruppen auf dem Bild zusammen?

Wenn dann hätte ich eher 16 3er-Gruppen erwartet.

reunion

2006-01-16, 16:13:10

Aber warum fasst ATI die Shader in 4er-Gruppen auf dem Bild zusammen?

Weil es jeweils ein Quad ist?
nV macht das doch auch nicht anders. Allerdings sind da natürlich auch die TMUs darin inkludiert, und nicht entkoppelt, wie auf dem Schaubild suggeriert. Entsprechend fällt es einem leichter, die "Pipelines" zu zählen, dafür wurden bei G70 die ROPs beschnitten, sodass dieser streng betrachtet ebenfalls nur 16 Pipelines hat. Wie gesagt, alles definitionssache. Normalerweise zählt man halt die TMUs.

Gast

2006-01-16, 16:17:49

Ich würde es eher so bezeichnen: Ein RV530/R580-Quad hat 4 ROPs, 4 TMUs und 12 ALUs. So käme man auf vier Quads. Dass ATI die ALUs zählt, ist vorhersehbar gewesen, ein 48 "Pipeline"-Chip lässt sich doch viel besser vermarkten als ein 16 Pipeline Chip mit je 3 ALUs pro Pipe.

Gast

2006-01-16, 16:18:56

In Zukunft sollten wir uns eh davon verabschieden Pipelines und Quads zu zählen. Ich halte es für besser die Funktionseinheiten einfach beim Namen zu nennen.

deekey777

2006-01-16, 16:22:18

Aber warum fasst ATI die Shader in 4er-Gruppen auf dem Bild zusammen?

Wenn dann hätte ich eher 16 3er-Gruppen erwartet.

Wegen der Threadgröße (12*4) vielleicht?

*verwirrtbin*

reunion

2006-01-16, 16:33:47

Wegen der Threadgröße (12*4) vielleicht?

*verwirrtbin*

Das sind ganz normale Pixelprozessoren, jeweils vier davon werden zu einem Quad zusammengefasst, das gibt es schon mindestens seit der Geforce 1. Nur sind beim R5xx-Design eben (laut dem Schaubild, es gibt ja durchaus zweifel daran) die TMUs davon entkoppelt.

Demirug

2006-01-16, 16:34:40

Das Bild ist so gezeichnet das man den Chip als 48 Pipeline Chip verkaufen kann -----> MARKETING

ShadowXX

2006-01-16, 16:46:50

Das sind ganz normale Pixelprozessoren, jeweils vier davon werden zu einem Quad zusammengefasst, das gibt es schon mindestens seit der Geforce 1. Nur sind beim R5xx-Design eben (laut dem Schaubild, es gibt ja durchaus zweifel daran) die TMUs davon entkoppelt.

Das ist schon klar....nur hat dieser Diagrammaufbau ja nun überhaupt nichts mit dem interner Aufbau zu tun, da die ALUs definitiv nicht in 4er-Gruppen zusammenhängen (entweder in 3er oder 12er).

Siehe auch Demi.....das ist eine reine Marketingsabbildung.

Demirug

2006-01-16, 16:49:40

Das ist schon klar....nur hat dieser Diagrammaufbau ja nun überhaupt nichts mit dem interner Aufbau zu tun, da die ALUs definitiv nicht in 4er-Gruppen zusammenhängen (entweder in 3er oder 12er).

Siehe auch Demi.....das ist eine reine Marketingsabbildung.

Das sind 4 Pixel ALUs die einen eine Quad ALU bilden.

"Dummerweise" hat das mit den Quads ja inzwischen fast jeder von den Reviewern verstanden.

deekey777

2006-01-16, 16:51:15

reunion

2006-01-16, 17:00:12

http://www.beyond3d.com/reviews/ati/rv5xx/
Schaut euch das (Marketing-)Diagramm des RV530 an. Da sind 3 Quads zu sehen, der Unterschied ist nur, daß nur ein Pfeil vom Dispatcher zu jedem Quad verläuft, im R580 Diagramm sind es (marketingwirksam) vier.

Eben, darauf wollte ich vorhin auch hinaus. Es gibt bei RV530 nur ein Dispatch-Prozessor für das gesamte Quad. R580 hat offenbar mehrere Dispatch-Prozessoren pro Quad. Allerdings dürften es bei einem 12-fach unterteilten Dispatch-Prozessor eigentlich nur drei pro Quad sein, und nicht vier. :|

d2kx

2006-01-16, 17:08:42

http://images.jr.com/productimages/ATI100435805.PNG?CELL=380,380&QLT=67&FTR=3&BGCOLOR=FFFFFF&CVT=jpeg
http://images.jr.com/altimages/ATI100435805_altBOX.PNG?CELL=380,380&QLT=67&FTR=3&BGCOLOR=FFFFFF&CVT=jpeg

Verdammt, der ein Typ mit den F.E.A.R. soll höhere Einstellungen testen.

reunion

2006-01-16, 17:12:14

Es sind 384mio Transistoren:

http://img29.imageshack.us/img29/1350/x1900xtx9zu.jpg

Also etwas weniger als 2mio Transistoren pro Pixelprozessor.

//Edit:
Auch intressant: "Dynamic voltage and clockspeed control."
Ist das neu?

ShadowXX

2006-01-16, 17:12:36

Das sind 4 Pixel ALUs die einen eine Quad ALU bilden.

"Dummerweise" hat das mit den Quads ja inzwischen fast jeder von den Reviewern verstanden.

Aber ist ein Quad beim r580 nicht eigentlich 4*3 Alus (also pro Quad 12)?

Demirug

2006-01-16, 17:13:16

Eben, darauf wollte ich vorhin auch hinaus. Es gibt bei RV530 nur ein Dispatch-Prozessor für das gesamte Quad. R580 hat offenbar mehrere Dispatch-Prozessoren pro Quad. Allerdings dürften es bei einem 12-fach unterteilten Dispatch-Prozessor eigentlich nur drei pro Quad sein, und nicht vier. :|

Der R520 Dispatcher war IIRC 4 fach unterteilt gezeichnet. Mehr darf ich dazu allerdings nicht sagen.

dildo4u

2006-01-16, 17:16:47

Diesmal scheint ATI das mit dem Produktlaunch ja mal hinzubekommen.

http://i16.photobucket.com/albums/b14/denniszzz/ASUSX1900XT512M2.jpg

fi.suc

2006-01-16, 17:17:04

Hoffentlich wird die X1800** dann billiger, wenn die x1900 raus kommt

nur....es sind halt alles spekulationen :D

ShadowXX

2006-01-16, 17:22:51

Von welcher Firma kann man den ATI-Karten so empfehlen?

Gast

2006-01-16, 17:29:47

Sollte eigentlich egal sein. Werden eh alle das Referenzdesign aufweisen. Ich persönlich würde nach dem Preis und der Austattung gehen. Wenn du aber unbedingt einen Namen haben willst: Sapphire sollte nicht schlecht sein. ;)

reunion

2006-01-16, 17:29:58

Der R520 Dispatcher war IIRC 4 fach unterteilt gezeichnet. Mehr darf ich dazu allerdings nicht sagen.

Ja, ich weiß, da gabs dann vermutlich wie bei RV515 und RV530 einen Dispatch-Prozessor pro Quad. Bei R580 scheint allerdings jedes Quad drei zu bekommen.

Coda

2006-01-16, 17:31:40

Diesmal scheint ATI das mit dem Produktlaunch ja mal hinzubekommen.Warum auch nicht? Der IP-Bug von R520 wurde ja gefunden.

Bei R580 scheint allerdings jedes Quad drei zu bekommen.Hm? Ich glaube nicht, dass R580 etwas viel anderes ist als 4xRV530.

reunion

2006-01-16, 17:35:23

Hm? Ich glaube nicht, dass R580 etwas viel anderes ist als 4xRV530.

Wie erklärst du dir dann die zwöft Dispatch-Prozessoren mit jeweils drei Pfeilen pro Quad?

http://img43.imageshack.us/img43/9492/x19008wi.jpg

Hier RV530:

http://www.beyond3d.com/reviews/ati/rv5xx/images/rv530arch.jpg

Coda

2006-01-16, 17:37:16

Das scheinen die Instructions für die unterschiedlichen Einheiten in den Pixelshadern zu sein, die sind zumindest genauso farblich markiert.

3x soviele wäre auch etwas komisch. Wenn dann 4.

Gast

2006-01-16, 17:37:39

Drei Pfeile:
ALU
TEX
Branch

Q

reunion

2006-01-16, 17:42:10

:hammer: Achso.

Nur warum ist dann der Dispatch-Prozessor 12-fach unterteilt?
Bei RV530 ist dies nicht der Fall, und R520 hat bei 4 Quads auch nur einen vierfach unterteilten Dispatch-Prozessor.

Coda

2006-01-16, 17:45:40

Das sind einfach die 12 Dispatch-Prozessoren (pro Quad einen). In der RV530-Grafik hat man halt keine 4 eingezeichnet, einer ist es auf jedenfall nicht ;)

reunion

2006-01-16, 17:55:42

Thx, so wirds wohl sein. Ich stelle mich heute wiedermal extrem begriffsstutzig an.

Nur wenn für jedes Quad genau einer vorhanden ist, für was benötigt man das Teil dann überhaupt? Ich dachte der Dispatch-Prozessor entscheidet je nach Auslastung, zu welchen Quad die Daten "geleitet" werden. Und bräuchte man dann für die TMU-Quads nicht auch einen extra Dispatch-Prozessor (also 16 bei R580).

up¦²

2006-01-16, 18:31:33

Was für's album: :smile:

http://img29.imageshack.us/img29/1350/x1900xtx9zu.jpg

aths

2006-01-16, 18:44:35

Weil es jeweils ein Quad ist?
nV macht das doch auch nicht anders. Allerdings sind da natürlich auch die TMUs darin inkludiert, und nicht entkoppelt, wie auf dem Schaubild suggeriert. Entsprechend fällt es einem leichter, die "Pipelines" zu zählen, dafür wurden bei G70 die ROPs beschnitten, sodass dieser streng betrachtet ebenfalls nur 16 Pipelines hat. Wie gesagt, alles definitionssache. Normalerweise zählt man halt die TMUs.Dann hätte die GF2 GTS schon 8 "Pipelines".

Coda

2006-01-16, 18:53:55

Nur wenn für jedes Quad genau einer vorhanden ist, für was benötigt man das Teil dann überhaupt? Ich dachte der Dispatch-Prozessor entscheidet je nach Auslastung, zu welchen Quad die Daten "geleitet" werden. Und bräuchte man dann für die TMU-Quads nicht auch einen extra Dispatch-Prozessor (also 16 bei R580).Ich sags mal so: R580 unterscheidet sich viel weniger von einer klassischen Architektur als du glaubst, evtl. ist sogar ein TMU-Quad immer für 3 ALU-Quads zuständig.

Gast

2006-01-16, 20:44:21

Ja, weil da mit dem FSAA sich etwas böse beißt bei Nvidia. Zumindest böser, als bei ATi. Siehe meinen Post von vor einigen Seiten.

Oder sind ~50% FPS Einbruch bei einem Shader-limitierten Spiel beim Zuschalten von FSAA normal?

Q

es gibt einen kleinen aber feinen unterschied zwischen den GPUs von ATI und NV was die ROPs angeht:

mal die situation ohne FSAA:

NV: dank entkoppelter ROPs 32 (zixel)Z-checks/takt
ATI: 16 (zixel)Z-checks/takt

mit FSAA sieht es so aus:

NV: 32 (subzixel) z-checks/takt
ATI: 32 (subzixel) z-checks/takt

ohne FSAA arbeitet die NV-architektur die z-checks effizienter ab, während die effizienz mit FSAA bei ATI und NV gleich gut ist, nur logisch das ATI weniger verliert.

die radeon X1600, ebenso der R580 sollte mit FSAA auch verhältnismäßig mehr einbrechen als der R520 (sofern der R580 nicht eine dermaßen hohe leistung bietet das fear cpu-limitiert wird)

robbitop

2006-01-16, 20:46:54

Ich glaube nicht, dass die Z-Checks/Writes spiele limiteren. Dazu dauern andere Berechnungen viel zu lange. Wenn das der Fall wäre, würde bsw NV43 bedeutend schlechter dastehen.

sklave_gottes

2006-01-16, 20:47:36

der r535 verliert nicht viel fps bei FSAA in FEAR.
der bricht nur sehr stark bei AF ein

Coda

2006-01-16, 20:48:34

Das stimmt auch so nicht. Den doppelten Z-Durchsatz gibts bei nVIDIA nur wenn Color-Writes deaktiviert sind, also im Prinzip nur bei Stencil-Shadows.

Gast

2006-01-16, 20:50:58

es gibt einen kleinen aber feinen unterschied zwischen den GPUs von ATI und NV was die ROPs angeht:

mal die situation ohne FSAA:

NV: dank entkoppelter ROPs 32 (zixel)Z-checks/takt
ATI: 16 (zixel)Z-checks/takt

mit FSAA sieht es so aus:

NV: 32 (subzixel) z-checks/takt
ATI: 32 (subzixel) z-checks/takt

ohne FSAA arbeitet die NV-architektur die z-checks effizienter ab, während die effizienz mit FSAA bei ATI und NV gleich gut ist, nur logisch das ATI weniger verliert.

die radeon X1600, ebenso der R580 sollte mit FSAA auch verhältnismäßig mehr einbrechen als der R520 (sofern der R580 nicht eine dermaßen hohe leistung bietet das fear cpu-limitiert wird)

Alles richtig, was du sagst, aber deine Schlußfolgerung stimmt leider nicht. Außerdem müsste deine These analog ja auch für Doom3 mit FSAA gelten, dort trifft sie aber nicht zu.

Q

reunion

2006-01-16, 20:51:32

es gibt einen kleinen aber feinen unterschied zwischen den GPUs von ATI und NV was die ROPs angeht:

mal die situation ohne FSAA:

NV: dank entkoppelter ROPs 32 (zixel)Z-checks/takt
ATI: 16 (zixel)Z-checks/takt

mit FSAA sieht es so aus:

NV: 32 (subzixel) z-checks/takt
ATI: 32 (subzixel) z-checks/takt

ohne FSAA arbeitet die NV-architektur die z-checks effizienter ab, während die effizienz mit FSAA bei ATI und NV gleich gut ist, nur logisch das ATI weniger verliert.

die radeon X1600, ebenso der R580 sollte mit FSAA auch verhältnismäßig mehr einbrechen als der R520 (sofern der R580 nicht eine dermaßen hohe leistung bietet das fear cpu-limitiert wird)

RV530 erreicht den doppelten Z-Durchsatz im Gegensatz von nV-Karten auch mit MSAA.

Gast

2006-01-16, 20:51:42

Das stimmt auch so nicht. Den doppelten Z-Durchsatz gibts bei nVIDIA nur wenn Color-Writes deaktiviert sind, also im Prinzip nur bei Stencil-Shadows.
..Diese nutzt Fear allerdings.

Q

reunion

2006-01-16, 20:54:32

Dann hätte die GF2 GTS schon 8 "Pipelines".

Ich hab' ja nicht behauptet, dass es der Weisheit letzter Schluss ist.
Ist ohnehin alles Haarspalterei.

Coda

2006-01-16, 20:56:06

..Diese nutzt Fear allerdings.Ja, so blöd ist das ganze gar nicht.

Gast

2006-01-16, 21:27:57

Das stimmt auch so nicht. Den doppelten Z-Durchsatz gibts bei nVIDIA nur wenn Color-Writes deaktiviert sind, also im Prinzip nur bei Stencil-Shadows.

und was nutzt FEAR massenhaft? genau, stencil-shadows.

eventuell könnte man mal versuchen mit deaktivierten schatten zu benchen, ob der einbruch noch immer so groß ist.

Alles richtig, was du sagst, aber deine Schlußfolgerung stimmt leider nicht. Außerdem müsste deine These analog ja auch für Doom3 mit FSAA gelten, dort trifft sie aber nicht zu.

Q

der einbruch bei doom3 mit FSAA ist laut meinen erfahrungen auch verhältnismäßig groß, zwar nicht so extrem wie bei fear, was aber daran liegen dürfte dass die karte dort lange nicht so weit am limit läuft.

RV530 erreicht den doppelten Z-Durchsatz im Gegensatz von nV-Karten auch mit MSAA.

NV erreicht den doppelten z-durchsatz ja auch mit und ohne FSAA, während der R520 nur mit FSAA vom doppelten z-durchsatz profitieren kann.

afaik erreicht der RV530 ohne FSAA auch nur den 1-fachen z-durchsatz, lediglich der RV560 kann auch ohne FSAA 2 z-checks/ROP und takt.
der R580 wird es ebenfalls können.

reunion

2006-01-16, 21:38:19

NV erreicht den doppelten z-durchsatz ja auch mit und ohne FSAA, während der R520 nur mit FSAA vom doppelten z-durchsatz profitieren kann.

http://www.beyond3d.com/forum/showthread.php?t=27037

Hier wirds besonders gut dargestellt:
http://www.beyond3d.com/forum/showpost.php?p=663192&postcount=14

robbitop

2006-01-16, 21:56:28

der einbruch bei doom3 mit FSAA ist laut meinen erfahrungen auch verhältnismäßig groß, zwar nicht so extrem wie bei fear, was aber daran liegen dürfte dass die karte dort lange nicht so weit am limit läuft.

Uhm ... dann müsste der NV43 in diesem Setting aber katastrophal einbrechen .. tut er aber nicht. (Vergleich: GF6800NU bsw)

Gast

2006-01-16, 22:17:09

Uhm ... dann müsste der NV43 in diesem Setting aber katastrophal einbrechen .. tut er aber nicht. (Vergleich: GF6800NU bsw)

nicht wirklich, es sind ja immer 8 (sub)zixel/takt möglich

die konkurrenz bietet in der preisklasse auch nicht mehr.

es entsteht ja für NV kein nachteil mit FSAA sondern ein vorteil ohne FSAA.

Wechselbalg

2006-01-16, 23:46:43

Kaum ist man mal einen Tag ohne Laptop in der Uni geht die Post ab. ;)

Falls sich jemand noch an heute morgen erinnert aber dennoch eine kleine Anmerkung zu den US Architekturen. Immerhin muss man hier ja zu gute halten, dass es sicherlich immer wieder (wenn nicht sogar ständig) Situationen gibt in denen eine Architektur mit fester Anzahl von Einheiten diese nicht vollkommen ausnutzen kann, da gerade zum Beispiel weniger Vertexlast vorherrscht. Insofern wäre die Ausnutzung der vorhandenen Einheiten bei einer US Architetktur mMn schon sehr effizient, auch wenn die Geschwindigkeit letzten Endes natürlich nicht höher sein muss, da dafür jede einzelne Pipeline genauso effizient auch arbeiten müsste und quasi pro Transistor gleich viel bei rauskommen müsste. Dennoch könnte ich mir da gerade im Profikartenbereich für CAD Anwendungen vorstellen, dass man hier speziellere Anwendungen hat, wo die Lastverteilungsunterschiede weitaus größer sind und das auch innerhalb einer Anwendung wie eines Spiels der Entwickler stärkere Ausreißer sich vermutlich erlauben kann. Insofern ist Effizienz bei dem Diskussionspunkt mir zumindest nicht eindeutig genug. ^^

Aber da ich wohl zu sehr vom eigentlichen Thema abkomme. Wird R580 eigentlich auch gegenüber R520 (genau wie RV530 im Vergleich zu RV515) doppelt so viele Z Werte verarbeiten, oder ist das oftmals genannte/vermutete 4 mal RV530 doch in dem Punkt nicht so korrekt?

deekey777

2006-01-17, 00:15:20

Kaum ist man mal einen Tag ohne Laptop in der Uni geht die Post ab. ;)
[...]
Aber da ich wohl zu sehr vom eigentlichen Thema abkomme. Wird R580 eigentlich auch gegenüber R520 (genau wie RV530 im Vergleich zu RV515) doppelt so viele Z Werte verarbeiten, oder ist das oftmals genannte/vermutete 4 mal RV530 doch in dem Punkt nicht so korrekt?

Wenn das 16:1:3:1 noch stimmt, dann nein.

robbitop

2006-01-17, 00:22:26

nicht wirklich, es sind ja immer 8 (sub)zixel/takt möglich

die konkurrenz bietet in der preisklasse auch nicht mehr.

es entsteht ja für NV kein nachteil mit FSAA sondern ein vorteil ohne FSAA.
Die 6800NU bietet das 4 fache an ROP Leistung pro Takt und dennoch ist sie in D3 in diesem Setting nicht maßgeblich schneller.

Ailuros

2006-01-17, 06:50:51

Aber doch nicht in 1024 ohne AA/AF.

Netter CPU Test heutzutage.

Ailuros

2006-01-17, 06:54:33

Es sind 384mio Transistoren:

*grins* *wink wink nudge nudge*

***edit: wer will kann die Datenbank ueber die Transistoren-Schaetzung beider kommenden GPUs aufsuchen. Geht man von der obrigen Basis aus, heisst es wohl nix da mit nur hoeheren Taktraten auf G71.

Ailuros

2006-01-17, 07:03:15

Ahh, jetzt also doch.

Die bisherigen Resultate sind aber in 16*12 mit AA und der Unterschied zu einem seltenen Konkurrenten ist mehr als nur phaenomenal. Von wegen Fear "nicht" shaderlimitiert, und von wegen dass das Spiel "nicht" von extra Shader-Fuellrate enorm profitiert. :rolleyes:

seahawk

2006-01-17, 07:36:27

***edit: wer will kann die Datenbank ueber die Transistoren-Schaetzung beider kommenden GPUs aufsuchen. Geht man von der obrigen Basis aus, heisst es wohl nix da mit nur hoeheren Taktraten auf G71.

1. Welche Datenbank ?
2. Warum ?

Gandharva

2006-01-17, 09:29:56

1. Welche Datenbank ?Würd ich auch gern Wissen.2. Warum ?Weil wohl theoretisch neben ner ordendlichen Takterhöhung noch Platz ist für 2 weitere Quads bei NV71.

ShadowXX

2006-01-17, 09:51:59

Ich glaub das mit der "Transistordatenbank" war mehr als joke zu verstehen und AiL meinte Google bzw. Forensuchfunktionen.

Fregi

2006-01-17, 10:15:34

Der R580 hat gegenüber denn R520 80 Transiatoren mehr.Sind die wirklich nur für die ALU erhöhung draufgegangen oder unterstützt der R580 jetzt auch Vertex Texturing ?

Freg

2006-01-17, 10:17:30

ShadowXX

2006-01-17, 10:20:53

Der R580 hat gegenüber denn R520 80 Transiatoren mehr.Sind die wirklich nur für die ALU erhöhung draufgegangen oder unterstützt der R580 jetzt auch Vertex Texturing ?

Ich glaub nicht....dafür hätten Sie die VS doch ziemlich stark verändern müssen.

PingpiN

2006-01-17, 10:31:02

Es gibt mall wieder ein neuen Benchmark von Visionary *Der Typ der Komisch bencht :biggrin: *
X3 1024/768 kein AA/AF
FX60 haut den FX55 um 15 FPS weg. :eek:
http://forums.vr-zone.com.sg/showpost.php?p=1379105&postcount=71

Ronny145

2006-01-17, 10:32:59

Gandharva

2006-01-17, 10:42:51

Es gibt mall wieder ein neuen Benchmark von Visionary *Der Typ der Komisch bencht :biggrin: *
X3 1024/768 kein AA/AF
FX60 haut den FX55 um 15 FPS weg. :eek: Und wieder ein völlig sinnloser CPU Bench von dem Typ...

P.S. Hier im Forum haben Leute mit einer 7800GT >60Fps in 1024x768.

PingpiN

2006-01-17, 10:45:10

Erscheint mir ziemlich wenig, wenn ich die Ergebnisse mit anderen Systemen vergleiche.
Ich bin kein Experte aber ich glaub in denn Settings muss die Grafikkarte nicht viel Arbeiten.Ich denke das das Ergebniss in 1600/1200 4AA/8AF genauso ist wie in 1024/768. :cool: :confused:

Ronny145

2006-01-17, 10:48:44

Ich bin kein Experte aber ich glaub in denn Settings muss die Grafikkarte nicht viel Arbeiten.Ich denke das das Ergebniss in 1600/1200 4AA/8AF genauso ist wie in 1024/768. :cool: :confused:

Sieht so aus. Daher ist der Bench in diesen settings für die Tonne und nur als CPU Test zu gebrauchen.

PingpiN

2006-01-17, 10:52:53

Der R580 ist ein Porsche der bei 300 KMH nicht mehr Spritt verbraucht. :cool: :|
Spekulierent. ;D

Godmode

2006-01-17, 11:10:54

*grins* *wink wink nudge nudge*

***edit: wer will kann die Datenbank ueber die Transistoren-Schaetzung beider kommenden GPUs aufsuchen. Geht man von der obrigen Basis aus, heisst es wohl nix da mit nur hoeheren Taktraten auf G71.

Also ich sag jetzt mal der G71 hat 413 Mio.

303 / 222 = 1,37 * 303 = 413
2 zusätzliche Quads + größere Caches

Gast

2006-01-17, 11:32:41

Die 6800NU bietet das 4 fache an ROP Leistung pro Takt und dennoch ist sie in D3 in diesem Setting nicht maßgeblich schneller.

weil die ROPs sicher nicht der einzige limitierende faktor sind.

gerade bei doom3 hat auch die cpu noch ein wenig mitzureden, ich will auch nicht großartig um doom rätseln, mich würden eher fear-benches der 6600 interessieren ;)

robbitop

2006-01-17, 11:33:20

Also ich sag jetzt mal der G71 hat 413 Mio.

303 / 222 = 1,37 * 303 = 413
= 2 zusätzliche Quads + größere Caches
Ich glaube nicht, dass größere Caches von nöten sind. Eher eine höhere Assoziativität untereinander. Aber daran glaube ich kaum. Die Caches sind IMO ganz ok. Besser wäre mehr Temp Register Space.

Gast

2006-01-17, 11:33:36

Der R580 wird keine chance gegen den G71 haben.
Der G71 wird schneller sein ich sag nur 750Mgh und 32P.
Nvidia ist einfach besser !!!

Schöne Grüße AN X850XT-PE Bundswehredition

robbitop

2006-01-17, 11:35:20

weil die ROPs sicher nicht der einzige limitierende faktor sind.

gerade bei doom3 hat auch die cpu noch ein wenig mitzureden, ich will auch nicht großartig um doom rätseln, mich würden eher fear-benches der 6600 interessieren ;)
Doom3 setzt enorm viel Stencil Shaddows ein. Mit AA/AF sollte die CPU in den Benches nicht mehr limitieren. Will sagen: ROPs limitieren nicht. :)
Andere Berechnungen dauern viel zu lange, als dass diese limitieren könnten.

Gast

2006-01-17, 11:46:42

Also ich sag jetzt mal der G71 hat 413 Mio.

303 / 222 = 1,37 * 303 = 413
= 2 zusätzliche Quads + größere Caches
ot
auch wenn die Schlussfolgerung richtig sein sollte, bitte keine Vergewaltigung der Mathematik, da 303/222 ungleich (1,37 *303 gleich 413) ungleich 2 zusätzliche Quads + größere Caches. Das = Zeichen bedeutet dass rechts und links davon dasselbe steht
Danke
hakkerstiwwel

aths

2006-01-17, 12:31:11

Ich glaube nicht, dass größere Caches von nöten sind. Eher eine höhere Assoziativität untereinander. Aber daran glaube ich kaum. Die Caches sind IMO ganz ok. Besser wäre mehr Temp Register Space.Leider nicht realisierbar (ohne die Pipe zu verlängern) deshalb vermute ich dass NV erneut über die Zahl der Pipes und ggf. den Takt skaliert. Eine Quadpipe hat schon jetzt mehr ALU-Registerspeicher als Texture Cache.

Ailuros

2006-01-17, 13:01:15

1. Welche Datenbank ?
2. Warum ?

Weil ich schon oefters angedeutet habe dass man fuer den naechsten Schub als absolutes Minimum ~380M Transistoren erwarten sollte.

Ailuros

2006-01-17, 13:08:46

Also ich sag jetzt mal der G71 hat 413 Mio.

303 / 222 = 1,37 * 303 = 413
= 2 zusätzliche Quads + größere Caches

Woher kommt die Rechnung ueberhaupt?

Zwischen NV40 und G70:

4 quads auf 6 quads

ALU Aenderungen wobei die zweite "sub"-ALU beim G70 jetzt auch ueber MADD faehig ist.

6 VS MIMDs auf 8 VS MIMDs

Transparenz-AA, HDR-OP und batch size relevantes Zeug ...

usw. usw.

Alles zusammen macht hier genau 80M Unterschied (222-->302M).

Jetzt rechne nochmal auf, mit 2 mehr quads und nochmal 2 VS MIMDs, ohne die ALU Erweiterungen, aber die moeglichen anderen kleinen Aenderungen; vielleicht klappt es dann ;)

Godmode

2006-01-17, 13:27:58

Ich glaube nicht, dass größere Caches von nöten sind. Eher eine höhere Assoziativität untereinander. Aber daran glaube ich kaum. Die Caches sind IMO ganz ok. Besser wäre mehr Temp Register Space.

Mit Caches waren auch die Temp Register miteinbezogen, ich meine mit Caches jegliche Speicher auf der GPU.

Gandharva

2006-01-17, 13:33:01

@Ailuros

Die Änderungen NV70 -> NV71 dürften also weniger als 80M Transistoren (vielleicht 60M?) kosten. Da kann man doch mit hoher Wahrscheinlichkeit davon ausgehen das die ~700MHz bei 32 Pipes realistisch sind wenn man zu R580 rüber schielt.

Godmode

2006-01-17, 13:34:16

Woher kommt die Rechnung ueberhaupt?

Zwischen NV40 und G70:

4 quads auf 6 quads

ALU Aenderungen wobei die zweite "sub"-ALU beim G70 jetzt auch ueber MADD faehig ist.

6 VS MIMDs auf 8 VS MIMDs

Transparenz-AA, HDR-OP und batch size relevantes Zeug ...

usw. usw.

Alles zusammen macht hier genau 80M Unterschied (222-->302M).

Jetzt rechne nochmal auf, mit 2 mehr quads und nochmal 2 VS MIMDs, ohne die ALU Erweiterungen, aber die moeglichen anderen kleinen Aenderungen; vielleicht klappt es dann ;)

Die Rechnung? ich hab einfach geschätzt. Ok dann dürften es jetzt ca 370 Mio. werden(+/- 10 Mio.)

ShadowXX

2006-01-17, 13:52:09

Die Rechnung? ich hab einfach geschätzt. Ok dann dürften es jetzt ca 370 Mio. werden(+/- 10 Mio.)

Wobei ich mich langsam frage, was ATI alles mit den gesammelten Transistoren so anstellt....speziell da ATI früher eher als Transistor-Sparfuchs bekannt war.

ATI hat bei der r580 16TMUs/16Rops/48PS/8VS/+rest = knapp 390Mio.

nV hätte dann bei G71 32TMUs/16Rops/64PS/10(8)VS/+rest = kanpp 380Mio (oder so)

Godmode

2006-01-17, 14:03:48

Wobei ich mich langsam frage, was ATI alles mit den gesammelten Transistoren so anstellt....speziell da ATI früher eher als Transistor-Sparfuchs bekannt war.

ATI hat bei der r580 16TMUs/16Rops/48PS/8VS/+rest = knapp 390Mio.

nV hätte dann bei G71 32TMUs/16Rops/64PS/10(8)VS/+rest = kanpp 380Mio (oder so)

Naja sie bieten WU-AF, bessere Dynamic Branching Leistung. Das wird schon kosten.

ShadowXX

2006-01-17, 14:12:37

Naja sie bieten WU-AF, bessere Dynamic Branching Leistung. Das wird schon kosten.

Und nV bietet FP Filtering und Vertex-Texturing......

Beide Seite haben was im Transistorbudget, was die andere nicht bietet.

Godmode

2006-01-17, 14:19:36

Und nV bietet FP Filtering und Vertex-Texturing......

Beide Seite haben was im Transistorbudget, was die andere nicht bietet.

vielleicht braucht das eine ja viel mehr?

Ailuros

2006-01-17, 14:24:30

Zumindest 380M IMHO. Es kann sein dass die ROPs diesmal orthogonal sind.

Sunrise

2006-01-17, 14:44:41

Weil ich schon oefters angedeutet habe dass man fuer den naechsten Schub als absolutes Minimum ~380M Transistoren erwarten sollte.
Ja, das waren die Schätzungen, die ich (http://www.forum-3dcenter.org/vbulletin/showthread.php?p=3567003#post3567003) ursprünglich durchgeführt hatte.

Steht aber bereits alles hier (http://www.forum-3dcenter.org/vbulletin/showthread.php?p=3823554#post3823554) .

up¦²

2006-01-17, 14:44:59

5.13
"Radeon X1900 Series" = ati2mtag_R499, PCI\VEN_1002&DEV_7249
"Radeon X1900 Series" = ati2mtag_R499, PCI\VEN_1002&DEV_724B
"Radeon X1900 Series Secondary" = ati2mtag_R499, PCI\VEN_1002&DEV_7269
"Radeon X1900 Series Secondary" = ati2mtag_R499, PCI\VEN_1002&DEV_726B

Alle x1900 werden als R499 erkannt, warum?! :confused:

btw:
http://www.station-drivers.com/telechargement/ati/ati-radeon-mobility-5.13-all-2kxp-whql.exe

mapel110

2006-01-17, 14:46:29

5.13

Alle x1900 werden als R499 erkannt, warum?! :confused:
TreiberID-Spielchen. War beim G70 ja nicht anders als jeder den NV47 erwartete. War ja recht lange unklar, was mit G70 gemeint ist. Und R499 ist uns auch schon länger bekannt.

http://www.forum-3dcenter.org/vbulletin/showthread.php?p=3626579&highlight=r499#post3626579
;)

Sunrise

2006-01-17, 15:11:40

Und nV bietet FP Filtering und Vertex-Texturing......

Beide Seite haben was im Transistorbudget, was die andere nicht bietet.
Richtig. Bei ATi ist es u.a. der sehr aufwändige Speicherkontroller, welcher seinen Teil zum höheren Transistorbudget beiträgt.

ShadowXX

2006-01-17, 15:23:27

Richtig. Bei ATi ist es u.a. der sehr aufwändige Speicherkontroller, welcher seinen Teil zum höheren Transistorbudget beiträgt.

ABer das das soooo viel Transistoren kostet kann ich mir irgendwie nicht vorstellen.

Immerhin hat nV beim G71 16TMUs und 16PS mehr als ATI an Board.....so ein aufwendiger Mem-Controller wiegt zwar etwas mehr als ein "normaler", aber ich kann mir irgendwie nicht vorstellen das er so viel mehr wiegt.

Naja....rausbekommen wo ATI wieviele Transistoren verbrät werden wir wohl eh nie.

Gast

2006-01-17, 16:07:19

Richtig. Bei ATi ist es u.a. der sehr aufwändige Speicherkontroller, welcher seinen Teil zum höheren Transistorbudget beiträgt.

wenn das wahr ist hat ati aber eher mist gebaut. wenn man sich bandbreitenlastige benches von x1800 gegen die 7800er serie ansieht ist der vorteil bei ati genau das was man sich durch den höheren speichertakt erwarten würde.

da geht dann die kosten/nutzen-rechnung (falls der controller wirklich soviel mehr transitoren braucht) nicht ganz auf.

PingpiN

2006-01-17, 16:12:30

Abwarten und Tee Trinken. :tongue: Der R580 wird ein flopp aber wie siehts mit denn G71 aus.

Gast

2006-01-17, 16:15:05

Abwarten und Tee Trinken. :tongue: Der R580 wird ein flopp aber wie siehts mit denn G71 aus.

Das ist doch schwachsinn!

Wieso sollte der ein Flopp sein? Das ist keine Neuentwicklung, sondern eine verbesserte Version und dafür ist sie gut!

Sunrise

2006-01-17, 16:17:21

ABer das das soooo viel Transistoren kostet kann ich mir irgendwie nicht vorstellen.

So ein aufwendiger Mem-Controller wiegt zwar etwas mehr als ein "normaler", aber ich kann mir irgendwie nicht vorstellen das er so viel mehr wiegt.

Naja....rausbekommen wo ATI wieviele Transistoren verbrät werden wir wohl eh nie.
"Sooo viele Transistoren" ist relativ. Schau dir mal folgendes Die-Foto an:

http://www.beyond3d.com/reviews/ati/r520/index.php?p=09

What is surprising is the size of the large block close to the centre (just to the left); we are told that this area of die actually relates to the memory controller, which looks like it has been given a fairly large die area.

RV530 hat ihn auch (157 Mio. Transistoren), RV515 (100 Mio. Transistoren) hat ihn nicht.

ShadowXX

2006-01-17, 16:22:21

"Sooo viele Transistoren" ist relativ. Schau dir mal folgendes Die-Foto an:

http://www.beyond3d.com/reviews/ati/r520/index.php?p=09

RV530 hat ihn auch (157 Mio. Transistoren), RV515 (100 Mio. Transistoren) hat ihn nicht.

Der RV515 hat auch noch ein paar andere Sachen nicht.....

Auf jeden Fall wird diese "Uber"-Mem-Controller keine 43Mio Transitoren wiegen.

Wieviel wiegt eine Pipeline bei nV?

Sunrise

2006-01-17, 16:23:47

...da geht dann die kosten/nutzen-rechnung (falls der controller wirklich soviel mehr transitoren braucht) nicht ganz auf.
Mit großer Flexibilität und Effizienz (diese lässt sich nicht exakt bestimmen, da das Design davon abhängig ist) opfert man eben meist auch die entsprechende Menge an Transistoren.

PingpiN

2006-01-17, 16:23:59

"ihn nicht.
Dann kommt noch AVIVO dazu was ungefähr 50 M Trasvistiten kostet.Dann HQ Af 10 M Transvestiten.Adaptiv AA 10 M Transis und und und...

reunion

2006-01-17, 16:24:01

ATI hat bei der r580 16TMUs/16Rops/48PS/8VS/+rest = knapp 390Mio.

nV hätte dann bei G71 32TMUs/16Rops/64PS/10(8)VS/+rest = kanpp 380Mio (oder so)

So eine Gegenüberstellung ist wertlos.
PS != PS
VS != VS
TMU != TMU
etc.

Wenn man sich ansieht, was R520 mit nur 16 ALus erreicht, dann sollten die 48 ALUs des R580 die 64 ALUs von G71 in der Praxis hinter sich lassen IMHO.
Und das G70 bei vielen VS-Tests selbst von einem R420 deutlich geschlagen wird, ist inzwischen auch kein Geheimnis mehr.
etc.

Beide Seite haben was im Transistorbudget, was die andere nicht bietet.

Nur weiß niemand, wieviel die einzelnen Features an Transistoren kosten.
Bracht nur eine Komponente, die der Mitbewerber nicht bietet, übermäßig viel Transistoren verschlingen, und schon ist der Ganze Vergleich sinnlos.

Nerothos

2006-01-17, 16:26:24

Der R580 wird ein flopp

Warum, wenn ich fragen darf? Weißt du was, was wir nicht wissen?

Sunrise

2006-01-17, 16:27:22

Der RV515 hat auch noch ein paar andere Sachen nicht.....

Auf jeden Fall wird diese "Uber"-Mem-Controller keine 43Mio Transitoren wiegen.
Ich glaube es macht keinen Sinn, sich jetzt über die genaue Anzahl der Transistoren zu unterhalten. Der Die-Shot zeigt doch sehr deutlich, welche Fläche er einnimmt. Dies lässt sich eben auch nicht exakt umrechnen, sprich: Eine Schätzung ist nur so gut, wie man faktisch auch nachweisbare Daten zur Hand hat.

PingpiN

2006-01-17, 16:27:37

Warum, wenn ich fragen darf? Weißt du was, was wir nicht wissen?

Das mit denn flop war nicht ernst gemeint.Der Gast meinte das der R580 nichts wird deswegen hab ich ihn mall zugestimmt.Der R580 wird mit AA-AF bestimmt rocken... :smile:

PS:Ich weiß garnichts weil ich keine Ahnung von Grafikkarten habe. :cool:

deekey777

2006-01-17, 16:29:52

"Sooo viele Transistoren" ist relativ. Schau dir mal folgendes Die-Foto an:

http://www.beyond3d.com/reviews/ati/r520/index.php?p=09

RV530 hat ihn auch (157 Mio. Transistoren), RV515 (100 Mio. Transistoren) hat ihn nicht.

Der RV530 hat auch mehr anderes Zeug, das weitere Transistoren verschlingt, doch ein RV530 ist IMHO kein RV515+weiteres Zeug.

Sunrise

2006-01-17, 16:31:15

Der RV530 hat auch mehr anderes Zeug, das weitere Transistoren verschlingt, doch ein RV530 ist IMHO kein RV515+weiteres Zeug.
Ich habe doch extra das Die-Foto verlinkt. Natürlich kann man RV515 nicht mit RV530 vergleichen, aber schaut euch doch mal die Fläche an, die bei R520 benötigt wird. So ganz ohne Grundlagen ist die Sache nicht, versprochen.

reunion

2006-01-17, 16:31:47

Der R580 hat gegenüber denn R520 80 Transiatoren mehr.Sind die wirklich nur für die ALU erhöhung draufgegangen oder unterstützt der R580 jetzt auch Vertex Texturing ?

Es sind ca. 60 mio mehr.
R520 hatte 321mio AFAIK.

Ich glaub nicht....dafür hätten Sie die VS doch ziemlich stark verändern müssen.

Was ziemliche Ressourcenverschwendung wäre, wenn man bedenkt, dass der nächste Chip ohnehin einen US-Core haben wird.

ShadowXX

2006-01-17, 16:33:21

Dann kommt noch AVIVO dazu was ungefähr 50 M Trasvistiten kostet.Dann HQ Af 10 M Transvestiten.Adaptiv AA 10 M Transis und und und...

So'n blöden VP hat nV, ebenso TSAA (was das gleiche wie AAA ist) auch.

Und wie ich schon erwähnte....auch nV hat ein paar Sachen die ATI nicht hat.

So eine Gegenüberstellung ist wertlos.
PS != PS
VS != VS
TMU != TMU
etc.

Wenn man sich ansieht, was R520 mit nur 16 ALus erreicht, dann sollten die 48 ALUs des R580 die 64 ALUs von G71 in der Praxis hinter sich lassen IMHO.
Und das G70 bei vielen VS-Tests selbst von einem R420 deutlich geschlagen wird, ist inzwischen auch kein Geheimnis mehr.

Das VS-Ergebniss kommt nur zustande, weil die ATI höher getaktet ist und dabei gleich viele VS-ALUs hat.

Ich glaube auch nicht das sich die TMU & PS soooo extrem viel vom Transistorcount nehmen werden (die einen können das mehr, die anderen was anderes).

Zu deiner These mit den PS: Schon mal FEAR-Benchmarks ohne AA/AF angeguckt?

Es geht mir hier auch gar nicht darum ATI schlecht zu machen, sondern ich würde gerne wissen, wo die ganze Transistoren hingehen.

Und wie gesagt....der G71 hat 16Pipeline mehr an Board bei ähnlichen Transistorcount.

aths

2006-01-17, 18:15:19

Das VS-Ergebniss kommt nur zustande, weil die ATI höher getaktet ist und dabei gleich viele VS-ALUs hat.Vertexshader haben eine Vec4-ALU für MAD und eine skalare ALU für SFUs. Bei Radeon-Karten kann die skalare ALU auch MAD-Operationen, bei GeForce-Karten nur die SFUs ausführen.

reunion

2006-01-17, 18:39:23

Und wie ich schon erwähnte....auch nV hat ein paar Sachen die ATI nicht hat.

Und ohne zu wissen, was wieviel Transistoren kostet, ist es wenig sinnvoll, hier Transistorenvergleiche anzustellen.

Das VS-Ergebniss kommt nur zustande, weil die ATI höher getaktet ist und dabei gleich viele VS-ALUs hat.

Ich spreche von R420/480 - diese haben nur 6 VS. R520 ist wie du richtig sagest aufgrund des Taktvorteils sowieso voraus. Und ja, ich weiß, dieser taktet auch etwas höher, nur ist 8 x 430 > 6 x 540.

Es geht mir hier auch gar nicht darum ATI schlecht zu machen, sondern ich würde gerne wissen, wo die ganze Transistoren hingehen.

Sunrise hat bereits einen möglichen Grund genannt, ich habe jetzt auch einiges erwähnt.

Und wie gesagt....der G71 hat 16Pipeline mehr an Board bei ähnlichen Transistorcount.

Man könnte genauso einen Chip mit 100 Pipelines bauen, welcher weniger Transitoren hat, als ein G71.

Gast

2006-01-17, 20:22:42

Dann kommt noch AVIVO dazu was ungefähr 50 M Trasvistiten kostet.Dann HQ Af 10 M Transvestiten.Adaptiv AA 10 M Transis und und und...
Ich glaube nicht, dass Motion Compensation und iDCT 50M Transistoren kosten. Das meiste realisiert Ati hier über die Pixelshader, wie sie auch selbst sagen.

Q

Gast

2006-01-17, 20:24:11

RV530 hat ihn auch (157 Mio. Transistoren), RV515 (100 Mio. Transistoren) hat ihn nicht.
Allerdings hat der RV530 daneben noch zusätzliche acht Einheiten mit je einer FP32-MADD, einer FP32-ADD, einem FP32-TEX sowie zusätzliche 4 Z-/Stencil-Compare-Einheiten. Unter diesen vielen Dingen muss man die ~54M Transistoren aufteilen.

Q

Gast

2006-01-17, 20:24:53

Die 6800NU bietet das 4 fache an ROP Leistung pro Takt und dennoch ist sie in D3 in diesem Setting nicht maßgeblich schneller.
Das vierfache? Die ROPs sind quasi dieselben (hinsichtlich "double-pumped" usw). Also doch eher nur das doppelte, oder?

Q

Gast

2006-01-17, 20:30:34

Das vierfache? Die ROPs sind quasi dieselben (hinsichtlich "double-pumped" usw). Also doch eher nur das doppelte, oder?

QEine 6600GT hat 4 ROPs, eine 6800 Vanilla deren 16.

deekey777

2006-01-17, 20:35:40

Dann kommt noch AVIVO dazu was ungefähr 50 M Trasvistiten kostet.Dann HQ Af 10 M Transvestiten.Adaptiv AA 10 M Transis und und und...

AVIVO ist etwas mehr und nicht alles sitzt in der GPU: http://www.beyond3d.com/previews/ati/avivo/

Ich glaube nicht, dass Motion Compensation und iDCT 50M Transistoren kosten. Das meiste realisiert Ati hier über die Pixelshader, wie sie auch selbst sagen.

Q
Und darum erschuff MS DXVA.

Eine 6600GT hat 4 ROPs, eine 6800 Vanilla deren 16.
Aber nicht der NV41/NV42.

Gast

2006-01-17, 20:37:41

Aber nicht der NV41/NV42.Das stimmt natürlich. robbitop meinte aber eine NV40-basierende 6800 Vanilla.

Gast

2006-01-17, 20:59:10

Das stimmt natürlich. robbitop meinte aber eine NV40-basierende 6800 Vanilla.
Die hat auch 16 ROPs, ich habe mich oben einfach vertan. Natürlich hat der NV43 vier ROPs und kann damit maximal 8 Werte auf Sichtbarkeit prüfen.

Q

Sunrise

2006-01-17, 21:03:01

Allerdings hat der RV530 daneben noch zusätzliche acht Einheiten mit je einer FP32-MADD, einer FP32-ADD, einem FP32-TEX sowie zusätzliche 4 Z-/Stencil-Compare-Einheiten. Unter diesen vielen Dingen muss man die ~54M Transistoren aufteilen.

Q
Mein Beispiel mag nicht ganz optimal gewesen sein und es ist auch praktisch nicht wirklich möglich, anhand der suboptimalen Die-Shots wirklich exakt zu arbeiten. Es ging mir jedoch lediglich darum, anzudeuten, dass RV530 eine "Last" tragen muss, die RV515 völlig fremd ist. Dass wir natürlich den völlig unterschiedlichen Aufbau beider jederzeit bedenken müssen, ist natürlich wichtig und auch richtig.

Gast

2006-01-17, 21:08:19

Die bisherigen Resultate sind aber in 16*12 mit AA und der Unterschied zu einem seltenen Konkurrenten ist mehr als nur phaenomenal. Von wegen Fear "nicht" shaderlimitiert, und von wegen dass das Spiel "nicht" von extra Shader-Fuellrate enorm profitiert. :rolleyes:
Hm, plus 200 Prozent Shader-Füllrate und gerade mal plus [insertnumberwaysmallerthan200] Fps?

Da kann nicht nur die Shaderfüllrate limitieren, zumal dann ja im Plain-Vanilla-Modus auch eine 512er-GTX abgehängt werden müssten, deren MADD4-Füllrate ja laut diverser herumgeisternder Folien um rund 13 Prozent übertroffen wird.

Anscheinend, glaubt man den Gerüchten und Zahlen aus einschlägigen Foren, ist das jedoch nicht der Fall. Erst beim Einsatz von FSAA wird die 512er-GTX deutlich geschlagen, was aber nicht im entferntesten mit der Shader-Füllrate zu tun hat.

Q

deekey777

2006-01-17, 21:11:32

Die hat auch 16 ROPs, ich habe mich oben einfach vertan. Natürlich hat der NV43 vier ROPs und kann damit maximal 8 Werte auf Sichtbarkeit prüfen.

Q

Sicher, daß die NV41/NV42 16 ROPs hat?

http://www.beyond3d.com/previews/nvidia/68gs/index.php?p=02 und paar Seiten weiter.

Gast

2006-01-17, 21:18:36

Nein, die NV40-basierte 6800 hat 16 ROPs.

"Das stimmt natürlich. robbitop meinte aber eine NV40-basierende 6800 Vanilla." -> Darauf mein Comment.

Q

Ailuros

2006-01-17, 21:24:01

Hm, plus 200 Prozent Shader-Füllrate und gerade mal plus [insertnumberwaysmallerthan200] Fps?

Theoretisch 300%. Was behauptete aber NV bei der Vorstellung von G70 im Vergleich zu NV40?

Da kann nicht nur die Shaderfüllrate limitieren, zumal dann ja im Plain-Vanilla-Modus auch eine 512er-GTX abgehängt werden müssten, deren MADD4-Füllrate ja laut diverser herumgeisternder Folien um rund 13 Prozent übertroffen wird.

18% IMO; ist aber nebenwichtig, denn trotz all dem Geblubbere muss man doch ein Prozentual fuer texture OPs fuer jegliche G7x dazurechnen.

Anscheinend, glaubt man den Gerüchten und Zahlen aus einschlägigen Foren, ist das jedoch nicht der Fall. Erst beim Einsatz von FSAA wird die 512er-GTX deutlich geschlagen, was aber nicht im entferntesten mit der Shader-Füllrate zu tun hat.

Ich hab nur AA Resultate bisher gesehen; aber der Unterschied ist groesser als erwartet. Mit dem Unterschied ist es egal ob R580 nur ~25% mit AA verliert wie R520 oder mehr. Schon mit nur 25% ohne AA, ist der Unterschied zu einer 512 GTX immer noch gross.

Gast

2006-01-17, 21:32:51

Theoretisch 300%. Was behauptete aber NV bei der Vorstellung von G70 im Vergleich zu NV40?
Deswegen schrieb ich ja: +200%. 100%+200%=300% ;)
18% IMO; ist aber nebenwichtig, denn trotz all dem Geblubbere muss man doch ein Prozentual fuer texture OPs fuer jegliche G7x dazurechnen.
550*24*2=26400.
xxx*16*3= XXX
Mit welcher Taktrate rechnest du bei der X1900 XT?
Ich hab nur AA Resultate bisher gesehen; aber der Unterschied ist groesser als erwartet. Mit dem Unterschied ist es egal ob R580 nur ~25% mit AA verliert wie R520 oder mehr. Schon mit nur 25% ohne AA, ist der Unterschied zu einer 512 GTX immer noch gross.
Das ist der Fehler. Besonders in Fear sind die AA-Resultate nicht besonders aussagekräftig (außer natürlich für Fear selbst).
Wenn du es so siehst, ist schon der Abstand zwischen einer X1800XT und einer 512er-GTX groß. Dieser wächst dann wohl noch an durch die X1900 XT – was wiederum ein Indiz wäre, dass Fear auch mit AA nicht sehr stark an der Bandbreite hängt, da die sich angeblich ja kaum ändert.

Q

Ailuros

2006-01-17, 21:42:42

Deswegen schrieb ich ja: +200%. 100%+200%=300% ;)

Hehehe stimmt...

550*24*2=26400.
xxx*16*3= XXX
Mit welcher Taktrate rechnest du bei der X1900 XT?

211 vs. 250 GFLOPs aber streng nach MADDs.

Schau Dir mal das nette Bildchen hier an:

http://img225.imageshack.us/img225/8917/super9in.jpg

Das ist der Fehler. Besonders in Fear sind die AA-Resultate nicht besonders aussagekräftig (außer natürlich für Fear selbst).
Wenn du es so siehst, ist schon der Abstand zwischen einer X1800XT und einer 512er-GTX groß. Dieser wächst dann wohl noch an durch die X1900 XT – was wiederum ein Indiz wäre, dass Fear auch mit AA nicht sehr stark an der Bandbreite hängt, da die sich angeblich ja kaum ändert.

Ich warte erst mal auf die ersten ausfuehrlichen Reviews. Ein paar verstreute Zahlen sind nur Indizien bis jetzt.

Gast

2006-01-17, 21:48:04

Das müssten dann ja 650 MHz sein. Ergo 249,6 GFLOPs oder eben 31200 MADD4. Ok, dann sind es 18%. Es sei denn, ich rechne die OC-Editionen der 512er-GTX dagegen; dann sind wir wieder bei 12%. ;)

Q

reunion

2006-01-17, 21:57:40

Von wegen Fear "nicht" shaderlimitiert, und von wegen dass das Spiel "nicht" von extra Shader-Fuellrate enorm profitiert. :rolleyes:

Das war eine logische Konsequenz aus deinen Rechungen, bei welchen du G70 einen haushoch überlegene Shaderfüllrate suggeriertest. Damals hast du freilich die zusätzliche ADD der Mini-ALU sowie die texture OPs noch nicht berücksichtigt.

Jetzt ergibt das Ganze auch einen Sinn.

Ailuros

2006-01-18, 01:05:40

Das war eine logische Konsequenz aus deinen Rechungen, bei welchen du G70 einen haushoch überlegene Shaderfüllrate suggeriertest. Damals hast du freilich die zusätzliche ADD der Mini-ALU sowie die texture OPs noch nicht berücksichtigt.

Jetzt ergibt das Ganze auch einen Sinn.

Ich beruecksichtige die ADDs sowieso nur unter Bedingungen, da es sich eben nicht um eine volle ALU handelt.

Rein nach MADDs (und es ist mir auch wurscht ob es jetzt ATI passt oder nicht) ist die ALU Leistung 2:1 zwischen G70 und R520. Schiebt man jetzt ein paar FLOPs fuer die ADDs auf der einen Seite dazu und nimmt ein paar FLOPs von der anderen Seite fuer texture OPs weg, bleibt die 512XT immer noch um 25% schneller in Fear in 1600 ohne AA/AF.

Laesst man nur Shader laufen ist die Ueberlegenheit der G70 tatsaechlich so hoch und im rein synthetischen Sinn war es stets gemeint und nie anders.

Die von ATI angegebenen 272 GFLOPs fuer R520 und 554 fuer R580 kann man wohl lange danach suchen. Gerade weil eben die GFLOP Rate auf R520 so "hoch" und "phaenomenal" ist, wird diese nach knapp 3 Monaten unter den Teppich gekehrt und von einem Teil (R580) ersetzt, dass 3x mal so viele ALUs hat. Ich kann auch vergebens Elephanten hinter Mondblumen verstecken, nur sind diese leider etwas zu gross fuer die extra Blinden.

robbitop

2006-01-18, 09:50:11

Das vierfache? Die ROPs sind quasi dieselben (hinsichtlich "double-pumped" usw). Also doch eher nur das doppelte, oder?

Q
Die 6800NU hat 16 ROPs, die 6600GT nur vier. Taktnormalisiert ist das die 4xROP Leistung.

Allerdings hat der RV530 daneben noch zusätzliche acht Einheiten mit je einer FP32-MADD, einer FP32-ADD, einem FP32-TEX sowie zusätzliche 4 Z-/Stencil-Compare-Einheiten. Unter diesen vielen Dingen muss man die ~54M Transistoren aufteilen.

Q
Hinzukommt, dass RV515 nicht über den Ringbuscontroller verfügt, der so transistorfressend ist... RV530 aber schon.

ShadowXX

2006-01-18, 09:58:14

Hinzukommt, dass RV515 nicht über den Ringbuscontroller verfügt, der so transistorfressend ist... RV530 aber schon.

Um den gings ja im Prinzip....anders gesagt um dir Frage, wieviele Transistoren extra gegenüber einem "normalen" (bzw. dem nV-Mem-Controller) dieser "verschlingt".

Ich wundere mich übrigens immer noch über die große Anzahl an Transistoren, die ATI für die r580 (wenn man es im vergleich zum G71 nimmt) "verschlingt".

Ailuros

2006-01-18, 10:15:59

Es liegt bei R5xx an einem quasi Buendel aus dem Speichercontroller, den winkelunabhaengigeren texture samplers, thread/batch size Firlefanz usw usw.

Das HQ AF auf den Radeons ist erstmal vergleichsmaessig ziemlich teuer. Angenommen R580/G71 liegen ziemlich nahe was den Transistoren-count betrifft, dann hat es eigentlich ATI geschafft gleich oder mehr floating point Power als G71 einzupacken, winkelunabhaengigeres AF, schnelleres PS dynamisches branching usw usw.

Haette ATI jetzt genauso flexible VS Einheiten wie NV und VT und fp Filterung usw usw. wuerde deren Transistoren-budget nochmal um einiges hoeher sein. Gleiches gilt anders rum wenn NVIDIA ein winkelunabhaengigeres AF haette, schnelleres PS db usw usw.

Design-Entscheidungen ganz einfach und die Konzentration ausschliesslich auf die Anzahl der SIMD Einheiten im gegebenen Fall kann auf den falschen Pfad fuehren. Was hinten rauskommt ist wichtiger und da IMO die interne Shader-Fuellrate heutzutage wichtiger ist, ist ATI's insgesamte Design-Entscheidung erstmal nicht fehl am Platz. R520 haette eben Mitte 2005 schon auf Regalen hocken sollen ;)

Gast

2006-01-18, 10:16:00

Die 6800NU hat 16 ROPs, die 6600GT nur vier. Taktnormalisiert ist das die 4xROP Leistung.
Ist doch alles längst geklärt. :uclap:

Hinzukommt, dass RV515 nicht über den Ringbuscontroller verfügt, der so transistorfressend ist... RV530 aber schon.
Ich habe bewußt die zusätzlichen Unterschiede zum Ringbuscontroller aufgezählt, weil Sunrise in seinem Beitrag eben nur diesen aufgezählt hat.

Nicht jeder Gast ist hirnamputiert, lieber Robbi.

Q

robbitop

2006-01-18, 10:23:20

Nicht jeder Gast ist hirnamputiert, lieber Robbi.

Q
Ganz besonders unser Carsten Spille / Quasar nicht. ;) (warum bist du eigentlich nur noch als Gast aktiv?)

Das habe ich auch niemals so darstellen oder behaupten wollen, sorry. (habe wohl nicht genau genug gelesen)

robbitop

2006-01-18, 10:25:26

Ich wundere mich übrigens immer noch über die große Anzahl an Transistoren, die ATI für die r580 (wenn man es im vergleich zum G71 nimmt) "verschlingt".
Der Ringbuscontroller ist wohl "schweineteuer", dazu kommt die 8x Unterteilung, dazu die verdammt hohe Cacheassoziativität, dann das HQ AF und sicher noch relativ freie Anordnung von ALUs/TMUs, welche die Effizienz pro Pipeline ordentlich steigert.

Gast

2006-01-18, 19:19:11

3dMark 06 on X1900XT:

http://forums.vr-zone.com.sg/showpost.php?p=1384558&postcount=85

Gandharva

2006-01-18, 19:29:29

3dMark 06 on X1900XT:

http://forums.vr-zone.com.sg/showpost.php?p=1384558&postcount=85
Nur 4,6k Punkte mit Single Core CPU? Etwas enttäuschend finde ich. Der FX-60 + Dualcore Treiber sind dagegen nicht übel. Es scheint wohl so das mehr CPU Leistung her muss in 2006.

ShadowXX

2006-01-18, 20:20:50

Nur 4,6k Punkte mit Single Core CPU? Etwas enttäuschend finde ich. Der FX-60 + Dualcore Treiber sind dagegen nicht übel. Es scheint wohl so das mehr CPU Leistung her muss in 2006.

Ob der wirklich eine x1900xt hat?? Langsam zweifle ich daran.

Hier im Benchmarkthread zum 3DMark06 haben solche Ergebnisse auch mehrere mit einer übertakteten 7800GTX....

(Schwankt je nach Übertaktung zwischen 44XX und 47XX Punkten).

Gast

2006-01-18, 20:26:24

Ob der wirklich eine x1900xt hat?? Langsam zweifle ich daran.

Hier im Benchmarkthread zum 3DMark06 haben solche Ergebnisse auch mehrere mit einer übertakteten 7800GTX....

(Schwankt je nach Übertaktung zwischen 44XX und 47XX Punkten).

NVIDIA Karten habe einen Vorteil, bis jetzt... Vielleicht bringt der Catalyst 6.1 was. Aber du musst dir dann schon Ergebnisse von einer X1800XT ansehen. Etwa 3700 Punkte. Dann klingt das wieder realistisch. Und ich glaube nicht, dass sich der Admin dort als Lügner hinstellen will. Denn das kommt bald raus.

reunion

2006-01-18, 20:34:47

Hier im Benchmarkthread zum 3DMark06 haben solche Ergebnisse auch mehrere mit einer übertakteten 7800GTX....

(Schwankt je nach Übertaktung zwischen 44XX und 47XX Punkten).

Nur 4,6k Punkte mit Single Core CPU? Etwas enttäuschend finde ich. Der FX-60 + Dualcore Treiber sind dagegen nicht übel. Es scheint wohl so das mehr CPU Leistung her muss in 2006.

Die Gesamtscore ist wertlos, da auch der CPU-Bench mit einfließt.
Intressant sind die Einzelergebnisse:

http://diy.yesky.com/imagelist/06/01/86k6w787p1dy.jpg

http://diy.yesky.com/imagelist/06/01/t6x9sop8g6rh.JPG

Zumindest im SM3/HDR-Test scheint die die X1900 absetzten zu können, im SM2-Test liegt man auf "GTX 512"-Niveau.

Gast

2006-01-18, 20:37:05

reunion, benches mit gleichen oder ähnlichen CPUs kann man sehr wohl vergleichen.

reunion

2006-01-18, 20:39:44

reunion, benches mit gleichen oder ähnlichen CPUs kann man sehr wohl vergleichen.

Natürlich, nur macht es wenig Sinn, wenn man die Performance eine GPU ermitteln will, und dann den CPU-Score dazurechnet.

Gast

2006-01-18, 20:39:51

Nur 4,6k Punkte mit Single Core CPU? Etwas enttäuschend finde ich. Der FX-60 + Dualcore Treiber sind dagegen nicht übel. Es scheint wohl so das mehr CPU Leistung her muss in 2006.

Liegt wohl kaum am Treiber, da die Graka-Werte nahezu unverändert bleiben. Die CPU hat Lediglich im 06 einen gesteigerten Einfluss auf den Overall-Score.

Die Werte der 1900er entsprechen hier sogar ziemlich genau denen einer GTX 512. Eine X1800XT erreicht mit dem FX-55 ca. 3700...
Vgl. http://www.pcper.com/article.php?aid=199&type=expert&pid=6 (FX-55)

Gandharva

2006-01-18, 20:50:57

Die Gesamtscore ist wertlos, da auch der CPU-Bench mit einfließt.
Intressant sind die Einzelergebnisse:

http://diy.yesky.com/imagelist/06/01/86k6w787p1dy.jpg

http://diy.yesky.com/imagelist/06/01/t6x9sop8g6rh.jpg

Zumindest im SM3/HDR-Test scheint die die X1900 absetzten zu können, im SM2-Test liegt man auf "GTX 512"-Niveau.Die Einzelergebnisse sind auch nicht wirklich berauschend für die X1800XT. Einmal knapp vor der GTX 256 und einmal knapp dahinter. Gegen die GTX 512 sieht sie nirgends Land.

Jetzt kann man spekulieren woran das liegt, denn in aktuellen Games kann die X1800XT gegen die GTX 256 eigendlich sehr überzeugen.

- Speichercontroller noch nicht angepasst
- Fehlende FP-Filterung

Was anderes fällt mir grade nicht ein.

/edit

Mal sehen, der Cat 6.1 ist raus.Liegt wohl kaum am Treiber, da die Graka-Werte nahezu unverändert bleiben. Die CPU hat Lediglich im 06 einen gesteigerten Einfluss auf den Overall-Score.Stimmt. Da hab ich nicht aufgepasst. Mit Dual Core ist der Gewinn wirklich enorm im 06er CPU Bench.

reunion

2006-01-18, 21:14:00

- Speichercontroller noch nicht angepasst

Unwahrscheinlich. Ohne AA hat das nicht wirklich eine Einfluss auf die fps.
Das Default-Profil sollte hier mehr als ausreichen.

- Fehlende FP-Filterung

Das kostet natürlich etwas Performance.

Coda

2006-01-18, 21:17:29

Unwahrscheinlich. Ohne AA hat das nicht wirklich eine Einfluss auf die fps.
Das Default-Profil sollte hier mehr als ausreichen.Hö? Jede App hat aus Prinzip eine andere Lastverteilung, da ist sicher noch was zu machen.

Coda

2006-01-18, 21:20:16

Der Ringbuscontroller ist wohl "schweineteuer",Ein Ringbus ist billiger als eine Crossbar, sonst hätte man so eine genommen.

reunion

2006-01-18, 21:20:34

Hö? Jede App hat aus Prinzip eine andere Lastverteilung, da ist sicher noch was zu machen.

Im Grunde hat jeder Frame eine andere Lastverteilung.
Ich denke das Defaultprofil leistet hier ausreichend gute arbeit. WObei es mich auch nicht wundern würde, wenn schon lange "was gemacht wurde".

Gast

2006-01-18, 21:21:02

[QUOTE=Striper
- Fehlende FP-Filterung

[/QUOTE]

kostet auf der der 7800GTX aber nur knapp 5-10%.

bei der geringeren shaderrohleistung der x1800 könnte es natürlich etwas mehr performance kosten.

ich denke auch dass wir hier den grund haben. der 3dmark06 verwendet extrem lange shader, wo die radeon nunmal etwas schwächer auf der brust ist.

ShadowXX

2006-01-18, 21:21:40

Ich hab jetzt mehrere Seite mit 3DMurks06 Reviews durchgeklappert und unterm Strich kommt immer das gleiche dabei raus:

nV liegt selbst mit nur der 7800GTX vor ATI (wenn auch knapp) und mit der GTX/512 wird ATI versenkt.

Wenn nun die x1900xt Ergebnisse stimmen, kann ATI scheinbar mit der x1900xt gerade mal mit der GTX/512 gleichziehen (zumindest ohne AA).

Wie das ganze mit AA ausschaut muss man dann mal sehen....das ist ja auch eher die Domäne von ATI.

Etwas enttäuscht bin ich schon von der r580 (zumindest bis jetzt, man muss natürlich auch erst mal Real World Ergebnisse in Games abwarten.)

Aber gegen den G71 werden Sie es wohl schwer haben......

Nerothos

2006-01-18, 21:32:41

Ich werde erstmal "richtige" Benchmarks abwarten. Mal sehen, wie sie (die X1900XT) sich da schlägt. Ich meine, wer von uns spielt schon 3DMark200x? ;)

reunion

2006-01-18, 21:37:55

Ohne Worte: :D

5.13 Drivers HQ 16AF forced resulting in:

1422 SM2.0 score
1728 HDR/SM3.0 score
1412 CPU Score

3870 total
--------------------------------
5.13 Drivers Optimal Default Quality:

1425 SM2.0 score
1799 HDR/SM3.0 score
1417 CPU Score

3948 total
--------------------------------
6.1 Drivers HQ16AF Forced:

1615 SM2.0 Score
1749 HDR/SM3.0 score
1412 CPU Score

4092 total
--------------------------------
6.1 Drivers Optimal Default Qaulity:

1747 SM2.0 Score
1791 SM3.0 Score
1404 CPU Score

4257 total

http://www.beyond3d.com/forum/showpost.php?p=676837&postcount=210

Also die Texelfüllrate scheint schonmal nicht zu limitieren, der Performanceverlist durch 16xHQ-AF ist minimal.

Coda

2006-01-18, 21:39:37

Im Grunde hat jeder Frame eine andere Lastverteilung.Spielt keine Rolle, da gerade bei einem Benchmark sehr gut auf den Durchschnitt optimiert werden kann.

ShadowXX

2006-01-18, 21:41:32

Ich werde erstmal "richtige" Benchmarks abwarten. Mal sehen, wie sie (die X1900XT) sich da schlägt. Ich meine, wer von uns spielt schon 3DMark200x? ;)

Hatte ich ja auch erwähnt...

Übrigens: Mit dem zweiten Satz muss man jetzt aufpassen...im 06er ist ein Spiel mit eingebaut.
Man kann jetzt also tatsächlich mit dem 3DMark06 spielen....... ;)

Nerothos

2006-01-18, 21:47:02

Übrigens: Mit dem zweiten Satz muss man jetzt aufpassen...im 06er ist ein Spiel mit eingebaut.
Man kann jetzt also tatsächlich mit dem 3DMark06 spielen....... ;)

Echt? LOL
Schade, dass ich nur ISDN'ler bin, sonst hätt' ich's mir schon angeguckt :(

Gast

2006-01-18, 21:56:06

Da war ATI aber schnell mit dem Cheaten. Bis zu 10% bessere Scores durch Cat 6.1

ShadowXX

2006-01-18, 21:58:20

Da war ATI aber schnell mit dem Cheaten. Bis zu 10% bessere Scores durch Cat 6.1

Hey....ATI cheatet nicht, ATI optimiert ;D

Gast

2006-01-18, 21:58:31

nV liegt selbst mit nur der 7800GTX vor ATI (wenn auch knapp) und mit der GTX/512 wird ATI versenkt.

Ich sehe das anders: Die nVidia Karten sind immer dort schnell, wo es am unwichtigsten ist (kein AA+AF).
Davon hat der Spieler aber kaum einen Vorteil, denn ob er nun mit 95 oder 110fps spielt, macht keinen Unterschied.

Dagegen ist ATI bei hohen Qualitätseinstellungen sehr stark und überholt teilweise die GTX 512.
Hier liegt genau der Vorteil der ATI-Karten; hohe Auflösungen und viel AA sowie AF.
Wer spielt mit einer 500€ Grafikkarte schon ohne AA+AF?

Übrigens ist irgendwo im Forum zu lesen, das die X1900 XT(X?) ca. 4600 Punkte liefern soll. Leider stand nicht dabei, mit welchem Prozessor.

reunion

2006-01-18, 21:59:25

Da war ATI aber schnell mit dem Cheaten. Bis zu 10% bessere Scores durch Cat 6.1

Oder langsamer, man sollte mal ältere nV-Treiber testen. ;)

chrisihamm

2006-01-18, 22:00:33

Vergleicht mal bitte die Werte vom 3dMark 06 mit realenn Games und da ist die X1800xt niemals gleichschnell wie ne 7800gtx mit 256MB(einfach schneller),wenn der takt auf 700/800Mhz erhöht wird kommt man fast an die 7800gtx mit 512MB ran.

Halt nur ein Schwanzmark!

robbitop

2006-01-18, 22:05:38

Ein Ringbus ist billiger als eine Crossbar, sonst hätte man so eine genommen.
Da habe ich etwas ganz anderes gelesen. Man entschied sich für den Ringbus aufgrund des Taktes und der Assoziativität. Das kostet.

ShadowXX

2006-01-18, 22:07:10

Ich sehe das anders: Die nVidia Karten sind immer dort schnell, wo es am unwichtigsten ist (kein AA+AF).
Davon hat der Spieler aber kaum einen Vorteil, denn ob er nun mit 95 oder 110fps spielt, macht keinen Unterschied.

Dagegen ist ATI bei hohen Qualitätseinstellungen sehr stark und überholt teilweise die GTX 512.
Hier liegt genau der Vorteil der ATI-Karten; hohe Auflösungen und viel AA sowie AF.
Wer spielt mit einer 500€ Grafikkarte schon ohne AA+AF?

Dann sehe ich nicht ganz so (nicht bezogen auf AA/AF).....und ich habe mir sehr viele Tests der x1800xt angeguckt (war nämlich am überlegen eine zu kaufen....neuere Testergenisse (ordentliche nV Treiber vs. ordentlich CAT) haben mir allerdings aufgezeigt, das der Unterschied G70 und x1800xt nicht so gravierend sind (eigentlich könnte man Pari sagen) wie es in den ersten Reviews aussah.)

Übrigens ist irgendwo im Forum zu lesen, das die X1900 XT(X?) ca. 4600 Punkte liefern soll. Leider stand nicht dabei, mit welchem Prozessor.

Ist irgendwo weiter oben verlinkt...sind Pics vom Admin der Seite.

Die 46xx hatte Sie mit einem FX-55 und dann hatte Sie ca. 56XX mit einem FX-60 (<- ist ein Dualocore, deshalb kann man die Ergebnisse leider überhaupt nicht in relation setzen, da ein DC massig Punkte bringt).

Vergleicht mal bitte die Werte vom 3dMark 06 mit realenn Games und da ist die X1800xt niemals gleichschnell wie ne 7800gtx mit 256MB(einfach schneller),wenn der takt auf 700/800Mhz erhöht wird kommt man fast an die 7800gtx mit 512MB ran.

Halt nur ein Schwanzmark!

Wie schon erwähnt.....guck dir mal Test an, wo mit aktuellen Detos und Cats die 7800GXT vs. x1800xt getestet wird.....da kommt quasi im Endeffekt immer ein pari bei raus.

Hier mal die x1800xt schneller, dann wieder die 7800GTX......ich war selbst überrascht, da ich in den Foren auch immer nur gehört habe x1800xt hier und x1800xt da.

Da habe ich etwas ganz anderes gelesen. Man entschied sich für den Ringbus aufgrund des Taktes und der Assoziativität. Das kostet.

Und wer hat das gesagt? Jemand von ATI?

Gast

2006-01-18, 22:13:37

neuere Testergenisse (ordentliche nV Treiber vs. ordentlich CAT) haben mir allerdings aufgezeigt, das der Unterschied G70 und x1800xt nicht so gravierend sind (eigentlich könnte man Pari sagen) wie es in den ersten Reviews aussah.)

Schau dir mal den Test beim Computerbase an (ASUS EAX1800XT TOP).
Da sieht man ganz deutlich, das der Abstand ohne Qualitätseinstellungen ziemlich groß ist, aber bei zugeschaltetem AA+AF liegt die ATI-Karte plötzlich an zweiter oder erster Stelle.
Man muss bedenken, das man hier eine ~450 € Karte gegen eine 650 € Karte vergleicht.

Für den Preis ist die Leistung absolut in Ordnung. Leider verfälschen noch einige Benchmarks das Bild (Age of Empires 3), die horrenden Abstände gehen dann meist in die Bewertung ein.
Ich denke mit einem neuerem Treiber ließe sich noch einiges herausholen...

reunion

2006-01-18, 22:17:10

Wie schon erwähnt.....guck dir mal Test an, wo mit aktuellen Detos und Cats die 7800GXT vs. x1800xt getestet wird.....da kommt quasi im Endeffekt immer ein pari bei raus.

Hier mal die x1800xt schneller, dann wieder die 7800GTX......ich war selbst überrascht, da ich in den Foren auch immer nur gehört habe x1800xt hier und x1800xt da.

Beispiele?
Alle neueren Tests, die ich kenne, zeigen die X1800XT deutlich vor der GTX 256.

Und wer hat das gesagt? Jemand von ATI?

Jemand anderer wird das kaum beurteilen können.

Coda

2006-01-18, 22:24:45

Da habe ich etwas ganz anderes gelesen. Man entschied sich für den Ringbus aufgrund des Taktes und der Assoziativität. Das kostet.Das betrifft die Cachestruktur. Ein Crossbar ist immer die schnellstmögliche Verbindung zwischen n Eingängen und m Ausgängen. Es ist einfach konfigurierbar alles mit allem verbunden. Der Ringbus hat aber auch Verbindungen die mehrere Hops und damit eine höhere Latenzen haben.

Das der Speichercontroller von R520 besser ist hat andere Gründe. Oder anders gesagt: Mit einer Crossbar wäre das Ding zu groß geworden.

deekey777

2006-01-18, 22:27:49

kostet auf der der 7800GTX aber nur knapp 5-10%.

bei der geringeren shaderrohleistung der x1800 könnte es natürlich etwas mehr performance kosten.

ich denke auch dass wir hier den grund haben. der 3dmark06 verwendet extrem lange shader, wo die radeon nunmal etwas schwächer auf der brust ist.

Hoffentlich habe ich mich nicht verrechnet:
Ich habe diese Ergebnisse der 7800GTX mit SW FP-Filtering (http://www.computerbase.de/artikel/software/2006/bericht_3dmark06_der_performance-report/14/#abschnitt_sonstige_tests) mit den Ergebnissen der beiden SM 2.0 Ergebnissen zusammengelegt und dann mit den Punkten in den CPU-Tests das Endergebnis berechnet: 3732 Punkte gegenüber 3.813.
3DMark06 - Score Overall (http://www.computerbase.de/artikel/software/2006/bericht_3dmark06_der_performance-report/9/#abschnitt_overall_score)
Es sind nur wenige Prozente, aber es reicht aus, daß die 7800GTX vor der X1800XT liegt.

fizzo

2006-01-18, 22:29:58

brigens ist irgendwo im Forum zu lesen, das die X1900 XT(X?) ca. 4600 Punkte liefern soll. Leider stand nicht dabei, mit welchem Prozessor.

Ist irgendwo weiter oben verlinkt...sind Pics vom Admin der Seite.

Die 46xx hatte Sie mit einem FX-55 und dann hatte Sie ca. 56XX mit einem FX-60 (<- ist ein Dualocore, deshalb kann man die Ergebnisse leider überhaupt nicht in relation setzen, da ein DC massig Punkte bringt).

zum vergleich (http://www.forum-3dcenter.org/vbulletin/showpost.php?p=3891358&postcount=27)

ShadowXX

2006-01-18, 22:38:29

Beispiele?
Alle neueren Tests, die ich kenne, zeigen die X1800XT deutlich vor der GTX 256.

Selbst im letzten ComputerBase-Test der Asus EAX1800XT kann man sehen, das die x1800xt nicht so extrem vor der GTX liegt. Gut in FEAR hat Sie definitiv mehr bumms wenn AA aktiviert ist, aber sonst ist es meist ein knapper Sieg und ab und öfter liegt auch mal die GTX vorne.

Von deutlich vor, kann keine Rede sein. Knapp schneller würde ich akzeptieren, aber nicht deutlich.

Jemand anderer wird das kaum beurteilen können.

Und der würde bestimmt offen sagen "der Ringbus war die billigere Lösung..."

Aber lasst uns erst mal den Launch der x1900xt abwarten....vielleicht liegt Ihr auch einfach der 3DMurks06 nicht.

Gandharva

2006-01-18, 22:39:39

zum vergleich (http://www.forum-3dcenter.org/vbulletin/showpost.php?p=3891358&postcount=27)Die Punkte hat er nur durch den X2 geholt. 3DM06 CPU Test profitiert massiv (75%) von Dual Core CPUs.

Ronny145

2006-01-18, 22:44:01

zum vergleich (http://www.forum-3dcenter.org/vbulletin/showpost.php?p=3891358&postcount=27)

AMD Athlon 64 X2 4400+, X1800XT PE 700/1600= 4529
FX-60, X1900XT= 5348

Mit einem 4400+ etwas über 5000 geschätzt.

Wieviel würde da eine X1800XT 625/1500 schaffen?

Coda

2006-01-18, 23:05:20

Und der würde bestimmt offen sagen "der Ringbus war die billigere Lösung..."Da gibts eigentlich nicht viel zu bereden. Wenn man versteht was eine Crossbar ist wird man meiner Auffassung sein, wenn nicht lässt man es bleiben. Ich sage ja nicht dass das Ding schlecht ist, aber der Ringbus wird übelst als Marketing-Buzz benützt obwohl dass eigentlich ein Nachteil des Designs ist X-D

Ich vermute dass für einen 8-fachen Split die Crossbar einfach viel zu groß geworden wäre. Insofern ist der Ringbus aber wieder positiv weil er das erst ermöglicht hat.

Der Ringbus im Cell existiert übrigens aus dem gleichen Grund. Eine Crossbar zwischen allen Einheiten wäre viel zu dick.

Demirug

2006-01-18, 23:13:24

Dieser Ringbus ist kein Ringbus sondern eine räumlich verteilte kaskadierte Crossbar.

Coda

2006-01-18, 23:20:04

Ja es ist kein reiner Ringbus. Das ändert aber nichts daran, dass das Design zusätzliche Latenzen verursacht, die mit einer Crossbar nicht da wären.

Aber davon abgesehen sieht es zumindest auf den Folien von ATI schon danach aus

Demirug

2006-01-18, 23:24:06

Das ändert aber nichts daran, dass das Design zusätzliche Latenzen verursacht, die mit einer Crossbar nicht da wären.

Im Prinzip ja. Allerdings kann eine Crossbar abhängig vom Aufbau auf die gleichen Latenzen kommen.

Aber davon abgesehen sieht es zumindest auf den Folien von ATI schon danach aus.

Marketing.

Coda

2006-01-18, 23:25:35

Bleiben wir einfach mal dabei dass der "Ringbus" keine magische performanceverbessernde Wirkung hat sondern wie eine Crossbar ganz einfach Einheiten miteinander verbindet.

HAL-10K

2006-01-19, 01:10:28

Im aufopfernden Interesse eurer Zeitverwendung:

Warum sollte man sich über so was wie dem „Ringbus“ im Detail überhaupt interessieren, wenn man nicht selbst die Dinger entwirft?
Selbst als Grafikprogrammierer ist es mir absolut wurscht ob da nun die praktische Bandbreite mit ner Katzeklappe oder Bierdeckeln erreicht wird wenn die Anwenderprogrammierung und die technischen Details voneinander unabhängig sind.
Noch krasser wird’s wenn wieder über Transistoraufwand und Co. spekuliert wird. Wollen wir darüber diskutieren ob ich den Buchstaben „e“ mit dem linken Mittelfinger am effizientesten schreibe?

Aber gut, will niemanden eine Beschäftigungsmaßname faulreden. ;)

Coda

2006-01-19, 01:28:46

Technisches Interesse? Je besser man Hardware versteht desto besser kann man sie programmieren, das ist eine alte Weisheit ;)

HAL-10K

2006-01-19, 01:38:04

Die Frage welche Art von Speichercontroller nun mit Aufwand x effizienter ist bringt mir und jedem anderen Anwendungsprogrammier exakt nichts.

Coda

2006-01-19, 01:44:51

Ich meine das Gesamtbild der GPU nicht nur Ausschnitte. Glaube mir, es bringt schon was wenn man etwas tiefere Einblicke hat, egal wie unwichtig diese erscheinen mögen.

Z.B. ist es beim Speichercontroller nicht unwichtig mit was für Cacheline-Größen dieser arbeitet (wichtig für Vertexdata-Padding).

HAL-10K

2006-01-19, 02:02:31

Klar ist es nicht unnötig einen gewissen Überblick über die Architektur zu haben.
Und natürlich ist es auch wichtig zu wissen wie man am besten die Puffer nutzt.
Jedem sollte DWORD alignment bekannt sein, da hat sich seit Urzeiten nix geändert.

Aber: "Die Frage welche Art von Speichercontroller nun mit Aufwand x effizienter ist bringt mir und jedem anderen Anwendungsprogrammier exakt nichts."
Da krümmen sich nun mal bei mir Zehennägel wenn einige sogar noch glauben darüber debattieren zu müssen.

Coda

2006-01-19, 02:03:36

Dann lass uns doch einfach. Seit wann muss eine Diskussion rational sein? ;)

Ich geb ja zu die Argumentation zieht bei dem Teil nicht besonders gut, aber trotzdem bin ich immer daran interessiert wie etwas funktioniert. Ich kann nichts schlechtes daran finden.

Ailuros

2006-01-19, 07:21:00

3dmark06 ist wie jeder 3dmark eine Projektion/Schaetzung von Futuremark wie es in zukuenftigen Spielen aussehen koennte und nichts mehr.

Erstmal muesste diese Schaetzung korrekt sein (wo sind die vertex setup limitierten Spiele des 3dmark05 die ich verpasst habe?) und selbst wenn diese getroffen sein sollte, sind jegliche Resultate nur von bedingtem Wert.

G71 wird wohl mit hoechster Wahrscheinlichkeit in 05 und 06 gut dastehen, was aber nur auf der Basis einer synthetischen Anwendung begrenzt ist. Ueberhaupt da solche Tests nur in 1024 ohne AA/AF laufen.

Demirug

2006-01-19, 07:31:12

Klar ist es nicht unnötig einen gewissen Überblick über die Architektur zu haben.
Und natürlich ist es auch wichtig zu wissen wie man am besten die Puffer nutzt.
Jedem sollte DWORD alignment bekannt sein, da hat sich seit Urzeiten nix geändert.

Wenn es den so einfach wäre. DWORD Alignment ist schon lange nicht mehr das maß aller Dinge. Für Vertexdaten gilt in der Regel ein 32 Byte Alignment als Ideal.

Gandharva

2006-01-19, 07:42:03

Beide mit FX-60. Recht interessant wie ich finde:

X1800@816/1962 -> 5348
http://img35.imageshack.us/img35/1457/3dmark06816981x18006pt.th.jpg (http://img35.imageshack.us/my.php?image=3dmark06816981x18006pt.jpg)

X1900@default (ich gehe zumindest davon aus) -> 5357
http://img35.imageshack.us/img35/5879/3dmark06fx60x19007uf.th.gif (http://img35.imageshack.us/my.php?image=3dmark06fx60x19007uf.gif)

Die 48 ALUs machen sich also recht ordendlich bemerkbar.

robbitop

2006-01-19, 10:20:08

Die 48 ALUs machen sich also recht ordendlich bemerkbar.
In diesem Maße sollte sich eine Verdreifachung des theoretischen arithmetischen Pixeloutputs auch mindestens bemerkbar machen.

tRpii

2006-01-19, 10:33:42

Benutzt die X1900 eigentlich das gleiche Platinen-Layout wie die "neue Rev" (2.0) der X1800er Serie? Soweit ich gelesen habe ist ja der R580 PIN-gleich mit dem R520.

Danke schonmal.

Sunrise

2006-01-19, 12:27:05

Warum sollte man sich über so was wie dem „Ringbus“ im Detail überhaupt interessieren, wenn man nicht selbst die Dinger entwirft?
Weil dies ein Forum ist, dessen Mitglieder gerne mal "hinter" das eigentliche Marketing schauen und hier teilweise auch sehr versierte Leute anwesend sind, die gewisse Dinge auch beurteilen können. Zudem gibt es anderen die Möglichkeit, zu sehen, wie viele Dinge erst durch das Marketing "erfunden" werden. Der Sinn des Forums hat mitunter auch hier seine Wurzeln, es soll aufklären und bei den passenden Themen auch kritisch sein.

Wäre dieses Forum in Summe nur rein oberflächlich, wären sicher diverse Mitglieder hier nicht zu Gange.

Gast

2006-01-19, 12:29:57

Die 48 ALUs machen sich also recht ordendlich bemerkbar.

falls der neue 3dmark tatsächlich PS-limitiert ist würde ich eher sagen verdammt enttäuschent, das man mit einer übertakteten x1800 fast den gleichen wert wie die x1900 erreicht, die immerhin die 3-fache ALU-leistung hat.

ShadowXX

2006-01-19, 12:46:01

falls der neue 3dmark tatsächlich PS-limitiert ist würde ich eher sagen verdammt enttäuschent, das man mit einer übertakteten x1800 fast den gleichen wert wie die x1900 erreicht, die immerhin die 3-fache ALU-leistung hat.

Es könnte sein, das durch die hohe PS-Leistung der r580 sich nun Flaschenhälse bemerkbar machen, die bei der r520 nicht auffielen.

Aber im Prinzip gebe ich dir Recht....von den No-AA-Werten der r580 bin ich auch etwas enttäuscht.

HAL-10K

2006-01-19, 13:29:58

Wenn es den so einfach wäre. DWORD Alignment ist schon lange nicht mehr das maß aller Dinge. Für Vertexdaten gilt in der Regel ein 32 Byte Alignment als Ideal.DWORD = 32Bit. Ist schon seit dem 386 das standard padding der compiler.

Weil dies ein Forum ist, dessen Mitglieder gerne mal "hinter" das eigentliche Marketing schauen und hier teilweise auch sehr versierte Leute anwesend sind, die gewisse Dinge auch beurteilen können. Zudem gibt es anderen die Möglichkeit, zu sehen, wie viele Dinge erst durch das Marketing "erfunden" werden. Der Sinn des Forums hat mitunter auch hier seine Wurzeln, es soll aufklären und bei den passenden Themen auch kritisch sein.

Wäre dieses Forum in Summe nur rein oberflächlich, wären sicher diverse Mitglieder hier nicht zu Gange.Ich frage mich was eine Nullerkenntnis durch Mangel an Information bringen soll und wenn dann auch noch darüber „diskutiert“ wird.
Es währe doch eine Qualitätssteigerung des Forums, wenn man sich nur damit befasst, worüber man zumindest ansatzweise Wissen besitzt, und das Wissen über diese Dinge auch eine nützliche Information beinhaltet. Naja, nur ein Vorschlag. :)

Coda

2006-01-19, 13:33:18

DWORD = 32Bit. Ist schon seit dem 386 das standard padding der compiler.Es sind aber 32 Byte.

ShadowXX

2006-01-19, 13:34:59

DWORD = 32Bit. Ist schon seit dem 386 das standard padding der compiler.

Beim Visual Studio ist das Standard-Alignment der Compiler 8 (=64 Bit)

HAL-10K

2006-01-19, 13:37:00

Nö, DWORD = unsigned long = 4Byte = 32Bit.

Ist z.B. in windef.h definiert.

HAL-10K

2006-01-19, 13:48:25

Beim Visual Studio ist das Standard-Alignment der Compiler 8 (=64 Bit)Nur bei einem 64Bit Compiler. Seit dem 386 ist das standard padding 32Bit.

Gandharva

2006-01-19, 13:50:53

ShadowXX

2006-01-19, 13:51:36

Nö, DWORD = unsigned long = 4Byte = 32Bit.

Ist z.B. in windef.h definiert.

Was hat jetzt die Definition eines DWORDs mit dem Alignment zu tun.

Ein DWORD ist immer 32 Bit, auch auch auf 128Bit Machinen....

Ach ja:

HAL-10K

2006-01-19, 14:01:49

Bit != Byte ;)Die cachelines der Geometrieeinheit sind 32Bit = 4 Byte = DWORD. Daher wird auch das 32Bit padding wie bei 32Bit System genutzt.

Was hat jetzt die Definition eines DWORDs mit dem Alignment zu tun.

Ein DWORD ist immer 32 Bit, auch auch auf 128Bit Machinen....

Ach ja:Für 32Bit Systeme mit 32Bit compilern ist das standard padding wegen der 32Bit cachelines 32Bit - und 32Bit sind ein DWORD!

Für 64Bit Systeme mit 64Bit compilern ist das standard padding wegen der 64Bit cachelines 64Bit - und 64Bit sind zwei DWORD!

Coda

2006-01-19, 14:15:20

Nein sie sind 32 Byte groß. Nicht 32 Bit. RTFM.

Und die Cachelines von CPUs sind auch deutlich länger als 32 oder 64 Bit. Beim A64 64 Byte = 512 Bit.

[dzp]Viper

2006-01-19, 14:18:11

Nein sie sind 32 Byte groß. Nicht 32 bit. RTFM.

Und die Cachelines von CPUs sind auch deutlich länger als 32 oder 64 Bit. Beim A64 64 Byte = 512 Bit.

32 bit ;(
http://de.wikipedia.org/wiki/DWORD

Gandharva

2006-01-19, 14:20:21

Und die Cachelines von CPUs sind auch deutlich länger als 32 oder 64 Bit. Beim A64 64 Byte = 512 Bit.Der A64 hat z.B. L1 -> 64 Byte und L2 -> 64 Byte.

/edit

ich war mir sicher die 64 Byte standen noch nicht da als ich edit gedrückt habe...Viper']32 bit ;(
http://de.wikipedia.org/wiki/DWORDJa, ein DWORD hat 32Bit.

Coda

2006-01-19, 14:21:19

Viper']32 bit ;(
http://de.wikipedia.org/wiki/DWORDWTF? Ich weiß dass ein DWORD 32 Bit hat, aber die Cachelines der GPUs sind nicht 32 Bit lang, sondern 256 Bit X-D

Und das Standard-Alignment ist bei Visual Studio schon ewig 8 Byte. Auch in der 32 Bit-Version.

ShadowXX

2006-01-19, 14:28:16

WTF? Ich weiß dass ein DWORD 32 Bit hat, aber die Cachelines der GPUs sind nicht 32 Bit lang, sondern 256 Bit X-D

Und das Standard-Alignment ist bei Visual Studio schon ewig 8 Byte. Auch in der 32 Bit-Version.

Danke.......ich dachte schon ich kann nicht mehr richtig lesen.

HAL-10K

2006-01-19, 14:35:04

Nein sie sind 32 Byte groß. Nicht 32 bit. RTFM.Nö, vielleicht meinst du die optimale Größe der Datagramme für VBOs. Für die Geometrieeinheit sind die cachelines 32Bit.

Und die Cachelines von CPUs sind auch deutlich länger als 32 oder 64 Bit. Beim A64 64 Byte = 512 Bit.Da währen ja locker einige Gigabyte RAM zusätzlich Pflicht wenn man jeden Operator 512Bit aligned betreiben müsste. :)

Coda

2006-01-19, 14:36:28

Nö, vielleicht meinst du die optimale Größe der Datagramme für VBOs. Für die Geometrieeinheit sind die cachelines 32Bit.Nein meine ich nicht. http://developer.nvidia.com/object/geforce3_faq.html

36. Does it matter how vertices are arranged in a vertex buffer?
Yes, storing your vertices in your vertex buffer in roughly the order in which they’re accessed can improve performance, especially for vertices that are not a multiple of 32 bytes in size. And wildly scattered accesses will cause serious slowdowns due to having to constantly open and close DRAM pages. The NvTriStrip program on our website includes code to do this sorting optimization. Und das ist auch noch bei GeForce 7 und ATI-Chips so.

Ausführlicher steht das ganze auch in diversen Papers von nVIDIA und ATi bzgl. Performance-Optimierung. Ist mir jetzt aber echt zu blöd das für einen Ignoranten wie dich rauszusuchen.

Da währen ja locker einige Gigabyte RAM zusätzlich Pflicht wenn man jeden Operator 512Bit aligned betreiben müsste. :)Es sind 512 Bit. Kannst du gern in den Dokumentationen von AMD und Intel nachlesen. Und die Cacheline-Größe hat nichts aber auch gar nichts mit dem Speicherverbrauch zu tun. Das ist nur die Größe die immer auf einmal aus dem RAM in den Cache geladen wird.

RLZ

2006-01-19, 14:43:47

Und die Cachelines von CPUs sind auch deutlich länger als 32 oder 64 Bit. Beim A64 64 Byte = 512 Bit.
Der P4 hat sogar 128 Byte Cachelines
edit: Doch nur 64 Byte wie beim P-M auch.

Coda

2006-01-19, 14:47:58

Avoid Placing Code and Data in the Same 64-Byte Cache Line Sharing code and data in the same 64-byte cache line may cause the L1 caches to thrash (unnecessary castout of code/data) in order to maintain coherency between the separate instruction and data caches. The AMD Athlon processor has a cache-line size of 64 bytes, which is twice the size of previous processors. Avoid placing code and data together within this larger cache line, especially if the data becomes modified. For example, consider that a memory indirect JMP instruction may have the data for the jump table residing in the same 64-byte cache line as the JMP instruction. This mixing of code and data in the same cache line would result in lower performance.
Although rare, do not place critical code at the border between 32-byte aligned code segments and a data segments. Code at the start or end of a data segment should be executed as seldomly as possible or simply padded with garbage. In general, avoid the following:

■ Self-modifying code
■ Storing data in code segmentsNoch Fragen?

Wie du siehst wäre es eventuell mal gar nicht so schlecht sich näher mit der Hardware zu beschäftigen. Hast mich nur bestätigt :tongue:

Coda

2006-01-19, 14:55:42

Einen hab ich noch :tongue:
The GPU Memory Cache There is a pure memory cache which simply stores the most recently used lines of AGP memory which were read when fetching vertices from VBs. The size of the cache line is 32 bytes so in cases where your FVF isn’t an exact multiple of 32 then it’s in your interest to access vertex data in a roughly sequential way (because otherwise reads into the cache will often fetch data which will not be used). True random access into a VB effectively eliminates this cache and therefore should be avoided. As with all caches “locality of reference” is the basic principle that brings rewards.http://developer.nvidia.com/object/Efficient_Use_Vertex_Buffers.html

HAL-10K

2006-01-19, 15:29:24

Nein meine ich nicht. http://developer.nvidia.com/object/geforce3_faq.html

Und das ist auch noch bei GeForce 7 und ATI-Chips so.

Ausführlicher steht das ganze auch in diversen Papers von nVIDIA und ATi bzgl. Performance-Optimierung.Dies hat was mit den Übertragungspuffern über AGP und Co. zu tun.
Operationen in der Geometrieeinheit werden auf eine Vertexkomponente bezogen. Z.B. sind Texturprojektionsdaten für die Beleuchtung uninteressant, daher ist es auch logisch dass Komponentenweise im lokalen Speicher gelesen werden muss. Daher, wird z.B. die Positionskomponente eines vertex in 16Bit Größe angegeben, ist etwa die Transformationsleistung ein Vielfaches geringer als mit 32Bit, welches das Optimum ist.

Ist mir jetzt aber echt zu blöd das für einen Ignoranten wie dich rauszusuchen.Scheinbar ist jeder der nicht deiner Meinung ist Ignorant.

Es sind 512 Bit. Kannst du gern in den Dokumentationen von AMD und Intel nachlesen.Ein 32Bit CPU hat 32Bit Operationspuffer/Register. Was du offensichtlich meinst sind Speicherpuffer. Es währe absurd padding in deren Größen zu betreiben, da würde der Speicherverbrauch gigantische Ausmaße annehmen.

Coda

2006-01-19, 15:32:01

Du kannst entweder kein Englisch oder stellst dich absichtlich blöd.

Ein 32Bit CPU hat 32Bit Operationspuffer/Register. Was du offensichtlich meinst sind Speicherpuffer. Es währe absurd padding in deren Größen zu betreiben, da würde der Speicherverbrauch gigantische Ausmaße annehmen.Und du weißt auch nicht was eine Cacheline ist. Aus dem Speicher werden wenn ein Wert gebraucht wird immer ganze 64 Byte in den Cache gelesen, das nennt man Cacheline. Mit der Registergröße hat das nichts zu tun.

Das Alignment ist im Moment 8 Bytes bei modernen Compilern.

HAL-10K

2006-01-19, 15:34:28

Du kannst entweder kein Englisch oder stellst dich absichtlich blöd.Wieso? Hast du überhaupt gelesen was ich gesagt habe?

Und du weißt auch nicht was eine Cacheline ist.Natürlich, die Seiteingröße eines Puffers, und davon gibt es unglaublich viel unterschiedliche.

Coda

2006-01-19, 15:37:32

Wieso? Hast du überhaupt gelesen was ich gesagt habe?Ja, und es macht keinen großartigen Sinn.

Daher, wird z.B. die Positionskomponente eines vertex in 16Bit Größe angegeben, ist etwa die Transformationsleistung ein Vielfaches geringer als mit 32Bit, welches das Optimum ist.Du mischt irgendwelche Begriffe wild durcheinander. Die Indexgröße hat doch nichts mit der Vertexdatengröße zu tun. Und nein, 16 Bit Indices sind schneller als 32 Bit Indices X-D (http://www.ati.com/developer/Mojo_RH_Optimization.pdf)

Treat Index Buffers exactlyas if they were vertex buffers – except that you always choose the smallest element possible
– i.e. Use 32 bit indices only if you need to
– Use 16 bit indices whenever you can
Und nVIDIA und ATI reden überall davon dass man Vertexdaten auf 32 Bytes padden soll. http://www.ati.com/developer/gdc/GDC2005_Performance.pdf

The pre-VS cache I
• Is purely a memory cache
• Has a common line size of 256 bits
• (That’s 32 bytes)
• Is accessible by all vertex fetches
• Is why vertex data is best aligned to 32 bytes or 64 bytes
• 40 is very much worse than 64
• Truly sequential access would be great...!Natürlich, die Seiteingröße eines Puffers, und davon gibt es unglaublich viel unterschiedliche.Unglaubliche viele unterschiedliche was? Seitengrößen?

Scheinbar ist jeder der nicht deiner Meinung ist Ignorant.Nein, aber jeder der offiziellen Dokumenten nicht glauben schenkt schon.

HAL-10K

2006-01-19, 15:41:46

Du mischt irgendwelche Begriffe wild durcheinander. Die Indexgröße hat doch nichts mit der Vertexdatengröße zu tun. Und nein, 16 Bit Indices sind besser als 32 Bit Indices X-DDer Vertexindex hat überhaupt nichts mit Geometrieoperationen zu tun.
Die Positionskomponente, Normalenkomponente, Texturpositionskomponente usw. aber.
Und die sollten alle 32Bit (DWORD) aligned sein.
Kannst du gerne testen. :)

Und nVIDIA und ATI reden überall davon dass man Vertexdaten auf 32 Bytes padden soll.Das hat aber nichts mit der Geometrieeinheit zu tun, sondern mit den Seitengrößen von AGP und Co.

Godmode

2006-01-19, 15:45:19

Splited diese Disskusion bitte wer raus!

Coda

2006-01-19, 15:48:19

Der Vertexindex hat überhaupt nichts mit Geometrieoperationen zu tun.Nein, hat er nicht. Aber ansonsten macht dein Gefasel keinen Sinn.

Die Positionskomponente, Normalenkomponente, Texturpositionskomponente usw. aber.Und die sollten alle 32Bit (DWORD) aligned sein. Kannst du gerne testen. Nö müssen sie nicht. Nur der ganze Vertex sollte ein Vielfaches von 32 Byte sein. Im Zweifelsfall sollte man 40 Byte z.B. auf 64 Byte auffüllen. Die Anordnung der Vertexdaten in diesen 64 Byte ist aber völlig unkritisch.

Das hat aber nichts mit der Geometrieeinheit zu tun, sondern mit den Seitengrößen von AGP und Co.Nein. Das bezieht sich auf Daten im Vertexbuffer. "Is why vertex data is best aligned to 32 bytes or 64 bytes" ist wohl sehr eindeutig.

HAL-10K

2006-01-19, 15:51:47

Ja eben - die Geometrieeinheit arbeitet aber eben nicht auf der Ebene einer Vertexbufferstruktur, sondern auf der Ebene einer Vertexkomponente.
Und diese müssen definitiv DWORD aligned sein. Ist ganz einfach im Test herauszufinden.

Scheinbar haben wir an den gemeinten Puffern aneinander vorbeigeredet.

Demirug

2006-01-19, 15:52:22

Nö müssen sie nicht. Nur der ganze Vertex sollte ein Vielfaches von 32 Byte sein.

Da aber alle zulässige Datentypen ein Vielfaches von 32 Bit haben sind sie letzten Endes auch immer dieses Aligment. Baut ja keiner Füllbytes mitten in den Vertex.

Demirug

2006-01-19, 15:54:11

Ja eben - die Geometrieeinheit arbeitet aber eben nicht auf der Ebene einer Vertexbufferstruktur, sondern auf der Ebene einer Vertexkomponente.
Und diese müssen definitiv DWORD aligned sein.

Scheinbar haben wir an den gemeinten Puffern aneinander vorbeigeredet.

Geometrieeinheiten arbeiten immer auf der Basis von ganzen Verticen und so sind auch die beiden Vertexspeicher vor und hinter dem Vertexshader aufgebaut.

Coda

2006-01-19, 15:54:28

Na von mir aus. Ich glaube aber nicht, dass da das Alignment innerhalb eines Vertex problematisch ist, wahrscheinlich kann der Vertexdaten-Verteiler von beliebigen Offsets lesen.

Fetza

2006-01-19, 15:57:19

boah seit ihr offtopic... ;)

Coda

2006-01-19, 15:57:59

Was ist "ihr" für eine Zeitangabe? *scnr*

HAL-10K

2006-01-19, 16:04:06

Die Geometrieleistung ist davon entscheidend abhängig.
Ich hatte ein vielfaches an Transformationsleistung mit DWORD aligned Vertexkomponenten erreicht (war glaube ich mit eine ATI getestet).

Coda

2006-01-19, 16:12:25

Du meinst jetzt wenn du einen Vertex betrachtest? Wie schaffst du es überhaupt da kein DWORD-Alignment zu haben?

HAL-10K

2006-01-19, 16:17:37

Hatte ich in einer komplexen Szene getestet.

Wie kein DWORD alignment? Z.B.:

Positionskomponente: 3x unsigned short
Normalenkomponente: 3x unsigned byte
... usw.

2006-01-19, 16:44:22

Was ist "ihr" für eine Zeitangabe? :biggrin: :biggrin: :biggrin: :lol:

soll der 580 noch diesen monat kommen oder nächsten?

[dzp]Viper

2006-01-19, 16:47:24

:biggrin: :biggrin: :biggrin:
soll der 580 noch diesen monat kommen oder nächsten?
Dienstag (24.01.06) wenn mich nicht alles irrt

2006-01-19, 16:54:08

ej echt?
ej geil ej.
ferrari und R580 präsentation an einem tag. :smile:

das wär ja schon knapp in einer woche. warum steht das nirgends? wo ist der counter? wo ist der hype?
:D

die smylies gehören übrigens nicht mit zu dem satz.

up¦²

2006-01-19, 18:12:01

Sapphire hat als erster R580 mit specs online:
RADEON X1900 XTX (http://www.sapphiretech.com/en/products/graphics_overview.php?gpid=136)

RADEON X1900 XT (http://www.sapphiretech.com/en/products/graphics_specifications.php?gpid=137)

RADEON X1900 CrossFire (http://www.sapphiretech.com/en/products/graphics_specifications.php?gpid=138)

und sie wird in stock gelistet ...
http://www.computers4sure.com/product.asp?productid=4183262&affid=10000483

Gast

2006-01-19, 18:47:16

lol, war ja klar, dass ati und die boardhersteller mit 48 Pipelines werben. ;D

RLZ

2006-01-19, 19:15:46

Schön.
Dann haben wir den Refresh bald hinter uns und können uns dann auf die ersten D3D10 Chips freuen.
Wer eröffnet als erstes den Thread "R600 schon im Herbst 2006?"? :naughty:

Demirug

2006-01-19, 19:17:45

Schön.
Dann haben wir den Refresh bald hinter uns und können uns dann auf die ersten D3D10 Chips freuen.
Wer eröffnet als erstes den Thread "R600 schon im Herbst 2006?"? :naughty:

Die ersten D3D10 Chips gibt es doch schon. ;)

Nerothos

2006-01-19, 19:31:19

LOL? Die XTX ist im Vergleich zur XT nur 25/50MHz höher getaktet? Was isn das für eine Aktion? Die dürften sich doch fast gar nix nehmen (performacetechnisch), oder?

RLZ

2006-01-19, 19:36:58

Die ersten D3D10 Chips gibt es doch schon. ;)
Ich kann dir da nicht ganz folgen. :|
Irgendwas lässt sich da bestimmt wieder an D3D10 ruminterpretieren...
Momentan würde ich mich sogar mit nem Refrast zufrieden geben. ;)

Demirug

2006-01-19, 19:39:59

Ich kann dir da nicht ganz folgen. :|
Irgendwas lässt sich da bestimmt wieder an D3D10 ruminterpretieren...
Momentan würde ich mich sogar mit nem Refrast zufrieden geben. ;)

Auch eine CPU ist ein Chip entsprechend kann man D3D10 Code mit dem Refrast darauf laufen lassen. Aber das ist verdammt langsam.

up¦²

2006-01-19, 19:48:55

So, der nächste bitte! WGF 2.0/DX10 ahoi! :biggrin:

Wechselbalg

2006-01-19, 19:54:14

LOL? Die XTX ist im Vergleich zur XT nur 25/50MHz höher getaktet? Was isn das für eine Aktion? Die dürften sich doch fast gar nix nehmen (performacetechnisch), oder?

Viel nicht, aber das war ja im Grunde auch zwischen XT und XT-PE nie wirklich der Fall. Also zumindest nichts neues, auch wenn sich der Aufpreis anfangs vermutlich dann natürlich dennoch kaum lohnen dürfte.

RLZ

2006-01-19, 19:59:42

Auch eine CPU ist ein Chip entsprechend kann man D3D10 Code mit dem Refrast darauf laufen lassen. Aber das ist verdammt langsam.
Ist der Refrast schon bei der aktuellen Beta dabei?
Langsame Ausführung bin ich gewöhnt. Man hat ja nicht immer ein Cluster zur Verfügung. ;)

d2kx

2006-01-19, 20:02:20

Finde ich auch etwas unsinnig die beiden Version. Die XT kann man sicher kinderleicht auf XTX-Niveau bringen und/oder flashen.

Demirug

2006-01-19, 20:05:59

Ist der Refrast schon bei der aktuellen Beta dabei?
Langsame Ausführung bin ich gewöhnt. Man hat ja nicht immer ein Cluster zur Verfügung. ;)

Man braucht das letzte DX SDK und die dazu passenden Visat Beta.

reunion

2006-01-19, 20:31:21

Selbst im letzten ComputerBase-Test der Asus EAX1800XT kann man sehen, das die x1800xt nicht so extrem vor der GTX liegt. Gut in FEAR hat Sie definitiv mehr bumms wenn AA aktiviert ist, aber sonst ist es meist ein knapper Sieg und ab und öfter liegt auch mal die GTX vorne.

Von deutlich vor, kann keine Rede sein. Knapp schneller würde ich akzeptieren, aber nicht deutlich.

Die X1800XT gewinnt bis auf das mysteriöse AOE 3 in 1600x1200 plus 4xAA/16xAF jeden Bench gegen die GTX 256 - und das selbst in nV-Domänen wie Doom 3 oder Riddick. In drei von acht Spieletest schlägt sie sogar die GTX 512. Ich weiß ja nicht, was du unter "deutlich" verstehst, aber für mich ist das schon deutlich.