PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Rechenleistung X1950XTX 7900GTX


=Floi=
2007-04-06, 23:31:51
Hallo
http://www.computerbase.de/artikel/hardware/grafikkarten/2006/test_nvidia_geforce_8800_gtx/2/
wieso hat die X1950XTX:
-mehr transistoren?
-gleich viele shader einheiten?
-aber MERH rechenleistung?

die 2 karten müssten doch bei shaderlastigen spielen gleich auf sein, da beide 48 4D shader-einheiten haben :rolleyes:


MFG
Floi

Gast
2007-04-06, 23:36:35
Weil die ALUs und TMUs bei der Radeon unabhängig sind, bei der G7x aber abhängig, daher machen die Radeons die G-Forces in einigen Spielen sowas von fertig!

Spasstiger
2007-04-07, 00:04:03
Weil die ALUs und TMUs bei der Radeon unabhängig sind, bei der G7x aber abhängig, daher machen die Radeons die G-Forces in einigen Spielen sowas von fertig!
Das ist der Grund, warum die Radeons in der Praxis teilweise deutlich überlegen sind. Aber ich glaube, Floi meint auch die Angabe der MADD-FLOPs bei Computerbase (374 GFLOPs bei der Radeon, 250 GFLOPs bei der GeForce).

Das ist relativ einfach erklärt:

Bei der GeForce 7900 GTX verfügt jede der 24 Pixelpipelines über eine MADD4-ALU vor der TMU und eine MADD4-ALU nach der TMU. Ein MADD bringt immer 2 FLOPs pro Takt (weil es zwei Operationen entspricht). Hier sind es durch die zwei MADD4-ALUs dementsprechend maximal 16 FLOPs pro Takt und Pipeline.
Insgesamt kommt man dann auf 16 FLOPs * 24 Pipelines * 650 MHz = 249,6 GFLOPs für den gesamten Chip.

Bei der Radeon X1950 XTX verfügt jeder der 48 Pixelprozessoren über eine skalare MADD+ADD-fähige ALU und eine VEC3-ALU, die ebenfalls MADD+ADD-fähig ist. Ein MADD bringt 2 FLOPs pro Takt, ein ADD genau einen FLOPs pro Takt. Somit bringt die skalare ALU eben 3 FLOPs, die VEC3-ALU 9 FLOPs. Pro Pixelprozessor also 12 FLOPs.
Der gesamte Chip bringt es auf 12 FLOPs * 48 Shaderprozessoren * 650 MHz = 374,4 GFLOPs.

Zu diesem Vorteile bei der arithmetischen Leistung kommt der Radeon in der Praxis vor allem auch die Entkopplung der Shader-ALUs von der TMU zu Gute.

Nochmal kurz zusammengefasst: Der R580 verfügt zwar über 48 Shaderprozessoren, aber 96 Shader-ALUs, die jeweils MADD+ADD können (davon allerdings 48 skalare und 48 VEC3). Der G71 kommt auf 48 VEC4-Shader-ALUs, die nur MADD können und zudem noch die TMUs umschließen, also an diese gekoppelt sind.

P.S.: Die Angabe von 518 GFLOPs bei der 8800 GTX gilt eigentlich nicht, da die MUL-ALUs bisher nicht funktionieren. Somit darf man dem G80 eigentlich nur ein MADD pro Shaderprozessor anrechnen (und nicht MADD+MUL wie es Computerbase getan hat).

Nakai
2007-04-16, 15:30:07
Imho kann die Radeon durch eine bessere Threadaufteilung und durch die entkoppelten TMUs wesentlich besser mit den Füllraten umgehen.
Obwohl die R5x0 ALUs so groß und mächtig erscheinen, sie sind relativ unflexibel. Die G7x-Shader können sich splitten um eine bessere Auslastung zu erreichen.
(3:1 und 2:2 Verhältnis)

Der R580 hat natürlich durch die besser entkoppelten Einheiten und durch die enorme Anzahl der Einheiten, durch das Threading und noch anderen Funktionen eine deutlich höhere Transistorzahl, was zu einem höheren Stromverbrauch führt.

mfg Nakai

Gast
2007-04-18, 17:17:40
was zu einem höheren Stromverbrauch führt.

mfg Nakai

was niemanden kümmern sollte, fahrt mehr fahrad (habt ihr mehr getan...)

dieser umwelt/verbrauchs hype geht mir kräftig aufn senkel

last das licht ne stunde weniger am tag an oder sonstwas

der mehrverbrauch ist ja gerechtfertigt (imho) nicht wie beim p4 z.b.

Nakai
2007-04-18, 18:33:18
Ich hab nichts mit der Umwelt gesagt, der höhere Verbrauch war nur eine Feststellung. ;)

mfg Nakai

Spasstiger
2007-04-18, 19:46:12
Obwohl die R5x0 ALUs so groß und mächtig erscheinen, sie sind relativ unflexibel. Die G7x-Shader können sich splitten um eine bessere Auslastung zu erreichen.
(3:1 und 2:2 Verhältnis)
Stimmt, das ist ein Punkt, den ich hätte erwähnen sollen.

robbitop
2007-04-18, 22:31:32
P.S.: Die Angabe von 518 GFLOPs bei der 8800 GTX gilt eigentlich nicht, da die MUL-ALUs bisher nicht funktionieren. Somit darf man dem G80 eigentlich nur ein MADD pro Shaderprozessor anrechnen (und nicht MADD+MUL wie es Computerbase getan hat).
Sie funktionieren und das seit Wochen (den B3D Link habe ich jetzt schon oft genug gepostet und bin zu faul ihn nochmal rauszusuchen ;))

Nakai
2007-04-19, 13:02:41
Ja, aber für die Shader steht sie nicht immer zur Verfügung.

@Spasstiger: Die MUL hat schon immer funktioniert nur nicht für die Shader.

mfg Nakai

robbitop
2007-04-19, 13:09:23
Doch fuer general Shading steht sie seit Wochen zur Verfuegung. Bitte B3D besuchen.

Nakai
2007-04-19, 13:12:06
Ich kenn den Artikel, sie stehen zur Verfügung, wenn sie grad nichts anderes machen.

mfg Nakai

robbitop
2007-04-19, 13:17:43
Ich kenn den Artikel, sie stehen zur Verfügung, wenn sie grad nichts anderes machen.

mfg Nakai

Ja genau. Das "andere" (input modifier, SFU, perspektiv korrektur, tex ops) ist aber notwendig und muss gemacht werden. Besser als das gehts nunmal nicht.

Hier uebrigens nochmal der Artikel: http://www.beyond3d.com/content/reviews/7/17

:o)Uhummel
2007-04-22, 13:02:00
Aber man sieht gerade bei aktuellen Games, die stark auf Shader setzen, daß der R5xx bessere Leistungen bietet als die G7x-Pendants.-(Außnahme natl. OpenGL, was aber natl. auch an den geilen NV-OGL-Treibern liegt) Ein Punkt ist bestimmt auch das bessere/leistungsfähigere Speicherinterface und die effektiveren Ressourcen schonenden Maßnahmen des R5xx.

Silverbuster
2007-04-22, 18:00:53
Ich hab hier eine schöne Seite wo man recht einfach die wichtigsten Rohleistungen der verschiedenen Karten (alle derzeit erhältlichen und auch viele sehr alte Karten) vergleichen kann.

http://www.gpureview.com/show_cards.php?card1=466&card2=445

Find ich recht gut gemacht und lohnt für jeden Rechenfaulen sicher mal drauf zu sehen.

Aber eigentlich sind die genauen Details nicht so wichtig. Wichtig finde ich was am Ende wirklich für Leistung da ist und das sieht man nur bei Spiele Benchmarks. Ob da ATI oder NV die bessere Lösung für ihre TMUs oder sonstiges gestellt haben, ist doch theoretisch, egal.

Spasstiger
2007-04-23, 00:15:08
Aber eigentlich sind die genauen Details nicht so wichtig. Wichtig finde ich was am Ende wirklich für Leistung da ist und das sieht man nur bei Spiele Benchmarks. Ob da ATI oder NV die bessere Lösung für ihre TMUs oder sonstiges gestellt haben, ist doch theoretisch, egal.
Naja, in einem Technik-Forum ist das nicht egal, das interessiert durchaus den einen oder anderen hier. Bei einer Kaufberatung sollte man natürlich auf die Leistung in der Praxis schauen, aber hier gehts ja nicht um eine Kaufberatung.

Gast
2007-04-24, 07:46:12
CB macht da einen Fehler. In der Zeilenbeschreibung geben sie "MAD/ADD" an, rechnen bei den G80 aber die MULs rein. Das geht auf keinen Fall - egal ob das MUL nun 0, 18 oder 100 Prozent genutzt werden kann.

Gast
2007-04-24, 07:49:31
P.S.: Die Angabe von 518 GFLOPs bei der 8800 GTX gilt eigentlich nicht, da die MUL-ALUs bisher nicht funktionieren. Somit darf man dem G80 eigentlich nur ein MADD pro Shaderprozessor anrechnen (und nicht MADD+MUL wie es Computerbase getan hat).

Dann darfst du das ADD der Radeon auch nicht rechnen, weil es auch in irgendeiner Abhängigkeit zu anderen Faktoren steht. Bevor gefragt wird: Nein, diese Faktoren kenne ich nicht, aber ich habe bisher noch keinen Synthie gesehen, wo ich nahe der maximalen MADD-Rate bin und nochmal 50% höhere ADD-Leistung habe.

Ist eigentlich irgendwo beschrieben, nachgewiesen oder gesichert, ob es sich dabei nicht weiterhin um das skalare ADD des R300 handelt, welches eigentlich die SFU-Einheit war?

robbitop
2007-04-24, 10:40:31
Ich bin dafuer, dass man nur die wirklich frei verfuegbare MAD Leistung vergleicht. Und selbst das sagt nichts aus, da die Effizienz zu verschieden ist.

deekey777
2007-04-24, 11:31:27
Nur MAD?
R580: 48 * 8 FLOPs * 0,650 = 249,6 GFLOP/s
G80: 128 * 2 FLOPs * 1,350 = 345,6 GFLOP/s
http://forum.beyond3d.com/showthread.php?p=940012#post940012
At least through CUDA and DX9/GL fragment programs, we've seen ~340GFlops for MAD on G80. We've never found the magic extra MUL, and the CUDA documentation and the CUDA forums says it isn't there, at least not for general use. R580 is ~240GFlops if just using MADs, and 360GFlops for ADD+MAD (you can do this with pain via DX/GL, but you can do it easily in CTM since you can write actual ASM). Of course, all of these shaders are contrived and your experience will vary with real code. ;-)
Passt so gar.
Spekulativ-R600: 64 * 10 * 0.800 = 512 GFLOP/s

Spasstiger
2007-04-24, 14:23:27
CB macht da einen Fehler. In der Zeilenbeschreibung geben sie "MAD/ADD" an, rechnen bei den G80 aber die MULs rein. Das geht auf keinen Fall - egal ob das MUL nun 0, 18 oder 100 Prozent genutzt werden kann.
Inwiefern geht das nicht? MADD bedeutet ADD und MUL und wird als zwei FLOPs pro Takt angerechnet. Ein MUL bringt nur einen FLOPs pro Takt, ein ADD ebenfalls einen FLOPs pro Takt.
Es sind aber beides MADD-Befehle.

@Silverbuster: Wie zum Teufel kommen die in deinem Link auf den Wert für die Shaderops pro Sekunde? ~20000 Operations/sec für aktuelle Grafikkarten sind ja wohl etwas arg wenig.

AnarchX
2007-04-24, 15:51:19
@Silverbuster: Wie zum Teufel kommen die in deinem Link auf den Wert für die Shaderops pro Sekunde? ~20000 Operations/sec für aktuelle Grafikkarten sind ja wohl etwas arg wenig.

Scheint Taktrate x Marketing-Anzahl der Shadereinheiten zu sein... X-D

Wenn schon eine GPU/GraKa-Datenbank, dann die von B3D:
http://www.beyond3d.com/resources/

Gast
2007-04-24, 18:52:10
Inwiefern geht das nicht? MADD bedeutet ADD und MUL und wird als zwei FLOPs pro Takt angerechnet. Ein MUL bringt nur einen FLOPs pro Takt, ein ADD ebenfalls einen FLOPs pro Takt.
Es sind aber beides MADD-Befehle.

Wenn du "MUL" = 0,5*MAD setzt, müsste ja MUL*2=MAD sein. Ist es aber nicht. :-)

MADD-Leistung ist MADD-Leistung und keine MULs (womöglich noch halb unsichtbare) oder ADDs (womöglich ebenfalls nur eingeschränkt nutzbar).

Spasstiger
2007-04-24, 19:02:28
MADD-Leistung ist MADD-Leistung und keine MULs (womöglich noch halb unsichtbare) oder ADDs (womöglich ebenfalls nur eingeschränkt nutzbar).
Für mich sind MADDs einfach Operationen mit ADD, MUL oder beidem. Ein MADD wird als zwei FLOPs pro Takt angerechnet. Ich wollte floi ja eigentlich im meinem Posting ganz oben auch nur erklären, wie Computerbase auf die Werte für die Shaderleistung überhaupt kommt. Und da war meine Erklärung sicherlich nicht verkehrt.

Nakai
2007-04-24, 19:38:04
Wenn du "MUL" = 0,5*MAD setzt, müsste ja MUL*2=MAD sein. Ist es aber nicht. :-)

.

Man könnte sogar ADDs durch MULs und andersrum darstellen.

mfg Nakai

robbitop
2007-04-24, 19:43:52
Man kann aber ADDs durch MULs und andersrum darstellen.

mfg Nakai
Das ist absolut kontraproduktiv. Das habe ich aber schon mehrfach ausgefuehrt.

Nakai
2007-04-24, 19:48:07
Das ist absolut kontraproduktiv. Das habe ich aber schon mehrfach ausgefuehrt.

Das ist klar, nur bezog ich mich hierauf:

Wenn du "MUL" = 0,5*MAD setzt, müsste ja MUL*2=MAD sein

mfg Nakai

€: Hab meinen letzten Beitrag dazu geändert.

Gast
2007-04-25, 22:18:43
Man könnte sogar ADDs durch MULs und andersrum darstellen.

mfg Nakai
Dann hat jede MUL- oder ADD-Operation einen anderen FLOP-Wert. Sehr brauchbar in dieser Diskussion.

TR1 10.000
CST 50.000
MUL TR1 CST

Und jetze schreib mir das bitte mal per ADD und per Hand auf. :)

Nakai
2007-04-26, 13:46:28
Mir gings nicht um de FLOP-Wert sondern das es einfach geht.


mfg Nakai

Gast
2007-04-26, 21:42:05
Mir gings nicht um de FLOP-Wert sondern das es einfach geht.


mfg Nakai
Ja, aber das ist in diesem Thread, in dem es um die Berechnung der FLOPs geht, leider vollkommen irrelevant.

Gast
2007-05-06, 22:13:40
Stimmt meine Rechnung in etwas so? Oder muss ich was anders machen, wenn ja, was?(Dann bitte neue Formel aufstellen) Und muss noch was in die Rechnung rein?

7900GTX:
650MHz*24Pipelines=15600
650MHz*24Pixelshader=15600
650MHz*8VertexShader=5200
alles addiert = 36400

X1950XTX:
650MHz*16Pipelines=10400
650MHz*24Pixelshader=31200
650MHz*8VertexShader=5200
alles addiert = 46800

???

Gast
2007-05-06, 22:14:09
Äh bei der XTX mein ich natürlich 48 Pixelshader.

Spasstiger
2007-05-06, 22:16:04
Stimmt meine Rechnung in etwas so? Oder muss ich was anders machen, wenn ja, was?(Dann bitte neue Formel aufstellen) Und muss noch was in die Rechnung rein?
[...]
???
Was willst du denn damit berechnen? Da kommt kein sinnvoller, vergleichbarer Wert heraus. Wenn du die GFLOPs berechnen willst, dann schau in mein Posting am Anfang des Threads.

Gast
2007-05-06, 22:22:49
Was ist denn an meiner Berechnung falsch?

Gastus est
2007-05-06, 22:27:38
bzw. wo finde ich eine Liste wo die GFlop zahlen der Grakas aufgelistet sind?

Gast
2007-05-07, 08:11:01
bzw. wo finde ich eine Liste wo die GFlop zahlen der Grakas aufgelistet sind?

Die gibt es nicht, da dieser GFLOPs vergleicherei eh relativ sinnlos ist und keine brauchbaren Aussagen über die Leistung gibt.

Spasstiger
2007-05-07, 10:13:25
Was ist denn an meiner Berechnung falsch?
Die Pixelprozessoren und die Pixelpipelines sind bei der 7900 GTX und der X1950 XTX völlig verschieden aufgebaut, eine Shadereinheit einer 7900 GTX ist nicht vergleichbar mit der einer X1950 XTX.
Außerdem sind Vertexshader und Pixelshader nicht als gleichwertig zu betrachten.

Coda
2007-05-07, 13:37:16
Mir gings nicht um de FLOP-Wert sondern das es einfach geht.
Wie willst du denn bitte x + 5 als Multiplikation darstellen?

PCGH_Carsten
2007-05-07, 14:14:23
Stimmt meine Rechnung in etwas so?
Nein, wenn du FLOPs berechnen willst, musst du zuerst schauen, welche Einheiten welche Arten von Berechnungen pro Takt durchschieben können und was deren FLOP-Wert ist.

Ein skalares ADD ist bsw. nur ein FLOP, während ein Vec5-MADD 10 FLOPs entspricht.

Peak-PS-ALU-Durchsatz bei einer 7900 GTX wären:
650.000.000[MHz]*24[Pipes]*2[ALUs]*2[MADD-FLOPs]*4[Vec4]= 249,6 GFLOPs.

Hvoralek
2007-05-09, 21:54:16
Stimmt meine Rechnung in etwas so? Oder muss ich was anders machen, wenn ja, was?(Dann bitte neue Formel aufstellen) Und muss noch was in die Rechnung rein?

7900GTX:
650MHz*24Pipelines=15600
650MHz*24Pixelshader=15600
650MHz*8VertexShader=5200
alles addiert = 36400

X1950XTX:
650MHz*16Pipelines=10400
650MHz*24Pixelshader=31200
650MHz*8VertexShader=5200
alles addiert = 46800

???
Warum addierst Du die Anzahl der Pixelshader und der Pixelpipelines (die u.a. die PS enthalten)? Wenn Du mit letzteren die TMUs meinst: Die spielen für die Arithmetikleistung keine Rolle, weil sie nicht programmierbar sind. Die PS von G7x und R5xx sind nicht vergleichbar, die VS auch nicht. R580 verfügt nicht über 24 PS, sondern je nach Zählweise über 16 oder 48 (Marketingmethoden außen vor gelassen :wink: ).

Die PS von G7x berechnen pro Takt zwei MADDs über vier Kanäle (2*2*4 = 16 FLOPs), die von R5xx ein MADD und ein ADD ((2+1)*4 = 12 FLOPs). Im VS liefert G7x m.W. ein MADD über vier Kanäle und ein MUL über einen (4*2 + 1*1 = 9), R5xx ein MADD über fünf (2*5 = 10).

Insgesamt ergibt sich also für die 7900GTX
PS: 24 * 16 FLOPs/Takt * 650*10^6Hz = 249,6 * 10^9 FLOPs/s= 249,6 GLOPS (siehe Beitrag von Quas... PCGH_Carsten),
VS: 8*9*650 [edit:] 700*10^6 = 46,8 [edit:] 50,4 GFLOPS,
gesamt: 249,6 + 50,4 =296,4 [edit:] 300 GFLOPS,

und für die X1950XTX
PS: 48 * 12 FLOPs/Takt * 650*10^6Hz = 374,4 GLOPS,
VS: 8*10*650*10^6 = 52,0 GFLOPS,
gesamt: 249,6 + 46,8 = 426,4 GFLOPS.

Hoffentlich habe ich mich da nirgends verrechnet [edit:] und nicht noch etwas übersehen ^^...

AnarchX
2007-05-09, 21:59:43
Hoffentlich habe ich mich da nirgends verrechnet...

Die 7900GTX hat eine Geo(VS)-Domain von 700MHz. ;)

PCGH_Carsten
2007-05-09, 22:13:14
Wer Lust hat, kann ja die FLOPs in den SFUs und den Textureinheiten sowie den ROPs mal mit einrechnen. Man kommt auf ganz erstaunliche Summen, die jede "Supercomputer"-Spielkonsole vor Neid erblassen ließen. :)

Hvoralek
2007-05-09, 23:49:14
Wer Lust hat, kann ja die FLOPs in den SFUs und den Textureinheiten sowie den ROPs mal mit einrechnen. Man kommt auf ganz erstaunliche Summen, die jede "Supercomputer"-Spielkonsole vor Neid erblassen ließen. :)Das meiste davon fällt weg, weil nicht programmierbar. Ansonsten würden allein die TMUs wahrscheinlich schon in den TFLOPS- Bereich kommen (Bei G71, R5xx können ja keine FP- Werte filtern). Über SFUs könnte man vlt. noch nachdenken.

Aber wir arbeiten hier ja nicht in einer der beiden Marketingabteilungen und müssen die auch nicht noch auf weitere Ideen bringen. Obwohl, entstanden nicht die 1,8 GFLOPS für RSX auf dem Wege? :biggrin:

Die 7900GTX hat eine Geo(VS)-Domain von 700MHz. ;)Verflucht. Jetzt habe ich schon an die nur 9 FLOPs gedacht und dass das übersehen :mad:

Naja, zumindest verrechnet habe ich mich da nicht. Und so gibt es in dem Wust sogar noch eine schön runde Zahl :D