GFLOP-Berechnung? [Archiv]

PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : GFLOP-Berechnung?

=Floi=

2006-07-02, 10:33:55

Hallo wie werden die GFLOP errechnet?
und was ist der sinn davon?
brauchbare größe?

orda

2006-07-02, 10:40:25

Wikipedia?

http://de.wikipedia.org/wiki/FLOPS

Sollte dich erstmal weiterbringen....

Gast

2006-07-02, 11:21:34

ausgerechnet wird das ganze: taktfrequenz*mögliche operationen pro takt

das ergebnis ist allerdings nur theoretischer natur, da mögliche abhängigkeiten, wie bandbreite oder andere chipinterne abhängigkeiten nicht berücksichtigt werden.

die aussagekraft ist ungefähr gleichbedeutend mit den theoretischen füllraten die eine graka erreichen kann

Gast

2006-07-02, 11:44:31

Eine 7900 GTX hat doch 171 Gflops und eine X1900 XTX 370 Gflops stimmts?Hab ich mall irgend wo gelesen,warun hat die X1900 XTX vielmehr Gflops ?

Spasstiger

2006-07-02, 11:48:05

Gast[/POST]']warun hat die X1900 XTX vielmehr Gflops ?
Weil sie doppelt soviele (Pixel-)Shadereinheiten hat.

Ailuros

2006-07-02, 12:01:50

Gast[/POST]']Eine 7900 GTX hat doch 171 Gflops und eine X1900 XTX 370 Gflops stimmts?Hab ich mall irgend wo gelesen,warun hat die X1900 XTX vielmehr Gflops ?

G71 =

24 ALUs * 16 FLOPs * 0.65GHz = 250 GFLOPs

R580 =

48 ALUs * 12 FLOPs * 0.65GHz = 374 GFLOPs

---------------------------------------------------

Natuerlich ist das jeweilige Ergebnis rein theoretisch. Genauso theoretisch wie alle theoretischen maximale Werte wie Fuellrate, Bandbreite oder was immer auch.

ShadowXX

2006-07-02, 12:10:20

Spasstiger[/POST]']Weil sie doppelt soviele Shadereinheiten hat.
Wo hat ein r580 den doppelt so viele Shadereinheite wie ein G70/71??

Wenn wir die beim G70/71 die Shader pro Pipe als 2 stück sehen (2 MADDs sind möglich) hat dieser 48 Stück.

Der r580 hat 16 Pipes a 3 Shader-Alus.....das sind ebenfalls 48.

VS haben beide 8.

Die r580 PS-Alus haben den kleinen Pluspunkt, das Sie pro Alu nicht nur ein MADD, sondern in bestimmten Fällen auch nich ein ADD machen können. Das wars dann aber auch schon fast (als zweites kommt wohl hinzu, das die ATI-PS-ALUs parallel in nicht wie bei nV in Reihe geschaltet sind....ob das innerhalb eines Quads bzw. der Architektur an sich ein vorteil ist, kann ich nicht zu 100% beurteilen).

Wie haben als beim G70/71: 24*2 MADDs und beim r580 16*3 MADDs + 16*3 ADDs (jeweils pro Takt).
Das ganze lässt aber vieles im zusammenspiel innerhalb der Architektur aussen vor (Special Funktions und deren benötigte Takte oder auch die Adressierung der Texturen, die bei ATI entkoppelt ist, wogegen bei nV die erste Alu der Pipe dabei stalled, nV hat aber z.B. dafür mehr TMUs, und so weiter und so weiter etc. pp.).

Der reine Vergleich der GFLOPs der Chips gegeneinander kann also nur eine waagen anhaltspunkt für einen Leistungsvergleich liefern.

Spasstiger

2006-07-02, 12:13:56

ShadowXX[/POST]']Wo hat ein r580 den doppelt so viele Shadereinheite wie ein G70/71??[...]
Wo ist dann dein Erklärungsansatz für die höhere FLOP-Leistung der X1900?

reunion

2006-07-02, 12:26:23

ShadowXX[/POST]'](als zweites kommt wohl hinzu, das die ATI-PS-ALUs parallel in nicht wie bei nV in Reihe geschaltet sind....ob das innerhalb eines Quads bzw. der Architektur an sich ein vorteil ist, kann ich nicht zu 100% beurteilen).

Natürlich ist das von Vorteil, R580 kann an 48 verschiedenen Pixel gleichzeitig arbeiten, wovon jedem einen MADD plus eine ADD zur Verfügung steht. Dass das wesentlich effizienter ist, als wenn ich wie bei G71 nur an 24 Pixel gleichzeitig arbeiten kann, dafür aber zwei MADDs pro Takt habe (aber immer nur eine auch mit tex-Ops umgehen kann), sollte klar sein. Deshalb halte ich die 24 vs. 48 ALU Definition auch für korrekt.

reunion

2006-07-02, 12:29:30

Spasstiger[/POST]']Wo ist dann dein Erklärungsansatz für die höhere FLOP-Leistung der X1900?

Was willst du für einen Erklärungsansatz?
AiL hats ja schwarz auf weiß dargestellt. Summa summarum hat R580 eben noch die zusätzliche ADD in der Mini-ALU, welche, falls benötigt, die Differenz von 124 GFLOPs liefern kann. Hinzu kommen noch die von ShadowXX erwähnten Vorteile.

ShadowXX

2006-07-02, 12:29:47

Spasstiger[/POST]']Wo ist dann dein Erklärungsansatz für die höhere FLOP-Leistung der X1900?
Steht doch oben im geposteten Text.

Die nV PS-ALU kann einen MADD und eine ATI-ALU kann einen MADD + einen ADD.

Die Verwirrung in dem Bereich kommt daher, das beim G70/71 angeben wird, das dieser 24 PS-ALUs hat (die dann aber eben 2 MADDs / Takt können, quasi Dual-Issue) bei ATI die 3 ALUs pro Pipe immer einzeln gezählt werden.
Das sieht dann natürlich extrem überlegen für ATI aus 24 PS-Alus von nV vs. 48-PS-ALUs von ATI.

Da diese 24PS-ALUs von nV aber 2 MADDs / Takt leisten, die einzeln gezählten ALUs von ATI aber nur 1nen MADDs + 1en ADD sieht das ganze wenn man die reinen theoretischen GFLOPs ausrechnet wieder ganz anders aus.

Die Rechnung von AiL ist doch ziemlich eindeutig.

reunion[/POST]']Natürlich ist das von Vorteil, R580 kann an 48 verschiedenen Pixel gleichzeitig arbeiten, wovon jedem einen MADD plus eine ADD zur Verfügung steht. Dass das wesentlich effizienter ist, als wenn ich wie bei G71 nur an 24 Pixel gleichzeitig arbeiten kann, dafür aber zwei MADDs pro Takt habe (aber immer nur eine auch mit tex-Ops umgehen kann), sollte klar sein. Deshalb halte ich die 24 vs. 48 ALU Definition auch für korrekt.
Ich war mir nicht 100%ig sicher, ob das von dir beschriebene auch tatsächlich so zutrifft oder ob dies nur auf dem Papier möglich ist.
Wenn es tatsächlich auch so umgesetzt werden kann von der GPU, ist dies natürlich ein großer (thoretischer) Vorteil.

Und ja...unter dem Gesichtspunkt sollte man die 2 nV-PS tatsächlich als einen Betrachten, der 2 MADD pro Takt kann.....auch wenn dann das resultierende 24 vs. 48 für den Laien mehr als überlegen für ATI aussieht und IMHO deshalb oft für Verwirrung sorgt.

Coda

2006-07-02, 12:38:07

ShadowXX[/POST]']Die nV PS-ALU kann einen MADD und eine ATI-ALU kann einen MADD + einen ADD.
Ha? NV4x kann 1 MADD + 1 ADD und G7x kann 2 MADDs

Edit: Du widersprichst dir ja selber im Posting :|

Spasstiger

2006-07-02, 12:43:28

Mir ist klar, dass G70/G71 zwei MADDs pro Takt und Shaderunit berechnen kann. Trotzdem kommt der Vorteil bei ATI von der doppelten Zahl an ALUs bzw. Shadereinheiten, wie ich es oben geschrieben habe.
Ich habe aber nie geschrieben, dass dies auch in doppelter Leistung resultiert.
Deshalb war meine Aussage sicherlich nicht falsch. Sie war nur nicht ganz vollständig.

reunion[/POST]']Was willst du für einen Erklärungsansatz?
AiL hats ja schwarz auf weiß dargestellt.
Ich wollte von ShadowXX einen Erklärungsansatz. Er behauptet nämlich, dass der R580 nicht doppelt soviele Shadereinheiten/ALUs wie der G70/G71 hat, was aber imo falsch ist. Die Effizienz der ALUs steht wieder auf einem anderen Blatt, aber das Thema hat AiL ja schon elegant abgehandelt.

Naja, ich glaube "Theoretische Leistung R580 vs. G70/G71" haben wir jetzt auch für diesen Thread ausreichend durchgekaut. Nicht dass es hier in Gebashe ausartet. ;)

Gibt es eigentlich eine grobe Näherungsformel für die GFlop-Leistung einer CPU? Beim Pentium 4 scheint das ja "Takt (in GHz) * 2" zu sein.

Gast

2006-07-02, 13:31:56

Spasstiger[/POST]']

Gibt es eigentlich eine grobe Näherungsformel für die GFlop-Leistung einer CPU? Beim Pentium 4 scheint das ja "Takt (in GHz) * 2" zu sein.

theoretisch sollte es beim P4 bis northwood takt*3 sein (der trace-cache kann maximal 3 befehle/takt in die rechenpipeline schieben), ab prescott dann takt*4 (der trace-cache kann nun 4 befehle/takt liefern)

die real erreichte leistung ist natürlich weit unterhalb dieser theoretisch möglichen, und in vielen fällen ist die pro-takt-leistung des prescotts unter der einer northwood-cpu.

aber bei der theoretischen betrachtung spielt ja ua. die pipelinelänge keine rolle.

Gast

2006-07-02, 16:16:07

Spasstiger[/POST]']Er behauptet nämlich, dass der R580 nicht doppelt soviele Shadereinheiten/ALUs wie der G70/G71 hat, was aber imo falsch ist.Naja, falsch ist es nicht. Es kommt eben auf die Zählweise an. Zählt man einfach nur MADDs, stimmt ShadowXXs Aussage schon.

Spasstiger

2006-07-02, 16:23:46

Gast[/POST]']Naja, falsch ist es nicht. Es kommt eben auf die Zählweise an. Zählt man einfach nur MADDs, stimmt ShadowXXs Aussage schon.
Mir gings aber um vollwertige ALUs. Wieviel MADDs, ADDs, MULs, etc. dann pro ALU ausgeführt werden können, fällt in den Bereich der Effizienz.

Gast[/POST]']theoretisch sollte es beim P4 bis northwood takt*3 sein (der trace-cache kann maximal 3 befehle/takt in die rechenpipeline schieben), ab prescott dann takt*4 (der trace-cache kann nun 4 befehle/takt liefern)
Wie sieht es denn bei AMD aus, also jetzt speziell beim K8?

Gast

2006-07-02, 16:29:53

Spasstiger[/POST]']Mir gings aber um vollwertige ALUs. Wieviel MADDs, ADDs, MULs, etc. dann pro ALU ausgeführt werden können, fällt in den Bereich der Effizienz.
Das ist aber sehr schwammig. Was ist denn eine vollwertige ALU?

Spasstiger

2006-07-02, 16:41:01

Gast[/POST]']Das ist aber sehr schwammig. Was ist denn eine vollwertige ALU?
Eine ALU, die alle relevanten Rechenoperationen beherrscht. MUL und ADD alleine reichen dafür nicht.
Man sagt ja auch nicht, ATI hätte 96 ALUs, obwohl 96 ADDs möglich wären.

Gast

2006-07-02, 16:46:27

Spasstiger[/POST]']Eine ALU, die alle relevanten Rechenoperationen beherrscht.

was sind alle relevanten rechenoperationen?

wenn man MADD als alle relevanten rechenoperationen sieht, dann stimmt die zählweise dass sowohl R580 als auch G70 48 ALUs haben schon.

Spasstiger

2006-07-02, 16:55:19

Gast[/POST]']wenn man MADD als alle relevanten rechenoperationen sieht, dann stimmt die zählweise dass sowohl R580 als auch G70 48 ALUs haben schon.
Mit MAD(D) (MUL, ADD) kann man afaik noch keine Skalarprodukte rechnen, eine vollwertige ALU sollte das aber imo können.

Gast

2006-07-02, 17:09:01

Spasstiger[/POST]']Mit MAD(D) (MUL, ADD) kann man afaik noch keine Skalarprodukte rechnen, eine vollwertige ALU sollte das aber imo können.

klar kannst du das, natürlich nicht in einem takt.

Spasstiger

2006-07-02, 19:09:14

Gast[/POST]']klar kannst du das, natürlich nicht in einem takt.
MADD enthält doch nur MUL und ADD, für Skalarprodukte brauchts aber DP3. Und der G70/G71 kann wohl keine zwei DP3-Anweisungen pro Takt und Shadereinheit ausführen.

Gast

2006-07-02, 19:24:32

das skalarprodukt besteht nur aus multiplikationen und additionen und kann damit prinzipiell mit MADD durchgeführt werden.

Spasstiger

2006-07-02, 19:46:38

Gast[/POST]']das skalarprodukt besteht nur aus multiplikationen und additionen und kann damit prinzipiell mit MADD durchgeführt werden.
Hier geht es aber darum, was pro Shadereinheit und pro Takt geht und nicht was prinzipiell in beliebig vielen Takten geht. :rolleyes:

Gast

2006-07-03, 20:29:34

POW, SQR, SINCOS? Sind die nicht relevant?

ShadowXX

2006-07-03, 20:57:17

Coda[/POST]']Ha? NV4x kann 1 MADD + 1 ADD und G7x kann 2 MADDs

Edit: Du widersprichst dir ja selber im Posting :|
Das ganze ging nur um G70/71 vs. r580.

Am Anfang als der G70 rauskam haben sehr viele gesagt, das nV nun 2 ALUs hat die jeweils 1 MADD können. Und wenn man die Schaubilder so betrachtete, sah es auch genauso aus (Deshalb meine Aussage die nV-ALU kann 1 MADD, pro Pipe 2 davon = 2 MADD).

Inzwischen sind die meisten aber dazu übergegangen zu sagen, das es eine ALU ist, die eben 2 MADDs kann.
Fürs ausrechnen der theoretischen GFLOPS ist das ja im Prinzip auch egal.

Hier geht es aber darum, was pro Shadereinheit und pro Takt geht und nicht was prinzipiell in beliebig vielen Takten geht
Ja und das haben wird doch schon gesagt:
G70/71 2*24 MADD / Takt,
r580 1*48 MADD / Takt + 48 ADD / Takt
(jeweils im Idealfall).
Das ist das was sie können...was denn daraus von der Architektur gemacht werden kann, steht auf einem völlig anderen Blatt (das dazu noch in einem anderen Schreibtisch liegt).

Ich glaube auch, dass ATI ihre (einzelnen) ALUs (die einen MADD + manchmal einen ADD können) durchaus als vollwertige ALUs sehen.

Und diese ALUs (ATIs) können ja auch einen (mindestens) 1nen MADD pro Takt.
Dabei ist es doch auch völlig egal, wieviele Takte nun für die vollständige Rechnung gebraucht werden.
Der theoretische Troughput bleibt der selbe.

Pro Takt können im PS Bereich der G70/G71 und der r580 bei Taktgleichheit Gleichviele MADDs ausführen (nur eben das der r580 auch noch ein paar ADDs zusteuern kann).

Genau gesagt kann man hier eigentlich wieder mal sehr schön sehen, das das reine gegenüberstellen der Anzahl der PS-ALUs ziemlich sinnlos ist.
Viel besser ist das reine Gegenüberstellen der theoretischen GFLOP-Zahlen allerdings auch nicht.

Das sind alles Papierzahlen....was hinten dann rauskommt, kann man erst in den Games selber sehen und da kommt es dann auch durchaus mal vor, das die auf dem Papier schwächere GPU die vermeidliche schnellere/bessere abhängt, da einfach viel zu viele andere Faktoren noch mir reinspielen.

Gast

2006-07-03, 21:23:00

Wieviel FLOPS leisten die TMUs, wieviel die Hilfseinheiten hüben wie drüben?

Spasstiger

2006-07-03, 21:29:37

ShadowXX[/POST]'][...]
Ich glaube unsere Meinungsverschiedenheiten rühren nur vom unterschiedlichen Begriffverständnis her. Ich setze halt ALU mit Shadereinheit gleich. Andere wieder sehen bei Nvidia zwei ALUs je Shadereinheit.
Dass aber Nvidia nur über 24 Shadereinheiten verfügt, darüber sind sich zumindest alle Reviewer einig, man schaue z.B. mal in 3DCenter-Artikel, in die PC Games Hardware oder auch auf andere Hardware-Seiten. ;)

Gast

2006-07-03, 22:03:19

Spasstiger[/POST]']
Dass aber Nvidia nur über 24 Shadereinheiten verfügt, darüber sind sich zumindest alle Reviewer einig, man schaue z.B. mal in 3DCenter-Artikel, in die PC Games Hardware oder auch auf andere Hardware-Seiten. ;)
Das glaube ich kaum. Was ist eine Einheit? Wenn ich schon von Einheiten reden würde, würde ich aktuell glaube ich, eine Quad-Pipe wählen, weil die auch funktional eine Einheit bildet.

aths

2006-07-05, 05:15:30

reunion[/POST]']Natürlich ist das von Vorteil, R580 kann an 48 verschiedenen Pixel gleichzeitig arbeiten, wovon jedem einen MADD plus eine ADD zur Verfügung steht. Dass das wesentlich effizienter ist, als wenn ich wie bei G71 nur an 24 Pixel gleichzeitig arbeiten kann, dafür aber zwei MADDs pro Takt habe (aber immer nur eine auch mit tex-Ops umgehen kann), sollte klar sein. Deshalb halte ich die 24 vs. 48 ALU Definition auch für korrekt.Deine Begründung ist weder nachvollziehbar, noch schlüssig.

Der G70 hat 24 Tex-Units, der R580 "nur" 16.

Hat R580 48 ALUs oder 16 3-er ALUs?

Warum sollte es effizienter sein, an 48 Pixeln gleichzeitig zu arbeiten, zumal es nur 16 Pipes gibt? Sofern es Tex-Operationen gibt, können logischerweise nicht in einem Takt 48 Pixel bearbeitet werden.

Ich halte den ALU-Anzahl-Vergleich in jedem Fall für irrelevant. Relevant ist die mögliche Leistung, die man zum Beispiel auf MAD-Leistung vereinfachen kann. Dann sind pro Takt R580 und G70 gleichwertig, wobei man aber sehen muss, dass der G70 seine theoretische MAD-Leistung bei Verwendung von FP32 nur in Ausnahmefällen nutzen kann. In bin mir aber auch nicht sicher, ob der R580 seine MAD-Leistung voll ausnutzen kann. Ich habe mal was von einer Limitierung auf 2 Temps für volle Thread-Zahl gehört, ein MAD hat aber schon 3 Inputs.

aths

2006-07-05, 05:16:40

Gast[/POST]']klar kannst du das, natürlich nicht in einem takt.Die G70-Pixelpipe kann sogar 2x DP3 in einem Takt.

Gast[/POST]']das skalarprodukt besteht nur aus multiplikationen und additionen und kann damit prinzipiell mit MADD durchgeführt werden.In einem Takt aber nur dann, wenn die ADD-Kanäle kaskadiert sind. Mit einem MUL3 und einem ADD3 kannst du ohne weiteres kein DP3 machen.

aths

2006-07-05, 05:26:33

ShadowXX[/POST]']Pro Takt können im PS Bereich der G70/G71 und der r580 bei Taktgleichheit Gleichviele MADDs ausführen (nur eben das der r580 auch noch ein paar ADDs zusteuern kann).Dafür steuert die G70-Pipe noch das NRM_PP bei, und eine kostenlose Skalierung. Auf der anderen Seite sind gewisse Funktionen wie SIN auf dem R580 in einem Takt erledigt, der G70 braucht glaube ich 2 Takte.

ShadowXX[/POST]']Genau gesagt kann man hier eigentlich wieder mal sehr schön sehen, das das reine gegenüberstellen der Anzahl der PS-ALUs ziemlich sinnlos ist.
Viel besser ist das reine Gegenüberstellen der theoretischen GFLOP-Zahlen allerdings auch nicht.Genau.

Ailuros

2006-07-05, 06:43:24

GFLOP Berechnungen sind in einer Art theoretische Mathe-Uebungen; bisher haben mir diese nur geholfen die jeweiligen Architekturen besser zu verstehen. Dabei ist das Resultat natuerlich nur ein theoretisches Maximum, mehr oder weniger wie in anderen Faellen, eben weil zich Faktoren in einer GPU im Zusammenhang liegen und sterile Mathe nur sterile Mathe bleibt. Ich kann genauso so und so viel Texel-Fuellrate ausrechnen bei GPU X, aber sobald trilinear, zumindest 4-layer MT dazukommt und/oder die Bandbreite nicht ausreicht, bleiben z.B. 10 oder mehr Gigatexel auch nur Theorie.

ATI sowohl auch NVIDIA haben konkurrenzfaehige Architekturen entwickelt, die trotz den jeweiligen Vor- und Nachteilen doch am Ende (im Durchschnitt) mehr oder weniger ebenbuertig sind (zumindest was high und low-end betrifft).

Gast

2006-07-05, 08:35:52

aths[/POST]']Dafür steuert die G70-Pipe noch das NRM_PP bei, und eine kostenlose Skalierung. Auf der anderen Seite sind gewisse Funktionen wie SIN auf dem R580 in einem Takt erledigt, der G70 braucht glaube ich 2 Takte.

Genau.
Das hast du schonmal gesagt, trifft aber nur auf den VS zu.

aths

2006-07-05, 08:55:00

Gast[/POST]']Das hast du schonmal gesagt, trifft aber nur auf den VS zu.So wars beim R420.

Gast

2006-07-05, 13:03:11

aths[/POST]']So wars beim R420.

Und beim R520.

Gast

2006-07-05, 13:05:34

Gast[/POST]']Und beim R520.
Ach ja:
http://graphics.stanford.edu/projects/gpubench/results/7800GTX-7772/instrissue_all.pdf
und
http://graphics.stanford.edu/projects/gpubench/results/X1800XT-5340/instrissue_all.pdf
und
http://graphics.stanford.edu/projects/gpubench/results/X1900XTX-5534/instrissue_all.pdf

Eine 7900 GTX gibt's noch nicht - dürfte aber ein wenig schneller als eine 7800 GTX sein.

aths

2006-07-05, 15:45:37

Gast[/POST]']Und beim R520.SIN oder COS kostet im Pixelshader einen Takt, SINCOS 2 Takte.