PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : nVidia spezifiziert die Rechenleistung einer 6800U


Demirug
2005-03-13, 18:31:09
Ist zwar schon etwas älter aber bisher hat es hier noch keiner entdeckt und mir ist es auch erst jetzt aufgefallen:

Peak FP Performance
Vertex Engine (FP32)
6*5*2 * 400 MHz = 24 GFlops

Pixel Engine (FP32)
16*4*3 * 400 MHz = 76 GFlops

Texture Math Engine (FP16)
16*4*6 * 400 MHz = 154 GFlops

FPBlend (FP16)
16*4*3 * 550 MHz = 106 GFlops

Total = 260 FP16 & 100 FP32 GFlops

Nachzulesen: http://developer.nvidia.com/object/xdc_2005_presentations.html

robbitop
2005-03-13, 20:40:00
Das sind ja nette Marketingzahlen. Was wirklich zählt sind frei programmierbare und nutzbare Ops. Aber anscheinend interessiert das NV nicht.

Coda
2005-03-13, 20:45:37
Warum FP Blend 550Mhz?

Demirug
2005-03-13, 20:46:20
Das sind ja nette Marketingzahlen. Was wirklich zählt sind frei programmierbare und nutzbare Ops. Aber anscheinend interessiert das NV nicht.

Wenn es reine Marketingzahlen wären hätte man noch viel größere Werte angegeben.

Die Vertex und Pixel Engine ist ja programmierbar.

Bleiben also noch die Blend und Texture Math Engine. Dort ist nur der Anteil aufgeführt den man ohne entsprechende FP16 Rechenwerke im Pixelshader erledigen müsste.

Demirug
2005-03-13, 20:48:13
Warum FP Blend 550Mhz?

Das habe ich mich auch schon gefragt. Scheinbar sind diese Einheiten im Speichercontroller untergebracht und laufen entsprechend auch mit dem Speichertakt.

robbitop
2005-03-13, 21:07:11
in der Praxis sind pro Pixelpipeline allerdings nur 2-3 Instruktionen drin. Und nur die kann ich zum Pixelshading gebrauchen.

Coda
2005-03-13, 21:10:14
GFlops sind aber überall nur Maximalangaben. Das übliche Marketing halt, siehe Cell.

Cicero
2005-03-14, 00:15:12
Gibt es das auch für ATI?

Xmas
2005-03-14, 05:27:53
Peak FP Performance
Vertex Engine (FP32)
6*5*2 * 400 MHz = 24 GFlops

Pixel Engine (FP32)
16*4*3 * 400 MHz = 76 GFlops
Bis hierhin kann ich das nachvollziehen:
VS: 6 Pipelines * 5 (vec4 + Skalar) * 2 (MAD) * Takt
PS: 16 Pipelines * 4 (vec4) * 3 (MUL + MAD) * Takt
Interessant, dass die Special Functions ignoriert wurden.
Aber dann...

Texture Math Engine (FP16)
16*4*6 * 400 MHz = 154 GFlops

FPBlend (FP16)
16*4*3 * 550 MHz = 106 GFlops
Die 4 müsste jeweils eine 2 sein, da bei FP16 immer nur zwei Komponenten pro Takt verarbeitet werden können. Die 3 beim Blending ist ok (s * sf + d * df), aber beim Texturfiltern komme ich, wie ich es auch drehe und wende, nicht auf 6 Operationen. Es sollten 7, inklusive der für Tri/AF notwendigen Akkumulation sogar 8 pro Takt sein.

aths
2005-03-14, 21:58:44
in der Praxis sind pro Pixelpipeline allerdings nur 2-3 Instruktionen drin. Und nur die kann ich zum Pixelshading gebrauchen.Nvidia hat ja auch mit nur 3 Instruktionen gerechnet.

zeckensack
2005-03-14, 22:19:44
Das sind ja nette Marketingzahlen.Jein. Von kleinen Unstimmigkeiten (siehe Xmas) abgesehen, ist das nachvollziehbar und echt.
Den Hauptnutzen dieser Information sehe ich darin, den Cell-Fanboys mal zeigen zu können wo der Hammer hängt.
Was wirklich zählt sind frei programmierbare und nutzbare Ops. Aber anscheinend interessiert das NV nicht.Die aufgelisteten FP32-FLOPs sind "frei programmierbar und nutzbar".
Die FP16-FLOPs sind fixed function, aber das würde ich auch nicht anders haben wollen.

robbitop
2005-03-15, 08:08:55
NV multipliziert die 3 OPs mit den 4 Kanälen. Das nützt mir jedoch nicht. Davon kommen auch nicht mehr als 3 Instruktionen pro Takt pro Pipeline hinaus.
Wenn eine Instruktion 3 oder 4 Kanäle belegt, ist das für mich nur eine brauchbare Operation nicht 3 oder 4.

Ailuros
2005-03-15, 09:03:13
Leicht OT oder auch nicht (aus einer der letzten ATI Praesentationen):

FB (Fog and) Blend
• Is not part of the PS unit
– You can think of it as a special function of the memory controller
• Although there are lots of latency hiding tricks here...
– This is still probably the easiest place to get B/W limited
• So disable blend whenever possible

Pure FB optimisations
• Fewer bits are written faster... Fewer bits are written faster...
– 16BPP > 32BPP > 64BPP > 128BPP
• (here ‘>’ means faster)
• Blending is slower than not
– By more than a factor of 2
• ATI: Surfaces are ‘faster’ if allocated earlier!

robbi,

NV multipliziert die 3 OPs mit den 4 Kanälen. Das nützt mir jedoch nicht. Davon kommen auch nicht mehr als 3 Instruktionen pro Takt pro Pipeline hinaus.
Wenn eine Instruktion 3 oder 4 Kanäle belegt, ist das für mich nur eine brauchbare Operation nicht 3 oder 4.

Mal rein auf Blend bezogen:

– You can think of it as a special function of the memory controller

64bits pro Kanal, wobei es natuerlich logisch ist dass je weniger bits pro Kanal desto kleiner der Bandbreiten-Verbrauch und ergo die finale Leistung. Es gibt auch keine direkte Verbindung mit der "Pipeline" hier im relativen Sinn:

Is not part of the PS unit

robbitop
2005-03-15, 09:31:17
da erzählst du (mir zumindist) nichts Neues :)

Xmas
2005-03-15, 13:21:02
NV multipliziert die 3 OPs mit den 4 Kanälen. Das nützt mir jedoch nicht. Davon kommen auch nicht mehr als 3 Instruktionen pro Takt pro Pipeline hinaus.
Wenn eine Instruktion 3 oder 4 Kanäle belegt, ist das für mich nur eine brauchbare Operation nicht 3 oder 4.
Es geht hier aber nicht um Instruktionen sondern um Flops.

robbitop
2005-03-15, 13:36:54
Es geht hier aber nicht um Instruktionen sondern um Flops.
weiß ich, nur sind diese Flopangaben für den Enduser unbrauchbar. Was nützt es mir, wenn der Chip intern 3 oder 4 Operationen für eine Instruktion braucht?
Man sollte sowas zukünftig in reel nutzbaren Instruktionen pro Takt angeben IMO.

Demirug
2005-03-15, 13:46:46
weiß ich, nur sind diese Flopangaben für den Enduser unbrauchbar. Was nützt es mir, wenn der Chip intern 3 oder 4 Operationen für eine Instruktion braucht?
Man sollte sowas zukünftig in reel nutzbaren Instruktionen pro Takt angeben IMO.


Instruktionen zählen ist nicht gut.

mov r0.x r1.y
sincos r0.xy r1.w

Beides eine Instruktion.

robbitop
2005-03-15, 13:51:25
ist mir klar, dass es da ein gewisses von ... bis gibt.
Flops hingegen bleiben gleich ... sind aber ohne Aufschlüsselung aussagenlos.

Demirug
2005-03-15, 13:58:04
ist mir klar, dass es da ein gewisses von ... bis gibt.
Flops hingegen bleiben gleich ... sind aber ohne Aufschlüsselung aussagenlos.

Man kann für die meisten Instruktionen relative genau ausrechnen wie viele native Flops man dafür braucht.

Die Nutzbarkeit von Flops lässt sich ja genau wie die von Instruktionen nicht mit einem Zahlenwert ausdrücken.

robbitop
2005-03-15, 14:04:00
Man kann für die meisten Instruktionen relative genau ausrechnen wie viele native Flops man dafür braucht.

Die Nutzbarkeit von Flops lässt sich ja genau wie die von Instruktionen nicht mit einem Zahlenwert ausdrücken.
nur wenn man die architektur kennt

Demirug
2005-03-15, 14:07:41
nur wenn man die architektur kennt

Wenn man die Instruktionen in Basis Fliesspunktops zerlegt muss man die Architektur nicht kennen. Es geht ja dabei nur darum welche Rechenleistung man zum ausführen auf einer regulären FPU bräuchte.

robbitop
2005-03-15, 14:17:39
Wenn man die Instruktionen in Basis Fliesspunktops zerlegt muss man die Architektur nicht kennen. Es geht ja dabei nur darum welche Rechenleistung man zum ausführen auf einer regulären FPU bräuchte.
ok. du hast mich überzeugt. Wieder was dazugelernt.

aths
2005-03-15, 16:20:41
NV multipliziert die 3 OPs mit den 4 Kanälen. Das nützt mir jedoch nicht. Davon kommen auch nicht mehr als 3 Instruktionen pro Takt pro Pipeline hinaus.Manchmal kommen da sogar 4 Instruktionen pro Takt raus.