PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : NV30 nur 4x2?


askibo
2003-02-10, 20:42:40
Darüber wird gerade im b3d Froum spekuliert.

http://www.beyond3d.com/forum/viewtopic.php?t=4252


Hat hier jemand eine FX zum testen? :D

mapel110
2003-02-10, 21:01:08
LOL

kann irgendwie nicht stimmen. dafür ist dann doch die performance zu gut :D

vielleicht hat die karte auch nur ein 64bit ddr-ram interface ?! :|

LovesuckZ
2003-02-10, 21:03:09
Originally posted by mapel110
vielleicht hat die karte auch nur ein 64bit ddr-ram interface ?! :|

Dann muesste Nvidia's "LMA3" wirklich sehr, sehr gut arbeiten...

askibo
2003-02-10, 21:07:22
Originally posted by mapel110
LOL

kann irgendwie nicht stimmen. dafür ist dann doch die performance zu gut :D

vielleicht hat die karte auch nur ein 64bit ddr-ram interface ?! :|


Naja, stell dir mal eine GF4@500 Mhz mit einigen architektonischen Optimierungen vor. Wie schnell wäre diese Karte?

Demirug
2003-02-10, 21:12:22
Warum nehmen die immer den ST Fillrate Test vonm 3d murks? Das Teil ist absolute unbrauchbar wenn man den maximale Output testen will.

Dafür muss man den Z-Buffer abschalten und den Framebuffer mehrfach mit zwei grossen Dreiecken komplett abdecken. Und möglichst keine Texturen benutzen. So ermittelt man die max. Pixelfillrate eines Chips. Und selbst dann könnte das Memoryinterface noch der Engpass sein.

mapel110
2003-02-10, 21:44:07
Originally posted by askibo



Naja, stell dir mal eine GF4@500 Mhz mit einigen architektonischen Optimierungen vor. Wie schnell wäre diese Karte?

du machst mir angst. vielleicht plant das ja nvidia :D

mr
2003-02-19, 10:33:32
Warum nehmen die immer den ST Fillrate Test vonm 3d murks? Das Teil ist absolute unbrauchbar wenn man den maximale Output testen will.

Dafür muss man den Z-Buffer abschalten und den Framebuffer mehrfach mit zwei grossen Dreiecken komplett abdecken. Und möglichst keine Texturen benutzen. So ermittelt man die max. Pixelfillrate eines Chips. Und selbst dann könnte das Memoryinterface noch der Engpass sein.
Da hast Du natürlich recht Demirug.
Laut DaveBaumann von beyond3d wurde mittlerweile genau das getestet mit dem selben Ergebnis.

Heute hat DaveB folgendes gepostet:

I was sent a message yesterday stating that NV30 his 8 FP16 shader exectution units, 8 texture samplers, but the number of rendering pipelines remain at 4. So, its max pixel output, regardless of the situation is 4 pixels - in FP32, the FP units are combined, meaning that it can only execute 4 FP32 instructions per clock. This means that to optimsise the compiler for FP16 you've got to be calculating two FP16 instructions per pipe, which may be a little difficult to manage.

This explaination is what would occur if what was said to be true, and it does fit with current shader performance numbers. Marketting wise, if there is no possibility that you'll actually get more than 4 pixels output per clock then it shouldn't be described and sold as an 8x1...

nachzulesen hier (http://www.beyond3d.com/forum/viewtopic.php?p=85134&highlight=#85134).

Natürlich muss man noch warten bis andere Tester (ich hoffe Leonidas bekommt bald eine GFFX zur Verfügung gestellt) seine Testergebnisse und diese "message" verifizieren.

Unregistered
2003-02-19, 11:02:06
na super. Das Nvidia Marketing ist ja Spitze

das SIMD fp16 ist auch eine gute Erklärung warum die fp16-Shader Performance noch auf fp32-Niveau liegt. Anscheinend ist es ziemlich schwierig zwei Shaderinstruktionen parallel abzuarbeiten und den Treiber entsprechend zu optimieren; da die Treiberprogrammierer bei Nvidia bestimmt mit Hochdruck daran arbeiten. Bei OpenGL scheint es ja leichter zu gehen (oder sie haben früher begonnen) da John Carmack beim NV30-Pfad ja schon eine wesentlich höhere Performance erreicht hat als beim ARG2(?) - Pfad. Das lässt hoffen!

Aber eine 4x2-Karte als 8x1 zu verkaufen ist schon ziemlich verrückt.

Exxtreme
2003-02-19, 11:08:45
Originally posted by Unregistered
Bei OpenGL scheint es ja leichter zu gehen (oder sie haben früher begonnen) da John Carmack beim NV30-Pfad ja schon eine wesentlich höhere Performance erreicht hat als beim ARG2(?) - Pfad. Das lässt hoffen!

AFAIK arbeitet ARB2-Pfad mit FP32 auf dem NV30 und ist deswegen nur halb so schnell wie der dedizierte NV30-Pfad, welcher mit FP16 rackert.

Pussycat
2003-02-19, 11:34:59
Originally posted by Unregistered

Aber eine 4x2-Karte als 8x1 zu verkaufen ist schon ziemlich verrückt.

Vielleciht erkläre dass, warum NV nie deutlich etwas über die Pipelines sagen wollte. Die Karte wird nicht als 8x1 verkauft.

Unregistered
2003-02-19, 11:56:54
Originally posted by Exxtreme

AFAIK arbeitet ARB2-Pfad mit FP32 auf dem NV30 und ist deswegen nur halb so schnell wie der dedizierte NV30-Pfad, welcher mit FP16 rackert.

Ja; aber...

die Pixelshader-Tests in der Digit-Life - Review zeigen, das Fp16 gleich schnell ist wie Fp32 (auf 0,1% oder so). Deshalb mein Hinweis auf OpenGL. Ich hoffe wirklich die schaffen es, auch unter DX9.0 die Fp16-Pipeline schneller zu machen.

Demirug
2003-02-19, 12:05:04
So ich habe mir jetzt mal einige Gedanken bezüglich der 4x2 Geschichte gemacht.

Informationsgrundlage:

1. Der benutzte Rightmark Fillrate Test misst die Fillrate auf die richtige weise. Z-Buffer aus. Hintergrund nicht löschen und grosse Dreiecke zeichen. Wobei er das rendern der Dreiecke etwas merkwürdig realisiert aber das sollte kein Problem sein. Für die jetzt Fragen: Nein ich habe nicht sourcen aber es gibt ja tools die anzeigen was eine D3D Anwendung so macht.

2. Die Fillrate deutet darauf hin das die FX nicht in der Lage ist mehr als 4 Pixel pro Takt in den Framebuffer zu schreiben. Die Texelfillrate bei 2 und 4 Texturen (3 wurden leider nicht gemessen) sagt aus das mehr als 6 Texel pro Takt gefecht werden können.

3. NVIDIA hat AFAIK keinerlei Aussagen zu der Pixelfillrate bzw AA-Sample Fillrate des Chips gemacht.

4. Es gibt eine Aussage von einen NVIDIA Mitarbeiter das der Chip manche Dinge mit 16 und andere mit 8 oder nur 4 Pixel pro Takt ausführen kann.

5. Die OpenGL Dokumentation des NV30 spricht nach wie vor davon das die Register Combinder als Mittel zur Verfügung stehen und das man sie zum finalen Pixelprocessing (nach den FP-Shader) benutzten kann.

6. NVIDIA mag keine Spiele mit SingleTexturing (s. Kommenetar zum 3DMark)

7. NVIDIA mag keine PS 1.4 (ebenfalls Kommentar 3DMark)

Thesen:

1. Der FX Chip verfügt nur über 4*4 AA-Sampler.
2. Diesen AA-Samplern sind die von den Vorgängermodelen bekannten Register combinder vorgeschaltet 4*2
3. Vor den Combinder sitzen 32 FP16 Zellen welche an 8 oder 16 Pixel parralle arbeiten können.

Folgen daraus:

-Bei "alt" Anwendungen (bis DX8.1 Level ohne PS 1.4) verhält sich die FX wie eine höher getaktet optimierte Version des NV25. Mit allen vor und Nachteilen die sich daraus ergeben.

-Unter Ausnutzung des Register combinder Tricks bekommt man unter OpenGL bei der verwendung der FP Einheiten bis zu 8 zusätzliche Integer Operationen für lauh dazu. Bei DX müsste hier der Compiler im Treiber was biegen. Es wird sicherlich interesant werden was in den Papers zur Pixel-Shader optimierung stehen wird bzw. was der CG Compiler im Gegensatz zum MS-Compiler macht.

Nun stellt sich natürlich die Frage in wie weit ein solches Design nun Auswirkungen auf die Performances in Zukünftigen spielen hat. Die Antwort hängt davon ab in wie weit man noch Renderpasses hat die lediglich eine bzw keine Textur haben den ab zwei Texturen sollte es keinen Unterschied mehr machen da die FP Einheiten dann sowieso nicht mehr in der Lage sind pro Takt einen Pixel fertig zu stellen. Wollen wir in Zukunft wirklich noch Single-Texturing sehen? IMHO nein. Selbst eine Sky-Box oder Sphere hat mindestens 2 Texturen verdient. Bleiben also noch die reinen Z und Stencilpasses wie sie DOOM III benutzt. Hier könnte die Begrenzung auf nur 4 Ausgabeeinheiten wirklich zum Problem werden. Man sollte allerdings vor dem starten von irgendwelchen Flameaktionen hier noch nachprüfen in wie weit die Stencilops und reinen Z-Passes wirklich von diesem Problem betroffen sind.

mr
2003-02-19, 13:04:41
Danke für Dein ausführliches posting Demirug.
Natürlich ist momentan noch vieles Spekulation und Ich hoffe auch dass sich die Flamer noch zurückhalten bis alle Fakten geklärt sind.

Bezüglich z-pass/stencil performance ist auch folgender thread (http://www.opengl.org/discussion_boards/ubb/Forum3/HTML/008757-3.html) auf opengl.org (zeckensack ist auch dabei ;) ) interessant.

Vor allem das letzte posting von pixelpipes (angenommen er hat wirklich eine FX getestet) ist lesenswert.
Normally I have Z test disabled, but Z write enabled, and of course also color write.
Enabling Z test will invoke the 'early out' tests, which are done per tile, thus screwing the measurement.

I tried it with Z write DISabled, and the result is the same. (equivalent to NV25 with appropriate GPU clock ratio boost)

If you are hinting at memory bandwidth limitation, I don't see the logic here.
With 1GHz memory and 128 bit bus, you have 4 Gpix/sec if you are writing either only RGBA
(32 bit) or only stencil/z (24+8). But disabling Z write didn't increase performance.

But here is the strange thing:
With color write DISabled, Z write ENabled, and stencil test that does both read and write, the performance doubles. (glStencilFunc(GL_NOTEQUAL,0,-1);glStencilOp(GL_INCR_WRAP_EXT,GL_KEEP,GL_INCR_WRAP_EXT))
I have no explenation for this. Do you?
Is it some special optimization intended for the stencil shadow path?

Falls dies stimmt sieht es mit der z-pass/stencil performance der GFFX nicht schlecht aus.
Wie passt das in Deine Thesen bzw. was hältst Du davon?

Demirug
2003-02-19, 14:14:09
Originally posted by mr
Danke für Dein ausführliches posting Demirug.
Natürlich ist momentan noch vieles Spekulation und Ich hoffe auch dass sich die Flamer noch zurückhalten bis alle Fakten geklärt sind.

Bezüglich z-pass/stencil performance ist auch folgender thread (http://www.opengl.org/discussion_boards/ubb/Forum3/HTML/008757-3.html) auf opengl.org (zeckensack ist auch dabei ;) ) interessant.

Vor allem das letzte posting von pixelpipes (angenommen er hat wirklich eine FX getestet) ist lesenswert.

Falls dies stimmt sieht es mit der z-pass/stencil performance der GFFX nicht schlecht aus.
Wie passt das in Deine Thesen bzw. was hältst Du davon?

Diese Information ist interesant (ich gehe mal davon aus das sie stimmt).

Zusammengefasst:

Color(w)+Z(w) = x GPix/s
nur Color(w) = x GPix/s
z(w)+stencil(rw) = 2x GPix/s

Erklärungsversuch:

1. Die Z und Stencil einheiten sind 8 mal vorhanden aber die Color einheiten nur 4 mal. Beides mal 4 wegen den 4x MSAA. NVIDIA predigt den Entwicklern ja schon länger den Z-Only Pass einzubauen also wäre es auch irgend wie logisch das man im NV30 für diesen Fall eine optimierung vorgesehen hat.

2. Jetzt werde ich mal ganz mutig.;) Es sind weiterhin nur 4*4 AA-Sampler vorhanden. Die Z-Test werden ja sowieso schon vor (oder am Anfang) der Pixelpipeline gemacht und sind dashalb hier mal egal.

Ich berücksichtige jetzt mal nur einen AA-Sampler pro Pipeline. Für MSAA also einfach alles mal 2 oder 4 nehmen.

Bleibt also noch übrig das man den Stencilwert (8bit) und den Z-Wert(24bit) rausschreiben muss sowie einen Stenciltest durchführen muss. Es müssten also 8*32 bit geschrieben werden, 8 Stenciltests und 8 Stencilops pro Takt durchgeführt werden um die Leistungs zu ereichen. Die Idee ist nun folgende:

4*32 Bit schreibt man über die ganz Z/Stencil Pipe der AA-Samplers raus. Die anderen 4*32 Bit schreibt man über die Color Pipe der AA-Sampler raus da diese bei Colorwrite Disabled ja sowieso nicht gebraucht werden. 4 der 8 Stencilops werden von der Z/Stencil Pipe erledigt und die anderen 4 könnte entweder von einer leicht modifizierten Alpha-Blending Einheit erledigt werden oder man benutzt die Registercombiner dafür. Beim 4xAA dann pro Farbkanal(RGBA) ein Stencilsample.

Bleiben noch die Stenciltests. Diese sollten sinnigerweise zusammen mit den Z-Tests durchgeführt werden und falls das so ist stellen sie am ende kein Problem dar.

Also zusammengefasst:

Es gibt 4*4 AA-Sampler mit jeweils einer Color und einer Stencil/Z Pipeline. Die Color Pipeline kann wahlweise aber auch die Aufgaben einer Stencil/Z Pipeline übernehmen wenn keine Farbinformationen rausgeschreiben werden sollen. Die Stencil/Z Einheit kann aber nicht die Aufgabe der Color-Pipeline übernehmen wenn der Z und Stencil wert nicht geschrieben werden sollen. Das macht auch eigentlich Sinn denn mit reinen Z/Stencil Passes ist in Zukunft zu rechnen. Mit reinen ST-Color Passes ausser in Fillratetests eher nicht so sehr und die dafür notwendigen änderungen wären auch viel weitreichender.

aths
2003-02-19, 15:19:40
Hm, Demi,

welchen Grund könnte es für diese mögliche Beschränkung geben? NV wird doch wohl kaum die paar Transistoren für weitere 4x4 AA-Sampler gespart haben?

Oder liegt es daran, dass der NV30 doch eher nur ein überarbeiteter NV28 ist, und die Sache mit 8 Pipelines nur ein Gerücht war?

Demirug
2003-02-19, 15:39:30
aths, diese Fragen müstest du wohl David Kirk stellen. Vorallem weil das was ich da oben geschrieben habe ja alles ins reich der Spekulation gehört und nun wirklich nicht stimmen muss.

Sicherlich hat der NV30 auch vom NV28 Dinge übernommen was aber genau läst sich ohne eine Karte mit der man ein bischen rumspielen kann nicht sagen. So ist das mit den Register Combinder ja nur eine Vermutung von mir die noch zu beweisen währe.

Wenn NVIDIA aber wirklich das von mir nun vermutet Design benutzt hat so dürften die gesparten Transitoren sicherlich ein Grund dafür gewesen sein. Denn wie ich schon gesagt habe sind die AA-Sampler ja sowieso notorisch unterbelastet. Deswegen finde ich die Grundidee (wenn es den wirklich so sein sollte) gar nicht mal so schlecht. Den wer will mit einer GFFX-Karte schon ohne ordentliches AF spielen?

In wie fern jetzt die gesamte Pipeline nur 4 fach ausgelegt ist oder es sich nur um einen bestimmten Endteil handelt muss sich ja noch zeigen. Ich könnte mir wie gesagt durchaus vorstellen das die FP-Pipeline wirklich 8 fach ausgelegt ist.

robbitop
2003-02-19, 16:06:29
aber wenn es nur 4x AA sampler gibt, stimmen doch die werte der AASamples/Sekunde nicht, mit denen man wirbt...

@Demi
würde die 4 vor dem "x" viel in sachen Performance ändern?

aths
2003-02-19, 16:12:10
Hallo Demi, was das mit den Register Combinern angeht, da sagt nV genau einen Satz zu: "This is proprietary information I’m afraid." (Die passende Frage dazu war: "As expected, the GeforceFX still supports all OpenGL extensions of its predecessors. Also, the register combiners can work in combination with the new fragment programs. Because these two kinds of fragment proccessing have not much in common, we would like to know if register combiners are emulated in the Pixel Shader processor, or whether GeForceFX uses extra hardware for its register combiners?")

Will sagen, nV lässt sich hier wohl nicht in die Karten gucken.

Demirug
2003-02-19, 17:02:42
Originally posted by robbitop
aber wenn es nur 4x AA sampler gibt, stimmen doch die werte der AASamples/Sekunde nicht, mit denen man wirbt...

@Demi
würde die 4 vor dem "x" viel in sachen Performance ändern?

robbitop, könntest du mir bitte einen link nennen wo NVIDIA offiziel etwas über AA-Sample/s sagt. Sowas suche ich schon die ganze Zeit.

Wie schon gesagt kann ein performacesverlust nur in situationen auftreten in denen 8 Pixel pro Takt erzeugt werden können. Die Anzahl dieser Situationen ist aber begrenzt:

1. Pixel welche nur Vertexcolor und keine Texture benutzen
2. Pixel welche nur eime Texture und höchsten eine Pixelshader operation verwenden. Hier kommt als zusätzliche Einschränkung hinzu das die Textur maximal tri oder 2xAF bi gefilter werden darf.
3. Pixel welche nur einen im VS berechneten Z Wert haben
4. Pixel die nur eine Stenciloperation ausführen.

Für 3 und 4 scheint es für die FX ja eine Lösung zu geben (s. oben). Die Relevanz von 1 und 2 kannst du dir sicher selbst denken.

Demirug
2003-02-19, 17:04:04
aths, haben uns bisher irgendwelche aussagen von einem Kartehersteller davon abgehalten eigene Untersuchungen anzustellen?

aths
2003-02-19, 17:20:43
Nein, Demirug, und ohne Leute wie dich, Xmas und andere wäre unser gesichertes Wissen betreffs 3D-HW erheblich schmaler.

Demirug
2003-02-20, 14:23:24
Ich wurde heute noch darauf aufmerksam gemacht das es von NVIDIA eine Aussage zum Thema 8x1 gibt:

http://www.beyond3d.com/previews/nvidia/nv30launch/index.php?p=2


We know that GeForce FX has a total of 8 pixel pipelines running at 500MHz, however how many texture mapping units does it feature per pipeline?

Geoff Ballew:Well, as we move into programmable shading the old conventions of fixed pipelines are becoming less important and less accurate, so with that caveat let me go back and answer your question.

We have 8 pipelines and they can each apply one texture per clock so we can apply 8 textures per clock.

Quasar
2003-02-20, 14:47:44
Originally posted by Demirug
Ich wurde heute noch darauf aufmerksam gemacht das es von NVIDIA eine Aussage zum Thema 8x1 gibt:

http://www.beyond3d.com/previews/nvidia/nv30launch/index.php?p=2
We know that GeForce FX has a total of 8 pixel pipelines running at 500MHz, however how many texture mapping units does it feature per pipeline?
Geoff Ballew:Well, as we move into programmable shading the old conventions of fixed pipelines are becoming less important and less accurate, so with that caveat let me go back and answer your question.
We have 8 pipelines and they can each apply one texture per clock so we can apply 8 textures per clock.
Ich hab mal etwas anderes hervorgehoben, so wie's mir interessanter erscheint.

Ailuros
2003-02-20, 14:47:51
Wenn ich mich nicht irre, hab ich schon vor einiger Zeit zu Geoff's Aussage darueber gelinkt, als es darum ging ob NV30 nun 16 oder 8 TMU's hat.

Komischerweise hatte Wavey das Interview geschrieben und er hat jetzt selber Zweifel ob es sich um 8*1 oder 4*2 handelt.

Keine Ahnung woher die Verwirrung kommt; um ehrlich zu sein NV koennte schon ein bisschen mehr versuchen Fragen die NV30 betreffen klarer zu beantworten (generell gemeint). Es handelt sich ja nicht um ein Raumschiff Design ....

Quasar
2003-02-20, 14:59:33
Jein.
Stell dir mal vor, was das wieder für ein Geschrei gäbe, wenn sich herausstellt, dass die 8 Pipelines nicht in allen /nur unter bestimmten Umständen wirklich als acht separate Pixelpipelines nutzbar wären.
Deswegen, solange sie sich ein "caveat" offenhalten, wie sie's in obigem Quote taten, können sie weiterhin behaupten, über 8 Pipelines zu verfügen.

Demirug
2003-02-20, 15:04:57
Originally posted by Ailuros
Wenn ich mich nicht irre, hab ich schon vor einiger Zeit zu Geoff's Aussage darueber gelinkt, als es darum ging ob NV30 nun 16 oder 8 TMU's hat.

Komischerweise hatte Wavey das Interview geschrieben und er hat jetzt selber Zweifel ob es sich um 8*1 oder 4*2 handelt.

Keine Ahnung woher die Verwirrung kommt; um ehrlich zu sein NV koennte schon ein bisschen mehr versuchen Fragen die NV30 betreffen klarer zu beantworten (generell gemeint). Es handelt sich ja nicht um ein Raumschiff Design ....

Die Verwirrung kommt daher das bei allen Fillrate tests ohne oder mit nur einer Texture der NV30 nicht über die 2 GPixel grenze kommt. Bei 8 Pipes mit 500 MHz müssten aber 4 GPixel möglich sein. Und 2 GPixel geteilt durch 500 MHz ergibt nun mal 4 Pixel/Takt. An der Speicherbandbreite kann es auch kaum liegen. Denn für 4 GPixel/s wegzuschreiben bräuchte man ca 15 GB/s und die hat die FX ja eigentlich. Und an 50% verschnitt glaube ich wirklich nicht.

Aber das beste ist ja das laut einer Aussage von jemand aus dem OpenGL Board das bei Z+Stencil ohne Color die für einen 8 Pipeline Chip zu erwartende Leistung erreicht wird.

Ailuros
2003-02-20, 15:21:12
Jein.
Stell dir mal vor, was das wieder für ein Geschrei gäbe, wenn sich herausstellt, dass die 8 Pipelines nicht in allen /nur unter bestimmten Umständen wirklich als acht separate Pixelpipelines nutzbar wären.
Deswegen, solange sie sich ein "caveat" offenhalten, wie sie's in obigem Quote taten, können sie weiterhin behaupten, über 8 Pipelines zu verfügen.

Nichts einzuwenden. Aber dann kommt das "Geschrei" dann eher von den NV-Hassern die in der Ecke auf jeden kleinen oder grossen "Fehler" warten um die Anti-Propaganda einzusetzen.

Aber wiederum war es auch nie anders von Seiten NV-fans in der Vergangenheit. (All das hat natuerlich nichts mit Wavey zu tun).

Im Endeffekt, waere der obere der letzte Grund warum ich nicht heute auf eine NV30 aufruesten wuerde; abgesehen davon dass sie noch gar nicht hier verfuegbar ist.

Demirug
2003-02-20, 16:04:21
So ich habe jetzt mal ein Bild gzeichnet wie ich mir das ganze vorstelle:

Der Im Bild dargestellte Teil müsste 4 mal so im Chip verbaut sein.

Die Signale können auf 3 Arten geschaltet werden:

1. Pixel (Z+Color) aus Pipeline A -> Rot+Blau
2. Pixel (Z+Color) aus Pipeline B -> Grün+Magenta
3. Pixel (nur Z) aus Pipeline A und B -> Blau+Zyan

Es kann immer nur ein weg gleichzeitig geschalten werden.

ShadowXX
2003-02-21, 09:28:10
Aber die Frage nach der etwas besseren 'offenlegung' der fx interna seitens nv sollte man nicht ruhen lassen.
@Demirug: ich bin kein D3D-Entwicker, aber wäre es nicht auch für Entwicker wie dich besser etwas mehr über den internen Aufbau des Chips zu wissen??? Damit man besser optimieren kann? Intel schickt , im Fall des Falles, sogar jemanden vorbei damit es besser auf den p4 optimiert werden kann. (Intel und auch AMD lassen die Entwickler(und auch einfach nur interessierte Beobachter) sowieso ziemlich tief in Ihre Entwicklungen schauen, eben damit man besser optimieren kann...).
Ich glaube auch nicht das es ein Industriespionage-Problem/Ideenklau-Problem geben wird, da sich die Stratigien und Techniken von ATI und nv doch ziemlich stark unterscheiden. (Davon mal abgesehen ist das was sie jetzt veröffentlichen würden für die Konkurenz sowieso schon alter Tobak, da ATI und nv Intern ja schon viel weiter sind..).
Wenn man sich die Aussagen von JC so anguckt stellt man ja auch fest, dass wenn man den Renderpath auf die nv30 anpasst (ein spezieller nv30 Path, gegen den allgemeineren ARB2 Path den die Ati benutzt.) dieser schneller ist als wenn man den Standardpath benutzt.

Dabei ist mir übrigens noch etwas aufgefallen:
Kaum jemand nahm Notiz davon (auch keiner unseres 3D-Entwicker, egal welches Lager), dass die fx erst Tempmässig bei Doom3 mithalten kann, wenn diese (wie schon erwähnt) einen speziellen nv30-Path benutzt der nur 16-Bit Floating-Point verwendet. Beim ARB2 Path der beim ATI 24-Bit und beim fx 32-Bit benutzt ist die fx ca. 50% langsamer (Aussage JC). Ok, ich sehe ein, dass 32-Bit mehr Rechenpower benötigt als 24-Bit, aber warum die fx erst mit 16-Bit & speziell auf Sie angepassten Path etwas schneller als die r300 wird (und das laut JC nicht mal überall) finde ich schon sehr merkwürdig!
Und (das ist allerdings meine ganz ganz persönliche Meinung) den Unterschied zwischen 16 und 24-Bit wird man eher sehen als den unterschied zwischen 24 und 32-Bit (auch wenn JC meint das der unterschied zwischen 16 und 24 Bit fast zu vernachlässigen ist....wobei dieses Statement sich ein bisserl nach nv-PR anhört.)

MfG
J.S.Shadow

egdusp
2003-02-21, 09:52:47
16 bit fp = 4Milliarden x 4 Milliarden = 16 ähh, keine Ahnung wie es heißt.

Auf jeden Fall denke ich schon, dass 16 bit fp vollkommen ausreichend ist und man keinen Unterschied zu 24 bit fp sieht. Der Unterschied von 24 zu 32 bit fp wird zwar nochmal geringer ausfallen, aber welchen Vorteil hat man noch davon?

mfg
egdusp

Demirug
2003-02-21, 09:56:35
ShadowXX, NVIDIA gibt in der Regel immer irgendwelche Optimierungsguides heraus und viele der Tips dort dürften sich ohne Änderung auf die NV3x Rheie übertragen lassen. Aus diesem Grund braucht man so genaue Infos gar nicht.

Für den R300 kann JC gar keinen speziellen Pfad schreiben weil dieser gar keine spezielle Extension hat. Die ARB Extension stellt eigentlich die ATI Extension dar zu der NVIDIA gesagt hat das sie diese ebenfalls unterstützen wird und deshalb hat die Extension jetzt ein ARB und kein ATI im Namen.

Das der ARB Pfad noch nicht gut auf der FX lief (läuft) wundert mich eigentlich nicht so sehr es gibt bisher noch nichts relevantes im öffentlichen Markt was diese Extension nutzt und deshalb dürfte die optimierung recht geringe Priorität haben. Die eigenen Extension werden da schon etwas weiter sein weil man sie ja für die Launchdemos gebraucht hat.

Das man den unterschied zwischen FP16 und FP24 kaum sehen kann glaube ich JC ungesehen wenn man bendenkt das Pixar auch nur mit FP16 Formaten arbeitet.Es dürfte höchstens in Randbereichen zu kleinen Problemen kommen. Zudem wird nach dem Shader sowieso wieder auf 8 Bit Integer Farben zurückgegangen und die Addition der Lichtquellen erfolgt auch nur mit 8 Bit Genauigkeit.

ShadowXX
2003-02-21, 10:22:57
@Demirug,

Ok, wenn das so ist. Das man den Unterschied zwischen 16 und 24 Bit fp nicht/kaum hatte ich mir auch schon fast gedacht...wobei die Frage ist: hat nv die 32-Bit fp Option für den nv30 nur deshalb gebracht damit Sie über den Specs von Ati liegen oder hat dieser Modus (ausser für 3D-Modeller) noch irgendeine andere Bewandnis (ausser das er zu langsam ist um genutzt zu werden...).

Ich frage mich auch ob die Vertex/Pixel-Shader Architektur von nv denn wirklich so toll ist wie Kirk behauptet??? Und diese Fragen und damit auch die vermehrte möglichkeiten des Flames könnten schnell und einfach abgestellt werden. nVidia beantwortet diese Fragen einfach. Und zwar Klip und Klar, kein Ausweichen usw.....Es kann doch nicht so Schwer sein zu sagen ob der fx nun eine 4x2, 8x1 oder von mir aus 3x2,66666 Architektur hat. Und wenn keine klassisch Aussage wie 8x1 dem fx gerecht wird, dann sollen Sie es eben mit etwas ausschweifenden Worten erklären. Du und die anderen 3D-Programmierer könnt dann ja entscheiden ob es Blödsinn ist was er da sagt oder ob es stimmen könnte (Je nachdem er sagt: 8x1 oder Die Architektur des fx ist......). Oder hat D. Kirk tatsächlich Angst das Ihm jemand das Layout des nv30 unter den Händen wegmopst....

mfg
J.S.Shadow

Quasar
2003-02-21, 10:55:19
Es geht IMO nicht um Spionage oder sowas, sondern schlicht ums Prestige. Wenn ATi einen 8-Pipe-Renderer hat, braucht nV eben auch einen. Wenn nV 500MHz/500MHz hat, möchte ATi da auch gern hinkommen.

Du darfst nicht vergessen, dass Taktraten und andere "einfach" verständliche Dinge, die man groß vorn auf die Packung drucken kann, für den absoluten Großteil der Käufer absolut überzeugende Argumente darstellen (siehe AGP8X).

Demirug
2003-02-21, 11:25:23
Originally posted by ShadowXX
@Demirug,

Ok, wenn das so ist. Das man den Unterschied zwischen 16 und 24 Bit fp nicht/kaum hatte ich mir auch schon fast gedacht...wobei die Frage ist: hat nv die 32-Bit fp Option für den nv30 nur deshalb gebracht damit Sie über den Specs von Ati liegen oder hat dieser Modus (ausser für 3D-Modeller) noch irgendeine andere Bewandnis (ausser das er zu langsam ist um genutzt zu werden...).

Was sich NVIDIA dabei nun genau gedacht hat must du schon Kirk und Co fragen. Sinn macht er sicherlich in Verbidnung mit dieser "Render To Vertexstream" Option. Aber was die Treiberentwickler damit so alles anstellen werden und ob das ganze auch irgendwann für die "normalen" Entwickler verfügbar wird muss sich noch zeigen.

Ich frage mich auch ob die Vertex/Pixel-Shader Architektur von nv denn wirklich so toll ist wie Kirk behauptet??? Und diese Fragen und damit auch die vermehrte möglichkeiten des Flames könnten schnell und einfach abgestellt werden. nVidia beantwortet diese Fragen einfach. Und zwar Klip und Klar, kein Ausweichen usw.....Es kann doch nicht so Schwer sein zu sagen ob der fx nun eine 4x2, 8x1 oder von mir aus 3x2,66666 Architektur hat. Und wenn keine klassisch Aussage wie 8x1 dem fx gerecht wird, dann sollen Sie es eben mit etwas ausschweifenden Worten erklären. Du und die anderen 3D-Programmierer könnt dann ja entscheiden ob es Blödsinn ist was er da sagt oder ob es stimmen könnte (Je nachdem er sagt: 8x1 oder Die Architektur des fx ist......). Oder hat D. Kirk tatsächlich Angst das Ihm jemand das Layout des nv30 unter den Händen wegmopst....

mfg
J.S.Shadow

Chipentwickler haben immer Angst das man eine Idee klaut und wenn man Infos geheimhalten kann dann tut man das auch. Wenn man mich im Moment fragen würde was für eine Architektur der NV30 hat würde ich sagen:

4*2*1

4 Endpipelines mit jeweils 4 AA-Samplern
2 Pipelines für jede Endpipe
1 TMU und ALU pro Pipe

Man kann das ganze jetzt als (4*2)*1 = 8*1 oder 4*(2*1) = 4*2 Chip sehen aber IMHO ist es eben ein Hybrid und deswegen würde beides (8*1 oder 4*2) nicht stimmen.

Ailuros
2003-02-21, 15:57:51
Wenn man mich im Moment fragen würde was für eine Architektur der NV30 hat würde ich sagen:

4*2*1

4 Endpipelines mit jeweils 4 AA-Samplern
2 Pipelines für jede Endpipe
1 TMU und ALU pro Pipe

Man kann das ganze jetzt als (4*2)*1 = 8*1 oder 4*(2*1) = 4*2 Chip sehen aber IMHO ist es eben ein Hybrid und deswegen würde beides (8*1 oder 4*2) nicht stimmen.

Jetzt ist endlich der Groschen bei mir gefallen; das macht nicht nur Sinn, sondern erklaert auch ein paar "Sonderheiten" in manchen Faellen der FX.

Darf ich die Theorie als Frage (immer "off the record") weiterleiten?

Demirug
2003-02-21, 16:51:37
Originally posted by Ailuros


Jetzt ist endlich der Groschen bei mir gefallen; das macht nicht nur Sinn, sondern erklaert auch ein paar "Sonderheiten" in manchen Faellen der FX.

Darf ich die Theorie als Frage (immer "off the record") weiterleiten?

Sicher ist ja eine öffentliche Spekulation hier.

StefanV
2003-02-21, 18:04:23
Originally posted by Demirug
4*2*1

4 Endpipelines mit jeweils 4 AA-Samplern
2 Pipelines für jede Endpipe
1 TMU und ALU pro Pipe

Man kann das ganze jetzt als (4*2)*1 = 8*1 oder 4*(2*1) = 4*2 Chip sehen aber IMHO ist es eben ein Hybrid und deswegen würde beides (8*1 oder 4*2) nicht stimmen.

Könntest du das etwas genauer erklären ??

Demirug
2003-02-21, 18:35:05
Originally posted by Stefan Payne


Könntest du das etwas genauer erklären ??

In wie fern genauer?

Ich versuche es mal so:

Der Chip hat 8 Pipelines mit jeweils einer TMU. Nun müssen sich aber immer 2 Pipelines 4*AA-Sampler teilen. Die 4 Sampler lassen sich aber nur zusammen einsetzen. Wenn man also kein AA-benutzt bleiben die nicht benötigten Einheiten einfach aus. Daraus ergibt sich das immer nur eine von 2 Pipelines einen Pixel ausgeben kann (max 4 Pixel/takt). Sobald ein Pixel mindestens 2 Takte in der Pixelpipline ist spielt das aber keine Rolle. Das Design bremst also nur 1 Takt Shader (z.B. Singletexturing & kein AF). Nun gibt es aber noch zwei Spezialformen von 1 Takt Shader (Only Stencil und Only-Z) die in Zukunft (DOOM III Engine)häufiger vorkommen werden. In diesem Fall wäre das Design gegenüber dem normalen (jede pipeline hat eigene AA-Sampler) gründlich unterlegen. Aber genau für diese Spezialfälle hat NVIDIA eine optimierungen eingebaut das diese Fälle mit 8 Pixel/Takt laufen können.

Ist aber wie schon mehrfach gesagt alles spekulation aufgrund der vorliegenden Infos.

Unregistered
2003-02-21, 20:36:03
http://www.theinquirer.net/?article=7920

egdusp
2003-02-22, 09:28:05
Originally posted by Unregistered
http://www.theinquirer.net/?article=7920

"The bottom line is that when it comes to Color + Z rendering, the GeForce FX is only half as powerful as the older Radeon 9700."
:rofl: (nur in Singeltextuting, dieses kleine aber wichtige Detail haben sie vergessen zu erwähnen)

Naja, wenigstens scheint Demirugs Aussage ziemlich zustimmen.

mfg
egdusp

egdusp
2003-02-22, 19:42:11
Hat NV seinen Chip sozusagen auf die Doom3 Technologie oiptimiert, bzw. auf die entsprechenden Techniken? S3 will sowas ja sogar gerüchteweise in Hardware anbieten.

Benötigt Doom3 nach dem Z-Only Rendering überhaupt noch Color+Z (wo der NV30 nur 4 Pixel/sec schafft) Durchgänge, oder reduziert sich das alles auf Color?

mfg
egdusp

Demirug
2003-02-22, 20:08:53
Originally posted by egdusp
Hat NV seinen Chip sozusagen auf die Doom3 Technologie oiptimiert, bzw. auf die entsprechenden Techniken? S3 will sowas ja sogar gerüchteweise in Hardware anbieten.

Benötigt Doom3 nach dem Z-Only Rendering überhaupt noch Color+Z (wo der NV30 nur 4 Pixel/sec schafft) Durchgänge, oder reduziert sich das alles auf Color?

mfg
egdusp

Nach dem Z-Pass schreibt DOOM III nur noch Farben und Stencilwerte.

So wie es im Moment aussieht schaft der NV30 aber auch bei nur Farbpixel ebenfalls nur maximal 4 Pixel pro Takt. Bei den Farb-Passes spielt das aber eh keine Rolle weil man da schon froh sein muss wenn man in Summe noch 1 Pixel pro Takt aus dem ganzen Chip bekommt (gilt auch für den R300).

Unregistered
2003-02-24, 11:17:41
as measured and posted from DaveBaumann; Beyond3d :


Fillrate Tester
--------------------------
Display adapter: NVIDIA GeForce FX 5800 Ultra
Driver version: 6.14.1.4268
Display mode: 1024x768x32bpp
--------------------------
FFP - Pure fillrate - 1877.465820M pixels/sec
FFP - Single texture - 1511.438965M pixels/sec
FFP - Dual texture - 1278.825439M pixels/sec
FFP - Triple texture - 731.203369M pixels/sec
FFP - Quad texture - 700.277161M pixels/sec
PS_2_0 - Per pixel lighting - 79.678642M pixels/sec
PS_2_0 PP - Per pixel lighting - 79.677414M pixels/sec


Schaut so aus, als ob der NV30 wirklich nur ein 4x2-chip ist.

Außerdem ist er nicht gerade besonders effizient. 2800MTexel mit quad-Texturing ist sehr wenig. Laut 3DMark03 sind es 3200MTexel bei Dual-Texturing. Macht eine Effizienz von 70% - 80%. Ziemlich mickrig für einen Highend-Chip bei der Verwendung von theoretischen Füllrate-Tests. Bei Realworld-Spielen ist es ja dann sehr wahrscheinlich noch weniger. Seufz :(

robbitop
2003-02-24, 11:26:50
du weisst schon, dass der ST Fillratentest Bandbreitenlimitiert ist, oder?

Demirug
2003-02-24, 11:35:17
robbitop, die werte scheinen mit nicht vom 3dmark zu kommen.

digit-life hat was anderes gemessen.

Texturen 256*256

1 Texture = 1713
2 Texturen = 3147
4 Texturen = 3178
6 Texturen = 2544
8 Texturen = 2324

Leider fehlen die Tests mit einer ungeraden Anzahl von Texturen.

Damit kommen wir auf ca 80% Umsetzung der theoretischen Leistung beim Multitexturing. Die 9700 Pro liegt im gleichen Bereich.

Unregistered
2003-02-24, 11:36:09
Originally posted by robbitop
du weisst schon, dass der ST Fillratentest Bandbreitenlimitiert ist, oder?

Nein ist er nicht,wenn du dich dort im forum/thread was umsiehst, wirst du merken das dort auch nen test mit einer FX gemacht wurde, wo der Speicher stark untertaktet war. 500 anstatt 1000 für den Speicher.
Die Abweichung war bei ein paar %.
Soviel zur Bandbreitenlimitierung.

robbitop
2003-02-24, 11:38:49
quelle bitte zuerst (kein Forumthread).

+sorry war das WE auffer LANARENA in Ilsenburg...und deswegen noch nicht gaz aktuell, but I'm workin on...

robbitop
2003-02-24, 11:41:08
btw ich kenne jmd in NRW, der arbeitet in nem Computerladen dort.
Und die haben gerade 2x GFFX Ultras von Terratec dort...

vieleicht könn wir das nachstellen diese woche...

nagus
2003-03-23, 12:39:55
Nvidia T-Shirt:

http://www.xbitlabs.com/images/news/2003-03/pipe_dream.jpg


:lol::bonk::lol::bonk:

Quelle: XBitlabs.com