PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : R420 = 4x RV350???


egdusp
2003-07-28, 22:29:09
Laut unserer Lieblingsgerüchtequelle NFI http://www.notforidiots.com/GPURW.php (okay, ist im Original von Hellbinder, dem einstmals heftigesten FanATIker.

According to Hellbinder on the nV News forums ( paraphrasing ) :
The R420 chip ( *not* board, this is not multichip ) is made out of RV350 ( or RV360, but they're the same thing really ) elements thanks to physical reuse, giving the ( theorical, at least ) power of 4 RV350s (at Radeon 9600 Pro speeds).
Such a move makes perfect sense considering the RV350 is currently ATI's only 0.13u chip and that they recently announced they'll use physical reuse for future products.

Kann die Original message gerade nicht finden.
Wie dem auch sei, wenn ATI physical reuse machen will und 4x die Power des RV350 erreichen will, dann brauchen sie mindestens 3x RV350 (+33% Takterhöhung).
Bei mindestens 70 mio Transistoren für einen RV350 macht das dann summa summarum 210 mio für einen R420. Das glaubt ja wohl keiner. Slebst wenn sie ineiges wegrationalisieren, wie ein paar Vertexshader dürften durch das 256 bit Interface und die zusätzliche Logik auch eine Menge Transistoren dazukommen.

Ich halte diese Aussage für höchst unwahrscheinlich.
Es sei denn, sie bringen neue Treiber mit gigantischen "Leistungssteigerungen" raus, so wie die Einführung eines 8xAA und 32 AF Modus, der auf der RV350 vielleicht einen 2xSS Anteil braucht und beim R420 mit 1xSS Anteil auskommt.

mfg
egdusp

MegaManX4
2003-07-28, 22:41:12
Original geschrieben von egdusp
Laut unserer Lieblingsgerüchtequelle NFI http://www.notforidiots.com/GPURW.php (okay, ist im Original von Hellbinder, dem einstmals heftigesten FanATIker.

According to Hellbinder on the nV News forums ( paraphrasing ) :
The R420 chip ( *not* board, this is not multichip ) is made out of RV350 ( or RV360, but they're the same thing really ) elements thanks to physical reuse, giving the ( theorical, at least ) power of 4 RV350s (at Radeon 9600 Pro speeds).
Such a move makes perfect sense considering the RV350 is currently ATI's only 0.13u chip and that they recently announced they'll use physical reuse for future products.

Kann die Original message gerade nicht finden.
Wie dem auch sei, wenn ATI physical reuse machen will und 4x die Power des RV350 erreichen will, dann brauchen sie mindestens 3x RV350 (+33% Takterhöhung).
Bei mindestens 70 mio Transistoren für einen RV350 macht das dann summa summarum 210 mio für einen R420. Das glaubt ja wohl keiner. Slebst wenn sie ineiges wegrationalisieren, wie ein paar Vertexshader dürften durch das 256 bit Interface und die zusätzliche Logik auch eine Menge Transistoren dazukommen.

Ich halte diese Aussage für höchst unwahrscheinlich.
Es sei denn, sie bringen neue Treiber mit gigantischen "Leistungssteigerungen" raus, so wie die Einführung eines 8xAA und 32 AF Modus, der auf der RV350 vielleicht einen 2xSS Anteil braucht und beim R420 mit 1xSS Anteil auskommt.

mfg
egdusp

Ganz ehrlich, ich frag mich auch was das bringen soll. 4x1 mal 4 sind zwar auch 16 Pipelines. Ich frag mich nur ob es einfacher ist 4 Cores zu nutzen anstatt einen mit 16. Was man natürlich hätte wäre eine gewisse Redundanz in der Chipfertigung, wenn man das so nennen möchte. Bei einem großen Cores ist es halt wahrscheinlicher einen Fertigungsfehler zu bekommen als bei 4 kleinen Cores (bei denen man sogar den Prozess gut beherscht). Und falls einer der 4 kaputt ist, ist er einfacher auszutauschen und man hat weniger DIE Fläche verschwendet.
Man muss halt nur sicherstellen das die Cores richtig schnell miteinander verbunden sind.

egdusp
2003-07-28, 22:49:26
KLeine aber nicht unwichtige Ergänzung:
Habe den Orginalpost gefunden:
http://www.nvnews.net/vbulletin/showthread.php?s=&threadid=13440&perpage=25&highlight=R420%20and%20RV350&pagenumber=2


R360 is a speed bumped R350. With basically no concern for OEM needs. (from what i understand). In otherwords pushed to the bleeding edge limits. Well... thats only what i have heard.

Now R420 on the other hand is a really interesting creature. For instance... It Reusses Core elements from the Rv350, Not the R350. Which makes sense being a .13um design. Basically what you should consider is its some Conclomeration of the Base Rv350 Pipelines layout (4x1), multiplied, paralellized, Superclocked, with a 256bit bus, Enhanced Shaders and massive tweaks for speed. Also and entire section of the Architecture dedicated to accelerating Doom-III style engines.


Ich denke Uttar (NFI Moderator) hat sich da vertan. Die 4x1 beziehen sich wohl auf die Pipelinearchitektur des RV350 und nicht auf die Leistung.
Aus dem Post würde ich eher auf 2x RV350 mit ein paar Tweaks für D3 schließen.

Ach ja, Hellbinder hat wohl gewisse Insiderinformatione, aber was der Typ an Scheiße verzapft den ganzen Thread über, das geht ja auf keine Kuhhaut.
Er meint, dass NV mit der GFFX nur die GF4 aufgebohrt hätten, ATI aber mit dem R300 eine vollkommen neue Architektur geschaffen hätte. Zum Glück haben wir in unserem Forum Leute, die solche Fehler korrigieren. Überhaupt scheint die Qualität der Posts in diesem Forum verglichen mit vielen anderen sehr hoch zu sein (mit Ausnahmen von beyond3d behaupte ich mal).

mfg
egdusp

BlackBirdSR
2003-07-28, 22:51:09
Original geschrieben von MegaManX4

Man muss halt nur sicherstellen das die Cores richtig schnell miteinander verbunden sind.

ich glaube nicht, dass es hier um 4 eigene Cores geht, die intern verbunden sind.
Vielmehr geht es darum die Designregeln und die Schaltungen für die bestehende RV350 zu nutzen. Man hat bereits fertige Schaltungen, die man mit relativ wenig Aufwand platzieren kann. Man hat mehr Zeit um sich um das Optimieren des Cores zu kümmern.

Keel
2003-07-28, 22:56:27
Na also diese Specs halte ich mal unwahrscheinlich, hab mich vorhin schon gewundert, wieso NFI so etwas postet. Zwar dürften so viele Chips wahrscheinlich gar nichtmal so teuer sein (ist ja eine ungeheure Masse, daher niedrige Stückpreise), aber keiner dürfte wohl solche Produktionskapazitäten haben.

egdusp
2003-07-28, 22:58:23
Original geschrieben von BlackBirdSR
Vielmehr geht es darum die Designregeln und die Schaltungen für die bestehende RV350 zu nutzen. Man hat bereits fertige Schaltungen, die man mit relativ wenig Aufwand platzieren kann. Man hat mehr Zeit um sich um das Optimieren des Cores zu kümmern.

Das glaube ich nicht. Es gab vor einiger Zeit mal die offizielle Meldung, dass ATI Teile ihrer Midrange GPUs physisch in später folgende High End GPUs einbauen wollen. Der Grund liegt IMHO hierbei weniger in der gesparten Rechenleistung in den Serverräumen, sondern in der Fehlerfreiheit (des Designs) dieser Teile. Sofern nur noch relativ einfache Verbindungsschaltungen zwischen den einzelen Coreelementen auf Fehler geprüft werden müssen, erhöht sich die Chance, dass das erste Tapeout direkt lauffähig ist.

Zumindest scheinen aber schon die Whitepapers des R420 fertig zu sein, denn da hat Hellbinder wohl abgeschrieben :D

mfg
egdusp

MegaManX4
2003-07-28, 23:13:45
Original geschrieben von BlackBirdSR
ich glaube nicht, dass es hier um 4 eigene Cores geht, die intern verbunden sind.
Vielmehr geht es darum die Designregeln und die Schaltungen für die bestehende RV350 zu nutzen. Man hat bereits fertige Schaltungen, die man mit relativ wenig Aufwand platzieren kann. Man hat mehr Zeit um sich um das Optimieren des Cores zu kümmern.

Hmm, wir werden sehen. Beides würde Sinn machen. Ein aufbauendes Design auf der einen und ein massiv paralleles auf der anderen Seite.

Aquaschaf
2003-07-29, 00:54:12
Eine Karte mit 4 Cores wäre naja... von der Größe wieder in Richtung V5 6000, also schon deswegen unrealistisch.

Gast
2003-07-29, 01:08:01
Original geschrieben von egdusp
Ach ja, Hellbinder hat wohl gewisse Insiderinformatione, aber was der Typ an Scheiße verzapft den ganzen Thread über, das geht ja auf keine Kuhhaut.
Er meint, dass NV mit der GFFX nur die GF4 aufgebohrt hätten, ATI aber mit dem R300 eine vollkommen neue Architektur geschaffen hätte.

Hehe ja der Hellbinder ist schon eine eigenartige Spezies.
Beispielsweise freute er sich wochen lang diebisch, dass es einen R360 geben wird. Er litt wohl zunehmend darunter, dass ATI als Nr.1 im HIgh End abgelöst wurde.

Soweit so gut, als jedoch die Sache mit dem NV38 rauskam, war er am toben. Bei NVNews postete er noch recht normal und ruhig, wahrscheinlich um noch ein paar Infos aus der ein oder anderen Antwort rauszuziehen.
5 Std. später ging er dann zu rage3d und machte dort einen Thread auf und da ging er dann richtig ab. Erstmal wollte er paar Lorbeeren kassieren, musste allerdings natürlich auf den NVNews Thread verweisen. Er konnte also die Infos sich nicht ganz selber zurechnen.
In jedem Fall wollte er es dann so darstellen, was Nvidia doch für ein Assi Laden ist, weil sie auf den R360 reagieren und würden ihren Boardpartner verprellen.
Was für ein Witz. Da Nvidia und die Boardpartner nicht von gestern sind, haben sie das natürlich bedacht und werden das NV35 Inventory im angemessenen Rahmen halten, so dass man nicht abschreiben muss.
Vor allem was ist wohl für die AIBs besser:
Einen Margensinkenden NV35 verkaufen oder NV35 einstellen und dann gleichauf oder besser mit dem R360 einen NV38 verkaufen.

Der Hellbinder ist wirklich ein Früchtchen hehe. Zum Thema Wettbewerb, rastete er dann völlig aus und stellte sich doch glatt hin und sagte, dass er keinen Wettbewerb durch Nvidia will. Die mit ihrem Management und den fiesen Taktiken und blah......

Der übliche Fanboyscheiss halt. Das ATI keinen Deut besser ist nur eben nicht ganz so clever vergas er dann nebenbei zu erwähnen :)

Kurzum: Ignorieren den Typ.

StefanV
2003-07-29, 01:58:41
Original geschrieben von Aquaschaf
Eine Karte mit 4 Cores wäre naja... von der Größe wieder in Richtung V5 6000, also schon deswegen unrealistisch.

Schonmal was von Multi DIE Cores gehört?? ;)

Ailuros
2003-07-29, 05:20:10
Zumindest scheinen aber schon die Whitepapers des R420 fertig zu sein, denn da hat Hellbinder wohl abgeschrieben.

Ich bezweifle dass irgend ein IHV einfachen Usern Whitepapers vor der Ankuendigung zeigt und ueberhaupt nicht Hellbinder.

BlackBirdSR
2003-07-29, 06:47:48
Original geschrieben von Gast
Hehe ja der Hellbinder ist schon eine eigenartige Spezies.
Beispielsweise freute er sich wochen lang diebisch, dass es einen R360 geben wird. Er litt wohl zunehmend darunter, dass ATI als Nr.1 im HIgh End abgelöst wurde.

Soweit so gut, als jedoch die Sache mit dem NV38 rauskam, war er am toben. Bei NVNews postete er noch recht normal und ruhig, wahrscheinlich um noch ein paar Infos aus der ein oder anderen Antwort rauszuziehen.
5 Std. später ging er dann zu rage3d und machte dort einen Thread auf und da ging er dann richtig ab. Erstmal wollte er paar Lorbeeren kassieren, musste allerdings natürlich auf den NVNews Thread verweisen. Er konnte also die Infos sich nicht ganz selber zurechnen.
In jedem Fall wollte er es dann so darstellen, was Nvidia doch für ein Assi Laden ist, weil sie auf den R360 reagieren und würden ihren Boardpartner verprellen.
Was für ein Witz. Da Nvidia und die Boardpartner nicht von gestern sind, haben sie das natürlich bedacht und werden das NV35 Inventory im angemessenen Rahmen halten, so dass man nicht abschreiben muss.
Vor allem was ist wohl für die AIBs besser:
Einen Margensinkenden NV35 verkaufen oder NV35 einstellen und dann gleichauf oder besser mit dem R360 einen NV38 verkaufen.

Der Hellbinder ist wirklich ein Früchtchen hehe. Zum Thema Wettbewerb, rastete er dann völlig aus und stellte sich doch glatt hin und sagte, dass er keinen Wettbewerb durch Nvidia will. Die mit ihrem Management und den fiesen Taktiken und blah......

Der übliche Fanboyscheiss halt. Das ATI keinen Deut besser ist nur eben nicht ganz so clever vergas er dann nebenbei zu erwähnen :)

Kurzum: Ignorieren den Typ.

behalte deine eigene Meinung, aber versuch nicht sie anderen Aufzuzwingen.
I renn auch nicht rum und lästere über irgendwelche Leute.
werdet erstmal mit den früchtichen in den eigenen Reihen fertig. Hier gibt es Leute, die sind keinen Deut besser.

reunion
2003-07-29, 09:19:08
Haltet ihr das wirklich für so unrealistisch???

Wäre doch ne tolle sache mit 4Cores auf eener Platine...
Da der RV350 kaum Wärme erzeugt hätte man damit sicher kein Problem.
Auch die Leistund dürfte mit 4x (4x1) ordentlich sein, wäre das dann ein 16x1 oder ein 16x4 ???. Ach die Taktraten wären mit 400 mhz ausreichend. Und da ATI den RV350 offensichtlich extrem günstig Herstellt dürfte auch der Preis nicht übermäßig sein...
Immerhin bekommt man eine RV350 schon unter 150€ (wenn auch LE, aber mit vollen 400mhz).
Außerdem glaube ich dieses Gerücht schonmal gehört zu haben...
Das wäre wesentlich interligenter als einen Monsterchip zu produzieren.

Wenn ATI das wirklich bringt wird es NV schwer haben mit dem NV40.


mfg
reu

reunion
2003-07-29, 09:20:30
.

seahawk
2003-07-29, 12:37:24
Hmm, wird es dann nicht noch schwerer eine ausgewogenen Lastverteilung in den einzelnen Bereichen zu erreichen ?? Sehr flexibel erscheint mir dieser Ansatz nämlich nicht.

Allerdings könnte die reine Rohpower ausreichen um eine sehr schnellen Chip zu entwicklen.

LovesuckZ
2003-07-29, 13:17:22
4 * RV350 Core würde ja 240Millionen Transistoren bedeuten :D

Gast
2003-07-29, 13:32:04
Original geschrieben von LovesuckZ
4 * RV350 Core würde ja 240Millionen Transistoren bedeuten :D

Wenn du nichts zu sagen hast, lass es.

reunion
2003-07-29, 13:49:11
Original geschrieben von LovesuckZ
4 * RV350 Core würde ja 240Millionen Transistoren bedeuten :D

Und???
Zum einen wäre die Ausbeute wegen der aufteilung auf 4 Chips ausgezeichnet zum anderen verkauft man vollwertige RV350 Chips bereits unter 150€. Wären bei 4 Chips 600€ :D (Wobei man sich noch die Platinenkosten sparen könnte) Außerdem wäre die Leistung dank 16x1 (PixelxTexel) vermutlich unübertroffen!

Endorphine
2003-07-29, 13:50:21
Wenn man das ganze Gerüchtegelaber mal bei Seite schiebt bleibt im Kern doch eine Aussage übrig, die irgendwie schon wahrscheinlich erscheint: der R420 könnte ungefähr die vierfache Leistung einer R9600/Pro erbringen. Da das ja wieder übliche Marketingrechnungen sind (FX5800U = triple as fast as Ti4800 - blabla) kann man diesen Wert IMHO getrost halbieren.

Was bliebe dann noch übrig - eine 130 nm GPU mit mindestens 8x1 TMUs, hohem Takt und Z/Stencil Optimierungen, um mit nVidia gleich zu ziehen.

Ich glaube, das RV350-Geblubber wird sich wie BlackBirdSR sagte darauf reduzieren, dass ATI auf das bestehende 130 nm-Design aufbaut und damit gesammelte Erfahrungen in den R420 mit einfliessen. Nunja - :zzz:

Viel Rauch um nichts IMHO.

Demirug
2003-07-29, 13:50:54
Original geschrieben von Gast
Wenn du nichts zu sagen hast, lass es.

Er hat doch was zu sagen. Er stellt einen DIE mit 240Millionen Transistoren zur Diskussion.

Demirug
2003-07-29, 13:56:07
Ja Endorphine wahrscheinlich gibt es eine Situation in der man 4 mal so schnell ist.

Der RV350 hat ja ein halbiertes R300/R350 Design. Für den R420 wird man es wieder verdoppeln die Funktionseinheiten die notwendig für die Kopplung der beiden Teile sind wieder einfügen und ein paar Details verbessern und der "Abfall" wird dann als 9600(Pro) verkauft.

Endorphine
2003-07-29, 14:05:56
Original geschrieben von Demirug
Ja Endorphine wahrscheinlich gibt es eine Situation in der man 4 mal so schnell ist. Genau, darauf beziehen sich dann diese Aussagen wie "twice as fast as our previous product*" (immer mit Fussnote). Deshalb sollte man diese Aussagen nicht gleich darauf beziehen, dass da nun tatsächlich ganze vier vollständige RV350-Cores verheiratet werden :bonk: LovesuckZ sagt es, das ist Irrsinn, schon vom transistor count her. Original geschrieben von Demirug
Der RV350 hat ja ein halbiertes R300/R350 Design. Für den R420 wird man es wieder verdoppeln die Funktionseinheiten die notwendig für die Kopplung der beiden Teile sind wieder einfügen und ein paar Details verbessern und der "Abfall" wird dann als 9600(Pro) verkauft. Genau das vermute ich auch. Deshalb kommt mir dieser Sturm im Wasserglas auch so seltsam vor.

Es ist doch überhaupt nicht nötig, irgendwelche unwirtschaftlichen Multichip-Lösungen zu fahren, solange man mit hoher Integration noch Luft nach oben hat. Und speziell ATI kann demnächst noch einiges zulegen, das Potenzial von 130 nm High-End GPUs hat ATI ja im Gegensatz zu nVidia noch nicht einmal angetastet.

Ein Punkt, dem irgendwie kaum Beachtung geschenkt wird IMHO.

Gast
2003-07-29, 15:39:59
Original geschrieben von Demirug
Er hat doch was zu sagen. Er stellt einen DIE mit 240Millionen Transistoren zur Diskussion.

Das meinst doch nicht ernst, oder?

Demirug
2003-07-29, 16:38:02
Original geschrieben von Gast
Das meinst doch nicht ernst, oder?

Warum sollte ich das nicht ernst meinen?

Solange nicht jemand eine andere Idee hat wie man 4 mal die Leistung eines RV350 erreichen will ohne etwa die 4 fache Anzahl von Transitoren zu benötigen ist das durchaus ein Punkt den man erwähnen kann.

ShadowXX
2003-07-29, 17:06:17
Nun, ich gehe davon aus, das die 60Millionen Transistoren nicht alle fürs Rendering sind.
D.H. man kann bestimmt welche Einsparen, wenn man überflüssige doppelte Komponenten (der integrierte TV-Out z.B.) aussortiert.

Hätten dann aber bestimmt immer noch 180Millionen übrig...dass sind wohl auch zu viele...

Aber ich glaube sowieso nicht an dieses 'Gerücht....'

Das einzige was meiner Meinung nach sinnvoll ist, ist es die Erfahrung aus dem rv350 für den r420 zu nutzen...und wenn es ein zwei Sachen gibt, die gut Funktionieren (=besser als beim r3x0) kann man Sie auch mitübernehem.
Ansonsten wissen wir doch alle was man von "4 times faster than you can think" halten kann........

J.S.Shadow

Pathfinder
2003-07-29, 17:55:22
Wenn es irgendetwas sinnvolles gäbe, was ATI hinsichtlich Nutzung von PS2.0 tun kann, dann ist es die doppelte Leistung eines R350 in den R420 zu stecken, um endlich die notwendige Rohleistung zum breiten Einsatz von PS2.0 bieten zu können. Ein Marketing-Wirkung mit dem Namen VS/PS 3.0 wird jedenfalls gegen eine solche Rohleistung ungehört verhallen.

Was sagt ihr zu dieser alten News ;)
http://www.synopsys.com/news/announce/press2003/ati_socbist_pr.html

P.

egdusp
2003-07-29, 18:20:28
Original geschrieben von Ailuros
Ich bezweifle dass irgend ein IHV einfachen Usern Whitepapers vor der Ankuendigung zeigt und ueberhaupt nicht Hellbinder.

Das war auch sarkastisch gemeint, denn die von ihm gewählten Ausdrücke "multiplied, paralellized, Superclocked, with a 256bit bus, Enhanced Shaders and massive tweaks for speed. Also and entire section of the Architecture dedicated to accelerating Doom-III style engines." hören sich nach Werbe..äh..Whitepapers an.

mfg
egdusp

Ailuros
2003-07-30, 03:08:47
Blah ich halt mich lieber zurueck ueber die Persona HB weiter zu kommentieren.

ShadowXX
2003-07-30, 13:32:46
Original von Pathfinder:
Wenn es irgendetwas sinnvolles gäbe, was ATI hinsichtlich Nutzung von PS2.0 tun kann, dann ist es die doppelte Leistung eines R350 in den R420 zu stecken, um endlich die notwendige Rohleistung zum breiten Einsatz von PS2.0 bieten zu können. Ein Marketing-Wirkung mit dem Namen VS/PS 3.0 wird jedenfalls gegen eine solche Rohleistung ungehört verhallen.


beziehst du das jetzt auf die 'schlechte' Shaderleistung des r350??
Oder war das allgemein gemeint??

Und beim letzten Satz kommt irgendwie nicht rüber ob du das Positiv oder Negativ meinst (=sehr schnelle 2.0 Shader wirken nicht gegen 3.0 als Argument, oder andersherum?)

J.S.Shadow

Pussycat
2003-07-30, 13:47:48
Die Marketing-leistung in DX9 bei der 5200 funtzt jedenfalls sehr gut. Ich habe schon 3 verkaufsgespräche erleben dürfen, wo jemand sind so was nehmen sollte wegen dx9.

Gast
2003-07-30, 15:05:51
Original geschrieben von Pussycat
Die Marketing-leistung in DX9 bei der 5200 funtzt jedenfalls sehr gut. Ich habe schon 3 verkaufsgespräche erleben dürfen, wo jemand sind so was nehmen sollte wegen dx9.

Ist doch gut. Je mehr die FX5200 kaufen, desto schneller werden Entwickler veranlasst DX9 einzusetzen.
Die beste Low End Graka die es zu kaufen gibt.

Einfach prächtig.

ATI-Andi
2003-07-30, 16:52:17
Irgendwann werden Transistorzahlen >180Mio garantiert kommen. Fraglich ist nur, ob ATI, die ersten sind, die das manchen. Leicht wird es jedenfalls nicht, die Verlustleistung und die Stromaufnahme in den Griff zu kriegen. Mit der Werbung 4x so schnell kann man heutzutage eh nur noch DAU's locken, da das jeder Hersteller selbst bei Prozessorenrevisionen mittlerweile verspricht. Da könnte dann schon mehr dahinterstecken.

Pussycat
2003-07-30, 18:23:54
Original geschrieben von Gast
Ist doch gut. Je mehr die FX5200 kaufen, desto schneller werden Entwickler veranlasst DX9 einzusetzen.
Die beste Low End Graka die es zu kaufen gibt.

Einfach prächtig.

Und was habe ich davon? Wenn es auf 'ner 5200 läuft, seiht's schlechter wie UT2k3 aus weil diese Karte ansonst viel zu langsam ist.

Nicht prächtig.

LovesuckZ
2003-07-30, 18:30:57
Original geschrieben von Pussycat
Und was habe ich davon? Wenn es auf 'ner 5200 läuft, seiht's schlechter wie UT2k3 aus weil diese Karte ansonst viel zu langsam ist.
Nicht prächtig.

Ohman, wie waers damit: schnellere Verfuegbarkeit von DX9 Effekten.
Man meckert über die GF4MX, da nicht featuremaeßig auf der Zeit, man meckert über die 5200, da featuremaeßig aber nicht leitungstechnisch auf der Zeit.
:schlag:

Pussycat
2003-07-30, 18:43:12
Ich find's nicht schlimm, dass sie DX9 kann, aber ich glaube nicht dass sie dafür sorgen wird dass es sich durchsetzt.

Denkst du dann das man super-duper-spitzen-effekte schreiben wird damit die fx5200 die schön rendert und ansonsten alles eklig lässt damit sie es rendern kann?

Ausserdem find' ich UT 2k3 auch ohne dx9 super aussehen :). Es kommt halt auch auf das Ausnutzen der HW aus.

seahawk
2003-07-30, 18:55:31
Mal was vom R420 von HArdwareluxx :

Allem Anschein nach sind nähere Details zum nächsten Grafikchip von ATI im Internet aufgetaucht.
Die GPU soll mit ca. 450MHz getaktet sein und im 0.13 Verfahren gefertigt werden. Die 256MB GDDR-2 Speicher sollen mit 750MHz laufen was auf einen effektiven Takt von 1.5GHz schließen lässt. Die Karte soll DirectX 9.0 (+PS/VS 3.0) fähig sein und mit dem "Bullet Point" Feature, der "UltraShadow-Ssque Preemptive Clipping" Technologie, einem Hi-Z Puffer sowie einer neuen Truform-Engine ausgestattet sein.

Keel
2003-07-30, 20:45:24
Original geschrieben von seahawk
Mal was vom R420 von HArdwareluxx :

Allem Anschein nach sind nähere Details zum nächsten Grafikchip von ATI im Internet aufgetaucht.
Die GPU soll mit ca. 450MHz getaktet sein und im 0.13 Verfahren gefertigt werden. Die 256MB GDDR-2 Speicher sollen mit 750MHz laufen was auf einen effektiven Takt von 1.5GHz schließen lässt. Die Karte soll DirectX 9.0 (+PS/VS 3.0) fähig sein und mit dem "Bullet Point" Feature, der "UltraShadow-Ssque Preemptive Clipping" Technologie, einem Hi-Z Puffer sowie einer neuen Truform-Engine ausgestattet sein.

Naja, HWdeluxe...
Bei 750 MHz Speicher-Realtakt würden die Dinger noch weitaus heißer laufen als damals bei der FX 5800 U, die hatte ja "gerademal" 500 MHz Realtakt. Zwar ist der R420 noch ne ganze Weile hin, aber phew, 750 Mhz Realtakt auf den RAMs...

@ Pussycat

Glaubst du, dass PS und VS2.0-Effekte auch auf einem R360 oder einem NV38 absolut flüssig laufen würde, wenn diese Effekte mal in etwas größerem Unfang benutzt werden? Das reicht vielleicht gerade dafür aus, um zumindest Feuer oder Wasser damit darzustellen, um mal die 2.0-Fähigkeiten zu zeigen. Hier geht es wirklich nur um die Verbreitung von DX9, der Speed ist hier unbedeutend. In OEM-PCs machen sich diese Dinger ganz gut, sind billig und können DX9. Viele wissen gar nicht, wie langsam diese Karte eigentlich ist.

Ailuros
2003-07-31, 02:26:21
Original geschrieben von seahawk
Mal was vom R420 von HArdwareluxx :

Allem Anschein nach sind nähere Details zum nächsten Grafikchip von ATI im Internet aufgetaucht.
Die GPU soll mit ca. 450MHz getaktet sein und im 0.13 Verfahren gefertigt werden. Die 256MB GDDR-2 Speicher sollen mit 750MHz laufen was auf einen effektiven Takt von 1.5GHz schließen lässt. Die Karte soll DirectX 9.0 (+PS/VS 3.0) fähig sein und mit dem "Bullet Point" Feature, der "UltraShadow-Ssque Preemptive Clipping" Technologie, einem Hi-Z Puffer sowie einer neuen Truform-Engine ausgestattet sein.

Endlich mal ne Spekulation die Sinn macht. :)

reunion
2003-07-31, 11:49:17
Original geschrieben von seahawk
Mal was vom R420 von HArdwareluxx :

Allem Anschein nach sind nähere Details zum nächsten Grafikchip von ATI im Internet aufgetaucht.
Die GPU soll mit ca. 450MHz getaktet sein und im 0.13 Verfahren gefertigt werden. Die 256MB GDDR-2 Speicher sollen mit 750MHz laufen was auf einen effektiven Takt von 1.5GHz schließen lässt. Die Karte soll DirectX 9.0 (+PS/VS 3.0) fähig sein und mit dem "Bullet Point" Feature, der "UltraShadow-Ssque Preemptive Clipping" Technologie, einem Hi-Z Puffer sowie einer neuen Truform-Engine ausgestattet sein.

Naja 450mhz Ciptakt ist doch etwas wenig immerhin erreicht man schon mit den 150nm Prozess bald über 400mhz(R360). Und dazu 750mhz Ramtakt! Macht das überhaupt Sinn???

LovesuckZ
2003-07-31, 12:05:51
Original geschrieben von reunion
Naja 450mhz Ciptakt ist doch etwas wenig immerhin erreicht man schon mit den 150nm Prozess bald über 400mhz(R360). Und dazu 750mhz Ramtakt! Macht das überhaupt Sinn???

Bei 12 Pipes sollten 450 Chiptakt aber reichen.

Pathfinder
2003-07-31, 13:01:46
Original geschrieben von ShadowXX
beziehst du das jetzt auf die 'schlechte' Shaderleistung des r350??
Oder war das allgemein gemeint??

Und beim letzten Satz kommt irgendwie nicht rüber ob du das Positiv oder Negativ meinst (=sehr schnelle 2.0 Shader wirken nicht gegen 3.0 als Argument, oder andersherum?)

J.S.Shadow

Ich habe nichts über die Qualität der Implementierung der R350 Shader-Logik aussagen wollen. Diese ist mit dem R300/R350 ausgewogen gut gelungen. Mir ging es vielmehr um die Frage, ob der R420 komplexere VS/PS 3.0-Funktionseinheiten oder eine durch mehr Parallelverarbeitung beschleunigte R350-VS/PS 2.0 Implementierung haben sollte.

Meine Meinung:
Die Flexibilität bzw. Gestaltungsmöglichkeiten von PS/VS2.0 sind derart weitreichend, daß ich einfach keinen Sinn für 3.0 Shader-Funktionseinheit für Chips der nächsten Generation sehe. Für einen umfassenden/bildschirmfüllenden Einsatz von 2.0-Shadern muß zunächst die dafür notwendige Rohleistung zur Verfügung gestellt werden.
Im Klartext bedeutet dies: Transistoren müssen in mehr Rohleistung und nicht in komplexere Shaderarchitekturen investiert werden. VS/PS 2.0 bieten im Vergleich zu PS 1.x bereits genug Innovationen. Man muß sie nun auch vielfach/großflächig anwenden können.

Also:
Falls ATI sich entschieden hat den R400 mit (vermutlich) VS/PS 3.0 gegen einen stark beschleunigten VS/PS 2.0 R420 zu ersetzen, dann war das die beste Entscheidung, die sie hätten treffen können. In Bezug auf das Marketing der NextGen Chips glaube ich das ein VS/PS 3.0 Verkaufsargument bei einem R400 nicht annähernd die gleich Wirkung gehabt hätte wie es die zum Gewinnen von 2003/2004 Benchmarks notwendige gewaltige Rohleistung des R420 darstellt!

G.
P.

Pathfinder
2003-07-31, 13:15:14
Original geschrieben von reunion
Naja 450mhz Ciptakt ist doch etwas wenig immerhin erreicht man schon mit den 150nm Prozess bald über 400mhz(R360). Und dazu 750mhz Ramtakt! Macht das überhaupt Sinn???
Gemäß der Spekulation verfügt der R420 über 16 Pipes. Damit der Chip nicht übermäßig viel Saft verbraucht, reduziert man den Takt bzw. die Spannung. Bei 16 Pipes wird der 256-Bit Bus zum Bottleneck. Ein hoher Speichertakt hilft hier weiter.

P.

Demirug
2003-07-31, 13:38:19
Original geschrieben von Pathfinder

[QUOTE][SIZE=1]Meine Meinung:
Die Flexibilität bzw. Gestaltungsmöglichkeiten von PS/VS2.0 sind derart weitreichend, daß ich einfach keinen Sinn für 3.0 Shader-Funktionseinheit für Chips der nächsten Generation sehe. Für einen umfassenden/bildschirmfüllenden Einsatz von 2.0-Shadern muß zunächst die dafür notwendige Rohleistung zur Verfügung gestellt werden.
Im Klartext bedeutet dies: Transistoren müssen in mehr Rohleistung und nicht in komplexere Shaderarchitekturen investiert werden. VS/PS 2.0 bieten im Vergleich zu PS 1.x bereits genug Innovationen. Man muß sie nun auch vielfach/großflächig anwenden können.

Mir fallen da genügend Sachen ein die ich mit PS 3.0 anstellen könnte. Das geht zwar auch mehr oder minder alles mit 2.0 Shadern aber eben mit Multipass.

Also:
Falls ATI sich entschieden hat den R400 mit (vermutlich) VS/PS 3.0 gegen einen stark beschleunigten VS/PS 2.0 R420 zu ersetzen, dann war das die beste Entscheidung, die sie hätten treffen können. In Bezug auf das Marketing der NextGen Chips glaube ich das ein VS/PS 3.0 Verkaufsargument bei einem R400 nicht annähernd die gleich Wirkung gehabt hätte wie es die zum Gewinnen von 2003/2004 Benchmarks notwendige gewaltige Rohleistung des R420 darstellt!

G.
P.

ATI muss aber auch weiterhin versuchen bei den Entwickler lieb Kind zu machen. nV kann sich als Marktfüerer da schön auf die Basis die sie haben berufen (auch wenn sie Featuremässig hinterher rennen) aber ATI braucht nextgen Features damit die Entwickler ihere Karten benutzten. Und wenn die Entwickler die Karten nicht mehr ausreichend in der Entwicklung benutzten beginnt wieder der Teufelskreislauf welcher die Treiberqualität nach unten drückt.

ATI hat da ein echtes Dilema am Hals. Sie brauchen Speed um die Tester gütig zu stimmen und Features für die Entwickler. Mit dem R300 haben sie ja beides geschaft aber in wie weit dieser Spagat noch einmal gelingt bleibt abzuwarten.

ShadowXX
2003-07-31, 14:20:52
Ich sehe es auch schon so kommen....

r420 & nv40 haben beide 'tolle' 3.0 PS/VS (bei beiden langsam) und PS/VS2.0 bleibt auf dem Level(bei der Geschwindigkeit) den wir jetzt haben...

Mich würde viel mehr interessieren ob einer von beiden mal über Tri-TMU's nachdenkt....
(das wäre doch ein netter Refresh des r350....360=350 mit Tri-TMUs....leider nur ein Traum..)

J.S.Shadow

Pussycat
2003-07-31, 14:36:37
Original geschrieben von Keel

@ Pussycat

Glaubst du, dass PS und VS2.0-Effekte auch auf einem R360 oder einem NV38 absolut flüssig laufen würde, wenn diese Effekte mal in etwas größerem Unfang benutzt werden? Das reicht vielleicht gerade dafür aus, um zumindest Feuer oder Wasser damit darzustellen, um mal die 2.0-Fähigkeiten zu zeigen.

Ist es echt so schlimm? Demi, kannst du was darüber sagen?

Original geschrieben von Keel

Hier geht es wirklich nur um die Verbreitung von DX9, der Speed ist hier unbedeutend.

Wenn es sich nur darum handelt dass es 'im prinzip' benutzt wird, kan mann's von mir aus auch lassen. Wenn, dann auch schön.

Original geschrieben von Keel

In OEM-PCs machen sich diese Dinger ganz gut, sind billig und können DX9. Viele wissen gar nicht, wie langsam diese Karte eigentlich ist.

Hab ich ja auch gesasgt.

Demirug
2003-07-31, 15:17:21
Original geschrieben von Pussycat
Ist es echt so schlimm? Demi, kannst du was darüber sagen?

Rechnen wir doch mal ein bischen:

Zielauflösung 1024*768@60FPS = 47,2 MPixel/s

Bei einem 380Mhz R300 haben wir 8 Ops* 380 M = 3040 MOps/s

Daraus wiederum ergibt sich: 3040 MOps/s / 47,2MPixel/s = 64,41 Ops/Pixel

Arbeiten wir nun mit einem Z-Buffer kostet uns jeder Overdrawlayer maximal 2 Ops. dank gutem HSR aber weniger. Aber gehen wir nun mal von 5 Layern aus so kosten uns diese 2*5 Ops = 10 Ops. Dadurch das wir am ende ja wirklich einen Pixel zeichnen bekommen wir 1 Op wieder zurück also 9 Ops Verlust für den Overdraw.


Das heist wir kommen auf 64,41 - 9 = 55 Ops/Pixel. 64 Ops sind das maximum von PS 2.0. Wenn man also ohne Multipass und "Render to Texture" Effekte arbeitet kann man für fast jedem Pixel die vollen Möglichkeiten von 2.0 Pixelshadern ausnutzen. Theoretisch zumindestens.

In der Praxis ist es nicht ganz einfach die Pipeline immer unter arbeit zu halten und wenn dann noch Stencilbuffer Geschichten dazu kommen verliert man auch wieder Ops. Also jedem einzelnen Pixel wird man sicherlich nicht die volle PS 2.0 Dröhnung geben können aber für einzelne Objekte wird es schon reichen.

egdusp
2003-07-31, 16:08:06
Original geschrieben von Demirug
Rechnen wir doch mal ein bischen:

Zielauflösung 1024*768@60FPS = 47,2 MPixel/s

Bei einem 380Mhz R300 haben wir 8 Ops* 380 M = 3040 MOps/s

Daraus wiederum ergibt sich: 3040 MOps/s / 47,2MPixel/s = 64,41 Ops/Pixel

Arbeiten wir nun mit einem Z-Buffer kostet uns jeder Overdrawlayer maximal 2 Ops. dank gutem HSR aber weniger. Aber gehen wir nun mal von 5 Layern aus so kosten uns diese 2*5 Ops = 10 Ops. Dadurch das wir am ende ja wirklich einen Pixel zeichnen bekommen wir 1 Op wieder zurück also 9 Ops Verlust für den Overdraw.


Das heist wir kommen auf 64,41 - 9 = 55 Ops/Pixel. 64 Ops sind das maximum von PS 2.0. Wenn man also ohne Multipass und "Render to Texture" Effekte arbeitet kann man für fast jedem Pixel die vollen Möglichkeiten von 2.0 Pixelshadern ausnutzen. Theoretisch zumindestens.

In der Praxis ist es nicht ganz einfach die Pipeline immer unter arbeit zu halten und wenn dann noch Stencilbuffer Geschichten dazu kommen verliert man auch wieder Ops. Also jedem einzelnen Pixel wird man sicherlich nicht die volle PS 2.0 Dröhnung geben können aber für einzelne Objekte wird es schon reichen.

Sobald AF und höhere Auflösungen ins Spiel kommen wird es aber wieder etwas kritisch.
Trotzdem würde mich mal interessieren wie lang ein typischer Shader ist, also z.B. für Wasser oder Bumpmapping und ob jede Shaderinstruktion in einem Pass berechenbar ist, bzw. evtl. sind mehrere pro Pass und Shader Einheit möglich.

Sind im R300 tatsächlich doppelt so viele PS 2.0 Einheiten wie im NV30, NV35? Wozu verbrät der NV30 (35) dann seine ganzen Transistoren? Ich dachte bisher immer, die schlechte Shaderleistung läge nur (haupsächlich) an unangepasstem Shadercode für die GFFX.

mfg
egdusp

Edit: Rechtschreibung

Pathfinder
2003-07-31, 16:48:29
Original geschrieben von Demirug
Mir fallen da genügend Sachen ein die ich mit PS 3.0 anstellen könnte. Das geht zwar auch mehr oder minder alles mit 2.0 Shadern aber eben mit Multipass.



ATI muss aber auch weiterhin versuchen bei den Entwickler lieb Kind zu machen. nV kann sich als Marktfüerer da schön auf die Basis die sie haben berufen (auch wenn sie Featuremässig hinterher rennen) aber ATI braucht nextgen Features damit die Entwickler ihere Karten benutzten. Und wenn die Entwickler die Karten nicht mehr ausreichend in der Entwicklung benutzten beginnt wieder der Teufelskreislauf welcher die Treiberqualität nach unten drückt.

ATI hat da ein echtes Dilema am Hals. Sie brauchen Speed um die Tester gütig zu stimmen und Features für die Entwickler. Mit dem R300 haben sie ja beides geschaft aber in wie weit dieser Spagat noch einmal gelingt bleibt abzuwarten.
Das Spagat-Problem haben NVidia und ATI gemein.
Allgemein geht es immer um das Abwägen zwischen Features und Renderleistung. Deine Betrachtung entbehrt nicht einer gewissen Logik, allerdings kann man sich auch mit mehr Rohleistung bei Entwicklern beliebt machen. Interpretiere ich diverse Kommentare von Entwickler-Kapazitäten richtig, so sind durchaus beeindruckende Effekte mit mit 2.0 möglich, jedoch eben (noch) nicht beliebig oft einsetzbar. Eine 3.0-Architektur würde in diesem Sinne komplexerer (multi-pass 2.0) Shader mittels weniger Passes etwas entschärfen können, aber derart komplexe/lange Shader benötigen, obwohl mit 3.0 eleganter zu bauen, einfach zu viel Ausführungszeit. ATI käme mit mehr Rohleistung der Forderung nach mehr praktischer Nutzbarkeit entgegen. Und nicht zuletzt tragen Benchmark-Siege zur Verbreitung der Architektur bei, was von Entwicklern auch nicht ignoriert werden kann.

Allgemein ist die maßgebliche Gewichtung der Argumente in dieser Diskussion schwierig. Ich persönlich halte mich an die durch den Radeon1/Geforce2-Konkurrenzkampf gewonnene Erfahrung: Das Komplexere Design unterlag der größeren Rohleistung.

P.

Demirug
2003-07-31, 17:06:04
Original geschrieben von egdusp
Sobald AF und höhere Auflösungen ins Spiel kommen wird es aber wieder etwas kritisch.

AF geht auf die Füllrate und hat wenig einfluss auf die Rechenleistung. Ausser wenn die Texturesampler die ALUs blockieren. Das ist aber eine sehr Chipinterne sache bei der man als nicht Mitarbeiter des IHVs kaum an Informationen rann kommt wann es denn nun zu den Blockaden kommt. Auflösung ist Richtig sie wird ja deswegen als eines der Hauptmitel zum skalieren benutzt.

Trotzdem würde mich mal interessieren wie lang ein typischer Shader ist, also z.B. für Wasser oder Bumpmapping und ob jede Shaderinstruktion in einem Pass berechenbar ist, bzw. evtl. sind mehrere pro Pass und Shader Einheit möglich.

Pro Pass können bei PS 2.0 64 ALU und 32 Texture Ops durchgeführt werden. Passes pro Object kann man so viele machen wie man möchte aber das ist eben mit den üblichen Problemen verbunden.

Typische längen sind schwer anzugeben weil man da sehr viel Spielraum hat. Man kann bei jedem Effekt bei bestimmten Berechungen sich überlegen ob diese nun nur Vertex genau oder Pixelgenau sein müssen.

Das einfachste Bumpmapping braucht:

2 Texturesample (Bumpmap + Oberflächenfarbe)
2 Rechenoperationen (Lichtvektor DOT Normalvektor; Dot-Produkt multipliziert mit Oberflächenfarbe)

Jetzt kann man aber anfangen die Qualität zu verbessern und/oder den Effekt interesanter zu machen was allerdings alles Fillrate und/oder Rechenpower kostet.

Ich habe hier einen Wassershader der auf einem R300 59 ALU + 12 Texture Anweisungen hat und auf den NV3X 51 ALU + 12 Texture anweisungen braucht.

Man sieht es geht von sehr kurz bis an die grenzen desen was die Chip können.

Sind im R300 tatsächlich doppelt so viele PS 2.0 Einheiten wie im NV30, NV35? Wozu verbrät der NV30 (35) dann seine ganzen Transistoren? Ich dachte bisher immer, die schlechte Shaderleistung läge nur (haupsächlich) an unangepasstem Shadercode für die GFFX.

mfg
egdusp

Edit: Rechtschreibung

Ich müsste Lügen wenn ich sagen würde das ich darauf die absolute Antwort habe. Das einzige was nv bezüglich der Rechenleistung der NV3X Rheie AFAIK bisher gesagt hat ist das der NV35 entweder 12 ALU Ops oder 8 Alu + 8 Texture Ops pro Takt können soll. Zu allen anderen Chips der NV3X Rheie gibt es nur mehr oder weniger gut begründete Annahmen. Aber der Shadercode spielt durchaus eine Rolle bei dieser ganzen Sache.

zeckensack
2003-08-01, 04:25:41
Original geschrieben von Pathfinder
Gemäß der Spekulation verfügt der R420 über 16 Pipes.Nur mal so als Denkanstoß:
Je mehr parallele Einheiten ich einsetze, desto mehr Verschnitt riskiere ich. Die Effizienz sinkt.

Wenn nun ein Dreieck kleiner als 16 Pixel ist, oder (wahrscheinlicher), nicht mehr 16 Pixel die zum gleichen Dreieck gehören in einer 'gewünschten' Speicherregion (8x2 Pixel beim R300) zu liegen kommen, dann dreht ein Teil der Pipes Däumchen. Der wichtigste Stolperstein hierbei ist, daß man für Effizienz am Memory-Interface zusammenhängende Bursts braucht. Die kriegt man aber nur, wenn alle produzierten Pixel in einem definierten Fenster liegen.

Deswegen ist IMO eine Verdopplung des Takts erstmal per se besser als eine Verdopplung der Pipeline-Anzahl.

Als Anekdotenbeweis würde ich zB den Vergleich Radeon9600Pro vs Radeon9500Pro heranziehen. Ersterer ist nie taktnormalisiert halb so schnell, er ist immer (wenn auch wenig) besser.

Ich kann auch - zugegeben stark synthetische - völlig texturlose Benchmarks konstruieren, in denen ein R100 taktnormalisiert genauso schnell ist wie ein R300. Ehrlich gesagt habe ich das sogar schon gemacht :D

Demirug
2003-08-01, 07:57:31
Original geschrieben von zeckensack
Nur mal so als Denkanstoß:
Je mehr parallele Einheiten ich einsetze, desto mehr Verschnitt riskiere ich. Die Effizienz sinkt.

Wenn nun ein Dreieck kleiner als 16 Pixel ist, oder (wahrscheinlicher), nicht mehr 16 Pixel die zum gleichen Dreieck gehören in einer 'gewünschten' Speicherregion (8x2 Pixel beim R300) zu liegen kommen, dann dreht ein Teil der Pipes Däumchen. Der wichtigste Stolperstein hierbei ist, daß man für Effizienz am Memory-Interface zusammenhängende Bursts braucht. Die kriegt man aber nur, wenn alle produzierten Pixel in einem definierten Fenster liegen.

Sicher das der R300 Pixel nicht bereits in 2 mehr oder minder unabhängien 2*2 Pixelblöcken bearbeitet? Soll heisen das die 8 Pipelines aus 2 unabhängigen Gruppen a 4 Pipelines bestehen.

Beim P10/P9 ist das einfacher der skaliert linear mit der Anzahl der Pipelines egal wie gross die Dreiecke sind (zumindestens theoretisch).

Deswegen ist IMO eine Verdopplung des Takts erstmal per se besser als eine Verdopplung der Pipeline-Anzahl.

Als Anekdotenbeweis würde ich zB den Vergleich Radeon9600Pro vs Radeon9500Pro heranziehen. Ersterer ist nie taktnormalisiert halb so schnell, er ist immer (wenn auch wenig) besser.

Ja, mehr Takt bei unveränderter Architektur ist in der Regel erst mal besser.

Ich kann auch - zugegeben stark synthetische - völlig texturlose Benchmarks konstruieren, in denen ein R100 taktnormalisiert genauso schnell ist wie ein R300. Ehrlich gesagt habe ich das sogar schon gemacht :D

Ja, und man findet sicher sogar etwas wo ein R100 schneller als ein R300 ist. :D

Pathfinder
2003-08-01, 08:46:11
Original geschrieben von zeckensack
Nur mal so als Denkanstoß:
Je mehr parallele Einheiten ich einsetze, desto mehr Verschnitt riskiere ich. Die Effizienz sinkt.

Wenn nun ein Dreieck kleiner als 16 Pixel ist, oder (wahrscheinlicher), nicht mehr 16 Pixel die zum gleichen Dreieck gehören in einer 'gewünschten' Speicherregion (8x2 Pixel beim R300) zu liegen kommen, dann dreht ein Teil der Pipes Däumchen. Der wichtigste Stolperstein hierbei ist, daß man für Effizienz am Memory-Interface zusammenhängende Bursts braucht. Die kriegt man aber nur, wenn alle produzierten Pixel in einem definierten Fenster liegen.

Deswegen ist IMO eine Verdopplung des Takts erstmal per se besser als eine Verdopplung der Pipeline-Anzahl.

Als Anekdotenbeweis würde ich zB den Vergleich Radeon9600Pro vs Radeon9500Pro heranziehen. Ersterer ist nie taktnormalisiert halb so schnell, er ist immer (wenn auch wenig) besser.

Ich kann auch - zugegeben stark synthetische - völlig texturlose Benchmarks konstruieren, in denen ein R100 taktnormalisiert genauso schnell ist wie ein R300. Ehrlich gesagt habe ich das sogar schon gemacht :D
Vollkommen richtig! - Also muß man abwägen:

Ca. 450 MHz wären eine moderate Taktung für einen verbesserten (eventuelle Low-K) 130nm Prozeß. Bei einem Chip mit 200+ Transistoren ist die Wärmeentwicklung ein Thema. Eine niedrige Versorgungsspannung mit erheblich geringere Verlustleistung könnte eine thermisch bessere Lösung sein als 12 Pipes mit weniger Transistoren aber höherem Takt. Des gleichen mag sogar für die Performance gelten, trotz Verschnitt!
Ein gutes negativ-Beispiel ist die mit viel Spannung auf 500MHz gequälte GFX5800-Ultra, deren Verlustleistung zu FX-Flow führte. Sicher war der 130nm Prozeß bzw. das thermische Design noch nicht so ausgreift, das hinderte NVidia nicht daran, den Chip auf 500MHz zu brügeln. Auch der R350 verbraucht trotz verhältnismäßig geringer Takterhöhung bereits überproportional mehr als ein R300 als Folge eine Spannungserhöhung.

Was nun die bessere Lösung für den R420 ist, wird ATI hoffentlich in Simulationen ermittelt haben. Außerdem ist die Frage nach der yield-rate nicht unerheblich - Ein kleiner Die mit mehr Takt-Ausschuß oder ein größerer Die mit größerer Chance auf Herstellungsfehler.

G.
P.

Riptor
2003-08-03, 02:40:06
Original geschrieben von BlackBirdSR
behalte deine eigene Meinung, aber versuch nicht sie anderen Aufzuzwingen.
I renn auch nicht rum und lästere über irgendwelche Leute.
werdet erstmal mit den früchtichen in den eigenen Reihen fertig. Hier gibt es Leute, die sind keinen Deut besser.

Wie wahr, wie wahr... Mehr sollte auch nicht gesagt werden und jeder, der sich angesprochen fühlt: Nein, ihr seid nicht gemeint.

Original geschrieben von seahawk
Die GPU soll mit ca. 450MHz getaktet sein und im 0.13 Verfahren gefertigt werden. Die 256MB GDDR-2 Speicher sollen mit 750MHz laufen was auf einen effektiven Takt von 1.5GHz schließen lässt. Die Karte soll DirectX 9.0 (+PS/VS 3.0) fähig sein und mit dem "Bullet Point" Feature, der "UltraShadow-Ssque Preemptive Clipping" Technologie, einem Hi-Z Puffer sowie einer neuen Truform-Engine ausgestattet sein.

GPU-Takt nur bei 450MHz --> Platz für nen Refresh! Allerdings: Bei 12 bzw. 16 Pipes (Verschnitt hin oder her ;) ) reicht es, viel wichtiger wird doch auch in Zukunft die Kühlung werden. Die thermischen Probleme wurden doch schon beim NV30 mehr als deutlich. Wichtig dabei: Die Hersteller gehen immer mehr in die OC-Regionen, und wollen diese stabil halten. Dabei soll aber auch kein Kühlmonstrum werkeln, obwohl ich glaub, dass wir in Zukunft auch immer mehr in Richtung Aquarium gehen werden, sprich WaKü... Oder weiß jemand eine anderen SINNVOLLE Kühllösung für zukünftige ~200mio Transistoren?

MadManniMan
2003-08-03, 03:04:36
Och, ich sag nur 2 Sachen dazu. Einmal ernst gemeint, einmal nich. Ratet mal, wo ;)

A) 2 TriTMUs / Pipe <- Idealfall. Eins von beiden (TriTMU oder 2*TMU) wäre auch schön.

B) R100: 2*3-Design / R200: 4*2-Design / R300: 8*1-Design / R400: 16*... :D

Ailuros
2003-08-03, 05:09:51
Und was passiert wenn der Pipeline/TMU Aufbau mehr oder weniger so variabel ist wie beim NV3x? Irgendwelche Spekulationen dazu? ;D

zeckensack
2003-08-03, 09:30:38
Original geschrieben von Ailuros
Und was passiert wenn der Pipeline/TMU Aufbau mehr oder weniger so variabel ist wie beim NV3x? Irgendwelche Spekulationen dazu? ;D Variabel?
Wo ist der denn variabel???
Im Gegenteil, starr 4x2 wurde bereits einwandfrei nachgewiesen.

Demirug
2003-08-03, 09:37:54
Original geschrieben von zeckensack
Variabel?
Wo ist der denn variabel???
Im Gegenteil, starr 4x2 wurde bereits einwandfrei nachgewiesen.

NV30: Ja. wenn man reine Stencil und Z-Passes mal nicht beachtet
NV31: 2*2 ; 4*1 (Singeltexture)
NV34: 4*1 bei Singletexture ; 2*2 bei MT mit bis zu 4 Texturen, PS <= 1.3) ; 1*2 (tri) bei MT mit mehr als 4 Texturen, PS >= 1.4
NV35: ?? Wahrscheinlich wie NV30
NV36: ??
NV38: ??

zeckensack
2003-08-03, 09:55:16
Original geschrieben von Demirug
NV30: Ja. wenn man reine Stencil und Z-Passes mal nicht beachtet
NV31: 2*2 ; 4*1 (Singeltexture)
NV34: 4*1 bei Singletexture ; 2*2 bei MT mit bis zu 4 Texturen, PS <= 1.3) ; 1*2 (tri) bei MT mit mehr als 4 Texturen, PS >= 1.4
NV35: ?? Wahrscheinlich wie NV30
NV36: ??
NV38: ?? Hmmm, gutes Argument, insbesondere NV34.
Da habe ich mich wohl zu sehr auf NV30 eingeschossen :(

MadManniMan
2003-08-03, 10:15:47
Original geschrieben von Ailuros
Und was passiert wenn der Pipeline/TMU Aufbau mehr oder weniger so variabel ist wie beim NV3x? Irgendwelche Spekulationen dazu? ;D

Ich WUSSTE, daß das kommt... :D

Ich kann mir nicht vorstellen, daß man anhand von Messungen irgendwann nicht mehr sagen kann, wie sich ne Karte Pipe-Technisch verhält.

Quasar
2003-08-03, 10:17:59
Original geschrieben von Demirug
NV30: Ja. wenn man reine Stencil und Z-Passes mal nicht beachtet
NV31: 2*2 ; 4*1 (Singeltexture)
NV34: 4*1 bei Singletexture ; 2*2 bei MT mit bis zu 4 Texturen, PS <= 1.3) ; 1*2 (tri) bei MT mit mehr als 4 Texturen, PS >= 1.4
NV35: ?? Wahrscheinlich wie NV30
NV36: ??
NV38: ??

nV35 ist, soweit ich weiß, so aufgebaut, wie der nV30.

StevenB
2003-08-03, 10:30:00
Ich tipp eher auf vielleicht eine MAXX version ;)


Praktisch eine Multichiplösung, denn 4 cores ist unwahrscheinlich :)

Börk
2003-08-04, 18:43:04
Original geschrieben von Quasar
nV35 ist, soweit ich weiß, so aufgebaut, wie der nV30.
Soll der NV35 nicht bei Pixelshader Operationen mit 8*1 anstelle des 4*2 vom NV30 laufen? So hat es glaube ich mal Demirug gesagt (lange ists her :D)

Spake
2003-08-04, 19:01:08
Original geschrieben von burk23
Soll der NV35 nicht bei Pixelshader Operationen mit 8*1 anstelle des 4*2 vom NV30 laufen? So hat es glaube ich mal Demirug gesagt (lange ists her :D)
was das pipeline-design des nv30 angeht kenn ich mich kaum aus aber...:
ich kann immerhin demirug zitieren und was er ein paar posts früher schon angedeutet hat:
->"Original geschrieben von Demirug
NV30: Ja. wenn man reine Stencil und Z-Passes mal nicht beachtet"

jetzte behaupte ich einfach mal das der nv30 nur bei stencil und z-passes eine 8x1 architektur ist und sonst 4x2

Börk
2003-08-04, 19:04:25
Original geschrieben von Spake
was das pipeline-design des nv30 angeht kenn ich mich kaum aus aber...:
ich kann immerhin demirug zitieren und was er ein paar posts früher schon angedeutet hat:
->"Original geschrieben von Demirug
NV30: Ja. wenn man reine Stencil und Z-Passes mal nicht beachtet"

jetzte behaupte ich einfach mal das der nv30 nur bei stencil und z-passes eine 8x1 architektur ist und sonst 4x2
Womit lässt sich dann die verbesserte Pixelshader-Leistung erklären, die ja auch bei den von Nvidia nicht "optimierten" Spielen auftritt.
Wenn der NV35 weiterhin 4*2 bei PS wäre, dann sollte er ja theoretisch PS langsamer berechnen, da er nen niedrigeren Takt hat.
Naja, mal sehen was Demi dazu sagt...

Demirug
2003-08-04, 19:04:58
Original geschrieben von burk23
Soll der NV35 nicht bei Pixelshader Operationen mit 8*1 anstelle des 4*2 vom NV30 laufen? So hat es glaube ich mal Demirug gesagt (lange ists her :D)

Also zum NV35 habe ich in dieser Richtung überhaupt nichts gesagt.

Aber 8*1 kann nicht sein weil eine 5900 ausser in Spezialfällen nicht über die 1800 MPixel/s Grenze kommet.

Also 4*2 wobei AFAIK die beiden TMUs+die dazugehörige Recheneiheit wenn sie nicht gerade Texturen samplen auch als ALU für den Pixelshader benutzt werden können.

Börk
2003-08-04, 19:11:15
Original geschrieben von Demirug
Also 4*2 wobei AFAIK die beiden TMUs+die dazugehörige Recheneiheit wenn sie nicht gerade Texturen samplen auch als ALU für den Pixelshader benutzt werden können.
Daher also die erhöhte PS-Leistung.
Dann ist die von NV propagandierte doppelte PS-Leistung also auch nur bei untexturierten Szenen möglich....

Demirug
2003-08-04, 19:28:25
Original geschrieben von burk23
Daher also die erhöhte PS-Leistung.
Dann ist die von NV propagandierte doppelte PS-Leistung also auch nur bei untexturierten Szenen möglich....

Nö nach aktuellem Erkenntnissstand alles ganz anders.

Immer pro Takt und Pipe


NV30:

2 Texturesamples oder eine FP32 Operation.
+
2 Integerops oder 4 spezielle (z.b Multiplikationen) Integerops

NV35:

2 Texturesamples oder eine FP32 Operation.
+
2 FP32 Operationen

Möglicherweise ist jeweils 1 FP32 Op durch 2 FP16 Ops ersetzbar es
könnte sich aber auch nur um eine Einsparung von interner Bandbreite
handeln.

Ebenfalls noch nicht geklärt ist die Frage ob die FP32 Operation der
Texturesamples bei jedem Takt den eine TMU sampelt gebraucht wird
oder nur zum Einleiten des samplens.

Börk
2003-08-04, 19:37:28
Original geschrieben von Demirug
Nö nach aktuellem Erkenntnissstand alles ganz anders.

Immer pro Takt und Pipe


NV30:

2 Texturesamples oder eine FP32 Operation.
+
2 Integerops oder 4 spezielle (z.b Multiplikationen) Integerops

NV35:

2 Texturesamples oder eine FP32 Operation.
+
2 FP32 Operationen

Möglicherweise ist jeweils 1 FP32 Op durch 2 FP16 Ops ersetzbar es
könnte sich aber auch nur um eine Einsparung von interner Bandbreite
handeln.

Ebenfalls noch nicht geklärt ist die Frage ob die FP32 Operation der
Texturesamples bei jedem Takt den eine TMU sampelt gebraucht wird
oder nur zum Einleiten des samplens.

Inwiefern unterscheiden sich jetzt die TMUs von NV30 und NV35?
Nach deinem Schema ja gar nicht...

Demirug
2003-08-04, 19:42:05
Original geschrieben von burk23
Inwiefern unterscheiden sich jetzt die TMUs von NV30 und NV35?
Nach deinem Schema ja gar nicht...

Die TMUs sind identisch. Die Änderung liegt bei den ShaderALUs