NV40 Specs [Archiv] - 3DCenter Forum

Gaestle

2003-10-27, 12:06:34

Na, vielleicht wird auch FP24 reingebastelt, für die Leistung PS2.0 Games.
Oder Ihnen ist die Qualitätsdiskussion egal (was ja so zu sein scheint - siehe "brilineares" Filtern und der Hauptkonkurrent machts ja auch nicht anders) und sie arbeiten mit "Mixed Mode", was zwar anscheinend bei ps2.0 FP24 äquivalente Ergebnisse liefern kann, aber bestimmt angekreidet wird (zum einen pauschal von Fanboys aber auch weil hier anscheinend einige unwägbarkeiten reinzukommen könnten).

Was ich persönlich richtig gut finden würde wäre, wenn einer der beiden Dicken mal sagt: Leistungen über 100fps reichen, also gibt's hier volle Kanne Qualität. In der Hoffnung, dass dann der zeite Dicke sagt: okay, so kann man's auch machen.
Dummerweise wird der zweite Dicke nicht zu diesem Schluss kommen, weil der erste Dicke von ca. 95% der Reviewern ausgebuht wird, weil er bei MP2 nur 105 statt 125 fps schafft, bei HL2 nur 130 statt 145fps und bei D3 nur 85 statt 112fps. Die BQ interessiert ja dann auch nicht.

Aber das war schon wieder mal mehr, als ich eigentlich posten wollte. Wichtig ist nur der erste Satz ;)

Grüße

2003-10-27, 12:22:20

Endorphine

2003-10-27, 12:29:10

Würde eine 8*2/16*1-Architektur die GPU nicht unverhältnismässig aufblähen (Die-Fläche -> wirtschaftliche Produktion)? Ich könnte mir eher vorstellen, dass es einen Zwischenschritt à la 6x2/12*1 geben wird. Oder spricht da technisch etwas dagegen?

FP24 halte ich auch für unwahrscheinlich. nVidia hat bereits FP32 und zusätzlich noch FP16, wozu dann noch FP24?

Gaestle

2003-10-27, 12:31:38

Original geschrieben von ow
Sehr unwahrscheinlich.
Denn wer FP32 hat braucht kein FP24 mehr.

Daran hab' ich auch schon gedacht. Allerdings war es meines Wissens bisher so, dass erst die Generation B die von Generation A (= Vorgänger von B) eingeführten Features in gutem Speed ausführen konnten. Heute sieht man das m.E. bei neuen DX9-Titeln, die auch auf einer R360 noch kräftige dropdowns unter 30fps haben.
Und: Was, wenn FP32 nicht benötigt wird und FP32 nicht so schnell (ich meine vom Speed der Ausführung der entsprechenden Anweisungen etc.) implementiert werden kann wie FP24???

Grüße

Gast

2003-10-27, 12:33:05

Original geschrieben von ow
Sehr unwahrscheinlich.
Denn wer FP32 hat braucht kein FP24 mehr.

Unwahrscheinlich, aber nicht aus dem von ow genannten Grund.

2003-10-27, 12:34:50

2003-10-27, 12:35:26

2003-10-27, 12:49:33

Ailuros

2003-10-27, 14:07:05

Wann begann der chalk-board Design des NV40? Natuerlich gibt es Aenderungen bzw. Verbesserungen im Vergleich zu NV3x, aber so fundamental dass das Ganze von Grund auf entwickelt wurde nun auch wieder nicht. Es wird weiterhin verschiedene FP Werte im Markt geben bis Chips so stark sind dass sie ausschliesslich FP32 oder hoeher ohne Sorgen in jeder Situation anwenden koennen.

Nochmal fuer den Transitions-Zeitraum von dx7/dx9 hybriden Spielen ist FP16 durchaus genug und bis zu vollen dx9 Spielen haben wir ja noch mehrere Jahre Zeit.

Ailuros

2003-10-27, 14:11:22

- 600+ mhz Core

Hier ist der wichtigste Punkt. Anfang 2002 war NV30 fuer etwa 100+M Transistoren und 400MHz ausgelegt. Wieso es auf hoehere Taktungen und mehr Transistoren im Endeffekt kam ist bekannt.

NV40 ging von 150+ zu 170+M AFAIK. Viel raten muss ich da persoenlich nicht, es erklaert auch die Verspaetungen.

reunion

2003-10-27, 14:46:58

Original geschrieben von seahawk
Wenn wir so ein Thread für den R420 dann sollten wir es auch für den NV 40 haben.

Bei NV fehlen mir persönlich wichtige Infos um sicher zu sein.
sicher dürfte sein :

"Dürften sicher sein..." woher nimmst du diese Infos???

- 0,13 Prozess (SOI)

SOI halte ich für unwarscheindlich, man sieht ja wielange AMD bei einen weniger komplexen Chip gebraucht hat um SOI hinzubekommen...

- PS/VS 3.0

Dürfte fix sein...

- volle 8x2 (vituell 16x1)

Unrealistisch, eher 6x2...

- 600+ mhz Core

Sorry, aber total überzogen, falls der NV40 weiter im 130nm Prozess gefertigt wird düften allein schon wegen der höheren Transitorenzahl kaum Taktsteigerungen drin sein, ich würde von maximal 500mhz ausgehn...

- wesentlich verbesserte Shaderleistung

Damit kann man wohl nach der Blamage mit dem NV3x rechnen ;)

- FP 16 + FP32

Dürfte auch klar sein

Winter[Raven]

2003-10-27, 14:48:33

NV40 ging von 150+ zu 170+M AFAIK. Viel raten muss ich da persoenlich nicht, es erklaert auch die Verspaetungen.

Quelle ?

Gast

2003-10-27, 14:49:43

Original geschrieben von Winter[Raven]
Quelle ?

dein popo, winterreifen :D

Ailuros

2003-10-27, 14:52:04

Original geschrieben von Winter[Raven]
Quelle ?

Hoch oben am Berg ueberm Wasserfall ;D

Gast

2003-10-27, 14:59:25

@winterreifen, komm bettel, knie nieder :massa: und dann gibt es evtl. eine quelle :deal:

Ailuros

2003-10-27, 15:06:23

Original geschrieben von Gast
@winterreifen, komm bettel, knie nieder :massa: und dann gibt es evtl. eine quelle :deal:

Was soll der Quatsch? Koennte ich seine legitime Frage beantworten, wuerde ich es machen. Solche Sticheleien sind nutzlos.

Gast

2003-10-27, 15:09:01

Original geschrieben von Ailuros
Was soll der Quatsch? Koennte ich seine legitime Frage beantworten, wuerde ich es machen. Solche Sticheleien sind nutzlos.

ich dachte wir sind freunde :bawling: aber wenns so ist :bla:+:sulkoff:

aths

2003-10-27, 15:09:53

Original geschrieben von Endorphine
Würde eine 8*2/16*1-Architektur die GPU nicht unverhältnismässig aufblähen (Die-Fläche -> wirtschaftliche Produktion)? Ich könnte mir eher vorstellen, dass es einen Zwischenschritt à la 6x2/12*1 geben wird. Oder spricht da technisch etwas dagegen? Japp. Informatiker, die Daten verarbeiten müssen, lieben Zweierpotenzen.

Original geschrieben von reunion
Unrealistisch, eher 6x2...Nix 6x.

Ich erwarte beim NV40 8x2 bi.

Gast

2003-10-27, 20:43:31

Wahrscheinlich werden NV40 und R420 bis zu 30 Prozent schneller sein als die schnellsten jeweiligen Vorgängerkarten. Diesen Sprung beobachtet man jedenfalls meistens bei neuen Generationen.
Aber Geschwindigkeit ist nicht alles. NV40 und R420 könnten technisch sehr schnell veraltet sein. DX10 ist bei Erscheinen dieser beiden Karten noch nicht fertig, aber wenn es einige Monate später fertig ist, wird es bis zur Nutzung in Spielen wesentlich kürzer dauern als bei DX9, und schon das wurde schon sehr frühzeitig genutzt.
Ich weiß allerdings nicht, ob es bei der Entwicklung von DX-Versionen schon vor dem Final Release Features gibt, die so sicher sind, dass Graka-Hersteller sie schon ruhigen Gewissens einbauen können. Das könnte die Zukunftssicherheit der Karten dann erhöhen.
OpenGL ist mittlerweile kaum noch ein Thema. Selbst OGL 2.0 wird afaik nur das Niveau von DX9 erreichen, so dass auch DX9-Karten für D*** reichen werden.

seahawk

2003-10-27, 20:56:36

DX-Next wird wohl erst mit Longhorn kommen und da ist noch lange hin. OS/VS 3.0 sind bereits in DX9 verankert.

Quasar

2003-10-27, 23:20:14

Original geschrieben von aths
Ich erwarte beim NV40 8x2 bi.

Ganz im Ernst?
Ich eher etwas in der Richtung doppelter nV36.

reunion

2003-10-27, 23:26:46

Original geschrieben von Quasar
Ganz im Ernst?
Ich eher etwas in der Richtung doppelter nV36.

Doppelter NV36 würde ja nichtmal wirklich reichen um den NV38 zu schlagen ...

Gast

2003-10-28, 00:28:04

NV40 8x2 bi und 670 mhz core ist schon seit einem halben jahr fix

leider andere stats waeren nur spec

Ailuros

2003-10-28, 01:19:30

Original geschrieben von Gast
NV40 8x2 bi und 670 mhz core ist schon seit einem halben jahr fix

leider andere stats waeren nur spec

Inwiefern fix ueberhaupt erstmal die Taktrate? Haette NV40 schon ein erfolgreiches tapeout (um genauer zu sein das was man darunter meistens versteht) hinter sich, dann koennte man schon die finale Taktrate vom sign-off speed abraten. Wuerden schon 6 Monate genau 670MHz feststehen, muesste NV40 heute kaufbar sein.

Xmas

2003-10-30, 17:42:25

- 0,13 Prozess (SOI)
Glaube ich nicht.

- PS/VS 3.0
Sollte sicher sein.

- volle 8x2 (vituell 16x1)
Um mal von den Pipelines wegzukommen: Ich glaube dass der Chip >= 24 PS-Instruktionen/Takt (Peak, vec4) ausführen kann. Aber ich lege mich nicht fest welche ;)
Außerdem denke ich dass er mindestens 8 trilineare Samples pro Takt erzeugen kann.

- 600+ mhz Core
Möglich. Auf jeden Fall rechne ich mit einer eher großen Kühllösung.

- wesentlich verbesserte Shaderleistung
Siehe oben.

- FP 16 + FP32
Da FP16 bei NV3x sowieso nur dazu dient, Register zu sparen, halte ich es sogar für möglich dass der NV40 nur FP32 unterstützt.

Ansonsten erwarte ich noch wesentlich besseres AA, 16x AF (möglicherweise mit verändertem Algorithmus) und on-chip Tessellation.

Demirug

2003-10-30, 18:21:04

Original geschrieben von Xmas
- FP 16 + FP32
Da FP16 bei NV3x sowieso nur dazu dient, Register zu sparen, halte ich es sogar für möglich dass der NV40 nur FP32 unterstützt.

AFAIR braucht ein 1/sqrt(x) mit FP32 2 Takte und mit FP16 nur einen.

robbitop

2003-10-30, 18:55:51

Original geschrieben von Xmas
- 0,13 Prozess (SOI)
Glaube ich nicht.

- PS/VS 3.0
Sollte sicher sein.

- volle 8x2 (vituell 16x1)
Um mal von den Pipelines wegzukommen: Ich glaube dass der Chip >= 24 PS-Instruktionen/Takt (Peak, vec4) ausführen kann. Aber ich lege mich nicht fest welche ;)
Außerdem denke ich dass er mindestens 8 trilineare Samples pro Takt erzeugen kann.

- 600+ mhz Core
Möglich. Auf jeden Fall rechne ich mit einer eher großen Kühllösung.

- wesentlich verbesserte Shaderleistung
Siehe oben.

- FP 16 + FP32
Da FP16 bei NV3x sowieso nur dazu dient, Register zu sparen, halte ich es sogar für möglich dass der NV40 nur FP32 unterstützt.

Ansonsten erwarte ich noch wesentlich besseres AA, 16x AF (möglicherweise mit verändertem Algorithmus) und on-chip Tessellation.

SOI glaube ich auch nicht dran -> zu riskant und vA zu teuer (ein 300mm SOI Wafer ist sauteuer)
Kühllösung ist so eine Sache...wie wir schon oft gesehen haben hat nVIDIA bisher große Kühllösungen gebracht, obwohl kleine meistens reichen würden. Der Markt verlangt das wohl..

Aber glaubst du wirklich an 8 trilineare Samples? Der NV30/35 hat davon 4. Mit trilinearen TMUs währen es hier 8.

Ausgehend von einer Pipelinestruktur (davon wird der NV40 wohl noch nicht ganz wegkommen) heisst das, dass er 4-8 Pipelines bekommt.

8würden bei 170Mio Transistoren recht arg werden...ich weiss es aber einfach nicht...

OnChiptesslation ..also PPP...weiss jmd wieviel Transistoren soetwas ca benötigt?

Mich würden auch änderungen an der Pixelpipeline interessieren...ich denke mal der Pixelshader bereich müsste aufgrund von ineffektivität einfach umgearbeitet werden...

mal OT: nach dem Review von Beyond3d steht es fest, dass der NV36 das volle VS Array des NV35 bekommen hat und ausserdem wurden FX12 Einheiten rausgeschmissen und durch FP32 ersetzt. Aber ich lese hier von 82Mio Transistoren und AFAIR hatte NV36 80MIO. Ich habe das VS Array größer eingestuft...gibt es hier evl Fehlinfos..ich hätte den NV36 auf ~90Mio geschätzt bei den Änderungen

und trotzdem ist das Teil super Taktbar und die nonultraversion hat nen sehr kleines PCB/Lüfter und kommt auch ohne zusätzliche Stromversorgung aus und das bei 425Mhz Chiptakt...wie kommts?

Xmas

2003-10-30, 19:18:46

Original geschrieben von robbitop
Aber glaubst du wirklich an 8 trilineare Samples? Der NV30/35 hat davon 4. Mit trilinearen TMUs währen es hier 8.

Ausgehend von einer Pipelinestruktur (davon wird der NV40 wohl noch nicht ganz wegkommen) heisst das, dass er 4-8 Pipelines bekommt.

8würden bei 170Mio Transistoren recht arg werden...ich weiss es aber einfach nicht...
Recht arg? Meinst du jetzt dass 170 Mio. Transistoren nicht für 2 Quad-Pipelines reichen würden?

Ich rechne mit mindestens 8 trilinearen Samples.

Ailuros

2003-10-31, 03:27:55

OnChiptesslation ..also PPP...weiss jmd wieviel Transistoren soetwas ca benötigt?

Wie sicher sind wir ueber die Existenz eines PPP im NV40? Das was ich in letzter Zeit von einer unabhaengigen Quelle ueber DX-next gehoert habe ist nicht gerade hoffnungsreich. Wenn Du ein P streichst, macht das Ding nicht mehr viel Sinn.

Demirug

2003-10-31, 07:23:27

Original geschrieben von Ailuros
Wie sicher sind wir ueber die Existenz eines PPP im NV40? Das was ich in letzter Zeit von einer unabhaengigen Quelle ueber DX-next gehoert habe ist nicht gerade hoffnungsreich. Wenn Du ein P streichst, macht das Ding nicht mehr viel Sinn.

Einen PP haben Grafikchips ja schon lange.

Ailuros

2003-10-31, 07:36:42

Soll ich das wortwoertlich nehmen? LOL :D

Demirug

2003-10-31, 07:55:04

Original geschrieben von Ailuros
Soll ich das wortwoertlich nehmen? LOL :D

Irgendwie ist mir jetzt der Witz an meiner Aussage entgangen.

Das ändert aber nichts an der Tatsache das Grafikchips schon lange einen Primitive Processor haben.

Raff

2003-10-31, 20:30:19

Ist denn eigentlich schon irgendwas über das Anti-Aliasing und Anisotropic Filtering des NV40 bekannt? IMHO könnte nVIDIA nach den praktisch nicht vorhandenen Neuerungen beim NV30 da ruhig mal was nachlegen, ATi ist schon weiter. 16xAF ist nicht nur marketingtechnisch sinnvoll und etwas wie 16xAA könnte bei einem gescheiten Abtastmuster neue Qualiätssprünge bringen.

MfG
Raff

aths

2003-10-31, 21:17:30

Original geschrieben von Raff
Ist denn eigentlich schon irgendwas über das Anti-Aliasing und Anisotropic Filtering des NV40 bekannt? IMHO könnte nVIDIA nach den praktisch nicht vorhandenen Neuerungen beim NV30 da ruhig mal was nachlegen, ATi ist schon weiter. 16xAF ist nicht nur marketingtechnisch sinnvoll und etwas wie 16xAA könnte bei einem gescheiten Abtastmuster neue Qualiätssprünge bringen.Ich denke, dass mehr als 8x "sparsed" nur noch sehr wenig bringt.

Winter[Raven]

2003-11-01, 00:51:51

Ja, so ist die sache mit den Infos. Keiner weiss genau was auf uns zukommt....

ABER ! Wir wissen wie die Kühlösung aussehn wird.

NV's FXFLOW ]I[ !
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
http://www.exvitermini.com/pics/t8834d.jpg

Ailuros

2003-11-01, 01:45:45

Original geschrieben von aths
Ich denke, dass mehr als 8x "sparsed" nur noch sehr wenig bringt.

Fuer 2004 sicher :D

Tigerchen

2003-11-01, 05:20:51

nV40 bringt nur 6x2 bi.
Mit anderen Worten.Ein Flop.

mapel110

2003-11-01, 07:04:19

Original geschrieben von Tigerchen

nV40 bringt nur 6x2 bi.

Mit anderen Worten.Ein Flop.

hehe, von der anzahl der "pipes" sollte man nicht auf die leistungsfähigkeit/konkurrenzfähigkeit schliessen.

imo kann man schlecht von einem "hammerprodukt" ausgehen. als ATI erstarkt ist(r300 release), war der nv40 bestimmt schon weitestgehend fertig designed. also denke ich eher, es werden "moderate" änderungen kommen, zumindest die betreffend, die grosse auswirkung auf die performance haben.

Ailuros

2003-11-01, 07:59:30

Also so stark wuerde ich NVIDIA nicht unterschaetzen; nun gut ich erwarte auch keinen "Killer-chip" im NV40, aber NVIDIA haelt sich selbst mit all den Fehlern und negativen Aspekten ziemlich gut mit dem NV3x heutzutage, besser als jeder andere IHV sich halten wuerde.

NV40 wird trotz seiner "fruehen" Entwicklung seine Vorteile haben und deren Marketing-Abteilung wird sie auch voll ausspielen.

Natuerlich wird immer eine negative Kleinigkeit von der NV3x Aera in 2004 mitschwimmen; erst wenn NV50 nochmal versaut werden wuerde dann haetten sie wirklich grosse Probleme und das trau ich ihnen wirklich nicht zu.

seahawk

2003-11-01, 14:03:39

Original geschrieben von Tigerchen

nV40 bringt nur 6x2 bi.
Mit anderen Worten.Ein Flop.

Quelle ??

Tigerchen

2003-11-01, 17:38:09

Original geschrieben von seahawk
Quelle ??

Selbstgefällig wie ich bin wage ich so ab und an eine Prophezeiung.Da wir hier im Spekulationsforum sind hoffe ich das dies erlaubt ist.

robbitop

2003-11-01, 19:25:17

Der NV40 war original mit 150MIO Transistoren geplant (gab glaube ich mal eine Folie kurz nach dem NV30 wo auch die Transistorzahlen vom NV35 31 und 36 enthalten wahren)

wenn man Ailuros Aussage nachgeht, dass dieser ein redisign von 150 auf ~170Mio Transistoren hatte, ist für mich rechnerisch ziemlich klar, dass anfänglich ein 4x2 Setup geplant war, jedoch 2 Pipelines dazukamen. Doch afaik sind die Pipelines deutlich effektiver aufgebaut als beim Vorgänger..somit dürfte die Effektivität in Punkto Füllrate und PS Leistung steigen.

Ob trilineare oder bilineare TMUs verbaut sind lasse ich mal dahingestellt, ich glaube allerdings nicht dass trilineare zum Einsatz kommen. Denn wir haben bereits 2 TMUs pro Pipeline...trilineare würde in der Praxis sicherlich nicht soo große Effekte erzielen. Ausserdem hat man hinsichtlich "brilinearem" AF einige Optimierungen geschaffen, die dies unnötig machen (ausserdem wird man brilinear vermutlich nicht allzuschnell aufgeben wollen)

rein theoretisch währe auch ein 8x2 Setup bei 170-180Mio Transistoren drin, dann bliebe jedoch kaum Raum für große Änderungen...

Ich gehe deshalb nicht vom Begriff der Pipelines weg, da wir bisher nicht wirklich losgelöst von ihnen sind und der NV40 dies wohl auch noch nicht sein wird

Ailuros

2003-11-02, 05:48:05

robbitop,

Spekulanten konzentrieren meistens in die falsche Richtung. Viele nehmen ein paar Insider Aussagen, raten viel dazu und lassen sich von theoretischen PPT Praesentationen ohne jegliche Bedeutung beinflussen.

Geht doch erstmal davon aus was dem NV3x wirklich fehlt verglichen zur Konkurrenz und wo er kraenkelt oder sogar gewisse Features noch nicht ganz unterstuetzen kann. Von da sollte man eher anlegen und dann erst weiterraten.

wenn man Ailuros Aussage nachgeht, dass dieser ein redisign von 150 auf ~170Mio Transistoren hatte, ist für mich rechnerisch ziemlich klar, dass anfänglich ein 4x2 Setup geplant war, jedoch 2 Pipelines dazukamen. Doch afaik sind die Pipelines deutlich effektiver aufgebaut als beim Vorgänger..somit dürfte die Effektivität in Punkto Füllrate und PS Leistung steigen.

Nein.

Ich gehe deshalb nicht vom Begriff der Pipelines weg, da wir bisher nicht wirklich losgelöst von ihnen sind und der NV40 dies wohl auch noch nicht sein wird

Deshalb kommst Du auch zu falschen Schlussvolgerungen. Lass die Pipeline-Zaehlerei bei PS/VS3.0 bleiben und konzentrier Dich auf die arithmtische Effizienz des chips.

aths

2003-11-02, 11:11:06

Original geschrieben von Tigerchen
Selbstgefällig wie ich bin wage ich so ab und an eine Prophezeiung.Da wir hier im Spekulationsforum sind hoffe ich das dies erlaubt ist. *Seufz* Ist dieser 6-Pipe-Unsinn wirklich nicht aus den Köpfen rauszukriegen?

Wie soll das mit 6 Pipes denn gehen? Berechnet NV dann 3x2-Tiles oder was?

Original geschrieben von Ailuros
Geht doch erstmal davon aus was dem NV3x wirklich fehlt verglichen zur Konkurrenz und wo er kraenkelt oder sogar gewisse Features noch nicht ganz unterstuetzen kann. Von da sollte man eher anlegen und dann erst weiterraten.Naja, ich nehme stark an, dass der NV40 schon länger spezifiziert ist, konkret gesagt bevor Nvidia genaue Infos zum R300 hatte.

Gast

2003-11-02, 19:25:41

Original geschrieben von aths
Naja, ich nehme stark an, dass der NV40 schon länger spezifiziert ist, konkret gesagt bevor Nvidia genaue Infos zum R300 hatte.

Naja, wenn diese komische Nvidia-Präsentation stimmt, ist der NV40 seit ~April 2002 in Arbeit. Wenn sie nach Veröffentlichung des R300 keine Verbesserungen eingebracht haben, sondern so wie bisher weiter gearbeitet haben, was ich befürchte, dann könnte der NV40 ein ein klein wenig verbesserter NV35 werden mit Plugged on VS3.0 und PS3.0; eben ein typisches Nvidia - Design wie bisher auch schon immer.

Schaun wir mal....

robbitop

2003-11-02, 19:45:11

nunja PS Leistung und Füllrate dürften gestiegen sein...wie auch immer realisiert..

Gohma

2003-11-02, 21:41:04

NV40-Specs:

350 Mio Transis (mit 16MB High-Speed-Speicher =))
110nm Fertigungsprozess
512MB DDR II Ram
800/700 MHz Takt :bäh:
PS/VS 3.0 ...is klar ;)
16x2 Pipes

Ich weis, is etwas hochgegriffen. Aber man wird ja wohl noch träumen dürfen?! :bawling:

reunion

2003-11-02, 21:59:03

Original geschrieben von Gohma
NV40-Specs:

350 Mio Transis (mit 16MB High-Speed-Speicher =))
110nm Fertigungsprozess
512MB DDR II Ram
800/700 MHz Takt :bäh:
PS/VS 3.0 ...is klar ;)
16x2 Pipes

Ich weis, is etwas hochgegriffen. Aber man wird ja wohl noch träumen dürfen?! :bawling:

Nichtmal für NV50 realistisch...

Gohma

2003-11-02, 22:20:55

Original geschrieben von reunion
Nichtmal für NV50 realistisch...
Wär aber geil, wa? :D
ATi würde dadurch unter solchem Druck geraten, dass sie gleihziehen müssten... und damit man um Käufergunst werben kann, müssten die Preise wieder in den dreistelligen Bereich fallen ;).
Und wer weis, vielleicht hätten wir dann in 1-2 Jahren die ersten GHz-getakteten-GPUs mit 1GB DDR IV Ram und in 65nm betrieben... vorrausgesetzt natürlich, dass ATi und nVidia bis dahin nicht schon längst pleite sind *g*
ugh, ich beginn wieder rumzuspaßteln... :freak: :crazy:

Xmas

2003-11-02, 22:27:26

Original geschrieben von reunion
Nichtmal für NV50 realistisch...
Stimmt. NV50 wird eher in 90nm gefertigt, mit GDDR3 @900MHz+ ausgestattet und bietet PS/VS4.0 ;)

betasilie

2003-11-02, 22:34:11

Original geschrieben von aths
Naja, ich nehme stark an, dass der NV40 schon länger spezifiziert ist, konkret gesagt bevor Nvidia genaue Infos zum R300 hatte.
Ich gebe dir recht, dass die Specs zum NV40 schon vor dem Release des R300 standen, aber ich bin davon überzeugt, dass NV das Konzept des NV40 aufgrund des R300 nochmal "nachgebessert" hat. :D

Ailuros

2003-11-03, 05:21:52

Original geschrieben von aths
Naja, ich nehme stark an, dass der NV40 schon länger spezifiziert ist, konkret gesagt bevor Nvidia genaue Infos zum R300 hatte.

Und NV40 wird den gleichen Anti-aliasing Algorithmus wie der Anfang 2002 geplant haben? Nur ein Beispiel. Waere NV nicht gezwungen den NV40 leicht zu operieren waere er schon vor Weihnachten 2003 verfuegbar.

Tigerchen

2003-11-03, 15:53:34

Ailuros

2003-11-03, 16:10:41

Nun ja der edram Mythos kursiert schon seit einiger Zeit (16mb of high speed ram). Kommt aus dem gleichen PPT wo auch TBDR als Bandbreiten-sparende Alternative aufgezaehlt wird.

betasilie

2003-11-03, 16:18:53

Original geschrieben von Ailuros
Nun ja der edram Mythos kursiert schon seit einiger Zeit (16mb of high speed ram). Kommt aus dem gleichen PPT wo auch TBDR als Bandbreiten-sparende Alternative aufgezaehlt wird.
e-DRAM ist auch einfach eine schicke Sache, die auch Verwendung finden würde, wären die die GPU-Entwickler nicht an so beschissene Produzenten gebunden.

DrumDub

2003-11-03, 16:25:36

Original geschrieben von betareverse
e-DRAM ist auch einfach eine schicke Sache, die auch Verwendung finden würde, wären die die GPU-Entwickler nicht an so beschissene Produzenten gebunden.

sicher? ich denke es ist viel eher ein mangelhaftes kosten/nutzen-verhältnis.

Gohma

2003-11-03, 16:26:29

Original geschrieben von Tigerchen

Ich spekulier ja auch gerne.Aber außerhalb der Spielewiese wär ein bißchen Realismus beim Orakeln doch recht nett.

Ja sry, aber es macht einfach zu viel Spaß, Gott zu spielen ;)
Und zu meinen NV40-Specs: Hau mer gleich nochmal 1024Bit Speicherinterface hinterher! :asshole:
Ob sie dann auch wirklich effizient genutzt werden können is mir dabei relativ wurscht, Hauptsache man hat sie... =P

Ailuros

2003-11-03, 18:24:25

Original geschrieben von DrumDub
sicher? ich denke es ist viel eher ein mangelhaftes kosten/nutzen-verhältnis.

Betareverse,

Drumdub hat leider recht. Bei den hoechstkomplizierten heutigen chips sind die Unkosten einfach viel zu hoch; in HW Platz dann auch noch.

IHVs werden es schwer haben 200M Transistoren auf low-k 13nm zu quetschen und da ist die Option von 16MB edram und den extra ~150M Transistoren eher ein Problem als ein Segen.

Und zu meinen NV40-Specs: Hau mer gleich nochmal 1024Bit Speicherinterface hinterher!

Nur intern. Extern kann es nur 256bits bleiben momentan was einen von Grund auf neuen memory controller benoetigen wuerde und bei dem Ganzen wuerde die read efficiency wohl schnell zum Fenster hinausschiessen. Alles zu seiner Zeit.

Ob sie dann auch wirklich effizient genutzt werden können is mir dabei relativ wurscht, Hauptsache man hat sie...

Wenn Du am Ladentisch um 1000 euro kuerzer wirst, ohne etwas fuer den doppelten Preis momentan zurueckzubekommen, dann ist es mit der Relativitaet auch bald aus.

aths

2003-11-03, 19:10:47

Original geschrieben von betareverse
Ich gebe dir recht, dass die Specs zum NV40 schon vor dem Release des R300 standen, aber ich bin davon überzeugt, dass NV das Konzept des NV40 aufgrund des R300 nochmal "nachgebessert" hat. :D Imo nur bei Details. Ich weiß nicht, wie lange der Optimierungsprozess dauert, aber einfach mal was zu verbessern und halt mal schnell den Chip neu zu "kompilieren", stelle ich mir schwierig vor.

betasilie

2003-11-03, 19:26:55

@Ailuros & Drumdub
Klar habt ihr beide recht, aber embedded RAM würde günstiger werden, wenn mal ein Chiphersteller mehr Gewichtunng auf die Entwicklung dieser Technik legen würde. Ob es dann wirklich bei entsprechnder Speicherkapazität konkurrenzfähig würde, weiß ich nicht, aber eine xxxx(x)-bittiger Datenbus ist technologisch gesehen einfach nur geil.

Sony stellt ja eine spezielle Version ihres GS mit 16MM und 32MB für Profischnittcomputer her, aber ich weiß nicht mit wieviel Mhz diese GPUs getaktet werden. Hoch wird der takt bestimmt nicht sein.

Original geschrieben von aths
Imo nur bei Details. Ich weiß nicht, wie lange der Optimierungsprozess dauert, aber einfach mal was zu verbessern und halt mal schnell den Chip neu zu "kompilieren", stelle ich mir schwierig vor.
Schwierig ist wohl das richtige Wort, aber NV ist nun jetzt schlicht in einer schwierigen Situation. ...

Du könntest natürlich recht haben und NV hat wirklich alles beim alten gelasen beim NV40. Ein Indiz dafür wäre z.B., dass ATI den R400 auf Ende 2004 / Anfang 2005 verschoben hat. Vielleicht hat ATI ja spitz bekommen, dass der R400 (R500) viel zu potent gewesen wäre und hat ihn deshalb verschoben und somit Geld gespart.

aths

2003-11-03, 19:35:38

betareverse,

die GeForce baute was die Pipeline angeht klar auf TNT2 auf, natürlich wurde die Pipe deutlich verbessert. GF2 ist ein nicht allzu großes Update. GF3 enthält mehr GF2, als sich manche vielleicht eingstehen wollen. GF4 ist ein Refresh mit einigen Detailverbesserung. GF FX ist der GF4 ähnlicher, als viele glauben. NV35 ist eine logische Weiterentwicklung vom NV30. NV40 wird diese Strecke imo fortführen, also mehr vom NV30 (genauer gesagt, NV35) enthalten, als Nvidia zugeben wird.

Die Zeit vom NV25 zum NV30 z.B. reicht imo nicht aus, um aus dem NV25 einen NV30 zu basteln, deshalb denke ich, dass NV25 und NV30 größtenteils schon recht lange fix waren.

Natürlich gibts auch mal Probleme, siehe Shadow Buffers beim NV20, ein Bug im Chip verhinderte wohl dass es in der ersten ausgelieferten Revision funktionierte. Mit solchen Dingen muss man leben, und en detail kann sicherlich auch noch mal was verbessert werden, siehe die eingearbeiteten Ideen der übernommenen 3dfx-Ingenieure im NV25. Aber große Dinge sind da wohl kaum drin.

Gast

2003-11-03, 21:13:24

Original geschrieben von Ailuros
IHVs werden es schwer haben 200M Transistoren auf low-k 13nm zu quetschen und da ist die Option von 16MB edram und den extra ~150M Transistoren eher ein Problem als ein Segen.

Braucht man den eDRAM?
Multichip-Module bzw. die Möglichkeit den Speicher "Huckepack" zu nehmen wie es Siemens gerade entwickelt sind doch gute Alternativen die ebenfalls sehr hohe Bandbreiten zwischen "eDRAM" und Chip ermöglichen.

Gast

2003-11-03, 21:16:51

Original geschrieben von aths
betareverse,

die GeForce baute was die Pipeline angeht klar auf TNT2 auf, natürlich wurde die Pipe deutlich verbessert......

......Aber große Dinge sind da wohl kaum drin.

Yep; so was ähnliches befürchte ich eben auch. Nvidia arbeitet evolutionär, nicht revolutionär. Große Sprünge zwischen den einzelnen Generationen sind da meistens/immer nicht drin. Hoffentlich ändert sich das mal; obwohl sie dann mit den Treibern noch größere Probleme bekommen werden (dann laufen wahrscheinlich nicht einmal mehr die Legacy-Apps zufriedenstellend).

Wie gesagt.. schaun wir mal...

Ailuros

2003-11-03, 22:55:22

Original geschrieben von Gast
Braucht man den eDRAM?
Multichip-Module bzw. die Möglichkeit den Speicher "Huckepack" zu nehmen wie es Siemens gerade entwickelt sind doch gute Alternativen die ebenfalls sehr hohe Bandbreiten zwischen "eDRAM" und Chip ermöglichen.

IMO wird es als zukuenftige moegliche Alternative (unter Bedingungen) angesehen.

@Ailuros & Drumdub
Klar habt ihr beide recht, aber embedded RAM würde günstiger werden, wenn mal ein Chiphersteller mehr Gewichtunng auf die Entwicklung dieser Technik legen würde. Ob es dann wirklich bei entsprechnder Speicherkapazität konkurrenzfähig würde, weiß ich nicht, aber eine xxxx(x)-bittiger Datenbus ist technologisch gesehen einfach nur geil.

Es gibt verschiedene Theorien ueber edram, eine davon neigt in die Richtung eines on-chip framebuffers. Waeren dabei aber fuer heutige Beduerfnisse 16MB nicht ein bisschen kraenklich?

Was Datenbusse betrifft, 256bit sind durchaus genug fuer den Moment und ich wuerde sagen dass es noch fuer einige Zeit ausreichen wird (immer nur externe Breite gemeint).

Von minimal 700MHz (1.4GHz effektiv) DDR2 ausgegangen: bei 256bits sind das schon 44.8GB/sec Bandbreite. Mach DDR3 und die Bandbreite ist wieviel nochmal?

Sony stellt ja eine spezielle Version ihres GS mit 16MM und 32MB für Profischnittcomputer her, aber ich weiß nicht mit wieviel Mhz diese GPUs getaktet werden. Hoch wird der takt bestimmt nicht sein.

Hmmm wieviele Transistoren haben die Dinger?

2003-11-03, 23:00:41

Original geschrieben von Ailuros
Es gibt verschiedene Theorien ueber edram, eine davon neigt in die Richtung eines on-chip framebuffers. Waeren dabei aber fuer heutige Beduerfnisse 16MB nicht ein bisschen kraenklich?
Wenn ein externer RAM existiert muss man die Größe des embedded RAM zwischen Größe(MB), Transistoren und Geschwindigkeitsvorteil abwägen.

Ailuros

2003-11-03, 23:07:20

Original geschrieben von KM
Wenn ein externer RAM existiert muss man die Größe des embedded RAM zwischen Größe(MB), Transistoren und Geschwindigkeitsvorteil abwägen.

Ist mir schon klar. Die Frage ist ob es bei heutigem Standpunkt 16MB = (+ ~150M Transistoren) wirklich den Aufwand und Unkosten ueberhaupt wert sind. Noch schlimmer ich bezweifle nicht dass heute 350M Transistoren chips zwar gebaut werden koennten in Theorie, aber no way in hell fuer 400-500$ Endpreis.

Demirug

2003-11-03, 23:10:27

Original geschrieben von Ailuros
IMO wird es als zukuenftige moegliche Alternative (unter Bedingungen) angesehen.

Es gibt noch eine zweite. Kacheln von DIEs. Dabei werden Chips aus einzelnen Teilen direkt zusammengesetzt. Im Gegensatz zu dem Sandwich Verfahren aber nebeneinader.

Es gibt verschiedene Theorien ueber edram, eine davon neigt in die Richtung eines on-chip framebuffers. Waeren dabei aber fuer heutige Beduerfnisse 16MB nicht ein bisschen kraenklich?

Schlechte Idee. Ich würde den RAM als generellen Speicher nutzen und immer das reinpacken was gerade am besten passt.

Von minimal 700MHz (1.4GHz effektiv) DDR2 ausgegangen: bei 256bits sind das schon 44.8GB/sec Bandbreite. Mach DDR3 und die Bandbreite ist wieviel nochmal?

Solange man die Taktrate nicht erhöht immer noch 44.8 GB/s. GDDR3 bringt keine höhere Bitrate/Takt.

betasilie

2003-11-03, 23:44:37

doppelt gemoppelt

betasilie

2003-11-03, 23:44:45

Original geschrieben von aths
betareverse,

die GeForce baute was die Pipeline angeht klar auf TNT2 auf, natürlich wurde die Pipe deutlich verbessert. GF2 ist ein nicht allzu großes Update. GF3 enthält mehr GF2, als sich manche vielleicht eingstehen wollen. GF4 ist ein Refresh mit einigen Detailverbesserung. GF FX ist der GF4 ähnlicher, als viele glauben. NV35 ist eine logische Weiterentwicklung vom NV30. NV40 wird diese Strecke imo fortführen, also mehr vom NV30 (genauer gesagt, NV35) enthalten, als Nvidia zugeben wird.

Die Zeit vom NV25 zum NV30 z.B. reicht imo nicht aus, um aus dem NV25 einen NV30 zu basteln, deshalb denke ich, dass NV25 und NV30 größtenteils schon recht lange fix waren.

Natürlich gibts auch mal Probleme, siehe Shadow Buffers beim NV20, ein Bug im Chip verhinderte wohl dass es in der ersten ausgelieferten Revision funktionierte. Mit solchen Dingen muss man leben, und en detail kann sicherlich auch noch mal was verbessert werden, siehe die eingearbeiteten Ideen der übernommenen 3dfx-Ingenieure im NV25. Aber große Dinge sind da wohl kaum drin.
Du magst in vielerlei hinsicht recht haben, aber die Zeiten haben sich geändert. ... Man kann Chipdesigns nur lange im Vorraus spezifizieren, solange der API-Developer das Spielchen mitmacht.
Früher waren M$ und NV halt ein Pärchen, auch schon vor der XBox, aber heute richtet sich M$ nicht mehr ausschließlich nach NV, was DX angeht. Schon der NV30 ist kein echter DX9-Chip insofern, dass er kein FP24 kann. Das war sicherlich nicht so gedacht gewesen. ;)

NV muss sich daher flexibel zeigen und den NV40 an DX anpassen oder mit dem NV40 eine solche Rohperformance bieten, so dass sie einfach auf FP24 verzichten können und mit FP32 vor der Konkurrenz mit deren FP24 liegen. Das wird schwer.

Klar, NV wird versuchen bei den PS/VS3.0 von der Performance vorzulegen, aber das wird sich ein ganze Weile erstmal nur in synthetischen Benchmarks niederschlagen und nicht in Spielen. Da wird es NV also weiterhin schwer haben mit der Vermarktung, wenn sie nicht schnell sind bei Spielen, die die Mindestanforderung von DX9 nutzen.

Ailuros

2003-11-04, 00:13:16

Es gibt noch eine zweite. Kacheln von DIEs. Dabei werden Chips aus einzelnen Teilen direkt zusammengesetzt. Im Gegensatz zu dem Sandwich Verfahren aber nebeneinader.

Haben wir aehnliches nicht schon in Multichip-relativen Threads besprochen?

Wie dem auch sei, SA hatte sie als erster vor geraumer Zeit mal bei B3D erwaehnt aber in Kombination mit einer hohen Anzahl von edram, ohne externen Framebuffer.

Seine Idee ging natuerlich noch ein Stueck weiter (eher in die science fiction Direktion IMHO), wo er noch weiter auf ueber Generationen pin-compatible PCB's fuer bis zu 4 chips skalierbaren Konfiguration von diesen edram chips sprach(***edit: board wird mit einem chip z.B. verkauft hat aber noch 3 weitere freie Steckplaetze). Science fiction weil ich es fuer unmoeglich halte dass IHVs je zu so einer Loesung kommen werden, oder ich hab wirklich keine Ahnung was die Zukunft uns vorbehalten koennte.

Schlechte Idee. Ich würde den RAM als generellen Speicher nutzen und immer das reinpacken was gerade am besten passt.

Zwar viel zu weit in die Zukunft gegriffen, aber macht das obrige (nur viel edram, kein externer framebuffer) ueberhaupt Sinn?

Solange man die Taktrate nicht erhöht immer noch 44.8 GB/s. GDDR3 bringt keine höhere Bitrate/Takt.

Danke. Falsch formuliert. GDDR3 sollte logischerweise auch hoehere Taktraten, ergo auch hoehere Bandbreiten erlauben, oder nicht?

aths

2003-11-04, 01:45:47

Original geschrieben von betareverse
Früher waren M$ und NV halt ein Pärchen, auch schon vor der XBox, aber heute richtet sich M$ nicht mehr ausschließlich nach NV, was DX angeht.Es ging noch nie ausschließlich nach NV, was DX angeht.
Original geschrieben von betareverse
Schon der NV30 ist kein echter DX9-Chip insofern, dass er kein FP24 kann.Der NV30 ist ein echter DX9-Chip, da er die Minimal-Forderung nach FP24 mit FP32 sogar übererfüllt. (Oder ist meine GeForce kein echter DX-Chip, weil er mit 8 Bit LOD-Fraction arbeitet, statt nur 5 Bit LOD-Fraction, wie der REF vorlegt?)
Original geschrieben von betareverse
NV muss sich daher flexibel zeigen und den NV40 an DX anpassen oder mit dem NV40 eine solche Rohperformance bieten, so dass sie einfach auf FP24 verzichten können und mit FP32 vor der Konkurrenz mit deren FP24 liegen. Das wird schwer.Was willst du da anpassen? NV wird nicht zu FP24 gehen. Wozu die 8 Bit sparen, wenn man auch FP32 nehmen kann, was über kurz oder lang ohnehin Standard wird? (Auch meine GF4 führt bereits einige Shader-Anweisungen mit FP32 aus...)

Sicher muss NV konkurrenzfähige Shaderleistung haben. Da sehe ich beim NV40 keine Probleme...
Original geschrieben von betareverse
Klar, NV wird versuchen bei den PS/VS3.0 von der Performance vorzulegen, aber das wird sich ein ganze Weile erstmal nur in synthetischen Benchmarks niederschlagen und nicht in Spielen.Welchen Zeitraum umfasst eine "ganze Weile" bei dir? ATIs Pixelshader 2.0 ist auf 96 Instruktionen beschränkt. Das ist heute kein Problem, Ende 2004, Anfang 2005 ist vielleicht schon Multipass-Rendering notwendig.
Original geschrieben von betareverse
Da wird es NV also weiterhin schwer haben mit der Vermarktung, wenn sie nicht schnell sind bei Spielen, die die Mindestanforderung von DX9 nutzen. Ich sehe da eigentlich keine wirklichen großen Probleme. NV40 wird deutlich schneller als Radeon 9700 oder 9800. "Mindestanforderung DX9" heißt wohl nicht, dass etwas schnelleres als Radeon 9700 Voraussetzung ist.

Ailuros

2003-11-04, 05:44:03

Ich sehe da eigentlich keine wirklichen großen Probleme. NV40 wird deutlich schneller als Radeon 9700 oder 9800. "Mindestanforderung DX9" heißt wohl nicht, dass etwas schnelleres als Radeon 9700 Voraussetzung ist.

Entschuldige aths; obwohl ich Deiner Logik im vorigen Post mehr oder weniger folgen kann, NV40 wird sich in Realitaet nicht mit R3xx sondern R420 messen muessen.

Hier ist die wirkliche Frage was ATI im R420 tatsaechlich angerichtet hat und spezifischer was PS/VS3.0 betrifft. Falls ATI tatsaechlich es geschafft hat einen vollen 3.0 Shader chip zu praesentieren dann sieht es eher grau fuer NV aus; in jedem anderen Fall wage ich vorzusehen dass NV40 einen sehr guten Vorteil mit langen Shadern haben wird, aber es trotzdem nicht unbedingt leicht haben wird mit ATI's Konkurrent fuer den 2004 timeframe und den Spielen dieses Zeitraums.

DrumDub

2003-11-04, 11:05:38

Original geschrieben von Ailuros
Hier ist die wirkliche Frage was ATI im R420 tatsaechlich angerichtet hat und spezifischer was PS/VS3.0 betrifft. Falls ATI tatsaechlich es geschafft hat einen vollen 3.0 Shader chip zu praesentieren dann sieht es eher grau fuer NV aus; in jedem anderen Fall wage ich vorzusehen dass NV40 einen sehr guten Vorteil mit langen Shadern haben wird, aber es trotzdem nicht unbedingt leicht haben wird mit ATI's Konkurrent fuer den 2004 timeframe und den Spielen dieses Zeitraums.

hehe. 2004 wird in dieser hinsicht mindestens genauso spannend wie 2003 sein.

lassen wir uns einfach überraschen. ;D

aths

2003-11-04, 14:51:09

Original geschrieben von Ailuros
Entschuldige aths; obwohl ich Deiner Logik im vorigen Post mehr oder weniger folgen kann, NV40 wird sich in Realitaet nicht mit R3xx sondern R420 messen muessen.Korrekt. DX9-Spiele werden trotzdem keinen R420 voraussetzen.

Zu NV40 vs. R420, da darf vermutet werden, dass NV nicht noch mal den Fehler machen wird, ATI so sträflich zu unterschätzen.

DrumDub

2003-11-04, 15:07:00

Original geschrieben von aths
Korrekt. DX9-Spiele werden trotzdem keinen R420 voraussetzen.

ich würds anders formulieren: dx9-spiele, die bis ende 2004 erscheinen, werden zur darstellung der vollen details keinen r420 oder nv40 benötigen.

Demirug

2003-11-04, 16:00:04

Original geschrieben von betareverse
Du magst in vielerlei hinsicht recht haben, aber die Zeiten haben sich geändert. ... Man kann Chipdesigns nur lange im Vorraus spezifizieren, solange der API-Developer das Spielchen mitmacht.
Früher waren M$ und NV halt ein Pärchen, auch schon vor der XBox, aber heute richtet sich M$ nicht mehr ausschließlich nach NV, was DX angeht. Schon der NV30 ist kein echter DX9-Chip insofern, dass er kein FP24 kann. Das war sicherlich nicht so gedacht gewesen. ;)

Myten und Legenden. ;)

Bei jeder DX Version war es bisher so das in jedem Bereich der mit der technologisch schwächten Hardware die entgültige Spec bestimmt. Dann wird noch entschieden welche spezialfeatures einzelner IHVs ganz nett sind und Zukunft haben könnten. Diese kommen dann auch noch rein.

Und das passierte bisher immer erst nachdem die Chip eigentlich schon im design fertig waren. Vorher gibt es Entwürfe. In diesem stehen aber am Anfang eher Wünsche drin und dann wird solange gestrichen und gekürzt bis alle IHVs die Hardware für diese Generation bauen wollen ihr OK geben. Bei den 3.0 Shadern könnte dieses Verfahren zum ersten mal durchbrochen worden sein.

Demirug

2003-11-04, 16:09:23

Original geschrieben von Ailuros
Haben wir aehnliches nicht schon in Multichip-relativen Threads besprochen?

Wie dem auch sei, SA hatte sie als erster vor geraumer Zeit mal bei B3D erwaehnt aber in Kombination mit einer hohen Anzahl von edram, ohne externen Framebuffer.

Seine Idee ging natuerlich noch ein Stueck weiter (eher in die science fiction Direktion IMHO), wo er noch weiter auf ueber Generationen pin-compatible PCB's fuer bis zu 4 chips skalierbaren Konfiguration von diesen edram chips sprach(***edit: board wird mit einem chip z.B. verkauft hat aber noch 3 weitere freie Steckplaetze). Science fiction weil ich es fuer unmoeglich halte dass IHVs je zu so einer Loesung kommen werden, oder ich hab wirklich keine Ahnung was die Zukunft uns vorbehalten koennte.

Chips sind Chips. Bei den Verfahren das ich meinte werden direkt zwei DIEs zusammengesetzt. Ich könnte mir aber zum Beispiel vorstellen das man damit recht gut skalieren kann.

Einfaches Beispiel:

ATI zerlegt den R300 DIE in 7 Teile (2*2 VS, 2*Pixelprozessor, 2*2 Memory Controller, Der Rest). Aus diesen Teilen hätten sie dann wahlweise R und RV Chips zusammensetzten können.

OK, ich weiss das da einiges nicht passt aber das Prinzip dürfte klar sein.

Zwar viel zu weit in die Zukunft gegriffen, aber macht das obrige (nur viel edram, kein externer framebuffer) ueberhaupt Sinn?

Eher nicht. Beim Render to Texture würde der edram dann recht nutzloss sein. Bevor man den Framebuffer in edram packt wird man auch eher den Z-Buffer da reinpressen.

Danke. Falsch formuliert. GDDR3 sollte logischerweise auch hoehere Taktraten, ergo auch hoehere Bandbreiten erlauben, oder nicht?

Ja und dann gibt es wohl noch ein paar spezialitäten im Protokol welche eine bessere Ausnutzung der Bandbreite erlauben. Aber das ist alles noch sehr verschwommen.

betasilie

2003-11-04, 17:31:56

Original geschrieben von aths
Es ging noch nie ausschließlich nach NV, was DX angeht.
Der NV30 ist ein echter DX9-Chip, da er die Minimal-Forderung nach FP24 mit FP32 sogar übererfüllt.
Ich habe mich da missverständlich ausgedrückt. ... Natürlich ist der NV30 ein DX9-Chip, aber er kann nuur FP32 und ATIs R3xx-Serie kann FP24, was der Mindestanforderung entspricht. Das ist einfach schlecht, um bei den entsprehcenden DX9-Tests, die ja so gut wie alle z.Zt. mit FP24 arbeiten, vorne zu liegen, da FP32 einfach mehr Leistung frisst.

Original geschrieben von aths
NV40 wird deutlich schneller als Radeon 9700 oder 9800.
Das wollen wir doch mal hoffen. :spock:

Posting1 geschrieben von aths
Naja, ich nehme stark an, dass der NV40 schon länger spezifiziert ist, konkret gesagt bevor Nvidia genaue Infos zum R300 hatte.
Posting2 geschrieben von aths
Zu NV40 vs. R420, da darf vermutet werden, dass NV nicht noch mal den Fehler machen wird, ATI so sträflich zu unterschätzen.
Was denn nun? :kratz: Erst widersprichst Du Ailuros mit deinem Posting1 und jetzt schreibst Du ebenfalls in Posting2, dass NV mit dem NV40 ATI nicht unterschätzen wird. Wie sollen sie den reagiert haben, wenn sie nichts mehr geändert haben am NV40?

aths

2003-11-04, 17:36:09

Original geschrieben von Gast
Yep; so was ähnliches befürchte ich eben auch. Nvidia arbeitet evolutionär, nicht revolutionär. Wieso befürchten? Aus Entwickler-Sicht zumindest ist das eigentlich eine gute Sache.

aths

2003-11-04, 17:38:04

Original geschrieben von betareverse
Ich habe mich da missverständlich ausgedrückt. ... Natürlich ist der NV30 ein DX9-Chip, aber er kann nuur FP32 und ATIs R3xx-Serie kann FP24, was der Mindestanforderung entspricht. Das ist einfach schlecht, um bei den entsprehcenden DX9-Tests, die ja so gut wie alle z.Zt. mit FP24 arbeiten, vorne zu liegen, da FP32 einfach mehr Leistung frisst.FP32 frisst mehr Transistoren, jedoch nicht mehr Leistung. Taktbereinigt haben NV35 und R300 etwa die gleiche arithmetische Leistung. Dass NV35 dabei oft langsamer als R300 ist, hat andere Gründe als dass er mit FP32 rechnet.
Original geschrieben von betareverse
Was denn nun? :kratz: Erst widersprichst Du Ailuros mit deinem Posting1 und jetzt schreibst Du ebenfalls in Posting2, dass NV mit dem NV40 ATI nicht unterschätzen wird. Wie sollen sie den reagiert haben, wenn sie nichts mehr geändert haben am NV40? Hochtakten :|.

Aquaschaf

2003-11-04, 17:38:39

2003-11-04, 17:55:46

LovesuckZ

2003-11-04, 18:08:24

Original geschrieben von KM
Bei DX9 sind standard fp24 oder fp32. Auf Wunsch auch fp16 wählbar.

"Standard" ist auch FP16.

betasilie

2003-11-04, 18:14:37

Original geschrieben von aths
FP32 frisst mehr Transistoren, jedoch nicht mehr Leistung. Taktbereinigt haben NV35 und R300 etwa die gleiche arithmetische Leistung. Dass NV35 dabei oft langsamer als R300 ist, hat andere Gründe als dass er mit FP32 rechnet.

Ok, aber mehr Tranistoren kosten mehr Geld (auch dem Endkunden) und MHz, da die Die größer wird.

Original geschrieben von aths
Hochtakten :|.
Stimmt allerding, obwohl dem ja auch Grenzen gesetzt sind.

Original geschrieben von Aquaschaf
FP32 verbrät nicht zwangsläufig mehr Leistung. Würde der R3xx durchweg mit FP32 Rechenwerken ausgestattet sein, hätte er ein paar Transistoren mehr und wäre genauso schnell wie jetzt.
ok, aber wieviel Transistoren könnte man den abziehen, wenn ein NV30 "nur" FP24 könnte, statt FP32?

Original geschrieben von KM
Bei DX9 sind standard fp24 oder fp32. Auf Wunsch auch fp16 wählbar.
Original geschrieben von KM
Bei DX9 sind standard fp24 oder fp32. Auf Wunsch auch fp16 wählbar.
FP16 ist zwar in DX9 spezifiziert, aber afaik nicht das Minimum für das DX9-Siegel. FP24 ist Mindestanforderung für DX9 oder irre ich?

LovesuckZ

2003-11-04, 18:16:32

Original geschrieben von betareverse
FP16 ist zwar in DX9 spezifiziert, aber afaik nicht das Minimum für das DX9-Siegel. FP24 ist Mindestanforderung für DX9 oder irre ich?

Ohne _pp Hint ist minimum FP24.

Demirug

2003-11-04, 18:40:21

Original geschrieben von betareverse
Ok, aber mehr Tranistoren kosten mehr Geld (auch dem Endkunden) und MHz, da die Die größer wird.

Mehr Geld - OK
Grössere DIE - OK

MHZ ???

ok, aber wieviel Transistoren könnte man den abziehen, wenn ein NV30 "nur" FP24 könnte, statt FP32?

Eine FP24 Additionseinheit braucht ca 75% Prozent der Transitoren die eine FP32 Einheit braucht

Eine FP24 Multiplikationseinheit braucht ca 45% Prozent der Transitoren einer FP32 Einheit.

Alles andere liegt irgendwo dazwischen.

Die relevanten teile dürfte ca 15-20% des DIEs ausmachen.

Viel Spass beim rechnen.

FP16 ist zwar in DX9 spezifiziert, aber afaik nicht das Minimum für das DX9-Siegel. FP24 ist Mindestanforderung für DX9 oder irre ich?

Ein Chip muss in der Lage sein mit mindestens FP24 zu rechnen um das DX9-Sigel zu bekommen. Hätte ATI mit FP22 gearbeitet wäre FP22 das Minimum. ;)

zeckensack

2003-11-04, 19:01:26

DirectX ist sowieso keine gute Diskussionsgrundlage =)

GRiNSER

2003-11-04, 19:19:19

Original geschrieben von Demirug
MHZ ???

Er meinte wohl, dass man durch mehr Transistoren nicht gleichhohe Taktraten schaffen könnte...

egdusp

2003-11-04, 19:20:33

Original geschrieben von Demirug
Die relevanten teile dürfte ca 15-20% des DIEs ausmachen.

Hä ??? Soll dass heißen, dass nur 15-20% des Dies mit Pixelshadereinheiten belegt sind?
Oder macht der Unterschied fp24 zu fp32 15-20% aus?

mfg
egdusp

aths

2003-11-04, 19:25:57

Original geschrieben von betareverse
Ok, aber mehr Tranistoren kosten mehr Geld (auch dem Endkunden) und MHz, da die Die größer wird.Das macht insofern nichts, da NV ja auch FP16 und FX12 hat, was oft ausreichend genau und schön schnell ist.
Original geschrieben von betareverse
ok, aber wieviel Transistoren könnte man den abziehen, wenn ein NV30 "nur" FP24 könnte, statt FP32?Löse dich bitte mal von diesem FP24 :), nur weil ATI FP24 nutzt. (DX verlangt FP24, weil ATI FP24 hat. Hätte ATI auf FP16 gesetzt, wäre FP16 Minimal-Forderung. Nun ist FP16 für die meisten Texture-Ops zu dünn, da rechnen sie alles mit FP24.)

NV hat wie gesagt schon spätestens bei GF3 für bestimmte Texture-Ops FP32-Logik, wäre es sinnvoll, das jetzt zu beschneiden? Für die Fälle, wo FP32 wirklich mit Kanonen auf Spatzen geschossen ist, hat NV wie schon gesagt noch andere Formate da. FP32 ist für einiges durchaus sinnvoll. So mancher Transistor wird zudem für den höheren maximalen Instructioncount drauf gegangen sein. Du kannst Nvidia durchaus vorwerfen, vor lauter Fortschrittlichkeit in den Features nicht die Leistung der Konkurrenz zu erbringen, aber es ist nicht so, dass ATI mit FP24 die bestmögliche Lösung anzubieten hätte. Ebenso würe es wohl unsinnig für NV, wegen ATI ihre Philosophie umzuwerfen.

Beispiel Pixelshader 1.4: Viel fortschrittlicher, keine Diskussion, als 1.3. Zum Beispiel das Phasenkonzept brachte neue Freiheiten. Jetzt hält ATI beim PS.2.0 aber noch am (wenn auch erweitertem) Phasenkonzept fest, da sind nur relativ wenige Dependend-Read-Abhängigkeiten möglich. Hätte NV, nur für die Geschwindigkeit, darauf verzichten sollen, so viele Dependend Read-Levels zu erlauben so weit der Instruction Count eben reicht?

Original geschrieben von betareverse
FP16 ist zwar in DX9 spezifiziert, aber afaik nicht das Minimum für das DX9-Siegel. FP24 ist Mindestanforderung für DX9 oder irre ich? Ohne die Möglichkeit von mindestens FP24 keine DX9-Compliance.

Demirug

2003-11-04, 19:34:35

Original geschrieben von egdusp
Hä ??? Soll dass heißen, dass nur 15-20% des Dies mit Pixelshadereinheiten belegt sind?
Oder macht der Unterschied fp24 zu fp32 15-20% aus?

mfg
egdusp

Ich meinte das so 15-20% der DIE Fläche durch FP32 Einheiten belegt ist die man gegen FP24 tauschen könnte. Das ist jetzt aber nur ein Schätzwert. Also bitte nicht darauf festnageln.

Demirug

2003-11-04, 19:38:52

Um mal nochwas in die Format Diskussion einzuwerfen.

So wie es im Moment aussieht wird auch bei FP16 meist mit FP32 Genauigkeit gerechnet nur wird das Ergebniss dann auf FP16 abgeschnitten.

Xmas

2003-11-04, 19:39:30

Original geschrieben von egdusp
Hä ??? Soll dass heißen, dass nur 15-20% des Dies mit Pixelshadereinheiten belegt sind?
Oder macht der Unterschied fp24 zu fp32 15-20% aus?

mfg
egdusp
Die Teile die beim R300 mit FP24 rechnen, machen höchstens 20% des Dies aus. Eher weniger. Beim NV35 dürfte dasselbe auf die Einheiten zutreffen, die man von FP32 auf FP24 reduzieren könnte. Hast du z.B. schon mal ein CPU-Blockdiagramm gesehen? Du wärst erstaunt, wie wenig da von den "Execution Units" belegt ist ;)

aths

2003-11-04, 19:40:39

Original geschrieben von Demirug
Ich meinte das so 15-20% der DIE Fläche durch FP32 Einheiten belegt ist die man gegen FP24 tauschen könnte. Das ist jetzt aber nur ein Schätzwert. Also bitte nicht darauf festnageln. Also genau 15,00% - 20,00%? http://www.aths.net/files/smilies/bescheuert.gif

SCNR

Original geschrieben von GRiNSER
Er meinte wohl, dass man durch mehr Transistoren nicht gleichhohe Taktraten schaffen könnte... Der Transistorcount ist ein Paramater, die kluge Optimierung und Anordnung der Funktionen auf dem Die sind nicht minder wichtige Parameter. Allerdings dünkt mir, dass ATI solche Optimierungen besser beherrscht. Man siehe, was für Monster sie bei 0.15 noch mit so hohen Taktraten betreiben können.

aths

2003-11-04, 19:42:15

Original geschrieben von Demirug
Um mal nochwas in die Format Diskussion einzuwerfen.

So wie es im Moment aussieht wird auch bei FP16 meist mit FP32 Genauigkeit gerechnet nur wird das Ergebniss dann auf FP16 abgeschnitten. Ja, so denke ich mir das auch. Soweit ich weiß, werden die Rechnungen mit FP16 nicht schneller (es sei denn man hat dieses Limit mit den temporären Registern.) Erst mit FX12 wird afaik etwa doppelt so schnell gerechnet.

Demirug

2003-11-04, 19:50:09

Original geschrieben von aths
Ja, so denke ich mir das auch. Soweit ich weiß, werden die Rechnungen mit FP16 nicht schneller (es sei denn man hat dieses Limit mit den temporären Registern.) Erst mit FX12 wird afaik etwa doppelt so schnell gerechnet.

1/sqrt(x) geht mit FP16 schneller. Ansonsten sind noch keine Ops bekannt die schneller werden.

Xmas

2003-11-04, 19:53:31

Original geschrieben von aths
Der Transistorcount ist ein Paramater, die kluge Optimierung und Anordnung der Funktionen auf dem Die sind nicht minder wichtige Parameter. Allerdings dünkt mir, dass ATI solche Optimierungen besser beherrscht. Man siehe, was für Monster sie bei 0.15 noch mit so hohen Taktraten betreiben können.
Der Einfluss des Transistorcounts auf die Taktung besteht eigentlich nur indirekt. Zum einen erhöht er die Die-Fläche, womit auch der Anteil der nicht-fatalen Strukturfehler, die aber den maximalen Takt beeinflussen, größer wird. Zum anderen bedeutet ein hoher Transistorcount auch meist erhöhte Komplexität, welche die Optimierung des kritischen Wegs erschwert. Mehr Transistoren können auch taktsteigernd wirken (siehe Kyro1/2), indem sie den kritischen Weg verkürzen, welcher das Hauptkriterium für die Taktbarkeit eines Chips ist.

Demirug

2003-11-04, 20:07:50

Original geschrieben von Xmas
Mehr Transistoren können auch taktsteigernd wirken (siehe Kyro1/2), indem sie den kritischen Weg verkürzen, welcher das Hauptkriterium für die Taktbarkeit eines Chips ist.

Oder man nimmt die zusätzlichen Transitoren um den kritischen Pfad durch einfügen einer zusätzlichen Stufe zu teilen. Bei Grafikchips war die Pipelinelänge ja bisher ein eher kleines Problem und wird in Zukunft wohl auch nicht so gross werden wie bei CPUs.

betasilie

2003-11-04, 20:29:43

Original geschrieben von aths
Löse dich bitte mal von diesem FP24 :), nur weil ATI FP24 nutzt. (DX verlangt FP24, weil ATI FP24 hat. Hätte ATI auf FP16 gesetzt, wäre FP16 Minimal-Forderung. Nun ist FP16 für die meisten Texture-Ops zu dünn, da rechnen sie alles mit FP24.)

NV hat wie gesagt schon spätestens bei GF3 für bestimmte Texture-Ops FP32-Logik, wäre es sinnvoll, das jetzt zu beschneiden? Für die Fälle, wo FP32 wirklich mit Kanonen auf Spatzen geschossen ist, hat NV wie schon gesagt noch andere Formate da. FP32 ist für einiges durchaus sinnvoll. So mancher Transistor wird zudem für den höheren maximalen Instructioncount drauf gegangen sein. Du kannst Nvidia durchaus vorwerfen, vor lauter Fortschrittlichkeit in den Features nicht die Leistung der Konkurrenz zu erbringen, aber es ist nicht so, dass ATI mit FP24 die bestmögliche Lösung anzubieten hätte. Ebenso würe es wohl unsinnig für NV, wegen ATI ihre Philosophie umzuwerfen.

Beispiel Pixelshader 1.4: Viel fortschrittlicher, keine Diskussion, als 1.3. Zum Beispiel das Phasenkonzept brachte neue Freiheiten. Jetzt hält ATI beim PS.2.0 aber noch am (wenn auch erweitertem) Phasenkonzept fest, da sind nur relativ wenige Dependend-Read-Abhängigkeiten möglich. Hätte NV, nur für die Geschwindigkeit, darauf verzichten sollen, so viele Dependend Read-Levels zu erlauben so weit der Instruction Count eben reicht?

Ok, Du hast natürlich recht, dass NV den aus ihrer Evolutionsgeschichte gesehen richtigen Weg gegangen ist.

Original geschrieben von aths
Ja, so denke ich mir das auch. Soweit ich weiß, werden die Rechnungen mit FP16 nicht schneller (es sei denn man hat dieses Limit mit den temporären Registern.) Erst mit FX12 wird afaik etwa doppelt so schnell gerechnet.
Ich komme ja nur immer wieder auf FP24 zu sprechen, weil NV zumindest bei Valve Druck gemacht hat einen Mixedmode mit FP16 anzubieten, um performancetechnisch nicht so schwach darzustehen im reinen DX9-Mode. Daher mein Verdacht, dass NV einen Performancenachteil hat, weil sie nur FP32 können und FP16 muss dann ja auch was an Geschwindigkeit bringen oder warum wollte NV so einen Mixedmode? ;)

betasilie

2003-11-04, 20:35:54

Original geschrieben von Demirug
Mehr Geld - OK
Grössere DIE - OK

MHZ ???

Also Du wirst ein 200Mil.-Transitoren-Monster in 0.13µ nicht so hoch takten können, wie ein ähnlich gut gestaltetes Design mit 120Mil. Tranistoren. ;) ... GRiNSER hat das ja schon so vermutet.

Original geschrieben von Demirug
Eine FP24 Additionseinheit braucht ca 75% Prozent der Transitoren die eine FP32 Einheit braucht

Eine FP24 Multiplikationseinheit braucht ca 45% Prozent der Transitoren einer FP32 Einheit.

Alles andere liegt irgendwo dazwischen.

Die relevanten teile dürfte ca 15-20% des DIEs ausmachen.

Viel Spass beim rechnen.

Interessant. :)

aths

2003-11-04, 20:40:35

Original geschrieben von betareverse
Ich komme ja nur immer wieder auf FP24 zu sprechen, weil NV zumindest bei Valve Druck gemacht hat einen Mixedmode mit FP16 anzubieten, um performancetechnisch nicht so schwach darzustehen im reinen DX9-Mode. Daher mein Verdacht, dass NV einen Performancenachteil hat, weil sie nur FP32 können und FP16 muss dann ja auch was an Geschwindigkeit bringen oder warum wollte NV so einen Mixedmode? ;) Bei FP32 braucht's auch 32-Bit-Register. Du weißt ja, dass das Registerfile für temporäre Register bei den FXen nicht so groß ist. Bei FP16 kann man mehr temporäre Register haben, ohne dass "Blasen" durch die Pipe geschoben werden müssen. BTW nehme ich stark an, dass Valve ohne jeden Druck von NV auch auf die FXe optimiert hätte.

Die FXe müssen so viele Pixel wie möglich gleichzeitig in der Pipe haben, um effektiv zu sein, das bringt einerseits Vorteile beim Verstecken von Latenzen, andererseits auch bestimmte Nachteile.

R360

2003-11-04, 20:50:14

Original geschrieben von Gast
Wahrscheinlich .........

Das sagt alles!

Neben "könnte" wird "wahrscheinlich" das NEUE DONT-WORD :o

Demirug

2003-11-04, 20:52:41

Original geschrieben von betareverse
Ich komme ja nur immer wieder auf FP24 zu sprechen, weil NV zumindest bei Valve Druck gemacht hat einen Mixedmode mit FP16 anzubieten, um performancetechnisch nicht so schwach darzustehen im reinen DX9-Mode. Daher mein Verdacht, dass NV einen Performancenachteil hat, weil sie nur FP32 können und FP16 muss dann ja auch was an Geschwindigkeit bringen oder warum wollte NV so einen Mixedmode? ;)

FP16 hat für die NV3X Chips zwei primäre Vorteile:

1. Da der Registerspeicher sowieso etwas klein ist wird er mit FP16 nur halb so stark belastet. Der Registerspeicher ist leicht der Flaschenhals bei den Shadern.

2. Von FP16 zu FX12 ist es kein grosser Schritt. Wenn man automatische optimierungen einbauen will wäre es schneller wenn man die verträglichkeitsprüfung etwas eingrennzt.

Als möglichen dritten Grund könnte man noch sehen das nVidia den Entwicklern teilweise Tipps gibt die sich erst bei der nächsten Generation richtig auswirken. Es könnte also durchaus sein das NV4X FP16 auch native und schneller als FP32 rechnen kann. Solche FP32/FP16 Kobinations rechenwerke habe ich schon gesehen. Da man viele rechneinheiten teilen kann braucht man nur wenig mehr transitoren wie für ein reines FP32 Rechenwerk kann dann aber mit doppelter Geschwindigkeit FP16 rechnen.

Demirug

2003-11-04, 20:58:12

Original geschrieben von betareverse
Also Du wirst ein 200Mil.-Transitoren-Monster in 0.13µ nicht so hoch takten können, wie ein ähnlich gut gestaltetes Design mit 120Mil. Tranistoren. ;) ... GRiNSER hat das ja schon so vermutet.

Solange man die Abwärme abführen kann geht das.

Die erreichbare Taktrate hat direkt nichts mit der Transitorenanzahl zu tun sondern wird durch das Design und den Prozess bestimmt.

Xmas hat es ja schon geschrieben. Der kritische Pfad bestimmt den Takt. Interesant in diesem Zusammenhang ist das dieser Pfad inzwischen weniger von der Anzahl und Schaltzeiten der Transitoren abhängt. Die Verbindungswege zwischen den Transitoren werden immer mehr zum bestimmenden Faktor.

aths

2003-11-04, 21:21:56

Wie siehts mit FX12 auf? Gibts Hinweise, ob NV40 das noch kann, oder geht dann alles mit FP?

DrumDub

2003-11-04, 21:36:47

Original geschrieben von aths
Wie siehts mit FX12 auf? Gibts Hinweise, ob NV40 das noch kann, oder geht dann alles mit FP?

da der nv35/36 kein fx12 mehr kann, wirds wohl auch im nv40 net mehr drin sein.

siehe: http://www.beyond3d.com/forum/viewtopic.php?t=8005&start=0

oder hab ich da was falsch verstanden?

aths

2003-11-04, 21:42:09

NV35 hat keine HW-Int12-Units mehr, kann afaik trotzdem noch "echte" Int12-Ops ausführen.

DrumDub

2003-11-04, 21:43:12

Original geschrieben von aths
NV35 hat keine HW-Int12-Units mehr, kann afaik trotzdem noch "echte" Int12-Ops ausführen.

ah so. danke für die aufklärung.

Demirug

2003-11-04, 21:46:17

Original geschrieben von DrumDub
da der nv35/36 kein fx12 mehr kann, wirds wohl auch im nv40 net mehr drin sein.

siehe: http://www.beyond3d.com/forum/viewtopic.php?t=8005&start=0

oder hab ich da was falsch verstanden?

Cine FX II hat immer noch 2 FX12 Reg-Combiner. Zusätzliche 2 FP32 MUL und eine FP32 ADD Einheit. FP32 und FX12 Einheiten können aber nicht gleichzeitig arbeiten was darauf schliessen lässt das Teile gemeinsam benutzt werden. Auch bei der Verwendung der FP32 Einheiten gibt es scheinbar die Einschränkung das nur 2 davon gleichzeitig benutzt werden können.

Demirug

2003-11-04, 21:48:41

Original geschrieben von aths
Wie siehts mit FX12 auf? Gibts Hinweise, ob NV40 das noch kann, oder geht dann alles mit FP?

Es gibt das Gerücht das man sogar FX16 unterstützt. FX16 würde gut für PS 1.4 reichen.

egdusp

2003-11-04, 22:49:11

Verstehe ich das richtig (bin heute wohl etwas schwer von Begriff :)), dass nur 15-20 % der Die Fläche mit PS-Arithmetikeinheiten belegt sind, man also mit einer Erhöhung der Transistorenzahl um 15-20% (sofern natürlich nur für diese Einheiten verwendet) man die PS Leistung verdoppeln könnte (sofern die PS-Leistung nicht durch andere Faktoren begrenzt wird; die schlechte PS Leistung ist ja gerade einer der Kritikpunkte der CineFX).

Da erst bei langen Shadern Probleme auftreten, sollte das Problem des Inputs bzw. Outputs (z.B. Bandbreite) keinen Einfluss auf die (relevante) PS Leistung haben.

mfg
egdusp

P.s.: Versteht überhaupt einer was ich will?

Ailuros

2003-11-05, 01:54:53

Huiiii der Thread vergroessert sich wie ein Lagerfeuer und hab momentan keine Zeit mitzuhalten.

Demirug,

Kindly check your PM-box.

Later

-AiL

Demirug

2003-11-05, 07:32:55

Original geschrieben von egdusp
Verstehe ich das richtig (bin heute wohl etwas schwer von Begriff :)), dass nur 15-20 % der Die Fläche mit PS-Arithmetikeinheiten belegt sind, man also mit einer Erhöhung der Transistorenzahl um 15-20% (sofern natürlich nur für diese Einheiten verwendet) man die PS Leistung verdoppeln könnte (sofern die PS-Leistung nicht durch andere Faktoren begrenzt wird; die schlechte PS Leistung ist ja gerade einer der Kritikpunkte der CineFX).

Da erst bei langen Shadern Probleme auftreten, sollte das Problem des Inputs bzw. Outputs (z.B. Bandbreite) keinen Einfluss auf die (relevante) PS Leistung haben.

mfg
egdusp

P.s.: Versteht überhaupt einer was ich will?

20% von 130M sind immerhin auch schon 26M. Wenn man die Leistung steigern will reicht es aber nicht nur die reinen Rechenwerke hinzufügen das Steuerwerk muss ja auch angepasst werden.

seahawk

2003-11-05, 08:24:44

Ist es nicht wahrscheinlich, dass NV im Hinblick auf die PS 3.0 / VS 3.0 funktionalität zu einem reinem FP32 Chip gehen wird ?

Ist FP24 für PS 3.0 / VS 3.0 eigentlich noch ausreichend ??

2003-11-05, 11:10:37

Gohma

2003-11-05, 14:42:26

Hey, setzt der NV40 eigentlich weiterhin (wie schon zu NV30-Zeiten) auf die "Ultra Shadows"? Denn imho ist es eine sehr praktische Technologie, um unnötige Performanceverluste einzusparen.
Nur ist afaik das einzige bislang angekündigte Game, welches auf die U-Shadows setzen wird, D³ (so langsam glaube schon, dass von NV extra für D³ diese Technologie konzipiert wurde, um in den Benchmarks auch mal zum Zuge zu kommen :D)...

Also ich fände das NV40-Featue "Ultra Shadows 2.0" (halt eben typisch optimierte Version vom Original, wie wir's ja mittlerweile von NV gewohnt sind^^) net schlecht. :)

Xmas

2003-11-05, 16:05:45

UltraShadow gibt es erst seit NV35, und eigentlich gibt es da auch nichts zu verbessern. Man braucht nur einen hierarchischen Z-Buffer mit möglichst großen Tiles. Das Feature wird mit Sicherheit auch im NV40 zu finden sein, zumal der Aufwand recht gering ist.

robbitop

2003-11-05, 16:15:48

Ultra Shaddow dürfte bei allen Stencillastigen Applicationen von Vorteil sein oder?

Gast

2003-11-05, 16:54:48

Original geschrieben von seahawk
Ist es nicht wahrscheinlich, dass NV im Hinblick auf die PS 3.0 / VS 3.0 funktionalität zu einem reinem FP32 Chip gehen wird ?

Ist FP24 für PS 3.0 / VS 3.0 eigentlich noch ausreichend ??

Glaube ich nicht. Ich meine den ersten Teil.
Ich vermute Nvidia wird FP32, FP16 unterstützen. Im Gespräch in der Gerüchteküche ist auch FX16.
Wenn sie es schaffen einen Chip zu bauen, der mit FP16 und eventuell "FX16" an Performance gewinnt im Vergleich zu FP32 und auch mit FP32 immer noch gut dasteht, dann hat die ganze Optimiererei und die ganzen erzieherischen Maßnahmen momentan nicht nur zum Ergebnis, dass die aktuelle NV3x Generation mithalten kann, sondern dass man einen Performancevorteil zur Konkurenz bekommen könnte, wenn diese entsprechenden Spiele erscheinen bzw. der eigene Treiber mit seiner Compilertechnik nachhilft.

Nicht vergessen darf man auch, dass Nvidia's Produkte derzeit gute 2/3 des DX9 Marktes bilden.
Die Motivation für den ein oder anderen Entwickler ist also durchaus gegeben.

Ich würde nicht von einem reinen FP32 Chip ausgehen.

betasilie

2003-11-05, 16:56:44

Original geschrieben von aths
Bei FP32 braucht's auch 32-Bit-Register. Du weißt ja, dass das Registerfile für temporäre Register bei den FXen nicht so groß ist. Bei FP16 kann man mehr temporäre Register haben, ohne dass "Blasen" durch die Pipe geschoben werden müssen. BTW nehme ich stark an, dass Valve ohne jeden Druck von NV auch auf die FXe optimiert hätte.

Die FXe müssen so viele Pixel wie möglich gleichzeitig in der Pipe haben, um effektiv zu sein, das bringt einerseits Vorteile beim Verstecken von Latenzen, andererseits auch bestimmte Nachteile.

Original geschrieben von Demirug
FP16 hat für die NV3X Chips zwei primäre Vorteile:

1. Da der Registerspeicher sowieso etwas klein ist wird er mit FP16 nur halb so stark belastet. Der Registerspeicher ist leicht der Flaschenhals bei den Shadern.

2. Von FP16 zu FX12 ist es kein grosser Schritt. Wenn man automatische optimierungen einbauen will wäre es schneller wenn man die verträglichkeitsprüfung etwas eingrennzt.

Als möglichen dritten Grund könnte man noch sehen das nVidia den Entwicklern teilweise Tipps gibt die sich erst bei der nächsten Generation richtig auswirken. Es könnte also durchaus sein das NV4X FP16 auch native und schneller als FP32 rechnen kann. Solche FP32/FP16 Kobinations rechenwerke habe ich schon gesehen. Da man viele rechneinheiten teilen kann braucht man nur wenig mehr transitoren wie für ein reines FP32 Rechenwerk kann dann aber mit doppelter Geschwindigkeit FP16 rechnen.
Ok, jetzt habe ich es gerafft. ;) Also wird der NV40 wahrscheinlich nur das Nadelöhr in Form des Registercache vergrößert und somit die Effektivitätsrate der Pipe verbessert. Dann wäre die Pipe auch ohne Optimierungen besser ausgenutzt und könnte zeigen was in ihr steckt.

Original geschrieben von Demirug
Interesant in diesem Zusammenhang ist das dieser Pfad inzwischen weniger von der Anzahl und Schaltzeiten der Transitoren abhängt. Die Verbindungswege zwischen den Transitoren werden immer mehr zum bestimmenden Faktor.
Aber die Verbindungswege sind ja ebenfalls mit wachsender Die-Größe ein Problem und deswegen sinkt im allgemeinen die maximale Taktrate mit der Die-Größe. :kratz:
Abgesehen davon steht afaik die Möglichkeit die Wärme des Dies abzuleiten in einem sich ins negative bewegenden Verhältniss zu Die-Größe bei gleichem Takt, zumindest ab einer bestimmten Größe.

Aquaschaf

2003-11-05, 17:34:33

Original geschrieben von seahawk
Ist es nicht wahrscheinlich, dass NV im Hinblick auf die PS 3.0 / VS 3.0 funktionalität zu einem reinem FP32 Chip gehen wird ?

Ist FP24 für PS 3.0 / VS 3.0 eigentlich noch ausreichend ??

Wie schon gesagt wurde, es kostet nur wenige Transistoren ein FP32 Rechenwerk so zu erweitern, dass es statt einem FP32 Wert in einem Takt 2 FP16 Werte berechnet - vielleicht hat NV ja so etwas vor.

Demirug

2003-11-05, 18:02:13

Original geschrieben von betareverse
Ok, jetzt habe ich es gerafft. ;) Also wird der NV40 wahrscheinlich nur das Nadelöhr in Form des Registercache vergrößert und somit die Effektivitätsrate der Pipe verbessert. Dann wäre die Pipe auch ohne Optimierungen besser ausgenutzt und könnte zeigen was in ihr steckt.

Gerüchte sprechen auch davon das man die Einheiten innerhalb der Pipeline anders anordnen will. Dadurch soll die länge verkürzt werden. Wird die Pipeline kürzer braucht man weniger Pixel um sie voll zu bekommen. Braucht man weniger Pixel braucht man auch weniger Platz im Registerfile.

Aber die Verbindungswege sind ja ebenfalls mit wachsender Die-Größe ein Problem und deswegen sinkt im allgemeinen die maximale Taktrate mit der Die-Größe. :kratz:

Es geht um die Verbindungswege innerhalb eines einzelnen Schlatkreises. Dabei ist die Gesamtgrösse des DIEs egal weil man bei der ermitlung der maximalen Taktrate immer nur einzelnen Schaltkreise beachtet.

Abgesehen davon steht afaik die Möglichkeit die Wärme des Dies abzuleiten in einem sich ins negative bewegenden Verhältniss zu Die-Größe bei gleichem Takt, zumindest ab einer bestimmten Größe.

AFAIK hat die DIE grösse keinen Einfluss auf die Kühlbarkeit. Die Kühlprobleme kommen eher daher das aufgrund der immer kleineren Prozesse die Wärmemenge pro cm² ständig steigt.

betasilie

2003-11-05, 18:31:12

Original geschrieben von Demirug
Die Kühlprobleme kommen eher daher das aufgrund der immer kleineren Prozesse die Wärmemenge pro cm² ständig steigt.
Deswegen ja auch Kupfer im Boden moderner Kühler, damit die Wärme schneller abgeführt werden kann.

Original geschrieben von Demirug
AFAIK hat die DIE grösse keinen Einfluss auf die Kühlbarkeit.
Das habe ich aber mal gelesen, afair. :spock: Das hat irgendwas mit der Wärmeleitfähigkeit des Chips selber zu tun und afair mit dem nichtlinear steigenden Stromhunger; die Steigung der Abwärme-Kurve zieht ab einer bestimmten Größe steil an. ...
Und mal angenommen diese Verhältnissmäßigkeit würde es nicht geben, würde doch die Abwärme linear steigen und dann hat man auch relativ schnell ein Problem. Eine doppelt so große Die würde die doppelte Effektivität eines Kühlers verlangen, was ja nicht gerade wenig wäre.