nVidia - GT400/GF100 - Q1/2010, DX11, CUDA 3.0 [Archiv] - Seite 40

deekey777

2010-01-18, 14:19:42

Was ich mir noch denke: Woher nimmt NV eigentlich die Gewißheit, daß die game devs dermaßen hohe Tess. Anforderungen einbauen?
Welcher dev schraubt den Geo.Anteil so hoch, daß AMD Karten nicht mehr mitkommen?
Allein schon wegen der Mainstream Karten geht das gar nicht.

Könnte also gut sein, die tolle Geo.Leistung wird gar nicht genutzt...
Ach, die Realität hat ans Fenster geklopft. :D

Im Ernst: Man darf nicht vergessen, dass es immer eine Pipeline ist. Und sicher ist nur eins: Im Endeffekt kommt es auf die Pixelshaderleistung an. Tessellierte Landschaft bringt nichts, wenn die Oberflächen wie Mist aussehen. Die Entwickler wollen in erster Linie glaubhafte Materialshader bieten, die Geometrie ist nachrangig.

reunion

2010-01-18, 14:21:18

Wegen Performance, nicht durch Features. Das wenige, was ATI unterstützt, machen sie in der Regel performant, ja. Aber seit DX10 gibts ja keine Ausflüchte mehr bei Features. Abwarten, wie sich das mit der Zukunftssicherheit bei ATI entwickelt.

Natürlich wegen Performance, auf was anderes kann sich tombman ja auch kaum bezogen haben, denn mehr Features wird Fermi auch nicht unterstützen. Aber solche Aussagen gelten eben auch nur für bestimmte Generationen und sind kein Gesetz. Siehe DX10.1/DX11, wo es mit den Features umgekehrt war. Dafür hat NV jetzt auch keine Probleme mehr mit der Zukunftssicherheit.

Ailuros

2010-01-18, 14:29:53

die pr folien über tess sind halt pr und sonst nichts.

PR sucht sich die Rosinen aus und uebertreibt dementsprechend. Hierbei ist es mir persoenlich erstmal wurscht ob in Echtzeit ein GF100 um "8xMal" effizienter ist als eine GTX285. Schon 4x Mal so viel erscheinen mir genug und die Rate sollte man garantiert erreichen koennen, da NV's marketing auch nicht unbedingt ehrlich war als man fuer GT200 1Tri/clock behauptete.

Cypress ist auch um 250% schneller als RV770 oder wurde die Folie schon wieder begraben?

wieso haben die denn nicht z.b. stalker dx11 bench dafür genommen gehabt wenn die unter dx11 abgehen soll wie schmitz katz.

oder noch besser wieso gab es kein far cry2 unter 8x msaa wenn die das schon als benchmark nehmen,ne man muss sich ja ein spiel aussuchen wo die alte generation derbe einbricht unter 8x mssaa wie bei HAWX halt.

das ist auch gut,

wenn der speicher ausgeht oder was?

Warum warten wir einfach nicht ab bis sie die Dinger endlich vorstellen und das Ganze von unabhaenigegen Quellen ausfuehrlich getestet wird? Wenn's jetzt um das staendige hin und her gehen soll, es gab bisher denn Bloedsinn dass NV angeblich 3D fuer HPC vernachlaessigt hat. Scheint aber nicht der Fall zu sein denn keine der beiden Investitions-Richtungen in R&D klingen bescheiden. Und das ist auch nur das einzige dass ich momentan behalten will.

am ende kommt eine 60-70% zur alten generation also alles wie gehabt abgesehen von kleineren sprüngen bei 8x msaa.
also doch wie immer nur halt mit einem extrem hohen stromverbrauch.
~30% über 5870 sollten es werden,tut ehrlich gesagt nicht weh.:wink:

Ist zwar nicht gegen Dich gerichtet aber ich hab ehrlich gesagt die Nase voll von dieser albernen Dreherei. Mal ist 8xMSAA wichtig und mal nicht. AMD hatte gutes Recht sich beim Cypress launch u.a. sehr stark auf 8xMSAA Leistung zu konzentrieren. Und ja natuerlich hat NV hier nachholen muessen da es laecherlich ist so stark einzubrechen wie bis zu GT200 mit nur 2 cycli.

Ich will erstmal sehen wie 16xCSAA bzw. 32xCSAA mit Transparenz-AA in Echtzeit aussieht. Falls keine Seiteneffekte in Spielen vorkommen sollten und es hilft die bekloppten alpha tests besser zu glaetten, koennte es sogar sein dass fuer mich 8xMSAA ein Stueck mehr ueberfluessiger werden sollte.

TMUs bzw. Filterung machen mir dann eher Sorgen, denn sie sind zu still was diesen Bereich betrifft.

Im Ernst: Man darf nicht vergessen, dass es immer eine Pipeline ist. Und sicher ist nur eins: Im Endeffekt kommt es auf die Pixelshaderleistung an. Tessellierte Landschaft bringt nichts, wenn die Oberflächen wie Mist aussehen. Die Entwickler wollen in erster Linie glaubhafte Materialshader bieten, die Geometrie ist nachrangig.

Wo steht dass die PS Leistung auf GF100 das nachsehen hat?

Spasstiger

2010-01-18, 14:34:55

Die Entwickler wollen in erster Linie glaubhafte Materialshader bieten, die Geometrie ist nachrangig.
Dito. Half-Life und Quake sehen mit Truform auch nicht aus wie Spiele von 2001, als Truform eingeführt wurde.
Tesselation hilft in erster Linie, um stufenloses Geometrie-LOD umzusetzen und um sehr nahe Objekte nicht kantig und eckig wirken zu lassen. Für ein beeindruckendes Gesamtbild brauchts aber glaubhafte Materialshader und AntiAliasing an den richtigen Stellen. Es gibt doch diese Eisberg-Bilder aus einer angeblichen Nvidia-Demo. Sowas finde ich schicker als alle gezeigten Tesselation-Demos.

Ailuros

2010-01-18, 14:38:05

Dito. Half-Life und Quake sehen mit Truform auch nicht aus wie Spiele von 2001, als Truform eingeführt wurde.
Tesselation hilft in erster Linie, um stufenloses Geometrie-LOD umzusetzen und um sehr nahe Objekte nicht kantig und eckig wirken zu lassen. Für ein beeindruckendes Gesamtbild brauchts aber glaubhafte Materialshader und AntiAliasing an den richtigen Stellen. Es gibt doch diese Eisberg-Bilder aus einer angeblichen Nvidia-Demo. Sowas finde ich schicker als alle gezeigten Tesselation-Demos.

Och ich koennte mir kinderleicht vorstellen dass bis waschreine DX11 Spiele erscheinen (und nicht DX9 Spiele + path) wir ab und zu Faelle von uebertriebener Tesselation sehen koennten. Ist ja auch praktisch immer ein bedauerndes artistisches Problem da jeder Entwickler auch jedem Blinden zeigen will dass Bumsfallera Feature auch da ist.

N0Thing

2010-01-18, 14:38:39

kann mir mal einer, auch nur EINER, erklären warum wenn die karte wirklich so schnell wäre die grossen hardwareseiten keine test samples bekommen um mit den daraus resultierenden blendenden zahlen die werbetrommel für nvidia's upcoming generation zu rühren? ich verstehe das überhaupt nicht

Die bekommen noch Karten, allerdings würde ATI davon profitieren, deutlich vor der Markteinführung schon genau über die Leistungsfähigkeit des GF100 Bescheid zu wissen. Preisanpassungen, Werbung, Gegenbenchmarks und u.U. eine HD5890, usw.
Jetzt geht es darum, ein paar Informationshäppchen zu verteilen und dafür zu Sorgen, daß potentielle Käufer weiter auf Fermi warten und nicht zu einer Radeon greifen.
Man sieht ja schön an Tombman, der ja genau die Zielgruppe ist, die dazu bereit wäre mal eben 2x600€ raus zu hauen, daß Nvidias Marketing prima funktioniert. ;)
Ist ähnlich wie vor dem Release des RV870, da gab es auch ausgesuchte Daten (dabei natürlich aus der Hand von ATI), die praktisch nichts wert waren, aber eine gewisse Begeisterung und Vorfreude erzeugt haben.

reunion

2010-01-18, 14:38:50

TMUs bzw. Filterung machen mir dann eher Sorgen, denn sie sind zu still was diesen Bereich betrifft.

Eben, habe ich ja auch schon gefragt warum es hier keine genauen Angaben gibt. Aber offensichtlich will man dazu nichts sagen. Normalerweise kein gutes Zeichen, wenn man schon sonst alles zeigt wo man man überlegen ist.

igg

2010-01-18, 14:39:04

Die Entwickler wollen in erster Linie glaubhafte Materialshader bieten, die Geometrie ist nachrangig.
Nicht ganz: John Carmack hat in einem Interview gesagt, dass nach Texture nun Geometrie Virtualization das nächste große Thema sein wird. Gut, Rage und Doom 4 sind noch nicht da, aber es wird jetzt damit begonnen, die nächste Engine Generation dafür zu entwickeln (ja ich weiß, da spielt dann niemand mehr mit GTX380)

deekey777

2010-01-18, 14:40:34

...

Wo steht dass die PS Leistung auf GF100 das nachsehen hat?
Wo steht, dass die PS-Leistung fehlt?
Geht aus meinem Posting nicht hervor, dass es andere viel wichtigere Punkte gibt als die Tessellation bzw. die Geometrieleistung? Es gibt eine etwas ältere Umfrage seitens Microsofts, worauf die Spieleentwickler Wert legen. Und das ist nunmal nicht die Geometrie, sondern die Materialshader und die glaubhafte Beleuchtung.

Nicht ganz: John Carmack hat in einem Interview gesagt, dass nach Texture nun Geometrie Virtualization das nächste große Thema sein wird. Gut, Rage und Doom 4 sind noch nicht da, aber es wird jetzt damit begonnen, die nächste Engine Generation dafür zu entwickeln (ja ich weiß, da spielt dann niemand mehr mit GTX380)
Was hat das eine mit dem anderen zu tun? Nicht nur, dass JC eine einzelne Person ist und nicht für eine Mehrzahl von Entwicklern spricht: Was hat sein Ansatz mit dem Thema zu tun? Er will mit seinem Ansatz gerade nicht 10000 Mio Poly/s darstellen, sondern die starre Geometrie über das LOD vernünftig darstellen.

Gast

2010-01-18, 14:41:11

Super Teil, viel Potential, aber ich weiß nicht warum ATI schlechter sein soll. Es wird wohl keiner im Ernst glauben, dass die Stärken der Karte auch nur eine Hauch von Sinn machen, da bis es soweit ist 5 neue Generationen vor der Tür stehen, dann wenn sie interessant werden kommen die nächsten Konsolen und man wird merken das man Mist hat :)

Dural

2010-01-18, 14:41:14

und das coole, stellt euch mal vor wenn eine GTX380 mal mit 1000/2000MHz taktet, das ding muss so brutal abgehen! :biggrin:

und das tolle, GF100 wird ziemlich sicher sehr gut taktbar sein die voraussetzungen dazu sind besstens: Hoher Strom Verbrauch / Wärme / tiefe Spannung / 40nm usw. NV muss das ding wohl vorsich hintüpeln lassen weil man an die Thermischen und die 300Watt TDP Grenze für den normalen Retail Markt stösst, mit guter Kühlung (WaKü und tiefer) und mehr Spannung (inkl. vernünftiges NT...) wird das ding abgehen, da bin ich mir doch recht sicher!

mapel110

2010-01-18, 14:41:22

Eben, habe ich ja auch schon gefragt warum es hier keine genauen Angaben gibt. Aber offensichtlich will man dazu nichts sagen. Normalerweise kein gutes Zeichen, wenn man schon sonst alles zeigt wo man man überlegen ist.
Es könnte auch sein, dass es in dem Bereich keine Änderungen gab. Damit kann man dann auch nicht werben. Und bislang hat ATI in dem Bereich Nachholbedarf. Bei nvidia ist man mit HQ nahe am Optimum.

Gast

2010-01-18, 14:41:44

Was ich mir noch denke: Woher nimmt NV eigentlich die Gewißheit, daß die game devs dermaßen hohe Tess. Anforderungen einbauen?
Welcher dev schraubt den Geo.Anteil so hoch, daß AMD Karten nicht mehr mitkommen?
Allein schon wegen der Mainstream Karten geht das gar nicht.

Vielleicht weil man Tesselation, wenn man es mal hat, quasi beliebig skalieren lassen kann.

Es wird kaum ein Spieleentwickler etwas dagegen haben, wenn die maximale Einstellung beim Tesselationsgrad eben etwas höher ausfällt.

Für Mainststream und ATI-karten kann man ja immer noch die Details zurückstellen, was wahrscheinlich auch nur unwesentlich schlechter aussieht, aber da fast alle mit MAX Details benchen gibt es für NV zumindest schön lange Balken.

tombman

2010-01-18, 14:46:34

Das Schöne an der Tesselation ist doch, dass man dem Nutzer überlassen kann, wieviele Polys er braucht. Dann gibts halt vier Tesselation-Einstellungen, niedrig, mittel, hoch und ultra. "Ultra" läuft dann nur auf GF100-basierenden Karten flüssig, sieht aber nur unwesentlich besser aus als "hoch".
Klar muß man mit Tess. nur ein paar Parameter ändern, und schon rennt das Ding, aber ich bezweile, ob die devs das zulassen :)
Obwohl, Batmangate hats ja auch gegeben :D

Gast

2010-01-18, 14:47:46

Jetzt geht es darum, ein paar Informationshäppchen zu verteilen und dafür zu Sorgen, daß potentielle Käufer weiter auf Fermi warten und nicht zu einer Radeon greifen.

Zu einer Radeon greifen können sie ja auch gar nicht....dank des Paperlaunch der HD5870. :) Diese angeblich verfügbare Karte ist nach wie nicht lieferbar (Geizhals) oder in Deutschland nur für einen (Mond-)Preis ab 360€ + Lieferung zu haben.

Ich denke, die Zurückhaltung mit Testkarten hat in erster Linie auch etwas mit den finalen Taktfrequenzen und nicht nur mit der Angst vor einer Reaktion seitens AMD/ATI zu tun. Würden sie (rein beispielsweise) Samples zum benchen herausgeben, die 650Mhz Coretakt besäßen, mit dem Hintergrund, dass diese allersdings sehr gute und selektierte Chips sind, wäre der Aufschrei riesig, wenn die Taktraten der handselektierten Samples es nicht in die Massenproduktion schaffen. Der Aufschrei, der dann folgen würde.....

Vielleicht will nVidia sich einfach noch nicht festlegen lassen, da sie selber nicht wissen, welcher Takt sich bei gutem yield für die Masse erreichbar sein wird. Zu schweigen scheint daher besser zu sein, als Versprechungen in Form von Benchmarkergebnissen besonders gut getakteter Testexemplare zu machen.

Ailuros

2010-01-18, 14:48:14

Wo steht, dass die PS-Leistung fehlt?
Geht aus meinem Posting nicht hervor, dass es andere viel wichtigere Punkte gibt als die Tessellation bzw. die Geometrieleistung?

Rasterizing bzw. setup waren Sorgenkinder fuer Entwickler und in indirekter Art auch ziemlich nutzvoll fuer Tesselation. Und glaub mir diese Sorgenkinder haben Entwickler schon seit einiger Zeit immer und immer wieder verkundet. Deshalb hat auch Cypress 2 rasterizer.

Natuerlich hast Du nichts ueber PS Leistung erwaehnt, aber so wie Du es ausgedrueckt hast koennte man es schon fast so herauslesen. Geometrie war ein ziemlich grosser problematischer Punkt seit G80 und sie setzten eben neue Grundlagen die eben auch notwendig waren. Es wird wohl keiner so naiv sein und glauben dass ein Entwickler so bloed waere und bis zu 8xMal so viel Geometrie als fuer eine GT200 zu benutzen oder?

Es gibt eine etwas ältere Umfrage seitens Microsofts, worauf die Spieleentwickler Wert legen. Und das ist nunmal nicht die Geometrie, sondern die Materialshader und die glaubhafte Beleuchtung.

Siehe oben.

tombman

2010-01-18, 14:50:14

Vielleicht weil man Tesselation, wenn man es mal hat, quasi beliebig skalieren lassen kann.

Es wird kaum ein Spieleentwickler etwas dagegen haben, wenn die maximale Einstellung beim Tesselationsgrad eben etwas höher ausfällt.

Für Mainststream und ATI-karten kann man ja immer noch die Details zurückstellen, was wahrscheinlich auch nur unwesentlich schlechter aussieht, aber da fast alle mit MAX Details benchen gibt es für NV zumindest schön lange Balken.
Das setzt aber erstmal vorraus, daß es so viele DX11 Titel mit heaxy tess-use geben wird-wohlgemerkt in der Nutzzeit des Fermi...

Klar, Fermi ist wiedermal ein toller Grundstein, aber wie siehts mit ganz einfacher Rohleistung aus, zb in DX9 oder DX10? Sprich: Konsolenniveau :ugly:?

Raff

2010-01-18, 14:52:19

Das ist eben der Unterschied: ATI denkt an JETZT, und Nvidia an die ZUKUNFT ;)

ATI ist doch nur Mitläufer, Nvidia Innovator ;)

Es gab schon mal einen Hersteller, der das (damalige) "Jetzt" schöner machte und deswegen dem Checklisten-Champion Nvidia hinterherhechelte ... ;)

MfG,
Raff

Gast

2010-01-18, 14:52:30

Super Teil, viel Potential, aber ich weiß nicht warum ATI schlechter sein soll.

ATI ist alleine deshalb schlechter, weil man für flimmerfreie Texturen SSAA braucht und dann ist man mehr als deutlich langsamer.

Raff

2010-01-18, 14:53:43

ATI ist alleine deshalb schlechter, weil man für flimmerfreie Texturen SSAA braucht und dann ist man mehr als deutlich langsamer.

Böse Shader, die in fast jedem neuen Spiel vorkommen, flimmern mit Nvidias HQ-AF auch und brauchen dementsprechend SSAA. Von daher ist das nur unter D3D10/11 ein Argument, weil dort ein SSAA vom Treiber forciert werden kann.

MfG,
Raff

tombman

2010-01-18, 14:55:06

Es gab schon mal einen Hersteller, der das (damalige) "Jetzt" schöner machte und deswegen dem Checklisten-Champion Nvidia hinterherhechelte ... ;)

MfG,
Raff
Meinst du deinen Gott, dessen Name mit dem selben Zeichen wie dieses Forum anfängt? :)

Gast

2010-01-18, 14:56:28

Zu einer Radeon greifen können sie ja auch gar nicht....dank des Paperlaunch der HD5870. :) [...]
Danke LS für diesen wertvollen Beitrag LOL

deekey777

2010-01-18, 14:57:44

Rasterizing bzw. setup waren Sorgenkinder fuer Entwickler und in indirekter Art auch ziemlich nutzvoll fuer Tesselation. Und glaub mir diese Sorgenkinder haben Entwickler schon seit einiger Zeit immer und immer wieder verkundet. Deshalb hat auch Cypress 2 rasterizer.

Natuerlich hast Du nichts ueber PS Leistung erwaehnt, aber so wie Du es ausgedrueckt hast koennte man es schon fast so herauslesen. Geometrie war ein ziemlich grosser problematischer Punkt seit G80 und sie setzten eben neue Grundlagen die eben auch notwendig waren. Es wird wohl keiner so naiv sein und glauben dass ein Entwickler so bloed waere und bis zu 8xMal so viel Geometrie als fuer eine GT200 zu benutzen oder?

Siehe oben.
Denk doch einfach an Crysis: Das Spiel hat nicht nur im Durchschnitt 2 Mio Polys/frame, sondern wahnwitzige Materialshader, wahnwitzige Beleuchtung, atmosphärische Effeke erster Güte usw.
Selbst wenn das Trisetup/Rasterizing mit der DX11-Generation nicht das Sorgendkind ist, so ist das, was danach kommt, dafür zuständig, ob ein Spiel epic oder epic fail ist.

derguru

2010-01-18, 15:00:16

PR sucht sich die Rosinen aus und uebertreibt dementsprechend. Hierbei ist es mir persoenlich erstmal wurscht ob in Echtzeit ein GF100 um "8xMal" effizienter ist als eine GTX285. Schon 4x Mal so viel erscheinen mir genug und die Rate sollte man garantiert erreichen koennen, da NV's marketing auch nicht unbedingt ehrlich war als man fuer GT200 1Tri/clock behauptete.

hab doch nicht das gegenteil behauptet oder?

Cypress ist auch um 250% schneller als RV770 oder wurde die Folie schon wieder begraben?

hab doch nicht das gegenteil behauptet oder?

Warum warten wir einfach nicht ab bis sie die Dinger endlich vorstellen und das Ganze von unabhaenigegen Quellen ausfuehrlich getestet wird?
gute idee

Ich will erstmal sehen wie 16xCSAA bzw. 32xCSAA mit Transparenz-AA in Echtzeit aussieht. Falls keine Seiteneffekte in Spielen vorkommen sollten und es hilft die bekloppten alpha tests besser zu glaetten, koennte es sogar sein dass fuer mich 8xMSAA ein Stueck mehr ueberfluessiger werden sollte.

das will ich auch sehen aber forcieren wird man das doch auch nur unter dx9 können,dann lieber sgsaa.8xmsaa ist auch bei ati überflüssig,macht ja erst sinn in kombination mit den tent modis und adaptive AA.

ok aber der performanceverlust unter 32xcsaa ist wirklich nicht der rede wert,da kann man sich nicht beschweren.
http://www.abload.de/img/site_50vke.png

Gast

2010-01-18, 15:02:59

Das setzt aber erstmal vorraus, daß es so viele DX11 Titel mit heaxy tess-use geben wird-wohlgemerkt in der Nutzzeit des Fermi...

Fermis Nutzzeit wird wohl recht lange sein und mit der Tesselation haben die Spieledesigner endlich mal wieder ein Vorzeigefeature, welches bei DX10 mehr oder weniger gefehlt hat, ich habe da eigentlich wenig Sorgen, dass gerade Tesselation sehr häufig eingesetzt wird, da man das ganze sofort sieht.

Der einzige Grund dort nicht höhere Details zu erlauben wäre auch nur eine Intervention von ATI, aber da ATI im Vergleich zu NV auch eher einen schlechten Draht zu den Entwicklern hat, wird das wohl auch eher selten vorkommen.

Gast

2010-01-18, 15:03:40

ATI ist alleine deshalb schlechter, weil man für flimmerfreie Texturen SSAA braucht und dann ist man mehr als deutlich langsamer.

Ich meine damit schlechter für was ? Für das was es gibt oder geben wird ?
Für die 2 Spiele die man wirklich spielt, zählen wir mal alles andere das man zum "staunen" braucht nicht dazu :)

Dafür ist Ati mehr als ausreichen und Ati ist nicht teurer und sicher auch nicht hungriger.

Ich denke auch das man diese Entscheidungen nicht nur vom technischen Aspekt betrachten sollte. Die Entwicklungskosten sind zu hoch für Spiele die sicher bis zu den nächsten Generationen, noch wirklich besser werden.

NV hätte dies auch nicht so gemacht wenn es um diesen Markt ginge, es wurde von Anfang an für den Profimarkt entwickelt, wenn dann was brauchbares für Spieler noch mit rauskommt ist es ja Ok.

Gast

2010-01-18, 15:04:28

Och ich koennte mir kinderleicht vorstellen dass bis waschreine DX11 Spiele erscheinen (und nicht DX9 Spiele + path) wir ab und zu Faelle von uebertriebener Tesselation sehen koennten. Ist ja auch praktisch immer ein bedauerndes artistisches Problem da jeder Entwickler auch jedem Blinden zeigen will dass Bumsfallera Feature auch da ist.
"Das Gute" an Tessellation ist, dass es sich leicht wie kein anderes Feature per Slider regulieren und so an die Leistungsfähigkeit der verwendeten Karte anpassen lässt.

Kein Entwickler verliert etwas, wenn er als Maximum eine bis zum Horizont detaillierte Landschaft anbietet.

-carsten

Gast

2010-01-18, 15:06:18

Hmmm....ist es dann nicht auch so, das durch die hohe Geometrieleistung auch 3d Anwendungen stark von proftieren können? Grade bei der Bearbeitung von Szenen/Models dürfte es doch schon einer kleinen revolution gleichkommen.

Ist dann halt wieder die Frage, ob man mit den Standardtreibern viel davon mitbekommt. Die Specs zumindest lesen sich wahrlich sehr gut.

gruß
ukl

pervert

2010-01-18, 15:11:15

Klar muß man mit Tess. nur ein paar Parameter ändern, und schon rennt das Ding, aber ich bezweile, ob die devs das zulassen :)
Obwohl, Batmangate hats ja auch gegeben :D
Ganz genau!

Spiel mal Batman auf max Physx in Full HD und 4x AA auf nur einer GTX285 ;)

Es wird immer Spiele geben die mehr fordern (können) als selbst die beste Grafikkarte zu bieten hat. Warten wir mal auf Mafia 2 (inkl. Physx) und Crysis 2...

Also frage ich eher: seit wann ignorieren alle Spieleentwickler dass es bessere (als ATI ;)) Hardware gibt und richten sich ausschließlich nach dem Mainstream??

Blaire

2010-01-18, 15:14:12

das will ich auch sehen aber forcieren wird man das doch auch nur unter dx9 können,dann lieber sgsaa.

CoverageAA ging auch unter DX10 bisher. Das dürfte diesmal ähnlich sein.
Hoffentlich bleiben die OGSSAA/Hybriden drin sonst wüsst ich garnicht wohin mit der ganzen Performance...

N0Thing

2010-01-18, 15:16:55

Zu einer Radeon greifen können sie ja auch gar nicht....dank des Paperlaunch der HD5870. :) Diese angeblich verfügbare Karte ist nach wie nicht lieferbar (Geizhals) oder in Deutschland nur für einen (Mond-)Preis ab 360€ + Lieferung zu haben.

Wenn es Karten zu kaufen gibt, kann es kein Paperlaunch sein und verfügbare Karten sind immer besser als gar keine Karten fertig zu haben. Der Preis von 370€ ist verhältnismäßig teuer, aber nicht relevant für diejenigen, die für eine Fermi-Karte auch über 500€ bezahlen würden. Und nur von dieser Zielgruppe habe ich gesprochen. Soviel zum Offtopicbereich.

Ich denke, die Zurückhaltung mit Testkarten hat in erster Linie auch etwas mit den finalen Taktfrequenzen und nicht nur mit der Angst vor einer Reaktion seitens AMD/ATI zu tun. Würden sie (rein beispielsweise) Samples zum benchen herausgeben, die 650Mhz Coretakt besäßen, mit dem Hintergrund, dass diese allersdings sehr gute und selektierte Chips sind, wäre der Aufschrei riesig, wenn die Taktraten der handselektierten Samples es nicht in die Massenproduktion schaffen. Der Aufschrei, der dann folgen würde.....

Vielleicht will nVidia sich einfach noch nicht festlegen lassen, da sie selber nicht wissen, welcher Takt sich bei gutem yield für die Masse erreichbar sein wird. Zu schweigen scheint daher besser zu sein, als Versprechungen in Form von Benchmarkergebnissen besonders gut getakteter Testexemplare zu machen.

Das mag sein, aber auch wenn eine Firma schon weiß was sie erreichen kann und will, wird es erst 2-4 Wochen vor dem Release Samples für die Tester geben. Ein zusätzlicher Monat allein für die Treiber schadet nie.
Da Nvidia, wenn ich das richtig verstanden habe, noch nichtmal Chips an ihre Partner ausliefert, haben sie wohl noch keine Karten fertig, die an Reviewer gegeben werden können.
Die Informationen so weit vor dem eigentlichen Launch sollen Nvidia in den Medien halten und Interesse schüren. Würde ich auch so machen.

Gast

2010-01-18, 15:17:11

[QUOTE=pervert;7788788]Es wird immer Spiele geben die mehr fordern als selbst die beste Grafikkarte zu bieten hat. Warten wir mal auf Mafia 2 (inkl. Physx) und Crysis 2...
QUOTE]

Wenn die Ausnahme Spiele kommen werden alle auf die nächsten Generationen warten dürfen weil es zu langsam ist :)

derguru

2010-01-18, 15:22:45

CoverageAA ging auch unter DX10 bisher. Das dürfte diesmal ähnlich sein.
Hoffentlich bleiben die OGSSAA/Hybriden drin sonst wüsst ich garnicht wohin mit der ganzen Performance...
dann könnte 32xCSAA mit transparenz-AA ein killerfeature werden finde ich wenn es jederzeit über den treiber zuschaltbar ist(dx9-11) und nur ~10% zu 8x msaa verlieren würde. age of conan der ramvernichter soll nur ca.8% performanceverlust gegenüber 8x msaa erleiden und deutlich besser aussehen.

reunion

2010-01-18, 15:24:42

CoverageAA ging auch unter DX10 bisher. Das dürfte diesmal ähnlich sein.

Wie soll man CSAA in DX10/11 forcen können wenn nicht mal MSAA geht?

Odal

2010-01-18, 15:25:06

Böse Shader, die in fast jedem neuen Spiel vorkommen, flimmern mit Nvidias HQ-AF auch und brauchen dementsprechend SSAA. Von daher ist das nur unter D3D10/11 ein Argument, weil dort ein SSAA vom Treiber forciert werden kann.

MfG,
Raff

hat das RGSSAA welches ATI nun anbietet nicht auch den Nachteil das oftmals alles wegen postprocessing effekten verblurrt wie beim NV SSAA?

also bei fast allem neueren kann ich nur noch DS einsetzen und das NV SSAA ist für die tonne

Ailuros

2010-01-18, 15:30:25

"Das Gute" an Tessellation ist, dass es sich leicht wie kein anderes Feature per Slider regulieren und so an die Leistungsfähigkeit der verwendeten Karte anpassen lässt.

Kein Entwickler verliert etwas, wenn er als Maximum eine bis zum Horizont detaillierte Landschaft anbietet.

-carsten

Carsten wie ich schon Mal sagte bei mir ist im Unigine demo schon die Kinnlade gefallen. Trotz allem gibt es selbst in diesem fruehen techdemo einige Stellen wo Tesselation zu viel des Guten fuer meinen Geschmack ist.

Eine weitere Frage die ich zwar im Hinterkopf habe aber vielleicht nochmal fragen werde in der Zukunft: was passiert mit Multisampling Effizienz wenn mir jemand zu stark auf den zahllose winzige Dreiecke-Hebel drueckt?

Ich will zwar bezweifeln dass viele Entwickler sich in der Zwischenzeit auch die AA Leistung kontrollieren bei der Entwicklung eines Spiels, aber irgendwo werden andere Faktoren frueher oder spaeter auch mitspielen. Und ja genau diese wir auch die Rolle vom TWIMTP Programm langfristig sein.

Am Ende des Tages bedeutet es lediglich dass fuer die weniger absehbare Zukunft die Spielentwickler keine besondere Sorgen mehr fuer Geometrie machen muessen, jetzt wo NV endlich in diesem Bereich zugelegt hat.

Wie soll man CSAA in DX10/11 forcen können wenn nicht mal MSAA geht?

In dem Fall haben beide IHVs Pech gehabt. Denn dann ist ueberhaupt kein AA mehr moeglich.

reunion

2010-01-18, 15:31:22

hat das RGSSAA welches ATI nun anbietet nicht auch den Nachteil das oftmals alles wegen postprocessing effekten verblurrt wie beim NV SSAA?

also bei fast allem neueren kann ich nur noch DS einsetzen und das NV SSAA ist für die tonne

Gibt es zwar auch aber tritt seltener auf oder weniger stark als bei NV.

tombman

2010-01-18, 15:35:00

Man sieht ja schön an Tombman, der ja genau die Zielgruppe ist, die dazu bereit wäre mal eben 2x600€ raus zu hauen, daß Nvidias Marketing prima funktioniert. ;)
Wenn ich was kaufe, dann nicht weil irgendein marketing funktioniert hat, sondern weil das Paket einfach stimmt...

Ansonsten hoffe ich, du hast heute noch nichts gegessen, da sonst das marketing der Nahrungsmittelindustrie funktioniert hätte :facepalm:

Gipsel

2010-01-18, 15:48:43

Jetzt bin ich aber total verwirrt; GT200 ist auf jeden Fall nicht bei 256 texture fetches/clock. Bei Anand steht 64 TA / 256 TF und ja im Diagramm steht filtering fuer die 256.

Ich sehe aber auch keine Einzelheiten in Anand's Text ueber die Filterungs-Kapazitaeten einer GF100 TMU nur texture fetch Infos die um einiges hoeher sind als bei GT200.
Die Angaben im Text sind wohl vertauscht. Es sind 64 TF(ilter), die zum Arbeiten 256 Texture-Fetches für bilineares Filtering benötigen. Wie man die TAs zählt, ist mir noch unklar. Könnte sein, daß das so flexibel ist, daß man das als 256 zählen könnte.

Allerdings ging meine Argumentation von gestern doch komplett ins Leere. Nvidia benutzt nämlich den schnellen L1 nicht auch als Texture-L1, sondern mehr oder weniger zum Transfer von Daten zwischen den Rendering-Pipelinestufen und zum Auslagern von Daten, wenn mal die Register knapp werden. Das erklärt dann auch die halbierte Größe der Registerfiles im Vergleich zu GT200. Aus dem gleichen Grunde sind die L/S-Einheiten auch nicht mit den TAs gleichzusetzen (vielleicht aber doch und nvidia läßt uns nur mal wieder im Dunkeln mit ihren mißverständlichen Angaben).

Fermi hat einen getrennten Texture-(L1)-Cache von 12kB, der jetzt zusammen mit den TMUs offensichtlich auf halber hot clock läuft. Das ist dann nun doch ein bißchen weniger Texturing Power, als ich erwartet hätte, egal was da noch für Optimierungen drin sind, insbesondere, da die FP16, R9G9B9E5 und R10G10B10A2 Formate angeblich auch wieder nur mit halber Geschwindigkeit laufen, bei diesen Fällen liegt man dann also bei nur 40% eines Cypress oder so. Generell würde man damit unter dem Strich etwa auf GTX285-Niveau liegen, bei ungefilterten Fetches (und durch noch unbekannte Optimierungen) entsprechend höher Das könnte schon manchmal sehr eng werden. Aber mal sehen, ob hardware.fr damit überhaupt Recht behält:
Bei Hardware.fr geht man etwas genauer auf die TMUs sein:

http://www.hardware.fr/articles/782-5/nvidia-geforce-gf100-revolution-geometrique.html

Gather4? Woher kenne ich das? Hm...
Es ist schon mutig, etwas so zu pushen, das die Radeons seit Herbst 2005 beherrschen, zum Bestandteil von D3D10.1 gehört und in vielen Spielen genutzt wird. Und dazu noch ein Bild aus 3DMark 2006.

Aber eigentlich meinen sie die Weiterentwicklung des Gather4: Gather().
Kann mir einer der Graphik-Leute hier mal sagen, ob dieses "four offset gather4" von nvidia überhaupt schon in DX11 drin ist? Ich kenne bisher nur das normale gather4, was ja seit DX10.1 Pflicht ist und auch auf ATIs recht performant ist. Der Unterschied bei nvidia ist ja, daß die für die 4 ungefilterten Samples noch beliebige Offsets angeben können und nicht auf die vordefinierten Samplepositionen festgelegt sind (wie bei gather4).
TMUs bzw. Filterung machen mir dann eher Sorgen, denn sie sind zu still was diesen Bereich betrifft.
Ja, das ist wirklich noch eine offene Frage.

Blaire

2010-01-18, 15:53:23

Na hoffentlich kein Rückfall in alte G7x Zeiten was die Filterqualität betrifft...:redface:

Gast

2010-01-18, 15:58:17

Carsten wie ich schon Mal sagte bei mir ist im Unigine demo schon die Kinnlade gefallen. Trotz allem gibt es selbst in diesem fruehen techdemo einige Stellen wo Tesselation zu viel des Guten fuer meinen Geschmack ist.

Eine weitere Frage die ich zwar im Hinterkopf habe aber vielleicht nochmal fragen werde in der Zukunft: was passiert mit Multisampling Effizienz wenn mir jemand zu stark auf den zahllose winzige Dreiecke-Hebel drueckt?

Sagte Mark Rein nicht schon 2004 "Antialiasing is dead"? Angesichts der vielen miesen Konsolenports…

Naja, je kleiner die Dreiecke und je mehr davon da sind, desto weniger bringt MSAA im Vergleich zu SSAA.

Unigine ist ein First-Timer für DX11-Tessellation. Genauso könntest du den Call-oj-Juarez-Benchmark als Referenz für die AA-Implementierung bei DX10-Titeln nehmen.

Die Angaben im Text sind wohl vertauscht. Es sind 64 TF(ilter), die zum Arbeiten 256 Texture-Fetches für bilineares Filtering benötigen. Wie man die TAs zählt, ist mir noch unklar. Könnte sein, daß das so flexibel ist, daß man das als 256 zählen könnte.

Allerdings ging meine Argumentation von gestern doch komplett ins Leere. Nvidia benutzt nämlich den schnellen L1 nicht auch als Texture-L1, sondern mehr oder weniger zum Transfer von Daten zwischen den Rendering-Pipelinestufen und zum Auslagern von Daten, wenn mal die Register knapp werden. Das erklärt dann auch die halbierte Größe der Registerfiles im Vergleich zu GT200. Aus dem gleichen Grunde sind die L/S-Einheiten auch nicht mit den TAs gleichzusetzen (vielleicht aber doch und nvidia läßt uns nur mal wieder im Dunkeln mit ihren mißverständlichen Angaben).

Fermi hat einen getrennten Texture-(L1)-Cache von 12kB, der jetzt zusammen mit den TMUs offensichtlich auf halber hot clock läuft. Das ist dann nun doch ein bißchen weniger Texturing Power, als ich erwartet hätte, egal was da noch für Optimierungen drin sind, insbesondere, da die FP16, R9G9B9E5 und R10G10B10A2 Formate angeblich auch wieder nur mit halber Geschwindigkeit laufen, bei diesen Fällen liegt man dann also bei nur 40% eines Cypress oder so. Generell würde man damit unter dem Strich etwa auf GTX285-Niveau liegen, bei ungefilterten Fetches (und durch noch unbekannte Optimierungen) entsprechend höher Das könnte schon manchmal sehr eng werden. Aber mal sehen, ob hardware.fr damit überhaupt Recht behält:

Kann mir einer der Graphik-Leute hier mal sagen, ob dieses "four offset gather4" von nvidia überhaupt schon in DX11 drin ist? Ich kenne bisher nur das normale gather4, was ja seit DX10.1 Pflicht ist und auch auf ATIs recht performant ist. Der Unterschied bei nvidia ist ja, daß die für die 4 ungefilterten Samples noch beliebige Offsets angeben können und nicht auf die vordefinierten Samplepositionen festgelegt sind (wie bei gather4).

Ja, das ist wirklich noch eine offene Frage.

Aaalso:
- Nvidia hat das wörtlich zu Damien so gesagt, wie es da steht. Er hatte extra nachgefragt. 8 Bit pro Kanal ist alles, was Single-Cycle durchgeht.
- Und es sind ziemlich definitiv 64 Texturfiltereinheiten, die von 16x16 L/Stores mit den nötigen Texture Fetches gefüttert werden.

Was "DX11 four offset gather4" angeht bin ich auch mal gespannt.

-carsten

Ailuros

2010-01-18, 16:06:56

Na hoffentlich kein Rückfall in alte G7x Zeiten was die Filterqualität betrifft...:redface:

Ich hab nicht den geringsten Bock so viel Moneten auf den Ladentisch zu legen um mir wieder Jahre altes Material einzukaufen.

Gipsel,

Damien hat eine ausgezeichnete Beziehung zu NV. Falls er nur teilweise spekulierte wird er sich irgendwann auch selber korrigieren. Es wird bei ihm auch nicht das erste Mal sein. Man kann so oder so bei dem Schlammasel nicht alles richtig bekommen. Und ja in letzter Zeit klingen NV's whitepapers zunehmend merkwuerdig weil die Dinger eben nicht von waschreinen engineers geschrieben werden.

Das merkwuerdige four offset gather4 wird auf B3D spekuliert dass es entweder ein Ueberbleibsel vergangener drafts ist (welches auf fetch4/ATI reduziert wurde) oder dass sich NV etwas "Vorarbeit" fuer die Zukunft geleistet hat.

http://forum.beyond3d.com/showthread.php?t=55289&page=139

Aaalso:
- Nvidia hat das wörtlich zu Damien so gesagt, wie es da steht. Er hatte extra nachgefragt. 8 Bit pro Kanal ist alles, was Single-Cycle durchgeht.
- Und es sind ziemlich definitiv 64 Texturfiltereinheiten, die von 16x16 L/Stores mit den nötigen Texture Fetches gefüttert werden.

-carsten

Kopfschuettel.....*seufz*

N0Thing

2010-01-18, 16:17:44

Wenn ich was kaufe, dann nicht weil irgendein marketing funktioniert hat, sondern weil das Paket einfach stimmt...

Ansonsten hoffe ich, du hast heute noch nichts gegessen, da sonst das marketing der Nahrungsmittelindustrie funktioniert hätte :facepalm:

Ich hab das nicht als Beleidigung geschrieben, deshalb kannst du in Zukunft gerne auf Antworten in diesem Stil verzichten, danke. :)
Du spekulierst wie alle anderen hier auch mit den Daten, die Nvidia (bzw. deren PR-Abteilung) heraus gegeben hat und hast basierend auf diesen Daten, deine zukünftigen Kaufabsichten kund getan.
Bevor du anderen nen facepalm zeigst, denke doch erst einmal daran, was du zuvor selber geschrieben hast.

Coda

2010-01-18, 16:23:45

Denk doch einfach an Crysis: Das Spiel hat nicht nur im Durchschnitt 2 Mio Polys/frame, sondern wahnwitzige Materialshader, wahnwitzige Beleuchtung, atmosphärische Effeke erster Güte usw.
Selbst wenn das Trisetup/Rasterizing mit der DX11-Generation nicht das Sorgendkind ist, so ist das, was danach kommt, dafür zuständig, ob ein Spiel epic oder epic fail ist.
Rasterisierung ist ein größeres Bottleneck als du glaubst. Auch schon in Crysis.

insbesondere, da die FP16, R9G9B9E5 und R10G10B10A2 Formate angeblich auch wieder nur mit halber Geschwindigkeit laufen, bei diesen Fällen liegt man dann also bei nur 40% eines Cypress oder so.
Das ist auch bei Cypress Half-Speed. Der einzige Chip der FP16 (unsinnigerweise) Single-Cycle filtern konnte war R600.

In der Praxis ist eh alles außer DXT ziemlich irrelevant.

Kann mir einer der Graphik-Leute hier mal sagen, ob dieses "four offset gather4" von nvidia überhaupt schon in DX11 drin ist? Ich kenne bisher nur das normale gather4, was ja seit DX10.1 Pflicht ist und auch auf ATIs recht performant ist. Der Unterschied bei nvidia ist ja, daß die für die 4 ungefilterten Samples noch beliebige Offsets angeben können und nicht auf die vordefinierten Samplepositionen festgelegt sind (wie bei gather4).
Das sind 4 Point Samples. Bisher belegt ein Point-Sample immer gleich einen Bilerp-Sampler, bei Fermi kann aber jede LS-Unit ein Sample laden.

Ailuros

2010-01-18, 16:39:16

Das sind 4 Point Samples. Bisher belegt ein Point-Sample immer gleich einen Bilerp-Sampler, bei Fermi kann aber jede LS-Unit ein Sample laden.

Ergo im Klartext?

tombman

2010-01-18, 16:41:03

Ich hab das nicht als Beleidigung geschrieben, deshalb kannst du in Zukunft gerne auf Antworten in diesem Stil verzichten, danke. :)
Du spekulierst wie alle anderen hier auch mit den Daten, die Nvidia (bzw. deren PR-Abteilung) heraus gegeben hat und hast basierend auf diesen Daten, deine zukünftigen Kaufabsichten kund getan.
Bevor du anderen nen facepalm zeigst, denke doch erst einmal daran, was du zuvor selber geschrieben hast.
Vorläufige Kaufabsichten bedeuten genausoviel wie vorläufige Fermi-Spekus ;)
Dein post hatte was unterschwellig Beleidigendes, deshalb der facepalm.

Dimon

2010-01-18, 16:47:06

Eins kann man Nvidia lassen, diese Leute wissen wie man ihre Fans aufheizt :biggrin:

Coda

2010-01-18, 16:51:24

Ergo im Klartext?
Fermi hat bei Point-Samples wohl den 4 fachen Durchsatz. So unglaublich wichtig ist das aber nicht.

Gast

2010-01-18, 16:54:07

Eins kann man Nvidia lassen, diese Leute wissen wie man ihre Fans aufheizt :biggrin:

NV muss ja auch nicht viel dazu tun;)
In dem Thread wir ja schon täglich eine neue Wahrheit über Fermi erzeugt.
Da muss man nur noch eine Folie zeigen auf der NV teigt das Fermi 1337 roxXxort und schon hat man kräftig Wellen geschlagen ohne auch nur im Ansatz mehr zu haben als am Tag zuvor:D

bloub

2010-01-18, 16:58:04

Trotz allem gibt es selbst in diesem fruehen techdemo einige Stellen wo Tesselation zu viel des Guten fuer meinen Geschmack ist.

sollte wohl selbst der blindeste sehen, wozu tesselation gut sein kann/soll.

Gast

2010-01-18, 16:58:39

Fermi hat bei Point-Samples wohl den 4 fachen Durchsatz. So unglaublich wichtig ist das aber nicht.

Wahrscheinlich sogar den 8-fachen, da davon auszugehen ist, dass die LS-Einheiten mit voller Shader-Frequenz laufen und nicht nur mit halber.

Gast

2010-01-18, 17:00:03

Kopfschuettel.....*seufz*

Hm?

-carsten

reunion

2010-01-18, 17:10:09

Fermi hat einen getrennten Texture-(L1)-Cache von 12kB, der jetzt zusammen mit den TMUs offensichtlich auf halber hot clock läuft. Das ist dann nun doch ein bißchen weniger Texturing Power, als ich erwartet hätte, egal was da noch für Optimierungen drin sind, insbesondere, da die FP16, R9G9B9E5 und R10G10B10A2 Formate angeblich auch wieder nur mit halber Geschwindigkeit laufen, bei diesen Fällen liegt man dann also bei nur 40% eines Cypress oder so. Generell würde man damit unter dem Strich etwa auf GTX285-Niveau liegen, bei ungefilterten Fetches (und durch noch unbekannte Optimierungen) entsprechend höher Das könnte schon manchmal sehr eng werden. Aber mal sehen, ob hardware.fr damit überhaupt Recht behält:

Ich frage mich wie man so etwas wie einen Texturfilter "optimieren" kann ohne Samples einzusparen. Ist es realistisch durch Cacheoptimierungen, mehr Adresseinheiten od. dgl. hier den Durchsatz derart zu erhöhen? Ich meine GF100 wird deutlich schneller als eine GTX285 hat aber weniger Texelfüllrate, das passt schwer zusammen. Und ja ich weiß das NV ein paar Werte geliefert hat wonach die Texturleistung gestiegen ist, aber diese "State Buckets" sind wohl wenig wert, wie Carsten auch schon angemerkt hat.

Coda

2010-01-18, 17:13:58

Ich frage mich wie man so etwas wie einen Texturfilter "optimieren" kann ohne Samples einzusparen.
Man muss die bei AF zu filternde Ellipse mit genügend Samples abdecken um das Abstasttheorem einzuhalten. Wie man das macht ist schlussendlich egal.

reunion

2010-01-18, 17:15:22

Man muss die bei AF zu filternde Ellipse mit genügend Samples abdecken um das Abstasttheorem einzuhalten. Wie man das macht ist schlussendlich egal.

Dh es ist möglich das man jetzt zu viele Samples nimmt oder wie ist das zu verstehen?

Raff

2010-01-18, 17:16:02

8xmsaa ist auch bei ati überflüssig,macht ja erst sinn in kombination mit den tent modis und adaptive AA.

Buahaha, "überflüssig" trifft's sowas von auf den Kopf: viele Fps (flüssig), aber die bösen Inhalte werden nicht geglättet. ;D Dasselbe gilt auch für 32x CSAA, da es keine Non-Alpha-Texturen und Pixelshader erfasst.

MfG,
Raff

Gast

2010-01-18, 17:19:53

Dh es ist möglich das man jetzt zu viele Samples nimmt oder wie ist das zu verstehen?
Ich denke mal, wenn man den/die Caches entsprechend anpasst, sodass die Hit-Rate für bestimmte AF-Zugriffsmuster steigt, hat man eine legitime Optimierung. Wobei dann natürlich interessant wäre, wieviel schneller als der sonst genutzte L2 der L1-Tex wirklich ist.

Übrigens gibt Nvidia an, dass die IQ gegenüber GT200 und G80 nicht verändert worden sein soll. Allerdings war das auf die Hardware bezogen und wir wissen ja alle, was man da mit Treiberspielereien erreichen kann.

-carsten

mapel110

2010-01-18, 17:23:26

Buahaha, "überflüssig" trifft's sowas von auf den Kopf: viele Fps (flüssig), aber die bösen Inhalte werden nicht geglättet. ;D Dasselbe gilt auch für 32x CSAA, da es keine Non-Alpha-Texturen und Pixelshader erfasst.

MfG,
Raff
Beim Pixelshader ist ja der jeweilige Dev in der Pflicht. Da bleibt dann nicht mehr viel, was der GPU-Hersteller beeinflussen kann.

Coda

2010-01-18, 17:24:34

Dh es ist möglich das man jetzt zu viele Samples nimmt oder wie ist das zu verstehen?
Man nimmt genau richtig viele (NVHQ) innerhalb der Restriktion nicht anders filtern zu können. Das schließt nicht aus, dass mit einer besseren Verteilung weniger Samples nötig sind.

Gast

2010-01-18, 17:25:48

sollte wohl selbst der blindeste sehen, wozu tesselation gut sein kann/soll.

vorallem die Schwemme an DX11 Games die uns das nächste 3/4 Jahr erwartet.....ohne SSAA kann mit Fermi solange gestohlen bleiben solange es 99% der Games in DX9 gibt.

Gast

2010-01-18, 17:33:33

Hmm angenommen man hat 1400MHz auf den Shadercore, dann laufen die TMUs mit 700MHz oder sind die unabhängig? Die ROPs sind ja das einzigste was noch unter das alte "Core GPU Clock" fällt, und die müssen nicht gigantisch hoch takten können.
Welche theoretische Texelfüllrate hat denn ein Fermi dann?

Gast

2010-01-18, 17:35:00

700 x 64

-carsten

Gast

2010-01-18, 17:40:37

Aber damit liegt man doch gute 5MTexel/s unter der GTX280... Na auf die Pixelfüllrate bin ich gespannt, bisher hat nV doch gerade bei diesen beiden immer geklotzt, oder ist davon weniger als gedacht auf die Straße gekommen?

Coda

2010-01-18, 17:42:17

Die TMU-Clock ist wohl höher als die 700 Mhz, sonst kommen die Werte die NVIDIA angibt nicht hin.

Gast

2010-01-18, 17:45:04

Welche Werte meinst du jetzt?

-carsten

Spasstiger

2010-01-18, 17:45:39

Vermutlich laufen die TMUs zusammen mit den ALUs auf dem gleichen Hot-Clock (1400 MHz). ROPs und die Setup/Raster-Engine auf dem halben Hot-Clock.
So haut auch die bis zu 70%-ige Füllratensteigerung gegenüber der GTX 285 hin.

Gipsel

2010-01-18, 17:46:26

Das sind 4 Point Samples. Bisher belegt ein Point-Sample immer gleich einen Bilerp-Sampler, bei Fermi kann aber jede LS-Unit ein Sample laden.Wenn man das DX10.1/DX11 gather4 mit den vordefinierten sample Positionen nutzt, geht das mit jeder GPU. Nvidia kann aber natürlich mehrere Pointsamples bei der Shadercompilierung zu ihrem "4offset_gather4" zusammenfassen. Ach ja, wegen dem Taktunterschied zwischen L/S-Einheiten und TMUs kann jede L/S-Einheit wahrscheinlich nur jeden zweiten Takt ein Sample liefern. Oder die Einheiten können ohne Einbußen auch gleich trilinear filtern und bei Bedarf sogar 8 ungefilterte Samples pro Takt durchreichen. Das wäre vielleicht gar nicht mal so schlecht und würde auch zu den von nv proklamierten Steigerungen im realen Betrieb passen. Allerdings stellt sich mir dann noch mehr die Frage, warum man dann noch einen extra Texture-L1 eingebaut hat und das nicht von vornherein auf dem "General Purpose"-L1 aufbaut. Der ist ja sowieso da und hat bereits die entsprechende Bandbreite. Scheitert das wirklich an den verschiedenen Zugriffsmustern? Das ließe sich doch mit einer entsprechenden Adressierung lösen, oder nicht?

Coda

2010-01-18, 17:47:31

Das verwechselst Du mit FP32
Nein. FP32 ist sogar nur 1/4 Durchsatz.

Cypress macht 68 GTexel bei FP16 mit seinen 80 TMUs. Also jede TMU ein bilinear gefiltertes Texel pro Takt.
Nope. http://techreport.com/articles.x/17618/6

Wäre auch wie ich schon öfters gesagt habe ziemlich unnötig. 99% der Texturen in Spielen sind DXT (also 8 bit).

reunion

2010-01-18, 17:49:05

Vermutlich laufen die TMUs zusammen mit den ALUs auf dem gleichen Hot-Clock (1400 MHz). ROPs und die Setup/Raster-Engine auf dem halben Hot-Clock.
So haut auch die 60%-ige Füllratensteigerung gegenüber der GTX 285 hin.

Die TMUs laufen auf halben "hot-clock". Die Werte sind wenig wert, mit einem Teil eines einzelnen Frames kann ich viel Beweisen.

Gipsel

2010-01-18, 17:51:10

Nein. FP32 ist sogar nur 1/4 Durchsatz.

Nope. http://techreport.com/articles.x/17618/6

Wäre auch wie ich schon öfters gesagt habe ziemlich unnötig. 99% der Texturen in Spielen sind DXT (also 8 bit).
Hast recht, hatte zu spät gesehen, das ich da einer Fehlinformation aufgesessen bin.

Spasstiger

2010-01-18, 18:03:07

Sind dann in den GPCs zwei oder drei verschiedene Taktdomänen vorhanden? Läuft die Raster-Engine mit dem halben Hot-Clock oder einem niedrigeren Takt?

Armaq

2010-01-18, 18:28:24

Fasst mir jemand die Fakten mal zusammen?
3 Taktdomänen?

Ansonsten war es mMn. eine sehr solide Vorstellung. Ich habe ja immernoch auf dynamische Taktraten gehofft. :D

N0Thing

2010-01-18, 18:49:41

Vorläufige Kaufabsichten bedeuten genausoviel wie vorläufige Fermi-Spekus ;)
Dein post hatte was unterschwellig Beleidigendes, deshalb der facepalm.

War wie gesagt nicht bös gemeint, du hast als Beispiel für die Enthusiasten herhalten müssen, die, obwohl sie immer das schnellste System haben wollen, keine RV870 gekauft haben, sondern noch immer brennend auf Fermi warten. ;)

Das beinhaltet von meiner Seite aus keine Wertung, ich kann das nachvollziehen und finde es auch nicht schlimm. :)

Gast

2010-01-18, 19:13:27

3 Taktdomänen?

Ich würde es eher als 2 Taktdomänen bezeichnen. Es gibt zwar offenbar einige Dinge die mit halbem Shader-Takt laufen, ich würde das aber nicht als eigene Taktdomäne bezeichnen, da die Takte nicht unabhängig voneinander sind.

Der Hauptgrund dürfte wohl auch eher die Synchronisation und nicht die Performance sein.

Die TMUs (bzw. eigentlich die TFUs (Textur Filter Unit, TMU fasst eigentlich Load+Filtering zusammen) werden ja von den Load/Store-Units gefüttert, welche auf Shader-Clock laufen. Diese müssen also zwangsweise irgendwie synchron laufen, ansonsten gäbe es unnötige bubbles.

Für die Performance bringt das kaum etwas, 1/2 Shaderclock wird wohl nicht nenneswert höher als der Basistakt sein.

Ich frage mich trotzdem wie man damit eine Leistungssteigerung gegenüber G200 erreichen will. Selbst mit 800MHz TMU-Takt erreicht man gerade mal G200-Niveau, und der ist eigentlich schon sehr effizient, so dass ohne sogenannte "Optimierungen" nicht mehr viel drinnen sein dürfte.

Das einzige was ich mir vorstellen könnte wären TMUs die nicht nur 1 sondern 2 bilineare Samples pro Takt liefern können. Zumindest die LS-Units könnten diese versorgen. Beim G80 haben wir ja schon ähnliches gesehen

Das ganze würde auch zu den Spekulationen von 128TMUs passen. Es sind dann zwar nur 64, die aber möglicherweise unter bestimmten Umständen einen Durchsatz von 128 erreichen.

Nvidia spricht auch von einer Steigerung der Texturleistung von 40-70%, was mit 64 "einfachen" TMUs eigentlich nicht möglich sein kann.

Coda

2010-01-18, 19:15:34

Ich würde es eher als 2 Taktdomänen bezeichnen. Es gibt zwar offenbar einige Dinge die mit halbem Shader-Takt laufen, ich würde das aber nicht als eigene Taktdomäne bezeichnen, da die Takte nicht unabhängig voneinander sind.
Ich gehe sehr schwer davon aus, dass da nichts abhängig ist. Zumindest nicht der Shader/TMU-Takt vom Takt des restlichen Chip. Das wäre ein ziemlich unlogischer Rückschritt.

Die ganze Sache mit "dem halben Takt" der TMUs passt eh nicht mit der von NVIDIA angegebenen Füllrate zusammen.

Gast

2010-01-18, 19:19:43

Ich gehe sehr schwer davon aus, dass da nichts abhängig ist. Zumindest nicht der Shader/TMU-Takt vom Takt des restlichen Chip. Das wäre ein ziemlich unlogischer Rückschritt.

Du hast mich falsch verstanden.

2 Unabhängige Taktdomänen sind wohl sicher vorhanden, allerdings laufen einige Dinge wie auch die TMUs mit halber Shaderfrequenz. Das würde ich aber nicht als eigene Domäne bezeichnen, da es eben vom Shadertakt abhängig ist.

Burgard

2010-01-18, 19:21:30

reunion

2010-01-18, 19:22:22

Die ganze Sache mit "dem halben Takt" der TMUs passt eh nicht mit der von NVIDIA angegebenen Füllrate zusammen.

Wo gibt NV Füllraten an?

derguru

2010-01-18, 19:22:50

Wenn der Bench authentisch ist, dann sieht es doch nicht so gut aus mit dem Fermi, ca.20%

Was meint ihr, echt oder fake?

http://www.hardwareluxx.de/community/showpost.php?p=13789644&postcount=1643

http://1.1.1.4/bmi/666kb.com/i/bfxsr0eiqsg4bzfdi.gif
1000000000000000000% fake,

erste schritte in exel ist das aber nicht mehr.;D

V2.0

2010-01-18, 19:24:42

Du hast mich falsch verstanden.

2 Unabhängige Taktdomänen sind wohl sicher vorhanden, allerdings laufen einige Dinge wie auch die TMUs mit halber Shaderfrequenz. Das würde ich aber nicht als eigene Domäne bezeichnen, da es eben vom Shadertakt abhängig ist.

Sie laufen mit halber hotclock.

Wenn Hotclock = Base * 2,2 ist dann laufen sie mit Base * 1,6

Coda

2010-01-18, 19:29:10

Wo gibt NV Füllraten an?
Indirekt:
http://pics.computerbase.de/2/8/1/1/5/16_m.png

Außerdem: "Darüber hinaus haben die TMUs, ähnlich wie die Shadereinheiten, eine eigene „High-Clock-Domain“, die mit einer höheren Frequenz als der restliche Chip angesteuert wird."

Halbe Shader-Freq ist keine "High-Clock-Domain".

Ich vermute dass die Load/Store-Einheiten auf Shader-Frequenz laufen und die TAs auf halber Frequenz. Das limitiert dann nur rein bilineares Texturieren.

Gipsel

2010-01-18, 19:29:35

Sie laufen mit halber hotclock.

Wenn Hotclock = Base * 2,2 ist dann laufen sie mit Base * 1,6
Ähem,
Base * 2,2 / 2 = Base * 1,1 ;)

Gipsel

2010-01-18, 19:30:32

Indirekt:
http://pics.computerbase.de/2/8/1/1/5/16_m.png
Wie gesagt, TFs können trilinear. *wechrenn*

Coda

2010-01-18, 19:32:19

reunion

2010-01-18, 19:33:48

Indirekt:
http://pics.computerbase.de/2/8/1/1/5/16_m.png

Ob das so aussagekräftig ist kann man durchaus bezweifeln:
Das ist App-State-Bucket: Ein Teil eines einzelnen Frames, der wahrscheinlich besonders passend für das ist, was man darstellen will. Cherry-Picking at it's best.

-carsten

Das NV dazu keine offiziellen Infos raus rückt macht die Sache auch nicht besser.

Außerdem: "Darüber hinaus haben die TMUs, ähnlich wie die Shadereinheiten, eine eigene „High-Clock-Domain“, die mit einer höheren Frequenz als der restliche Chip angesteuert wird."

Halbe Shader-Freq ist keine "High-Clock-Domain".

Warum nicht? Wenn die halbe Shaderfrequenz höher ist als der Takt des restlichen Chips kann man das allemal "High-Clock-Domain" nennen.

Coda

2010-01-18, 19:34:29

Ob das so aussagekräftig ist kann man durchaus bezweifeln:
Jo, dann bezweifel es halt. EOD.

Das ganze wurde wohl gemacht um reines Texturieren zu isolieren, nicht um irgendwas gut dastehen zu lassen. Wenn man mit direkten Werten kommt würde man Taktraten verraten.

Gipsel

2010-01-18, 19:37:52

Ich vermute dass die Load/Store-Einheiten auf Shader-Frequenz laufen und die TAs auf halber Frequenz. Das limitiert dann nur rein bilineares Texturieren.
Eigentlich würde man nur eine einzige L/S-Einheit für jedes irgendwie gefilterte Texel benötigen. Es sei denn natürlich, man spielt an den Sample-Mustern wie bei diesem Jitter-Zeug.

Gast

2010-01-18, 19:39:25

Das ergibt keinen Sinn. Für ein Trilineares Sample braucht man 8 Load-Store-Einheiten, also hätte man effektiv nur noch 2 TMUs/SM.

Es gibt pro SM 16 LS und 4TMUs.

Das würde mal zusammenpassen, allerdings laufen die TMUs nur mit halber Frequenz der LS-Units.

Damit könnten die LS doppelt so viele Texel einlesen wie eigentlich für 4 bilineare samples in der gleichen Zeit gebraucht werden.

4x Tri oder 4xbi@2xAF würden also durchaus Sinnvoll sein.

Coda

2010-01-18, 19:40:49

Eigentlich würde man nur eine einzige L/S-Einheit für jedes irgendwie gefilterte Texel benötigen.
Nein, weil der bilineare Filter nach den Loads kommt.

Es sei denn natürlich, man spielt an den Sample-Mustern wie bei diesem Jitter-Zeug.
Es sei denn man lädt Konstanten/Vertexdaten usw. oder eben Point-Samples. Richtig. Dann braucht man nur eine Load-Einheit statt vier.

Es gibt pro SM 16 LS und 4TMUs.
Es gibt 16 Load-Store-Einheiten und 4 Filter. Davor braucht man aber auch noch TAs.

Das würde mal zusammenpassen, allerdings laufen die TMUs nur mit halber Frequenz der LS-Units.
Ergibt keinen Sinn. Die Filter-Einheiten müssen schnell genug sein um die Werte der Load-Einheiten zu verarbeiten, sonst bringt es nichts die Load-Einheiten mit Shader-Takt fahren zu lassen.

Wie gesagt sind es wohl eher die TAs die auf halbem Takt laufen. Da steckt auch der absolute Großteil der Texturierungslogik drin (Gradientenberechnung, AF, Wrap-Around, Border-Modes, etc.), ergibt also Sinn.

Load ist nur ein Speicherzugriff und Filtern sind bei bilinear zwei LERPs und bei AF noch ein Average über die Samples am Ende. Kein großes Ding. Das geht locker auf Hot-Clock.

Gipsel

2010-01-18, 19:42:34

Das ergibt keinen Sinn. Für ein Trilineares Sample braucht man 8 Load-Store-Einheiten, also hätte man effektiv nur noch 2 TMUs/SM.

Das Gegenteil ist bei Fermi der Fall. Es werden genau so viele Samples geladen wie gebraucht werden und keins mehr.
Natürlich, wenn die Texture-Filter mit halbem Takt der LS-Einheiten laufen, kommt es perfekt hin ;)
Außerdem kann man auch immer annehmen, daß sich benachbarte Pixel sehr wahrscheinlich Texture-Fetches teilen, so daß man für herkömmliches trilineares Filtering (mit festen Samplepositionen) sogar deutlich weniger weniger als 32 Texturefetches für ein Quad (also 4 benachbarte Pixel) benötigt.

Gast

2010-01-18, 19:45:13

Die ganze Sache mit "dem halben Takt" der TMUs passt eh nicht mit der von NVIDIA angegebenen Füllrate zusammen.
TMU @ 1/2 Shaderclock kommt direkt von NV per Mail. Daher glaube ich das erstmal.

-carsten

Coda

2010-01-18, 19:46:06

Natürlich, wenn die Texture-Filter mit halbem Takt der LS-Einheiten laufen, kommt es perfekt hin ;)
Nö kommt es nicht.

Man hat 16 Load-Store Einheiten. Die würden für jeden Takt einer Filter-Einheit bei halbem Takt also 32 Samples lesen können.

4 Filter können aber nur 16 Samples verrechnen.

Außerdem kann man auch immer annehmen, daß sich benachbarte Pixel sehr wahrscheinlich Texture-Fetches teilen
Das bringt einem aber nichts. Das Load muss trotzdem durch die Pipeline.

TMU @ 1/2 Shaderclock kommt direkt von NV per Mail. Daher glaube ich das erstmal
Ja und sie meinen damit die TMU-Logik. Das was ich als TA bezeichne.

Um was wetten wir?

reunion

2010-01-18, 19:49:44

Das scheint ja schon bestätigt durch ein neues NV-Whitepaper:
http://forum.beyond3d.com/showpost.php?p=1381787&postcount=3436

Coda

2010-01-18, 19:50:55

Was ist da bestätigt? Die "Samplers" sind die TAs, nicht die Filter.

Das was ich sage gibt komplett Sinn, wenn die Load-Store-Einheiten auf Shader-Clock laufen. Es ist totaler Blödsinn anzunehmen, dass die einen so hohen Durchsatz haben wenn er dann wieder durch den Filter danach auf die Hälfte eingeschränkt wird.

Das ganze wäre dann wie bei G80, nur das die Halbierung der TAs nicht durch die physikalische Anzahl passiert sondern durch halben Takt.

Gast

2010-01-18, 19:53:17

Man hat 16 Load-Store Einheiten. Die würden für jeden Takt einer Filter-Einheit bei halbem Takt also 32 Samples lesen können.

4 Filter können aber nur 16 Samples verrechnen.

Nicht wenn wir wieder wie beim G80 ein 2:1-Verhältnis von TF:TA haben.

Im übrigen dürfte die hohe Anzahl an LS-Units auch wegen GPGPU eingebaut worden sein.

Coda

2010-01-18, 19:55:00

Nicht wenn wir wieder wie beim G80 ein 2:1-Verhältnis von TF:TA haben.
Dann würde man aber von "8 TMUs/SM" sprechen. So wie bei G80 auch.

Im übrigen dürfte die hohe Anzahl an LS-Units auch wegen GPGPU eingebaut worden sein.
Man verschwendet nicht die Hälfte der Füllrate nur wegen GPGPU! So blöd war nichtmal ATI bei R600 mit ihren Point-Samplern.

Anzunehmen, dass Fermi weniger Textur-Füllrate hat als GT200b ist schon von vornherein eh komplett lächerlich. Ich weiß gar nicht warum darüber diskutiert wird. Das widerspricht allem was NVIDIA in Vergangenheit gesagt hat.

reunion

2010-01-18, 19:55:43

Was ist da bestätigt? Die "Samplers" sind die TAs, nicht die Filter.

Möglich, Rys versteht es jedenfalls auch anders wenn er schreibt: "Sampler count was out by 2x, so NV will need a > 1.6 GHz hot clock to beat a GTX 285 in peak possible texture performance..."

Coda

2010-01-18, 19:57:15

Möglich, Rys versteht es jedenfalls auch anders wenn er schreibt: "Sampler count was out by 2x, so NV will need a > 1.6 GHz hot clock to beat a GTX 285 in peak possible texture performance..."
Ich weiß. Aber Rys ist Rys und nicht NVIDIA.

Gast

2010-01-18, 20:01:48

Dann würde man aber von "8 TMUs/SM" sprechen. So wie bei G80 auch.

Ansichtssache, ich glaube ja dass Nvidia uns absichtlich an der Nase herumführt.

Anzunehmen, dass Fermi weniger Textur-Füllrate hat als GT200b ist schon von vornherein eh komplett lächerlich.

Deshalb ja auch ein TF/TA-Verhältnis von 2:1, ansonsten hätte man höchstwahrscheinlich weniger, aber in keinem Fall nennenswert mehr Texelfüllrate.

Coda

2010-01-18, 20:03:03

Ich sag's nur gleich: Falls die Load-Store-Units auf halbem Shader-Takt laufen sollten ist das ganze natürlich Quatsch.

Deshalb ja auch ein TF/TA-Verhältnis von 2:1, ansonsten hätte man höchstwahrscheinlich weniger, aber in keinem Fall nennenswert mehr Texelfüllrate.
Davon geh ich ja auch aus. Nur eben durch doppelten Takt von Load & dem bilinearen Filter. Imho eine äußerste plausible Möglichkeit.

Gast

2010-01-18, 20:04:45

Ja und sie meinen damit die TMU-Logik. Das was ich als TA bezeichne.

Um was wetten wir?
Aaalso, mal langsam für mich zum mitmeißeln:
Du meinst, die 256 LS laufen @ Hotclock und davor sitzen 64 "TMU-Logik" - deine TA. Und wo sind die Filter, bzw. welche Hardware übernimmt das?

-carsten

Gipsel

2010-01-18, 20:05:25

Nein, weil der bilineare Filter nach den Loads kommt.

Es sei denn man lädt Konstanten/Vertexdaten usw. oder eben Point-Samples. Richtig. Dann braucht man nur eine Load-Einheit statt vier.

Es gibt 16 Load-Store-Einheiten und 4 Filter. Davor braucht man aber auch noch TAs.
Wie schon gesagt, ist gar nicht klar, was die L/S-Einheiten bei Texturing überhaupt machen. Die sind ja eigentlich für den Zugriff auf den GP-L1 da und nicht unbedingt für den Zugriff auf den Texture-L1. Man hat ja wie Du richtig bemerkt hast erst die Adressberechnung und dann kommen die Texture-Fetches. Also wenn die L/S-Einheiten nicht auch TAs sind (für GPGPU sind sie es höchstwahrscheinlich schon mal nicht und Du schreibst ja selber, daß das wohl schwierig wäre die komplett auf hot clock laufen zu lassen), leiten die wohl Texture-Anfragen einfach an die separaten TMUs weiter, die komplett getrennte TAs und TFs besitzen. Insofern geben uns die 16 L/S-Einheiten nur an, daß pro Takt maximal 64Byte vom SM gefetched werden können. Ob das unter praktischen Umständen auch so viel sein kann, von wie vielen Adressen die Daten kommen und wie die gefiltert sind, kann man daran aber nicht ablesen.

Ergibt keinen Sinn. Die Filter-Einheiten müssen schnell genug sein um die Werte der Load-Einheiten zu verarbeiten, sonst bringt es nichts die Load-Einheiten mit Shader-Takt fahren zu lassen.Nö, dann stallt es eben. Ich habe doch schon öfter gesagt, daß die L/S-Einheiten für GPGPU und den Zugriff auf den (nicht Texture)-L1 wichtig sind. Die vielen L/S-Einheiten bringen wohl höchstens für Point-Sampling was. Die L/S-Einheiten fetchen überhaupt gar keine Werte aus dem Texture-L1, die nehmen nur die entsprechenden Instruktionen entgegen und liefern die von den entkoppelt laufenden TMUs kommenden Werte beim Registerfile ab.

Coda

2010-01-18, 20:07:20

Aaalso, mal langsam für mich zum mitmeißeln:
Du meinst, die 256 LS laufen @ Hotclock und davor sitzen 64 "TMU-Logik" - deine TA. Und wo sind die Filter, bzw. welche Hardware übernimmt das?

-carsten
Es gibt noch 4 Bilerp-Einheiten pro SM nach den LS-Units die auch mit Hotclock arbeiten. Das sind ja wie gesagt nur zwei LERPs (die Instruction gibts auch im Shading-Core auf Hotclock) und noch ein Average für AF.

Die LS-Units laufen übrigens def. auf Hotclock, das steht nämlich so im älteren GPGPU-Fermi-Whitepaper (ungefähr: "The Scheduler can issue two of the following things per clock: ALU-Instruction, Load-Store & SFU).

Wie schon gesagt, ist gar nicht klar, was die L/S-Einheiten bei Texturing überhaupt machen.
Doch ist es: Die einzelnen Point-Samples laden nachdem die Adressberechnung fertig ist. Für GPGPU braucht man keine Adressberechnung weil man auf Speicheradressen arbeitet. Es gibt keine separaten Load-Einheiten für Texturierung. Das fehlt in jeglichem Schaubild.

Sie werden ihre Sample-Performance nicht dadurch einschränken das sie die Filter langsamer laufen lassen als das was die Load-Units hergeben. Ich verwette sonstwas drum.

Das Bild ergibt so komplett Sinn für mich und passt auch zu den Performancewerten die NVIDIA angibt.

Gast

2010-01-18, 20:20:05

Davon geh ich ja auch aus. Nur eben durch doppelten Takt von Load & dem bilinearen Filter.

Dann denken wir fast das gleiche, nur das du von doppeltem Takt und ich von doppelt ausgeführter Hardware ausgehe, was im endeffekt auf das selbe kommen sollte.

Coda

2010-01-18, 20:22:41

Also die Load-Store-Einheiten laufen auf jeden Fall auf Full-Shader-Clock. Es mag auch sein, dass es dahinter 8 Filter auf halbem Takt sind, ja :)

Glaube ich aber nicht, weil: Bilerp ist wie gesagt eine ziemlich billige Op die auch in den ALUs auf Hot-Clock läuft.

Spasstiger

2010-01-18, 20:26:24

Gipsel

2010-01-18, 20:27:14

Man hat 16 Load-Store Einheiten. Die würden für jeden Takt einer Filter-Einheit bei halbem Takt also 32 Samples lesen können.

4 Filter können aber nur 16 Samples verrechnen.
???
4 Filter-Einheiten bei halber hot clock benötigen für trilinear 16 fetches pro hot clock ;)
Das bringt einem aber nichts. Das Load muss trotzdem durch die Pipeline.Die Frage ist, durch welche Pipeline? Die L/S-Einheiten sind so wie nv seine Bildchen malt (und auch im Text erklärt) für Texturing wohl reine Issue Ports, die die Befehle entgegennehmen. Die TAs/Sampler/Filter sind davon entkoppelt und müssen längst nicht auf dem Takt laufen. Wie gesagt, die L/S-Einheiten in den SMs haben keinen direkten Zugriff auf den Texture-L1, sondern nur auf den GP-L1.
Es gibt noch 4 Bilerp-Einheiten pro SM nach den LS-Units die auch mit Hotclock arbeiten. Das sind ja wie gesagt nur zwei LERPs
Ein bilerp sind strenggenommen 3 lerps ;)
Die LS-Units laufen übrigens def. auf Hotclock, Natürlich, denn
Doch ist es: Die einzelnen Point-Samples laden nachdem die Adressberechnung fertig ist. Für GPGPU braucht man keine Adressberechnung weil man auf Speicheradressen arbeitet. Es gibt keine separaten Load-Einheiten für Texturierung. Das fehlt in jeglichem Schaubild.Weswegen die L/S-Einheiten nicht die Texture-Fetches machen kann, da man ja erst mal den Gang zum TA benötigt. Die Texture-Fetches werden ja von den Samplern gemacht, die sitzen hinter dem TA, also viel weiter weg vom SM, da malt nv halt nichts mehr im Detail auf.
Sie werden ihre Sample-Performance nicht dadurch einschränken das sie die Filter langsamer laufen lassen als das was die Load-Units hergeben. Ich verwette sonstwas drum.Ich würde nicht zu früh wetten. Warten wir's ab ;)

Coda

2010-01-18, 20:27:39

Also bei 1400 MHz Hot-Clock wären es dann sowohl mit bilinearem Filtern als auch mit trilinearem Filtern und 2:1 biAF 700*64 MTexel/s Füllrate?
Richtig. Ich gehe sehr sehr stark von diesem Fall aus.

???
4 Filter-Einheiten bei halber hot clock benötigen für trilinear 16 fetches pro hot clock ;)
Was ergibt denn das für einen Sinn? Du gehst vom gleichen aus wie ich und der andere Gast, nur das du einen Trilinearen Filter baust anstatt ihn in zwei ansprechbare bilineare Filter zu zerteilen.

Sehr unwahrscheinlich. Das ganze wäre vor allem in Hinblick auf AF viel zu unflexibel wo man bei den beiden Mips unterschiedlich viel bilineare Samples nimmt als Optimierung.

Ein bilerp sind strenggenommen 3 lerps ;)
Ja, sind es. Die zwei LERPs am Anfang laufen aber parallel und schränken die Taktrate nicht ein.

Gipsel

2010-01-18, 20:29:08

Was ist da bestätigt? Die "Samplers" sind die TAs, nicht die Filter.Die lesen die ungefilterten Texture-Samples ;)

VooDoo7mx

2010-01-18, 20:29:56

Sind über 100% mehr Texturleistung, oder versteh ich das jetzt falsch?
Oer vergleicht das Diagramm mit einer GTX260?

http://pics.computerbase.de/2/8/1/1/5/16.png

Kosh

2010-01-18, 20:30:10

Nun die Daten sind grandios, aber vielleicht ein zweiter R600 ?
Warum werden keine Benchmarks gezeigt, da MUSS doch was dran sein, ansonsten laufen immer noch viele zur Konkurrenz.

Schöne Technische Daten, aber was kommt in der Praxis raus??

Warum keine umfassenden Benchmarks??

Keine Lust? Sollen die Leute weiter ATI kaufen?

ODer sollen die Leute sich von den technischen Daten blenden lassen,weil in der Praxis von der Rohleistung nicht viel übrig bleibt??

Irgendeinen Grund muss NVIDIA doch haben so partout keine Spielebenches zu veröffentlichen.
Wennd ie Karte so gut ist,gibt es doch keinen grund sie zu verstecken.

mapel110

2010-01-18, 20:31:10

VooDoo7mx, 100% entsprechen in dem Diagramm GT200.

Kosh, Treiber, keine finalen Taktraten, keine finalen Specs, also will man sich auch nicht 6 Wochen vor Launch auf genaue Zusagen einlassen.

Coda

2010-01-18, 20:31:45

Die lesen die ungefilterten Texture-Samples ;)
Wart's einfach ab. Das was du meinst macht keinen Sinn Gipsel.

Weswegen die L/S-Einheiten nicht die Texture-Fetches machen kann, da man ja erst mal den Gang zum TA benötigt. Die Texture-Fetches werden ja von den Samplern gemacht, die sitzen hinter dem TA, also viel weiter weg vom SM, da malt nv halt nichts mehr im Detail auf.
Ich würde nicht zu früh wetten. Warten wir's ab ;)
Du glaubst also es gibt Load-Store-Units UND Textureinheiten mit separaten Load-Einheiten? Glaube ich auf keinen Fall. Dann kommen wir an der Stelle nicht weiter.

Es war bisher so, dass die Loads ja auch durch die TMUs gegangen sind. Es scheint also so, als wären die TMUs viel näher an die ALUs gerückt und damit verwoben worden sind.

Gipsel

2010-01-18, 20:32:30

Sind über 100% mehr Texturleistung, oder versteh ich das jetzt falsch?
Oer vergleicht das Diagramm mit einer GTX260?

http://pics.computerbase.de/2/8/1/1/5/16.png
Hmm, ich sehe da maximal 70% Verbesserung.

Coda

2010-01-18, 20:35:57

Ja und? Passt doch:
Also bei 1400 MHz Hot-Clock wären es dann sowohl mit bilinearem Filtern als auch mit trilinearem Filtern und 2:1 biAF 700*64 MTexel/s Füllrate? Das wäre in den relevanten Fällen ja dann doch eine mehr als 70%-ige Steigerung der Texelfüllrate gegenüber einer GTX 285.
Wenn man nicht 1:1 TA:TF hat, dann ist das ganze etwas ineffizienter.

In einem rein trilinear limitierten Fall wäre das Ding gut ~70% schneller. Wenn man das verstecken kann (genug ALU-Instructions parallel zu Loads) ist die Leistung natürlich höher.

Das passt auch zu dem was mir alle zugetragen haben: In modernen Spielen ist das Ding ~2x so schnell wie eine GTX285.

dildo4u

2010-01-18, 20:38:54

Irgendeinen Grund muss NVIDIA doch haben so partout keine Spielebenches zu veröffentlichen.
Wennd ie Karte so gut ist,gibt es doch keinen grund sie zu verstecken.

http://www.hardwarecanucks.com/forum/hardware-canucks-reviews/27892-nvidia-s-geforce-gf100-under-microscope-13.html

http://www.hardocp.com/image.html?image=MTI2MzYwODIxNHh4VHN0ekRuc2RfMV8yNV9sLmdpZg==&ref=aHR0cDovL3d3dy5oYXJkb2NwLmNvbS9pbWFnZS5odG1sP2ltYWdlPU1USTJNell3T0RJeE5IaDRW SE4wZWtSdWMyUmZNVjh5TTE5c0xtZHBaZz09JnJlZj1hSFIwY0RvdkwzZDNkeTVvWVhKa2IyTndMbU52 YlM5cGJXRm5aUzVvZEcxc1AybHRZV2RsUFUxVVNUSk5lbGwzVDBSSmVFNUlhRFJXU0U0d1pXdFNkV015 VW1aTlZqaDVUVlk1YzB4dFpIQmFaejA5Sm5KbFpqMWhTRkl3WTBSdmRrd3paRE5rZVRWdldWaEthMkl5 VG5kTWJVNTJZbE01Y0dKWFJtNWFVelZ2WkVjeGMxQXliSFJaVjJSc1VGVXhWVk5VU2s1bGJHd3pWREJT U21WRk5VbGhSRkpYVTBVMGQxcFhkRk5rVjAxNVZXMWFUbFpxYURSVU1WazFZekI0ZEZwSVFtRmFlakE1 U201S2JGcHFNV2hUUmtsM1dUQlNkbVJyZDNwYVJFNXJaVlJXZEZscVRrdE5WMHBVVFVod1lWSXdOWE5a YlRWVFlrZE9jRTVZV21waVYwNHlXa2N4UzAxWFNraGxSM2hyVWpKNE1WUkVUazlpTWtsNldrUkNhRk5G Y0hOWFZtUlNaRmRPU0dGSVpGRk5NRVUxVkc1d2FrNUZPVVZWVkZKUFZWUXdPUT09

reunion

2010-01-18, 20:39:06

Es scheint also so, als wären die TMUs viel näher an die ALUs gerückt und damit verwoben worden sind.

Ja, das steht so auch im Whitepaper. "This was achieved by moving the texture units within the SM,..."

MadManniMan

2010-01-18, 20:41:30

Sind über 100% mehr Texturleistung, oder versteh ich das jetzt falsch?
Oer vergleicht das Diagramm mit einer GTX260?

http://pics.computerbase.de/2/8/1/1/5/16.png

Was soll überhaupt das "Texturing" vor der Performance? Will man damit sagen, dass in ... was weiß ich ... nicht sonderlich Taschenlampen-lastigen Szenen Fermi davonzieht? Also kein normaler Benchmark, sondern eine Textur-lastige Szene?

Coda

2010-01-18, 20:43:20

Man will zeigen wie stark die Texturleistung gesteigert wurde (ca. 70%). Die ALU-Leistung wurde aber ungefähr verdoppelt.

In einem nicht texturlimitierten Fall ist man also schneller nicht langsamer.

Gipsel

2010-01-18, 20:50:54

Wart's einfach ab. Das was du meinst macht keinen Sinn Gipsel.
Das behaupte ich dann zum Ausgleich auch von Deiner Interpretation. Die TAs und Texture-Sampler sind auf jeden Fall weit vom SM (mit den LS-Einheiten auf hot clock) entfernt und entkoppelt, egal auf welchem Takt die denn letztendlich laufen.

Wie gesagt, ich bin ja auch erstaunt über nvidias Angaben. Wenn Die Filter wie zuerst vermutet auf hot clock laufen, dann müssen sie 128 TAs (mit 512 "AGUs" für ihr 4offset_gather4 und auch 512 Sampler bei halber hotclock eingebaut haben, damit das auf voller Performance läuft. Das finde ich vom Verhältnis dann ziemlich viel.

Coda

2010-01-18, 20:54:18

Das behaupte ich dann zum Ausgleich auch von Deiner Interpretation. Die TAs und Texture-Sampler sind auf jeden Fall weit vom SM (mit den LS-Einheiten auf hot clock) entfernt und entkoppelt, egal auf welchem Takt die denn letztendlich laufen.
Na anscheinend nicht, wie das Whitepaper verrät.

Wie gesagt, ich bin ja auch erstaunt über nvidias Angaben. Wenn Die Filter wie zuerst vermutet auf hot clock laufen, dann müssen sie 128 TAs (mit 512 "AGUs" für ihr 4offset_gather4 und auch 512 Sampler bei halber hotclock eingebaut haben, damit das auf voller Performance läuft.
Es sind 64 TAs. Man hat schon bei G80 nur die Hälfte an TAs eingebaut. Das limitiert nur im Falle von pur bilinearer Filterung.

Gipsel

2010-01-18, 20:58:22

Also bei 1400 MHz Hot-Clock wären es dann sowohl mit bilinearem Filtern als auch mit trilinearem Filtern und 2:1 biAF 700*64 MTexel/s Füllrate? Das wäre in den relevanten Fällen ja dann doch eine mehr als 70%-ige Steigerung der Texelfüllrate gegenüber einer GTX 285.
Richtig. Ich gehe sehr sehr stark von diesem Fall aus.Aber wenn bilinear und trilinear gleich schnell gefiltert werden, wie paßt das denn mit Folgendem zusammen?
Was ergibt denn das für einen Sinn? Du gehst vom gleichen aus wie ich und der andere Gast, nur das du einen Trilinearen Filter baust anstatt ihn in zwei ansprechbare bilineare Filter zu zerteilen.
Wenn man so eine hypothetische trilineare Einheit in zwei bilineare teilt, hat man erstens 128 bilineare Filter statt 64 und dann auch wieder für bilinear eine doppelt so hohe Filterrate wie für trilinear.

Coda

2010-01-18, 20:59:04

Aber wenn bilinear und trilinear gleich schnell gefiltert werden, wie paßt das denn mit Folgendem zusammen?
Reines Bilinear ist nur Half-Speed. Wie bei G80 auch. Sobald 2xbiAF oder Trilinear gefiltert wird ist es aber egal. Effektiv komplett irrelevant heutzutage :)

Wenn man so eine hypothetische trilineare Einheit in zwei bilineare teilt, hat man erstens 128 bilineare Filter statt 64 und dann auch wieder für bilinear eine doppelt so hohe Filterrate wie für trilinear.
Hätte man, aber die TAs können nicht so schnell adressieren, weshalb bilinear auf Half-Speed limitiert wird.

Ohje, da müssen wir ja ganz von vorne anfangen ;)

LovesuckZ@zumSchluss

2010-01-18, 20:59:30

Es ist schon erstaunlich, dass in diesem Forum genauso wenig über die eigentliche Sensation geredet wird wie in den anderen.
Es ist wohl das aller erste Mal in der Geschichte von nVidia, dass sie einem Feature einer Grafik-API soviel Bedeutung entgegenbringen. Die Umsetzung von Tessellation stellt wohl alles bisherige in den Schatten. Es war ein Schock heute morgen zu lesen, dass GF100 16 dedizierte Tesselation-Units besitzt. 16 - dann sind 16x mehr als AMD hat. Vor Monaten, Wochen und Tagen redete man noch von keiner oder maximal einer. Doch am Ende sind es 16. Das zeigt einmal mehr, dass man nicht jedem Menschen glauben sollte, der etwas über nVidia erzählt. Das könnte das erste Mal in der Geschichte sein, dass nVidia nicht zwei oder mehr GPUs Varianten benötigt, um eine DX Version leistungsmäßig umzusetzen.
Auch die anderen Änderungen bezüglich Setup-Engines sehen sehr vielversprechend aus. Weg vom seriellen Weg von einer Setup-Engine und haufenweisen SM/Cluster hinzu einer Parallelisierung kommt genauso überraschend. Das alles steht auf einer Stufe mit NV40/G80.
Mal sehen wie die anderen Veränderungen sich auswirken: Da hat sich soviel verändert, soviele Zahlen sind geringer geworden zum GT200 oder kaum gestiegen. GF100 könnte wirklich den enttäuschenden GT200(b) wieder gut machen. Hoffentlich weiß man in 2 Monaten mehr. Ich bin gespannt, wie schnell die Karte sein wird.

LovesuckZ

aths

2010-01-18, 21:02:57

Dann würde man aber von "8 TMUs/SM" sprechen. So wie bei G80 auch.

Man verschwendet nicht die Hälfte der Füllrate nur wegen GPGPU! So blöd war nichtmal ATI bei R600 mit ihren Point-Samplern.

Anzunehmen, dass Fermi weniger Textur-Füllrate hat als GT200b ist schon von vornherein eh komplett lächerlich. Ich weiß gar nicht warum darüber diskutiert wird. Das widerspricht allem was NVIDIA in Vergangenheit gesagt hat.Angenommen GF100 hat nur 64 TMUs, dann benötigen die gerade mal 810 MHz um die Füllrate vom GT200 zu bringen. Falls die TMUs mit Shadertakt getaktet werden, bekommen wir sogar eine satte Steigerung. Wenn ich mir beim GF100 in einer Sache keine Sorgen mache, ist es die Texturierungsleistung.

Mal sehen wie die anderen Veränderungen sich auswirken: Da hat sich soviel verändert, soviele Zahlen sind geringer geworden zum GT200 oder kaum gestiegen. GF100 könnte wirklich den enttäuschenden GT200(b) wieder gut machen. Hoffentlich weiß man in 2 Monaten mehr. GT200 war eben Detailarbeit an einer verbreiterten G92-Architektur. Ins DirectX-10-Zeitalter passte der gut. Für D3D11 braucht NV was neues.

Tarkin

2010-01-18, 21:05:13

RV870 ist geradezu schrecklich ineffizent wenn man ihn mit Fermi vergleicht. Sie können jetzt noch mit einem Clock-Refresh kontern, aber danach geht ihnen auf R6xx-Basis die Luft aus.

"schrecklich" rv870 ineffizient? :rolleyes:

Du kennst die Real World Performance von Fermi nicht, aber rv870 ist schon mal "schrecklich" ineffizient dagegen... alles klar Herr Kommissar

aths

2010-01-18, 21:07:33

"schrecklich" rv870 ineffizient? :rolleyes:

Du kennst die Real World Performance von Fermi nicht, aber rv870 ist schon mal "schrecklich" ineffizient dagegen... alles klar Herr KommissarNvidia hat basierend auf GF100 die Möglichkeit, noch hier und da an der Effizienz-Schraube zu drehen. ATI hat die Möglichkeit, die Effizienz massiv zu steigern – mit entsprechend viel Entwicklungsaufwand.

Gipsel

2010-01-18, 21:08:19

Es sind 64 TAs. Man hat schon bei G80 nur die Hälfte an TAs eingebaut. Das limitiert nur im Falle von pur bilinearer Filterung.
Argh, da bauen sparen die an den TAs. Die Möglichkeit habe ich ganz verdrängt, aber ist schon sinnvoll heutzutage, das stimmt. Aber was unterscheidet die Anordnung dann effektiv von 4 trilinearen/bi-2xAF Texturfilter pro SM?

Coda

2010-01-18, 21:14:04

Möglich das der Filter am Ende auch immer gleich zwei Bi-Samples mittelt und im Fall von reinem bilinear das Mitteln weggelassen wird.

Da ich aber davon ausgehe, dass das ganze auf Hot-Clock läuft denke ich eben, dass es ein Bilerp ist und nicht zwei ;)

reunion

2010-01-18, 21:18:18

Ich glaube mittlerweile auch das Coda recht hat. Es wird zwar nicht direkt im Whitepaper erwähnt, aber man schreibt mehrmals das man die Texturleistung durch "high clocks" im Vergleich zu GT200 erreicht. Würde man damit nur eine moderate und übliche Steigerung von den 650Mhz einer GTX285 auf vielleicht 700-750Mhz durch hot-clock/2 meinen hätte man das IMO nicht so hervor gehoben. Auch der Satz wo man angibt das die TUs in die SM gewandert sind passt dazu.

Gipsel

2010-01-18, 21:19:48

Möglich das der Filter am Ende auch immer gleich zwei Bi-Samples mittelt und im Fall von reinem bilinear das Mitteln weggelassen wird.Also doch eine Tri-Filtereinheit oder wie?

Coda

2010-01-18, 21:22:52

Möglicherweise ja. Aber wie gesagt, ich gehe von Bi@Hot-Clock aus.

Gipsel

2010-01-18, 21:28:52

Möglicherweise ja. Aber wie gesagt, ich gehe von Bi@Hot-Clock aus.
Habe gerade gesehen, daß Du auch bei B3D gepostes hast. Ich denke Du hast diesen Post (http://forum.beyond3d.com/showthread.php?p=1382074#post1382074) dort gesehen? Sieht so aus, als wenn das ominöse 4offset_gather4 nur mit halber Geschwindigkeit läuft, da die zusätzlichen Adressberechnungen zu aufwendig gewesen wären (Auskunft von nv). Damit erledigt sich ja auch schon mal ein Teil meiner Verwunderung darüber.

Ganz lustig ist auch noch diese von Damien wiedergegebene nv-Aussage (http://forum.beyond3d.com/showthread.php?p=1382118#post1382118). Ist Cypress nacher gar nicht in DX11 komaptibel? :lol:

PS: Ich weiß natürlich, daß das per Software natürlich nachzurüsten geht (mit Performance-Verlust), aber schon lustig, daß nv einen Vorsprung bei einem DX11-Feature bewirbt und niemand dieses Feature bis heute kannte und es auch nirgendwo dokumentiert ist.

Gast

2010-01-18, 21:37:03

Du kennst die Real World Performance von Fermi nicht, aber rv870 ist schon mal "schrecklich" ineffizient dagegen... alles klar Herr Kommissar

Was hat das eine mit dem anderen zu tun?

Dass RV870 schrecklich ineffizient ist wissen wir bereits, wir wissen natürlich nicht wie effizient Fermi ist.

Kosh

2010-01-18, 21:42:38

Der große DX11 Hype ist doch Tessellation und nur dort werden die neuen Karten wirklich gefordert.Die meisten Games auch in den nästen 2 Jahren werden Konsolengames sein,die maximal Tessellation drauf gesetzt bekommen,siehe Dirt 2,Alien vs Predator 3 etc.Und genau dort zerstört GF100 auch eine 5870.Und dadurch werden die Preise zumindest bei AMD endlich brauchbar für Aufrüster wenn man keine 300€+ ausgeben will.Shaderleistung ist nicht sher gefragt so lange es keine neuen Konsolen gibt.

Preise bei AMD(also ATI) endlich brauchbar????????

Sorry, aber du verkennst die Realität. Die 58xx Karten sind wohl die mit Abstand billigsten Highendkarten. Performance Preise und Highendleistung.

Wären diese Karten von NVIUDIA gekommen, wären die 5850 für 350-380 Euro von NVIDIA verkauft worden und die 5870 für 450-500 Euro,siehe damals 8800GTS und 8800GTX.

Und ich rede von Herstellerpreisen,nicht die Händlerabzockerein durch die Knappheit,weil alle durch die niedirgen preise so versessen auf die ATI Karten waren.

Somit wird ATI auch nichtmal Preise senken müssen (200E 5850 und 300E 5870 Strassenverkaufspreis ist eh realistisch,wenn alle Shops genügend Karten auf lager haben,selbst wenn nie ein Fermie kommt), denn wenn der Fermi so flott ist,wie ihn viele NVIDIA Fans sich wünschen, geht der Fermi mit 400 und 500 Euro,wenn nicht 450-600 Euro ins Rennen.

reunion

2010-01-18, 21:44:34

Dass RV870 schrecklich ineffizient ist wissen wir bereits, wir wissen natürlich nicht wie effizient Fermi ist.

Nein, da es nichts mit Effizienz zu tun hat eine hohe Auslastung der Einheiten zu erreichen. Das kann sogar sehr ineffizient sein wenn ich dazu einen überproportionalen Aufwand leisten muss.

Gast

2010-01-18, 21:45:27

Wenn die Fermi "nur" 10% schneller als eine HD 5890 ist, is kein Platz für 200 Euro Preisaufschlag

numb

2010-01-18, 21:49:33

Nein, da es nichts mit Effizienz zu tun hat eine hohe Auslastung der Einheiten zu erreichen. Das kann sogar sehr ineffizient sein wenn ich dazu einen überproportionalen Aufwand leisten muss.

Vor allem, was speziell am RV870 ineffizient sein ?

Leistung pro Watt ? Nicht wirklich
Leistung pro Transistor ? Wird nicht schlechter als beim Fermi
Spieleleistung / Rechenleistung ? Jap

Ansichtssache also

y33H@

2010-01-18, 21:54:02

Eine HD5890 ist höchst spekulativ und btw auch OT.

Gipsel

2010-01-18, 21:54:23

Möglicherweise ja. Aber wie gesagt, ich gehe von Bi@Hot-Clock aus.
So, habe jetzt endlich mal Zeit gefunden, in das Whitepaper zu schauen (ich weiß, bißchen spät), und ich kann ehrlich nicht wirklich erkennen, wo diese Aussage mit halber hot clock für die TMUs herkommt.
Also ich würde das genau so interpretieren, wie gestern auch noch der Stand war, nämlich daß da alles auf hot clock (oder zumindest mit deutlich erhöhtem Takt) läuft. Das wären also insgesamt 64 bilineare Filtereinheiten (steht ziemlich explizit drin) mit genau so vielen TAs (auf gleichem Takt laut Whitepaper). Wobei ja angeblich nur 128 Offsets für das 4offset_gather4 verarbeitet werden können, also 128 unabhängige point samples pro hot clock oder eben 256 texture fetches pro hot clock (wenn Filterung an ist, also keine unabhängige Adresse berechnet werden muss). Achja, trilinear wäre dann wie bei GT200 halbe Geschwindigkeit.

Theoretische Steigerung des vollen Modells bei 1,4GHz dann also auf 64 * 1400 ~ 90 GTexel/s (bilinear) und damit gute 70% über einer GTX285.

Spasstiger

2010-01-18, 22:09:55

So, habe jetzt endlich mal Zeit gefunden, in das Whitepaper zu schauen (ich weiß, bißchen spät), und ich kann ehrlich nicht wirklich erkennen, wo diese Aussage mit halber hot clock für die TMUs herkommt.
Aus dem E-Mail-Verkehr zwischen der PCGH und Nvidia.

reunion

2010-01-18, 22:12:44

Vor allem, was speziell am RV870 ineffizient sein ?

Leistung pro Watt ? Nicht wirklich
Leistung pro Transistor ? Wird nicht schlechter als beim Fermi
Spieleleistung / Rechenleistung ? Jap

Ansichtssache also

Nichtmal das. Spieleleistung/Rechenleistung ist sicherlich keine Kenngröße für die Effizienz. Es hat ja nichts mit Effizienz zu tun wenn Anwendung X eine so hohe Rechenleistung nicht benötigt.

y33H@

2010-01-18, 22:13:50

@ Spasstiger

Und wo finden sich diese eMails? ;)

Coda

2010-01-18, 22:14:42

Gipsel

2010-01-18, 22:15:23

Aus dem E-Mail-Verkehr zwischen der PCGH und Nvidia.
Wo sich dann die Frage stellt, ob das im Whitepaper falsch (oder zumindest extrem mißverständlich hingebogen) steht, oder ob PCGH da vielleicht was falsch verstanden hat. Denn mit der Interpretation, die sich aus dem Whitepaper ergibt, kommt man auch direkt auf die von nv behauptete 70% Steigerung für die Texturleistung.

Coda

2010-01-18, 22:18:23

Nichtmal das. Spieleleistung/Rechenleistung ist sicherlich keine Kenngröße für die Effizienz. Es hat ja nichts mit Effizienz zu tun wenn Anwendung X eine so hohe Rechenleistung nicht benötigt.
Das ist nicht der Punkt. Die Rechenleistung wird mit kleineren Dreiecken auch "wenn die Anwendung sie braucht" bei RV870 auch nur Bruchteilhaft zur Verfügung stehen.

Die Architektur ist am Ende ihrer Skalierfähigkeit. 50% mehr Leistung bei mehr als doppelter Rohleistung sprechen für sich.

Spasstiger

2010-01-18, 22:19:07

Es ist wohl das aller erste Mal in der Geschichte von nVidia, dass sie einem Feature einer Grafik-API soviel Bedeutung entgegenbringen. Die Umsetzung von Tessellation stellt wohl alles bisherige in den Schatten. Es war ein Schock heute morgen zu lesen, dass GF100 16 dedizierte Tesselation-Units besitzt. 16 - dann sind 16x mehr als AMD hat.
Der Cypress hat 6,7-mal soviele ALUs wie ein GT200. Klingt auch schockierend, ist es aber nicht.
Die Tesselationsleistung des GF100 ist nicht 16-mal so groß wie die des Cypress, das geht nichtmal aus den Nvidia-Benchmarks hervor. Der Dreiecksdurchsatz des GF100 ist ca. dreimal so groß wie beim Cypress (abhängig von den Taktraten) und das dürfte letztlich auch die Tesselationsperformance bestimmen. Im Heaven-Benchmark von Unigine gibt NV nur einen Vorteil von 60% an.

Gipsel

2010-01-18, 22:22:47

Ganz lustig ist auch noch diese von Damien wiedergegebene nv-Aussage (http://forum.beyond3d.com/showthread.php?p=1382118#post1382118). Ist Cypress nacher gar nicht in DX11 komaptibel? :lol:

PS: Ich weiß natürlich, daß das per Software natürlich nachzurüsten geht (mit Performance-Verlust), aber schon lustig, daß nv einen Vorsprung bei einem DX11-Feature bewirbt und niemand dieses Feature bis heute kannte und es auch nirgendwo dokumentiert ist.
Es wird immer besser. Bei B3D hat es jetzt mal jemand einfach ausprobiert (http://forum.beyond3d.com/showthread.php?p=1382171#post1382171) (Details (http://forum.beyond3d.com/showthread.php?p=1382176#post1382176)). Das scheint es wirklich zu geben und MS hat die Dokumentation vergessen! :lol:

Coda

2010-01-18, 22:23:06

ROFL! X-D

y33H@

2010-01-18, 22:23:44

50% mehr Leistung bei mehr als doppelter Rohleistung sprechen für sich. Die doppelte Rohleistung bekommst du schon hin, nur eben mit Settings, die kaum einer verwendet [1920 mit 24x ED-CFAA etwa] ;(

Coda

2010-01-18, 22:26:31

Die doppelte Rohleistung bekommst du schon hin, nur eben mit Settings, die kaum einer verwendet [1920 mit 24x ED-CFAA etwa] ;(
Das liegt daran, dass Edge-Detect ein Stream-Kernel ist (der natürlich nicht von der 3D-Infrastruktur limitiert wird) und in dieser großen Auflösung die Dreiecke deutlich größer sind. Du machst die Aufgabe für RV870 also wesentlich einfacher seine Rohleistung auszunutzen.

Hilft nur nicht, wenn in Zukunft die Spiele mit Tesselation um sich werfen (falls sie es tun werden).

y33H@

2010-01-18, 22:32:27

Erkannt =)

Tessellation ist eines der wenigen Features, mit denen man PC-Ports aufmotzen kann, ich denke ergo, wir sehen das künftig häufiger.

reunion

2010-01-18, 22:34:24

ATI bekommt die enorme Rechenleistung nicht mal ansatzweise auf die Straße. Gut für NVIDIA, schlecht für ATI.

Ich sage, dass die Architektur ineffizient ist, nicht dass die Ausprägung in Form eines RV870 im Vergleich zu Chips eines Mitbewerbers schlecht dastehen würde.

Die Architektur ist vielleicht am Ende ihre Skalierbarkeit, aber deswegen noch lange nicht zwangsläufig ineffizient.

Das ist nicht der Punkt. Die Rechenleistung wird mit kleineren Dreiecken auch "wenn die Anwendung sie braucht" bei RV870 auch nur Bruchteilhaft zur Verfügung stehen.

Die Architektur ist am Ende ihrer Skalierfähigkeit. 50% mehr Leistung bei mehr als doppelter Rohleistung sprechen für sich.

Es hat trotzdem nichts mit Effizienz zu tun eine hohe Auslastung zu erreichen. Fermi ist wohl am Anfang seine Skalierbarkeit und verpulvert mit Sicherheit nicht wenig Ressourcen dafür alle Einheiten immer gut auszulasten. >3Mrd Transistoren und vermutlich 280W TDP sprechen für sich. Um dieselbe Effizienz wie ein RV870 zu erreichen braucht es da schon einiges an Mehrleistung.

Coda

2010-01-18, 22:36:23

Das Rasterization-Bottleneck ist meiner Meinung nach das Problem warum wir in den letzten Jahren trotz steigender Rechenleistung keine ordentlichen Leistungssprünge mehr gesehen haben.

Man kann das nicht unterbewerten, dass NVIDIA das Problem mit Fermi behoben hat. Das ist essentiell wichtig für die Zukunft. Erinnert euch an meine Wort in einem oder zwei Jahren.

Wenn ATI das nicht genauso gründlich behebt in der nächsten Architektur sehe ich wieder eine einseitige Dominanz aufziehen. Da kann RV870 heute im Vergleich noch so gut dastehen. Sie müssen es fixen, sonst sieht's schlecht aus.

reunion

2010-01-18, 22:39:31

Wenn ATI das nicht genauso gründlich behebt in der nächsten Architektur sehe ich wieder eine einseitige Dominanz aufziehen. Da kann RV870 heute im Vergleich noch so gut dastehen. Sie müssen es fixen, sonst sieht's schlecht aus.

Und warum genau sollte sie das nicht machen?

Coda

2010-01-18, 22:41:04

Weil es ein wirklich unglaublich riesiger Haufen R&D ist. Das Thema wurde nicht umsonst seit der GeForce 256 nicht mehr angefasst. Es wurde auch von einigen Leuten vor gar nicht allzu langer Zeit noch behauptet, dass das Rasterisierung das Genick brechen wird und wir deshalb Raytracing haben werden.

Mal kurz so machen ist nicht. Falls sie es nicht in der Pipeline haben ist es jetzt zu spät.

Gast

2010-01-18, 22:42:01

8xmsaa ist auch bei ati überflüssig,macht ja erst sinn in kombination mit den tent modis und adaptive AA.
Unfassbar.
Jetzt wo Nvidia dank den Testern so viel Arbeit reingesteckt hat damits gut läuft ist es aufeinmal unwichtig.
Alles klar.
Zum Glück wars die letzten Jahre das Nonplus ultra.

Gast

2010-01-18, 22:42:47

Wo sich dann die Frage stellt, ob das im Whitepaper falsch (oder zumindest extrem mißverständlich hingebogen) steht, oder ob PCGH da vielleicht was falsch verstanden hat. Denn mit der Interpretation, die sich aus dem Whitepaper ergibt, kommt man auch direkt auf die von nv behauptete 70% Steigerung für die Texturleistung.
Das einzige, was an der mir vorliegenden Aussage interpretierbar wäre, ist, was Nvidia mit "Texture" gemeint hat. Also nicht "Filtering", "TMU" sondern schlicht "Texture".

-carsten

Gast

2010-01-18, 22:47:20

Lässt sich DX11 denn auch mit PhysX kombinieren bzw. kann Nvidia dadurch noch Vorteile für sich verbuchen?

reunion

2010-01-18, 22:50:11

Das Rasterization-Bottleneck ist meiner Meinung nach das Problem warum wir in den letzten Jahren trotz steigender Rechenleistung keine ordentlichen Leistungssprünge mehr gesehen haben.

Dann müsste ja jetzt GF100 regelrecht explodieren mit der 8x Raserizerleistung einer GT200 wenn das schon lange der Bottleneck wäre. Laut Dave Baumann ist der Nutzen in aktuellen Spielen vernachlässigbar.

Weil es ein wirklich unglaublich riesiger Haufen R&D ist. Das Thema wurde nicht umsonst seit der GeForce 256 nicht mehr angefasst. Es wurde auch von einigen Leuten vor gar nicht allzu langer Zeit noch behauptet, dass das Rasterisierung das Genick brechen wird und wir deshalb Raytracing haben werden.

Mal kurz so machen ist nicht. Falls sie es nicht in der Pipeline haben ist es jetzt zu spät.

Was ist daran so unglaublich komplex die Anzahl der Rasterizer zu skalieren? Wenn es in Zukunft von Vorteil sein wird wird AMD das sicherlich nicht erst seit gestern wissen und längst was in der Pipeline haben.

y33H@

2010-01-18, 22:50:23

DX11 hat mit PhysX nicht am Hut.

Coda

2010-01-18, 22:52:56

Dann müsste ja jetzt GF100 regelrecht explodieren mit der 8x Raserizerleistung einer GT200 wenn das schon lange der Bottleneck wäre. Laut Dave Baumann ist der Nutzen in aktuellen Spielen vernachlässigbar.
Dave Baumann ist auch ATI-Angestellter und verbreitet FUD.

Und ja, GF100 wird bei vielen kleinen Dreiecken einen GT200 regelrecht vernichten.

Was ist daran so unglaublich komplex die Anzahl der Rasterizer zu skalieren?
Du hast Out-Of-Order-Writes am Ende der Pipeline. Glaube mir, das ganze ist erheblich untrivial.
NVIDIA sagt auch, dass die Verzögerungen bei Fermi genau darauf zurückzuführen sind.

Man muss bei den APIs eine Draw-Order einhalten. Das darf durch mehrere Rasterizer nicht außer Kraft gesetzt werden.

Wenn es in Zukunft von Vorteil sein wird wird AMD das sicherlich nicht erst seit gestern wissen und längst was in der Pipeline haben.
Ich gehe stark davon aus, dass NVIDIA die letzten 4 Jahre vor allem an diesem Punkt gearbeitet hat. Du weißt wie das R&D-Budget von ATI aussieht.

reunion

2010-01-18, 22:54:45

Dave Baumann ist auch ATI-Angestellter und verbreitet FUD.

Das beantwortet nicht den ersten Satz. Mal sehen wie viel davon bei aktuellen Spielen übrig bleibt.

Du hast Out-Of-Order-Writes am Ende der Pipeline. Glaube mir, das ganze ist erheblich untrivial.

NVIDIA sagt auch, dass die Verzögerungen bei Fermi genau darauf zurückzuführen sind.

Hat das AMD mit ihren zwei Rasterizern nicht auch schon?

Ich gehe stark davon aus, dass NVIDIA die letzten 4 Jahre vor allem an diesem Punkt gearbeitet hat. Du weißt wie das R&D-Budget von ATI aussieht.

Wenn es nur nach dem R&D-Budget gehen würde dürfte ATi nicht dort stehen wo sie heute sind.

deekey777

2010-01-18, 22:55:02

Erkannt =)

Tessellation ist eines der wenigen Features, mit denen man PC-Ports aufmotzen kann, ich denke ergo, wir sehen das künftig häufiger.
Ob das so einfach wäre.
Und überhaupt: Die Tessellation ist nur ein Punkt. Mag sein, dass der GF100 in diesem Punkt schneller als ein RV870 ist, aber ein Spiel besteht aus viel mehr.
Wenn eine GTX380 in Dirt2 oder CoP schneller als eine HD5870 sein wird, dann bestimmt nicht, weil sie bloß im Bereich der Tessellation überlegen ist.

Und da wir schon bei der GTX380 sind: Wird GF100 in voller Ausbaustufe überhaupt im März verfügbar sein? Es wäre wirklich der Hammer, wenn Nvidia es nicht schafft, einen vollen GF100 ab März anzubieten. Oder im April. Oder im Mai... Oder erst mit einem Shrink auf 32 nm.

Gast

2010-01-18, 22:55:26

DX11 hat mit PhysX nicht am Hut.

Ist DX11+PhysX also unmöglich kombinierbar? Warum geht es dann mit DX9+PhysX?

mrt

2010-01-18, 22:55:34

Das Rasterization-Bottleneck ist meiner Meinung nach das Problem warum wir in den letzten Jahren trotz steigender Rechenleistung keine ordentlichen Leistungssprünge mehr gesehen haben.
Aber doch nicht der Dreieckdurchsatz, RV870 schafft mindestens 850 Millionen pro Sekunde, bei 60FPS 14,x Millionen/Frame, im Idealfall sind es satte 29,x Millionen/Frame, das reicht heute noch. IMO hats bei RV870 was anderes, in Zukunft kann dann durchaus das Trisetup entscheidend limitieren, aber heute noch nicht.

Coda

2010-01-18, 22:57:01

Das beantwortet nicht den ersten Satz. Mal sehen wie viel davon bei aktuellen Spielen übrig bleibt.
Es geht nicht um aktuelle Spiele. Du verkennst immer noch die Reichweite dieser Sache.

Ohne eine solche Architektur ist ein Rasterizer nicht mehr skalierbar. Zu viel Rechenleistung die nicht gefüttert werden kann. Wenn ATI nochmal einfach verdoppeln würde wäre der Gewinn wohl noch deutlich kleiner als 50%.

Hat das AMD mit ihren zwei Rasterizern nicht auch schon?
Was AMD als zwei Rasterizer bezeichnet halte ich nur für eine verdoppelte Raster-Output-Leistung die durch zwei Dreieck-Scanner erzeugt wird.

Aber wir werden es wohl nie so genau wissen.

Aber doch nicht der Dreieckdurchsatz
Daran liegt es auch nicht.

Coda

2010-01-18, 23:06:15

Und ich lass auch mal id Software für mich sprechen, weil ich das Gefühl habe mir wird mal wieder nicht geglaubt ;)

http://s08.idav.ucdavis.edu/olick-current-and-next-generation-parallelism-in-games.pdf Seite 109 ff.

Gipsel

2010-01-18, 23:06:44

Das einzige, was an der mir vorliegenden Aussage interpretierbar wäre, ist, was Nvidia mit "Texture" gemeint hat. Also nicht "Filtering", "TMU" sondern schlicht "Texture".

-carsten
Hmm, das paßt also noch nicht so hunderprozentig zusammen. Da müssen wir wohl mal warten, bis da mehr kommt.

Ansonsten bleibt aus meiner Sicht nur übrig, daß wie von CODA vermutet, entgegen der Aussage im Whitepaper wie Euch von nv mitgeteilt die 64 TAs mit dem halben Takt der Filtereinheiten laufen (die aber auf hot clock, sind auch 64), was dann sowohl die von Damien angegebene (und von Dir bestätigte) Texturleistung von 44,8 GTexel/s ergeben würde, als auch eine 70% Steigerung bei der praxisrelevanteren trilinearen bzw. AF-Filterung.

Coda

2010-01-18, 23:09:32

Ob das so einfach wäre
Ja ist es, da man die Normalmaps sowieso aus einem High-Polygon-Model ableitet und dabei sowieso auch die Displacement-Map als Zwischenschritt erzeugt.

Das wird sehr einfach einzubauen sein, vor allem da die D3D11-Tesselations-Architektur transparent in eine Engine eingebaut werden kann (nicht so wie das ATI D3D10-Zeug).

Gast

2010-01-18, 23:09:42

Mal eine ganz doofe Frage aber wieso braucht man weitaus mehr Dreiecke als man überhaupt Pixel hat bzw wieso zeichnet man nicht einfach einen einzelnen Pixel wenn das Dreieck so klein ist und die meisten müssen es ja eigentlich sein sonst bekommt man keine 14 Millionen auf ein Display mit grob überschlagen 2 Millionen Pixeln bei Full Hd Auflösung...
Das wären dann ja 7 Dreiecke pro Pixel, irgendwie verstehe ich das jetzt glaube ich nicht wirklich was ein Dreieck bei modernen Engines eigentlich ist :(

Tesseract

2010-01-18, 23:12:47

Mal eine ganz doofe Frage aber wieso braucht man weitaus mehr Dreiecke als man überhaupt Pixel hat bzw wieso zeichnet man nicht einfach einen einzelnen Pixel wenn das Dreieck so klein ist und die meisten müssen es ja eigentlich sein sonst bekommt man keine 14 Millionen auf ein Display mit grob überschlagen 2 Millionen Pixeln bei Full Hd Auflösung...

genau das ist ja unter anderem der sinn von tessellation: wenn ein objekt nahe am beobachter ist kann man per tessellation viele polys erzeugen damit man (vereinfacht gesagt) die kanten los wird wärend das selbe objekt in der entfernung mit weit weniger auskommt.

reunion

2010-01-18, 23:14:02

Es geht nicht um aktuelle Spiele. Du verkennst immer noch die Reichweite dieser Sache.

Ohne eine solche Architektur ist ein Rasterizer nicht mehr skalierbar. Zu viel Rechenleistung die nicht gefüttert werden kann. Wenn ATI nochmal einfach verdoppeln würde wäre der Gewinn wohl noch deutlich kleiner als 50%.

Ich verkenne nicht die Reichweite, ist stelle nur die Frage ob sich das jetzt schon lohnt. Desweiteren stelle ich die Frage ob das wirklich so ein schwerwiegendes Problem ist hier weiter zu skalieren. Ist ja nicht so das man hier in der Vergangenheit noch nie skalieren musste. Was AMD mit den nächsten Chip macht kann man heute ohnehin noch nicht beantworten. Aber es ist wohl kein Zufall das der nächste Chip von AMD wieder mal eine neue Architektur sein soll. Manche trauen wohl ATI noch immer nichts zu. Sei es wie es sei, jetzt geht es erstmal um diese Generation, also Fermi vs. Evergreen, und da wird man frühesten im März wissen wie die Karten gemischt sind, abgesehen von ausgesuchten Spezielfällen.

mrt

2010-01-18, 23:14:57

Was AMD als zwei Rasterizer bezeichnet halte ich nur für eine verdoppelte Raster-Output-Leistung die durch zwei Dreieck-Scanner erzeugt wird.

Daran liegt es auch nicht.
Öhm ich interpretier das genau anders, der erhöhte Dreickdurchsatz in bestimmten Situation wurde einfach mitgenommen. Wie gesagt, ich glaube beim RV870 hakts woanders, wo bin ich mir aber noch nicht so sicher und daher mal nichts dazu.

Edit: Du redest ja von der Zukunft, ich hab das im Zusammenhang mit der Aussage gesehen, dass die aktuelle Architektur von ATI ineffizient sei und das auch noch auf die aktuellen Engines interpretiert.

Tesseract

2010-01-18, 23:17:32

Ich verkenne nicht die Reichweite, ist stelle nur die Frage ob sich das jetzt schon lohnt.

sicher mehr als damals bei den shadern, die zwar auf dem papier standen aber aus performancesicht viel zu lange kaum lohnten gegenüber fixed function.

Coda

2010-01-18, 23:17:37

Ist ja nicht so das man hier in der Vergangenheit noch nie skalieren musste.
Nein, musste man nicht. Das Trisetup und die Rasterisierung ist praktisch seit den ersten Chips unverändert gelieben bisher.

Das einzige was verbessert wurde ist wieviele Fragmente/Takt an die ALUs geschafft werden können, aber es war stets alles seriell.

reunion

2010-01-18, 23:20:02

Nein, musste man nicht. Das Trisetup und die Rasterisierung ist praktisch seit den ersten Chips unverändert gelieben bisher.

Laut NV hat es hier eine Verdreifachung der Geometrieleistung seit NV30 gegeben. Ein Faktor 8 jetzt auf GF100 ist aber natürlich ein deutlicher Sprung.

mrt

2010-01-18, 23:21:43

Nein, musste man nicht. Das Trisetup und die Rasterisierung ist praktisch seit den ersten Chips unverändert gelieben bisher.
Das Trisetup wurde doch ziemlich deutlich aufgebohrt, früher brauchte alles mehrere Takte ;)

Coda

2010-01-18, 23:22:06

Laut NV hat es hier eine Verdreifachung der Geometrieleistung seit NV30 gegeben.
*seufz*

Es geht nicht um die bloße Erhöhung der Geometrieleistung! Es geht um das parallele Abarbeiten von Dreiecken.

Das Trisetup wurde doch ziemlich deutlich aufgebohrt, früher brauchte alles mehrere Takte ;)
Das Trisetup ist auch nicht das Problem.

reunion

2010-01-18, 23:27:07

Das einzige was verbessert wurde ist wieviele Fragmente/Takt an die ALUs geschafft werden können, aber es war stets alles seriell.

Das ist der relevante Unterschied den ich sehe, das NV das jetzt hochgradig parallel macht. Nur scheint mir das als Laie einfach nur der logische Weg zu sein wenn der serielle Weg nicht mehr zum Erfolg führt und nichts hochgradig innovatives was unglaublich schwer umzusetzen sein soll. Aber das werden wir frühestens in einem Jahr wissen wenn AMD die neue Generation auf den Tisch gelegt hat.

Coda

2010-01-18, 23:27:56

Nur scheint mir das als Laie einfach nur der logische Weg zu sein und nichts hochgradig innovatives was unglaublich schwer umzusetzen sein soll.
Du verkennst die Lage gewaltig. EOD.

Die Draw-Order einzuhalten wenn man mehrere Dreiecke On-The-Fly über den kompletten Chip verteilt hat ist mehr als komplex, vor allem wenn es auch noch schnell sein soll.

mrt

2010-01-18, 23:28:54

Ob ich Dreiecke parallel oder seriell und dafür entsprechend schnell ist Jacke wie Hose. Auf was willst du eigentlich hinaus?
(Beides bedutet hohen Aufwand, letzteres einen sehr hoehn Takt)

reunion

2010-01-18, 23:30:56

Du verkennst die Lage gewaltig. EOD.

Das Problem ist das du selber nichts sagst aber anderen vorwirfst sich nicht auszukennen. Du bist auch kein Hardwareingenieur soweit ich informiert bin. Aber das führt zu nichts, deshalb auch von mir EoD.

Coda

2010-01-18, 23:31:01

Ob ich Dreiecke parallel oder seriell und dafür entsprechend schnell ist Jacke wie Hose.
Nein ist es nicht.

Du kannst mit einem Rasterizer nur ein Dreieck auf einmal bearbeiten, musst aber deine WARPs/Wavefronts füllen. Man kann aber nicht einfach die Anzahl der Fragmente beliebig erhöhen, wenn die Dreiecke nur noch 10 Pixel groß sind.

Das limitiert extrem in letzter Zeit.

Das Problem ist das du selber nichts sagst aber anderen vorwirfst sich nicht auszukennen. Du bist auch kein Hardwareingenieur soweit ich informiert bin. Aber das führt zu nichts, deshalb auch von mir
Dafür reicht mein Hirn um das Problem zu sehen, da braucht ich nichts selber implementiert haben.

Was glaubt ihr wohl warum man diesen Aufwand betreibt wenn es auch so gehen würde wie es bisher war. Ach ich vergaß: Es ist ja ausgeschlossen, das NVIDIA mal was richtig macht.

Und ich habe gesagt an was es liegt, dass es so komplex ist: Man muss die Draw-Order einhalten obwohl man die Dreiecke in mehreren parallelen Clustern über den Chip rastert. Das verlangt eine Interkommunikation die aufpassen muss dass die Fragmente richtig rausgeschrieben sind und evtl. auch Early-Z macht wenn man weiß, dass eines der Dreiecke vor den anderen ist.

mrt

2010-01-18, 23:41:07

Nein ist es nicht.

Du kannst mit einem Rasterizer nur ein Dreieck auf einmal bearbeiten, musst aber deine WARPs/Wavefronts füllen. Man kann aber nicht einfach die Anzahl der Fragmente beliebig erhöhen, wenn die Dreiecke nur noch 10 Pixel groß sind.

Das limitiert extrem in letzter Zeit.
Deswegen hab ich hohe Takte geschrieben, wenn mein Rasterer mit Hausnummer dreifachen Takt arbeitet geht das, auf abstrakter Ebene, fürs Chipdesign natürlich unsinn. (HP-Transistoren mir hohen Leckströmen, keine Skalierbarkeit nach unten etc)

MR2

2010-01-18, 23:41:58

Coda

2010-01-18, 23:42:32

Deswegen hab ich hohe Takte geschrieben, wenn mein Rasterer mit Hausnummer dreifachen Takt arbeitet geht das, auf abstrakter Ebene, fürs Chipdesign natürlich unsinn. (HP-Transistoren mir hohen Leckströmen, keine Skalierbarkeit nach unten etc)
Ja, man kann den Rasterizer nicht einfach mit dreifachem Takt skalieren.

Das ist doch das Problem an der Sache: Während man bisher immer alles einfach über die Einheitenanzahl skalieren konnte, konnte man es an diesem Punkt nicht, weshalb es immer mehr eine Engstelle wird.

Deshalb muss man mehrere komplett unabhängige Rasterizer implementieren. Und das ist wirklich nicht einfach.

Gipsel

2010-01-18, 23:43:28

Gast

2010-01-18, 23:46:42

NVidia hat wohl wieder super Arbeit "geliefert..."

Interessant wird sein, wie die endgültigen Taktraten aussehen.
Was ich als Laie nicht verstehe..Die dargestellten Vergleiche zur 5870 zum Beispiel. Auf welcher Frequenzgrundlage basieren die? Im Vergleich zu DER kommenden GTX380 mit bereits feststehenden Frequenzen oder theoretisch?
Kein Wort zur Verlustleistung, aka Performance-Watt Leader, keine hauseigenen Benchmarks, nur Vergleiche.
Idle Werte sind für viele genauso wichtig, wie die Performance, vor Allem wenn eine 1Ghz HD5870 "alles" flüssig darstellen kann, dabei n gutes Stück weniger kostet
Mal schauen was am Ende wirklich in den Games übrig bleibt. Und wie ATI kontert.
Der RV870 hatte sein TapeOut doch schon Anfang 2009. Bin gespannt wie R900 aussieht.

Naja bisher wurde ja nur A1 oder A2 Stepping gezeigt, A3 kommt grade aus der Fabrik...
A2 war mit 600MHz/448SPs wohl am Start, steht bei Beyond3D. Auf der Basis werden sie auf Wunsch 750MHz und volle SPs aufgerechnet haben und die Folien erstellen. Welche Endtaktrate eine GTX380/360 haben werden ist weiterhin unbekannt, bis eine vom Chinesischen Laster fällt.

mictasm

2010-01-18, 23:53:14

Idle Werte sind für viele genauso wichtig, wie die Performance, vor Allem wenn eine 1Ghz HD5870 "alles" flüssig darstellen kann, dabei n gutes Stück weniger kostet
Nicht vom eigenen 19-Zöller auf alle schließen. ;) (Spaß!)
Ich warte auf eine Karte für einen 30-Zöller, mit der ich in bestmöglicher Qualität und nativer Auflösung alles spielen kann. Auf Multi-GPU habe ich keine Lust mehr, das war mit den 8800GTXn ab der Releasewoche lustig, weil sie endlos lange ohne Konkurrenz waren, aber durch die Mikroruckler war es dann irgendwann nicht mehr wirklich schön. Und dann war Crysis da. Vieles ältere geht heute bereits mit einer GTX285, nun warte ich auf den nächsten Schritt. Und nein, ich möchte keine ATI dafür.

Gast

2010-01-18, 23:57:46

Ich weiß zwar nicht wie nvidia das gemessen hat, aber nach ihren Angaben ist GF100 mit "4offset_gather4" ja angeblich 3,3mal so schnell wie Cypress. Der kann 80 ungefilterte Samples von unabhängigen Adressen pro Takt laden, also 68 GS/s. Das mal 3,3 würde dann theoretisch 224 GS/s für Fermi geben. Teilen wir das durch die 128 Samples, die Fermi angeblich so pro Takt fetchen kann, kommt man auf exakt 1,75 GHz. Nur mal so am Rande ;)Abseits der neuen Architektur ist Fermi ganz sicher auch eine Marketing-Konstuktion. Ob diese wie ein Lügengebäude beim Anblick der gemessenen Wahrheit wie das sprichwörtliche Kartenhaus zusammenbricht, werden wir bald sehen. Wenn Fermi ungeschönt aus sich heraus glänzen könnte, wäre das NV-Marketing jederzeit bereit, uns mit einer Vielzahl von greifbaren Ergebnissen zu überschütten. Da dem nicht so ist, und das ist die einzige Konstante der bisherigen Marketing-Show, werden wir ganz sicher keine "Glanzstück für aktuelle Aufgaben" sehen. Und ob die Softwareschmieden in nächster Zeit speziell für Fermi entwicklen werden, ist wohl kaum anzunehmen. Fermi könnte zu einem finanziellen Schlagloch für NVidia werden, daß in seiner jetzigen Form sicher eine Fertigungsgeneration zu früh erscheint. ATI scheint gut beraten, einen derartigen Architekturwechsel erst mit 28nm einläuten zu wollen.

Gast

2010-01-19, 00:57:02

Coda

2010-01-19, 01:02:22

Es sind beides theoretische Peak-Werte, also kann man so schon rechnen.

Nightspider

2010-01-19, 01:36:14

1. Gibt es noch ein Benchmark NDA ?
2. Gibt es ein Release wann jener fällt ?
3. Gibt es Anhaltspunkte wann die ersten Benchmarks kommen bzw.wann die Karten verfügbar sein werden?

Wenn die Karten jetzt schon in der Massenproduktion sind, würde es mich schon ein wenig wundern, wenn die Karten erst im März auf den Markt kommen oder ist das normal?

Gipsel

2010-01-19, 01:40:13

Peak vs. Sustained schmeiße ich da mal in den Raum. Wahllose 32-Bit-INT-Texturzugriffe kann der Cypress bestimmt nicht 80 Stück pro Takt befriedigen. Wie soll er auch mit kleiner 80x32 Bit Speicherinterface. Da hängt's dann wieder am Cache, dessen Größe und Effizienz, um die Differenz abzufangen.

-carsten
Ja na klar hängt das an den Caches. Wozu sind die denn da? Die deaktivierst die bei einer CPU ja auch nicht :rolleyes:
Und aus den L1-Texture-Caches funktioniert das auch praktisch mit 99% der theoretischen Rate. Da kommt Cypress ja schon mit bilinear gefilterten Texeln in synthetischen Tests ziemlich knapp an die 68 Milliarden pro Sekunde, sustained. Das Weglassen des Filterns wird das bestimmt nicht senken ;)
Ach ja, das Interface zu den Texture-L1-Caches ist 80 x 4 x 32 Bit breit ;)

Gast

2010-01-19, 02:32:16

mal was anderes.Bei diesen Farcry2 Benches sieht man so einen schönes Hntergrundbild mit NV Logo.Ist das schon erhältlich?

Gast

2010-01-19, 02:45:27

tombman

2010-01-19, 04:20:14

War wie gesagt nicht bös gemeint, du hast als Beispiel für die Enthusiasten herhalten müssen, die, obwohl sie immer das schnellste System haben wollen, keine RV870 gekauft haben, sondern noch immer brennend auf Fermi warten. ;)

Das hat aber nichts damit zu tun, daß AMD auf dem RV870 steht, sondern damit, daß "das Schnellste haben" gleichbedeutend mit "MULTI-GPU" ist. Und Crossfire, besonders jenseits von 2 Gpus, stinkt nun mal.
Blaire hatte bereits 3x HD5870- und hat sie wieder verkauft, weil sich wegen der MR-FROM-HELL erst 80fps flüssig anfühlten, sogar 60fps war zäh!
Es gibt mehrere Arten von Enthusiasten:
1.) Luxx Kiddies, die für fps töten würden- nur der Balken zählt
2.) XS LN2 Verarscher, die gesponsort werden und heftig die Hype-Trommel schlagen, um generell HighEnd zu pushen "boah, wie krass, wieder ein neuer Weltrekord" *gähn*
3.) Erfahrene HighEndler, die einfach nur JEDES game auf maximalen Einstellungen ruckelfrei genießen wollen

Ich gehöre zu 3.) (wie Blaire, Don Vito etc auch ;)) und nicht zu 1.), wie du fälschlicherweise annimmst.
===

So, jetzt aber wieder zurück zu Fermi :)

misterh

2010-01-19, 05:05:01

Ich gehöre zu 3.) (wie Blaire, Don Vito etc auch ;)) und nicht zu 1.), wie du fälschlicherweise annimmst.

und was ist mit mir? hatte auch 2x 5870 :freak:

Edit : Auf Fermi werde ich verzichten. Nicht weil ich auf Larrabee warte, sondern privatliche gründe.

Ailuros

2010-01-19, 08:21:29

Ich hab hoffentlich bald einen leicht besseren Durchblick was die TF Sackgasse betrifft.

Etwas Oel ins Feuer:

Originally Posted by MfA
... If not then I personally will stake my bet on NVIDIA having received the XBOX720 contract already

Conspiracy theory! Lets make one thing crystal clear, even though I let myself get drawn lengthy arguments on this it is pretty far out there. If it's true we will probably never hear of it, some people at AMD might get mad at Microsoft but it still would not be in their best interest to antagonize them in public. If it's false and AMD confirms it was only a public documentation error I will look foolish and we can all quickly forget about it.

There are a couple components to this ... firstly the instruction itself and the kind of acceleration it can get on Fermi. It's a good instruction, with an underlying texture cache better suited to point sampling than the one in Evergreen. It will be a win in some algorithms (it will also leave some resources poorly used on ATI hardware, so ideally you will have two implementations). So in that it's a competitive advantage in a good way, better hardware (arguably depending on cost ... but intuitively I'd say the costs for allowing individually addressed 32 bit samples, as opposed to quads, are small compared to the benefits).

The other component is the center of my conspiracy theory ... the IHVs during DirectX standardization have to put a lot of cards on the table, their competition might not be immediately able to take that into account for their own hardware but they will take any implicit information about the other's upcoming hardware into consideration for their next generation. If NVIDIA got instructions into HLSL but got Microsoft to keep them out of the documentation and allowing them to simply declare "oh this is part of DirectX 11 too" at their convenience, then yes they got a clear competitive advantage. In a bad way.

http://forum.beyond3d.com/showpost.php?p=1382367&postcount=3509

Zwar an den Haaren gezogen, aber wir werden schon sehen ob etwas unangenehmes dahinter steckt.

V2.0

2010-01-19, 08:35:19

Über den Aufschrei darf man gar nicht nachdenken.

Gast

2010-01-19, 08:50:48

Das hat aber nichts damit zu tun, daß AMD auf dem RV870 steht, sondern damit, daß "das Schnellste haben" gleichbedeutend mit "MULTI-GPU" ist. Und Crossfire, besonders jenseits von 2 Gpus, stinkt nun mal.
Blaire hatte bereits 3x HD5870- und hat sie wieder verkauft, weil sich wegen der MR-FROM-HELL erst 80fps flüssig anfühlten, sogar 60fps war zäh!
Es gibt mehrere Arten von Enthusiasten:
1.) Luxx Kiddies, die für fps töten würden- nur der Balken zählt
2.) XS LN2 Verarscher, die gesponsort werden und heftig die Hype-Trommel schlagen, um generell HighEnd zu pushen "boah, wie krass, wieder ein neuer Weltrekord" *gähn*
3.) Erfahrene HighEndler, die einfach nur JEDES game auf maximalen Einstellungen ruckelfrei genießen wollen

Ich gehöre zu 3.) (wie Blaire, Don Vito etc auch ;)) und nicht zu 1.), wie du fälschlicherweise annimmst.
===

So, jetzt aber wieder zurück zu Fermi :)

Blaire kannste da mal ausklammern, denn der steht auf BQ!
und zu 1....ist das hier anders? Wenn ich das Balkengesabbel hier ausklammere wären wir noch auf Seite 10.

Und Fermi ohne SSAA ist zur Zeit soviel Wert wie ein Tropf, du solltest event mal über dein grünes Mützchen nachdenken.

Und 500€+ für max 30%+ zur 5870, (das gleiche ich schon mit OC einer 5850 aus)wer das kauft hat eh einen an der Waffel.

AnarchX

2010-01-19, 08:58:16

[...]kommt man auf exakt 1,75 GHz. Nur mal so am Rande ;)
Das wäre aber eine sehr optimistische Projektion, wenn man sich Taktrate und Verbrauchswerte der Teslas anschaut.

Aber da muss man Coda schon recht geben, 2010 noch eine GPU zu launchen die mit 64 TMUs@~700MHz keine 20% vor einem 2006er G80 läge, wäre doch schon sehr sonderbar nach den Ankündigungen, dass man für 2013-15 bis zu 1 TTex/s sieht.
Da passen 64 Filtereinheiten @ 1.4-1.5GHz doch deutlich besser ins Bild und auch zu den bisherigen Benchmarks.

Da könnte sich GF104 als potentiell halber GF100 @ 750/1500/1200MHz wohl fast auf dem Niveau einer HD 5850 positionieren.

reunion

2010-01-19, 09:10:39

Da könnte sich GF104 als potentiell halber GF100 @ 750/1500/1200MHz wohl fast auf dem Niveau einer HD 5850 positionieren.

Bei ~375mm² sollte man eigentlich erwarten können das er die 5870 zumindest angreift.

Gast

2010-01-19, 09:16:57

Weil es ein wirklich unglaublich riesiger Haufen R&D ist. Das Thema wurde nicht umsonst seit der GeForce 256 nicht mehr angefasst. Es wurde auch von einigen Leuten vor gar nicht allzu langer Zeit noch behauptet, dass das Rasterisierung das Genick brechen wird und wir deshalb Raytracing haben werden.
Eine lineare Performacesteigerung durch Parallelisierung rettet uns jetzt genau wie vor der Überlegenheit der logarithmischen Schranke beim RT (mit der da immer argumentiert wird / wurde)?

Gast

2010-01-19, 09:28:14

Es sind beides theoretische Peak-Werte, also kann man so schon rechnen.

Faktor 3,3 sind laut Nvidia-PDF gemessen.

-carsten

Gast

2010-01-19, 09:28:21

Fermi könnte zu einem finanziellen Schlagloch für NVidia werden, daß in seiner jetzigen Form sicher eine Fertigungsgeneration zu früh erscheint. ATI scheint gut beraten, einen derartigen Architekturwechsel erst mit 28nm einläuten zu wollen.

Genau so ist es, alles andere ist Zeitvertreib von gelangweilten Freizeit Hardware Ingenieuren :)

Gast

2010-01-19, 09:30:11

Ja na klar hängt das an den Caches. Wozu sind die denn da? Die deaktivierst die bei einer CPU ja auch nicht :rolleyes:
Und aus den L1-Texture-Caches funktioniert das auch praktisch mit 99% der theoretischen Rate.
Das ist mir auch klar, danke. :) Aber wie hoch ist die Trefferrate in einem 8 KiByte-L1 gegenüber einem 12 KiB Textur- und bis zu 48 KiB L1 bei verteilten Zugriffen? Wir sprechen hier ja nicht über die regelmäßigen Muster bei normaler Texturfilterung.

-carsten

tombman

2010-01-19, 09:31:22

Blaire kannste da mal ausklammern, denn der steht auf BQ!
Ist ja kein Widerspruch :rolleyes:

Und Fermi ohne SSAA ist zur Zeit soviel Wert wie ein Tropf, du solltest event mal über dein grünes Mützchen nachdenken.

Man kann SSAA nicht in DX > 9 forcieren, das saugt.
Fermi ist ein technologischer Meilenstein, wie G80 damals. Cypress- nur billige fps :cool:

Und 500€+ für max 30%+ zur 5870, (das gleiche ich schon mit OC einer 5850 aus)wer das kauft hat eh einen an der Waffel.
Enthusiasten wollen Nvidia, leb damit. Hauptsächlich zahle ich für SLI. Was eine einzelne Karte macht geht mir solang am Arsch vorbei, solange es noch games gibt, die Multi-Gpu bei maximalen Einstellungen "verlangen".
Also, runter mit dem roten Mützchen und Hirn einschalten, Luxxer ;)

Gast

2010-01-19, 09:32:46

Ist ja kein Widerspruch :rolleyes:

Im Gegenteil: Wofür, wenn nicht Bildqualität, braucht man Grafikpower?

-carsten

tombman

2010-01-19, 09:35:20

Im Gegenteil: Wofür, wenn nicht Bildqualität, braucht man Grafikpower?

-carsten
Er hat das anders gemeint, nicht so allgemein...sonder in Bezug auf SSAA. Er wollte ja Blaire ausklammern, aber auch der will maximale settings.

Psychopat

2010-01-19, 09:37:20

Blaire kannste da mal ausklammern, denn der steht auf BQ!
und zu 1....ist das hier anders? Wenn ich das Balkengesabbel hier ausklammere wären wir noch auf Seite 10.

Und Fermi ohne SSAA ist zur Zeit soviel Wert wie ein Tropf, du solltest event mal über dein grünes Mützchen nachdenken.

Und 500€+ für max 30%+ zur 5870, (das gleiche ich schon mit OC einer 5850 aus)wer das kauft hat eh einen an der Waffel.

1) Richtige Enthusiasten wollen das BESTE. Nicht das Zweitbeste. Egal um welchen Preis. Schau dir doch nur mal Intels Extreme Editions an. Ein gewaltiger Aufpreis für ein paar MHz mehr die du "durch OC eh wieder reinholst". Sie werden trotzdem gekauft.

2) Es geht Tombman nicht um 5870 + 30%. Für 30% Mehrleistung kauft er sich nichts neues. Es geht um SLI vs. Crossfire. Und da ist SLI wegen 3rd Party tools, offener Profile und wenigstens etwas treiberseitiger Mikrorucklerbekämpfung klar besser.

Ailuros

2010-01-19, 09:42:42

Bei ~375mm² sollte man eigentlich erwarten können das er die 5870 zumindest angreift.

Da GF100 eben auch nicht 25*25 ist, war das 25*15 nur ein merkwuerdiges Beispiel einen moeglichen rechteckigen die zu illustrieren. Der grosse Rand kann in dem Fall nicht mehr als 23.x sein und der "halbe" auch nicht genau 23.x/2 aus verstaendlichen Gruenden. Ob es jetzt 300+ oder 375 sind ist wurscht, weil wenn das Zeug ueberhaupt stimmt man sehr gut noch mehr "Abfall" verwenden kann.

Gipsel,

Ich erwarte eine Antwort ;)

***edit: uebrigens es haben wohl schon eigentliche wohl erwartet aber jittered Textursampling wird wohl an jeglicher zukuenftigen DX11 Applikation haengen. Eine Treiber-Option zu implementieren waere Bloedsinn, da die Gefahr besteht dass Rauschen da vorkommt wo es man ueberhaupt nicht haben will.

Botcruscher

2010-01-19, 09:55:50

Ich hab hoffentlich bald einen leicht besseren Durchblick was die TF Sackgasse betrifft.

Tesslator Funktionen?

mapel110

2010-01-19, 09:58:20

/del

Gast

2010-01-19, 10:03:22

mal was anderes.Bei diesen Farcry2 Benches sieht man so einen schönes Hntergrundbild mit NV Logo.Ist das schon erhältlich?

http://www.slizone.com/object/slizone_screensavers.html
Abstract NVIDIA Eye - Green

Wo hier vorhin schonmal nach Wallpapern gefragt wurde, habe ich auch eine Frage.
Wo bekommt man den gebürsteten Wallpaper aus dieser Nvidia Folie in möglichst großer Auflösung?

http://www.hardocp.com/image.html?image=MTI2MzYwODIxNHh4VHN0ekRuc2RfMV8yNl9sLmdpZg==&ref=aHR0cDovL3d3dy5oYXJkb2NwLmNvbS9pbWFnZS5odG1sP2ltYWdlPU1USTJNell3T0RJeE5IaDRW SE4wZWtSdWMyUmZNVjh5Tmw5c0xtZHBaZz09JnJlZj1hSFIwY0RvdkwzZDNkeTVvWVhKa2IyTndMbU52 YlM5cGJXRm5aUzVvZEcxc1AybHRZV2RsUFUxVVNUSk5lbGwzVDBSSmVFNUlhRFJXU0U0d1pXdFNkV015 VW1aTlZqaDVUMFk1YzB4dFpIQmFaejA5Sm5KbFpqMWhTRkl3WTBSdmRrd3paRE5rZVRWdldWaEthMkl5 VG5kTWJVNTJZbE01Y0dKWFJtNWFVelZ2WkVjeGMxQXliSFJaVjJSc1VGVXhWVk5VU2s1bGJHd3pWREJT U21WRk5VbGhSRkpYVTBVMGQxcFhkRk5rVjAxNVZXMWFUbFpxYURaVVZWazFZekI0ZEZwSVFtRmFlakE1 U201S2JGcHFNV2hUUmtsM1dUQlNkbVJyZDNwYVJFNXJaVlJXZGxkV2FFdGhNa2w1Vkc1a1RXSlZOVEpa YkUwMVkwZEtXRkp0TldGVmVsWjJXa1ZqZUdNeFFYbGlTRkphVmpKU2MxVkdWWGhXVms1VlUyczFiR0pI ZDNwV1JFSlRVMjFXUms1VmJHaFNSa3BZVlRCVk1HUXhjRmhrUms1clZqQXhOVlpYTVdGVWJGcHhZVVJh VlZZell6Rlpla0kwWkVad1NWRnRSbUZsYWtFMVUyMDFTMkpHY0hGTlYyaFVVbXRzTTFkVVFsTmtiVkp5 WkROd1lWSkZOWEphVmxKWFpHeGtWMkZGZEdoTmEydzFWa2MxYTFSWFNsWk9WRXBhWWtVd01Wa3daRXRY UmtwMFRsZEdWbVZzV2pKWGExWnFaVWROZUZGWWJHbFRSa3BoVm1wS1UyTXhWa2RXV0doWFZtczFWbFV5 Y3pGaVIwcElaRE53VjFKRlNsUlZNakZYVW1zMVZtSkhhRk5TYTNCWlZsUkNWazFIVVhoalJtaHJVbXMx Y2xacVFYaE9WbHBZVFZkR1ZXSkdjSGhaVlZKaFZsWlplbGw2UmxwbGEwa3dXa1ZhZDFOV1JuUlNiVVpz WVd0Rk1WVXlNREZUTWtwSFkwaEdUbFl5YUZWVmJYUnpUVEZrVlZGc1RtdGlWa3A1V2tST2QxbFdTa1pP V0VwaFZteEtXRnBIZUd0V01rWkdaRWRvVG1FeWR6RldhMk14WVRGU1dGTnNXazlXUlhCaFdXdFZkMDFX YTNkYVJYUllVbXR3TUZSc1pFZFdiVlp6VjJwS1dHRXhXbkZhVldST1pVWkdXV0pIYkZSU2EzQm9WbTF3 UzFVeVRYaFdhMlJYVjBkb1dGWnRjekZXYkZWNVkzcEdhVkl3Y0VsYVJFNTNWakZLUmxOc1VsWk5ha1pZ Vlcxek1WWnRTa2hoUms1VFlUTkNXbFpzVWtOV2F6RklWVmhvYWxKdGFISlZiWE14WTJ4YWNWRllhRTlX YkhCWlZGWmtSMVpYU2tkalNHaGFWbFpLYUZac1dtRldNa1kyVW14d2JHRXdhM2RYYTFaaFpERk9WMUp1 VWxOaVZWcHpXVmQwUmsxV1ZYbE5SRVpVVFd0d1NGa3dhRWRVYkZsNVlVWldWbUpZVW5wVVZFWnJWbFpH YzFSdGRHbFdhM0ExVjJ0U1QyUXhiRmRUYTFwUFYwVndhRlp0ZUV0WFJuQklaVWQwVjAxcldrZGFSV1J2 VkcxRmVXUjZSbGRoTWsxNFdWUkdVMWRHVG5OWGF6bFhVbGhDYUZkWGRGWmtNREZYWVROa1lWSllVbGxW YlhSM1RVWlNjMXBGWkZkaVZscDZWakp3UzFkSFJYaFhia1poVmxkU1QxcFZXa2RYVjBwSVlrWlNVMkV6 UW05V2JURjNVekZWZVZSWWFGZGhNbEpZVmpCa2IxZE

mapel110

2010-01-19, 10:09:15

Neues vom FUD.
http://www.fudzilla.com/content/view/17290/34/
Nvidia's mainstream Fermi is not delayed

You should roughly expect it one quarter after the first Fermi, and if all goes well June should be a good month to launch. Since Nvidia changed quite a lot of plans in the last few months, don’t be surprised if it launches a bit later.

http://www.fudzilla.com/content/view/17291/34/
Dual GF100 Fermi should be in April

reunion

2010-01-19, 10:20:15

Fermi ist ein technologischer Meilenstein, wie G80 damals. Cypress- nur billige fps :cool:

Lol, billige fps. Wenn du nicht immer so viel Dampfplaudern würdest. Technologisch ist Fermi wie Cypress Dx11-kompatibel, nicht mehr und nicht weniger. Das er eine höhere Geometrierate haben wird macht ihn noch lange nicht zu einem "technologischer Meilenstein". Man könnte genau so behaupten Cypress ist ein technologischer Meilenstein weil er viel mehr arithmetische Leistung haben wird.

Ailuros

2010-01-19, 10:22:26

Tesslator Funktionen?

TF = texture filtering (unit)

Tarkin

2010-01-19, 10:27:44

Lol, billige fps. Wenn du nicht immer so viel Dampfplaudern würdest. Technologisch ist Fermi wie Cypress Dx11-kompatibel, nicht mehr und nicht weniger. Das er eine höhere Geometrierate haben wird macht ihn noch lange nicht zu einem "technologischer Meilenstein". Man könnte genau so behaupten Cypress ist ein technologischer Meilenstein weil er viel mehr arithmetische Leistung haben wird.

Hast du etwas anderes erwartet? ;)

Es ist exakt so, wie ich vermutet hatte... nVidia launcht einen Papiertiger und blendet die Community mit technischen Details der neuen Architektur und sagt keinen Ton zu Themen die für Consumer wirklich wichtig wären... Verfügbarkeit, Launch-Preise, Taktraten, TDP, real world Performance (okay, das konnte man nicht erwarten), ... es gibt noch nicht mal Bilder der finalen Karten.

Ich frage mich echt was daran jetzt toll, außergewöhnlich, revolutionär sei soll... :rolleyes:

Es gibt nur sehr WAGE Angaben - "up to 2x performance over GT100 @8xAA High Res... so what? Das kann ich mit einer 3 Monate alten 5870er auch schon haben

http://www.hardware.fr/articles/770-23/dossier-amd-radeon-hd-5870-5850.html

40 zu 72fps - 80% schneller "on average" (nicht nur "up to")

Gast

2010-01-19, 10:30:21

tombman

2010-01-19, 10:30:47

G!ZMo

2010-01-19, 10:32:38

Es war ja auch nur ein TechDay und kein Launch @ Tarkin :freak:

Tarkin

2010-01-19, 10:36:36

In DX11 Games wird der Fermi wohl mit der Radeon 5000 den Boden wischen wie es aussieht.

Noch nicht EIN EINZIGES Dx11 Game Benchmark gesehen und trotzdem solche Behauptungen aufstellen... :freak:

Gast

2010-01-19, 10:38:43

Der Unigine Benchmark sagt natürlich nix aus...Ich sage nochmal der Fermi wird in DX11 Games der Radeon weit voraus sein. Warten wir mal ab.

Gast

2010-01-19, 10:40:53

Für mich ist Fermi ein Meilenstein. Hier wurde nicht einfach verdoppelt, für mich ist das eine neue Konstruktion. In DX11 Games wird der Fermi wohl mit der Radeon 5000 den Boden wischen wie es aussieht. Ebenfalls wurde stark an der AF Effizienz gearbeitet. Jetzt hoffe ich nur das der Preis nicht durch die Decke schlägt. Abwarten und Bier trinken.

Ja sicher.
Mal angenommen, Fermi kommt im April, im Mai veröffentlich ATI die Daten für den R900 die noch "Revolutionärer" sind, und kommt dann mit der Karte im November, dann wird es aber bei der UNGLAUBLICHEN Menge von DX11 Titeln bis dato nicht viel zu wischen geben :)

Es geht am Ende um Strategien, keiner von beiden war lange wirklich absolut Über oder Unterlegen, es geht um eine Handvoll FPS.
Alles nur Strategische Entscheidungen, einmal war die eine besser ein anderes Mal die andere, man kauft was man gerade will, wenn ich heute Lust hab meine Spiele noch einige Monate schnell mit vollen Settings Spielen zu wollen, dann hol ich mir eine Ati und wenn ich im April darauf Lust habe eine GF100. Wo ist da der Diskusionsbedarf. PEACE ;)

Gast

2010-01-19, 10:41:06

Noch nicht EIN EINZIGES Dx11 Game Benchmark gesehen und trotzdem solche Behauptungen aufstellen... :freak:

Klar wenn jetzt nicht alle überzeugt sind, dass Fermi total uber ist hätte sich NV die paar Folien auch sparen können.(der Infogehalt ist sowieso so gut wie nicht vorhanden, wie halt immer wenn Papiertiger gestreichelt werden:D)

Gast

2010-01-19, 10:44:38

Ich höre immer R900. Wer sagt denn das diese Architektur dem Fermi ebenbürtig ist? DAS ist reinste Spekulation. Und bei der Radeon 5800 kannste nur noch den Takt erhöhen.

MoC

2010-01-19, 10:47:07

Architektur != Leistung :rolleyes:

Deshalb weiterhin: billige fps ;)

Finde die Aussage unpassend....

Wenn man nen Architekturvergleich machen will, müsste man ehh aufn R900 warten.

Bzw R900 vs Fermi@28nm Refresh.

Dann kann man Schlüsse ziehen, welche Archtektur besser ist.

"billige FPS ;)" ....stimmt ja sogeshen auch nicht. Hier wird doch aller 20 posts behauptet der Evergreen ist höchst ineffizient.....somit wären es doch teuer erkaufte Frames :P

Gast

2010-01-19, 10:49:38

Ich höre immer R900. Wer sagt denn das diese Architektur dem Fermi ebenbürtig ist? DAS ist reinste Spekulation. Und bei der Radeon 5800 kannste nur noch den Takt erhöhen.

Würde ATI jetzt tolle Folien die zeigen dass R900 in irgendeiner Situation deutlich schneller ist als Fermi zeigen dann wäre es also analog zu NV gesicherte Wahrheit?

reunion

2010-01-19, 10:50:10

Der Unigine Benchmark sagt natürlich nix aus...Ich sage nochmal der Fermi wird in DX11 Games der Radeon weit voraus sein. Warten wir mal ab.

Im Unigine-Benchmark ist Fermi laut NV(!) in einem ausgesuchten Abschnitt(!) mit dem Drachen wo extrem viel Tesslation(!) betrieben wird ganze 60% schneller als eine 5870. Also die ultimative Vernichtung sieht in meinen Augen anders aus. Wieviel werden davon wohl übrig bleiben bei unabhängigen Tests ohne Rosinen picken und bei geringerem Tesslationsgrad? Oder beim Großteil der Spiele die noch überhaupt kein DX11 und damit keine Tesslation verwenden?

Gast

2010-01-19, 10:54:57

Es ist exakt so, wie ich vermutet hatte... nVidia launcht einen Papiertiger...

So wie die 5870?

http://geizhals.at/deutschland/?cat=gra16_512&asuch=5870&sort=p :ugly:

Gast

2010-01-19, 10:55:16

Ja klar, sind "nur" 60 Prozent. Was erwarten hier einige Leute eigentlich? Für mich ist das bodenwischen. Ausserdem schau dir mal die minimum FPS an. Wie gesagt, warten wir mal ab wer recht hat.

Gast

2010-01-19, 10:55:23

Ich höre immer R900. Wer sagt denn das diese Architektur dem Fermi ebenbürtig ist? DAS ist reinste Spekulation. Und bei der Radeon 5800 kannste nur noch den Takt erhöhen.

Nenn ihn wie du willst, vollkommen egal, vieleicht wird Atis Nachfolger auch das Ende der Firma besiegeln, vieleicht kommt der GF100 auch gar nicht, eine Veröffentlichung ist doch nichts wert :) wenn es zu Problemen kommt die nicht tragbar sind finanziell, da ist es NV sowas von egal ob Tombman schon seit 4 Jahren vorbestellt hat (sorry net bös gemeint:)), vielleicht, vieleicht ...
Aber was bringt es, es kommt wie es kommt man hat nur die Wahl zu entscheiden wann und wie oft man was kauft und wie viel man dafür bezahlen will.

Ailuros

2010-01-19, 10:56:01

Hast du etwas anderes erwartet? ;)

Ich persoenlich haette erwartet dass NVIDIA komplett die Klappe gehalten haette bis zum echten Launch, aber das bin natuerlich nur ich.

Es ist exakt so, wie ich vermutet hatte... nVidia launcht einen Papiertiger und blendet die Community mit technischen Details der neuen Architektur und sagt keinen Ton zu Themen die für Consumer wirklich wichtig wären... Verfügbarkeit, Launch-Preise, Taktraten, TDP, real world Performance (okay, das konnte man nicht erwarten), ... es gibt noch nicht mal Bilder der finalen Karten.

Papiertiger fehlenden Launches heute mit Sicherheit, aber es ist auch nicht so dass sich die Presse keine reale Maschinen mit GF100's sehen konnten.

Ich frage mich echt was daran jetzt toll, außergewöhnlich, revolutionär sei soll... :rolleyes:

In Sachen Inhalt einer PR Praesentation hat man ebenso Rosinen gepickt und sich auf Vorteilen konzentriert ebenso wie auch AMD bei ihrer Cypress Praesentation. Aus dieser Perspektive sieht man tatsaechlich nichts aussergeweonliches.

Was jetzt den rein technischen Bereich betrifft, haette ich sowieso keine Begeisterung von Dir erwartet so lange es nicht um AMD hw handelt. Ich persoenlich hab einige :eek: fuer das Ding ein paar wichtige :confused: und ein :frown:, wobei aber das ingesamte Gefuehl nicht zu einer Enttaeuschung fuehrt.

Aus Anstand kongratuliere ich erstmal den engineers beider IHVs fuer die Hochleistungen die ich sehen kann denn sehr vieles was beide aufgetischt haben lag sehr lange in den Wunschlisten von sowohl einfachen Verbrauchern als auch Spielentwicklern. Perfektion erwarte ich nirgends.

Es gibt nur sehr WAGE Angaben - "up to 2x performance over GT100 @8xAA High Res... so what? Das kann ich mit einer 3 Monate alten 5870er auch schon haben

Dann leg Dein Hand aufs Herz und versichere ALLE mitlesenden hier dass jemand der die Ohren spitz hat sich in ein paar Monaten eine GF380 zu kaufen keinen Vorteil fuer den Mehrpreis den er gegen eine 5870 bezahlt haben wird.

Im Unigine-Benchmark ist Fermi laut NV(!) in einem ausgesuchten Abschnitt(!) mit dem Drachen wo extrem viel Tesslation(!) betrieben wird ganze 60% schneller als eine 5870. Also die ultimative Vernichtung sieht in meinen Augen anders aus. Wieviel werden davon wohl übrig bleiben ohne Rosinen picken und bei geringerem Tesslationsgrad? Oder beim Großteil der Spiele die noch überhaupt kein DX11 und damit keine Tesslation verwenden?

Jetzt leg mir nicht gerade Du den genau gleichen Mist wie AMD's PR auf den Tisch. Wenn ich die Staerken bzw. Schwaechen einer GPU fuer X suchen will dann hol ich mir einen synthetischen Fall wo X auch am meisten limitiert. Noch mehr wenn es zu einer rein subjektiven Marketing/PR Vorstellung kommt.

Wenn ich jetzt als einfacher User eine GPU zur Hand nehme und Tesselation auf X testen moechte nehme ich mir mit Sicherheit einen Fall wo die Fuellrate, Bandbreite oder weiss der Geier was noch am meisten limitiert und Tesselation am wenigsten. Dass Unigine's Heaven demo eine rein synthetische Applikation und kein Spiel ist wird wohl nicht so schwer zu verstehen sein. Es gibt noch extremere hauseigene techdemo's von NVIDIA in ihrer Praesentation fuer Tesselation wo es zu gigantischeren Unterschieden fuehrt als nur 60% und Dich stoert ausgerechnet die ausgesuchte Tesselations-limitierte cut-scene aus dem Heaven Dingsbums?