nVidia - GT400/GF100 - Q1/2010, DX11, CUDA 3.0 [Archiv] - Seite 2

iceman.s

2009-03-24, 12:17:19

.......................................

So weit alles OK. Ich kenne mich sicherlich nicht so gut aus wie du, aber ich kenne den Unterschied zwischen CPU und GPU. Aber in welche Richtung sich CPU und GPU entwickeln ist schon jetzt deutlich zu sehen. Die Trennung zwischen beiden Welten, ist nicht mehr so stark, wie sie ein mal war. In 5 - 10 Jahren wird es vermutlich CPUs geben, die keinen zweiten Die mehr für GPU benötigen. Das wird vermutlich auf IGP level sein. Bei der GPU läuft es in die andere Richtung, sie wird universeller, aber keine CPU.

Ailuros

2009-03-24, 12:22:57

So weit alles OK. Ich kenne mich sicherlich nicht so gut aus wie du, aber ich kenne den Unterschied zwischen CPU und GPU.

Wenn Du die Unterschiede zwischen CPU und GPU wirklich kennst, dann bleib auch bitte dabei, denn es wird die gleichen fundamentalen Unterschiede auch in der Zukunft geben.

Aber in welche Richtung sich CPU und GPU entwickeln ist schon jetzt deutlich zu sehen. Die Trennung zwischen beiden Welten, ist nicht mehr so stark, wie sie ein mal war.

GPGPU hat nicht das geringste mit Spielen zu tun. Je frueher Du es Dir selber einpraegst, desto besser.

In 5 - 10 Jahren wird es vermutlich CPUs geben, die keinen zweiten Die mehr für GPU benötigen. Das wird vermutlich auf IGP level sein. Bei der GPU läuft es in die andere Richtung, sie wird universeller, aber keine CPU.

Nein und abermals nein. Und es reicht auch bitte mit dem off topic. Entweder GT300/D3D11/ CUDA3.0 oder gar nichts.

deekey777

2009-03-24, 12:28:25

Link fehlt...
So ein Dokument muss entweder schon auf der HDD sein oder man muss wissen, wo es zu finden ist. :biggrin:
http://s08.idav.ucdavis.edu/olick-current-and-next-generation-parallelism-in-games.pdf
(das ist der Link, aber keine Garantie, dass er geht, irgendwie lahmt es bei mir)

PCGH_Carsten

2009-03-24, 12:30:35

Link fehlt...

Copy and Paste in Google?

Ailuros

2009-03-24, 12:52:06

In html (ohne Bilder) kommt das Zeug schon. Das pdf ist leider nicht momentan erreichbar.

Ich bin mir sicher dass ich das Ding gelesen habe, aber es ist nichtmal http://s08.idav.ucdavis.edu/ erreichbar.

***edit: uebrigens Carsten....

http://forum.beyond3d.com/showpost.php?p=1279804&postcount=102

Ich hab das Gefuehl dass das Diagram einen falschen Eindruck geben koennte. Afaik handelt es sich nicht um multiple tri-setups als Beispiel, sondern um Daten die primitives Zeug wie tri-setup, fragment processing etc betrifft, welche zu jeglichem Zeitpunkt von jeglichem "core" aufgesucht werden koennen via einer Art copy/paste.

http://extreme.pcgameshardware.de/attachments/87725d1237893724-geforce-gtx-380-high-end-performance-mit-gt212-oder-erst-mit-gt300-gpu-jon_olick_future_of_rasterization_alluding_to_gt300.png

http://extreme.pcgameshardware.de/technologie-gestern-heute-morgen/37534-geforce-gtx-380-high-end-performance-mit-gt212-oder-erst-mit-gt300-gpu.html#post480511

PCGH_Carsten

2009-03-24, 13:43:57

Ailuros

2009-03-24, 13:53:08

Ich weiß es nicht. Besonders die Diagramme davor, die eine Art Screen-Space-Tiling zeigen, wären mit multiplem Tri-Setup auch wesentlich sinnvoller - auch die Kommentare im PDF selbst sagen ähnliches "The first of which Is by duplicating the GPU into multiple cores. This has a problem however ".

Ausser mir hat jemand etwas falsches beschrieben, handelt es sich tatsaechlich wohl eher um de-zentralisierung jedes einzelnen clusters bzw. "cores". Die copy/paste Funktion der Daten war ziemlich ausdruecklich hier aber es ist auch noch ziemlich frueh. Es ist aber auch nicht der einzige Aspekt der Unabhaengigkeit der cores; es werden vielleicht sogar variable Frequenzen zwischen cores moeglich sein (stets womoeglich nach Bedarf).

Passend dazu vielleicht auch das folgende Patent? Wenn ich es richtig verstehen, könnte das nützlich für einen geteilten Viewport und die Vermeidung von ziemlichem Verschnitt beim MSAA sein. Wenn nicht, bitte nicht weiter beachten. :)
http://www.freepatentsonline.com/7502035.html
Es gab schon einen relevanten Thread darueber bei B3D. Denk an Tesselation und viele kleine Dreiecke; da machen solche Methoden (auf quad Basis) auch Sinn. Es hilft mir nichts das Patent durchzulesen da ich wohl wieder nur die Haelfte verstehe, aber ein Problem in das man bei solchen Methoden rennen koennte waere die selektive Entfernung von internem edge AA.

AnarchX

2009-03-28, 19:33:18

Mal eine Überlegung aus einem anderen Thread:
http://www.forum-3dcenter.org/vbulletin/showpost.php?p=7199286&postcount=647

Wenn GT300 im Q4 vorgestellt wird, dann könnte uns wohl wie bei G80 die Mainstream-Ableger im Q2 erwarten, 32nm soll wohl laut TSMC von den Kunden als Upgrade für 40nm verstanden werden, sodass dessen Verwendungen zu diesem Zeitpunkt auch laut Prozessroadmap sehr wahrscheinlich ist.

Bleibt die Frage, ob Nvidia den oben gezeigten Trend fortsetzen kann und zu diesem Zeitpunkt etwa doppelte GTX 260 Leistung für ~150€ bietet oder ob sich der Knick von 2008 zu 2009 fortsetzt.

Momentan sieht es ja so aus, als ob Nvidia sich danach bemüht mit Larrabee im Bezug auf Many-Core-Computing möglichst mitzuhalten, was wohl Auswirkungen auf die 3D-Performance haben könnte, wie man es schon bei GT200 sah.

Ailuros

2009-03-29, 09:47:06

Momentan sieht es ja so aus, als ob Nvidia sich danach bemüht mit Larrabee im Bezug auf Many-Core-Computing möglichst mitzuhalten, was wohl Auswirkungen auf die 3D-Performance haben könnte, wie man es schon bei GT200 sah.

Many-core != many-core zwischen Architekturen. Damit NV diesmal beweisen kann dass monolithischer single high end core auch wirklich Sinn macht, reicht 2*GT200 Leistung IMHLO nicht aus.

Was hoechstwahrscheinlich hier NV angestellt hat, ist den jeglichen cluster um einiges unabhaengiger von den anderen zu gestalten (und kann wohl diesmal diese auf verschiedene Frequenzen takten) um die Effizienz pro Transistor um einiges zu steigern. Zwar gibt es fundamentale Unterschiede zu G80, aber so weit entfernt von den Basis-Elementen duerfte das Resultat nun auch wieder nicht sein. Vergleiche mit LRB wuerde ich momentan nicht wagen; die einzige Stelle wo sie vielleicht Transistoren nicht direkt fuer 3D Leistung investiert haben sind moegliche grosse caches.

Uebrigens nach etwas weiterem Bedenken des obrigen Patentes (falls es fuer GT3x0 gueltig sein sollte und nicht nur ein merkwuerdiges Experiment war) wuerde ich als Laie vermuten dass wenn so etwas brauchen wuerde, wohl keine reine MIMD Einheiten vorhanden sind. Dieses schliesst aber die Geruechte fuer MPMT nicht unbedingt aus, wobei es sich wohl um ein flexibleres threading als bei heutigen GPUs handeln koennte.

KonKorT

2009-03-29, 12:53:05

Damit NV diesmal beweisen kann dass monolithischer single high end core auch wirklich Sinn macht, reicht 2*GT200 Leistung IMHLO nicht aus.
Zumindest die interne Zielsetzung ist höher, ja. Was später genau bei herauskommt, kann zurzeit noch keiner sagen.

Was hoechstwahrscheinlich hier NV angestellt hat, ist den jeglichen cluster um einiges unabhaengiger von den anderen zu gestalten (und kann wohl diesmal diese auf verschiedene Frequenzen takten) um die Effizienz pro Transistor um einiges zu steigern.
Ja, es wird mehrere Taktgeber geben, um die Effizienz zu erhöhen. Auch in Hinblick auf das Powermanagement.

[...] wohl keine reine MIMD Einheiten vorhanden sind. Dieses schliesst aber die Geruechte fuer MPMT nicht unbedingt aus, wobei es sich wohl um ein flexibleres threading als bei heutigen GPUs handeln koennte.
Es werden definitiv keine reinen MIMD-Einheiten. Ebenso sicher ist allerdings, dass es auch keine klassischen SIMD-Einheiten bleiben werden.

Coda

2009-03-29, 13:38:06

Ich sag doch: Schaut euch das Paper über "Dynamic Warp Formation" an was das angeht.

Gast

2009-03-29, 15:59:12

Link (?):
http://www.ece.ubc.ca/~aamodt/papers/wwlfung.micro2007.pdf

EventHorizon

2009-03-29, 18:41:05

Sehr interessant.

Coda

2009-03-29, 18:41:37

Link (?):
http://www.ece.ubc.ca/~aamodt/papers/wwlfung.micro2007.pdf
Exakt. In die Richtung könnte es gehen.

Ailuros

2009-03-29, 19:11:45

Es werden definitiv keine reinen MIMD-Einheiten. Ebenso sicher ist allerdings, dass es auch keine klassischen SIMD-Einheiten bleiben werden.

Es sind schon seit einiger Zeit keine klassische SIMD Einheiten mehr.

Exakt. In die Richtung könnte es gehen.

Ich dachte wir sind schon in der Richtung seit G80 *kopfkratz*

Das Problem mit kleinen Dreiecken loest die Methode aber auch nicht unbedingt; mal sehen ob sie das Patent oben beim GT3x0 einsetzen.

Coda

2009-03-29, 19:43:32

Ich dachte wir sind schon in der Richtung seit G80 *kopfkratz*
Nö. Es wird immer für alle 8 laufenden Programme eines Threads in einer Vec8-ALU das gleiche ausgeführt pro Takt bei G80.

Wenn Sprungdivergenzen in einem solchen Paket auftreten müssen für alle Programme beide Pfade abgearbeitet werden.

robbitop@work

2009-03-30, 09:11:11

Nö. Es wird immer für alle 8 laufenden Programme eines Threads in einer Vec8-ALU das gleiche ausgeführt pro Takt bei G80.

Wenn Sprungdivergenzen in einem solchen Paket auftreten müssen für alle Programme beide Pfade abgearbeitet werden.
Gilt das nicht sogar für beide (G8x/9x) bzw alle drei (G2xx) Vec8 ALUs? So wird pro Cluster auf allen SIMD ALUs die gleiche Operation pro Takt durchgeführt. Wo ist da dann eigentlich der logische Unterschied zw 2-3x Vec8 SIMDs (mit der gl Op) und einer Vec16 bzw. Vec24 SIMD?

Coda

2009-03-30, 14:40:14

Gilt das nicht sogar für beide (G8x/9x) bzw alle drei (G2xx) Vec8 ALUs?
Nein. Beide bzw. alle drei Vec8 sprechen nur die gleiche TMU an, daher die Zusammenlegung.

Deshalb ist die Warp-Size auch immer 32 Threads, da eine Instruction eines Warps in 4 Takten auf einer Vec8-ALU abgearbeitet wird.

robbitop

2009-03-31, 07:41:41

Nein. Beide bzw. alle drei Vec8 sprechen nur die gleiche TMU an, daher die Zusammenlegung.

Im Klartext heißt das, dass die Vec8 SIMDs im Cluster unterschiedliche Operationen (im gleichen Takt) ausführen können? Das hatte ich nämlich zum G80 Launch anders gelesen.

Ailuros

2009-03-31, 08:43:33

http://www.beyond3d.com/content/news/728

Ailuros

2009-04-01, 10:19:37

Im Klartext heißt das, dass die Vec8 SIMDs im Cluster unterschiedliche Operationen (im gleichen Takt) ausführen können? Das hatte ich nämlich zum G80 Launch anders gelesen.

Duerfte schon so stimmen. Aber zum eigentlichen Thema und wofuer Aenderungen in der kommenden Generation am wichtigsten sein werden:

In addition to full PCI Express 2.0 support, GT200 also allows for CUDA computations to occur at the same time as one-way data transfers to or from the GPU (as on G84/G86/G9x). So you’ve got two transfer modes: you can both send and receive data at the same time, or keep the ALUs busy while either sending or receiving data. This can drastically reduce the amount of time the GPU is idling when shuffling data around. In the next generation, two-way transfers will be made possible at the same time as computation.

There’s now a memory coalescing cache in each memory controller partition. With G80, the threads in a batch/warp (or half-warp) had to have contiguous memory access patterns; otherwise, your bandwidth efficiency would drop proportionally to the number of different memory locations you were accessing. On GT200, the memory controller will try to intelligently combine memory accesses to improve efficiency. Don’t expect it to magically go as fast as the optimally contiguous case, but it should still help a lot and make the programmer’s job easier.

usw.

http://www.beyond3d.com/content/articles/106/2

clockwork

2009-04-05, 20:06:53

Ist denn für dieses Jahr oder zumindest für Q1 2010 noch eine neue Karte zu erwarten die unter "Performance" fällt? Also eine Ablöse für die GTS250 für ~150€?

Psychopat

2009-04-05, 20:26:49

Also ich würde mal sagen der RV870 ist als "Performancekarte" geplant. Bis Q1 2010 könnte die "pro" Variante schon um die 150 Euro liegen (also ähnlich wie 4850 kurz nach Markteinführung).

=Floi=

2009-04-05, 20:29:59

für 150€ wohl nicht, aber ansonsten soltle der GT212 das sein was du willst.

edit
da kann man sich jetzt gleich eine 4870 kaufen.

AnarchX

2009-04-05, 20:59:44

da kann man sich jetzt gleich eine 4870 kaufen.
Eine 4870 ist noch lange keine D3D11-Karte mit wohlmöglich doppelter 4850-Leistung und einer TDP <150W.

Wenn clockwork als "Ablöse für die GTS 250" vergleichbare Leistung meint, dann wäre wohl GT215/214, sofern beide Chips noch auf den Roadmaps existieren.
GT300-Ableger würde ich ehrlich gesagt nicht vor dem Q2 erwarten, wenn NV dieses Jahr noch GT21x-GPUs einführt.

Gast

2009-04-06, 15:46:07

Warum sickern noch keine infos durch?

Der_Korken

2009-04-06, 15:53:29

Warum sickern noch keine infos durch?

Weil es noch lange hin ist. Beim GT200/RV770 tappten selbst wenige Wochen vorher alle total im Dunkeln.

Ailuros

2009-04-07, 07:43:24

Warum sickern noch keine infos durch?

Es gibt schon genug hints in diesem Thread darueber; was genau erwartest Du zu diesem Zeitpunkt? Benchmarks vielleicht?

KonKorT

2009-04-07, 12:19:49

Laut Nvidia bleibt die Geforce GTX 295 bis zum GT300 das Nonplusultra.

(Eine weiteres Indiz dafür, dass GT212 tot ist, wenngleich er sicher als Single-Chip nicht an die Performance einer GTX 295 herangekommen wäre)

Quelle: Hardware-Infos (http://www.hardware-infos.com/news.php?news=2863)

Gast

2009-04-07, 13:04:31

Das hat Ail schon vor nem monat oder länger gesagt, nix wirklich neues.

Spasstiger

2009-04-07, 13:46:11

Gibts Infos darüber, ob NV von den Riesenchips > 400 mm² wegkommen will oder kann man beim GT300 durchaus mit 3 Mrd. Transistoren @ 40 nm rechnen?

KonKorT

2009-04-07, 13:58:18

GT300 ist mit > 400 mm² geplant, das ist richtig.

Ailuros

2009-04-07, 14:52:40

Gibts Infos darüber, ob NV von den Riesenchips > 400 mm² wegkommen will oder kann man beim GT300 durchaus mit 3 Mrd. Transistoren @ 40 nm rechnen?

Es wuerde mich sehr ueberraschen wenn das Ding weniger als 2.5 Mrd. Transistoren haette.

Sonyfreak

2009-04-08, 12:13:28

KonKorT

2009-04-08, 12:25:56

Der maximale Verbrauch könnte sogar durchaus höher liegen, wobei man aller Wahrscheinlich nach schon noch unter 300 Watt bleibt.
Andererseits hat man auch viel in ein verbessertes Powermanagement investiert. Man kann hoffen, dass der Idle- und Durchschnittsverbrauch also auf ganz akzeptablem Niveau liegen wird.

Ailuros

2009-04-08, 12:34:35

2,5 - 3 Milliarden Transistoren bei 40nm klingen irgendwie extrem heftig. Ein so riesiger Chip mit schnellem Speicher muss ja extrem viel Strom saugen oder? Der neue Fertigungsmodus dürfte den Stromverbrauch zwar wieder etwas senken, aber ob er das alles ausgleichen kann? Wird der GT300 einen höheren Verbrauch als eine GTX 280 haben? Ist dazu schon etwas bekannt?

mfg.

Sonyfreak

Nochmal ein paar Moeglichkeiten an denen sie gedreht haben koennten u.a.:

Kleinere Leckstroeme bei sehr hohen ALU Frequenzen
Unabhaengige Frequenzen pro cluster oder genauer pro "core"
Power-Gating usw.

Falls das obrige jetzt stimmen sollte und der Stromverbrauch liegt am Ende immer noch sagen wir mal ueber 220-250W, dann war wohl ein grosser Anteil der Forschung fuer diese Felder fast umsonst.

dildo4u

2009-04-08, 12:39:14

Spasstiger

2009-04-08, 13:02:35

Wenn sich die GPU durch Powergating und unabhängige Clockdomains für jeden Core von alleine auf einem bestimmten TDP-Level hält, könnte Overclocking recht kurios ausfallen.
Vielleicht gibts ja dann auch einen Turbomodus ähnlich wie bei Intel, der die Cores noch ein bischen übertaktet, wenn die Leistungsaufnahme/Auslastung dafür Spielraum lässt. Ein Switch im Treiber, mit dem man zwischen "Green mode" und "Turbo mode" umschalten kann.

Ailuros

2009-04-08, 13:06:16

Ich denke auch das es so lange die Karte aktuell ist kaum Games geben wird die die Karte ans Leistungsmaximum treiben.(Whol keine DX11 Games bis Ende 2010)Vieleicht gibts ein paar GPGPU Anwendungen die die Karte komplett auslasten das wars dann aber auch.

Die Geschichte wiederholt sich schon seit Jahren und aehnliches kann ich jedesmal vor einer neuen Generation lesen. Dummerweise liegen in der Mehrzahl der Faelle solche Projektionen auf dem falschen Pfad.

Gast

2009-04-08, 13:14:45

Diesmal fürchte ich nicht. Die Möglichkeit der Vorfinanzierung größerer Projekte wird sich bis Ende 2009 soweit verringern, dass es mit zukünftiger Software sehr mager aussehen wird. Hatte nicht jetzt schon ein größerer Publisher finanzielle Probleme?

Ailuros

2009-04-08, 13:16:30

Gast

2009-04-08, 17:02:24

Und ich hoffe das auch das Kühlsystem mal vernüftig designed wird.Das von 280,2085 is eine Frechheit, ein Spitzenmodel mit Staubsauger Lautstärke ist eine Zumutung

Spasstiger

2009-04-08, 17:11:50

Und ich hoffe das auch das Kühlsystem mal vernüftig designed wird.Das von 280,2085 is eine Frechheit, ein Spitzenmodel mit Staubsauger Lautstärke ist eine Zumutung
Kauf dir halt eine Karte mit Alternativkühler. Der Referenzkühler soll in erster Linie kostengünstig sein, die Karte auf nicht mehr als zwei Slots Breite vergrößern und sie innerhalb der thermischen Spezifikation halten.

Mit der PCIe-3.0-Spezifikation werden wir dann aber auch Referenzkühler sehen, die die Karten auf drei Slots Breite anwachsen lassen werden. Die PCIe-2.0-Spezifikation erlaubt das noch nicht.

crux2005

2009-04-08, 18:00:16

3 slots nur für die Grafikkarte finde ich schon zu viel

dargo

2009-04-08, 18:06:01

3 slots nur für die Grafikkarte finde ich schon zu viel
Du musst es auch nicht kaufen.

AnarchX

2009-04-09, 19:24:50

Nvidia's GT300 is set to tape out in June.
http://www.theinquirer.net/inquirer/news/733/1051733/nvidia-gt300-tapeout-soon

Coda

2009-04-09, 19:38:29

Juni ist aber schon sehr spät. Dann kann man wirklich nicht vor Dezember mit Chips rechnen.

mapel110

2009-04-09, 19:42:21

Juni ist aber schon sehr spät. Dann kann man wirklich nicht vor Dezember mit Chips rechnen.
Wieso? Hat sich an den drei Monaten etwas geändert, die es sonst eigentlich waren von Tape Out bis Release? Oder rechnest gleich noch mit mindestesn einem Respin?

Ailuros

2009-04-09, 19:45:54

Juni ist aber schon sehr spät. Dann kann man wirklich nicht vor Dezember mit Chips rechnen.

Ich hab auch nie vor kurz vor Weihnachten gerechnet. Erstmal abwarten ob im Juni es wirklich zum finalen tapeout kommt, denn sicher ist bis dahin wohl gar nichts.

Coda

2009-04-09, 19:51:46

Wieso? Hat sich an den drei Monaten etwas geändert, die es sonst eigentlich waren von Tape Out bis Release? Oder rechnest gleich noch mit mindestesn einem Respin?
Also bisher hat das immer rund 6 Monate gedauert wenn ich mich nicht falsch erinnere.

Gast

2009-04-11, 02:31:18

tapeout heißt doch ready für serienproduktion ?

Ailuros

2009-04-11, 02:42:09

tapeout heißt doch ready für serienproduktion ?

Grob vereinfacht ja. Das heisst aber auch wieder nicht dass die IHVs nicht ungefaehr 6 Monate vom tape out bis zur Veroeffentlichung brauchen.

Spasstiger

2009-04-11, 02:48:39

tapeout heißt doch ready für serienproduktion ?
Nö, nach einem Tapeout kann es auch zu einem Respin kommen, wenn im realen IC Fehler entdeckt werden oder die Yieldrate nicht der Zielvorgabe entspricht.

Tapeout heißt nur, dass ein Entwicklungszyklus abgeschlossen ist und das Design an die Foundry überreicht wird. Die Foundry muss dann erstmal überprüfen, ob die für den gewünschten Fertigungsprozess festgelegten Designregeln eingehalten wurden. Manchmal tricksen IC-Entwickler auch, indem sie Designregeln bewusst verletzen. In diesem Fall muss der Foundry mitgeteilt werden, dass trotzdem gefertigt werden soll. Das Risiko trägt dann der IC-Entwickler. Und wenn dann mal ein fertiges Stück Silizium die Fab verlässt, muss diese noch lange nicht serienreif sein.

KonKorT

2009-04-11, 10:37:51

Wenn es kein Redesign gibt, was ich persönlich für sehr optimistisch halte ;), dann müsste man sich mindestens noch 100 Tage ab Juni gedulden.
Aber wie lange es allgemein dauert ist nicht nur abhängig von den Redesigns. Zum Beispiel werden auch direkt nach dem Tape-Out zwei Wochen veranschlagt, bis der Chip zum ersten Mal läuft. Es ist sehr selten, dass es nicht irgendwo einen kleinen Fehler gegeben hat und die Katze sofort schnurrt.

Wir können damit nur sagen: Nvidia liegt im Zeitplan. Für Q2/2009 war auch schon vor ein paar Monaten intern das erste Tape-Out festgesetzt.

Nightspider

2009-04-12, 22:33:00

Ich denke auch das es so lange die Karte aktuell ist kaum Games geben wird die die Karte ans Leistungsmaximum treiben.(Whol keine DX11 Games bis Ende 2010)Vieleicht gibts ein paar GPGPU Anwendungen die die Karte komplett auslasten das wars dann aber auch.

Dir ist klar das Crysis 2 wohl im 1. HJ 2010 erscheint oder ? ;D

Stalker Addon 2 ist auch zum Jahreswechsel angekündigt und wird sicher auch wieder massig Leistung fressen.

Abwarten...bisher konnte man noch jede neue Grafikkartengeneration mit aktuellen Titeln quälen.

Byteschlumpf

2009-04-12, 23:27:32

"Crysis 2" wird wohl erst mit der HighEnd-Hardware, die zwei Jahre später erhältlich sein wird, auf Maximum flüssig laufen. :D

Aquaschaf

2009-04-12, 23:55:55

Diesen Fehler machen die nicht noch einmal, denke ich.

Byteschlumpf

2009-04-13, 00:12:13

Diesen Fehler machen die nicht noch einmal, denke ich.
Crysis wurde damals glücklicherweise um ein gutes Jahr verschoben. Ziemlich jeder fand das zwar sehr unschön, im Nachhinein war es aber weitaus besser so. Sonst hätte sich wirklich jeder über die miese Performance beschwert.

Die Edel-Zocker wären besonders angepieselt gewesen. :D

Huhamamba

2009-04-13, 02:22:26

Hmm ich weiß nicht, ob man in Bezug auf Crysis' Hardwarehunger wirklich von einem "Fehler" sprechen kann. Schließlich beehrte das Spiel mit freundlicher Unterstützung von Nvidia und Intel den Markt, um den Hardwareabsatz voranzutreiben. Und so kam es dann auch: Geforce 8 Grafikkarten und Core 2 CPUs gingen weg wie warme Semmeln und die sogenannten Enthusiasten, die sich sowieso das beste vom besten in ihren Rechner reinknallen (manches sogar gleich in zweifacher Ausführung^^) haben über den Ultra-Modus nicht schlecht gestaunt. Bombastgrafik, Hardwaremarkt gepusht und ziemlich gute Absatzzahlen von dem Game, welches glaub ich allein durch die Partnerschaft mit Nvidia und Intel seine Entwicklungskosten wieder eingespielt hat. Was will man mehr?^^

Würde mich nicht wundern, wenn sich dieses Szenario beim nächsten Crysis wiederholt. Oder sagen wir's so: Ich wäre enttäsucht, wenn nicht. Gibt heutzutage ja eh fast nur noch Konsolenports, die bei weitem nicht das Potential moderner Grafikkarten aus dem Ober- und Mittelklassesegment ausschöpfen. Auch wenn mir das Gameplay in Crysis nicht sonderlich zugesagt hat, als Tech-Demo hat es allemal getaugt. :D

dildo4u

2009-04-13, 11:50:24

"Crysis 2" wird wohl erst mit der HighEnd-Hardware, die zwei Jahre später erhältlich sein wird, auf Maximum flüssig laufen. :D

Dir ist klar das Crysis 2 wohl im 1. HJ 2010 erscheint oder ? ;D

Und das läuft mit Cryengine 3 die nicht mal zwingend DX10 brauchen wird von DX11 gar nicht zu reden.Wird genau wie bei Crysis sein echte DX11 Effekte kannste knicken genau wie man beim 1 Teil (fast) alle "DX10" Effekte auch mit DX9 darstellen kann.

Nicht mal in der PR ist von DX11 die Rede obwhol es schon von MS angekündigt wurde.

http://www.forum-3dcenter.org/vbulletin/showthread.php?t=449815

deekey777

2009-04-13, 11:54:16

Darum würde es mich nicht wundern, wenn "Crysis 2" schon DX11 nutzen wird.

dildo4u

2009-04-13, 11:59:51

Darum würde es mich nicht wundern, wenn "Crysis 2" schon DX11 nutzen wird.
Jo so wie Crysis 1 DX10(Schneller kaum schöner,fast alles auch mit DX9 möglich) das meine ich ja maximal aber nicht wenn es schon im 1H 2010 kommt was eh unwahrscheinlich ist sondern eher Ende 2010.Gab vor kurzem ja ein Interview das es so schnell von Crytek kein Cryengine 3 Spiel geben wird.

LovesuckZ

2009-04-13, 12:12:14

Crysis wurde damals glücklicherweise um ein gutes Jahr verschoben. Ziemlich jeder fand das zwar sehr unschön, im Nachhinein war es aber weitaus besser so. Sonst hätte sich wirklich jeder über die miese Performance beschwert.

Die Edel-Zocker wären besonders angepieselt gewesen. :D

Es gab im Oktober 2007 nichts schnellers als ab dem 06. November 2006. Die Verschiebung hätte aus diesem Grund nämlich mal garnichts gebracht.

dargo

2009-04-13, 12:15:57

Ist es nicht irgendwo egal ob Crysis 2 DX11 nutzt oder nicht? Hier tun ja manche so als ob man einen GT300 nicht an seine Grenzen mit Crysis 1 bringen könnte. Selbst wenn die GPU 3x so schnell sein sollte wie ein GT200 ist es kein Problem diese in Crysis 1 als Limit zu bringen. Und dabei meine ich nicht mal SSAA. Dank cfgs ist in Crysis bei very High noch lange nicht Schluß. Ob man dann noch große Unterschiede in der Optik auch sieht ist ne andere Geschichte.

dildo4u

2009-04-13, 12:23:13

=Floi=

2009-04-13, 14:18:14

ja klar, bei der konsolenumsetzung werden dann details weggelassen, texturqualität reduziert und die sichtweite reduziert. ;D An GTa4 sieht man ja auch wie gut eine konsolenumsetzung auf dem pc performt...

dargo

2009-04-13, 14:24:10

ja klar, bei der konsolenumsetzung werden dann details weggelassen, texturqualität reduziert und die sichtweite reduziert. ;D
Ist doch völlig legitim. Eine ganz normale Skalierung nach unten halt. Wie soll das sonst auf den Konsolen laufen? Dildo hat auch nicht von einer 1:1 Umsetzung gesprochen. ;)

Nightspider

2009-04-13, 14:29:35

40 Nanometer für GPUs: UMC besser als TSMC?
http://hardware-infos.com/news.php?news=2874

Wenn der 40nm Prozess zumindest schonmal bei UMC voll durchstartet könnte das schon ein gutes Zeichen für Monster-HighEnd-Chips Ende 2009 sein.

Was einer in welchem Fertigungsprozess aktuelle GDDR5 Chips gefertigt werden ?

Ich tippe ja immernoch darauf das der G300 wie der G80 ein 384 Bit SI haben wird. Auf jeden fall spart Nvidia deutlich an Komplexität und kann mehr Transistoren für die reine Shaderpower verballern.

Zumindest hoffe ich das der Performance Sprung vom G200b zum G300 genauso groß wird wie vom G71 zum G80

Sorkalm

2009-04-13, 16:19:50

Naja, ich würde erstmal abwarten, wie der TSMC 40-nm-Prozess läuft, ob der nicht eher auch schlechtgeredet wird...

KonKorT

2009-04-13, 17:46:50

Ja, deswegen auch mit einem Fragezeichen bewusst markiert. Bei UMC hatte man bislang nichts schlechtes zu 40 nm lesen können und die Pressemitteilung trägt ziemlich dick auf. Es kann selbstverständlich genauso Probleme geben.

Und wie Du schon sagtest Sorkalm, dass TSMC mit 40 nm Probleme hat, ist meines Wissens bis dato weder 100 prozentig belegt noch widerlegt. Aber es gibt eben diese Gerüchte...

Einfach mal abwarten... ;)

Ailuros

2009-04-13, 18:45:36

Wenn jeglicher IHV sagen wir mal vor einem Jahr oder laenger entschieden hat seinen D3D11 fuer 40nm@UMC auszulegen, wuerde jegliche Spekulation auch Sinn machen. Da aber so ein Umschwung auch Zeit kostet und beide IHVs unter enormen Zeitdruck liegen, will ich momentan bezweifeln dass jemand daran gedacht hat.

KonKorT

2009-04-13, 18:49:38

Also ich weiß nur, dass das Fertigungsverfahren in der Regel schon Monate vorher festgelegt ist. Ob das auch schon in Stein gemeisselt ist, wer der Auftragsfertiger ist?
Ich denke aber auch, dass RV870 und GT300 ungeachtet der Qualität des Prozesses auf TSMC setzen werden.

Ailuros

2009-04-13, 21:56:19

Also ich weiß nur, dass das Fertigungsverfahren in der Regel schon Monate vorher festgelegt ist.

Von Anfang an.

Ob das auch schon in Stein gemeisselt ist, wer der Auftragsfertiger ist?

Um von den libraries der einen foundry auf die libraries der anderen foundry umzusteigen dauert es im besten Fall ueber 6 Monate afaik.

Coda

2009-04-13, 22:00:44

Von Anfang an.
Also bei reinem Verilog-Code braucht man sich eigentlich nicht so sehr um das Fertigungsverfahren kümmern, außer ich überseh gerade was.

BlackBirdSR

2009-04-13, 22:02:17

Was mich etwas verwundert hat:

Triple Gate Oxid einzusetzen, 12 Metallisierungsebenen und dann noch große DIE-Size... das klingt mir eher nicht nach einem Mainstream-Chip, oder es war nicht von Nvidia, als FPGAs. Von denen zu einem High-End-Nvidia-Chip ist es aber noch ein Stück.

Coda:
Vom Code her sicher nicht. Aber wenn man das Design nicht von Beginn an an die Charakteristik hinsichtlich der Prozesses abstimmt, kommt man glaube ich in grobe Probleme. Ist bisher IMO oftmals so gewesen, dass der von Beginn an gewählte Prozess in vielen Bereichen über das Design entscheidet.

AnarchX

2009-04-14, 19:24:39

Recently, we learned the targeted die-size for GT300 and saw that nVidia isn't changing itself, and you can expect that the next-gen DX11 part will fit somewhere between Larrabee and GTX295. Yes, with just one die.
http://www.brightsideofnews.com/news/2009/4/10/idf-spring-2009-intel-larrabee-to-feature-17-billion-transistors.aspx

Ob er sich hier wohl auf die Die-Size bezieht: zwischen 650mm² Larrabee bis 1000m² (2xGT200b @ GTX 295)? X-D

mboeller

2009-04-15, 07:21:42

http://www.brightsideofnews.com/news/2009/4/10/idf-spring-2009-intel-larrabee-to-feature-17-billion-transistors.aspx

Ob er sich hier wohl auf die Die-Size bezieht: zwischen 650mm² Larrabee bis 1000m² (2xGT200b @ GTX 295)? X-D

Und wieviel würde so ein Chip dann kosten? 40nm Technology + >650mm² machen so einen Chip extrem teuer. Beim GT200 sollen es ja schon >150 Dollar gewesen sein (in 65nm mit schlechtem Yield). Dann wird der GT300 also noch einmal teurer in der Herstellung werden. Na viel Spaß Nvidia. Da werden sie wieder Geld auf den Chip kleben müssen, wie bei den 260er'n damit die Leute Nvidia-Karten kaufen.

Ailuros

2009-04-15, 07:37:15

http://www.brightsideofnews.com/news/2009/4/10/idf-spring-2009-intel-larrabee-to-feature-17-billion-transistors.aspx

Ob er sich hier wohl auf die Die-Size bezieht: zwischen 650mm² Larrabee bis 1000m² (2xGT200b @ GTX 295)? X-D

Theo's BS ist auch schon aus der Vergangenheit bekannt. Wenn LRB tatsaechlich rund um die 600mm2 sein sollte, wuerde ich sagen dass GT3x0 kleiner ist.

Uebrigens wuerden fuer ~600mm2@45nm = ~1.65-1.75Mrd Transistoren fuer LRB ein ziemlich beschissene Packdichte bedeuten. GT200 = 583mm2@65nm = 1.4Mrd. Transistoren und ja er spekuliert auf der Farbe seines Stuhlgangs pffff.....

BlackBirdSR

2009-04-15, 09:00:50

Uebrigens wuerden fuer ~600mm2@45nm = ~1.65-1.75Mrd Transistoren fuer LRB ein ziemlich beschissene Packdichte bedeuten. GT200 = 583mm2@65nm = 1.4Mrd. Transistoren und ja er spekuliert auf der Farbe seines Stuhlgangs pffff.....

Ihr mit eurer Packungsdichte. Das wird ja immer mehr zu einem Trendwert wie Mhz. Während der immer mehr an Aussagekraft verliert, klammert man sich immer mehr daran ;)

Die enorme Anzahl an Dummy-Strukturen macht doch jede billige Packungsdichte-Rechnung absolut nutzlos.

PCGH_Carsten

2009-04-15, 10:59:50

Uebrigens wuerden fuer ~600mm2@45nm = ~1.65-1.75Mrd Transistoren fuer LRB ein ziemlich beschissene Packdichte bedeuten. GT200 = 583mm2@65nm = 1.4Mrd. Transistoren und ja er spekuliert auf der Farbe seines Stuhlgangs pffff.....

Intels gute Packdichte beruhte auch auf der Tatsache, dass sie bisher recht Cache-lastige ASICs gebaut haben. Bereits Nehalem weist in dieser Hinsicht schon einen Rückschritt auf. Larrabee wird dagegen ein vielfaches an Logiktransistoren pro Quadratmillieter aufbieten müssen - und die Packdichte entsprechend leiden.

BlackBirdSR

2009-04-15, 11:04:50

Intels gute Packdichte beruhte auch auf der Tatsache, dass sie bisher recht Cache-lastige ASICs gebaut haben. Bereits Nehalem weist in dieser Hinsicht schon einen Rückschritt auf. Larrabee wird dagegen ein vielfaches an Logiktransistoren pro Quadratmillieter aufbieten müssen - und die Packdichte entsprechend leiden.

Du musst dir doch nur ansehen, wie Intel, wo immer möglich, Dummies einfügt. Oftmals kann man dann nicht mehr so dicht packen, wie man gerne hätte. Der besseren elektrischen Charakteristik zuliebe, setzt man seine Strukturen etwas auseinander.
Zusammen mit dem Logik/Cache-Shift, Problemen bei Anschlüssen und dem ganzen I/O Zeugs, verzerrt das doch jede Dichtestatistik.

KonKorT

2009-04-15, 11:24:43

BlackBirdSR

2009-04-15, 11:38:06

Mich würde in diesem Zusammenhang auch noch interessieren, inwieweit der x86-Befehlssatz die Chipfläche tangiert hat...

PS: Zumindest bei den auf dem Wafer gezeigten Larrabee-Testchips sind es > 650 sqmm.

30% des Pentium Budgets von 3.1 Millionen Transistoren [Quelle Intel]. Erhöhe den Count für Larrabee-Kerne um den erweiterten IA32-Befehlssatz, AMD64 und zusätzliche FP-Fähigkeiten rechne es dir aus ;)

PCGH_Carsten

2009-04-15, 12:25:14

Du musst dir doch nur ansehen, wie Intel, wo immer möglich, Dummies einfügt. Oftmals kann man dann nicht mehr so dicht packen, wie man gerne hätte. Der besseren elektrischen Charakteristik zuliebe, setzt man seine Strukturen etwas auseinander.
Zusammen mit dem Logik/Cache-Shift, Problemen bei Anschlüssen und dem ganzen I/O Zeugs, verzerrt das doch jede Dichtestatistik.
Ja, das sage ich doch.

BlackBirdSR

2009-04-15, 12:36:14

Ja, das sage ich doch.

Du machst es nur an Logic/SRAM fest. Ich sage, dass jeglicher Vergleich so langsam unsinnig wird.

AnarchX

2009-04-15, 12:40:49

Larrabee wird dagegen ein vielfaches an Logiktransistoren pro Quadratmillieter aufbieten müssen - und die Packdichte entsprechend leiden.
Aber eben auch ein deutlich geringeren Takt als die aktuellen CPUs haben und die Vektor-ALUs dürften sich wohl auch dichter packen lassen, also die Logik einer aktuellen OOO-CPU.

BlackBirdSR

2009-04-15, 13:01:37

Energiedichte und Verlustleistung wird sicherlich zum Problem. Anders als eine x86-CPU, die im Schnitt vielleicht 1,2 Operationen pro Takt ausführt, wären die ALUs bei Grafikanwendungen konstant höher ausgelastet. Bin gespannt.

Ailuros

2009-04-16, 07:12:44

Ihr mit eurer Packungsdichte. Das wird ja immer mehr zu einem Trendwert wie Mhz. Während der immer mehr an Aussagekraft verliert, klammert man sich immer mehr daran ;)

Die enorme Anzahl an Dummy-Strukturen macht doch jede billige Packungsdichte-Rechnung absolut nutzlos.

Die bisherigen Indizien deuten auf einen ca. 600mm2 die der sogar von RV870 geschlagen werden koennte.

Es gab sehr viele die schon bei den ersten veroeffentlichten Daten behaupteten dass wenn Intel sich Leistungs-maessig an der Konkurrenz messen will, sie erstens eine sehr hohe Anzahl an cores brauchen die logischerweise auch zu einem sehr grossen die fuehren mit ziemlich gigantischem Stromverbrauch.

Es wird lediglich diese Einzelheit mehr und mehr bestaetigt und obwohl Du es als nebensaechlich haltest, ist es fuer mich ziemlich wichtig. Denn wenn der Design nicht von Anfang an irgendwann umgekrempelt wird, wird er stets sich nie ausserhalb einer mainstream GPU bewegen; weder in Richtung high end noch in Richtung small form factor oder Gott hilf embedded/mobile.

Deshalb tippe ich schon seit einiger Zeit dass Intel ihre chipset Abteilung weiterhin beschaeftigen wird und auch fuer embedded IP weiterhin lizenzieren wird.

Ich sage, dass jeglicher Vergleich so langsam unsinnig wird.

So lange die area jegliche Skalierung (sowohl nach oben als auch nach unten) begrenzt, ist es wohl nicht so unsinnig am Ende.

BlackBirdSR

2009-04-16, 08:48:31

Die bisherigen Indizien deuten auf einen ca. 600mm2 die der sogar von RV870 geschlagen werden koennte.

Es gab sehr viele die schon bei den ersten veroeffentlichten Daten behaupteten dass wenn Intel sich Leistungs-maessig an der Konkurrenz messen will, sie erstens eine sehr hohe Anzahl an cores brauchen die logischerweise auch zu einem sehr grossen die fuehren mit ziemlich gigantischem Stromverbrauch.

Es wird lediglich diese Einzelheit mehr und mehr bestaetigt und obwohl Du es als nebensaechlich haltest, ist es fuer mich ziemlich wichtig. Denn wenn der Design nicht von Anfang an irgendwann umgekrempelt wird, wird er stets sich nie ausserhalb einer mainstream GPU bewegen; weder in Richtung high end noch in Richtung small form factor oder Gott hilf embedded/mobile.

Deshalb tippe ich schon seit einiger Zeit dass Intel ihre chipset Abteilung weiterhin beschaeftigen wird und auch fuer embedded IP weiterhin lizenzieren

wird.

So lange die area jegliche Skalierung (sowohl nach oben als auch nach unten) begrenzt, ist es wohl nicht so unsinnig am Ende.

von was redest du :confused:
Ich kann das irgendwie nicht mit abweichenden Packungsdichten verbinden. Nur darum ging es mir. Es macht einfach wenig Sinn, die Packungsichte von Hersteller A mit B zu vergleichen. Oftmals nichtmal von Produkt A mit B.
Man kommt nur zu dem Schluss, dass es einen Unterschied gibt, aber nicht warum.

Ailuros

2009-04-16, 09:05:22

von was redest du :confused:

Dass Intel's Teig sich breiter auslegen muss als bei anderen IHVs. Anders LRB braucht mehr die area pro Transistor und auch viel mehr die area fuer X Leistung.

Man kommt nur zu dem Schluss, dass es einen Unterschied gibt, aber nicht warum.

Hab ich irgendwo versucht zu erklaeren wieso die Packdichte so aussieht auf LRB? LRB's Packdichte hat logische Folgen und ich hatte stets nur diese im Hinterkopf und hab dieses auch in meinem vorigen Post erlaeutert.

BlackBirdSR

2009-04-16, 09:17:37

Dass Intel's Teig sich breiter auslegen muss als bei anderen IHVs. Anders LRB braucht mehr die area pro Transistor und auch viel mehr die area fuer X Leistung.

Hab ich irgendwo versucht zu erklaeren wieso die Packdichte so aussieht auf LRB? LRB's Packdichte hat logische Folgen und ich hatte stets nur diese im Hinterkopf und hab dieses auch in meinem vorigen Post erlaeutert.

Dann gibts doch auch gar kein Problem, wenn unsere Absichten nicht kongruent sind ;) Auch Nvidia und ATI werden die Sache etwas lockerer angehen müssen.
Ich wollte doch nur sagen, dass eine Aussage über die Packungsdichte zu einem produkt ok ist, dies aber mit anderen Produkten zu vergleichen, schon nicht mehr zielführend ist.

Es wird generell eine Zeit lang der Trend exisitieren, dass die DIEs weniger kompakt werden, sich zugleich aber massiv Probleme mit Laufzeiten einstellen.
Ich bin gespannt, wie die das in den Griff bekommen.

Huhamamba

2009-04-16, 12:42:22

RLZ

2009-04-16, 12:45:19

deekey777

2009-04-16, 12:48:15

Wie willst du SSAA beschleunigen?
Indem nur die Polygonkanten erfasst werden. ;(

AnarchX

2009-04-16, 12:50:28

Wie stehen eigentlich die Chancen, dass beim GT300 die SSAA-Performance enorm beschleunigt wird, sodass unter Nutzung dessen die framerate nicht mehr ins Bodenlose absackt? Ist ja mal langsam an der Zeit, dass SSAA zumindest im HighEnd-Markt Standard wird...

Wie schon angedeutet, Supersampling erhöht intern die Auflösung, sodass man hier Leistung in nahezu allen Bereichen der GPU benötigt.
Wenn dann müsste NV GT300 mit der 12-fachen Rohleistung ausstatten, wenn du @16xS die 3-fache Leistung eines GT200@4x MSAA haben möchstest. ;)

reunion

2009-04-16, 13:00:56

Erstmal abwarten ob GT300 überhaupt die SSAA-Modi noch anbietet. Das ist ja nur ein Relikt aus alten Zeiten als man noch keine vernünftigen MSAA-Modi hatte und welchen man sich auch schon mit dem GT200 entledigen wollten.

Wie stehen eigentlich die Chancen, dass beim GT300 die SSAA-Performance enorm beschleunigt wird, sodass unter Nutzung dessen die framerate nicht mehr ins Bodenlose absackt? Ist ja mal langsam an der Zeit, dass SSAA zumindest im HighEnd-Markt Standard wird...

SSAA kann man nicht beschleunigen. Der Performanceeinbruch wird nie abnehmen da man für jede Verdoppelung der Samples die doppelte Leistung benötigt. SSAA ist eben ineffizient und nicht umsonst als Bruteforce-Methode verschrien. Es hat schon seinen Grund warum es AMD unter Windows gar nicht und nV auch nur inoffiziell anbietet.

Huhamamba

2009-04-16, 13:20:28

Okay, danke für die Aufklärung. Ich dachte, man könnte das mithilfe spezieller Schaltungen irgendwie beschleunigen, aber dem scheint ja nicht so zu sein :( Wurde erst kürzlich durch diesen Thread (http://www.forum-3dcenter.org/vbulletin/showthread.php?p=7237179#post7237179) wieder ganz rattig drauf^^ MSAA mag zwar effizienter sein, aber an die Bildqualität des Supersampling kommt's bei weitem nicht ran (vor allem auch hinsichtlich des verbesserten AF), schade.

edit: Wäre schade, wenn's jetzt komplett wegfällt. Spielgrafik ist imo inzwischen gut genug, dass man auch in zehn Jahren nicht davon Augenkrebs bekommt. Da hätte ich schon gerne mal Lust drauf, irgendwann bspw. Fallout 3 wieder einzulegen und in mindestens FullHD mit stark gepimpter config und 4x4 SSAA zu genießen - natürlich auf Hardware, die erst noch entwickelt werden muss =)

RLZ

2009-04-16, 13:27:59

Indem nur die Polygonkanten erfasst werden. ;(
Ok. Das war ne Steilvorlage. :ugly:

Hab mal grad in meinem Gedächtnis rumgekramt und was gefunden:
http://www.cs.umbc.edu/~olano/s2006c03/ch06.pdf (S.7 Amortized super-sampling)
Und Folgepaper zur Optimierung:
http://www.cse.ust.hk/~psander/docs/reproj2.pdf
http://www.cse.ust.hk/~psander/docs/scache.pdf
http://www.cse.ust.hk/~psander/docs/ascot.pdf

Klassische Beispiel wofür es normal verwendet wird ist SSAO.

Gaestle

2009-04-16, 13:35:47

Wenn man SSAA nur auf die Kanten anwenden würde, wäre ein großer Vorteil, nämlich die Glättung von Texturen und Shadern weg, oder?

Gast

2009-04-16, 13:42:36

Wenn man SSAA nur auf die Kanten anwenden würde, wäre ein großer Vorteil, nämlich die Glättung von Texturen und Shadern weg, oder?
Multisampling....?

Henroldus

2009-04-16, 14:01:56

Indem nur die Polygonkanten erfasst werden. ;(
das nennt sich dann widerum MSAA ;)

Coda

2009-04-16, 15:12:57

Dass Intel's Teig sich breiter auslegen muss als bei anderen IHVs. Anders LRB braucht mehr die area pro Transistor und auch viel mehr die area fuer X Leistung.
Das hört sich aber überhaupt nicht nach Intel an. Die waren schon immer sehr gut darin Transistoren zu packen.

Es hat schon seinen Grund warum es AMD unter Windows gar nicht und nV auch nur inoffiziell anbietet.
Ich finde es sehr wichtig die Option zu haben, solange Shader flimmern und es keinen Texturfilter gibt (nein auch kein perfektes AF) der diese Qualität erzeugen kann.

BlackBirdSR

2009-04-16, 16:25:55

Das hört sich aber überhaupt nicht nach Intel an. Die waren schon immer sehr gut darin Transistoren zu packen.

Auch Intel wird nicht darum herum kommen, das ein oder andere Problem anpacken zu müssen. Dummies (CMP), lokale Hotspots und die große Anzahl an Logic, wird es wohl nicht anders zulassen.

Spasstiger

2009-04-16, 17:31:04

das nennt sich dann widerum MSAA ;)
Technisch nicht ganz korrekt, da MSAA nur ein Sample pro Polygon und Pixel berechnet. Bei SSAA sind es in der Regel mehrere Samples pro Polgon und Pixel.

Coda

2009-04-16, 17:38:51

MSAA berechnet mehrere Geometrie-Samples pro Pixel. Supersampling Geometrie- und Shader-Samples.

Spasstiger

2009-04-16, 17:49:10

MSAA berechnet mehrere Geometrie-Samples pro Pixel. Supersampling Geometrie- und Shader-Samples.
Bzw. pro Polygon und Pixel, da ja bei MSAA an Kantenpixeln natürlich auch mehrere Color-/Shadersamples pro Pixel berechnet werden.
Oben hab ich mich nur auf die Color-Samples bezogen, hätte ich vielleicht dazuschreiben sollen.

Aber wenn ausschließlich Polygonkanten mit SSAA geglättet werden würden, sollte sich trotz dem höheren Rechenaufwand kein optischer Unterschied zum entsprechenden MSAA-Modus ergeben, weil die zusätzlichen Colorsamples vom SSAA keine Zusatzinformationen enthielten. Schließlich bildet jedes SSAA-Sample eines Pixels und Polygons in diesem Fall genau das gleiche Texel der betrachteten Mipmap-Stage ab.

Schick wäre beim GT300 ein neuer Hybridmodus, der folgendermaßen arbeitet:
- RGMSAA oder SGSAA bei Polygonkanten (z.B. 4xRGMSAA)
- RGSSAA oder SGSSAA bei Alphatest-Kanten (z.B. 4xRGSSAA)
- OGSSAA bei Nichtkanten-Pixeln (z.B. 2x2 OGSSAA)

Damit hätte man eine Bildqualität, die subjektiv besser ist als bei 16xS-AA (wg. 4x4 EER bei den Alphatests statt nur 2x2), aber in der Regel weniger kostet.

Blaire

2009-04-16, 18:04:47

SSAA ist eben ineffizient und nicht umsonst als Bruteforce-Methode verschrien. Es hat schon seinen Grund warum es AMD unter Windows gar nicht und nV auch nur inoffiziell anbietet.

http://www.forum-3dcenter.org/vbulletin/showpost.php?p=7232073&postcount=50 :rolleyes:

deekey777

2009-04-16, 18:06:32

http://www.forum-3dcenter.org/vbulletin/showpost.php?p=7232073&postcount=50 :rolleyes:
Nur lässt sich ein Mischmodus wie 8xS sehr schlecht mit 8xMSAA vergleichen.

reunion

2009-04-16, 18:20:51

http://www.forum-3dcenter.org/vbulletin/showpost.php?p=7232073&postcount=50 :rolleyes:

Und was willst du mir damit sagen? Das 8x MSAA auf den Geforce-Karten katastrophal implementiert ist? Wenn die doppelte Auflösung plus 4xMSAA tw. sogar schneller ist als 8xMSAA dann läuft da einiges schief. Insgesamt ist aber selbst auf Geforce-Karten 8xMSAA schneller und bietet immer noch ein überlegenes 8x8EER.

Blaire

2009-04-16, 18:57:32

Und was willst du mir damit sagen? Das 8x MSAA auf den Geforce-Karten katastrophal implementiert ist? Wenn die doppelte Auflösung plus 4xMSAA tw. sogar schneller ist als 8xMSAA dann läuft da einiges schief. Insgesamt ist aber selbst auf Geforce-Karten 8xMSAA schneller und bietet immer noch ein überlegenes 8x8EER.

Hast du jemals mal 8xS in Bewegung gesehn? Ich glaube nicht. 8xS ist besser als jeder 8xMSAA Modus und oft sogar darüber hinaus. 8xMSAA ist für das Gebotene ein Witz.

reunion

2009-04-16, 19:02:03

Hast du jemals mal 8xS in Bewegung gesehn? Ich glaube nicht.

Ich habe eine 8800GTS und spiele durchaus mit 8xS.

8xS ist besser als jeder 8xMSAA Modus und oft sogar darüber hinaus.

Kommt auf die Szene drauf an aber meistens dürftest du recht haben.

8xMSAA ist für das Gebotene ein Witz.

Die Implementierung von nV ist ein Witz. Auf AMD-Karten kostet 8xMSAA oft kaum mehr als 4xMSAA. Da nimmt man die bessere Kantenglättung gerne mit.

Blaire

2009-04-16, 19:04:08

Die Implementierung von nV ist ein Witz. Auf AMD-Karten kostet 8xMSAA oft kaum mehr als 4xMSAA. Da nimmt man die bessere Kantenglättung gerne mit.

Das redest du dir ein, mitbekommen dürftest du davon wenig. ;)

reunion

2009-04-16, 19:08:22

Das redest du dir ein, mitbekommen dürftest du davon wenig. ;)

Es gibt genug Kanten die mehr als 4xMSAA vertragen würden, da brauche ich mir nichts einzureden. Aber schon klar, alles was nV nicht praktikabel anbietet ist überflüssig. :)

dargo

2009-04-16, 19:09:32

Wenn die doppelte Auflösung plus 4xMSAA tw. sogar schneller ist als 8xMSAA dann läuft da einiges schief.
Das wäre schon 16xS. 8xS = 2x1SSAA + 4xMSAA :)

Aber schon klar, alles was nV nicht bietet ist überflüssig. :)
:confused:

NV bietet doch 8xMSAA an.

reunion

2009-04-16, 19:11:13

Das wäre schon 16xS. 8xS = 2x1SSAA + 4xMSAA :)

Ich weiß. 2xSSAA = Doppelte Auflösung = Halbe Leistung.

:confused:

NV bietet doch 8xMSAA an.

Da fehlte ein praktikabel. :)

Sonyfreak

2009-04-16, 19:23:20

Die Hybridmodi bieten einem eine Bildqualität, die man mit normalem MSAA niemals erreichen könnte. Wenn ich bei einem Spiel mehr als 4xMSAA problemlos nutzen kann, steige ich gleich auf 8xSAA um. Dennoch wäre es natürlich sehr begrüßenswert, wenn Nvidia bei der kommenden Generation den normalen 8xAA Modus beschleunigen würde.

Schick wäre beim GT300 ein neuer Hybridmodus, der folgendermaßen arbeitet:
- RGMSAA oder SGSAA bei Polygonkanten (z.B. 4xRGMSAA)
- RGSSAA oder SGSSAA bei Alphatest-Kanten (z.B. 4xRGSSAA)
- OGSSAA bei Nichtkanten-Pixeln (z.B. 2x2 OGSSAA)Jup, dann wäre ich wirklich glücklich. Am besten wäre es noch, wenn man alle Teile davon je nach eigenem Geschmack an- und abschalten könnte. :)

mfg.

Sonyfreak

reunion

2009-04-16, 19:26:38

Schick wäre beim GT300 ein neuer Hybridmodus, der folgendermaßen arbeitet:
- RGMSAA oder SGSAA bei Polygonkanten (z.B. 4xRGMSAA)
- RGSSAA oder SGSSAA bei Alphatest-Kanten (z.B. 4xRGSSAA)
- OGSSAA bei Nichtkanten-Pixeln (z.B. 2x2 OGSSAA)

NV bräuchte vorallem mal eine programmierbare Samplemaske, das würde deutlich effizientere Hybridmodi erlauben. AMD kann das seit R300, leider wird es nicht ausgenützt.

deekey777

2009-04-16, 19:29:27

Hast du jemals mal 8xS in Bewegung gesehn? Ich glaube nicht. 8xS ist besser als jeder 8xMSAA Modus und oft sogar darüber hinaus. 8xMSAA ist für das Gebotene ein Witz.
Das musst du jetzt aber erklären. Und nein, verzichte lieber gleich auf nichts sagende Screenshots.

Coda

2009-04-16, 19:36:20

Es glättet das ganze Bild halt etwas mit. Mir wäre ja 2x2 SS + 2xMSAA wirklich am liebsten derzeit, wenn's nich so viel Leistung fressen würde.

Ich hab meine Meinung zu Supersampling etwas revidiert in letzter Zeit ;)

dargo

2009-04-16, 19:38:01

Mir wäre ja 2x2 SS + 2xMSAA wirklich am liebsten derzeit, wenn's nich so viel Leistung fressen würde.

Gibts diesen Hybriden überhaupt? Mir ist der unbekannt. :confused:

mapel110

2009-04-16, 19:43:54

Gibts diesen Hybriden überhaupt? Mir ist der unbekannt. :confused:
8xSQ gibts, siehe nHancer.

http://www.computerbase.de/artikel/hardware/grafikkarten/2009/test_ati_radeon_hd_4890_nvidia_geforce_gtx_275/17/#abschnitt_far_cry_2
GTX 275
1680x1050
4xAA 51,1 fps
8xAA 49,8 fps

Radeon 4890
4xAA 47,3 fps
8xAA 35,1 fps

Was ist denn eigentlich da los? O_o

crux2005

2009-04-16, 19:44:27

mit den letzen R185 kostet 8xMSAA auf GeForce Karten nicht so viel mehr FPS als auf Radeon Karten - und wie oben schon mapel110 gezeigt hat, sind sie in manchen Spielen sogar vor den Radeons

AnarchX

2009-04-16, 19:45:10

Gibts diesen Hybriden überhaupt? Mir ist der unbekannt. :confused:
8xSQ im nHancer, wobei 2xMSAA bei den ROPs von >G8x doch eigentlich nicht soviel Sinn macht.

LovesuckZ

2009-04-16, 19:52:25

8xSQ im nHancer, wobei 2xMSAA bei den ROPs von >G8x doch eigentlich nicht soviel Sinn macht.

:confused:
Die ROPs schaffen 4 Color-Samples pro Takt.

/edit: Ach, da hab ich mich wohl verlesen...

dargo

2009-04-16, 19:53:33

8xSQ gibts, siehe nHancer.

Argh... ich hatte 8xSQ anders in Erinnerung. Das kommt davon wenn man am anderen Rechner sitzt. :redface:

Coda

2009-04-16, 20:03:35

:confused:
Die ROPs schaffen 4 Color-Samples pro Takt.
Ja, eben. Allerdings spart 2xMSAA halt immer noch Bandbreite und - vor allem - Speicher.

Sonyfreak

2009-04-16, 20:29:07

Ja, eben. Allerdings spart 2xMSAA halt immer noch Bandbreite und - vor allem - Speicher.Bringt das soviel im Vergleich zu 16xSAA (2x2SS + 4xMSAA)?

mfg.

Sonyfreak

reunion

2009-04-16, 20:40:02

Das kommt drauf an. :)
Probier es doch aus.

Blaire

2009-04-16, 20:43:55

Bringt das soviel im Vergleich zu 16xSAA (2x2SS + 4xMSAA)?

Ja. Bei Crysis 8xSQ DX9@1920x1200 reichen die 1GB einer GTX280 noch, bei 16xS gibt es dann ne Diashow.

Spasstiger

2009-04-16, 21:22:28

Hast du jemals mal 8xS in Bewegung gesehn? Ich glaube nicht. 8xS ist besser als jeder 8xMSAA Modus und oft sogar darüber hinaus. 8xMSAA ist für das Gebotene ein Witz.
Wenn ein Spiel kein fieses Shader- und Texturflimmern hat, erzielt man mit 8xMSAA + adaptives AA (quality) oft beeindruckende Ergebnisse für die Performance. Bei NV kommt man an die Performance nur mit dem qualitativ meist schlechteren 4xMSAA + 4xTSAA ran. Wenn die Performance so stark in den Keller sackt, dass die hybriden AA-Modi schon gleichschnell sind, dann ist das in vielen Spielen vor allem bei hohen Auflösungen keine Option mehr bei den Performance-Karten bis 200€. 8xMSAA + adaptives AA bei AMD ist eine viel häufiger nutzbare Option.

y33H@

2009-04-16, 21:33:19

Das AAA ist bei AMD zu 90% nur MS-basiert, bitte beachten (und bei jedem Spiel/Treiber neu prüfen). Ergo müsste man 8xQ-TMSAA dagegen ins Feld führen - was gerade seit den 185ern ziemlich gut performt.dem qualitativ meist schlechteren 4xMSAA + 4xTSAA ran4x MSAA für die Geometrie ist natürlich schlechter als 8x MSAA, in Bewegung aber nur schwer auszumachen. 4x TSSAA ist imo 8x TMSAA aber optisch vorzuziehen, da die Alpha-Tests nicht zermatscht werden.

reunion

2009-04-16, 21:42:58

4x MSAA für die Geometrie ist natürlich schlechter als 8x MSAA, in Bewegung aber nur schwer auszumachen.

Gerade in Bewegung ist das auszumachen, wenn eine Kante beginnt "herumzuwandern".

4x TSSAA ist imo 8x TMSAA aber optisch vorzuziehen, da die Alpha-Tests nicht zermatscht werden.

Das TMSAA von AMD ist dem von NV nicht selten vorzuziehen AFAIK. Wobei ich das mangels AMD-Karte schon länger nicht mehr angesehen habe. Womöglich hat nV schon etwas aufgeholt. TSSAA ist natürlich meist besser, aber halt wieder sehr teuer.

Blaire

2009-04-16, 21:45:17

Wenn ein Spiel kein fieses Shader- und Texturflimmern hat, erzielt man mit 8xMSAA + adaptives AA (quality) oft beeindruckende Ergebnisse für die Performance.

Hätte Hätte Hätte...
Und wo bitte soll das sein? Bitte keine theoretischen Geschichten. Die neuesten Games haben so ziemlich alle flimmernden Content als das SSAA nutzlos wäre. (X3,Crysis,Ferrari,Cobra11 um nur einige Games zu nennen)

Bei NV kommt man an die Performance nur mit dem qualitativ meist schlechteren 4xMSAA + 4xTSAA ran. Wenn die Performance so stark in den Keller sackt, dass die hybriden AA-Modi schon gleichschnell sind, dann ist das in vielen Spielen vor allem bei hohen Auflösungen keine Option mehr bei den Performance-Karten bis 200€. 8xMSAA + adaptives AA bei AMD ist eine viel häufiger nutzbare Option.

Wenn es denn immer funktionieren würde. Tut es aber nicht. 8xMSAA wird überbewertet es bringt einfach zuwenig BQ Gewinn, da reißt auch das AAA nix mehr raus, wenn der Rest des Bildes weiterhin vor sich hinflimmert. 8xS ist effizienter als 8xMSAA in der Mehrzahl der Games.

Spasstiger

2009-04-16, 21:45:42

Das AAA ist bei AMD zu 90% nur MS-basiert, bitte beachten (und bei jedem Spiel/Treiber neu prüfen). Ergo müsste man 8xQ-TMSAA dagegen ins Feld führen - was gerade seit den 185ern ziemlich gut performt.
Aber es gibt auch Fälle, in denen AMD weder TMSAA noch TSSAA einsetzt, sondern eher was in der Richtung von EATM.

Vergleiche mal hier, alles in 1024x768:

8xMSAA @ GeForce 8800 GTX, 27 fps:
http://img3.abload.de/img/ferrarivr_8xqcd53.png

8xMSAA + TSSAA @ GeForce 8800 GTX, 13 fps:
http://img3.abload.de/img/ferrarivr_8xqtssaaye7q.png

8xS-AA + TMSAA @ GeForce 8800 GTX, 26 fps
http://img3.abload.de/img/ferrarivr_8xstmsaa0e2o.png

8xMSAA + adaptives AA @ Radeon HD 4870 512 MiB, 71 fps
http://img1.abload.de/img/8xaa0n6di.png

Ich finde, dass die Radeon bei den Transparenztexturen subjektiv den besten Job macht. Und die Framerate spricht auch Bände. Bei der Texturfilterung ist natürlich 8xS-AA + TMSAA auf der GeForce überlegen, aber dafür hat man nur ein Drittel der Framerate und die Transparenztexturen sind auch schlechter geglättet.

8xMSAA wird überbewertet es bringt einfach zuwenig BQ Gewinn, da reißt auch das AAA nix mehr raus, wenn der Rest des Bildes weiterhin vor sich hinflimmert.
Gerade in Verbindung mit dem adaptiven AA bringt 8xMSAA oft einen deutlichen Mehrwert. 8xS + TMSAA kostet einfach wesentlich mehr Leistung als 8xMSAA + adaptives AA bei den Radeons, deshalb kann man das überhaupt nicht vergleichen. Und ohne Transparenz-AA ist die Glättung von Alphatests mit 8xS eher bescheiden. Ich persönlich kann auf meiner Radeon ohnehin SSAA in Verbindung mit allen AA-Modi nutzen, 2560x1600 auf 1920x1200 runterskaliert halt.

y33H@

2009-04-16, 21:56:18

Gerade in Bewegung ist das auszumachen, wenn eine Kante beginnt "herumzuwandern".Ich habe mich zB in FC2 dumm und dämlich geschaut um 4x von 8x zu unterscheiden ...sondern eher was in der Richtung von EATM.Ah stimmt. Bei den X1k gabs noch richtiges TSSAA und TMSAA und erst mit den HDs kam EATM und bis heute ist das wohl noch implementiert. Ich finde, dass die Radeon bei den Transparenztexturen subjektiv den besten Job macht.Hmmm, mir sieht das oft zu "aufgedunsen" auf, so schwammig. Ich mag TSSAA am liebsten, das glättet idR nur. Shots zeigen das halt nicht so wirklich - leider.

Kann es sein, dass auf der Radeon die Schatten weniger kantig sind (sieht man von 8xS-TMSAA ab) oder nur ausgefranster?

Spasstiger

2009-04-16, 22:04:19

Kann es sein, dass auf der Radeon die Schatten weniger kantig sind (sieht man von 8xS-TMSAA ab) oder nur ausgefranster?
Schattenartefakte hast du auf allen Screenshots, die sind nur nicht immer an der gleichen Stelle komischerweise. Mit 8xS-AA sind die Schatten in der Ferne natürlich besser geglättet, weil Shadowmaps auch nur Texturen sind und der SSAA-Anteil für eine bessere Texturfilterung sorgt. Aber das 8xS-AA + TMSAA ist hier einfach schon viel zu teuer. 27 fps in 1024x768 sind einfach nicht der Hit. Man will ja auf einer 8800 GTX nicht in 1024x768 zocken, sondern eher in 1680x1050 aufwärts. Die Radeon HD 4870 lässt bei der gezeigten Bildqualität auch bis 1680x1050 Spielraum für flüssige Frameraten.
SSAA ist schön und gut, aber wer nur aktuelle Titel zockt und nicht 1000€ im Jahr für Grafikkarten ausgibt, wird davon wenig Nutzen haben.

deekey777

2009-04-16, 22:10:04

...Ah stimmt. Bei den X1k gabs noch richtiges TSSAA und TMSAA und erst mit den HDs kam EATM und bis heute ist das wohl noch implementiert. .
Stimmt nicht. EATM kam noch vor der HD-Serie (Q3 2006), einfach die SuFu anwerfen.

y33H@

2009-04-16, 22:12:06

@ Spasstiger

Die 88GTX sollte man mit der HD4850 vergleichen, ergo kannst du bei den HD4870-Werten ~25% abziehen ... und imo sind diese beiden Karten eher Modelle für 1.280, erst eine GTX280 oder HD4890 ist wirklich tauglich für 1.680. Alles darüber nur mit MGPU - außer man zockt halt nur mit MSAA was ich seit Jahren nicht mehr mache.EATM kam noch vor der HD-Serie (Q3 2006), einfach die SuFu anwerfen.Hast recht, habe das mit der X1900XT noch genutzt. Catalyst 6.8, kann das sein? EATM war aber bei der HD2900XT zu Beginn der einzige adaptiv-Modus oder habe ich das falsch im Kopf?

Spasstiger

2009-04-16, 22:15:02

EATM hab ich sogar bei meiner Radeon 9700 von 2002 benutzt. War schon toll, was diese Karte gemessen an ihrem Alter auf den Bildschirm bringen konnte.

@ Spasstiger

Die 88GTX sollte man mit der HD4850 vergleichen, ergo kannst du bei den HD4870-Werten ~25% abziehen ...
Ich habe nie behauptet, dass diese Karten gleichschnell sein sollen. Aber ein Faktor 3 bei nur geringfügig schlechterer bzw. sogar bei besserer Qualität (8xMSAA läuft auf der GeForce genauso lahm wie 8xS-AA + TMSAA) sollte doch wohl ein ausreichend großer Unterschied sein, um einen klaren Vorteil für AMD erkennen zu lassen. Zudem kostet eine 8800 GTX auf dem Gebrauchtmarkt nicht weniger als eine HD 4870 512 MiB.

y33H@

2009-04-16, 22:18:38

Hmpf ... EATM (MS-basiert) und ASBT (SS-basiert imo) hab ich noch im Kopf, konnte man auf den X1k nur mit den ATTs anwerfen; auf der HD2900XT wars der default-AAA-Modus.Laut unseren Beobachtungen und Messungen wurde erst in dem von uns verwendeten Treiber AAA durch ein Multisampling-Verfahren (genannt EATM) ersetzt

EDIT
Ab dem Catalyst 7.4 wurde EATM für die X1k gestrichen.

Blaire

2009-04-16, 22:21:49

Ich habe nie behauptet, dass diese Karten gleichschnell sein sollen. Aber ein Faktor 3 bei nur geringfügig schlechterer bzw. sogar bei besserer Qualität (8xMSAA läuft auf der GeForce genauso lahm wie 8xS-AA + TMSAA) sollte doch wohl ein ausreichend großer Unterschied sein, um einen klaren Vorteil für AMD erkennen zu lassen. Zudem kostet eine 8800 GTX auf dem Gebrauchtmarkt nicht weniger als eine HD 4870 512 MiB.

Der Vorteil löst sich in Bewegung in Luft auf. ;)

y33H@

2009-04-16, 22:24:14

Ich habe nie behauptet, dass diese Karten gleichschnell sein sollen.Meinte ja auch nur =)

Spasstiger

2009-04-16, 22:30:19

Der Vorteil löst sich in Bewegung in Luft auf. ;)
Ich hatte mal eine 8800 GT in meinem aktuellen Rechner drin, aber 8xS-AA alleine konnte mich nicht wirklich überzeugen. Erst ab 16xS-AA hat der SSAA-Anteil deutliche Vorteile gebracht. Richtig begeistern konnte mich 32xS-AA in Celestia, da kommt meine Radeon in keiner Variante ran. Das Problem ist in Celestia, dass dort afaik kein Geometrie-LOD-System existiert, so dass ein 8xMSAA-Anteil dort voll durchschlägt. Der Unterschied zu 4xMSAA ist dort bei einigen Modellen von Raumsonden mehr als deutlich. Und der SSAA-Anteil bügelt Shaderoberflächen der Planeten schön glatt.
Aber in aktuelleren Spielen war 32xS-AA überhaupt keine Option mit der 8800 GT. Und statt 8xS gefiel mir 4xMSAA + TSSAA wegen der deutlich besseren Alphatest-Glättung auch besser.

Blaire

2009-04-16, 22:31:56

8xMSAA + adaptives AA @ Radeon HD 4870 512 MiB, 71 fps
http://img1.abload.de/img/8xaa0n6di.png

Ich glaub eher das Mr.Lolman da irgendwas getweakt hat, auf einer X1900+4xAA+QAAA sieht das so aus (gerade getestet mit Catalyst 9.3 XP). http://www.abload.de/img/ferrarivr_low2009-04-1xpc3.png

deekey777

2009-04-16, 22:32:38

Hmpf ... EATM (MS-basiert) und ASBT (SS-basiert imo) hab ich noch im Kopf, konnte man auf den X1k nur mit den ATTs anwerfen; auf der HD2900XT wars der default-AAA-Modus.

EDIT
Ab dem Catalyst 7.4 wurde EATM für die X1k gestrichen.
ASBT ist ASBT. Ob das B wirklich für "Blending" steht, weiß ich nicht, aber es erfasst zusätzlich die Texturen, die ASTT nicht erfasst. Gerade in HL2 ist der Unterschied sehr deutlich, da von ASBT die Blutspritzer erfasst werden (was in Bewegung flimmert), während sich ASTT um die Vegetation, Zäune usw. kümmert. In Raven Shield erfasst ASBT weitere hässliche Texturen, machte aber beim Auftreten von Dampf oder Rauch das Spielen mit einer 9800Pro unmöglich.
EATM war die perfekte MS-Alternative zu ASTT, führte aber zur "Netzbildung" in Far Cry (wie auch Humus' A2C oder entsprechende Option im DXTweaker). Der Nachfolger ist ATMS.

dargo

2009-04-16, 22:38:29

Vergleiche mal hier, alles in 1024x768:

8xMSAA @ GeForce 8800 GTX, 27 fps:
http://img3.abload.de/img/ferrarivr_8xqcd53.png

8xMSAA + TSSAA @ GeForce 8800 GTX, 13 fps:
http://img3.abload.de/img/ferrarivr_8xqtssaaye7q.png

8xS-AA + TMSAA @ GeForce 8800 GTX, 26 fps
http://img3.abload.de/img/ferrarivr_8xstmsaa0e2o.png

Die G8800GTX bricht aber extrem im zweiten Fall ein. Hier mal eine GTX260 @621/1404/1107Mhz:

8xMSAA
http://img3.imagebanana.com/img/sqkddoed/thumb/FerrariVR_Hi2009041622243963.png (http://img3.imagebanana.com/view/sqkddoed/FerrariVR_Hi2009041622243963.png)

8xMSAA + TSSAA
http://img3.imagebanana.com/img/nxvhrt9y/thumb/FerrariVR_Hi2009041622264726.png (http://img3.imagebanana.com/view/nxvhrt9y/FerrariVR_Hi2009041622264726.png)

8xS-AA + TMSAA
http://img3.imagebanana.com/img/vjxwjnan/thumb/FerrariVR_Hi2009041622292020.png (http://img3.imagebanana.com/view/vjxwjnan/FerrariVR_Hi2009041622292020.png)

Spasstiger

2009-04-16, 22:39:34

Ich glaub eher das Mr.Lolman da irgendwas getweakt hat, auf einer X1900+4xAA+QAAA sieht das so aus (gerade getestet mit Catalyst 9.3 XP). http://www.abload.de/img/ferrarivr_low2009-04-1xpc3.png
Die aktuellen Treiber unterstützen kein EATM mehr bei der X1900 XT, außerdem kannst du 4xMSAA + adaptives AA nicht mit 8xMSAA + adaptives AA vergleiche. Gerade bei Alphatests sieht das 8xAA deutlich besser aus als 4xAA.
Zudem scheint das Beleuchtungsszenario bei dir etwas anders zu sein.

y33H@

2009-04-16, 22:41:13

@ deekey777

Wofür steht denn das ganze Zeug überhaupt? Das übersteigt mein Wissen ...

EATM = Enhanced Adaptiv Transparency Multi
ATMS = Alpha Transparency Multi Samplung
ASBT = Alpha Super Blending Transparency
ASTT = Alpha Super Texture Transparency

Oder komplett daneben?

AnarchX

2009-04-16, 23:00:37

Die G8800GTX bricht aber extrem im zweiten Fall ein. Hier mal eine GTX260 @621/1404/1107Mhz:

[...]

In der Tat etwas wenig.

9800 GT (FW185.68) 8xQ TRSSAA + 16xHQ AF:
http://www.abload.de/image.php?img=ferrarivr_hi2009-04-166k2d.png
17 FPS

Mit reinem 8xMSAA sind es ca. 25 FPS.

Hier kann aber die GTX 260 aber auch mal deutlich ihre höhere ROP-Leistung und Bandbreite ausspielen.

aths

2009-04-17, 17:26:04

NV bräuchte vorallem mal eine programmierbare Samplemaske, das würde deutlich effizientere Hybridmodi erlauben. AMD kann das seit R300, leider wird es nicht ausgenützt.Die Maske ist "programmierbar" (also die Subpixelpositionen sind auf einem 16x16-Raster auswählbar.)
Ja, eben. Allerdings spart 2xMSAA halt immer noch Bandbreite und - vor allem - Speicher.Inwiefern wird Speicher gespart?

AnarchX

2009-04-17, 18:00:42

The big news on the GT300 is that Nvidia is promising partners will have it in mid-October. If it tapes out like we heard in June, lets just say June 1, that is a mighty tight timeline. Assuming four-week months for brevity, if you hot lot the test batches, you will get first silicon back in eight weeks.
http://www.theinquirer.net/inquirer/news/818/1051818/nvidia-gt300-promised-october

Vielleicht doch mehr an dem frühen erscheinen des RV870 dran, sodass hier NV versucht ein A1-Shipping zu erzielen.

KonKorT

2009-04-17, 18:07:47

Charlie zeigt doch, dass es selbst mit einem A0-Stepping verdammt eng würde, Mitte Oktober einzuhalten. A1-Stepping setzt er auf Januar 2010 an.

Insgesamt ist man nach der Meldung genauso schlau wie vorher.

Coda

2009-04-17, 18:12:26

Inwiefern wird Speicher gespart?
4xMSAA braucht mehr Speicher als 2xMSAA. Ich rede davon, dass mir 2x2 Supersampling allein zu wenig wäre, aber 2x2 + 2xMSAA ausreichen würde. Da brauch ich nicht 4xMSAA, und das spart dann eben Speicher.

AnarchX

2009-04-17, 18:15:56

Januar halte ich für ein A1-Stepping doch zu spät, bei den bisherigen Tapeouts konnte man doch immer 6 Monate nach dem 1. Tapeout schon ein A2-Stepping für den Launch präsentieren.
Wobei natürlich 40nm noch relativ jung ist und GT300 über 500mm² liegen soll.

Da sähe ziemlich düster für NV aus, wenn ATi wirklich RV870 schon im August präsentieren könnte und kurz danach wohl eine X2 und dann NV erst mit dem GT300 im Januar kommt, wo bei ATi schon D3D11-Low-End und Mainstream in den Startlöcher stehen sollte.

=Floi=

2009-04-17, 18:46:05

es ist aber schon ein wenig grob, wenn man bei SSAA sich wegen dem 4xAA sorgen macht :rolleyes: Sorry, aber DAS ist doch lächerlich.
Bei einem Panzer mache ich mir auch nicht wegen des gewichtes sorgen, wenn ich noch einen mann mehr mitnehme...

je besser der chip optimiert ist, desto taktfreudiger ist er... Ich würde mich eher über januar freuen, als über oktober. Siehe heatbug und schlechte taktbarkeit gepaart mit teils schlechter vcore. Da wohl der GT212 geschichte ist, muß ich wohl einen GT300 kaufen, oder ich warte noch auf dessen refresh.

Coda

2009-04-17, 22:55:54

Da sähe ziemlich düster für NV aus, wenn ATi wirklich RV870 schon im August präsentieren könnte und kurz danach wohl eine X2 und dann NV erst mit dem GT300 im Januar kommt, wo bei ATi schon D3D11-Low-End und Mainstream in den Startlöcher stehen sollte.
Wie oft kam ATi jetzt schon ein halbes Jahr nach NVIDIA? Leben sie noch?

Überhaupt: Spekulationen. Wobei es wirklich danach aussieht, dass ATI früher kommt, das heißt aber nicht, dass sie auch das bessere Produkt haben.

LovesuckZ

2009-04-17, 23:42:48

Gast

2009-04-18, 00:20:40

Es ist immer wieder erstaunlich, was die Leute alles glauben, nur weil es im Internet steht. Niemand aus einem Unternehmen würde über nicht veröffentliche Produkte reden. Das ist ein geschäftsgefährend. Denn verkauft in den verbleibenden Monaten noch die Ware, wenn man selbst sagt, bald käme was besseres?
Deine Aussage "Niemand aus einem Unternehmen würde über nicht veröffentliche Produkte reden. Das ist geschäftsgefährend." ist einfach falsch. Es können immer Situationen entstehen, die es nötig machen über in Entwicklung befindliche Produkte zu sprechen, z.B. Ankündigungen von Mitbewerbern, kurzfristige Steigerung des Aktienwertes, PR usw.. Das muss auch nicht zwangsläufig geschäftgefährdend sein. Es ist eine ganz normale Gesetzmäßigkeit des Marktes, das in bestimmten Perioden neue/bessere Produkte erscheinen. Das schließt aber nicht aus, dass plötzlich niemand mehr die aktuellen Produkte kauft. Gekauft wird, wenn Bedarf besteht. Hier gibt es verschiedene betriebswirtschaftliche Maßnahmen diesen Bedarf aufrechtzuerhalten bzw. zu wecken.

LovesuckZ

2009-04-18, 08:50:45

Der Aktienkurs steigt nicht, wenn man Produkte ankündigt, die noch nichtmal in zeitlicher Nähe sind. Die Analysten müssen davon ausgehen, dass das jetzige Portfolio nicht ausreichend ist und somit sich nicht verkaufen lässt. Der Kurs müsste demnach sinken.
Und Bedarf besteht dadurch, dass man nicht weiß, wann was neues ansteht. Sobald die ersten Gerüchte über eine zeitnahe (ca. 3 Monate) Veröffentlichung neuer Produkte auftaucht, wird auch der Verkauf der bestehenden zurückgehen.
Also ist es klar quatsch, dass man sich aus dem Unternehmen und vom Partner so öffentlich dazu äußert - außer man sieht das eigene Portfolio nicht als konkurrenzfähig an.

Gast

2009-04-18, 10:30:45

jap,viel Marktingzeugs,und auf Leistungsschübe wartet man 3-4 Jahre

Spasstiger

2009-04-18, 10:37:10

4xMSAA braucht mehr Speicher als 2xMSAA. Ich rede davon, dass mir 2x2 Supersampling allein zu wenig wäre, aber 2x2 + 2xMSAA ausreichen würde. Da brauch ich nicht 4xMSAA, und das spart dann eben Speicher.
Allerdings ist die Performanceunterschied zwischen 8xSQ und 16xS sehr gering trotz des höheren Speicherbedarfs von 16xS. Denn entweder haben die Karten schon genug Speicher oder die Performance reicht für die Modi nur in älteren, weniger speicherfressenden Spielen.

y33H@

2009-04-18, 14:20:31

Und wer brauch Cuda in Zeiten von 4gig i7Ne GTX 260-216 rechnet ja auch nur leicht schneller als n gammliger 3,5-GHz-i7 (http://www.pcgameshardware.de/aid,679661/Vreveal-Videoverbesserung-im-CSI-Stil-mithilfe-der-GPU-im-Praxis-Check/Tools/Test/) :ulol:

Im Falle eines 3,8-GHz-C2D ist eine GTX 280 um den Faktor 6,6 schneller. Bei 4 Threads sagen wir mal 3,3, bei 4 GHz sagen wir mal 3,0 und dank der bessere Pro-MHz-Leistung ~2,5. Mehr als doppelt so schnell finde ich nicht übel.

Ach ja - PhysX fußt auf CUDA. Und mit der CPU brauche ich in Mirrors Edge oder Sacred 2 das Spiel nicht mal zu starten.

dargo

2009-04-18, 14:50:13

Spasstiger

2009-04-18, 14:53:57

Ich kenne jemanden, der an der Uni ein Programm zur Feldsimulation auf CUDA portiert hat. Und seine GPU-beschleunigte Variante ist auf einer 9800 GTX zwischenzeitlich um den Faktor 100 schneller als die Vorlage auf einem Athlon 64 X2 4200+. Aber schon ohne Optimierungen hat er einen Faktor 20 erreicht. Wobei er bislang nur mit single precision testen konnte, weil er keine GT200-Karte zur Verfügung hat.

aths

2009-04-19, 01:25:38

Wobei es wirklich danach aussieht, dass ATI früher kommt, das heißt aber nicht, dass sie auch das bessere Produkt haben.Normalerweise hasse ich solche Postings, aber diesmal kann ich es mir nicht verkneifen: "Full ack".

deekey777

2009-04-19, 02:04:23

Ne GTX 260-216 rechnet ja auch nur leicht schneller als n gammliger 3,5-GHz-i7 (http://www.pcgameshardware.de/aid,679661/Vreveal-Videoverbesserung-im-CSI-Stil-mithilfe-der-GPU-im-Praxis-Check/Tools/Test/) :ulol:

Im Falle eines 3,8-GHz-C2D ist eine GTX 280 um den Faktor 6,6 schneller. Bei 4 Threads sagen wir mal 3,3, bei 4 GHz sagen wir mal 3,0 und dank der bessere Pro-MHz-Leistung ~2,5. Mehr als doppelt so schnell finde ich nicht übel.
....
Und weiter? Dass GPUs bestimmte Filter schnell ausführen können, ist nichts neues, da man das Zeug extrem parallelisieren kann. Zeig mir aber einen Test, wo eine GTX285 einen i7&x264 beim Codieren von Videos in H.264 schlägt.
Schaffst du nicht. Also bitte. Und überhaupt: CUDA ist ein Paket (C for CUDA, CUDA API usw), nur weil die Macher von vreveal fähige Köpfe sind, gibt es keinen Grund dies allein CUDA zuzuschreiben.

Und nebenbei: Selbst der Badaboom-Converter patzt bei der Paralleliserung, in dem einen c't-Artikel meinten die Nvidia-Leute, dass die Auslastung bei maximal 64 SPs liegt.

Ailuros

2009-04-19, 02:14:04

Wie willst du SSAA beschleunigen?

TBDR :P ...eigentlich waere das Grundkonzept vom GT3x0 auf DR besser aufgehoben IMHLO aber es ist genauso nebensaechlich wie alles andere fuer die letzten paar Seiten...

Coda

2009-04-19, 02:23:42

TBDR :P
Das bringt genau gar nichts. Du musst trotzdem die ALU- und TMU-Leistung vervielfachen.

Ailuros

2009-04-19, 02:33:17

Das bringt genau gar nichts.

Wie sieht denn der Speicher- bzw. Bandbreiten-Verbrauch auf einem TBDR im Vergleich zu einem IMR mit SSAA genau aus?

reunion

2009-04-19, 18:22:39

Wie oft kam ATi jetzt schon ein halbes Jahr nach NVIDIA? Leben sie noch?

Überhaupt: Spekulationen. Wobei es wirklich danach aussieht, dass ATI früher kommt, das heißt aber nicht, dass sie auch das bessere Produkt haben.

Müssen sie auch nicht. Die time-to-market ist ein sehr wichtiger Indikator. Wie oft hatte AMD schon den schnelleren Chip, kam aber mehrere Monate zu spät und konnte deshalb kaum Geld verdienen? Wenn RV870 deutlich vor GT300 kommt dann steht nV IMO mit ziemlich heruntergelassener Hose da, denn bis auf den sehr teuren GT200, der sich gerade noch gegen RV790 behaupten kann ist bei nV dann wohl nicht viel vorhanden.

y33H@

2009-04-19, 20:34:37

Selbst der Badaboom-Converter patzt bei der Paralleliserung, in dem einen c't-Artikel meinten die Nvidia-Leute, dass die Auslastung bei maximal 64 SPs liegt.Von der Auslastung her [VDDC] kommt das hin.Zeig mir aber einen Test, wo eine GTX285 einen i7&x264 beim Codieren von Videos in H.264 schlägt. Kenne ich keinen, ich beschäftige mich sowas idR nicht :(

Mir gings nur um den dämlichen Vergleich von wegen CUDA sei unnötig und ein 4-GHz-i7 viel toller ...

Ailuros

2009-04-20, 09:26:29

V2.0

2009-04-20, 09:33:09

Ailuros

2009-04-20, 09:39:52

Müssen sie auch nicht. Die time-to-market ist ein sehr wichtiger Indikator. Wie oft hatte AMD schon den schnelleren Chip, kam aber mehrere Monate zu spät und konnte deshalb kaum Geld verdienen?

Die groessten FLOPs beider IHVs (z.B. NV30/R600) kamen nicht nur zu spaet, sondern lagen auch ein ganzes Stueck hinter dem direkten Konkurrenten.

Ja R520 kam als anderes Beispiel etwas spaeter, wurde aber beim naechsten Augenzwinkern von R580 ersetzt.

Wenn RV870 deutlich vor GT300 kommt dann steht nV IMO mit ziemlich heruntergelassener Hose da, denn bis auf den sehr teuren GT200, der sich gerade noch gegen RV790 behaupten kann ist bei nV dann wohl nicht viel vorhanden.

Keiner der beiden IHVs hat sich in letzter Zeit zurueckgelehnt; bei beiden wird wie verrueckt geschuftet um es noch zumindest Anfang Winter 09' zu schaffen.

Ailuros

2009-04-20, 09:43:10

Und NV hat dann nur einen einzelnen Riesenchip, aber weder Performance noch Mainstream D3D11 Chips.

Vorzeitige Schlussvolgerungen die auf wackeligen Beinen bzw. "Infos" basieren koennen unter anderem heissen dass man sich leicht schnell blamieren kann. NV hat guten Grund jemand wie Charlie vor eine gute Blamage zu stellen, ergo wuerde ich etwas vorsichtig sein mit jeglicher vorzeitigen Schlussvolgerung.

Ist NV am Ende?

Am Ende der D3D10 Aera ja.

Gast

2009-04-20, 09:55:03

Mit anderen Worten: GT300 liegt im Plan und das war Charlies üblicher, wöchentlicher nV-rant ?

Ailuros

2009-04-20, 09:57:03

Mit anderen Worten: GT300 liegt im Plan und das war Charlies üblicher, wöchentlicher nV-rant ?

Geruechte wollen schon ein finales GT3x0 tape out, welches bedeutet dass jemand wohl Charlie mit Absicht an der Nase herumfuehrt.

reunion

2009-04-20, 10:16:09

Zurzeit ist es ohnehin noch zu früh um etwas genaueres zu sagen. Mal sehen wann die Chips dann wirklich kommen. Würde mich nicht wundern wenn es dann eh relativ zeitgleich bei beiden so weit sein wird.

igg

2009-04-20, 10:17:46

Geruechte wollen schon ein finales GT3x0 tape out
Dann müsste bis Nov/Dez sogar ein Respin drin sein und der GT300 läge sehr gut im Plan (?)
jemand wohl Charlie mit Absicht an der Nase herumfuehrt
Wenn du das weißt, müsste er das doch auch wissen ;)? Wenn NV seine Quelle hat könnten sie die doch auch einfach hops gehen lassen.

Ailuros

2009-04-20, 10:31:25

Wenn du das weißt, müsste er das doch auch wissen ;)?

Wieso?

***edit: ich mach es Dir einfacher....frag Charlie ob ihm "16 cores" etwas sagen :P

Gast

2009-04-20, 16:00:38

Das mit dem A0 steping ist doch absoluter Blödsinn, NV wäre ja richtig naiv wenn sie meinen das ein A0 bei einem recht neuen Prozess und einem rissen Chip reichen würde...

Charlie Erfindung nicht mehr und nicht weniger.

Wir werden auf einer Retail Karte min. A2 sehen und das noch in diesem Jahr, da bin ich doch recht sicher.

und der gleiche Typ meinte vor kurzem noch das der GT212 eingestellt wurde weil der zeitliche abstand zum GT300 zu klein wäre lol...

y33H@

2009-04-22, 22:56:39

Brightsideofnews (http://www.brightsideofnews.com/news/2009/4/22/nvidias-gt300-specifications-revealed---its-a-cgpu!.aspx)GT300 itself packs 16 groups with 32 cores - yes, we're talking about 512 cores for the high-end part. This number itself raises the computing power of GT300 by more than 2x when compared to the GT200 core. Before the chip tapes-out, there is no way anybody can predict working clocks, but if the clocks remain the same as on GT200, we would have over double the amount of computing power. If for instance, nVidia gets a 2 GHz clock for the 512 MIMD cores, we are talking about no less than 3TFLOPS with Single-Precision. Dual precision is highly-dependant on how efficient the MIMD-like units will be, but you can count on 6-15x improvement over GT200.

[...]

Thanks to Hardware-Infos, we managed to complete the puzzle what nVidia plans to bring to market in couple of months from now.512 ALUs @ 2 GHz :eek: Ich glaubs erst, wenn ich damit Crysis gezockt hab ;D

dargo

2009-04-22, 23:07:27

Brightsideofnews (http://www.brightsideofnews.com/news/2009/4/22/nvidias-gt300-specifications-revealed---its-a-cgpu!.aspx)512 ALUs @ 2 GHz :eek: Ich glaubs erst, wenn ich damit Crysis gezockt hab ;D
Zu dumm nur, dass Crysis nicht extrem an arithmetischen Leistung hängt. ;)
Trotzdem, 3 TFLOPS wären wirklich extrem fett. :eek:

y33H@

2009-04-22, 23:14:07

Och, n paar FLOPS und 2G wären für 1.920 sicherlich nicht schecht *g*

AnarchX

2009-04-22, 23:20:28

Also wohl 16 Cluster => 128 TMUs?
Bei optimistischen 800MHz wäre das ca. doppelte Texelfüllrate gegenüber GT200.

Wenn da mal nicht das Team auf die Idee kam etwas an der Filterung zu drehen, dass man die praktische Füllrate ebenso steigert wie die ALU-Leistung:
http://www.forum-3dcenter.org/vbulletin/showthread.php?p=7243723#post7243723

Fragt sich natürlich wie sich ein GT300-FLOP zu einem GT200-FLOP verhält, durch MIMD/MIMT wird man hier wohl etwas profitieren, wobei die 32 ALUs je Cluster dem etwas entgegenwirken könnten.

y33H@

2009-04-22, 23:24:22

Laut HW-Infos (http://www.hardware-infos.com/news.php?news=2904)128 TMUs (wenn 8 pro Cluster), ja.

LovesuckZ

2009-04-22, 23:34:09

Warum sollte nVidia an der Filterung sparen? Man hätte die doppelte Texturleistung als eine 8800GTX und die verliert alleine von Q -> HQ maximal 10% an Leistung. Die Ersparnisse beim Filter sind überhaupt nicht mehr relevant und für nVidia wird es bestimmt auch keinen Schritt zurückgeben.

y33H@

2009-04-22, 23:45:21

Warum sollte nVidia an der Filterung sparen?Damit der Schwanz Balken länger ist. Die ganzen AMD-Fanboys störts ja auch nicht ... Liebe fanATIsmus macht eben blind ;D

Im Ernst, selbst wenn die nur 5% gewinnen, ist das was. Ich hoffe nV baut keine schei0e ... schlimm genug, dass der nHancer mit DX10 fürn Ar*** ist.

LovesuckZ

2009-04-22, 23:50:35

Standard ist Quality. Es gibt keinen Grund HQ zu entfernen oder zu verschlechtern - vorallen, da sowieso niemand mit HQ bencht. Es bringt also genau null Vorteile, doe HQ Modus anzufassen.

y33H@

2009-04-22, 23:52:41

Ach so, ich dachte jetzt an default, dass hier verschlechtert wird. Klar, solange HQ wie auch das Deaktivierung der Optimierungen als Option vorhanden ist, können die default machen was sie wollen. Wenns schlechter als AMDs gammliges AI ist, wirds sicher Rüge geben, aber nach dem NV40 sind die sicher nicht so blöd.

Sorkalm

2009-04-22, 23:53:36

Das gilt aber nur, solange man nicht Q anfässt, und deswegen die Bencher zu HQ wechseln (wobei - dafür muss auch erstmal ein Grund - also vmtl. vgl. Bildqualität vorliegen), weil dann macht es wieder Sinn HQ anzufassen.

LovesuckZ

2009-04-22, 23:56:53

Aber wieso sollte jemand wechseln? Wenn Q plötzlich auf Bildern schärfer aussieht, wird das wahrscheinlich sogar als Verbesserung verkauft. Bewegte Bilder schauen sich doch sowieso nur noch die wenigsten an - geschweige, dass sie die Augen für die Unterschiede besitzen. Und da nVidia selbst die 8xMSAA Modi ohne Beschränkung im CP gelassen haben, zeigt, dass ihnen die paar Prozente bei der Filterung wohl eher am Arsch vorbeigehen werden.

y33H@

2009-04-22, 23:58:06

Kein Bencher wird auf HQ wechseln, wenn AMD nicht den AI-Dreck verbessert.

reunion

2009-04-23, 08:00:33

Brightsideofnews (http://www.brightsideofnews.com/news/2009/4/22/nvidias-gt300-specifications-revealed---its-a-cgpu!.aspx)512 ALUs @ 2 GHz :eek: Ich glaubs erst, wenn ich damit Crysis gezockt hab ;D

Hört sich zumindest realistisch an, kann aber natürlich auch kompletter BS sein. Wobei ich nicht glaube das nV mit den Taktraten bei einer neuen Gen hoch geht, das war noch nie ihre Art.

igg

2009-04-23, 09:23:42

Irgendwie erinnert mich das ein bisschen an die GT200 Spekulationen :)

Aber zusammen mit den Zahlen für den RV870 (http://news.ati-forum.de/index.php/news/34-amdati-grafikkarten/398-rv870-mit-ueber-19-tflop-im-juli-09) würde das bisherige Kräfteverhältnis beibehalten werden:
RV870: 1,9 TFLop
GT300: 3 TFLOP
RV870 X2: 4 TFlop

dargo

2009-04-23, 09:32:06

Wobei ich nicht glaube das nV mit den Taktraten bei einer neuen Gen hoch geht, das war noch nie ihre Art.
Afaik war NVs nie die Art beim High-End direkt den neuesten Fertigungsprozess zu verwenden, von daher...

Ailuros

2009-04-23, 09:50:40

Hört sich zumindest realistisch an, kann aber natürlich auch kompletter BS sein. Wobei ich nicht glaube das nV mit den Taktraten bei einer neuen Gen hoch geht, das war noch nie ihre Art.

Ich tendiere eher an hoehere Frequenzen zu glauben, als die angeblichen MIMD. Uebrigens sind 512SPs lediglich theoretisch [16*(4*8)] was mir zu stark danach riecht als ob jemand auf GT200 Basis spekuliert. Moeglich ist es zwar schon, aber das Resultat ist dann verdammt vorhersehbar und bedeutet eine sehr konservative Evolution.

Irgendwie erinnert mich das ein bisschen an die GT200 Spekulationen :)

Aber zusammen mit den Zahlen für den RV870 (http://news.ati-forum.de/index.php/news/34-amdati-grafikkarten/398-rv870-mit-ueber-19-tflop-im-juli-09) würde das bisherige Kräfteverhältnis beibehalten werden:
RV870: 1,9 TFLop
GT300: 3 TFLOP
RV870 X2: 4 TFlop

Und wie aussagekraeftig waren und sind sterile FLOP Raten genau? Ohne das geringste ueber jegliche Effizienz einer Architektur zu wissen, sind solche Zahlen sowieso fuer die Muelltonne.

reunion

2009-04-23, 10:08:17

Afaik war NVs nie die Art beim High-End direkt den neuesten Fertigungsprozess zu verwenden, von daher...

Sie hatten keine Wahl. DX11 kommt eben genau zu diesem Zeitpunkt raus und 55nm ist 40nm zu unterlegen.

Ailuros

2009-04-23, 10:09:50

Afaik war NVs nie die Art beim High-End direkt den neuesten Fertigungsprozess zu verwenden, von daher...

...und wehr sagt dass irgend etwas in Stein gemetzelt ist? GT3x0 ist mit 100% Sicherheit auf 40nm.

dargo

2009-04-23, 10:13:17

Sie hatten keine Wahl. DX11 kommt eben genau zu diesem Zeitpunkt raus und 55nm ist 40nm zu unterlegen.

...und wehr sagt dass irgend etwas in Stein gemetzelt ist? GT3x0 ist mit 100% Sicherheit auf 40nm.
Ich glaube ihr habt mich nicht verstanden. :)
Gerade deshalb weil NV ausnahmsweise auf den neuesten Fertigungsprozess setzt halte ich höhere Taktraten als bei der letzten Generation nicht für unwahrscheinlich.

Ailuros

2009-04-23, 10:21:20

Ich glaube ihr habt mich nicht verstanden. :)
Gerade deshalb weil NV ausnahmsweise auf den neuesten Fertigungsprozess setzt halte ich höhere Taktraten als bei der letzten Generation nicht für unwahrscheinlich.

Unter normalen Umstaenden waere es wahrscheinlicher dass trotz kleinerem Herstellungsprozess sich die Frequenzen nicht besonders erhoehen wegen eben der sehr hohen Chip-komplexitaet. Es soll heissen dass sie diesmal die Leckstroeme bei den ALU Frequenzen besser kontrollieren konnten; es ist zwar keine Garantie fuer hoehere als heutige Frequenzen, aber die Moeglichkeit besteht schon.

V2.0

2009-04-23, 10:32:18

Außerdem kommt GT300 nicht als erster NV-Chip in 40NM. GT218/216/215 sind vorher dran.

dargo

2009-04-23, 11:00:20

Unter normalen Umstaenden waere es wahrscheinlicher dass trotz kleinerem Herstellungsprozess sich die Frequenzen nicht besonders erhoehen wegen eben der sehr hohen Chip-komplexitaet. Es soll heissen dass sie diesmal die Leckstroeme bei den ALU Frequenzen besser kontrollieren konnten; es ist zwar keine Garantie fuer hoehere als heutige Frequenzen, aber die Moeglichkeit besteht schon.
Wie schätzst du die Shader Ratio ein? 3:1 oder eher 2,5:1? Zweiteres würde 800Mhz Chiptakt bedeuten (sollten die 2Ghz Shadertakt stimmen). Das wäre schon einiges mehr als beim GT200. Im ersten Fall wären es 666Mhz.

reunion

2009-04-23, 11:02:19

Die 2Ghz Shadertakt können nicht stimmen weil er ausdrücklich schreibt das er keine Ahnung hat wie hoch der Takt ist. Er rechnet nur in ein paar Beispielen vor was das bedeuten würde mit 1.5Ghz bzw. 2Ghz.

Before the chip tapes-out, there is no way anybody can predict working clocks, but if the clocks remain the same as on GT200, we would have over double the amount of computing power. If for instance, nVidia gets a 2 GHz clock for the 512 MIMD cores, we are talking about no less than 3TFLOPS with Single-Precision.

dargo

2009-04-23, 11:04:53

N0Thing

2009-04-23, 11:06:21

Ne wirkliche Quelle nennen die aber nicht in ihrem Artikel, oder habe ich das übersehen? Bright side of news nennt Hardware-Infos, Hardware-Infos nennt Bright side of news als Quelle. Da auf beiden Seiten nicht gesagt wird, woher man die Information hat frage ich mich gerade, ob die beiden Seiten einfach zusammen über das Design spekuliert haben, oder ob da irgendwelche Informationen heraus gegeben wurden.
Das die ganze Geschichte vorerst für den Leser reine Spekulation ist sollte klar sein, es hätte nur interessiert, ob die sich die Daten selber ausgedacht haben, oder ob sie Informationen bekommen haben.

pest

2009-04-23, 11:07:48

"if for instance" heißt, "wenn zum Beispiel" ... ist also reine Spekulation
wir können auch mit 3GHz Shadertakt rechnen und unsere feuchten Schlüpfer bestaunen

Ailuros

2009-04-23, 11:33:19

Die 2Ghz Shadertakt können nicht stimmen weil er ausdrücklich schreibt das er keine Ahnung hat wie hoch der Takt ist. Er rechnet nur in ein paar Beispielen vor was das bedeuten würde mit 1.5Ghz bzw. 2Ghz.

Ja natuerlich weiss es keiner vor dem tape out *grunz*

Heißt das jetzt die 3TFLOPS sind eher Wunschdenken?

Genug mit dem Terraflop Mist. Ich will eine gesunde Steigerung in wichtigeren Aspekten der heutigen GPUs sehen. Es gibt eine Unmenge an Stellen wo IHVs sich zu hoeherer Effizienz bewegt haben koennten u.a. primitiveres Zeug wie triangle setup. Manche von Euch scheinen zu vergessen wollen dass D3D11 programmierbare Tesselation vorraussetzt und diese u.a. auch Probleme mit sehr vielen und sehr kleinen Dreiecken bedeuten kann.

Anders als mit 2Ghz und 512 SPs kommt man da nicht hin.

Echt? Ich koennte mir unendliche moegliche GT200-basierende Moeglichkeiten ausdenken.

dargo

2009-04-23, 12:18:53

Manche von Euch scheinen zu vergessen wollen dass D3D11 programmierbare Tesselation vorraussetzt und diese u.a. auch Probleme mit sehr vielen und sehr kleinen Dreiecken bedeuten kann.

Naja, bis Games Gebrauch von DX11 machen habe ich höchstwahrscheinlich eh schon den Nachfolger drin. Von daher hat DX11 für mich beim GT300 die niedrigste Priorität.

Echt? Ich koennte mir unendliche moegliche GT200-basierende Moeglichkeiten ausdenken.
Ich bin jetzt davon ausgegangen, dass die 512 SPs stimmen. Da bleiben imo nicht viele Möglichkeiten 3TFLOPS zu erreichen. Klar, über die Taktrate geht noch was, allerdings halte ich wiederum >2Ghz für unwahrscheinlich.

Ailuros

2009-04-23, 13:02:31

Naja, bis Games Gebrauch von DX11 machen habe ich höchstwahrscheinlich eh schon den Nachfolger drin. Von daher hat DX11 für mich beim GT300 die niedrigste Priorität.

Zwar ist es normal dass IHVs zuerst X,Y,Z Features unterstuetzen und sich dann spaeter ueber deren Leistung kuemmern, aber so abgekackt darf dann die erste Implementierung nun auch wieder nicht sein. Es ist weiterhin Bloedsinn zu glauben dass die sterile Steigerung von FLOPs die absolute Loesung fuer die Zukunft ist. Die Effizienz pro FLOP zu steigern ist um einiges wichtiger. GT3x0 oder jegliche andere X11 GPU ist wohl kein einfacher Refresh und von irgendwo muss die erwartete Leistungssteigerung fuer eine neue Generation kommen.

***edit: um es etwas genauer zu machen....nehmen wir mal rein theoretisch an dass RV870 tatsaechlich 1.9TFLOPs erreichen kann, ist aber in Echtzeit bis zu 2x Mal schneller als RV770. Von den theoretischen 700GFLOPs mehr kommt wohl die zusaetzliche Leistung wohl nicht von sich alleine oder?

Es gibt hier nur eine logische Schlussfolgerung: abwarten und Tee trinken.

Ich bin jetzt davon ausgegangen, dass die 512 SPs stimmen. Da bleiben imo nicht viele Möglichkeiten 3TFLOPS zu erreichen.

Dann war folgender Satz schlecht formuliert:

Anders als mit 2Ghz und 512 SPs kommt man da nicht hin.

Man kommt sehr wohl auf theoretische 3 TFLOPs mit niedriger Frequenz und mehr Einheiten, mit hoeherer Frequenz und weniger Einheiten, mit mehr FLOPs/SP usw.

Unter der Vorraussetzung dass jemand auf reiner GT200 Basis spekuliert kann jegliches auch Sinn machen. Und ich frage hier ganz einfach: ist GT3x0 ein Refresh oder eine brandneue Architektur?

Gast

2009-04-23, 13:02:46

Die News war von Theo Valich, allein das sollte einen zu denken geben, dass es höchstwahrscheinlich Bs ist. Bei Daten liegt er öfters richtig, aber von den technischen Aspekten hat er gar kein Plan. Ich würde mich nicht auf die "angeblichen" Specs versteifen.

KonKorT

2009-04-23, 15:36:38

Das die ganze Geschichte vorerst für den Leser reine Spekulation ist sollte klar sein, es hätte nur interessiert, ob die sich die Daten selber ausgedacht haben, oder ob sie Informationen bekommen haben.
Theo und ich haben unsere Quellen abgeglichen und unabhängig voneinander wurde uns dasselbe gesagt. Darauf haben wir beschlossen beide eine Newsmeldung zu bringen.
Es werden in den nächsten Tagen und Wochen weitere Details folgen. :)

Und ich frage hier ganz einfach: ist GT3x0 ein Refresh oder eine brandneue Architektur?
Es scheint mir, dass die Änderungen deutlich größer als G80->GT200 sind, aber nicht ganz an G70->G80 herankommen.

Mr.Magic

2009-04-23, 16:19:53

Es scheint mir, dass die Änderungen deutlich größer als G80->GT200 sind, aber nicht ganz an G70->G80 herankommen.

Hm, Leistungsfaktor 3?

G70->G80 4x
G80->GT200 2x

arcanum

2009-04-23, 17:16:03

von g80 zu gt200 waren es eher +60-80% und g70 zu g80 ~+120%

Mr.Magic

2009-04-23, 17:29:10

von g80 zu gt200 waren es eher +60-80% und g70 zu g80 ~+120%

Nicht bei meinen Settings.

Huhamamba

2009-04-23, 17:44:20

Nicht bei meinen Settings.
Macht von den Specs her trotzdem keine Vervierfachung der Leistung. Du kannst bei den Settings auch DX10-only nehmen, dann hast du gegenüber dem G70 sogar einen unendlich großen Leistungszuwachs. X-D

Mr.Magic

2009-04-23, 18:08:25

Macht von den Specs her trotzdem keine Vervierfachung der Leistung. Du kannst bei den Settings auch DX10-only nehmen, dann hast du gegenüber dem G70 sogar einen unendlich großen Leistungszuwachs. X-D

So ein Quatsch. Ich hatte in den meisten Spielen (Queerbeet, ob das nun TDU oder NWN2 ist) Faktor 2.5 von einer 7950GX2 auf eine 8800GTX, und habe idR Faktor 2 von dieser auf meine aktuelle GTX285.
All das belegen "professionelle" Benchmarktests von Magazinen. Einfach mal Online nach Tests suchen von 16xSAA|16xHQAF|FullHD+*. Oder auch hier im Forum, wir hatten das Thema kürzlich erst.

*Nein, ich verwende nicht generell 16xSAA, sondern gehe so hoch, wie es gerade noch verträglich ist. Das wäre z.B. bei Stalker 2xMSAA mit der 8800GTX und 4xMSAA mit der GTX285.

Gast

2009-04-23, 18:43:20

an 512SP mit 2GHz glaub ich nicht...

Gast

2009-04-23, 18:46:24

...ok möglich ist es schon, ich glaube nur nicht daran weil das derzeit keiner genau sagen kann, ganz einfach...

Gast

2009-04-23, 19:07:28

Es ist nicht möglich und sicher auch nicht das Planungsziel gewesen. Nach 2 Generationen hat man doch gesehen, das die Custom Einheiten sich nicht so recht auf die gewünschte Taktrate bringen lassen (aus verschiedenen Gründen).

Man macht das einfachste, geht die Taktrate nicht rauf, muss man halt mehr Einheiten verbauen. Bringt auch das größere Die eben mit sich.
512SPs bei 1,2GHz, das is realistisch, je nachdem wie das Frontend der GPU aussieht sind so 650MHz wieder möglich, hier wirds sicher auch "breiter".
Aber wer weiß schon, was nV im Ärmel hat, nachdem sie ja die TMUs umbauen mussten!

Gast

2009-04-23, 19:23:39

wow 512 Shader. Beeindruckend, sehr beeindruckend. Bin gespannt wie dieses Monster trotz 40nm gekühlt wird. Und der Stromverbrauch unter Last wird interessant sein. Hoffentlich wird der gute Idleverbrauch beibehalten. Eins ist klar: Der GT300 wird alles in Grund und Boden stampfen:)

LovesuckZ

2009-04-23, 19:26:05

Ailuros

2009-04-23, 20:47:21

Es scheint mir, dass die Änderungen deutlich größer als G80->GT200 sind, aber nicht ganz an G70->G80 herankommen.

Nur passt eben das "deutlich groesser" nicht mit dem vorgeschlagenen Zeug. Wie schon gesagt es hat lediglich jemand auf Gt200 Basis rueckwaerts gerechnet.

Ailuros

2009-04-23, 20:51:09

Hm, Leistungsfaktor 3?

G70->G80 4x
G80->GT200 2x

Es ging hier um den Grad von revolutionaeren vs. evolutionaeren Aenderungen in den Architekturen und nicht um die Leistung. GT200 ist lediglich ein Refresh im Vergleich zu G80, hingegen GT3x0 ist verstaendlicherweise eine neue Generation.

Es ist nicht möglich und sicher auch nicht das Planungsziel gewesen. Nach 2 Generationen hat man doch gesehen, das die Custom Einheiten sich nicht so recht auf die gewünschte Taktrate bringen lassen (aus verschiedenen Gründen).

Tja nach zwei Refreshes und nicht Generationen, hat NVIDIA eingesehen dass die Frequenzverwaltung auf G8x/G9x/GT2x0 viel zu primitiv war und man hat die "custom Einheiten" in weitere "custom Frequenzverwaltungs-Abenteuer" geschickt.

Man macht das einfachste, geht die Taktrate nicht rauf, muss man halt mehr Einheiten verbauen. Bringt auch das größere Die eben mit sich.
512SPs bei 1,2GHz, das is realistisch, je nachdem wie das Frontend der GPU aussieht sind so 650MHz wieder möglich, hier wirds sicher auch "breiter".

GT3x0 ist nicht einfach eine breitere GT2x0. Von dem abgesehen bei 650MHz und dem konservativsten ALU:TMU 2.15x Verhaeltnis liegt die theoretische ALU Frequenz schon auf <1.4 GHz. Es ist sowohl mehr und um einiges weniger auf GT3x0.

Aber wer weiß schon, was nV im Ärmel hat, nachdem sie ja die TMUs umbauen mussten!

Was dieses jetzt mit den ALU Frequenzen zu tun haben soll ist mir fremd. Obwohl eine fundamental andere Architektur takten die fetch4 faehigen TMUs einer RV790 auf 850MHz.

Hugo

2009-04-23, 21:07:49

Nur passt eben das "deutlich groesser" nicht mit dem vorgeschlagenen Zeug. Wie schon gesagt es hat lediglich jemand auf Gt200 Basis rueckwaerts gerechnet.

meinst du damit die Speku von den 512SPs sind falsch und es hat nur jemand auf GT200 Basis sich was ausgedacht?
Was denkst du wie viel Gemeinsamkeiten GT300 und GT200 haben?

Ailuros

2009-04-23, 21:18:19

meinst du damit die Speku von den 512SPs sind falsch und es hat nur jemand auf GT200 Basis sich was ausgedacht?

Es ist scheissegal wieviele SPs ein jeglicher GT3x0 hat wenn man nicht weiss wie sich sonst das Ganze verhaelt. Nach Angaben sollen diesmal die clusters unabhaengiger werden, welches bedeutet dass primitivere Daten jederzeit zur Verfuegung jeglichen clusters stehen oder noch mehr vereinfacht 'copy the entire GPU onto each core'.

Was genau sollen Dir unter diesen Vorraussetzungen eine idiotische Zahl wie 512 genau sagen? Ausser natuerlich Du willst dank aehnlicher Vereinfachung einen G80 als 8 quad GPU zaehlen, waehrend G70 auch schon 6 quads hatte und eine ziemlich hohe theoretische GFLOP Zahl.

Was denkst du wie viel Gemeinsamkeiten GT300 und GT200 haben?

Nicht so viele wie jegliche Zahlen-werkelei vorschlagen will IMHLO. Es soll diesmal sogar power-gating geben und individuelle variable Frequenzen je nach Bedarf pro cluster. Was sind nochmal unter all diesen Einzelheiten nochmal "512SPs" als Zahl wert?

BlackBirdSR

2009-04-23, 21:23:00

Was sind nochmal unter all diesen Einzelheiten nochmal "512SPs" als Zahl wert?

Lass den leuten Zeit.
Früher waren es MIPs, dann MHz, dann FLOPs und nun SPs ;)
Man braucht immer einen definierten Wert, an den man sich ohne große Umstände klammern kann. Das ist schon fast religiös.

Kommt Zeit, kommt Verständnis und eine neue Variable, an die man sich blind klammert.

Hugo

2009-04-23, 21:23:26

Es ist scheissegal wieviele SPs ein jeglicher GT3x0 hat wenn man nicht weiss wie sich sonst das Ganze verhaelt. Nach Angaben sollen diesmal die clusters unabhaengiger werden, welches bedeutet dass primitivere Daten jederzeit zur Verfuegung jeglichen clusters stehen oder noch mehr vereinfacht 'copy the entire GPU onto each core'.

Was genau sollen Dir unter diesen Vorraussetzungen eine idiotische Zahl wie 512 genau sagen? Ausser natuerlich Du willst dank aehnlicher Vereinfachung einen G80 als 8 quad GPU zaehlen, waehrend G70 auch schon 6 quads hatte und eine ziemlich hohe theoretische GFLOP Zahl.

Nicht so viele wie jegliche Zahlen-werkelei vorschlagen will IMHLO. Es soll diesmal sogar power-gating geben und individuelle variable Frequenzen je nach Bedarf pro cluster. Was sind nochmal unter all diesen Einzelheiten nochmal "512SPs" als Zahl wert?

512SPs sagt nix aus. Es ist halt nur ein Anhaltspunkt. Man weiß ja auch nicht was jeder SP kann. Ganz zu schweigen von der Effizienz des ganzen Designs

Ailuros

2009-04-23, 21:31:15

Lass den leuten Zeit.
Früher waren es MIPs, dann MHz, dann FLOPs und nun SPs ;)
Man braucht immer einen definierten Wert, an den man sich ohne große Umstände klammern kann. Das ist schon fast religiös.

Kommt Zeit, kommt Verständnis und eine neue Variable, an die man sich blind klammert.

Tja wenn man die enormen caches des LRB mal etwas zur Seite schiebt, dann sind die Unterschiede zwischen den kommenden D3D11 GPUs nicht unbedingt so enorm wie es oefters klingen kann. Es wuerde mich durchaus interessieren was NV im Feld caches genau angestellt hat; denn mit dem heutigen Zeug laesst sich ja nicht besonders viel in Sachen wie ray tracing als Beispiel anstellen.

turboschlumpf

2009-04-24, 14:21:04

Tja wenn man die enormen caches des LRB mal etwas zur Seite schiebt, [...]
Dann ist Larrabee also eher im Vorteil als im Nachteil?

[...], dann sind die Unterschiede zwischen den kommenden D3D11 GPUs nicht unbedingt so enorm wie es oefters klingen kann.
Welche zusätzlichen Fixed-Function-Einheiten haben Nvidia und AMD denn in ihren D3D11-GPUs noch gegenüber Larrabee?

Gast

2009-04-24, 14:40:05

Es ist nicht möglich und sicher auch nicht das Planungsziel gewesen. Nach 2 Generationen hat man doch gesehen, das die Custom Einheiten sich nicht so recht auf die gewünschte Taktrate bringen lassen (aus verschiedenen Gründen).

Für G94 und G92 sind 2000MHz Shader Takt in der regel kein Problem, erst der G200 bekamm ja probleme mit dem Shader takt obwohl die ja jetzt mehr oder weniger mit dem B3 behoben wurden.

Also mit 40nm dürfte man da schon 2GHz stock Takt erwarten, jedenfalls bei den kleineren GPUs

Coda

2009-04-24, 14:53:46

Welche zusätzlichen Fixed-Function-Einheiten haben Nvidia und AMD denn in ihren D3D11-GPUs noch gegenüber Larrabee?
Thread-Arbitter, Tri-Setup, Rasterizer, Tesselator, ROPs

Und evtl. hab ich auch noch was anderes vergessen.

reunion

2009-04-24, 14:59:30

Wobei es auch sein könnte das AMD od. NV bei den D3D11-GPUs auf etwas davon verzichten...

Coda

2009-04-24, 15:12:37

Bis auf die ROPs ist sicher alles wieder dabei.

turboschlumpf

2009-04-24, 15:22:03

Thread-Arbitter, Tri-Setup, Rasterizer, Tesselator, ROPs

Und evtl. hab ich auch noch was anderes vergessen.
Wieviel macht das aus? Und wieviel davon kann Larrabee durch andere Vorteile (komplett unified, tile based Rendering, großer L2-Cache, zusätzliche Rechenleistung durch die Pentium-Cores) ausgleichen?

[fu]121Ah

2009-04-24, 15:29:10

Wieviel macht das aus? Und wieviel davon kann Larrabee durch andere Vorteile (komplett unified, tile based Rendering, großer L2-Cache, zusätzliche Rechenleistung durch die Pentium-Cores) ausgleichen?
frag doch intel... bei uns wird dir jeder nur ne schätzung präsentieren.

unified ist immer langsamer, btw. als ne fixed function unit.

turboschlumpf

2009-04-24, 15:42:19

121Ah;7255443']frag doch intel... bei uns wird dir jeder nur ne schätzung präsentieren.
Das möchte ich ja gerade, Schätzungen von Personen die davon mehr Ahnung haben als ich.

121Ah;7255443']unified ist immer langsamer, btw. als ne fixed function unit.
Ja und nein. Die Auslastung von Unified-Einheiten kann besser sein, was theoretisch auch zu einem Vorteil führen könnte.

Coda

2009-04-24, 16:00:10

zusätzliche Rechenleistung durch die Pentium-Cores
Was für "zusätzliche Rechenleistung"? x86 ist bei einer GPU eher eine Krücke als ein Vorteil.

turboschlumpf

2009-04-24, 16:59:45

Zusätzlich zur Vektor-Einheit hat Larrabee pro Core ja auch noch zwei Integer-ALUs und eine FPU. Keine Ahnung wofür sich die verwenden lassen.

BlackBirdSR

2009-04-24, 18:01:35

Zusätzlich zur Vektor-Einheit hat Larrabee pro Core ja auch noch zwei Integer-ALUs und eine FPU. Keine Ahnung wofür sich die verwenden lassen.

Steuerung, Managing, Ein/Ausgabe, Synchronisation. Durchsatz limitierte Szenarios wird man damit nicht anpacken ;)

Gast

2009-04-24, 18:20:20

Wie Groß wäre denn der Vorteil anzusehen wenn man einen Großteil des Treibers in der GPU durchkauen könnte? Vor allem in Hinblick auf das integrierte pcie interface in den i5 cpus (die den Vorteil durch eine geringere Latenz CPU<>GPU ja einschränken sollte.)

Coda

2009-04-24, 18:36:59

Wie Groß wäre denn der Vorteil anzusehen wenn man einen Großteil des Treibers in der GPU durchkauen könnte?
Ich bezweifel dass Intel das tun wird. Dafür ist die Host-CPU deutlich besser geeignet.

Ailuros

2009-04-26, 13:24:12

Dann ist Larrabee also eher im Vorteil als im Nachteil?

Wenn Intel versuchen wuerde mit LRB Variante X die Leistung der konkurrierenden X11 GPUs zu erreichen, muessten sie nicht nur einen gigantischen die herstellen sondern auch so viel Strom verbrauchen dass das Resultat eher dem Nicknamen Laughabee verdienen wuerde die intern sowohl bei ATI als auch bei NV herumschwirren.

Coda,

Thread-Arbitter, Tri-Setup, Rasterizer, Tesselator, ROPs

Mal alles andere zur Seite, was hab ich verpasst dass eine angeblich programmierbare Tesselations-Einheit fixed function ist? Oder leitest Du das Ganze von der Xenos und Co. Implementierung ab?

Natuerlich hab ich leider noch keine Ahnung wie jegliches betreffend Tesselation auf GT3x0 aussehen wuerde, aber die Implementierung muss nicht unbedingt wie bei ATi sein.

Zum restlichen Zeug: stimmen die bisherigen Indizien bin ich mir gar nicht so sicher dass die anderen aufgefuehrten Anteile immer noch ff sind. Haben sie tatsaechlich die "cores" de-zentralisiert, dann klingt mir als Laie ff hw eher als sehr merkwuerdige Idee.

Gast

2009-04-26, 13:41:59

Ich bezweifel dass Intel das tun wird. Dafür ist die Host-CPU deutlich besser geeignet.

Inwieweit unterscheidet die sich denn von der "Skalar-Pipe" im Larrabee? ;)

Gast

2009-04-26, 13:46:44

Mal alles andere zur Seite, was hab ich verpasst dass eine angeblich programmierbare Tesselations-Einheit fixed function ist?
Der Tesselator ist "konfigurierbares Fixed-Function" und wir durch Hull- und Domain-Shader gesteuert und "programmierbar" gemacht. Das sind auch die Dinge, die bisher in den Radeon-GPUs eben nicht funktionieren/integriert sind. Am Tesselator selbst liegt's kaum.

Gast

2009-04-26, 13:49:03

Zum restlichen Zeug: stimmen die bisherigen Indizien bin ich mir gar nicht so sicher dass die anderen aufgefuehrten Anteile immer noch ff sind. Haben sie tatsaechlich die "cores" de-zentralisiert, dann klingt mir als Laie ff hw eher als sehr merkwuerdige Idee.
Damit hast du prinzipiell zwar recht, aber angesichts der aktuellen (seit 12 Monaten bestehenden) Situation dürfte das für jeglichen IHV (außer Intel) ein ziemliches Risiko darstellen, Teile der Pipeline programmierbar zu machen, bzw. FF-Hardware durch andere Chipteile zu ersetzen. Und ich glaube nicht, dass das Risiko eingegangen wird.

Ailuros

2009-04-26, 14:03:16

Der Tesselator ist "konfigurierbares Fixed-Function" und wir durch Hull- und Domain-Shader gesteuert und "programmierbar" gemacht.

Wenn ich es aber richtig verstehe, dann haben wir in dem Fall (und entschuldige die grobe Vereinfachung) eine quasi ff Einheit von einer programmierbaren Einheit "programmierbarer" gemacht.

Und es bleibt eben bei meiner originalen Frage: warum wenn man Tesselation von Anfang an implementiert und keinen biherigen ff Balast mitschleppt: warum nicht gleich das Ganze Zeug programmierbar von Anfang an?

Das sind auch die Dinge, die bisher in den Radeon-GPUs eben nicht funktionieren/integriert sind. Am Tesselator selbst liegt's kaum.

Ich fragte ja ob Coda etliches von der Radeon Implementierung ableitet.

Damit hast du prinzipiell zwar recht, aber angesichts der aktuellen (seit 12 Monaten bestehenden) Situation dürfte das für jeglichen IHV (außer Intel) ein ziemliches Risiko darstellen, Teile der Pipeline programmierbar zu machen, bzw. FF-Hardware durch andere Chipteile zu ersetzen. Und ich glaube nicht, dass das Risiko eingegangen wird.

Es wuerde aber gegen das Prinzip der originalen Idee (angenommen diese stimmt...) liegen. Denn wenn man einen Schritt X in Richtung besserer Effizienz geht und man letztendes nur einen halben Schritt macht dann ist es eher eine enorme Verschwendung von R&D; denn von einer besonderen Aenderung was Effizienz betrifft kann man wohl schwer in solch einem Fall reden.

Gast

2009-04-27, 18:46:26

Wenn Intel versuchen wuerde mit LRB Variante X die Leistung der konkurrierenden X11 GPUs zu erreichen, muessten sie nicht nur einen gigantischen die herstellen sondern auch so viel Strom verbrauchen dass das Resultat eher dem Nicknamen Laughabee verdienen wuerde die intern sowohl bei ATI als auch bei NV herumschwirren.

Wenn ATI/Nvidia keine deutlich bessere Unterstützung für double precision Fließkommazahlen in die kommenden GPUs einbeziehen, werden die GPUs auf dem Gebiet der wissenschaftlichen Berechnungen gegenüber dem Laughabee ziemlich alt aussehen, 32-Bit-FLOPS hin oder her ...
Das sagt zwar nichts über die Rasterisierungsleistung aus, aber Intel zielt mit dem Larrabee ohnehin darauf ab, die Erfolge von Nvidia und ATI auf dem Gebiet der GPGPUs einzudämmen. Die Direct3D-/OpenGL-Unterstützung ist da nur ein Zusatzfeature (erkennt man an den Kompromissen im Design).

Coda

2009-04-27, 19:04:38

Inwieweit unterscheidet die sich denn von der "Skalar-Pipe" im Larrabee? ;)
Sie ist wesentlich schneller für solche Aufgaben.

Mal alles andere zur Seite, was hab ich verpasst dass eine angeblich programmierbare Tesselations-Einheit fixed function ist? Oder leitest Du das Ganze von der Xenos und Co. Implementierung ab?
Es gibt keine programmierbare Tesselations-Einheit in D3D11. Es ist so wie der Gast gesagt hat. Der Hull-Shader (programmierbar) sagt der Tesselationseinheit wie sie zu tesselieren hat. Das tesselieren selbst ist nicht programmierbar.

warum nicht gleich das Ganze Zeug programmierbar von Anfang an?
Weil es nicht performant wäre. Theoretisch kann man sowas auch im Geometry Shader machen, aber dort ist jedes Dreieck das erzeugt wird teuer, außerdem muss die GPU immer "dumm" damit rechnen dass die größte Anzahl möglicher Dreiecke dabei erzeugt wird, obwohl das fast nie der Fall ist.

Es hält natürlich trotzdem niemanden ATI oder NVIDIA aus das ganze doch auf programmierbaren Einheiten zu realisieren.

Gipsel

2009-04-27, 19:40:02

Wenn ATI/Nvidia keine deutlich bessere Unterstützung für double precision Fließkommazahlen in die kommenden GPUs einbeziehen, werden die GPUs auf dem Gebiet der wissenschaftlichen Berechnungen gegenüber dem Laughabee ziemlich alt aussehen, 32-Bit-FLOPS hin oder her ...
Das sagt zwar nichts über die Rasterisierungsleistung aus, aber Intel zielt mit dem Larrabee ohnehin darauf ab, die Erfolge von Nvidia und ATI auf dem Gebiet der GPGPUs einzudämmen. Die Direct3D-/OpenGL-Unterstützung ist da nur ein Zusatzfeature (erkennt man an den Kompromissen im Design).
NVidia ist mit dem GT200 bei der Erfüllung der Standards für double precision im Prinzip schon jetzt auf dem Stand von Larrabee. Nur an der Performance hapert es noch (was sich dann wohl mit dem GT300 ändern wird).
RV770/790 ist performancemäßig jetzt schon gar nicht so schlecht dabei (272 GFlops in double precision, etwa dreimal so schnell wie GT200, 3GHz Quad liegt bei nur 48GFlops), dafür muß AMD noch ein wenig an der Konformität zu Standards arbeiten.

Und was den Vergleich zu Larrabee angeht, warte doch erstmal ab, ob die Vektorpipelines bei double precision wirklich die Hälfte des single precision Durchsatzes machen, wie viele stillschweigend voraussetzen. Intel hat sich bisher mit Aussagen zu double precision auffällig zurückgehalten. Vielleicht viertelt sich ja auch der Durchsatz bei DP (wie im Prinzip bei ATI)? Dann wären von den 2TFlops single precision bei DP auch nur noch 0,5T übrig. Und da könnte schon der RV870 auch fast hinkommen und der GT300 wahrscheinlich erst recht.

Der Hauptvorteil bei Intel wird meiner Meinung nicht unbedingt die Rechenleistung, sondern der hauseigene Ct-Compiler für Larrabee, die viel schnellere Kommunikation zwischen einzelnen Threads (kohärente Caches!) und die einfache und schnelle Möglichkeit horizontale Instruktionen in den Vektorregistern auszuführen. Auf GPUs sind die Register der einzelnen Slots eines Vektors physisch getrennt, bei Larrabee nicht. Hier kann Intel seine Erfahrung beim Design großer Registerfiles mit Unmengen an Ports ausspielen. Da aber doch einiges an Aufwand da und auch in die Caches gesteckt wird, kann eigentlich gar nicht so übermäßig viel mehr Rohleistung im Vergleich zu GPUs mehr herauskommen, selbst wenn da deutlich über 2 Mrd. Transistoren verbaut werden, aber die erreicht ein GT300 auch.
Larrabee wird mit größerer Flexibilität zu punkten versuchen. Man wird einige Algorithmen leichter auf Larrabee portieren können. Durchaus denkbar, daß dies Larrabee für GPGPU-Anwendungen den entscheidenden Vorteil geben kann.