Aths's neuer Artikel part 2 [Archiv]

MadManniMan

2002-02-24, 23:36:09

jaja... hab schonmal sowas angefangen ;)

...

APPLAUS!!! mehr fällt mir zu deinen ausführungen zum AA nicht mehr ein...

Leute, das schreit nach anerkennung!

BTW: in anbetracht meiner finanziellen mittel und der gegenüberstellung von accuview und smoothvision wirds dann doch ne r2... ;)

Unregistered

2002-02-25, 00:03:58

hi...

tja, was soll man zu so viel faktengewalt noch sagen...???

vielleicht doch ne alternative zu 3dconcept... ;-)

Kennung Eins

2002-02-25, 23:49:06

Hi,

Quote:
"So weit, dass Raytracing-Qualität in Echtzeit erreicht werden kann, ist die Hardware heute noch nicht."
wenn ich mich nicht irre dann kann die Quadro 4 tatsächlich echtzeit Fullscreen-Raytracing.

Meine Quelle dazu:
Zum NV25 kann ich nur dasselbe schreiben, wie ich (...) geschrieben habe: "One of the few features that I have noticed is that the MAXtreme drivers from ELSA have integrated real-time raytracing data encoded in them."

aths

2002-02-26, 12:51:37

Hi Kennung1,

mir ging es um Raytracing welches PovRAY-Qualität erreicht. (Das ist nicht die einzige Formulierungs-Ungenauigkeit im Artikel.)

MadManniMan,

danke für die Rückmeldung.

Unregistered

2002-02-26, 12:52:32

Da wird man ja blöd von ;-)

Legolas

2002-02-26, 14:13:00

Ne kleine Ungenauigkeit hab ich auch gefunden :D Ist aber nix weltbewegendes.

Auf Seite 8 schreibst du, daß der VSA-100 SLI durchführt, indem ein Chip die geraden, der andere die ungeraden Zeilen eines Bildes rendert, dies ist aber nicht ganz richtig, da beim VSA-100 das Bild in Streifen aufgeteilt wird, die dann von den Chips abwechselnd gerendert werden.

Ansonsten ist der Artikel wirklich gut :)

aths

2002-02-26, 14:41:57

Legolas, es steht im Artikel: "Die SLI-Technik teilt die Monitor-Fläche in Streifen und nummeriert diese durch. Die mit den geraden Nummern berechnet der eine Chip, die mit den ungeraden Nummern der andere."

Legolas

2002-02-26, 15:21:43

Hab mich mich wohl 2 x verlesen :)

MadManniMan

2002-02-26, 15:38:01

@aths: immer doch!

vor allem, wenn sie sich so geil lesen, wie auf 3dconcept und dabei noch umfangreicher sind!

2002-02-26, 15:46:38

Originally posted by aths
Legolas, es steht im Artikel: "Die SLI-Technik teilt die Monitor-Fläche in Streifen und nummeriert diese durch. Die mit den geraden Nummern berechnet der eine Chip, die mit den ungeraden Nummern der andere."

Ist auch nicht richtiger.

AFAIK berechnet ein Chip alle Zeilen der oberen Bildhaelfte und der andere Chip die untere Bildhaelfte.

/edit: bezogen auf VSA100, die V2 arbeitet wie beschrieben mit geraden/ungeraden Zeilen

[DSM]MavericK

2002-02-26, 17:39:52

Der Artikel ist echt gut.... hab nur manchmal meine probleme mit dem mathematischen verständniss und ein paar fachausdrücken... is aber ned weiter schlimmm...wirklich guter artikel ! :-)

MadManniMan

2002-02-26, 18:01:29

dabei fällt mir ein, daß ich doch noch was fragen wollte

daß die ramdac lösung ab gewissen frames nachteilig ist, weiß ich nun, aber wodurch das genau bedingt ist, wäre nochmals ne erläuterung wert

Legolas

2002-02-26, 18:26:00

Originally posted by ow

Ist auch nicht richtiger.

AFAIK berechnet ein Chip alle Zeilen der oberen Bildhaelfte und der andere Chip die untere Bildhaelfte.

/edit: bezogen auf VSA100, die V2 arbeitet wie beschrieben mit geraden/ungeraden Zeilen

Nönö ein Chip rechnet immer die ungeraden Bänder von einigen Pixeln Höhen, der andere die geraden.. durfte ich bei meiner V5 beobachten, wie sie etwas überhitzt hatte, und dann die Bänder nicht mehr syncron waren, sondern jeweils um ein paar Pixel verschoben waren. Das SLI-Verfahren des VSA-100 ist mal in einem Artikel auf 3dconcept ziemlich ausführlich beschrieben. Das mit der oberen und unteren Bildhälfte war glaub ich so bei der Stepsiter Lösung von Metabyte, aber sicher weiß ich es nicht mehr.

Xmas

2002-02-26, 18:39:42

Originally posted by ow
Ist auch nicht richtiger.

AFAIK berechnet ein Chip alle Zeilen der oberen Bildhaelfte und der andere Chip die untere Bildhaelfte.

/edit: bezogen auf VSA100, die V2 arbeitet wie beschrieben mit geraden/ungeraden Zeilen
Nein, so funktioniert die PGP-Technik von Metabyte. Bei einer Voodoo 5 wird das Bild tatsächlich in Streifen aufgeteilt.

Originally posted by MadManniMan der Rula
dabei fällt mir ein, daß ich doch noch was fragen wollte

daß die ramdac lösung ab gewissen frames nachteilig ist, weiß ich nun, aber wodurch das genau bedingt ist, wäre nochmals ne erläuterung wert
Da der RAMDAC (bzw, eine vorgeschaltete Filtereinheit) das Bild herunterrechnet, ohne es irgendwo zu speichern (wodurch ja eben die Bandbreite gespart werden soll), muss er permanent Filtern, weil ja auch permanent das Bild an den Monitor übertragen wird. Die benötigte Bandbreite ist also abhängig von der Bildwiederholfrequenz.

Wird schon vorher heruntergefiltert, dann muss nur einmal pro Frame gefiltert werden, die Bandbreite ist also auch abhängig von der Framerate.

Für die RAMDAC-Filterung ergibt sich folgende Formel:
Bandbreite = Hz-Zahl * Framebuffer-Größe * Samples

Wird vorher gefiltert, muss das Ergebnis ja geschrieben und dann vom RAMDAC wieder ausgelesen werden. Das ergibt:
Bandbreite = Hz-Zahl * FB-Größe + fps * FB-Größe * (Samples + 1)

Daraus ergibt sich, dass die RAMDAC-Methode bei 2xAA einen Vorteil bringt, wenn die Framerate mindestens 60% der Bildwiederholfrequenz erreicht. Also bei 85Hz ab 51 fps. Und das schafft eine GF4Ti meistens.

MadManniMan

2002-02-26, 20:12:45

hui... langsam denke ich, ich fange an, das zu verstehen ;)

thx für die erläuterung!

2002-02-26, 20:23:22

XMas

Kannst du das mal so erklären, dass ich es auch verstehe?

Denn DACs tun weder rechnen noch filtern noch speichern. Die wandeln nur.

Wie also genau soll dieses Verfahren funktionieren beim GF4?

Xmas

2002-02-26, 20:43:08

Originally posted by Xmas
Da der RAMDAC (bzw, eine vorgeschaltete Filtereinheit)
Ich dachte eigentlich so ist klar was gemeint ist. Damit wollte ich ausdrücken, dass das Filtern nicht direkt vom RAMDAC, aber von einer direkt damit verbundenen Einheit übernommen wird. Wenn ich danach RAMDAC schreibe, ist das nur der einfachen Schreibweise halber.

Die Filtereinheit liest die Bilddaten aus dem Framebuffer aus, bildet den Mittelwert aus zwei oder vier Samples (oder wendet den Qunicunx-Filter an) und übergibt diesen Wert dem RAMDAC Pixel für Pixel. Im Gegensatz zur "üblichen" Technik wird das gefilterte Bild nicht im Framebuffer gespeichert.
Was ist daran unklar?

2002-02-27, 05:04:45

Hmmm, also sind künftige Screenshotvergleiche praktisch sinnlos, da die ja direkt am FB ansetzen und man somit nie die Qualität des FSAA erfahren kann, wenn man nicht ne GF4 im Rechner hat. Werden bei 2 RAMDAC's (nVIEW) mehrere Filtereinheiten davorgeschaltet? Woher stammt eigentlich die Info, Filtereinheit vor den RAMDAC.....
Von NVIDIA bekommt man nur zu hören - Patentanmeldung läuft noch, deshalb keine genauen Informationen über das wie.

Thomas

2002-02-27, 09:18:50

Originally posted by Xmas

Ich dachte eigentlich so ist klar was gemeint ist. Damit wollte ich ausdrücken, dass das Filtern nicht direkt vom RAMDAC, aber von einer direkt damit verbundenen Einheit übernommen wird. Wenn ich danach RAMDAC schreibe, ist das nur der einfachen Schreibweise halber.

Die Filtereinheit liest die Bilddaten aus dem Framebuffer aus, bildet den Mittelwert aus zwei oder vier Samples (oder wendet den Qunicunx-Filter an) und übergibt diesen Wert dem RAMDAC Pixel für Pixel. Im Gegensatz zur "üblichen" Technik wird das gefilterte Bild nicht im Framebuffer gespeichert.
Was ist daran unklar?

Es werden die Subpixel also weiterhin auf digitaler Ebene gemischt und erst das endgueltige Pixel durch den RAMDAC geschickt.

Und was ist nun mit der Bandbreite?

Die Filtereinheit vor dem RAMDAC muss ja nur immer synchron zum RAMDAC-Takt laufen, das Filtern kostet keine Bandbreite.

Es ist doch egal, wieviel Frames (fps) der Chip rendert, oder nicht?
Der RAMDAC tut immer filtern, also so oft wie die RefreshRate es vorgibt.

aths

2002-02-27, 11:41:38

ow: Bei 2x AA muss der RAMDAC zum Filtern 2 Buffer lesen anstatt 1 Buffer mit dem fertig gefiltertem Bild. Bei 4x AA müssen sogar 4 Buffer statt 1 fertiger Buffer gelesen werden.

Würde wie üblich gefiltert, kann der RAMDAC immer den 1 fertig gefilterten Buffer lesen. Nachteil: Dazu muss das gefilterte Ergebnis erst mal in diesen Buffer geschrieben werden, was Bandbreite kostet.

2002-02-27, 11:59:05

Originally posted by aths
ow: Bei 2x AA muss der RAMDAC zum Filtern 2 Buffer lesen anstatt 1 Buffer mit dem fertig gefiltertem Bild. Bei 4x AA müssen sogar 4 Buffer statt 1 fertiger Buffer gelesen werden.

Würde wie üblich gefiltert, kann der RAMDAC immer den 1 fertig gefilterten Buffer lesen. Nachteil: Dazu muss das gefilterte Ergebnis erst mal in diesen Buffer geschrieben werden, was Bandbreite kostet.

Ja, weis ich doch alles.
Aber wie kommt das mit XMas Erklaerung zusammen?

Da der RAMDAC (bzw, eine vorgeschaltete Filtereinheit) das Bild herunterrechnet, ohne es irgendwo zu speichern (wodurch ja eben die Bandbreite gespart werden soll), muss er permanent Filtern, weil ja auch permanent das Bild an den Monitor übertragen wird. Die benötigte Bandbreite ist also abhängig von der Bildwiederholfrequenz.

WIE ergibt sich da WO eine Abhaengigkeit?

aths

2002-02-27, 12:32:04

ow,

im Artikel steht dazu: "Da der RAMDAC das Downsampling übernimmt, muss er nun jedes Frame filtern, welches angezeigt wird (und nicht nur jedes, welches berechnet wurde)."

(Hervorhebung nachträglich)

2002-02-27, 12:49:21

Originally posted by aths
ow,

im Artikel steht dazu: "Da der RAMDAC das Downsampling übernimmt, muss er nun jedes Frame filtern, welches angezeigt wird (und nicht nur jedes, welches berechnet wurde)."

(Hervorhebung nachträglich)

Richtig.
Und was hat das mit der Bandbreite zu tun?

aths

2002-02-27, 13:09:40

Was passiert denn, wenn der im Chip sitzende RAMDAC aus dem onboard-RAM lesen muss? Das ist ein Vorgang, der Bandbreite benötigt.

Xmas

2002-02-27, 14:58:07

Originally posted by tb
Hmmm, also sind künftige Screenshotvergleiche praktisch sinnlos, da die ja direkt am FB ansetzen und man somit nie die Qualität des FSAA erfahren kann, wenn man nicht ne GF4 im Rechner hat. Werden bei 2 RAMDAC's (nVIEW) mehrere Filtereinheiten davorgeschaltet? Woher stammt eigentlich die Info, Filtereinheit vor den RAMDAC.....
Von NVIDIA bekommt man nur zu hören - Patentanmeldung läuft noch, deshalb keine genauen Informationen über das wie.

Thomas

Das mit den Screenshots ist nicht ganz richtig. Der Framebuffer-Zugriff ist weder bei OpenGL noch bei DX8 direkt, sondern nur über API-Funktionen möglich. Es ist also möglich, dass im Falle eines Screenshots der Treiber das Bild automatisch filtert und dann erst an die Anwendung übergibt (wobei das Filtern natürlich immer noch in Hardware erfolgen kann). Wobei allerdings schon mehrere Leute berichtet haben, dass die Screenshots tatsächlich ohne AA sind.

Diese Technik (Filtereinheit vor dem RAMDAC, bzw. "RAMDAC-Filtern") wurde von 3dfx im VSA-100 verwendet. NVidia sprach bei Accuview davon, einen Schreibzugriff pro Pixel zu sparen. Die einzige mögliche Erklärung, die mir dabei in den Sinn kommt, ist dass NVidia nun auch diese Technik verwendet. Und sie macht ja bei den Ti-Modellen durchaus Sinn, weil die Framerate ausreichend hoch ist.

Dass eine dedizierte Filtereinheit vorhanden ist, wird schon klar wenn man 2x mit Quincunx vergleicht. Die Frameraten sind fast identisch (mit etwas mehr als 8KiB Cache ist die Bandbreite identisch).

Xmas

2002-02-27, 15:13:11

Mal ein anschauliches Beispiel:

2xAA, 1024x768x32Bit, 100Hz, 60 fps

Standardmethode:

Sobald ein Bild fertig gerendert ist, wird es heruntergefiltert und in den Speicher geschrieben.
Dafür müssen pro Frame 6 MiB gelesen und 3 MiB geschrieben werden. Bei 60 fps sind das 540 MiB/s.
Der RAMDAC muss das heruntergefilterte Bild permanent auslesen. Bei 100Hz sind das 300 MiB/s.
Insgesamt sind das 840 MiB/s.

RAMDAC-Methode:

Das Bild wird in hoher Auflösung gerendert, aber erst gefiltert, wenn es ausgegeben werden soll. Der RAMDAC bzw. die Filtereinheit liest also das ungefilterte Bild aus. Das sind pro Hz 6 MiB, insgesamt also 600 MiB/s.

Bei 2xAA bringt die RAMDAC-Methode ab einem fps/Hz-Verhältnis von 1/3 Vorteile, bei 4xAA erst ab 3/5.

2002-02-27, 17:48:36

Die RAMDAC-Methode klingt ja ganz gut. Hoffentlich ist bald NVIDIA's Patent durch, dann wissen wirs genau.

Gruß
Thomas

MadManniMan

2002-02-27, 18:55:09

klar klingt sie ganz gut. jetzt könnte man die bandbreite auch sinnvoll nutzen.

für 4xrgss zB...

Quasar

2002-02-27, 22:39:48

Vielleicht interessiert's ja jemanden, daß nVidia in weiser Voraussicht (?) die 4xFSAA Modes (beide) nicht mit der RAMDAC-Filtermethode ausführt.

Da hat wohl jemand dieselbe Überlegung angestellt wie aths, und ist zu dem Schluß gekommen, daß man bei 4xFSAA auf keinen Fall Leistung verschenken möchte .... :)

aths

2002-02-28, 11:56:17

Könntest du bitte konkreter werden, Quasar?

Quasar

2002-02-28, 18:20:56

Wie meinst du das?

nVidia filtert bei den 4xFSAA Modi nicht mehr im RAMDAC, sondern auf althergebrachte Weise. Was soll ich denn daran noch konkretisieren?

aths

2002-02-28, 19:02:37

Mich würde interessieren, woher du das weisst.

Quasar

2002-02-28, 19:31:20

Wenn man per "Druck-Taste" einen Screenshot erstellt, wird nur der Framebuffer in die Zwischenablage gespeichert. In den Einstellungen 2xFSAA und Quincunx sehen die so erstellten Screenies jedoch aus, wie solche ohne jedes FSAA. Erst bei 4xFSAA und 4xS FSAA bekommt man auch im Screenshot ein geglättetes Bild zu sehen.

aths

2002-02-28, 19:49:50

Quasar,

das sind zumindest gute Indizien, auch wenn noch kein entgültiger Beweis (siehe Xmas' Erklärung.) Es gäbe allerdings durchaus Situationen, wo RAMDAC-Filterung auch bei 4x Geschwindigkeits-Vorteile bringt. Deine Theorie klingt letztlich ganz gut - mal sehen, ob es vielleicht mal etwas offizielles gibt.

(Ich müsste dann ja den Artikel noch um 2-3 Zeilen ergänzen; ehe ich aber Leo mit Korrekturen nerve warte ich lieber noch etwas.)

Unregistered

2002-03-01, 14:42:01

@aths
Whow, was für ein Artikel. So leicht verständlich habe ich das noch niergens lesen können. Wirklich lesenswert. Danke.

Neo

aths

2002-03-03, 02:45:18

Quasar,

es gibt im Web genügend Screenshots von einer GF4, welche 2x AA zeigen. (Beispiel Quake3 auf nvnews)

Hast du deine Versuche mit D3D-Titeln gemacht?

Quasar

2002-03-03, 08:10:06

Sowohl als auch. Vielleicht haben die eine andere Methode gewählt, um die Screenshots zu erstellen, mit der Druck-Taste allein sieht's jedenfalls so aus, als würde erst ab 4xFSAA im Framebuffer gemischt.

Exxtreme

2002-03-03, 11:24:05

@ aths
Du scheinst in deinem Artikel einen IMHO wichtigen Punkt weggelassen zu haben. Und zwar, daß man beim SuperSampling-Verfahren den LOD-Bias senken kann (was zumindest der Radeon8500-Treiber anscheinend automatisch macht), ohne daß Pixelflimmern auftritt. Somit werden die Texturen noch schärfer dargestellt, was die Gesamt-BQ erhöhen kann.

Gruß
Alex

aths

2002-03-03, 17:10:37

Quasar, dabei ist der 4xS-Modus kein "richtiger" 4x-Modus. Du hast das auf einer MX getestet?

Wenn ja, hätte ich folgende Theorie: Die MX-e nutzen RAMDAC-Filterung nur bei 2x, die Tis auch bei 4x.

Exxtreme, im Artikel steht: "Unser Filter-Artikel geht in einem Kapitel auf die Auswirkungen auf die Texturen ein. Mit Supersampling wird nicht nur eine Kantenglättung erreicht, auch die Texturen sehen besser aus.

Quasar

2002-03-03, 17:35:59

Könnte sein. Ja, leider habe ich noch keine Ti bekommen, also mussten erstmal die MXe herhalten.

Das macht auch so sehr viel Sinn, da die MX sehr wahrscheinlich im 4x-Modus deutlich öfter in den Bereich kommt, wo RAMDAC-Filterung Leistung kostet, als es die Ti tun würde.

Und wer weiß, in einem späteren Treiberupdate, wenn die Grafikqualität der Games entsprechend gestiegen ist, könnte man bei der MX ganz auf die RAMDAC-Filter verzichten und bei der Ti diese nur bei 2xFSAA zulassen, und hätte schwupps wieder einen leichten Leistungsgewinn in hohen Auflösungen.