leistungsfaktoren bei grakas [Archiv]

boxleitnerb

2002-07-07, 21:25:46

Hallo allerseits,

ich wollte mal eine Frage ins Forum werfen, die mich scon länger beschäftigt:
Wie kann man die Leistung zukünftiger Grafikchips vergrößern außer durch Erhöhung des Taktes von GPU/Ram und außer Erhöhung der Anzahl von Pipelines/TMUs? Man kann nicht auf unabsehbare Zeit diese genannten Faktoren verändern, oder? Physikalisch und finanziell bedeutet das viel Aufwand, auch wenn die Fertigungsprozesse kleiner werden. TBR und HyperZ/LMA sind der Anfang was effizienzsteigernde Verfahren angeht, doch was kommt dann? Ich habe mal gelesen, dass Nvidia ganz am Anfang sog. "quadratic textures" benutzte, die effektiver sein sollen, als heutige Renderingverfahren.
Irgendwelche Prognosen oder Vermutungen was die Zukunft angeht?

Wuzel

2002-07-07, 21:36:45

Voxel Rendering in HW :D

Multichip-lösungen ......

Hmm, aber sowas wie der P10 ist meiner meinung nach eher die Zukunft oder ?

boxleitnerb

2002-07-07, 22:10:59

Eigentlich meine ich nicht die Möglichkeiten, Grafikeffekte darzustellen, wofür der P10 ja durch seine Programmierbarkeit ein sehr gutes Beispiel ist, sondern die reine Performance der 3D-Darstellung.
Wenn ich mir zum Beispiel anschaue, dass Matrox auf der Parhelia 4 (!) Vertexshader verbaut und damit nur sehr mittelmäßige Performance in diesem Bereich erreicht komme ich schon leicht ins Grübeln. Aber das kanns doch auf Dauer nicht sein: Von allem einfach mehr nehmen und das wars dann - das finde ich nicht innovativ.

Modulor

2002-07-08, 00:27:52

Deferred rendering á la PowerVR :D!
Leider hat PowerVR im PC Sektor noch keine Möglichkeit gehabt das mal "richtig" darzulegen. KYRO II läßt ja nur erahnen was man mit Hilfe des TBR Konzeptes un d einem minimalen Aufwand an günstiger Hardware rausholen kann...
Das ganze dann in einen Topf geworfen mit den Techniken des P10 und anständig gerührt - und voilá :D!

Exxtreme

2002-07-08, 00:36:46

Originally posted by Modulor
Deferred rendering á la PowerVR :D!

Richtig. Hat aber einen kleinen Nachteil. Es ist eine "einmalige" Sache. Danach geht's weiter mit Brute-Force.

Also womit sich noch die Leistung steigern liesse wären adaptive Verfahren zu Filterung. ATi hat es mit dem AF vorgemacht und Matrox mit dem AA. Nur die Sachen filtern, die auch benötigt werden. Da lässt sich auch garantiert was an Bandbreite/Füllrate einsparen.

Gruß
Alex

2002-07-08, 09:41:22

Originally posted by Modulor
Deferred rendering á la PowerVR :D!
Leider hat PowerVR im PC Sektor noch keine Möglichkeit gehabt das mal "richtig" darzulegen. KYRO II läßt ja nur erahnen was man mit Hilfe des TBR Konzeptes un d einem minimalen Aufwand an günstiger Hardware rausholen kann...
Das ganze dann in einen Topf geworfen mit den Techniken des P10 und anständig gerührt - und voilá :D!

Günstige HW? Ein TBR ist wohl 'etwas' komplexer als ein IMR und somit auch nicht günstiger.

Demirug

2002-07-08, 09:54:26

Originally posted by ow

Günstige HW? Ein TBR ist wohl 'etwas' komplexer als ein IMR und somit auch nicht günstiger.

Das ist schon richtig aber beim TBR läst sich in der Regel ja wieder Geld einsparen da man eine etwas geringer Speicherbandbreite braucht. Was allerdings die Zukunft von TBR im PC sektor angeht bin ich wie ja schon an anderer Stelle erwähnt skeptisch da das Oculussion Culling auf Objektebne mit TBR einfach nicht so gut geht. Das IMO aber wohl der einzige Weg ist um langfristig die gesamte 3d Pipeline zu entlasten.

Pussycat

2002-07-08, 10:44:15

Originally posted by ow

Günstige HW? Ein TBR ist wohl 'etwas' komplexer als ein IMR und somit auch nicht günstiger.

Wenn ein Kyro II mit 15M transistoren und billigem Speicher so schnell ist wie eine GF2GTS mit 28M (glaub' ich) Transistoren und damals teurem DDR-speicher, ist er sicherlich günstiger.

Und warum ein komplexeres Konzept einen teuren Chip ergeben muss, ist mir wirklicht nicht deutlich.

2002-07-08, 11:00:22

Originally posted by Pussycat

Wenn ein Kyro II mit 15M transistoren und billigem Speicher so schnell ist wie eine GF2GTS mit 28M (glaub' ich) Transistoren und damals teurem DDR-speicher, ist er sicherlich günstiger.

Der K2 erreicht nicht überall Gf2GTS Leistung. Die GF2 ist universeller einsetzbar (zB. GF2 Quadro).

Und warum ein komplexeres Konzept einen teuren Chip ergeben muss, ist mir wirklicht nicht deutlich.

Entwicklungskosten.
Schon vom K1 zum nur höher getakteten K2 musste da von PVR wesentlich mehr investiert werden (+3Mio Transis!) als bei einem reinen DIE-Shrink.

egdusp

2002-07-08, 22:56:25

Originally posted by ow

Entwicklungskosten.
Schon vom K1 zum nur höher getakteten K2 musste da von PVR wesentlich mehr investiert werden (+3Mio Transis!) als bei einem reinen DIE-Shrink.

Die höhere Transistorenzahl hat nicht zwangweise etwas mit der Komplexität des Chips zu tun. Wie Intel mit dem P4 gezeigt hat, kann man mehr Transistoren auch verwenden um sie seltener zu benutzen => weniger Wärme auf einem Fleck => höhere Taktraten.
Es kann also sein, dass PowerVR einfach die Hotspots des Kyro1 chips verbreitert hat. Dies kann, muss aber nicht, der TBR Teil gewesen sein. Vielleicht waren einfach die TMUs zu heiß, da sie ständig am Füllratenlimit arbeiten mussten.

Pussycat

2002-07-09, 00:18:44

Originally posted by ow

Der K2 erreicht nicht überall Gf2GTS Leistung. Die GF2 ist universeller einsetzbar (zB. GF2 Quadro).

Nein, machmal hat sie auch GF2U-niveau. Machmal aber auch GF2MX. Insgesammt aber ziemlich ebenbürtig.

Und zum quadro: Da PVR es nie in diesem Segment versucht hat, können wir nicht wissen wie gut der K2 hier ist. Jedenfalls erreicht der K2 mit der hälfte der Transistoren die gleiche Leistung. Auch wenn vom K1 -> K2 3M dazu kamen.

2002-07-09, 09:06:21

Originally posted by egdusp

Die höhere Transistorenzahl hat nicht zwangweise etwas mit der Komplexität des Chips zu tun. Wie Intel mit dem P4 gezeigt hat, kann man mehr Transistoren auch verwenden um sie seltener zu benutzen => weniger Wärme auf einem Fleck => höhere Taktraten.
Es kann also sein, dass PowerVR einfach die Hotspots des Kyro1 chips verbreitert hat. Dies kann, muss aber nicht, der TBR Teil gewesen sein. Vielleicht waren einfach die TMUs zu heiß, da sie ständig am Füllratenlimit arbeiten mussten.

Das mit den TMUs glaube ich nicht.
Auch andere Chips und der Kyro2 arbeiten zumeist am Fillratelimit.

2002-07-09, 09:08:58

Originally posted by Pussycat

Nein, machmal hat sie auch GF2U-niveau. Machmal aber auch GF2MX. Insgesammt aber ziemlich ebenbürtig.

Und zum quadro: Da PVR es nie in diesem Segment versucht hat, können wir nicht wissen wie gut der K2 hier ist. Jedenfalls erreicht der K2 mit der hälfte der Transistoren die gleiche Leistung. Auch wenn vom K1 -> K2 3M dazu kamen.

Zum Quadro: Fuer Profi-OGL Einsatz, also zumeist untexturierte oder Wireframe-Darstellungen, sind TBRs prinzipiell schlechter geeignet.

Hier erreicht mein K1 nur leicht hoehere Werte als ein RivaTNT (Viewperf 6.1.2/7.0).

Pussycat

2002-07-09, 11:13:38

Stimmt, da der HSR-vorteil wegfällt. Aber ist dr Chip 'eigentlich' doch komplexer als die GF2, weil er nicht optimal im wireframe funtzt?

Aber es ging darum ob TBR ein chip komplexer macht. Nicht dass der K2 nicht für 3dSmax gemacht ist, und auch nicht darüber warum der K2 3M Transistoren mehr hat.

HOT

2002-07-09, 15:17:03

Originally posted by ow

Der K2 erreicht nicht überall Gf2GTS Leistung. Die GF2 ist universeller einsetzbar (zB. GF2 Quadro).

Entwicklungskosten.
Schon vom K1 zum nur höher getakteten K2 musste da von PVR wesentlich mehr investiert werden (+3Mio Transis!) als bei einem reinen DIE-Shrink.

Ow, das ist leider Schwachsinn. PowerVR hat nicht mehr Entwicklungskosten als beispielseise NVidia. Sie gehen nur einen anderen Weg, das ist alles. Desweiteren glaube ich nicht, dass ein solches Design schwerer herzustellen ist für einen Chipdesigner. PowerVR hatte ST und die sind nie besonders engagiert zu Werke gegangen - es musste billig sein, sonst nix. Ein Anderer Hersteller wäre hier vielleicht besser gewesen.
Die DIE Grösse des K1/2 ist wirklich gering zur erreichten Leistung, sogar die MX hat mehr Transistoren. Ich gehe sogar vielmehr davon aus, dass man sich viel DIE Fläche sogar einsparen kann, um ähnliche Leistungen zu erreichen wie ein IMR Chip.

2002-07-09, 16:31:10

Originally posted by HOT

Ow, das ist leider Schwachsinn. PowerVR hat nicht mehr Entwicklungskosten als beispielseise NVidia.

HOT, das ist leider Schwachsinn, weil ich das nie gesagt habe.

Sie gehen nur einen anderen Weg, das ist alles. Desweiteren glaube ich nicht, dass ein solches Design schwerer herzustellen ist für einen Chipdesigner. PowerVR hatte ST und die sind nie besonders engagiert zu Werke gegangen - es musste billig sein, sonst nix. Ein Anderer Hersteller wäre hier vielleicht besser gewesen.
Die DIE Grösse des K1/2 ist wirklich gering zur erreichten Leistung, sogar die MX hat mehr Transistoren. Ich gehe sogar vielmehr davon aus, dass man sich viel DIE Fläche sogar einsparen kann, um ähnliche Leistungen zu erreichen wie ein IMR Chip.

Bei gleichen Specs (Pipeanzahl, Features,..) muss ein TBR mehr Transistoren haben als ein IMR. Naemlich soviel mehr wie die HSR-Logik braucht.

HOT

2002-07-09, 18:34:15

und wieviel mehr soll das sein? Du hast mich glaub ich net verstanden: du brauchst net soviel Trasistoren für einen dTBR wie für einen vergleichbar schnellen IMR.
Auf dem TBR kann man sich den gesamten Käse zum bandbreitesparen schenken.

Pussycat

2002-07-09, 19:11:52

Genau, ein IMR wie der R200 muss von 64 pixel der grösste z-wert ermitteln, das mit einem anderen vergleichen, bei Pech alle z-werte vergleichen. Das kostet auch transistoren. Der K2 errechnet gar keine z-werte.

Ich glaube nicht, dass wir beide einfach vergleichen können. Man müste halt einen so einfach möglichen chip mit beiden methoden machen. Vielleicht mal PVR und NV anrufen?

2002-07-09, 19:30:17

Originally posted by HOT
und wieviel mehr soll das sein? Du hast mich glaub ich net verstanden: du brauchst net soviel Trasistoren für einen dTBR wie für einen vergleichbar schnellen IMR.
Auf dem TBR kann man sich den gesamten Käse zum bandbreitesparen schenken.

Das ist richtig. Da hab ich dich wohl falsch verstanden.

Wie du mich auch.:D
DIe 'Entwicklungskosten' vom K1 zum K2 sind zB. sicher höher als die von TNT1 zu TNT2. Weil PVR eben noch 25% Transis hinzudesignen musste, um shrinken zu können.

Pussycat

2002-07-09, 20:02:13

War die tnt 2 nur ein die-shrink? *nichtguwussthab*

aber um die Kosten zu vergleichen, muesste man kosten(tnt1+tnt2+gf1+gf2) mit kosten (series3 + series4 + k1->k2) vergleichen, wass wohl nicht zu machen ist.

Aber wieder: was hat der kosten (tnt1 -> tnt2) vs (k1->k2) vergleich mit der komplexitaet der methoden zu tun???

StefanV

2002-07-09, 21:52:24

nein, die TNT2 war nicht nur ein Shrink vom TNT...

Der RAMDAC wurde höher getaktet und der AGP zu der 2.0 Spezi kompatibel gemacht.

Bei der GF1 -> GF2 wurde eine Pipeline und einige Register (VAR) hinzugefügt...

2002-07-09, 22:18:35

Und der TNT2 kann AFAIK noch Motion Compensation. Ist dennoch prakitsch nur ein Shrink, kaum höhere Transistorzahl.

Der Gf2 hat 2TMUs/pipe, der GF1 nur eine. Anzahl pipes ist gleich.

GloomY

2002-07-10, 02:33:37

Originally posted by ow
Zum Quadro: Fuer Profi-OGL Einsatz, also zumeist untexturierte oder Wireframe-Darstellungen, sind TBRs prinzipiell schlechter geeignet.

Hier erreicht mein K1 nur leicht hoehere Werte als ein RivaTNT (Viewperf 6.1.2/7.0). ... was ja nur an der fehlenden Füllrate und nicht am TBR Prinzip liegt.
Originally posted by ow
DIe 'Entwicklungskosten' vom K1 zum K2 sind zB. sicher höher als die von TNT1 zu TNT2. Weil PVR eben noch 25% Transis hinzudesignen musste, um shrinken zu können. Imho war das nicht einfach nur ein Die Shrink.
Wenn ich mich richtig erinnere, kann der K1 doch 2 Trilinear gefilterte Pixel pro Takt erzeugen, während der K2 das nur bilinear kann (braucht einen Takt mehr bei Trilinear).

2002-07-10, 09:06:32

Originally posted by GloomY
... was ja nur an der fehlenden Füllrate und nicht am TBR Prinzip liegt.

Kann man auf beide Arten sehen.
a) HSR kann nicht greifen bei Wireframe-Darstellung, folglich
b) schlaegt die geringe Fuellrate direkt durch.

Imho war das nicht einfach nur ein Die Shrink.
Wenn ich mich richtig erinnere, kann der K1 doch 2 Trilinear gefilterte Pixel pro Takt erzeugen, während der K2 das nur bilinear kann (braucht einen Takt mehr bei Trilinear).

AFAIK nein.
Die Chips sind identisch und brechen beide stark ein bei trilinearer Texturfilterung.
Meine K1 erreicht nur 55-60% der Fillrate gegenueber bilinearem Filtern.

Pussycat

2002-07-10, 11:26:07

ow, könntest du jetzt mal eine erklärung geben WARUM TBR zwangsmäßig komplexere chips als IMR geben muss? Du versuchst dich dauernd der Beweislast zu entziehen durch aussagen wie

DIe 'Entwicklungskosten' vom K1 zum K2 sind zB. sicher höher als die von TNT1 zu TNT2. Weil PVR eben noch 25% Transis hinzudesignen musste, um shrinken zu können.

aber hast noch immer keinen zwingenden Grund genannt. Ich halte es auf den ersten Blick auch für logisch, da das Konzept nicht so selbstverständlich ist wie ein IMR. Aber wenn ich sehe was der K1 alles an features kann mit 12M transistoren, muss ich das wohl bezweifeln.

Ich sage nicht, dass ein TBR weniger Transistoren braucht. Aber ich denke wohl dass es danach aussieht.

Ach ja, fiel mir gerade ein: Er braucht auch kein pipeline combinig, kein loop-back und nur ein TMU/pipeline.

Pussycat

2002-07-11, 12:31:09

ow? Bist du noch da?

2002-07-11, 13:11:02

Originally posted by Pussycat
ow, könntest du jetzt mal eine erklärung geben WARUM TBR zwangsmäßig komplexere chips als IMR geben muss? Du versuchst dich dauernd der Beweislast zu entziehen durch aussagen wie

aber hast noch immer keinen zwingenden Grund genannt. Ich halte es auf den ersten Blick auch für logisch, da das Konzept nicht so selbstverständlich ist wie ein IMR. Aber wenn ich sehe was der K1 alles an features kann mit 12M transistoren, muss ich das wohl bezweifeln.

Ich sage nicht, dass ein TBR weniger Transistoren braucht. Aber ich denke wohl dass es danach aussieht.

Ach ja, fiel mir gerade ein: Er braucht auch kein pipeline combinig, kein loop-back und nur ein TMU/pipeline.

Entwicklungskosten = hauptsaechlich Personalkosten.
Und 25% mehr Transis von K1 zum K2 sind nicht in eben mal in Kuerze dazudesignt.
Ein reiner DIE-Shrink kostet fast nichts. Aber das war ja von K1 zum K2 wohl nicht moeglich.-> Mehrkosten.

???
Was kann denn der K1 so besonderes, dass du 12Mio Transis fuer wenig haeltst? Und sind die 15Mio des baugleichen K2 auch noch wenig?

Dem fehlen ja schon einige blending Modi, die selbst schon ein Riva TNT beherrscht. Und der hat AFAIK nur 7Mio Transis.

Zum Transistorcount:
a) der Rasterizer eines TBR ist identisch mit dem eines IMR -> gleiche Transistorzahl, dasselbe fuer triangle setup und (sofern vorhanden) T&L.

Der TBR (hier=Kyro) hat zusaetzliche Einheiten (HSR), die eine IMR nicht hat.

--> der TBR hat mehr Transis.

zu deinem letzten Satz: s.o. (identischer Rasterizer), der Kyro arbeitet mit Loopback, koennte mit pipeline combining arbeiten und koennte auch mehr TMUs/pipe haben.

GloomY

2002-07-11, 13:41:55

Originally posted by ow
AFAIK nein.
Die Chips sind identisch und brechen beide stark ein bei trilinearer Texturfilterung.
Meine K1 erreicht nur 55-60% der Fillrate gegenueber bilinearem Filtern. Hmm, imho stand in der Readme zum Villagemark in einer früheren Version drin, dass der K1 zwei trilinear gefilterte Pixel pro Takt liefern kann.

In den Versionen, die es jetzt zum download gibt, fehlt dieser Text aber leider.

Hmm, vielleicht finde ich noch eine andere Quelle...

Ow, könntest du den Unterschied bi-/ Trilinear mal bitte nachbenchen (Q3A, UT etc). Thx. =)

2002-07-11, 14:05:45

Originally posted by GloomY
Hmm, imho stand in der Readme zum Villagemark in einer früheren Version drin, dass der K1 zwei trilinear gefilterte Pixel pro Takt liefern kann.

In den Versionen, die es jetzt zum download gibt, fehlt dieser Text aber leider.

Hmm, vielleicht finde ich noch eine andere Quelle...

Ow, könntest du den Unterschied bi-/ Trilinear mal bitte nachbenchen (Q3A, UT etc). Thx. =)

Ja, kann ich heute oder morgen mal kurz benchen (Q3 und Unreal, UT hab ich nicht).

Am extremsten ist der Unterschied bei fillrate-limitierung, wenn der Chip also am Limit arbeitet. Im VillageMark ergibt sich trilinear nur etwas mehr als 50% vom bilinearen Ergebnis.

Pussycat

2002-07-11, 15:57:10

Originally posted by ow

Entwicklungskosten = hauptsaechlich Personalkosten.
Und 25% mehr Transis von K1 zum K2 sind nicht in eben mal in Kuerze dazudesignt.
Ein reiner DIE-Shrink kostet fast nichts. Aber das war ja von K1 zum K2 wohl nicht moeglich.-> Mehrkosten.

Ich weiss. Ich habe aber schon zweimal gefragt, was das mit dem Thema zu tun hat

Was kann denn der K1 so besonderes, dass du 12Mio Transis fuer wenig haeltst? Und sind die 15Mio des baugleichen K2 auch noch wenig?

Dem fehlen ja schon einige blending Modi, die selbst schon ein Riva TNT beherrscht. Und der hat AFAIK nur 7Mio Transis.

Alle bumpmapping-arten. Das hat der GF2 nicht mal.
Und halt geschwindigkeit! Das spart pipelines und also auch transistoren. mit 2*1 kann er dem 4*2 der GF2 paroli bieten.

Zum Transistorcount:
a) der Rasterizer eines TBR ist identisch mit dem eines IMR -> gleiche Transistorzahl, dasselbe fuer triangle setup und (sofern vorhanden) T&L.

Der TBR (hier=Kyro) hat zusaetzliche Einheiten (HSR), die eine IMR nicht hat.

--> der TBR hat mehr Transis.

Muss immer noch nicht, weil er andere Teile nicht braucht!

zu deinem letzten Satz: s.o. (identischer Rasterizer), der Kyro arbeitet mit Loopback, koennte mit pipeline combining arbeiten und koennte auch mehr TMUs/pipe haben.

Er könnte dies haben. Er könnte auch 4 pipelines haben. Weil er aber sparsamer ist braucht er es nicht.