PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Best-of-GPU-Architektur


AnarchX
2010-11-10, 11:31:41
Nvidia, AMD, IMGTec, S3 Graphics, Intel, ... bieten verschiedenste GPU-Architekturen, die sich im Laufe der Zeit massiv wandeln. Bei genauerer Betrachtung sieht man hier bestimmte Vorteile und Nachteile der jeweiligen Architekturen.

Im folgenden seid ihr der Chief-Architect eines neuen GPU-Herstellers, der auf Basis finanzkräftiger Investoren bei der Gestaltung der Architektur nahezu unbegrenzte Mittel hat und so jedes verfügbare Know-How auf dem Markt erwerben könnte und weiterhin entsprechende Technologien entwerfen könnte.

Wie sähe nun eure Architektur aus, welche bekannten Konzepte würdet ihr verbauen und welche Neuerungen?
Weiterhin könnt ihr eine potentielle Flagschiff-SKU euch ausdenken und versuchen diese mit den echten Lösungen zu vergleichen.

Hier mal ein Beispiel:

Cluster:

ähnlich GF110, jedoch mit 2x 64 4D-VLIW ALU-SIMDs, und TMUs mit 4TA/8TF
96 SP-MADD, 32 SP-FMA, 32 DP-FMA
16 INT8 @ bi-AF/tri, 8 FP16 pro Takt
0,25 Dreiecke pro Takt
eine Taktdomain


ROPs und SI:

Cypress ROPs mit jedoch 8Z und zusätzlichem CSAA entkoppelt via Crossbar vom SI
L2-Cache mit der Packdichte von LRB
Speicherkontroller auf dem Niveau von AMD mit ECC


Rasterizer:

skalierbarer Rasterizer wie bei GF100 mit 8 Pixel pro Rasterizer-Block


High-End-SKU:

~550mm² @ 40nm
16 Cluster - 2048SPs 64TA/128TF
32 ROPs - 256Z
384-Bit
2MiB L2-Cache
Taktraten: 875/1200MHz
Leistungsdaten: 3584 GFLOPs SP, 896GFLOPs DP, 112GTex/s INT8 @AF, 230GB/s, 3,5 MTri/s
Vergleich zu GTX 580: ~50% schneller durch die hohe ALU-Leistung selbst bei schlechterer Auslastung (66%) der VLIW-ALUs und die sehr hohe INT8-Füllrate

Wuge
2010-11-10, 18:47:47
GF110 mit 8 GPC/1024SP und 8 ROP-Partitions in einem speziell angepassten 22nm Prozess bei Intel mit Hotclock-Zieltakt >3 GHz. Speicher: 16x 2MBit @ 3 Ghz und gut is ;)

Ich gehe mal davon aus, dass sowohl AMD als auch NV nicht umsonst so designen wie sie es tun. Daher mein nicht ganz ernst gemeinter Vorschlag, der Softwarekompatibilität (CUDA) gewährleistet und durch Breite und Takt einfach vorwärts geht ;)

Nighthawk13
2010-11-10, 20:26:34
* Rechenwerke: Um Performance/Watt zu maximieren: 3D- oder 4D-VLIW mit Hotclock bei moderatem Takt(800/1600). Viele davon;)
* Raster/Texunits: keine Meinung
* Idee: Einfache CPU(max 10% Die-Fläche) im Chip integriert, die direkt aufs Grafikram zugreifen kann.
Kann die Shaderkerne mit Micro-Jobs füttern und kleine serielle Teile rechnen(hauptsächlich für GPGPU aber auch onChip-Drawcalls absetzen/Statechanges für Rendern).
Niedrig-Latente Kommunikation Shaderkerne->CPU über Interrupt o.ä.

Wildfoot
2010-11-10, 20:38:57
Auch nur eine Idee:

Da die Graphikkarte im Prinzip ja ein Endgerät ist, das heisst, sie muss an ihrem Ausgang kein spezielles Timing einhalten*, damit sie mit anderen Komponenten kompatibel ist, könnte man doch auch mal über eine asynchrone GraKa nachdenken. Somit würde die GraKa Architektur immer mit ihrer max. möglichen Geschwindigkeit arbeiten.

*Der Bildschirm ist da ja keine zeitkritische Komponente.

Gruss Wildfoot

Pirx
2010-11-10, 22:15:49
... Speicher: 16x 2MBit @ 3 Ghz und gut is ;)
...
Da müßte die Karte aber ab und zu mal in den Hauptspeicher auslagern:D

tombman
2010-11-10, 22:27:22
Ich würd gar keine neue GPU designen, sondern folgendes tun:

1.) Jetzige DX11 Gpus in neue Konsolen bauen ;)
2.) Tesselation vorschreiben :cool:
3.) Einen Elchtest für KI zwingend vorschreiben :cool:

Damit würde man das gesamte technische Niveau von games schlagartig nach oben bringen.

AMD und Nvidia produzieren weiterhin HighEnd Gpus, für die es eigentlich keinen Sinn mehr gibt. Mit einer Midrange-Gpu kann man heutzutage 95% aller games in hoher Auflösung maximiert >30fps spielen!

deekey777
2010-11-10, 22:30:17
Warum willst du Tessellation vorschreiben?

Sephiroth
2010-11-10, 22:56:08
Flame- und Spam-Posts sind zu unterlassen und werden geahndet (gelle, airbag). :cop:

Grey
2010-11-10, 23:06:02
Ich würd gar keine neue GPU designen, sondern folgendes tun:

1.) Jetzige DX11 Gpus in neue Konsolen bauen ;)
2.) Tesselation vorschreiben :cool:
3.) Einen Elchtest für KI zwingend vorschreiben :cool:

Damit würde man das gesamte technische Niveau von games schlagartig nach oben bringen.

AMD und Nvidia produzieren weiterhin HighEnd Gpus, für die es eigentlich keinen Sinn mehr gibt. Mit einer Midrange-Gpu kann man heutzutage 95% aller games in hoher Auflösung maximiert >30fps spielen!

Tessellation statt Antialiasing als Vorschrift? Auf keinen Fall. Punkt 3 ist Utopie, K.I. ist eine dynamische Sache die wenig an Messungen gebunden werden kann.

Ansonsten stehe ich hinter der Idee.

Superheld
2010-11-11, 05:49:00
I
1.) Jetzige DX11 Gpus in neue Konsolen bauen ;)


ne, die lassen sich ja noch Zeit ;)

mal sehen, 2*580 Perf vllt. in den neuen Konsolen :)
yup sch .geschrieben.

Hugo
2010-11-11, 06:40:20
@AnarchX
sind denn 4-VLIW so im Vorteil gegenüber den jetzigen 1-D skalar Nvidias's?
Rein von der Effiziens her find ich den skalaren Ansatz nicht schlecht

mboeller
2010-11-11, 08:52:15
Toller Thread :)


Best of GPU architecture….

Naja, da bleibt mir nur folgendes übrig:

TBDR auf PowerVR Basis (META; Series5XT; Series6)
AMD SP’s
hochwertige Filterung; zumindest so gut wie Nvidia, besser noch so was wie FAST „Footprint Area Sampled Texturing“ das ist zwar ziemlich alt, aber anscheinend immer noch gut genug.



Die GPU würde dann so aussehen:


16 TMU’s; 256 SPs (VLIW4) ; 8 ROPs
TBDR mit 32x32 großem Tile; 64 Z-units; 4x RG-MSAA for free (Z-Tile mit 64x64 "Pixeln"); Trilinear for free
GPU mit bis zu 1 GHz (TMUs + SPs) => 8 GPixel, 16 GTexel, 512 GFlops SP; 128 GFlops DP
64bit Speicherinterface (DDR3, GDDR3; GDDR5) max. 1000MHz (x4)
Series5XT basiertes MP möglich (>95% effizient)
ca. 80 mm² in 40nm [ Abmessungen: 6,5 x 12,5 mm² ]
ca. 25-35 Watt (bei GDDR5 max. 45 Watt)
keine extra Einheiten für Video etc... sondern ein DarkDroid ähnliches System bei dem die Shader für alles benutzt werden und nur der Befehlssatz und die Taktfrequenz entsprechend angepasst ist (entprechend dann zB. auch für Tesselation).
Multithreading (wie die META CPUs von IMG).
Wave-Größe: 32 od. 64



Was spezielles (gibt es glaube ich gar nicht):

max. 4 GPUs werden miteinander vernetzt auf dem Wafer gefertigt. Das heißt es handelt sich um 4 einzelne GPUs aber mit der notwendigen Verschaltung um als MP-System zu arbeiten. Man fertigt also eine große GPU mit 320mm² [Abmessungen: 26,5 x 12,5 mm²] und zerteilt sie, bei Defekten, bzw je nach Marktsituation in 2-4 kleinere Systeme. Ob so was überhaupt geht: Keine Ahnung!

Die Karten würden dann so aussehen:

Lowend: 1 GPU; 64bit DDR3
Mainstream: 2 GPUs; 128bit DDR3
Midrange: 3 GPUs; 192bit GDDR3; GDDR5
Performance: 4 GPUs; 256bit DGGR5
Highend: SLi/CF von 2 Performance Systemen (aber aufgrund des MP-Systems von IMG mit ca. 90-95% Skalierung)


Zusätzlich würden sich solche TBDR-GPUs aufgrund der geringeren Anforderungen an die Speicherbandbreite hervorragend für IGP’s oder APUs eignen.


PS: ist es nicht schön ein armchair-scientist zu sein. ;)

AnarchX
2010-11-11, 10:06:16
@AnarchX
sind denn 4-VLIW so im Vorteil gegenüber den jetzigen 1-D skalar Nvidias's?
Rein von der Effiziens her find ich den skalaren Ansatz nicht schlecht
Aber in reinen 3D-Berechnungen existieren kaum skalare Workloads, sodass man hier einiges an Transitoren verschenkt. Nicht ohne Grund hat ja NV bei GF104 Superskalarität auf Sheduler-Ebene eingeführt.

Black-Scorpion
2010-11-11, 11:52:31
Warum sollte ein Taktdomain ein Vorteil sein? Viel zu anfällig wenn der gewünschte Takt nicht erreicht wird. Zieht den ganzen Chip runter.

Hugo
2010-11-11, 14:28:59
@AnarchX
Ich kann mir nicht Vorstellen dass die 1D Einheit so schlecht gegenüber den 4VLIW sind.
NV liegt mit den theoretischen Daten (G-Flop Rechenleistung) weit hinter AMD aber real sind sie vor AMD. Also kann der 1D Ansatz doch nicht so schlecht sein, oder?


den Unterschied zw GF100 und GF104 versteh ich nicht so richtig. Ich dacht immer er hat halt 48SP's pro SM, mehr nicht.
Kannst mir das mit der Superskalarität erklären? gerne per PM

Savay
2010-11-11, 15:03:26
NV liegt mit den theoretischen Daten (G-Flop Rechenleistung) weit hinter AMD aber real sind sie vor AMD.

wo sind sie denn bei der realen ALU leistung vor gleichgroßen bzw gleichpreisigen AMD GPUs?! :freak:
ausserdem geht es da um flächeneffizienz...1D einheiten können schon rein prinzipbedingt bei passendem workload (und grafikberechnungen passen schon sehr gut) einfach niemals so flächeneffizient sein wie 4D oder 5D VLIW einheiten.
für eine "traum GPU" ohne rücksicht auf fertigungsprozesse und diesize ist das allerdings eigentlich herzlich egal...da kann man auch 1920 1D einheiten nehmen...ist ja scheiß egal ob der gewünschte chip dann 2000mm² die size besitzen würde. ;)

VLIW sind einfach ein eleganter weg auf möglichst kleiner fläche eine möglichst hohe rechenleistung unterzubringen.

Nakai
2010-11-11, 17:51:04
Im folgenden seid ihr der Chief-Architect eines neuen GPU-Herstellers, der auf Basis finanzkräftiger Investoren bei der Gestaltung der Architektur nahezu unbegrenzte Mittel hat und so jedes verfügbare Know-How auf dem Markt erwerben könnte und weiterhin entsprechende Technologien entwerfen könnte.

Wie sähe nun eure Architektur aus, welche bekannten Konzepte würdet ihr verbauen und welche Neuerungen?
Weiterhin könnt ihr eine potentielle Flagschiff-SKU euch ausdenken und versuchen diese mit den echten Lösungen zu vergleichen.

Hehe, nette Idee.

Mein kleines Konzept:
- Keine direkte Unterteilung in Cluster
- Das Frontend ist skalierbar
- 4 Tesselatoren und 4 Rasterizer, sowie 4 HierachZ
- 0.5 Tri/clk pro Tesselator => 2.0 Tri/clk gesamt
- Jeder Rasterizer rastert max 16 Pix pro Takt
- Kompaktes zentrales Mastercontrolunit, welches direkten Anschluss an extra großen OnDieCache hat, verwaltet die anfallenden Pixelberechnungen an die SIMDs
- 32 SIMDs mit je 4 512Bit(splitbar in je 4 128bBit)Vektoreinheiten und je 2 TMUs, sowie Mediaengine und 32+16KB Shared Cache
- Pro TMU ein TA und 2TFs
- TMUs immer zwei SIMDs agieren als QuadTMU für bestimmte Berechungen
- Großer 512KB L1-Cache und 1MB L2-Cache
- Riesiger 4MB integrierter OnDieCache
- 64ROPs mit je 2Z

Idee dahinter:

Die Vektoreinheiten sind relativ schlank gehalten um viele davon in das Design zu quetschen. So sind die 128 512Bit-Einheiten relativ gut taktbar und verzichten auf Effizienzsteigerungen bei kleineren Operationen.

Die TMUs wurden so ausgelegt, dass sie einen relativ hohen Takt mitmachen.
Die Anzahl wurde auch deswegen relativ niedrig gehalten.

Der allgemeine Durchsatz soll durch viele Caches niemals ins Stocken geraten. Das Frontend ist deswegen relativ großzügig aufgebaut, aber bestimmt nicht auf Effizienz getrimmt.

Das Design soll vor allem viel theoretische Rechenleistung auf einem Haufen bringen.


Daten dazu:
1Ghz Coretakt
1,5 Ghz Shadertakt
64 TMUs
128 16D-Vektoreinheiten (512 128Bit-Vektoreinheiten)
TA: 64.000Mtex/s
TF: 128.000Mtex/s
6144 TFLOPs
64 MPix/s

~380mm²

Tesseract
2010-11-11, 18:33:23
nahezu unbegrenzte mittel? na gut:

ein CPU/GPU merge zu einem hybridchip mit einer ultraschnellen, festen ramanbindung, vergleichbar der heutiger grakas.
mehrere solcher chips über ein schnelles protokoll zusammenschließbar machen, die sich einen gemeinsamen, skalierbar großen ram teilen. also quasi eine cache-stufe mehr als heutige CPUs.
außerdem keinerlei spezielle auslegung auf momentane rasterisierung damit man z.B. in spielen die grafik gestalten/zusammensetzen kann wie man will, egal ob mit voxel, polygonen, freiformflächen oder sonstwie.
das ganze könnte dann über eine einheitliche schnittstelle ansprechbar bzw. programmierbar sein.
das hätte zwar nurmehr wenig mit heutigen PCs zutun, wäre aber für die zukunft sicher sinnvoller.

achja, die idee hat nicht den anspruch kommerziell erfolgreich zu sein (zumindest nicht sofort) sondern ist eine reine machbarkeitstudie. ;D

davidzo
2010-11-11, 22:22:53
* Rechenwerke: Um Performance/Watt zu maximieren: 3D- oder 4D-VLIW mit Hotclock bei moderatem Takt(800/1600). Viele davon;)
* Raster/Texunits: keine Meinung
* Idee: Einfache CPU(max 10% Die-Fläche) im Chip integriert, die direkt aufs Grafikram zugreifen kann.
Kann die Shaderkerne mit Micro-Jobs füttern und kleine serielle Teile rechnen(hauptsächlich für GPGPU aber auch onChip-Drawcalls absetzen/Statechanges für Rendern).
Niedrig-Latente Kommunikation Shaderkerne->CPU über Interrupt o.ä.

klingt nach Fusion wie es uns die marketingabteilung von amd kurz nach der übernahme atis dargestellt hat.

Nighthawk13
2010-11-12, 13:55:16
klingt nach Fusion wie es uns die marketingabteilung von amd kurz nach der übernahme atis dargestellt hat.
Kenne Fusion als 50:50 CPU/GPU mit TDP max. 100W.
Für meinen Teil dachte ich eher an nen Chip mit TDP ~300W mit 10:90 oder 5:95 CPU/GPU.

Die Idee noch etwas weiter gesponnen:
Micro-ATX-Mainboard mit fest verlötetem Hybridchip und 2GB Grafikram.
Hybrid-Chipfläche aufgeteilt in 20:80 Quadcore-CPU/GPU.
Taktung 4:2:1 (CPU/Shader/Texunits), 3200/1600/800.
4 DDR3-Steckplätze für weiteres Ram(Slow-mem;)).
3 PCI-E Steckplätze für IO/Sound/misc-Extensioncards(diese können im nächsten Board wiederverwendet werden).

z3ck3
2010-11-13, 00:45:20
hm... Grob:

Die Power eines NV Chips, die Effizienz eines AMD, die Treiber von NV, die "Tricks" eines PVR, den Kult von 3dfx, einen Modus absolut ohne Filtertricks, mit 1a AA/AF, von Intel Nix :D Achja BITTE wieder einen SVideo-Ausgang :D Achja und drei monitore Nutzbar, egal ob DVI/VGA/HDMI oder sonstwas.

Eigentlich ist es mir scheiß egal was im Chip schlummert. Er soll nur verdammt nochmal richtig gut sein. Aktuell gibts ja fast nur Hightechschrott... nur Kompromisslösungen.

Was mich aktuell tierisch aufregt bei allen Grafikkarten:
* Highend ohne Svideo
* Highend viel zu hoher Stromverbrauch unter Multimonitor und sogar Idle
* Vergleichsweise schlechte Filterqualitäten. Auch NV ist nicht die Krönung des machbaren, AMD unter aller Sau (sorry)
* Kein wirklich frei konfigurier- und nutzbare Bildschirmkonstellationen (Afaik NV z.b. nur zwei Bildschirme, AMD zwar mehr aber nur irgendwie wenn einer DP zwei HDMI und son s***)
* Zu laut in Idle, das geht unhörbar.

Aber ich bin auch "nur" einfacher user und kein Technikmensch der genau weiß wies drin aussieht. Aber was nützt ein tolles innere wenn außen nur Halbgares bei raus kommt...

Savay
2010-11-13, 01:00:27
Was mich aktuell tierisch aufregt bei allen Grafikkarten:
* Highend ohne Svideo



was zum henker willst du bei ner highend karte mit svideo!? :freak:

RavenTS
2010-11-13, 01:20:05
...
Die Idee noch etwas weiter gesponnen:
Micro-ATX-Mainboard mit fest verlötetem Hybridchip und 2GB Grafikram.
Hybrid-Chipfläche aufgeteilt in 20:80 Quadcore-CPU/GPU.
Taktung 4:2:1 (CPU/Shader/Texunits), 3200/1600/800.
4 DDR3-Steckplätze für weiteres Ram(Slow-mem;)).
3 PCI-E Steckplätze für IO/Sound/misc-Extensioncards(diese können im nächsten Board wiederverwendet werden).

Klingt fast nach der nächsten Konsolengeneration ;)

VinD
2010-11-14, 20:54:04
Kenne Fusion als 50:50 CPU/GPU mit TDP max. 100W.
Für meinen Teil dachte ich eher an nen Chip mit TDP ~300W mit 10:90 oder 5:95 CPU/GPU.


Was willst du mit der CPU in der GPU erreichen?

Die Idee noch etwas weiter gesponnen:
Micro-ATX-Mainboard mit fest verlötetem Hybridchip und 2GB Grafikram.
Hybrid-Chipfläche aufgeteilt in 20:80 Quadcore-CPU/GPU.
Taktung 4:2:1 (CPU/Shader/Texunits), 3200/1600/800.
4 DDR3-Steckplätze für weiteres Ram(Slow-mem;)).
3 PCI-E Steckplätze für IO/Sound/misc-Extensioncards(diese können im nächsten Board wiederverwendet werden).

- das wird an dem lahmen DDR3-RAM scheitern
- meinst du 3 PCI-E lanes oder ganze 3mal 16xLanes?

EDIT: btw:
Bei einer Auflösung von üblichen 1920x1080 @8AA machen ab geschätzten 4Mio Polygonen pro Bild die verwenden Polygonbasierender Rendertechniken nurnoch nasse.
So hoch sollte man also den Wachstum an Tess-Einheiten nicht erwarten. Es wird in naher Zukunft wohl mehr auf hohe Texturauflösung und Fragmentshadern zugearbeitet werden müssen. Die Instruktions-Länge der Shader und deren pro Pixelarbeit wird wie immer ansteigen. Heißt also größere und häufigere Caches und eventuell sogar mehrere Cachestufen. Andeutungen sind in den heutigen Architekturen schon zu sehen. Zudem limitieren weiterhin VRAM/PCI-E/RAM/Festplatte die Versorgung der Pixelbeschleuniger. Wären sie doch nur größer und breiter :D

GPU:
-512 Bit SI und 4GiB VRAM GDDR5@2600MHz
-16 ShaderCluster mit je: 4 SIMDs 4Dx16 je 2TMU(pro Takt 160 Billnear gefilterte Pixel und 32x32k große Texturen) und 1Tess
-[4096 SP; 128TMU; 4Tess; 48ROPs]-
-1Rasterisierer
-22nm
-Chiptakt 1GHz
-Anno 2012

mfg

AwesomeSauce
2010-11-14, 23:03:44
GPU:
- 4 GPCs
- 64 ROPs
- 512 Bit MemInterface

GPC:
- 1 Rasterizer
- 4 SMs

SM:
- 64 Cayman 4D-VLIW ALUs
- 8 GF110 TMUs
- 8 SFUs
- 1 PolyMorph Engine

= 4096 SPs, 128 TMUs, 4 Rasterizer, 64 ROPs, 16 Tessellatoren

Also quasi ein Kind von GF110 und Cayman:) Dürfte unter 28nm bei etwa 450mm2 machbar sein...

Man_In_Blue
2010-11-15, 00:03:57
Bah... nur so aufgeblasene Riesen Chips... da bin ich ja gar kein Freund mehr von. :biggrin:


Wenns nach mir ginge würde man da ganz massiv umdenken und statt einzelner unwirtschaftlicher Riesenchip mit über 2cm² Diefläche daher kommen die einzelnen Funktionen soweit wie möglich von einander entkoppelt und in angemessener Anzahl in einzel Verlötbare möglichst gut skallierbaren Paketen unterbringen.

Sprich zB. einzelne Chips für die 2D Funktionalität, die Pixel/Texel Pipelines und die Shader. Das würde die Entwicklung und Produktion der einzelnen chips vereinfachen und wesendlich wirtschaftlicher machen.

Aus den einzelnen Bauelementen sollten sich dann die fertigen Grafikbeschleungier zusammen kombinieren lassen.

Hat zudem den Vorteil das einzelne Elemente auch bei anderen Produkten eingesetzt werden können ohne direkt en großen, teuen Grafikchip nutzen zu müssen. (zB. schleppen die Cuda-Beschleuniger von nVidia ja noch den ganzen 2D und 3D-Grafik ballast mit sich rum obwohl man eigendlich nur scharf auf die Shader ist)

Besonders in fehrnerer Zukunft falls Raytracing mal aktuell wird könnte so eine Architektur von vorteil sein.

Nur meine utopische Vorstellung von nem gescheitem Grafikprodukt. ;D

Sören

Coda
2010-11-15, 00:14:37
Das scheitert schon an der Bandbreite der Interconnects.

VinD
2010-11-15, 00:22:19
Das scheitert zudem an die Kosten für die Packages und dem Layout des PCBs und dessen Größe (Mehr Chips, mehr Platzverbrauch)

EDIT:Wird so doch so ähnlich für einen Chip gehandhabt. Einige größere Funktionsgruppen bleiben immer gleich in der gesamten Produktlinie.

Man_In_Blue
2010-11-15, 08:52:09
Jedenfalls mit den aktuellen Technologien...

Wobei wenn man mehrere Chips auf ein Package verdrahten würde wie es anfangs auch mit den ersten DualCore CPUs gemacht wurde, würde das die Kosten fürs Board in Grenzen halten. Aber mehr als 2 oder 3 Chips würden dann wohl ned auf ein Package passen...

Wie gesagt: ist utopie... aber definitv der "freuchte Traum" eines Wirtschaftsinformatikers XD

Sören

Nighthawk13
2010-11-15, 11:08:15
Was willst du mit der CPU in der GPU erreichen?
Das im CPU-Code auch kleine Arbeitspakete von der Gpu bearbeitet werden können. Und umgekehrt. Das wäre hauptsächlich für GPGPU.
Wenn es "nur" um das Steuern der Drawcalls/Statechanges geht tut's auch ne kleine ARM CPU@Shaderclock.


- das wird an dem lahmen DDR3-RAM scheitern
- meinst du 3 PCI-E lanes oder ganze 3mal 16xLanes?

Das DDR3 war hauptsächlich für die CPU gedacht, da sollte die Performance reichen.
Die Slots müssen für SSD/Lightpeak&co schnell genug sein, sagen wir 1x16 und 1x8 und 1x1.

Tesseract
2010-11-15, 15:36:22
Wenns nach mir ginge würde man da ganz massiv umdenken und statt einzelner unwirtschaftlicher Riesenchip mit über 2cm² Diefläche daher kommen die einzelnen Funktionen soweit wie möglich von einander entkoppelt und in angemessener Anzahl in einzel Verlötbare möglichst gut skallierbaren Paketen unterbringen.

das ist tendenziell aber wesentlich teurer, deswegen geht der trend genau in die gegenrichtung zum SoC.

so lange die chips noch mit halbwegs guten yields fertigbar sind ist das einfach die bessere lösung.

VinD
2010-11-17, 23:04:33
Und wenn nur Unterschiede zwischen zwei Bildern neu-gerendert werden?
Ähnlich MPEG4

Dann spart man sich doch ne menge Leistung, aber scheinbar gibt es Gründe dafür es nicht umzusetzten

EDIT: Ich finde es einfach verschwenderisch ein und das selbe hunderte mal immer gleich zu rendern. Wände die kaum ihre Perspektive ändern zum Beispiel.