Archiv verlassen und diese Seite im Standarddesign anzeigen : Grafikchip berechnet Flussigkeitssimulationen für Filme
Demirug
2004-02-03, 21:40:29
Das "Film" (http://film.nvidia.com/page/home) Projekt von nVidia trägt erste Früchte.
http://film.nvidia.com/docs/CP/4449/frantic_GPUAccelerationofFluids.pdf
FX2000 zersägt 1800+ Athlon. 10.3s gegen 32.0s.
Hmm, das hört sich ja schonmal nicht schlecht an. Allerdings wird ja - zumindest soweit ich das gesehen habe - nirgendwo erwähnt, wo das Programm jetzt abläuft. Ist das jetzt ein Shaderprogramm oder wird die GPU nur mit speziell den Daten gefüttert, die ins "Rechenschema" einer GPU "reinpassen", sprich für die eine GPU sowieso schon ausgelegt/optimiert ist?
-huha
Demirug
2004-02-03, 22:49:33
Die GPU wird hier "missbraucht" um Gleichungen zu lösen. Also als mathematischer Coprozessor. Dafür hat man einen Speziellen Pixelshader programmiert.
Mr. Lolman
2004-02-03, 22:54:34
Also das bild macht schon mal Lust auf mehr.
http://www.ystart.net/upload/20040203/1075844971.jpg
Allerdings scheint die Berechnung auf der FX noch nicht sehr effizient zu sein.
http://www.ystart.net/upload/20040203/1075845208.png
http://www.ystart.net/upload/20040203/1075845256.png
Quasar
2004-02-03, 23:09:33
Woraus schließt du das?
Demirug
2004-02-03, 23:21:30
Original geschrieben von Quasar
Woraus schließt du das?
Laut dem Dokument hat die FX2000 das 8,53 fache an Recheleistung ist aber nur etwa 3 mal schneller. Das Problem ist aber ja bekannt.
Mr. Lolman
2004-02-03, 23:24:45
Zum einen dass die FX aus der theoretisch >8.5x höheren FP Leistung, nur ~3.1x höhere Performance bringt, und zum anderen aus folgendem Teil der pdf...
We can see that from this standpoint it is clear that the Quadro FX chip out performs the Athlon significantly in reagrds to floating point operations. Unfortunately, we were unable to realize the full speed up because of the slowness of the dot product operation.
Also, im Grossen und Ganzen, eine nette Entwicklung hinsichtlich CineFX, aber der Performanceunterschied zw. einem 50€ Prozessor und einer 1400€ GraKa ist m.E. noch zu gering.
/edit: Demi war schneller :weg:
AlfredENeumann
2004-02-03, 23:38:59
Original geschrieben von Mr. Lolman
Also, im Grossen und Ganzen, eine nette Entwicklung hinsichtlich CineFX, aber der Performanceunterschied zw. einem 50€ Prozessor und einer 1400€ GraKa ist m.E. noch zu gering.
Wie schnell wären wohl 28 von den AMD´s paralell?
Quasar
2004-02-03, 23:55:55
Original geschrieben von Demirug
Laut dem Dokument hat die FX2000 das 8,53 fache an Recheleistung ist aber nur etwa 3 mal schneller. Das Problem ist aber ja bekannt.
Ok, wobei, ich bin sicher, wenn man AMD fragen würde, hätten die auch noch schönere Marketingzahlen für ihren Athlon. :)
Was ich allerdings recht effizient finde, ist, daß man z.B. mehrere Grafikkarten in einen Rechner stecken kann und das Ganze dann schön Parallelisieren. Oder nicht?
Quasar
2004-02-03, 23:56:27
Original geschrieben von AlfredENeumann
Wie schnell wären wohl 28 von den AMD´s paralell?
Was würden die wohl inklusive Infrastruktur kosten?
Demirug
2004-02-04, 07:40:16
Original geschrieben von Quasar
Ok, wobei, ich bin sicher, wenn man AMD fragen würde, hätten die auch noch schönere Marketingzahlen für ihren Athlon. :)
Was ich allerdings recht effizient finde, ist, daß man z.B. mehrere Grafikkarten in einen Rechner stecken kann und das Ganze dann schön Parallelisieren. Oder nicht?
Ja wenn man eine Reihe PCI-Karten nimmt sollte das gehen.
Schroeder
2004-02-04, 07:52:47
(Wenn ich jetzt Quatsch erzähle möge man mir das verzeihen, das ist noch nicht ganz so mein Feld, und mich berichtigen.) Aber der AthlonXP 1800+ ist ja nun nicht grad "Highend" im vergleich zu den Grafikkarten, oder? Also ich meine da hätte doch bestimmt mit was schnellerem, was besseres rauskommen können. Und dann hätte ich mal noch eine Frage, wäre mit dem Athlon64 nochmal ein größerer Sprung zu erwarten, wenn man hätte den so richtig mit 64Bit laufen lassen? (Das klingt jetzt so, als ob ein Athlon64 im Einsatz war, aber das meine ich nicht) Weil doch GPUs äh mit größeren "Werten" rechnen, also mehr als heutige 32Bit Prozessoren, also breitere Register haben? Oder lieg ich da jetzt vollkommen falsch?
Haarmann
2004-02-04, 08:29:42
So ne bescheidene Bemerkung nebenher... Das Preis/Leistungsverhältnis liegt nach wie vor beim Athlon 1800+ bei diesem Vergleich...
Demirug
2004-02-04, 08:36:48
Original geschrieben von Schroeder
(Wenn ich jetzt Quatsch erzähle möge man mir das verzeihen, das ist noch nicht ganz so mein Feld, und mich berichtigen.) Aber der AthlonXP 1800+ ist ja nun nicht grad "Highend" im vergleich zu den Grafikkarten, oder? Also ich meine da hätte doch bestimmt mit was schnellerem, was besseres rauskommen können. Und dann hätte ich mal noch eine Frage, wäre mit dem Athlon64 nochmal ein größerer Sprung zu erwarten, wenn man hätte den so richtig mit 64Bit laufen lassen? (Das klingt jetzt so, als ob ein Athlon64 im Einsatz war, aber das meine ich nicht) Weil doch GPUs äh mit größeren "Werten" rechnen, also mehr als heutige 32Bit Prozessoren, also breitere Register haben? Oder lieg ich da jetzt vollkommen falsch?
Die FX2000 ist ja auch nicht mehr richtig Highend.
Es geht um Fliesspunktberechnungen da nützt 64 Bit Integer nichts.
Zudem braucht man ja sowieso eine Grafikkarte im Rechner also kann man die auch beim Rendern mithelfen lassen.
Schroeder
2004-02-04, 08:40:30
Original geschrieben von Demirug
Die FX2000 ist ja auch nicht mehr richtig Highend.
Es geht um Fliesspunktberechnungen da nützt 64 Bit Integer nichts.
Zudem braucht man ja sowieso eine Grafikkarte im Rechner also kann man die auch beim Rendern mithelfen lassen.
Achso, ja da hab ich mir schon fast gedacht, dass ich mit meinem "Fachwissen" daneben liegen würde. Aber danke, für die Info.
mrdigital
2004-02-04, 10:38:20
Kommen die bei solchen Berechnungen mit 32bit FP hin? Mir erscheint das doch eine recht grosse Limitierung zu sein, bzw hier geht sicherlich ein Grossteil der "überschüssigen" Rechenleistung drauf, denn die Athlon FPU macht ja 64bit bzw 80bit FP, und um das mit 32bit FP nachzubauen kostet es halt extra Rechenzyklen. Interessanter finde ich eigentlich die hohe Integerleistung, die in den Grafikkarten steckt, wenn man mit sehr grossen Zahlen rechnen will, da ist so ein 1T Multiplizierer (der ja auch noch mehrfach vorhanden ist), Gold wert!
Soso, ein Shaderprogramm =)
Da drängt sich mir allerdings die Frage auf, wie das Ganze denn auf den Graphikkarten der Konkurrenz aussehen würde -- die sollen ja bekanntlich viel "bessere" Shader besitzen.
Außerdem hinkt der Vergleich imo schon etwas. Die Graphikkarte wird als Coprozessor verwendet.
Der AXP bleibt immer gleich. Beim nur-Prozessor-Simulieren wird vom Prozessor *alles* Berechnet, sprich, der muß sich auch erst die Daten richtig hinbiegen.
Beim Graka-Simulieren wird ([noch?] zusätzlich?) die Graphikkarte mit angesprochen, die von dem Prozessor schon speziell präparierte Daten eingefüttert kriegt.
Daß sowas natürlich schneller ist, als ein Prozessor, der sich selber erst die Daten richtig hinbiegen muß und dabei auch unglaublich viel Zeit verschwendet, sollte wohl klar sein.
-huha
bendel
2004-02-04, 11:39:07
Merkwürdige Rechnung:
1,5 GHz * 1FLOP/s wäre 1,5Mrd FLOP/s². Also eine schöne Beschleuninung. Muß also FLOP heißen und außerdem kann der Athlon doch 2 arithmetische Fließkommaoperationen pro Takt plus eine Load/Store, wenn ich mich richtig erinnere?
Bei solchen Anwendungen hat nVidia sicher einen Vorteil dank FP32 ...
Der Athlon kann afaik nur gleichzeitig eine Addition und Multiplikation, aber z.B. keine zwei Multiplikationen auf einmal.
Quasar
2004-02-04, 19:48:31
Original geschrieben von huha
Soso, ein Shaderprogramm =)
Da drängt sich mir allerdings die Frage auf, wie das Ganze denn auf den Graphikkarten der Konkurrenz aussehen würde -- die sollen ja bekanntlich viel "bessere" Shader besitzen.
In diesem Falle würden sie vermutlich gar nicht aussehen, da FP32 auf Karten der Konkurrenz nicht verfügbar ist.
Quasar
2004-02-04, 19:50:40
Original geschrieben von Haarmann
So ne bescheidene Bemerkung nebenher... Das Preis/Leistungsverhältnis liegt nach wie vor beim Athlon 1800+ bei diesem Vergleich...
Auch, wenn du jeden nötigen Athlon mitsamt Infrastruktur (dir als IT-Profi sollte ja klar sein, was man damit alles verbindet), nötigen Software Lizenzen, Betriebsräumen nebst Klimatisierung etc.pp. zusammenrechnest?
Ich glaube, man fährt ganz gut, wenn man bissel schnellere Athlons nimmt und in jeden zwei oder drei Multi-Chip GFFX-Karten bastelt.
Mr. Lolman
2004-02-04, 19:59:24
Glaub ich nicht einmal. Gibts die Teile überhaupt als PCI? Lassen sich tatsächlich mehrere FXen parallel betreiben?
BTW: Wieviele Athlons würdest du denn hinstellen? 3? Und in jedem 3 FX2000? Da kommst du allein schon bei den GraKas auf 12600€. Um die Kohle kann man sich schon eine fette Renderfarm zusammenstellen.
Crushinator
2004-02-04, 20:44:13
Original geschrieben von Quasar
Auch, wenn du jeden nötigen Athlon mitsamt Infrastruktur (dir als IT-Profi sollte ja klar sein, was man damit alles verbindet), nötigen Software Lizenzen, Betriebsräumen nebst Klimatisierung etc.pp. zusammenrechnest? Wir haben bei uns zu dem berühmten "nicht nähergenannten" Zweck einen 32 Knoten-Cluster bestehend aus 64 x Athlon MP 2000+ stehen, der in 2 x 19° Schränke paßt, viel Strom verbraucht und nur als Hardware inkl. Infrastruktur heutzutage neu ca. 35K EUR kostet. Das darauf laufende OS- und die Cluster-Software kosten allerdings keinen einzigen Cent an "Lizenzgebühren". :)
Ich glaube, man fährt ganz gut, wenn man bissel schnellere Athlons nimmt und in jeden zwei oder drei Multi-Chip GFFX-Karten bastelt. Das glaub' ich wiederum weniger. Denn allein 3 solcher Multi-Chip Karten würden IMHO schon - sofern man sie überhaupt, geschweige denn unter einen Hut bekommt - an den obigen Presirahmen kratzen und hätten dabei nicht einmal mehr Leistung. ;)
8 Pipelines ... ahem ;)
Zum Preis/Leistungs-Verhältnis könnte man ja auch mal eine FX5900XT heranziehen. Dann sähe es wohl schon ganz anders aus. Nur machen solche Einzelkomponenten-Vergleiche keinen Sinn, da eine Grafikkarte oder CPU nun mal nicht alleine läuft.
Man muss also Preis/Leistung eines kompletten Systems vergleichen. Also beispielsweise ein Single-CPU System mit NV3x gegenüber einem Multiprozessor-System mit Onboard-Grafik. Ich würde vermuten, dass selbst mit einer teuren QuadroFX das erste System besser dasteht.
Quasar
2004-02-04, 22:28:53
Lolman:
Ja, die gibt's als PCI, aber bei Multi-Chip trog mich meine Erinnerung. Ich dachte die NVS280 wären solche, sind aber nur Single-Lösungen.
Als CPU könnte man problemlos zwei schnelle Athlon MP hernehmen, dazu eine Quadro FX3000 (dürfte auch bei FP32 ein wenig schneller noch sein, als die FX1000), und dazu eine gewisse Anzahl an NVS280 PCI.
Wobei:
Warum eigentlich Quadros? Hier wird kein Wort von Wireframe-Rendering gesprochen - Pixelshader heißt das Zauberwort und da sind mir keine Unterschiede zwischen Quadro und regulärer FX bekannt.
Wie Xmas schon sagte, eine mit <200EUR billige FX5900XT (die nebenbei, taktmäßig genausoschnell wie die Quadro FX1000 läuft und dazu noch ein bissel mehr FP32-Leistung bringt) sollte es in diesem Falle genauso tun.
Und P/L-mäßig ist ein "ALDI-PC" sicherlich günstiger, als eine MP-Workstation.
Danke an crushinator für die Infos bezgl. des Clusters....
Mr. Lolman
2004-02-04, 23:00:33
Nur kann man auch billige XPs auf 2 einzel Rechner (um jew. <200€) mit ClusterSW betreiben....
Original geschrieben von Mr. Lolman
Nur kann man auch billige XPs auf 2 einzel Rechner (um jew. <200€) mit ClusterSW betreiben....
Nur wären diese für die gegebene Anwendung trotzdem nicht schneller als ein einzelner dieser Rechner mit FX5900XT, zum selben Preis.
Mr. Lolman
2004-02-04, 23:20:09
Original geschrieben von Xmas
Nur wären diese für die gegebene Anwendung trotzdem nicht schneller als ein einzelner dieser Rechner mit FX5900XT, zum selben Preis.
Wenn man 2400+ AMDs nimmt könnt sich das bei einem vernünftigen FSB schon ausgehen. Ausserdem, kann man imo sicher nicht alle RechenOPs als Shader auf einer 5900XT nachbilden...
Quasar
2004-02-04, 23:25:55
Original geschrieben von Mr. Lolman
Wenn man 2400+ AMDs nimmt könnt sich das bei einem vernünftigen FSB schon ausgehen. Ausserdem, kann man imo sicher nicht alle RechenOPs als Shader auf einer 5900XT nachbilden...
Was ist an "die gegebene Anwendung" nicht eindeutig?
2400er AMD kosten aber wieder, wollen einen kühlen Kopf, ein gemütliches Mainboard, hübsch großen Arbeitsspeicher, ausfallsicheres Netzteil, evtl. Festplatte, Gehäuse usw. usf.
Außerdem dürfte die TCO auch ein wenig steigen...
Mr. Lolman
2004-02-04, 23:45:10
Original geschrieben von Quasar
Was ist an "die gegebene Anwendung" nicht eindeutig?
Hab ich überlesen. Aber trotzdem wird man sich wohl nicht nur auf einen Sonderfall beschränken wollen, beim HW Kauf.
2400er AMD kosten aber wieder, wollen einen kühlen Kopf, ein gemütliches Mainboard, hübsch großen Arbeitsspeicher, ausfallsicheres Netzteil, evtl. Festplatte, Gehäuse usw. usf.
Außerdem dürfte die TCO auch ein wenig steigen...
80€ : AMD2400+ boxed
60€ : 512MB PC2700 RAM
30€ : Gehäuse mit 300W NT (ausfallsicher LOL*)
35€ : KT333
20€ : GraKa
80€ : AMD2400+ boxed
60€ : 512MB PC2700 RAM
30€ : Gehäuse mit 300W NT
35€ : KT333
60€ : GraKa
40€ : 40GB Platte
_____________
530€
2. Rechner ohne GraKa allein 245€. Mit FX5900XT ~435€ + zusätzliche 512MB RAM = 495€. OK ganz geht sichs nicht aus, aber ich hab bei den Preisen auch eher aufgerundet... :)
(*ich werk jetzt schon seit fast 15 Jahren mit PCs herum und mir ist noch kein NT um die Ohren geflogen, egal wie billig)
edit: Rest kommt ins nächste Posting
Quasar
2004-02-04, 23:56:27
Original geschrieben von Mr. Lolman
Hab ich überlesen. Aber trotzdem wird man sich wohl nicht nur auf einen Sonderfall beschränken wollen, beim HW Kauf.
Du siehst doch, wie es gehandhabt wurde: Der optimale Weg war auf der FX nicht möglich, also wurde ein suboptimaler gewählt, der trotzdem noch deutlich schneller ist.
Original geschrieben von Mr. Lolman
80€ : AMD2400+ boxed
60€ : 512MB PC2700 RAM
30€ : Gehäuse mit 300W NT (ausfallsicher LOL*)
35€ : KT333
20€ : GraKa
80€ : AMD2400+ boxed
60€ : 512MB PC2700 RAM
30€ : Gehäuse mit 300W NT
35€ : KT333
60€ : GraKa
40€ : 40GB Platte
_____________
530€
2. Rechner ohne GraKa allein 240€. Mit FX5900XT ~430€ + zusätzliche 512Mb RAM = 490€. OK ganz geht sichs nicht aus... :)
(*ich werk jetzt schon seit 15 Jahren mit PCs herum und mir ist noch kein NT um die Ohren geflogen, egal wie billig)
Mir schon, habe ich letzte Woche leider entsorgt, sonst hätte ich es dir gern "demonstriert".
Und selbst zwei 2400+ sind mit ~2*11,55s (mal reine CPU-Zeit gerechnet) im optimalen Pfad immer noch langsamer, als ein einzelner 2400+ und eine FX5900XT (wenn wir der mal unterstellen, sie wäre nicht schneller, als eine FX5800).
(Bitte jetzt nicht mit Pentium4 und SSE-optimierungen ankommen - da hat man im Zweifel nur eine ganz bescheidene FP-Leistung, wenn die SSE2-Genauigkeit mal nicht reicht.)
Mr. Lolman
2004-02-05, 00:10:42
Hm ich komm auf ~24.5sec (bzw 24sec wenn man mit dem P-Rating rechnet) für einen XP2400+, bei 2 XPs ists im Optimalfall die Hälfte. Dafür gehen wir davon aus, dass beide XPs, wie wahrscheinlich auch schon der XP1800+, nur mit 133MHZ FSB an den Start geschickt werden (was sie bei mir sicher nicht würden *eg*).
Was spricht eigentlich dagegen sich um 4500€ 20 solcher Teile...
80€ : AMD2400+ boxed
60€ : 512MB PC2700 RAM
30€ : Gehäuse mit 300W NT
35€ : KT333
20€ : GraKa
...zu kaufen und sich seinen eigenen Cluster in die Garage zu stellen? :naughty:
Mr. Lolman
2004-02-05, 00:45:34
Original geschrieben von crushinator
Wir haben bei uns zu dem berühmten "nicht nähergenannten" Zweck einen 32 Knoten-Cluster bestehend aus 64 x Athlon MP 2000+ stehen, der in 2 x 19° Schränke paßt, viel Strom verbraucht und nur als Hardware inkl. Infrastruktur heutzutage neu ca. 35K EUR kostet.
IMO ein bisschen teuer das Ganze:
Called the Kentucky Linux Athlon Testbed 2 (Klat2), the scalable clustering system uses new network concepts and cheaper Ethernet hardware to achieve a cost performance of $650 per gigaflop.
von EE Times (http://www.eetimes.com/printableArticle?doc_id=OEG20000530S0038), 30.5.2000
Original geschrieben von Mr. Lolman
Was spricht eigentlich dagegen sich um 4500€ 20 solcher Teile...
80€ : AMD2400+ boxed
60€ : 512MB PC2700 RAM
30€ : Gehäuse mit 300W NT
35€ : KT333
20€ : GraKa
...zu kaufen und sich seinen eigenen Cluster in die Garage zu stellen? :naughty:
Stromverbrauch
Abwärme
Lärm
Platzverbrauch
und zuwenig Arbeitsspeicher :D
Original geschrieben von Demirug
Ja wenn man eine Reihe PCI-Karten nimmt sollte das gehen. wieso nur pci?
Die AGP spezi verbietet keinen zweiten agp slot.
Demirug
2004-02-05, 07:33:25
Original geschrieben von Gast
wieso nur pci?
Die AGP spezi verbietet keinen zweiten agp slot.
Das nicht aber es ist verdammt schwer entsprechende Boards zu bekommen. Eine richtig schön grosse PCI-Backplane ist dagegen kein Problem.
Haarmann
2004-02-05, 09:20:51
Quasar
Guter Einwand, aber auch die NV Karte will auch nen Board und ne CPU sehen etc. Die Preisdifferenz von FX2000 zu 0815 20€ Graka ATI Rage Pro ist imho höer, denn die von Billigboard und AMD billig CPU zu Dual AMD Board und MP 2800+ CPU*2. Der Rest ist ja immer vorhanden. Auch ne Graka läuft ohne Computer nicht.
Ansonsten könnte ich auch Clustern, was noch billiger wird. Ich hab beim Preis leider nur ne FX3000 gefunden für $1700. Das fand ich dann doch "etwas" teuer. Dafür baust schon 2 Dual Systeme oder 3 Single Systeme zusammen.
Lizenzen klammere ich einfach mal aus, wenn man OpenSource SW nutzt. Abgesehen davon müsste man ja die Variante für NV Karten auch irgendwie bezahlen oder selber erstellen... Das ist auch nicht gratis.
Mr. Lolman
Deine Stromrechnung spricht dagegen... und auch Dein Sicherungskasten ;).
LOCHFRASS
2004-02-05, 09:33:04
Original geschrieben von Mr. Lolman
80€ : AMD2400+ boxed
60€ : 512MB PC2700 RAM
30€ : Gehäuse mit 300W NT
35€ : KT333
20€ : GraKa
2400+, 80€ / Duron 1400, 30€
ECS L7S7A2 mit LAN, 25€
512 MB PC2100, 50€
32 MB CF Karte zum Booten (das Brett hat nen Card Reader), 15€
Gehäuse mit Netzteil, 20€
Crushinator
2004-02-05, 10:22:48
Original geschrieben von Mr. Lolman
(...Cluster) IMO ein bisschen teuer das Ganze ... Ja, das mag sein, aber ich habe in etwa den heutigen Preis für die eingesetzte Hardware mit LWL-Verbindungen, dazugehörigem Switch, den überteuerten Boards und den Netzteilen genannt. Außerdem hast Du anscheinend übersehen, daß es sich dabei um 32 x Dual-Boards handelt, welche in der Regel reichlich teurer sind als Single-Boards und hast auch nicht daran gedacht, daß die Leistung bei SMP-Knoten je nach Anwendungsfall etwas anders ausfällt als reine Single-Knoten. ;)
Quasar
2004-02-05, 10:24:39
Original geschrieben von Mr. Lolman
Hm ich komm auf ~24.5sec (bzw 24sec wenn man mit dem P-Rating rechnet) für einen XP2400+, bei 2 XPs ists im Optimalfall die Hälfte. Dafür gehen wir davon aus, dass beide XPs, wie wahrscheinlich auch schon der XP1800+, nur mit 133MHZ FSB an den Start geschickt werden (was sie bei mir sicher nicht würden *eg*).
Jaja, die lolmanschen Optimierungen. Und wenn dein Filmchen dann fertig wäre, du in der Flüssigkeit überall kleine Klötzchen sähest, oder aufgrund von unerwarteten Abstürzen deine Systeme nicht mit voller Auslastung laufen - dann haste in der Industrie ein Problem.
Also übertakten halte ich in diesem Zusammenhang für _extrem_ lächerlich und deplatziert.
Für n Knoten wird im Zweifel aber nicht die Berechnungszeit halbiert, sondern der Durchsatz gesteigert, bei deinen zwei XP2400+ hätten wir dann also für zwei "WU" (oder neutraler Datenpakete) ~12,64s (mal nicht mit 1500 zu 2000 MHz approximiert, wie in meiner obigen Rechnung).
Das Gespann aus FX5900XT (Worst-case mind you!) und XP2400+ hätte die zwei Pakete ebenfalls nach dieser Zeit fertig, aber die FX hätte dabei schon 3,34s an einem weiteren Paket gerechnet.
Original geschrieben von Mr. Lolman
Was spricht eigentlich dagegen sich um 4500€ 20 solcher Teile...
80€ : AMD2400+ boxed
60€ : 512MB PC2700 RAM
30€ : Gehäuse mit 300W NT
35€ : KT333
20€ : GraKa
...zu kaufen und sich seinen eigenen Cluster in die Garage zu stellen? :naughty:
Gegenfrage:
Was spräche dafür, nur 11 dieser Systeme zu nehmen und jedes mit einer ~180€ FX5900XT auszurüsten?
-geringerer Aufwand
-Wirtschaftlichkeit
Preis (45€ gespart)
-Höhere Rechenleistung im gegebenen Falle
Dein Cluster: 20 WUs in 12,64s (bei 100% effizientem Clustering
Mein Cluster: 22 WUs in 12,64s und noch 25,74s freie Rechenzeit auf den FXen.
Auf längere Strecken gerechnet, sind das nochmal 2 WUs pro 12,64s-Zeiteinheit extra, also Gesamt 24 WUs, was schlappe 20% mehr Effiktivität ausmacht. Was meinst du, wie man sich bei Großrechnern schon um die Hälfte dieser Extraleistung alle zwanzig Finger leckt?
Quasar
2004-02-05, 10:29:11
Original geschrieben von Haarmann
Quasar
Guter Einwand, aber auch die NV Karte will auch nen Board und ne CPU sehen etc. Die Preisdifferenz von FX2000 zu 0815 20€ Graka ATI Rage Pro ist imho höer, denn die von Billigboard und AMD billig CPU zu Dual AMD Board und MP 2800+ CPU*2. Der Rest ist ja immer vorhanden. Auch ne Graka läuft ohne Computer nicht.
Ansonsten könnte ich auch Clustern, was noch billiger wird. Ich hab beim Preis leider nur ne FX3000 gefunden für $1700. Das fand ich dann doch "etwas" teuer. Dafür baust schon 2 Dual Systeme oder 3 Single Systeme zusammen.
Lizenzen klammere ich einfach mal aus, wenn man OpenSource SW nutzt. Abgesehen davon müsste man ja die Variante für NV Karten auch irgendwie bezahlen oder selber erstellen... Das ist auch nicht gratis.
Argument. Aber mittlerweile sind wir ja mit Xmas' Hilfe auf den Trichter gekommen, daß eine Quadro Overkill ist, da hier nur Pixel geshadet werden und haben uns für kostengünstigere FX5900XT entschieden. Außerdem habe ich mir die bestehenden Rechner mit CPU für die FXe auch nicht gespart, die sind mit drin. Und clustern kannst du die FX auch - PCI ahoi, auch wenn sie da nur kleine NVS280 anbieten.
Lizenzen brauchst du möglicherweise aber für deine OS (oder eben ein paar teuer bezahlte Gurus, die dir deinen Cluster 99,99999% verfügbar halten, deiner Clustering-SW erstellen und ein paar weitere Kleinigkeiten.
cg ist zwar nicht OpenSource, aber kostenlos nutzbar.
Quasar
2004-02-05, 10:31:29
Original geschrieben von LOCHFRASS
2400+, 80€ / Duron 1400, 30€
ECS L7S7A2 mit LAN, 25€
512 MB PC2100, 50€
32 MB CF Karte zum Booten (das Brett hat nen Card Reader), 15€
Gehäuse mit Netzteil, 20€
Kein OS? Keine Software? Daten nur per LAN? Gehäuse mit NT für 20€ - sorry, aber die Dinger sollen 24/7 laufen, DA würde ich nicht gerade sparen.
LOCHFRASS
2004-02-05, 11:17:05
Original geschrieben von Quasar
Kein OS? Keine Software?
Seit wann kostet das Geld?
Original geschrieben von Quasar
Daten nur per LAN?
Mehr als normales 100 MBit LAN braucht man dafür nun wirklich nicht.
Original geschrieben von Quasar
Gehäuse mit NT für 20€ - sorry, aber die Dinger sollen 24/7 laufen, DA würde ich nicht gerade sparen.
Was glaubst du, was in normalen Büro-Kisten steckt? Die laufen auch jahrelang ohne Zicken. :D
Quasar
2004-02-05, 11:23:33
Original geschrieben von LOCHFRASS
Seit wann kostet das Geld?
Mehr als normales 100 MBit LAN braucht man dafür nun wirklich nicht.
Was glaubst du, was in normalen Büro-Kisten steckt? Die laufen auch jahrelang ohne Zicken. :D
Geld kostet's u.U. nicht, aber Speicherplatz. Alles per LAN?
Mehr nicht, aber 100MBit, gerade in größeren Clustern kann ohne extrem teuere Router schon ziemlich bremsen, wenn man alles vom Server laden muss.
Ich glaube, daß dort Netzteile zum Einsatz kommen, die es im Einzelhandel gar nicht gibt - effiziente. Aber die kosten eben mehr als 20€, außer du nimmst in 10.000er Stückzahlen ab.
Crushinator
2004-02-05, 12:24:22
Original geschrieben von Quasar
(...) Mehr nicht, aber 100MBit, gerade in größeren Clustern kann ohne extrem teuere Router schon ziemlich bremsen, wenn man alles vom Server laden muss. Normalerweise werden die Knoten eines 50 bis 100 Knoten Clusters per TFTP gebootet und wenn sie einmal ihre Anwendung zum "rumclustern" geladen haben, sollten sie bei guter Konfiguration fast nichts mehr in kurzen Intervalen nachladen. Zum Ablegen von Daten, die System- oder Anwendungsbedingt öfters angefasst werden müssen, sollten idealerweise RAM-Disks konfiguriert werden. Die RAM-Ausbaustufe des Knotens sollte entsprechend so gewählt werden, daß möglichst nichts "segementiert" oder ausgelagert werden muß. Mir sind außerdem nur extrem große oder Windows basiernde Cluster (pfui) bekannt, bei denen lokale HDDs sinnvoll waren.
Im Renderingsbereich ist es normalerweise üblich, daß Texturen und die "Rendervorgabe" nur zentral abgelegt werden, und der Knoten sie möglichst nur einmal und zwar komplett in den Speicher lädt. Die fertige Arbeit (das gerenderte Frame) wird ja auch nicht in allzukurzen Intervalen fällig, so daß der Unterschied von 100 MBit/s zu GBit bei einer Knotenzahl bis zu ~100 nicht sonderlich auffällt, wobei ich heutzutage natürlich zum GBit greifen würde, weil der Preisunterschied nicht mehr so relevant ist.
Ich glaube, daß dort Netzteile zum Einsatz kommen, die es im Einzelhandel gar nicht gibt - effiziente. Aber die kosten eben mehr als 20€, außer du nimmst in 10.000er Stückzahlen ab. Bei den 1 HU Knoten liegst Du da absolut richtig. Man bekommt sie zwar auch sehr selten im Einzelhandel, nur kosten sie wie Du schon sagst selbst im Großhandel etwas mehr als 20,- EUR. Wenn es sich allerdings bei den Knoten um normale PC-Gehäuse oder die üblichen 4 HU-Einheiten handelt reichen "normale" Netzteile vollkommen aus.
LOCHFRASS
2004-02-05, 13:23:35
Original geschrieben von crushinator
Bei den 1 HU Knoten liegst Du da absolut richtig. Man bekommt sie zwar auch sehr selten im Einzelhandel, nur kosten sie wie Du schon sagst selbst im Großhandel etwas mehr als 20,- EUR. Wenn es sich allerdings bei den Knoten um normale PC-Gehäuse oder die üblichen 4 HU-Einheiten handelt reichen "normale" Netzteile vollkommen aus.
Bei Alternate gibts die mit 150 und 180W, in den Shuttle Barebones müssten auch 1U Exemplare stecken =)
Crushinator
2004-02-05, 14:04:43
^^ und Du meinst, man kann damit "große" Athlons im 24/7 Betrieb Cluster-typisch unter absoluter Vollast betreiben? ;)
Um mal wieder von den Preisen weg und auf das Thema zurückzukommen, dieses Beispiel ist ja nur ein erstes von vielen die kommen werden.
Betrachtet man die nächste Generation, legt der NV40 gegenüber QuadroFX 2000 deutlich mehr zu als der Athlon64 3400+ gegenüber dem AthlonXP 1800+, in realen GFLOP/s natürlich. Und der Trend setzt sich fort, ebenso werden bessere Algorithmen realisierbar. Dazu verfügen GPUs über eine gigantische Bandbreite.
Es besteht für mich kein Zweifel, dass solch eine Anwendung als Coprozessor spätestens mit der nächsten Generation für viele Anwendungen aus Film und Forschung ein unschlagbares P/L-Verhältnis entwickeln wird.
LOCHFRASS
2004-02-05, 14:49:43
Original geschrieben von crushinator
^^ und Du meinst, man kann damit "große" Athlons im 24/7 Betrieb Cluster-typisch unter absolutem Vollast betreiben? ;)
CPU 70-80W, Rest 15-20W, reicht, ist ja kein Codegen-Billigmüll =)
Crushinator
2004-02-05, 15:41:36
Original geschrieben von LOCHFRASS
CPU 70-80W, Rest 15-20W, reicht, ist ja kein Codegen-Billigmüll =) Ich habe gehört, daß man bei 24/7 Dauerlast etwas mehr Reserven einplanen sollte. Mit anderen Worten, würde ich den Teufel tun, ein 180W Netzteil welches max. 105 Watt auf 3,3 und 5V (http://www2.alternate.de/html/nodes_info/tn1v02.html) verträgt in einen Cluster-Knoten einzubauen und ihn womöglich auch noch mit gutem Gewissen verkaufen. Um es auf den Punkt zu bringen, ich würde kommerziell meinen Ruf nie wegen den "paar" Euros aufs Spiel setzen. =)
Crushinator
2004-02-05, 16:12:28
Original geschrieben von Xmas
(...) Es besteht für mich kein Zweifel, dass solch eine Anwendung als Coprozessor spätestens mit der nächsten Generation für viele Anwendungen aus Film und Forschung ein unschlagbares P/L-Verhältnis entwickeln wird. Für mich besteht zwar auch kein Zweifel, daß man die Dinger als Coprozessor sinnvoll mißbrauchen kann, kann mir aus Gründen übermäßiger Wärmeentwicklung und problematischen Platzbedarfs in Clusterknoten jedoch nicht vorstellen, daß es beim Endrendern in der Filmindustrie von heute auf morgen mehr als nur paar Anhänger finden wird. Zum Vorvisualisieren von Effekten kommen die GPUs ja heute schon in 3D-Anwendungen á la Maya & Co. zum Einsatz, ganz zu schweigen von Simulatoren.
Haarmann
2004-02-05, 20:17:21
Quasar
Ist wahrscheindlich sehr Anwendungsabhängig, was nun sich auszahlt. Vergiss aber nicht, dass man imho keine schnellen Grakas mehr als PCI Version zu sehen bekommt. Auch ist Flexibilität nicht gerade ein Zauberwort für diese Copro Lösung. Nebenher rechnet ein Athlon wohl mit 80 bit und die NV CPU mit 32 Bit... reicht das wirklich immer?
Quasar
2004-02-05, 20:20:04
Haarmann,
Es geht hier aber um eine speziell Anwendung.
zeckensack
2004-02-05, 22:24:10
Original geschrieben von Mr. Lolman
http://www.ystart.net/upload/20040203/1075845256.png Mehrere Fehler in der Grafik.
Zum Athlon:
Auf der "FPU" gibt's 2 Flops/Takt, 1 Flop/Takt, wenn man nur FMUL zählt. Allerdings ...
Using a data format and single-instruction
multiple-data (SIMD) operations based on the MMX instruction
model, the AMD Athlon processor can deliver as many as four
32-bit, single-precision floating-point results per clock cycle,
resulting in a peak performance of 2.4 Gflops at 600 MHz.Genau. Der Athlon ist auch SIMD-fähig, und wenn man die FX schon mit 32 Bit FP arbeiten lässt, dann ist es nur fair, das auch auf dem Athlon zu nutzen.
Wenn wir wirklich nur MUL zählen, dann komme ich auf rund 3Gflops/s für den Athlon XP 1800+.
Die FX hat natürlich nur vier Pipelines, die aber jeweils 4fach SIMD können. Der korrekte theoretische Maximaldurchsatz liegt dann bei 16*Takt, ergibt 4,8Gflops/s für die FX1000 und 6,4Gflops/s für die FX2000.
Unter diesen Umständen ist es wahrhaft erstaunlich, dass die FXen überhaupt schneller sind als der Athlon. Allerdings unterstelle ich mal - wenn man diese Eigenschaft nichtmal in der Tabelle erwähnt - dass die SIMD-Fähigkeiten des Athlons hier komplett brachlagen.
PS: R300 schafft allein im "Pixel Shader" 64 MULs pro Takt, natürlich bei reduzierter Präzision.
Demirug
2004-02-05, 22:36:10
Original geschrieben von zeckensack
PS: R300 schafft allein im "Pixel Shader" 64 MULs pro Takt, natürlich bei reduzierter Präzision.
Wie kommst du auf 64 MULs/Takt. Ich habe bisher nur 32 gesehen.
zeckensack
2004-02-05, 22:53:32
Original geschrieben von Demirug
Wie kommst du auf 64 MULs/Takt. Ich habe bisher nur 32 gesehen. "Mini ALUs" (http://www.beyond3d.com/forum/viewtopic.php?t=8005). Es sind 32 MADs pro Takt, bei MULs sollten 64 möglich sein.
Wenn ich nicht gerade auf der Geforce 3 rumfahren würde, würde ich das auch kurz nachmessen.
PS: Schön doof, wenn man den ganzen Tag mit MSDEV gearbeitet hat, und dann nach einem fertig getippten Posting reflexartig ALT+F, L drückt. Opera reagiert darauf ganz anders ... :dozey:
Demirug
2004-02-05, 23:08:53
Original geschrieben von zeckensack
"Mini ALUs" (http://www.beyond3d.com/forum/viewtopic.php?t=8005). Es sind 32 MADs pro Takt, bei MULs sollten 64 möglich sein.
Wenn ich nicht gerade auf der Geforce 3 rumfahren würde, würde ich das auch kurz nachmessen.
Jaja die Mini ALUs. Es gibt auch irgendwo eine Aussage das die bei PS 2.0 nicht funktionieren (bzw nicht benutzt werden). Ein Gerücht sagt sogar das diese Mini ALUs lediglich dazu da sind die PS 1.1 Modifieres (*2, *4, *8, /2, /4, /8) auszuführen.
Ein Beweis das sie nicht funktionieren könnte der folgenden Shader sein:
ps_2_0
def c2 , 0.125000, 1.000000, 0.000000, 0.000000
dcl t0
dcl t1.xy
dcl t2.xy
dcl_2d s0
dcl_2d s1
texld r1 , t0 , s0
texld r0 , t1 , s1
rcp r0.w , t2.yyyy
mad r2.w , r1.xxxx , c2.xxxx , r1.yyyy
mad r0.w , t2.xxxx , -r0.wwww , r2.wwww
cmp_pp r0.w , -r0.wwww , c2.yyyy , c2.zzzz
mul r0.w , r1.wwww , r0.wwww
mul r0.w , r0.wwww , c1.xxxx
mul r0.xyz , r0 , c0
mov oC0 , r0
Das Teil braucht auf einem R300 6 Takte. Wenn das mit den 2 MULs pro Takt funktioniert dürften es nur 5 sein.
zeckensack
2004-02-06, 00:19:27
Original geschrieben von Demirug
Jaja die Mini ALUs. Es gibt auch irgendwo eine Aussage das die bei PS 2.0 nicht funktionieren (bzw nicht benutzt werden). Ein Gerücht sagt sogar das diese Mini ALUs lediglich dazu da sind die PS 1.1 Modifieres (*2, *4, *8, /2, /4, /8) auszuführen.Möglich. Eine Messung mache ich frühestens morgen.
<...>
mul r0.w , r1.wwww , r0.wwww
mul r0.w , r0.wwww , c1.xxxx
Die beiden MULs sind voneinander abhängig. Da die Mini-ALU seriell hinter die Haupt-ALU geschaltet ist, kann es sein dass das deswegen nicht klappt.
Ist die Behauptung, für den Pixelshader hätte R300 eine Skalar- und eine Vector3-Recheneinheit pro Pipe, die jeweils auch zu Vector4 zusammengeschaltet werden kann, denn unrichtig?
Demirug
2004-02-06, 07:27:10
Original geschrieben von zeckensack
Die beiden MULs sind voneinander abhängig. Da die Mini-ALU seriell hinter die Haupt-ALU geschaltet ist, kann es sein dass das deswegen nicht klappt.
Ähm, wenn sie seriell dahinter sind müsste es gehen. Bei parrallen Einheiten braucht man unabhängige. Die Reg-Combiner der GeForce Chips sind dafür ja ein schönes Beispiel.
Demirug
2004-02-06, 07:44:00
Original geschrieben von aths
Ist die Behauptung, für den Pixelshader hätte R300 eine Skalar- und eine Vector3-Recheneinheit pro Pipe, die jeweils auch zu Vector4 zusammengeschaltet werden kann, denn unrichtig?
Ja und Nein. Es gibt zusätzlich neben den beiden primären FPUs (Vector3 und Skalar) laut Aussage von ATI noch zwei sogenannte Mini FPUs (Vektor3 + Skalar). Allerdings gibt es keinerlei verlässliche Informationen darüber was diese nun können und was nicht. Zudem steht auch noch die ältere Aussage im Raum das diese Mini FPUs nur bei PS <= 1.4 zum Einsatz kommen.
sireric: The second ALUs will certainly get used. Not sure how much with the current compilers, but certainly for PS 1.x stuff. But not all functions get to use them -- add_sat would fall in that.
Haarmann
2004-02-06, 09:29:25
Quasar
Natürlich, aber ich wollte hier einfach mal noch kurz den Teil mitem AMD loswerden. Wie zeckensack ja nun gesagt hat, könnte es tatsächlich so sein, dass da wer geschummelt hat. Verdoplle ich per SIMD die Leistung des AMDs und jage ihn auf heute gängige Frequenzen, dann ists doch eher so, dass AMD CPU so schnell wie Graka GPU. Da die AMD CPU aber billiger ist, denn die GPU...
Quasar
2004-02-06, 10:17:51
Wie ist denn das mit dieser Genauigkeitsgeschichte eigentlich? Kann man u.U. die 4x32Bit Genauigkeit der einzelnen Kanäle der FX auch separat nutzen, sprich als 4 unabhängige FP32-Berechnungen (oder das Gesamtkunstwerk dann meinetwegen zwar nicht ganz unabhängig als 4x4-SIMD?)
Quasar
2004-02-11, 19:48:29
Die Frage war eigentlich ernst gemeint. Demi? Zecki? Anyone?
Demirug
2004-02-11, 20:06:58
Original geschrieben von Quasar
Wie ist denn das mit dieser Genauigkeitsgeschichte eigentlich? Kann man u.U. die 4x32Bit Genauigkeit der einzelnen Kanäle der FX auch separat nutzen, sprich als 4 unabhängige FP32-Berechnungen (oder das Gesamtkunstwerk dann meinetwegen zwar nicht ganz unabhängig als 4x4-SIMD?)
Solange du für alle 4 Werte die gleiche Berechung durchführen möchtest geht das. Es gibt aber gewiesse Dinge wo du immer nur einen Skalar auf einmal ausrechnen kannst.
zeckensack
2004-02-11, 20:15:37
Jopp.
a:=...
b:=...
c:=...
--- parallelisierbar ---
x:=a*c
y:=b*c
--- nicht parallelisierbar ---
x:=a*c
y:=x*c
Im zweiten Fall kann y erst ausgerechnet werden wenn x bereits bekannt ist.
SIMD kann nur voneinander unabhängige Operationen parallel ausführen. "Unabhängig" sind mehrere Operationen auch dann, wenn sie rein lesend auf den gleichen Operanden zugreifen (siehe "c" im ersten Beispiel).
Blutgrätsche
2004-02-12, 13:14:13
Um mal zeckensacks Code aufzugreifen und die Diskussion naiv-laienhaft fortzuführen:
a:=...
b:=...
c:=...
d:=...
--- Lese-Port-freundlich (c doppelt) ---
x:=a*c
y:=b*c
--- Lese-Port-Problem (4 unabhängige Daten) ---
x:=a*b
y:=c*d
Das Lese-Port-Problem (wieviele verschiedene Daten kann ich gleichzeitig aus einem Registerfile lesen) ist eines der bekannten Grundprobleme. Ein weites Grundproblem ist das Verteilungs-Problem (wie verteile ich die gelesenen Daten an die Recheneinheiten), dass man entweder unbeholfen aus dem Weg zu gehen versucht (dumm beschnittene Crossbar-Kaskade beim NV3X: 4 arithmetische Ops + 4 Texture Ops ODER 8 arithmetik Ops) oder aber ebenso unbeholfen (vermutlich ATI) mit einem kompletten Monster-Crossbar erschlägt. Die Bestimmung der Länge (Bits) eines Datums betrifft beide Probleme.
vBulletin®, Copyright ©2000-2025, Jelsoft Enterprises Ltd.