PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Erster HPC-Cluster mit Fermi


Gast
2010-05-31, 16:48:48
Erster HPC-Cluster mit Fermi (http://www.heise.de/newsticker/meldung/Top500-der-Supercomputer-China-legt-kraeftig-zu-1010765.html)



Schon krass - 4640 Fermi erreichen die gleiche Rechenleistung wie 9280 6-Kern-CPUs :ugly:

Und trotzdem hats nur für Platz 2 gereicht.

Gast
2010-05-31, 16:51:00
Schon krass - 4640 Fermi erreichen die gleiche Rechenleistung wie 9280 6-Kern-CPUs :ugly:

Ja, wenn man Äpfel mit Birnen vergleicht.

bloub
2010-05-31, 16:58:36
Und trotzdem hats nur für Platz 2 gereicht.

weil der erste doppelt soviele cores verbaut hat, da muss man sich nicht wundern oder?

Bucklew
2010-05-31, 16:59:08
Und trotzdem hats nur für Platz 2 gereicht.
Stimmt, der chinesische Cluster war aber auch so geplant und kostet mit 50 Millionen $ auch nur 1/4 des Jaguar. Und verbraucht mit 2,55MW auch nur 1/3 des Stroms. Das schon sehr beeindruckend.

http://www.theregister.co.uk/2010/05/31/top_500_supers_jun2010/

Ja, wenn man Äpfel mit Birnen vergleicht.
Rechenleistung vs. Rechenleistung? Stimmt, das klingt definitiv nach Äpfel und Birnen ;D

Gast
2010-05-31, 17:03:43
Rechenleistung vs. Rechenleistung? Stimmt, das klingt definitiv nach Äpfel und Birnen ;D

Wenn man keine Ahnung hat...
General purpose vs. Streamprozessoren. Die Fermis erreichen die theoretischen TFLOPs in 99,9% der Fälle nicht mal annähernd. Selbst bei aufwändig optimierten Spezialprogrammen. Eine CPU braucht nicht für einfachste Dinge hunderte Takte. Es hat schon seinen Grund warum man trotzdem bei den meisten Supercomputern hauptsächlich CPUs verbaut, das ist nicht weil die alle blöd sind. ;D

Gast
2010-05-31, 17:04:06
Und verbrauchen dazu noch einiges mehr an Strom! Wahrscheinlich rund das doppelte?!

Bucklew
2010-05-31, 17:14:23
Wenn man keine Ahnung hat...
General purpose vs. Streamprozessoren. Die Fermis erreichen die theoretischen TFLOPs in 99,9% der Fälle nicht mal annähernd. Selbst bei aufwändig optimierten Spezialprogrammen. Eine CPU braucht nicht für einfachste Dinge hunderte Takte. Es hat schon seinen Grund warum man trotzdem bei den meisten Supercomputern hauptsächlich CPUs verbaut, das ist nicht weil die alle blöd sind. ;D
Wie wärs denn mal mit dem Link lesen und feststellen, dass das ganze mit dem Linpack-Benchmark (http://de.wikipedia.org/wiki/Linpack) gemessen wurde, also reale Rechenleistungen und keine theoretischen sind?

Um als deinen Anfang fortzusetzen: ...einfach mal die Fresse halten. Halt dich doch bitte nächstes mal dran, ja?

Und verbrauchen dazu noch einiges mehr an Strom! Wahrscheinlich rund das doppelte?!
1/3 der Leistung bei ungefähr 40% weniger Rechenleistung.

Wieder mal zwei typische Gastpostings ohne den leisesten Schimmer Ahnung :rolleyes:

Tesseract
2010-05-31, 17:44:03
Wenn man keine Ahnung hat...
postet man als gast mal einfach drauf los?

linpack hat in vielen anwendungsfeldern durchaus direkte praxisrelevanz. deswegen wird er auch beim einschätzen der leistungsfähigkeit von supercomputern oft herangezogen.

außerdem vermute ich mal die meisten supercomputer verwenden deswegen keinen fermi, weil er zum zeitpunkt der anschaffung noch nicht existiert hat. aber das ist nur wilde spekulation. :rolleyes:

Gast
2010-05-31, 17:51:02
Erster HPC-Cluster mit Fermi (http://www.heise.de/newsticker/meldung/Top500-der-Supercomputer-China-legt-kraeftig-zu-1010765.html)



Schon krass - 4640 Fermi erreichen die gleiche Rechenleistung wie 9280 6-Kern-CPUs :ugly:

Da wird ordentlich Kohle fliessen. Mit den Einnahmen aus solchen Geschäften kann man sich niedrigere Preise im Consumer Segment dann auch leisten. Von daher glaube ich wird die GTX465 sehr bald um die 230 Euro liegen und dann ist sie wie die 470er schon attraktiv. Zu letzterer gibts bei den Preisen momentan sowieso keine Alternative.

deekey777
2010-05-31, 19:31:01
Supi, die Diskussion wurde rausgesplittet.
Da wird ordentlich Kohle fliessen. Mit den Einnahmen aus solchen Geschäften kann man sich niedrigere Preise im Consumer Segment dann auch leisten. Von daher glaube ich wird die GTX465 sehr bald um die 230 Euro liegen und dann ist sie wie die 470er schon attraktiv. Zu letzterer gibts bei den Preisen momentan sowieso keine Alternative.

Wie kommst du darauf? Hast du irgendwelche Zahlen, dass für die > 4000 Teslas bezahlt wurde und wieviel? Ich wäre da vorsichtig und nicht überrascht, wenn für die 4.000 Teslas vielleicht eine Million oder zwei bezahlt wurden, wenn überhaupt.

Erster HPC-Cluster mit Fermi (http://www.heise.de/newsticker/meldung/Top500-der-Supercomputer-China-legt-kraeftig-zu-1010765.html)



Schon krass - 4640 Fermi erreichen die gleiche Rechenleistung wie 9280 6-Kern-CPUs :ugly:

Schon krass, dass man insgesamt nicht viel mehr als ein Drittel der Peakleistung erreicht, http://www.top500.org/system/performance/10484
Das geht besser: http://www.top500.org/system/performance/10186
postet man als gast mal einfach drauf los?

linpack hat in vielen anwendungsfeldern durchaus direkte praxisrelevanz. deswegen wird er auch beim einschätzen der leistungsfähigkeit von supercomputern oft herangezogen.

außerdem vermute ich mal die meisten supercomputer verwenden deswegen keinen fermi, weil er zum zeitpunkt der anschaffung noch nicht existiert hat. aber das ist nur wilde spekulation. :rolleyes:
Das ist eine wilde Spekulation. Auf dem ersten Platz ist ein Supercomputer, der nur CPUs hat und keine Erweiterungskarten mit dem Cell oder GPUs, überhaupt geht der Trend wieder zu CPUs, da diese eben universeller sind. Ob sich das ändern wird, wird sich noch zeigen. Andeutungen, die dafür sprechen, habe ich nicht finden können.

Black-Scorpion
2010-05-31, 20:10:28
Vor allem Krass wo die GF100 Fermis auf einmal herkommen. ;)

Schlammsau
2010-05-31, 20:16:54
Erster HPC-Cluster mit Fermi (http://www.heise.de/newsticker/meldung/Top500-der-Supercomputer-China-legt-kraeftig-zu-1010765.html)



Schon krass - 4640 Fermi erreichen die gleiche Rechenleistung wie 9280 6-Kern-CPUs :ugly:

Interessant wäre dabei der Stromverbrauch. Wenn ich mich nicht verechnet habe, müsste die Lösung mit den 4640 Fermis mehr Strom verbraten als die Lösung mit den doppelt so vielen CPUs.

Oder täusche ich mich da?

Coda
2010-05-31, 20:19:00
Dir ist schon klar, dass die dort verbauten Tesla C2050 sehr viel weniger Verbrauchen als die Desktop-Karten?

Schlammsau
2010-05-31, 20:20:03
Dir ist schon klar, dass die dort verbauten Tesla C2050 sehr viel weniger Verbrauchen als die Desktop-Karten?

Nein, dass war mir nicht klar. Wie hoch ist den die TDP?

Coda
2010-05-31, 21:20:30
225W, aber die Chips haben weniger Cores als eine GTX 470 und sind besser selektiert.

Ich geh mal von <200W real aus.

Bucklew
2010-05-31, 21:21:23
Interessant wäre dabei der Stromverbrauch. Wenn ich mich nicht verechnet habe, müsste die Lösung mit den 4640 Fermis mehr Strom verbraten als die Lösung mit den doppelt so vielen CPUs.

Oder täusche ich mich da?
Deine Rechenkünste sind ja hier im Forum schon berühmt berüchtigt. In Wirklichkeit sind es 1/3 des Stromverbrauchs (genau 1/2,5) bei nur 40% weniger Rechenleistung und nur 1/4 der Kosten (verglichen zum Platz 1, dem Jaguar).

Knapp vorbei, wie üblich bei dir ;D

Alles weitere da (und hoffentlich wird der REst verschoben):
http://www.forum-3dcenter.org/vbulletin/showthread.php?t=484701

Gast
2010-05-31, 21:23:24
Kann man doch alles bei NV nachlesen: http://www.nvidia.com/object/product_tesla_C2050_C2070_us.html
448SPs @ 1.15GHz bei 247W Power Consumption

LovesuckZ
2010-05-31, 21:24:23
Kann man doch alles bei NV nachlesen: http://www.nvidia.com/object/product_tesla_C2050_C2070_us.html
448SPs @ 1.15GHz bei 247W Power Consumption

Die hätten die M Serien kaufen sollen. Da liegt der Stromverbrauch bei 225 Watt. ;D

Gast
2010-05-31, 21:25:57
225W, aber die Chips haben weniger Cores als eine GTX 470 und sind besser selektiert.

Ich geh mal von <200W real aus.

Falsch. Bei den Tesla-Karten kann NV eben nicht lügen. ;)
Dort sind es bei nur 1.15Ghz und 448SPs fast genau so viel TDP wie bei der GTX480, nämlich 247W.

AnarchX
2010-05-31, 21:27:19
Die 22W Unterschied kommen wohl durch den Lüfter bei der C20x0.

Gast
2010-05-31, 21:31:42
Nicht gerade Das was man als riesige Effizienzsteigerung nennen könnte.
Da kann man nur hoffen, dass zukünftige Rechner da besser aussehen.

LovesuckZ
2010-05-31, 21:33:41
Falsch. Bei den Tesla-Karten kann NV eben nicht lügen. ;)
Dort sind es bei nur 1.15Ghz und 448SPs fast genau so viel TDP wie bei der GTX480, nämlich 247W.

Worst Case liegt im Furmark bei 235 Watt.

Schlammsau
2010-05-31, 21:39:03
Deine Rechenkünste sind ja hier im Forum schon berühmt berüchtigt. In Wirklichkeit sind es 1/3 des Stromverbrauchs (genau 1/2,5) bei nur 40% weniger Rechenleistung und nur 1/4 der Kosten (verglichen zum Platz 1, dem Jaguar).

Knapp vorbei, wie üblich bei dir ;D

Alles weitere da (und hoffentlich wird der REst verschoben):
http://www.forum-3dcenter.org/vbulletin/showthread.php?t=484701

Tatsächlich, dann leg mal los. ;)
Aber lassen wir das, ich weiss das du und LZ wesentlich nVidia-freundlicher rechnen könnt bzw wollt. ;D
Komisch nur das eure Rechnung in einem bestimmten anderen Thread, von x Leuten schon wiederlegt wurde. Ich weiss, die Fakten mal wieder. ;)

Gast
2010-05-31, 21:43:50
Falsch. Bei den Tesla-Karten kann NV eben nicht lügen. ;)


Brauchen sie auch nicht, alleine die Lüftersteuerung auf 70 statt auf 90°C einzustellen dürfte schon einiges bringen, und bei den Teslas wird sich wohl kaum jemand wegen der Lautstärke beklagen (wobei es dank optimiertem Gehäuse wohl in der Realität gar nicht so viel lauter sein wird)

Bucklew
2010-05-31, 21:47:30
Tatsächlich, dann leg mal los. ;)
Aber lassen wir das, ich weiss das du und LZ wesentlich nVidia-freundlicher rechnen könnt bzw wollt. ;D
Komisch nur das eure Rechnung in einem bestimmten anderen Thread, von x Leuten schon wiederlegt wurde. Ich weiss, die Fakten mal wieder. ;)
Steht doch schon alles, wie wärs mit lesen?

http://www.forum-3dcenter.org/vbulletin/showpost.php?p=8058569&postcount=4

Spasstiger
2010-05-31, 22:16:05
Irgendwie find ich es schwach, dass eine Tesla C2050 mit theoretisch 515 GFlops (peak) bei diesem System in Linpack nur die Rechenleistung von zwei Xeon 5650 (je 64 GFlops peak) erbringt. Die zwei Xeons haben sogar weniger Transistoren (je 1,17 Mrd.) als ein GF100 (3 Mrd.) und die TDP der zwei Xeons ist mit zusammen 190 Watt auch niedriger.

Schlammsau
2010-05-31, 22:16:34
Steht doch schon alles, wie wärs mit lesen?

http://www.forum-3dcenter.org/vbulletin/showpost.php?p=8058569&postcount=4

Das meine "Berechnung" auf einer von mir falschen Einschätzung der Leistungsaufnahme der Teslas beruht, ist dir schon aufgefallen!?

Bucklew
2010-05-31, 22:19:48
Das meine "Berechnung" auf einer von mir falschen Einschätzung der Leistungsaufnahme der Teslas beruht, ist dir schon aufgefallen!?
Um wieviel? das 3fache?

Coda
2010-05-31, 22:20:01
Irgendwie find ich es schwach, dass eine Tesla C2050 mit theoretisch 515 GFlops (peak) bei diesem System in Linpack nur die Rechenleistung von zwei Xeon 5650 (je 64 GFlops peak) erbringt. Die zwei Xeons haben sogar weniger Transistoren (je 1,17 Mrd.) als ein GF100 (3 Mrd.) und die TDP der zwei Xeons ist mit zusammen 190 Watt auch niedriger.
Ich hab's jetzt nicht durchgerechnet, aber der verlinkte Artikel macht den Eindruck, dass die Fermis durchaus deutlich energieeffizienter sind.

Wo stimmt hier was jetzt nicht?

Auch musst du beachten, dass Linpack ein Fortran-Programm ist, das vor Fermi nichtmal direkt auf einer GPU lauffähig gewesen wäre.

Undertaker
2010-05-31, 22:23:31
Irgendwie find ich es schwach, dass eine Tesla C2050 mit theoretisch 515 GFlops (peak) bei diesem System in Linpack nur die Rechenleistung von zwei Xeon 5650 (je 64 GFlops peak) erbringt. Die zwei Xeons haben sogar weniger Transistoren (je 1,17 Mrd.) als ein GF100 (3 Mrd.) und die TDP der zwei Xeons ist mit zusammen 190 Watt auch niedriger.

Letztlich kommt es ja immer darauf an, was man mit dem System am Ende hauptsächlich berechnen will - Linpack ist zwar der Standardbench, aber für viele (vor allem speicherlastige) Anwendungen heutzutage kaum noch aussagekräftig. Es scheint wohl einige Fälle zu geben, wo so eine Tesla bzgl. Leistung/Dollar bzw. Leistung/Watt Kreise um die nicht gerade langsamen oder ineffizienten Westmere-6-Kerner drehen dürfte, sonst hätte man kaum in sie investiert.

Schlammsau
2010-05-31, 22:24:04
Um wieviel? das 3fache?
Im Grunde eine falsche Schätzung der Leistungsaufnahme der CPUs und von Thermi. Ist doch auch egal!

Spasstiger
2010-05-31, 22:26:56
Ich hab's jetzt nicht durchgerechnet, aber der verlinkte Artikel macht den Eindruck, dass die Fermis durchaus deutlich energieeffizienter sind.
Kommt drauf an, was man vergleicht. Ich vergleiche die CPUs des Nebulae mit den GPUs des Nebulae. Andere vergleichen den gesamten Jaguar-Cluster (#1), dessen Verbrauch mit allem drum und dran angegeben wird (Klimatisierung, etc.), mit dem Nebulae-Cluster.
Heise (http://www.heise.de/ct/meldung/Top500-der-Supercomputer-China-legt-kraeftig-zu-1010765.html) schreibt, dass die Hälfte der Rechenleistung des Nebulae von den CPUs und die Hälfte von den GPUs erbracht wird. Auf die Peak-Leistung trifft das nicht zu (594 TFlops zu 2390 TFlops), ergo muss wohl die reale Leistung in Linpack gemeint sein.
Auch musst du beachten, dass Linpack ein Fortran-Programm ist, das vor Fermi nichtmal direkt auf einer GPU lauffähig gewesen wäre
Auf den Radeon HD 4870 X2 aus dem Tianhe-1 läufts auch.

Letztlich kommt es ja immer darauf an, was man mit dem System am Ende hauptsächlich berechnen will - Linpack ist zwar der Standardbench, aber für viele (vor allem speicherlastige) Anwendungen heutzutage kaum noch aussagekräftig. Es scheint wohl einige Fälle zu geben, wo so eine Tesla bzgl. Leistung/Dollar bzw. Leistung/Watt Kreise um die nicht gerade langsamen oder ineffizienten Westmere-6-Kerner drehen dürfte, sonst hätte man kaum in sie investiert.
Die Infrastruktur für die GPUs ist sicherlich günstiger als für die CPUs. Eine Kosteneinsparung hat man mit Sicherheit. Trotzdem hätte ich mir vom Fermi mehr versprochen, gerade wenn man mit dem Tianhe-1 vergleicht (Xeons + Radeons).

Bucklew
2010-05-31, 22:28:29
Letztlich kommt es ja immer darauf an, was man mit dem System am Ende hauptsächlich berechnen will - Linpack ist zwar der Standardbench, aber für viele (vor allem speicherlastige) Anwendungen heutzutage kaum noch aussagekräftig. Es scheint wohl einige Fälle zu geben, wo so eine Tesla bzgl. Leistung/Dollar bzw. Leistung/Watt Kreise um die nicht gerade langsamen oder ineffizienten Westmere-6-Kerner drehen dürfte, sonst hätte man kaum in sie investiert.
Man wird sicherlich eine Aufgabentrennung innerhalb der Programme machen und besser für die CPU geeignete Threads auf der CPU laufen lassen und vice versa. Sobald es darum geht viele Daten immer und immer wieder ähnlich zu manipulieren, bügeln die GPUs eh jede CPU um Meilen weg.

Im Grunde eine falsche Schätzung der Leistungsaufnahme der CPUs und von Thermi. Ist doch auch egal!
Stimmt, völlig egal wenn du mal wieder total Blödsinn erzählst. Ich lass dich dann mal, bevor du dich noch mehr zum Affen machst, weil heute Montag ist :love3:

Undertaker
2010-05-31, 22:33:27
Trotzdem hätte ich mir vom Fermi mehr versprochen, gerade wenn man mit dem Tianhe-1 vergleicht (Xeons + Radeons).

Laut Wiki hat der ~560GFlops erreicht... Allerdings bin ich jetzt zu faul rauszusuchen, welche CPUs dort genau dort verwendet wurden und diese noch herauszurechnen. Hast du Angaben parat, welche Leistung die 5000 RV770 dort erbracht haben?

Ihm
2010-05-31, 22:40:40
Ich würde das chinesische System gerne mal in Crysis 19200x10800 mit 64AA/128AF erleben. Mikroruckler ahoi.

Bevor ihr mich steinigt: Ja, ich weiss. Aber alleine der Gedanke lässt die Machbarkeit dahingleiten. ;D

Bucklew
2010-05-31, 22:51:04
Laut Wiki hat der ~560GFlops erreicht... Allerdings bin ich jetzt zu faul rauszusuchen, welche CPUs dort genau dort verwendet wurden und diese noch herauszurechnen. Hast du Angaben parat, welche Leistung die 5000 RV770 dort erbracht haben?
Viel interessanter an diesem chinesischen ATI-Cluster, finde ich ja folgendes:

http://www.top500.org/blog/2009/11/13/tianhe_1_chinas_first_petaflop_s_scale_supercomputer
For the sake of the stabilization, the frequency of GPU core is decreased from 750MHz to 575MHz. Besides this, the frequency of GPU’s memory is also decreased from 900MHz to 650MHz.
Aha?! Wo bleibten da die Semiaccurate News? ;D

Spasstiger
2010-05-31, 23:02:43
Laut Wiki hat der ~560GFlops erreicht... Allerdings bin ich jetzt zu faul rauszusuchen, welche CPUs dort genau dort verwendet wurden und diese noch herauszurechnen. Hast du Angaben parat, welche Leistung die 5000 RV770 dort erbracht haben?
Tianhe-1: 1206 TFlops peak, 563 TFlops Linpack
Davon CPUs (Xeon 55xx): 207 TFlops peak
Davon GPUs (ATI RV770): 999 TFlops peak

Um auf die Realleistung der Xeons in Linpack zu komme, ziehe ich das Red-Sky-System (http://www.top500.org/system/performance/10584) auf Platz 10 heran. Dort sind ebenfalls Xeon-55xx-CPUs verbaut, die wie beim Tianhe-1 über Infiband miteinander verbunden sind.
Red Sky: 497396 GFlops peak, 433500 Linpack
Die gesamte Rechenleistung stammt dort von den Xeons, ergo kann man für die Konstellation Xeon 55xx + Infiband ca. eine Effizienz von 87% ansetzen. Auf Tianhe-1 übertragen heißt das:
CPUs: 180 TFlops Linpack
GPUs: 563 TFlops - 180 TFlops = 383 TFlops Linpack

Jetzt noch eine Betrachtung von Nebulae mit den Fermis:
Nebulae: 2984 TFlops peak, 1271 TFlops Linpack
Davon CPUs: 594 TFlops peak
Davon GPUs: 2390 TFlops peak
Die Effizienz der Xeon-56xx-CPUs schätze ich der Einfachheit halber wie oben ab, d.h. 87%. Damit ergeben sich folgende Resultate für Nebulae:
CPUs: 517 TFlops
GPUs: 1271 TFlops - 517 TFlops = 754 TFlops

Ergo bringen es die 2560 Radeon HD 4870 X2 in Linpack auf 383/999=38% ihrer theoretischen Peak-Rechenleistung, die 4640 Tesla C2050 dagegen nur auf 754/2390=31,5% ihrer Peak-Rechenleistung. Die ATI-RV770-GPUs bringen also wider Erwarten mehr von ihrem Potential auf die Straße als die NV-Fermi-GPUs.

Coda
2010-05-31, 23:03:20
Auf den Radeon HD 4870 X2 aus dem Tianhe-1 läufts auch.
Da werden nur einzelne Operationen auf den GPUs ausgelagert. KA was die hier machen.

Auf Linpack zu optimieren ist auch nur eine Sache. Fermi ist viel eher als allgemein verwendbarer massiv paralleler Rechner einzusetzen als alle anderen GPUs. Die Rechnung die du da ausführst dürfte für die die das Ding benutzen ziemlich nebensächlich sein.

Bucklew
2010-05-31, 23:51:10
Um auf die Realleistung der Xeons in Linpack zu komme, ziehe ich das Red-Sky-System (http://www.top500.org/system/performance/10584) auf Platz 10 heran. Dort sind ebenfalls Xeon-55xx-CPUs verbaut, die wie beim Tianhe-1 über Infiband miteinander verbunden sind.
Die CPUs des Red-Sky takten allerdings mit 2,9Ghz, die des Tianhe-1 nur mit 2,5. Dazu kommt noch, dass der Nebulae 6-Kern CPUs nutzt, keine 4-Kern, daher kannst du die Effizenz auf keinen Fall gleich setzen.

Spasstiger
2010-06-01, 00:01:32
Du meinst also, dass ein Cluster aus Sechskern-CPUs @ 2,5 GHz langsamer ist ein Cluster aus Vierkern-CPUs @ 2,9 GHz mit derselben theoretischen Peak-Rechenleistung? Umgekehrt sähe es für den Fermi noch schlechter aus.

deekey777
2010-06-01, 00:04:44
(Wieviele Kerne dienen einzig und allein der Verwaltung der GPU und nicht der Berechung der Aufgaben?)

(del)
2010-06-01, 01:22:42
Ist das wichtig bei so einem System?

edit:
Viel ist das aber echt nicht. Imho. Wie groß sind nochmal die Werte bei doppelter Genauigkeit?
Die theoretischen Werte des C2050, 630 Gflops bei ~220W, sind was? Doppelte?
KnightsCorner haut momentan ~500 Gflops Dauerleistung raus (golem.de). Ist das auch Doppelte? Nur, mit ~50 (wohl nicht mehr als 60) Kernen und auf jeden Fall mit 70W =)

Gast
2010-06-01, 07:17:10
Worst Case liegt im Furmark bei 235 Watt.

247W gibt NV sicherlich nicht zum Spaß an.

Brauchen sie auch nicht, alleine die Lüftersteuerung auf 70 statt auf 90°C einzustellen dürfte schon einiges bringen, und bei den Teslas wird sich wohl kaum jemand wegen der Lautstärke beklagen (wobei es dank optimiertem Gehäuse wohl in der Realität gar nicht so viel lauter sein wird)

Das macht die TDP-Angabe der GTX480 gleich noch mal unrealistischer. Da wäre wohl Minimum 320W fällig, wenn manche schon bis zu 317W im Furmark messen.

Gast
2010-06-01, 07:18:08
Dir ist schon klar, dass die dort verbauten Tesla C2050 sehr viel weniger Verbrauchen als die Desktop-Karten?

Selber Chip, selbe Baustelle. Die 247W bei derart geringen Taktraten sind jedenfalls alles andere als überzeugend.

Bucklew
2010-06-01, 09:33:18
Du meinst also, dass ein Cluster aus Sechskern-CPUs @ 2,5 GHz langsamer ist ein Cluster aus Vierkern-CPUs @ 2,9 GHz mit derselben theoretischen Peak-Rechenleistung? Umgekehrt sähe es für den Fermi noch schlechter aus.
Solange wir nicht die genauen Specs kennen, ist das reines Stochern im Nebel. Wenn die Memorybandbreite beider CPUs z.B. konstant ist, ist es wahrscheinlich, dass die 6-Kerner eher in diese Bottleneck laufen als die 4-Kerner. Die CPU-Effizenz nimmt also ab. Solche theoretischen Rechnungen sind daher immer mit Vorsicht zu genießen, solange nicht sämtliche Komponenten exakt gleich sind. Wir wissen z.B. auch nicht wie die verschiedenen Infiniband-Anbindungen der Cluster sind.

tombman
2010-06-01, 09:47:28
Wie ist denn Perf./Watt beim 1. und 2. Platz? Ist die Fermi Lösung jetzt effizienter, oder nicht?
Und wie siehts mit Perf./Dollar(Euro) aus?

Bucklew
2010-06-01, 10:44:03
Wie ist denn Perf./Watt beim 1. und 2. Platz? Ist die Fermi Lösung jetzt effizienter, oder nicht?
Und wie siehts mit Perf./Dollar(Euro) aus?
http://www.forum-3dcenter.org/vbulletin/showpost.php?p=8058569&postcount=4

deutlich besser für fermi

tombman
2010-06-01, 17:26:34
http://www.forum-3dcenter.org/vbulletin/showpost.php?p=8058569&postcount=4

deutlich besser für fermi
Geilomat, Fermi gewinnt, und das noch bei so schlechter Ausbeute :)
When you do the math, as far as Linpack is concerned, Jaguar takes just under 4 watts to deliver a megaflops at a cost of $114 per megaflops for the iron, while Nebulae consumes 2 watts per megaflops at a cost of $39 per megaflops for the system. And there is little doubt that the CUDA parallel computing environment is only going to get better over time and hence more of the theoretical performance of the GPU ends up doing real work.
:up:

Spasstiger
2010-06-01, 18:42:57
Viele Cluster aus den Top500 sind energieeffizienter als der vier Jahre alte Jaguar. Wäre ziemlich peinlich, wenn der brandneue Nebulae mit GPUs und einer geringeren Real-Rechenleistung nicht energieffizienter wäre.

Gipsel
2010-06-01, 19:37:20
Da werden nur einzelne Operationen auf den GPUs ausgelagert. KA was die hier machen.

Auf Linpack zu optimieren ist auch nur eine Sache. Fermi ist viel eher als allgemein verwendbarer massiv paralleler Rechner einzusetzen als alle anderen GPUs. Die Rechnung die du da ausführst dürfte für die die das Ding benutzen ziemlich nebensächlich sein.Das Gleiche.
Die LinPack-Benches für die Top500-Liste sind immer bis ans Ende handoptimiert. Da kannst Du vergessen, daß da irgendwer einfach mal seinen Fortran-Compiler anwirft und dann mal schaut, was hinten raus kommt. Anders sind die bis zu 90% Effizienz selbst bei x86er-CPU-Clustern nicht zu erklären. Die inneren Schleifen sind da sehr sicher per Hand mit ein paar SSE2+ Intrinsics verschönert worden. Die Top500-Regeln lassen nämlich so ziemlich alles zu.

Beim Fermi-Cluster wird genauso wie beim Tianhe-1 jede GPU einfach ein oder zwei Kernel für die jeweils zugeteilte Submatrix (deren Verteilung genauso läuft wie bei reinen CPU-Clustern) ausführen. Da steckt keine große Magie hinter.

Spasstiger
2010-06-01, 20:00:21
Gibts schon Planungen für einen Supercomputer auf Basis der Radeon HD 5970? Die hat ja fast die doppelte Rechenleistung gegenüber der HD 4870 X2 bei ähnlichem Verbrauch. Man könnte ja Tianhe-1 aufrüsten, würde je nach Taktraten für Platz 2 oder Platz 3 reichen (eher Platz 3). 2560 Radeon HD 5970 und 5120 Quad-Core-Xeons wären dann ungefähr gleichauf mit 4640 Tesla C2050 und 9280 Six-Core-Xeons.

deekey777
2010-06-01, 20:11:30
Gibts schon Planungen für einen Supercomputer auf Basis der Radeon HD 5970? Die hat ja fast die doppelte Rechenleistung gegenüber der HD 4870 X2 bei ähnlichem Verbrauch. Man könnte ja Tianhe-1 aufrüsten, würde je nach Taktraten für Platz 2 oder Platz 3 reichen (eher Platz 3). 2560 Radeon HD 5970 und 5120 Quad-Core-Xeons wären dann ungefähr gleichauf mit 4640 Tesla C2050 und 9280 Six-Core-Xeons.
Eine Ankündigung eines Supercomputers mit HD5800s kenne ich nicht, auch wäre AMD darüber sehr unglücklich. Weiterhin fehlt von einem Nachfolger der FireStream 9270 jede Spur. Vielleicht wartet AMD mit der Ankündigung etwas ab, http://saahpc.ncsa.illinois.edu/

Bucklew
2010-06-01, 20:13:21
Gibts schon Planungen für einen Supercomputer auf Basis der Radeon HD 5970? Die hat ja fast die doppelte Rechenleistung gegenüber der HD 4870 X2 bei ähnlichem Verbrauch. Man könnte ja Tianhe-1 aufrüsten, würde je nach Taktraten für Platz 2 oder Platz 3 reichen (eher Platz 3). 2560 Radeon HD 5970 und 5120 Quad-Core-Xeons wären dann ungefähr gleichauf mit 4640 Tesla C2050 und 9280 Six-Core-Xeons.
AMD wird sowas nicht pushen, weil sie mit Opteron-CPUs schlichtweg mehr Geld verdienen.

deekey777
2010-06-01, 20:15:34
AMD wird sowas nicht pushen, weil sie mit Opteron-CPUs schlichtweg mehr Geld verdienen.
Warum soll AMD "sowas" überhaupt pushen? Stellt AMD Supercomputer her?

Gipsel
2010-06-01, 20:17:10
Weiterhin fehlt von einem Nachfolger der FireStream 9270 jede Spur.Na jede Spur fehlt nicht:
"AMD FireStream 9170" = ati2mtag_RV630, PCI\VEN_1002&DEV_9519
"AMD FireStream 9250" = ati2mtag_RV7X, PCI\VEN_1002&DEV_9452
"AMD FireStream 9270" = ati2mtag_RV7X, PCI\VEN_1002&DEV_9450
"AMD FireStream 9350" = ati2mtag_Evergreen, PCI\VEN_1002&DEV_688D
"AMD FireStream 9370" = ati2mtag_Evergreen, PCI\VEN_1002&DEV_688C

Bucklew
2010-06-01, 20:20:10
Warum soll AMD "sowas" überhaupt pushen? Stellt AMD Supercomputer her?
Um CPUs zu verkaufen?

Gast
2010-06-01, 21:09:24
Um CPUs zu verkaufen?Das bringts ja...

Bucklew
2010-06-01, 22:17:20
Das bringts ja...
Stimmt, wozu auch Geld verdienen? Bei solchen Argumentationen muss man sich auch nicht Wundern, dass AMD es nicht schafft aus Intels Schatten herauszutreten :rolleyes: