Größter Multicore-Prozessor gesucht [Archiv]

Melbourne, FL

2007-08-16, 01:13:30

Hallo Leute,

ich arbeite gerade an einem Projekt (Molekulardynamik Simulationen) bei dem pure Rechenleistung gefragt ist. Mein Chef hier hat ca. 100 Prozessoren im Verbund laufen. Allerdings sind das alles Single Core und Dual Core Rechner, die miteinander verbunden sind. Momentan laesst er an einem Prozess hoechstens 16 Prozessoren laufen, da sonst die Netzwerkverbindung zwischen den Rechnern limitiert und die Performance wieder abfaellt.

Daher stellt sich mir nun die Frage, was momentan der groesste, kommerziell normal verfuegbare Multicoreprozessor ist (um das Problem mit der Netzwerkverbindung zu umgehen). Bei Alternate hab ich nur Quadcores gefunden...es gibt doch aber auf jeden Fall schon 8 Kerne auf einem Prozessor, oder irre ich mich? Und wie ist das dann nochmal genau mit der Speicherbandbreite? Muessen die sich die einzelnen Cores teilen, oder gibt es auch Prozessoren, bei denen jeder Core seinen eigenen Speicherbus hat?

Danke!

Alexander

Edit: Ich wuerde mich vorlaeufig erstmal auf AMD und Intel CPUs beschraenken wollen, da ich mich da mit dem Systembuilding auskenne. Andere Prozessoren duerfen natuerlich auch gerne genannt werden... ;)

Neosix

2007-08-16, 01:32:20

das maximum heute was du normal kaufen kannst sind quadcores. bestehen aus 2 c2d auf einem pakege. diese beiden kommunizieren über den fsb miteinander. weswegen er theoretisch ein limitierender faktor sein kann. laut intel jedoch kein problem ist.

Blinx123

2007-08-16, 01:38:39

Die Cell Architektur ist denke ich mal genau das,was du suchst. Enthält öfters auch mehr als 4 Cores und ist im Moment so ziemlich das leistungsfähigste (abgesehen vielleicht vom BlueGene-P).

Neosix

2007-08-16, 01:43:23

hängt von ab wie man die cores zählt... je nachdem hat er bis zu 8 cores. oder auch nur einen core mit 8 unterkernen die bestimmt aufgaben erfühlen. und von dem hauptkern nur verteilt werden.

trotzdem hat sich der thread starter auf intel und amd beschränken wollen. somit fallen alle anderen raus.

mit penryl wirds quadcores mit bis zu 3.33ghz geben ;) sicherlich teuer aber wenn der cheffe das möchte kriegt er damit das allerbeste was man kaufen kann. oder den kleineren quadcore 6600 für 230€ mit 2.4 ghz.

Spasstiger

2007-08-16, 01:49:36

Muss x86 sein, oder?

Ansonsten:
http://www.forum-3dcenter.org/vbulletin/showthread.php?t=375500
Kann mit seinen 8 Kernen 64 Threads gleichzeitig bearbeiten.

Coda

2007-08-16, 01:50:25

Die Cell Architektur ist denke ich mal genau das,was du suchst. Enthält öfters auch mehr als 4 Cores und ist im Moment so ziemlich das leistungsfähigste (abgesehen vielleicht vom BlueGene-P).
Cell fällt raus, weil darauf die Anwendung nicht so einfach laufen wird. Da sind extreme Eingriffe nötig.

Blinx123

2007-08-16, 02:09:38

Cell fällt raus, weil darauf die Anwendung nicht so einfach laufen wird. Da sind extreme Eingriffe nötig.

Ok,ich wusste ja auch nicht genau welche Anwendung. Aber für MolekularDynamische Anwendungen sind die Teile doch eigentlich perfekt,oder? Naja,der Threadstarter hat sich ja eh erstmal auf AMD und Intel beschränkt (was ich wohl übersehen hatte). Wenns x86 sein soll/muss: AMD Opteron (wobei es da glaube ich noch keine CPUs mit mehr als 2 Cores gibt. Mit dem Phenom X4 kommt aber bald ein sehr potenter QuadCore Vertreter,wenn man AMD glauben darf) oder ein Intel Xeon (Quad). Wenns unabhängig von x86 ist: Intel Itanium (der heizt ordentlich ein und ist eine gute Konkurenz für die IBM CPUs,zumindest bis der Power6 kommt)

Coda

2007-08-16, 02:39:27

Aber für MolekularDynamische Anwendungen sind die Teile doch eigentlich perfekt,oder?
Das ändert nichts daran, dass bestehende Software für Cell nur sehr schwer adaptiert werden kann.

sth

2007-08-16, 02:44:47

Blinx123

2007-08-16, 03:08:55

Ok,das mit dem Portieren war mir klar. Aber da ja nicht expliziet von x86 die Rede war,dachte ich,dass vielleicht sowieso die verwendete Software angepasst wird.

Simon Moon

2007-08-16, 03:56:16

Also im Rahmen normaler x86-Hardware: Multi-CPU-Board nehmen und mit Quad-Core-Xeons bestücken = 8 Cores pro Rechner.
http://geizhals.at/deutschland/?cat=mbxeon
http://geizhals.at/deutschland/?cat=cpuppro
Bei der Vernetzung der einzelnen Rechner kann ein guter Switch auch noch gut was bringen, wenn da die Limitierung liegen sollte.

Das geht bei AMD auch und zudem limitiert der FSB nicht.
http://www.amd.com/de-de/Processors/ProductInformation/0,,30_118_8826_14266,00.html

Wobei ich ja in diesem Fall auf den Barcelona warten würde, damit sollten dann doch eigentlich bis zu 16x gehen?

€dit: so wie ich das verstehe, ist mit HTT3.0 ein 32 Core System, bei dem jeder Sockel direkt mit jedem beliebigen anderen Sockel verbunden ist, möglich? siehe http://www.orthy.de/index.php?option=com_content&task=view&id=1778&Itemid=86

sth

2007-08-16, 08:36:10

Das geht bei AMD auch und zudem limitiert der FSB nicht.
Das ist wohl wahr, allerdings ist die Frage, ob die FSB-Limitierung in dem Szenario wirklich so viel ausmacht gegenüber dem ansonsten schon (leider) recht deutlichen Performance-Rückstand des K8. Zumal z.B. ein Opteron 8218 (2x2.60GHz, 2MB) auch noch mehr kostet als ein Xeon DP X5355 (4x2.66GHz, 333MHz FSB, 8MB) und vom AMD braucht man eben 4 CPUs pro Rechner statt zwei. Desweiteren sind die Quad-Mainboards auch nochmal teurer.

Ich würde aber auch abwarten, was der K10 bringt (sofern keine Eile mit der Anschaffung besteht).

PS: Gibt's eigentlich schon ein Datum, wann Intel endlich die Xeons mit CSI (d.h. FSB-los) herausbringt? Irgendwie scheinen die da was nicht ganz auf die Reihe zu kriegen im Moment, da das Ganze doch schon seit geraumer Zeit angekündigt ist.

=Floi=

2007-08-16, 08:43:05

beim dual xeon braucht man aber leider fb dimm

das ist wohl der größte ;D
http://upload.wikimedia.org/wikipedia/commons/1/1f/Power5.jpg
http://www.hardware.no/nyheter/images/ibm_power_5.jpg

Simon Moon

2007-08-16, 09:16:56

Das ist wohl wahr, allerdings ist die Frage, ob die FSB-Limitierung in dem Szenario wirklich so viel ausmacht gegenüber dem ansonsten schon (leider) recht deutlichen Performance-Rückstand des K8. Zumal z.B. ein Opteron 8218 (2x2.60GHz, 2MB) auch noch mehr kostet als ein Xeon DP X5355 (4x2.66GHz, 333MHz FSB, 8MB) und vom AMD braucht man eben 4 CPUs pro Rechner statt zwei. Desweiteren sind die Quad-Mainboards auch nochmal teurer.

Naja, die Frage ist, inwiefern der Preis der Hardware eine Rolle spielt. Wer bereits 100 PCs hat, dem werden 10'000 - 20'000€ vielleicht nicht mehr viel ausmachen.
btw. gibts wirklich nur 4 Sockel Boards? Selbst mit dem aktuellen HTT sollten doch mehr CPUs direkt miteinander verbunden werden können?

PS: Gibt's eigentlich schon ein Datum, wann Intel endlich die Xeons mit CSI (d.h. FSB-los) herausbringt? Irgendwie scheinen die da was nicht ganz auf die Reihe zu kriegen im Moment, da das Ganze doch schon seit geraumer Zeit angekündigt ist.

Ist das nicht Nehalem? Der soll afaik Mitte 08 kommen. http://www.forum-3dcenter.org/vbulletin/showthread.php?t=326945

Stone2001

2007-08-16, 09:46:37

Hallo Leute,

ich arbeite gerade an einem Projekt (Molekulardynamik Simulationen) bei dem pure Rechenleistung gefragt ist. Mein Chef hier hat ca. 100 Prozessoren im Verbund laufen. Allerdings sind das alles Single Core und Dual Core Rechner, die miteinander verbunden sind. Momentan laesst er an einem Prozess hoechstens 16 Prozessoren laufen, da sonst die Netzwerkverbindung zwischen den Rechnern limitiert und die Performance wieder abfaellt.
Wie wäre es dann mit einem guten Netzwerk? Auf Basis von Quadrics oder Infiniband? Das dürfte die Skalierbarkeit weiter steigern. Kommt aber auch auf eure Knoten an, wenn die keine Möglichkeit haben die Netzwerkkarten ordentlich anzubinden, bringt das natürlich auch wenig.

Ich kenne mich jetzt mit Molekulardynamiksimulationen nicht besonders gut aus. Sind das n-Körper-Probleme? (Dafür haben ein paar Japaner einen Hardware-Beschleuniger gebaut)

Aber so wie du es beschreibst, brauchst du mehr Kommunikationsbandbreite. (sonst würde dein Problem über 16 Prozessoren hinaus skalieren). Auf ein CMP, SMP oder NUMA-System zu wechseln, wäre natürlich die logische Konsequenz. Aber vorsicht, es kann vorkommen, dass die Prozessoren in einem SMP oder CMP weniger Speicherbandbreite haben, als Einzelknoten, da sie sich ihre Speicherbandbreite teilen müssen.

Die nächste Frage, die sich mir stellt ist, wie euer Problem parallelisiert wurde? OpenMP, MPI, HPF oder was ganz exotisches?
Eine gute MPI-Bib kann auch via Shared-Memory Nachrichten verschicken (ich kenne jetzt keine), andere wiederum kommunizieren nur über die Netzwerkschnittstelle. Auf einem CMP näturlich sehr schmerzhaft, es prügeln sich dann 4 Prozessor (o.ä.) um eine Schnittstelle, was folgt ist eine schlechte Leistung. (Hybride Programmierung wäre hier angebracht)

Daher stellt sich mir nun die Frage, was momentan der groesste, kommerziell normal verfuegbare Multicoreprozessor ist (um das Problem mit der Netzwerkverbindung zu umgehen). Bei Alternate hab ich nur Quadcores gefunden...es gibt doch aber auf jeden Fall schon 8 Kerne auf einem Prozessor, oder irre ich mich? Und wie ist das dann nochmal genau mit der Speicherbandbreite? Muessen die sich die einzelnen Cores teilen, oder gibt es auch Prozessoren, bei denen jeder Core seinen eigenen Speicherbus hat?

Danke!

Alexander

Edit: Ich wuerde mich vorlaeufig erstmal auf AMD und Intel CPUs beschraenken wollen, da ich mich da mit dem Systembuilding auskenne. Andere Prozessoren duerfen natuerlich auch gerne genannt werden... ;)
Spontan würde ich für dein Problem, entweder einen Vektorrechner oder einen Cluster auf Itanium 2 Basis vorschlagen (z.B. eine SGI-Altix). Leider sind beide Alternativen recht teuer.
Für etwas weniger Geld, ein Opteron-System. Xeon-Cluster auf Basis von Core2 sind zwar in der Peak-Performance Spitze, sollen aber in der Sustained-Leistung nicht so gut sein.
Ich weiß im Augenblick nicht, welcher Hersteller ein 8-Sockel Opteron-System im Angebot hat, sowas dürfte aber im Hinblick auf Preis/Leistung noch am besten sein. (AFAIK hat Tyan ein 4Sockel-Opteron-Board im Angebot, welches man nochmals erweitern kann)
Ich persönlich würde mich aber mal nach Itanium-Systemen umschauen.
(Aber alles eine Frage des Budget und natürlich sollte man das System vorher evaluieren)

Bokill

2007-08-16, 11:09:44

Hallo Leute,

ich arbeite gerade an einem Projekt (Molekulardynamik Simulationen) bei dem pure Rechenleistung gefragt ist. Mein Chef hier hat ca. 100 Prozessoren im Verbund laufen. ...

Daher stellt sich mir nun die Frage, was momentan der groesste, kommerziell normal verfuegbare Multicoreprozessor ist ...
...
Edit: Ich wuerde mich vorlaeufig erstmal auf AMD und Intel CPUs beschraenken wollen, da ich mich da mit dem Systembuilding auskenne. Andere Prozessoren duerfen natuerlich auch gerne genannt werden... ;) Du willst vieles auf einmal.

Der CPU-Markt hält hier die verschiedensten Lösungen parat. Abgesehen davon, dass der Markt auch Grids mit mehr als 10.000 Prozessoren kennt ... die auch als x86-CPU-Verbund unbezahlbahr sind ...

Bei x86 ist derzeit Schluss mit Intels Quadcores und AMDs derzeitigen Dualcores.
Das kann man etwas erweitern, indem man x86-Rechner nimmt mit mehreren Sockeln. Da hat Tyan, Iwill, Uniwide (http://www.orthy.de/index.php?option=com_content&task=view&id=1573&Itemid=38) und manch ein anderer Hersteller was im "Angebot".

Was Molekulardynamik Simulationen angeht, da sind zudem weitere echte Alternativen da. Das ist zum einem der Cell, der kann unter Linux programmiert jeden aktuellen Opteron, Xeon davonrennen.
Fraunhofer hat da im Projekt "Fractherm" auf der Cebit 2007 eine nette Strömungssimulation demonstriert, die auf einem normalen Opteron-Blade eine "Diashow" ablieferte, beim Cell-Blade hingegen wars eine Visualisierung in "Echtzeit". Der Cell in Form der subventionierten PS3 (http://www.orthy.de/index.php?option=com_content&task=view&id=4838&Itemid=86) sozusagen ein "Schnäppchen".

Etwas anders gelagert ist das mit den GPUs von ATI und Nvidia, die können ebenso mit einer Middleware in x86-Systemen eingebunden werden. Da hat ATI "Close to Metall", Nvidia "CUDA" und es gibt eine französische Firma GPU-Tech die eine eigenständige Lösung hat die sowohl ATI, als auch Nvidia (http://www.orthy.de/index.php?option=com_content&task=view&id=4836&Itemid=86) und gegebenenfalls auch den Cell unterstützen soll.

Etwas exotischer gehts mit Steckkarten von Clearspeed (http://www.orthy.de/index.php?option=com_glossary&Itemid=55&func=view&id=257) (teurer, aber auch extrem genügsam im Strombedarf). Davon gibt es PCI-Express und auch PCI-Varianten.
Noch exotischer, aber für Molekulardynamik wie geschaffen ist der NEC Vektorprozessor SX-8/SX8R (http://www.orthy.de/index.php?option=com_content&task=view&id=4350&Itemid=86). Beides ist sicher auch zusammen mit Tools zur Leistungsbeschleunigung ausgestattet ... aber doch eben sehr speziell ...

Auch nicht mehr x86, aber wie geschaffen fürs Netzwerk ist übrigens ein Tyan-Server mit einem RMI Octacore der XLR-Reihe (http://www.orthy.de/index.php?option=com_content&task=view&id=4623&Itemid=86) (MIPS-Architektur), extrem kompakt, besser mit Speicher erweiterbar als derzeitige Cell-Blades und wahrscheinlich ähnlich rechenstark wie der Cell.
Der Nachteil scheint mir da, dass dort keine eigentliche RMI-Entwicklergemeinde besteht (kann mich da aber irren). IBM und Sony hingegen geben in Abständen immer wieder Tutorials heraus, wie man dem Cell auf die Beine helfen kann.

Der UltraSPRAC T2 (http://www.orthy.de/index.php?option=com_content&task=view&id=4869&Itemid=85) ist natürlich ebenso wie der Tyan-Server mit dem RMI XLR eine potenzielle Lösung, aber eben nicht x86, sondern SPARC, wenngleich dann mit Sun dahinter.

Darüber hinaus gibt es natürlich auch schon Multicores, die 1000 Rechenkerne haben ... aber dann wird wirds wirklich exotisch ... ;)

Der Vorschlag ein besseres Netzwerk, bzw. eine sehr schnelle Schnittstelle zwischen die jeweiligen Rechner zu pappen ist natürlich ebenso eine Alternative und sinnvolle Erweiterung (Infiniband o.ä.).

MFG Bobo(2007)

Stray_bullet

2007-08-16, 11:09:47

Suns UltraSPARC T2 scheint für solche Aufgaben prädestiniert zu sein:

Eine weitere Neuerung gegenüber dem T1 ist die Gleitkommaeinheit (FPU) mit doppelter Genauigkeit, die jeder der acht Kerne des T2 mitbringt. Damit empfiehlt sich Suns neuer Prozessor nicht nur für rapide I/O-Aufgaben, sondern auch für technisch/wissenschaftliche Berechnungen. Die reine Brutto-Rechenleistung dieser FPUs in GFlops hat Sun jedoch noch nicht verraten, das ist bei CPUs - anders als bei eher spezialisierten Chips wie GPUs und FPGAS - auch nicht üblich.

Dass Sun den T2 als "Server-on-a-Chip" bezeichnet, liegt vor allem an seinen umfangreichen I/O-Funktionen. Acht Lanes für PCI-Express, zwei Ports für 10-Gigabit-Ethernet und vier Speicher-Controller für FB-DIMMs stehen zur Verfügung. Möglich wird das durch eine universelle Architektur für die Serializer/Deserializer (SerDes), die alle diese Funktionen steuert. Denkbar ist hier, dass Sun in der Zukunft sein SerDes-Interface auch für Chip-to-Chip-Verbindungen einsetzt, wie das beispielsweise AMD per HyperTransport schon für seine Opterons macht.

Bisher setzt Sun mit seinem I/O auf dem Prozessor primär auf viel Speicher und das Netz. So entschied man sich auch für FB-DIMMs, obwohl diese deutlich mehr Energie als DDR- oder DDR2-Speicher benötigen: Sie kommen aber mit der Hälfte der Pins aus, was das Mainboard-Layout vereinfacht und das Prozessorgehäuse klein hält. Auch mit dieser Lösung hat ein T2 schon eine Kantenlänge von 45 Millimetern, an der Unterseite sitzen 1.831 BGA-Kontakte, von denen 711 nur für Ein- und Ausgabe dienen.

Die acht Lanes für PCI-Express lassen sich flexibel aufteilen, etwa für Massenspeicher-Anschlüsse. Insgesamt kommt der T2 damit auf 50 GBit/s für PCI-Express, bei den Speicherkanälen sind es gut 920 Gigabit pro Sekunde, auch wenn alle 64 möglichen Module eingesetzt werden.

Besondere Beachtung verdienen die beiden 10-Gigabit-Ports für Ethernet. Sie dienen nicht nur für den Einsatz als Webserver, sondern auch zum einfachen Verbinden von mehreren T2-Rechnern in Blade-Rechnern. Jeder der genutzten Ports benötigt aber noch den analogen Teil, das "PHY", das bei 10-GBit-Ethernet recht stromhungrig sein kann. Bei einer gesamten Bandbreite von 50 GBit/s bis zum PHY aus einer CPU per Ethernet, die zudem die bessere Protokollverarbeitung (off-loading) direkt übernehmen kann, werden wohl viele Server-Hersteller darauf einsteigen.

Die integrierten Ethernet-Anschlüsse des T2 empfehlen den Prozessor auch für Clustering oder Render-Farmen - auch das ein Beleg für Suns Willen, dort verlorene Marktanteile zurückzuerobern.

http://www.golem.de/print.php?a=54029

Stone2001

2007-08-16, 11:22:21

Etwas anders gelagert ist das mit den GPUs von ATI und Nvidia, die können ebenso mit einer Middleware in x86-Systemen eingebunden werden. Da hat ATI "Close to Metall", Nvidia "CUDA" und es gibt eine französische Firma GPU-Tech die eine eigenständige Lösung hat die sowohl ATI, als auch Nvidia (http://www.orthy.de/index.php?option=com_content&task=view&id=4836&Itemid=86) und gegebenenfalls auch den Cell unterstützen soll.
Cell ist natürlich eine Alternative, genauso wie die Grafikkarten.
Meine Erfahrung mit Anwendern von Supercomputern ist allerdings, dass sie ihre Anwendung schreiben wollen, wenn es geht in einfachem C oder Fortran. Anpassungen an Spezialarchitekturen wollen nur die wenigsten vornehmen.

Etwas exotischer gehts mit Steckkarten von Clearspeed (http://www.orthy.de/index.php?option=com_glossary&Itemid=55&func=view&id=257) (teurer, aber auch extrem genügsam im Strombedarf). Davon gibt es PCI-Express und auch PCI-Varianten.

Nope, ClearSpeed-Acceleratoren sind für bandbreitenhungrige Anwendungen nicht geeignet. Die Speicherbandbreite beträgt für alle Funktionseinheiten im Poly-Bereich nur 3.2 GB/s. Und auch der lokalte Speicher der FUs ist mit 6KB recht gering.

(Falls es doch funktionieren sollte, sagt mir bescheid, dann gebe ich das an Clearspeed weiter)

Noch exotischer, aber für Molekulardynamik wie geschaffen ist der NEC Vektorprozessor SX-8/SX8R (http://www.orthy.de/index.php?option=com_content&task=view&id=4350&Itemid=86). Beides ist sicher auch zusammen mit Tools zur Leistungsbeschleunigung ausgestattet ... aber doch eben sehr speziell ...

Vektorrechner halt, bei 4096 Speicherbänken, ist auch die Sustained-Leistung ordentlich. (Zumindest sagen dass die Leute vom HLRS)

BTW: Ob ich einen T2 für dieses Problem einsetzen würde ... Hat jemand die komplette Speicherbandbreite parat, sowie die max. FPU-Performance?
Vorallem dürften bei 64 Bandbreitenhunrigen Threads es eng werden.

Erst Rock soll wieder für HPC-Anwendungen entwickelt werden.

Botcruscher

2007-08-16, 11:27:25

Was ist den mit GPUs? Muss zwar auch angepast werden aber ist zB. bei F@H 10x schneller als die Cell-Gurke.

Bokill

2007-08-16, 12:12:10

Was ist den mit GPUs? Muss zwar auch angepast werden aber ist zB. bei F@H 10x schneller als die Cell-Gurke.

Schon im Thread die einzelnen Postings gelesen?
... Etwas anders gelagert ist das mit den GPUs von ATI und Nvidia, die können ebenso mit einer Middleware in x86-Systemen eingebunden werden. Da hat ATI "Close to Metall", Nvidia "CUDA" und es gibt eine französische Firma GPU-Tech die eine eigenständige Lösung hat die sowohl ATI, als auch Nvidia und gegebenenfalls auch den Cell unterstützen soll. ... Damit soll man in C die Rechen-Probleme beschreiben können.

... BTW: Ob ich einen T2 für dieses Problem einsetzen würde ... Hat jemand die komplette Speicherbandbreite parat, sowie die max. FPU-Performance?
Vorallem dürften bei 64 Bandbreitenhunrigen Threads es eng werden. Mit FB-DIMM dürfte die Bandbreite irrelevant sein, die Latenz leidet natürlich darunter. Allerdings dürfte FB-DIMM noch schneller sein, als ein GB-LAN.
http://scr3.golem.de/screenshots/0708/T2-Archi/T2-SerDes.png

Golem.de hatte da einen breiteren Artikel darüber: "Server-on-a-Chip: Suns UltraSPARC T2 im Detail (http://www.golem.de/0708/54029-4.html)".

Sun hat mit dem UltraSPARC schon etwas mehr vor, als nur ein technisches Update vom UltraSPARC T1 ("Niagara").
http://scr3.golem.de/screenshots/0708/T2-Archi/T2-Spec-Int.png

Sun betrachtet in diesem Sinne den Cell durchaus als Konkurrenten in einigen gleitkommaintensiven Anwendungen. Der "Rock" soll da noch "oben" was drauf legen, da die "Pro-Kern"-Rechenleistung gesteigert werden soll. Gut möglich, dass dabei noch mehr Wert auf Einzelrechenleistung gelegt wird mit vertikalem Multithreading hat Sun da eine willkommene SMT-Ergänzung (das Konzept ist im SPARC64 VI von Fujitsu).

MFG Bobo(2007)

Melbourne, FL

2007-08-16, 17:25:10

Ok...ich sehe schon...sehr komplexes Thema. Ich versuch erstmal genau rauszufinden, was wir momentan an Hardware haben und melde mich in ein paar
Stunden mit einer genaueren Beschreibung.

Trotzdem schon mal danke,

Alexander

Gast

2007-08-16, 19:47:57

Hey Melbourne, FL,
also die rohe Prozessorpower für CFD kannst du dir bei www.spec.org unter den FP-Benchmarks anschauen. Ich hab mir jetzt ehrlichgesagt nicht die Mühe gemacht nachzuschauen aber meiner Erinnerung nach liegt hier der Itanium 2 auf der einen und der Power5/6 auf der anderen Seite vorne ... sind hald beides keine x86 Architekturen. Allerdings würd ich auch meinen jede "anständige" CFD Software ist für verschiedene Architekturen zu haben, zumal es ja hier auch Sinn gibt FPU-Starke Prozessorarchitekturen einzusetzen (Power/IA64). Diese "anderen" Architekturen sind auch eher auf Cluster-Computing ausgelegt als die x86 Architektur!
Ich hoffe ich konnte a bissl helfen! Cya

Melbourne, FL

2007-08-16, 20:41:56

Puh...ein Haufen Antworten...vielen Dank dafuer. Aber um ehrlich zu sein: viel Zeugs, das ich nicht verstehe. Ich hab mich bisher abseits vom eigenen Rechner wenig mit CPUs beschaeftigt und kenne mich daher mit den ganzen Suns, Cell, Itanium usw. wenig aus.

Aber vielleicht sollte ich auch etwas genauer werden...worum geht es mir: Ich arbeite wie gesagt gerade an Molekulardynamiksimulationen. Allerdings hab ich erst vor 3 Tagen angefangen...bin also noch ziemlich unbedarft. Als Programm kommt CHARMM (http://www.charmm.org/) zum Einsatz. So wie ich das verstehe, bekommt man davon den Source-Code, den man dann auf seiner Maschine kompiliert. Dafuer gibt es einen Haufen Komandozeilenparameter...siehe dieses Unterforum: http://www.charmm.org/ubbthreads/postlist.php?Cat=0&Board=compiling

Ich und wohl auch mein Chef haben keinerlei Intentionen im Source-Code rumzufummeln...deswegen fallen exotische Loesungen, die das erfordern, schon mal raus. Zur Performance von CHARMM auf verschiedenen Systemen habe ich folgende Links gefunden (die allerdings beide eher alte Architekturen enthalten...die Core-Architektur hab ich z.B. bei beiden nicht gefunden):

http://www.cmm.ki.si/parallel/summary.html
http://developer.amd.com/assets/Computational_Chemistry_Paper.pdf

Die momentane Ausstattung meines Chefs sieht folgendermassen aus (Taktfrequenzen und Speicherausbau sind eher Schaetzungen, da mein Chef die Unterlagen nicht da hatte). Der schnellste Cluster besteht aus 32 Dell PowerEdge SC1425. In jedem von denen stecken zwei 2GHz Xeon Prozessoren (zwei separate Prozessoren auf einem Mainboard mit zwei Sockeln) und 2GB RAM. Die einzelnen Racks sind ueber Infiniband miteinander verbunden.

Es gibt noch einen zweiten Verbund, der aelter ist. Dort sind 32 Dell Optiplex GX280 und 16 Dell PowerEdge SC400 miteinander verbunden (jeweils ein Pentium4 (Taktfrequenz weiss ich gerade nicht) mit 1GB RAM). Es haengen jeweils 16 Rechner an einem normalen Gigabit-Switch, die wiederum untereinander verbunden sind. Dieser Verbund soll deutlich schlechter mit steigender Prozessorzahl skalieren als der schnelle Cluster (insbesondere, wenn man Rechner verbindet, die nicht am selben Switch haengen). Ein Kollege hat mal auf dem langsameren Cluster einen Test mit einer maessig anspruchsvollen Simulation gemacht (linke Spalte ist die Anzahl der Prozessoren und rechts die benoetigte Rechenzeit):

1 43min
2 26min
4 16min
8 11min
16 31min (kein Vertipper)

Zum schnelleren Cluster hab ich noch keinen Zugriff...wenn ich den mal habe probiere ich das dort auch mal aus (wird allerdings noch ein paar Wochen dauern, bis ich soweit bin).

Momentan besteht bei meinem Chef eigentlich keine echte Notwendigkeit aufzuruesten...aber er hat durchblicken lassen, dass man durchaus nochwas kaufen koennte, wenn sich was anbietet (er hat noch einige Infiniband Karten rumliegen). Ich interessiere mich aber auch deswegen dafuer weil ich darueber nachdenke, eventuell in 2 Jahren selbst eine solche Gruppe zu gruenden (vorausgesetzt, es foerdert mich jemand). Dann braeuchte ich selbst eine solche Maschine...und da will ich natuerlich was schnelles und gleichzeitig bezahlbares haben. Das ist zwar alles noch ein Weilchen hin aber man kann sich ja jetzt schon mal informieren, was es fuer Moeglichkeiten gibt und wo eventuelle Bottlenecks liegen, die man vermeiden sollte. Und bei solchen Ueberlegungen steht an vorderster Stelle natuerlich auch immer die Frage nach dem Performance/Preis Verhaeltnis. Sprich: Es ist eine gewisse Menge Geld vorhanden und man moechte die beste Performance fuer dieses Geld erhalten (als Anhaltspunkt: der schnelle Cluster hat mit allem drum und dran (also auch Installation, Netzwerkverbindung usw.) ca. 90.000 $US gekostet).

Also bin ich fuer jeden Hinweis dankbar,

Alexander

PS: Speicherbedarf und Festplattengeschwindigkeit sind nicht wirklich gross und somit relativ egal fuer die Endperformance. Es kommt wirklich auf die reine Rechenleistung und auf die Verbindung zwischen den Prozessoren an.

Bokill

2007-08-16, 22:20:36

... Es kommt wirklich auf die reine Rechenleistung und auf die Verbindung zwischen den Prozessoren an. Damit bringst du zur Zeit zwei Diametral zueinander stehende Eigenschaften der Xeon und Opteron-Plattformen zusammen.

Zur Zeit ist Intel in der Vorhand was "reine" Rechenleistung angeht ... andererseits ist AMD zur Zeit etwas besser dran in Multi-Sockelumgebungen.

Dann noch einen Trend in zwei Jahren schon jetzt abzuschätzen ist da ein Tanz auf Messers Schneide.

Intel will nächstes Jahr ihren CSI-Interconnect einführen, spätestens dann sind beide konkurrierenden Plattformen in Sachen Skalierbarkeit in Grids vermutlich gleichwertig.

Wer in 2 Jahren hingegen den stärkeren Rechenkern haben wird, das ist derzeit wirklich nicht vorherzusehen. Allenfalls die vermutete Reife von AMDs HyperTransport könnte für AMD sprechen gegenüber Intels kommenden CSI-Interconnect.

MFG Bobo(2007)

Gast

2007-08-16, 22:28:20

Itanium

=Floi=

2007-08-16, 22:41:51

würde aktuell zu nem dual xeon board raten mit jemweils 2 quad core und davon 4 stück
das wären dann 32kerne @ max 3ghz

Blinx123

2007-08-16, 22:58:42

Itanium

Jup. Passt dann aber nicht so gut zu den Xeons. Da muss man dann wieder umkompilieren,was er ja nicht will.

Melbourne, FL

2007-08-17, 00:23:00

Damit bringst du zur Zeit zwei Diametral zueinander stehende Eigenschaften der Xeon und Opteron-Plattformen zusammen.

Zur Zeit ist Intel in der Vorhand was "reine" Rechenleistung angeht ... andererseits ist AMD zur Zeit etwas besser dran in Multi-Sockelumgebungen.

Inwiefern unterscheidet sich denn im Moment die Kommunikation zwischen den Kernen bei Prozessoren von Intel und AMD? Und wie wird ueberhaupt die Kommunikation zwischen mehreren Prozessoren auf einem Board geloest?

Dann noch einen Trend in zwei Jahren schon jetzt abzuschätzen ist da ein Tanz auf Messers Schneide.

Das ist schon klar... ;) Mir ging es ja auch mehr darum, worauf man achten muss. Insofern hat der Thread schon viel gebracht. :smile:

Mein Chef hat vorhin aber gerade noch mal gemeint, dass er durchaus auch zu einer Neuanschaffung bereit ist, wenn sich was anbietet. Also sind konkrete Vorschlaege durchaus auch schon jetzt von nutzen. Das hier klingt doch z.B. ganz gut:

würde aktuell zu nem dual xeon board raten mit jemweils 2 quad core und davon 4 stück
das wären dann 32kerne @ max 3ghz

Gibts dazu weitere Meinungen? Ein paar Infiniband Karten waeren wie gesagt noch vorhanden...muesste "nur" noch ein entsprechender Switch her. Und die Quadcores sind vom Preis her ja auch noch im Rahmen, wenn man mit der Taktfrequenz unter 2.33GHz bleibt.

Alexander

PS: Und zum Thema Itanium: http://www.charmm.org/ubbthreads/showflat.php?Cat=&Board=compiling&Number=772&Searchpage=1&Main=744&Words=+sherwood&topic=&Search=true

Das laesst sich sicher loesen aber ich hab keinen Bock, mich mit sowas rumzuschlagen. Wie waere denn das Preis/Performance Verhaeltnis vom Itanium2 im Vergleich zu Xeons oder Opterons? Der Itanium2 ist doch schweineteuer, oder?

Blinx123

2007-08-17, 00:52:31

Jup. Im Vergleich zu den Opterons und Xeons ist der Itanium wirklich "etwas" teuer:)

Bokill

2007-08-17, 00:56:16

Inwiefern unterscheidet sich denn im Moment die Kommunikation zwischen den Kernen bei Prozessoren von Intel und AMD? Und wie wird ueberhaupt die Kommunikation zwischen mehreren Prozessoren auf einem Board geloest? ... Zwischen den Sockeln braucht AMD keine Chipsätze mehr für den Datenverkehr zwischen den Prozessoren.

Intel muss derzeit noch Chipsätze nutzen, um auch zwischen den verschiedenen CPU-Sockeln zu kommunizieren.

Die Kommunikation der Einzelkerne ist zwar bei AMD und Intel etwas anders gelöst, aber beide haben es derzeit geschafft, die interne Kommunikation effektiver zu organisieren. Bei Intel muss aber doch etwas mehr über den Chipsatz kommuniziert werden. AMD hat dazu seine SRQ (http://www.orthy.de/index.php?option=com_glossary&Itemid=55&func=view&id=53) und Xbar (http://www.orthy.de/index.php?option=com_glossary&Itemid=55&func=view&id=20), die die Kommunikation erheblich seit den ersten K8-Prozessoren beschleunigt.

Zudem hat AMD einen integrierten Speicherkontroller, der sehr kurze Latenzen beim Speicherbus bewirkt. Der System-Interconnect HyperTransport g (http://www.orthy.de/index.php?option=com_glossary&Itemid=55&func=view&id=269)ehört derzeit zu den schnellsten Prozessor-Interconnects überhaupt. Prinzipiell kann man gegebenenfalls auf einem Opteron-Multi-Sockel, zur Beschleunigung* von einigen Berechnungen, FPGA (http://www.drccomputer.com/drc/products.html)s nutzen (Stichwort "Torrenza (http://www.orthy.de/index.php?option=com_content&task=view&id=4247&Itemid=86)").

Intel hingegen kommuniziert derzeit über den Flaschenhals Prozessorbus, der in der Core 2 Architektur aber vielfach u.a. durch geschicktes Prefetching des Speichers recht gut kompensiert wird. In der Praxis hängt es demnach stark vom Einzelfall ab, welche Systemarchitekur da besser ist

Wie gesagt, das ist derzeit alles graue Theorie, da in der Praxis teilweise die Unterschiede nicht daran festzumachen sind.

Spannend wird ab dem 10 September 2007 (Start der K10 "Barcelona"-Opterons), bzw. dem 11. November 2007 mit dem Intel Penryn.

* = Nichts für Anfänger

MFG Bobo(2007)

(del)

2007-08-17, 01:06:48

Was der Penryn bringt müßte ungefähr schon einschätzbar sein. Im Schnitt 10% pro Mhz im Vergleich zum aktuellen C2D.

Wenn man den Kode nicht anfassen darf, kommt nur eine CPU in Frage. Wenn der Spielraum aber größer ist, finde ich den Einwurf des Gastes mit GPUs garnicht so uninteressant. Irgendwie griff das niemand auf (?) :|

Bokill meinst du wirklich der T2 ist eine Alternative, wenn es um Fließkoma geht? :|

So oder so muß ich mich aber wundern, daß Melbourne sich mit solchen Problemen auseinandersetzen muß, als wenn es in so einem Unternehmen wirklich garkeine Kompetenz bezüglich Hardware existieren würde. Hmm...

Wenn es noch ein Weilchen hin ist, würde ich den K10 abwarten. Der sollte auf mehrsockel Boards verdammt stark sein.

S940

2007-08-17, 03:30:21

Dann geb ich auch mal meine Meinung zum Besten:

Summa Summarum dürfte man im Moment das beste Preis / Leistungs Verhältnis bei 2 Sockel Systemen mit QuadCore CPUs bekommen. Ausser 1 Infinibandkarten kostet mehr als der Quad-Aufpreis für 4 Quadfähige CPUs gegenüber 2x2 Dual fähigen, was ich nicht glaube.

Der Preis wird das Ganze dann wohl auf x86 Systeme beschränken, wobei Sun "demnächst" auch eine 2er SMP Variante Ihres T2 rausbringt, nennt sich "Victoria Falls". Wird aber wohl zu teuer das System. Man hat dann zwar 16 Kerne aber die sind recht primitiv und die CPU Taktfrequenz ist auch nicht gerade überragend, der T2 hat z.Zt. max. 1,4 GHz. Ob das für einen deutlichen Leistungsvorsprung gegenüber 8 höhergetakteten Penryn oder K10 Kerne mit höherer IPC (pro Kern) reichen wird, ziehe ich eher in Zweifel. Der Mehrpreis wird dagegen sicherlich deutlicher ausfallen, aber behalte es mal im Auge ... Vielleicht lieg ich auch vollkommen falsch, ich mach hier nur ne Pi*Daumen Abschätzung ;-)

Unter der Annahme, dass die Software viel FPU Leistung ( Bitte überprüfen, aber Molekülerechnen hört sich nicht nach Integer an ^^) fordert und unter dem nicht drängenden Zeitaspekt, spräche das für ein Opteron System auf K10 Basis, was es ab nächsten Monat gibt. AMD legt da einiges im FPU Leistungsbereich nach. Inwieweit Intel mit höhergetakten Chips dagegenhalten kann, muss man sehen. In Deinem Spezialbereich, musst Du da selber messen, da kommst Du nicht drum herum.

Weitere Vorteil wäre die Aufrüstbarkeit. AMD garantiert das, bei Intel weiss man nie, ob sie beim nächsten Xeon wieder nen Pin weglassen ... :(
Insofern würde ich nächsten Monat einen K10 Server bauen mit sagen wir mal 2 Ghz, in 1-2 Jahren, könntest Du dann die Barcelona K10 gegen überarbeitete 3GHz Typen (Shanghai) ausstauschen.
Boards kosten um die 300 Euro, die 2 Ghz CPU wird wohl um 400 Euro kosten, reg. DDR2-800 RAM kostet so 60-70 Euro pro 1 GB Modul (Im Moment wird zwar nur DDR2-667 unterstützt, aber DDR2-800 ist in Aussicht gestellt. Die 800er Module sind nur ein paar Euro teurer .. also schaden kanns nicht ;-))
Gesamtpreis ( für board / CPU / 4 GB RAM ) wäre dann ~1400 Euro

Gegenüber Intel wär ich skeptisch, ausser den oben genannten Gründen sehe ich auch die benötigten FB-DIMMs als Problem an, die werden relativ heiss, und haben ne schlechtere Zugriffszeit.

Bliebe höchstens noch die Idee ein billiges Intel 1 CPU System zu bauen, die Intel QuadCore CPUs sind ja jetzt schon relativ billig.. aber da braucht man dann 2 boards und 2 Infiniband Karten, zusätzlich Gehäuse, Platte etc. pp ... dazu kommt die schlechtere Skalierung über Infiniband ... wohl nicht zu empfehlen.

Kurzfassung: AMD K10, und Sun im Auge behalten.

Eventuell rechnet sich doch noch ein Quad System (wenns Euch das wert ist), aber das spar ich mir erst mal, hab eh schon zuviel geschrieben ;-)

Aja ... der Compiler kann auch noch nen großen Unterschied machen ... kalkulier im AMD Fall schon mal ne Lizenz von Pathscale (http://www.pathscale.com/) mit ein. Gibt da auch einen 30 Tage Test ... kannst Du ja mal austesten ;-)

@GPU:
Ohne Code Anpassung wird da nicht viel Gutes rauskommen.

@Itanium:
Jo das ist *TEUER* aber frag mal bei ein paar Händlern an, vielleicht läuft gerade ne Itanium Rabatt und Verramsch Aktion ;-)

ciao

Alex

Bokill

2007-08-17, 09:15:58

Demnächst bei Sun:
... wobei Sun "demnächst" auch eine 2er SMP Variante Ihres T2 rausbringt, nennt sich "Victoria Falls".

Wird aber wohl zu teuer das System. Man hat dann zwar 16 Kerne aber die sind recht primitiv und die CPU Taktfrequenz ist auch nicht gerade überragend, der T2 hat z.Zt. max. 1,4 GHz. Ob das für einen deutlichen Leistungsvorsprung gegenüber 8 höhergetakteten Penryn oder K10 Kerne mit höherer IPC (pro Kern) reichen wird, ziehe ich eher in Zweifel. ... Der UltraSPARC T2 hat eine Gleitkommaleistung knapp unterhalb der Augenhöhe eines aktuellen Intel Quadcore im Zweisockelsystem.

Demnächst ist ein gedehnter Begriff, obgleich Sun seine Roadmap für die Niagara-Familie bislang eingehalten hatte.
http://www.orthy.de/images/stories/bokill/Sun/sparc_timeline_2008.jpg

Sockellebenszeit:
Weitere Vorteil wäre die Aufrüstbarkeit. AMD garantiert das ...

Kurzfassung: AMD K10, und Sun im Auge behalten. ... der Compiler kann auch noch nen großen Unterschied machen ... kalkulier im AMD Fall schon mal ne Lizenz von Pathscale (http://www.pathscale.com/) mit ein. ... AMD garantiert derzeit bis 2009 eine Sockel-Kontinuität.

Bislang war bei Intel es aber Hauspolitik, dass deren CPUs nicht sofort hinwegsterben, in wie weit Intel noch für ihre Sockel aktuelle Prozessoren nachliefert muss man abwarten. Ein Ende von Intels Sockeln ist (noch) nicht absehbar, auch wenn der Nehalem im nächsten Jahr 2008 kommen wird.

Kompiler:
Oder man nimmt Sun mit Linux oder Solaris auf x86 und nimmt dann deren Compiler aus dem Sun Studio 12. Das kostet nichts, wenn man keinen Support nutzt.

... In Deinem Spezialbereich, musst Du da selber messen, da kommst Du nicht drum herum. Tja ... so siehts aus.

MFG Bobo(2007)

PS: Schon mal bei Cray nachgeschaut?

S940

2007-08-17, 18:27:26

Demnächst bei Sun:
Der UltraSPARC T2 hat eine Gleitkommaleistung knapp unterhalb der Augenhöhe eines aktuellen Intel Quadcore im Zweisockelsystem.

Demnächst ist ein gedehnter Begriff, obgleich Sun seine Roadmap für die Niagara-Familie bislang eingehalten hatte.
http://www.orthy.de/images/stories/bokill/Sun/sparc_timeline_2008.jpg
Ja sorry für das "demnächst", wusste nur noch, dass der Victoria auf alle Fälle nach dem K10 kommt, war mir aber nicht mehr sicher, ob H2/07 oder H1/08. Aber Dank Dir ist es jetzt ja klar ;-)

Nachdem der T2 also doch nicht soo schlecht ist (zumindest gegenüber dem Intel Quad), sollte man den vielleicht auch noch beobachten. Vor allem kommts dann auf den Preis an. Bisher sehe ich da noch keine Systeme bei Sun. Zur T2 CPU wird gesagt, dass sie "deutlich" unter $1000 kosten soll. Wieder so ein schwammiges Wort ^^ Naja rechnen wir mal mit $500-900 ...

Wie ist das eigentlich mit der Offenlegung des T2 ... heißt das, dass auch jeder ein mainboard dafür bauen darf ? Viel dazu braucht man eh nicht mehr, ausser der CPU nur noch eine Southbridge per PCIe (z.b. ATis SB600) und den üblichen Krams (Steckplätze, BIOS Chip, Keyboardkontroller) fertig. Wenn das board dann auch nicht über ~300 Euro kosten würde, wäre es fast perfekt für den Einsatzzweck hier und die boinc Leute würde das vielleicht auch interessieren. Fragt sich nur, wer das bauen sollte ... Tyan vielleicht, die haben ja schon ne Exotenlösung mit den RMI boards. Apropos RMI .. wie gut ist da die FPU, wär das noch ne Option ? Da ich nichts darüber gefunden hab auf die Schnelle (SPEC) wohl eher nicht... aber vielleicht hast Du ja noch andre Infos :)
Kompiler:
Oder man nimmt Sun mit Linux oder Solaris auf x86 und nimmt dann deren Compiler aus dem Sun Studio 12. Das kostet nichts, wenn man keinen Support nutzt. Die Sun Idee wird mir immer sympatischer ... deren Compiler wird hauseigenen T2 ja wohl hoffentlich auch gut beschäftigen können dazu noch SunOS ... alles schlüsselfertig aus einer Hand ^^

Naja aber jenseits von T2-mainboard Träumereien bleibt realistischerweise nicht viel Neues. Man muss abwarten, wieviel Sun da für das billigste T2 System haben will und wie gut sich 2x K10 dagegen schlussendlich schlagen werden.

Intel ist für mich nachwievor keine Option. Es ist zwar nicht 100% sicher, aber ich glaube kaum, dass der Nehalem auf aktuellen boards laufen wird, das wär ein Novum. Von daher sind die Upgrademöglichkeiten bei AMD besser, und die garantieren das auch. Irgendwann 2008 kommt Shanghai(2008 schafft AMD hoffentlich, auch wenn das mit H1 sicherlich nichts wird, nachdem Barcelona jetzt schon so spät kommt), der bringt dann neben mehr Takt auch 6 MB L3 Cache mit, bei Intel kommt höchstens ein höhergetaktete Penryn. Aber gut .. wenn der Preis stimmt ...

Wie auch immer .. Warten bis September, dann sind wir schlauer ;-)

PS: Schon mal bei Cray nachgeschaut?Jetzt übertreibste aber ^^

ciao

Alex

Melbourne, FL

2007-08-17, 18:30:41

Hey Leute,

erstmal vielen Dank fuer all die Infos (insbesondere zu den Verbindungen der Kerne/Prozessoren untereinander). :up:

So langsam klaert sich die ganze Sache. Da die rechenintensivsten Teile der Simulation FP sind, scheint der Vorschlag Sinn zu machen:

Unter der Annahme, dass die Software viel FPU Leistung ( Bitte überprüfen, aber Molekülerechnen hört sich nicht nach Integer an ^^) fordert und unter dem nicht drängenden Zeitaspekt, spräche das für ein Opteron System auf K10 Basis, was es ab nächsten Monat gibt. AMD legt da einiges im FPU Leistungsbereich nach.

Bringt AMD dann auch gleich Quadcores raus?

In Deinem Spezialbereich, musst Du da selber messen, da kommst Du nicht drum herum.

Das ist momentan auch der Plan. Wenn das Zeug erhaeltlich ist eine Maschine kaufen und testen und bei Gefallen entsprechend mehr ordern und vernetzen.

Eventuell rechnet sich doch noch ein Quad System (wenns Euch das wert ist), aber das spar ich mir erst mal,

Was meinst Du damit? Eine Erweiterung von AMDs 4x4? Was ist denn momentan die groesste erhaeltliche Anzahl von Prozessorsockeln auf einem Board?

hab eh schon zuviel geschrieben ;-)

Ach das passt schon...ich lerne jedenfalls fleissig dazu... ;-)

So oder so muß ich mich aber wundern, daß Melbourne sich mit solchen Problemen auseinandersetzen muß, als wenn es in so einem Unternehmen wirklich garkeine Kompetenz bezüglich Hardware existieren würde. Hmm...

Kein Unternehmen sondern Uni. Das sollte einiges erklaeren...ein Haufen Verwaltung aber niemand der einem helfen kann. Obwohl es hier am College eigentlich sehr gut ist. Da bin ich aus Deutschland andere Sachen gewohnt...

Alexander

Melbourne, FL

2007-08-17, 18:38:11

In der Zwischenzeit tauchte natuerlich gleich ein neuer Post auf:

Die Sun Idee wird mir immer sympatischer ... deren Compiler wird hauseigenen T2 ja wohl hoffentlich auch gut beschäftigen können dazu noch SunOS ... alles schlüsselfertig aus einer Hand ^^

Naja aber jenseits von T2-mainboard Träumereien bleibt realistischerweise nicht viel Neues. Man muss abwarten, wieviel Sun da für das billigste T2 System haben will und wie gut sich 2x K10 dagegen schlussendlich schlagen werden.

Also bleibt das erstmal aussen vor. Momentan geht es um einen Neukauf bis Ende des Jahres. Aber ich behalte das mal im Auge...in 2 Jahren will ich mir ja vielleicht selber mal so ein Maschinchen zulegen... :naughty:

Von daher sind die Upgrademöglichkeiten bei AMD besser, und die garantieren das auch.

Upgraden ist glaube ich nicht so wichtig. Da wird eher der "alte" Cluster stehen gelassen und weiter benutzt und fuer das Geld was neues gekauft. Es gibt eh immer mehrere Simulationen die gleichzeitig laufen (typische Laufzeit ist uebrigens im Bereich Wochen bis Monate). Aber es ist natuerlich gut zu wissen, dass man die Option hat.

Wie auch immer .. Warten bis September, dann sind wir schlauer ;-)

So werde ich es auch machen...mal sehen was der K10 zu bieten hat.

Alexander

Bokill

2007-08-17, 19:40:42

... Bringt AMD dann auch gleich Quadcores raus? Der K10 "Barcelona" ist ein natives Quadcore-Design.

Eine Erweiterung von AMDs 4x4? Was ist denn momentan die groesste erhaeltliche Anzahl von Prozessorsockeln auf einem Board? ... Vergiss 4x4 das ist selten gekauftes Konsumentenspielzeug.

Du suchst eher Dinge, die Tyan, Iwill, Uniwide, Cray, Sun verkaufen.

http://download.orthy.de/reports/Cebit_2006_Server_HTX/Iwill%20Server%20Multisockel%20HTX%20Interconnect.jpg
Iwill mit 8 CPU-Karten pro Server.

http://download.orthy.de/reports/Cebit_2006_Server_HTX/Uniwide%20Server%20HTX%20Steckboard.jpg
Uniwide mit servicefreundlichen Aufbau (4 Prozessoren).
Quelle (http://www.orthy.de/index.php?option=com_content&task=view&id=1573&Itemid=38)

Sun (http://www.sun.com/servers/index.jsp?tab=2) Haben auch deutschsprachige Verkaufspartner. Das witzige ist, dass Sun im Sommer eine neue Blade-Serie vorgestellt hat, die es erlaubt die Niagara-Racks mit Intel und AMD-Racks zu mischen (Die "6000"-Serie).

Ähnliches hat IBM mit ihren AMD Opterons-Blades mit den Cell und Power-Racks vor.

Cray (http://www.cray.com/products/xt4/index.html)

Wenn du bis zu 8 Prozessoren nutzen willst pro Rack/"Board" dann musst du bei AMD (bei Intelsystemen mit mehr als 2 Sockeln kenne ich mich nicht aus) zu den CPUs der 8000-Serie zugreifen. Die kommenden K10 werden auch in die 8000-Serie (http://www.orthy.de/index.php?option=com_content&task=view&id=4882&Itemid=86) kommen.

Tyan (http://www.tyan.com/) Haben auch deutschsprachige Verkaufspartner.

Uniwill (http://channel.amd.com/us-en/Home-Page/AMD-In-the-Enterprise/AMD-Validated-Server-Program/Supermicro-Products.aspx)
Supermicro (http://channel.amd.com/us-en/Home-Page/AMD-In-the-Enterprise/AMD-Validated-Server-Program/Uniwide-Products.aspx)

Die haben auch Mainboards und Server für bis zu 8 Prozessoren, allerdings sind das Stecklösungen der verschiedensten Art und kaum vergleichbar mit einem Mainboard mit einem bis zwei Sockeln.

MFG Bobo(2007)

S940

2007-08-17, 20:01:28

Edit: Hab den Beitrag nebenher geschrieben, bokill hat jetzt schon einiges beantwortet, aber schaden kanns ja nichts ;-)

------

Hiho,

ja der K10 ist QuadCore, dual cores kommen erst nächstes Jahr. Verglichen zum K8 hat AMD da die FPU fast verdoppelt(für SSE Befehle), deswegen gibts da bei gleichem Takt v.a. ein Leistungsplus im FPU Bereich. Intel ist im Moment zwar ein bisschen besser (je nachdem ob das Programm SSE nutzt oder nicht, verliert aber dann im meist 64bit Betrieb ... aber naja hängt nachwievor vom Programm ab. Wenn da z.B. handoptimierter FPU assembler code drinstünde (kenne den Code nicht) sähe es bei Intel schlecht aus.

In welchem Land bist Du denn ? Bei Sun gibts da ein Testprogramm, da kann man sich nen Server schicken lassen und den 1-2 Wochen ausprobieren. Hatte ich zumindest mal auf der US Seite gelesen. Keine Ahnung ob das noch aktuell ist, und / oder auch für Deutschland gelten würde, aber wenn der Preis stimmt sicherlich ne Idee :)

Was meinst Du damit? Eine Erweiterung von AMDs 4x4? Was ist denn momentan die groesste erhaeltliche Anzahl von Prozessorsockeln auf einem Board?Ich meinte 4 Sockel auf einem board. Maximal gibts z.Zt. 8.
Auf der einen Seite ist die Skalierung bei AMD über 4 Sockel nicht mehr so toll, aber besser als bei Intel allemal und vielleicht auch besser als über Infiniband ... müsste man auch mal Testen ;-)
Intel und AMD lassen sich die CPUs die für den 4 und 8fach Betrieb geeignet sind, aber sehr gut bezahlen .. von daher bin ich erst mal skeptisch, ob sich das für Dich rechnet. Zwischen 4 und 8fach fähigen CPUs ist aber kein Unterschied ... also wenn, dann vielleicht gleich 8fach Rechner mit dann 32 Kernen ^^
Boards kannst Du z.B. bei Tyan anschauen, aber bokill hat da ja jetzt schon genügend links geschickt ;-)

Zum Abschluss: Hol den Thread mal Ende November / Anfang Dez. aus der Versenkung, da ist dann alles von Sun, AMD, Intel erhältlich :)

ciao

Alex

Melbourne, FL

2007-08-17, 20:48:32

Du suchst eher Dinge, die Tyan, Iwill, Uniwide, Cray, Sun verkaufen.

http://download.orthy.de/reports/Cebit_2006_Server_HTX/Iwill%20Server%20Multisockel%20HTX%20Interconnect.jpg
Iwill mit 8 CPU-Karten pro Server.

http://download.orthy.de/reports/Cebit_2006_Server_HTX/Uniwide%20Server%20HTX%20Steckboard.jpg
Uniwide mit servicefreundlichen Aufbau (4 Prozessoren).
Quelle (http://www.orthy.de/index.php?option=com_content&task=view&id=1573&Itemid=38)

Ist das dasselbe, was S940 meint, wenn er schreibt:

Ich meinte 4 Sockel auf einem board. Maximal gibts z.Zt. 8.
Auf der einen Seite ist die Skalierung bei AMD über 4 Sockel nicht mehr so toll, aber besser als bei Intel allemal und vielleicht auch besser als über Infiniband ... müsste man auch mal Testen ;-)

Aber da die 8000er-Serie von AMD ja wirklich sehr teuer ist, ist das wahrscheinlich eh nicht die beste Loesung. Die Infiniband Loesung waere da wahrscheinlich guenstiger, vor allem weil davon noch ein paar Karten rumliegen.

Sun (http://www.sun.com/servers/index.jsp?tab=2) Haben auch deutschsprachige Verkaufspartner. Das witzige ist, dass Sun im Sommer eine neue Blade-Serie vorgestellt hat, die es erlaubt die Niagara-Racks mit Intel und AMD-Racks zu mischen (Die "6000"-Serie).

Macht das Sinn? Soweit ich weiss, wird die Simulation so aufgeteilt, dass jeder Prozessor exakt gleich viel berechnen muss (die Simulationszelle wird in mehrere gleich grosse Teile aufgeteilt und nach jedem Zeitschritt werden die Ergebnisse zwischen den CPUs ausgetauscht). Da macht ein Mix unterschiedlich schneller Prozessoren fuer uns wohl keinen Sinn.

Es ist uebrigens so, dass auf jedem Prozessor eine eigene Instanz des Programms (CHARMM) gestartet wird. Ist das bei Multicores ueberhaupt genauso einfach zu bewerkstelligen wie bei Multiprozessorsystemen? Ich wuerde denken, dass es keinen Unterschied macht, aber sicher bin ich mir nicht.

In welchem Land bist Du denn ?

Momentan USA. Der eigene Server in 2 Jahren sollte aber vorzugsweise in Deutschland stehen. Die USA sind nicht gerade ein Land, in dem ich den Rest meines Lebens verbringen will... ;)

Zum Abschluss: Hol den Thread mal Ende November / Anfang Dez. aus der Versenkung, da ist dann alles von Sun, AMD, Intel erhältlich :)

Das werde ich auch definitiv machen. Bevor hier irgendwas gekauft wird, werde ich auf jeden Fall Eure Meinung einholen. Wenn man schon mal solche Hilfsbereitschaft gefunden hat, will man die schliesslich auch nutzen... :smile:

Alexander

Bokill

2007-08-17, 21:29:27

... Aber da die 8000er-Serie von AMD ja wirklich sehr teuer ist, ist das wahrscheinlich eh nicht die beste Loesung. Die Infiniband Loesung waere da wahrscheinlich guenstiger, vor allem weil davon noch ein paar Karten rumliegen. ... Günstiger mag sein, besser wohl kaum.

... Es ist uebrigens so, dass auf jedem Prozessor eine eigene Instanz des Programms (CHARMM) gestartet wird. Ist das bei Multicores ueberhaupt genauso einfach zu bewerkstelligen wie bei Multiprozessorsystemen? Ich wuerde denken, dass es keinen Unterschied macht, aber sicher bin ich mir nicht. Man will ja die Kerne möglichst nach beisammen haben, damit die Latenzen zwischen den Kernen gering ist und der Speicherkontroller effektiv genutzt wird.

... Bevor hier irgendwas gekauft wird, werde ich auf jeden Fall Eure Meinung einholen. ... Ich schlage da mal ein Gespräch mit Sun vor (oder auch den anderen Firmen). Es ist ja nicht so dass die nur Ahnung von Rechnersystemen haben. Von IBM und Sun weiss ich ganz sicher, dass die auch Leute haben, die für Wissenschaftliche Anwendungen auch beraten können.

Nach meinem Empfinden geht das schon Richtung HPC (High Performance Computing).

Ich schlage Sun vor, nicht nur weil sie nette Beratung haben, sondern sie das "Ausleih-Programm" weltweit haben. So gesehen kann man einen aktuellen Intel-Quadcore austesten gegen einen K10 "Barcelona", oder auch gegen die entsprechenden Dualcores (und gegebenenfalls doch mal einen UltraSPARC T2 (http://www.orthy.de/index.php?option=com_glossary&Itemid=55&func=view&id=431), oder Cell (http://www.orthy.de/index.php?option=com_glossary&Itemid=55&func=view&id=260), die beiden sind Gleitkomma-Numbercruncher, wie auch GPUs von ATI und Nvidia (http://www.orthy.de/index.php?option=com_content&task=view&id=4836&Itemid=86)).

Ich hätte da ein, zwei Adressen, die ich aber nicht so plakativ hier hinhängen möchte. Sicher ist aber, dass bei einem derartigen Budget alle Hersteller da gerne in Kontakt treten möchten. ;)

MFG Bobo(2007)

S940

2007-08-18, 22:01:12

Nach meinem Empfinden geht das schon Richtung HPC (High Performance Computing). Das auf alle Fälle ... aber was wollen der / die Berater großartiges mehr empfehlen ?
Im Endeffekt kommts nur auf sein Programm an. Ok, wenn Sie das kennen, optimal ... wenn nicht ... naja, dann bleibt Ihnen auch nur die wilde Spekulation wie uns ;-)

Nichtsdestoweniger ... schaden kanns nicht sie zu fragen, solange sie keine Staubsaugervertreter-Mentalitäten haben und Restposten Xeons mit Netburst Kern gaanz günstig im Angebot haben ^^

Ansonsten sind mir noch 2 Sachen eingefallen:

@Alexander: Such mal bei Deinem Programm / im Forum nach, ob das "NUMA" Unterstützung hat. Das wäre für AMD K10 Systeme wünschenswert bzw. ein Muss. Jeder Prozessorchip hat bei AMD seinen eigenen RAM, auf dass er schnell zugreifen kann. Natürlich kann auch auf das RAM der Nachbarprozessoren kann zugegriffen werden, aber natürlich geht dass dann langsamer.

Im worst case kanns aber ohne NUMA Unterstützung passieren, dass CPU1 die Daten im RAM von CPU2 hat und CPU2 Daten bei CPU1, was den Hypertransport zwischen den beiden dann zum Glühen bringen würde...

2 CPUs ohne NUMA geht vieleicht noch, aber bei 4 oder gar 8 CPUs wirds ohne NUMA Unterstützung ziemlich chaotisch ...

Desweiteren ist Intel wieder auf meiner persönlichen Liste wieder gestiegen, nachdem Du gesagt hast, "dass auf jedem Prozessor eine eigene Instanz des Programms (CHARMM) gestartet wird". Das schließt dann inter-core Kommunikation aus, da jeder Kern sein eigene Datenset hat, d.h. AMD hat da keinen Vorteil durch seinen "echten" QuadCore. Vielleicht sogar einen Nachteil, da sich die cores immer gegenseitig die Daten aus dem 2MB großen L3 verdrängen. Im Endeffekt könnte also Intels Penryn besser dastehen, da sich dort nur je 2 Kerne um einen (viel) größeren L2 Cache (6 MB) streiten müssen.

(Falls Dus nicht weißt: Intel verpackt einfach 2 einzelne dualcore CPUs in ein Gehäuse, verbunden über den FSB. Unterschied gegenüber 2 einzelnen dualcore CPUs: Man spart man sich den Platz des 2. Sockels und man hat es etwas schwieriger mit der Kühlung).

Das ganze Spekulieren ändert nichts an der Tatsache, dass Du nachwievor selber Testen musst, aber jetzt bin ich nicht mehr sooo optimistisch was AMD anbelangt, aber naja warten wirs ab ;-)

Falls Du noch nen Artikel über den K10 lesen willst, gibt grad einen Neuen:
http://www.xbitlabs.com/articles/cpu/display/amd-k10.html

ciao

Alex

Bokill

2007-08-19, 12:43:03

http://www.lrz-muenchen.de/services/software/chemie/

Hab ich das richtig verstanden, dass CHARM auf einer Windows-Plattform derzeit läuft?

Das kommt mir irgendwie spanisch vor, zumal auch in den USA sehr reputierte Institutionen CHARM verwenden. Auf Itaniums (http://www.lrz-muenchen.de/services/software/chemie/charmm/), wie auch Opterons (http://www.psc.edu/machines/cray/xt3/bigben.html#arch), DECs Alpha EV-7 (http://www.psc.edu/machines/marvel/rachel.html#arch) (21364), EV-67 (http://www.psc.edu/machines/marvel/jonas.html#arch) (21264).

Wenn ich das so sehe, dann komme ich mir ziemlich veräppelt vor, bei der Anfangsfrage und einem sehr wichtigen, verbreiteten Programm in der Wissenschafts-Community.

Und wer Alpha-Systeme nutzt, der wird (hoffentlich) auch NUMA-optimierten Code nutzen. Genau dafür waren die DEC Alpha EV-7 frühe prominente NUMA-Vetreter.

Lieber Fragender, ich bitte dich bei deinen Kollegen vom PITTSBURGH SUPERCOMPUTING CENTER (http://www.psc.edu/) mal genauer nachzufragen, die haben diverse kleine Maschinen stehen, auch von Cray. Alternativ gibt es sicherlich auch bei CHARM (http://www.charmm.org/info/links.shtml) selbst hilfreiche Links zu den Kollegen auf der ganzen Welt.

Sollte es hingegen Linux sein, was anzunehmen ist, dann sind nach wie vor GPUs mit dem ATI R600 und Nvidia G80 eine Option pro Rechenknoten noch wesentlich mehr Rechenleistung zu bekommen. Eine Steigerung um den Faktor 4 bis 20 könnte da möglich sein. Die französische Firma GPU-Tech, aber auch ATIs Entwicklunsgumgebung "CTM", oder Nvidias CUDA" könnten da hilfreich sein (laufen alle auch unter Windows XP).

MFG Bobo(2007)

Gast

2007-08-20, 16:46:45

Mir ist gerade noch eingefallen, dass es meines Wissens nach auch möglich ist sich einfach Rechenkapazitäten zu mieten.
Ist doch auch ne feine Lösung :-)

Bokill

2007-08-20, 18:18:06

... €dit: so wie ich das verstehe, ist mit HTT3.0 ein 32 Core System, bei dem jeder Sockel direkt mit jedem beliebigen anderen Sockel verbunden ist, möglich? siehe http://www.orthy.de/index.php?option=com_content&task=view&id=1778&Itemid=86 Danke für deine Aufmerksamkeit ...

8 Sockel sind bei AMDs K8 derzeit auch schon in der Anwendung -> Barcelona 4 Kerne x 8 Sockel = 32 Kerne (Iwill, Sun, Supermicro, Tyan ... ). Dabei hat jeder Sockel seinen eigenen Speicher.

Aber zur Zeit hat es den Anschein, dass AMD ausgerechnet im Server-Bereich (das sind die Sockel F Opterons für Zweifachsockel der 2000`Reihe, Sockel F Opterons der 8000`Reihe für Multisockel mit 3 kohärenten HyperTransportlinks) KEINEN HyperTransport 3.0 nutzt bis 2009.
http://www.orthy.de/images/stories/bokill/AMD/Analyst_Day_2007/k10_server-roadmap_hypertransport3.0_und_ddr3_in_2009.jpg
Quelle (http://www.orthy.de/index.php?option=com_content&task=view&id=4824&Itemid=38&limit=1&limitstart=1)

Schon deswegen sollte man bis zum Marktstart des K10 abwarten, weil diese Infor zwar zum AMD-Tech Day so gesagt wurde, allein der Glaube daran fehlt mir immer noch daran.

Bei P3D wird im K10-Thread sinnig darüber diskutiert, warum AMD für Multisockel kein HyperTransport 3.0 nutzen will/kann (http://www.planet3dnow.de/vbulletin/showthread.php?p=3290168#post3290168).

MFG Bobo(2007)

Gast

2007-08-22, 19:00:13

Auf www.cray-cyber.org kannst du online auf paar alte Crays und andere "Supercomputer" zugreifen. Allerdings hab ich mich etz ned genau mit den Nutzungsbedingungen oder sonstigem befasst.

Melbourne, FL

2007-12-06, 21:48:18

Kurzes Update: Dieses Jahr wird nichts mehr angeschafft. Dafuer steht sehr wahrscheinlich Mitte naechsten Jahres (Juni/Juli) eine Neuanschaffung an. Ich meld mich, wenn die Entscheidung ansteht...

http://www.lrz-muenchen.de/services/software/chemie/

Hab ich das richtig verstanden, dass CHARM auf einer Windows-Plattform derzeit läuft?

Bei uns laeuft es unter Linux.

Das kommt mir irgendwie spanisch vor, zumal auch in den USA sehr reputierte Institutionen CHARM verwenden. Auf Itaniums (http://www.lrz-muenchen.de/services/software/chemie/charmm/), wie auch Opterons (http://www.psc.edu/machines/cray/xt3/bigben.html#arch), DECs Alpha EV-7 (http://www.psc.edu/machines/marvel/rachel.html#arch) (21364), EV-67 (http://www.psc.edu/machines/marvel/jonas.html#arch) (21264).

Wenn ich das so sehe, dann komme ich mir ziemlich veräppelt vor, bei der Anfangsfrage und einem sehr wichtigen, verbreiteten Programm in der Wissenschafts-Community.

Ich verstehe ehrlich gesagt nicht, wieso Du Dir da veraeppelst vorkommst. Erstens bin ich bei den MD-Simulationen ziemlich neu und zweitens wissen die meisten Wissenschaftler recht wenig von der Rechentechnik, die dahintersteckt. Was ist so abwegig daran, hier zu fragen?

Lieber Fragender, ich bitte dich bei deinen Kollegen vom PITTSBURGH SUPERCOMPUTING CENTER (http://www.psc.edu/) mal genauer nachzufragen, die haben diverse kleine Maschinen stehen, auch von Cray. Alternativ gibt es sicherlich auch bei CHARM (http://www.charmm.org/info/links.shtml) selbst hilfreiche Links zu den Kollegen auf der ganzen Welt.

Ich werde sicher auch noch im CHARMM Forum nachfragen aber dort wird im Benchmarking Unterforum kaum ueber Anschaffungen diskutiert, weswegen ich mir davon wenig erhoffe. Ich nehme an, die meisten Leute werden entweder Rechenzeit mieten oder einen Cluster vom Rechenzentrum benutzen. Die wenigsten werden eigene Maschinen haben. Auch die Verbreitung der neueren Architekturen wird sicher nicht toll sein.

Sollte es hingegen Linux sein, was anzunehmen ist, dann sind nach wie vor GPUs mit dem ATI R600 und Nvidia G80 eine Option pro Rechenknoten noch wesentlich mehr Rechenleistung zu bekommen. Eine Steigerung um den Faktor 4 bis 20 könnte da möglich sein. Die französische Firma GPU-Tech, aber auch ATIs Entwicklunsgumgebung "CTM", oder Nvidias CUDA" könnten da hilfreich sein (laufen alle auch unter Windows XP).

MFG Bobo(2007)

Jup...laeuft unter Linux. Das Problem, das ich sehe ist, dass dazu wohl Anpassungen des Source-Codes noetig sind, oder verstehe ich das falsch. In dem Fall waere es nicht moeglich. Ansonsten waere es natuerlich sehr interessant.

Alexander

Gast

2007-12-09, 06:10:07

Momentan laesst er an einem Prozess hoechstens 16 Prozessoren laufen, da sonst die Netzwerkverbindung zwischen den Rechnern limitiert und die Performance wieder abfaellt.

Daher stellt sich mir nun die Frage, was momentan der groesste, kommerziell normal verfuegbare Multicoreprozessor ist (um das Problem mit der Netzwerkverbindung zu umgehen).

Hast Du schon einmal geschaut, was eine verbesserte Netzwerkleistung auf die Rechenleistung bewirkt ?

Ich würde vorschlagen, vorest das zu behalten was man hat, und die Netzwerkleistung optimieren !

Eine Steigerung der Netzwerkleistung lässt sich vielleicht durch Erweiterung der Netzwerkbandbreite (Switches / Router) und optimierte Aufteilung der Prozessoren in sogenannte Cluster pro Netzwerkknoten erreichen ?!

tombman

2007-12-09, 08:20:06

Wie wärs damit:

http://www.tyan.com/product_board_detail.aspx?pid=271
http://img234.imageshack.us/img234/8573/comp0425hj2.jpg

PLUS damit

http://www.tyan.com/product_accessories_spec.aspx?pid=49
http://www.tyan.com/images/accessories/m4985.gif

Bei 8 Quadcores wären das 32 Kerne in einem Gehäuse, die alle über Hypertransport reden können :cool:
Ein Opteron kostet 300€ ;D
Mit Gehäuse etc kostet so ein "32er" ned mehr als 5000€.

Da stellst 10 Stück davon hin und hast 320 hochmoderne Kerne :cool:
Und nur 10 Rechner mußt miteinander verbinden.

Melbourne, FL

2007-12-09, 17:38:47

@tombman: Sowas in der Richtung ist auf jeden Fall in der naeheren Auswahl. Allerdings muesste ich dann ja die 8000er Opterons nehmen und die kosten statt 300 Euro eher so um die 700 Euro. Ist aber immer noch ziemlich guenstig.

Hast Du schon einmal geschaut, was eine verbesserte Netzwerkleistung auf die Rechenleistung bewirkt ?

Einiges. Die Rechner, die ueber Infiniband miteinander verbunden sind, skalieren deutlich besser mit der Anzahl der Prozessoren. Hauptkriterium ist die Latenz...weniger die Bandbreite.

Ich würde vorschlagen, vorest das zu behalten was man hat, und die Netzwerkleistung optimieren !

Infiniband ist wie gesagt schon installiert...viel mehr Optimierung zu vernuenftigem Preis ist wohl erstmal nicht drin.

Alexander

S940

2007-12-10, 01:06:30

Einiges. Die Rechner, die ueber Infiniband miteinander verbunden sind, skalieren deutlich besser mit der Anzahl der Prozessoren. Hauptkriterium ist die Latenz...weniger die Bandbreite.Hmmm dann sind 8 Sockel Systeme nicht so toll, da die Latenzen durch die vielen Sockel ansteigt.

Also bleibts bei dual Systemen, neue Serverboards mit Socket F+ haben auch eine zusätzliche HTr Verbindung zw. den beiden CPUs, bis Mitte nächsten Jahres sollte wohl hoffentlich wirklich die fehlerbereinigte K10 B3 Version auf dem Markt sein.

Im HPC Betrieb macht der K10 ne gute Figur, das gibt sogar Intel zu. Ein 2,5 GHz K10 ist da einem nagelneuen Intel Penryn @3GHz ebenbürtig.

Ich würd also wohl nen dual K10 nehmen, ausser es herrscht Platzmangel, dann schau Dir die 8 Sockel Systeme an, oder aber .. einen hübschen 19 Zoll Schrank mit Blades .. das wäre wohl optimal ;-)

ciao

Alex

Bokill

2007-12-10, 18:18:48

Hmmm dann sind 8 Sockel Systeme nicht so toll, da die Latenzen durch die vielen Sockel ansteigt. Welche Latenz meinst du?

Bei einem K8-Multisockelsystem hat jeder Prozessor in der Regel auch eigenen lokalen Speicher, der ist im Zugriff nach wie vor rattenschnell.

Auch der direkte Zugriff auf den K8-Nachbarsockel ist nach wie vor gut, selbst über einen weiteren Sockel dürfte der Zugriff über HyperTransport immer noch schneller, als über das Infiniband-Interface sein.

Im HPC Betrieb macht der K10 ne gute Figur, das gibt sogar Intel zu. Ein 2,5 GHz K10 ist da einem nagelneuen Intel Penryn @3GHz ebenbürtig. Das kann man so sehen ... leider hat AMD den Bock mit dem TLB-Bug geschossen. Von daher ist derzeit ein K10 im HPC-Umfeld vorerst nicht empfehlenswert. Es sei denn man hat teuren Support extra noch dazugekauft.

Cray hat den XT4 derzeit nach langer Wartezeit am Markt. Der setzt auf den K10 und pflegt es ein mit ihrer speziellen Linux-Version. Was den Cray erwähnenswert macht ist die XT5-Linie, denn die wird zusätzlich noch FPGAs als Coprozessor serienmässig drin haben.

Wenn es allerdings moderater sein soll, dann ist derzeit unter Stabiltäts- und Preis-Leistungsgesichtspunkt auch ein Intel-Quadcore einen Blick wert. Zudem hat der Intel-Quadcore nun immerhin auch schon ein Jahr Reifungszeit am Kunden durchgemacht.

Ich würd also wohl nen dual K10 nehmen, ausser es herrscht Platzmangel, dann schau Dir die 8 Sockel Systeme an, ... 8-Sockelsysteme sind "nicht nur kompakt", sie sind auch untereinander schnell.

Wenn man immer noch auf die K10-Karte setzen sollte, dann kann man für den Anfang ja mit einem K8-System anfangen, aber gleich darauf achten, dass der Hersteller ebenso darauf den Betrieb vom K10 garantiert.

MFG Bobo(2007)

LordDeath

2007-12-10, 19:50:59

Wenn man immer noch auf die K10-Karte setzen sollte, dann kann man für den Anfang ja mit einem K8-System anfangen, aber gleich darauf achten, dass der Hersteller ebenso darauf den Betrieb vom K10 garantiert.

Gibt es auch solche Lösungen, wo K8 und K10 CPUs gleichzeitig betrieben werden können? Oder gleiche CPU-Architekturen mit unterschiedlichem Takt.

Bokill

2007-12-10, 20:05:41

Gibt es auch solche Lösungen, wo K8 und K10 CPUs gleichzeitig betrieben werden können? Oder gleiche CPU-Architekturen mit unterschiedlichem Takt. Gute Frage.

Rein theoretisch müsste das gehen. Es soll ja auch gemischter Betrieb der verschiedenen K8-Revisonen geben.

In der Torrenza-Initiative geht es ja explizit darum, dass auf den Opteronsockeln auch Fremd-CPUs mit den K8-Prozessoren zusammenarbeiten können.

In wie weit allerdings Tyan, Iwill (http://www.orthy.de/index.php?option=com_content&task=view&id=1573&Itemid=38) und Co da einen (BIOS-)Riegel davorschieben kann ich nicht sagen.

MFG Bobo(2007)

Melbourne, FL

2007-12-10, 22:06:15

Erstmal Danke fuer die Antworten. Die Aufruestung steht wie gesagt Mitte naechsten Jahres an...bis dahin hat AMD den TLB-Bug hoffentlich behoben.

Welche Latenz meinst du?

Bei einem K8-Multisockelsystem hat jeder Prozessor in der Regel auch eigenen lokalen Speicher, der ist im Zugriff nach wie vor rattenschnell.

Auch der direkte Zugriff auf den K8-Nachbarsockel ist nach wie vor gut, selbst über einen weiteren Sockel dürfte der Zugriff über HyperTransport immer noch schneller, als über das Infiniband-Interface sein.

Die Aufteilung der Aufgaben zwischen den Prozessoren laeuft bei CHARMM in etwa so ab: Zuerst wird eine Liste der zu berechnenden Kraefte zwischen den Atomen aufgestellt und in x gleichgrosse Teile unterteilt (wobei x die Anzahl der Prozessoren ist). Dann teilt der Master den anderen Prozessoren mit, was sie zu berechnen haben und schickt die noetigen Daten (Postionen aller Atome etc.). Jeder Prozessor berechnet dann seinen Teil, wobei keine Kommunikation zwischen den Prozessoren stattfindet (das dauert ueblicherweise zwischen 50ms und 100ms). Ist die Berechnung fertig, werden die neuen Positionen und Geschwindigkeiten dem Master mitgeteilt und es wird eine neue Liste der zu berechnenden Kraefte angefertigt.

Die Kommunikation ist dabei recht clever geloest. Der Master teilt einem Prozessor die Daten mit. Im naechsten Schritt senden der Master und der Prozessor, der gerade eben die neuen Daten bekommen hat, es an jeweils einen weiteren Prozessor. Die 4 Prozessoren, die jetzt aktuelle Daten haben, senden es im naechsten Schritt an die naechsten 4 usw. Dadurch muss die Anzahl der Prozessoren zwar eine Potenz von 2 sein aber die Kommunikation unter den Prozessoren ist effektiver.

Auf dem Cluster, der ueber Gigabit Ethernet verbunden ist, beansprucht die Kommunikation bei einem Job, der auf 4 Prozessoren aufgeteilt ist, bereits 10% der Gesamtzeit. Auf dem per Infiniband verbundenen Cluster sind es dagegen nur ca. 2%.

Alexander

Bokill

2007-12-11, 16:23:41

... Auf dem Cluster, der ueber Gigabit Ethernet verbunden ist, beansprucht die Kommunikation bei einem Job, der auf 4 Prozessoren aufgeteilt ist, bereits 10% der Gesamtzeit. Auf dem per Infiniband verbundenen Cluster sind es dagegen nur ca. 2%. ... HyperTransport ist ein Chip-Interconnect.

Es ist von Vorteil, wenn ein Cluster (in dem Fall ein Mainboard mit möglichst vielen Sockeln) ein sehr schnelle interne Kommunikation besitzt.

Mag ja sein, dass Infiniband schnell ist, keine Frage, aber das spielt in dem Fall keine Rolle, da ein derartiges Mainboard mit einer Infiniband-Karte und einem Gigabit-Ethernet gleichermassen ausgerüstet werden kann.

Was man machen kann, dass ist im Vorfeld zu prüfen, wie sinnvoll es ist auf möglichst kompakte (wenige teurere) Multisockel zu setzen,

oder viele kleine Cluster mit Dual-Sockelsystemen per Infiniband.

Ich behaupte einfach mal, dass die K8-Cluster mit HyperTransport-Interconnect (auf dem Mainboard selbst) schneller sind als viele Cluster mit Infiniband-Interconnects.

Das kann man ja mit einem Testlauf mal nachprüfen:

Iwill hat beispielsweise ein Opteron-Rechner mit 4 Steckkarten in der Produktlinie, worauf jeweils pro Steckkarte zwei Sockel enthalten sind, diese Steckkarten sind direkt untereinander verbunden mit dem CPU-Interconnect HyperTransport.
http://download.orthy.de/reports/Cebit_2006_Server_HTX/Iwill%20Server%20Multisockel%20HTX%20Interconnect.jpg
Quelle (http://www.orthy.de/index.php?option=com_content&task=view&id=1573&Itemid=38)
Das ist ein Beispiel AMD-K8 Opteron-Rechner für ein 8-Sockel-System von Iwill.

Diese kann man ja mal antreten lassen gegen 4 Dual-Sockel-Bords, welche untereinander verbunden sind mit Infiniband.

Auch Sun hat ebenso derartige Multisockel-Systeme. Sun macht immer wieder PR-Aktionen, wobei man für wenige Wochen dann seine "Wunsch-Combo" "einfach" mal umsonst austesten kann. Da kannst du ein 8-Sockelsystem wie dem Sun Fire X4600 Server (http://www.sun.com/servers/x64/x4600/) ,gegen ein vier 2-Sockelsysteme antreten lassen wie dem Sun Fire X4100 Server (http://www.sun.com/servers/entry/x4100/).

Der Sun x4600 hat hinten "Raum" für Erweiterungskarten:
http://www.orthy.de/images/stories/bokill/AMD/K10/Sun_X4600/sun_4600-server_backplane.jpg.

Die CPU-Karten sind allerdings für jeweils eine CPU ausgelegt (Iwill hat da zwei Sockel pro Karte im Beispiel oben).
http://www.orthy.de/images/stories/bokill/AMD/K10/Sun_X4600/sun_4600-server_2.jpg
Quelle (http://www.orthy.de/index.php?option=com_content&task=view&id=4955&Itemid=86)

Ich denke, dass auch HP, IBM, Tyan, Uniwide und Iwill vergleichbares in der Ecke stehen haben.

MFG Bobo(2007)

Melbourne, FL

2007-12-11, 18:59:56

HyperTransport ist ein Chip-Interconnect.

Es ist von Vorteil, wenn ein Cluster (in dem Fall ein Mainboard mit möglichst vielen Sockeln) ein sehr schnelle interne Kommunikation besitzt.

Mag ja sein, dass Infiniband schnell ist, keine Frage, aber das spielt in dem Fall keine Rolle, da ein derartiges Mainboard mit einer Infiniband-Karte und einem Gigabit-Ethernet gleichermassen ausgerüstet werden kann.

Was man machen kann, dass ist im Vorfeld zu prüfen, wie sinnvoll es ist auf möglichst kompakte (wenige teurere) Multisockel zu setzen,

oder viele kleine Cluster mit Dual-Sockelsystemen per Infiniband.

Ich behaupte einfach mal, dass die K8-Cluster mit HyperTransport-Interconnect (auf dem Mainboard selbst) schneller sind als viele Cluster mit Infiniband-Interconnects.

Und wie sieht das beim K10 aus? Du hast ja mal geschrieben:

Aber zur Zeit hat es den Anschein, dass AMD ausgerechnet im Server-Bereich (das sind die Sockel F Opterons für Zweifachsockel der 2000`Reihe, Sockel F Opterons der 8000`Reihe für Multisockel mit 3 kohärenten HyperTransportlinks) KEINEN HyperTransport 3.0 nutzt bis 2009.
http://www.orthy.de/images/stories/bokill/AMD/Analyst_Day_2007/k10_server-roadmap_hypertransport3.0_und_ddr3_in_2009.jpg
Quelle (http://www.orthy.de/index.php?option=com_content&task=view&id=4824&Itemid=38&limit=1&limitstart=1)

Schon deswegen sollte man bis zum Marktstart des K10 abwarten, weil diese Infor zwar zum AMD-Tech Day so gesagt wurde, allein der Glaube daran fehlt mir immer noch daran.

Wie sieht das jetzt aus nachdem der K10 gelauncht wurde? Der K10 waere sonst naemlich schon interessanter als der K8...

Alexander

Bokill

2007-12-11, 19:26:36

Und wie sieht das beim K10 aus? Da der Sockel F beim K10 bleibt, ist es eine Frage des Mainboards und des BIOS.

Zwar ist immer noch HyperTransport 1.0 bei Sockel F derzeit Standard, jedoch skaliert auch der K10 "gut genug" im Vergleich zum Vorgänger K8.

Was bleibt ist der TLB-Bug der zweiten Revison (B2-Stepping). Von der Rechenpower ist der K10 und K8 in vielen Fällen nicht mehr erste Wahl.

Ist jedoch auch die Interconnect-Leistung gefragt, dann hat auch jetzt noch die K8-Plattform seine Berechtigung.
http://www.orthy.de/images/stories/bokill/AMD/K10/amd-k10-bench_fluent.jpg
Quelle (http://www.orthy.de/index.php?option=com_content&task=view&id=5143&Itemid=86)
Ich denke, du solltest da mal bei IBM, HP, Sun, Iwill, Tyan vorsprechen.

Von Sun und IBM weiss ich definitiv, dass die auch Verkaufsleute haben, die Benchmark-Ergebnisse aus Forschung und Wissenschaft vorweisen können (HP sicher auch). Zudem bieten alle auch die Intel-Plattform an, so dass du in diesem Sinne fair beraten wirst. Sun hat im Frühling 2007 ja sich auch zur Core 2-Familie sehr positiv geäussert.

Wie sieht das jetzt aus nachdem der K10 gelauncht wurde? Der K10 waere sonst naemlich schon interessanter als der K8 ... Wenn es nicht diesen TLB-Bug gegeben hätte, dann hätte ich dir als Testplattform den K10 schon empfohlen.

Ich kann dir derzeit keine abschliessenden Rat erteilen. Bleibt das Abwarten auf den Budapest, oder auch Penryn. Der Nachfolger vom K10 "Barcelona" wird ein K10-Transistormonster mit 6 MB-L3 werden ("Budapest"). Ob es immer noch bleibt bei 65 nm Fertigungstechnik, kann ich derzeit auch nicht sagen.

Wie gesagt, knüpfe mal Kontakte zu den entsprechenden Firmen. Mit deinem Budget wird sicherlich mehr als ein belegtes Brötchen beim Verkaufsgespräch drin sein. Schade, dass ich bei derartigen Gesprächen nicht dabei sein kann ;)

MFG Bobo(2007)

reunion

2007-12-11, 22:43:53

Ich kann dir derzeit keine abschliessenden Rat erteilen. Bleibt das Abwarten auf den Budapest, oder auch Penryn. Das Nachfolger vom K10 "Barcelona" wird ein K10-Transistormonster mit 6 MB-L3 werden ("Budapest"). Ob es immer noch bleibt bei 65 nm Fertigungstechnik, kann ich derzeit auch nicht sagen.

Budapest ist nur die Single-Socket Variante von Barcelona, bis auf den Codenamen sollten die Chips identisch sein. Shanghai bekommt den 6MB L3-Cache und wird in 45nm gefertigt. Wobei ich mir da was den Erscheinungstermin betrifft auch nicht zu viel Hoffnung machen würde:

http://www.xbitlabs.com/news/cpu/display/20071210230006_AMD_s_Next_Gen_Microprocessor_Still_Does_Not_Exist_Company.html

Laut AMD gibt es noch nicht mal ein einziges Sample von Shanghai. Wenn ich mir ansehe, dass Intel bereits im September einen bootfähigen Nehalem präsentiert hat, dann gute Nacht.

S940

2007-12-12, 02:13:29

Huch hier wurde ja wieder ne Menge geschrieben ^^

Also Latenzen .. ich meinte damit die Speicherzugriffslatenzen auf non-local memory, das wird bei 8P Systemen ja schnell "etwas" sperrig, aber wenn ich mir die Programmbeschreibung so anschau, sollte der lokale RAM aussreichen. Oder wieviel RAM braucht so eine Instanz ? Nachdem die Berechnung nicht länger als ein paar ms dauert, wirds schon nicht so viel sein.

Ergo -> 8P Systeme sind durchaus eine Option, wenn auch teuer.
Eventuell billiger könnten Infinibandsysteme mit Pathscale Infinieband Adapter sein, der flanscht direkt am HTr an, und hat somit konkurrenzlos niedrige Latenzen. Aber das Geld, dass man dann bei den CPUs spart geht für die Infinibandadapter drauf, die kosten sicherlich auch ne Stange ;D

Ansonsten wäre Sun vielleicht auch eine Überlegung wert, der T2 könnte mit dem 8x SMT/Hyperthreading pro Kern (davon hatter ja 8) seeehr gut die Latenzen verstecken, was einiges bringen könnte .. naja ausprobieren. Wie bokill schon erwähnt hat, hat Sun immer kostenlose Promotion Programme, da kannst Du mal nen Schwung ordern. Am besten nen 19 Zoll Schrank mit allen Variationen was Sun so im Angebot hat ^^

Nächstes Jahr sollten auch 2P und 4P T2 Systeme erhältlich sein.

Gibts denn Sun Sparc Code von Deinem Programm ?

@K10 & TLB:
Das ist kein Problem, nachdem das Systeme erst Mitte 2007 ansteht, sollte es bis dahin nun wirklich die B3 Revision ohne TLB Bug geben ;-)

Fazit:
Es wird wohl auf K10 gegen T2 rauslaufen, Intel sehe ich nicht im Vorteil, durch den geteilten FSB der Quadcores hätte man da zuviel Latenznachteile, behaupte ich mal ganz dreist ;-)

Nehalem wäre für den Einsatz wohl topp, Hyperthreading, schneller Chip-Interconnect .. aber naja, den gibts erst Ende 07.

Aja das mit dem Programmablauf ... hat sich da schon jemand Gedanken gemacht, wie man die Thread weitergabe auf Multicoremaschinen optimieren kann ? Wenn ich nen K10 hab wärs da recht praktisch, wenn Kern 1 der K10 CPU K1 (K1.1) seine Daten an K1.2 und K1.3 weitergibt, und nicht an K99.3 oder so ähnlich ^^

@reunion:
Jo gute nacht .. das Stichwort um die Zeit.
Jetzt muss man sich nur noch erinnern, dass Nehalem kein Core2 mit Hypertransportclone ist, sonder eine komplett neue CPU ... da hat Intel einiges an Logik reingesteckt. Nachdem AMD mit dem K10 gerade mal so mithalten kann mit dem Core2, wird der Nehalem sicherlich wieder 10-20% schneller sein.

ciao

Alex

Melbourne, FL

2007-12-12, 02:54:05

Huch hier wurde ja wieder ne Menge geschrieben ^^

Also Latenzen .. ich meinte damit die Speicherzugriffslatenzen auf non-local memory, das wird bei 8P Systemen ja schnell "etwas" sperrig, aber wenn ich mir die Programmbeschreibung so anschau, sollte der lokale RAM aussreichen. Oder wieviel RAM braucht so eine Instanz ? Nachdem die Berechnung nicht länger als ein paar ms dauert, wirds schon nicht so viel sein.

Arbeitsspeicher wird eher wenig gebraucht. Die momentanen Systeme laufen mit 512MB.

Ansonsten wäre Sun vielleicht auch eine Überlegung wert, der T2 könnte mit dem 8x SMT/Hyperthreading pro Kern (davon hatter ja 8) seeehr gut die Latenzen verstecken, was einiges bringen könnte .. naja ausprobieren.

Warum sollte es guenstiger sein, auf einem Kern mehr Instanzen laufen zu lassen, als Cores vorhanden sind? Im Endeffekt muessen doch trotzdem Daten zwischen unterschiedlichen Cores ausgetauscht werden... :confused:

Wie bokill schon erwähnt hat, hat Sun immer kostenlose Promotion Programme, da kannst Du mal nen Schwung ordern. Am besten nen 19 Zoll Schrank mit allen Variationen was Sun so im Angebot hat ^^

Naja...hab gerade heute nochmal mit meinem Chef gesprochen und er will Anfang naechsten Jahres einen einzelnen Rechner holen und dann bei gefallen Mitte des Jahres weitere dazu holen. Ich werde mal mit ihm reden, was er von dem Promotion Programm haelt. Hab mich jetzt auch mit Sun in Verbindung gesetzt...mal sehen, was die vorschlagen.

Gibts denn Sun Sparc Code von Deinem Programm ?

Es gibt zumindest Leute, die es auf Sun Maschinen laufen lassen. Sollte also gehen...ich weiss nur nicht wie kompliziert dann die Kompilierung wird. Am besten waeren schon AMD oder Intel Prozessoren weil man dann auf bereits gemachte Erfahrungen meines Chefs mit solchen Maschinen bauen koennte.

Nehalem wäre für den Einsatz wohl topp, Hyperthreading, schneller Chip-Interconnect .. aber naja, den gibts erst Ende 07.

Trotzdem gut zu wissen...wie gesagt gibt es durchaus die Moeglichkeit, dass ich in absehbarer Zeit selbst so eine Maschine brauche. Und Du meinst bestimmt Ende 2008, oder? Aber das mit dem Hyperthreading musst Du mir wirklich mal erklaeren.

Aja das mit dem Programmablauf ... hat sich da schon jemand Gedanken gemacht, wie man die Thread weitergabe auf Multicoremaschinen optimieren kann ? Wenn ich nen K10 hab wärs da recht praktisch, wenn Kern 1 der K10 CPU K1 (K1.1) seine Daten an K1.2 und K1.3 weitergibt, und nicht an K99.3 oder so ähnlich ^^

Hab ich mir auch schon gedacht. Kann aber nicht am Source-Code rumfummeln und muss hoffen, dass das vom Entwickler eingebaut wurde/wird.

Alexander

S940

2007-12-12, 10:07:43

Warum sollte es guenstiger sein, auf einem Kern mehr Instanzen laufen zu lassen, als Cores vorhanden sind? Im Endeffekt muessen doch trotzdem Daten zwischen unterschiedlichen Cores ausgetauscht werden... :confused:Bessere Auslastung der FPU. Wenn Du im Extremfall 8 Threads auf die CPU losläßt, hat die FPU sicherlich *immer* was zu tun. Gibts kein SMT, kann es passieren, dass die FPU immerwieder ein paar µs Däumchen dreht, da auf Hauptspeicherzugriffe und dort auf neue Aufgaben wartet. Berechnet wird währenddessen nichts.

Nachdem Dein Programm jetzt sehr stark von Latenzen abhängt, glaube ich, dass das relativ viel bringen kann. Verbesser mich bitte wenn es falsch ist, aber wenn ich das richtig verstanden hab, ist es egal, ob die Latenz bei der thread Weitergabe 0,001s; 0,01; 0,1; 1 oder 10 Sec liegt, wichtig ist, dass alle CPUs beschäftigt sind, d.h. der Durchsatz ist wichtig, nicht die Zeit in der ein Einzelergebnis vorliegt.

Wenn Du jetzt mehrere threads auf eine CPU loslässt, ist ziemlich sicher, dass die *immer* was zu tun hat, bezogen auf den Gesamtdurchsatz.
Erste Ergebnisse mögen länger dauern, aber wenn die ganze Lawine dann mal losgetreten ist, sollte der Output dafür umso stärker ansteigen.

Müßte man halt auch testen .. ^^

Hier ist es mal etwas professioneller erklärt, geht um den Sun T1, der hatte nur 4fach SMT, deswegen das Argument mit 1/4:

3. The 1/4 frequency argument is a common misconception of CMT performance

The ¼ Frequency argument goes as follows:

* A CMT pipeline runs at say 1.2GHz and has 4 threads sharing it
* Therefore each thread only gets 1/4 the cycles and runs 300MHz
* This makes it less performant than an old US II chip

This line of argument doesn't hold because most commercial code chases pointers and is constantly loading data structures. On average a commercial application stalls every 100 instructions for a variety of reasons such as TLB miss, I cache miss, Level 2 cache miss etc. When a thread stalls it is usually delayed for many cycles, an Icache miss for instance is 23 cycles. So even though a thread is running at 1.2GHz it usually spends 70% of its time stalled. This is why major processor manufacturers create ever deeper out-of-order pipelines in an effort to avoid this stall.

All this stalling is perfect for CMT. The hardware automatically switches out a thread when it stalls and shares its cycles amongst the other 3 threads on the pipeline masking the stall. With this technique we can utilize the pipeline 75% - 80 of the time provided there are enough threads to absorb the stall
Quelle:
http://blogs.sun.com/deniss/entry/lesons_learned_from_t1

Bei Dir wäre es meiner Meinung nach eben noch extremer, da die Kerne u.U. viel länger warten, um was zu tun zu bekommen.

Und in aller Kürze:
The theoretical max raw performance of the 8 floating point units is 11 Giga flops per second (GFlops/s). A huge advantage over other implementations however is that 64 threads can share the units and thus we can achieve an extremely high percentage of theoretical peak. Our experiments have achieved nearly 90% of the 11 Gflop/s.
http://blogs.sun.com/deniss/category/Sun

SummaSummarum sollte das auch eine bessere Energieeffizienz bieten, nicht umsonst vermarktet ja Sun Ihre CPUs als "Cool thread" technology. Das treibt mitunter "lustige" Blüten .. z.B. gibts eine Subvention von einem Energieversorger in Californien, für alle T1/T2 Käufer:

http://www.sun.com/emrkt/energy-rebate/index.jsp

Eventueller weiterer Pluspunkt, der T2 hat 2 eingebaute 10 GbE Anschlüsse. Eingebaut bedeutet on-chip, bedeutet, geringe Latenz zum CPU Kern. 10 GbE ist auch schon mal nicht sooo schlecht. Ok, nicht so doll wie Infiniband, aber falls die obige SMT Annahme stimmt, wäre die absolute Latenz wg. 8x SMT eh nicht mehr so wichtig und 2x10 Gb könnten insgesamt ausreichend sein.

Zu Sun:
Die haben ne extra hpc Seite:
http://www.sun.com/servers/hpc/products.jsp
Das allerbeste (und teuerste) Wär wohl ein 6000er blade System im 19 Zoll Schrank. Dafür gibts auch verschiedene blades mit Intel, AMD und Sparc CPUs... such Dir was aus, bzw. order ein kunterbunt bestücktes System zum testen ^^

Frage ist nur, ob es den (deftigen) Aufpreis gegenüber 0815 Bastel PCs rechtfertigt. Die Wartung / Kühlung / Qualität ist natürlich viel besser ...

Naja vielleicht bekommste nen Sonderpreis, da gibts immer Promotionsprogramme, ein (sehr) altes wird z.B. noch angezeigt:
Current Promotions

Volume discount on Sun Fire X4600 servers: Get three Sun Fire X4600 servers for the price of two! (good through July 11, 2007)

So das wars dann erstmal mit dem Sun Werbe Vortrag ^^

ciao

Alex

Bokill

2007-12-12, 14:38:26

@S940
Ja das mit dem UltraSPARC T2 ("Niagara") ist durchaus auch eine Option für die Linuxwelt, wenn es tatsächlich auch vom Durchsatz abhängt. Vor kurzem hat es Benchmarks mit einem Niagara 2 gegeben, der auch gegen ein Xeon-System sehr gut aussah. Dabei trat ein einzelner Niagara 2 gegen diverse Prozessoren an:

26. October 2007 SPECweb2005:

Niagara 2 mit Sun SPARC Enterprise T5220 (8 Kerne, 1 CPU) 37.001 (http://www.spec.org/web2005/results/res2007q4/)
Xeon auf HP DL580G5 (16 Kerne, 4 CPUs) 30.261
Opteron auf HP DL585G2(8 Kerne, 4 CPUs) 22.254,
Niagara 1 mit Sun Fire T2000 (8 Kerne, 1 CPU) 16.407,
Power5+ auf IBM p5 550 (4 Kerne, 2 CPUs) 7.881.

Aber es ist ein Web-Benchmark! Von daher ist das per Se noch keine direkte Empfehlung!

@Melbourne, FL

Du bist ein klassischer Kandidat für die Cebit 2008.

Ich bereite mich langsam für die Cebit 2008 vor. Gegebenenfalls könnten wir da einen gemeinsamen Termin vereinbaren. Der Rest per PM.

MFG Bobo(2007)

S940

2007-12-12, 15:51:43

@S940
Ja das mit dem UltraSPARC T2 ("Niagara") ist durchaus auch eine Option für die Linuxwelt, wenn es tatsächlich auch vom Durchsatz abhängt.

(...)

Aber es ist ein Web-Benchmark! Von daher ist das per Se noch keine direkte Empfehlung!

Jupp ist es nicht, aber ich weiss, wer zu dem Thema bald / jetzt was beitragen kann:

http://www.rz.rwth-aachen.de/go/id/qid/lang/en

Da kann man deren Systeme anschauen:
http://www.rz.rwth-aachen.de/ca/k/omj/lang/de/

Und da sieht man dann:
Umstrukturierung des Rechner-Cluster im Dezember 2007

Es werden die Rechner Sun Fire 6900 und Sun Fire 2900, sowie zwei der Systeme Sun Fire 25k durch folgende Rechner abgelöst
Sun T5120 "Niagara" : 20 (Stück)
Das ist bekanntermaßen ein T2 System.

Die Kollegen da scheinen recht aufgeschlossen zu sein, Sun sponsort da kostenlose Workshops, bei denen man kostenlos teilnehmen kann. Teil 2 war z.B. betitelt mit:
Part 2: Tuning Workshop - "Bring your own code"

Also melde Dich da vielleicht auch mal und frag nach Ihren Erfahrungen, vielleicht hast Du Glück und die haben das gleiche Programm wie Du laufen.

Edit:
Im November war erst Sun-HPC Messe in Vegas, die Aachener waren auch dort und haben den T2 im HPC Umfeld presentiert:

Mein persönliches Favoritenfoto:
http://www.bilder-space.de/upload/raTBoLtaQTmkWEW.JPG

Ist genau das, was ich versucht habe im letzten Posting zu erklären.
Allerdings muss man anmerken, dass das halt nur bei dem einen Programm so ist, bei Dir kanns eventuell wieder anders ausschauen, muss man eben austesten, aber ich vermute dass es bei Deinem Workload ähnlich ausschauen müßte.

Die und andren Präsentationen (z.B: auch von AMD) gibts hier:
https://events-at-sun.com/hpcreno/presentations.html

@Melbourne, FL

Du bist ein klassischer Kandidat für die Cebit 2008.

Ich bereite mich langsam für die Cebit 2008 vor. Gegebenenfalls könnten wir da einen gemeinsamen Termin vereinbaren. Der Rest per PM.
Ich glaube das wird schwierig mit dem Ozean dazwischen, aber interessant wärs allemal, mit einem entsprechenden Budget in der Hinterhand sind die Sun Leute sicherlich auch ganz nett (Anspielung auf Sonnenuntergang@P3D ;-))

ciao

Alex

Melbourne, FL

2007-12-12, 18:29:31

Bessere Auslastung der FPU. Wenn Du im Extremfall 8 Threads auf die CPU losläßt, hat die FPU sicherlich *immer* was zu tun. Gibts kein SMT, kann es passieren, dass die FPU immerwieder ein paar µs Däumchen dreht, da auf Hauptspeicherzugriffe und dort auf neue Aufgaben wartet. Berechnet wird währenddessen nichts.

Ok...bei Speicherzugriffen sollte es was bringen...verstehe. Allerdings weiss ich nicht, ob das so viel ausmacht.

Nachdem Dein Programm jetzt sehr stark von Latenzen abhängt, glaube ich, dass das relativ viel bringen kann. Verbesser mich bitte wenn es falsch ist, aber wenn ich das richtig verstanden hab, ist es egal, ob die Latenz bei der thread Weitergabe 0,001s; 0,01; 0,1; 1 oder 10 Sec liegt, wichtig ist, dass alle CPUs beschäftigt sind, d.h. der Durchsatz ist wichtig, nicht die Zeit in der ein Einzelergebnis vorliegt.

Das Problem ist, dass sich alles nach dem langsamsten Thread richtet. Die CPUs bekommen ihren Aufgabenteil und arbeiten den ab. Danach werden die Ergebnisse aller CPUs gesammelt und neue Aufgaben erstellt (die Einzelergebnisse werden gebraucht, um die neuen Aufgaben festzulegen). Wenn z.B. eine CPU noch einen Zombie-Prozess laufen hat (passiert manchmal), warten alle anderen CPUs, bis diese eine CPU fertig ist...und das fuehrt dazu, dass die Simulation extrem langsam laeuft. Insofern bin ich mir jetzt nicht sicher, ob HT in meinem Fall so viel bringt.

Alexander

S940

2007-12-12, 23:59:20

Das Problem ist, dass sich alles nach dem langsamsten Thread richtet. Die CPUs bekommen ihren Aufgabenteil und arbeiten den ab. Danach werden die Ergebnisse aller CPUs gesammelt und neue Aufgaben erstellt (die Einzelergebnisse werden gebraucht, um die neuen Aufgaben festzulegen). Wenn z.B. eine CPU noch einen Zombie-Prozess laufen hat (passiert manchmal), warten alle anderen CPUs, bis diese eine CPU fertig ist...und das fuehrt dazu, dass die Simulation extrem langsam laeuft. Insofern bin ich mir jetzt nicht sicher, ob HT in meinem Fall so viel bringt.

Ah ok, ein master thread und dutzende helperthreads ... hmmm jo dann ist das nicht so einfach ... was bleibt ist die enge Vernetzung beim T2, wenn da ein thread den master spielt, dann kommen die Antworten der ganzen helper threads schon zügig zurück, aber ein T2 allein wird auch nix reißen, nehme ich an.

Naja der T2 schaut zwar nicht mehr sooo toll aus, aber das Rennen ist dann wohl sehr offen zu nem AMD System. Wobei es eigentlich egal ist. Denn die Systeme für Deinen Einsatz werden wohl immer so groß, dass man Infiniband braucht.

Beim Thema Infiniband hat dann aber wieder AMD ein Stein im Brett mit der bereits früher erwähnten Pathscale HTX-Infiniband Karte. Die würde ich dann auf alle Fälle nehmen:
What the InfiniPath HTX adapter does better than any other cluster interconnect is accept the millions of messages generated every second by fast, multicore processors and gets them to the receiving processor. Part of the secret is removing all the delays associated with bridge chips and the PCI bus, because traffic is routed over the much faster HyperTransport bus. In real-world testing, this produces a two- to three-times improvement in latency, and in real-world clustered applications, an increase in messages per second of ten times or more.(...)
The reason a two- or three-times improvement in latency has such a large effect on the message rate (messages per second) is that low latency reduces the time that nodes spend waiting for the next communication at both ends, so all the processors substantially reduce wasted cycles spent waiting on adapters jammed with message traffic.
http://www.linuxjournal.com/article/9117

Als board böte sich z.B. das hier an
2P:
http://www.tyan.com/product_board_detail.aspx?pid=547 300-350 Euro
Achtung, das "-E" ist wichtig. Die Tyan "-E" boards zeichnen es sich durch Unterstützung der split power planes des K10 aus. Ausserdem sollten die CPUs über die doppelte HTr Verbindung als bisher üblich verbunden sein. Schadet also auch nichts.

Ein 4P board gibts auch:
http://www.tyan.com/product_board_detail.aspx?pid=574
Am besten gleich im 1U Gehäuse ordern, dann heißt das Transport GT26
http://www.tyan.com/product_barebones_spec.aspx?pid=348
Letzteres kostet bei alternate 1600 Euro, natürlich ohne CPUs ...

Von Supermicro gibts ähnliche boards.

Frage ist, ob ein Infiniband Adapter ausreicht, um den Traffic von 4 Quad Core CPUs also 16 Kernen zu bewältigen. Wenn nicht dann halt das 2P board.
Preis,äßig sollte es aufs Gleiche rauskommen, ein Infinibandadapter (Typ:QHT7140 ) kostet um die 700-800 Dollar (bei ebay auch mal 500 ^^)

Die Mehrkosten kommen wieder rein, da man durch die 4x 2000er Opterons ca. 600 Euro gegenüber 4x 8000er spart.
Ausserdem spart man noch Kleinigkeiten, da man mit 2P Systemen mit Standardhardware von der Stange auskommt, selbst wenn mans in der doppelten Ausführung braucht: Board, NT, Gehäuse. Abgesehen davon sollten die Latenzen (ein bisschen) besser sein als bei 4P ^^

Die Kühlung sollte von einer 2P Node auch einfacher sein, als bei 4P. Zumindest im Gehäuse selbst, hotspots sollten da weniger wahrscheinlich sein. Schlussendlich kommt im Serverraum aber natürlich die gleiche Abwärme raus.

Die Überlegungen gingen jetzt davon aus, dass du normale Desktop Gehäuse kaufst & bzw. zusammenstellen lässt. Wenn Du nen 19Zoll Schrank vollbekommen willst, dann ist das 4P System, z.B. das 1U Tyan barebone wieder vorne.

Also meine Empfehlung jetzt:

Mit normalen PC Gehäuse, Pro: billig; contra: viel Platzbedarf:
AMD split-power plane 2P boards mit HTX Slot
AMD Opteron 23XX Rev. B3 CPUs
Pathscale Infiniband HTX Adapter.

Im 19 Zoll Schrank:
1U 4P Barebone, falls sicher ist, dass der eine Infinibandadapter die Bandbreite der 16 Kerne schafft.

Alles unter Vorbehalt, das es den Hypertransport Infinibandadapter noch gibt:

QLogic hat Pathscale gekauft, wenn man bei Pathscale nach dem Infinibandadapter sucht, kommt man hier raus:
http://www.qlogic.com/Products/HPC_products_infipathhcas.aspx

Und da gibts nur die PCIe und PCI-X Adapter. Ein paar Treffer liefertdie Suchfuntion noch, Händler listen den auch, aber naja .. ein fader Beigeschmack bleibt. Wenn die jetzt den QHT7140 Adapter abgesetzt haben gehören die geteert und gefedert ...

ciao

Alex

Melbourne, FL

2007-12-13, 02:26:49

Erstmal Danke an die vielen Hilfen hier...insbesondere S940 und Bokill. Zum Vorschlag von S940: Eigentlich haette ich gern 32 Kerne in einem Gehaeuse (Bokill hat ja diverse Mainboards mit 8 Sockeln vorgeschlagen). Wenn man schon den Aufpreis fuer einen 8000er Opteron bezahlt, dann sollte man das auch voll ausnutzen. Und ausserdem wuerde man die Anzahl der benoetigten Infiniband Karten halbieren. Die Bandbreite sollte dabei eigentlich nicht limitieren, da zwischen den Rechenschritten nicht so wahnsinnig viele Daten ausgetauscht werden...muesste man aber mal checken. Ich versuch mal rauszufinden, welche Datenmenge ueblicherweise ausgetauscht wird.

Ausserdem brauchen wir fuer die meisten Faelle nur 32 oder weniger Kerne (ich hab bisher maximal mit 16 gleichzeitig an einer Simulation gearbeitet...in Zukunft werden aber sicher auch mal 32 anfallen). Man wuerde sich also bei 32 Kernen auf einem Board in den meisten Faellen den Weg ueber eine externe Verbindung sparen (mal davon ausgehend, dass Infiniband trotz allem immer noch langsamer als eine direkte HTr Verbindung ist).

Waermeentwicklung sollte auch in den Griff zu kriegen sein, da der Serverraum eine Klimaanlage hat (steht momentan bei 20C kann aber bestimmt noch kaelter gedreht werden).

Wegen der Infiniband Karten werde ich gleich mal QLogic kontaktieren...mal sehen was die sagen.

@Bokill: Cebit wird leider schwierig...bin in den USA. Ich hab mich wie gesagt an verschiedene Firmen gewandt...mal sehen was dabei rauskommt.

Alexander

PS: Wird es bei den Sockel F K10 Opterons eigentlich in absehbarer Zeit auch hoehere Taktfrequenzen als 2.0GHz geben?

Edit: Hab gerade nochmal bei Bokills Post auf der vorherigen Seite geguckt. Da wuerde der Sun Fire X4600 Server ja ganz gut passen. Und auch die Idee, ihn gegen vier Sun Fire X4100 Server antreten zu lassen, finde ich gut.

S940

2007-12-13, 09:41:45

Edit: Hab gerade nochmal bei Bokills Post auf der vorherigen Seite geguckt. Da wuerde der Sun Fire X4600 Server ja ganz gut passen. Und auch die Idee, ihn gegen vier Sun Fire X4100 Server antreten zu lassen, finde ich gut.Jo Sun hat nette Systeme, durchdacht etc. pp .. aber:

Sun says, 'No THX' to HTX:
http://www.theregister.co.uk/2006/02/27/sun_htx/

Sun may not lose out too much by passing on HTX. PathScale is expected to deliver an Infiniband adapter that goes into the PCI-Express slots of server motherboards. If such a product comes close to matching the performance of the HTX adapter, then Sun will likely be able to serve most of its customers well. Only the very demanding types in the high performance computing market who want the best possible performance might be upset with Sun's decision. ®Tja ... bei dem Geld das das Zeugs kostet würde ich also schon "very demanding" sein, v.a. wenn man bedenkt, dass der ganze, teure Cluster nur wg. den Verbindungen langsamer läuft :(

Frage ist, wie gut die PCIe Infinibandadapter sind ... bisher haben sie die HTX Version geprießen wie sonst nichts ... und von der Logik her muss HTX einen latency Vorsprung haben ... da führt nichts drumherum.
Übrig bleibt z.B. IBM:
4P: http://www-03.ibm.com/systems/x/rack/x3755/

hp hat wohl auch was, aber deren Seite ist anscheinend gerade in der Wartung ... lädt bei mir seit 5 min ... mal schauen obs später geht.

Allgemeines:
Am Allerbesten, von der Theorie her, wären bei Deiner Vorraussezung mit um die 30 kerne 3x3P Systeme (36 Kerne) mit obigen IBM Gerät. Damit hättest Du dann 36 cores, mit den geringstmöglichen Latenzen. Das Problem bei 4P ist, dass 1CPU schon mal nicht direkt mit der CPU, die den HTX Steckplatz hat, verbunden ist, und noch den Umweg über eine 2 CPU gehen muss. Bei 8P ist der Umweg geht der Umweg dann für ein paar CPUs schon über 2 CPUs.
Nachdem Du gesagt hast, dass alle auf den lagsamsten Warten .. brächte das Ganze HTX wohl bei einem 8P System nichts, da sich die Latenzen wieder aufaddieren. Bei nem 4P System ist es die Frage, ärgerlich ist auf alle Fälle, dass da nur 1 CPU die andren 3 aufhält ...

Deswegen die Idee mit der Bestückung mit 3 CPUs .. damit hättest Du dann kürzeste Latenzen und maximale Leistung.
Soviel ich weiss geht das nur bei IBM, da nur die IBM Leute eine Dummy Karte entwickelt haben, die in den nicht zu bestückenden Sockel einsetzen wird, die die Hypertransportanschlüsse weiterleitet.

Also wenn Du die theoretisch allerbeste Leistung haben willst, und Geld keine Rolle spielt ...
3 IBM Systeme ... mit je 3 CPUs. Weitere Infos hier:
http://www.redbooks.ibm.com/redpapers/abstracts/redp4260.html

Zu der K10 Taktfrequenz:
Bis nächstes Jahr sollte es wohl auch im Server 2,6 GHz Versionen geben, das ist zumindest für die Desktop Phenom CPUs im Frühjahr angekündigt, Opterons folgen da meist später, bis Sommer sollte es die CPUs dann auch als Opteron geben.

ciao

Alex

Melbourne, FL

2007-12-13, 21:18:42

Das mit dem IBM System klingt natuerlich sehr interessant. Ich hatte denen gestern auch schon eine E-Mail geschrieben bisher aber noch keine Antwort. Allerdings habe ich Antwort von Qlogic:

Hello Alexander,

Unfortunately, the QHT series of adapters has been discontinued. There are no plans currently for introducing newer IB HCA's for the HTX interface.

Have a good day!

Hmpf...ist natuerlich doof. Da faellt Eigenbau schon mal aus.

Noch eine Frage zur K10 Taktfrequenz. Mich wuerde interessieren, welche Taktfrequenz man beim K10 in etwa benoetigt, um mit unseren aktuellen 2,8GHz Xeon EM64T gleichzuziehen. Damit meine ich Performance pro Kern. Ich hab einen Single Core Benchmark gefunden, bei dem ein 3,6GHz Xeon EM64T unter CHARMM etwa so schnell wie ein 2,2 GHz Opteron 248 (also K9) ist. Sprich umgerechnet ist ein 1,7GHz K9 Opteron so schnell wie ein 2,8GHz Xeon EM64T. Wieviel packt der K10 denn gegenueber dem K9 im Bereich Floating Point drauf? Welche Taktfrequenz muesste ein K10 etwa haben, damit ein Kern so schnell wie ein 2,8GHz Xeon EM64T ist? Leider scheint es noch ueberhaupt keine CHARMM Benchmarks auf einem K10 zu geben.

Der Grund warum ich frage ist, dass wir manchmal auch Simulationen laufen lassen, bei denen die Kerne nur extrem selten miteinander kommunizieren und somit die Single Core Leistung ausschlaggebend ist. Da wueste ich einfach gerne, womit man in etwa rechnen kann.

Alexander

S940

2007-12-13, 22:27:40

Das mit dem IBM System klingt natuerlich sehr interessant. Ich hatte denen gestern auch schon eine E-Mail geschrieben bisher aber noch keine Antwort. Allerdings habe ich Antwort von Qlogic:

Hmpf...ist natuerlich doof. Da faellt Eigenbau schon mal aus.
Naja hmmm, also es gibt im Moment wohl noch Lagerbestände ... wenn es Dir das Geld wert ist ... leg los und besorg Dir ein paar Kärtchen.
Zuvor aber vielleicht ein bisschen nachbohren ... vielleicht sind die neuesten PCIe Karten ja fast genauso gut. Kanns mir zwar nicht vorstellen ... aber wer weiss, gibt immer wieder technische Neuerungen.

Wenn die schon so fix antworten .. frag mal mitte nach den Gründen, v.a. ob die PCIe Karten eine bessere Latenz haben .. bin mal gespannt, was dann zurückkommt.
Aus BWL-Sicht könnt ich mir vorstellen, dass die Stückzahlen einfach zu gering waren :(

"Interessant" an der ganzen Sache ist damit, dass die Anzahl von verfügbaren HTX Erweiterungskarten von 1 auf 0 gesunken ist ... da hatte Sun wohl den richtigen Riecher :(

Noch eine Frage zur K10 Taktfrequenz. Mich wuerde interessieren, welche Taktfrequenz man beim K10 in etwa benoetigt, um mit unseren aktuellen 2,8GHz Xeon EM64T gleichzuziehen. Damit meine ich Performance pro Kern. Ich hab einen Single Core Benchmark gefunden, bei dem ein 3,6GHz Xeon EM64T unter CHARMM etwa so schnell wie ein 2,2 GHz Opteron 248 (also K9) ist. Sprich umgerechnet ist ein 1,7GHz K9 Opteron so schnell wie ein 2,8GHz Xeon EM64T. Wieviel packt der K10 denn gegenueber dem K9 im Bereich Floating Point drauf? Welche Taktfrequenz muesste ein K10 etwa haben, damit ein Kern so schnell wie ein 2,8GHz Xeon EM64T ist? Leider scheint es noch ueberhaupt keine CHARMM Benchmarks auf einem K10 zu geben.

Der Grund warum ich frage ist, dass wir manchmal auch Simulationen laufen lassen, bei denen die Kerne nur extrem selten miteinander kommunizieren und somit die Single Core Leistung ausschlaggebend ist. Da wueste ich einfach gerne, womit man in etwa rechnen kann.

Ist schwer zu sagen, kommt immer auf den Code & Compiler an. Deine Werte sind aber sicherlich veraltet, der 3,6er "EM64T" Chip (sagt leider nichts über den Kern aus) ist wohl noch ein Netburst Vertreter, der war wirklich grottig für HPC. Die neuen Core2 Generation ist da viel besser.

Wenn Du die HT Karte nicht mehr bekommst bis nächstes Jahr, dann wollte ich jetzt eh vorschlagen auf Intel umzuschwenken, da gibts mittlerweile mainboards mit 4 FSBs (Muss ein echter Monsterchipsatz sein) die sind von der Latenz her auch nicht mehr recht viel schlechter sind, zumindest eben für 4P, 8P kannst man wohl nachwievor vergessen, ausser IBM hat ihren eigenen, exklusiven Intel-Serverchipsatz renoviert, die hatten da mal was ... muss ich mal schauen, oder Du suchst selber, hab heute und bis Sonntag keine Zeit.

Von der reinen CPU Leistung her sind die AMDs bei 128bit SSE Befehlen pro Takt schneller als ein gleichgetakteter Intel. 2,5 GHz AMD sind ungefähr so gut wie 3 GHz Intel, aber das kann man so pauschal nicht sagen, hängt, wie schon gesagt, stark vom Code & compiler ab .. müsstest Du wieder selber testen, bzw. Dich bei den andren Unis / Kollegen umhören.
Wenn Dein Programm kein SSE nützt, dann ist die Entscheidung einfach: Intel ist sonst bei gleichem Takt überall schneller ...

ciao und schon mal schönes WE

Alex

Melbourne, FL

2007-12-13, 23:08:28

Ist schwer zu sagen, kommt immer auf den Code & Compiler an. Deine Werte sind aber sicherlich veraltet, der 3,6er "EM64T" Chip (sagt leider nichts über den Kern aus) ist wohl noch ein Netburst Vertreter, der war wirklich grottig für HPC. Die neuen Core2 Generation ist da viel besser.

Sollte ein Netburst Vertreter sein da die Benchmarks von Dezember 2004 sind.

Wenn Du die HT Karte nicht mehr bekommst bis nächstes Jahr, dann wollte ich jetzt eh vorschlagen auf Intel umzuschwenken, da gibts mittlerweile mainboards mit 4 FSBs (Muss ein echter Monsterchipsatz sein) die sind von der Latenz her auch nicht mehr recht viel schlechter sind, zumindest eben für 4P, 8P kannst man wohl nachwievor vergessen, ausser IBM hat ihren eigenen, exklusiven Intel-Serverchipsatz renoviert, die hatten da mal was ... muss ich mal schauen, oder Du suchst selber, hab heute und bis Sonntag keine Zeit.

Wird IBM denn nicht selbst ein paar der HTr Infiniband Karten gebunkert haben?

Wenn Dein Programm kein SSE nützt, dann ist die Entscheidung einfach: Intel ist sonst bei gleichem Takt überall schneller ...

Ich wuerde bezweifeln, dass CHARMM SSE unterstuetzt. Single Core Performance ist aber nicht so entscheidend. Das Hauptaugenmerk liegt klar auf Multi-CPU-Betrieb.

Also denn Dir auch ein schoenes Wochenende,

Alexander

S940

2007-12-17, 13:15:04

Wird IBM denn nicht selbst ein paar der HTr Infiniband Karten gebunkert haben?Wenn Du Glück hast ... müsstest halt mal anfragen ...
Ich wuerde bezweifeln, dass CHARMM SSE unterstuetzt. Single Core Performance ist aber nicht so entscheidend. Das Hauptaugenmerk liegt klar auf Multi-CPU-Betrieb.
Hmm naja .. kommt halt auf die Compiler bzw. dessen aktivierte Optimierungen an. Was habt Ihr da eigentlich gerade im Einsatz ? Kannst Du das rausfinden?
Am besten wären zur Zeit wohl Pathscale und Intel Compiler.

Da kann man u.U. schon noch was rausholen.

Wenn Du dann so ein Compilat hast und das laufen lässt, dann könnte man auch mit CPU Testprogrammen den Programmablauf(performance counter) mitschneiden lassen. Dadurch bekommt man eine Übersicht, welche CPU Einheiten vom Programm ausgelastet werden, wieviel Cache Hits/Miss aufgetreten sind, etc ... wäre ganz gut sowas zu haben.

Ansonsten zum single-multicore Betrieb:
Intel ist im Multicore Betrieb in deinem Fall auch nicht mehr soo schlecht. Du brauchst ja nur einen relativ einfachen Datenweg von MasterPC -> Clients und zurück, die Clients untereinander haben ja nichts auszutauschen.
Von daher könnten ein,zwei "Caneland" Server mit Clarksboro Chipsatz ausreichen:
http://www.heise.de/newsticker/meldung/95550
Latenzen hat man da dann von PCIe -> NB -> CPU, bei AMD wärs ohne HTX Karte nicht anders.

So gesehen wäre ein Intelsystem dann die sichere Wahl, AMD ist nur bei SSE2 code gleichschnell, Intel kann dem aber mit höheren Taktfrequenzen dagegenhalten. Latenz ist ohne HTX gleich, Intel ist sonst immer schneller ... also spräche eigentlich alles für Intel, ausser vielleicht dem Stromverbrauch.

Viel Unterschied dürfte da aber auch nicht sein, da Intel den FBDIMM Nachteil mit den 45nm CPUs wieder wettmachen kann. Ob AMD bis Mitte 08 auch 45nm CPUs hat, bezweifle ich einmal, bisher hat man nicht mal lauffähige Samples, die sollen zwar im Januar kommen, aber bis Sommer wird das definitiv zu knapp, angekündigt sind die Chips bisher für das 2te Halbjahr, ich denke es wird wieder so November, bis die rauskommen.

Was Ihr vielleicht noch versuchen könntet ... bei Intel nach nem Beta-Test Versuchs-Nehalem System anfragen ... die haben die CPUs schon seit diesem Herbst fertig, gut möglich, dass sie im nächsten Sommer schon fertige Betatest Systeme hätten.

Keine Ahnung, ob Intel das interessieren würde, aber fragen kostet ja nichts.

ciao

Alex

Bokill

2007-12-17, 16:19:33

Was Compiler angeht, so hat Sun das Studio 12.

Wenns bezahlt wird, dann bekommst du Support, oder du nimmst es for "Free", dann ohne Support. Der Compiler von Sun ist für Solaris UND für Linux gedacht.

Da Sun seit dem Sommer 2007 auch offiziell Intel (wieder) unterstützt, kann man auch da mal nachfragen.

Das mit den Infiniband-Karten ist zwar schade, aber da hat AMD wohl auch zu wenig Wind in den letzten zwei Jahren zu dem HTX-Port gemacht. IBM, Sun und viele andere Firmen bauen nun vielfach auf PCI-Express.

Da die zukünftige Unterstützung bei derartigen Propukten wie den HTX-Slot-Karten für Infiniband in den Sternen steht, sollte man hier an industieweit unterstützen PCI-Express-Karten bleiben.

Was mich die ganze Zeit juckt, das sind aber weitere Multicores, die es durchaus auch noch gibt. IBM hat für derartige Zwecke Cell-Blades (QS20-Blades). Per PCI-Express und den entsprechenden Infiniband-Karten müssten die auch ganz fix sein.

Zur Cebit 2007 hatte das Fraunhofer-Institut damit Wärme-Fluss-Simulationen (computational fluid dynamics) damit in Echtzeit machen können, die waren auf Opteron-Multisockelsystemen damals nur in Dia-Show-Geschwindigkeit machbar. Das ist vom Fraunhofer Institut für Techno- und Wirtschaftsmathematik "ITWM" in Kaiserslautern mit dem Herrn Klein und Herrn Pfreundt. Stichworte sind dazu "GraPA", "FracTherm".

Zugegeben, das ist zwar ein anderer Einsatzbereich, aber es zeigt wie mächtig Multicores sein können, bei iterativ berechneten Lösungen. Im Gegensatz zu den Niagara 2-Rechnern sind die IBM-Blades sogar vergleichsweise "billig" und IBM arbeitet mit Hochdruck an einer Cell-Variante für DDR2-RAM die zudem durchgängig 64 Bit berechnen kann. Tja, leider gehört der Cell zur Power Architektur ... was für dich ja ein "Knock Out-Kriterium" ist.

MFG Bobo(2007)

S940

2007-12-17, 17:02:27

Das mit den Infiniband-Karten ist zwar schade, aber da hat AMD wohl auch zu wenig Wind in den letzten zwei Jahren zu dem HTX-Port gemacht. IBM, Sun und viele andere Firmen bauen nun vielfach auf PCI-Express.Da scheint vieldoch noch Hoffnung zu sein, Spina@P3D hat da eine Voltaire HTX Infiniband Karte ausgegraben.

Das ist aber keine neue Karte, sondern schlicht und ergreifend eine OEM Version von Pathscale:
http://www.voltaire.com/NewsAndEvents/Press_Releases/press2005/September_28_2005

Hier der Herstellerlink zur Karte:
http://www.voltaire.com/Products/Server_Products/Voltaire_HCA_4X0

Frage ist, ob Voltaire die Karte jetzt auch bald aus dem Programm nimmt, oder nicht. Schreib da vielleicht auch mal ne email an die ;-)

Ansonsten .. nachdem bobo cell nannte ... dann muss ich doch gleich auf die HTX Karten verweisen, die spina ebenfalls noch so gefunden hat, z.B.:
http://www.celoxica.com/products/rchtx/default.asp

Die hat bestimmt ein paar cores mehr als cell.
Fragt sich nur, ob es was für den Einsatz brächte. Latenzen wären sicherlich super, aber die Leistung ...hmmm ausserdem scheint es das nur für "C" zu geben, Fortran ist außenvor.

Und/Oder halt eine Grafikkarte .. aber ohne Compiler bringt das dann ebenfalls nichts.

ciao

Alex

Bokill

2007-12-18, 01:18:17

... Ansonsten .. nachdem bobo cell nannte ... dann muss ich doch gleich auf die HTX Karten verweisen, die spina ebenfalls noch so gefunden hat, z.B.:
http://www.celoxica.com/products/rchtx/default.asp

Die hat bestimmt ein paar cores mehr als cell.
Fragt sich nur, ob es was für den Einsatz brächte. Latenzen wären sicherlich super, aber die Leistung ...hmmm ausserdem scheint es das nur für "C" zu geben, Fortran ist außenvor. ... VORSICHT!

Ein FPGA ist KEIN Multicore per Se. Der macht Sinn, wenn bestimmte Algorithmen (http://www.orthy.de/index.php?option=com_content&task=view&id=4973&Itemid=86) beschleunigt werden sollen, wird es in der Summe komplex, dann ist nach wie vor die Roh-Power eines universellen Prozessors gefragt.

Zur Zeit verbaut werden für den Sockel 940 FPGA (http://www.orthy.de/index.php?option=com_glossary&Itemid=55&func=view&id=415)s von Altera (http://www.orthy.de/index.php?option=com_glossary&Itemid=55&func=view&id=414) und Xilinx (http://www.orthy.de/index.php?option=com_glossary&Itemid=55&func=view&id=19).

Für den Sockel F ist aber auch was geplant, allerdings will auch Intel für die eigene Plattform derartiges erlauben. Gut möglich dass Mitte 2008 erste ("Geneso (http://www.orthy.de/index.php?option=com_content&task=view&id=4271&Itemid=86)")-Serienprodukte dafür herauskommen.

Ich gebe mal kleine Überblicksartikel dazu an:
billig billig ... Coprozessor-Karten (http://www.orthy.de/index.php?option=com_content&task=view&id=4474&Itemid=86),
Nvidia: GPU-Schlachtaxt "Tesla" (http://www.orthy.de/index.php?option=com_content&task=view&id=4836&Itemid=86).

Wer wenig Code umändern will, der sollte bei einer x86-Plattform bleiben. Ich sehe nicht, dass der K10 ausserordentlich stark gegenüber der Intelplattform mit dem Conroe- und Penryn-Kern aufholen wird, wenngleich der K10 gut skalieren könnte bei vielen Sockeln.

Intel macht das aber nahezu wett, durch neue Serverchipsätze mit 4 Front Side Bussen für 4 Sockeln (können auch 8 Sockel sein, so genau hab ich das jetzt nicht auf der Pfanne). Der "Nachteil dabei ist, dass das brandneue Chipsätze sind, die auch nur eine begrenzte Halbwertszeit besitzen ... aber was ist schon "zukunftssicher" ... AMD wird ebenso ab 2009 einen völlig neuen Serversockel "G" einführen (unter anderem wegen DDR3-RAM).

MFG Bobo(2009)

Melbourne, FL

2007-12-18, 22:10:17

*Puh*...zuviel Information auf einmal... ;)

Naja...ich werde bei der Frage erstmal bis Anfang naechsten Jahres eine Pause einlegen. Dann werde ich nochmal eine massive Rund-Anfrage bei allen in Frage kommenden Firmen machen und sehen, was die anbieten koennen. Wenn ich das alles zusammen habe, werd ich hier nochmal vorstellig und hole mir Eure Meinung ein.

Bis dahin wuensche ich frohe Weihnachten und einen guten Rutsch...und nochmal ein grosses DANKE,

Alexander

PS: Compiler ist von Intel.

Melbourne, FL

2008-10-16, 16:41:48

Ok Jungs...ich hol den Thread mal aus der Versenkung. Der Rechner ueber den wir hier gesprochen haben wurde inzwischen angeschafft und wir sind auch ganz zufrieden. Mein damaliger Chef hat die Sache dann entschieden. Er wollte bei Dell bleiben, weil seine anderen Rechner auch alle von Dell waren...und damit sind es 5 Dell Poweredge R905 (jeweils 4 AMD Phenom Quadcores mit 2,0 GHz...also insgesamt 80 Kerne) geworden. Die Skalierung innerhalb eines Racks ist ganz ordentlich...darueber hinaus haben wir es nicht ausprobiert aber ich denke das wird reichlich grottig sein (Gigabit Ethernet).

Jetzt hab ich meine eigene Arbeitsgruppe und habe 38.000 Euro fuer einen eigenen Grossrechner zur Verfuegung. Die Frage ist wieder: Wie kriege ich die meiste Rechenleistung fuer mein Geld? Nochmal zur Erinnerung...was ich brauche ist folgendes:

* Auf dem Rechner soll CHARMM laufen...d.h. FP-Leistung ist entscheidend

* Ich wuerde so groessenordnungsmaessig 32 Kerne fuer grosse Simulationen haben wollen, die mit sehr geringen Latenzen (Bandbreite nicht so wichtig) untereinander verbunden sind

* den Rest wuerde ich in so viel weitere Kerne wie moeglich investieren wollen, bei denen die Verbindungsgeschwindigkeit nicht ganz so wichtig ist aber die einzelnen Kerne sehr flott sind (es waere nicht schlecht wenn jeweils 2 Quadcores (also 8 Kerne) eine schnelle Verbindung haetten, so dass ich kleinere Simulationen gut darauf laufen lassen kann)

* da ich mich damit am besten auskenne, wuerde ich X86 Prozessoren bevorzugen

* Compiler sind von Intel (Pathscale war ohne Optimierungen langsamer und nach anfaenglich positivem Kontakt hab ich von denen nichts mehr gehoert)

Ich hab auch gleich die ueblichen Verdaechtigen (Dell, IBM, HP) angeschrieben aber Eure Meinung interessiert mich auch. Wie sieht es denn z.B. bei den Nehalems aus? Vor allem die Prozessor-Interconnects wuerden mich interessieren...davon hab ich bisher nicht viel gehoert (hatte in letzter Zeit aber auch keinen wirklich Kontakt mit der Materie). Haelt das mit Hyper-Transport mit?

Oder gibt es noch ganz andere Vorschlaege?

Alexander

Gast

2008-10-16, 17:02:07

Wie du richtig vermutet hast, werden die kommenden Nehalems wohl das so ziemlich schnellste sein, was der Markt zu bieten hat!
Durch das QPI lassen sich dann auch sehr schnelle Speicherzugriffe mit hohem Durchsatz realisieren!

Was mir gerade noch so einfällt: Gestern stand auf der heise Page, dass die neuen Sparcs brutal schnell sein müssen!
Vorallem bei der FP Performance sind sie scheinbar in ganz anderen Größenregionen wie x86,POWER6 und Itanium !

Gast

2008-11-11, 07:43:26

Und was is jetzt rausgekommen ?

Melbourne, FL

2009-06-13, 10:35:17

Es hat recht lange gedauert die ganze Sache zu planen (Raum mit Stromversorgung, Kuehlung usw.), Angebote einzuholen usw. aber jetzt ist es geschafft...und ich wollte es hier nochmal schreiben, weil sich ja vielleicht der eine oder andere doch dafuer interessiert. Das Angebot, das gewonnen hat, besteht jetzt aus 12 Nodes (das Budget hat sich nochmal deutlich erhoeht). In jeder Node (1HE) sind 2 Mainboards verbaut, die sich einen onboard Infiniband ConnectX teilen. Auf jedem Mainboard sind zwei CPU-Sockel...also 4 Sockel pro Node. Insgesamt bekomme ich also 48 CPUs...und zwar die neuen Istanbul 6-Kerner von AMD mit 2,2GHz. Insgesamt also 288 Kerne verbunden per Infiniband ConnectX...also doch deutlich mehr als ich fuer mein Budget erwartet haette.

Alexander

S940

2009-06-13, 11:51:59

Hört sich gut an ^^
Noch 2 Fragen aus Neugierde:
Wie wird denn der Infinibandanschluss geteilt ?
Weisst Du welche boards das sind ?

ciao & viel Spass beim Berechnen :)

Alex

Spasstiger

2009-06-13, 13:22:35

AnarchX

2009-06-13, 13:29:38

Hier vielleicht was fürs nächste Projekt:
http://www.brightsideofnews.com/news/2009/6/7/exclusive-intel-skulltrail-2-is-based-upon-8-core-nehalem-ex.aspx

Nehalem-EX mit physikalischen 8 Kernen (16 Threads mit HTT) und 24 MiB L3-Cache.
Warum keine vernünftige Seite zum Nehalem-EX?
http://www.computerbase.de/news/hardware/prozessoren/intel/2009/mai/intel_details_nehalem-ex/
... interessant auch die Ausbaumöglichkeit von 8 CPUs (64C/128T) auf wohl einem Mainboard.

Spasstiger

2009-06-13, 23:02:46

Warum keine vernünftige Seite zum Nehalem-EX?
Sorry, hatte nur den letzten Link gepostet, der mir zum Thema bekannt war. Und dass man gar 8 Nehalem-EX auf einem Board zusammenschalten kann, war mir noch überhaupt nicht bekannt. Scheint ja echt eine Monsterlösung für Multithreading zu werden. Aber das wird sich Intel vermutlich auch fürstlich bezahlen lassen.

Melbourne, FL

2009-06-15, 15:05:03

Hört sich gut an ^^
Noch 2 Fragen aus Neugierde:
Wie wird denn der Infinibandanschluss geteilt ?

Weiss ich nicht genau. Der Anschluss scheint jedenfalls per PCI-Express zu erfolgen. Wenn ich jetzt nochmal genau nachsehe scheint es aber doch so zu sein, dass jedes Mainboard eine Onboard-Infiniband-Karte hat.

Weisst Du welche boards das sind ?

Supermicro H8DMT-IBX

Hier vielleicht was fürs nächste Projekt:
http://www.brightsideofnews.com/news/2009/6/7/exclusive-intel-skulltrail-2-is-based-upon-8-core-nehalem-ex.aspx

Nehalem-EX mit physikalischen 8 Kernen (16 Threads mit HTT) und 24 MiB L3-Cache.

Fuer naechste Projekt kommen dann vielleicht schon Grafikkarten zum Einsatz. Es gibt jetzt ein weiteres Simulationspackage welches File-kompatibel zum von mir benutzten CHARMM ist...wir benutzen das jetzt teilweise sogar schon. Es ist einfach wesentlich moderner und skaliert auch viel besser...und fuer das Package gibt es schon eine CUDA-Version (noch beta).

Alexander