PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Power 5 hat Power ;)


GloomY
2004-08-03, 19:10:39
Ace's Hardware (http://www.aceshardware.com/read.jsp?id=65000325) bzw. SPEC-Mine (http://www.aceshardware.com/SPECmine/top.jsp)

Besonders die Performance bei 4 und mehr Prozessoren ist beeindruckend. Und beim SPEC FP 2000 BASE erreicht der Power5 die pro MHz Leistung des ItaniumIIs. Wozu denn dann noch EPIC, wenn's auch ohne VLIW geht? :???:

HOT
2004-08-03, 19:14:28
Wow :o Das Teil rockt ja mächtig

Coda
2004-08-03, 19:17:49
für was RISC, wenn's auch mit CISC geht?
Die Frage kannst du so nicht stellen, EPIC hat schon seine Vorteile ;)

Endorphine
2004-08-03, 19:20:08
Eine theoretische "pro-MHz"-Leistung ist ohnehin irrelevant. Man nutzt keinen Takt, man nutzt Rechenleistung.

CrazyIvan
2004-08-03, 19:26:08
Original geschrieben von Endorphine
Eine theoretische "pro-MHz"-Leistung ist ohnehin irrelevant. Man nutzt keinen Takt, man nutzt Rechenleistung.

Bitte 5€ ins Phrasenschwein!
GloomY, der n00b, wusste das natürlich noch nicht ;)

Endorphine
2004-08-03, 19:34:42
Sicher weiss er's. Es wird nur Zeit, dass der Gedanke an irgendwelche ominösen "pro-MHz"-Leistungen langsam aus den Gehirnen verschwindet. Als Kunde kann es einem schlicht egal sein, mit welcher Taktfrequenz die CPU eine Rechenleistung "x" erreicht. Man nutzt keine Taktfrequenz und man hat auch keine Vorteile aus einem besonders hohen oder besonders niedrigen Takt.

Relevant sind Verhältnisse wie "Rechenleistung / Preis" oder "Rechenleistung / elektrischer Leistungsaufnahme".

Dieses ewige und nicht enden wollende "pro-MHz"-Gerede kann man schon dadurch ad absurdum führen, in dem man zum Vergleich "pro-MHz"-Giganten hinzunimmt, die dann eine äußerst schwache absolute Rechenleistung abliefern, oder dies bei exorbitanter Leistungsaufnahme tun, um nur ein paar Absurditäten anzuführen.

Gast
2004-08-03, 21:45:22
Was ist überhaupt Specint und Specfp?
Das es besser ist wenn man viel davon hat ist mir klar, aber was bringt es genau?

Trap
2004-08-03, 21:50:38
www.spec.org

Ist halt ein Benchmark, so wie viele andere auch. Unterschied ist, dass Spec sehr etabliert ist und realistische Ergebnisse ergibt.

Muh-sagt-die-Kuh
2004-08-03, 22:20:01
Original geschrieben von GloomY
Ace's Hardware (http://www.aceshardware.com/read.jsp?id=65000325) bzw. SPEC-Mine (http://www.aceshardware.com/SPECmine/top.jsp)

Besonders die Performance bei 4 und mehr Prozessoren ist beeindruckend. Und beim SPEC FP 2000 BASE erreicht der Power5 die pro MHz Leistung des ItaniumIIs. Wozu denn dann noch EPIC, wenn's auch ohne VLIW geht? :???: Tja, in die CPU integrierte Speichercontroller sorgen für eine gute Skalierung mit steigender CPU-Anzahl....der Itanium kommt mit seinem gesharten FSB deutlich schlechter weg.

Was man bei den SPECfp Werten noch beachten muss: Diese fordern das Speichersubsystem extrem stark....und beim Power5 hat für diesen Benchmark einer der beiden Kerne 2 MB L2 und 36 MB L3 Cache für sich alleine...das ist schon eine Menge Holz ;)

Der Power5 ist auf jeden Fall eine technisch fortschrittliche (besonders im Bezug auf SMT) und sehr leistungsfähige CPU.

P.S.: Ich bin mal gespannt wie er sich gegen Montecito schlagen wird.

CrazyIvan
2004-08-03, 23:48:34
Endo,
Du hast ja vollkommen recht. Jedoch frage ich Dich, wem Du das jetzt unbedingt erzählen musstest. Sowohl HOT, als auch Coda und vor allem GloomY sind doch als hinreichend in diese Materie eingearbeitet bekannt. Und wieso Du in einem anderen Thread (ich nenne jetzt lieber nicht den Titel) ein relativ schlechtes Leistung/elektr. Leistungsaufnahme - Verhältnis als relativ bedeutungslos erachtest, jedoch dieses hier hervorhebst, bleibt mir auch relativ schleierhaft. Nichts gegen Deine IMHO unbestrittene Kompetenz, aber manchmal gibst Du mir Rätsel auf.

Muh-sagt-die-Kuh,
24 MB gegen 36 MB - ist auf jeden Fall ein interessanter Vergleich der Marchitectures ;)
BTW
Wann änderst Du mal wieder Deinen Avatar? Das Geblinke lässt Dich weniger kompetent aussehen, als Du tatsächlich bist.

GloomY
2004-08-04, 00:34:42
Original geschrieben von Endorphine
Sicher weiss er's. Es wird nur Zeit, dass der Gedanke an irgendwelche ominösen "pro-MHz"-Leistungen langsam aus den Gehirnen verschwindet.Bei x86 gebe ich dir vollkommen Recht. Aber bei EPIC war u.a. eben die Argumentation, dass man nur mit dem Compiler den maximalen ILP-Grad finden könnte und hardwaregestütztes Scheduling der Instruktionen dort nicht herankommen würde. Anscheinend hat sich das aber als nicht korrekt herausgestellt.

Ich stelle nochmal die Frage von oben: Wozu brauche ich eine komplett neue ISA mit all den (Binär-)Inkompatibilitäten, wenn es eine bisherige ISA genauso schafft? So wie ich das momentan sehe, ist mit diesen Ergebnissen EPIC komplett sinnlos geworden.
Original geschrieben von Endorphine
Dieses ewige und nicht enden wollende "pro-MHz"-Gerede kann man schon dadurch ad absurdum führen, in dem man zum Vergleich "pro-MHz"-Giganten hinzunimmt, die dann eine äußerst schwache absolute Rechenleistung abliefern, oder dies bei exorbitanter Leistungsaufnahme tun, um nur ein paar Absurditäten anzuführen. Ich stimme dir vollkommen zu, dass die "Pro-MHz-Leistung" für den Kunden nicht relevant ist. Um eine ISA in den Markt reinzudrücken, die niemand haben will, scheint das Argument aber dennoch gut genug zu sein...
Original geschrieben von Muh-sagt-die-Kuh
Tja, in die CPU integrierte Speichercontroller sorgen für eine gute Skalierung mit steigender CPU-Anzahl....der Itanium kommt mit seinem gesharten FSB deutlich schlechter weg.Korrekt, jedoch sind die SPEC INT BASE und SPEC FP BASE Werte - also mit einer CPU bzw. einem Thread - auch schon sehr überzeugend. :)
Original geschrieben von Muh-sagt-die-Kuh
Was man bei den SPECfp Werten noch beachten muss: Diese fordern das Speichersubsystem extrem stark....und beim Power5 hat für diesen Benchmark einer der beiden Kerne 2 MB L2 und 36 MB L3 Cache für sich alleine...das ist schon eine Menge Holz ;)Der L3 ist off-die und damit längst nicht so schnell wie z.B. der L3 des Itaniums (on-die). Bei Datenmengen, die den L2 des Power5 überschreiten (bei SPEC FP und 1,92 MB L2 Cache durchaus nicht selten), dürfte der ItaniumII immer noch einen Vorteil haben. Nur bei "kleineren" Datenmengen (kleiner im Sinne von < ~2 MiB) dürfte der Power5 einen Vorteil durch seinen Cache besitzen.

GloomY
2004-08-04, 00:44:33
Original geschrieben von Coda
für was RISC, wenn's auch mit CISC geht?
Die Frage kannst du so nicht stellen, EPIC hat schon seine Vorteile ;) Ich sehe jetzt keine Vorteile mehr. Der letzte - für mich - überzeugende Vorteil war die Möglichkeit, einen höheren ILP Wert zu erreichen. Was bringt denn sonst EPIC mit sich? Ein riesen großes Befehlsformat, das jeden normal dimensionierten Instruction Cache sprengt?!
Eine verringerte Chip-Komplexität, die dazu führt, dass man wegen der In-Order-Execution der Befehle die Caches riesen groß machen muss und damit die gewonnene Die-Fläche mindestens wieder verliert?!

Ich kann dem zumindest nichts positives abgewinnen. :|

edit: Nochmal was zum Thema: Interessant finde ich auch die selbstständige Erkennung und "Heilung" von defekten Cache Lines. Das - zusammen mit Chipkill - ist mal wirklich ein innovatives Feature :)

Muh-sagt-die-Kuh
2004-08-04, 09:20:02
Original geschrieben von GloomY
Ich stelle nochmal die Frage von oben: Wozu brauche ich eine komplett neue ISA mit all den (Binär-)Inkompatibilitäten, wenn es eine bisherige ISA genauso schafft? So wie ich das momentan sehe, ist mit diesen Ergebnissen EPIC komplett sinnlos geworden.So krass würde ich das nicht sehen....überleg einfach mal, was die Aktionäre wohl gesagt hätte wenn intel z.B. die PPC-ISA übernommen hätte ;)

EPIC ist einfach ein komplett anderer Ansatz an die Sache heranzugehen. Wie man sieht ist es im Moment so, dass beide Ansätze funktionieren.....wobei ich hier aber wirklich sehen möchte, wie Montecito sich schlägt, das ist der eigentliche Power5 Konkurrent seitens intel.
Korrekt, jedoch sind die SPEC INT BASE und SPEC FP BASE Werte - also mit einer CPU bzw. einem Thread - auch schon sehr überzeugend. :)Dem habe ich auch nicht widersprochen. :)Der L3 ist off-die und damit längst nicht so schnell wie z.B. der L3 des Itaniums (on-die). Bei Datenmengen, die den L2 des Power5 überschreiten (bei SPEC FP und 1,92 MB L2 Cache durchaus nicht selten), dürfte der ItaniumII immer noch einen Vorteil haben. Nur bei "kleineren" Datenmengen (kleiner im Sinne von < ~2 MiB) dürfte der Power5 einen Vorteil durch seinen Cache besitzen. Er ist off-die, aber on-module und die tags sind on-die, dazu kommt einfach die brutale Größe und eine bessere Anbindung als beim Power4. Ich persönlich halte die Power5 Caches, besonders wenn eine CPU sie alleine nutzen kann, für besser als die 256 L2 + 6 MB L3 eines Madison. Was hier noch interesseant wäre wäre die Taktung des L3 beim Power5....dazu habe ich bisher nichts finden können.

Ikon
2004-08-04, 09:30:10
Es ist geradezu deprimierend wie die 4 Power5 auf den Opterons herumtrampeln, und das bei einem um 500MHz niedrigeren Takt.

Asche auf dein Haupt, x86 :-(

Ikon
2004-08-04, 09:39:06
Original geschrieben von Muh-sagt-die-Kuh
Was hier noch interesseant wäre wäre die Taktung des L3 beim Power5....dazu habe ich bisher nichts finden können.

Half-Speed (http://www.theinquirer.net/?article=12217) ... und nein, eine bessere Quelle konnte ich nicht finden :-(

zeckensack
2004-08-04, 10:27:15
Original geschrieben von GloomY
Ace's Hardware (http://www.aceshardware.com/read.jsp?id=65000325) bzw. SPEC-Mine (http://www.aceshardware.com/SPECmine/top.jsp)Sehe ich das richtig, dass überall da wo in der Tabelle "4 Cores" steht, ein Power5-"Modul" (2xMCM, 2xCMP, 2xSMT) mit 8 nativen Threads zum Einsatz kommt? :spock:

Beeindruck0rnd!

StefanV
2004-08-04, 11:19:00
Gibts auch irgendwo ein paar Pics, wie so ein Power5 Modul ausschaut??

Samt Board?? :)

Seraf
2004-08-04, 12:07:04
Original geschrieben von Stefan Payne
Gibts auch irgendwo ein paar Pics, wie so ein Power5 Modul ausschaut??

Samt Board?? :)

Wars nicht dieses Monster?
http://www.theinquirer.net/images/articles/bluey.jpg

Quelle:
http://www.theinquirer.net/?article=12145
und C´t irgendeine Ausgabe die ich nichtmehr weiß.
http://www.theinquirer.net/?article=12217


In der C´t stand damals aber auch das dieser 4fach Chip zwischen 20000-30000Dollar kostet :freak:

GloomY
2004-08-04, 12:37:01
Original geschrieben von Muh-sagt-die-Kuh
So krass würde ich das nicht sehen....überleg einfach mal, was die Aktionäre wohl gesagt hätte wenn intel z.B. die PPC-ISA übernommen hätte ;)Das ist eine rein wirtschaftliche bzw. wirtschaftspolitische Frage, die mit dem technischen Sinn/Sinnlosigkeit nichts zu tun hat. Es wäre für Intel ja nicht das erste Mal, wenn man sich für technisch schlechte bzw. fragwürdige Dinge entscheided, bloss weil man ein Produkt dann besser verkaufen kann (P4).

Es kommt halt einfach nicht so gut, wenn man sich als bedeutenster Chiphersteller der Welt hinstellt und sagt: "Hey, wir benutzen die ISA von einem unserer größten Konkurrenten!" Dann doch lieber: "Nee, PowerPC und die anderen 'proprietären' ISAs sind alle Mist, wir machen unser ganz eigenes Zeug".
Ob das nun technisch sinnvoll ist, ist dabei eine ganz andere Frage...
Original geschrieben von Muh-sagt-die-Kuh
EPIC ist einfach ein komplett anderer Ansatz an die Sache heranzugehen. Wie man sieht ist es im Moment so, dass beide Ansätze funktionieren.....wobei ich hier aber wirklich sehen möchte, wie Montecito sich schlägt, das ist der eigentliche Power5 Konkurrent seitens intel.Sicher ist der Montecito ein dicker Brocken, aber mehr Cache kann man auch bei jeder anderen ISA verwenden. Wenn der Montecito besser als der Power5 performen sollte, dann liegt das eben nicht an der angeblichen Überlegenheit der EPIC ISA sondern schlicht und ergreifend an der niedrigeren durchschnittlichen Speicherlatenz. Performance durch mehr Cache ist keine Sache, die für oder gegen eine ISA spricht.
Original geschrieben von Muh-sagt-die-Kuh
Er ist off-die, aber on-module und die tags sind on-die, dazu kommt einfach die brutale Größe und eine bessere Anbindung als beim Power4. Ich persönlich halte die Power5 Caches, besonders wenn eine CPU sie alleine nutzen kann, für besser als die 256 L2 + 6 MB L3 eines Madison. Was hier noch interesseant wäre wäre die Taktung des L3 beim Power5....dazu habe ich bisher nichts finden können. Die Busse zum L3 arbeiten mit halbem Prozessortakt, über die Latenz finde ich keinerlei Information.

Klar ist das jetzt Spekulation, aber ich gebe doch mal zu bedenken, dass sich die L2 Cache Latenz beim Übergang vom P3 Katmai (off-die, auf Cartridge, ebenfalls halber Prozessortakt) zum Coppermine (auf dem die, voller Prozessortakt) auf etwa ein Drittel reduziert hat.
Ich erinnere mich auch an die Aussage aus dem Grundsatzartikel "Fundamentals of Caching" (http://www.systemlogic.net/articles/00/10/cache/) von systemlogic.net, die wie folgt lautet: "Going off-die is murder on performance".
Und bezüglich der Bandbreite hat es ein on-die L3 Cache natürlich auch deutlich besser, jedoch ist das auch eine Notwendigkeit bei dem kleinen eher auf Latenz optimierten L2 Cache des Itaniums.

Angesichts dieser Zahlen und der Tatsache, dass gerade bei SPEC FP die Datenmenge nicht gerade selten die 1,92 MB L2 des Power5 übersteigen, bleibe ich dabei, zu behaupten, dass der Power5 keine Vorteile bei der durchschnittlichen Speicherlatenz besitzt.
Original geschrieben von Ikon
Es ist geradezu deprimierend wie die 4 Power5 auf den Opterons herumtrampeln, und das bei einem um 500MHz niedrigeren Takt.

Asche auf dein Haupt, x86 :-( Immerhin kann der Opteron noch preislich punkten. Gegen so ein Monster ist es natürlich immer schwer.
Original geschrieben von zeckensack
Sehe ich das richtig, dass überall da wo in der Tabelle "4 Cores" steht, ein Power5-"Modul" (2xMCM, 2xCMP, 2xSMT) mit 8 nativen Threads zum Einsatz kommt? :spock:

Beeindruck0rnd! Jep (http://www.spec.org/osg/cpu2000/results/res2004q3/cpu2000-20040712-03230.html), 2 Chips mit je 2 CPUs mit je 2xSMT.
Original geschrieben von Stefan Payne
Gibts auch irgendwo ein paar Pics, wie so ein Power5 Modul ausschaut??

Samt Board?? :) edit: zu langsam. Die Erläuterungen lasse ich aber trotzdem noch stehen:

Das schon etwas ältere Modul-Foto (vom Microprozessor-Forum afaik)
Das sind 4 Chips mit je 2 CPUs, wobei jeder Chip seinen eigenen L3 Cache (die etwas kleineren Dies) besitzt :)

Muh-sagt-die-Kuh
2004-08-04, 14:12:51
Original geschrieben von GloomY
Das ist eine rein wirtschaftliche bzw. wirtschaftspolitische Frage, die mit dem technischen Sinn/Sinnlosigkeit nichts zu tun hat. Es wäre für Intel ja nicht das erste Mal, wenn man sich für technisch schlechte bzw. fragwürdige Dinge entscheided, bloss weil man ein Produkt dann besser verkaufen kann (P4).

Es kommt halt einfach nicht so gut, wenn man sich als bedeutenster Chiphersteller der Welt hinstellt und sagt: "Hey, wir benutzen die ISA von einem unserer größten Konkurrenten!" Dann doch lieber: "Nee, PowerPC und die anderen 'proprietären' ISAs sind alle Mist, wir machen unser ganz eigenes Zeug".
Ob das nun technisch sinnvoll ist, ist dabei eine ganz andere Frage...
Klar hat sie nichts damit zu tun ob es technisch sinnvoll ist oder nicht....aber so läuft das nunmal bei intel. Den P4 würde ich allerdings nicht in die gleiche Schublade stecken...

Das reizvolle an EPIC ist, dass das ISA Konzept es erlaubt, den eigentlichen CPU Kern klein und relativ einfach zu halten. Will man mehr Leistung muss man nicht groß nachdenken sondern baut im Prinzip einfach mehr Ausführungseinheiten oder mehr Cache ein.....sicher, es ist ein klassischer Brute-Force Ansatz, aber er funktioniert.Sicher ist der Montecito ein dicker Brocken, aber mehr Cache kann man auch bei jeder anderen ISA verwenden. Wenn der Montecito besser als der Power5 performen sollte, dann liegt das eben nicht an der angeblichen Überlegenheit der EPIC ISA sondern schlicht und ergreifend an der niedrigeren durchschnittlichen Speicherlatenz. Performance durch mehr Cache ist keine Sache, die für oder gegen eine ISA spricht.Wenn die ISA es erlaubt den Kern klein zu halten und mehr Cache auf den Die zu packen ist es schon in gewisser Weise eine Sache der ISA ;)
Die Busse zum L3 arbeiten mit halbem Prozessortakt, über die Latenz finde ich keinerlei Information.

Klar ist das jetzt Spekulation, aber ich gebe doch mal zu bedenken, dass sich die L2 Cache Latenz beim Übergang vom P3 Katmai (off-die, auf Cartridge, ebenfalls halber Prozessortakt) zum Coppermine (auf dem die, voller Prozessortakt) auf etwa ein Drittel reduziert hat.
Ich erinnere mich auch an die Aussage aus dem Grundsatzartikel "Fundamentals of Caching" (http://www.systemlogic.net/articles/00/10/cache/) von systemlogic.net, die wie folgt lautet: "Going off-die is murder on performance".
Und bezüglich der Bandbreite hat es ein on-die L3 Cache natürlich auch deutlich besser, jedoch ist das auch eine Notwendigkeit bei dem kleinen eher auf Latenz optimierten L2 Cache des Itaniums.

Angesichts dieser Zahlen und der Tatsache, dass gerade bei SPEC FP die Datenmenge nicht gerade selten die 1,92 MB L2 des Power5 übersteigen, bleibe ich dabei, zu behaupten, dass der Power5 keine Vorteile bei der durchschnittlichen Speicherlatenz besitzt. Man braucht bei halbem Kerntakt und off-die Cache ca die vierfache Cachegröße um die gleiche Leistung wie mit einem on-die Cache zu erreichen (Abschätzung basierend auf 128 kb L2 on-die Mendocino vs 512 kb L2 off-die Deschutes).

zeckensack
2004-08-04, 15:06:14
Original geschrieben von GloomY
Jep (http://www.spec.org/osg/cpu2000/results/res2004q3/cpu2000-20040712-03230.html), 2 Chips mit je 2 CPUs mit je 2xSMT.Oh wie günstig =)
Dh man kann im Prinzip 16 Cores auf Pi mal Daumen dem gleichen Raum unterbringen wie 2 Itaniums (Itanien? Itaniä? X-D).

3 HE-32 Core-Rackmonster ahoi, würde ich mal vermuten.

Infos zur Leistungsaufnahme/-dichte?

GloomY
2004-08-04, 19:35:21
Original geschrieben von Muh-sagt-die-Kuh
Klar hat sie nichts damit zu tun ob es technisch sinnvoll ist oder nicht....aber so läuft das nunmal bei intel.Dann soll mir aber auch niemand damit ankommen, dass EPIC technisch überlegen sei, oder dass EPIC notwendig sei, um einen maximalen ILP Grad zu erreichen.
Original geschrieben von Muh-sagt-die-Kuh
Das reizvolle an EPIC ist, dass das ISA Konzept es erlaubt, den eigentlichen CPU Kern klein und relativ einfach zu halten. Will man mehr Leistung muss man nicht groß nachdenken sondern baut im Prinzip einfach mehr Ausführungseinheiten oder mehr Cache ein.....sicher, es ist ein klassischer Brute-Force Ansatz, aber er funktioniert.Das Ausbauen von Ausführungseinheiten hat auch irgendwann mal ein Ende. Innerhalb eines Threads gibt es nur ein begrenztes ILP Vermögen. Mehr als vorhanden ist, kann man nicht nutzen.

Ich weiss aber immer noch nicht, wie man die von mir weiter oben aufgeführten Nachteile dieses Konzepts kompensieren will?! Was biete EPIC mehr gegenüber anderen ISAs, damit diese Nachteile zumindest wieder ausgeglichen werden können?
Original geschrieben von Muh-sagt-die-Kuh
Wenn die ISA es erlaubt den Kern klein zu halten und mehr Cache auf den Die zu packen ist es schon in gewisser Weise eine Sache der ISA ;)Nein, da muss ich dir ganz entschieden widersprechen, das ist keine Angelegenhiet einer ISA. Dort geht es um Register (Anzahl und Größe), der Definition der zulässigen Befehle und deren Wirkungsweisen, der Speicheradressierungsart (Register, Immediate, Displacement, Register indirect, Indexed, Absolute, Autoincrement, Autodecrement, Scaled usw.) und um die Art und Weise oder Länge der Codierung der einzelnen Befehle uvm.

Caches sind nur Implementationsdetails. Du würdest ja z.B. nie davon sprechen, dass ein Madison mit 3 MiB L3 Cache eine andere ISA hat als ein Madison mit 6 MiB L3.
Original geschrieben von Muh-sagt-die-Kuh
Man braucht bei halbem Kerntakt und off-die Cache ca die vierfache Cachegröße um die gleiche Leistung wie mit einem on-die Cache zu erreichen (Abschätzung basierend auf 128 kb L2 on-die Mendocino vs 512 kb L2 off-die Deschutes). Das gilt vielleicht für durchschnittliche Desktop-Workloads aus dem letzten Jahrtausend (also 1999 ;) ), aber ich finde es zumindest fragwürdig, ob für jetzige Server ein ähnlicher Zusammenhang besteht.


edit: Ok, der Speichercontroller ist immerhin direkt in der CPU. Das ist natürlich ein Plus für den Power5. Selbiges könnte man natürlich auch beim Itanium machen.

Muh-sagt-die-Kuh
2004-08-05, 02:28:54
Original geschrieben von GloomY
Dann soll mir aber auch niemand damit ankommen, dass EPIC technisch überlegen sei, oder dass EPIC notwendig sei, um einen maximalen ILP Grad zu erreichen.Ist das aus einer Intel-Marketingbroschüre? ;)
Das Ausbauen von Ausführungseinheiten hat auch irgendwann mal ein Ende. Innerhalb eines Threads gibt es nur ein begrenztes ILP Vermögen. Mehr als vorhanden ist, kann man nicht nutzen.Auch klar, ist dieser Punkt erreicht fängt man halt an, mehrere Cores auf einen Die zu packen.Ich weiss aber immer noch nicht, wie man die von mir weiter oben aufgeführten Nachteile dieses Konzepts kompensieren will?! Was biete EPIC mehr gegenüber anderen ISAs, damit diese Nachteile zumindest wieder ausgeglichen werden können?Die Möglichkeit, über Compilerverbesserungen mehr erreichen zu können als bei anderen ISAs? Geringe Entwicklungskosten für die CPU-Kerne?Nein, da muss ich dir ganz entschieden widersprechen, das ist keine Angelegenhiet einer ISA. Dort geht es um Register (Anzahl und Größe), der Definition der zulässigen Befehle und deren Wirkungsweisen, der Speicheradressierungsart (Register, Immediate, Displacement, Register indirect, Indexed, Absolute, Autoincrement, Autodecrement, Scaled usw.) und um die Art und Weise oder Länge der Codierung der einzelnen Befehle uvm.

Caches sind nur Implementationsdetails. Du würdest ja z.B. nie davon sprechen, dass ein Madison mit 3 MiB L3 Cache eine andere ISA hat als ein Madison mit 6 MiB L3.Ja, das alles wird in der ISA spezifiziert....eine ISA kann aber auch implizieren, wie eine Implementation aussehen sollte.

Wirf mal einen Blick auf die Anzahl der Register, auf das Predication Konzept, auf die Befehlsbündelung, usw....diese ISA schreit förmlich nach einem simplen in-Order Design mit kurzer Pipe und vielen parallelen Ausführungseinheiten.Das gilt vielleicht für durchschnittliche Desktop-Workloads aus dem letzten Jahrtausend (also 1999 ;) ), aber ich finde es zumindest fragwürdig, ob für jetzige Server ein ähnlicher Zusammenhang besteht.Wir können gerne versuchen, das zu analysieren.edit: Ok, der Speichercontroller ist immerhin direkt in der CPU. Das ist natürlich ein Plus für den Power5. Selbiges könnte man natürlich auch beim Itanium machen. Könnte man....aber bis intel sich zu integrierten Controllern durchringt können nach der aktuellen Roadmap noch Jahre vergehen.

Gast
2004-08-20, 15:33:56
bin gespannt wie sie dieses ding auf eine "desktop-cpu" shrinken wollen?
schliesslich ist ja der g5 die desktopvariante des power4 und der g6....

Ganon
2004-08-20, 16:02:51
bin gespannt wie sie dieses ding auf eine "desktop-cpu" shrinken wollen?
schliesslich ist ja der g5 die desktopvariante des power4 und der g6....

Na ganz einfach.

DualCore mit SMT und integrierten Speicherkontroller.

Entweder heißt das Ding dann G5+ oder G6.

G6 kommt aber wohl erst mit der 65nm-Technik. Dann kommt nämlich Alitvec2, bzw. VMX2.

cl55amg
2004-08-21, 13:17:14
wie sie den power 5 auf desktop übertragen werden?
hmmm, da ibm und amd einen prozessor zusammen entwickeln(fishkill)
über den man zwar nicht so viel im moment weiss, aber da einige von der wallstreet fest überzeugt sind das ibm wieder auf den desktop markt zurück will, kann man davon ausgehen das ende 2005 oder 2006 eine dual core oder quad core cpu kommt mit integriertem speichercontroller die dem power 5 ähnlich sein wird.


ob da nun athlon oder ibm draufstehen wird, das weiß leider keiner...
aber da ibm öffentlich interesse gezeigt hat an der dresdner fab...ist alles vorstellbar;-)

Desti
2004-08-22, 17:00:14
wie sie den power 5 auf desktop übertragen werden?
hmmm, da ibm und amd einen prozessor zusammen entwickeln(fishkill)
[...]

AMD und IBM entwickeln keinen Prozessor, sondern einen (Fertigungs-)Prozess für 65nm SOI.

BlackBirdSR
2004-08-22, 17:31:21
AMD und IBM entwickeln keinen Prozessor, sondern einen (Fertigungs-)Prozess für 65nm SOI.


Wobei es auch dort unterschiede geben wird.
AMD kann nicht den exakt gleichen Prozess wie IBM nutzen, da sowohl die Anforderungen als auch das Equipment verschieden sind.

AMDs Version des 65nm Prozesses wird speziell auf AMDs Anforderungen ausgelegt sein, und somit im vergleich wohl (hoffentlich) bessere Yields erzeugen. IBM muss dagegen wieder den Power5(+), PPC9xx, unter Chips von Vertragsnehmern produzieren. Da muss der Prozess etwas allgemeiner gehalten werden.

BUGFIX
2004-08-22, 18:53:21
OT:
[QUOTE=zeckensack]Oh wie günstig =)
... 2 Itaniums (Itanien? Itaniä? X-D).
...
[QUOTE]

Kommt drauf an - Lateinisch gesehen:
Itania
Wobei du mit "Itaniums" im Deutschen auch nicht so schlecht fährst =)

MfG

BUGFIX

GloomY
2004-08-22, 19:01:45
Hmm, der Thread war von mir irgendwie in Vergessenheit geraten...
Ist das aus einer Intel-Marketingbroschüre? ;)Nicht nur, auch viele technische Artikel (z.B. C't) nennen dies als eines der größten Herausstellungsmerkmale von EPIC.
Auch klar, ist dieser Punkt erreicht fängt man halt an, mehrere Cores auf einen Die zu packen.Wenn von vorne herein klar ist, dass das ILP Vermögen begrenzt ist und noch genügend TLP vorhanden ist, warum macht man sich denn die Mühe und probiert mit riesigem Aufwand den ILP Grad noch weiter zu steigern? Es läge (und liegt imho) auf der Hand, sich dem TLP vorzunehmen (so wie es Sun macht). Wenn man da dann irgendwann mal auf Grenzen stößt, dann kann man sich ja immer noch geeignete Maßnahmen überlegen. So Z.B. eben ob man den Versuch unternimmt, den ILP-Wert steigert oder die Performance durch eine Serialisierung (Taktsteigerung) verbessert.

Parallelität ist gerade im Server- und HPC-Bereich genügen vorhanden, nämlich in Form von TLP. Warum sich Intel dann (bisher) aussschließlich auf die ILP Steigerung fixiert, kann ich nicht wirklich nachvollziehen.
Die Möglichkeit, über Compilerverbesserungen mehr erreichen zu können als bei anderen ISAs?Andere ISAs können durch Hardwareveränderungen eben mehr erreichen. Hier ist es die Sache des Compilers, das sehe ich primär nicht umbedingt als Vor- oder Nachteil.
Geringe Entwicklungskosten für die CPU-Kerne?Dafür höhere Entwicklungskosten für die Compiler.
Und bei der Cache-Logik musste Intel z.B. mit dem gleichzeitigem Zugriff auf L1 und L2 auch Neuland betreten, was sicher auch Zeit und Geld gekostet hat.
So einfach ist das Entwerfen einer neuen Computerarchitektur sicher nicht (gilt generell). Da gibt es genügend Kniffe, die man erstmal raus haben muss.
Ja, das alles wird in der ISA spezifiziert....eine ISA kann aber auch implizieren, wie eine Implementation aussehen sollte.
Wirf mal einen Blick auf die Anzahl der Register, auf das Predication Konzept, auf die Befehlsbündelung, usw....diese ISA schreit förmlich nach einem simplen in-Order Design mit kurzer Pipe und vielen parallelen Ausführungseinheiten.Es gibt für jede ISA sicherlich passende oder weniger (bzw. un-)passende Implementationen. Das ist aber insofern nichts, was die ISA an sich betrifft.

Du schreibste selbst, dass eine ISA eine Implementation "impliziert", d.h. das aus der Spezifikation einer ISA eine (passende) Implementation entstehen kann. Der "Pfeil" geht bei der Implikation nur in eine Richtung.
Sicherlich beeinflusst die Wahl einer ISA natürlich was technisch möglich und sinnvoll zu implementieren ist. Wenn die ISA aber mal festgelegt wurde, dann sind alle Details wie Caches oder Pipelinelänge nur noch Implementationsdetails.

Wikipedia (http://en.wikipedia.org/wiki/Instruction_set) sagt u.a.:An instruction set, or instruction set architecture (ISA), is a specification detailing the commands that a computer's CPU should be able to understand and execute, or the set of all commands implemented by a particular CPU design. The term describes the aspects of a computer or microprocessor typically visible to a programmer, including the native datatypes, instructions, registers, memory architecture, interrupt and fault system, and external I/O (if any). "Instruction set architecture" is sometimes used to distinguish this set of characteristics from the Micro-Architecture, which are the elements and techniques used to implement the ISA, e.g. microcode, pipelining, cache systems, etc.
Wir können gerne versuchen, das zu analysieren.Tja, hast du Daten dazu? Ich guck' mich mal dazu etwas um...Könnte man....aber bis intel sich zu integrierten Controllern durchringt können nach der aktuellen Roadmap noch Jahre vergehen.2006/2007 habe ich doch neulich erst gelesen (http://www.heise.de/ct/04/18/020/)...

CrazyIvan
2004-08-22, 19:41:06
Könnte man....aber bis intel sich zu integrierten Controllern durchringt können nach der aktuellen Roadmap noch Jahre vergehen.
2006/2007 habe ich doch neulich erst gelesen (http://www.heise.de/ct/04/18/020/)...

Warum eigentlich? Liegt es einzig und allein an der vermeintlichen Unverträglichkeit zwischen BTX und integrierten Speichercontrollern hinsichtlich des Board-Layouts? Oder hat intel diesbezüglich vielleicht mit anderen Pferdefüßen zu kämpfen?

GloomY
2004-08-22, 20:22:43
Warum eigentlich? Liegt es einzig und allein an der vermeintlichen Unverträglichkeit zwischen BTX und integrierten Speichercontrollern hinsichtlich des Board-Layouts? Oder hat intel diesbezüglich vielleicht mit anderen Pferdefüßen zu kämpfen?Ich denke, es geht um das Chipsatzgeschäft. Intel hat es seit jeher hinbekommen, dass ihre Chipsätze schneller als die der Konkurrenz waren. Wenn der Hauptgrund dafür - der Speichercontroller - in die CPU integriert wäre, würde Intel einen großen Trumpf aus der Hand geben.
Der Hauptunterschied würde dann nur noch auf den I/O-Fähigkeiten und der -Bandbreite liegen. Und diesbezüglich war und ist Intel zumindest im Desktopbereich mit ihrem Hub-Link nicht so stark vertreten wie die Konkurrenz (z.B. Multitol von SIS).

Auf der anderen Seite bräuchte man bei einem integriertem Speicherkontroller für I/O- und Interprozessorkommunikation natürlich auch eine schnelle Anbindung des Prozessors nach draußen. So viel ich weiss, hat Intel selbst nichts in der Richtung vorzuweisen. Es böte sich dafür natürlich das offene Hypertransport an, jedoch ist dieses eben leider von AMD und somit nicht gut für's Image. ;) Sowas kann man sich zum jetzigen Zeitpunkt - nach der "EMT64"-Umtaufung von AMD64 - nicht nochmal leisten...

Muh-sagt-die-Kuh
2004-08-22, 21:11:15
Hmm, der Thread war von mir irgendwie in Vergessenheit geraten...

Nicht nur, auch viele technische Artikel (z.B. C't) nennen dies als eines der größten Herausstellungsmerkmale von EPIC.Das sehe ich persönlich nicht so, für mich ist es schlicht eine Verlagerung des Optimierungsproblems "Maximiere den ILP" von der Hardware in die Software. Aus dem Bauch heraus würde ich sogar sagen, dass eine dynamische Lösung dieses Problems mittels OOE bessere Ergebnisse liefert....ob das wirklich so ist, lässt sich mittels Simulation unter der Annahme idealen Speichers feststellen, leider habe ich solche Daten nicht. :(Wenn von vorne herein klar ist, dass das ILP Vermögen begrenzt ist und noch genügend TLP vorhanden ist, warum macht man sich denn die Mühe und probiert mit riesigem Aufwand den ILP Grad noch weiter zu steigern? Es läge (und liegt imho) auf der Hand, sich dem TLP vorzunehmen (so wie es Sun macht). Wenn man da dann irgendwann mal auf Grenzen stößt, dann kann man sich ja immer noch geeignete Maßnahmen überlegen. So Z.B. eben ob man den Versuch unternimmt, den ILP-Wert steigert oder die Performance durch eine Serialisierung (Taktsteigerung) verbessert.

Parallelität ist gerade im Server- und HPC-Bereich genügen vorhanden, nämlich in Form von TLP. Warum sich Intel dann (bisher) aussschließlich auf die ILP Steigerung fixiert, kann ich nicht wirklich nachvollziehen.Ziel eines jeden CPU Designs ist es, den Durchsatz zu maximieren. Ob man nun den ILP maximiert und den Core so maximal auslastet, oder ob man den ILP hintenan stellt und den Core durch TLP maximal auslastet ist in meinen Augen egal, es sind wieder nur 2 Ansätze, die dem Erreichen des gleichen Ziels dienen.

Montecito wird übrigens Switch on Event Multithreding (http://pc.watch.impress.co.jp/docs/2004/0305/kaigai02l.gif) bieten und so einen der großen Nachteile eines In-Order Designs beseitigen. Die CPU wird sehr, sehr interessant.Andere ISAs können durch Hardwareveränderungen eben mehr erreichen. Hier ist es die Sache des Compilers, das sehe ich primär nicht umbedingt als Vor- oder Nachteil.Der Vorteil der Compileroptimierung ist, dass auch alte CPUs von der Optimierung profitieren können und dass man flexibler ist.Dafür höhere Entwicklungskosten für die Compiler.
Und bei der Cache-Logik musste Intel z.B. mit dem gleichzeitigem Zugriff auf L1 und L2 auch Neuland betreten, was sicher auch Zeit und Geld gekostet hat. So einfach ist das Entwerfen einer neuen Computerarchitektur sicher nicht (gilt generell). Da gibt es genügend Kniffe, die man erstmal raus haben muss.Richtig, nur lässt sich leider nicht abschätzen, wie hoch die Kosten in beiden Fällen sind.Es gibt für jede ISA sicherlich passende oder weniger (bzw. un-)passende Implementationen. Das ist aber insofern nichts, was die ISA an sich betrifft.

Du schreibste selbst, dass eine ISA eine Implementation "impliziert", d.h. das aus der Spezifikation einer ISA eine (passende) Implementation entstehen kann. Der "Pfeil" geht bei der Implikation nur in eine Richtung.
Sicherlich beeinflusst die Wahl einer ISA natürlich was technisch möglich und sinnvoll zu implementieren ist. Wenn die ISA aber mal festgelegt wurde, dann sind alle Details wie Caches oder Pipelinelänge nur noch Implementationsdetails.Sehe ich persönlich nicht so, ich halte die jetzige Implementation der IA-64 ISA für den einzigen sinnvollen Implementationsweg. Ich wage sogar zu behaupten, dass die Intel Ingenieure die ISA exakt im Hinblick auf eine solche Implementation entworfen haben.Tja, hast du Daten dazu? Ich guck' mich mal dazu etwas um...Nein, habe ich leider nicht....ich werde mich aber auch mal umschauen.

CrazyIvan
2004-08-22, 21:16:36
@ GloomY

Von der Seite hatte ich das ja noch gar nicht betrachtet. Klingt schon schlüssig. Die Frage wird nur sein, ob ein DualCore Pentium M ohne integrierten Speichercontroller gegen nen 90nm DualCore Athlon64 wird anstinken können. Die ersten Resultate des Herstellungsprozesses klingen zumindest sehr verheißungsvoll.

BTW
Was ist mit InfiniBand? Eher ungeeignet?