PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : IBM nennt technische Details der Xbox 360 CPU


fizzo
2005-12-12, 13:22:53
http://www-128.ibm.com/developerworks/power/library/pa-fpfxbox/?ca=dgr-lnxw09XBoxDesign

ich verstehe leider nur "bahnhof" ;) wer kann mir das in verstaendliche worte uebersetzen sowie ist die leistungsfaehigkeit einzuschaetzen?

zeckensack
2005-12-12, 14:06:20
http://www-128.ibm.com/developerworks/power/library/pa-fpfxbox/?ca=dgr-lnxw09XBoxDesign

ich verstehe leider nur "bahnhof" ;) wer kann mir das in verstaendliche worte uebersetzen sowie ist die leistungsfaehigkeit einzuschaetzen?Eher gering (für die 3,2GHz).

Schwächen:
Maximal 2 Operationen pro Takt können an die Ausführungseinheiten gehen. Selbst der P4 schafft 3. Der K7 schaffte schon 9!

Es ist RISC :usweet:
PPC-Code verbraucht mehr I-Cache als x86-Code, also sind die 32kiB I-Cache nicht so viel wert wie sie auf einem x86-Prozessor wert wären. Und wenn der I-Cache mal erschöpft ist, kosten PPC-Instruktionen auch mehr Speicherbandbreite.

Der L2-Cache läuft nur auf halber Kernfrequenz und ist für drei Kerne doch relativ klein.

Stärken:
Die VMX-Einheit!!
IBM schweigt sich zwar zum Durchsatz aus, aber die Latenzrechnerei in Kombination mit dem Diagramm impliziert IMO vier FP32-Ergebnisse pro Takt.
Sollte die VMX in der Lage sein, die zwei Instruktionen pro Takt zu fressen, die der Scheduler liefern kann, dann mach acht draus.
Erstere Möglichkeit wäre nicht übel, schon garnicht bei dem hohen Takt, zweitere wäre gewaltixxt.
Zum Vergleich: der P4 und der K8 schaffen unter günstigen Bedinungen (mindestens so viele Additionen wie Multiplikationen) 4 FP32-Ergebnisse pro Takt.

Drei Kerne. Klar.

Einige Tricksereien an der Cache-Architektur. Quasi "Fast writes".

BlackBirdSR
2005-12-12, 14:18:59
Eher gering (für die 3,2GHz).

Schwächen:
Maximal 2 Operationen pro Takt können an die Ausführungseinheiten gehen. Selbst der P4 schafft 3. Der K7 schaffte schon 9!



Ich war mir relativ sicher, dass der P4 6 µOps pro Takt aus dem Scheduler an die FUs schicken kann.
Selbst der Trace-Cache arbeitet in 6µOps happen, arbeitet jedoch nur mit halben CPU-Takt.

zur VMX:
Wie oft wird es vorkommen, dass die CPU wirklich an ihr Maximum kommt?
8 FP32 Operationen klingen gut. Aber geht das bei dieser InOrder CPU auch oft genug?

Ganon
2005-12-12, 14:32:28
Mich würde mal die Leistung von VMX128 im Vergleich zum Altivec vom FreeScale MPC7448 interessieren...

BlackBirdSR
2005-12-12, 14:43:52
Mich würde mal die Leistung von VMX128 im Vergleich zum Altivec vom FreeScale MPC7448 interessieren...

Von den Ausführungseinheiten ist VMX128 näher dran als der G5.
Allerdings hat VMX128 mehr Register und eine Einheit für Skalarprodukte.

Wenn man es voll nützen könnte, schätze ich dies mal als die stärkste der Altivec Einheiten ein,.

Coda
2005-12-12, 16:16:43
Schafft das Ding wirklich ein Skalarprodukt pro Takt? Würde mich bei 3,2Ghz doch wundern.

zeckensack
2005-12-12, 16:21:29
Schafft das Ding wirklich ein Skalarprodukt pro Takt? Würde mich bei 3,2Ghz doch wundern.Warum wundert dich das?
Es sind immerhin 14 Takte Latenz angegeben.
Das sind dann höchstwahrscheinlich vier FP32-MADs in simpler Reihenschaltung, mit jeweils drei Pipe-Stufen pro MAD, plus zwei Stufen sonstiger Verschleiß. Also machbar ist das schon. Ist halt nur die Frage ob, wie und welche Pipe-Stufen geteilt werden (auch mit den anderen Blöcken, die in der VMX-Einheit eingezeichnet sind).

Coda
2005-12-12, 16:24:31
Ach so 14 Takte Latenz. Dann wunderts mich nicht mehr ;)

Bokill
2005-12-12, 17:51:53
Ach so 14 Takte Latenz. Dann wunderts mich nicht mehr ;) Signalverarbeitung ist immer mit Latenz verbunden.

Die 14 Takte sind lediglich ein Indiz für die Pipelinelänge, der K6 hat kürzere Latenzen für die Integerpipeline, bezogen auf Taktzyclen ... bezogen auf Zeitintervalle in Sekunden gemessen sieht das schon ganz anders aus.

Bie der Gleitkommaeinheit hat der K6 keine Pipeline, da muss jeder Befehl erst mal abgearbeitet werden, erst wenns fertig ist, kommt die nächste Instruktion ... dafür machts nichts aus, wenn eine Gleitkommaoperation verworfen werden muss ... wo keine Pipelien, da kein Leeren der Pipeline und auch kaum anfallende Latenzzeit.

Anders gesagt: Wenn die Pipeline von der VMX-Einheit immer gefüttert wird, dann ist die Latenz von 14 Takten nahezu ohne Bedeutung, fette Registerbreite unterstützt dies noch.

Die spannende Frage ist, ob es die Software-Entwickler derzeit auch ausnutzen ... vermutlich nein ...

MFG Bobo(2005)

GloomY
2005-12-12, 17:56:47
PPC-Code verbraucht mehr I-Cache als x86-Code, also sind die 32kiB I-Cache nicht so viel wert wie sie auf einem x86-Prozessor wert wären. Und wenn der I-Cache mal erschöpft ist, kosten PPC-Instruktionen auch mehr Speicherbandbreite.Ich finde 32 kiB I-Cache ganz in Ordnung. Klar ist mehr meist besser, aber man muss auch irgendwo Abstriche machen, gerade wenn man drei Cores auf einen Die pflanzen will. Das sieht mir hier nach einem guten Kompromiss aus. :)

Was mir da eher negativ aufgefallen ist, ist die Tatsache dass sowohl der L1-ITLB als auch der L1-DTLB nur 2-fach assotiativ ist. Ich glaube, dass man da ganz leicht Fälle konstruieren kann, bei denen das arg bremst. Nicht umsonst sind imho bei fast allen anderen Prozessoren die L1 TLBs voll assotiativ (K7, K8, P4, PPC970?).
Immerhin gibt's noch einen L2-TLB, der das einigermaßen auffangen kann, so dass ein L1-TLB Miss nicht gleich den von allen drei Cores gemeinsam genutzten L2 Cache bemühen muss.

edit: Der Power4 benutzt genau die gleiche TLB-Architektur, allerdings bei allen Buffern mit doppelter Kapazität. Das bedeutet, dass das entweder kein Schwachpunkt ist, oder eben beide Architekturen diesen besitzen.
Einige Tricksereien an der Cache-Architektur. Quasi "Fast writes".Hmm? Meinst du, dass man am Cache vorbeischreiben kann?

btw: Sehr interessant finde ich auch die Angabe der 11 FO4. Das ist eine verdammt gute Implemenation. Anders würde man wahrscheinlich die 3,2 GHz Takt auch nicht hinbekommen.


edit: Habe ich das richtig verstanden, dass jeder Core 2-fach SMT benutzt?

Bokill
2005-12-12, 18:51:50
edit: Habe ich das richtig verstanden, dass jeder Core 2-fach SMT benutzt? Ja.

Das mit dem "zu wenig Cache" halte ich auch für übertrieben, zwar nicht ganz falsch, aber solange andere Mitbewerber sich mit noch weniger Cache in den High End Markt wagen, ist das kein wirkliches Argument.

MFG Bobo(2005)