Warum ist der Core 2 Duo (Conroe) bei gleichem Takt schneller als ein AMD X2? [Archiv]

PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Warum ist der Core 2 Duo (Conroe) bei gleichem Takt schneller als ein AMD X2?

Gast

2007-04-15, 02:22:10

Benchmarks haben ja schon in vielen Fällen bewiesen,
daß der Conroe bei gleichem Takt schneller ist als ein AMD X2, aber was ich bis heute noch nicht weiß, woran liegt das?

Liegt es am Cache? Liegt es an der Art wie die FPU intern rechnet oder liegt es daran, daß der Conroe SSSE3 kann,
was aber dann wiederum bedeutet, daß er ja nur da schneller sein könnte, in der die Software auch SSSE3 verwendet.
Und dann muß man ja noch berücksichtigen,
daß Speicheranbindung beim AMD dank integriertem Speichercontroller besser ist, aber die CPU ist trotzdem langsamer als der Controe.

Also, was genau sorgt für den Geschwindigkeitsvorteil?

dildo4u

2007-04-15, 02:48:29

Es gibt sicherlich mehrere Faktoren die da reinspielen hier ein paar Beispiele.

"Diese Performance hat Conroe unter anderem folgenden Eckdaten der Core-Mikroarchitektur zu verdanken, auf die wir in einem zukünftigen Artikel gesondert eingehen werden:

Die Länge der Out-of-Order-Execution-Pipeline wurde drastisch verkürzt und ist mit 14 Stufen im Vergleich zu der des Pentium 4 „Prescott“ mit 31 Stages weniger als halb so lang. Außerdem ist die Core-Architektur 4-fach-skalar und erlaubt damit jedem Kern bis zu vier Befehle (bisher drei) gleichzeitig zu beenden. Die neuen Prozessoren führen damit mehr Befehle pro Taktzyklus aus. Intel fasst diese Eigenschaft unter der Bezeichnung „Wide Dynamic Execution“ zusammen.

„Intel Intelligent Power Capability“ dagegen beinhaltet Funktionen, die den Stromverbrauch weiter senken, indem sie auf intelligente Art und Weise einzelne logische Subsysteme des Prozessors nur dann einschaltet, wenn diese benötigt werden. Bei den Pentium M-Prozessoren vergangener Tage konnten beispielsweise Teile des L2-Caches deaktiviert werden. Wie weit der Gedanke mit der Core-Architektur getrieben wurde, hat der Halbleiterriese noch nicht bekanntgegeben.

Wie der aktuelle Notebook-Prozessor Core Duo (Codename „Yonah“) beinhaltet auch die neue Architektur einen gemeinsam genutzten L2-Cache zu Senkung des Strombedarfs durch Minimieren von Datenverkehr zum Speicher und steigert die Leistung, indem ein Kern den gesamten Cache dynamisch nutzen kann, wenn der andere Kern untätig ist. Das Ganze hört auf die Bezeichnung „Advanced Smart Cache“.

„Intel Smart Memory Access“ ist ein weiteres Merkmal, das die Systemleistung verbessern soll, indem die Latenzzeit des Speichers optimal genutzt und dadurch die Bandbreite des Memory Subsystems optimiert wird.

Mit „Advanced Digital Media Boost“ werden alle 128 Bit SSE-, SSE2- und SSE3-Befehle nun innerhalb eines einzigen Taktzyklus ausgeführt. Praktisch bedeutet dies eine Verdopplung der Ausführungsgeschwindigkeit dieser Befehle, die häufig in multimedialen und grafischen Anwendungen zum Einsatz kommen. Die Unterstützung von SSE4 wurde von Intel noch nicht offiziell bestätigt."

http://www.computerbase.de/artikel/hardware/prozessoren/2006/test_core_2_duo_e6700_testdrive/2/#abschnitt_werdegang_der_core_mikroarchitektur

=Floi=

2007-04-15, 03:19:14

auch die älteren steppings des A64 können SSE3

die gleiche frage könnte man auch beim A64 gegenüber dem p4 stellen
vergleiche es mit einem diesel
der eine hat 150ps und 300nm und der andere hat 150ps und 350nm

Gast

2007-04-15, 04:39:41

die gleiche frage könnte man auch beim A64 gegenüber dem p4 stellen
vergleiche es mit einem diesel
der eine hat 150ps und 300nm und der andere hat 150ps und 350nm

Was zwar beantwortet, daß der eine 50 nm mehr hat (im übertragenen Sinn, die CPU also schneller ist), aber nicht warum er 50 nm mehr liefert und das war ja die Frage.

Die Antwort von dildo4u ist besser, da sie auf die Frage auch eingeht.

=Floi=

2007-04-15, 05:13:18

ich wollte eben nicht 2X das gleiche schreiben und nur ein einfaches beispiel nehmen
zitat
Die Länge der Out-of-Order-Execution-Pipeline wurde drastisch verkürzt und ist mit 14 Stufen im Vergleich zu der des Pentium 4 „Prescott“ mit 31 Stages weniger als halb so lang. Außerdem ist die Core-Architektur 4-fach-skalar und erlaubt damit jedem Kern bis zu vier Befehle (bisher drei) gleichzeitig zu beenden. Die neuen Prozessoren führen damit mehr Befehle pro Taktzyklus aus.

sagt doch schon das meiste aus und daraus folgt auch die größte performancesteigerung

Gast

2007-04-15, 07:56:50

ich wollte eben nicht 2X das gleiche schreiben und nur ein einfaches beispiel nehmen

Dann hättest du besser den Beitrag von dildo4u ergänzt
oder besätigt, anstatt einen eigenen Beitrag ohne Inhalt zu bringen.

Das der Conroe in den Benchmarks nämlich x fps schneller als der X2 ist und ein direkter Vergleich schwierig ist, weiß ich nämlich auch.

Gast

2007-04-22, 10:01:52

Kann AMDs bald erscheinender K10 dem Core 2 Duo und dessen im Herbst/07 folgender Nachfolger eigentlich Paroli bieten?

Was wird beim K10 anders sein, bzw. was wird ihn schneller machen?

Gast

2007-04-22, 10:03:30

Da kann man nur Spekulieren...

Gast

2007-04-22, 11:18:39

Und auf was spekulierst du?

Gast

2007-04-22, 12:10:05

Kann AMDs bald erscheinender K10 dem Core 2 Duo und dessen im Herbst/07 folgender Nachfolger eigentlich Paroli bieten?

keine ahnung, woher sollte man das heute wissen?

Was wird beim K10 anders sein, bzw. was wird ihn schneller machen?

das weiß noch keiner, und die die es wissen werden nichts sagen.

Gast

2007-04-22, 12:17:36

Außerdem ist die Core-Architektur 4-fach-skalar und erlaubt damit jedem Kern bis zu vier Befehle (bisher drei) gleichzeitig zu beenden.

wenn ich mich recht erinnere konnte der prescott auch schon bis zu 4 befehle/takt verarbeiten, im gegensatz zu seinen P4-vorgängern die maximal 3 befehle/takt abarbeiten konnten. dass es ihm in der IPC-leistung nicht viel geholfen hat wissen wir ja ;)
die core-architektur kann, wenn ich mich richtig erinnere, über dieses micro-op-fusion sogar bis zu 5 befehle/takt durchschleusen.

nur sagen sowohl pipelinelänge als auch die max. IPC relativ wenig über die tatsächliche leistungsfähigkeit aus.

beispielsweise hat die core2-architektur eine längere pipeline als der A64, oder auch als die vorgängerarchitektur im pentium-m bzw. yonah-core und ist pro takt trotzdem deutlich schneller.

umgekehrt hat der prescott gegenüber dem northwood theoretisch einen größeren peak-IPC-wert und ist real trotzdem nicht schneller.

Wuge

2007-04-22, 12:28:47

Der Prescott könnte theoretisch pro Takt

4 einfache INT Befehle + 1 Load und 1 Store verarbeiten

Aber da alles vor dem Sheduler nur auf 3 Befehle pro Takt ausgelegt ist und sich auch nicht jeder Befehl in nur einem (bzw. 1/2) Takt verarbeiten lässt, ist der Wert in der Praxis niedriger.

Dazu kommt, dass jeder Prozessor Wartezyklen hinnehmen muss wenn die erforderlichen Daten nicht zur Verfügung stehen. Bzw. Netburst CPUs nicht warten sondern aufs Blaue drauf zu rechnen.

Durch den Prescott bekomme ich max. 2,5 IPC durchgejagt. Mit einer darauf optimierten Anwendung wohl gemerkt.

Gast

2007-04-22, 15:20:33

auch die älteren steppings des A64 können SSE3
Wot? Haben die das wieder "ausgebaut"?

Mailwurm

2007-04-22, 16:54:57

Durch Makro-Op-Fusion können es im Ausnahmefall sogar 5 Befehle pro Takt beim Core 2 Duo sein sein. Es werden also zwei x86er-Befehle vor dem Decodieren in eine RISC-Mikro-Op zusammengefasst. Das kann aber pro Zyklus nur eine Decoder-Einheit - dafür aber egal ob die komplexe oder eine der drei einfachen - und geht meines Wissens nur bei bestimmten Befehlskombinationen.

=Floi=

2007-04-23, 03:25:21

zitat
Wot? Haben die das wieder "ausgebaut"?

nein
da habe ich mich getäuscht

Gast

2007-04-23, 21:58:48

Aber da alles vor dem Sheduler nur auf 3 Befehle pro Takt ausgelegt ist und sich auch nicht jeder Befehl in nur einem (bzw. 1/2) Takt verarbeiten lässt, ist der Wert in der Praxis niedriger.

der scheduler wurde doch bei prescott von 3 auf 4 befehle/takt erweitert. real liegt der wert natürlich trotzdem deutlich niedriger.

Wuge

2007-04-23, 23:05:07

Ja, ich hab ja auch gesagt vor dem Sheduler. Theoretisch, wie gesagt theoretisch, könnten 2x2 FAST Befehle + Load + Store verarbeitet werden.

Die Pipeline kann trotzdem nur 3 Befehle pro Takt zum Sheduler bringen.

Gast

2007-05-12, 23:32:59

der vergleich mit einem diesel ist ziemlich dumm gewählt

wie schnell ein motor auf der rennstrecke ist hängt einzig und allein von der spitzenleistung ab, natürlich wenn die anzahl der gänge und die übersetzung frei wählbar ist.

der diesel hat mehr drehmoment u8nd erreicht damit seine spitzenleistung bei niedrigerer drehzahl, dadurch muss er länger übersetzt werden als der benziner.

das drehmoment an der antriebsachse ist also gleich da übersetzungsabhängig.

die leistung setzt sich durch das anliegende drehmoment und der drehzahl zusammen.

keiner ist von vorteil wenn beide die gleiche spitzenleistung liefern.

anders ist es bei der fahrbarkeit, wobei man sich dort auch streiten kann, der diesel liefert zwar aus niedrigen drehzahlen bereits ein hohes drehmoment dagegen besitzt der benziner ein breiteres nutzbares drehzahlband.

dazu kommt dann noch das meist höhere gewicht des dieselmotors wodurch der diesel bei einem rennen definitiv den kürzeren ziehen würde.