Athlon64 mit zweitem CPU Kern [Archiv]

klumy

2003-10-01, 21:50:03

Sieht aus, dass AMD endlich Intels Hyperthread Technologie angreift

Allerdings hat sich in der Zwischenzeit noch etwas interessantes herausgestellt. AMD möchte dem Athlon64 nämlich einen zweiten CPU-Kern spendieren. Dies war von Anfang an geplant, lässt sich aber erst realisieren, wenn AMD auf die Fertigung in 90nm umgestellt hat. Dies soll im ersten Halbjahr 2004 passieren.

Damit würde Intels Vorsprung durch HT sehr ins Wanken geraten oder wahrscheinlich sogar kippen. Denn zwei Prozessor-Kerne auf einem Chip geht einen Schritt weiter als Intel mit zwei virtuellen CPUs.

http://www.tweakpc.de/hardware/tests/cpu/athlon64_fx_64/athlon64_fx_64_2.htm

Mehrpack

2003-10-01, 22:02:35

hi,
nunja, AMD hat immer gesagt das sich HT bei ihnen nicht lohnt, da der Prozessor sehr gut ausgelastet ist und das sie deswegen eine Dualcore als Lösung anstreben.
es war am ende nur eine frage der Zeit wann es kommt von seiten AMD.
wieviel es bringen wird und vorallen was es kosten wird, billig wirds nicht, wird sich zeigen.

Mehrpack

Muh-sagt-die-Kuh

2003-10-02, 02:20:01

Original geschrieben von Mehrpack
hi,
nunja, AMD hat immer gesagt das sich HT bei ihnen nicht lohnt, da der Prozessor sehr gut ausgelastet ist und das sie deswegen eine Dualcore als Lösung anstreben.

Mehrpack "Sehr gut ausgelastet" ist Definitionssache....ich kann mir nicht vorstellen, dass die Execution Units dauerhaft irgendwo in der Nähe von 100% ausgelastet sind. Bei einem fast reinen Integerprogramm drehen die FP-Einheiten z.B. zwangsläufig Däumchen.

Nur mal so als Beispiel, Daten des c´t Proggis "Perfwatch": Bei einem P4 führt eine UT2003 Session gerade mal zu ca 30% interner Auslastung...

Mehrpack

2003-10-02, 02:29:38

Original geschrieben von Muh-sagt-die-Kuh
"Sehr gut ausgelastet" ist Definitionssache....ich kann mir nicht vorstellen, dass die Execution Units dauerhaft irgendwo in der Nähe von 100% ausgelastet sind. Bei einem fast reinen Integerprogramm drehen die FP-Einheiten z.B. zwangsläufig Däumchen.

Nur mal so als Beispiel, Daten des c´t Proggis "Perfwatch": Bei einem P4 führt eine UT2003 Session gerade mal zu ca 30% interner Auslastung...

hi,
nunja, auch die C`T meinte das die AMD cpu, wenn ich mich jetzt nicht irre, sehr gut ausgelastet sind, ich würde das bei 75% bis 90% last einordnen.

zum P4, deswegen hat ja Intel HT eingeführt, weil der P4 eben durch seine lange pipeline, realtiv viel däumchen drehn muss, durch HT wird er aber besser ausgelastet und dadurch ist zum teil eine mehrleistung zu erzielen.

Mehrpack

Kampf Ameise

2003-10-02, 06:23:43

heisst dass, das wenn amd einen zweiten kern einbaut, das dann der athlon 64 in 90nm bauweise 4 virtuelle prozessorkerne simulieren könnte ?

das wär ja dann super effektiv *lechz*

Tigerchen

2003-10-02, 06:41:15

Original geschrieben von Kampf Ameise
heisst dass, das wenn amd einen zweiten kern einbaut, das dann der athlon 64 in 90nm bauweise 4 virtuelle prozessorkerne simulieren könnte ?

das wär ja dann super effektiv *lechz*

Nein"Nur 2 echte".Also keine Simulation.

Endorphine

2003-10-02, 08:43:01

Original geschrieben von klumy
Sieht aus, dass AMD endlich Intels Hyperthread Technologie angreift
http://www.tweakpc.de/hardware/tests/cpu/athlon64_fx_64/athlon64_fx_64_2.htm
Ich würde es anders formulieren: "sieht aus, als ob auch AMD die Zeichen der Zeit erkannt hat". SMT ist ja nur der Beginn einer langfristigen Entwicklung, innerhalb der CPU noch weitaus stärker Abläufe zu parallelisieren und darüber den Durchsatz zu erhöhen.

Ich denke, dass es ein Denkfehler ist, wenn von vielen angenommen wird, dass in Zukunft zwei Kerne herkömmlicher Bauart auf einem Die sitzen werden. IMHO wird der Übergang eher fließend sein - die Parallelisierung wird weiter ansteigen und es werden sich nach und nach Kerne entwickeln, die dann irgendwann mal mehr Durchsatz schaffen als zwei diskrete CPUs auf dem Mainboard.

Das Prinzip eröffnet ganz neue Optimierungen, z.B. Einheiten, die für beide Kerne arbeiten, der Cache wird mit Sicherheit komplett umstrukturiert werden müssen, das MOESI-Protokoll wird sicher auch weiterentwickelt.

Mit SMT kann die Entwicklung so fließend erfolgen wie nur irgendwie möglich. Um etwas vergleichbares wird AMD gar nicht herumkommen. Einfach zwei für den Uniprozessorbetrieb gedachte Cores aneinanderzuklatschen wäre an Ineffizienz und Unwirtschaftlichkeit kaum noch zu überbieten.

StefanV

2003-10-02, 12:03:29

Original geschrieben von Endorphine
Ich würde es anders formulieren: "sieht aus, als ob auch AMD die Zeichen der Zeit erkannt hat". SMT ist ja nur der Beginn einer langfristigen Entwicklung, innerhalb der CPU noch weitaus stärker Abläufe zu parallelisieren und darüber den Durchsatz zu erhöhen.

Ich denke, dass es ein Denkfehler ist, wenn von vielen angenommen wird, dass in Zukunft zwei Kerne herkömmlicher Bauart auf einem Die sitzen werden. IMHO wird der Übergang eher fließend sein - die Parallelisierung wird weiter ansteigen und es werden sich nach und nach Kerne entwickeln, die dann irgendwann mal mehr Durchsatz schaffen als zwei diskrete CPUs auf dem Mainboard.

Das Prinzip eröffnet ganz neue Optimierungen, z.B. Einheiten, die für beide Kerne arbeiten, der Cache wird mit Sicherheit komplett umstrukturiert werden müssen, das MOESI-Protokoll wird sicher auch weiterentwickelt.

Mit SMT kann die Entwicklung so fließend erfolgen wie nur irgendwie möglich. Um etwas vergleichbares wird AMD gar nicht herumkommen. Einfach zwei für den Uniprozessorbetrieb gedachte Cores aneinanderzuklatschen wäre an Ineffizienz und Unwirtschaftlichkeit kaum noch zu überbieten.
Hm, wenn AMD den L2 Cache des 2. Cores weglassen würde udn diesen Cache sharen lassen würde?? ;)

Beim L1 könnte man das ja auch machen *eg*

Endorphine

2003-10-02, 12:43:39

x-dragon

2003-10-02, 12:49:57

Das ist doch mal ein aussagekräftiges Argument (besonders das Bild dazu) :up:.

Also wird es sehr wahrscheinlich auf eine Neuentwicklung heinauslaufen und die wird vermutlich noch nicht im ersten Halbjahr verfügbar sein wie bei Tweakpc zu lesen war...

pippo

2003-10-02, 17:36:16

Ich schätze AMD wird kurz nach der Einführung von 90nm einen Opteron mit Dualcore anbieten. Wie es mit der Desktopversion aussieht, wird vom Prescott und vom Tejas abhängig werden. Wenn diese beiden CPU´s nix auf die Beine bringen, wirds für AMD keinen Grund geben.

@ Endorphine

Einfach zwei für den Uniprozessorbetrieb gedachte Cores aneinanderzuklatschen wäre an Ineffizienz und Unwirtschaftlichkeit kaum noch zu überbieten.

Was laberst du eigentlich fürn Schwachsinn? Der Core ist von Anfang an darauf ausgelegt worden und AMD wird es bestimmt nicht einführen wenns nur 15% wie bei Intel´s HT bringen würd. Jan Gütter sagte schon immer, entweder ganz oder garnicht

Muh-sagt-die-Kuh

2003-10-02, 17:52:59

Original geschrieben von pippo
...und AMD wird es bestimmt nicht einführen wenns nur 15% wie bei Intel´s HT bringen würd. Jan Gütter sagte schon immer, entweder ganz oder garnicht Wenn ich mich recht entsinne ist Jan Gütter von Beruf PR-Mann und kein Techniker. Ich glaube nicht, dass er (du wohl auch nicht) den Unterschied zwischen SMT und SMP kennt, ansonsten würde er nicht so einen Müll reden.

Um es nochmal zu verdeutlichen: HT bringt bis zu 30% mehr Leistung bei gerade mal 5% mehr DIE-Fläche. Ich nenne sowas "effizient".

Tigerchen

2003-10-02, 19:46:41

stickedy

2003-10-02, 19:48:35

Aber HT hat ja beim P4 nur der Vorteil, dass die Pipelines besser ausgelastet werden, was beim P4 ein architektonisches "Problem" ist. Dies ist beim Athlon aber eher nicht gegeben, deswegen bin ich (und viele andere auch) der Ansicht, dass HT bei den momentanen AMD-Architekturen sehr wenig bis gar nichts an Vorteil bringen würde.
Der Pentium-M (Centrino) hat doch auch HT, oder? Interessant wäre dann in diesem Zusammenhang ein Vergleich zwischen Pentium-M mit und ohne aktiviertem HT. Wenn die obige Theorie stimmt, dürfte der Pentium-M durch HT so gut wie nichts gewinnen.

Muh-sagt-die-Kuh

2003-10-02, 20:35:06

Original geschrieben von stickedy
Aber HT hat ja beim P4 nur der Vorteil, dass die Pipelines besser ausgelastet werden, was beim P4 ein architektonisches "Problem" ist. Dies ist beim Athlon aber eher nicht gegeben, deswegen bin ich (und viele andere auch) der Ansicht, dass HT bei den momentanen AMD-Architekturen sehr wenig bis gar nichts an Vorteil bringen würde.Für den Athlon existiert leider kein Programm, das interne Performance-Counter ausliest...

Fakt ist folgendes:
Solange es bremsende Speichersubsysteme gibt, wird die Einheitenauslastung von modernen OOO-CPUs immer verhältnismässig schlecht bleiben. SMT ist ein Ansatz dem ganzen entgegenzuwirken, Senkung der Latenzen ein anderer.

Wenn man Athlon 32 und Athlon 64 miteinander vergleicht wird auch schnell klar, dass die Einheitenauslastung des Athlon 32 nicht besonders gut gewesen sein kann...an den eigentlichen Execution-Cores hat sich nämlich so gut wie nichts geändert.
Der Pentium-M (Centrino) hat doch auch HT, oder? Interessant wäre dann in diesem Zusammenhang ein Vergleich zwischen Pentium-M mit und ohne aktiviertem HT. Wenn die obige Theorie stimmt, dürfte der Pentium-M durch HT so gut wie nichts gewinnen. Der Pentium-M hat kein HT, liegt wohl eher daran, dass er im Grunde ein extrem aufgebohrter P3 ist.

Muh-sagt-die-Kuh

2003-10-02, 20:42:19

Original geschrieben von Tigerchen
"Bis zu"
Sagen wir lieber -5% in ausgewählten Spielen und +30% in auserwählten Benchmarks.Jegliches multigethreadedes Rendering/Video Encoding fällt wohl kaum in die Kategorie "auserwählte Benchmarks"Außerdem hat AMD vor einiger Zeit von gewissen Patenten geredet wenn ich mich recht erinnere.Die sind wohl schon ein wenig länger am Ball in Sachen Dual oder Multi-Core und so mancher INTEL-Jünger könnte da ganz schnell blaß werden.
Dual-Core CPUs sind nichts neues, IBM baut den Power4 auch schon seit einiger Zeit.

P.S.: Sagt dir "Montecito" etwas? ;)

Kampf Ameise

2003-10-02, 21:41:21

bei grakas sollte man auch so ne art "intels HT" technologie benutzen.. damit die vollständig ausgenutzt werden..

winter

2003-10-02, 22:35:51

Original geschrieben von Kampf Ameise
bei grakas sollte man auch so ne art "intels HT" technologie benutzen.. damit die vollständig ausgenutzt werden..

GPUs rechnen nicht wirklich Dynamisch, sondern in Fest vorgegebenen abläufen. Da würde HT AFAIK garnichts bringen.

Inwieweit die Dual Core Lösung sinnvoll ist kann ich nicht beurteilen. Hat einer eigentlich schonmal daran gedacht, dass die Abwärme Rapide in die Höhe schießt, da ja ein echter 2. Core rechnet? Wer soll denn die Kühlung bezahlen? Auf jedenfall nicht der normale Consumer. Selbst im 90nm Prozess ist das immernoch relativ viel.

Muh-sagt-die-Kuh

2003-10-03, 00:07:25

Original geschrieben von Kampf Ameise
bei grakas sollte man auch so ne art "intels HT" technologie benutzen.. damit die vollständig ausgenutzt werden.. Im Gegensatz zur Arbeit von CPUs ist die Arbeit von GPUs fast beliebig parallelisierbar, sprich ein Chip mit z.B. 16 vollwertigen Pipes und entsprechendem Speicherinterface wäre einfach nur bombastisch schnell.

Tigerchen

2003-10-03, 07:29:46

Original geschrieben von Muh-sagt-die-Kuh
Jegliches multigethreadedes Rendering/Video Encoding fällt wohl kaum in die Kategorie "auserwählte Benchmarks"Dual-Core CPUs sind nichts neues, IBM baut den Power4 auch schon seit einiger Zeit.

P.S.: Sagt dir "Montecito" etwas? ;) [/SIZE]

War mir irgendwie klar daß du die Paradedisziplin des P4 zur Sprache bringst.

Ich wollte nur zum Ausdruck bringen daß AMD die Multi-Core Geschichte nicht erst gestern eingefallen ist.

BlackBirdSR

2003-10-03, 08:48:04

Original geschrieben von Tigerchen

War mir irgendwie klar daß du die Paradedisziplin des P4 zur Sprache bringst.

Ich wollte nur zum Ausdruck bringen daß AMD die Multi-Core Geschichte nicht erst gestern eingefallen ist.

ironisch ist nur, dass Intel wohl vor AMD mit DualCore CPUs auf den Markt kommt.
Ventuell nocht mit SMT pro Core -> 4 logische CPUs.

2000 hieß es ja noch, Sledgehammer wäre bereits eine DualCore CPU.

pippo

2003-10-05, 15:54:26

Original geschrieben von Muh-sagt-die-Kuh
Wenn ich mich recht entsinne ist Jan Gütter von Beruf PR-Mann und kein Techniker. Ich glaube nicht, dass er (du wohl auch nicht) den Unterschied zwischen SMT und SMP kennt, ansonsten würde er nicht so einen Müll reden.

Um es nochmal zu verdeutlichen: HT bringt bis zu 30% mehr Leistung bei gerade mal 5% mehr DIE-Fläche. Ich nenne sowas "effizient".

Jan Gütter ist Pressesprecher und er hat sehrwohl Ahnung von dem was er redet, sonst wär er wohl nicht Pressesprecher oder ? Ausserdem kenn ich sehrwohl den Unterschied zwischen SMT und SMP.
Das mit der zusätzlichen Leistung von 30% ist ja auch ein Witz. Das sind besondere Benchmarks wo die Leistung so ansteigt. Um mal auf dem Boden zu bleiben, sprechen wir besser von 10% und bei manchen Programmen auch -10%.

Wie AMD das Problem mit dem Dualcore löst, weiß keiner.

@ BlackBirdSR
Dass Intel vor AMD mit einem Dualcore auf den Markt kommt wage ich zu bezweifeln. AMD könnte dies theoretisch schon mit der 90nm Produktion einführen. Intel hat bisher keinen Core der darauf ausgelegt wäre

Muh-sagt-die-Kuh

2003-10-05, 17:33:09

Original geschrieben von pippo
Jan Gütter ist Pressesprecher und er hat sehrwohl Ahnung von dem was er redet, sonst wär er wohl nicht Pressesprecher oder ? Ausserdem kenn ich sehrwohl den Unterschied zwischen SMT und SMP.Pressesprecher werden dafür bezahlt, das eigene Unternehmen gut dastehen zu lassen....da kommen manchmal dann die abenteuerlichsten Aussagen heraus. Und die oben angesprochene Aussage lässt nicht darauf schliessen, dass der Mann Ahnung von der Materie hat.Das mit der zusätzlichen Leistung von 30% ist ja auch ein Witz. Das sind besondere Benchmarks wo die Leistung so ansteigt. Um mal auf dem Boden zu bleiben, sprechen wir besser von 10% und bei manchen Programmen auch -10%.Im Gegensatz zu dir besitze ich eine HT CPU...

Die Leistungsangaben sind absolut real bei DivX Encoding. Die Durchschnittsframerate mit HT liegt 30% über der ohne HT (den Encoding-Prozess per Taskmanager auf eine virtuelle CPU limitiert). Ich habe die CPU auch eine Weile unter Win2k ohne Multiprozessorkernel betrieben bevor ich auf XP umgestiegen bin....10% langsamer geworden ist keine Anwendung, einzig Messbar war ein Performance-Rückgang bei Quake 3 Arena um wahnsinnige 3%...Dass Intel vor AMD mit einem Dualcore auf den Markt kommt wage ich zu bezweifeln. AMD könnte dies theoretisch schon mit der 90nm Produktion einführen. Intel hat bisher keinen Core der darauf ausgelegt wäre Itanium Reihe, Codename "Montecito"

BlackBirdSR

2003-10-05, 17:45:50

Zum Thema Pressepsrecher: man muss sich nur mal ansehen was das nVidia und ATI PR so fabrizieren.

Oder eben AMD mit der Parole:" Wir brauchen kein Hyperhtreading, unsere CPUs sind auch so viel besser ausgelastet."

Das dies völliger Quatsch war, sieht man ja am K8. Wäre der K7 bereits viel besser ausgelastet, gäbe es kaum Performancegewinne.

stickedy

2003-10-05, 18:11:27

Woher willst du wissen, dass der K7-Core nicht optimal ausgelastet ist/wird?
Vom K8 auf den K7 zu schließen ist sehr mit Vorsicht zu genießen, da die K8-Architektur zwar dem K7 sehr ähnlich ist, aber die Mehrperformance/MHz im 32-Bit-Modus imho nur durch den großen L2-Cache, eine verbesserte Branch-Prediction und dem integrierten Speichercontroller erzielt wird.
SMT kann bei einer CPU mit einer hohen Pro-MHz-Leistung nichts bringen, da die Pipelines ja schon sehr gut ausgelastet sind! Sonst wär ja die Leistung nicht so hoch...
Und wenns was bei solchen CPUs bringen würde, dann hätte Intel dem Centrino ja auch HT spendiert...

BlackBirdSR

2003-10-05, 19:01:59

Original geschrieben von stickedy
Woher willst du wissen, dass der K7-Core nicht optimal ausgelastet ist/wird?
Vom K8 auf den K7 zu schließen ist sehr mit Vorsicht zu genießen, da die K8-Architektur zwar dem K7 sehr ähnlich ist,

könnte glatt eines von AMDs PR postings sein ;)
Nichts für Ungut...

Vom K8 auf den K7 zu schließen ist sogar genial, da sich an der Grundlegenden Architektur nicht viel geändert hat.
Man hat also einen beschleunigten Core, und kann sich daraus ableiten, warum der K8 schneller als der K7 ist, bzw wo es beim K7 gehapert hat.

aber die Mehrperformance/MHz im 32-Bit-Modus imho nur durch den großen L2-Cache, eine verbesserte Branch-Prediction und dem integrierten Speichercontroller erzielt wird.

Klar, du hast recht. Aber geh einmal einen Schritt weiter. Was bringt größerer L2 Cache und der Speichercontroller?
Niedrigere Latenzen, und damit weniger Wartezeit auf Daten/Befehle.

Die Branchprediction und neuen 2 Pipelinestufen sowie kleinere Änderungen an Funktionseinheiten und Schedulern etc, sind dann in der Lage diesen schnelleren Datenstrom auch zu nutzen. Folglich wird der K8 besser ausgelastet als der K7.
Da die Funktionseinheiten nahezu identisch sind, der K8 aber schneller ist, muss das heissen: Der K8 verrichtet mehr Arbeit pro Zeit, ist also besser ausgelastet.

Die von dir beschrieben Änderungen führen also genau dazu: zu einer besseren Auslastung gegenüber dem K7.

SMT kann bei einer CPU mit einer hohen Pro-MHz-Leistung nichts bringen, da die Pipelines ja schon sehr gut ausgelastet sind! Sonst wär ja die Leistung nicht so hoch...

Da möchte ich nur auf IBMs Power4/5 Generation verweisen. CMP/SMP und auch SMT bringen hier sehr wohl etwas. Und das, obwohl diese CPUs eine gewaltige Pro-MHz Leistung besitzen.
Der Grund liegt einfach im Programmcode. Die CPU muss IMMER mit Programmcode von konkurrierenden Threads kämpfen. Man kann aber nur einen bearbeiten. Daraus ergibt sich zwangsläufig, dass die CPU nie komplett ausgelastet werden kann, (im Durschnitt sind die CPUs sehr mager ausgelastet).
SMT wird also in Situationen mit mehreren Threads die um Ausführungszeit kämpfen, fast immer einen Vorteil bringen. Egal ob nun P7 oder K7/8, bzw Sparc oder PowerPC.

Warum Intel dem P-M (wir brauchen unbedingt ne Generationsbezeichnung, ich mach einfach einmal P6-M daraus) kein SMT verpasst hat, kann viele Gründe haben.
Zum einen erhöht es die Leistungsaufnahme, zum Anderen sind Notebooks jetzt nicht unbedingt Server oder Workstations.
Vorallem aber, bündelt der P6-M Befehle bevor er sie die Pipeline hinunterschickt. Ob dies unbedingt kompatibel zu Intels SMT Ansatz ist?

stickedy

2003-10-05, 20:46:53

Original geschrieben von BlackBirdSR
Klar, du hast recht. Aber geh einmal einen Schritt weiter. Was bringt größerer L2 Cache und der Speichercontroller?
Niedrigere Latenzen, und damit weniger Wartezeit auf Daten/Befehle.

Die Branchprediction und neuen 2 Pipelinestufen sowie kleinere Änderungen an Funktionseinheiten und Schedulern etc, sind dann in der Lage diesen schnelleren Datenstrom auch zu nutzen. Folglich wird der K8 besser ausgelastet als der K7.
Da die Funktionseinheiten nahezu identisch sind, der K8 aber schneller ist, muss das heissen: Der K8 verrichtet mehr Arbeit pro Zeit, ist also besser ausgelastet.

Interessante Thesen!
Allerdings muss ich dich in diesem Zusammenhang aber dann gleich mal fragen, warum der Pentium 4 EE mit seinem großen L2-Cache doch einiges schneller als der Standard-P4 ist, obwohl beide doch HT haben? Erklärung? Ich bin gespannt!

Und du weißt schon was eine Branch Prediction Einheit ist bzw. was eine Verbesserung dergleichen bringt? Da ich das einfach mal annehme (und ich mir erhlich gesagt jetzt die ellenlange Erklärung der Funktion etc. sparen will), sollte dir klar sein, dass eine Verbesserung der Branch Prediction nur dazu führt dass die Trefferqote derselbigen steigt und damit eben die Leistung der CPU. Das hat doch nix mit Pipeline-Auslastung zu tun, eine schlechte Branch Prediction lastet die Pipeline sogar mehr aus als eine gute...

Ich möchte ja auch nicht behaupten, dass SMT rein gar nichts bringen würde, aber es ist bei der K7, K8 und P3-Architektur wohl so wenig, dass es sich schlicht nicht lohnt.

Muh-sagt-die-Kuh

2003-10-05, 21:10:41

Original geschrieben von stickedy
Interessante Thesen!
Allerdings muss ich dich in diesem Zusammenhang aber dann gleich mal fragen, warum der Pentium 4 EE mit seinem großen L2-Cache doch einiges schneller als der Standard-P4 ist, obwohl beide doch HT haben? Erklärung? Ich bin gespannt!Ein großer Cache macht nichts anderes, als die durchschnittliche Speicherlatenz zu senken. Was das für einen Effekt hat solltest du wissen. Ist übrigens ein L3 Cache, der L2 ist unverändert.Und du weißt schon was eine Branch Prediction Einheit ist bzw. was eine Verbesserung dergleichen bringt? Da ich das einfach mal annehme (und ich mir erhlich gesagt jetzt die ellenlange Erklärung der Funktion etc. sparen will), sollte dir klar sein, dass eine Verbesserung der Branch Prediction nur dazu führt dass die Trefferqote derselbigen steigt und damit eben die Leistung der CPU. Das hat doch nix mit Pipeline-Auslastung zu tun, eine schlechte Branch Prediction lastet die Pipeline sogar mehr aus als eine gute...Viele Mispredictions = viele Pipeline flushes = geringere Pipe-Auslastung.Ich möchte ja auch nicht behaupten, dass SMT rein gar nichts bringen würde, aber es ist bei der K7, K8 und P3-Architektur wohl so wenig, dass es sich schlicht nicht lohnt. Nachdem BlackBirdSR dir gezeigt hat, dass der K7 Kern nicht wirklich gut ausgelastet ist schreibst du immer noch diesen Blödsinn?

BlackBirdSR

2003-10-05, 21:14:21

Original geschrieben von stickedy
Interessante Thesen!
Allerdings muss ich dich in diesem Zusammenhang aber dann gleich mal fragen, warum der Pentium 4 EE mit seinem großen L2-Cache doch einiges schneller als der Standard-P4 ist, obwohl beide doch HT haben? Erklärung? Ich bin gespannt!

Und du weißt schon was eine Branch Prediction Einheit ist bzw. was eine Verbesserung dergleichen bringt? Da ich das einfach mal annehme (und ich mir erhlich gesagt jetzt die ellenlange Erklärung der Funktion etc. sparen will), sollte dir klar sein, dass eine Verbesserung der Branch Prediction nur dazu führt dass die Trefferqote derselbigen steigt und damit eben die Leistung der CPU. Das hat doch nix mit Pipeline-Auslastung zu tun, eine schlechte Branch Prediction lastet die Pipeline sogar mehr aus als eine gute...

Ich möchte ja auch nicht behaupten, dass SMT rein gar nichts bringen würde, aber es ist bei der K7, K8 und P3-Architektur wohl so wenig, dass es sich schlicht nicht lohnt.

Man kann SMT und den L3 Cache des P4 EE nicht auf diese Weise direkt in Verbindung bringen.
SMT sorgt dafür, dass Befehle von 2 Threads gleichzeitig durch die Pipeline geschickt werden.
Der Cache verringert die Latenzen, und damit die Wartezeit in der die CPU nichts tun könnte. Gerade bei HT, wo ja die Caches aufgeteilt werden, ist es auch wichtig Daten schnell zur Verfügung zu haben. Mehr Cache bringt also mehr Leistung, mit SMT hat das direkt nichts zu tun.
SMT profitiert nur ebenso davon.

Ja ich weiss was die Sprungvorhersage macht. Liegt sie daneben, kann man die bisherigen Arbeitsschritte vergessen. Die Pipeline muss neu gef+llt werden, der bisherige Teil ist Schrott und muss durchgereicht werden. Die CPU kann in dieser Zeit Nichts Arbeiten.
Bessere Sprungvorhersage ermöglicht besser Auslastung.

Der letzte Teil ist wiederum pure Spekulation.
Ich würde spekulieren, dass SMT bei P6/K7/K8 ebenfalls eine Menge bringen würde.

Mehrpack

2003-10-06, 08:53:14

hi,
nunja wo wir beim spekulieren sind, was würdet ihr schätzen müsste AMD tun um HT in die Core einzubaun?

Mehrpack

Endorphine

2003-10-06, 09:48:33

Oh Mann, ich hab meine Idee, nen Artikel drüber zu schreiben erst wieder verworfen, nach der News von Computerbase und Leo's Gedanken dazu. Ich glaub, das is wohl doch dringend nötig.

Edit: Wär' nett von euch, wenn ihr alle eure Quellen posten würdet, die ihr als Diskussionsgrundlage habt. Ich schau dann mal, ob es sich für einen kleinen Artikel lohnt. Aufklärungsbedarf scheint ja offensichtlich grosser zu bestehen. Nur brauch ich Quellen =) Wär nett, danke :)

Matrix316

2003-10-07, 10:12:55

Lustig ist, dass es mal einen Thread gab in dem ich fragte ob man nicht 2 cores auf einem Die unterbringen könnte - und da hieß es noch: "Jaaa aber die Abwärme, Preis etc." - und jetzt machen die es wirklich. ;D

Tesseract

2003-10-07, 14:38:00

Original geschrieben von Muh-sagt-die-Kuh
Um es nochmal zu verdeutlichen: HT bringt bis zu 30% mehr Leistung bei gerade mal 5% mehr DIE-Fläche. Ich nenne sowas "effizient".

falsch, die 5% bringen nicht 30% mehrleistung sondern helfen dabei an anderen stellen diese mehrleistung einzuspielen

sprich: damit diese 5% etwas bewirken können MUSS es in anderen teilen der CPU ineffizienz und damit freie resourcen geben die ausgelotet werden können

diese 5% sind also an viele andere bedingungen gebunden um die besagten 30% zu bringen

Börk

2003-10-07, 17:15:41

Original geschrieben von Matrix316
Lustig ist, dass es mal einen Thread gab in dem ich fragte ob man nicht 2 cores auf einem Die unterbringen könnte - und da hieß es noch: "Jaaa aber die Abwärme, Preis etc." - und jetzt machen die es wirklich. ;D
Ganze einfach weil durch die immer kleiner werdenenden Prozesse die Dies auch immer kleiner werden. Bisher hat man dann einfach den Cache vergrössert um dem entgegenzuwirken.
Ab 1 MB wird das aber einfach sinnlos, weil durch weiteren Cache einfach keine Performancegewinne zu erzielen sind, zumindest bei Desktop CPUs.
Und da liegt es doch am nächsten, dass man einfach nen zweiten Core einpflanzt um die CPU "auszufüllen"...

Aquaschaf

2003-10-07, 17:32:14

In der entsprechenden News von 3DC ist doch erläutert, dass ab einer gewissen Transistormenge die Ausbeute bei der Verwendung mehrerer kleiner Cores statt einem großen einfach höher ist.

Muh-sagt-die-Kuh

2003-10-07, 18:23:42

Original geschrieben von Tesseract
falsch, die 5% bringen nicht 30% mehrleistung sondern helfen dabei an anderen stellen diese mehrleistung einzuspielen

sprich: damit diese 5% etwas bewirken können MUSS es in anderen teilen der CPU ineffizienz und damit freie resourcen geben die ausgelotet werden können

diese 5% sind also an viele andere bedingungen gebunden um die besagten 30% zu bringen Was du hier schreibst ist zwar richtig, ändert aber absolut nichts an meiner Aussage.

Fakt ist:
Die doppelten Register und die anderen Erweiterungen kosten 5% DIE-Fläche und haben den Effekt, dass man aus dem gleichen Execution-Core bis zu 30% mehr Leistung herausholt.

Tesseract

2003-10-07, 20:13:37

Original geschrieben von Muh-sagt-die-Kuh Die doppelten Register und die anderen Erweiterungen kosten 5% DIE-Fläche und haben den Effekt, dass man aus dem gleichen Execution-Core bis zu 30% mehr Leistung herausholt.

aber "effizient" ist er deswegen noch lange nicht, auf das wollte ich hinaus

Muh-sagt-die-Kuh

2003-10-07, 21:45:50

Original geschrieben von Tesseract
aber "effizient" ist er deswegen noch lange nicht, auf das wollte ich hinaus Wenn du meinst...hier eine Definition von "Effizienz":

Effizienz stellt eine Relation von Input und Output dar und kann als Maßstab für die Ressourcenwirtschaftlichkeit dienen.

In anderen Worten:
Viel Output mit wenig Input zu erreichen ist effizient.

Auf den konkreten Fall bezogen:
Der wenige Input sind 5% DIE-Fläche, der Output sind 30% mehr Leistung.

GloomY

2003-10-07, 21:50:45

Original geschrieben von burk23
Ganze einfach weil durch die immer kleiner werdenenden Prozesse die Dies auch immer kleiner werden. Bisher hat man dann einfach den Cache vergrössert um dem entgegenzuwirken.
Ab 1 MB wird das aber einfach sinnlos, weil durch weiteren Cache einfach keine Performancegewinne zu erzielen sind, zumindest bei Desktop CPUs.Die Datenmengen, die durchschnittliche Programme verwenden steigen ja auch mit der Zeit. In mehreren Jahren wird auf einer Low-Cost CPU auch 1 MB L2 Cache drauf sein. Nicht nur weil es bis dahin einfach billiger ist, sondern weil die Datenmengen der Programme bis dahin einfach so gestiegen sind, dass 1 MB Cache Mindestanforderung ist, selbst für Low-Cost CPUs. Mid- oder High-End Prozessoren haben zum gleichen Zeitpunkt natürlich noch mehr (d.h. >4 MB Cache).
Sinnlos wird Cache nur dann wenn die Größe überproportional zu den verarbeitenden Datenmengen ansteigt. Denn dann bringt der Cache keinen Geschwindigkeitszuwachs mehr.
Zu sagen, dass der Cache ab einer bestimmten Größe überflüssig wird, kann daher nicht stimmen, denn es kommt immer auf die benutzten Datenmengen der Programme an.
Original geschrieben von burk23
Und da liegt es doch am nächsten, dass man einfach nen zweiten Core einpflanzt um die CPU "auszufüllen"... So einfach ist das nun auch nicht. Die Verbindungen der Cores untereinandern sind noch ein zusätzlicher Aufwand, der bei zwei einzelnen CPUs nicht auftritt.
Und was bei mehreren (physikalischen) CPUs immer ein Problem darstellt ist Cache Kohärenz. Das ist kein Grund mit einem Dual-CPU Design zu scheitern, aber das Problem ist auch nicht gerade trivial.

@Stickedy: AMD hat beim Hammer die Ausführungseinheiten praktisch gleich gelassen und hauptsächlich das Front-End verbessert, d.h. den Teil des Prozessors der für das Holen, Dekodieren und Bereitstellen des Codes (und der Daten) zuständig ist. Wären die Ausführungseinheiten schon gut ausgelastet, so würde sich mit der Optimierung des Front-Ends keine bessere Performance einstellen, da die Ausführungseinheiten limitieren würden.

edit: @ Muh: Die 5% mehr Die-Fläche ist eine Aussage von Intel. Diese Zahl habe ich jeher schon für recht optimistisch gehalten, wenn sie überhaupt stimmt. Es gab ja nie einen Northwood ohne SMT, daher kann uns Intel alles mögliche erzählen...

Tesseract

2003-10-07, 21:54:13

Original geschrieben von Muh-sagt-die-Kuh Der wenige Input sind 5% DIE-Fläche, der Output sind 30% mehr Leistung.

input sind eben nicht die 5% sondern 105% und der output 130%
alleine bringen diese 5% nichts

und "effizient" ist er nur relativ zum p4 core ohne HT

verglichen mit p3, k7, opteron, p-m etc. wurde die ineffizienz ausgemerzt und er hat damit nur aufgeholt
hängt halt davon ab wo man den nullpunkt setzt
ich setze ihn im durchschnitt aller mittbewerber

Börk

2003-10-07, 22:08:06

Original geschrieben von GloomY
Die Datenmengen, die durchschnittliche Programme verwenden steigen ja auch mit der Zeit. In mehreren Jahren wird auf einer Low-Cost CPU auch 1 MB L2 Cache drauf sein. Nicht nur weil es bis dahin einfach billiger ist, sondern weil die Datenmengen der Programme bis dahin einfach so gestiegen sind, dass 1 MB Cache Mindestanforderung ist, selbst für Low-Cost CPUs. Mid- oder High-End Prozessoren haben zum gleichen Zeitpunkt natürlich noch mehr (d.h. >4 MB Cache).
Sinnlos wird Cache nur dann wenn die Größe überproportional zu den verarbeitenden Datenmengen ansteigt. Denn dann bringt es keine Geschwindigkeitszuwachs mehr.
Zu sagen, dass der Cache ab einer bestimmten Größe überflüssig wird, kann daher nicht stimmen, denn es kommt immer auf die benutzten Datenmengen der Programme an.
Joa schon klar, aber zur Zeit siehts so aus, dass mehr als 512KB Cache kaum lohnend sind, das sieht man ja schon am TBred-Barton Update. Da sind kaum Performance Gewinne zu sehen. Das dürfte wohl auch einer der Gründe sein, weshalb man ne ziemlich lange Zeit nicht mehr als 256 KB Cache verbaut hat. Immerhin gabs so viel Cache on die schon zu Zeiten des Pentium PRO und das ist jetzt schon ziemlich lange her. Und im Mainstream Markt gibts die 256 KB schon seit dem P3, was ja auch schon einige Jahre her ist...

So einfach ist das nun auch nicht. Die Verbindungen der Cores untereinandern ist noch ein zusätzlicher Aufwand, der bei zwei einzelnen CPUs nicht auftritt.
Und was bei mehreren (physikalischen) CPUs immer ein Problem darstellt ist Cache Kohärenz. Das ist kein Grund mit einem Dual-CPU Design zu scheitern, aber das Problem ist auch nicht gerade trivial.

Aber die Prozessor Hersteller dürften doch damit genug Erfahrung haben, die Kommunikation zwischen 2 CPUs zu regeln. Gerade AMD stellt mit Hyperlink doch eine ziemlcih fortschrittliche Technologie. Das lässt doch vermuten, dass AMD wohl auch eine Dual-Core CPU recht gut meistern dürfte.
Es ist mir natürlich klar das dies kein Kinderspiel ist, aber ab einem gewissen Punkt ist es ja einfach notwendig, da sich der Takt nicht beliebig steigern lässt...

Muh-sagt-die-Kuh

2003-10-07, 23:43:23

Original geschrieben von Tesseract
input sind eben nicht die 5% sondern 105% und der output 130%
alleine bringen diese 5% nichts

und "effizient" ist er nur relativ zum p4 core ohne HTUm was anderes geht es hier doch garnicht...verglichen mit p3, k7, opteron, p-m etc. wurde die ineffizienz ausgemerzt und er hat damit nur aufgeholt
hängt halt davon ab wo man den nullpunkt setzt
ich setze ihn im durchschnitt aller mittbewerber Lass mich raten, in deinen Augen ist nur eine CPU mit hoher pro-mhz Leistung "gut"...

Muh-sagt-die-Kuh

2003-10-07, 23:55:16

Original geschrieben von GloomY
edit: @ Muh: Die 5% mehr Die-Fläche ist eine Aussage von Intel. Diese Zahl habe ich jeher schon für recht optimistisch gehalten, wenn sie überhaupt stimmt. Es gab ja nie einen Northwood ohne SMT, daher kann uns Intel alles mögliche erzählen...Alles mögliche halte ich für etwas übertrieben ;)

5% ist leider die einzige genaue Zahl die existiert und unser Die-Foto Spezialist Hans de Vries hat sich zu dem Thema leider auch nicht ausgelassen. Das einzige, was ich dir dazu noch anbieten kann, ist ein eingefärbtes DIE-Photo (http://www.aceshardware.com/articles/reviews/3GHzP4/hyperTondie.jpg) eines Northwood auf dem die duplizierten Einheiten markiert sind. Schenkt man diesem Glauben sind die 5% relativ realistisch.

Tesseract

2003-10-07, 23:55:44

Original geschrieben von Muh-sagt-die-Kuh
Lass mich raten, in deinen Augen ist nur eine CPU mit hoher pro-mhz Leistung "gut"...

nein eigendlich nicht
für mich ist eine CPU gut wenn sie die verbrauchte energie möglichst effizient umsetzt und dabei noch gute leistung bringt

ob nun viel MHz oder viel arbeit-pro takt...?
weder noch, die goldene mitte machts

ich wollte nur klar machen das der zusatz vielleicht 5% ausmacht, jedoch wird bei der funktion HT weit mehr als nur diese 5% zusätzlich verwendet, eben ein großer teil des ungenutzen cores
30% mehr power kommen also locker auf 30% mehr verwendete transistoren und damit DIE-fläche die ansonsten leer laufen

sieht man das ganze als blackbox stimmt deine aussage wieder

so gesehen haben wir beide "recht" nur sehe ich das etwas anders als du
ich würde sagen wir lassen die diskussion :)

spacewolf2000

2003-10-27, 19:16:30

ich kann mir schwer vorstellen das amd die dualcores für A64 und A64FX nutzt wohl eher für den opteron da ja der preis ordentlich steigt da man eigentlich nur halbsoviele cpus bekommt pro Wafer

da man 2 Physische kerne im gegensatz zu 2 logischen nur mit workstation,server os nutzen kann und ich es für recht unwarscheinlich halte das MS in zukunft für die Home editionen von winxp nachfolgern 2 cpus zuläßt muß sich AMD für den fall das sie dual cores zum standard machen wollen noch etwas einfallen lassen

und was HT angeht finde ich das es sehrwohl was bringt da ich auch viel mit einigen programmen gleichzeitig arbeite auch wenn man den leistungszuwachs bei audio,video programmen vergisst
schließlich brings auch was an bequemlichkeit da man beim videoentcoding (ich benutze CCE mit 4-5pass in mach dann gleich mal einiges zusammen) nebenbei ruhig zocken kann ohne den etcoder arg auszubremsen

mich würde auch interessieren bei welchen anwendungen mit HT nachteilige erfahrungen gemacht wurden
ich kenn das problem nur mit windows2000 das single cpu anwendungen langsamer werden wenn man nich eine logisch cpu deaktiviert per taskmanager liegt aber am OS und mit dem pro imagecfg läßt sich das auch dort beheben

und schließlich kosten cpus mit HT nicht mehr als die P4's mit nich aktiviertem HT

mfg

2003-10-27, 23:39:06

Original geschrieben von Muh-sagt-die-Kuh
Im Gegensatz zur Arbeit von CPUs ist die Arbeit von GPUs fast beliebig parallelisierbar, sprich ein Chip mit z.B. 16 vollwertigen Pipes und entsprechendem Speicherinterface wäre einfach nur bombastisch schnell. Original geschrieben von winter
GPUs rechnen nicht wirklich Dynamisch, sondern in Fest vorgegebenen abläufen. Da würde HT AFAIK garnichts bringen.
Wenn PS/VS 3.0 rauskommt, könnte eine Art HT bei GPUs was bringen, da es dann eher in Richtung CPU geht.
Außerdem sollten Compiler und Treiber Hand in Hand arbeiten, um die GPU optimal auszulasten.

SMP gibt es länger und SMT ist relativ neu. Wenn die Programme entsprechend optimiert sind, kann es mehr Leistung bringen. Da dauert es noch ne Weile, bis man SMT im Griff hat. IBM bringt ja auch pro quartal in letzter Zeit mehr Leistung durch Compileroptimierungen aus SMT vom Power5 raus.

Der AMD-K7 ist im Vergleich zu P4 besser ausgelastet. Aber ganz so optimal ist es nicht. Ich denke, beim K7/K8 würde ein Dual-Core bis zu 90% mehr bringen im Vergleich zu Singel-Core als SMT (bis zu 20%?). Ich schätze mal, dass Dual-Core UND SMT bei K8 insgesamt 100% und mehr an Leistung gegenüber einem normalen K8-Core bringen könnte.

Man sollte auch in Betracht ziehen, dass beim K8 mit Hypertransport einfacher ist, einen Dual-Core zu betreiben.
Da gab es einen Benchmark mit Dual-K8, bei dem der eine K8 normalen Speicherausbau hatte und der andere K8 keinen Speicher besaß. Der 2. Prozessor wurde ziemlich gut über Hypertransport versorgt, so dass beide Prozessoren noch gute Leistung brachten. Den Link finde ich im Moment nicht.

Edit
Korrekturen

Bokill

2003-10-29, 01:23:17

Aber die Prozessor Hersteller dürften doch damit genug Erfahrung haben, die Kommunikation zwischen 2 CPUs zu regeln. Gerade AMD stellt mit Hyperlink doch eine ziemlcih fortschrittliche Technologie. Das lässt doch vermuten, dass AMD wohl auch eine Dual-Core CPU recht gut meistern dürfte.

Das ist nicht nur eine Vermutung sondern eine Tatsache, allerdings hat der HTr- Link nicht wirklich etwas damit zu schaffen.
Von AMD sind da so nette Bildchen gepinselt worden, dort wird gezeigt, dass die SRQ (Eine Stufe näher zum Kern, als der X- Bar- Controller) von Natur aus eine weitere Verbindung zu einem zweiten Kern hat.

SRQ-Bildchen (http://sledgehammers.gmxhome.de/stuff/xbar.jpg)

HT is da so ne Sache, mit der SMT- Geschichte hatte Intel ne geraume Zeit Angstschweiß, da DEC mit den Alphapatenten wedelte, bzw. Compaq. So einmalig originell war Intel auch nicht, wie viele meinen. IBM dürfte da auch so einiges im Köcher haben, der Irrwitz vom Power5 zeigt dies ja schon.
Nicht wenige Alphaentwickler sind inzwischen nicht nur bei Intel gelandet, sondern auch woanders...