Phenom X2 aufgetaucht/ nicht Phenom, sondern Athlon 6500 [Archiv]

R.I.P.

2008-08-26, 14:30:33

http://geizhals.at/eu/a360548.html

Bei Geizhals neu. "Kuma" genannt. Habe noch nie davon gehört. klingt interessant

Gast

2008-08-26, 14:32:17

Ich dachte die wären gecancelt .. vielleicht ists auch nur ne Ente.

Wurschtler

2008-08-26, 14:35:49

Werden da dann 2 Kerne deaktiviert?

Anarchy-HWLUXX

2008-08-26, 14:37:44

Werden da dann 2 Kerne deaktiviert?

Bei so nem miesen Yield wär AMD scho Pleite :ucrazy:

Die X2 werden ein Native DualCore wenn sie mal kommem ...

R.I.P.

2008-08-26, 14:40:48

Wo liegt der Sinn den Kuma JETZT schon bei Geizhals aufzulisten, bzw. wer stellt Ihn bei Geizhals rein?

Anarchy-HWLUXX

2008-08-26, 14:45:30

Äääääh, das ist ja der 65nm ... ich mein die letzten Infos besagen das die direkt in 45nm kommen, würd jedenfalls mehr sinn machen.

Starker Dual der gegen C2D antreten kann + Günstig == Win

user77

2008-08-26, 14:47:20

bin gespannt, ob der sparsamer ist als ein AMD Athlon X2 4450e (2x 2.30GHz) und um wieviel schneller.

AnarchX

2008-08-26, 14:48:01

Kuma wurde natürlich gecancelt, das wird einfach nur ein noch existierender Eintrag der GH-Redaktion sein, die auch nicht existente CPUs wie den C2D E6200 schonmal geführt hatten, zumal Kuma mittlerweile schonmal Athlon 6025/6050 hieß. ;)

Der 45nm Dual-Core ist Regor und kommt 2009:
http://www.forum-3dcenter.org/vbulletin/showthread.php?t=406554

Anarchy-HWLUXX

2008-08-26, 14:49:20

Also nen Vergleich mit den A64 X2 ist nicht ganz fair, die sind inzwischen sowas von extremst optimiert ...

Gast

2008-08-26, 15:00:31

Der 45nm Dual-Core ist Regor und kommt 2009:
http://www.forum-3dcenter.org/vbulletin/showthread.php?t=406554

Hmm mist noch so lange, ich wollt mir einen Energieeffizienten Surf PC basteln :(

PhoenixFG

2008-08-26, 15:05:07

Zum Surfen braucht man doch keinen Phenom X2.

user77

2008-08-26, 15:06:42

nimm halt den: AMD Athlon 64 X2 3800+ EE SFF (35w TDP), zusammen mit einem Motherboard mit 780g chipsatz

Oblivion

2008-08-26, 15:06:59

Hmm mist noch so lange, ich wollt mir einen Energieeffizienten Surf PC basteln :(

lol, das aber dann ein etwas überdimensonierter "Surf PC"

edit: zu spät

Anarchy-HWLUXX

2008-08-26, 15:08:46

Hmm mist noch so lange, ich wollt mir einen Energieeffizienten Surf PC basteln :(
LoL ? Mein Surf PC hat nen Sparta Sempron LE1150 drin ...

Jake Dunn

2008-08-26, 15:20:10

Zum Surfen braucht man doch keinen Phenom X2.
nimm halt den: AMD Athlon 64 X2 3800+ EE SFF (35w TDP), zusammen mit einem Motherboard mit 780g chipsatz
lol, das aber dann ein etwas überdimensonierter "Surf PC"

edit: zu spät
LoL ? Mein Surf PC hat nen Sparta Sempron LE1150 drin ...

Ich möchte den eine längere Zeit nutzen 3-5 Jahre ;) und auch für HD usw.

Ich war der Gast:redface:

Anarchy-HWLUXX

2008-08-26, 15:32:49

Für HD langt dicke ein A64 X2 samt gescheiter Grafiklösung ... mer sind ja nemmer in der P4 Ära wo HD noch ne herausforderung war ...

Jake Dunn

2008-08-26, 15:37:23

Für HD langt dicke ein A64 X2 samt gescheiter Grafiklösung ... mer sind ja nemmer in der P4 Ära wo HD noch ne herausforderung war ...

Ist mir ja auch klar, noch habe ich ein PIII hier zu surfen ;D daher soll der neue auch etwas länger laufen.
Ja 780er Chipsatz von AMD hab ich schon im Auge ^^

Wird aber OT jetz :redface:

R.I.P.

2008-08-27, 14:18:28

Hmm, Computerbase, PCGH, Gamestar, alle haben über den Kuma heute berichtet, manche stellen das Ganze als KEINE Fake dar. Geizhals listet die Prozessoren immer noch.....na dann lass uns sehen

roidal

2008-08-27, 15:38:22

Mein Multimedia-PC (nicht für Spiele) hat einen Athlon 64 3500+ und ist bis jetzt noch nicht an seinen Grenzen gelangt.

Cyphermaster

2008-08-27, 15:43:06

Auf der CB-Roadmap-Darstellung steht der Kuma in 65nm Mitte '08 an, das würde passen:

http://b.imagehost.org/0197/2_4.png

Die Frage ist für mich allerdings, in wie weit sich diese AM2+ Modelle noch lohnen, wenn ab Anfang/Mitte '09 wirklich schon die ersten AM3-Sockel draußen sind. Immerhin ist die CPU für AM2-User nicht nutzbar (Tendenz wird also wohl in der breiten Masse "Warten + Komplettumstieg MoBo und CPU auf AM3" sein), und wer jetzt bereits ein AM2+ Motherboard gekauft hat, wird wohl nicht unbedingt von einem Toliman oder Agena downgraden, sondern viel mehr auf ein Modell der anstehenden Propus/Deneb-Serien gehen.

R.I.P.

2008-08-27, 15:55:10

Hmmm, alles scheint tatsächlich so als ob AMD Probleme mit Am3 und Deneb hätte:

Ausbau der AM2+ Phenoms in 65nm (neuer 9950 mit 125W, Phenom X2, etc.)
Kein AM3 Board (nur ein Referenzboard), kein Deneb auf der GC, während Nehalem mit Boards der einzelnen Hersteller nur so protzt (X58)

Was denkt Ihr?

Gast

2008-08-27, 16:34:24

Der Phenom X2 können die gleich wieder behalten, zu hoher Verbrauch zu wenig Leistung, wer kauft den sowas?

Cyphermaster

2008-08-27, 16:38:35

Die Kuma waren ja geplant, daraus Probleme zu lesen, wäre gewagt. Die GC-Performance in Richtung Deneb KÖNNTE zwar auf leichte Probleme mit dem 45nm-Prozeß hindeuten - aber das ist wohl eher Kaffeesatzleserei, da gäbe es duchaus noch andere Erklärungen/Theorien.

AnarchX

2008-08-27, 16:44:06

Phenom X2 wurde schon lange in Athlon 6000 umbenannt (http://www.computerbase.de/news/hardware/prozessoren/amd/2008/februar/roadmap_amd-prozessoren_q4_08/), die Geizhals-Listung ist ohne Links zu Shops schlicht wertlos, da sich hier die GH-Redakteure eben auch mal einen Spass erlauben können und eben Phantasie-CPUs in die Datenbank aufnehmen.

Zumal wo besteht der Sinn in 2.3GHz K10-Dualcores, die einmal für AMD sehr teuer durch den großen L3-Cache sind und auf der anderen Seite es eben nicht mit den kleinen, sparsamen Brisbanes aufnehmen können? ;)

Gast

2008-08-27, 18:07:16

Eine Preivergleichsseite listet, und alle schreiben voneinander ab. Wo soll diese Abschreiberei noch hinführen?

Heise blabla:
http://www.heise.de/newsticker/Erneut-Hinweise-auf-Prozessoren-mit-zwei-AMD-K10-Kernen--/meldung/115004

Ist das noch sauberer Journalismus? Da recherchiert unser AnarchX seriöser!

AnarchX

2008-08-29, 08:42:41

Interessanter und relevanter ist da schon das:

CPU FSB / HT BUS Ratio Result
AM2+ Athlon(FSB200, L2 Cache 1M)
Kuma 6500(B3, 95W) 200 11.5 SINCE 3.0O
http://global.msi.com.tw/index.php?func=prodcpusupport&prod_no=1244&maincat_no=1

Fragt sich nur wer $105 für einen 2.3GHz K10-DC ausgibt, wenn er mit K8-Technologie 3.1GHz bekommt für $95, zumal der Kunde der "6500+" Performance erwarten wird, die wohl so nicht möglich ist.

Gast

2008-08-29, 10:37:38

AMD Athlon 64 X2 6500 AM2 CPU 95Watt 3MB Black Edition (AD6500WCGHBOX)

Laut Großhändler.

AnarchX

2008-08-29, 10:42:51

AMD Athlon 64 X2 6500+ 2.3GHz Black Socket AM2 3Mb Fsb1000 95w PIB
http://www.isy.com/i/mkg/SkP.asp?id_prod=41805

Bleibt trotzdem die Frage, wer Interesse an einem 95W 2.3GHz Dual-Core haben könnte.:|

PCGH hatte mal eine 2.3/2.4GHz K10-DC simuliert:
http://www.pcgameshardware.de/&menu=browser&image_id=739536&article_id=622354
http://www.pcgameshardware.de/?article_id=622892
THG hatte sich die pro-MHz-Leistung vom K10 im Vergleich zum K8 auch einmal angeschaut:
http://www.tomshardware.com/de/CPU-Phenom-Athlon,testberichte-239908.html

HOT

2008-08-29, 11:23:36

Das der K10 X2 Athlon heißt, ist doch schon seit fast einem Jahr bekannt - AMD benennt alle DualCores Athlon und nur alles darüber Phenom. Und der ist 100% ein teildeaktivierter Agena, da er 95W TDP hat, bis 2,5GHz geht und, das entscheidende, ein B3 ist. Für so einen Nischenprozessor gibts keine eigene Maske. Immerhin kommt er direkt als BE :D.

Das ist die entscheidende Frage AnarchX. Deswegen sag ich ja, das ist ein OEM-Nischenprodukt, sonst nichts. Man verringert den Ausschuss. Viele wirds davon sicherlich auch nicht geben.

deekey777

2008-08-29, 23:30:27

Interessanter und relevanter ist da schon das:

http://global.msi.com.tw/index.php?func=prodcpusupport&prod_no=1244&maincat_no=1

Fragt sich nur wer $105 für einen 2.3GHz K10-DC ausgibt, wenn er mit K8-Technologie 3.1GHz bekommt für $95, zumal der Kunde der "6500+" Performance erwarten wird, die wohl so nicht möglich ist.

Man achte auf die richtige Bezeichnung: 6500 und nicht 6500+.

samm

2008-08-30, 01:45:13

Nicht nur das "+" ist falsch in der Bezeichnung, sondern evt. auch die ganze "Black Edition"-Sache: "BE" könnte eine Leistungskategorisierung sein.

S940

2008-08-30, 08:35:39

Nicht nur das "+" ist falsch in der Bezeichnung, sondern evt. auch die ganze "Black Edition"-Sache: "BE" könnte eine Leistungskategorisierung sein.
Denke ich auch, für ne echte Black Edition fehlt das "Z" in der OPN ...

HOT

2008-08-30, 10:11:40

Athlon 4000 < K8 2,5GHz
Athlon 5000 > K8 2,5GHz
Athlon 6000 = K10 X2 (Agena B3)
Phenom 8000 = K10 X3
Phenom 9000 = K10 X4

Das ist AMDs endgültige Abkehr vom Performancerating.

Raff

2008-08-30, 19:17:02

PCGH hatte mal eine 2.3/2.4GHz K10-DC simuliert:
http://www.pcgameshardware.de/&menu=browser&image_id=739536&article_id=622354
http://www.pcgameshardware.de/?article_id=622892

Neu: http://www.pcgameshardware.de/aid,658129/Test/Benchmark/PCGH-Test_AMD_Phenom_X2_GE-6600_GE-6500_und_GE-6400/

Demnach verhaut der GE-6600 auch mal einen Athlon 64 X2 6400+.

MfG,
Raff

w0mbat

2008-08-30, 19:21:12

Der 2,3GHz Kuma bewegt sich also auf dem Niveau eines E6600 - hätte ich nicht erwartet.

anddill

2008-08-30, 19:22:28

Neu: http://www.pcgameshardware.de/aid,658129/Test/Benchmark/PCGH-Test_AMD_Phenom_X2_GE-6600_GE-6500_und_GE-6400/

Demnach verhaut der GE-6600 auch mal einen Athlon 64 X2 6400+.

MfG,
Raff
Schau nochmal genauer in die Diagramme. Er legt sich mit dem x2 6000+ an.

Gast

2008-08-30, 19:55:19

Neu: http://www.pcgameshardware.de/aid,658129/Test/Benchmark/PCGH-Test_AMD_Phenom_X2_GE-6600_GE-6500_und_GE-6400/

Demnach verhaut der GE-6600 auch mal einen Athlon 64 X2 6400+.

MfG,
Raff

Wie sieht es mit dem L2 Cache aus? Der Vierkerner hat 4x512 KB. Wenn ihr 2 Kerne deaktiviert gibt es nur noch 2x512 KB, oder können die noch auf die anderen 2x512 KB zugreifen?

S940

2008-08-30, 20:44:20

Wie sieht es mit dem L2 Cache aus? Der Vierkerner hat 4x512 KB. Wenn ihr 2 Kerne deaktiviert gibt es nur noch 2x512 KB, oder können die noch auf die anderen 2x512 KB zugreifen?
Lol, ne, das geht natürlich nicht, der L2 gehört zu nem Kern, und der Kern is abgeschaltet ... tot ... Sicherung geschossen ... rien ne va plus

ciao

Alex

anddill

2008-08-30, 20:44:57

Wie sieht es mit dem L2 Cache aus? Der Vierkerner hat 4x512 KB. Wenn ihr 2 Kerne deaktiviert gibt es nur noch 2x512 KB, oder können die noch auf die anderen 2x512 KB zugreifen?
Nein, die sind den Kernen fest zugeordnet und damit verloren.

Gast

2008-08-31, 13:33:16

Immerhin ist die CPU für AM2-User nicht nutzbar

Das stimmt doch gar nicht. Das ist nur eine frage des BIOS'.

Raff

2008-08-31, 14:58:43

Schau nochmal genauer in die Diagramme. Er legt sich mit dem x2 6000+ an.

Hochgerechnet natürlich. :) In Race Driver Grid herrscht vermutlich Gleichstand.

MfG,
Raff

Sefegiru

2008-09-03, 09:34:04

Hat den denn nun schon jemand? Ich meine lieferbar ist er ja nun.

Undertaker

2008-09-03, 10:23:37

Der 2,3GHz Kuma bewegt sich also auf dem Niveau eines E6600 - hätte ich nicht erwartet.

Das wird wohl seltenst der Fall sein - im Regelfall wird er eher mit C2 CPUs von 1,9-2,2GHz kämpfen müssen, wenn man einmal die Ergebnisse der Kentsfield/Penryn vs. Phenom Vergleiche betrachtet.

Beavis

2008-09-03, 20:10:08

Laut Geizhals und shops hat der x2 phenom auch 3MB L3-Cache und nicht nur 2 wie der x4. Ob das jetzt bei allen shops ein Tippfehler ist sei mal dahingestellt.

AnarchX

2008-09-03, 20:12:27

Laut Geizhals und shops hat der x2 phenom auch 3MB L3-Cache und nicht nur 2 wie der x4. Ob das jetzt bei allen shops ein Tippfehler ist sei mal dahingestellt.
Natürlich ein Tippfehler, bei dem man die 2x0.5MB L2 Cache zu den 2MB shared L3 hinzugerechnet hat.

stickedy

2008-09-04, 16:01:50

P3DNow! hat ne Erläuterung zum Prozessor: http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&id=1220533243

Also 2 MB L3-Cache, 65 nm, 95 W TDP, Black Edition, Agena-Kern mit 2 deaktivierten Kernen

Beavis

2008-09-04, 16:13:50

P3DNow! hat ne Erläuterung zum Prozessor: http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&id=1220533243

Also 2 MB L2-Cache, 65 nm, 95 W TDP, Black Edition, Agena-Kern mit 2 deaktivierten Kernen

Bitte nicht noch mehr Verwirrung stiften. Es sind 2MB L3-Cache und 2x512kb L2-Cache.

stickedy

2008-09-04, 16:15:38

Bitte nicht noch mehr Verwirrung stiften. Es sind 2MB L3-Cache und 2x512kb L2-Cache.
Ich hab mich doch nur vertippt! :) Sollte ja klar sein, dass es L3-Cache sein muss... Im Link is es ja auch richtig :)

BvB123

2008-09-04, 21:22:51

Also verdoppelter L3 Cache für die beiden Kerne. Mal sehen was es bringt.

Thunder99

2008-09-11, 10:49:03

Also wenn 2,3Ghz mit den alten K8 @ 3,0Ghz aufnehmen können und die 45nm Variante noch etwas optimiert wird, dann sehe ich einen Gleichstand vom X2@45nm zum Wolfdale von Intel :)
AMD ist schon auf dem richtigen Weg, jetzt müssen sie nur noch etwas Geld haben um alles zu verwirklichen :(

Gast

2008-09-11, 13:40:27

Also wenn 2,3Ghz mit den alten K8 @ 3,0Ghz aufnehmen können und die 45nm Variante noch etwas optimiert wird, dann sehe ich einen Gleichstand vom X2@45nm zum Wolfdale von Intel :)
AMD ist schon auf dem richtigen Weg, jetzt müssen sie nur noch etwas Geld haben um alles zu verwirklichen :(

^^ was, das Ding ist total werlos, die CPU säuft das doppelte von dem Core 2 Duo.
Intel hatte letztes Jahr schon schnellere 2 Kerner die weniger verbaucht hatte.

Gast

2008-09-11, 13:50:28

^^ was, das Ding ist total werlos, die CPU säuft das doppelte von dem Core 2 Duo.
Intel hatte letztes Jahr schon schnellere 2 Kerner die weniger verbaucht hatte.
danke für diesen unwissenden kommentar. evnt. ist der zusätzliche cache stromhungrig? oder die deaktivierten 2 cores steigern nicht gerade die effizienz? und zu allerletzt, wo wurden reale messungen vorgenommen? danke und tschüss

dr.denton

2008-09-12, 09:17:50

Lass' stecken - es gibt eben immer noch Menschen, für die TDP = Stromverbrauch bedeutet ... sollen einfach weiterhin träumen :)

Einige dieser Ergebnisse sehen tatsächlich sehr interessant aus - ich bin kein CPU-Profi, daher mal die blöde Frage: kann der Leistungsunterschied alleine dem schnelleren SSE und den größeren Caches geschuldet sein ? Insbesondere der Cinebench nutzt die verbesserte SSE-Ausführung des K10 doch gar nicht, oder ?

mfG

denton

S940

2008-09-12, 10:22:54

Lass' stecken - es gibt eben immer noch Menschen, für die TDP = Stromverbrauch bedeutet ... sollen einfach weiterhin träumen :)

Einige dieser Ergebnisse sehen tatsächlich sehr interessant aus - ich bin kein CPU-Profi, daher mal die blöde Frage: kann der Leistungsunterschied alleine dem schnelleren SSE und den größeren Caches geschuldet sein ? Insbesondere der Cinebench nutzt die verbesserte SSE-Ausführung des K10 doch gar nicht, oder ? Hauptsächlich Cache. Erstens durch die größere Menge, und zweitens, da die Kerne jetzt Daten über den L3 austauschen können. Das geht fix.

Was Cinebench genau nutzt weiss ich nicht, aber jeder 128bit Befehl wird schneller ... ist nur die Frage, ob der K10 auch SSE Code vorgesetzt bekommt. Eventuell sollte man da zum Vergleich Cinebench 11 abwarten, gibt mittlerweile ja auch schon Cinebench 10 mit der neuen - K10 optimierten - Cinema4D engine.
Da werden aber erstmal alle CPUs schneller nen K8 vs. K10 Benchmarkvergleich gibts noch nicht.

ciao

Alex

BlackBirdSR

2008-09-23, 20:03:32

Was Cinebench genau nutzt weiss ich nicht, aber jeder 128bit Befehl wird schneller ... ist nur die Frage, ob der K10 auch SSE Code vorgesetzt bekommt.
Alex

Ich schau dann mal nach. Aber es sind ja keine 128Bit "Befehle" ;)
Auf meinem K8 nutzt Cinebench in der 32-Bit-Version nur x87 (also mit der netten Compileroption für Intel und dann bitte noch nen x87-Pfad für das restliche Volk)
Die 64-Bit Version nutzt wie zu erwarten war einen Mix aus scalarem und vector SSE (3:7)

S940

2008-09-23, 20:25:14

Ich schau dann mal nach. Aber es sind ja keine 128Bit "Befehle" ;)
Öhm doch, ich meinte SSE Instruktionen über die volle 128bit Breite eines XMM Registers, es gibts auch welche die nur die Hälfte davon ansprechen, d.h. also 64bit, davon hat der K10 aber nichts :(

Edit:
Thema hatten wir schon mal:
http://www.forum-3dcenter.org/vbulletin/showthread.php?p=6692873#post6692873

Deswegen kam es mir so bekannt vor ^^

Gibts irgendne andre Bezeichnung für das, was ich mit 128bit Befehle meine ? Ich passe mich da gerne offiziellen Standards an, aber bisher dachte ich das passe so :(

Edit2:
Kannst Du spasseshalber noch die neue Cinebench11 mit Cinema4D testen ?
Gibts im Atom 330 thread:
http://www.forum-3dcenter.org/vbulletin/showpost.php?p=6782589&postcount=26

Danke & ciao

Alex

BlackBirdSR

2008-09-23, 20:37:23

Öhm doch, ich meinte SSE Instruktionen über die volle 128bit Breite eines XMM Registers, es gibts auch welche die nur die Hälfte davon ansprechen, d.h. also 64bit, davon hat der K10 aber nichts :(

Und nochmal. Das sind die gleichen SSE-Instruktionen die auch der K8 bekommt. Und auch der K8 nutzt die volle breite der XMM-Register. Wie sonst könnte er 2 DP-Ops berechnen. Barcelona hat 128Bit breite Datenpfade zu den 128Bit-FUs. Dadurch können die Daten im XMM-Register in einem Durchgang berechnet werden, und müssen nicht (wie beim K8) auf 2 64Bit Operationen aufgeteilt werden.
Dadurch verdoppelt sich die effektive SIMD-Leistung wenn FADD und FMUL in gleichen Anteilen vorhanden sind.
Das funktioniert mit dem simpelsten SSE/2-Profil das der Intel Compiler z.B für den K8 anlegt. Und schon hat sich die Leistung gesteigert. Das ist ja das tolle an Barcelona.
Von 64Bit scalarem SSE2 hat keiner mehr oder weniger.

Gibts irgendne andre Bezeichnung für das, was ich mit 128bit Befehle meine ? Ich passe mich da gerne offiziellen Standards an, aber bisher dachte ich das passe so :(

Ja.. 128Bit-SIMD. So heißt die Sache seit dem Pentium3 und hat sich bis heute nicht verändert. Es kamen nur DP-Ops (SSE2) dazu. Du musst und kannst nicht zwischen K8 und K10 unterscheiden. Beide berechnen das Gleiche. K10 machts nur nicht so umständlich!

Edit2:
Kannst Du spasseshalber noch die neue Cinebench11 mit Cinema4D testen ?
Gibts im Atom 330 thread:
http://www.forum-3dcenter.org/vbulletin/showpost.php?p=6782589&postcount=26

Danke & ciao

kommt später

Alex[/quote]

Coda

2008-09-23, 21:16:46

Also verdoppelter L3 Cache für die beiden Kerne.
So kannst du das aus vielerlei Gründen nicht sehen.

Barcelona hat 128Bit breite Datenpfade zu den 128Bit-FUs. Dadurch können die Daten im XMM-Register in einem Durchgang berechnet werden, und müssen nicht (wie beim K8) auf 2 64Bit Operationen aufgeteilt werden.
Es wurden doch auch die Funktionseinheiten verdoppelt dafür oder nicht? Also 2x64-Bit und 4x32-Bit, statt 1x64 Bit und 2x32-Bit.

S940

2008-09-23, 21:21:28

Und nochmal. Das sind die gleichen SSE-Instruktionen die auch der K8 bekommt. Und auch der K8 nutzt die volle breite der XMM-Register. Wie sonst könnte er 2 DP-Ops berechnen. Barcelona hat 128Bit breite Datenpfade zu den 128Bit-FUs. Dadurch können die Daten im XMM-Register in einem Durchgang berechnet werden, und müssen nicht (wie beim K8) auf 2 64Bit Operationen aufgeteilt werden.Jupp, das ist der Fall, wenn man ne Instruktion hat, die auch 128bit bewegt, wie z.B.:

MOVAPS
Moves four packed single-precision floating-point values

Single precision = 32bit, hier gehts um vier Stück gleichzeitig, also zusammen ein 128bit Paket.

Der K8 versteht den Befehl, muss das aber in 2 Happen abarbeiten, der K10 schafft selbiges in einem Takt. Genau der Fall, den Du oben schilderst.

Was ich jetzt aber meine sind SSE Befehle, die eben *nicht* 128bit Daten bearbeiten, so was gibts durchaus:

MOVLPS
Moves two packed single-precision floating-point values:

* from a 64-bit memory location to the low-order 64 bits of an XMM register, or
* from the low-order 64 bits of an XMM register to a 64-bit memory location

Da hilft Dir die K10 128bit Breite überhaupt nichts, da der Befehl nur ein Paket aus zwei floats á 32bit = 64bit bearbeitet. Genausowenig nützt dir ein Porsche in der 30 Zone ... mehr als 30 geht nicht. Klar, der Porsche könnte schneller gehen .. aber nur auf ner andren Strasse, d.h. unter andren Bedingungen und ohne Begrenzung ;-)

So jetzt die Frage, wer so doof ist, und solche Befehle überhaupt benutz, wie man sieht hat ein 128er Befehl ja immer die Nase vorne...

Antwort: AMD SSE code, da im alten AMD Handbuch stand, dass man einen 128bit load besser in 2x64 aufsplitten solle, da das beim K8 ebenfalls in einem Rutsch geht. Grund: Der dual-ported Cache des K8, damit kann man in einem Takt zwei 64bit Loads durchführen, aber eben keinen 128bit load.

Das würde jetzt wiederrum der K10 schaffen ... aber mit altem K8 Code werden nachwievor nur 2x64bit geladen, Befehl ist Befehl ^^

Frage ist aber auch, obs überhaupt soviel SSE K8 Code gibt, wie man an cinebench sieht, wird da sogar nur x87 Code benützt ... toll :|

kommt späterSchon mal ein dickes Danke im vorraus :)

Es wurden doch auch die Funktionseinheiten verdoppelt dafür oder nicht? Also 2x64-Bit und 4x32-Bit, statt 1x64 Bit und 2x32-Bit.Deswegen schrieb er auch 128-bit FU (= Function Unit = Funktionseinheit) :)

ciao

Alex

schmacko

2008-09-23, 21:52:42

Kannst Du spasseshalber noch die neue Cinebench11 mit Cinema4D testen ?
Gibts im Atom 330 thread:
http://www.forum-3dcenter.org/vbulletin/showpost.php?p=6782589&postcount=26

ist im archiv von rapidshare schon das passende? wenn ich den cinebench dort ausführe liefert mein phenom9500@2400mhz (mit deaktiviertem tlb-patch)
1 cpu: 4949
4 Cpu: 17823
speedup: 3,6

ich hab noch einen alten screenshot gefunden vom normalen cb10 (ob mit oder ohne tlb-patch weiß ich nicht), demnach:
1 cpu: 2184
4 cpu: 9558
speedup: 4,38

(Edit: werte ohne cnq gefunden, ohne tlb-patch:
1 cpu: 2629
4 cpu: 9654)

"alt" war auch mit vista64, das von cb10 auch erkannt wurde, "deine" version zeigt mir trotz gleichem vista aber nur eine 32bit-version an.

edit 2:
grad noch normales cb10-64bit laufen lassen:
2409-9232-3,83
vergleich für 4cpu-zeit dein cb10/11 vs. orig. cb10:
0:49 vs. 1:35

ich staune bauklötze! liegt der unterschied "nur" im compiler?

BlackBirdSR

2008-09-23, 22:06:02

MOVAPS
Moves four packed single-precision floating-point values

Single precision = 32bit, hier gehts um vier Stück gleichzeitig, also zusammen ein 128bit Paket.

Der K8 versteht den Befehl, muss das aber in 2 Happen abarbeiten, der K10 schafft selbiges in einem Takt. Genau der Fall, den Du oben schilderst.

Was ich jetzt aber meine sind SSE Befehle, die eben *nicht* 128bit Daten bearbeiten, so was gibts durchaus:

MOVLPS
Moves two packed single-precision floating-point values:

* from a 64-bit memory location to the low-order 64 bits of an XMM register, or
* from the low-order 64 bits of an XMM register to a 64-bit memory location

Da hilft Dir die K10 128bit Breite überhaupt nichts, da der Befehl nur ein Paket aus zwei floats á 32bit = 64bit bearbeitet. Genausowenig nützt dir ein Porsche in der 30 Zone ... mehr als 30 geht nicht. Klar, der Porsche könnte schneller gehen .. aber nur auf ner andren Strasse, d.h. unter andren Bedingungen und ohne Begrenzung ;-)

Alex

Das geht doch dann jedem so. Dumm ist nur, wenn die Intel CPU auf einer Nebenstraße 100 fahren darf. Und das ist das Problem mit Benchmarks die mit Intels Compiler entstanden sind :(
@Coda: die Anzahl bleibt IMO gleich. Die FUs sind jetzt allerdings 128Bit statt 80Bit breit.

Der Punkt ist doch der: Barcelona hat in vielen Bereichen Verbesserungen ggü dem K8 was SSE betrifft vorzuweisen. Viele davon kommen automatisch zum Zug und müssen nicht extra per Optimierung aktiviert werden. Daher hat Barcelona automatisch Vorteile. Ich brauch nur das alte Flops von 92 mit SSE2-Generic zu kompellieren und Barcelona bringt fast doppelte Leistung (bei FADD/FMULL) und signifikant höhere bei Division.

Cinebench: Die Performancecounter zeigen, dass die 10_11-Version nur minimale Mengen an x87-Code ausführt. Ist ziemlich ausgeglichen zwischen Scalar und SIMD SSE.
Hab noch keinen Benchmark gefahren, aber sollte dementsprechend schneller sein. Leider keine 64Bit-Version dabei.

S940

2008-09-23, 23:25:01

ist im archiv von rapidshare schon das passende?
(...)
ich staune bauklötze! liegt der unterschied "nur" im compiler?
Jupp, das ist eine Bastelbinary, cinebench 10 Rohdaten und die Executables aus der R11 Demo Version.

Was die da genau gemacht haben weiss ich nicht, es wird aber wohl mehr als nur ein Compiler sein. Vermutlich haben die da auch handgecoded.

Pi*Daumen sind auch alle CPUs um ca. 30% schneller. Ob der K10 ein bisschen schneller wird als der K8 weiss ich nicht, gibt zuwenige Vergleichtests, als dass man schon was sagen könnte.

Das geht doch dann jedem so. Dumm ist nur, wenn die Intel CPU auf einer Nebenstraße 100 fahren darf. Und das ist das Problem mit Benchmarks die mit Intels Compiler entstanden sind :(

Jo, aber die besagte Code-Optimierungs Empfehlung in 2x64 statt 1x128 gabs nur im AMD OptimierungsPDF, da Intel nur nen single-port Cache hat.

Der Punkt ist doch der: Barcelona hat in vielen Bereichen Verbesserungen ggü dem K8 was SSE betrifft vorzuweisen. Viele davon kommen automatisch zum Zug und müssen nicht extra per Optimierung aktiviert werden. Daher hat Barcelona automatisch Vorteile. Ich brauch nur das alte Flops von 92 mit SSE2-Generic zu kompellieren und Barcelona bringt fast doppelte Leistung (bei FADD/FMULL) und signifikant höhere bei Division.
Ja, ausgenommen ist halt obiger Fall mit den 2x64bit Befehlen, aber so wie es ausschaut optimiert(e) eh keine Wald und Wiesensoftwarefirma auf AMD K8. Betroffen sind wohl nur HPC Leute, die nen Opteron Cluster rumstehen haben, und bei Ihrem Code jedes Bit einzeln kennen. So gesehen gut für AMD, dass früher nur x87 lief :D

ciao

Alex

P.S: Wo das Thema eventuell auch noch auftaucht ist der Everest Cachebench, die scheinen da auch nur 2x64bit zu laden:
http://abinstein.blogspot.com/2008/04/two-sides-of-mirror-on-k10-vs-core2.html
Wenns 1x128bit wäre, sollte der dual port schließlich funktionieren, wüßte nicht, wie man auswählen sollte, von welchem Port man Daten laden will ... (auch wenn der obige Autor meint, dass das ginge )
P.P.S: Der Blog Eintrag ist von April, vielleicht gabs seidem schon ein Everest Update ?

schmacko

2008-09-23, 23:48:00

Jupp, das ist eine Bastelbinary, cinebench 10 Rohdaten und die Executables aus der R11 Demo Version.
danke für die antwort. ich war mir nicht sicher, ob ich da jetzt nochmals basteln muss. dass es so fertig ist, ist für mich schon wirklich fein.

Pi*Daumen sind auch alle CPUs um ca. 30% schneller.

aber fast 100% besser bei meinem phenom finde ich schon phänomenal! :eek:

im pc der kinder steckt ein alter k8 - vielleicht komme ich morgen dazu den mit beiden cbs zu testen.

S940

2008-09-23, 23:55:19

danke für die antwort. ich war mir nicht sicher, ob ich da jetzt nochmals basteln muss. dass es so fertig ist, ist für mich schon wirklich fein.

aber fast 100% besser bei meinem phenom finde ich schon phänomenal! :eek:

im pc der kinder steckt ein alter k8 - vielleicht komme ich morgen dazu den mit beiden cbs zu testen.
Sorry, hatte mich vertan, ein 2,3faches Speedup ist "normal".
Bisherige Messwerte waren:

K10 Speedup 2.45
K8 Speedup 2.32
C2Q 6600 Speedup: 2.32

Aber jeweils nur 1 Test ^^
Falls möglich, dann teste den K8 mit der gleichen Takt- und Ramfrequenz.

Danke & ciao

Alex

BlackBirdSR

2008-09-24, 08:38:31

K8 2.4GHz

1958 Cinebench 10_32 (nur x87)
2167 Cinebench 10_64 (nur SSE2 scalar&SIMD)
4549 Cinebench 11_32 (fast nur SSE2 scalar&SIMD)

Core2 3GHz

3064 Cinebench 10_32
3477 Cinebench 10_64
7304 Cinebench 11_32

Obwohl die 64Bit Version beim K8 SIMD und Scalar SSE2 nutzen muss!, ist der Unterschied nur sehr gering. Und das obwohl vorher nur x87 im Einsatz war. Anscheinend nutzt Cinebench nur double-precision. Hier ist der Gewinn durch SSE2 nicht mehr so hoch. Ich kann leider nicht auf die Performancecounter des Core2 zugreifen, würde aber mal dumm schätzen, dass der auch nur x87 bei 10_32Bit bekommt.

Was der 10_11er Hybride macht weiss ich auch nicht.

S940

2008-09-24, 11:03:10

Danke,

Der K8 scheint wirklich ein stabiles Speedup von 2,32 zu haben, Du hast genau das gleiche Verhältnis gemessen. Der Core2 wird 2,38fach schneller.
Ob der Core2 auch nur x87 bekommt .. ich weiss nicht, der hatte doch nur 2 x87 FUs, während AMD 3 hat ... oder ?

Weiss jetzt nicht mehr genau .. so oder so wirds ne komplizierte Rechnung, wg. 600 MHz und ein paar MB Cache mehr .

ciao

Alex

Hakkerstiwwel

2008-09-24, 11:20:02

Review auf expreview eines 6500 b/e. Sieht nicht schlecht aus, bis auf den Stromverbrauch
http://en.expreview.com/2008/09/23/amds-best-dual-core-ever-athlon-6500-kuma-review/

schmacko

2008-09-24, 11:26:25

ich habe auf meinem phenom jetzt die 32bit-versionen gemessen (unter vista 64).

cpu cb10-11 = cb10 = skalierung
1 4951 1994 2,48
4 18091 7581 2,39

der a64 mit ddr1 der kinder läuft unter xp32 - ich werde gegen abend diesen post verändern.

BlackBirdSR

2008-09-24, 11:28:08

Danke,

Der K8 scheint wirklich ein stabiles Speedup von 2,32 zu haben, Du hast genau das gleiche Verhältnis gemessen. Der Core2 wird 2,38fach schneller.
Ob der Core2 auch nur x87 bekommt .. ich weiss nicht, der hatte doch nur 2 x87 FUs, während AMD 3 hat ... oder ?

Alex

Der K7/8/10 hat eine extra ausgewiesene FMISC/FSTORE-Einheit. Aber das wirkt sich jetzt nicht direkt auf den Durchsatz bei FADD/FMUL aus.
Dort hat auch der Core2 nachgelegt und den Rückstand des P3/P4 endgültig aufgeholt. Rein von der Ausführungsleistung der Einheiten liegt er bei x87 über dem K8/10 (solange der Anteil an FDIV nicht zu hoch ist). Penryn hat da nochmal ein paar % zugelegt.
Wenn Core2 also auch x87 schlucken muss bei Cinebench32, dann kommt die höhere Performance durch besseres FrontEnd, weniger Engpässe im Backend, und vielleicht ein paar Intel spezifische Compilertricks.

Ich bin der Meinung, dass der Cinebench10_11 Speedup nicht "groß" von neuen Befehlssätzen oder besserer Vektorisierung kommt. Dazu sind die Werte wohl durch die Bank zu gleich. Sieht mir eher nach einer Verbesserung des Rendervorgangs an sich aus. (oder weniger genau *g*)

S940

2008-09-24, 17:19:49

Der K7/8/10 hat eine extra ausgewiesene FMISC/FSTORE-Einheit. Aber das wirkt sich jetzt nicht direkt auf den Durchsatz bei FADD/FMUL aus.
Dort hat auch der Core2 nachgelegt und den Rückstand des P3/P4 endgültig aufgeholt. Rein von der Ausführungsleistung der Einheiten liegt er bei x87 über dem K8/10 (solange der Anteil an FDIV nicht zu hoch ist). Penryn hat da nochmal ein paar % zugelegt.Ok, alles klar, Danke.
Hier noch ein Beispiel für den K10 mit einer K8 optimierten Library:

http://www.digit-life.com/articles3/cpu/phenom-x4-matlab-p1.html

Nicht wirklich toll ... und besoders schlimm ist, dass MatLab nicht mit der neusten AMD Lib lief :(

ciao

Alex

Coda

2008-09-24, 22:39:33

@Coda: die Anzahl bleibt IMO gleich. Die FUs sind jetzt allerdings 128Bit statt 80Bit breit.
Erm nein. Du kannst nicht einfach mit einer "80 Bit" FP-Unit so einfach mal 2x32 Bit berechnen. Man kann zwar gewisse Logikteile gemeinsam verwenden, aber viele Teile muss man getrennt auslegen.

BlackBirdSR

2008-09-25, 07:58:59

Erm nein. Du kannst nicht einfach mit einer "80 Bit" FP-Unit so einfach mal 2x32 Bit berechnen. Man kann zwar gewisse Logikteile gemeinsam verwenden, aber viele Teile muss man getrennt auslegen.

Ich hab leider keinen Ahnung wie AMD die Einheiten auf Schaltungsebene aufbaut. Ich weiss nur, dass alle Dokumente davon sprechen, dass die FPUs von 64Bit oder 80Bit auf 128Bit verbreitert wurden. Wie genau das verschaltet ist, und wie breit in der kleinsten Einheit gearbeitet wird, K.A wüsste auch nicht woher.
Man findet auch nirgends etwas anderes als diese Angabe: Einheiten von 64Bit auf 128Bit verbreitert.

S940

2008-09-25, 11:18:57

Ich hab leider keinen Ahnung wie AMD die Einheiten auf Schaltungsebene aufbaut. Ich weiss nur, dass alle Dokumente davon sprechen, dass die FPUs von 64Bit oder 80Bit auf 128Bit verbreitert wurden. Wie genau das verschaltet ist, und wie breit in der kleinsten Einheit gearbeitet wird, K.A wüsste auch nicht woher.
Man findet auch nirgends etwas anderes als diese Angabe: Einheiten von 64Bit auf 128Bit verbreitert.
Das Problem war/ist, dass x87 80bit breit ist, SSE aber nur 64 und 128bit Register hat. AMD hat da einfach die FPU verbreitert, sieht man schön auf den DIE Shots, wenn man K8 und K10 vergleicht.

http://www.chip-architect.com/news/K8L_floorplan.jpg (128bitFP Einheiten Links)

und noch besser hier:
http://upload.wikimedia.org/wikipedia/en/9/9e/AMD_Barcelona_die.jpg (FPUs jewils am innerem Rand, links & rechts)
Da sieht man deutlich die Trennung zw. alter 80bit FPU, und dem neuen, wohl 48bit breiten Teil (noch weiter außen).
Eventuell sinds auch zusätzliche 64bit. Das ist wohl wahrscheinlicher, da man die überschüssigen 16bit der ersten Einheit kaum recyceln kann.

Edit: obigen Link korrigiert.

ciao

Alex

BlackBirdSR

2008-09-25, 12:03:14

Das Problem war/ist, dass x87 80bit breit ist, SSE aber nur 64 und 128bit Register hat. AMD hat da einfach die FPU verbreitert, sieht man schön auf den DIE Shots, wenn man K8 und K10 vergleicht.

Alex

Ich glaube Code ging es eher um die Low-Level-Implementation.
Wie gesagt: von 64(80) auf 128Bit verbreitern ist schön und gut. Aber auf Designebene eben nur ein abstrakter Begriff.

S940

2008-09-25, 12:25:47

Ich glaube Code ging es eher um die Low-Level-Implementation.
Wie gesagt: von 64(80) auf 128Bit verbreitern ist schön und gut. Aber auf Designebene eben nur ein abstrakter Begriff.
"low-level" ... naja wie "low" muss es denn sein ? Tiefer als das hier kenn ich nichts:

(Chapter 2, Opteron's Floating Point Units)
http://www.chip-architect.com/news/2003_09_21_Detailed_Architecture_of_AMDs_64bit_Core.html#2

Das ist bekanntermaßen nur der K8, aber wie man am K10 Photo sieht, wurde da nur das Gleiche nochmal ins Design kopiert. Da muss ein 128bit wert also in 2x64 aufgesplittet werden .. aber wie das genau geht ..bei binären additionen ist das noch trivial, Multiplikation ... keine Ahnung .. aber anscheinend gehts :)

ciao

Alex

BlackBirdSR

2008-09-25, 12:29:32

"low-level" ... naja wie "low" muss es denn sein ? Tiefer als das hier kenn ich nichts:

(Chapter 2, Opteron's Floating Point Units)
http://www.chip-architect.com/news/2003_09_21_Detailed_Architecture_of_AMDs_64bit_Core.html#2

Das ist bekanntermaßen nur der K8, aber wie man am K10 Photo sieht, wurde da nur das Gleiche nochmal ins Design kopiert. Da muss ein 128bit wert also in 2x64 aufgesplittet werden .. aber wie das genau geht ..bei binären additionen ist das noch trivial, Multiplikation ... keine Ahnung .. aber anscheinend gehts :)

ciao

Alex

Die arbeiten dann halt dann vielleicht an zwei unterschiedlichen Hälften im Register. Aufsplitten muss man einen 128Bit-Wert nicht, da es ihn nicht gibt. Im 128Bit Register sind entweder 2 unabhängige 64Bit oder 4x32Bit Datenpakete. Also kein problem.
Coda hat es anscheinend richtig erkannt. Die haben die Anzahl der FUs verdoppelt, indem zwei, sorry drei, Einheitenblocks nur für SIMD-Berechnungen hinzugekommen sind.

S940

2008-09-25, 12:38:41

Die arbeiten dann halt dann vielleicht an zwei unterschiedlichen Hälften im Register. Aufsplitten muss man einen 128Bit-Wert nicht, da es ihn nicht gibt. Im 128Bit Register sind entweder 2 unabhängige 64Bit oder 4x32Bit Datenpakete. Also kein problem.
Lol, ahja stimmt ja, hatte ich ja gestern erst gelesen ^^ Ja, dann passt das :)
Coda hat es anscheinend richtig erkannt. Die haben die Anzahl der FUs verdoppelt, indem zwei Einheitenblocks nur für SIMD-Berechnungen hinzugekommen sind.Öhm ? zwei FUs mehr ? Du meinst einen mehr, oder ? Also einen zweiten: Der uralte K8 Block (für max. 80bit) + der neue (wahrscheinlich 64bit) Block.
Edit:
Drei ? Jetzt bin ich komplett verwirrt ^^

Edit2:
Erklär am Besten, was Du unter Block verstehst, daran klemmts wohl gerade :)

ciao

Alex

BlackBirdSR

2008-09-25, 12:43:54

Lol, ahja stimmt ja, hatte ich ja gestern erst gelesen ^^ Ja, dann passt das :)
Öhm ? zwei FUs mehr ? Du meinst einen mehr, oder ? Also einen zweiten: Der uralte K8 Block (für max. 80bit) + der neue (wahrscheinlich 64bit) Block.
Edit:
Drei ? Jetzt bin ich komplett verwirrt ^^

ciao

Alex

Ich häng mich jetzt mal aus dem Fenster, da ich von High-Performance-Schaltungen keine Erfahrung habe ;)
Aber du siehst ja selbst, dass der Anbau wieder in 3 Teile unterteilt ist. Also FADD/FMUL/INT. Es ist ja nicht eine einzige Schaltung die das alles erledigt.
Block ist jeweils eine Schaltungsgruppe z.B für die FADD-Einheit.

S940

2008-09-25, 12:47:36

Ich häng mich jetzt mal aus dem Fenster, da ich von High-Performance-Schaltungen keine Erfahrung habe ;)
Aber du siehst ja selbst, dass der Anbau wieder in 3 Teile unterteilt ist. Also FADD/FMUL/INT. Es ist ja nicht eine einzige Schaltung die das alles erledigt.
Block ist jeweils eine Schaltungsgruppe z.B für die FADD-Einheit.
Alles klar, ich meinte den kompletten FPU Block, Du die 3 Untereinheiten (FUs) davon.

Passt also *durchschnauf* ;-)

Danke & ciao

Alex

BlackBirdSR

2008-09-25, 12:51:57

Wenn man so sieht, was das alles an Platz kostet, kann man gleich verstehen, warum man nicht viel mehr davon einbaut. Vom Problem genug Befehle herzubekommen mal abgesehen.

Dann überlegt man weiter: Barcelona ist bei SIMD fast doppelt so schnell, in vielen Fällen sogar ohne spezielle Optimierungen. Trotzdem ist der Anteil an SIMD noch immer so gering (bzw kann nicht höher sein), dass Barcelona daraus nicht viel Nutzen im Desktop-Bereich ziehen kann.
Für 15% mehr Performance bei Spielen, von denen vielleicht max 5% auf die zusätzlichen SIMD-Fähigkeiten gehen, ist das ganz schön teuer!