AMD - AMDs Bulldozer - neue CPU-Architektur für Q2 2011 [Archiv] - Seite 17

S940

2011-08-19, 19:02:46

Ergo sind wir so schlau wie zuvor:biggrin:

Ich persönlich habe den BD1 "mental" bereits abgeschrieben. Auch wenn ein späteres C0-Stepping bombig werden sollte - kommt es hinsichtlich der geplanten Sockelpolitik doch zu spät. Dann ist AM3+ tot.....

Muss ich halt noch weiterhin mit meinem S939-System Videos rendern:freak:
Andererseits könnte man bei den aktuellen Intelpreisen ganz locker für 800-900€ ein komplettes 1155er System aufbauen (i5 2500k; 8Gb; GPU ala HD6870; 128er SSD; BS usw.) - wäre aber langweilig:biggrin:

Schaue mir die Benches dann im September ganz ohne Nervenflattern an und hoffe auf BD2.
Ja alles irgendwie durchwachsen.
Bei der ganzen BIOS Geschichte frag ich mich, ob die Aufschuberklärungen des BDs echt waren. Da hieß es ja, BD bräuche mehr Takt. Aber selbst jetzt ist der Agesa Code anscheinend nicht fertig. Der Code von Mai, der wohl Launch Code gewesen wäre ist anscheinend ja voll unbrauchbar, ein X6 ist besser.

Das hört sich noch nach ner sehr großen Baustelle an. Langsam sieht man wohl Licht am Ende des Tunnels, aber im Juni konnte man das ganz eindeutig vergessen.

Insofern hoffen auf C0 und/oder finalem BIOS, aber ich wiederhole mich ;)

Ja ein 1155 Sys, wäre wirklich langweilig, das gäbs ja sogar im Laden zu kaufen, viel zu einfach :freak:

Ich überleg mir nachwievor ein FM1 System als Übergang. Mittlerweile gibts ja halbdefekte Llanos ohne GPU zum Sparpreis als Athlon (also wenigstens noch mit nem richtigen Namen ^^). Aber solange die FM1 <> FM2 Kompatibilität nicht sicher ist, ist das auch Käse. AM3+ ist tot, FM1 ist neu, aber auch schon halb begraben:devil:

Also bin ich ebenfalls weiter mit dem Dualcore unterwegs :freak:

Ich denke ich warte bis zur nächsten Analystenkonf. im November. Da muss mal irgendwas rauskommen.

anddill

2011-08-19, 19:26:52

Also mein 990FX Board mit einem X6 1090 rennt wie blöde. Nicht ein Problem bisher. ;)

Ronny145

2011-08-19, 19:58:30

Der Code von Mai, der wohl Launch Code gewesen wäre ist anscheinend ja voll unbrauchbar, ein X6 ist besser.

Das hört sich noch nach ner sehr großen Baustelle an. Langsam sieht man wohl Licht am Ende des Tunnels, aber im Juni konnte man das ganz eindeutig vergessen.

Bevor die Verschiebung offiziell bekannt wurde, gab es die Gerüchte-Aussage aus Motherboard Kreisen, dass sie noch keine Retail Samples bekommen haben zur Evaluierung. Es konnte damals zu keiner Zeit fertige Biose geben, höchstens für damalige ES Samples auf Basis B0 oder B1. So gesehen hätte AMD die Verschiebung viel eher bekanntgeben können (wenn sie wollten). Laut einer frühereren Aussage von OBR soll der Turbo quasi immer aktiv sein. Dann macht das schon ein Unterschied ob ich 3,6 Ghz ohne Turbo vergleiche oder mit Turbo, der dann immer auf 4,2 Ghz läuft. Man kann nur hoffen, dass es irgendwo noch einen Bremsklotz gibt. Wenn nicht, fällt die IPC sehr schwach aus bzw. die Skalierung der 8 Integer/Bulldozer Kerne. 8 Integer Kerne mit 3,6 Ghz wären im Cinebench 11.5 minimal schneller als Thuban 1100T mit seinen 6 traditionellen Kernen und 3,3 Ghz. Entweder ist die IPC so schwach oder es skaliert doch nicht so stark.

Pirx

2011-08-19, 20:06:36

Cinebench geht doch eher auf die "FPU", oder?

S940

2011-08-19, 23:29:06

Cinebench geht doch eher auf die "FPU", oder?
Jo. Frage ist, wie Cinebench die CPU einloggt, und welche CodeArt der Prozessor vorgesetzt bekommt. Aber im 64bit Mode sollte das schlimmstenfalls schon SSE2 Code sein. Sollte also nicht soo schlimm sein.
Aber vielleicht ist der AMD Code noch auf 64kB L1 optimiert, was weiß ich, schief gehen kann viel. Nachwievor kann man sich am Sample Status retten, da könnte was deaktiviert sein, oder immer noch nicht richtig laufen, aber langsam wirds Zeit, so knapp nen Monat vor Launch :freak:
@anddill: Ok, wäre auch noch ne Möglichkeit, aber 45nm hmhmhm ...

Ronny145

2011-08-19, 23:39:29

Wenn B2 Release Stepping ist, glaube ich nicht, dass es am Sample liegt. Höchtens am immer noch frühreifen Bios. Obwohl das auch langsam geregelt sein sollte.

S940

2011-08-19, 23:59:25

Wenn B2 Release Stepping ist, glaube ich nicht, dass es am Sample liegt. Höchtens am immer noch frühreifen Bios. Obwohl das auch langsam geregelt sein sollte.
Ja das meine ich auch, sowas in der Art: IF ES CPU then Bremse aktiv.
Aber wie wahrscheinlich das ist ... :freak:
Technisch sollte es kein Problem sein, einfach schlechten Microcode laden, sodass einige Befehle per Microcode emuliert werden, nicht direkt ausgeführt ^^

Ronny145

2011-08-20, 00:21:58

The final version, referred to as the “B2 stepping” version, corrects a known flaw with the Hyper Transport system between the CPU cores. The B0 and B1 versions that were allowed to be tested “in the wild” both experienced an issue where under heavy load the HT bus would flood, resulting in slower operational multi-core threading and generally crippling the overall memory read and write performance, and this explains why AMD opted to remove the product from it’s expected release dates earlier this year.
http://donthatethegeek.com/2011/08/18/amd-bulldozer-x8-in-production/

Hatten wir das schon? Kannte ich noch nicht.

S940

2011-08-20, 02:17:33

Ne hatten wir noch nicht, aber klingt insofern schräg, als das die CPU Kerne nicht per Hypertransport verbunden sind.
Mit Fantasie könnte Interlagos gemeint sein, da sind immerhin 2 DIEs per HTr zusammengeflanscht, aber Interlagos wurde nicht verschoben ..

Alles in allem etwas komisch.

und bei der Bemerkung:
but with the B1 moving past Intel‘s Sandy Bridge microarchitecture in many reviews outside of AMD’s labs despite the HT overload issue it seems like AMD may be pushing a very high performance CPU into our laps in the near future
Frag ich mich im Hinblick auf die dicken Performanceprobleme im chin. Forum mit neuem August BIOS und B2 Sample, wie das mit B1 und älterem BIOS so doll sein sollte.
Mit "moving past" meint er doch die CPU Leistung, oder?

mironicus

2011-08-20, 10:01:42

Die offiziellen Tester vom Bulldozer werden doch bestimmt neben der CPU auch noch ein Motherboard mit angepasstem Bios bekommen, damit die Testresultate auch dieses Mal "richtig" sind, oder...?

Duke Nukem

2011-08-20, 11:08:36

@mironicus
Das wäre wohl die Voraussetzung für aussagekräftige Benches. Alles andre wäre ein Witz.
So wie alles bisher gesehene an benches.

S940

2011-08-20, 13:32:59

Die offiziellen Tester vom Bulldozer werden doch bestimmt neben der CPU auch noch ein Motherboard mit angepasstem Bios bekommen, damit die Testresultate auch dieses Mal "richtig" sind, oder...?
Ja, nur ist die Frage, ob es diese BIOSe überhaupt schon gibt :freak:

Undertaker

2011-08-20, 14:22:52

Wann ist denn der aktuell spekulierte Launch?

anddill

2011-08-20, 14:34:58

Spekuliert? Wessen?
Meine: Weihnachten.

Ronny145

2011-08-20, 16:21:03

Wann ist denn der aktuell spekulierte Launch?

Zuletzt klang September wahrscheinlicher und damit der 19. September. Gesichert ist noch nichts.

Ronny145

2011-08-20, 19:05:03

Ja, nur ist die Frage, ob es diese BIOSe überhaupt schon gibt :freak:

Ich hab eben mal die public Biose durchstöbert. Die sind alle auf Stand AGESA 0.0.7.5 (bis auf das eine Asus Board). Auch in dem recht neuen August Bios vom Gigabyte GA-990FXA-D3. Und Beta Biose von AMD scheint es quasi nicht zu geben. Bei Intel gibt es ständig neue Beta Biose für Gigabyte Mainboards.

Knuddelbearli

2011-08-20, 19:12:21

eventuel hält AMD den aktuellen agesa extra zurück ( bzw bremst in den alten agesa codes sogar extra bulldozer )

ES CPUs kann man nicht kontrollieren aber die BIOS der Mainboard sehr wohl

unwahrscheinlich und vermutlich Wunschdenken aber naja ^^

Ronny145

2011-08-20, 19:18:29

Bei Asus gibt es doch ein paar mehr public Boards mit AGESA 0.0.9.0 Bios.

- M5A87
- M5A88
- M5A88-M-EVO
- M5A88-V-EVO

Käsetoast

2011-08-21, 18:25:54

Wurde folgender Link hier schonmal aufgeführt? Angebliches FX4120 Ergebnis...
http://diybbs.zol.com.cn/11/11_100430.html

Keine Ahnung wie verlässlich das ist...

Ronny145

2011-08-21, 18:28:24

Wurde folgender Link hier schonmal aufgeführt? Angebliches FX4120 Ergebnis...
http://diybbs.zol.com.cn/11/11_100430.html

Keine Ahnung wie verlässlich das ist...

Nein, aber braucht es auch nicht. Ist natürlich völliger Käse und wurde schon als Fake entlarvt.

AnarchX

2011-08-22, 09:04:52

315mm^2: http://semiaccurate.com/2011/08/21/and-the-bulldozer-die-size-is/

mboeller

2011-08-22, 09:10:47

+ Hotchips 23 Präsentation (aus dem semiaccurate Forum):

http://translate.google.fr/translate?js=n&prev=_t&hl=fr&ie=UTF-8&layout=2&eotf=1&sl=auto&tl=en&u=http%3A%2F%2Fwww.technic3d.com%2Fnews%2Fhardware%2Fcpus%2F6867-amd-praesentiert-details-der-bulldozer-archtitektur-auf-der-hot-chips-23.htm

Allerdings nichts neues, soweit ich sehen konnte

Skysnake

2011-08-22, 09:33:59

Ok, die DIE-Größe ist nun fix, ansonsten aber nichts neues :(

Ronny145

2011-08-22, 09:41:22

315mm^2: http://semiaccurate.com/2011/08/21/and-the-bulldozer-die-size-is/

Oha doch ein ganzes Stück größer als bislang angenommen.

S940

2011-08-22, 10:13:49

http://translate.google.fr/translate?js=n&prev=_t&hl=fr&ie=UTF-8&layout=2&eotf=1&sl=auto&tl=en&u=http%3A%2F%2Fwww.technic3d.com%2Fnews%2Fhardware%2Fcpus%2F6867-amd-praesentiert-details-der-bulldozer-archtitektur-auf-der-hot-chips-23.htm

Tipp: Das ist ne deutsche Seite, kein Google vonnöten:
http://www.technic3d.com/news/hardware/cpus/6867-amd-praesentiert-details-der-bulldozer-archtitektur-auf-der-hot-chips-23.htm

:biggrin:

Skysnake

2011-08-22, 10:14:33

Ne wieso? war doch im bereich 290-320 mm² wenn ich mich jetzt nicht falsch erinnere.

Er ist schon mal kleiner als ein Phenom II X6. Der hat hat 346 mm² DIE-size laut Wikipedia. Da sind 315 scho gar nicht soooo schlecht. Je nach dem bekommt man dadurch ein paar Chips mehr auf den Wafer.

Btw. wie ich dadurch erfahren habe, war die Hot-Chip wohl jetzt. Hat da jemand genauere Infos von, was Intel, AMD und nVidia so abgelassen haben? Sofern nV dabei war.

Ronny145

2011-08-22, 10:18:10

Ne wieso? war doch im bereich 290-320 mm² wenn ich mich jetzt nicht falsch erinnere.

Ne die AMD Fraktion ging fast geschlossen zuletzt von 280-290 mm² aus. Der ein oder andere lag im Nachhinein doch ganz gut.

Skysnake

2011-08-22, 10:21:16

Naja, die 280-290 waren ja eigentlich mehr wegen dem bekloppten Barzelona Wafer im BD-1U-SuperMicro-Server-Präsentationsvideo -.-

Ronny145

2011-08-22, 10:34:26

Naja, die 280-290 waren ja eigentlich mehr wegen dem bekloppten Barzelona Wafer im BD-1U-SuperMicro-Server-Präsentationsvideo -.-

Nö damit hat das nichts zu tun. 300 oder mehr sind zuletzt nirgends mehr im Gespräch gewesen.

Skysnake

2011-08-22, 10:41:23

Also für mich waren die 290-320 eigentlich soweit immer im Gespräch geblieben. Ich wüsste nicht, warum man sich auf 280-290 festgelegt haben sollte.

Was auf jeden Fall gut ist, ist, dass der "DIE"-Shot von vor nem Jahr oder so schon nicht mehr gephotoshoped war. Also dass die Module zwar gleich groß sind, aber eben wirklich leicht versetzt sind.

Ich hoffe, die Ankündigung für BD kommt noch diesen Monat.....

So langsam wird es WIRKLICH Zeit, wenn Sie an ihrem Plan fest halten wollen, BD2 im Q2 2012 zu bringen, was sehr begrüßenswert wäre.

Ronny145

2011-08-22, 10:52:53

Also für mich waren die 290-320 eigentlich soweit immer im Gespräch geblieben. Ich wüsste nicht, warum man sich auf 280-290 festgelegt haben sollte.

http://citavia.blog.de/2011/03/01/isscc-2011-news-and-bulldozer-die-size-10726253/

Stellvertetend für die AMD Fraktion: http://www.hardwareluxx.de/community/17287781-post1946.html

320 mm² ist die Annahme höchstens vor langer Zeit gewesen. Die Die Größe wurde zuletzt auf um die 290 mm² beziffert. Die >300 mm² sind definitiv größer als zuletzt spekuliert und vermutet wurden ist.

Skysnake

2011-08-22, 11:04:05

Naja, die 290mm² waren für mich definitiv nur eine Abschätzung nach unten, und die 320 nach oben.

Wer meinte, dass die Zahlen 100% korrekt sind, naja.

Seis drum. Die 315 sind nicht wirklich klein, aber zumindest deutlich kleiner als der X6. Das Mindestziel wurde also erreicht.

Jetzt muss sich halt nur noch zeigen, wie die Performance aussieht....

Das ist halt die große Unbekannte zusammen mit der Leistungsaufnahme, wobei das wohl eher nur bei den Server-CPUs wirklich interessant wird.

deekey777

2011-08-22, 11:13:49

Wie ist das Verhältnis zu einem Vierkerner bei gleichem Prozess? Laut AMD sollen die Extra-Einheiten eines BD-Moduls 20% mehr Die-Fläche verbrauchen, wenn ich mich nicht irre.

Skysnake

2011-08-22, 11:17:49

Naja, wenn du einen nativen 2 Modul DIE hättest, würdest du wohl irgendwo im Bereich zwischen 50 und 66% der 4 Modul-DIE-size landen.

Es fallen ja die 2 Module komplett weg, aber es bleiben auch Sachen weiterhin bestehen, wie der DDR3 I/O Bereich. Andere wie der HT-I/O-Bereich kann man eventuell ziemlich einstampfen, da für solche Chips eh keine Multi-CPU-Funktion nötig ist.

Ronny145

2011-08-22, 11:22:27

Seis drum. Die 315 sind nicht wirklich klein, aber zumindest deutlich kleiner als der X6. Das Mindestziel wurde also erreicht.

Thuban ist aber auch in 45nm gerfertigt, einem ausgereiften und vermutlich momentan preisgünstigeren Prozess. Thuban in 32nm wäre sicherlich kleiner geworden. Ich finde die 315 mm² schon ziemlich viel um ehrlich zu sein. Eigentlich muss bei der Größe richtig viel Leistung bei rauskommen. Intel Sixcore Gulftown kommt auf nur 240 mm².

OBR:
6.5 GHz - under LN2
http://www.youtube.com/watch?v=IO7NcbcUjEM&feature=player_detailpage#t=4s

Skysnake

2011-08-22, 11:28:43

Ja da sollte schon einiges an Leistung bei rum kommen.

Die 315 sind aber nicht wirklich riesig. Die DIEs der Topmodelle werden ja tendenziell eher größer, und nicht kleiner von Generation zu Generation. Meist bewegt man sich in etwa im gleichen Größenbereich. Die neue CPU soll ja auch mehr Leistung bringen als die alte, und nicht nur ein besseres Leistung/Watt-Verhältnis. Wenn man da die DIE-Size nicht etwa konstant halten würde, wäre dies nicht drin. Man brauch ja mehr Logik, um die Mehrleistung zu erhalten, ansonsten hätte man das schon vorher gemacht.

Wirklich Bahnbrechende neue Ideen sind eher selten, die mit dem gleichen Transistorbudget deutlich mehr Leistung bringen.

Die zusätzlichen Transistoren ermöglichen einem nur Sachen zu machen, für die man vorher kein Transistorbudget mehr übrig hatte.

EDIT:

6,5 GHz nicht schlecht. Wie hoch sind denn die Phenom II gegangen?

Was ich allerdings sehr seltsam finde ist, dass die CPU nicht immer zu 100% ausgelastet ist. Ist schon sehr seltsam finde ich.

Schade, das er nicht mit der Kamera auf der Kernauslastung geblieben ist -.- So hat man nicht gesehen, wie lange er für 1M gebraucht hat. Es sind aber auf jeden Fall zwischen 11 und 18s.

Er klickt allerdings wie man hört noch ein paar mal, nachdem Super-Pi aus dem Bild raus ist. Man kann also würde ich sagen, nicht 100% sicher sagen, dass da auch wirklich 1M gelaufen ist, geschweige denn nur 1 mal.

Wenn man den Absacker auf 64% Auslastung für einen ganzen Durchlauf sehen würde, was nicht sein muss, und reine Spekulation ist, dann wären es ca 8 Sekunden für einen 1M Durchlauf.

Deinorius

2011-08-22, 11:36:50

Es fallen ja die 2 Module komplett weg, aber es bleiben auch Sachen weiterhin bestehen, wie der DDR3 I/O Bereich. Andere wie der HT-I/O-Bereich kann man eventuell ziemlich einstampfen, da für solche Chips eh keine Multi-CPU-Funktion nötig ist.

Wenn die HT Links sogar völlig weg könnten, finde ich es interessant, wie die Bereich aufgeteilt sind. Misc I/O, NB und MC sind alle auf der rechten Hälfte, während auf der linken nur die HT Links und zwei Module angebracht sind. Denke ich hier zuviel, oder hat das System?

Ronny145

2011-08-22, 11:36:58

Solange die Leistung des finales Produkts nicht klar ist, lässt sich das sowieso noch nicht vollständig einordnen. Nur scheint klar zu sein, dass sich das Topmodell im Preisbereich von um die 300 USD bewegt. Und dann sind die 315 mm² schon sehr viel für 32nm. Von Lynnfield 45nm auf Sandy Bridge 32nm gab es einen größeren Sprung nach unten obwohl die GPU hinzukam. Bekommen die 2 Moduler ein eigenes Die?

Was ich allerdings sehr seltsam finde ist, dass die CPU nicht immer zu 100% ausgelastet ist. Ist schon sehr seltsam finde ich.

Ganz normal. SuperPi ist nur Singlethread. SuperPi lastet vergleichsweise wenig aus und ist daher bei Extrem Übertaktern sehr beliebt.

Skysnake

2011-08-22, 11:48:43

Wenn die HT Links sogar völlig weg könnten, finde ich es interessant, wie die Bereich aufgeteilt sind. Misc I/O, NB und MC sind alle auf der rechten Hälfte, während auf der linken nur die HT Links und zwei Module angebracht sind. Denke ich hier zuviel, oder hat das System?
Jaein.

Einen HT Link musst du für die Anbindung an den Chipsatz übrig lassen. Ich hab jetzt aber keine Ahnung, ob du dafür ein oder zwei der eingezeichnet HT-I/O-Blöcke benötigst. Ich gehe mal von 2 aus. Dann könntest du die oben und unten weg lassen, sowie die 2 Module.

Das würde also schon grob gehen, allerdings ändert sich da halt verdammt viel anderes Zeug noch mit, weshalb man nicht so genau sagen kann, wo man landen wird. Weniger als 50% sind es aber definitiv nicht, da DDR3 Controller und Northbridge unangetastet bleiben, mehr als 66% sind es aber auch nicht, da die beiden Module so grob 1/3 des DIEs ausmachen zusammen mit 2 HT Links.

Solange die Leistung des finales Produkts nicht klar ist, lässt sich das sowieso noch nicht vollständig einordnen. Nur scheint klar zu sein, dass sich das Topmodell im Preisbereich von um die 300 USD bewegt. Und dann sind die 315 mm² schon sehr viel für 32nm. Von Lynnfield 45nm auf Sandy Bridge 32nm gab es einen größeren Sprung nach unten obwohl die GPU hinzukam. Bekommen die 2 Moduler ein eigenes Die?

Naja, wenn man davon ausgeht, dass die Produktion ja in 32nm auch besser wird, steht man eben besser da als beim Phenom II X6, und genau das ist eben ausschlaggebend. Man ist wieder ein Stück nach unten gegangen.

Ganz normal. SuperPi ist nur Singlethread. SuperPi lastet vergleichsweise wenig aus und ist daher bei Extrem Übertaktern sehr beliebt.

Ich kenne durchaus SuperPi :freak:

Es ist aber nicht wirklich normal, dass während eines SuperPi Benches die Auslastung den folgenden Verlauf hat: 0->76->100->64->?->0

PS: Die 2V sind schon nicht ganz ohne. Lange hält die CPU das sicherlich nicht durch. :biggrin:

Screemer

2011-08-22, 11:57:02

Bekommen die 2 Moduler ein eigenes Die?
davon gehe ich mal aus. die aufteilung auf dem die ist prädestiniert dafür. 2-moduler brauchen "kein" (für die kommunikation mit der sb muss es zwar vorhanden sein) ht und da kann man die komplette linke seite "abtrennen". sieht zumindest so geplant aus.

Skysnake

2011-08-22, 11:59:28

.....

2 Moduler brauchen mindestens einen HT link, oder mit was verbindest du den Chipsatz mit der CPU? -.-

Screemer

2011-08-22, 12:03:50

pcie ;) habs oben schon nachgebessert.

AnarchX

2011-08-22, 12:09:31

Der Phenom II X2 trat auch mit einem ~260mm² Die an, gegen die 80mm² Wolfdale-3M.

mironicus

2011-08-22, 12:28:36

Ich frage mich, wie wohl die Mainboards die bereits mit AM3+ Logo werben, mit den Bullis zurechtkommen werden. Wird es wohl kurz nach Erscheinen des Bullis bereits wieder neue Chipsätze von AMD geben...?

Was kompatible Mainboards und Chipsätze angeht, scheint es aber keine Limitation zu geben. Selbst Uralt-Chipsätze wie der 760G mit Southbridge 710 für unter 40 Euro werben mit AM3+ Logo.

Fragt sich nur, ob es für mein 785G/710-Mainboard von Asus auch noch ein Biosupdate geben wird... wenn einige Mainboardhersteller anfangen ihre 1-2 alten Boards mit Updates zu versorgen, hoffe ich auf eine Kettenreaktion.... :)

Skysnake

2011-08-22, 12:35:26

Ähmmm...

Das BIOS und die Stromversorgung muss ausreichend sein. Was den Chipsatz angeht, so gibt es dort keine Form der Anpassung.

Der Chipsatz/CPU sehen sich ja nicht als solche, sondern einfach nur ein HT-Interface, welches eben Standardisiert und Abwärtskompatibel ist ähnlich wie PCI-E.

Daher kann man ohne Probleme auch asbach uralt Chipsätze verwenden.

S940

2011-08-22, 12:44:59

Ich frage mich, wie wohl die Mainboards die bereits mit AM3+ Logo werben, mit den Bullis zurechtkommen werden. Wird es wohl kurz nach Erscheinen des Bullis bereits wieder neue Chipsätze von AMD geben...?
Die Mainboards, die mit AM3+ Logo werben, sind AM3+ Bretter für AM3+ CPUs wie Zambezi / AMD FX. Neuen Chipsatz oder Bretter brauchts da garantiert nicht.
Oder kennst Du andere AM3+ CPUs ? :freak:

Gibt noch ein paar AM3 Bretter die angeblich BD kompatibel sind. Ob das wirklich klappt, und falls ja mit welchen Abstrichen, muss man abwarten.

Skysnake

2011-08-22, 12:51:15

Naja, ist halt die Frage, ob das BIOS entsprechend angepasst werden kann UND vor allem die Stromversorgung die ganze Sache verpackt.

Naja, kommt Zeit kommt Rat....

Nur so langsam wird die Zeit etwas lange...

Dural

2011-08-22, 13:32:27

Ich kenne durchaus SuperPi :freak:

Es ist aber nicht wirklich normal, dass während eines SuperPi Benches die Auslastung den folgenden Verlauf hat: 0->76->100->64->?->0

anscheinend nicht wirklich, den dieses verhalten ist normal und schon x mal selber festgestellt :rolleyes:

wie auch immer, AMD CPUs sind halt lahm... bei jeder neuen AMD CPU immer das gleiche vorweg von wegen "Fake" Benchmarks... langsam wird es wirklich zu blöd.

Skysnake

2011-08-22, 13:37:36

Naja, ICH habe ein derartiges Verhalten noch NIE beobachtet.

Wenn da andere Leute andere Beobachtungen gemacht haben, ist dies ja voll auf ok. Ich kann eben nur aus meiner eigenen Erfahrung sprechen, und die sieht eben anders aus.

MR2

2011-08-22, 13:51:36

Bei 315mm² muß der wirklich schnell sein. Der 2600K liegt doch so um die 216mm². Das wäre doch in 45nm nie möglich gewesen.

LovesuckZ

2011-08-22, 14:24:09

315mm^2 gegen 216mm^2 und man wird eventuell mit 2 und 3 Modulen deutlich verlieren gegenüber Sandy Bridge. Dazu kommt, dass man mit den Preis nicht mal runtergehen kann, weil Llano im Weg ist. Und dann kann man wohl ebenfalls annehmen, dass das Perf/Watt-Verhältnis von Bulldozer mindesten 50% besser sein sollte als bei Llano, wenn es um reine CPU-Arbeiten geht.

fondness

2011-08-22, 14:37:32

Bei 315mm² muß der wirklich schnell sein. Der 2600K liegt doch so um die 216mm². Das wäre doch in 45nm nie möglich gewesen.

Die Margen sind im CPU-Bereich hoch genug, darüber würde ich mir die wenigstens Sorgen machen. Wichtig ist das Leistung / Stromverbrauch passt.

robbitop

2011-08-22, 14:38:32

Wie kommt es eigentlich, dass SB 100 sqmm weniger DIE-Space hat? Sind das die 2 MiB L2 Cache pro Modul, die da ggü den 256 kiB L2 pro SB-Kern so reinhauen?

deekey777

2011-08-22, 14:44:09

315mm^2: http://semiaccurate.com/2011/08/21/and-the-bulldozer-die-size-is/
Tipp: Das ist ne deutsche Seite, kein Google vonnöten:
http://www.technic3d.com/news/hardware/cpus/6867-amd-praesentiert-details-der-bulldozer-archtitektur-auf-der-hot-chips-23.htm

:biggrin:
Zeichnet AMD den "Floorplan" je nach präsentation unterschiedlich?

fondness

2011-08-22, 14:46:02

Wie kommt es eigentlich, dass SB 100 sqmm weniger DIE-Space hat? Sind das die 2 MiB L2 Cache pro Modul, die da ggü den 256 kiB L2 pro SB-Kern so reinhauen?

Zum einen das, zum anderen hauen auch die vier HT3.0 Links für den Serverbereich, wofür man auch eine entsprechend aufgeblähte Northbridge/Crossbar/IO benötigt ordentlich rein. Intel hat für den Mehrsockelbetrieb den Vorteil eigene Chips zu haben.

S940

2011-08-22, 15:07:40

Zeichnet AMD den "Floorplan" je nach präsentation unterschiedlich?
Hmm was meinst Du? Chalries Plan ist vermutlich aus der gleichen Präsentation, denn bei tech.3D fehlen ein paar Folien, sieht man an der Seitenzahl.
Zum einen das, zum anderen hauen auch die vier HT3.0 Links für den Serverbereich, wofür man auch eine entsprechend aufgeblähte Northbridge/Crossbar/IO benötigt ordentlich rein. Intel hat für den Mehrsockelbetrieb den Vorteil eigene Chips zu haben.
Naja, dafür schleppt Sandy aber auch GPU und PCIe mit.
Sind halt v.a. 9 <> 16MB Cache, die den Löwenanteil ausmachen. Möglicherweise haben sie BD auch "großzügiger" ausgelegt. Flächentuning kommt dann mit der zweiten Version. Bin da eh gespannt, wie das mit 5 Modulen und PCIe hinhaut ^^

HOT

2011-08-22, 15:09:20

An den 315mm² würd ich mich nicht allzusehr aufhängen. Es stimmt zwar, dass das verdammt viel ist, allerdings ist davon verdammt viel Leerfläche, durch die nur Bahnen durchlaufen. Das heißt also erstmal nicht viel für die Ausbeute und ebenfalls nicht viel für die termische Entwicklung. Wenn man die beiden Dies vergleicht (BD und Sandy), dann wird man feststellen, wie dicht Sandy zusammengepackt ist und wie sauber strukturiert Orochi dagegen aussieht. Die riesige Fläche resultiert aus der modularen Designphilosophie, die AMD seit dem K10 konsequent verfolgt - Intel entwickelt hingegen für jeden Prozessor ein möglichst kompaktes Die. Auch unterscheidet sich ja die Fertigung - da Intel selber fertigt lohnt sich der Optimierungsaufwand - der wird nämlich zweifellos verdammt viel Arbeit und Geld fressen. Da Intel aber mit der Fertigung mittlerweile 2 Jahre im Vorsprung ist ggü. allen anderen kann man sich den Optimierungsaufwand durchaus leisten. Bei AMD lässt man ja produzieren und kauft nur Dies ein - man hat zudem schlicht nicht die Zeit und auch nicht die Mittel einen solchen Optimierungsaufwand zu betreiben.
Dadurch wird auch der Zwischenschritt auf Halfnode (28nm SOI, nicht bulk, das war ne Ente) durchaus logisch - man braucht den Platz einfach. Die Fullnode-Prozesse werden mMn auch garnicht weiterverfolgt, der nächste Schritt nach 28nm in 2013 wäre dann also 20nm Anfang 2014 (2 Jahre Rückstand eben, also einen kompletten Zyklus).

@Opteron
Das Flächentuning kommt mit Komodo, so sehe ich das auch. Der wird sicherlich nicht umsonst mit 5 Modulen daherkommen - ist ja ne verdammt krumme Zahl, das wird mMn mit der Aufteilung zusammenhängen. Später wird er dann einfach auf 28nm geshrinkt, was ihn dann unter 300mm² bringen dürfte.
Die nächste echte BD-Generation (jetzt kommen mMn erstmal 2 Ticks, eine kleinere Optimierung der Kerne+eine größere Optimierung der NB und (wenig) später ein Shrink) dürfte Anfang 2014 mit 20nm anstehen.

S940

2011-08-22, 15:14:55

28nm SOI, nicht bulk, das war ne Ente
Quelle?

Skysnake

2011-08-22, 15:29:27

Zeichnet AMD den "Floorplan" je nach präsentation unterschiedlich?

Das liegt wohl eher daran, dass das Bild von Charlie direkt aus nem VHDL Editor stammt, und das Bild aus der anderen Folie eben nur ein Symbolbild ist, das keine echte Verwendung hat. Da wird dann nur Symbolisch die einzelnen Bereich dargestellt, was dann nicht mehr von der Verhältnissen her passt.

bloub

2011-08-22, 15:48:59

Wie kommt es eigentlich, dass SB 100 sqmm weniger DIE-Space hat? Sind das die 2 MiB L2 Cache pro Modul, die da ggü den 256 kiB L2 pro SB-Kern so reinhauen?

sb ist doch 28nm und bd kommt in 32nm? ka, inwieweit man das umrechnen müsste, um einen richtigen vergleich anzustellen.

dildo4u

2011-08-22, 15:50:12

sb ist doch 28nm und bd kommt in 32nm?
SB ist 32nm Intel geht Anfang 2012 direkt auf 22nm.

bloub

2011-08-22, 15:58:23

ok, mein fehler ;). dachte intel wäre schon weiter.

Ronny145

2011-08-22, 16:09:12

Der Corescn.cn Bencher hat Werte mit Turbo aktiv nachgereicht. (oder doch 4,2 Ghz fest eingestellt, keine Ahnung)

http://s7.directupload.net/images/110822/tgvlcugq.jpg

http://s1.directupload.net/images/110822/hp2crfzk.jpg

http://s1.directupload.net/images/110822/jlna6t7t.jpg

http://s7.directupload.net/images/110822/bhvndysm.jpg

http://s1.directupload.net/images/110822/ohhz68lg.jpg

http://s7.directupload.net/images/110822/346la5pc.jpg

Ob Turbo oder feste 4,2 ghz, der Fritzchess Score liegt etwas höher als bei OBR. Das würde sich ganz gut decken. Vermutlich greifen in Fritzchess 4,2 Ghz bei OBR.

/Fritzchess und Cinebench 11.5 wären ziemlich exakt 2600k Leistung.

y33H@

2011-08-22, 16:43:07

Mit so viel mehr Die-Space und acht INT-Cores sowie 4,2 GHz auf Höhe eines Core i7-2600K? Aua ... hast du einen Link parat?

Ronny145

2011-08-22, 16:50:28

Mit so viel mehr Die-Space und acht INT-Cores sowie 4,2 GHz auf Höhe eines Core i7-2600K? Aua ... hast du einen Link parat?

Der Link hat sich nicht verändert: http://www.corescn.com/thread-1133-1-1.html

Übrigens gibt es bei MSI für das MSI 990FXA-GD80 Beta Biose. Am 17. Juli gab es da bereits ein Bios mit AGESA 0.0.9.0. Am 4. August folgte ein Bios mit AGESA 0.0.9.1. Das Beta Bios von gestern trägt die gleiche AGESA Version.

http://forum-de.msi.com/index.php?page=Thread&threadID=99597&pageNo=2

LovesuckZ

2011-08-22, 16:51:31

Wie groß ist der Anstieg bei Intel durch HT?
Geht man davon aus, dass die Modulweise bei AMD 1:1 skaliert, aber HT nur z.B. zu 75%, dann benötigt AMD 3 Module, um mit dem 2500 mithalten zu können. Da können sie sich das 2-Modul Produkt fast schon sparen und Llano den 100€ Spot einnehmen lassen...

samm

2011-08-22, 16:52:10

y33h@: hättest du ernsthaft höhere Performance als ein 2600K erwartet?

y33H@

2011-08-22, 16:59:59

Zumindest bei solchen derart auf MT ausgelegten Benches, ganz ehrlich ja.

@ LovesuckZ

i7-2600K gewinnt im CB11.5 x64 durch SMT +22 %.

LovesuckZ

2011-08-22, 17:10:12

@ LovesuckZ
i7-2600K gewinnt im CB11.5 x64 durch SMT +22 %.

Danke. Dann sähe es im einen schlimmen Fall im Cinebench ungefähr so aus:
BD 2M 68% (80% Skalierung bei Verdopplung der Module) -> SB 4C/4T 100% (norminell) -> SB 4C/8T | BD 8M 122%

dildo4u

2011-08-22, 17:11:01

y33h@: hättest du ernsthaft höhere Performance als ein 2600K erwartet?
Die Performance ist nicht mal gleichwertig da OC.Würde mich wundern wenn die CPU bei Cinebench auf 4.2Ghz läuft und im TDP Limit bleibt.

fondness

2011-08-22, 17:25:11

Die Werte liegen nur minimal über einem Phenom II X6 1100T. Für mich ist das nach wie vor viel zu wenig um es ernst zu nehmen. Ein hypothetischer Phenom II X8 wäre deutlich schneller und würde erheblich weniger Die-Fläche belegen. Wir sprechen hier noch dazu von 4,2Ghz beim Bulldozer, damit wäre man Single-Thread ja geradezu lächerlich langsam, ungefähr auf K8-Niveau und das trotz satten 16M Cache.

Ronny145

2011-08-22, 17:32:50

Die Werte liegen nur minimal über einem Phenom II X6 1100T.

Es fehlen 16% und 13% in Cinebench und Fritzchess, würde ich nicht als minimal bezeichnen. Erschreckend wenig wäre es trotzdem.

dildo4u

2011-08-22, 17:36:05

Das Ding wurde halt für Takt ausgelegt und da macht der Prozess ihnen ein Strich durch die Rechnung,sieht man ja an den miesen Verbauchswerten des Llano.2012 dürfte er mit neuem Stepping interresanter werden.

P@trick

2011-08-22, 17:36:47

Hab`mit einem i7-870/8 Threads/Turbo off im Cinebench 11.5 (64bit) einmal bei 4.17 GHz 6.82 Punkte und einmal mit 4.11GHz 6.79 Punkte in meiner Liste.Variiert immer etwas je nach anderen Einstellungen.
Also ähnliches Niveau,hier.

fondness

2011-08-22, 17:39:59

Es fehlen 16% und 13% in Cinebench und Fritzchess, würde ich nicht als minimal bezeichnen. Erschreckend wenig wäre es trotzdem.

Alleine der Sprung von 6 auf 8 Kerne bringt bei solchen annähernd perfekt skalierenden Benchmarks an die 33% Leistung. Und da sprechen wir von einer völlig unveränderten CPU, die nicht deutlich mehr Cache hat, erheblich mächtigere Load/Store-Units, deutlich mehr Takt, Macro/Micro-Op-Fusion, etc.

Es würde keinen Sinn machen eine solche CPU auch nur zu veröffentlichen, viele Anwendungen skalieren nicht so gut bei Multi-Threading, bei Single-Thread würde man vom Vorgänger geschlagen. Sieht man ja auch an den Werten von OBR, die ähnlich aussehen. IMO ist da noch einiges im Argen.

Dimon

2011-08-22, 17:46:23

Außerdem darf man nicht vergessen das diese CPU sich noch in entwicklung befindet, sicherlich wird die finale version schneller sein...

mfg

Ronny145

2011-08-22, 17:49:45

Alleine der Sprung von 6 auf 8 Kerne bringt bei solchen annähernd perfekt skalierenden Benchmarks an die 33% Leistung. Und da sprechen wir von einer völlig unveränderten CPU, die nicht deutlich mehr Cache hat, erheblich mächtigere Load/Store-Units, deutlich mehr Takt, Macro/Micro-Op-Fusion, etc.

Vielleicht hakt es irgendwo. Nur laufen die Optionen langsam davon. Das MSI Board mit dem neuen Bios wäre interessant.

Es würde keinen Sinn machen eine solche CPU auch nur zu veröffentlichen, viele Anwendungen skalieren nicht so gut bei Multi-Threading, bei Single-Thread würde man vom Vorgänger geschlagen. IMO ist da noch einiges im Argen.

Barcelona anyone? Hätte man damals auch schreiben können. Ok damals lag es weniger an der IPC. Der Takt ist auf dem Papier diesmal nicht das Problem.

Außerdem darf man nicht vergessen das diese CPU sich noch in entwicklung befindet, sicherlich wird die finale version schneller sein...

mfg

Entwicklung ist abgeschlossen, Massenfertigung ist im August gestartet. Das Design der CPU ist eh schon längst fertig.

fondness

2011-08-22, 17:54:53

Barcelona anyone? Hätte man damals auch schreiben können. Ok damals lag es weniger an der IPC. Der Takt ist auf dem Papier diesmal nicht das Problem.

Barcelona war zu Beginn durch den geringeren Takt bei Single-Thread vielleicht minimal langsamer, bei Multi-Threading aber annähernd doppelt so schnell. Die Bulldozer-Werte zeigen aber selbst bei Multi-Threading kaum Vorteile. Unterm Strich wäre eine solche CPU bei einer breiten Palette von Anwendungen wie sie bei diversen Performance-Ratings verwendet wird langsamer als ein aktueller Phenom II.

kunibätt

2011-08-22, 18:53:10

Ein PhenomII X6 liefert auf 4.2GHZ ca. einen CB-Score von 7.3.
Jetzt soll der Nachfolger, der massiv auf MT hinentwickelt wurde, hier unter 7 abschneiden? Ja nee, ist klar.
Im Prinzip ists mir eh egal, aber ich hatte zumindest gehofft, dass sich Intel durch Bulldozer dazu genötigt sieht endlich 6 Core Prozessoren zu humanen Preisen anzubieten.

Ronny145

2011-08-22, 19:36:18

OBR:
http://s7.directupload.net/images/110822/ebgfvbhn.png

Truecrypt war einst AMDs Stärke (im Vergleich zu Intel CPUs ohne AES), offenbar kann Bulldozer die Tradition fortführen.

y33H@

2011-08-22, 19:42:25

Vor allem sieht's nach AES in Hardware aus =)

Ronny145

2011-08-22, 19:47:11

Vor allem sieht's nach AES in Hardware aus =)

Ja das müsste der AES Benchmark sein wenn ich mir die 5000 MB/s des 990X ansehe. Der 2600k Wert bei OBR sieht niedriger aus als bei techreport. Welchen Wert kannst Du bestätigen?

http://techreport.com/articles.x/20486/9

Die Folie mit >2x Truecrypt zu Thuban könnte sich auf den Gesamtscore bezogen haben.

MadManniMan

2011-08-22, 19:54:03

y33H@

2011-08-22, 19:55:05

@ Ronny145

Ich nutze idR nie diesen Test, daher habe ich praktisch keine Werte.

kruemelmonster

2011-08-22, 20:19:43

mironicus

2011-08-22, 20:39:55

Was AMD so alles aufbieten muss, um überhaupt an i7-Werte zu kommen: 8 Kerne, 16 MB Cache und 4,2 GHz Turbo und 125 Watt TDP.

Intel verweilt bei 4 Kernen, 8 MB Cache und 3,8 GHz Turbo, 95 Watt TDP, viel OC-Spielraum, deutlich kleinerer Kern. Und eine Office-GPU hat das Teil dann ja auch noch eingebaut...

Aua, das tut irgendwie weh...

robbitop

2011-08-22, 20:56:22

Es sind ja keine echten 8x Kerne. Es sind 4 echte Kerne mit CMT. Und so groß sind die Module auch gar nicht. AMD haut mit dem Cache viel Platz weg und mit IO.
Im Prinzip sollen die 4 Module gegen 4 SB Kerne antreten. Nur halt CMT vs SMT. Für den 8x Kerner gibt es dann Interlagos.

y33H@

2011-08-22, 20:58:52

Die Kern-Frage wird sich wohl nie klären. CMT fügt mehr Integer-Einheiten hinzu, SMT "nur" Register. Wenn die Werte stimmen, dann ist CMT angesichts des Die-Space keine sonderlich berauschende Technologie - allerdings weißt der Floorplan viele Löcher auf, während sich Intel den Luxus erlaubt alles schön zusammen zu pressen.

MR2

2011-08-22, 21:01:25

Wenn denn irgendwas davon stimmen sollte...
Wie war das eigentlich beim Erscheinen des Athlon64? Gabs da kurz zuvor echte Benches? Kann mich noch an den Test bei CB erinnern, sie hätten nie für möglich gehalten das der 3200+ bei der Spieleleistung so einen draufsetzen würde.

Ich kann mir nicht vorstellen, das AMD das so vergeigen soll. Das sie mit Intel bei der Fertigung nicht mithalten können werden sie wohl wissen. Das BD nur mit Takt "funktioniert" ist also Käse. Davon würden die nie und nimmer ausgehen. Wenn ich BD 2 Jahre(intern vielleicht viel länger) verschiebe weiß ich doch auf welchen Gegner er dann ungefähr trifft.

Abwarten, ich denke am Ende wirds ne schnelle CPU. Hoffe ich zumindest:-)

Coda

2011-08-22, 21:05:17

Sry, aber wayne? Das ist die erste Generation AES in HW - alles nice 2 have und sicherlich für viele Leute auch von Relevanz, aber ... ach, ich halte schon meinen Rand.

Ist halt alles wieder OBR ... gääähn.
Naja, wenn man TrueCrypt verwendet, dann ist das evtl. sogar ein Verkaufsargument.

dildo4u

2011-08-22, 21:09:26

Naja, wenn man TrueCrypt verwendet, dann ist das evtl. sogar ein Verkaufsargument.
PCGH meinte der Wert ist nur Theoretisch,weil die Festplatte selbst mit SSD limitiert.

Coda

2011-08-22, 21:17:39

Es gibt auch andere Aufgaben, die eine CPU während Lesen bzw. Schreiben evtl. ausführen soll.

Je weniger die Crypto frisst, desto besser. Eigentlich will man das sogar komplett im SATA-Controller haben. Das wäre eine Interessante AHCI-Erweiterung. Damit wäre auch die Coldboot-Geschichte abgehakt.

Nasenbaer

2011-08-22, 21:25:14

Sry, aber wayne? Das ist die erste Generation AES in HW - alles nice 2 have und sicherlich für viele Leute auch von Relevanz, aber ... ach, ich halte schon meinen Rand.

Ist halt alles wieder OBR ... gääähn.
Nö isses nicht, VIA hatte das schon einige Jahre vorher und unter Linux konnte man das auch gut nutzen - die Performanceunterschiede waren beachtlich. Hier VIA PadLock: http://de.wikipedia.org/wiki/VIA_Nano

S940

2011-08-22, 22:33:05

Naja, wenn man TrueCrypt verwendet, dann ist das evtl. sogar ein Verkaufsargument.
PCGH meinte der Wert ist nur Theoretisch,weil die Festplatte selbst mit SSD limitiert.
Gibt ja auch noch kleiner Modelle mit weniger Kernen. Da wirds dann interessant, v.a. da intel das bei den billigeren Modellen ja deaktiviert.
Mal schauen wie teuer die FX4000 am Ende werden.

@Truecrypt:
Irgendwie komisch, die AES µOps laufen doch auch über die FPU, oder?
Passt dann irgendwie nicht zu den durchwachsenen Cinebench und yCrunsher Werten. Oder kann man bei AES Code einigermaßen die FMACs Units nutzen?

y33H@

2011-08-22, 22:37:38

Zwischen dem i3-2100 und dem i5-2300 klaffen fast 60 Euro und in der Mitte liegt nur der i5-2390, der aber OEM-only ist. Viel Luft für diverse Bulldozer-FX.

Coda

2011-08-22, 22:46:20

Oder kann man bei AES Code einigermaßen die FMACs Units nutzen?
Das sind separate Einheiten.

Und das Cinebench-Zeug glaub ich auch erst, wenn das Ding offiziell gebenchmarkt wird.

S940

2011-08-22, 22:57:36

Das sind separate Einheiten.
Was ist "das" ? Ne eigene AES Einheit? Ne kann nicht sein, die AES Befehle gehen laut Opt. Manual an die FMAC - und die XBar(Shuffle/Pack/Permute)Pipe.
Und das Cinebench-Zeug glaub ich auch erst, wenn das Ding offiziell gebenchmarkt wird.Stimmt das darf man nachwievor nicht vergessen ;-)

Coda

2011-08-22, 23:01:03

Was ist "das" ? Ne eigene AES Einheit? Ne kann nicht sein, die AES Befehle gehen laut Opt. Manual an die FMAC - und die XBar(Shuffle/Pack/Permute)Pipe.
Das hängt nur am gleichen Port.

Skysnake

2011-08-22, 23:28:56

Mal was ganz anderes. Hier hat doch jemand mit dem Bencher Kontakt gehabt, wegen dem BIOS. Kann sich derjenige mal bitte bei mir melden???

AMD könnte eventuell die ES durch schlechten Mycrocode vergrüppelt haben. Dies ließe sich relativ einfach dadurch testen, das man ein kleines Programm mit unterschiedlichen Operationen schreibt, und dann das RDTSC Register ausliest.

Sollte glaub sogar noch was halbfertiges rum liegen haben, das unter Linux funktioniert. Wäre wirklich klasse, wenn man sich mal diesbezüglich bei mir melden könnte.

S940

2011-08-23, 00:09:34

Das hängt nur am gleichen Port.
Das müßte dann aber irgendwo in dem Schema auftauchen:

http://www.abload.de/img/fpumappingi7dm.png

Oder nicht?
Mal was ganz anderes. Hier hat doch jemand mit dem Bencher Kontakt gehabt, wegen dem BIOS. Kann sich derjenige mal bitte bei mir melden???

AMD könnte eventuell die ES durch schlechten Mycrocode vergrüppelt haben. Dies ließe sich relativ einfach dadurch testen, das man ein kleines Programm mit unterschiedlichen Operationen schreibt, und dann das RDTSC Register ausliest.

Sollte glaub sogar noch was halbfertiges rum liegen haben, das unter Linux funktioniert. Wäre wirklich klasse, wenn man sich mal diesbezüglich bei mir melden könnte.
Das war Ronny145 alias Borc (wenn ich das richtig mitbekommen habe), aber ob die Chinesen da was mit Linux hinbekommen ... scheinen eher Windows Leute zu sein. Aber gut, vielleicht hat er ja ein RedFlag Dual Boot Sys, fragen kann man mal ;-)

Viel Erfolg

Alex

Coda

2011-08-23, 00:11:58

Oder nicht?
Nö. Glaub mir einfach. AES hat nix mit FMA zu tun. Das sind LUTs/XOR und Schieberegister.

Aber es ist auch nichts besonderes, das an einem Port verschiedenes Zeug hängt. popcnt gibt's ja beispielsweise auch noch.

Skysnake

2011-08-23, 00:16:53

Das müßte dann aber irgendwo in dem Schema auftauchen:

http://www.abload.de/img/fpumappingi7dm.png

Oder nicht?

Das war Ronny145 alias Borc (wenn ich das richtig mitbekommen habe), aber ob die Chinesen da was mit Linux hinbekommen ... scheinen eher Windows Leute zu sein. Aber gut, vielleicht hat er ja ein RedFlag Dual Boot Sys, fragen kann man mal ;-)

Viel Erfolg

Alex

Naja, ein Ubuntu werden die ja wohl installiert bekommen :freak: mehr ist das nicht. Halt die Datei aus der Mail whot ever entnehmen, und entweder über die Shell starten, oder in der GUI Ausführungsrechte geben und dann per doppelclick starten. Das ist wirklich nicht schwer :rolleyes:

S940

2011-08-23, 01:08:21

Nö. Glaub mir einfach. AES hat nix mit FMA zu tun. Das sind LUTs/XOR und Schieberegister.

Aber es ist auch nichts besonderes, das an einem Port verschiedenes Zeug hängt. popcnt gibt's ja beispielsweise auch noch.
Ich glaubs gerne, aber ich wundere mich dann halt, dass es nirgends steht.
Mag jetzt nicht das Riesenfeature sein, aber in der Doku sollte es schon auftauchen.
Wobei das aktuelle PDF ja auch noch andere dicke Fehler hat, ok das würde es dann erklären :freak:
Naja, ein Ubuntu werden die ja wohl installiert bekommen :freak: mehr ist das nicht. Halt die Datei aus der Mail whot ever entnehmen, und entweder über die Shell starten, oder in der GUI Ausführungsrechte geben und dann per doppelclick starten. Das ist wirklich nicht schwer :rolleyes:
Shell? Was sollen die Leute an der Tankstelle... :biggrin:
Ausführungsrechte? Hmm was könnte das nun sein ... mit dem Hund Gassi gehen, vielleicht gleich zur Tankstelle? *g*

Skysnake

2011-08-23, 01:34:19

Terminal besser? ;P

Oder wie wäre es mit Konsole oder Kommandozeile ? :D

Käsetoast

2011-08-23, 08:01:44

Schnitzl

2011-08-23, 08:07:25

Terminal besser? ;P
der mit Tom Hanks? *scnr*
secure Shell, die sicherste Tankstelle der Welt

okok bTT: kann es sein, dass AMD alle an der Nase herumführt? Entweder das oder der BD ist wirklich nen Flop. Naja ich hoffe auf der Erstere...sonst wird Intel wieder teuer :(

Hayab

2011-08-23, 08:35:58

Als ich mir damals den Athlon 64 FX-51 (Hammer) bestellt habe fuer 950 Dollar, gab es auch keine brauchbaren und zuverlaessigen Benches von der CPU. Es gab nur viel FUD und das was sich dann als wahr herausstellte glaubte kaum jemand.

Allerdings heute wuerde ich so ein Risiko nicht eingehen, weil die Intel Prozis meisten mehr Leistung haben als man braucht. Damals stagnierte die PIII Entwicklung eine Zeitlang und die Preise von Intel waren eine Frechheit. Fuer 200 Mhz mehr gab es 100 Proc. Ausfschlag auf eine PIII CPU. Ausserdem war die x32 kompatible 64-bit Architektur dieses Athlon FX-51 eine wirkliche Neuheit, obwohl es kaum Software und OSen gab die das unterstuetzen.

Ich hoffe das AMD diesen Erfolg mit dem Bully wiederholen kann, obwohl meine 2 Kisten mit Intel CPU ausgestattet sind.

Ronny145

2011-08-23, 09:46:12

Sieht so aus als würde OBR die Leute weiter mit einem B0 neppen:

http://www.xtremesystems.org/forums/showthread.php?265710-AMD-Zambezi-news-info-fans-!&p=4933065&viewfull=1#post4933065

Wer also hoffte vielleicht doch mal vernünftige Ergebnisse von ihm zu kriegen, kann sich das wohl abschminken...

Die Logik von einigen ist sehr bewundernswert. Wo hat er denn geschrieben, dass er B2 im Video verwendet? Ich würde es auch nicht riskieren einen B2 für dieserart extrem Übertaktung zu riskieren. Dafür würde ich ein älteres, unwichtigeres Stepping nehmen falls es die CPU doch nicht unbeschadet übersteht. Im Blog steht sein B0 immer noch zum Verkauf. Jetzt kann sich das jeder ausmalen.

mironicus

2011-08-23, 09:48:50

Wieder alles Fakes... :D

MR2

2011-08-23, 09:50:35

Gibts bei corescn neue Benchmarks? Bin da nicht angemeldet, sieht aber so aus.

Käsetoast

2011-08-23, 10:44:24

Die Logik von einigen ist sehr bewundernswert. Wo hat er denn geschrieben, dass er B2 im Video verwendet?
Ich schaue mir von ihm nichts mehr an - wollte nur die Info weiterleiten...

S940

2011-08-23, 12:49:51

Gibts bei corescn neue Benchmarks? Bin da nicht angemeldet, sieht aber so aus.

Nö Benches @3.6 mit Agesa 0075, Benches @3,6 mit Agesa 0091, und Benches@4,2 mit Agesa 0091.

Sonst nix Neues.

ciao

Alex

Ronny145

2011-08-23, 14:56:10

Das Corescn System erreicht langsame 0,96 Punkte mit 1-Core in Cinebench 11.5, wäre grob überschlagen 80% K10 IPC...

4,2 Ghz Cinebench 11.5

1 thread= 0,96
8 thread= 6,87

Skalierung sieht schonmal ganz gut aus. Mit K10 IPC müsste sich Bulldozer spielerisch vom 2600k multithread lösen können.

S940

2011-08-23, 17:03:16

Das Corescn System erreicht langsame 0,96 Punkte mit 1-Core in Cinebench 11.5, wäre grob überschlagen 80% K10 IPC...

Hm ok, dann ist irgendwie was anderes noch im Busch.
Dachte zuerst, dass es vielleicht - trotz aller Verbesserungen - daran liegen könnte, dass ein X6 ja 6 FPUs hat, ein FX8 dagegen nur 4.

Aber wenn das selbst bei single-thread langsamer ist, hakts noch irgendwo.
Mal schauen wies noch weiter geht.

Kennt jemand User rich_wargo im semi accurate Forum?Kann der was wissen, oder ist das nur ein Dampfplauderer? Er antwortet hier in ner "Mit welchem BD Stepping wird gestartet" Umfrage, mit "Other, I know", zur Auswahl standen Other, B0,B1,B2,B3 und C0.
http://www.semiaccurate.com/forums/showpost.php?p=130486&postcount=5

Ich glaubs erstmal nicht, maximale dürfte C0 sein, oder wie hoch ist die Wahrscheinlichkeit auf C1?

Naja, egal, höchstwahrscheinlich nur ein Witzbold.

M4xw0lf

2011-08-23, 17:33:16

Hm ok, dann ist irgendwie was anderes noch im Busch.
Dachte zuerst, dass es vielleicht - trotz aller Verbesserungen - daran liegen könnte, dass ein X6 ja 6 FPUs hat, ein FX8 dagegen nur 4.

Aber wenn das selbst bei single-thread langsamer ist, hakts noch irgendwo.
Mal schauen wies noch weiter geht.

Kennt jemand User rich_wargo im semi accurate Forum?Kann der was wissen, oder ist das nur ein Dampfplauderer? Er antwortet hier in ner "Mit welchem BD Stepping wird gestartet" Umfrage, mit "Other, I know", zur Auswahl standen Other, B0,B1,B2,B3 und C0.
http://www.semiaccurate.com/forums/showpost.php?p=130486&postcount=5

Ich glaubs erstmal nicht, maximale dürfte C0 sein, oder wie hoch ist die Wahrscheinlichkeit auf C1?

Naja, egal, höchstwahrscheinlich nur ein Witzbold.

B2 scheint doch mittlerweile so gut wie sicher zu sein... Alles andere würde doch nochmal wesentlich mehr zeit brauchen, von der AMD schon mehr als genug für Verschiebungen benötigt hat.

Gipsel

2011-08-23, 17:35:02

Rich Wargo arbeitet soweit ich weiß bei GlobalFoundries (Control Systems Engineer oder auch Facilities Control Engineer, je nachdem, wo er das schrieb). Momentan ist er in der neuen Fab in Malta, NY beschäftigt. Keine Ahnung, ob und wieviel der über BD weiß, aber möglich wär es.

Duplex

2011-08-23, 17:42:30

Nur wegen irgendwelche Nummern muss B2 nicht gesichert sein, kurzfristig kann sich da immer etwas ändern, B3 halte ich für möglich.

Bulldozer muss in Single & Multithreading ohne mehr Takt garantiert schneller als der vorgänger werden, alles andere wäre nicht glaubhaft.

Wir haben

1. 8 Kerne (33% mehr als X6)
2. 4200MHz Turbo (27% mehr CPU Takt als X6-1100T)
3. 2400NB Takt (20% mehr als X6-1100T)
4. IPC?

Ihr wollt mir sagen das Bulldozer mit IPC Steigerungen keine 40% schneller als der Vorgänger wird? Wer das glaubt ist einfach nur krank...

S940

2011-08-23, 18:10:30

B2 scheint doch mittlerweile so gut wie sicher zu sein... Alles andere würde doch nochmal wesentlich mehr zeit brauchen, von der AMD schon mehr als genug für Verschiebungen benötigt hat.
HMm, naja, muss noch nichts 100% bedeuten. Wenns jetzt Datenlecks gibt, dann ist das meistens nicht die aktuelle "Ware".
Allerdings haben die Chinesen auf Ihren Chips ja schon "echte" OPNs. Das ist ein starkes Argument.
Rich Wargo arbeitet soweit ich weiß bei GlobalFoundries (Control Systems Engineer oder auch Facilities Control Engineer, je nachdem, wo er das schrieb). Momentan ist er in der neuen Fab in Malta, NY beschäftigt. Keine Ahnung, ob und wieviel der über BD weiß, aber möglich wär es.
Hm, ok, also zumindest kein Märchenerzähler :)
Dann fühl ich ihm mal mit ner Frage nach den chin. OPNs auf den Zahn ;-)

Noch ne Prozess-Frage:
Ein voller Spin (Bx -> Cx) braucht ja grob doppelt so lange wie ein Metalspin (B1 -> B2). Könnte es sein, dass B2 und C0 gleichzeitig starteten, B1 als grobe Basis hatten, und jetzt, da B2 ok/bzw. besser war, man die C0 Maske gleich mit den B2 Metal Layer kreuzt und quasi C1 bekommt?

Wäre jetzt die einzige ad-hoc Idee, die mir auf die Schnelle kommt. Aber vielleicht ist das ja kompletter Blödsinn :freak:

Ronny145

2011-08-23, 18:50:40

Mit einer besseren IPC als K10 sollte Bulldozer den i7-2600k weit hinter sich lassen. Cinebench und Fritzchess sind mit 4,2 Ghz jetzt schon auf 2600k Niveau unterwegs.

Vom Asrock 990FX Extreme4 gibt es ein finales Bios Update mit Agesa 0091. In der changelog heißt es "Update CPU code".

HOT

2011-08-23, 19:12:51

B2 scheint doch mittlerweile so gut wie sicher zu sein... Alles andere würde doch nochmal wesentlich mehr zeit brauchen, von der AMD schon mehr als genug für Verschiebungen benötigt hat.
Ne, das glaub ich nicht unbedingt. Wenn man schon so eine Verzögerung einbaut und fast den Serverlaunchtermin erreicht, wird mMn eher Rev.C.
Rev.C scheint ja offenbar für den Interlagos notwendig zu sein, warum sollte man dann also noch Rev.B-Kram in Massenproduktion geben? Man hat ja selbst die 6-8 Wochen seit Juni nicht eingehalten und startet frühestens Ende September. Der C1 könnte der Grund sein, warum es jetzt doch Oktober wird, denn vllt. ist AMD mit der C0 nicht zufrieden. Wenn ich an den K8 zurückdenke, war C0 auch nicht so prikelnd mit dem defekten mem-Controller (maximal 1 DDR400-DIMM). Wenn man sowas vermeiden kann und das Ding sowieso schon Monate zu spät ist, kommts auf den Monat dann auch nicht mehr an. Hauptsache er ist früher als SBE, alles Andere spielt jetzt eh keine Rolle mehr.
Hinzu kommt noch, dass die Fertigung offensichtlich hintenan ist. Man schafft nicht die Spannungen die man will usw. Ich würd den Prozessor auch immer weiter verzögern, bis die Probleme halbwegs im Griff sind. Grad beim BD zählt der erste Eindruck viel.
Es kann sogar sein, dass es garkeine B2 gibt... Warum sollte man sich mit einer alten Rev. herumschlagen, als man seit B1 wusste, dass man eh noch ne neue braucht? Ich glaube auch nicht, dass BD durch den AGESA "ausgebremst" wird. MMn ist der Softwareteil ok. 0.0.7.x ist mMn noch Entwicklungsstadium aus dem Frühsommer, 0.0.9.x ist Final für Rev.B.

Gestrandet

2011-08-23, 19:16:47

In Asrock hab ich vollstes Vertrauen, wenn jemand ein 0day BIOS mit 101% Bulldozer Support bringt, dann Asrock. Die sind total verrückt. Ich glaub da kommen die hin, die bei ASUS den Lötdampf zu tief eingesogen haben :D

Gipsel

2011-08-23, 20:00:20

Noch ne Prozess-Frage:
Ein voller Spin (Bx -> Cx) braucht ja grob doppelt so lange wie ein Metalspin (B1 -> B2). Könnte es sein, dass B2 und C0 gleichzeitig starteten, B1 als grobe Basis hatten, und jetzt, da B2 ok/bzw. besser war, man die C0 Maske gleich mit den B2 Metal Layer kreuzt und quasi C1 bekommt?

Wäre jetzt die einzige ad-hoc Idee, die mir auf die Schnelle kommt. Aber vielleicht ist das ja kompletter Blödsinn :freak:
Nun, ein sogenannter base layer spin ändert ja die Transistoren selber, da muß dann normalerweise mindestens der M1, also die unterste Verdrahtungsebene mitgeändert werden, vermutlich meist sogar noch etwas mehr, sonst kommt da nichts Funktionierendes heraus.
Will sagen, bei einem "vollen Spin" paßt der Rest des Maskensets dann also auch nicht mehr wirklich dazu (die ganz hohen Level kann man eventuell weiternutzen, je nachdem, wie viel geändert wurde, aber da ist ja auch nicht viel drauf), man muß also im Zweifelsfall praktisch alles neu machen.

OgrEGT

2011-08-23, 21:18:09

Wo stand das nochmal offiziell, dass 1 BD Modul 80% der Leistung eines K10 Dualcore haben soll?

Undertaker

2011-08-23, 21:20:53

Wir haben

1. 8 Kerne (33% mehr als X6)
2. 4200MHz Turbo (27% mehr CPU Takt als X6-1100T)
3. 2400NB Takt (20% mehr als X6-1100T)
4. IPC?

Ihr wollt mir sagen das Bulldozer mit IPC Steigerungen keine 40% schneller als der Vorgänger wird? Wer das glaubt ist einfach nur krank...

Also Punkt 1/2 und 3 darfst du erstmal nicht zusammenrechnen: Eine 20%ige Steigerung des NB-Taktes und eine 20%ige Steigerung des Kerntaktes ergeben auch nur maximal 20% Mehrperformance. Multiplizieren können sich (im Optimalfall) natürlich Taktrate und Kernzahl.

Große Unbekannte bleibt die IPC. Hier wurden ja eigentlich Steigerungen versprochen, gewisse Zweifel in dieser Hinsicht darf man allerdings haben. Dennoch müsste selbst Beibehaltung der Pro-MHz Leistung durch die anderen Steigerungen für einen sehr ordentlichen Leistungssprung sorgen - nur davon sind die aktuellen Leaks noch weit entfernt.

Konami

2011-08-23, 21:21:18

Wo stand das nochmal offiziell, dass 1 BD Modul 80% der Leistung eines K10 Dualcore haben soll?
Eines hypothetischen BD-Dualcores...

mrt

2011-08-23, 21:21:19

@OgrEGT
Nirgends stand das, wie oft denn noch? AMD sagte, dass ein BD-Modul 80% der Leistung eines fiktiven BD-DC hat.

Edit: Eine Sekunde zu langsam...

OgrEGT

2011-08-23, 21:38:49

Danke, wollte nur nochmal sicher gehen :)

Da man aufgrund der Summe der verschiedenen Architekturänderungen die IPC nicht endgültig einschätzen kann, und noch keine Benchmarks des finalen Siliziums bekannt sind, ist bzgl. der Gesamtleistung alles möglich. Im Endeffekt schätzen viele die Leistung nur am spekulierten Preis ab, und vermuten +/- i7 2600 Leistung. Den Überknaller erwarte ich jetzt nicht, aber bei den bekannten Eckdaten des FX-8150, warum sollte der nicht deutlich schneller sein als SB?

Duplex

2011-08-23, 21:39:04

|MatMan|

2011-08-23, 22:53:00

omg schonwieder dieses blöde 80% dualcore Thema...
Langsam kann man den AMD-Typen die Aussage echt übel nehmen...

CMP ein echter Dual Core

CMP ist kein "echter" dualcore...

Der Erfinder vom Bulldozer Konzept ist Andy Glew "Intel Pentium Pro Chef" :)
schön, nur war der Pentium Pro für den Normalverbraucher eher crap :P

Gestrandet

2011-08-23, 23:14:12

CMP ist kein "echter" dualcore...
Interessant.
Aber Weißer Riese - Megaperls wäscht ja auch weißer als weiß, von daher gibt es vielleicht auch "echtere" Mehrkernprozessoren als die Vertreter der Gattung chip level multiprocessing, kurz CMP.

S940

2011-08-23, 23:17:15

Nun, ein sogenannter base layer spin ändert ja die Transistoren selber, da muß dann normalerweise mindestens der M1, also die unterste Verdrahtungsebene mitgeändert werden, vermutlich meist sogar noch etwas mehr, sonst kommt da nichts Funktionierendes heraus.
Will sagen, bei einem "vollen Spin" paßt der Rest des Maskensets dann also auch nicht mehr wirklich dazu (die ganz hohen Level kann man eventuell weiternutzen, je nachdem, wie viel geändert wurde, aber da ist ja auch nicht viel drauf), man muß also im Zweifelsfall praktisch alles neu machen.
Hmm, ok danke.
Hatte nur Charlies Aussagen zu TSMCs 40nm im Hinterkopf. Da meinte er ja mal, dass man bei metal spins die Maske weiterverwenden könne.
Außerdem hätte AMD mit dem Testchip RV740 rausgefunden, dass die Layerverbindungen nicht so toll laufen, weswegen sie dann die doppelte Anzahl an Kontakten eingebaut haben.
Dachte deshalb, dass man so was ähnliches wie die Kontaktgeschichte auch mal "auf die schnelle" machen könnte.
Aber vermutlich viel zu simpel gedacht.
Bin jetzt auf alle Fälle gespannt, was da für ein Stepping kommt. Die aktuellen B2 retail OPNs könnten eventuell Chips sein, die für den Juni Launch gedacht waren, aber dann doch noch gestoppt wurden.
Wäre dann allerdings relativ spät passiert ... :confused:
Naja nichts Genaues wie immer .. warten wir mal weiter ab ^^

schön, nur war der Pentium Pro für den Normalverbraucher eher crap :P
Nur bei uralt 16bit Code. Also sowas ähnliches wie heutzutage SuperPi. Wenns nicht mehr ist juckt das Keinen. Im Nachfolgemodell PentiumII wars damit außerdem vorbei, der PPro war mehr Versuchsballon / erstes Testmuster, nur für den Servermarkt, nicht für den Massenmarkt.

Abgesehen davon bitte jetzt nicht die 1001. Diskussion zu CMT udn CMP; das hatten wir bereits 1000 mal ...

Gipsel

2011-08-23, 23:39:35

Hmm, ok danke.
Hatte nur Charlies Aussagen zu TSMCs 40nm im Hinterkopf. Da meinte er ja mal, dass man bei metal spins die Maske weiterverwenden könne.
Außerdem hätte AMD mit dem Testchip RV740 rausgefunden, dass die Layerverbindungen nicht so toll laufen, weswegen sie dann die doppelte Anzahl an Kontakten eingebaut haben.
Dachte deshalb, dass man so was ähnliches wie die Kontaktgeschichte auch mal "auf die schnelle" machen könnte.
Aber vermutlich viel zu simpel gedacht.Nun, das Maskenset für einen modernen Prozeß kann auch schon mal locker aus über 20 einzelnen Masken bestehen. Für den Baselayer gibt es mehrere (für jede Belichtung, es sind ja mehrere nötig, um einen Transistor zu bauen), für jeden einzelnen Metal-Layer gibt es eine (und moderne HP-Prozesse können auch 10 oder gar mehr davon haben, Phenoms oder Llano haben glaube ich 11 metal layer) und es gibt jeweils eine Maske für die Vias zwischen den Metallayern (oder auch vom Base-Layer zu M1), also eine für die base-M1 vias, eine für die M1-M2 vias, eine für die M2-M3 vias usw.
Da gibt es also eine Menge Masken, die zusammen passen müssen. Es kommt immer darauf an, was man ändern muß, um etwas zu korrigieren oder zu optimieren. Wenn man nur die M2-M3 via Maske sowie die M3-Maske ändern muß, der Rest aber identisch bleibt, kann das schon recht fix gehen. Außerdem sind die höheren Layer auch einfacher (gröber strukturiert, nutzen oft sogar alte Belichter, nur für M1 [und den base layer natürlich] benötigt man die maximale Auflösung).

Metal layer spin sagt ja erstmal nur aus, daß der Baselayer und die Masken dafür nicht angefaßt werden.

Coda

2011-08-23, 23:54:37

Die Metal-Layer sind auch sehr viel grober, also sind die Masken auch billiger.

Edit: What you said :usad:

schön, nur war der Pentium Pro für den Normalverbraucher eher crap :P
Dir ist aber schon klar, das Pentium 2, 3 & M, sowie alle Core-Prozessoren darauf zurückgehen?

Beim P2 und P3 sogar mit recht geringen Änderungen.

|MatMan|

2011-08-23, 23:57:25

Interessant.
Aber Weißer Riese - Megaperls wäscht ja auch weißer als weiß, von daher gibt es vielleicht auch "echtere" Mehrkernprozessoren als die Vertreter der Gattung chip level multiprocessing, kurz CMP.
Hmk das ist eher der allgemeinere Begriff für alles mögliche mit mehreren "cores". Ich hatte hier eher SMP im Kopf, aber das ist wohl eher ein älterer Begriff und auf ner anderen Ebene.

Nur bei uralt 16bit Code. Also sowas ähnliches wie heutzutage SuperPi. Wenns nicht mehr ist juckt das Keinen. Im Nachfolgemodell PentiumII wars damit außerdem vorbei, der PPro war mehr Versuchsballon / erstes Testmuster, nur für den Servermarkt, nicht für den Massenmarkt.
Hab ich das nicht gerade gesagt?

S940

2011-08-24, 00:25:15

Nun, das Maskenset für einen modernen Prozeß kann auch schon mal locker aus über 20 einzelnen Masken bestehen. Für den Baselayer gibt es mehrere (für jede Belichtung, es sind ja mehrere nötig, um einen Transistor zu bauen), für jeden einzelnen Metal-Layer gibt es eine (und moderne HP-Prozesse können auch 10 oder gar mehr davon haben, Phenoms oder Llano haben glaube ich 11 metal layer) und es gibt jeweils eine Maske für die Vias zwischen den Metallayern (oder auch vom Base-Layer zu M1), also eine für die base-M1 vias, eine für die M1-M2 vias, eine für die M2-M3 vias usw.
Da gibt es also eine Menge Masken, die zusammen passen müssen. Es kommt immer darauf an, was man ändern muß, um etwas zu korrigieren oder zu optimieren. Wenn man nur die M2-M3 via Maske sowie die M3-Maske ändern muß, der Rest aber identisch bleibt, kann das schon recht fix gehen. Außerdem sind die höheren Layer auch einfacher (gröber strukturiert, nutzen oft sogar alte Belichter, nur für M1 [und den base layer natürlich] benötigt man die maximale Auflösung).

Metal layer spin sagt ja erstmal nur aus, daß der Baselayer und die Masken dafür nicht angefaßt werden.

Ah ok, die Vias auch nochmal extra. Ok das ist dann ne Menge. Aber sagen wir mal so, ne C1 wäre dann zumindest nicht 100% unmöglich. Immerhin etwas. Danke fürs Erklären.
Hab ich das nicht gerade gesagt?
Nö.

Skysnake

2011-08-24, 01:11:12

Hmk das ist eher der allgemeinere Begriff für alles mögliche mit mehreren "cores". Ich hatte hier eher SMP im Kopf, aber das ist wohl eher ein älterer Begriff und auf ner anderen Ebene.

Hab ich das nicht gerade gesagt?

SMP steht für Symmetric MultiProcessor und kommt eigentlich aus der Zeit, wo man noch Single-Cores hatte, und für ein Multi-Core System "einfach" mehrere CPUs zusammen geworfen hat, die identisch waren, und eben für das System wie EINE CPU daher kommen.

Mit den Multicores ist das etwas verwaschen, denn ein Multicore wird nicht wirklich als SMP bezeichnet, sondern eben als Multicore :rolleyes:

Im Prinzip ist es aber fast das Gleiche. Das OS kann halt nicht unterscheiden zwischen den CPUs. Also was die Funktionen etc. angeht. Die sind einfach alle Gleich fürs OS. Der gemeinsame Adressraum spielt btw. auch eine entscheidende Rolle. Ist also zwingend erforderlich, aber nicht ausreichend für die Def. eines SMP.

Coda

2011-08-24, 01:29:23

SMP steht für Symmetric MultiProcessor und kommt eigentlich aus der Zeit, wo man noch Single-Cores hatte, und für ein Multi-Core System "einfach" mehrere CPUs zusammen geworfen hat, die identisch waren, und eben für das System wie EINE CPU daher kommen.
Eigentlich steht es im ursprünglichen Sinne nur dafür, das die einzelnen Prozessoren gleich sind.

Skysnake

2011-08-24, 01:43:39

Sag ich doch. Früher waren es halt echte einzelne CPUs, die "gleich" waren. Halt kein Prozessor mit Coprozessor daneben, der nur einen reduzierten Funktionsumfang hat.

Damit das aber gegeben ist, brauchst du halt einen gemeinsamen Adressraum. Ansonsten hast du ja unterschiedliche Zeiger etc. etc. Ob shared Mem-Systeme per Software auch unter SMP fallen wage ich mal SCHWER zu bezweifeln.

|MatMan|

2011-08-24, 02:40:18

Dir ist aber schon klar, das Pentium 2, 3 & M, sowie alle Core-Prozessoren darauf zurückgehen?

Beim P2 und P3 sogar mit recht geringen Änderungen.
Ja das ist mir schon klar. Ich fand es nur lustig die Pentium Pro Server-CPU mit Bulldozer in Verbindung zu bringen. Von letzterem erhoffen sich die meisten hier ja in erster Linie eine gute Desktop-Leistung, was eben beim Pentium Pro bei der damals verbreiteten Desktop-Software nicht so war. Nicht das ich das für BD so erwarte...

Nö.
Was hast du denn bis auf die kleine Geschichtsstunde anderes gesagt??

Sag ich doch. Früher waren es halt echte einzelne CPUs, die "gleich" waren. Halt kein Prozessor mit Coprozessor daneben, der nur einen reduzierten Funktionsumfang hat.
Was heißt hier "früher"? Das ist doch heute immernoch so bei jedem dual, quad, hexa, usw. ... -core (wenn man mal von integrierter Grafik und dem ganzen "uncore"-Zeugs absieht). Es ging ja hier um "echte" dualcores. CMP würde ich eher als Oberbegriff sehen, der z.B. auch auf einen SoC mit seinen x-verschiedenen "Spezial"-cores passt.

Sir Integral Wingate Hellsing

2011-08-24, 03:05:45

Mal abseits von CineBench hab ich die y-cruncher (http://www.numberworld.org/y-cruncher/) Werte von corescn mit meinen Systemen verglichen:

FX 8130 Singlethread @ 4,2 GHz: 36,5 sec mit AVX
i7 2600k Singlethread @ 4,2 GHz: 20,9 sec mit AVX
Athlon II X3 435 Single@2,9 GHz: 44,4 sec mit SSE3

Ich hoffe inständig für AMD dass wir bisher entweder nur FUD-Benchmarks gesehen haben oder die öffentlich verfügbaren BIOSe noch die PreRelease Handbremse drin haben, denn insbesonders beim Vergleich mit dem L3-losen X3 gruselts mich ganz schön.

http://img812.imageshack.us/img812/1456/singlethreadycruncher1.jpg

Phenom II X2 555 Singlethread @ 4,0 GHz: 32,4 sec mit SSE3

Der BD-Bench kann doch nur Mist sein - oder? :freak:
Ansonsten geht der BD als "Pentium 4 Reloaded" in die Geschichte ein...
Von der Core-Diskussion mal ganz abgesehen...
Meine Wunsch-Alternative: Phenom FX @ 5 GHz ;D

anddill

2011-08-24, 08:00:43

Wo stand das nochmal offiziell, dass 1 BD Modul 80% der Leistung eines K10 Dualcore haben soll?
Nirgens. Diese Aussage gab es nie.
Ein BD-Modul hat 80% der Leistung von zwei theoretischen Single-Thread Bulldozer-Kernen.

edit: Ups, bin spät dran :)

robbitop

2011-08-24, 08:34:23

Wo stand das nochmal offiziell, dass 1 BD Modul 80% der Leistung eines K10 Dualcore haben soll?
Diese Frage wurde lustiger-/traurigerweise schon so oft in so vielen Foren gestellt und die Antwort war immer die gleiche:

AMD sagte sinngemäß, dass 1x BD-Modul (bis zu) 80 % der Performance eines theoretischen BD-Dualcores (also 2x Module aber ohne CMT!!) hätte.
Vom K10 als Referenz war nie die Rede.

Das kann man sicher in einem vernünftigen Test mal ausloten, in dem man mal 3 / 4 Modulen deaktiviert und 2 / 4 Modulen deaktiviert + CMT deaktiviert.
Wenn letzteres geht.

schön, nur war der Pentium Pro für den Normalverbraucher eher crap :P
Das hat eher fertigungstechnologische Gründe. Darum war er teuer. 16-Bit Code war zum Releasezeitraum auch nicht mehr up to date - und außerdem sollte er damals für Legacy Code schnell genug sein und für 32 bit Code gut gerüstet.

Es ging dem jenigen der es erwähnt hat auch nicht um das Produkt selbst, sondern um die µArch. Architektur =! Produkt.
Pentium Pro war Intels erster Out-of-Order Prozessor mit Fullspeed SRAM. Daraus entstand dann der Pentium 2 und Pentium 3 (und die Grundlagen für Banias/Dothan/Yonah und Core2 und Corei). Und die P6 Architektur (Pentium Pro und Nachfolger) war ein (nicht im physikalischen Sinne sonderm im rhetorischem Sinne) Quantensprung! - Das war die Quintessenz und nicht welches Produkt jetzt speziell gut oder schlecht für den Massenverbaucher war.

Kausalkette die daraus folgt: Der benannte Entwickler - legte Grundstein für moderne µArch bei Intel - Heller Kopf / Hammer Typ! - Erfinder von CMT - sollte also Potenzial haben.

--------------------------

Was ich mich allerdings frage: warum verbaut AMD so viel L2-Cache (verglichen mit SB)? Das kostet ja extrem viel Platz. Liegt es daran, dass der L3 bei AMD nicht performant genug ist, da er uncore (auf halbem Takt?) läuft?
Ist es denkbar, dass AMD den gleichen Schritt gehen wird und beim Refresh / Nachfolger den L3 mit vollem Takt laufen lässt? Was hat das für Konsequenzen? (es muss ja ein Haken dran sein, sonst hätte es AMD längst gemacht und Intel auch seit Nehalem)

anddill

2011-08-24, 08:37:41

Es wird sicher eine Variante ohne L3 geben. Entweder ein Bulldozer light, oder das Design soll so für Trinity übernommen werden.

BlackBirdSR

2011-08-24, 09:02:15

CMP = Dual Core Bulldozer (Jeder Integer hat eigene Ressourcen)
CMT = Verkaufs Konzept (Integer Cores teilen sich Ressourcen innerhalb eines Moduls)

CMT ist ein Physicher Core (Marketing = 2 Cores)
CMP ein echter Dual Core

Bulldozer CMT hat 80% Leistung von CMP, Vorteile gegenüber CMP: benötigt deutlich weniger Fläche und mehr Cores innerhalb 125W TDP sind dadurch möglich!!!

Der Erfinder vom Bulldozer Konzept ist Andy Glew "Intel Pentium Pro Chef" :)

Bob Colwell bitte.

Interessant wird, wie stark BD bei Gleitkomma-Applikationen Multithreaded zulegen kann im Vergleich zu Single Thread und im Vergleich zu Sandy Bridge.
Beide haben 4 physikalische Gleitkommasektionen, SB kann diese allerdings noch über SMT ansprechen, BD muss jeden 2. Takt wechseln.

Trap

2011-08-24, 09:27:24

Beide haben 4 physikalische Gleitkommasektionen, SB kann diese allerdings noch über SMT ansprechen, BD muss jeden 2. Takt wechseln.
BD muss jeden 2. Takt wechseln? Wo hast du das her? Das Scheduling und die Ausführung von FP-Operationen passiert unabhängig vom Quellthread.

Skysnake

2011-08-24, 09:51:33

Bob Colwell bitte.

Interessant wird, wie stark BD bei Gleitkomma-Applikationen Multithreaded zulegen kann im Vergleich zu Single Thread und im Vergleich zu Sandy Bridge.
Beide haben 4 physikalische Gleitkommasektionen, SB kann diese allerdings noch über SMT ansprechen, BD muss jeden 2. Takt wechseln.

So siehts nämlich aus, wie mein Vorredner schon sagt. BD KANN! jeden Taktzyklus die FP-Unit einem anderen Integercore zuweisen, müssen muss er aber gar nichts. Das wird ja auch eh nur dann gemacht, wenn der eine Thread 2 FP-Instructionen ausführen könnte in diesem Takt, und der andere Thread gar keine.

Wenn beide etwas parat haben, dann führen auch beide ihre FP-Operation echt parallel aus.:rolleyes:

BlackBirdSR

2011-08-24, 10:01:24

Sorry, AVX fall oder 2x 128b SSE halt ;)

Skysnake

2011-08-24, 10:39:39

Ja, wenn AVX Befehle verwendet werden, ist der 8 Moduler von der Leistung her auf Augenhöhe mit dem Corei.

Die lassen ja einfach 50% der FPU brach liegen :freak: bei nicht AVX Sachen.

Gut, das ist nicht wirklich klasse, aber so oft wird AVX in nächster Zeit wohl noch nicht eingesetzt, und mit BD2 und später hat man durch das Konzept die Chance, eigentlich relativ einfach, einfach eine zweite Flex-FPU dazuzu klemmen. Dann hätte man 2 AVX Befehle pro Takt, bzw. 4 SSE Befehle. Aktuell wäre das reine Platzverschwendung, in Zukunft aber durchaus denkbar.

Trap

2011-08-24, 10:41:27

Sorry, AVX fall oder 2x 128b SSE halt ;)
Auch dann muss man nicht jeden Takt den Thread wechseln, es können auch beliebige andere Reihenfolgen sein.

Screemer

2011-08-24, 10:42:26

Du meintest aber doch im Vergleich zu Sandstein und unterstützt doch gar kein avx, oder?

BlackBirdSR

2011-08-24, 10:52:07

Auch dann muss man nicht jeden Takt den Thread wechseln, es können auch beliebige andere Reihenfolgen sein.

alter Konrklauber :P
Natürlich für den Fall, dass jeder Kern dringend Ressourcen will.
Natürlich kann und darf die FPU auch 20 Takte am Stück für Kern 0 arbeiten, wenn der das will und Kern 1 lieber Adressen generiert ;)

S940

2011-08-24, 10:53:47

Auch dann muss man nicht jeden Takt den Thread wechseln, es können auch beliebige andere Reihenfolgen sein.
Er hat recht, er schrieb:
Beide haben 4 physikalische Gleitkommasektionen, SB kann diese allerdings noch über SMT ansprechen, BD muss jeden 2. Takt wechseln.
Es ging ums "ansprechen". Darunter verstehe ich, wie die µOps in den FP Scheduler reindröppeln.
Das geht abwechselnd, mal der eine Thread mal der andere Thread, maximale Abwechslung ist bei jedem neuen Takt, muss aber nicht sein.

Sobald die µOps dann im Scheduler sind, ist es aber egal, da gehts dann per OutofOrder und auch "OutofThread" weiter.
Da er aber eben von "ansprechen" sprach, hat er meinem Sprachverständnis schon recht.

@Sir Integral Wingate Hellsing:
Könntest Du noch nen AIDA Speicherbench@3,6GHz machen?
Mir viel gerade auf, dass die BDs L3 Latenzen des Corescn Tests miserabel wären. Ca. ~44 Takte. Angeblich soll das Teil doch@2,4Ghz laufen, also schneller als der aktuelle L3 sein. Aber so wies ausschaut ist der grottenlahm, langsamer als der K10 L3, grob kann mans schon von 3,4Ghz Aida benches sehen.

Frage ist jetzt natürlich, wie Aida da mißt, aber die neueste Version 1.85, die die Chinesen hatten, soll angeblich ja BD kompatibel sein, sollte also einigermaßen stimmen.

2 Durchgänge bei 3,6Ghz Kerntakt und mit einmal 2 Ghz und einmal 2,4Ghz NB/L3 Takt wären toll :)

y33H@

2011-08-24, 11:20:21

OBR misst Truecrypt im AES-Bench mit 1G *klick mich (http://pctuning.tyden.cz/hardware/procesory-pameti/21085-mame-novou-metodiku-test-prvnich-7-procesoru?start=6)*

Ronny145

2011-08-24, 11:35:13

Frage ist jetzt natürlich, wie Aida da mißt, aber die neueste Version 1.85, die die Chinesen hatten, soll angeblich ja BD kompatibel sein, sollte also einigermaßen stimmen.

Der hat sich jetzt ein Crosshair V Formula besorgt. Ein Bios fehlt allerdings noch, das aktuelle auf der Webseite ist alt. Ich hätte ein MSI 990FXA genommen, von denen gibt es aktuelle Beta Biose im Forum. Oder das ASRock 990FX mit public Bios von gestern.

Skysnake

2011-08-24, 11:58:13

Was AIDA und BD angeht, verlinke ich mich einfach mal selbst ;) http://der-grafikkartenblog.de/amd/mythbuster-aida64-und-bulldozer-messwerte/3087

Laut dem Hersteller von AIDA64 ist die Version v1.80 mit der Modul-Version 2.7.380 bereits auf Bulldozer optimiert

S940

2011-08-24, 12:11:12

Der hat sich jetzt ein Crosshair V Formula besorgt. Ein Bios fehlt allerdings noch, das aktuelle auf der Webseite ist alt. Ich hätte ein MSI 990FXA genommen, von denen gibt es aktuelle Beta Biose im Forum. Oder das ASRock 990FX mit public Bios von gestern.
Naja, den Asus Support kennst Du ja inzwischen :D
Die sind bei dem Brett sicherlich wieder genauso fix.

Das "aktuelle" BIos 0506 hat nur wieder:
AGESA V0.0.7.5, da soll er sich schon mal auf Werte wie beim ersten Brett vorbereiten :freak:

Hab vorsichtshalber wieder den ftp gecheckt, nichts Neueres drin.

Aber ein anderer Hersteller wäre schon sinnvoll gewesen, vielleicht sind andere Hersteller etwas weiter, wer weiß.

@Skysnake:
Nicht allzu wichtig, die Chinesen hatten schon 1.85, das hats auch offiziell ;-)

mironicus

2011-08-24, 12:16:02

Aida zeigt bei mir noch nicht mal die CPU-Temperatur richtig an (88 Grad, richtig wären 28 Grad laut Asus AI Suite), außerdem sind die Werte vom CPU-Lüfter und Fan-Lüfter vertauscht! Auch die Spannungswerte stimmen hinten und vorn nicht (Mainboard: Asus P8H67-I Deluxe) :D

Sir Integral Wingate Hellsing

2011-08-24, 13:35:22

@Sir Integral Wingate Hellsing:
Könntest Du noch nen AIDA Speicherbench@3,6GHz machen?
Mir viel gerade auf, dass die BDs L3 Latenzen des Corescn Tests miserabel wären. Ca. ~44 Takte. Angeblich soll das Teil doch@2,4Ghz laufen, also schneller als der aktuelle L3 sein. Aber so wies ausschaut ist der grottenlahm, langsamer als der K10 L3, grob kann mans schon von 3,4Ghz Aida benches sehen.

Frage ist jetzt natürlich, wie Aida da mißt, aber die neueste Version 1.85, die die Chinesen hatten, soll angeblich ja BD kompatibel sein, sollte also einigermaßen stimmen.

2 Durchgänge bei 3,6Ghz Kerntakt und mit einmal 2 Ghz und einmal 2,4Ghz NB/L3 Takt wären toll :)

Folgt im Laufe des Tages/der Nacht (die hässliche Drosselung des Sticks verhindert grad den DL von AIDA :( ), aber mein NB/L3-Takt ist fix, den kann ich nicht im BIOS umstellen, geh also von "default" aus - es sei denn Du/jmd kennt ne Lösung dafür (die mit meinem Oldtimer-Board geht).

Skysnake

2011-08-24, 14:05:18

Hast du etwa nen BD? :D

Wenn ja, musst dich mal bei mir melden, ich hätte dann wohl was interessantes für dich ;)

Sir Integral Wingate Hellsing

2011-08-24, 14:09:02

Hast du etwa nen BD? :D

Wenn ja, musst dich mal bei mir melden, ich hätte dann wohl was interessantes für dich ;)

Ne - s.o. bzw Sig. - lesen hilft ;)
Ich wage zu bezweifeln, dass der 690G-Chipsatz oder der Sockel AM2+ mit BD klarkommen/passen :D

Coda

2011-08-24, 14:18:31

Die lassen ja einfach 50% der FPU brach liegen :freak: bei nicht AVX Sachen.
Nö. Du kannst mit einem FADD/FMUL-Mix auch beide FP-Ports und damit die ganze FPU bei einem Sandy-Bridge auslasten.

Nur zweimal FMUL und zweimal FADD geht nicht zu starten in einem Takt.

Skysnake

2011-08-24, 14:29:05

Gut, die Kombination war mir noch nicht bekannt. Dachte das würde von der Ansteuerungslogik der FPU gar nicht gehen, mehr als einen Befehl gleichzeitig pro Takt zu übergeben.

Coda

2011-08-24, 14:30:40

Es gibt keine dedizierte Ansteuerungslogik der FPU bei Intel. Es läuft alles über eine unified Int/FP-Scheduler mit sechs Ports.

Skysnake

2011-08-24, 14:33:11

Danke. Gut zu wissen :D

S940

2011-08-24, 14:36:17

Folgt im Laufe des Tages/der Nacht (die hässliche Drosselung des Sticks verhindert grad den DL von AIDA :( ), aber mein NB/L3-Takt ist fix, den kann ich nicht im BIOS umstellen, geh also von "default" aus - es sei denn Du/jmd kennt ne Lösung dafür (die mit meinem Oldtimer-Board geht).

Hmm, was ist das für ein Brett, nur AM2, kein AM2+ ?
Dann wirds eventuell knapp mit der Verlustleistung ;-)

Bin mir nicht sicher, ob das Brett dann überhaupt den vollen L3 Takt einstellt, einige AM2 Bretter legen da nur 1,6Ghz oder so an.

Check das erstmal mit CPU-Z. Das gibt unter den RAM Infos auch den NB Takt aus. Wenn da 2GHz steht, ist alles in Butter, ansonsten bringts nicht viel.

Falls der bei 2GHz steht, könntest Dus mit Referenztakt OC den NB Takt anheben:

Referenztakt auf: 240Mhz
CPU Multiplier: 15 -> 3600MHz
NB Takt sollte wg. des festen 10er Mutlis bei 2,4 GHz sein
RAM Takt stellst Du auf DDR2-667 ein, das sollte mit 240er Reftakt dann auch wieder DDR2-800 ergeben.

Aber schau erstmal obs überhaupt läuft, soviel NB Takt auf nem AM2 Brett ist vielleicht schon grenzwertig. Nachdem Du aber nur nen DualCore hast, verbrät der insgesamt aber ja nicht sooviel, könnte also klappen.

ciao, Danke & viel Erfolg

Alex

S940

2011-08-24, 14:41:06

Nö. Du kannst mit einem FADD/FMUL-Mix auch beide FP-Ports und damit die ganze FPU bei einem Sandy-Bridge auslasten.
Ja, aber wenn das keine AVX FADD/FMUL Befehle sind, ist das trotzdem wieder nur die Hälfte, 2x128bit anstatt 2x256bit, also 50% ;-)

Coda

2011-08-24, 14:48:27

Sandy-Bridge kann selbstverständlich nur 1x256 bit pro Takt issuen. Der Chip benötigt dafür alle seine FPUs.

S940

2011-08-24, 14:55:39

Sandy-Bridge kann selbstverständlich nur 1x256 ausführen. Der Chip benötigt dafür alle seine FPUs.
Hm ok, aber der Scheduler kann doch drei 256b Befehle in einem Takt an Port 0,1,5 abliefern.
Wie gehts dann weiter? Laufen alle drei Add/Mul/Shuffle trotz unterschiedlicher Ports auf den gleichen Rechenwerken :confused:

Coda

2011-08-24, 14:58:29

Hm, könnte sein das du doch recht hast. Ich hatte da wohl was falsch im Kopf und es sind doch 2x256 bit pro Takt.

Andererseits bin ich mir sicher, da schon irgendwann mal nen Slide dazu gesehen zu haben, das sie für AVX was kombinieren.

Edit:
In order to execute the new AVX instructions, which carry 256-bit data, instead of adding 256-bit datapaths and 256-bit units to the CPU, two execution units are “merged” (i.e., used at the same time), as you can see in Figure 3.

Edit 2: Aaah, sie haben Integer-SIMD und FP-SIMD zusammengefasst für AVX. Jetzt versteh ich das.

Dann sind es tatsächlich zwei vollständige ADD bzw. MUL 256-Bit-FPUs. AMD hat pro Modul zwei vollständige MADD-256-Bit-FPUs.

Sir Integral Wingate Hellsing

2011-08-24, 15:14:41

Bin mir nicht sicher, ob das Brett dann überhaupt den vollen L3 Takt einstellt, einige AM2 Bretter legen da nur 1,6Ghz oder so an.

Check das erstmal mit CPU-Z. Das gibt unter den RAM Infos auch den NB Takt aus. Wenn da 2GHz steht, ist alles in Butter, ansonsten bringts nicht viel.

Wird leider nix bei mir :(
1,6 GHz NB-Takt lt. CPU-Z...

S940

2011-08-24, 15:24:37

Edit 2: Aaah, sie haben Integer-SIMD und FP-SIMD zusammengefasst für AVX. Jetzt versteh ich das.

Dann sind es tatsächlich zwei vollständige ADD bzw. MUL 256-Bit-FPUs.
Jupp, und es stört nicht mal, da die recycelten INT Pfade am gleichen Port hängen, also sowieso nicht gleichzeitig benützt werden können, wenn eine AVX µOp kommt. Auch ganz schick gelöst. Weiß nicht, was eleganter ist, Intels Zusammelegen von INT+FP, oder AMDs FlexFPU ;-)

Falls Du es noch nicht kennen solltest, realworldtech hat meist die besten Artikel dazu:
http://www.realworldtech.com/page.cfm?ArticleID=RWT091810191937&p=6
Der Rest hat meist nur ne Aufguss von Intel Folien.

Wird leider nix bei mir :(
1,6 GHz NB-Takt lt. CPU-Z...
Ok, dann wirds nix, da schlägt leider die AM2 Bremse zu. Jemand anders mit K10 CPU hier, der kurz mal nen AIDA Mem Bench @3,6GHz CPU und 2,4GHz NB Takt laufen lassen kann?

ciao

Alex

Knuddelbearli

2011-08-24, 16:04:25

Ja das ist mir schon klar. Ich fand es nur lustig die Pentium Pro Server-CPU mit Bulldozer in Verbindung zu bringen. Von letzterem erhoffen sich die meisten hier ja in erster Linie eine gute Desktop-Leistung, was eben beim Pentium Pro bei der damals verbreiteten Desktop-Software nicht so war. Nicht das ich das für BD so erwarte...

also ich erwarte mir keine besonders gute Desktop Leistung dazu kann man 8 INT Kerne nicht ansatzweise genug ausnutzen. Dafür hoffe ich das er in MultiThreadet richtig abgeht, und sich rigendwo zwischen den 6 und 8 Kernern von Intel positioniert ( bleibt aber vermutlich Wunschdenken )

schmacko

2011-08-24, 16:34:26

Ok, dann wirds nix, da schlägt leider die AM2 Bremse zu. Jemand anders mit K10 CPU hier, der kurz mal nen AIDA Mem Bench @3,6GHz CPU und 2,4GHz NB Takt laufen lassen kann?

ciao

Alex

hab nen x6 und könnte mein glück versuchen...

edit:

muss ich denn tatsächlich rebooten für einen anderen nb-takt (2400)? konnte man das nicht mal per overdrive ändern?

und warum hat aida jetzt so doofe trial-dingsbums-hinweise?

Gipsel

2011-08-24, 18:09:43

Er hat recht, er schrieb:
Es ging ums "ansprechen". Darunter verstehe ich, wie die µOps in den FP Scheduler reindröppeln.
Das geht abwechselnd, mal der eine Thread mal der andere Thread, maximale Abwechslung ist bei jedem neuen Takt, muss aber nicht sein.

Sobald die µOps dann im Scheduler sind, ist es aber egal, da gehts dann per OutofOrder und auch "OutofThread" weiter.
Was ein absolut identisches Verhalten zu den Intels mit SMT ist.
Dort gibt es ja auch keine 2 getrennte Decodierungspipelines, die dem Scheduler in einem Takt Befehle aus zwei verschiedenen Threads zuführt. Auch dort arbeitet die Decodierung mit vertikalem Multithreading, also man wechselt von Takt zu Takt zwischen den Threads.
Aaah, sie haben Integer-SIMD und FP-SIMD zusammengefasst für AVX. Jetzt versteh ich das.

Dann sind es tatsächlich zwei vollständige ADD bzw. MUL 256-Bit-FPUs. AMD hat pro Modul zwei vollständige MADD-256-Bit-FPUs.
Ich glaube nicht so ganz. Eine BD-FPU hat zwei 128 Bit MADD/FMAs und zwei 128Bit Integer ALUs, insgesamt 4 Ports.
Sandybridge hat hat für FP einen Adder für 256 Bit breite Vektoren und einen Multiplier für 256 Bit breite Vektoren (Integer geht nur für 128 Bit, das bohrt dann Haswell auf). Insgesamt stehen 3 Issue Ports zur Verfügung.
Port0: 128 Bit Integer MUL, 256 Bit FP MUL, 128 Bit INT-shuffles
Port1: 128 Bit Integer ADD, 256 Bit FP ADD, 128 Bit INT-shuffles
Port5: 256 Bit FP-shuffles, 128/256 Bit Boolean Ops

Bei BD sieht es so aus:
Port0: 128 Bit FP ADD/MUL/MADD/FMA, 128 Bit Integer MUL/MADD (hier sitzt der IMAC!)
Port1: 128 Bit FP ADD/MUL/MADD/FMA, 128 Bit shuffles
Port2: 128 Bit INT ADD, booleans
Port3: 128 Bit INT ADD, booleans, store

S940

2011-08-24, 18:56:04

und warum hat aida jetzt so doofe trial-dingsbums-hinweise?
Danke, aber das Trial Zeugs ist sch...lecht, ich brauch den Nanosekundenwert beim L3 :(

Na egal, lassen wirs, dachte das ginge auf die Schnelle, aber jetzt wirds langsam zu kompliziert :freak:

Ronny145

2011-08-24, 19:20:48

Die Trial Version mit dem 760G Board und Altbios hatte übrigens bessere L3 Werte angezeigt.

schmacko

2011-08-24, 21:25:19

Danke, aber das Trial Zeugs ist sch...lecht, ich brauch den Nanosekundenwert beim L3 :(

Na egal, lassen wirs, dachte das ginge auf die Schnelle, aber jetzt wirds langsam zu kompliziert :freak:
woher bekommt man denn eine - meinetwegen alte - nicht-trial-version?
die nb ist ja jetzt auf 2400mhz eingestellt per bios.

Skysnake

2011-08-24, 22:26:44

Was ein absolut identisches Verhalten zu den Intels mit SMT ist.
Dort gibt es ja auch keine 2 getrennte Decodierungspipelines, die dem Scheduler in einem Takt Befehle aus zwei verschiedenen Threads zuführt. Auch dort arbeitet die Decodierung mit vertikalem Multithreading, also man wechselt von Takt zu Takt zwischen den Threads.

Ich glaube nicht so ganz. Eine BD-FPU hat zwei 128 Bit MADD/FMAs und zwei 128Bit Integer ALUs, insgesamt 4 Ports.
Sandybridge hat hat für FP einen Adder für 256 Bit breite Vektoren und einen Multiplier für 256 Bit breite Vektoren (Integer geht nur für 128 Bit, das bohrt dann Haswell auf). Insgesamt stehen 3 Issue Ports zur Verfügung.
Port0: 128 Bit Integer MUL, 256 Bit FP MUL, 128 Bit INT-shuffles
Port1: 128 Bit Integer ADD, 256 Bit FP ADD, 128 Bit INT-shuffles
Port5: 256 Bit FP-shuffles, 128/256 Bit Boolean Ops

Bei BD sieht es so aus:
Port0: 128 Bit FP ADD/MUL/MADD/FMA, 128 Bit Integer MUL/MADD (hier sitzt der IMAC!)
Port1: 128 Bit FP ADD/MUL/MADD/FMA, 128 Bit shuffles
Port2: 128 Bit INT ADD, booleans
Port3: 128 Bit INT ADD, booleans, store

Gipsel, du hast noch die 256 Bit AVX Befehle vergessen, oder ist das nochmal ein Unterschied zu dem 256 Bit FP MUL/ADD

Bzgl. SMT habe ich aber ein kleines Problem mit deiner Ausführung.
Du meinst ja, dass in jeder Pipelinestufe (also über die unterschiedlichen Ports) nur ein Thread enthalten sein kann. In meiner Vorlesung wurde uns aber bzgl. SMT erzählt, dass jede Funktionseinheit/Port getrennt betrachtet werden kann. Also aus beiden Threads Instruktionen echt parallel ausgeführt werden können, so lange eben unterschiedliche Pipelines angesprochen werden.

So hat das ja auch Sinn gemacht, ansonsten ist es ja einfach "nur" HTT.

Oder haben die uns Mist erzählt? :confused:

kruemelmonster

2011-08-24, 22:41:37

Die AIDA32 Freeware ist uralt, da werden kaum vernünftige Werte auf aktueller Hardware rauskommen.

Es gibt noch den früher zu CPU-Z gehörenden Cachebenchmark (http://www.cpuid.com/medias/files/softwares/misc/latency.zip) von CPUID, und von SiSoft Sandra gibts auch eine Gratisversion (http://sisoftware.co.uk//?d=dload&f=sware_dl_3264&l=de&a=).

S940

2011-08-24, 23:04:57

Die Trial Version mit dem 760G Board und Altbios hatte übrigens bessere L3 Werte angezeigt.
Ja mir ist das auch bei nem OBR Screen aufgefallen. Entweder liegts an der AIDA Version oder AMD bremst da.
Deswegen wollte ich das mal vergleichen.
woher bekommt man denn eine - meinetwegen alte - nicht-trial-version?
die nb ist ja jetzt auf 2400mhz eingestellt per bios.
Leider keine Ahnung, wird wohl nur auf nicht legalem Wege bzw. mit Euros zu erhalten sein :(
Gipsel, du hast noch die 256 Bit AVX Befehle vergessen, oder ist das nochmal ein Unterschied zu dem 256 Bit FP MUL/ADD
Öhm, ne das ist eben kein Unterschied, AVX ist doch nur Intels Sammel-Marketingbegriff für alle möglichen 3Operand 256bit Befehle, egal ob Mul, Add, oder sonstwas. Sobald er 256bit im Kontext von x64 schreibt, impliziert das AVX.

Bzgl. SMT habe ich aber ein kleines Problem mit deiner Ausführung.
Du meinst ja, dass in jeder Pipelinestufe (also über die unterschiedlichen Ports) nur ein Thread enthalten sein kann. In meiner Vorlesung wurde uns aber bzgl. SMT erzählt, dass jede Funktionseinheit/Port getrennt betrachtet werden kann. Also aus beiden Threads Instruktionen echt parallel ausgeführt werden können, so lange eben unterschiedliche Pipelines angesprochen werden.

Da hatten wir doch erst letztens das Bildchen von der BD Organisation.
Die µOps gehen abwechselnd in den Scheduler rein, und dann werden sie verteilt, wie halt gerade passende Ports frei sind. Was nicht sein kann ist, dass eine halbe µOp von Thread 1 und ne andere Hälfte von Thread 2 gleichzeitig an einem Port geschickt wird, das wäre lustig :freak:
Das "getrennt parallel" hat sich vielleicht auf die Register bezogen? Da gibts für jeden Thread je einen Satz. Aber die Ausführung läuft in den Rechenwerken, und die bekommen pro Takt eine µOp, halbe Sachen gehen nicht.
Andere Möglichkeit: Vielleicht meinten die einfach den simplen Fall, dass µOp1 von Thread1 an Port 0 geht und gleichzeitig µOp2 von Thr2 an Port1. Das ist möglich, klar. Das ist SMT und deswegen steht bei AMDs FPU auch SMT dabei.

Es gibt noch den früher zu CPU-Z gehörenden Cachebenchmark (http://www.cpuid.com/medias/files/softwares/misc/latency.zip) von CPUID, und von SiSoft Sandra gibts auch eine Gratisversion (http://sisoftware.co.uk//?d=dload&f=sware_dl_3264&l=de&a=).
Ich dachte noch an rightmark memory bench, mittlerweile bisschen in die Jahre bekommen, aber sollte noch funktionieren.
In jedem Fall haben wir da aber dann das Problem, dass das nichts bringt, solange keiner mit nem BD bencht.
Da müßte Ronny mal versuchen ein gutes Wort einzulegen ^^
Sandra benützt meines Wissens nach aber auch extra angepaßte Binaries für unterschiedliche CPUs, wäre also auch wieder kein 1:1 Vergleich. Vielelicht gilt das aber nur für die Rechenbenches, nicht für die Speicherbenches, bin mir nicht sicher.

Ronny145

2011-08-24, 23:20:21

Ja mir ist das auch bei nem OBR Screen aufgefallen. Entweder liegts an der AIDA Version oder AMD bremst da.
Deswegen wollte ich das mal vergleichen.

Das ist doch aber die gleiche CPU. Ich meine den ersten Test des Chinesen mit älteren Board und Bios. Ich weiß aber auch nicht wie zuverlässig die Werte sind oder ob die stark schwanken. Komisch wäre es wenn die Werte mit der Trial Version unterschiedlich ausfallen.

harzer_knaller

2011-08-24, 23:28:47

[...] Jemand anders mit K10 CPU hier, der kurz mal nen AIDA Mem Bench @3,6GHz CPU und 2,4GHz NB Takt laufen lassen kann?

ciao

Alex
Reicht das?

1. is alles @default
2. is CPU-NB @2.4GHz
3. is CPU@3.6GHz & CPU-NB@2.4GHz

Gipsel

2011-08-24, 23:31:06

Gipsel, du hast noch die 256 Bit AVX Befehle vergessen, oder ist das nochmal ein Unterschied zu dem 256 Bit FP MUL/ADDDie 256 Bit-Befehle sind AVX, bei BD ist das halt ein double decode, wird also in zwei 128Bit MacroOps zerlegt.
Bzgl. SMT habe ich aber ein kleines Problem mit deiner Ausführung.
Du meinst ja, dass in jeder Pipelinestufe (also über die unterschiedlichen Ports) nur ein Thread enthalten sein kann.Dann hast Du mich mißverstanden. Der Decoder wechselt jeden Takt zwischen den Threads, aber ab dem Scheduler geht es dann durcheinander, da können also in einem Takt Befehle von unterschiedlichen Threads an die verschiedenen Pipelines issued werden. Das ist exakt identisch bei der BD-FPU und den Intel-CPUs, darauf wollte ich hinaus.

Skysnake

2011-08-24, 23:34:20

Da hatten wir doch erst letztens das Bildchen von der BD Organisation.
Die µOps gehen abwechselnd in den Scheduler rein, und dann werden sie verteilt, wie halt gerade passende Ports frei sind. Was nicht sein kann ist, dass eine halbe µOp von Thread 1 und ne andere Hälfte von Thread 2 gleichzeitig an einem Port geschickt wird, das wäre lustig :freak:
Das "getrennt parallel" hat sich vielleicht auf die Register bezogen? Da gibts für jeden Thread je einen Satz. Aber die Ausführung läuft in den Rechenwerken, und die bekommen pro Takt eine µOp, halbe Sachen gehen nicht.

Andere Möglichkeit: Vielleicht meinten die einfach den simplen Fall, dass µOp1 von Thread1 an Port 0 geht und gleichzeitig µOp2 von Thr2 an Port1. Das ist möglich, klar. Das ist SMT und deswegen steht bei AMDs FPU auch SMT dabei.

Genau das letzte Meinte ich. Deswegen sind die Threads eben doch teilweise echt parallel, weil eben für unterschiedliche Pipelines unterschiedliche Threads gleichzeitig ihre Instructionen durchjagen können.

Also Takt 0 Pipeline A Thread 0 und Pipeline B Thread 1 eine Instruction, und dann im Takt 1 eben genau umgedreht. usw. usf.

Man wechselt also nicht wie von dir gesagt von Takt zu Takt zwischen den Threads. Die Pipelines müssen halt nur frei sein, und die Threads entsprechende Instructionen zur Ausführung bereit haben.

Das man einen Mycrocode nicht einfach aufteilen kann, sollte klar sein :freak:

EDIT: Dank deines neusten Posts passts jetzt :biggrin:

Jo, DEM kann ich jetzt 100% zustimmen. Vorher hab ich das aber wirklich nicht so verstanden, wie du es jetzt geschrieben hast. Daher auch meine Verwunderung. :)

Aber jetzt passts ja. Puh ich dachte schon mein halbes Weltbild stürzt wie ein Kartenhaus zusammen :freak:

Gipsel

2011-08-24, 23:44:40

Ja, das paßt schon alles. Blackbirds Eingangsfrage war nur etwas eigenartig, sagte er doch, daß er gespannt ist, wie BD und SB bei Gleitkomma im Vergleich bei Multithreading abschneiden, hätten die Intels eben noch SMT und BD würde jeden Takt alternieren. Das ist aber gerade nicht so, wie z.B. Trap und S940 auch anmerkten. Ich wollte das nur nochmal bekräftigen und herausstellen, daß bei FP-Code das Verhalten bezüglich Multithreading eigentlich gleich sein müßte.

S940

2011-08-25, 00:03:35

Das ist doch aber die gleiche CPU. Ich meine den ersten Test des Chinesen mit älteren Board und Bios. Ich weiß aber auch nicht wie zuverlässig die Werte sind oder ob die stark schwanken. Komisch wäre es wenn die Werte mit der Trial Version unterschiedlich ausfallen.
Ja ne, das meinte ich ja, das alte Brett hatte ja noch das 0075er Agesa.
Da könnte es jetzt sein, dass die schlechteren Werte mit der neuen Version am 0091er Agesa mit eingebauter Bremse liegen.
Oder halt ganz simpel an Aida Müll :freak:

Edit:
Hab gerade nochmal nachgeschaut, AIDA hat er nur mit dem neuen gebencht, oder?

Reicht das?

1. is alles @default
2. is CPU-NB @2.4GHz
3. is CPU@3.6GHz & CPU-NB@2.4GHz
Jo optimal, Danke ! :)
Wir halten also fest:
L1: 0,8ns
L2: 2,6ns und
L3: 6,0ns
In Takten umgerechnet:
L1: 2,88 Takte -> sollten 3 Takte laut Manual sein, passt.
L2: 9,36 Takte -> 9 Takte, passt auch bzw. ist ziemlich gut, in den Manualen steht glaube ich 10 Takte, sollte der best case sein.
L3: 6,0ns -> 21,6 Takte ~22 Takte, sollte ebenfalls der best case sein.

Dagegen sind die chin. BD Ergebnisse im L3 sehr schlecht. L1 und L2 passen noch einigermaßen mit 4 und ~21 Takten (kleine Abweichung schon beim L2, der sollte 20 Takte haben), aber L3 hätte 44 Takte, das wäre indiskutabel.

Nachdem Aida BD kompatibel ist, kann man mal davon ausgehen, dass das Teil keinen Mist misst, ergo der L3 kaputt ist, bzw. AMD da was bremst. Natürlich bleibt aber trotzdem noch das Restrisiko eines AIDA Bugs, 100% sicher kann man nicht sein.

Ich wollte das nur nochmal bekräftigen und herausstellen, daß bei FP-Code das Verhalten bezüglich Multithreading eigentlich gleich sein müßte.
Ja, einziger Unterschied ist nur noch, dass AMD wg. den FMACs anstatt 1x Add und 1xMul auch 2xAdd oder 2xMul ausführen könnte. Könnte im SMT Betrieb eventuell etwas ins Gewicht fallen: Falls 2x die gleichen Threads laufen und beide viel addieren bzw. multiplizieren, hilft eventuell auch ein tiefer Schedulerbuffer nichts mehr. Aber pure Spekulation ;-)

Ronny145

2011-08-25, 00:23:50

Da könnte es jetzt sein, dass die schlechteren Werte mit der neuen Version am 0091er Agesa mit eingebauter Bremse liegen.

Da mit dem Asrock erste Boards mit finalen Agesa 0091er Biosen ausgestattet werden und vermutlich andere bald folgen werden, könnte das jetzt so kurz vor launch nach hinten losgehen. Wenn dem so wäre, sollten die Mainboard Hersteller auf finale 0091er Biose absehen. Ich kann mir das nicht vorstellen, zumindest nicht als Absicht. Wie man an den sehr neuen Beta Biosen im MSI Forum erkennen kann, ist Agesa 0091 derzeitig immer noch aktuell. Wann soll es denn da Biose geben, die keine Bremse beinhalten? Ein hypothetisches Agesa 0092 Bios müsste es erstmal als Beta ins Bios schaffen geschweige denn in ein finales public Bios. Und das möglicherweise keine 4 Wochen vor launch?

Vielleicht fallen die Werte mit dem Crosshair V ganz anders aus, das sollte man abwarten.

Gestrandet

2011-08-25, 00:26:03

WTF?!? Soll das heißen, beim BD verdoppelt sich planmäßig die L2-Zykluslatenz im Vergleich zum K10, bei kaum höherem Takt??? Hat das Designteam in den letzten Jahren auch mal was anderes gemacht als zu saufen und die Kohle mit Nutten und Black Jack durchzubringen? Gibt's ja nit... wenn das so ist, sieht man ja schon an den Specs dass das ein Rohrkrepierer wird. Mein Eindruck: da haben ein paar durchgeknallte im stillen Kämmerlein & ohne richtige Kontrolle vor sich hingewerkelt.

dildo4u

2011-08-25, 00:27:50

Wieso soll der Takt kaum höher sein beim X6 war bei 3.3 Schluss für die 8 Core BD sind schon 3.9-4.5Ghz(Turbo) geplant.(FX-8170)

Psychopat

2011-08-25, 00:53:11

Speku zur Bremse im Agesa 0091 Bios:
Wäre es möglich, dass die evtl. datumsbedingt greift bzw. nicht greift? also praktisch ein NDA im Bios. Nach launchtermin (bzw. nach dem Datum an dem Testsamples verschickt werden) deaktiviert sich die Bremse von selbst.

Wenn das so wäre... jetzt einfach Datum vorstellen, BD unleashed testen?

Blediator16

2011-08-25, 01:31:03

Es werden doch bereits AM3+ Mainboards verkauft. Diese müssten ja eigentlich schon das aktuelle Bios haben, was eine Biosbremse eigentlich ausschließen müsste.

Skysnake

2011-08-25, 01:34:51

Ja ne, das meinte ich ja, das alte Brett hatte ja noch das 0075er Agesa.
Da könnte es jetzt sein, dass die schlechteren Werte mit der neuen Version am 0091er Agesa mit eingebauter Bremse liegen.
Oder halt ganz simpel an Aida Müll :freak:

Edit:
Hab gerade nochmal nachgeschaut, AIDA hat er nur mit dem neuen gebencht, oder?

Jo optimal, Danke ! :)
Wir halten also fest:
L1: 0,8ns
L2: 2,6ns und
L3: 6,0ns
In Takten umgerechnet:
L1: 2,88 Takte -> sollten 3 Takte laut Manual sein, passt.
L2: 9,36 Takte -> 9 Takte, passt auch bzw. ist ziemlich gut, in den Manualen steht glaube ich 10 Takte, sollte der best case sein.
L3: 6,0ns -> 21,6 Takte ~22 Takte, sollte ebenfalls der best case sein.

Dagegen sind die chin. BD Ergebnisse im L3 sehr schlecht. L1 und L2 passen noch einigermaßen mit 4 und ~21 Takten (kleine Abweichung schon beim L2, der sollte 20 Takte haben), aber L3 hätte 44 Takte, das wäre indiskutabel.

Nachdem Aida BD kompatibel ist, kann man mal davon ausgehen, dass das Teil keinen Mist misst, ergo der L3 kaputt ist, bzw. AMD da was bremst. Natürlich bleibt aber trotzdem noch das Restrisiko eines AIDA Bugs, 100% sicher kann man nicht sein.

Also AIDA als Fehlerquelle würde ich wirklich ausschließen. Ich hatte da wirklich ein sehr interessantes Gespräch darüber. Das Ding könnt ihr wirklich streichen als Fehlerquelle. Ich kann mir wirklich nicht vorstellen, dass die diesbezüglich Bockmist gebaut haben. Vertraut mir ;)

Zu BD Zugriffslatenzen. Ich hab im Software Optimization Guide nochmal nachgeschaut. Dort steht folgendes: (jeweils load-to-use-latency)

L1Data: 4 Takte
L2: 18-20 Takte
L3: KEINE ANGABE

Knuddelbearli

2011-08-25, 02:00:35

N0Thing

2011-08-25, 03:44:09

Es werden doch bereits AM3+ Mainboards verkauft. Diese müssten ja eigentlich schon das aktuelle Bios haben, was eine Biosbremse eigentlich ausschließen müsste.

Nein, da es noch keinen Bulldozer gibt, reicht ein BIOS mit Support für den Phenom II aus. Entsprechende BIOS für Bulldozer wird es erst uzm Launch geben.

Coda

2011-08-25, 10:36:48

S940

2011-08-25, 11:08:28

Da mit dem Asrock erste Boards mit finalen Agesa 0091er Biosen ausgestattet werden und vermutlich andere bald folgen werden, könnte das jetzt so kurz vor launch nach hinten losgehen. Wenn dem so wäre, sollten die Mainboard Hersteller auf finale 0091er Biose absehen. Ich kann mir das nicht vorstellen, zumindest nicht als Absicht. Wie man an den sehr neuen Beta Biosen im MSI Forum erkennen kann, ist Agesa 0091 derzeitig immer noch aktuell. Wann soll es denn da Biose geben, die keine Bremse beinhalten? Ein hypothetisches Agesa 0092 Bios müsste es erstmal als Beta ins Bios schaffen geschweige denn in ein finales public Bios. Und das möglicherweise keine 4 Wochen vor launch?

Ist ein Argument, 4Wochen vor Launch noch mit sowas herumdoktorn wäre etwas schräg. Aber evenutell nicht soo arg, da gabs doch auch mal bei den GPUs leichte Fehlerchen, bei denen die Beta Teile per BIOS teildeaktivierte Shader hatten, und die dann sogar auch noch in den Endkundenmarkt gelangten.
Vielleicht fallen die Werte mit dem Crosshair V ganz anders aus, das sollte man abwarten.
Ich glaubs irgendwie nicht, aber warten wirs mal ab. Hast Du schon das Beta Bios beantragt / bekommen?

WTF?!? Soll das heißen, beim BD verdoppelt sich planmäßig die L2-Zykluslatenz im Vergleich zum K10, bei kaum höherem Takt??? Hat das Designteam in den letzten Jahren auch mal was anderes gemacht als zu saufen und die Kohle mit Nutten und Black Jack durchzubringen? Gibt's ja nit... wenn das so ist, sieht man ja schon an den Specs dass das ein Rohrkrepierer wird. Mein Eindruck: da haben ein paar durchgeknallte im stillen Kämmerlein & ohne richtige Kontrolle vor sich hingewerkelt.
Natürlich, ist das doppelt so lange, ist aber auch schon ne halbe Ewigkeit bekannt, steht im Manual. AMD sagt dazu, dass ~20 Takte kein Problem wären, die könne man noch einfach durch prefetch, OoO etc. pp. verstecken. Außerdem ist der Takt nicht nur fürs aktuelle Modell geplant, sondern auch für alle zukünftigen Modelle, die auf die Architektur aufbauen. Die 10 Takte beim K10 gibts z.B. seit den ersten K8 2003, wenn mich nicht alles täuscht. Sowas hält lange vor. Da der L2 @coreTakt läuft und die Taktraten v.a. im Turbo Mode weit höher gehen, ist das schon ok.

Speku zur Bremse im Agesa 0091 Bios:
Wäre es möglich, dass die evtl. datumsbedingt greift bzw. nicht greift? also praktisch ein NDA im Bios. Nach launchtermin (bzw. nach dem Datum an dem Testsamples verschickt werden) deaktiviert sich die Bremse von selbst.
Glaub ich jetzt weniger, dass das BIOS eine Spielwiese für sowas wäre, aber aufgrund mangelnder Kenntnisse kann ichs mal nicht ausschließen ^^

Also AIDA als Fehlerquelle würde ich wirklich ausschließen. Ich hatte da wirklich ein sehr interessantes Gespräch darüber. Das Ding könnt ihr wirklich streichen als Fehlerquelle. Ich kann mir wirklich nicht vorstellen, dass die diesbezüglich Bockmist gebaut haben. Vertraut mir ;)
Ok, wenn doch irgendwas mit AIDA sein sollte, werf ich den ersten Stein :biggrin:
Zu BD Zugriffslatenzen. Ich hab im Software Optimization Guide nochmal nachgeschaut. Dort steht folgendes: (jeweils load-to-use-latency)

L1Data: 4 Takte
L2: 18-20 Takte
L3: KEINE ANGABE
Jupp deswegen schrieb ich oben bei L1/L2 dass es (zum Manual) "paßt".

Der L3 ist insofern ein heikles Thema, als er ja nicht @Kerntakt läuft. Außerdem ist er bei AMD jetzt erstmals segmentiert, jeder Kern hat "seine" 2 MB Teile, die sollten von der Zugriffszeit her besser sein, als der Rest. Ist bei Intel auch so.
Aber wieso sollte das langsamer als beim K10 gehen? Der war doch auch schon nicht so toll. 1 Controller, und Zugriff für die Kerne round-robin. Der obige AIDA Wert dürfte da eindeutig best-case sein. Der BD L3 Werte dagegen kann nicht best-case sein, da bin ich mir so gut wie sicher.

Noch ne Kopie aus dem IEEE PDFs:
http://www.abload.de/img/2mbcache6jh1.png

Mit der Bandbreite scheint auch was nicht zu stimmen. Immerhin, laut AIDA liest BD doppelt so schnell als der K10. Laut dem obigen Bildchen hat jeder Subcache nen x2 140bit Read Anschluss, und x1 140b Write. Selbst ein einfacher Zugriff sollte damit schon schneller sein, als die AIDA Meßwerte ... aber angeblich, laut Beschreibung, wäre auch ein gleichzeitiger Zugriff auf alle 4 Segmente möglich, wenns jeweils eine andere Cache-Bank ist:

The L3 cache is divided into 4 independent 2MB subcaches, shown in
Fig. 14.3.1, with each subcache further divided into 4 banks. The interface to the
subcache consists of the following ports: 2 tag read, 2 tag write, 2 data read and 1 data write. Concurrent operations on different ports are supported when accesses do not target the same bank. The data portion of the subcache is divided into 4 sequential regions, each running one phase behind the previous region and containing 1/4 of the 512b cache line. The combination of half-cycle delay for control signals reaching a region and half-cycle delay for read data crossing that region means a cache line is returned in a burst of 4 cycles during a read. Similarly, the subcache requires 4 cycles to write a full cache line. A sequential region contains 8 64KB macros, each containing 64 data, 6 ECC and 2 repair I/O’s, with 2 macros in each sequential region accessed per operation. The macro operates in a flow-through manner, illustrated in Fig. 14.3.2, to enable high speed and area efficiency while reducing clock power [2,3

Also beim L3 ist irgendwas im Busch, mMn.

ciao

Alex

Triskaine

2011-08-25, 16:55:41

Die L2-$ Latenz von Bulldozer ist im Vergleich zum 10h keine Verdopplung, dieser hat nämlich eine Zugriffszeit von 15 Takten. Die Latenz erhöht sich um ein Drittel, die Größe vervierfacht sich hingegen, dass ist ein fairer Tausch.

Der L2-$ von Sandy Bridge hat bei 256 KB 12 Takte Zugriffszeit, auch kein Bestwert, dass wird aber durch den sehr schnellen L3-$ mehr als kompensiert.

Rekordhalter bleibt Penryn, dessen 6 MB L2-$ braucht lediglich 15 Takte.

Duke Nukem

2011-08-25, 22:39:54

OBR lässt auch mal wieder was los. Jetzt ist auf einmal der Bulli um längen schneller in dem Bench als Sandy.Wers glaubt wird selig.
http://obrovsky.blogspot.com/2011/08/bulldy-results-915.html

Ronny145

2011-08-25, 23:04:09

OBR lässt auch mal wieder was los. Jetzt ist auf einmal der Bulli um längen schneller in dem Bench als Sandy.Wers glaubt wird selig.
http://obrovsky.blogspot.com/2011/08/bulldy-results-915.html

Winrar sah doch auch beim Chinesen sehr gut aus oder sogar besser als der 2600k obwohl die anderen Benchmarks mies aussahen. Ohne die RAM Frequenzen zu kennen von OBR, ist das jetzt nicht sinnvoll.

y33H@

2011-08-25, 23:16:10

Bei den Packern kommt's auf die Art der Komprimierung an, so skaliert der Gulftown ja fast gar nicht.

S940

2011-08-26, 00:44:29

Die L2-$ Latenz von Bulldozer ist im Vergleich zum 10h keine Verdopplung, dieser hat nämlich eine Zugriffszeit von 15 Takten.
Worst case ja, aber best-case sinds eben ~9Takte, und so wies ausschaut ist das auch das, was AIDA mißt. Hatte anno dazumal auch xbitlabs gemessen:
Level, Access Mode|Average latency, cycles
L2, forward |9,2
L2, backward |9,0
L2, pseudo-random|12,1
L2, random |14,5

L3, forward|19,4
L3, backward|19,5
L3, pseudo-random|31,9
L3, random|47,5
http://ixbtlabs.com/articles3/cpu/rmma-phenom.html
Die 9 Takte stehen ebenfalls im AMD Opt Manual :
The latency of the L2 cache is 9 cycles beyond the L1 cache.
So gesehen sind die 20 Takte jetzt sogar noch mehr als Doppelt so viel :freak:
(Die 18 Takte im 15h Manual beziehen sich nur auf Modelle mit 1MB L2, da gibts aber ja noch keine.)

Im L2 ist mir die Latenz egal. Aber best-case L3 Latenzen auf dem fast gleichen Niveau wie die worst-case L3 Latenzen des K10 (44<>47,5) ... nein Danke.

@Winrar:
Der X6 geht komischerweise dafür ab wie Schmitts Katze, sogar im Vergleich zum 400Mhz schnelleren QuadCore. Eventuell unterstützt Winrar max. nur 8Threads, sodass das bei Intels 6Kerner+Hth nichts mehr im Vergleich zu den QuadHTh Chips bringt. Irgendwo gabs auch mal nen Artikel bzw. kl. Info zur Multithreadingunterstützung bei Winrar dazu, wenn ich mich nicht irre. Aber keine Ahnung mehr, wo genau das war.

ciao

Alex

Ronny145

2011-08-26, 09:35:04

Der hat den Benchmark Thread gelöscht. Geht das Crosshair mit Neubios so viel besser? :confused:

Also hier nochmal Winrar vom Chinesen. Man sieht, dass Bulldozer da auch schneller als ein 3,6 Ghz-i7 gewesen ist. Von demher kann man jetzt schon sagen, dass Bulldozer Winrar gut liegt.

http://s1.directupload.net/images/110826/orwzboep.jpg

http://s7.directupload.net/images/110826/35w6gyth.jpg

At this time, the press NDA disclosure is planned for the 06 Sept while the retail launch is planned for October, between 03 and 15. The exact date is not yet defined, but it's really October.
http://www.xtremesystems.org/forums/showthread.php?265710-AMD-Zambezi-news-info-fans-!&p=4936002&viewfull=1#post4936002

Wäre das bescheiden...

Twodee

2011-08-26, 09:59:49

Der hat den Benchmark Thread gelöscht. Geht das Crosshair mit Neubios so viel besser? :confused:

Also hier nochmal Winrar vom Chinesen. Man sieht, dass Bulldozer da auch schneller als ein 3,6 Ghz-i7 gewesen ist. Von demher kann man jetzt schon sagen, dass Bulldozer Winrar gut liegt.

http://s1.directupload.net/images/110826/orwzboep.jpg

http://s7.directupload.net/images/110826/35w6gyth.jpg

http://www.xtremesystems.org/forums/showthread.php?265710-AMD-Zambezi-news-info-fans-!&p=4936002&viewfull=1#post4936002

Wäre das bescheiden...
WinRar hängt aber ziemlich gut am Speicher. Weiß man was für ein RAM bei beiden Systemen zum Einsatz kam?

Ronny145

2011-08-26, 10:02:37

WinRar hängt aber ziemlich gut am Speicher. Weiß man was für ein RAM bei beiden Systemen zum Einsatz kam?

DDR3-1866 mit beiden laut Aida64 Benchmark.

S940

2011-08-26, 11:28:13

Also hier nochmal Winrar vom Chinesen. Man sieht, dass Bulldozer da auch schneller als ein 3,6 Ghz-i7 gewesen ist. Von demher kann man jetzt schon sagen, dass Bulldozer Winrar gut liegt.

http://s1.directupload.net/images/110826/orwzboep.jpg

http://s7.directupload.net/images/110826/35w6gyth.jpg

Ich wurde damals schon nicht schlau aus dem Test, was sind das für "MB" in der Beschreibung?
Das sind keine "MB/s" also sollte das die archivierte Menge sein, das hieße, der AMD hätte nur 140MB gepackt, der Intel aber 348MB. Das BD dann schneller ist,finde ich dann nicht so doll.

http://www.xtremesystems.org/forums/showthread.php?265710-AMD-Zambezi-news-info-fans-!&p=4936002&viewfull=1#post4936002 (http://www.xtremesystems.org/forums/showthread.php?265710-AMD-Zambezi-news-info-fans-%21&p=4936002&viewfull=1#post4936002)

Wäre das bescheiden...
Solange dafür C0 oder C1 käme, fänd ichs noch ok. Auch wenns langsam ne lange Durststrecke wird :)

Der hat den Benchmark Thread gelöscht. Geht das Crosshair mit Neubios so viel besser? :confused:
Also aus der Gooinese Übersetzung les ich raus, dass der Thread nicht gelöscht ist, sondern nur für freigeschaltete Personen sichtbar ist. Kannst ja mal anfragen, ob Du ne Freigabe bekommst.

Twodee

2011-08-26, 11:36:14

Ronny145

2011-08-26, 12:16:23

Ich wurde damals schon nicht schlau aus dem Test, was sind das für "MB" in der Beschreibung?
Das sind keine "MB/s" also sollte das die archivierte Menge sein, das hieße, der AMD hätte nur 140MB gepackt, der Intel aber 348MB. Das BD dann schneller ist,finde ich dann nicht so doll.

Interesant ist doch nur das Endergebnis. Wenn ich den Benchmark länger laufen lasse, was offensichtlich beim 2600k der Fall ist, kann ich in der Zeit natürlich mehr packen.

http://www.abload.de/img/winrarbx3j.png

http://www.abload.de/img/winrar2sfbn.png

Ich kann das nach 20 Sekunden stoppen oder nach 2 Stunden, egal.

Also aus der Gooinese Übersetzung les ich raus, dass der Thread nicht gelöscht ist, sondern nur für freigeschaltete Personen sichtbar ist. Kannst ja mal anfragen, ob Du ne Freigabe bekommst.

Nicht nötig, ich hab alle Benchmarks gesichert. Übrigens hat er Truecrypt nachgereicht bevor der Thread verschwand.

Duke Nukem

2011-08-26, 12:27:42

Hier gibts die Benches von dem Typen auch bei PCGH
http://www.pcgameshardware.de/aid,837552/Angebliche-Benchmarks-eines-Bulldozer-FX-8150-Update-Neue-Werte-plus-FX-auf-6-5-GHz-per-LN2-Launch-erst-im-Oktober/CPU/News/

Ob man die Benches von dem Typen wirlich in dn NEWS brigen muss so wie PCGH Ich denke nicht.
Liar of the year:smile:
http://www.maltrabob.com/obrulez.jpg

Ronny145

2011-08-26, 12:33:48

Hier gibts die Benches von dem Typen auch bei PCGH

Du verwechselst OBR mit dem Chinesen.

Duke Nukem

2011-08-26, 12:38:54

Jup hab ich verwechselt. Das sind die neusten von dem Faker auf PCGH.

S940

2011-08-26, 12:42:15

Wo is das Problem? der i7 lief ja auch über 86 Sekunden, der BD nur 33. [86s * 4055kb/s = 340MB bzw. 33s * 4447kb/s = 143MB]
Interesant ist doch nur das Endergebnis. Wenn ich den Benchmark länger laufen lasse, was offensichtlich beim 2600k der Fall ist, kann ich in der Zeit natürlich mehr packen.

Ich kann das nach 20 Sekunden stoppen oder nach 2 Stunden, egal.

Ah ok, wenn das nur die Laufzeit ist, in Ordnung.
Ich dachte halt, dass die fest wäre. Aber wenn das Winrar so handhabt, auch ok.

Nicht nötig, ich hab alle Benchmarks gesichert. Übrigens hat er Truecrypt nachgereicht bevor der Thread verschwand.
Und, hattest Du Truecrypt auch gesichert ? :)
Habs leider noch nicht gesehen. :(

Ronny145

2011-08-26, 12:46:44

Und, hattest Du Truecrypt auch gesichert ? :)
Habs leider noch nicht gesehen. :(

http://www.abload.de/img/truecrypt37js.jpg

(4,2 Ghz)

Blediator16

2011-08-26, 13:18:29

OBR hat auch einen Eintrag aus dem Monat Mai gelöscht:

http://www.xtremesystems.org/forums/showthread.php?265710-AMD-Zambezi-news-info-fans-!&p=4936238&viewfull=1#post4936238

Der Typ hat irgendein Problem:freak:

Savay

2011-08-26, 16:49:05

Wo is das Problem? der i7 lief ja auch über 86 Sekunden, der BD nur 33. [86s * 4055kb/s = 340MB bzw. 33s * 4447kb/s = 143MB]

wenn man dann noch den umstand in betracht zieht das winrar unter keinen umständen dazu zu bringen ist mehr als 2(,5 :tongue:) threads wirklich auszulasten scheint das ein ziemlich guter wert zu sein.

angenommen es skaliert relativ linear mit den kernen hoch wird der BD bei WinRAR dann auf ziemlich gute werte kommen...dabei ist das programm traditionell eher eine inteldomäne als bspw. 7Zip!

naja wir werden sehen. :cool:

Twodee

2011-08-26, 17:18:43

wenn man dann noch den umstand in betracht zieht das winrar unter keinen umständen dazu zu bringen ist mehr als 2(,5 :tongue:) threads wirklich auszulasten scheint das ein ziemlich guter wert zu sein.

angenommen es skaliert relativ linear mit den kernen hoch wird der BD bei WinRAR dann auf ziemlich gute werte kommen...dabei ist das programm traditionell eher eine inteldomäne als bspw. 7Zip!

naja wir werden sehen. :cool:
Habs mal eben auf meinem i7 2600K@4Ghz mit DDR3-1600 CL9 laufen lassen.
~4000Kb/s bei max 50% (45-50%) Prozessorauslastung. D.h. es werden ca. 4 Threads zum Benchen genutzt.

Savay

2011-08-26, 17:52:50

dann pack mal nen echtes archiv...über 33-40% auslastung komme ich in der praxis nie ganz im ggs. zu 7Zip. :wink:

das der BD bei effektiven 4 threads im benchmark immernoch mehr potenzial nach oben hätte sollte klar sein wo SMT im ggs zu CMT doch bei 100% auslastung etwas weniger effektiv sein sollte. :)

fakt ist jedenfalls das die winRAR werte weder im benchmark noch in der praxis den multithreading optimalfall darstellen wie man ihn mit anderen anwendungen erreichen könnte (mit 7Zip komme ich bspw. locker auf 80-100% auslastung) und dafür sind zumindest diese werte schonmal nicht allzu schlecht trotz der ständigen unkenrufe über miserable 1 thread IPC.

aber die vorserien benchmarks sind eh alle für den popes insofern...mehr werden wir eh erst nach dem release wissen. :wink:

Twodee

2011-08-26, 17:58:51

dann pack mal nen echtes archiv...über 33-40% auslastung komme ich in der praxis nie ganz im ggs. zu 7Zip. :wink:

Irrelevant, es ging hier um den Benchmark!

das der BD bei effektiven 4 threads im benchmark immernoch mehr potenzial nach oben hätte sollte klar sein wo SMT im ggs zu CMT doch bei 100% auslastung etwas weniger effektiv sein sollte. :)

Das steht doch nicht zur Frage, oder?

fakt ist jedenfalls das die winRAR werte weder im benchmark noch in der praxis den multithreading optimalfall darstellen wie man ihn mit anderen anwendungen erreichen könnte (mit 7Zip komme ich bspw. locker auf 80-100% auslastung) und dafür sind zumindest diese werte schonmal nicht allzu schlecht trotz der ständigen unkenrufe über miserable 1 thread IPC.

Mittlerweile weiß jeder hier was du von WinRar hälst, und dennoch steht das hier nicht zur Frage!

aber die vorserien benchmarks sind eh alle für den popes insofern...mehr werden wir eh erst nach dem release wissen. :wink:
Sehr scharfsinnig :D

Ronny145

2011-08-26, 18:12:38

und dafür sind zumindest diese werte schonmal nicht allzu schlecht trotz der ständigen unkenrufe über miserable 1 thread IPC.

Ich denke das hat weniger mit der IPC zu tun. Bulldozers IMC ist für DDR3-1866 ausgelegt, Sandy Bridge für 1333.

Savay

2011-08-26, 18:13:07

Ich denke das hat weniger mit der IPC zu tun. Bulldozers IMC ist für DDR3-1866 ausgelegt, Sandy Bridge für 1333.

ja wenn denn der uncore bereich limitiert könnte es daran liegen...in dem fall müssten aber die S1366 CPUs mit dem triple channel interface deutlich besser abschneiden als die aktuelleren SB?!

Irrelevant, es ging hier um den Benchmark!

und was ändert sich an dem grundsätzlichen verhalten der architekturen wenn weniger threads ausgelastet werden können?! richtig...prinzipiell erstmal garnichts ausser das die absoluten abstände geringer werden...:wink:

Mittlerweile weiß jeder hier was du von WinRar hälst, und dennoch steht das hier nicht zur Frage!

inwiefern weiß das "jeder"...klar ich habe den halben thread mit der tatsache zugespammt das 7Zip deutlich besser multithreaded ist...ach ne halt waren ja nur 2 posts in denen ich das angesprochen habe. :rolleyes:

vorallem was steht hier nicht zur frage?

hier wird doch ständig über die single- und multithreading IPC lamentiert.

angenommen die zahlen sind fundiert:
wenn der BD in diesem beispiel bei 4 threads schneller ist als SB wird er es auch bei 2-3 threads sein...und zwar in einem ähnlichen verhältniss.
ausser natürlich der scheduler verteilt die 4 threads beim SB unglücklicherweise auf 2 echte kerne. :rolleyes:

ehrlich gesagt ist mir nicht ganz klar was du eigentlich von mir willst! :freak:

Twodee

2011-08-26, 18:26:37

Owlboy

2011-08-26, 18:38:42

schöne Ergebnisse für den Bulldozer aber mit SB geht wohl noch viel mehr...

http://www.forum-3dcenter.org/vbulletin/showpost.php?p=8610259&postcount=12

Savay

2011-08-26, 18:41:20

Es ging um die Aussage das WinRar nur 2(,5) Threads nutzen würde. Das hast du ohne Bezug auf Bench oder echtes Packen gepostet. Und genau das habe ich mit meinem Post widerlegt. Doch du musst gleich eine WinRar ist Scheiße Diskussion draus machen. Ob BD schneller oder langsamer als der i7 im WinRar bench ist, ist mir völlig egal, oder liest du hier etwas gegenteiliges?

was hast du denn für ein problem? !
jungejunge... bist du heute etwas empfindlich oder immer so? komm mal wieder runter. :freak:
aber ich bin stolz auf dich das du das "widerlegt" und uns alle vor einer überflüssigen "winrar ist scheiße" diskussion erlöst hast.
oder halt...hast du sie nicht evtl. doch eher ausgelöst weil du dich unbedingt daran aufgeilen musstest? :rolleyes:

wie oft genau habe ich, vorallem mit dir, da du ja ein scheinbar extrem großes problem damit zu haben scheinst, bisher in diesem oder einem anderen thread eine seitenlange "winrar ist scheiße" diskussion geführt, dass du das recht hast einen solchen ton anzuschlagen?!

vorallem würde ich mal gerne wissen wie du darauf kommst das ich überhaupt derartiges vor hatte?!

ist dir bei deiner kleinen vendetta vielleicht entgangen das ich es eher erstaunlich finde das der BD bei gleicher thread zahl in einem programm das intel bisher eher besser gelegen hat minimal besser abschneidet und das auch noch ohne von allen verfügbaren threads (dem idealfall für die BD architektur) wirklich gebrauch zu machen? :tongue: ehrlich gesagt fand ich das etwas bemerkenswerter als die bekannten fakten zu winrar selbst. ;)

ob sich das in die praxis retten lässt ist bei solchen vorserien benchmarks natürlich wie immer eine andere sache... :)

Twodee

2011-08-26, 18:45:58

Könntest du diese völligien unnötigen Unterstellungen lassen? Was hast du für ein Problem? Bleib beim Thema oder halt deinen Mund. Das was du hier abziehst nervt einfach nur!

Undertaker

2011-08-26, 18:53:25

Bitte mal etwas den Tonfall mäßigen.

Zum Thema:

http://www.computerbase.de/artikel/prozessoren/2011/test-amd-a6-3650-vs.-intel-core-i3-2100/22/#abschnitt_winrar_40_reales_packen
http://www.computerbase.de/artikel/prozessoren/2011/test-amd-a6-3650-vs.-intel-core-i3-2100/17/#abschnitt_winrar_40_integriert

In den integrierte Test darf man in Bezug auf die realen Packzeiten nicht zuviel hineininterpretieren. Man beachte wo z.B. der kleine Pentium G840 im Benchmark und wo real steht: Viele Threads pushen zwar den Score gewaltig, können die Packzeit real aber kaum senken. Hier zählt vor allem Singlethread-Leistung.

Savay

2011-08-26, 19:13:18

In den integrierte Test darf man in Bezug auf die realen Packzeiten nicht zuviel hineininterpretieren. Man beachte wo z.B. der kleine Pentium G840 im Benchmark und wo real steht: Viele Threads pushen zwar den Score gewaltig, können die Packzeit real aber kaum senken. Hier zählt vor allem Singlethread-Leistung.

mal abgesehen von der glaubwürdigkeit der zahlen zum BD:

das grundsätzliche verhalten der CPUs untereinander (ohne etwaige automatische takterhöhung) kann man beim "multithreading" benchmark schon ablesen vorallem wenn die CPUs eine gleiche kernzahl oder mehr kerne haben als ausgelastet werden.
die diskrepanz zwischen dem benchmark und der praxis liegt ja wiederum an der tatsache das real weniger threads genutzt werden.

alles ab 4 kerne bzw. mit gleicher kernzahl ist einigermaßen vergleichbar...2 kerner vs. 2kerner mit HT vs. 4 kerner usw. dagegen nicht weil erstere im benchmark relativ gesehen zu schlecht bzw. alle CPUs mit mehr als 2 - 3 threads idR "zu gut" wegkommen...je nach betrachtungsweise.
problematisch ist bei der betrachtung dann aber noch das verhalten der turbomodi die das bild unter umständen natürlich auch noch ein wenig verfälschen.

S940

2011-08-26, 19:22:10

http://www.abload.de/img/truecrypt37js.jpg
(4,2 Ghz)
Edit:
Danke, das sieht gut aus, sind 100MB Werte und damit gut mit CB zu vergleichen.
Die 100 MB weniger sind sicherlich deswegen, da OBR mit 1GB bencht.
@Winrar:

Nachdem Twodee gemeint hat, dass es nur 4 Threads sind, greift da wohl im nicht OC Fall der Turbo, und hat ca. das gleiche Resultat. Immerhin etwas. Wenn das überall so gut klappen würde, würde AMDs Rechnung (kleinere IPC, dafür hoher Takt mit wenig Threads und mit vielen Threads (mehrere) CMT Kerne aufgehen ;-)

Blöderweise ist das bisher aber nur ein guter Bench :freak:

Na mal schauen, was noch alles mit neuen BIOSen, Revisionen, Mainboards geht :)

Fabian_HT4U

2011-08-26, 21:59:11

Ronny145

2011-08-26, 22:14:43

Die 4,2 Ghz sind fest eingestellt beim Chinesen, falls es nicht klar sein sollte.

Gipsel

2011-08-26, 22:19:34

S940

2011-08-26, 22:39:43

Wird die AES-Geschichte nicht über die FPUs berechnet? In dem Fall macht mich die Taktfrequenz von 4,2 GHz etwas stutzig. Bei voller FPU-Last ging man bisher davon aus, dass BD den Turbo nicht ausschöpfen kann. Gerade auch wenn ich mir hier so die Verbräuche bei TrueCrypt ansehe liegen die doch schon sehr nahe an jenen einen LinPack-Benchmarks.... Aber selbst mit 3,6 GHz wäre das Resultat eine ordentliche Hausmarke :smile:

Zum WinRar-Benchmark: Imho kann man den in die Tonne klopfen, hat mit der Realität nur wenig gemein (Auslastung, Durchsatz usw.)...

Sorry, hab die Zitate durcheinandergewürfelt, die Aussage war eigentlich auf Winrar mit ~4 Threads gedacht.
Ansonsten läuft AES über die FPU, aber nicht über die FMACs, sondern da gibts extra FUs. Das Thema hatten wir ja letztens. In der Zwischenzeit hab ich auch nochmal nen IEEE Artikel dazu durchgelesen, da steht die AES Unit endlich mal dabei ^^
So gesehen wär das Thema trotzdem auch interessant, und zwar, ob der Turbo auch bei AES Last zündet, oder nicht. Ich denke mal, dass die Crypto Einheiten da nicht allzuviel Energie verpulvern dürften, und der Turbo deswegen auch mit 8 Kernen laufen sollten, aber warten wirs mal ab.

Duplex

2011-08-26, 22:52:51

S940

2011-08-27, 00:09:19

Für mich sind die Benches von OBR & China alle nicht korrekt, wir wissen nicht was AMD da alles deaktiviert hat, 4,2Ghz, 8 Kerne & FX Logo bla bla, AMD kann bei den ES so einiges deaktiviert haben, z.b. wichtige Instructionen wie Memory Disambiguation, Macroops oder der L3 Cache hat keine direkte Funktion, niemand außer AMD weiß was im CPU Design aktiv läuft :rolleyes:
Der Meinung bin ich auch, aber je näher das Präsentationsdatum rückt, desto mehr bekomm ich kalte Füße ;-)
Umso besser, wenns jetzt erst im Oktober soweit ist, hoffentlich ist das dann Rev. Cx *g*

Gipsel

2011-08-27, 00:24:29

Ansonsten läuft AES über die FPU, aber nicht über die FMACs, sondern da gibts extra FUs. Das Thema hatten wir ja letztens. In der Zwischenzeit hab ich auch nochmal nen IEEE Artikel dazu durchgelesen, da steht die AES Unit endlich mal dabei ^^
Na, da aber die gleichen Pipelines belegt werden, kannst Du die FMACs aber nicht parallel nutzen. Insofern ist diese Unterscheidung ein wenig akademisch.

Instruktion Einheit[Pipeline] Decodierung Latenz
VAESDEC_128_reg XBR[P1]/FMA[P0] FastPath Double 2/5
VAESDECLAST_128_reg XBR[P1]/FMA[P0] FastPath Double 2/5
VAESENC_128_reg XBR[P1]/FMA[P0] FastPath Double 2/5
VAESENCLAST_128_reg XBR[P1]/FMA[P0] FastPath Double 2/5
VAESIMC_128_reg FMA[P0] FastPath Single 5
VAESKEYGENASSIST_128_reg FMA[P0] FastPath Single 5

Die skalaren Varianten haben identische Zuordnungen und Latenzen. XBR ist mehr oder weniger die Shuffle-Einheit, die zusammen mit einer FMA-Einheit in Pipe 1 hängt. Die Angaben mit dem Slash muß man übrigens so interpretieren, daß die erste µOp an die zuerst aufgeführte Pipe geht und auch die zuerst aufgeführte Anzahl von Takten Latenz hat. Die zweite (davon abhängige) µOp geht dann an die zweite Pipe und hat nochmal eine Latenz. Die Gesamtlatenz ist also die Addition der beiden Zahlen.

Da ein FMA eigentlich nicht viel mit AES zu tun hat, hängt wahrscheinlich wirklich noch eine eigene Unit dafür dran. Die IMAC-Einheit hängt ja auch an Pipe0 (das ist auch in der Übersicht im Manual schlicht falsch bezeichnet).
Im übrigen dürfte eine BD-FPU bei AES Deccrypt grob doppelt so schnell sein wie Sandybridge (also pro Kern identisch), beim Encrypt sollte SB allerdings (zumindest mit Hyperthreading) die Nase vorn haben (da laut Intel angeblich die Latenz begrenzt und Sandybridge einen Takt geringere Latenzen dafür bietet, also 16% schneller). Zumindest wenn ich das richtig verstanden habe. :rolleyes:
Denn komischerweise zeigt der Truecrypt-Benchmark Null Unterschiede zwischen Encrypt und Decrypt, was im Prinzip nur heißen kann, daß das suboptimal implementiert wurde (das Entschlüsseln müßte eigentlich schneller sein).