Archiv verlassen und diese Seite im Standarddesign anzeigen : AMD - AMDs Bulldozer - neue CPU-Architektur für Q2 2011
Aja noch eine Anmerkung, das mit dem "vollwertig" muss man immer inkl. Skalierungsverluste sehen, die 2 Cluster eines Bulldozer Moduls sollen laut AMD Marketingaussage zusammen 180% Leistung bringen. Also nicht 200%, die 2 einzelne Kerne hätten, aber allemal besser als das max. Leistungsplus von Intels Hyperthreading, welches bei ~135% liegt, im schlimmsten Fall aber auch Leistung kosten kann.
AMDs Testsuite hat viele FP-lastige Serveranwendungen. Rein für Spiele ist das fast irrelevant, da erwarte ich eine vollständige 2x Skalierung wie bei 2 vollwertigen Kernen, das ist ein Bulldozer Modul bis auf die FP-Einheiten und den L1-I Cache AFAIK auch.
Ronny145
2010-08-19, 20:17:46
Sorry, aber es gibt verdammt viele Fälle wo SMT nachweislich Leistung kostet. Mein Lynnfield ist bei einigen Spiele reproduzierbar durch SMT langsamer, mit Messtoleranz hat das nicht zu tun, auch wenn der Einbruch nicht immer sehr groß ist.
Welche Spiele sollen das sein und welches BS hast du installiert?
Undertaker
2010-08-19, 20:19:19
Sorry, aber es gibt verdammt viele Fälle wo SMT nachweislich Leistung kostet. Mein Lynnfield ist bei einigen Spiele reproduzierbar durch SMT langsamer, mit Messtoleranz hat das nicht zu tun, auch wenn der Einbruch nicht immer sehr groß ist.
Lies doch mal komplett, was ich geschrieben habe. ;) Ich sprach wohlgemerkt von Clarkdale (alles unter Win 7 versteht sich): Hier kenne ich keinen Fall, wo SMT nennenswert Leistung kostet. Bei Lynnfield ist das durch die hohe Threadzahl eine ganz andere Baustelle, auch wenn ich unter Win 7 keine bedeutsamen Fälle mehr kenne: Der Vergleich mit Clarkdale zeigt, dass das Problem nicht SMT-basiert ist - und damit jede CPU mit 8 Threads trifft, zumindest in aktueller Software.
der K10 hatte weniger Taktraten als der K8 und das in 65 statt 90nm, zum glück hatte der K10 20% mehr IPC als der K8, sonst würde der K10 eine totgeburt darstellen, aktuell ist der K10 in 45nm ala Thuban hochwertig, schade das es nicht von Anfang an gefunzt hat.
john carmack
2010-08-20, 09:16:32
Theoretisch müsste ein BD-Kern die gleiche Rechenleistung wie ein Nehalem-Kern mitbringen. Praktisch ist alles aber völlig offen. Wie verhält sich das aufgeteilte Frontend? Ist es überhaupt möglich alle 8 ALUs für einen Thread zu verwenden? Wie verhält sich die Modul-einheitliche FPU? Wie funktioniert das mit den Caches und wie sind die internen Latenzen? Alles Fragen, die starken Einfluss auf die praktische Leistung haben und nicht zu beantworten sind, solange hier noch zuviel spekulativ ist. Das Interessante ist eben, dass die CPU nicht wie eine klassiche x-Kern-CPU funktioniert, sondern viele Bereiche geteilt werden. Das kann Vorteile aber auch Nachteile haben. Wenn die Vorteile (neben der Wirtschaftlichkeit) überwiegen, ist alles super.
wäre aber ganz schön mager wenn der BD nur eine Leistung vom Nehalem bringt vor allem weil SB vor der Tür steht...
wäre aber ganz schön mager wenn der BD nur eine Leistung vom Nehalem bringt vor allem weil SB vor der Tür steht...
4 BD Module sind nur so groß wie ein K10, also wenn AMD will sind 16 Cores für den Desktop möglich, ein 16 Core BD würde AMD in der Herstellung ca. 100-150 € kosten.
john carmack
2010-08-20, 10:51:51
4 BD Module sind nur so groß wie ein K10, also wenn AMD will sind 16 Cores für den Desktop möglich, ein 16 Core BD würde AMD in der Herstellung ca. 100-150 € kosten.
sind 16 Cores nicht sowieso für den Server markt vorgesehen?
Sinnvoller als weitere 4 Module für eine Desktop-CPU, wäre wohl ein IGP, der bei entsprechenden Aufgaben weit mehr bringt.
sind 16 Cores nicht sowieso für den Server markt vorgesehen?
Laut aktuellen Informationen aber zu Beginn als MCM, also zwei Dies auf einem Package.
Undertaker
2010-08-20, 11:08:10
4 BD Module sind nur so groß wie ein K10, also wenn AMD will sind 16 Cores für den Desktop möglich, ein 16 Core BD würde AMD in der Herstellung ca. 100-150 € kosten.
Der K10 war 285mm² (65nm). 2x285mm² = 570mm² sind sicherlich nicht realistisch für ein Desktopmodell. Geschweige denn, dass dir oder sonst irgendeinem Außenstehenden momentan die Diegröße eines BD-Moduls bekannt ist.
AMDs Testsuite hat viele FP-lastige Serveranwendungen. Rein für Spiele ist das fast irrelevant, da erwarte ich eine vollständige 2x Skalierung wie bei 2 vollwertigen Kernen, das ist ein Bulldozer Modul bis auf die FP-Einheiten und den L1-I Cache AFAIK auch.
Achso DU redest von Spielen ... das interessiert bei theoretischen, maximalen % Zahlen eh nicht, da der Speed Up bei Spielen eh anders ist.
Wenn Du mit Spielen kommst, kann man damit rechnen, dass 90% eh nicht mehr als 4 Threads benötigen, d.h. die 4 Module laufen wahrscheinlich im Turbo Modus, da ist dann eh wieder alles anders.
Bei vollen Multithread Anwendungen die wirklich alle Threads/Kerne befeuern, kann man davon ausgehen, dass 4 Module dann an einem 4 Kern Sandy vorbeiziehen. Den da wo bei Intel durch HT nur freie "Blasen" in der Pipeline genützt werden, gibts bei AMD zusätzliche, echte, Pipelines. Das *muss* nen höheren Multithread Speedup bei mehr als 4 Threads geben. Das ist ein ähnlicher Unterschied wie zw. intelligenter Verkehrsplanung und Autobahnneubau.
Preisfrage ist dabei nur, ob das bei Anwendungen wie z.B. cinebench reicht, um einen eventuellen single Thread IPC Vorteil von Sandy einzuholen. Soviel schneller sollte Sandy nicht werden, aber naja, warten wirs ab. Taktfrequenzen sind ja auch noch wichtig.
Von welcher AMD Testsuit redest Du eigentlich ? Geläufig ist Spec, und da gibt AMD immer INT und FP an.
ciao
Alex
Warum will eigentlich AMD die freien Blasen in den Pipelines nicht nutzen?;)
Undertaker
2010-08-20, 12:17:03
Bei vollen Multithread Anwendungen die wirklich alle Threads/Kerne befeuern, kann man davon ausgehen, dass 4 Module dann an einem 4 Kern Sandy vorbeiziehen. Den da wo bei Intel durch HT nur freie "Blasen" in der Pipeline genützt werden, gibts bei AMD zusätzliche, echte, Pipelines. Das *muss* nen höheren Multithread Speedup bei mehr als 4 Threads geben.
Der Speedup allein ist ja noch nicht das Entscheidende - Takt und IPC spielen ebenso mit hinein. Man braucht nur auf die aktuelle Situation zwischen Clarkdale und Propus schauen, auch bei Vollauslastung können 2 Kerne + SMT durchaus 4 echte Kerne verhauen. ;)
Zu möglichen Taktraten wissen wir ja bisher bei Bulldozer noch gar nichts, genausowenig zu den IPC. Zusätzliche Einheiten der CMT-Lösung sorgen ja nicht nur für einen wahrscheinlich besseren Speedup als SMT, sondern wohl ebenso für einen im Vergleich höheren Verbrauchszuwachs. Nächstes Fragezeichen ist der 32nm Prozess - wie gut läuft er von Beginn an, oder kommen die Verbesserungen ähnlich wie bei 45nm nach und nach. :confused:
Warum will eigentlich AMD die freien Blasen in den Pipelines nicht nutzen?;)
Wäre eigentlich auch ein interessanter Ansatz. ;) Warum nicht CMT und SMT? Ein Modul, zwei Kerne und vier Threads...:upara:
.... Geschweige denn, dass dir oder sonst irgendeinem Außenstehenden momentan die Diegröße eines BD-Moduls bekannt ist.
Es gibt aber zumindest eine gute Abschäzung dazu...
http://www.planet3dnow.de/vbulletin/showthread.php?t=384394&garpg=21#content_start
Undertaker
2010-08-20, 12:33:23
Wie gut die letztlich ist, kann man nur abwarten - denn afair sind z.B. die Cachegrößen momentan auch nur Vermutungen, und noch keine gesicherten Informationen. Evntl. erfährt man ja in 4 Tagen mehr. ;)
Warum will eigentlich AMD die freien Blasen in den Pipelines nicht nutzen?;)Weil AMD anscheinend der Meinung ist, dass der ganze Aufwand für die bessere Verkehrskontrolle nicht optimal ist und man fürs gleiche Geld(=Aufwand) gleich ne komplett neue Autobahn (=Pipeline) bauen kann.
Wenn man sich die DIE Größe anschaut ist das ja schon ziemlich drastisch. Zwei K10 Kerne inkl. L1 sind da grob genauso gut wie ein einziger Sandy oder Westmere Kern. Und dabei haben die AMDs doppelten L1 Cache.
Da muss man sich schon fragen, wozu die ganzen Transistoren bleiben. Klar die single IPC ist auf alle Fälle besser und man weiss nicht mit Sicherheit wieviel DIE Fläche jetzt genau wegen HTh verbraucht wird, aber so wies ausschaut ist AMD der Meinung halt eine bessere Lösung zu haben.
Lustig wäre es jetzt, wenn sie in Zukunft doch noch SMT einbauen würden, sollte eigentlich möglich sein und bei Serverapps bringts meistens ja auch was. Aber naja .. .vielleicht bauen sie auch einfach nochmal nen Cluster ins Modul :freak:
Undertaker
2010-08-20, 15:02:06
IPC zu steigern ist immer der deutlich teurere Weg - das weiß und praktiziert auch AMD. Man vergleiche Propus und Deneb:
Propus, 169mm²
Deneb, 258mm²
Deneb ist ~53% größer, dabei aber nur 0-25% schneller - in praktisch allen Fällen bis auf Spiele liegen <5% zwischen beiden Kernen. Wofür dann die 6MB L3? Anstatt einen Thuban mit 6 Kernen und 346mm² zu bringen, wäre wohl auch locker ein 8-Kern Athlon II mit <300mm² möglich gewesen - der problemlos jeden Multithreadbenchmark gewonnen hätte. Dies nicht zu tun, ist eine bewusste Entscheidung, auch der Singlethread-Performance Tribut zu zollen.
Insofern halte ich nichts von Größenvergleichen einzelner Kerne, sofern diese nicht die gleiche Leistung pro Takt bringen - und selbst dann kann man die Rechnung nicht ohne alle Caches machen. Vergessen wir nicht den Core 2, der mit ~28mm² pro Kern gerade zu winzig ist, auch verglichen zu einem K10.5 - dafür aber einen riesigen L2 Cache fordert.
wäre aber ganz schön mager wenn der BD nur eine Leistung vom Nehalem bringt vor allem weil SB vor der Tür steht...
Was erwartest du denn ?
BD ist einfach AMDs kosten- und zeitsparende Lösung, zukünftig mit wenig Aufwand gut skalieren zu können. Einfach n paar Module, die immer gleich aufgebaut sind reinklatschen und schon ist man wieder auf der Höhe der Zeit.
GPU durch neuere ersetzen und hoffen, dass es gereicht hat.
Das ist der Bulldozer, mehr nicht xD
john carmack
2010-08-21, 11:59:31
Was erwartest du denn ?
BD ist einfach AMDs kosten- und zeitsparende Lösung, zukünftig mit wenig Aufwand gut skalieren zu können. Einfach n paar Module, die immer gleich aufgebaut sind reinklatschen und schon ist man wieder auf der Höhe der Zeit.
GPU durch neuere ersetzen und hoffen, dass es gereicht hat.
Das ist der Bulldozer, mehr nicht xD
hab nur an die A64 Zeit gedacht...
hab nur an die A64 Zeit gedacht...
Hätte nichts dagegen, wenn AMD wieder nen technologischen Hammer auspackt :-)
sind 3 oder 4 integer. oder Cluster in einem Modul möglich?
wenn ein BD Modul nur so groß wie ein K10 Core ist, glaubt ihr es kommen auch mehrere Module für den Desktop, also z.b. 6 Module? für server soll ja Valenicia mit 12 Cores kommen, amd könnte doch so ein DIE auch für das AM3 Package bauen oder denkt ihr Bullodzer ist zu energiehungrig weil er 4-4,5 Ghz bei 4 Modulen takten wird. 32nm SOI soll doch gegenüber 45nm SOI viele vorteile besitzen, z.b. HighK einsatz, ULVK wie bei Thuban 50% mehr cores bei gleicher TDP, was hält ihr von einem 6 Modul BD mit 4 Ghz Taktraten, vielleicht braucht der Bulldozer viel weniger Spannung als ein K10 bei hohen Taktraten.
aylano
2010-08-21, 19:22:00
Ich denke, AMD wird Anfang 2012 einen 6-Modul-Desktop gegen Intel-22nm-Sandy-Bridge stellen.
Man darf diesen nicht mit Valencia vergleichen der aus 2 teildeaktiverten 4-Modul-Bulldozer bestehen wird.
Ich bezweifel, dass AMD gleich das ganze Potential des 4-Modul-Bulldozer beim Start zeigen wird.
Das wäre wirtschaftlich unklug
Beim Phenom II 940er begann man ja auch nur bei 3,0 Ghz und steigerte sich um 400 Mhz.
Das ist viel, denn AFAIK so viel hatte Intel in 4 Jahren gesteigert
Twodee
2010-08-21, 21:33:12
Ach wirklich? Die 3.0Ghz waren doch ein Rückschritt, immerhin gab es vorher schon einen Athlon 64 X2 6400 mit 3.2Ghz ;)
Das wäre wirtschaftlich unklug
Beim Phenom II 940er begann man ja auch nur bei 3,0 Ghz und steigerte sich um 400 Mhz.
3GHz @ 125W und 3,4GHz 8 Monate später bei 140W. Für 125W brauchte man noch 3 weitere Monate.
Wenn es ein Hersteller ist, der sein Potential nicht aus fährt, dann ist das Intel, die ihre Mainstream-CPUs auf 95W TDP begrenzen. Mit AMDs TDPs wäre wohl durchgängig der Turbo Takt möglich.
Momentan sieht es auch aus, als ob AMD bei der Fertigungsprozess-Aufholjagd wieder am verlieren ist. Während man bei 45nm nur knapp 12 Monate hinter Intel lag, scheint man bei 32nm wieder deutlich darüber zu liegen, wenn Llano erst im 2. Quartal erscheinen soll.
Das wäre wirtschaftlich unklug
Beim Phenom II 940er begann man ja auch nur bei 3,0 Ghz und steigerte sich um 400 Mhz.
Das ist viel, denn AFAIK so viel hatte Intel in 4 Jahren gesteigert
Wenns GF anfangs 3,4 GHz Parts geliefert hätte, dann wär der Phenom2 auch gleich mit 3,4 GHz gekommen ;-)
Aber der Prozess war damals noch neu -> zuwenig Ausbeute.
Das wird bei Bulldozer nicht anders laufen, wahrscheinlich gibts beim 32nm Prozess auch noch mehr Probleme als bei 45nm. Bin mal auf die Anfangsfrequenzen gespannt ...
@Twodee:
Ja aber dafür gabs ja auch 2 Kerne mehr, kein Rückschritt :)
Undertaker
2010-08-21, 22:17:40
Twodee bezog sich wohl vielmehr auf aylanos etwas fehlgeleiteten Vergleich, Intel hat sicherlich nicht in 4 Monaten einen identischen Kern um gerade einmal 400MHz im Takt gesteigert. ;)
Die Entwicklung des 45nm Prozesses bei AMD war dennoch von einer ungewöhnlichen Steigerungsrate geprägt, entweder lief der Prozess zu beginn ausgesprochen schlecht, oder er läuft jetzt außerordentlich gut - bzw. womöglich auch beides.
aylano
2010-08-22, 23:46:58
Ach wirklich? Die 3.0Ghz waren doch ein Rückschritt, immerhin gab es vorher schon einen Athlon 64 X2 6400 mit 3.2Ghz
Stimmt, den hatte ich glatt vergessen.
Wenns GF anfangs 3,4 GHz Parts geliefert hätte, dann wär der Phenom2 auch gleich mit 3,4 GHz gekommen ;-)
Aber der Prozess war damals noch neu -> zuwenig Ausbeute.
Das wird bei Bulldozer nicht anders laufen, wahrscheinlich gibts beim 32nm Prozess auch noch mehr Probleme als bei 45nm. Bin mal auf die Anfangsfrequenzen gespannt ...
Ich denke nicht so.
Das Problem ist, AMD hatte die 2.beste CPU und somit hat AMD den Kürzeren Arm, falls es zum Preiskrieg kommt.
Und wenn mal die Preise unten sind, dann dauert es lange bis man durch neue Produkte wieder oben ist, und das hat AMD schon mal erlebt.
Außerdem weiß AMD nicht, wie weit Intel die Preise senkt. Also, hätte AMD ein 3,4 Ghz gleich am Markt gebraucht, und Intel die Preise massiv gesenkt, so hätte AMD nachziehen müssen. Aber je nach Preislage werden gewisse Stückzahlen benötigt und AMD darf es sich nicht leisten Lieferengpässe leisten
Also, lieber Reserven lassen, was nebenbei auch noch wirtschaftlicher ist, und sich von unten langsam heranzutasten (= immer wieder bei Intels-Reaktionen mit neuen Modellen gegenreagieren und so den Preis stabil zu halten) als gleich alle Karten am Tisch legen und dann gibts ewig nichts mehr neues.
Somit kann man ein Preiskrieg rauszögern/mildern
Phenom II kam mit 3,0 Ghz was jetzt auch Symbolisch sehr wichtig war.
Ganz anders könnte es sein, wenn AMD mit Bulldozer die beste CPU haben wird. Denn dann wäre Intel mit dem kürzeren Arm und müsste bei einem eventuellen Preiskrieg vorsichtig werden.
Und dann könnte AMD dazu aus Prestige-Gründen einen 4,0 Ghz-4-Modul-1000$-in-Holzkisterln-mit-Wein-Black-Edtion am Markt bringen, falls es technisch möglich ist.
Bei den Preis wären kaum Stückzahlen nötig.
Das ist halt das Problem der 2.besten CPU.
Nicht nur, dass sie langsamer ist und billiger verkauft werden muss, sondern wenn es dementsprechend billig ist, muss es in dementsprechenden Stückzahlen produziert werden, was dann zu noch niederen Takten führt bzw. die Spannung erhöht werden muss (siehe 3,4 Ghz @ 140 Watt) um diese Stückzahlen liefern zu können.
Grundsätzlich glaube ich, dass der Kampf um die beste CPU sich um 125 Watt-TDP abspielen wird.
Wenn beide um die Performance-Krone kämpfen, dann geht man an die TDP-Grenzen.
Wobei da AMD nicht umgedingt alle Reserven nutzen müsste.
Ich glaube, AMD wird die Spannung relativ hoch halten, was bei 45nm bei 1,4 Volt und bei 32nm-High-K & Metal Gates vielleicht so bei 1,3 Volt liegen könnte.
(Intel hingegen hat schon eine niedrige Spannung, aber es ist halt die Frage, wie viele Reserven sie noch haben. Bestimmt nicht wenig.)
So wie Phenom II mit 3,0 Ghz einen großen Symbolwert hatte, könnte das bei 1000-$ Phenom III @ 4,0 Ghz noch größer sein.
Wobei das die Optimistische Variante wäre.
Mindestens wird IMO ein 3,0 Ghz Bulldozer kommen, an dem ich mich momentan in der üblichen konservativen Betrachtung orientiere. Siehe momentane Abstufung 4-Kern @ 3,4 Ghz ; 6-Kern @ 3,2 ; 8-Kern @ 3,0 Ghz?
Man darf nicht vergessen, dann der Turbo besser sein soll. Also, mehr als 500 Mhz. Vielleicht 1,0 Ghz, womit der Turbo dann auf 4,0 Ghz raufgehen könnte.
Undertaker
2010-08-23, 09:00:24
Außerdem weiß AMD nicht, wie weit Intel die Preise senkt. Also, hätte AMD ein 3,4 Ghz gleich am Markt gebraucht, und Intel die Preise massiv gesenkt, so hätte AMD nachziehen müssen. Aber je nach Preislage werden gewisse Stückzahlen benötigt und AMD darf es sich nicht leisten Lieferengpässe leisten
Warum hätte Intel die Preise massiv senken sollen? Wenn AMD entsprechend schnellere Modelle preislich einfach höher ansetzt, wie z.B. mit den X6 geschehen, wird kein Preiskampf entstehen. Ein 3,2 oder 3,4GHz X4 war zu Beginn der Phenom II Ära schlicht nicht möglich: Viele der anfänglichen X4 kamen ohne Spannungserhöhung kaum über 3,3-3,4GHz, was unter den Stabilitätskriterien eines Großserienherstellers nicht mehr als 3,0GHz ermöglichte. Anscheinend hatte man bereits für ein 3,2GHz Modell bei 125W TDP zu Beginn nicht genügend brauchbare Dies für eine CPU der ~200€ Klasse.
Tiamat
2010-08-23, 09:29:35
http://img827.imageshack.us/img827/3146/filewl.jpg
Wurde das von P3D nicht falsch interpretiert? Die 4 Int Pipelines pro Int-Core teilen sich auf zu 2 mit je einer LOAD/STORE und einer Integer Pipeline.
http://www.pcgameshardware.de/aid,746664/AMD-32-Nanometer-Technikdetails-zu-Bulldozer-und-Llano/CPU/News/bildergalerie/?iid=1284827
Hier ist das gut zu erkennen.
Im Diagramm von P3D ist hier die LOAD/STORE Unit unterhalb der ALUs und Agus angebracht und die muss die 4-fache Menge bewältigen :-)
Dementsprechend gibt P3D auch an , 2 * 4 ALU, es ist aber 2 * 2 ALU.
Gruß
Tiamat
Edit : Noch ein Fehler, im Diagramm sind 2 * 4 Agus zu erkennen, es sind aber 3.
Ich schätze, die teilen sich auf in eine AGU pro Int Core und eine AGU für den FP-Block, das konnte ich aber auf die schnelle nirgendswo nachlesen.
Wurde das von P3D nicht falsch interpretiert? Die 4 Int Pipelines pro Int-Core teilen sich auf zu 2 mit je einer LOAD/STORE und einer Integer Pipeline.
Nö, denn im Compiler steht:
static const int num_fu[] = {
0, /* NONE */
4, /* ALU */
3, /* AGU */
4, /* FPU */
};
Das kann natürlich falsch sein, aber die Wahrscheinlichkeit ist eher gering.
(http://www.pcgameshardware.de/aid,746664/AMD-32-Nanometer-Technikdetails-zu-Bulldozer-und-Llano/CPU/News/bildergalerie/?iid=1284827)http://www.pcgameshardware.de/aid,746664/AMD-32-Nanometer-Technikdetails-zu-Bulldozer-und-Llano/CPU/News/bildergalerie/?iid=1284827
Hier ist das gut zu erkennen.
Ja aber der gute Hiroshige hatte das auch nur von Dresdenboy abgemalt. Das 2+2 Setup war damals "in", da es so auch in den Patenten war. War auch ein Fan davon, aber die Compilerdaten sind ein gewichtiges Argument dagegen.
Dementsprechend gibt P3D auch an , 2 * 4 ALU, es ist aber 2 * 2 ALU.Woher weisst Du das ? Wenn Du bei AMD arbeitest glaub ich Dir das, ansonsten glaub ich eher den obigen Compiler Infos, denn der Programmierer der das gecoded hat arbeitet für AMD und hatte laut Log Eintrag Zugriff auf den AMD Bulldozer Optimierungsleitfaden ;-)
Um es ganz genau zu sagen: 100% Genaues weiss man im Moment immer noch nicht, aber die Compilerinfos setzen das ganze mMn schon nahe 99,9%. Wie auch immer, die Spekuliererei gibt sich in ein paar Stunden.
Edit : Noch ein Fehler, im Diagramm sind 2 * 4 Agus zu erkennen, es sind aber 2 * 3.
Nö das ist kein Fehler, Dresdenboy geht nur davon aus, dass es trotz der Compilerangaben 4 AGUs gibt.
Grund: Symmetrie, wenn alle 4 Pipelines aus 4ALU+4AGU bestehen, also gleich sind, hat es der Scheduler (viel) einfacher. Bei 4xALU + 3xAGU müßte man ansonsten immer den Sonderfall der einen AGU losen ALU beachten. Macht das ganze Komplizierter als das es was bringt, lieber baut man gleich eine AGU mehr rein.
Der Compiler muss das aber wissen, damit er nicht 4 Adressoperationen in ein Window packt, letztenendes ist die LD/STR Unit ja dann doch auf 2+1 Speicheroperationen begrenzt.
Aber wie schon oben gesagt, Genaues weiss man nicht.
Das ganze sind nur Spekulationen von Patenten + logischen Schlüssen. Die Schlüsse sind da vom Wissenstand abhängig. Dresdenboy weis verdammt viel, aber trotzdem besteht immer noch die Möglichkeit, dass auch er falsch liegen könnte, da er - ähnlich wie Du den ALU/AGU Sachverhalt - etwas doch nicht wusste und deshalb zum falschen Schluß kam.
Aber naja .. nur noch ein paar Stunden bis Dienstag ;-)
ciao
Alex
P.S: Gibt übrigens auch noch die Wahrscheinlichkeit von Hybrid Pipes .. ALU + AGU in einer Pipeline. Sowas ist im Moment das wahrscheinlichste, aber warten wirs mal ab.
P.P.S:
Das Ganze steht eigentlich sehr ausführlich auf Seite 15:
http://www.planet3dnow.de/vbulletin/showthread.php?t=384394&garpg=15#content_start
Les es vielleicht nochmal durch ;)
Tiamat
2010-08-23, 10:50:27
Hi,
ja klar, vielleicht irre ich mich.
Aber ich kann´s mir nicht vorstellen, dass man aus einem 3-issue Design(..K10) ein gespaltenes 8-issue (int) und 4-issue(fp) macht. Sowas gabs meines Wissens nie. Bisher hat sich dies immer nur um gesamt um 1 erhöht. Das wäre im Fall int nicht nur ne Verdopplung, sondern 2n+2. Das halte ich persönlich für total unwarscheinlich.
Ich weiß nicht, wofür diese Array num_fu benötigt wird. Wird es pro Core oder pro Modul benötigt.
Wenn´s man es aber mal kritisch betrachtet, dann gäbe es im Fall
pro Core einen Widerspruch und zwar wären es dann 2 * 4 FP pro Modul und das ist natürlich falsch.
Beim Fall pro Modul würd´s stimmen. Es können 4 Int Befehle verarbeitet werden (wegen 2*2), es gibt 3Agus und es können 4 FP Befehle verarbeitet werden.
Nein ich arbeite nicht bei AMD :-)
Auf Seite 15 bei P3D fand ich die Argumentation mit 4 ALUs und 4 AGUs etwas unglücklich.
Was man nennt ist eine Aussage von AMD, einen eigentlichen Gegenbeweis für die These ( beim Bobcat Teil ), wobei der davon abhängt ob der Bobcat beim Issue-Design nicht abgespeckt wurde und diesen Eintrag im Open64 Compiler.
Ach morgen ist die Pressemeldung von AMD, da bin ich mal gespannt.
Gruß
Ich weiß nicht, wofür diese Array num_fu benötigt wird. Wird es pro Core oder pro Modul benötigt.
Im Moment wird der Array noch gar nicht benutzt, da der Code noch nicht fertig ist, aber abgesehen davon optimiert der Compiler in so nem Fall immer für einen Thread.
Und 1 Thread hat auch die ganze FPU zur Verfügung. Keine Ahnung ob es zu nem Performancenachteil kommt, wenn da jetzt 2 Threads kollidieren, aber der entgegengesetzte Fall, dass man nur auf die Hälfte optimieren würde, wäre sicher mit größerem Nachteilen verbunden ;-)
-> kein Widerspruch :) (Im Gegenteil, das ist ja gerade *das* Feature beim gemeinsammen Nutzen der FPU ;-)
Ach morgen ist die Pressemeldung von AMD, da bin ich mal gespannt.Jupp ich auch ;)
ciao
Alex
john carmack
2010-08-23, 11:27:04
Morgen Abend bzw Morgen Nacht sind wir dann hoffentlich alles etwas schlauer :-)
http://www.hotchips.org/program/conference-day-two/
Zeitverschiebung minus 9std.
MiamiNice
2010-08-23, 11:31:59
Ich erwarte am Dienstag eigendlich nur Ernüchterung. Und ich vermute ich werde recht behalten.
Gipsel
2010-08-23, 11:37:23
Aber ich kann´s mir nicht vorstellen, dass man aus einem 3-issue Design(..K10) ein gespaltenes 8-issue (int) und 4-issue(fp) macht. Sowas gabs meines Wissens nie.
Du mußt nur richtig zählen. Alle K7/K8/K10 sind im Prinzip 9-issue Designs mit getrennten Schedulern für Int (6-issue, 3 ALU + 3 AGU) und FP (3-issue). Da ist der Schritt zu 4+4+4 (ALU, AGU, FP) nun nicht wirklich soo groß.
Die ALU+AGU-Paare beim K7 bis K10 machen ja im Prinzip schon immer das, was bei Intel µOp-Fusion heißt. Eine MakroOp besteht aus einer ALU- und einer AGU-µOp (z.B. für ALU-Anweisungen mit Speicheroperanden). Der Scheduler teilt sie beim Issue in zwei µOps auf, die dann auf ALU bzw. AGU ausgeführt werden.
Ich stimme dir da zu. Davon gehe ich auch stark aus. Es ist einfach ein Int-Scheduler mehr.
Soweit ich das verstanden habe teilt AMD die Ops aber erst gar nicht aus, sondern lässt wirklich ganze Int+Load-Ops durch den Core laufen. Oder täuscht mich das?
On a side note: 3DNow! verschwindet offenbar endlich.
Ich erwarte am Dienstag eigendlich nur Ernüchterung. Und ich vermute ich werde recht behalten.
Wieso, willst du heute Abend richtig einen heben?
Tiamat
2010-08-23, 11:59:53
Du mußt nur richtig zählen. Alle K7/K8/K10 sind im Prinzip 9-issue Designs mit getrennten Schedulern für Int (6-issue, 3 ALU + 3 AGU) und FP (3-issue). Da ist der Schritt zu 4+4+4 (ALU, AGU, FP) nun nicht wirklich soo groß.
Die ALU+AGU-Paare beim K7 bis K10 machen ja im Prinzip schon immer das, was bei Intel µOp-Fusion heißt. Eine MakroOp besteht aus einer ALU- und einer AGU-µOp (z.B. für ALU-Anweisungen mit Speicheroperanden). Der Scheduler teilt sie beim Issue in zwei µOps auf, die dann auf ALU bzw. AGU ausgeführt werden.
Ja das kann man sich schön reden, aber im Endeffekt ist ein AMD K8 - K10 nur 3 fach superskalar, während Intel seit dem Core 2 bereits 4 fach superskalar ist.
Definiere "superskalar".
K10 kann pro Takt bis zu 9 Micro-Ops an die Funktionseinheiten geben, aber nur drei x86-Befehle dekodieren.
Diese n-fach-Superskalar-Geschichte ist vor allem bei CISC-Prozessoren mit komplexem Decoding sehr schwierig zu verwenden.
Tiamat
2010-08-23, 12:36:41
Superskalar = Die Fähigkeit, mehr als einen Befehl pro Takt ausführen zu können.
Das man dafür mehr Ausführungseinheiten hat, als die Anzahl der Befehle, die gleichzeitig ausgeführt werden können, spielt dabei eigentlich keine große Rolle, das ist sogar meistens der Fall, deswegen hab ich "schön reden" gesagt.
Intel drückt das in der Core2 Produktbeschreibung z.b so aus:
4-fach superskalare Pipeline, die vier Instruktionen gleichzeitig laden, verwalten und ausführen kann, im Vergleich zu drei Befehlen beim vorhergehenden Intel Core Duo Prozessor
Hm meine Definition war wohl unvollständig, bei der Uni Augsburg heißt es wie bei Intel, mehr als einen Befehl pro Takt holen, dekodieren, den Ausführungseinheiten zur Verfügung stellen, ausführen und die Ergebnisse wieder zurückschreiben.
Wenn man den gemeinsamen maximalen Durchsatz alle Pipelinestages nimmt, dann sind es tatsächlich 4 bei Intel und 3 bei AMD, allerdings ist das für die Gesamtperformance nur ein Indiz.
Ein K10 mit 5 Decodern wäre 5-fach superskalar ohne dass sich etwas an den Ausführungsresourcen geändert hätte - und um die geht's im Moment.
Undertaker
2010-08-23, 13:21:29
Wenn man den gemeinsamen maximalen Durchsatz alle Pipelinestages nimmt, dann sind es tatsächlich 4 bei Intel und 3 bei AMD, allerdings ist das für die Gesamtperformance nur ein Indiz.
Ein BD-Modul hätte dann theoretisch 8?
So wie Phenom II mit 3,0 Ghz einen großen Symbolwert hatte, könnte das bei 1000-$ Phenom III @ 4,0 Ghz noch größer sein.
Wobei das die Optimistische Variante wäre.
Du glaubst doch nicht im ernst das AMD wieder den Phenom als Marketing Namen für BD benutzen wird und 1000$ CPUs sowieso nicht, Bulldozer wird gegen 6 SB Cores konkurrieren, das heißt max. 500 $
Phenom als Name für den Desktop Bulldozer ist ausgeschlossen
stichwort: neue Architektur
Gipsel
2010-08-23, 13:45:18
Aber ich kann´s mir nicht vorstellen, dass man aus einem 3-issue Design(..K10) ein gespaltenes 8-issue (int) und 4-issue(fp) macht. Sowas gabs meines Wissens nie. Bisher hat sich dies immer nur um gesamt um 1 erhöht. Das wäre im Fall int nicht nur ne Verdopplung, sondern 2n+2. Das halte ich persönlich für total unwarscheinlich.
Du mußt nur richtig zählen. Alle K7/K8/K10 sind im Prinzip 9-issue Designs mit getrennten Schedulern für Int (6-issue, 3 ALU + 3 AGU) und FP (3-issue). Da ist der Schritt zu 4+4+4 (ALU, AGU, FP) nun nicht wirklich soo groß.
Ja das kann man sich schön reden, aber im Endeffekt ist ein AMD K8 - K10 nur 3 fach superskalar, während Intel seit dem Core 2 bereits 4 fach superskalar ist.
Ähm, auf was habe ich mich und Du Dich denn bezogen? Wo war da von Intel die Rede?
Deine These war, daß der Sprung von K7..K10 zu Bulldozer zu groß ist, weil bisher angeblich die Breite immer nur um 1 erhöht wurde, und jetzt das nach Deiner Zählart mehr als verdoppelt würde.
Dem habe ich einfach nur die hier anzuwendende Zählweise für die Einheiten und der Breite des RISC execution cores (also daß was übrig bleibt, wenn man die x86 Decoder wegläßt) entgegengesetzt. Und da sieht man leicht, daß jeder Scheduler nur einen einzigen zusätzlichen Slot bekommen würde (Integer 4 MacroOps statt 3, ebenso 4 FP-Ops statt 3 bisher). Also wo ist das Problem? Man kann doch nicht ein Bulldozer-Modul mit einem einzigen K10-Kern vergleichen! So ein Modul hat immerhin 3 Scheduler statt nur 2 wie K7..K10. Da kann man doch nicht alle Issue-Ports über alle Scheduler einfach addieren und zu irgendwelchen Schlüssen kommen! Und wie das mit den Dekodern gelöst ist, werden wir ja vielleicht morgen etwas genauer erfahren.
Gipsel
2010-08-23, 13:46:44
Ein BD-Modul hätte dann theoretisch 8?
Die aber an 2 Threads arbeiten. Pro Thread sind es nur 4 (wie auch bei Intel maximal).
Man kann doch nicht ein Bulldozer-Modul mit einem einzigen K10-Kern vergleichen! So ein Modul hat immerhin 3 Scheduler statt nur 2 wie K7..K10. Da kann man doch nicht alle Issue-Ports über alle Scheduler einfach addieren und zu irgendwelchen Schlüssen kommen! Und wie das mit den Dekodern gelöst ist, werden wir ja vielleicht morgen etwas genauer erfahren.
glaubst du 2 Module @4Ghz sind so stark wie ein Nehalem mit 4 Threads?
Superskalar = Die Fähigkeit, mehr als einen Befehl pro Takt ausführen zu können.
Das man dafür mehr Ausführungseinheiten hat, als die Anzahl der Befehle, die gleichzeitig ausgeführt werden können, spielt dabei eigentlich keine große Rolle, das ist sogar meistens der Fall, deswegen hab ich "schön reden" gesagt.
Intel drückt das in der Core2 Produktbeschreibung z.b so aus:
4-fach superskalare Pipeline, die vier Instruktionen gleichzeitig laden, verwalten und ausführen kann, im Vergleich zu drei Befehlen beim vorhergehenden Intel Core Duo Prozessor
Hm meine Definition war wohl unvollständig, bei der Uni Augsburg heißt es wie bei Intel, mehr als einen Befehl pro Takt holen, dekodieren, den Ausführungseinheiten zur Verfügung stellen, ausführen und die Ergebnisse wieder zurückschreiben.
Das mit "superskalar" würde ich wirklich bleiben lassen, das führt immer nur zu Interpretationsfragen. Hab mal vor längerer Zeit danach intesiv gegoogelt, am Ende (=Mit am meisten Glaubwürdigkeit) kam ich bei nem alten DEC Paper über AlphaRISC raus. Die zählten damals *nur* die INT Ops. Nach der Definition wäre sowohl AMD als auch Intel 3fach superskalar. Denn Intel kann zwar 4+1 x86 Befehle dekodieren, aber weiter unten in der Pipe gibts dann nur 3 Ports für die Execution Engines.
Also mehr als 3 Rechen-Ops können dann da trotzdem nicht abgearbeitet werden. Wenn Du jetzt hergehst, und deshalb die LD/STR Units bei Intel mitzählst (3), müßtest Du das dann bei AMD auch machen, dann ist man wieder bei 3+3 hüben wie drüben, wobei AMD ausserdem auch noch extra 3 FP Ports hat.
Was bleibt ist das 4+1issue Front End das bei Intel wirklich besser ist.
Was aber deutlich werden sollte ist, dass man nicht von einer xy superskalaren Arch. sprechen sollte, sondern besser von nem xy issue <Front-End || Function Units || Back End >
Nur so ist klar was gemeint ist und nur so kann man sauber vergleichen.
Bei Bulldozer wirds ja anscheinend auch ein 4+1 Frontend (laut Patenten 4issue + CMP Fusion), wobei ich mir bei der Art von AMDs Fusion nicht sicher bin ... die einzelnen Decoderblöcke (bestehend aus je einem FastPath und Complex) sind recht autark. Möglich das jeder der 4 Decoderblöcke cmp/jmp fusionieren könnte, es also im fast utopischen Idealfall ein 4+4 x86 Instr. Decode wären. Aber mal abwarten. Vielleicht kommen auch gleich 8 Blöcke ... ^^
glaubst du 2 Module @4Ghz sind so stark wie ein Nehalem mit 4 Threads?
Warte noch nen Tag, dann ist die Wahrscheinlichkeit beim Performancevorhersage-Dart wenigstens so groß, dass man zumindest das Brett trifft ;-)
kann intel die IPC noch großartig steigern? kommt die P6 Architektur überhaupt an ihre grenzen oder ist da noch für die nächsten 10 Jahre großes Spielraum? der K10 wird ja bei AMD noch als PlanB in der Schublade nach 2012 aufbewahrt. Bei Intel gibts ja nur noch eine Architektur, P4 haben Sie zwar noch in der Schublade aber nicht für ein planB.
Undertaker
2010-08-23, 14:12:35
Die aber an 2 Threads arbeiten. Pro Thread sind es nur 4 (wie auch bei Intel maximal).
Schon klar, thx.
Du glaubst doch nicht im ernst das AMD wieder den Phenom als Marketing Namen für BD benutzen wird und 1000$ CPUs sowieso nicht, Bulldozer wird gegen 6 SB Cores konkurrieren, das heißt max. 500 $
So lange wir keine Performance kennen, kennen wir auch keine Preise. Das Topmodell kann 150€, aber auch 1200€ kosten, je nach dem, wie man sich gegen die Konkurrenz schlägt.
Tiamat
2010-08-23, 14:29:38
Ähm, auf was habe ich mich und Du Dich denn bezogen? Wo war da von Intel die Rede?
Deine These war, daß der Sprung von K7..K10 zu Bulldozer zu groß ist, weil bisher angeblich die Breite immer nur um 1 erhöht wurde, und jetzt das nach Deiner Zählart mehr als verdoppelt würde.
Dem habe ich einfach nur die hier anzuwendende Zählweise für die Einheiten und der Breite des RISC execution cores (also daß was übrig bleibt, wenn man die x86 Decoder wegläßt) entgegengesetzt. Und da sieht man leicht, daß jeder Scheduler nur einen einzigen zusätzlichen Slot bekommen würde (Integer 4 MacroOps statt 3, ebenso 4 FP-Ops statt 3 bisher). Also wo ist das Problem? Man kann doch nicht ein Bulldozer-Modul mit einem einzigen K10-Kern vergleichen! So ein Modul hat immerhin 3 Scheduler statt nur 2 wie K7..K10. Da kann man doch nicht alle Issue-Ports über alle Scheduler einfach addieren und zu irgendwelchen Schlüssen kommen! Und wie das mit den Dekodern gelöst ist, werden wir ja vielleicht morgen etwas genauer erfahren.
Um ehrlich zu sein, gab es hier eine Verwechselung meinerseits. Ich hatte issue immer mit der n fachen Auslegung an Ausführungseinheiten verbunden. Und der Vergleich mit Intel war kein Gegenargument, sondern einfach nur eingeschoben, also ruhig Blut :-)
Tiamat
2010-08-23, 14:52:19
Das mit "superskalar" würde ich wirklich bleiben lassen, das führt immer nur zu Interpretationsfragen. Hab mal vor längerer Zeit danach intesiv gegoogelt, am Ende (=Mit am meisten Glaubwürdigkeit) kam ich bei nem alten DEC Paper über AlphaRISC raus. Die zählten damals *nur* die INT Ops. Nach der Definition wäre sowohl AMD als auch Intel 3fach superskalar. Denn Intel kann zwar 4+1 x86 Befehle dekodieren, aber weiter unten in der Pipe gibts dann nur 3 Ports für die Execution Engines.
Also mehr als 3 Rechen-Ops können dann da trotzdem nicht abgearbeitet werden. Wenn Du jetzt hergehst, und deshalb die LD/STR Units bei Intel mitzählst (3), müßtest Du das dann bei AMD auch machen, dann ist man wieder bei 3+3 hüben wie drüben, wobei AMD ausserdem auch noch extra 3 FP Ports hat.
Was bleibt ist das 4+1issue Front End das bei Intel wirklich besser ist.
Was aber deutlich werden sollte ist, dass man nicht von einer xy superskalaren Arch. sprechen sollte, sondern besser von nem xy issue <Front-End || Function Units || Back End >
Nur so ist klar was gemeint ist und nur so kann man sauber vergleichen.
Bei Bulldozer wirds ja anscheinend auch ein 4+1 Frontend (laut Patenten 4issue + CMP Fusion), wobei ich mir bei der Art von AMDs Fusion nicht sicher bin ... die einzelnen Decoderblöcke (bestehend aus je einem FastPath und Complex) sind recht autark. Möglich das jeder der 4 Decoderblöcke cmp/jmp fusionieren könnte, es also im fast utopischen Idealfall ein 4+4 x86 Instr. Decode wären. Aber mal abwarten. Vielleicht kommen auch gleich 8 Blöcke ... ^^
Ja das mit dem 4 +1 wegen MakroOP-Fusion war mir zwar bekannt, aber da wusste ich relativ wenig von, deswegen hab ich´s weggelassen.
Es gibt innerhalb einer Reservation Station 3 Ports bei Intel, die Mikroops ausführen können ja, aber von den Reservations Stations muss es doch nach Out-of-Order manier mindestens zwei geben oder?
Techpowerup will have an article up when it turns the 24th. Which is less than 24 hours now.
I've seen the pdf, it's about 20 pages of amd slides. Should be good reading when the embargo lifts
http://www.xtremesystems.org/forums/showpost.php?p=4521583&postcount=374
john carmack
2010-08-23, 14:59:47
Hoffe ja immer noch auf einen zweiten A64...
AMD wird morgen den Bulldozer sicher nicht schlecht reden.
Selbst wenn er das sein sollte!
Schlechter als der K10.5 kann er nicht werden - und der ist doch schon gar nicht mal so schlecht, also ich bin sehr optimistisch.
CrazyIvan
2010-08-23, 16:05:06
Hoffe ja immer noch auf einen zweiten A64...
Du solltest lieber auf einen zweiten K7 hoffen - der war IMHO der eigentliche Durchbruch.
Langsam bin ich auch gespannt. Hoffentlich bringt das Ding dicke Single-Thread-Leistung. Parallelität haben wir jetzt schon genug...
john carmack
2010-08-24, 00:23:18
23hours left...
HotChips Symposium :-)
*freu*
Ist halt leider immer noch sehr früh... glaub nicht das allzuviele Details preis gegeben werden.
Es gibt innerhalb einer Reservation Station 3 Ports bei Intel, die Mikroops ausführen können ja, aber von den Reservations Stations muss es doch nach Out-of-Order manier mindestens zwei geben oder?
?? Irgendwie hast Du zuviel Wissenslücken, da bringt so nix. Schau mal hier:
http://www.realworldtech.com/page.cfm?ArticleID=RWT040208182719&p=6
Les am besten den ganzen Artikel durch und dann als Grundlage vielleicht noch de Vries Hammer Artikel. Auszug:
The Schedulers are responsible for Out-Of-Order execution. The schedulers do so by launching instructions to execution units whenever all their source operands are available and the needed execution unit is free. It's the reorder buffer that brings the instructions back into order again.
Ist halt leider immer noch sehr früh... glaub nicht das allzuviele Details preis gegeben werden.
Ich erwarte alle Architektureinfos bis auf Cache Größen (wurde schon von JF dementiert), wobei ich aber wenigstens auf L1 hoffe ;-)
ciao
Alex
john carmack
2010-08-24, 00:40:52
Du solltest lieber auf einen zweiten K7 hoffen - der war IMHO der eigentliche Durchbruch.
Wäre schön wenn es mal wieder so eine richtigen durchbruch in sachen Speed/Performance geben würde :-)
23hours left...
Vermutlich sogar nur noch 5 Stunden
http://a.imageshack.us/img829/623/52244830.png
Normalerweise enden die NDAs bei AMD immer um 6 Uhr früh bei uns, d.h. 0 Uhr US Ostküstenzeit.
john carmack
2010-08-24, 01:02:25
Wie und wann auch immer... Hoffe auf einen schönen und ausführlichen Bericht! :-)
puntarenas
2010-08-24, 07:13:48
P3DNow - AMD präsentiert "Bulldozer" und "Bobcat" auf der Hot Chips (http://www.planet3dnow.de/vbulletin/showthread.php?t=384581)
PCGH - Bulldozer und Bobcat: Offizielle Infos zu AMDs CPU-Architekturen für 2011 (http://www.pcgameshardware.de/aid,769009/Bulldozer-und-Bobcat-Offizielle-Infos-zu-AMDs-CPU-Architekturen-fuer-2011/CPU/News/)
Zweimal deutsch und immerhin ist dank der Folien der Begriff "Core" im Zusammenhang mit Bulldozer jetzt eindeutig definiert. :)
und immerhin ist dank der Folien der Begriff "Core" im Zusammenhang mit Bulldozer jetzt eindeutig definiert. :)
Na das ist wirklich nicht neu ... das hatte JF in allen aktiven Foren in mehreren Threads schon 1000x definiert ... bin ehrlich etwas enttäuscht über die aktuellen Infos und hoffe das da auf der Hotchips Konferenz noch etwas mehr durchsickert.
Die Präsentation ist ja erst um 17 Uhr US Westküstenzeit, also bei uns Mittwoch frühmorgens.
Undertaker
2010-08-24, 07:55:54
Hmm, also wirklich viel neues ist auf den Folien jetzt ersteinmal nicht dabei.
Das Wichtigste ist imho die nochmalige Bestätigung, dass ein 16/8 Core/Modul Interlagos bei gleichem Energieverbrauch 50% schneller sein soll, als ein 12-Kern Magny Cours.
Der Hinweis mit dem Energieverbrauch ist dabei das Iinteressante, wenn man davon ausgeht, dass man im Desktop bei der aktuellen 125W Obergrenze bleibt, wäre also auch hier mit 8 Kernen eine 50%ige Leistungssteigerung zu Thuban zu erwarten - das wäre die Leistungsregion von Gulftown bzw. vermutlich knapp über einem 4-Core Sandy Bridge inkl. SMT.
puntarenas
2010-08-24, 08:01:45
"Mainstream Client and Server Markets" lässt mich bei Zambezi jetzt zwar nicht gerade an einen Sandy-Killer denken, aber vielleicht drückt AMD auch mal wieder auf die Hype-Bremse, ist ja noch ein Weilchen hin.
Man kann es natürlich auch positiv interpretieren, AMD ist zuversichtlich sich mit Zambezi auch gegen Sandy in den Marktsegmenten behaupten zu können, die heute noch K10.5-Varianten mit Mühe vertreten müssen. Die Kräfteverhältnisse bleiben gewahrt und man hat dann eine neue Architektur, die auch für die Zukunft noch Potential verspricht.
Ich weiß, mit meinem Endkundenmimimi liege ich den technischen Spekulationen ein wenig quer, ich bin auch gleich wieder im Lesemodus. :up:
Die Präsentation ist ja erst um 17 Uhr US Westküstenzeit, also bei uns Mittwoch frühmorgens.
Ich habe mich international mal kurz umgesehen und war erstaunt, entweder war das NDA wachsweich formuliert und P3DNow/PCGH haben ein wenig früh geschossen oder die knallharten Enthüllungen kommen erst noch. :uponder:
Na das ist wirklich nicht neu ... das hatte JF in allen aktiven Foren in mehreren Threads schon 1000x definiert.
Stiftete allein hier im Thread trotzdem immer wieder Verwirrung und "count me in".
Ich habe mich international mal kurz umgesehen und war erstaunt, entweder war das NDA wachsweich formuliert und P3DNow/PCGH haben ein wenig früh geschossen oder die knallharten Enthüllungen kommen erst noch. :uponder:.
Na ne, da gibts noch mehr - auch englische Seiten, z.B. eetimes.
http://www.eetimes.com/electronics-news/4206347/Hot-Chips-Inside-AMD-new-x86-cores?pageNumber=1
Die andren sind nicht wichtig, nur schlechter ;-)
Da gabs ne extra Telefonkonferenz dafür.
Ich hoffe mal, dass sich die Chefs für Ihren Vortrag noch ein paar Bonbons aufgehoben haben :)
Stiftete allein hier im Thread trotzdem immer wieder Verwirrung und "count me in".
Das stiftet in jedem Thread - egal wo immer wieder Verwirrung, da sich keiner die Mühe macht JFs Infos zu lesen.
Das wird sich jetzt nicht groß ändern ... wobei - die Hotchipsfolien sollten jetzt wenigstens nen höheren Verbreitungsgrad erlangen ... JF ist zwar viel aktiv, aber es soll auch Leute geben, die überhaupt keine Foren lesen (teilweise schreiben solche Personen dann aber trotzdem ) ^^
Edit: Bevor es Mißverstädnisse gibt: Du bist nicht gemeint, mein da ein paar Leute auf amdzone .
Bei P3D gibts noch die Infos da die Int Cores nur Dual Issue wären, also wieder Kommando zurück: Doch nur ein 2+2 Aufbau. Dafür gibts eine extra IMAC Unit für die XOP Befehle (=SSE5 Überbleibsel). Bin ja gespannt, wie das jetzt alles hinauen soll ...
Zitat von Dr@:
ich zitiere mal so gut ich es trotz Rauschen verstanden habe:
"they will be both
the integer core is dual-issue
each one contains an integer MAC along with the address generation and arithmetic functions
and there is an execution dedicated load store unit in each core"
Die Frage bezog sich auf die Fähigkeiten der Integer-Pipes, ob es ALUs oder AGUs sind.
Undertaker
2010-08-24, 08:34:22
CB hat einen interessanten Nebensatz stehen:
http://www.computerbase.de/news/hardware/prozessoren/amd/2010/august/offizielle_details_bobcat_bulldozer_amd/
"Apropos „gleich“: AMD hat bestätigt, dass Bulldozer zum Teil auf alten Sockeln und dazu passenden Chipsätzen lauffähig sein wird. Allerdings wird man auch neue Chipsätze und Sockel bieten, mit denen die volle Leistung erreicht werden soll."
Wie könnte man das interpretieren? :confused: Lauffähig teilweise(?) ja, aber keine volle Leistung - klingt nicht so, als ob sich das nur auf etwas höhere Speichertaktraten bezieht.
Ich glaube noch nicht daran. Die Boardhersteller wollen auch neue Produkte verkaufen. Ob da mal BIOS Updates kommen werden.
Vorallem das finde ich beeindruckend:
http://img85.imageshack.us/img85/8476/bulldozerefficient.jpg
http://www.anandtech.com/show/3863/amd-discloses-bobcat-bulldozer-architectures-at-hot-chips-2010/4
Für nur 12% mehr Transistoren einen kompletten zweiten INT-Core mit Cache einzubauen macht auf jeden Fall Sinn. Intel gab mal an das sie für SMT 5% mehr Transistoren pro Core benötigen und da wird alles geshared.
Undertaker
2010-08-24, 09:24:14
1-2% mehr Transistoren waren es beim Pentium 4, der allerdings auch generell deutlich weniger Kernlogik besaß - SMT also potentiell teurer war, relativ betrachtet.
Aktuellere Angaben gibt es leider nichts, weder zu Atom noch zur Core "i" Architektur.
alle Folien in der richtigen Reihenfolge:
http://www.engadget.com/photos/amds-bobcat-and-bulldozer-2011-flagship-cpu-cores-detailed-today/#3286291
noch was:
http://blogs.amd.com/work/2010/08/23/”bulldozer”-20-questions-round-one/
Module <-> Cores:
Frage:
” There has been some confusion among those in the tech community regarding the actual CPU architecture, with ‘modules’ and ‘cores’ being explained differently by different people. “ – Waffle911
Antwort:
Yes, there has definitely been some confusion about modules and cores. Modules are only our way of laying out the subcomponents of the processor. You will not see us market modules as they are largely invisible to everyone but the designers. Operating systems, for instance, will enumerate the integer cores, seeing a 16-core AMD Operton™ processor (currently codenamed “Interlagos”) as 16 cores, not 8 modules. Modules do impact the way that certain CPU features are addressed – a discussion of which we’ll save for a later date – but in general we will focus on cores and not modules. The reason that we have modules is to help cut down on a lot of redundant circuitry in the processor. With multiple cores there is lots of duplication and this eats up die space and increases power draw. There are areas within the processor that can be shared because there is no major impact on performance, and other areas that should not be shared because they create bottlenecks.
You will never see a spec sheet with modules called out. Modules will not have a “marketing name”, they will only be “”Bulldozer” modules.” In reality, modules will only matter to the designers. Since we went out with ”Bulldozer” information very early we focused on the shared architecture and talked at the module level (it is still far too early to be sharing die shots….) Because of this the two most misunderstood theories became a.) the module was the whole processor and b.) the module was somehow equal to one core.
When we talk about cores we will always be using the most agreed upon definition of cores – the integer logic. Today most workloads are integer with a much smaller portion being floating point. This is why we focused on integer cores as the most logical way to define a core.
Each integer core will be able to run one software thread, and these threads can all be done simultaneously, unlike an SMT-type technology that lets two threads share one core. You typically find SMT technology on processors with much lower core counts, and its shared nature can create bottlenecks, even resulting in negative throughput in some cases.
As for core counts, here is what we have committed to at this point:
- “Interlagos” – 16-core server processor
- “Valencia” – 8-core server processor
- “Zambezi” – 8-core client processor
"AMD also told us that it will introduce a new AM3+ socket for consumer versions of Bulldozer CPUs. AM2 and AM3 processors will work in the AM3+ socket, but Bulldozer chips will not work in non-AM3+ motherboards."
http://www.extremetech.com/article2/0,2845,2368186,00.asp
Vertigo
2010-08-24, 09:47:13
Das Wichtigste ist imho die nochmalige Bestätigung, dass ein 16/8 Core/Modul Interlagos bei gleichem Energieverbrauch 50% schneller sein soll, als ein 12-Kern Magny Cours.
Der Hinweis mit dem Energieverbrauch ist dabei das Iinteressante, wenn man davon ausgeht, dass man im Desktop bei der aktuellen 125W Obergrenze bleibt, wäre also auch hier mit 8 Kernen eine 50%ige Leistungssteigerung zu Thuban zu erwarten - das wäre die Leistungsregion von Gulftown bzw. vermutlich knapp über einem 4-Core Sandy Bridge inkl. SMT.
Bei Multithreading, worauf das Konzept klar ausgelegt ist. Rechnet man aber die 50% Mehrleistung auf 33% mehr Kerne runter, kommt man bei gerade mal 13% Mehrleistung auf einem CPU-Kern an. Das ist in meinen Augen nicht viel.
Undertaker
2010-08-24, 09:47:31
"AMD also told us that it will introduce a new AM3+ socket for consumer versions of Bulldozer CPUs. AM2 and AM3 processors will work in the AM3+ socket, but Bulldozer chips will not work in non-AM3+ motherboards."
http://www.extremetech.com/article2/0,2845,2368186,00.asp
Hä? AM2-CPUs laufen ja nichtmal im AM3 Sockel, aber in AM3+ schon??
Bei Multithreading, worauf das Konzept klar ausgelegt ist. Rechnet man aber die 50% Mehrleistung auf 33% mehr Kerne runter, kommt man bei gerade mal 13% Mehrleistung auf einem CPU-Kern an. Das ist in meinen Augen nicht viel.
Hier musst du aber sehen: Das ist nur die Mehrleistung pro Kern bei Multithreading - wo also einige Ressourcen eines Moduls zwischen zwei Kernen geshared sind. Die "echte" Singlethreadleistung, wenn nur ein Thread pro Modul läuft, sollte deutlich stärker steigen - auch wenn man genaueres natürlich noch abwarten muss.
Vertigo
2010-08-24, 09:48:46
Hä? AM2-CPUs laufen ja nichtmal im AM3 Sockel, aber in AM3+ schon??
Das kann doch gar nicht funktioneren, da AM2-CPUs nur DDR2-Controller haben. :confused:
Undertaker
2010-08-24, 09:50:54
Das kann doch gar nicht funktioneren, da AM2-CPUs nur DDR2-Controller haben. :confused:
Ich denke auch, dass mit AM2-Kompatibilität muss ein Fehler sein. Fragt sich dann, ob der Rest stimmt.
Vertigo
2010-08-24, 09:54:08
Ich denke auch, dass mit AM2-Kompatibilität muss ein Fehler sein. Fragt sich dann, ob der Rest stimmt.
Eben. Zumal andere Sekundärquellen, die sich alle auf die selbe Primärquelle berufen (:biggrin:), auch das (imo wahrscheinlichere) Gegenteil schreiben, dass die Bulldozers wahrscheinlich auch auf AM3-Boards laufen. Ich denke, dass sich AMD da treu bleiben wird, wie seinerzeit bei AM2+-CPUs, die mit Einschränkungen auf AM2-Boards liefen und AM3-CPUs, die ebenso auf AM2+-Boards liefen.
Eben. Zumal andere Sekundärquellen, die sich alle auf die selbe Primärquelle berufen (:biggrin:), auch das (imo wahrscheinlichere) Gegenteil schreiben, dass die Bulldozers wahrscheinlich auch auf AM3-Boards laufen. Ich denke, dass sich AMD da treu bleiben wird, wie seinerzeit bei AM2+-CPUs, die mit Einschränkungen auf AM2-Boards liefen und AM3-CPUs, die ebenso auf AM2+-Boards liefen.
Ja ich das ist Käse hoch 3.
Es war schon von Anfang an klar, dass es irgendwann ne "echte" AM3 CPU geben wird.
Socket AM3 hat 941 Kontaktlöcher, die bisherigen AM3 CPUs aber nur 938 Pins - um eben auch noch in nen AM2 Sockel zu passen.
Nachdem schon lange bekannt ist, dass Bulldozer nur DDR3 bekommt, war seitdem auch schon klar, dass das die "echte" AM3 CPU mit 941 Pins wird .. man muss ja schließlich verhindern, dass jemand das Teil in einen AM2 Sockel steckt.
Und nun kommt so ne 3Klass Seite und schreibt so nen Blödsinn, der sich jetzt durch alle Noob Foren verbreiten wird ... uahahhh
SavageX
2010-08-24, 10:41:06
Bei Multithreading, worauf das Konzept klar ausgelegt ist. Rechnet man aber die 50% Mehrleistung auf 33% mehr Kerne runter, kommt man bei gerade mal 13% Mehrleistung auf einem CPU-Kern an. Das ist in meinen Augen nicht viel.
Nicht vergessen, dass es mit steigender Kern-Anzahl auch tendenziell geringer Speedups erzielt. Man kann nicht direkt auf die Single-Thread Leistung schließen, weil das halt nicht linear skaliert.
Nicht vergessen, dass es mit steigender Kern-Anzahl auch tendenziell geringer Speedups erzielt. Man kann nicht direkt auf die Single-Thread Leistung schließen, weil das halt nicht linear skaliert.
Nicht nur das...
CMT soll ja max. 80% bringen. Wenn also nur 1 Thread auf einem Modul läuft, dann sollte der Core min. 25% mehr leisten (1,5/1,33 x 2/1,8). Und dann kommt auch noch Turbo-Core dazu (siehe Frühe 20 Questions)..
Übrigens, die jetzige Präsentation ist anscheinend nicht das, was auf der Hotchips-Konferenz präsentiert wird:
AMD has Bobcat and Bulldozer silicon back in its labs and things apparently look good. Later today at Hot Chips 22, AMD will present further details on both of its next generation architectures. What we have here now is a sneak peak of what AMD is going to unveil at the conference later today.
Quelle: Anandtech
Für mich klingt das alles nicht nach Höchstleistung sondern eher nach Effizienz (im Hinblick auf Die-Space und Energie) und "reicht für alles aus". Hatte mir was anderes erhofft... Aber vielleicht irre ich mich ja.
du wünscht dir was anderes als effezienz?
http://www.youtube.com/watch?v=VIs1CxuUrpc
vielleicht kann mich jemand ein wenig erhellen.
- 50% mehr leistung als der jetzige 12core: im schnitt oder integer?
- die integer-sse befehle, werden die auf den shared FMAC einheiten laufen oder auf den integer kernen?
- sehe ich das richtig, es kann immer nur ein core die fmac units nutzen, selbst wenn beide simple SSE befehle abarbeiten wollen? die units sind ja scheinbar nicht in der lage zwei verschiedene befehle abzuarbeiten, also kann man nicht drauf hoffen dass statt pro takt einen befehl jetzt alle zwei takte zwei befehle abgearbeitet werden, oder?
es sieht irgendwie aus, als ob die float leistung sinkt und int steigt, was wie beim sparc gut bei datenbank servern usw. ist und schlecht bei computing kommt.
MiamiNice
2010-08-24, 13:18:43
du wünscht dir was anderes als effezienz?
Wir wollen Leistung von AMD sehen damit wir nicht ständig die gedrosselten Intel CPU´s kaufen müssen. AMD muss mal 10 Schübben drauflegen damit wir bald unsere 4Ghz Sandys kaufen können, sonst traut sich Intel nämlich nix um AMD wenisgsten ein bissel vom Markt zu lassen damit sie nicht pleite gehen.
AMD ist derzeit eine Bremse bei den CPU´s. Die sollen mal ganz schnell aufhohlen.
Leistung, Leistung und nochmal Leistung sollen die bringen.
es sieht irgendwie aus, als ob die float leistung sinkt und int steigt, was wie beim sparc gut bei datenbank servern usw. ist und schlecht bei computing kommt.
Für Computing hat man GPUs. ;)
Wir wollen Leistung von AMD sehen damit wir nicht ständig die gedrosselten Intel CPU´s kaufen müssen. AMD muss mal 10 Schübben drauflegen damit wir bald unsere 4Ghz Sandys kaufen können, sonst traut sich Intel nämlich nix um AMD wenisgsten ein bissel vom Markt zu lassen damit sie nicht pleite gehen.
AMD ist derzeit eine Bremse bei den CPU´s. Die sollen mal ganz schnell aufhohlen.
Leistung, Leistung und nochmal Leistung sollen die bringen.
Immer dieses Geschwafel, das gleiche konnte man sich vor dem K7 und vor dem K8 anhören. Dann kamen die beiden Chips und die Reaktionen von Intel waren kaum vorhanden. Intel bringt jedes Jahr einen neue CPU, alle zwei Jahre eine neue Architektur, was willst du denn noch? Und nein, mehr als 130W TDP ist nicht unbedingt sinnvoll und deshalb gibt es auch keine 4Ghz CPUs.
We will continue our emphasis, in having cheaper cpus is what we believe and always have. Thats the only way we know, ......[sfme]
du wünscht dir was anderes als effezienz?
Effizienz bezogen auf den Die-Space ist mir egal. Effizienz bezogen auf den Energieverbrauch ist wichtig aber nicht so wichtig, dass man Kompromisse bei der Leistung eingehen muss.
Ich persönlich (was natürlich nicht repräsentativ ist) hätte gerne so viel Leistung (Gewichtung: 50% per Thread, 50% Gesamtdurchsatz) wie man aus ~200W raus bekommen kann. Mir passt es daher z.B. nicht, dass Intel wegen 2-3W Idleerspranis einen Takt L1-Latenz beim Nehalem opfert ;)
@ Gast 13:29
Ich weiß zwar nicht in welchem Zusammenhang das Zitat steht aber wenn das die Designziele von AMD sind, wird das von mir oben vermutete wohl war. Ach mann...
http://www.yousendit.com/transfer.ph...a5c2296845a836
Minute 23:
Sieht wohl schlecht aus mit Upgrade aufm AM3
AM3+ Prozessoren (also Bulldozer) funktionieren nur auf AM3+ Mainbaords
AM3 Prozessoren laufen sowohl auf AM3 als auch AM3+ Mainboards
aber hört selber mal rein.
http://www.planet3dnow.de/vbulletin/showthread.php?p=4278362#post4278362
boxleitnerb
2010-08-24, 15:17:11
Wenn das stimmt, kann ich mir ein Grinsen nicht verkneifen beim Gedanken wie oft ich das Aufrüstargument gelesen habe :rolleyes:
Wäre echt ärgerlich, vor allem schießt sich AMD da bezüglich ihrer eigenen (eigentlich langfristigen) Sockelpolitik ins Bein.
MiamiNice
2010-08-24, 15:20:18
Acuh die Hersteller von AMD Mainboards wollen Geld verdienen. Finde ich jetzt nicht so ungewöhnlich.
boxleitnerb
2010-08-24, 15:21:40
Wie war das jetzt mit "läuft, aber nicht mit optimaler Performance"? Noch scheinen sich die Quellen zu widersprechen.
Der_Korken
2010-08-24, 15:24:54
Wobei AMD da auch ruhig gleich einen AM4 bringen könnte, wenn der Bulldozer nicht in den AM3 passt. Die Meldung, dass ein weiterer Sockel folgen wird, um die volle Leistung der neuen CPUs auszuschöpfen, klingt so, als würde der jetzige AM3(+) in irgendeinerweise limitieren. Dann wäre es klug, gleich einen AM4 mit größeren Veränderungen zu bringen, denn eine Kombination aus AM3+ Board, aber alter AM3 CPU halte ich für exotisch und verzichtbar. Eher behält man sein Board und rüstet die CPU nach.
Wie war das jetzt mit "läuft, aber nicht mit optimaler Performance"? Noch scheinen sich die Quellen zu widersprechen.
Im Moment herrscht nur Chaos, wobei das aktuelle AMD Statement ziemlich klar ist. *Kein* Drop in Replacement für AM3. Sagt der Kollege. Er verhaspelt sich zwar , aber es ist klar, was er sagen wollte.
Wäre wirklich voll der Müll und Sinn würde es auch keinen machen. Der echte Hotchips Vortrag kommt ja erst noch, aber ob dort die AM3 Frage nochmals besprochen wird, glaub ich eher nicht.
ciao
Alex
Konami
2010-08-24, 15:28:20
Für mich klingt das alles nicht nach Höchstleistung sondern eher nach Effizienz (im Hinblick auf Die-Space und Energie) und "reicht für alles aus". Hatte mir was anderes erhofft... Aber vielleicht irre ich mich ja.
Effizienz bedeutet doch zwangsläufig auch, dass das Ding ordentlich hochgetaktet sehr gute Performance bringen kann, ohne dass die TDP in untragbare Höhen steigt. Was kann man daran schlecht finden?
Effizienz bedeutet doch zwangsläufig auch, dass das Ding ordentlich hochgetaktet sehr gute Performance bringen kann, ohne dass die TDP in untragbare Höhen steigt. Was kann man daran schlecht finden?
Der Prozess lässt eine gewisse Takt (OC) Spanne zu, innerhalb derer man vernünftig (Über)takten kann. Darüber hinaus wird es wirklich ineffizient.
Wenn die CPU so konzipiert ist, dass das Topmodell (100% Leistung) 100W verbraucht, muss ich für 30% OC vermutlich so viel Saft draufknallen, dass 200W verbraucht werden.
Habe ich eine CPU, die 130% bei 150W leistet, komme ich mit 20% OC auch in Richtung 200W, habe aber mehr Rechenleistung zur Verfügung.
Das Spiel kann man mit verschiedensten Zahlen durchspielen. Am Ende wird im Grenzbereich immer die CPU effizienter sein, die von vorn herein für höhere Leistung konzipiert ist.
=Floi=
2010-08-24, 16:40:34
"AMD also told us that it will introduce a new AM3+ socket for consumer versions of Bulldozer CPUs. AM2 and AM3 processors will work in the AM3+ socket, but Bulldozer chips will not work in non-AM3+ motherboards."
http://www.extremetech.com/article2/0,2845,2368186,00.asp
freut mich schon. :biggrin:
Konami
2010-08-24, 16:47:30
@Wuge: Joa, okay. Mag sein. Ich bin gespannt - bisher ist das ja nur Kaffeesatzleserei auf Basis der Formulierungen von AMD. :)
Stimmt es eigentlich, dass Bulldozer auch Hardware-AES-Entschlüsselung unterstützen wird? Auf der Wiki-Seite (http://en.wikipedia.org/wiki/AMD_Bulldozer) steht sowas.
Undertaker
2010-08-24, 17:13:49
Jep, wird er.
Leonidas
2010-08-24, 17:20:02
du wünscht dir was anderes als effezienz?
Die Frage ist, was es bringt, für eine zweite Integer-Einheit nur 12% mehr Transistoren zu benötigen, wenn es hierbei um 1-3 Millionen Transistoren geht und der gesamte Prozessor durch die großen Caches auf über 1 Mrd. Transistoren kommt. Selbst wenn Cache überlicherweise sehr dicht zu packen ist, sind die 1-3 Millionen Logiktransistoren nicht das, was das Kraut fett macht.
Wenn, dann muß die Effizienz an anderer Stelle liegen. Vielleicht niedrigerer Stromverbrauch und damit mehr Taktmöglichkeiten oder auch generell höhere mögliche Taktraten.
aylano
2010-08-24, 18:05:07
- 50% mehr leistung als der jetzige 12core: im schnitt oder integer?
John Fruehe August 7, 2010
Nehalem’s top 2P SPEC INT: 267
Westmere’s top 2P SPEC INT: 381
Magny Cours’ top 2P SPEC INT: 402
Bulldozer should be ~50% faster than that. That would probably put it at ~2X Nehalem as a minimum and probably more than 50% above Westmere.
How can you not call that a clear improvement.
Das bezieht sich aber auf Multi-Core-Performance. Daraus kann man nicht viel ablesen.
john carmack
2010-08-24, 20:49:11
Gibts sowas wie ein LiveStream zur HotChips?
Gibts sowas wie ein LiveStream zur HotChips?
Nicht das ich wüßte.
Überwache die Blogger & Tweet Szene.
Anandtech und semiaccurate sollten vor Ort sein, eventuell kommen zu einer bestimmten Uhrzeit auch nochmal die fertigen Artikel online.
john carmack
2010-08-24, 21:53:07
Na gut ich warte einfach noch 2-3std... :-)
*lächts*
merfu
2010-08-25, 02:05:19
Erste Zusammenfassung der neuen Infos
http://www.computerbase.de/news/hardware/prozessoren/amd/2010/august/zum_zweiten_mehr_bobcat_bulldozer/
Klingt ein wenig ertäuschend.
Aber AMD kann durch die Architektur gut skalieren.
MfG
Echo419
2010-08-25, 06:57:40
hier stand mist.
mfg echo
Galerie der Präsentationen bei Anandtech:
http://www.anandtech.com/show/3865/amd-bobcat-bulldozer-hot-chips-presentations-online
Und was sagt uns dies jetzt? Irgendwie werde ich aus den Präsentationen nicht schlau. Die einzige Info, die jetzt endlich bestätigt wurde war, dass es nur 2x INT + 2x AGU pro Core gibt anstelle der in letzter Zeit favorisierten 4/4 INT/AGU.
robbitop
2010-08-25, 09:13:25
Sind also pro Kern nur 2x Ops / Takt möglich statt beim Core 2 / Nehalem 4x Ops?
Leonidas
2010-08-25, 09:33:19
Jein. Je nachdem wie AMD das wirklich meint, ist noch beides möglich. Die besten Schema-Zeichnungen sprechen derzeit von "4 Pipelines", was wie gesagt alles bedeuten kann.
Update: Nein, angesichts dessen hier nicht:
http://images.anandtech.com/galleries/754/BulldozerHotChips_August24_8pmET_NDA-8_575px.jpg
robbitop
2010-08-25, 09:37:36
Die neusten sprechen aber von 2x AGU und 2x ALU pro Int Core. Und soweit ich das verstanden habe, können nur ALUs rechnen.
Jein. Je nachdem wie AMD das wirklich meint, ist noch beides möglich. Die besten Schema-Zeichnungen sprechen derzeit von "4 Pipelines", was wie gesagt alles bedeuten kann.
Update: Nein, angesichts dessen hier nicht:
http://images.anandtech.com/galleries/754/BulldozerHotChips_August24_8pmET_NDA-8_575px.jpg
Was ich nicht verstehe: Die zusätzliche INT-Einheit soll nur 12% mehr Die-Fläche kosten, der Core wurde offenbar ggü. einem K10 sogar abgespeckt. Dazu soll es maximal einen 4 BD-Modul (8Thread) Chip geben. Das alles in 32nm. Der Chip müsste doch absolut winzig werden, das sieht mir nach unter 200mm² aus. Wo bleibt das High-End?
Undertaker
2010-08-25, 10:01:09
12% Fläche verglichen zu einem Bulldozer-Core ohne CMT - nicht zu einem K10(.5). Der Kern selbst wird, selbst wenn er nur noch 2x superskalar sein sollte (ist das denn nun so?) doch schon deutlich komplexer geworden sein, vergessen wir nicht die sicherlich kostspielige AVX-Implementierung (wenn auch im Modul geshared).
Dazu kommen dann noch die recht großen Caches, ich denke, wir landen am Ende bei sicherlich etwas um ~250mm². Reine Spekulation. ;)
AMD hätte ruhig mal einen Die-Shot zeigen können, SNB gab es schon letzten Oktober zu sehen. :down:
robbitop
2010-08-25, 10:20:50
Auch wenn der Begriff mittlerweile veraltet und obsolet ist: Ist Bulldozer nun insgesamt (schwächstes Glied der Kette) im Singlethread 4x Superskalar oder 2x?
Coda, Gipsel, Blackbird?
Die neusten sprechen aber von 2x AGU und 2x ALU pro Int Core. Und soweit ich das verstanden habe, können nur ALUs rechnen.
Die Folien geben da nicht so viel her, könnten auch dual-issue ALUs sein.
Viel mehr wissen wir jetzt eigentlich nicht, Diskussionsstoff bieten die Folien, was wohl auch AMDs Absicht war... Nicht sehr befriedigend -> Auf das nächste mal hoffen.
Ich hab da mal eine Interpretationsfrage:
Es wird ja überall in Foren immer von diesen 180% durch den 2. Kern eines Moduls gesprochen, also keine 200%, da einige Einheiten geshart sind.
Man vergleicht ja auch i7 und dessen SMT mit ~135%.
Jetzt schreibt aber Computerbase folgendes:
http://www.computerbase.de/news/hardware/prozessoren/amd/2010/august/zum_zweiten_mehr_bobcat_bulldozer/
Multi-Threaded-Anwendungen müssen, je nach Anforderung an die CPU, aber mit entsprechenden Einbußen rechnen, da die Aufgaben verteilt werden und nicht die Ressourcen zur Verfügung stehen, die bei einem klassischen Zwei-Kern-Design vorhanden wären. Der L1-Instruktionen-Cache pro Integer-Kern bleibt mit jeweils 16 KByte natürlich erhalten, die 64 KByte L1-Cache für Daten werden im Modul aufgeteilt. [b]AMD selbst bestätigt mit einer erwarteten durchschnittlichen Performance von 80 Prozent des gesamten Moduls gegenüber eines reinen Dual-Core-Designs die bisher in den Gerüchten gehandelten Werte.[b]
Heißt das, das ein "echter" 2-Kerner 200% hat, und die 80% auf die 200% sich beziehen? Würde also bedeuten das es keine 180%, sondern nur 160% wären (200% [2Kerner] * 80% [Effizienz durch CMT] = 160% Gesamtleistung?).
Ähm ein Kern hat 100%, durch CMT +80 Prozentpunkte hingegen ein voller Kern +100 Prozentpunkte.
-> 180% vs 200%
Fetza
2010-08-25, 10:39:57
Ich bin etwas entäuscht darüber, das amd einen bulldozer mit 2 modulen als quad-core vermarkten wird. Wird es wohl auch bulldozer mit 4 modulen direkt nach produkteinführung geben? Und wie teuer werden die wohl?
Der erste BD-Auftritt wird definitiv eine 4 Module CPU sein, wovon es wieder teildeaktivierte Versionen geben wird.
Für den niedrigeren Anspruch wird es Llano und eben die 45nm K10.5-CPUs geben.
Ich denke der Performancezuwachs durch den 2. Int-Core wird auch hauptsächlich vom Programmcode abhängen. Wenn dieser hauptsächlich aus Integer-Befehlen besteht (Games zB) dann wird man eher an die 200% Skalierung herankommen als wenn massig die FPU-Units verwendet werden müssen.
können 4 Module mit einem Intel 6 Core mithalten?
Was ich beachtenswert finde ist, dass sie von mehreren Int-Schedulern weg sind hin zu einem gemeinsamen pro Core. Das erhöht die Auslastung.
Auch verwenden sie jetzt PRF register renaming, d.h. die ROBs zeigen direkt auf das Register-File anstatt selber Werte zu speichern. Deshalb spart man sich am Ende die Kopie. Daher wohl das "reduced data movement".
Auch wenn der Begriff mittlerweile veraltet und obsolet ist: Ist Bulldozer nun insgesamt (schwächstes Glied der Kette) im Singlethread 4x Superskalar oder 2x?
Da der Decoder gemeinsam verwendet wird man das nun gar nicht mehr sagen. Hatte vorher aber auch schon keine Aussagekraft, also vergesst es einfach.
Vier Decoder für zwei Cores finde ich übrigens fast etwas wenig.
können 4 Module mit einem Intel 6 Core mithalten?
Für solcherlei Aussagen ist es noch viel zu früh.
Ähm ein Kern hat 100%, durch CMT +80 Prozentpunkte hingegen ein voller Kern +100 Prozentpunkte.
-> 180% vs 200%
Das weiß ich, aber das würde dem widersprechen:
AMD selbst bestätigt mit einer erwarteten durchschnittlichen Performance von 80 Prozent des gesamten Moduls gegenüber eines reinen Dual-Core-Designs die bisher in den Gerüchten gehandelten Werte.
mir gehts da um die Aussage auf CB.
Fetza
2010-08-25, 11:19:32
Der erste BD-Auftritt wird definitiv eine 4 Module CPU sein, wovon es wieder teildeaktivierte Versionen geben wird.
Für den niedrigeren Anspruch wird es Llano und eben die 45nm K10.5-CPUs geben.
Das wäre cool! :up:
also 1 Bulldozer Core sollte auf Core2 höhe liegen, das heißt 8 Bulldozer Cores sind so wie 8 Core2 Kerne, jetzt bleibt nur noch die frage wieviel IPC vorteile Sandy Bridge gegenüber den Core2 & Nehalem hat, nicht das am ende 6 Sandy Bridge Cores wegen 20-30% IPC Vorteil schneller als 4 Modul Bulldozer sind, AMD muss und irgendwie überraschen, also 4 BD Module gegen 4 SB Cores wäre langweillig, dann würde jeder auf 1155 setzen da BD ein neues Board braucht, SB kommt ja 6 Monate eher als BD.
also 1 Bulldozer Core sollte auf Core2 höhe liegen
Woraus schließt du das?
robbitop
2010-08-25, 11:26:10
Ich hätte mit 4x ALUs pro Int-Kern gerechnet. Hat Nehalem nicht auch 4x?
Vier Decoder für zwei Cores finde ich übrigens fast etwas wenig.Naja, das sind 4 Decoderblöcke. Rein klassisch sind das 8 Decoder, 4FP + 4VP. Zumindest laut Patenten. Nachdem die bisher aber auch immer recht hatten, auch der 2+2 Aufbau stimmt, wird das Dekoderpatent ziemlich sicher auch zutreffen.
Dazu noch dann CMP Fusion .. sollte reichen :)
ciao
Alex
Ich hätte mit 4x ALUs pro Int-Kern gerechnet. Hat Nehalem nicht auch 4x?
Nein. Drei. Allerdings werden die Ports dafür mit SSE und FP geteilt.
Vier Int-Alus an einem gemeinsamen Scheduler kann man sowieso nicht auslasten. Ich gehe davon aus, dass zwei an einem Scheduler gegenüber den drei an getrennten mindestens den gleichen Durchsatz ergeben.
Naja, das sind 4 Decoderblöcke. Rein klassisch sind das 8 Decoder, 4FP + 4VP. Zumindest laut Patenten.
Ja, mal abwarten. Das könnte das ganze natürlich entspannen.
Ich hätte mit 4x ALUs pro Int-Kern gerechnet. Hat Nehalem nicht auch 4x?Nö, 3 Ports und um die dürfen sich alle FP & INT FUs streiten:
http://www.realworldtech.com/includes/images/articles/Nehalem-3.gif
http://www.realworldtech.com/page.cfm?ArticleID=RWT040208182719&p=6
Sandy ändert das ganze Setup auch nicht, es kommt nur die 256bit AVX Fähigkeit dazu.
Ein paar Seiten schreiben deswegen von max 512bit für Sandy, aber naja ... nur wenn der Port nicht mit anderem Krimskrams belegt ist ...
ciao
Alex
Woraus schließt du das?
50% interlagos vs. magny cours, BD pro Core 12% mehr IPC als K10.5, das ist in richtung Core2.
wenn sich BD kostengünstig produzieren lässt kann AMD auch mehr als 4 Module für den Desktop anbieten, 50% mehr Leistung innerhalb 1 Jahr nach magny cours ist gut für die sever sparte.
50% interlagos vs. magny cours, BD pro Core 12% mehr IPC als K10.5, das ist in richtung Core2.
wenn sich BD kostengünstig produzieren lässt kann AMD auch mehr als 4 Module für den Desktop anbieten, 50% mehr Leistung innerhalb 1 Jahr nach magny cours ist gut für die sever sparte.
Es sind aber keine 12,5% sondern 25%, also besser als Core2.
Gipsel
2010-08-25, 14:01:20
Galerie der Präsentationen bei Anandtech:
http://www.anandtech.com/show/3865/amd-bobcat-bulldozer-hot-chips-presentations-online
Und was sagt uns dies jetzt? Irgendwie werde ich aus den Präsentationen nicht schlau. Die einzige Info, die jetzt endlich bestätigt wurde war, dass es nur 2x INT + 2x AGU pro Core gibt anstelle der in letzter Zeit favorisierten 4/4 INT/AGU.
Da steht übrigens auch so was wie "designed for low gates/clock", was anders umschrieben genauso "designed for high clocks" heißen könnte. Leider wurde kein Diagramm mit den einzelnen Pipelinestufen für BD gezeigt (für Bobcat schon), womit man das vielleicht ein wenig besser einordnen könnte. Aber nachdem sogar Bobcat eine höhere branch mispredict penalty als ein K10 aufweist (bei allerdings ähnlicher absoluter Pipelinelänge), dürfte BD eine deutlich längere Pipeline besitzen.
Gipsel
2010-08-25, 14:09:09
Jetzt schreibt aber Computerbase folgendes:
http://www.computerbase.de/news/hardware/prozessoren/amd/2010/august/zum_zweiten_mehr_bobcat_bulldozer/
Der L1-Instruktionen-Cache pro Integer-Kern bleibt mit jeweils 16 KByte natürlich erhalten, die 64 KByte L1-Cache für Daten werden im Modul aufgeteilt.
Also wer schreibt denn so einen Blödsinn bei CB? Es sind 64kB L1-Instruktionscache, den sich die zwei Threads eines Moduls teilen. Jeder Thread hat aber alleinigen Zugriff auf jeweils 16kB L1-Daten-Cache. Der Daten-Cache wird also in jedem Kern dupliziert (es sind aber nur noch 16kB, dafür mit höherer Assoziativität), den Instruktionscache gibt es pro Modul nur einmal, was mit den gemeinsamen Decodern aber wohl auch das Beste ist.
Savay
2010-08-25, 14:22:31
50% interlagos vs. magny cours, BD pro Core 12% mehr IPC als K10.5, das ist in richtung Core2.
ach das ist doch alles kokolores...hier wird schonwieder stumpf SMP, mit SMT, mit CMT verglichen.
das mag beim vergleich zwischen SMP und SMT CPUs ja noch bedingt funktionieren...im falle von CMT ist damit aber schluss...weil es einfach vom workload abhängt.
der größte fehler in dem zusammenhang ist eh die subkerne eine BD moduls mit einem vollwertigen kern einer aktuellen CPU zu vergleichen.
je nach workload kann sich so ein BD modul ja auch wie ein einzelner kern mit der doppelten theoretischen leistungsfähigkeit verhalten!
soviel nur zum thema IPC...in dem rechenbeispiel das uns AMD gegeben hat haben wir nämlich nur die reine "CMT IPC" vorgesetzt bekommen.
wie gut die reine single thread IPC pro modul wird kann auf die art und weise wie hier gerechnet wird noch niemand auch nur im entferntesten abschätzen. :rolleyes:
per se haben wir es im single threaded fall ja mit einer CPU mit 2*(2ALU+2AGU) CPU zu tun und nicht mit 2 getrennten 2ALU+2AGU CPU.
solange nicht klar ist wie gut der decoder beide fälle abdecken kann ist eine rechnerei hier total sinnlos. :tongue:
im idealfall sollte aber (bezogen auf jeweils 1 thread) maximal 200% der IPC leistung im CMT fall rausspringen. ;)
das wäre pro BD-Modul (bezogen auf 80% der leistung im vergleich zum K10.5 pro core/subcore) letztlich ca. 160% der IPC eines einzelnen K10.5 kerns. :)
wobei die angaben alle derartig schwammig sind das es wirklich eher einem ratespiel nahekommt als irgendwelchen ableitbaren fakten aufgrund derer man eine leistungseinschätzung treffen kann.
ich würd das rumrechnen einfach mal sein lassen bis mehr details bekannt geworden sind :tongue:
Wo hast du denn das her? Ich hatte zwar mal vor längerer Zeit die Vermutung, dass ein BD-Modul eigentlich einen 4-wide issue Kern wäre, dann ginge das von dir geschriebene, aber die Folien sagen da eindeutig was anderes.
Savay
2010-08-25, 14:50:26
sry kam nicht raus das es meinerseits ein wenig spekulativ ist...das steht halt nirgends...das design macht andererseits für mich aber irgendwie keinen sinn weil man flexibilität verliert. als eine reine transistor einsparung macht das ganze für mich keinen sinn.
ist halt alles eine frage des decoders...bei einem BD modul haben wir einen decoder für 2*2ALU+2AGU im gegensatz zu aktuellen CPUs wo wir einen decoder für 3ALUs+3AGUs haben
wenn wir schon einen decoder für die kompletten einheiten haben, müsste der bei superskalaren workload diesen ja theoretisch auf das 2*(2+2) design genauso verteilen können als hätten wir ein reines 4+4 design!
da ist halt noch der scheduler jeweils nochmals doppelt vorhanden...aber das ist für den decoder bei der verteilung ja größtenteils erstmal irrelevant solange wir nur einen einzelnen thread haben.
heutzutage verteilen die decoder ja eh schon den workload auf 3ALUs+4AGUs. das ganze je nach last auch seriell für bis zu 2 threads.
bei CMT verteile ich den workload parallel...sollte im umkehrschritt aber bei superskalaren workload diese parallelität zur "verbreiterung der rechenwerke" nutzen können.
kann natürlich sein das ich einen fundamentalen denkfehler begehe aber der decoder muss den code ja eh bröckchenweise für die beiden 2+2 rechenwerke aufbereiten! das kann er ja theoretisch auch für einzelne threads machen indem er sie aufsplittet soweit es möglich ist. :)
EDIT: ok nachdem ich den rotz nochmal durchdacht habe sehe ich neben den schedulern vorallem ein problem mit dem L1...die einzelergebnisse des auseinandergepflückten threads muss man ja auch wieder synchronisieren bzw zusammenführen...und die liegen danach ja in verschiedenen caches... mea culpa.
die frage ist nur ob AMD in gewissen grenzen nicht vielleicht doch deartiges implementiert...und vorallem inwieweit die folien wirklich alle relevanten details wiedergeben.
naja und letztlich ist es wirklich noch arg weit hin um im bezug auf die IPC zuverlässig etwas abschätzen zu können!
bestimmte ehemalige AMD Mitarbeiter haben vor kurzem verlauten lassen das Bulldozer eine enttäuschung wird, AMD hätte den K8 doch weiterentwicklen müssen, neue FPU, mehr IPC, 4fach statt 3fach, SMT würde ausreichen, schade das AMD den K8 nicht mehr weiterentwickelt, große starke Cores mit 2fach SMT wären auch eine möglichkeit gewesen.
Jaja, hat der Schwippschwager eines Bekannten auch behauptet :rolleyes:
Gasti
2010-08-25, 15:05:08
bestimmte ehemalige AMD Mitarbeiter haben vor kurzem verlauten lassen das Bulldozer eine enttäuschung wird, AMD hätte den K8 doch weiterentwicklen müssen, neue FPU, mehr IPC, 4fach statt 3fach, SMT würde ausreichen, schade das AMD den K8 nicht mehr weiterentwickelt, große starke Cores mit 2fach SMT wären auch eine möglichkeit gewesen.
Jenau!
So was gibts von INTEL ja noch gar nicht :ugly:
Und das ist toll für Alles!
@Savay
Gibt noch mehr Probleme als die Caches, wie geschrieben, im Prinzip bräuchtest eine 4-way issue CPU um das vernünftig umzusetzen. Wurde aber, wenn ich mich recht erinner, schon einmal besprochen -> danach suchen ;)
bestimmte ehemalige AMD
Ja klar... glauben wir dir aufs Wort :D
auf aceshardware gefunden:
Today's processors have 3 execution units that are shared between ALU/AGU. That is essentially 1.5 ALU and 1.5 AGU. With BD we get 2 AGU and 2 ALU. Much better.
gepostet von JF-AMD im xtremesystems.org forum
http://www.xtremesystems.org/forums/showpost.php?p=4523917&postcount=204
Das ist so aber nicht richtig, da durchaus alle 3 ALUs und AGUs in einem K10 gleichzeitig beschäftigt werden können. Es ist nur eher unwahrscheinlich.
bestimmte ehemalige AMD Mitarbeiter haben vor kurzem verlauten lassen das Bulldozer eine enttäuschung wird, AMD hätte den K8 doch weiterentwicklen müssen, neue FPU, mehr IPC, 4fach statt 3fach, SMT würde ausreichen, schade das AMD den K8 nicht mehr weiterentwickelt, große starke Cores mit 2fach SMT wären auch eine möglichkeit gewesen.
Schnarch....
Wenn du den Mitarbeiter meinst, der AMD vor 5(?) Jahren verlassen hat.....
Andy Glew zumindest ist schon lange nicht mehr bei AMD:
http://groups.google.com/group/comp.arch/browse_thread/thread/759bcccbfa0b8b07/3cd3bfa93b736a56?q=#3cd3bfa93b736a56
Das ist so aber nicht richtig, da durchaus alle 3 ALUs und AGUs in einem K10 gleichzeitig beschäftigt werden können. Es ist nur eher unwahrscheinlich.
Dann kannst du ja hier nachfragen:
http://blogs.amd.com/work/category/bulldozer/
bzw. bei dem hier (ist in verschiedenen Foren als JF-AMD unterwegs):
http://blogs.amd.com/work/author/jfruehe/
Völlig egal wer es ist, es ist trotzdem ein Witz, so kann nur einer vom Marketing rechnen...
lol was habt ihr den erwartet
könnt ihr euch noch an K8L aka Barcelona errinern ;)
damals wurde von AMD gesagt Barcelona wird 50% schneller als Intel, am ende war das ding schlechter als ein 90nm K8.
AMD will garnicht schneller als Intel sein, es geht um niedrige kosten bei guter Leistung, hohe kosten kann man sich nur ab 30% Marktanteil und 1 Milliarde netto pro Jahr erlauben, der K7/K8 war ne ausnahme.
SavageX
2010-08-25, 16:20:44
Wenn ich mich richtig erinnere (das Buch ist gerade nicht griffbereit), dann steht in "Computer Architecture: A Quantitative Approach" für die SpecINT eine IPC von knapp unter eins für den K8-Opteron, der P4 natürlich noch ein bisschen weniger.
Zwei ALUs sind bei guter OoO-Ausführung bestimmt ausreichend, um nicht schlechter dazustehen. Wenn ich mich recht entsinne, so kann K8/K10 Befehle nicht mal eben auf freie Einheiten verteilen, wenn sie einmal zugeteilt wurden - deshalb liegt da viel Land brach.
Bulldozer hat zweifelsfrei das Potential, seine Ressourcen deutlich besser auszuschöpfen.
Wenn ich mich recht entsinne, so kann K8/K10 Befehle nicht mal eben auf freie Einheiten verteilen, wenn sie einmal zugeteilt wurden - deshalb liegt da viel Land brach.
Ja richtig. Es gibt drei Int-Scheduler auf die verteilt werden mit jeweils eigenem Instruction-Window. Wenn ein solcher Scheduler stallt, stallen alle Ops in diesem window obwohl möglicherweise ein anderer Int-Scheduler Resourcen frei hätte.
Dann kannst du ja hier nachfragen:
http://blogs.amd.com/work/category/bulldozer/
bzw. bei dem hier (ist in verschiedenen Foren als JF-AMD unterwegs):
http://blogs.amd.com/work/author/jfruehe/
Glaub mir, er hat es vereinfacht. K10 hat def. 6 Ports für Int-Ops. Sehr konstruierte Befehlssequenzen können diese wohl auch ausnutzen.
Es stallt wenn dann das ALU/AGU-Paar und nicht der Scheduler. Davon ab ist das nichts ungewöhnliches, welche CPU kann denn Einträge aus der Schedulertabelle in eine andere verschieben? Ich kenn keine ;)
Es sind 3 Ports zu den Intschedulern. (Arith+Adress-Op wird nicht in den Decodern aufgeteilt, daher egal ob 3 oder 6).
JF hat vor allem auch den schlimmsten Fall angenommen und den dann auch noch stark vereinfacht.
welche CPU kann denn Einträge aus der Schedulertabelle in eine andere verschieben? Ich kenn keine ;)
Die Intel-CPUs haben nur eine für alle Ports. Das ist der Punkt.
Leonidas
2010-08-25, 18:32:53
Das Problem ist nicht, das es BD nicht irgendwie hinbekommen könnte, mit einen augenscheinlich kleineren Ressorcen trotzdem was draus zu machen. Das Problem ist, daß man von BD erwartet hat, richtig dick oben drauf zu legen, weil AMD dies gegenüber Intel eigentlich benötigt - und genau das ist nicht geschehen.
Wobei dies wie gesagt nur für den Desktop-Bereich zutrifft. Im Serverbereich hat AMD die Möglichkeit, dies mit mehr Cores wieder auszugleichen. Faktisch dürfte AMD dort, wo Intel 8 Kerne + HT anbietet mit 8 Modulen á 16 Kernen ankommen und dort wo Intel 16 Kerne + HT anbietet, gleich mit 16 Modulen á 32 Kernen antreten - vom Siliziumaufwand her dürfte das nicht großartig unterschiedlich sein. Für den Server-Bereich ist die Architektur nahezu perfekt - für den Desktop mit seiner Gebundenheit an eine gewisse Kern-Anzahl ist sie nur mäßig.
Die Intel-CPUs haben nur eine für alle Ports. Das ist der Punkt.
Ja schon klar, dafür aber auch komplexer und Transistorintensiver (und so viel Leistung kostet das nicht), immerhin haben die Intels nur 3 Ports für alles, nicht ohne Grund ;)
@Leonidas
Naja ich seh da jetzt noch kein Problem, mehr IPC als K10 sind durchaus drinnen und solange wir nichts über die Taktraten wissen, kann man zur Desktopperformance eigentlich garnichts sagen.
und so viel Leistung kostet das nicht
Pi-Mal-Daumen lässt sich das kaum einschätzen. Ich würde mich da nicht zu weit aus dem Fenster lehnen.
immerhin haben die Intels nur 3 Ports für alles, nicht ohne Grund ;)
Fünf Sechs.
Das Problem ist nicht, das es BD nicht irgendwie hinbekommen könnte, mit einen augenscheinlich kleineren Ressorcen trotzdem was draus zu machen. Das Problem ist, daß man von BD erwartet hat, richtig dick oben drauf zu legen, weil AMD dies gegenüber Intel eigentlich benötigt - und genau das ist nicht geschehen.
Und dein Problem ist, dass du Anhand der Einheitenanzahl irgendwas über die Leistungsfähigkeit sagen willst. Das ist schon seit dem ersten Pentium nicht mehr möglich.
Die reine Execution-Leistung war garantiert nicht K10s Problem. Zwei Int-ALUs + zwei AGUs an jeweils exklusiven Ports sind reichlich Ausführungsresourcen für Bulldozer wenn man ein großes gemeinsames Instruction-Window hat. Zur Erinnerung, die Durchschnitts-IPC-Rate bei K8 war so bei ~1.
Hier sinnlos drei oder vier ALUs zu verbauen würde wahrscheinlich nichtmal 5% mehr Leistung bringen bei wesentlich höherem Stromverbrauch.
Intel verbaut seit Conroe wohl hauptsächlich auch deshalb eine dritte ALU an einem 6. Port, da die anderen beiden von FPU-Code blockiert werden können. Das Problem hat Bulldozer überhaupt nicht (und auch K10 nicht btw.).
Gipsel
2010-08-25, 19:35:41
Fünf.Sechs. Intel fängt bei 0 an zu zählen ;)
Führ mich doch nicht so vor :usad:
Das Problem ist, daß man von BD erwartet hat, richtig dick oben drauf zu legen, weil AMD dies gegenüber Intel eigentlich benötigt - und genau das ist nicht geschehen.
Naja ... weder IPC noch Taktraten sind bekannt, also da würde ich mich mit frühzeitigen Leistungseinordnungen zurückhalten ;-)
Zur 2,3,4-way Diskussion:
Bulldozer's clustered multiprocessor architecture
I've always interpreted AMD's clustered multiprocessing, which they
claimed as adding 80% performance with 50% extra transistor, as
something like the following:
A 2-way superscalar processor can reach 80%-100% of the performance
of a 3-way for lots of applications. Only a subset of programs really
benefits from going to a 3-way. A still smaller subset benefits from going
to a 4-way superscalar.
Now, if you still want to have the bennefits of a 4-way core but also
want to have the much higher efficiency of the 2-way cores then you
can do as follows:
Design a 4-way processor which has a pipeline which can be split
up into two independent 2-way pipes. In this case both threads have
there own set of resources without interfering with each other.
Part of the pipeline would not be split. Wide instruction decoding would
be alternating for both threads.
The split would be beneficial however for the integer units and the
read/write access units to the L1 data cache. The total 4-way core
could have more read/write ports which should certainly improve
IPC for a substantial subset.
The 128 bit SSE/FP units could be modified partly in connection
with the read/write ports. There was some improvement but not
that much when AMD almost doubled the SSE2/FP hardware going
from 64 bit units in K8 to 128 bit units in the K10.
There is lots of efficiency to be gained by using two K8 like SSE/FP
which can operate independently in 2-way mode and which can operate
together as a single 128 bit unit in 4-way mode. Other similar tricks
can be beneficial as well.
Part of the higher IPC of Itanium is due to it's multiple read write
ports to cache and it's 64bit FP units which can work independently
instead of in a "dumb" 2x64 way mode. The two independent FP units
of the Itanium can be fed directly from cache due to all these read
ports (and they can write directly to cache as well)
Something like this is what you would gain in the 4-way mode while
the 2-way modes bring the efficiency in throughput computing.
Regards, Hans
http://aceshardware.freeforums.org/post10678.html#p10678
ciao
Alex
Savay
2010-08-25, 20:07:08
naja das ist ja im grunde genau das was mir auch als erstes in den sinn gekommen ist als ich mir das teil angesehen habe...allerdings soll das ja im falle des BD wohl "nicht ohne weiteres funktionieren" ;)
ist die frage ob die idee jetzt wirklich grundsätzlich falsch ist oder ob es nicht teilweise doch irgendwie möglich ist...
Pi-Mal-Daumen lässt sich das kaum einschätzen. Ich würde mich da nicht zu weit aus dem Fenster lehnen.
Ein wenig kann ich mich da schon aus dem Fenster lehnen, ist ja auch nicht allzu weit. Die Tables sind nicht allzu lange und im Normalfall, versucht man voneinander abhängige Instruktionen auf der gleichen ALU auszuführen, um mal zwie Beispiele zu nennen, die das gnaze etwas entschärfen.
Fünf Sechs.
Wenigstens hab nicht nur ich mich vertan, allerdings hätte mir das auffallen müssen, drei sind dann ja doch "etwas" wenig :freak:
Thunder99
2010-08-25, 20:43:33
Bin sehr gespannt wie sie den Bulldozer vermarkten werden...
Quadcore mit 4 Kerne ergo 2 Module
oder
Quadcore mit 4 Module entspricht 4Kerne im alten Sinne, was aber in echt 8 Kerne sind
Die erstere Variante wäre sehr Kundenunfreundlich... :(
Der_Korken
2010-08-25, 20:49:02
Die erstere Variante wäre sehr Kundenunfreundlich... :(
Ansichtssache. Wenn BD-Modul so schnell, wie 2 K10-Kerne ist, dann ist das in Ordnung, auch wenn der zweite Integer-Core nur 80% (oder 60%) Mehrleistung bringt.
Wenn BD-Modul so schnell, wie 2 K10-Kerne ist, dann ist das in Ordnung, auch wenn der zweite Integer-Core nur 80% (oder 60%) Mehrleistung bringt.
hast du was falsches getrunken?
du behauptest 1 Modul ist nur so stark wie 2x K10 Cores
das geht garnicht AMD entwickelt doch nicht Jahrelang ein Design um später mit einem i5-750 mit 4 Threads zu konkurrien...
erstmal überlegen was du schreibst
naja das ist ja im grunde genau das was mir auch als erstes in den sinn gekommen ist als ich mir das teil angesehen habe...allerdings soll das ja im falle des BD wohl "nicht ohne weiteres funktionieren" ;)
ist die frage ob die idee jetzt wirklich grundsätzlich falsch ist oder ob es nicht teilweise doch irgendwie möglich ist...
Ne, also die 2 BD Kerne können nicht an einem Thread arbeiten, das hat JF schon mal auf amdzone strikt verneint.
Ich hab das Ganze eigentlich nur wg. des Fett gedruckten zitiert ;-)
ciao
Alex
Only a subset of programs really benefits from going to a 3-way. A still smaller subset benefits from going to a 4-way superscalar.
Sag ich doch ;)
Ein wenig kann ich mich da schon aus dem Fenster lehnen, ist ja auch nicht allzu weit. Die Tables sind nicht allzu lange und im Normalfall, versucht man voneinander abhängige Instruktionen auf der gleichen ALU auszuführen, um mal zwie Beispiele zu nennen, die das gnaze etwas entschärfen.
Ich bin da rein vom Gefühl trotzdem etwas anderer Meinung, aber vielleicht täuscht mich das.
Allerdings weiß man ja auch nicht genau was AMD da macht. Ich würde gerne mal wissen wie überhaupt an die drei Int-Scheduler verteilt wird. Immer an den mit dem leersten Window?
"Dresdenboy" hört sich da ähnlich an:
They caused a lot of discussion, e.g. if per core IPC goes up with less integer units or if BD desktop CPUs will fit into AM3 sockets (although AMD's roadmap listed "AM3" under Zambezi). There is a lot to say and I'll add to some of these discussions soon. Keep in mind, that some seemingly unchanged details (compared to family 10h cores) in the architecture actually changed, which could mean a lot to IPC. For example the integer scheduler became a unified scheduler. So instructions are no more bound to a certain ALU/AGU but can be send to any unit if it is available. Well, more on that later.
dieses Jahr wird es keine Leistungsdaten zu BD geben, es bringt alles nichts, ihr seit reingefallen, jetzt kommando zurück zu 2+2
Der_Korken
2010-08-26, 02:25:42
hast du was falsches getrunken?
du behauptest 1 Modul ist nur so stark wie 2x K10 Cores
das geht garnicht AMD entwickelt doch nicht Jahrelang ein Design um später mit einem i5-750 mit 4 Threads zu konkurrien...
erstmal überlegen was du schreibst
Was ist denn daran unüberlegt? Wenn man davon ausgeht, dass sich die IPC etwas erhöht hat und dann ein Modul einen zweiten Thread um die genannten 80% beschleunigt, dann entspricht das grob der Leistung von 2 vollwertigen K10-Kernen. Der Trick an der Sache ist aber, dass das Design wenig Platz brauchen soll und problemlos 4 Module unterzubringen sind. Ergo gute 100% Mehrleistung gegenüber einem X4.
Sag ich doch ;)
Das wirst du noch sehr oft sagen müssen, kann mich da noch an die Diskussionen um Core 2 erinnern, wo ja viele meinten, dass die Leistungssteigerung dem vierten Scheduler zu verdanken wär, bzw waren alle von "4-wide isue" überzeugt. ;D
Allerdings weiß man ja auch nicht genau was AMD da macht. Ich würde gerne mal wissen wie überhaupt an die drei Int-Scheduler verteilt wird. Immer an den mit dem leersten Window?
Der Reihe nach, sofern die betreffende Instruktion von allen ALUs unterstützt wird.
PatkIllA
2010-08-26, 18:54:49
dieses Jahr wird es keine Leistungsdaten zu BD geben, es bringt alles nichts, ihr seit reingefallen, jetzt kommando zurück zu 2+2
Gibt es denn jetzt (begründete) Annahmen zum Erscheinungsdatum? Zumindest Quartal?
Ronny145
2010-08-26, 20:14:05
Zambesi inkompatibel zu AM3 (http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?id=1282840508)
Die endgültige Bestätigung. So manch AMD Fan wird erstmal zu schlucken haben. Sicherlich für einige AM3 Besitzer ärgerlich, aber so kann man einen Neuanfang starten. Bulldozer entweder mit voller Leistung und Features oder gar nicht. Das wäre nämlich laut Begründung mit AM3 gar nicht anders möglich, kann natürlich auch eine politische Entscheidung sein.
DarkFox
2010-08-26, 20:17:24
Was für technische Gründe gibt es denn überhaupt für die Sockelwechsel?
Mehr Pins für mehr Saft ist klar, aber solange Speichercontroller etc. grundsätzlich gleich bleiben, fällt mir nichts sein. Einen Kunden haben sie auf jeden mal schon verloren...
w0mbat@Gast
2010-08-26, 20:17:43
schade, ich bin eigentlich (vor allem durch die folien) davon ausgegangen, dass ich in 1 1/2 jahren einfach eine bd auf mein mobo pflanzen kann.
mmn kein guter schritt.
Zambesi inkompatibel zu AM3
Die endgültige Bestätigung. So manch AMD Fan wird erstmal zu schlucken haben. Sicherlich für einige AM3 Besitzer ärgerlich, aber so kann man einen Neuanfang starten. Bulldozer entweder mit voller Leistung und Features oder gar nicht. Das wäre nämlich laut Begründung mit AM3 gar nicht anders möglich, kann natürlich auch eine politische Entscheidung sein.
Das schlimmste ist IMHO das sie damit 3 CPU Reihen (Bulldozer; 2x Llano, Bobcat) haben und dafür anscheinend 2 neue(!) Sockel brauchen (Hudson-Chipset; AM3+ Chipset). Vor allem bei den beiden Desktop-Systemen Llano und BD ist das sehr ärgerlich. Das gibt bestimmt Probleme für AMD und die Kunden.
BlackBirdSR
2010-08-26, 20:31:27
Stokes von Arstechnica hat IMO eine der bis dato besten Einschätzungen von Bulldozer geliefert.
Deckt sich auch mit dem, was andere hier schon als Argument vorbringen. Bulldozer ist weniger "neu" als AMD gerne erzählt. Auch werden einige Zahlen "80% vs. 30%" ins richtige Licht gerückt und Stokes ist der Erste den ich lese, der den zusätzlichen Verbrauch von zusätzlichen Integer-Resourcen anspricht.
robbitop
2010-08-26, 21:19:29
Was hat dieser Stokes denn erzählt? Kannst du ihn zitieren oder inhaltlich wiedergeben?
Wo sieht man denn die Verwandschaft zum K8/10?
BlackBirdSR
2010-08-26, 21:21:32
Also er sagt.... http://arstechnica.com/business/news/2010/08/evolution-not-revolution-a-look-at-amds-bulldozer.ars
robbitop
2010-08-26, 21:51:18
Hm - insgesamt sehr zustimmungswürdig. Bulldozer wird Sandybridge sicher nicht so wegfegen, wie der K8 damals den P4. Dazu ist Intel zu stark aufgestellt. IMO sollte BD aber wenigstens mal wieder auf gleiche Höhe kommen.
Fetza
2010-08-26, 22:07:25
Hm - insgesamt sehr zustimmungswürdig. Bulldozer wird Sandybridge sicher nicht so wegfegen, wie der K8 damals den P4. Dazu ist Intel zu stark aufgestellt. IMO sollte BD aber wenigstens mal wieder auf gleiche Höhe kommen.
Gibts denn überhaupt eine chance dafür, das amd mit bulldozer sandybridge in der performance überbieten können wird?
robbitop
2010-08-26, 22:09:22
Das wird dir niemand sagen können. Ich vermute, dass die beiden sich nicht so viel nehmen werden.
Interessant wird sein, ob sich diese Sache mit dem hohen Takt bestätigen wird und Bulldozer auf deutlich über 4GHz läuft. Dann sollte er entsprechende Chancen besitzen.
Auf jeden Fall sollte AMD aber im Zeitplan bleiben, denn gegen Ende 2011 könnte schon Ivy Bridge @ 22nm bereitstehen.
4 Bulldozer Module vs. 4 SB Cores inkl. SMT ;)
Hm - insgesamt sehr zustimmungswürdig. Bulldozer wird Sandybridge sicher nicht so wegfegen, wie der K8 damals den P4. Dazu ist Intel zu stark aufgestellt. IMO sollte BD aber wenigstens mal wieder auf gleiche Höhe kommen.
Also sorry aber das ist doch sehr sehr subjektiv. Der P4 war damals genau so konkurrenzlos, AMD hatte keine Chance. Niemand hätte damit gerechnet das AMD beim K8 auf einmal an die 50% mehr IPC herzaubert.
Zudem war der K8 zu beginn auch eher gleich auf, erst mit dem Dual-Core und dem Problem das Intel mit den Taktraten nicht mehr hoch konnte dominierte der K8.
eben ein P4 in 32nm wäre heute schneller als ein AMD K8L @45nm.
Zudem war der K8 zu beginn auch eher gleich auf, erst mit dem Dual-Core und dem Problem das Intel mit den Taktraten nicht mehr hoch konnte dominierte der K8.
Das kam nicht erst mit den Dual-Cores. Da täuscht dich deine Erinnerung. FX-53 usw.
Thunder99
2010-08-26, 22:57:49
Was für technische Gründe gibt es denn überhaupt für die Sockelwechsel?
Mehr Pins für mehr Saft ist klar, aber solange Speichercontroller etc. grundsätzlich gleich bleiben, fällt mir nichts sein. Einen Kunden haben sie auf jeden mal schon verloren...
Schon mal an die elektrische Verdrahtung gedacht? Warum wohl hat Intel so oft neue Mobos / Chips gebraucht? ;)
Mechanisch langen die Kontakte, das wars dann auch schon...
Das kam nicht erst mit den Dual-Cores. Da täuscht dich deine Erinnerung. FX-53 usw.
Den Eindruck des Gastes teile ich aber auch. Vor allem mit Intels damaliger Nebelbombe zum Launch des A64 gab es schon einen Dämpfer für AMD.
Gestrandet
2010-08-26, 23:02:46
Über kurz oder lang wird x86 eh den Gang alles Irdischen gehen und wir werden alle ARMs in unseren Rechnern haben. ARM verdrängt x86 "without even trying", in den Facebook-Servern fängt es an. Wenn Rattner fabuliert, Medfield würde mit ARM in Sachen Effizienz gleichziehen, liegt das zwar in schöner alter Intel-FUD-Tradition, aber wird genauso zur Peinlichkeit werden wie das Larrabeedesaster. x86 wird sich allenfalls in Hybridlösungen halten können.
DarkFox
2010-08-26, 23:04:48
Schon mal an die elektrische Verdrahtung gedacht? Warum wohl hat Intel so oft neue Mobos / Chips gebraucht? ;)
Mechanisch langen die Kontakte, das wars dann auch schon...
Naja, bei sowas ist es wohl immer schwierig zu sagen, ob man es nicht auch mit der bisherigen Verdrahtung geschafft hätte. Vll. wollen sie auch Inkompatibilitäten mit alten Mobos und schlechten BIOSen aus dem Weg gehen.
VooDoo7mx
2010-08-26, 23:08:56
Über kurz oder lang wird x86 eh den Gang alles Irdischen gehen und wir werden alle ARMs in unseren Rechnern haben. ARM verdrängt x86 "without even trying", in den Facebook-Servern fängt es an. Wenn Rattner fabuliert, Medfield würde mit ARM in Sachen Effizienz gleichziehen, liegt das zwar in schöner alter Intel-FUD-Tradition, aber wird genauso zur Peinlichkeit werden wie das Larrabeedesaster. x86 wird sich allenfalls in Hybridlösungen halten können.
Was nimmst du für Drogen?
Undertaker
2010-08-26, 23:09:02
Dominiert hat der K8 in genau zwei Punkten: Energieeffizienz und Spieleleistung. In Anwendungen war der P4 eigentlich immer konkurrenzfähig, egal ob zu Single- oder Dualcorezeiten.
Bulldozer wäre für AMD ein riesiger Erfolg, wenn er gegen Sandy Bridge so gut dastünde wie der P4 gegen den K8: Im Mittel schlimmstenfalls 5% zurück. Damit könnte man locker den Preisbereich bis 500€ und womöglich sogar darüber abdecken, die Produkte weiter aggressiv am Markt platzieren, ohne dabei aber in einen ruinösen Preiskampf zu verfallen. Alles darüber ist dann das Sahnehäubchen. ;)
Gestrandet
2010-08-26, 23:14:53
Was nimmst du für Drogen?
Mach dich vlt. mal ein bisschen schlau über diverse ISAs, dann können wir weiterreden.
Savay
2010-08-26, 23:34:03
ARM ist im embedded und mobile sektor stark...das hat aber ganz spezifische gründe. daraus ableiten zu wollen es würde x86 auf mittlere sicht komplett ablösen ist etwas...weit vorraus gegriffen.
was bei ARM vorallem fehlt sind wirklich leistungsfähige plattformen auf dem level eines i7...und die stampft man schlicht nichtmal eben so aus dem boden! :)
x86 profitiert einfach auch von seiner großen akzeptanz im "servermarkt" und "workstation-markt"...sollte ARM das jemals knacken, können wir nochmal drüber reden ob es als ablöse für x86 taugt oder nicht. ;)
noch dazu unterscheiden sich die CPUs mittlerweile ja eh im wesentlich nur noch im decoder...ob der im falle von x86 nun etwas größer ausfällt ist bei heutigen durchgängigen RISC designs ist nahezu irrelevant zumal man vorallem anwendungsseitig bei x86 die vorteile der CISC architektur hat.
Stokes von Arstechnica hat IMO eine der bis dato besten Einschätzungen von Bulldozer geliefert.
Deckt sich auch mit dem, was andere hier schon als Argument vorbringen. Bulldozer ist weniger "neu" als AMD gerne erzählt. Auch werden einige Zahlen "80% vs. 30%" ins richtige Licht gerückt und Stokes ist der Erste den ich lese, der den zusätzlichen Verbrauch von zusätzlichen Integer-Resourcen anspricht.
Also ich bin weniger überzeugt von dem Typen.
a) Behauptet er, dass AMDs Annahme, dass ein SMT core mit 2Threads ungefähr 1,3 "echten Kernen" entsprechen würde zu niedrig wäre und behauptet im nächsten Satz, dass er "gehört habe" dass es eher maximal 1,7x real cores wären :eek: Bitte woher ?? Quelle gibts dazu keine an.
b) Redet er über die angeblichen "teuren", stromsaugenden INT Units, verschweigt aber
b1) Das stromsparende, neuen PRF Register Design
b2) Das es pro Core 1xAGU/ALU weniger gibt. Insgesamt pro Module also nur 1xAGU/AGU mehr.
Zusammengenommen behaupte ich jetzt mal frech, dass die PRF Register den Mehrverbrauch der einen poplige ALU/AGU locker wettmachen. Quelle bleibe ich dem Qualitätsstandard des Artikels folgend, ebenfalls schuldig :biggrin:
Das Ende ist dann lustig ... anfangs puscht er Intel von 1,3 auf 1,7 hoch und unten redet er dann AMD schlecht und glaubt eher an 1,5 Kerne anstatt der recht "optimistischen" AMD Angabe von 1,8 Kerne. Quelle natürlich wieder keine. Wobei er in dem Fall entschuldigt ist, da er ja keinen Bulldozer im PC hat.
Also alles in allem finde ich den Artikel eher schlecht. Ausser Hörensagen und Glaskugelprognosen ist da nicht viel zu holen.
Alex
BlackBirdSR
2010-08-27, 00:18:36
Also ich bin weniger überzeugt von dem Typen.
Also alles in allem finde ich den Artikel eher schlecht. Ausser Hörensagen und Glaskugelprognosen ist da nicht viel zu holen.
Alex
:uidea:
Wie gut, dass ich den "Typen" besser kenne!
neustadt
2010-08-27, 00:38:01
Die ARM-Facebook story ist übrigens Quatsch
Jonathan Heiliger (http://www.google.de/search?q=Jonathan+Heiliger) August 24, 2010, 11:37:
This story is completely false. Facebook continuously evaluates and helps develop new technologies we believe will improve the performance, efficiency or reliability of our infrastructure. However, we have no plans to deploy ARM servers in our Prineville, Oregon data center.
http://www.semiaccurate.com/2010/08/23/facebook-first-jump-arm-servers/#comments
Wie gut, dass ich den "Typen" besser kenne!
Freut mich, dass Du nen breiten Freundeskreis hast, aber könntest Du auch was zur Sache beitragen ? Gerne auch mit Bezug auf meine Punkte ...
Danke
Alex
Lawmachine79
2010-08-27, 00:56:58
Dominiert hat der K8 in genau zwei Punkten: Energieeffizienz und Spieleleistung. In Anwendungen war der P4 eigentlich immer konkurrenzfähig, egal ob zu Single- oder Dualcorezeiten.
Ich lache mich tot, der P4 war wegen Intels Namen konkurrenzfähig. So ein Produkt hätte AMD in den Ruin getrieben. Der K8 hat den Boden mit dem P4 gewischt:
http://www.hardwareanalysis.com/content/article/1787/
Bei Spielen war die IPC knapp doppelt so hoch. Der P4 konnte nur in Anwendungen mithalten, die eigens für ihn optimiert waren. Und selbst da hat er verloren. Und beim Preis war Intel auch nicht konkurrenzfähig.
Der Pentium 4 war so übel nun auch wieder nicht. Die Architektur war zwar scheiße, aber leistungsmäßig hat AMD den P4 nicht annähernd so gerockt wie der i7 sämtliche Phenoms seit 2008 rockt:
2006: http://www.computerbase.de/artikel/prozessoren/2006/test_intel_pentium_extreme_edition_965/19/#abschnitt_performancerating
Performancerating: Gesamt:
schnellster Intel genau so schnell wie schnellster AMD.
2010: http://www.computerbase.de/artikel/prozessoren/2010/test_intel_core_i5-760/29/#abschnitt_performancerating
Performancerating: Gesamt (mit Anwendungen und Spielen in geringer Auflösung):
schnellster Intel 43 % (!) schneller als schnellster AMD.
;)
Leonidas
2010-08-27, 06:46:23
Also ich bin weniger überzeugt von dem Typen.
a) Behauptet er, dass AMDs Annahme, dass ein SMT core mit 2Threads ungefähr 1,3 "echten Kernen" entsprechen würde zu niedrig wäre und behauptet im nächsten Satz, dass er "gehört habe" dass es eher maximal 1,7x real cores wären :eek: Bitte woher ?? Quelle gibts dazu keine an.
b) Redet er über die angeblichen "teuren", stromsaugenden INT Units, verschweigt aber
b1) Das stromsparende, neuen PRF Register Design
b2) Das es pro Core 1xAGU/ALU weniger gibt. Insgesamt pro Module also nur 1xAGU/AGU mehr.
Zusammengenommen behaupte ich jetzt mal frech, dass die PRF Register den Mehrverbrauch der einen poplige ALU/AGU locker wettmachen. Quelle bleibe ich dem Qualitätsstandard des Artikels folgend, ebenfalls schuldig :biggrin:
Tja, das sind auch meine Bedenken. Aber: Wenn man 80% mehr Performance durch den zweiten Teilkern rausholt bei 12% mehr Transistoren - dann ergibt das in jedem Fall mehr als 12% meh Verlustleistung. Irgendwo muß es schließlich herkommen. Derzeit ist nur das Feld der Spekulationen von 12% bis 80% zu groß, um da irgendwas sinnvolles sagen zu können.
Inqui
2010-08-27, 07:39:40
kann man damit rechnen, dass Bulldozer seinen Weg in High End Laptops findet?
Mit nem energieeffizienten "Quadcore" könnte sich AMD hier gut positionieren. (auch Marketingtechnisch leicht zu vermarkten)
Leonidas
2010-08-27, 08:14:15
AMD erwähnt explizit HighEnd-Netbooks bei Bulldozer.
Läßt sich die nachfolgende Tabelle eventuell noch vervollständigen? Fehlend sind insbesondere Angaben zu den Cache-Wegen/Bandbreiten:
(alles pro Kern)
Reihenfolge:
1. K10
2. Bulldozer
3. Core 2
4. Nehalem
Pipeline
12 Stufen
?
14 Stufen
16 Stufen
Dekoder
bis zu 3 Ops
für zwei Kerne: bis zu 8 Ops
bis zu 5 Ops
bis zu 5 Ops
Integer
3x ALU, 3x L/S
2x ALU, 2x L/S
3x ALU, 2x L/S
3x ALU, 2x L/S
Fließkomma
3x FPU
für zwei Kerne: 2x FPU
2x FPU
2x FPU
FPU-Bandbreite
128 Bit
128 Bit
128 Bit
128 Bit
L1 Instr.-Cache
64 kB, 2fach assoziativ
für zwei Kerne: 64 kB
32 kB, 16fach assoziativ, 256 Bit Bandbreite
32 kB, 8fach assoziativ
L1 Daten-Cache
64 kB, 2fach assoziativ, 128 Bit Bandbreite
16 kB
32 kB
32 kB
L2-Cache
512 kB, 16fach assoziativ
für zwei Kerne: 2 MB, 16fach assoziativ
für zwei Kerne: 6 MB, 12fach assoziativ, 256 Bit Bandbreite
256 kB
L3-Cache
für vier Kerne: 6 MB, 48fach assoziativ
?
keiner
für vier Kerne: 8 MB
Undertaker
2010-08-27, 08:27:52
Ich lache mich tot, der P4 war wegen Intels Namen konkurrenzfähig. So ein Produkt hätte AMD in den Ruin getrieben. Der K8 hat den Boden mit dem P4 gewischt:
http://www.hardwareanalysis.com/content/article/1787/
Bei Spielen war die IPC knapp doppelt so hoch. Der P4 konnte nur in Anwendungen mithalten, die eigens für ihn optimiert waren. Und selbst da hat er verloren. Und beim Preis war Intel auch nicht konkurrenzfähig.
Ich habe keine Spekulationen betrieben, warum der P4 zumindest in Anwendungen absolut konkurrenzfähig, teilweise sogar überlegen war - das wird dem Kunden auch reichlich egal sein. Das er in Spielen versagt hat, habe ich auch erwähnt. Die Energieeffizienz darfst du auch nicht vergessen. ;)
Nur: Die aktuelle Dominanz der Core-Serie spielt auf einem ganz anderen Level: Gleiche Überlegenheit in Spielen, dazu aber auch noch das gleiche Bild in Anwendungen - Intel lässt es sich auch entsprechend fürstlich bezahlen.
Wenn AMD heute den P4 hätte und Intel den K8 stünden sie sicherlich nicht schlechter da, als mit dem K10.5 gegen die Core i Reihe, ganz im Gegenteil. Der Gast in #701 hat eigentlich schon alles gesagt und verlinkt, lies dir doch mal den Test von 2006 (oder einen der vielen anderen P4 Tests von CB) durch. Durch den übermächtigen Core 2 Nachfolger haben viele den P4 noch schlechter in Erinnerung, als er ohnehin schon war. ;)
also bei SSE hat der P4 gerockt.
Gestrandet
2010-08-27, 08:55:51
Die ARM-Facebook story ist übrigens Quatsch
http://www.semiaccurate.com/2010/08/23/facebook-first-jump-arm-servers/#comments
... da traf der Intel SR mit dem Geldkoffer doch noch rechtzeitig ein :D
Ich glaube ehrlich gesagt nicht einmal daran, dass Bulldozer an die aktuellen Nehalems rankommend wird. Es wäre schon eine große Leistung mit dem i7 gleichzuziehen. 6-Core vs. 6-Core dominiert der i7-980X den X6 1090T mit 35 % Vorsprung in Anwendungen und 53 % in Spielen laut CB. Wie soll Bulldozer das mal eben so einholen?
Hier auch nochmal der Vergleich bei Anandtech: http://www.anandtech.com/bench/Product/142?vs=146
Tja, das sind auch meine Bedenken. Aber: Wenn man 80% mehr Performance durch den zweiten Teilkern rausholt bei 12% mehr Transistoren - dann ergibt das in jedem Fall mehr als 12% meh Verlustleistung. Irgendwo muß es schließlich herkommen.
Bevors zu Mißverständnissen kommt:
Es geht um 12% mehr Transistoren gegenüber eines hypotetischen single-core Bulldozer Prozessors im gleichen GF hK ULK 32nm Prozess.
Das stimmt - aber wieviel ist das in absoluten Zahlen ? Nachdem man von Bulldozers Stromverbrauchscharakteristik nicht viel weiss, weiss man von so einem singlecore Teil noch weniger. Ohne Bezugspunkt kann man Prozentrechnen aber vergessen.
Ausserdem stellt sich die Frage, wie die ganze Rechnung für ein 4way SMT Design ausfallen würde - garantiert nicht besser ...
Dresdenboy hatte mal ein wissenschaftliches Paper verlinkt, indem in einem Simulator alle möglichen Konfigurationen eines Kerndesign durchprobiert wurden. War ziemlich flexibel. Wenn ich mich recht erinnere, dann war von 1 Kern 4way + SMT über 2x2way Kerne CMT mit/ohne SMT bis zu 4Kernen 1way CMP - alles dabei.
Effizienzsieger war 2x2CMT (ob mit/ohne SMT weiss ich nicht mehr), Argumente waren, dass das man das bisschen single-thread IPC Nachteil gegenüber dem 4way Design durch höheren Takt, der aufgrund des unkomplexeren Designs kein Problem wäre, wettmachen könne; plus die bessere Auslastung im 2Thread Betrieb. Für Letztere rührt AMD ja auch aktuell die Werbetrommel.
Derzeit ist nur das Feld der Spekulationen von 12% bis 80% zu groß, um da irgendwas sinnvolles sagen zu können.
Ja und ohne Bezugspunkt ist das alles eh arg sinnlos ... das einzige was interessiert ist die Leistung / Verbrauch im Vergleich zu Sandy Bridge und nicht im Vergleich zu nem theoretischen 1Kern Bulldozer ;-)
Zu Deiner Vergleichsliste:
Schau doch einfach bei DDboy:
http://www.planet3dnow.de/vbulletin/showthread.php?t=384394&garpg=23#content_start
Was ich im Moment bemängeln würde, wäre die BD FPU Bandbreite, das sind 256bit, nicht 128, da ein thread die volle Breite nutzen kann, und die 8 Ops beim Dekoder, das ist noch unbekannt. Schreib vorsichtshalber ersteinmal nur >4 ;-)
ciao
Alex
Ich lache mich tot, der P4 war wegen Intels Namen konkurrenzfähig. So ein Produkt hätte AMD in den Ruin getrieben. Der K8 hat den Boden mit dem P4 gewischt:
http://www.hardwareanalysis.com/content/article/1787/
Bei Spielen war die IPC knapp doppelt so hoch. Der P4 konnte nur in Anwendungen mithalten, die eigens für ihn optimiert waren. Und selbst da hat er verloren. Und beim Preis war Intel auch nicht konkurrenzfähig.
Nein, nicht wegen dem Namen, eine solche Preisgestaltung gepaart mit einer unterlegenen Leistung und Leistungsaufnahme gleicht der beste Name nicht aus. Er war deshalb konkurrenzfähig weil Intel ihrer Monopolstellung ausgenutzt hat und alle großen Vendors in Geiselhaft nahm. Dafür zahlte man AMD später auch lächerliche 1,25Mrd $ und müsste sich vor Kartellämter weltweit rechtfertigen und Strafe zahlen. Eigentlich eine unfassbare Sauerei das man so leicht davon kommt. Man wird es das nächste mal nicht anders machen.
Bei den GPUs kippen die Marktanteile wenn ein Hersteller mal etwas später dran ist sofort völlig, bei den CPUs kann AMD machen was sie wollen, über 25% Marktanteil werden sie nie kommen, denn alles andere kontrolliert Intel.
Ich glaube die Core-2- und Nehalem-Decoder können nur entweder vier simple oder eine komplexe Instruction dekodieren.
Edit: Es gibt wohl nur vier Ports nach unten. Wenn zwei + zwei simple Instructions per Macro-Op-Fusion zusammengefasst werden können, dann sind's mit einer komplexen dazu auch mal "fünf". Wobei bei komplexeren Microcode-Instructions wohl auch geloopt werden muss, also effektiv sogar weniger als vier pro Takt dekodiert werden können.
Schreib besser vier.
Ich glaube die Core-2- und Nehalem-Decoder können nur entweder vier simple oder eine komplexe Instruction dekodieren.
Die 5 passt schon, er zählt da nicht den Complex Decoder dazu, sondern CMP+JMP Fusion. Nachdem das aber nicht immer geht, sollte man vielleicht 4+1 schreiben, aber naja .. Geschmacksfrage.
Edit: das Edit kam zu spät ;-)
aylano
2010-08-27, 14:49:09
Tja, das sind auch meine Bedenken. Aber: Wenn man 80% mehr Performance durch den zweiten Teilkern rausholt bei 12% mehr Transistoren - dann ergibt das in jedem Fall mehr als 12% meh Verlustleistung. Irgendwo muß es schließlich herkommen. Derzeit ist nur das Feld der Spekulationen von 12% bis 80% zu groß, um da irgendwas sinnvolles sagen zu können.
Das interessante am zusätzlich 2. Integer-Kern mit nur +12% ist, dass er so wie beim 1. Integer-Core nur 12%-Modulfläche braucht.
Ein K10.5-Integer-Kern braucht ca. 35% der Core-Fläche
Zwar braucht der 2. Integer-Kern im Modul 12% mehr Transistoren, aber durch 2ALU statt 3-ALU beim Integer-Kern wird beim Bulldozer-Integer-Kern im Vergleich zum K10.5-Integer-Kern zuerst schon mal viel Strom eingespart, aber nur wenig Performance reduziert was genau das entscheidende ist.
Und dann sieht die Sache wieder anders aus.
Der 2.Integer-Kern braucht zwar realtiv gesehen zusätzliche 12% mehr Transistoren/Corefläche, aber realtiv bzw. absolut zum K10.5-Kern eben nicht, sondern wahrscheinlich erheblich weniger.
Ich glaube ehrlich gesagt nicht einmal daran, dass Bulldozer an die aktuellen Nehalems rankommend wird. Es wäre schon eine große Leistung mit dem i7 gleichzuziehen. 6-Core vs. 6-Core dominiert der i7-980X den X6 1090T mit 35 % Vorsprung in Anwendungen und 53 % in Spielen laut CB. Wie soll Bulldozer das mal eben so einholen?
Einen erheblichen Teil des Rückstandes könnte AMD mit Thuban schon alleine mit 32nm sowie High-K sowie Metal-Gates aufholen.
Da braucht man noch nicht einmal von der neuen Architektur reden. Und wenn neben der ganzen 32nm-High-K & Metal-Gates & Power-Gating (&Ultra-Low-K) auch noch effizienz-Verbesserungen in der Architektur gibt, dann wird es interessant.
Nakai
2010-08-27, 15:04:26
Bulldozer wird wohl erhebliche Takterhöhungen mit sich bringen, was eine niedrigere IPC ausgleichen könnte. Problematisch wird es, wenn man dies Takterhöhung nicht umsetzen kann. Siehe P4. ;)
Ebenso gehe ich von der Performanceannahme aus, wo ein 16 Kern Bulldozer etwa 50% schneller als ein 12Kern K10.5 ist, dass hier der Bulldozer wohl ähnlich oder niedriger getaktet ist wie der K10.5. Falls dieser "Vorsprung" nur durch Takterhöhung erreichbar war, dann wäre das nicht so toll.:(
Bulldozer-Kern = 1.125*K10.5-Kern
Ein Modul wäre aber nach dieser Aussage sogar mehr als doppelt so schnell wie ein K10.5-Kern.
Jedenfalls sollte Bulldozer ordentliche Takterhöhungen mit sich bringen, sonst bleibt Intel weiterhin so dominant.
mfg
wenn 4 BD module 50% schneller als Thuban sind, dann ist AMD zurück.
wenn 4 BD module 50% schneller als Thuban sind, dann ist AMD zurück.
ist das dein ernst?
....
Zwar braucht der 2. Integer-Kern im Modul 12% mehr Transistoren, aber durch 2ALU statt 3-ALU beim Integer-Kern wird beim Bulldozer-Integer-Kern im Vergleich zum K10.5-Integer-Kern zuerst schon mal viel Strom eingespart, aber nur wenig Performance reduziert was genau das entscheidende ist....
Ahjo!
Also, 2 anstatt 3 ALUs haben demnach die gleiche "Rechenpower" aber verbrauch deutlich weniger Strom. :rolleyes:
D.h. die derzeitige 3. ALU des K10.5 läuft:
- auf Anschlag, wenn sie derbe Strom verbrauchen soll
- so gut wie gar nicht, da es ja zu keinem Performanceverlust von 3 auf 2 kommt.
irgendwie widerspricht sich da etwas, oder aber der K10.5 ist ein verdammt ineffizientes Teil (was die ALUs betrifft)!
aylano
2010-08-27, 18:59:06
Ich zitiere mal
Die reine Execution-Leistung war garantiert nicht K10s Problem. Zwei Int-ALUs + zwei AGUs an jeweils exklusiven Ports sind reichlich Ausführungsresourcen für Bulldozer wenn man ein großes gemeinsames Instruction-Window hat. Zur Erinnerung, die Durchschnitts-IPC-Rate bei K8 war so bei ~1.
Hier sinnlos drei oder vier ALUs zu verbauen würde wahrscheinlich nichtmal 5% mehr Leistung bringen bei wesentlich höherem Stromverbrauch.
----
Grundsätzlich darf man nicht vergessen, dass zu den Architektur-Verbesserungen (Effizienz-Steigerungen durch eine bessere Fronted-Auslastung (shared-Unit) sowie eine Effizienz-Steigerung der Integer-Cores mit 2 statt 3 ALUs) nebenbei auch SSSE3 und SSE4.1 und SSE4.2 dazukommt, was ja Conroe (SSSE3) und Penryn (SSE4.1) und Nehalem (SSE4.2) auch etwas Performance brachte.
Und dazu wird ja High-K & Metal-Gates (Penryn), Power-Gating (Nehalem) eingeführt sowie 32nm (Westmere)
Einzige Ultra-Low-K und SOI hätte Intel nicht.
Also, wenn Bulldozer wie geplant klappt, dann sieht es gut aus.
Interessant ist auch, das Abschalten des 2.Integer-Cores
Also, das was abgeschalten werden kann, dann kauch beschleunigt werden.
Dann wäre nicht nur der 1. Integer-Core schneller, da er sich dann das Fronted & L2 & FPU nicht mehr mit dem 2. Integer-Core teilen müssen, sondern der erste Integer-Core könnte im Turbo-Modus noch extra beschleunigt werden, was AMD Acceleration-Modus könnte.
Oder auch nicht. (Abgesehen vom bisherigen Turbo-Modus, wo der ganze Kern übertaktet wird.)
AMD sagte ja, ihr Turbo-Modus wird dann besser sein.
Entweder eine Lüge oder es steckt doch was interessantes drinnen.
Dass Bulldozer im Multi-Threaded-Anwendungen in Sachen Performance-pro-Watt gut dastehen wird, habe ich weniger Zweifel. Die Frage ist, ob sie diese gute Performance-pro-Watt dann auch im hohem Performance-Level (Was in den letzten Jahren immer ein Problem von AMD war) und/oder in 1,2,4-Threads (mit einem guten Turbo-Modus) umsetzten kann.
Gipsel
2010-08-27, 20:29:02
Läßt sich die nachfolgende Tabelle eventuell noch vervollständigen? Fehlend sind insbesondere Angaben zu den Cache-Wegen/Bandbreiten:
Das ist teilweise etwas schwierig, daß so gegeneinanderzustellen, da man gewisse Besonderheiten noch dazuschreiben müßte.
Pipeline
12 Stufen
? >13 (13 ist die Pipelinelänge bei Bobcat)
14 Stufen
16 Stufen
Integer
3x ALU, 3x 2 L/S (3 AGU)
2x ALU, 2 AGU, 3(?) x L/S
3x ALU, 2x L/S
3x ALU, 2x L/S
Das würde ich so nicht stehenlassen, da ein K10 zwar 3 AGUs besitzt, aber nur 2 L/S pro Takt ausführen kann. Die 3 AGUs kann man z.B. mit LEA nutzen, die keinen L/S-Request produzieren. Ein K10 kann pro Takt 2x128 Bit lesen oder 1x128Bit lesen und 64Bit schreiben oder 2x64 Bit schreiben. Ein Core2 kann dagegen pro Takt genau 128Bit lesen und 128Bit schreiben, ein Nehalem genauso.
Zu Bulldozer gibt es ja die Information mit den 2 AGUs, aber auf den Folien stand auch, daß BD 2x128Bit loads sowie 1x128Bit store durchführen kann. Leider stand es nicht wirklich explizit da, aber nach der bisherigen Praxis zu urteilen, dürfte dazwischen ein "und" stehen, also im Prinzip maximal 3 L/S-Requests pro Takt drin sein (was in Anbetracht von AVX auch stimmig wäre). Wie das mit den nur 2 Adressen zusammenpaßt ist nicht wirklich klar, meine Idee wäre die Nutzung mit AVX und Konsorten, wo für jede Adresse dann zwei 128Bit L/S-Requests generiert werden (wie jetzt schon bei SSE-Stores, die bei K10 zwei 64Bit Schreib-Requests an die LSU auslösen).
Fließkomma Anzahl SIMD-Einheiten
2+1 (ADD, MUL, MISC)
für zwei Kerne: 2x FPU 2xFMA, 2xINT
2 (ADD, MUL) oder hatte Core2 auch schon die Möglichkeit shuffles parallel auszuführen?
2+1 (ADD, MUL, Shuffle)
SIMD-Breite
128 Bit
128 Bit
128 Bit
128 Bit
Das mit den SIMD-Einheiten ist ziemlich schwer zu vergleichen, da die bisherigen CPUs in einer Pipe nur Additionen, in der anderen nur Multiplikationen machen können (nur ein paar einfache Sachen gehen in beiden Pipes). BD wird zwei symmetrische FMA-Pipes besitzen, die also im Optimalfall das Doppelte an Rechenoperationen ausführen können und beide sowohl ADDs als auch MULs können. Werden z.B. nur Multiplikationen genutzt, hat die BD-SIMD-Einheit glatt die doppelte Leistung wie die vom K10 oder Nehalem. Außerdem sieht das im Diagramm so aus, als wenn die Integer-Befehle über separate Pipelines abgearbeitet werden, der Scheduler dort also auch 4 Ports hat.
Bei den Cache-Daten berichtige und ergänze ich mal nach bestem Wissen und Gewissen:
L1 Instr.-Cache
64 kB, 2fach assoziativ, 1x256Bit Port
für zwei Kerne: 64 kB 2fach assoziativ, wahrscheinlich 256Bit Bandbreite
32 kB, 16 8fach assoziativ, 256 128 Bit Bandbreite
32 kB, 8 4fach assoziativ, 128 Bit Bandbreite
L1 Daten-Cache
64 kB, 2fach assoziativ, 2x128 Bit Ports (2 Bänke, pseudo dual-ported)
16 kB, mindestens 2x128Bit Ports
32 kB, 8fach assoziativ, 2x128Bit Ports
32 kB, 8fach assoziativ, 2x128Bit Ports
L2-Cache
512 kB, 16fach assoziativ, exclusiv, 2x128Bit
für zwei Kerne: 2 MB, 16fach assoziativ
für zwei Kerne: 6 MB, 12 24fach assoziativ, 256 Bit Bandbreite
256 kB, 8fach assoziativ, 256Bit Bandbreite
L3-Cache
für vier Kerne: 6 MB, 48fach assoziativ
?, gemeinsam für komplettes Die
keiner
für vier Kerne: 8 MB, 16fach assoziativ
Ich zitiere mal
----
Grundsätzlich darf man nicht vergessen, dass zu den Architektur-Verbesserungen (Effizienz-Steigerungen durch eine bessere Fronted-Auslastung (shared-Unit) sowie eine Effizienz-Steigerung der Integer-Cores mit 2 statt 3 ALUs) nebenbei auch SSSE3 und SSE4.1 und SSE4.2 dazukommt, was ja Conroe (SSSE3) und Penryn (SSE4.1) und Nehalem (SSE4.2) auch etwas Performance brachte.
Und dazu wird ja High-K & Metal-Gates (Penryn), Power-Gating (Nehalem) eingeführt sowie 32nm (Westmere)
Einzige Ultra-Low-K und SOI hätte Intel nicht.
Also, wenn Bulldozer wie geplant klappt, dann sieht es gut aus.
Interessant ist auch, das Abschalten des 2.Integer-Cores
Also, das was abgeschalten werden kann, dann kauch beschleunigt werden.
Dann wäre nicht nur der 1. Integer-Core schneller, da er sich dann das Fronted & L2 & FPU nicht mehr mit dem 2. Integer-Core teilen müssen, sondern der erste Integer-Core könnte im Turbo-Modus noch extra beschleunigt werden, was AMD Acceleration-Modus könnte.
Oder auch nicht. (Abgesehen vom bisherigen Turbo-Modus, wo der ganze Kern übertaktet wird.)
AMD sagte ja, ihr Turbo-Modus wird dann besser sein.
Entweder eine Lüge oder es steckt doch was interessantes drinnen.
Dass Bulldozer im Multi-Threaded-Anwendungen in Sachen Performance-pro-Watt gut dastehen wird, habe ich weniger Zweifel. Die Frage ist, ob sie diese gute Performance-pro-Watt dann auch im hohem Performance-Level (Was in den letzten Jahren immer ein Problem von AMD war) und/oder in 1,2,4-Threads (mit einem guten Turbo-Modus) umsetzten kann.
Und was hat das mit meiner Frage zu tun? Ich beziehe mich nur auf die 3 bzw. 2 ALUs, und nicht auf Fertigung/SSEx und Co.
Nochmal, warum sollten 2 ALUs weniger Strom verbrauchen, wenn die 3. ALU so gut wie nie benutzt wurde aber trotzdem massig Strom verbrauchen?! Das widerspricht sich! Entweder sie wird benutzt und verbrauch dabei viel Strom, leistet aber auch dementsprechend viel, also mehr als 5% oder aber sie leistet nix und verbraucht auch nix weiter. Würde sie nix bringen aber dennoch viel verbrauchen, dann frage ich mich, warum AMD so einen scheiß macht?!
aylano
2010-08-27, 21:52:44
Und was hat das mit meiner Frage zu tun? Ich beziehe mich nur auf die 3 bzw. 2 ALUs, und nicht auf Fertigung/SSEx und Co.
Nochmal, warum sollten 2 ALUs weniger Strom verbrauchen, wenn die 3. ALU so gut wie nie benutzt wurde aber trotzdem massig Strom verbrauchen?! Das widerspricht sich! Entweder sie wird benutzt und verbrauch dabei viel Strom, leistet aber auch dementsprechend viel, also mehr als 5% oder aber sie leistet nix und verbraucht auch nix weiter. Würde sie nix bringen aber dennoch viel verbrauchen, dann frage ich mich, warum AMD so einen scheiß macht?!
Warum glaubst du, sind in den letzten Jahren so viele Stromspartechniken eingebaut, indem die ganzen Spannungen(/Stromverbrauch) gesenkt werden können.
Vorallem, das Power-Gating, wo sagte die ganze Spannung (& Takt) getrennt wird.
Das ist, weil wenn sie nichts tut, trotzdem viel Strom verbrauchen.
Wenn die ersten 2 Alus voll beschäftigt sein, aber der Dritte nicht, dann steht die 3. Alu trotzdem voll unter Spannung.
Bei der Sockel-Problematik, wäre AMD wohl anzuraten, dass sie dieses Jahr noch AM3+/AM3r2 verkaufen sollten. So könnte man wenigstens ein Thuban-System kaufen, mit der Perspektive auf ein Drop-In-Update Ende 2011.
ist es möglich das die IPC von Bulldozer im verglech zum Phenom über 100% steigt?
Gestrandet
2010-08-27, 23:53:17
Ja.
Der_Korken
2010-08-28, 00:34:48
ist es möglich das die IPC von Bulldozer im verglech zum Phenom über 100% steigt?
Um 100% oder über 100%? Ersteres ist Schwachsinn, denn dazu müsste es in den jetzigen CPUs gigantische Flaschenhälse geben und wenn die so enorm wären, hätte die schon längst einer der Hersteller angegangen. 100% mehr IPC hab ich noch nie erlebt, eventuell kommt P4 zu C2D dem nahe, aber selbst das waren afaik keine glatten 100%.
P4 -> C2D waren im Schnitt ca. 70 %, was die IPC angeht, aber das ist auch eine Ausnahmesituation gewesen, da man sich von der Netburst-Architektur verabschiedet hat, die per se auf hohe absolute Taktraten und keine hohe IPC ausgelegt war. Ein i7-4-Kerner hat einem Phenom II X4 ca. 20 - 30 % IPC voraus. Das dürfte so ziemlich das Optimum sein, was man theoretisch an Pro-MHz-Leistung rauskitzeln kann momentan, vielleicht noch 10 - 20 % mehr Leistungspotential, was Sandy Bridge uns zeigen könnte. Der Rest wird wohl über Taktrate, Cachegröße, Features wie SMT und vor allem Kernanzahl (8-Kerner, 12-Kerner etc.) gehen. Ich erwarte Bulldozers IPC auf Core i7-Niveau und Sandy Bridge etwa 10, 15 % drüber.
Warum glaubst du, sind in den letzten Jahren so viele Stromspartechniken eingebaut, indem die ganzen Spannungen(/Stromverbrauch) gesenkt werden können.
Vorallem, das Power-Gating, wo sagte die ganze Spannung (& Takt) getrennt wird.
Es können also einzelne ALUs abgeschaltet werden? Im K10.5 jedenfalls noch nicht. Oder verwechselst du ALUs mit Kerne, welche derzeit nur beim Nehalem abgeschaltet werden können.
Das ist, weil wenn sie nichts tut, trotzdem viel Strom verbrauchen.
Wenn die ersten 2 Alus voll beschäftigt sein, aber der Dritte nicht, dann steht die 3. Alu trotzdem voll unter Spannung. Nur weil etwas unter Spannung steht muss es noch lange nichts verbrauchen, solange kein Strom fließt ;)
BlackBirdSR
2010-08-28, 11:50:50
Nur weil etwas unter Spannung steht muss es noch lange nichts verbrauchen, solange kein Strom fließt ;)
der fließt aber zwangslaufig durch parasitaere effekte und leckstroeme. auch das taktsignal liegt munter an!
dann tun hier manche so als waere die 3. alu des k10 staendig voll aysgelastet und wollen damit geringeren verbrauch bei bd rechtfertigen. hier sind es aber eher 2x k10 was die auslastubg betreffen kann. das auch noch mit hohem takt. da waere ich vorsichtig! ueberhaupt sollten bei all diesen mix aus wahrheit und halbwahrheiten so einige etwas kuetzer treten. hier ist ja so viel wunschdenken zu lesen....
der fließt aber zwangslaufig durch parasitaere effekte und leckstroeme. auch das taktsignal liegt munter an!
Natürlich, aber dieser sollte bei nicht-Auslastung deutlich geringer sein, als bei voller Auslastung. Und letzteres wird wohl bei 5% Leistungs-Zuwachs kaum der Fall sein ;)
dann tun hier manche so als waere die 3. alu des k10 staendig voll aysgelastet und wollen damit geringeren verbrauch bei bd rechtfertigen. hier sind es aber eher 2x k10 was die auslastubg betreffen kann. das auch noch mit hohem takt. da waere ich vorsichtig! ueberhaupt sollten bei all diesen mix aus wahrheit und halbwahrheiten so einige etwas kuetzer treten. hier ist ja so viel wunschdenken zu lesen....
Deswegen meine Fragen zu Aylanos widersprüchlichen Aussagen.
....ueberhaupt sollten bei all diesen mix aus wahrheit und halbwahrheiten so einige etwas kuetzer treten. hier ist ja so viel wunschdenken zu lesen....
Stimmt!
Es gibt zwar einige Möglichkeiten, die Effizienz einer CPU massiv zu steigern, aber ob AMD die alle oder zumindest einen Teil davon im Bulldozer umgesetzt hat ist völlig offen.
Wer mal ein paar der Möglichkeiten nachlesen will, hier ist ein schon etwas älterer Link zu IMHO guten Infos:
http://impact.crhc.illinois.edu/ece512/index.html
+
http://impact.crhc.illinois.edu/ece512/presentations05/index.html
hier sind es aber eher 2x k10 was die auslastubg betreffen kann.
Äh bitte genauer ... wie meinst Du das ?
Vergleichst Du gerade K10 Pipelines in 45nm mit BD Pipelines in 32nm mit hK und ULK ?
Da schließe ich mich Deiner Meinung an:
da waere ich vorsichtig!
Überhaupt ist die Diskussion doch eh ziemlich sinnlos. Eine 3te Pipeline die einem BD Core fehlt, verbraucht garantiert nichts, nichtmal Leckströme und Takt liegt auch nicht an :freak:
Ja, die 2 neuen Pipelines des 2ten Cores verbrauchen dann gut Strom, aber dafür läuft da auch ein 2ter Thread, soll heißen, der Strom der da verbraucht wird, schlägt auch direkt auf die Leistung durch und versickert nicht ungenutzt im Substrat.
Also wozu die ganze Aufregung ? Ein QuadCore verbraucht auch mehr als ein Dualcore, das hat bisher noch niemanden gestört ... und jetzt soll es auf einmal das große Problem sein ?
Sandy Bridge bekommt eine doppelt getaktete 128bit FPU, mit dann ~7 Ghz, das stört genausowenig wie AMDs gemeinsam benützte 256bit FMAC FPU ( die braucht ganz sicher auch mehr Strom als eine K10 FPU) :)
Das ist schlicht Business as usual. Es gibt nen kleinerer Prozess, deshalb bekommen die Designer einen Nachschlag im Transistoren und Stromverbrauchsbudget, deswegen wird der Kern logischerweise größer. War schon immer so und wird auch so bleiben.
hier ist ja so viel wunschdenken zu lesen....
Jo, das ist wie immer, die einen sind optimistisch, die anderen pessimistisch, die Realität liegt üblicherweise dazwischen.
Weder baut AMD einen stromsaugenden P4 Revival Chip, noch wird der Bulldozer die Sandbrücke zum Einsturz bringen.
ciao
Alex
Tiamat
2010-08-28, 15:25:16
Ne Performanceangabe hat AMD doch schon gemacht, von wegen 16BD-Cores = ca. 12Magny Core + 50%.
Gibt´s da auch mal ne konkrete Info zum Releasedatum ( also wenigstens das Quartal ), bisher hab ich stets nur 2011 gesehen.
Ich bin mal auf den Bobcat gespannt. Ob er dazu führt, dass sich Intels Atom schneller als geplant entwickelt. Irgendwie hab ich das leise Gefühl, dass dem nicht so ist, aber ich lass mich gern überraschen.
Konami
2010-08-28, 16:01:25
Gibt´s da auch mal ne konkrete Info zum Releasedatum ( also wenigstens das Quartal ), bisher hab ich stets nur 2011 gesehen.
H1 2011 hieß es doch immer. Was das Quartal betrifft, hab ich noch nix gelesen.
aylano
2010-08-28, 16:09:10
Es können also einzelne ALUs abgeschaltet werden? Im K10.5 jedenfalls noch nicht. Oder verwechselst du ALUs mit Kerne, welche derzeit nur beim Nehalem abgeschaltet werden können.
Wennst mein Posting richtig lesen würdest, dann hättest dir die Frage erspart.
Eine ALU kann nicht abgeschaltet werden. Ein Kern schon und das kann die Power-Gating-Technik (oder was auch immer)
Nur weil etwas unter Spannung steht muss es noch lange nichts verbrauchen, solange kein Strom fließt ;)
Du behauptest damit, eine CPU in Idle verbraucht keinen Strom und das stimmt nicht.
Sandy Bridge bekommt eine doppelt getaktete 128bit FPU, mit dann ~7 Ghz...
Wird das so sein? Weißt Du wie man das genau macht (Multiplex, LVS oder was ganz anderes)?
Wird das so sein? Weißt Du wie man das genau macht (Multiplex, LVS oder was ganz anderes)?Leider nicht, so genau kenn ich mich nicht aus, aber die Info stammt von Hans de Vries, der sollte es wissen ;-)
Falls Dich es mehr interessiert, sein Posting war - glaube ich - bei AMDzone.
H1 2011 hieß es doch immer. Was das Quartal betrifft, hab ich noch nix gelesen.
Nö, das war Llano, nicht Bulldozer, für den gibts nachwievor keine genauen Infos, das einzige was man jetzt weiss ist, dass zuerst die Serverchips kommen werden. Aber wann weiss man immer noch nicht.
ciao
Alex
Wennst mein Posting richtig lesen würdest, dann hättest dir die Frage erspart.
Eine ALU kann nicht abgeschaltet werden. Ein Kern schon und das kann die Power-Gating-Technik (oder was auch immer)
Und was hat das eine mit dem anderen zu tun? Garnix! Und darauf wollte ich hinaus! Was nützt mir Power-Gating, wenn der Kern aktiv ist und die 3. ALU Strom verballert?!
Du behauptest damit, eine CPU in Idle verbraucht keinen Strom und das stimmt nicht.
Nein, du behauptest das eine nicht genutzt 3. ALU "sehr viel" Strom verbraucht, wenn du schreibst das man ohne 3. ALU (welche nach deinen 5% Angaben nicht genutzt wird) viel Strom sparen würde! ergo müssen die ALUs des K10.5 auch unter Idle sehr viel Strom verballern. Und das glaube ich nicht!
Gibt´s da auch mal ne konkrete Info zum Releasedatum ( also wenigstens das Quartal ), bisher hab ich stets nur 2011 gesehen.
/Spekulation/
Es gibt beim BD 2 Möglichkeiten:
1) Die Entwicklung de BD wurde erst vor ein paar Jahren gestartet, und der 32nm BD ist die erste Version. Dann kommt der BD frühestens Ende 2011 und wird bestimmt nicht "großartig" (siehe PhenomI).
2) Die Gerüchte stimmen, das AMD BD Prototypen in 45nm gefertigt hat, da der BD ursprünglich in 45nm auf den Markt kommen sollte. Wenn diese Gerüchte stimmen kommt BD quasi als Ver. 2.0 auf den Markt incl. Bug-fixing etc.. Die Wahrscheinlichkeit, das wir den BD dann schon in H1/2011 sehen ist dann IMHO wesentlich größer. Zudem sollte der BD dann auch ausgereifter sein. Die Leistung könnte dann auch pro MHz um einiges höher liegen (siehe K10 -> K10.5) da sich die Angaben der exAMDler dann ja nur auf den "alten" 45nm BD beziehen können (siehe exAMDler Posting in der google-groups comp.arch mit der Angabe "5% weniger IPC" ).
Auf was ich am meisten gespannt bin ist, wie schnell der BD nun wirklich takten wird. Nach den letzten Äußerungen, das es sich um ein 17FO4 Design handelt und der BD deshalb bei gleichen Prozess um 20-25% schneller takten kann als ein PII bin ich wirklich gespannt was das zusammen mit 32nm + HKMG bringen wird. Zwischen 4,5 GHz und 5 GHz könnten da schon drin sein.
das mit den 30% mehr Takt bei gleicher Spannung & TDP hat Dresdenboy vor kurzem bei P3Dnow verlinkt, 32nm muss ja vorteile gegenüber 45nm haben
hohe IPC = niedrige Taktraten
wenig IPC = hohe Taktraten
so war es z.b. bei Netburst vs. Conroe
Fetza
2010-08-28, 19:13:49
Auch wenn es noch etwas früh ist, hat jemand vielleicht eine begründete annahme parat, ob die alten am2 bzw am3 cpu-kühler auch mit dem neuen am3+ sockel benutzt werden können? Wäre ja ganz cool, wenn man so einen scythe mugen 2 auch mit dem bulldozer weiterbenutzen kann.
stellt euch vor ein interger. Core eines BD Moduls ist auf augenhöhe mit einem Nehalem Core (ob das durch hohe Taktraten erreicht wird ist egal), dann sind 8 Cores sehr Leistungsstark. Die herstellungskosten eines BD Modul sollten 10-15% über einen Single Core K8 liegen, sehr günstig für AMD.
Auch wenn es noch etwas früh ist, hat jemand vielleicht eine begründete annahme parat, ob die alten am2 bzw am3 cpu-kühler auch mit dem neuen am3+ sockel benutzt werden können? Wäre ja ganz cool, wenn man so einen scythe mugen 2 auch mit dem bulldozer weiterbenutzen kann.
100% kompatiblität
An dem Socket wird sich nichts ändern, neue Chipsätze, Spannungswandler & Bios sind fällig.
das mit den 30% mehr Takt bei gleicher Spannung & TDP hat Dresdenboy vor kurzem bei P3Dnow verlinkt, 32nm muss ja vorteile gegenüber 45nm haben
hohe IPC = niedrige Taktraten
wenig IPC = hohe Taktraten
so war es z.b. bei Netburst vs. Conroe
Wo stand das mit den 30% mehr Takt beim 32nm Prozess?
Der BD könnte dann ja sogar (1,25 [durch 17FO4] x 1,3 [durch 32nm HKMG] x 3,4GHz [PII]) = 5,5GHz erreichen. Das wäre dann schon mal eine Hausnummer. Selbst mit 5-10% geringerer Leistung pro Takt wäre ein 4-Modul Zambezi dann immer noch sehr schnell (+ ~50% im Vergleich zum PII). On Top hätte der Zambezi dann auch noch einen verbesserten Turbo...
Hört sich zu gut an um wahr zu sein!
Tiamat
2010-08-28, 21:20:02
/Spekulation/
Es gibt beim BD 2 Möglichkeiten:
1) Die Entwicklung de BD wurde erst vor ein paar Jahren gestartet, und der 32nm BD ist die erste Version. Dann kommt der BD frühestens Ende 2011 und wird bestimmt nicht "großartig" (siehe PhenomI).
2) Die Gerüchte stimmen, das AMD BD Prototypen in 45nm gefertigt hat, da der BD ursprünglich in 45nm auf den Markt kommen sollte. Wenn diese Gerüchte stimmen kommt BD quasi als Ver. 2.0 auf den Markt incl. Bug-fixing etc.. Die Wahrscheinlichkeit, das wir den BD dann schon in H1/2011 sehen ist dann IMHO wesentlich größer. Zudem sollte der BD dann auch ausgereifter sein. Die Leistung könnte dann auch pro MHz um einiges höher liegen (siehe K10 -> K10.5) da sich die Angaben der exAMDler dann ja nur auf den "alten" 45nm BD beziehen können (siehe exAMDler Posting in der google-groups comp.arch mit der Angabe "5% weniger IPC" ).
Auf was ich am meisten gespannt bin ist, wie schnell der BD nun wirklich takten wird. Nach den letzten Äußerungen, das es sich um ein 17FO4 Design handelt und der BD deshalb bei gleichen Prozess um 20-25% schneller takten kann als ein PII bin ich wirklich gespannt was das zusammen mit 32nm + HKMG bringen wird. Zwischen 4,5 GHz und 5 GHz könnten da schon drin sein.
2) glaub ich net, das wäre zum Einen mindestens an einer Stelle irgendwo durchgesickert, zum Anderen hätte AMD damit 100% geprahlt oder schon mal irgendwelche Benches veröffentlicht.
Nach was sich die Geschichte für mich anhört ist, dass man zwar intern natürlich schon einen Fahrplan hat, wann der BD erscheinen soll, aber man nicht weiß, ob man das ganze einhalten kann. Wenn man jetzt paranoid ist, kann man da Probleme reininterpretieren, tu ich aber net, weil da wäre wirklich zuweit ausgeholt. Aber es wundert halt wirklich, dass es nicht mal ne Quartalsangabe gibt.
Der User w0mbat hat schon lauffähige Bulldozer Systeme gesehen
"BD laeuft schon und das nicht zu langsam. Gruesse aus Indien =D"
"zu cmt kann ich nur sagen: ich hab noch nie so eine perfekte skalierung von 1-core auf n-core gesehen.
mit deutlich weniger takt als aktuelle cpus schleagt man schon manche aktuelle high-end cpu."
"ich kenn die (aktuelle) leistung, weil ich gerade bei amd in indien bin (jetzt ueber silvester nicht direkt bei amd, hab gerade ferien). und dank meiner begeisterung fuer BD hatte ich die chance mal ein laufendes system zu begutachten d.h. ich durfte daneben sitzen und er hat mir ein paar sachen erklaert.
viele dinge kann man zb noch gar nicht starten damit es keine vorab-leaks geben kann. wenn du zb futuremark oder einen aehnlichen bench starten willst kommt nur einen fehlermeldung, jeder test muss vorher "angemeldet" werden.
das system bestand aus einem am3 board (mir unbekannt, stand amd drauf), 1gb ram (ka wieso so wenig), einer hdd und der cpu mit einem boxed kuehler. sah aus wie so ein aufbau fuer eine oc session auf einer messe.
takt war unter 2ghz. tdp unter 45w (4 BD-module). es gab einen test in dem die 4 BD-module (8 kern BD) mit unter 2ghz gegen einen x4 965 antraten und haushoch (also mehr als 7x so schnell) gewannen."
bezog sich noch auf den 45nm Protoypen mit SSE5...
User w0mbat hat auch schon grüne Männchen gesehen, als er auf dem Mars war.
Und? Who cares.
Fetza
2010-08-28, 22:33:51
100% kompatiblität
An dem Socket wird sich nichts ändern, neue Chipsätze, Spannungswandler & Bios sind fällig.
Coole news, also der sockel ändert sich dann nur elektronisch, ja? Ich frage deshalb, weil der mugen reizt mich schon, aber ich möchte in dann auch für bulldozer verwenden, sonst lohnt sich das nicht mehr. :)
vBulletin®, Copyright ©2000-2025, Jelsoft Enterprises Ltd.