Wird AMD Intels CPUs einholen? - spekulativer Vergleich kommender CPUs [Archiv]

Sir Integral Wingate Hellsing

2011-11-08, 10:55:41

1. Die Kerngröße ist aktuell sehr sehr groß.
2. Die Caches sind aktuell sehr sehr langsam
3. I/O (gehört nicht zur Arch) frisst zu viel Fläche
4. Es kommt nicht genug pro Watt und pro sqmm hinten raus

Über die Modulbauweise oder über CMT sagt es ersteinmal nichts aus. Denn wir wissen nicht, ob AMDs Angabe mit den IIRC 20 % mehr an Transistoren für den 2. Kern im Modul stimmen. Tun sie das, ist das absolut ok!

Wir wissen bisher nur, dass -unabhängig von CMT- Bulldozer keine IPC-Monsterarchitektur ist. Es wäre meiner Meinungn nach auch verblendet anzunehmen, dass sie aus der Architektur während des Lebenszyklusses die ca. 40-50 % mehr IPC ggü. Intel noch herausholen werden können. Zumal Intel nicht stehen bleibt.

Und jetzt kommt bitte keiner damit, dass man mangelnde IPC durch mehr Takt ausgleichen kann. Das haben verschiedenste ASICs probiert und immer an der TDP gescheitert: P4, NV30, R600 und nun auch BD. Selbst IBM Power 6 war nicht soo dolle.

Mein persönliches Fazit:
CMT = ok
Bulldozer = daneben

Jetzt muss AMD natürlich damit leben und Bulldozer Stück für Stück inkrementell verbessern. Ich finde es gut, dass sie das in kleinen aber häufigen Schritten machen wollen. Jährlich einen Refresh und die Einführung von Halfnodes. Vieleicht kommt so etwas Leben in die Sache.
Man wird mMn. auch aufholen und besser werden. Aber IMHO(!!) wird Bulldozer (und seine Nachkommen) nicht an Intels CPUs heranreichen. Möglicherweise bis zur Nachfolgearchitektur.

Naja, der P4 Willamette war Anfangs auch kein Knaller (schlechter als ein Athlon C / Athlon XP, miese IPC, schlechter als der eigene P3, höhere Verlustleistung (@ 2 GHz 75 W TDP) ) - dennoch hat es Intel auf Dauer geschafft, eine bessere Rechenleistung zu erlangen als es der Athlon XP damals bot (z.B. Prescott 2M @ 3,4 GHz (86 W-115 W TDP) / Cedar Mill @ 3,6 GHz (86 W TDP) ).
Ich erinnere mich noch ganz gut, wie der P4 (auch hier, bis auf Leute wie Nordmann) gut gebasht wurde - ab Northwood (P4 C @3,4 GHz 89 W TDP) ging es dann aufwärts - am Ende hatten viele auf den P4 umgesattelt und von AMD abgeraten (bevor der A64 dann aufkreuzte).

Ich denke ähnliches wird mit der BD-Architektur eintreten. Zumindest wird AMD mittelfristig zu Intel aufschliessen, auch wenn hier viele schon das Ende von AMD sehen/erhoffen. Piledriver sollte annehmbar sein, Steamroller könnte schon eine ernsthafte Konkurrenz für Intel sein. Abgesehen davon hat AMD Vorteile gegenüber Intel bzgl APU/iGPU - die Intel iGPUs sind dagegen ein Witz - siehe DX 10.1/11 Fail beim neuen Atom (geht nur mit DX 9, trotz vollmundiger Ankündigung).

Was viele vergessen: AMD bzw GF haben 32nm atm nicht im Griff, mit der Zeit bzw mit den Core-Verbesserungen sollte AMD näher ranrücken.
Und dafür das sie paar Handicaps haben, schlagen sie sich erstaunlich gut.

AnarchX

2011-11-08, 11:01:11

Naja, der P4 Willamette war Anfangs auch kein Knaller (schlechter als ein Athlon C / Athlon XP, miese IPC, schlechter als der eigene P3, höhere Verlustleistung (@ 2 GHz 75 W TDP) ) - dennoch hat es Intel auf Dauer geschafft, eine bessere Rechenleistung zu erlangen als es der Athlon XP damals bot (z.B. Prescott 2M @ 3,4 GHz (86 W-115 W TDP) / Cedar Mill @ 3,6 GHz (86 W TDP) ).
Ich erinnere mich noch ganz gut, wie der P4 (auch hier, bis auf Leute wie Nordmann) gut gebasht wurde - ab Northwood (P4 C @3,4 GHz 89 W TDP) ging es dann aufwärts - am Ende hatten viele auf den P4 umgesattelt und von AMD abgeraten (bevor der A64 dann aufkreuzte).
AMD != Intel

Ich denke ähnliches wird mit der BD-Architektur eintreten. Zumindest wird AMD mittelfristig zu Intel aufschliessen, auch wenn hier viele schon das Ende von AMD sehen/erhoffen. Piledriver sollte annehmbar sein, Steamroller könnte schon eine ernsthafte Konkurrenz für Intel sein.
Da ist AMD persönlich pessimistischer: http://www.computerbase.de/news/2011-10/amd-gibt-ausblick-auf-schnellere-bulldozer-nachfolger/
Und bei Intel spekuliert man für Ivy und sowohl Haswell (2013) CPU-Leistungssteigerungen um die 20%.

Abgesehen davon hat AMD Vorteile gegenüber Intel bzgl APU/iGPU - die Intel iGPUs sind dagegen ein Witz - siehe DX 10.1 Fail beim neuen Atom (geht nur mit DX 9, trotz vollmundiger Ankündigung)

Cedarviews iGPU und auch die Treiber kommen von IMGTec, selbst wird man mit Ivy Bridge eine D3D11-Architektur vorstellen und so aus Kundensicht mit AMD absolut gleichziehen.

Sir Integral Wingate Hellsing

2011-11-08, 11:09:57

AMD != Intel

Ach nee... :rolleyes:

Da ist AMD persönlich pessimistischer: http://www.computerbase.de/news/2011-10/amd-gibt-ausblick-auf-schnellere-bulldozer-nachfolger/
Und bei Intel spekuliert man für Ivy und sowohl Haswell (2013) CPU-Leistungssteigerungen um die 20%.

Auch Intel kann sich vertun/etwas vermurksen (oft genug bewiesen) - abwarten.

Pineviews iGPU und auch die Treiber kommen von IMGTec, selbst wird man mit Ivy Bridge eine D3D11-Architektur vorstellen und so aus Kundensicht mit AMD absolut gleichziehen.

Selber Schuld, wenn sich Intel unfähige Leute anschafft/mit denen kooperiert. iGPU/GPU-technisch hat Intel NOCH NIE etwas gerissen (Stichworte: i740 (falls den jmd noch kennt ;)), Larrabee und eben das aktuelle iGPU Problem im Atom). Bei AMD durften auch einige bluten wg BD.

Naja und das mit der vollmundigen Versprechung a la:
"selbst wird man mit Ivy Bridge eine D3D11-Architektur vorstellen und so aus Kundensicht mit AMD absolut gleichziehen" <- ich glaube nicht dran

Intel erzählt viel bzw verspricht viel, wenn der Tag lang ist.

Thunder99

2011-11-08, 11:31:13

Bei den Prozessoptimierungen hab ich da so meine Zweifel ob diese so gut werden wie damals (90nm und 45nm).

AMD hält nur noch einen geringen Teil an GF, d.h. kaum bis kein Mitspracherecht mehr. Das könnte durchaus ein großer Nachteil werden :(

Sir Integral Wingate Hellsing

2011-11-08, 11:38:04

robbitop

2011-11-08, 12:55:02

Was Intel damals in den P4 gepumpt hat - entwicklungsseitig und fertigungsseitig - das kann nur Intel. AMD muss absolut ein gutes Design bringen. Sonst kommt nur inkrementel kleine Pflaster.
Im Prinzip muss es eine Art neuen Athlon 64 geben. ;)

Wie AnarchX schon schrieb. Intel wird weiterhin nicht stehenbleiben und immer mehr IPC in die CPUs bringen. Der Abstand wächst.

Ich erhoffe es mir nicht. Absolut nicht. Ich habe seit mindestens 2006 auf Bulldozer gehofft und vermutet, dass AMD mit der neuen Arch mal wieder etwas herankommt.
Nach so langer Entwicklungsdauer darf soetwas einfach nicht passieren. Wie viele Neuauflagen gab es von dem Ding schon? Zumal man ja die Erfahrungen, Kniffe und Tricks aus den vorherigen Architekturen nicht so einfach vergisst - nur weil es eine neue µArch ist.

IMO ist jetzt nur noch Schadensbegrenzung drin mit der Architektur...

Oder sie lassen bei z.B. TMSC/UMC fertigen.

Schlimm genug, dass sie die Fertigung nicht mehr in der eigenen Hand haben. Ich habe ja damals schon beim GF Deal gesagt, dass das Auswirkung haben wird.

Wenn sie jetzt noch bei drittklassigen Fabs herstellen lassen, dann gute Nacht (für Leistungsaufnahme- und Taktcharakteristik). TSMC und UMC sind für CPUs im Vergleich mit IBM, Intel und GF Dresden nur dritte Liga. (mangels Hochtakt-CPU Erfahrungen)

Sir Integral Wingate Hellsing

2011-11-08, 13:13:11

Ich gebe Dir recht, es sieht nicht optimal aus, aber AMD hat schon härtere Zeiten bewältigt.

Trinity wird ja einen Vorgeschmack auf Piledriver geben (ich gehe davon aus, dass Trinity [welcher Piledriver-Kerne nutzt] vor BD-Piledriver kommt).

Und wg David vs Goliath (AMD vs Intel):

AMD hat mit weniger Ressourcen bereits 2x gut mitgemischt:
Athlon vs P3 bzw (noch eindeutiger) A64 vs P4

Und in Sachen APUs liegt AMD weiterhin vorne (Brazos vs Atom / Llano vs i3).

Wird schon werden bzw muss, sonst lässt sich Intel bald die CPUs vergolden (Preise wie Anno 2000)...

robbitop

2011-11-08, 13:15:47

Wenn AMD die versprochenen 10 - 15 % Mehrperformance bis zum Excavator hält, sind dann bis 2014 bis zu 50 % mehr Leistung drin. (da ist Takt aber sicher auch bereits mit drin)

Coda

2011-11-08, 14:12:27

Wie AnarchX schon schrieb. Intel wird weiterhin nicht stehenbleiben und immer mehr IPC in die CPUs bringen. Der Abstand wächst.
Abnehmender Grenzertrag sagt dir was, oder?

Skysnake

2011-11-08, 14:18:52

hehe, ich wollts grad selbst sagen :D

robbitop

2011-11-08, 14:38:51

Abnehmender Grenzertrag sagt dir was, oder?
Absolut. Anscheinend und überaschenderweise ist der Grenzbereich offenbar aber noch nicht erreicht. ;)

Core 2 brachte ggü Core 1 ca. 30 %. Nehalem holte trotz sehr starkem Core 2 Quad bis zu 50 % mehr IPC heraus. Sandy Bridge -ohne zu große Anpassungen an der µ-Arch- immerhin 20 %. Haswell (der nächste Tock) soll auch 20 % bringen.

AnarchX

2011-11-08, 14:42:03

Die 20% (http://vr-zone.com/articles/mainstream-desktop-cpus-future-evolution--more-performance-or-just-more-integration-/13880.html#ixzz1cw8a0xhd) sind wohl eher auf eine Mischung aus Takt und IPC bezogen, gerade 22nm könnte da wohl einiges im Bezug den Takt erlauben. Bei Haswell erhöht man wieder die TDP von 77 auf 95W für die Desktop-QCs, wohl um den Takt weiter zu steigern.

Wird schon werden bzw muss, sonst lässt sich Intel bald die CPUs vergolden (Preise wie Anno 2000)...
Fraglich ob das sich Intel in der aktuellen Marktsituation erlauben könnte. Man muss ja auch gewisse Anreize für die Käufer schaffen, ansonsten bleibt man auf den CPUs und deren teuren Entwicklung sitzen.

robbitop

2011-11-08, 15:00:40

Die 20% (http://vr-zone.com/articles/mainstream-desktop-cpus-future-evolution--more-performance-or-just-more-integration-/13880.html#ixzz1cw8a0xhd) sind wohl eher auf eine Mischung aus Takt und IPC bezogen, gerade 22nm könnte da wohl einiges im Bezug den Takt erlauben. Bei Haswell erhöht man wieder die TDP von 77 auf 95W für die Desktop-QCs, wohl um den Takt weiter zu steigern.

Das gilt fiür Ivy (20 % mehr Leistung resultierend aus IPC + Takt)!

Für Haswell steht da folgendes:

"by itself is very good and could lead to another above 20% same-clock per-core performance jump even in many current apps, but is still less compared to the effort put in the other two departments. After all, the other key related performance aspects - like the L3 cache size of 8 MB, and the dual-channel DDR3-1600++, are expected to stay the same."

Coda

2011-11-08, 15:04:34

Dir ist aber schon klar, dass das eine Beurteilung von VR-Zone ist?

robbitop

2011-11-08, 15:08:39

Er hat es als Quelle gebracht. ;)
Intel selbst sagt 20 %.

AnarchX

2011-11-08, 15:08:41

In einem Benchmarkset mit ein paar Benchmarks, die von FMA profitieren, sind wohl die 20% schnell erreicht. ;)

robbitop

2011-11-08, 15:20:18

Wir werden sehen. Intel lieferte bisher immer zu einem Tock deinen deutlichen IPC Sprung.
Die werden mit Sicherheit die Decoder noch weiter beschleunigen und mehr in Richtung Trace-Cache gehen, was sicherlich noch etwas bringen wird. Möglicherweise werden die Caches auch noch ein bisschen flotter. Wer weiß das schon?

Für AMD ist es natürlich leichter, IPC Sprünge zu machen, da offenbar noch viele Potenziale unausgebeutet sind. Sonst wäre die IPC nicht so im Keller.

Ronny145

2011-11-08, 15:21:03

Sandy Bridge brachte ca 12-15% mehr IPC. zur Haswell IPC ist nichts bekannt. In so frühem Stadium mindestens 1,5 Jahre vor release sind solche Angaben einer Hardware Seite völlig wertlos. Dann sollen sie die Folie zeigen, wo das draufstehen soll. Ivy Bridge bringt mir ein paar Optimierungen 5% mehr IPC, am Ende der Fahnenstange sehe ich IPC Steigerungen noch lange nicht angekommen.

robbitop

2011-11-08, 15:28:41

Ivy ist ein Tick. Die Ticks bringen nie nennenswerte IPC Verbesserungen. Sind hauptsächlich Shrinks.

Sandy Bridge brachte laut Performancerating bei CB 15%. In einigen Spielen bei CPU Limitierung sogar über 20.

Sir Integral Wingate Hellsing

2011-11-08, 15:33:58

Fraglich ob das sich Intel in der aktuellen Marktsituation erlauben könnte. Man muss ja auch gewisse Anreize für die Käufer schaffen, ansonsten bleibt man auf den CPUs und deren teuren Entwicklung sitzen.

Aktuell vllt nicht, aber wenn AMD mit Piledriver/Steamroller nicht aufschliesst, wird Intel klar die Preise erhöhen (zumindest i5/i7-Serie bzw deren Nachfolger).
War früher auch so.
Und wenn AMD (was ich nicht glaube) irgendwann weg ist, würde Intel (zumindest bis Wettbewerbshüter irgendeiner Art einschreiten) die Preise eiskalt diktieren - natürlich zu Lasten der Käufer - und man würde natürlich trotzdem kaufen (müssen, irgendwann mal braucht man ja ne neue CPU).

Ronny145

2011-11-08, 15:34:11

Ivy ist ein Tick. Die Ticks bringen nie nennenswerte IPC Verbesserungen. Sind hauptsächlich Shrinks.

Genau deswegen ja. Wenn ein Shrink mit ein paar kleinen Optimierungen 5% bringt, wieso sollte ein größerer Umbau mit Namen Haswell nicht wieder im zweistelligen Bereich an IPC Steigerungen landen. Es wäre zu verfrüht das für unmöglich zu erklären.

Duplex

2011-11-08, 15:56:52

@AnarchX
Hattest du mal nicht ein Link von einem ehemaligen AMD Mitarbeiter gepostet der sagte das Bulldozer nicht auf hohe IPC/ILP ausgelegt ist?

Skysnake

2011-11-08, 16:42:58

Genau deswegen ja. Wenn ein Shrink mit ein paar kleinen Optimierungen 5% bringt, wieso sollte ein größerer Umbau mit Namen Haswell nicht wieder im zweistelligen Bereich an IPC Steigerungen landen. Es wäre zu verfrüht das für unmöglich zu erklären.
Die 5% sind aber auch nur optimistische Schätzung. Mir wurde von jemanden, der IB wohl schon in der Hand hatte gesagt, das sich bei IB am CPU-Part so ziemlich rein gar nichts ändert, was zu mehr IPC führen würde. SB und IB sollten Taktbereinigt +/-0 raus kommen. Wenn wird IB nur höher takten, aber das muss sich erst noch zeigen, ob Intel das macht. Ich glaube nicht dran, denn mit jedem Quäntchen mehr Takt setzen Sie SB-E mehr unter Druck.

Ronny145

2011-11-08, 16:54:38

Die 5% sind aber auch nur optimistische Schätzung.

Das ist keine Schätzung. Das ist basierend auf Benchmarks von frühen Leaks. Ich gehe mal nicht davon aus, dass finale Hardware/Bios Kombination schlechter abschneidet.

AnarchX

2011-11-08, 16:59:42

Gibt doch schon diverse offizielle Infos, was Intel bei IVB verbessert hat: http://ht4u.net/reviews/2011/intel_ivy_bridge_architektur/index4.php

Im Bezug auf mobile Geräte (Ultra-Books) spricht man auch von einem Tick+.

Skysnake

2011-11-08, 16:59:57

AnarchX

2011-11-08, 17:02:03

Dann link mal die Benchmarks. Die Einzigen, die ich gesehen habe, waren +/-0, und dazu eben die Aussage meiner Quelle, dass das auch später für die Serie zu erwarten ist. Es gibt wohl schlicht keine Architekturänderungen am CPU-Part. Warum auch? Es gibt doch eh keine Konkurrenz..... leider -.-
;)
Gibt doch schon diverse offizielle Infos, was Intel bei IVB verbessert hat: http://ht4u.net/reviews/2011/intel_ivy_bridge_architektur/index4.php

Ronny145

2011-11-08, 17:08:00

Dann link mal die Benchmarks. Die Einzigen, die ich gesehen habe, waren +/-0, und dazu eben die Aussage meiner Quelle, dass das auch später für die Serie zu erwarten ist. Es gibt wohl schlicht keine Architekturänderungen am CPU-Part. Warum auch? Es gibt doch eh keine Konkurrenz..... leider -.-

Versuch dich im Ivy Bridge Thread. Dort sind 2-3 Leaks verlinkt die Rückschlüsse von IPC Steigerungen im Bereich 3-6% gegenüber Sandy Bridge geben. Intel spricht von Core uArch Optimierungen. Die IDF hat Infos darüber durchblicken lassen.

http://www.forum-3dcenter.org/vbulletin/showthread.php?p=8832526#post8832526

robbitop

2011-11-08, 17:20:03

Duplex

2011-11-08, 17:24:04

http://www.anandtech.com/show/1655

Duplex

2011-11-08, 17:25:51

Von ehemaligen CTO Fred Weber
http://www.anandtech.com/show/1655

- Bevorzugung von Thread Level Parallelism (TLP) statt Instruction Level Parallelism (ILP), also höhere Performance durch mehr Threads anstelle von höherer Single-Thread-Leistung
- Kombination von Befehlen (wie bei Intels MicroOp-Fusion, von Weber „Instruction Combining“ genannt)
- Höhere Taktfrequenzen für höhere Single-Thread-Leistung
- Bessere Speicherzugriffslatenzen
- Bessere Sprungvorhersagelatenz und deutlich bessere Sprungvorhersage
- Geteilte Nutzung von Einheiten wie die FPU durch zwei Kerne zu deren besseren Auslastung und damit erhöhter Energieeffizienz
- Helper-Threads, welche bald benötigte Daten vorab in die Caches laden

AnarchX

2011-11-08, 17:28:07

Wie auch immer. Ein Tick bringt minimale Verbesserungen. Ob nun 5 % oder nicht. Merken -ohne zu messen- tut man die nicht.
Das war schon zu Penryn so, das war bei Lynnfield so, das ist halt ein Tick. ;)
Bei Penryn hat SSE4 schon teils erhebliche Steigerungen gebracht. Lynnfield gehörte zu Nehalem. Der Tick war Gulftown (AES-NI..) und Clarkdale.

S940

2011-11-08, 18:03:56

1. Die Kerngröße ist aktuell sehr sehr groß.
Die "Kerne" sind ganz klein, aber ja, das Modul ist groß ;-)
Was da zu buche schlägt sind v.a. L2 Cache und die FPU, sowie das Frontend.
L2 Cache: Na 2 MB sind ok für 2 Kerne.
FPU: Die kann FMA, kleiner gehts nicht, Pech für AMD, dass fast keiner FMA nutzt, aber bei sowas gilt immer das Henne-Ei Problem.
Front-End: Für 2 Kerne ebenfalls ok, könnte eher etwas besser = größer sein ;-)
2. Die Caches sind aktuell sehr sehr langsam
Solange einem der L1-TLB nicht ausgeht, passts, 20Takte für 2MB sind i.O. Llanos L2 ist auch nicht recht viel schneller. Problem ist wohl eher der L1 Write Through im Verbund mit nur *einem* Write-Buffer für 2 Kerne/Threads.
3. I/O (gehört nicht zur Arch) frisst zu viel Fläche
Geschenkt, ist ja das Server-DIE, da muss das drauf.
4. Es kommt nicht genug pro Watt und pro sqmm hinten raus
Mit FMA Code passts einigermaßen, aber benutzt eben keiner, ergo stimme ich da zu. Teilweise auch GFs Schuld, aber AMD sitzt jetzt doof da *g*

Und jetzt kommt bitte keiner damit, dass man mangelnde IPC durch mehr Takt ausgleichen kann. Das haben verschiedenste ASICs probiert und immer an der TDP gescheitert: P4, NV30, R600 und nun auch BD. Selbst IBM Power 6 war nicht soo dolle.p7 ist doch ok. 4 GHz, 8 Kerne, dick eDRAM Cache und das in 45nm :)

Mein persönliches Fazit:
CMT = ok
Bulldozer = daneben
Ja, kann man so sagen.
Aber IMHO(!!) wird Bulldozer (und seine Nachkommen) nicht an Intels CPUs heranreichen. Möglicherweise bis zur Nachfolgearchitektur. Naja, FMA wird AMD genauso in die Hände spielen wie der Win Scheduler und allgemein immer bessere Multi-thread Programmierung. Aber das ist halt nur nach und nach, und solange ein Intel nicht langsamer ist ... ;-)

robbitop

2011-11-09, 09:04:23

Bei Penryn hat SSE4 schon teils erhebliche Steigerungen gebracht. Lynnfield gehörte zu Nehalem. Der Tick war Gulftown (AES-NI..) und Clarkdale.
Aber nicht in Spielen...
Gulftown war auch kaum schneller (normierte Anzahl Kerne und Takt) ggü. Nehalem. In Spielen.

robbitop

2011-11-09, 09:22:04

Die "Kerne" sind ganz klein, aber ja, das Modul ist groß ;-)

20 sqmm (ohne L2) pro Modul sind IMO sehr groß. Ein Modul ist IMO ein Kern mit CMT. CMT ist das bessere SMT.
Ein SB Kern ist deutlich kleiner und fixer. Da muss pro sqmm einfach mehr rumkommen.
Aber warten wir mal ab, was die nächsten Iterationen bringen.

Was da zu buche schlägt sind v.a. L2 Cache und die FPU, sowie das Frontend.
L2 Cache: Na 2 MB sind ok für 2 Kerne.
Ein 4 issue Front-End hat Intel auch.
L2 finde ich viel zu groß. Lieber schneller und dafür kleiner und dann einen großen L3.

FPU: Die kann FMA, kleiner gehts nicht, Pech für AMD, dass fast keiner FMA nutzt, aber bei sowas gilt immer das Henne-Ei Problem.
FMA ist innovativ und wird schon noch kommen.
In Spielen wird's aber kaum was bringen.

Front-End: Für 2 Kerne ebenfalls ok, könnte eher etwas besser = größer sein ;-)
Beim Front-End und bei den Caches scheint es ja zu haken.

Solange einem der L1-TLB nicht ausgeht, passts, 20Takte für 2MB sind i.O. Llanos L2 ist auch nicht recht viel schneller. Problem ist wohl eher der L1 Write Through im Verbund mit nur *einem* Write-Buffer für 2 Kerne/Threads.
L1 größer, L2 kleiner und fixer, L3 ist ok - aber bitte Fullspeed.

Geschenkt, ist ja das Server-DIE, da muss das drauf.
Dann sollte AMD besser eine eigene Maske für die Desktop-CPUs haben.

Aber das ist halt nur nach und nach, und solange ein Intel nicht langsamer ist ... ;-)
Das mit dem Sheduler habe ich absolut nicht kapiert. Würde das was für Intels SMT gut ist nicht auch für AMDs CMT gut sein? Also Kern 1 pro Modul ist der Chef und Kern 2 nur Sibbling. Zunächst nur Kerne 1-4 und erst wenn die voll ausgelastet sind, die Sibblings anschalten.
Das funktioniert bei SMT wunderbar. Warum macht man das nicht für CMT?

Das würde natürlich die Leistungsaufnahme erhöhen - täte es bei Intel aber auch. Vieleicht müsste noch unterschieden werden, ob man sich gerade im Mobil (Akku) Betrieb oder aber im Teillastbetrieb befindet. Dort könnte man zunächst Kern 1 und Kern 2 anknipsen, eh man das nächste Modul hochfährt.

AnarchX

2011-11-09, 09:26:07

Sind ein Bulldozer-Modul und ein SNB-Kern nicht beide um die 18-19mm² groß?

YfOrU

2011-11-09, 09:55:08

Das mit dem Sheduler habe ich absolut nicht kapiert. Würde das was für Intels SMT gut ist nicht auch für AMDs CMT gut sein? Also Kern 1 pro Modul ist der Chef und Kern 2 nur Sibbling. Zunächst nur Kerne 1-4 und erst wenn die voll ausgelastet sind, die Sibblings anschalten.
Das funktioniert bei SMT wunderbar. Warum macht man das nicht für CMT?

Das würde natürlich die Leistungsaufnahme erhöhen - täte es bei Intel aber auch. Vieleicht müsste noch unterschieden werden, ob man sich gerade im Mobil (Akku) Betrieb oder aber im Teillastbetrieb befindet. Dort könnte man zunächst Kern 1 und Kern 2 anknipsen, eh man das nächste Modul hochfährt.

Laut AMD ist das Sharing die bessere Lösung. In der Theorie wird der hierdurch auftretende Verlust an Rechenleistung durch die Möglichkeit höherer Turbo Stufen kompensiert (nicht belastete Module werden abgeschaltet und im Gegenzug wird für das aktive Modul eine höhere Turbo Stufe genutzt).

Soweit zur Theorie. In der Praxis fällt zum einen die Leistung im CMT Betrieb vermutlich etwas geringer aus als diese ursprünglich sein sollte und dazu ist Windows 7 nicht gerade das Paradebeispiel was die effiziente Nutzung der Turbo Modi betrifft.

Vom Standpunkt des Designs ist die aktuelle Art der Implementierung eigentlich ein Sahnestück und verspricht maximale Effizienz denn trotz der höheren Turbo Modi sollte aufgrund der deaktivierten Module die Leistungsaufnahme geringer sein (im Vergleich zu einem ausgelasteten Kernen pro Modul). Mittelfristig (überarbeitete Kerne, ein OS das besser mit den Turbo Modi umgehen kann) ist es auch die bessere Variante.
Zur Einführung wäre aber das vom OS besser unterstützte SMT Modell (da weniger auf die Turbo Modi angewiesen) zumindest am Desktop sicher schneller gewesen denn die Unterschiede sind in einigen Benchmarks ziemlich eklatant.

Ephiriel

2011-11-09, 10:20:04

http://techreport.com/articles.x/21865/2
Also der Zuwachs bei 1 Thread/modul ist schon erstaunlich

robbitop

2011-11-09, 10:25:32

Sind ein Bulldozer-Modul und ein SNB-Kern nicht beide um die 18-19mm² groß?

http://forums.anandtech.com/showthread.php?t=2122436&highlight=die+size

Nehalem 45nm: 24.4mm2
Shanghai 45nm: 15.3mm2
Atom 45nm: 9.7mm2
Bobcat 40nm: 4.6mm2
Westmere 32nm: 17.2mm2
Sandy Bridge 32nm: 18.4mm2
Llano 32nm: 9.69mm2
Bulldozer 32nm: 14.6mm2 + 3.6mm2 FP per module

18,2 vs 18,4 sqmm laut Hans de Vries wohl. Ändert aber an der Aussage nichts. Da muss dann in etwa das gleiche bei rauskommen.

AnarchX

2011-11-09, 10:35:25

Die Schwerpunkte sind eben etwas anders gelagert, sodass BD im bestimmten Szenarien deutlich schneller ist, die aber im Endkunden-PC-Alltag nicht so oft anzutreffen sind.

Wirklich dramatisch ist eher der Die-Size-Bedarf jenseits der Module.

S940

2011-11-09, 10:37:11

20 sqmm (ohne L2) pro Modul sind IMO sehr groß. Naja, "sehr groß" würde ich es nicht nennen, außerdem heilt die Zeit ja alle Wunden -> Prozesshriks ;-)
Da finde ich nen großen Kern eher innovativ, besser als das tumbe Kerne aufkleistern und immer mehr Cache.

Ein Modul ist IMO ein Kern mit CMT. CMT ist das bessere SMT.Weiß ich ja, es war nur unklar, was Du jetzt gerade mit "Kern" meintest.
Ein SB Kern ist deutlich kleiner und fixer. Da muss pro sqmm einfach mehr rumkommen.Naja, was man halt unter "deutlich" versteht. AMD scheint eine geringere Single-thread Leistung auch einkalkuliert zu haben. Mit 2 THraeds würde es CMT dann rausreißen, aber blöderweise ging da dann wohl was schief ;-)

Ein 4 issue Front-End hat Intel auch.Nö. Intel hat 3 simple + 1xcomplex + CMP-Fusion, AMD hat 4xsimple + 1x complex + Fusion. Wenn Du da bei Intel 4 siehst, hat AMD 5.

L2 finde ich viel zu groß. Lieber schneller und dafür kleiner und dann einen großen L3.So schauts im Moment aus, aber ich denke, da läßt Du Dich von der einfach guten Intel IPC täuschen. Die mag an Vielem liegen, aber Cache ist nur ein einziger, wenn auch wichtiger Faktor. Die alten Core2 mit >4MB L2 liefen z.B. auch sehr gut. Den Winz L2 von 256k sehe ich eher als Abfallprodukt von Intels Serverambitionen. Der coherent Traffic in nem MP Sys. läuft über den L3, der alle L2s spiegelt, ergo darf ein L2 nicht groß sein, da sonst der L3 ziemlich sinnlos wäre. Dass der L2 zu klein ist, sieht man ja am IPC Plus, das man bekommt wenn man den L3 der Nehalems übertaktete. Hat Intel dann wohl auch gemerkt und den L3 bei Sandy in die Core-Takt Domäne gezogen.
Deswegen bin ich da nun nicht überzeugt, dass ein kleiner L2 *das* Allheilmittel für BD wäre. Mit den exklusiven Caches sind 2MB L2 schon ok, der L3 oben als Zuckerhut drauf.
Wichtiger ist wohl das Front-End. Das sollten sie eher intel-like machen. Im Moment meinten sei, dass ein gemeinsames FrEnd Strom spart, aber unter Spitzenlast klemmt wohl zuviel. Wenn sie da die 4 Decoder wieder trennen und leicht auf auf 3+3 aufspalten und dazu noch nen µOp Buffer einbauen, der die Decoder wie bei Sandy ab und zu abschalten kann, sollte es auch noch passen. 2x32KB L1I sollten ebenfalls noch reichen. Knackpunkt ist wohl nur die komplexe Sprungvorhersagelogik. Könnte man die bei so nem Ansatz weiterhin gemeinsam nutzen?

FMA ist innovativ und wird schon noch kommen.
In Spielen wird's aber kaum was bringen.
Jo ich sagte ja, FMA braucht so gut wie keiner ^^
Spiele ... hmhm wie siehts da bei Physiksachen aus? Gibts da eventuell FMA Berechnungen?

Beim Front-End und bei den Caches scheint es ja zu haken.Jo, aber nicht an der Größe ;-)

L1 größer, L2 kleiner und fixer, L3 ist ok - aber bitte Fullspeed.Siehe oben. L1 größer, ok, wenn Du L1D meinst :) L2 passt, und wenn man davon 2MB hat, brauchts keinen fullspeed L3, da die Hitrate des L2 gut genug ist. Intel kehrt bei SandyE auch wieder vom full-speed L3 ab, kostet wohl zuviel Strom für >4Kerne und >2MB pro Kern.
Dann sollte AMD besser eine eigene Maske für die Desktop-CPUs haben.Kommt demnächst, nennt sich Trinity ;-)

Das mit dem Sheduler habe ich absolut nicht kapiert. Würde das was für Intels SMT gut ist nicht auch für AMDs CMT gut sein? Also Kern 1 pro Modul ist der Chef und Kern 2 nur Sibbling. Zunächst nur Kerne 1-4 und erst wenn die voll ausgelastet sind, die Sibblings anschalten.
Jein. Für ein paar Workloads, die keine Daten gemeinsam benutzen sicherlich, aber wenn sich 2 Threads die Daten teilen ist das besser die auf nem Modul laufen zu lassen. Eben weils nen großen L2 Cache gibt und der L3 langsamer ist.
@AnarchX:
Sind ein Bulldozer-Modul und ein SNB-Kern nicht beide um die 18-19mm² groß? Nur wenn man bei Intel die 256kB L2 mitrechnet.
Edit:
Wirklich dramatisch ist eher der Die-Size-Bedarf jenseits der Module.Seh ich auch so.

Neon3D

2011-11-09, 19:10:39

amd hat es sehr schwer mit intel mitzuhalten. ich sehe da nicht so positiv in die zukunft für amd was performance angeht. intel hat so viel an techniken in der hinterhand, die bestimmen das tempo. aber das bedeutet nicht das ich etwa glaube amd würde pleite gehen. Lliano zeigt das sie auf alle fälle das amd eine nische finden wird um sich über wasser zu halten. wenn aber eine längere weltweite wirtschaftskrise kommen sollte, kann sich das natürlich fatal auf amd auswirken.

Der_Korken

2011-11-09, 20:06:18

Jein. Für ein paar Workloads, die keine Daten gemeinsam benutzen sicherlich, aber wenn sich 2 Threads die Daten teilen ist das besser die auf nem Modul laufen zu lassen. Eben weils nen großen L2 Cache gibt und der L3 langsamer ist.

Ist das aber nicht gerade ein Problem, das AMD hat? Manche Workloads haben lieber ein exklusives Modul pro Thread, andere wiederum wollen möglichst wenig Module belegen - egal wie mans macht, keine Methode ist optimal. Da wäre ein kleinerer und schnellerer L2 imho schon im Vorteil: Singlethread-Workloads bekommen dann einen schnellen Cache hinter dem (kleinen) L1D, andererseits schrumpfen die Module, wodurch man möglicherweise auch den L3 Cache etwas schneller bekommt (im Vergleich zum Nehalem und vor allem zum SNB ist der verdammt lahm). Ist natürlich schwer zu sagen, ob sich das lohnt, in jedem Fall hätte man damit aber viele Transistoren und Die-Space gespart.

Skysnake

2011-11-09, 21:07:33

s940, in der Physik etc hast du ständig die möglichkeit FMA zu nutzen.

Coda

2011-11-09, 21:20:14

Jo, sobald lineare Algebra Anwendung findet bringt FMA wirklich einiges. Das kann ich vom Gefühl her bestätigen.

Sprich: Vor allem wissenschaftliche Anwendungen aller Art und Spiele.

Skysnake

2011-11-09, 21:22:47

und lineare Algebra wird überall genutzt. Faktisch bei allem.

Coda

2011-11-09, 21:34:00

Das ist jetzt aber schwer übertrieben.

Skysnake

2011-11-09, 23:25:14

Also bei Physik trifft das schon zu :ugly:

Tensoren, Differenzialgleichungen etc. etc. etc.

Ich wüsste nicht, wo ich das als Physiker nicht verwenden könnte :ugly:

Coda

2011-11-10, 00:33:19

Physik ist aber nicht überall.

S940

2011-11-10, 02:17:47

s940, in der Physik etc hast du ständig die möglichkeit FMA zu nutzen.Thx.
Physik ist aber nicht überall.
Ich denke man muss seine Aussage im Kontext lesen, sprich er meinte:
und lineare Algebra wird überall genutzt (wenn Physik im Spiel ist). Faktisch bei allem.
Dass es bei nem Spiel noch was Anderes als Phy. gibt, sollte doch allen klar sein ;-)

@Der_Korken:
Wie schon geschrieben, wenn der L2 Cache 2MB beträgt, ist der L3 nur noch ein Bonus. AMD meinte doch irgendwo selbst, dass der nicht viel bringen würde und nur für Server nötig sein.
Das Argument, den L2 jetzt zu verkleinern, weil dann im single-thread ein kleiner, feiner L2 für einen Thread wartet, unterschlägt den dual thread Fall. Da gibts sicher (zu) viele Misses. Mit SMT mag das Wurst sein, da dann der andere Thread weiterrechnen kann, aber bei CMT, ist das nicht der Fall.
Ich bleib dabei, der 2MB full speed L2 ist schon ok. Nur der kleine L1-WT wird da oft an dessen Tür klopfen, dann auch noch 2 Threads - wenn ich mich recht erinnere ist der L2 nicht dual ported ... da wird wohl das Meiste des IPC Verlusts im 2 Thread Betrieb aufs L2 Konto gehen. Wobei ich auch echt noch wissen will, wieso die L2 Latenz selbst mit single thread ab 128kB stark ansteigt. Gibt Leute, die sagen, dass da der L1 TLB am Ende wäre, 32Einträge à 4kB -> 128kB. Aber ein K10 hatte das Problem auch nicht, dessen 48 Einträge sollten nur bis 192kB reichen. Müßte man bei 512kB L2 Cache dann ja sehen .. aber ne ... der random Zugriff ist allgemein etwas länger, aber konstant und nicht viel.

Screemer

2011-11-10, 11:22:47

ich bin sehr gespannt, wie sich der fehlende l3 bei den piledriver kernen in trinity bemerkbar machen wird.

Skysnake

2011-11-10, 18:19:13

s940 das, und ich bin Physiker, für mich ist Physik "alles" :ugly:

BD ist in soooo vielen Sachen komisch. Ich werde da nicht schlau draus.

Gipsel

2011-11-10, 19:03:40

s940 das, und ich bin Physiker, für mich ist Physik "alles" :ugly:Ich bin auch Physiker und da gibt es schon ein paar Sachen, die mit linearer Algebra und dem Lösen von linearen Gleichungssystemen (dazu nutzt man das ja meist) nicht viel oder nur am Rande zu tun haben. Häufig ist der Hauptaufwand z.B. die (numerische) Integration von Differentialgleichungen (hast Du ja oben auch erwähnt). Das heißt aber nicht, daß man da FMAs nicht nutzen könnte. Die sind schon für viele (aber natürlich nicht alle) Berechnungen praktisch, sonst hätten man bei GPUs ja nicht schon ewig die Sparvariante davon (multiply-adds) integriert. ;)

Ailuros

2011-11-10, 19:19:11

BD ist in soooo vielen Sachen komisch. Ich werde da nicht schlau draus.

Ich hab zwar zugegeben Eure Debatte hier nicht verfolgt, aber salt, grain of:

1. Design based on simulated 2005 workloads.
2. Cache latencies are too high.
3. Inefficient decoder.

Ich bin zwar nur ein Laie, aber mein Instinkt wuerde mir sagen dass man solche ernsthafte Fehler nicht innerhalb nur einer Generation bewaeltigen kann.

Skysnake

2011-11-10, 19:44:00

@gipsel: ja nummerische lösungsverfahren/näherungen sind natürlich auch dabei. Es gibt natürlich such fälle wo es nichts bringt, mir fällt aber keiner ein, und wie du mit den gpus richtig sagst, man hat dax nicht ohne Grund rein gepackt :biggrin:

@ailuros:
das ist halt sehr schwer zu sagen. Man weiß ja nicht woran es liegt.

Ailuros

2011-11-10, 19:47:02

@ailuros:
das ist halt sehr schwer zu sagen. Man weiß ja nicht woran es liegt.

Klarer kann ich es Dir gar nicht machen und ich haette es nichtmal oeffentlich posten sollen. Aber wenn AMD Angestellten in anderen Foren der Kragen platzt und sie aehnliches behaupten ist es kein Geruecht mehr.

S940

2011-11-10, 20:06:27

Klarer kann ich es Dir gar nicht machen und ich haette es nichtmal oeffentlich posten sollen. Aber wenn AMD Angestellten in anderen Foren der Kragen platzt und sie aehnliches behaupten ist es kein Geruecht mehr.Na ist doch auch nix Neues. Dass die Caches ewig brauchen und die Decoder oft nur 2 Ops statt 4 durchlassen haben wir auch schon festgestellt. Die simulierten Workload-Info sind neu, aber wie schlimm ist das? Unterscheidet sich das zu heute sooo stark?

Innerhalb einer Generation wirds sicher nichts. So wies ausschaut wird bei BDv2r etwas am L1 <> L2 Interface herumgearbeitet und BDv3 bekommt dann laut c't eigene Decoder pro INT Cluster. Dann passts vielleicht, aber Intel ist dann mit Haswell 2.0 oder so am Start :freak:

Wieso die Geheimniskrämerei zur Quelle? Hab schon ne Quelle vom 18.10 dazu ergoogelt, ist das identisch mit Deiner?

Ailuros

2011-11-10, 20:21:02

Es ist irgendwo ein Monat her als ich fragte und es war natuerlich damals vertraulich.

S940

2011-11-10, 20:41:33

Ahso, also per Privatmitteilung. Dachte es wär ein normale Forenpost gewesen. Alles klar.

Skysnake

2011-11-10, 21:51:46

Ailuros

2011-11-11, 15:14:51

Haus ailuros damit ist das warum aber nicht geklärt. Das ist ja der entscheidende Faktor.

das alles wie geplant lauft kann ich mir nicht vorstellen. Das das nicht reicht hätte man schon sehr früh festgestellt bzw feststellen müssen.

zudem war nicht klar, dass das jetzt eine Begründung sein sollte.

Gerade der decoder könnte aber durchaus schnell gefixed werden, was die Logik angelegt. Wie man das aber dann integriert bekommt ist wieder etwas ganz anderes.

Ein refresh einer jeglichen Architektur kann dank Zeitmangel ein paar Sachen schon hinbiegen aber auf wirklich groessere Aenderungen kann man erst nach der zweiten Generation nach dem "flop" rechnen. Unter der Vorraussetzung dass nichts anderes schief laeuft und keine Resourcen reduziert werden klappt es meistens schon und das mehr oder weniger bei jeglicher hw mit quasi rapiden design-cycli. Was anderes hab ich auch nicht gemeint.

***edit: was den Thread-Titel betrifft: IMHO im besten Fall Gleichstand bei der uebernaechsten Generation. Ist aber auch eine ziemlich geraume Zeit fuer so einen cut throat Markt.

Skysnake

2011-11-11, 18:04:01

Ich glaub auch nicht, dass da ein großer Leistungssprung kommt, aber meine Hand für ins Feuer legen würde ich auch nicht.

Es ist halt absolut nicht klar, ob da irgendwas buggy ist an der Logik/sonst was, oder ob die Logik an sich einfach nicht zu gebrauchen ist.

Wenns letzteres ist, dann kann das Jahre dauern, bis die das gefixed haben.

Wenn keine Logikbuggs etc. drin sind, und "nur" optimiert werden muss, dann können wir große Leistungssteigerungen knicken. Denn BD wird wohl nicht super optimiert sein, aber hier mal einen Takt einsparen und dann dort, das ist echt harte Arbeit.

Dass die Logik an sich aber einfach Mist ist, kann ich irgendwie kaum glauben. Da hätte man doch merken müssen, dass das einfach nicht reicht. Ich mein HALLO, wir sind ja nicht irgendwie nur 1-2% unter den Erwartungen, sondern schon ziemlich weit weg von Intel.

Ailuros

2011-11-11, 19:25:37

Ja und? Alle IHVs haben ihre Hoehen und ihre Tiefen. Unterschied ist natuerlich dass Intel eine Unmenge an Resourcen hat sich schneller zu drehen, aber der Pentium4 wurde auch nicht ueber Nacht abgeschafft und etwas anderes eingestellt noch wurden je die angeblichen idiotischen Frequenzen fuer diesen erreicht. Wieso sollte jeglicher IHV immun zu jeglichen Schnappsideen oder falschen Design-Entscheidungen sein? Wenn das obrige nicht reicht dann Projekt Larabee.

Entweder schuften sich jetzt die AMD CPU engineers die Finger blutig nach N Zeitraum etwas konkurrenzfaehigeres auf den Tisch zu bringen oder es sieht im Gegenfall duester fuer sie aus. Unter normalen Umstaenden lernt ein IHV aus solchen Fehlern und es wird sich in der vorhersehbaren Zukunft schon zeigen ob die strategischen Aenderungen innerhalb AMD richtig oder falsch sind. Falls CPU engineering Resources reduziert wurden oder werden sollte das AMD Management erschossen werden.

Denn wenn ich persoenlich von "2005 workloads" lese stinkt dieses in allen Himmel nach veralteten tools bzw. zu kurzen Resourcen.

S940

2011-11-11, 21:43:09

Lol, mir kam gerade *die* Erklärung: Alle Performancevorhersagen und Konkurrenzbeobachtungen waren wohl auch noch Stand 2005 *g*
Na mal schauen, wieviel SpecRate hinten raus kommen, die Opterons kommen ja demnächst. Der AMD Compiler ordent die Instruktionen ja hoffentlich so an, dass der Decoder kein Flaschenhals wird.

Coda

2011-11-11, 22:06:31

Welcher AMD Compiler?

mrt

2011-11-11, 22:21:40

Er meint vermutlich den Open64... der nicht von AMD ist.

Coda

2011-11-11, 22:25:07

Benutzt den AMD wirklich für Spec?

Geldmann3

2011-11-11, 22:34:56

Ich denke AMD hat eine etwas andere Zielgruppe. Bei AMD gibt es beispielsweise viele Kerne für wenig Geld. ich persönlich nutze AMD einfach aus Kostengründen. Bei Benchmarks liegen aktuelle AMD CPUs zwar zurück doch in der Praxis macht es keinen spürbaren Unterschied. (Nur bei Videoencoding kommt mir Intel wesentlich schneller vor)
So bekommt man bei AMD schon sehr günstig 6 Kerner. Ich steh auf Kerne :wink:

Intel lohnt sich in meinen Augen, wenn es um die letzten Feinheiten wie Energieeffizienz und ein Maximum an Leistung geht. (In teuren High End Systemen oder beim extremen Masseneinsatz z.b. in einem riesigen Unternehmen) Was den meisten Privatanwendern wohl völlig egal ist und auch getrost egal sein kann.

Intel liefert Qualität und AMD Masse. Wobei die meisten ohne es zu wissen, keine solche Qualität brauchen. Würden sich die PC Käufer mehr mit der Materie beschäftigen, würden mehr Leute AMD kaufen, denke ich.

Jetzt kommen wieder die Leute, die Sagen: ,,Oh Nein, rede nicht so einen Scheiß, ein aktueller Sandy Bridge ist überlegen, das bisschen mehr Kosten. Fürs Gaming auf jeden Fall einen Sandy Bridge."

ich sage, es ist heutzutage nur noch für eine kleine Gruppe an Leuten relevant, alles herauszukitzeln. (Selbst beim Zocken)

Außerdem hoffe ich, dass mehr Leute AMD kaufen, denn wenn Intel das absolute Monopol bekommt, wird dies den Fortschritt bei der Entwicklung neuer CPU's bremsen. Ohne Wettbewerb, ist es für einen Hersteller nicht nötig bessere Produkte zu entwerfen. Denn dann könnte Intel die Preise beliebig skalieren.

S940

2011-11-11, 22:42:29

Benutzt den AMD wirklich für Spec?
Jupp seit Magny Cours oder gar Istanbul, weiß jetzt nicht mehr. Steigerte das Spec Ergebnis um 10-20%.
@mrt: Ja, ich sag ja nicht, dass er von AMD ist, ich nenn ihn nur so ^^

Edit:seit Istanbul
http://www.amd.com/us/products/server/processors/six-core-opteron/Pages/SPECint-rate-2006-two-socket-servers.aspx

mrt

2011-11-11, 22:43:04

Dann müsstest zB den gcc auch als AMD-Compiler bezeichnen ;)
Benutzt den AMD wirklich für Spec?
Zumindest verweisen sie auf Ergebnisse mit dem und natürlich auch anderen Compilern (zB PathScale). Auf der AMD-Seite sollten sich auch Links zu Ergebnissen mit ICC finden lassen.

S940

2011-11-11, 22:51:55

Dann müsstest zB den gcc auch als AMD-Compiler bezeichnen ;)
Ne, den kann man nicht von der AMD Seite runterladen ;-)

Hab oben nen Link dazueditiert, AMD verwendet den Compiler seit Istanbul / version 4.2.3.

Pentium M

2011-11-12, 00:24:11

Frag die Bevölkerung in D was ist x86 und dann Iphone 4 gs . Was sagt mir die Kochrezepte meines besten Kumpels, na klar Facebook dafür ist natürlich brachiale X86 power notwendig.Bitte nicht als Bashing verstehen.

S940

2011-11-12, 00:52:04

Bitte nicht als Bashing verstehen.
Ich versteh überhaupt nix.

Pentium M

2011-11-12, 01:04:52

Wieso gibt es denn 17 Zoll Notebooks mit E-450 APU ,Ich vermute weil der Mensch einfach nicht mehr braucht.

S940

2011-11-12, 01:40:09

Aso ja ... ist doch nichts Neues, gibt halt auch Segmente, wo Stromverbrauch vor Leistung kommt.

HOT

2011-11-12, 12:26:01

Die nächste Chance für AMD CPU-performancemäßig voranzukommen ist Excavator. Vorher ist das nur Verwalten des Rückstandes. Im Atom/Bobcat-Segment hat man allerdings ja jetzt schon einen Vorsprung, genau wie bei der GPU-Technik. Was Stromsparen in Notebooks angeht, so sehe ich da vor allem BrazosII im Vorteil, weil man damit langlebige Notebooks mit nativem USB3 bauen kann. Es kann also nur um einen Faktor in diesem Thread gehen, nämlich, dass ein AMD-BD-Modul langsamer ist als 1 oder 2 SB/IB-Kerne in Desktop-Apps. Aber die gewaltige Rolle spielt das doch garnicht...

S940

2011-11-12, 12:38:03

Die nächste Chance für AMD CPU-performancemäßig voranzukommen ist Excavator.
Na, Intel "schont" AMD ja. Anstatt die Leistung und Takt zu prügeln, verringern sie die TDP auf 77W.

Von daher könnte man dem Thread Titel nach noch spekulieren, dass AMD leistungsmäßig rankommt, aber nicht verlustleistungsmäßig ^^

(Und natürlich dann auch nur für Beobachtungen ohne OC).

Bin auf alle Fälle auf die Steamrollerkerne gespannt, da wird wohl wieder Größeres umgebaut. Excavator wird wohl eher Feintuning. In Ziffern ausgedrückt etwa so:

Bulldozer: BDv1 - 32nm
Piledriver: BDv1b - 32nm
Steamroller: BDv2 28nm
Excavator: BDv2b 22/20nm ?

Schlimmstenfalls wirds nur ein Shrink, aber sicher ist natürlich noch nichts, pure Spekulation.

Schaffe89

2011-11-12, 14:18:17

Intel produziert nicht nur für Sockel 1155 Prozessoren.
Intel ist bei 95Watt TDP mit dem i7 2700k schon deutlich am Limit und verbraucht mit lediglich 100mhz mehr laut HT4u 12 Watt mehr unter Last, als ein 2600k.
Hätte wäre wenn, die Leistung von AMD 20% besser wäre und man in Anwendungen den 2600k klarer hinter sich lassen könnte, dann könnte Intel auch nurnoch mit dem ein oder anderen schnelleren Modell kontern und dann wäre Ende., vll max. 4x3,8 ghz bei 125Watt TDP Standardtakt.

Intels SB-E wird mit ca 400mm² auch ein Design was deutlich ineffizienter ist als Sandy.

AnarchX

2011-11-12, 14:26:49

Intel ist bei 95Watt TDP mit dem i7 2700k schon deutlich am Limit und verbraucht mit lediglich 100mhz mehr laut HT4u 12 Watt mehr unter Last, als ein 2600k.

Wo gibt es bei HT4u einen 2700K Test?

Intels SB-E wird mit ca 400mm² auch ein Design was deutlich ineffizienter ist als Sandy.
Dafür sind es aber auch 8 Kerne, 4 Speicherkanäle und 20MiB Cache. Sandy Bridge-E auf dem Desktop ist eher nur ein teures Abfall-Produkt.

Coda

2011-11-12, 14:40:11

Ach der 3960X ist teildeaktiviert?

AnarchX

2011-11-12, 14:52:37

Ach der 3960X ist teildeaktiviert?
Natürlich, lustig wie man die Cores auf dem Die einfach unterschlägt:ftp://download.intel.com/newsroom/kits/restricted/$andybridgeE!/snbe/pdfs/Intel-SNB-E_LLPT_PressDeck.pdf Folie 7
Erst der 3820, der im Q1 2012 kommt, wird wohl ein natives 4-Core-Design sein.

Schaffe89

2011-11-12, 18:05:49

Wo gibt es bei HT4u einen 2700K Test?

Sry, war Hardwareluxx. :)

Coda

2011-11-12, 18:34:10

Natürlich, lustig wie man die Cores auf dem Die einfach unterschlägt:ftp://download.intel.com/newsroom/kits/restricted/$andybridgeE!/snbe/pdfs/Intel-SNB-E_LLPT_PressDeck.pdf Folie 7
Erst der 3820, der im Q1 2012 kommt, wird wohl ein natives 4-Core-Design sein.
Meinst du wirklich Intel fertigt extra noch einen 4-Kern-Prozessor für Sockel 2011? I doubt it.

Vier Kerne und vier Memory-Channels ergeben nämlich so gar keinen Sinn.

Ronny145

2011-11-12, 19:15:53

Meinst du wirklich Intel fertigt extra noch einen 4-Kern-Prozessor für Sockel 2011? I doubt it.

Vier Kerne und vier Memory-Channels ergeben nämlich so gar keinen Sinn.

Zumindest hat es die Stepping Nummer angedeutet. Normalerweise bleibt die sonst gleich.

Skysnake

2011-11-12, 19:30:25

Coda

2011-11-12, 21:18:13

Tja, dafür darfst du dich bei AMD bedanken ;)

Duplex

2011-11-12, 21:24:31

Nächstes Jahr könnte Intel dank 22nm auch 8 Kern CPUs mit 3Ghz+ für den Desktop rausbringen.

Aber wozu ein 8 Kern Ivy Bridge rausbringen wenn AMD erst in 1 Jahr mit Piledriver i7-2600 Leistung erreicht?

Ein Ivy Bridge 6 Core mit SMT & 4Ghz Basistakt sollte vollkommen ausreichen.

Neurosphere

2011-11-12, 23:33:22

Naja, Intel will ja auch neue Prozessoren verkaufen. Ob AMD nun was bringt oder nicht ist da erstmal relativ egal, dann löst man eben die eigenen Prozessoren beim Kunden ab. Der Erfolgsdruck ist natürlich nicht so groß da die Gefahr Anteile am Markt zu verlieren kleiner ist, aber verkaufen muss man dennoch etwas.

Captain Future

2011-11-13, 09:32:24

Das nen nativer Quad kommt halte ich auch für eher unwahrscheinlich, aber man soll niemals Nie sagen...

Das wir aber im Desktop nur mit einem Hexa abgespeist werden finde ich schon sehr bescheiden...
Für was brauchst du auf dem Desktop denn ernsthaft mehr als 6, oder auch nur mehr als 4 Kerne? Wer jetzt mit Rendering ankommt, der sollte vielleicht mal eine Workstation in Betracht ziehen - oder, wenn es nur um die Kerne geht, eben einen FX kaufen. :eek:

AnarchX

2011-11-13, 09:55:06

Meinst du wirklich Intel fertigt extra noch einen 4-Kern-Prozessor für Sockel 2011? I doubt it.

Vier Kerne und vier Memory-Channels ergeben nämlich so gar keinen Sinn.
Es soll sogar 2-Core-Xeons geben: http://www.cpu-world.com/news_2011/2011102701_Prices_of_Xeon_E5-2600-series_CPUs.html
Aber vielleicht ist es auch ein 6-Core-Design mit 12MiB L3, der Sprung auf 8 Kerne benötigt ja einen relativ aufwendigen Ringbus. Ein solcher 6C/12M-Die dürfte kaum größer sein als Gulftown.

HOT

2011-11-13, 10:50:08

Na, Intel "schont" AMD ja. Anstatt die Leistung und Takt zu prügeln, verringern sie die TDP auf 77W.

Von daher könnte man dem Thread Titel nach noch spekulieren, dass AMD leistungsmäßig rankommt, aber nicht verlustleistungsmäßig ^^

(Und natürlich dann auch nur für Beobachtungen ohne OC).

Bin auf alle Fälle auf die Steamrollerkerne gespannt, da wird wohl wieder Größeres umgebaut. Excavator wird wohl eher Feintuning. In Ziffern ausgedrückt etwa so:

Bulldozer: BDv1 - 32nm
Piledriver: BDv1b - 32nm
Steamroller: BDv2 28nm
Excavator: BDv2b 22/20nm ?

Schlimmstenfalls wirds nur ein Shrink, aber sicher ist natürlich noch nichts, pure Spekulation.

War mit bekannt, aber mit Excavator könnte AMD wenigstens kurzzeitig einen Fertigungsvorspung erreichen (für 1/2 Jahr oder so). Und mit einem Shrink kann man den neuen Fertigungsprozess auch leichter ausreizen als mit einem Neudesign. Siehe z.B. Agena vs. Deneb. Hier wurde nur Bugfixing von Rev.B auf C betrieben, aber der Taktvorsprung ist gewaltig.
Danach dürfte ein stark veränderter BD mit voller Grafikintegration kommen, da werden die Karten eh komplett neu gemischt.

Tja, dafür darfst du dich bei AMD bedanken ;)
Wohl eher bei Intels Fertigungsprozess und der für Desktop auf 130W beschränkten TDP. AMD hat damit mal so garnichts zu tun.

Nächstes Jahr könnte Intel dank 22nm auch 8 Kern CPUs mit 3Ghz+ für den Desktop rausbringen.

Aber wozu ein 8 Kern Ivy Bridge rausbringen wenn AMD erst in 1 Jahr mit Piledriver i7-2600 Leistung erreicht?

Ein Ivy Bridge 6 Core mit SMT & 4Ghz Basistakt sollte vollkommen ausreichen.

Ein IvyE ist ein Steamroller-Konkurrent, weil die ziemlich zeitnah erscheinen dürften (IvyE Ende 2012 frühestens, eher 2013 und Steamroller Q1 oder Q2 2013 für FM2). Piledriver ist ja nur BD-bugfixing.

Captain Future

2011-11-13, 10:54:37

Ich find's total gut, dass noch nicht jeder alle Hoffnung in Bezug auf AMD verloren hat!

Coda

2011-11-13, 11:16:27

Locuza

2011-11-13, 12:10:19

Ich hatte große Hoffnung vor Bulldozer, aber mittlerweile bin ich echt am verzweifeln.

Der letzte Funke ist, dass Bulldozer einfach sehr viele kleine Probleme hat, die zusamen den Fuckup ausmachen und nicht die ganze Architektur auf den Prüfstand muss.
Das ist ja auch immer das Wunschdenken welches man hat, aber seit ich die Marketingfolien gesehen habe, ist auch dieses ziemlich zerstört.
Every Year 10-15% Perf/Watt improvement?

Marketing ist allgemein nur Positiv ausgerichtet und dann so etwas. Das lässt die Zukunft nicht gerade positiv aussehen.

Das Konzept ist wohl wirklich einfach zu früh rausgebracht worden.
http://www.computerbase.de/artikel/prozessoren/2011/bericht-amds-bulldozer-im-detail/4/#abschnitt_cmt_und_einzelne_kerne

Der Test von Computerbase zeigt schon, dass der Bulldozer sich nur wie ein Quadcore aktuell verhalten kann und durch die Threadzuweißungen keine Module schlafen legen.

Alleine von der Umgebung her und der Arbeitsweiße ist das Konzept fehl am Desktop. Wobei ich dann eher zuversichtlich auf Piledriver in der APU schauen kann.

Aber bis man nicht die eigenen Prognosen übertreffen kann und die APUs in Zukunft immer mehr ihre Vorteile ausspielen können, solange wird das krebsige Niveau leider beibehalten.

Duplex

2011-11-13, 13:41:14

Ein IvyE ist ein Steamroller-Konkurrent, weil die ziemlich zeitnah erscheinen dürften (IvyE Ende 2012 frühestens, eher 2013 und Steamroller Q1 oder Q2 2013 für FM2). Piledriver ist ja nur BD-bugfixing.
Es interessiert mich nicht wann die großen Modelle kommen :rolleyes:
Von Ivy Bridge High End war nicht die rede, Ivy Bridge für S.1155 kommt Anfang 2012 und noch vor Piledriver.

@Locuza
Ja diese 10-15% pro Jahr sind auch lächerlich, die meißten dachten das Bulldozer bis 50% schneller als ein Thuban wird, das die dann sowas auch noch als 8 Kern CPU verkaufen ist einfach nur dumm.

S940

2011-11-13, 13:55:06

War mit bekannt, aber mit Excavator könnte AMD wenigstens kurzzeitig einen Fertigungsvorspung erreichen (für 1/2 Jahr oder so).
Glaub ich eher nicht. Wie soll das gehen? Intel fertigt bereits jetzt 22nm DIEs, während GF nachwievor Probleme mit 32nm hat. Das AMD da irgendwann gar nen Vorsprung haben könnte, passiert nicht so schnell.
Einziger Lichtblick sind die half-node Prozesse, damit ist man dann nur "halb" hinter Intel. Wenn Intel auf 18 oder 16mn umsteigt sollte GF dann endlich 22/20 fertig haben ^^

Und mit einem Shrink kann man den neuen Fertigungsprozess auch leichter ausreizen als mit einem Neudesign. Siehe z.B. Agena vs. Deneb. Hier wurde nur Bugfixing von Rev.B auf C betrieben, aber der Taktvorsprung ist gewaltig.
Naja, klar45nm anstatt 65nm ist schon mehr als ein "kleiner" Unterschied.
Danach dürfte ein stark veränderter BD mit voller Grafikintegration kommen, da werden die Karten eh komplett neu gemischt.
Vielleicht kommt das schon mit Excavator, sind ja nur die Architekturnamen. Ob die dann in ner CPU oder APU, oder beides verbastelt werden, weiß man nicht.

Ein IvyE ist ein Steamroller-Konkurrent, weil die ziemlich zeitnah erscheinen dürften (IvyE Ende 2012 frühestens, eher 2013 und Steamroller Q1 oder Q2 2013 für FM2). Piledriver ist ja nur BD-bugfixing.
FM2 ... mal abwarten, ob das noch kommt. Der neue Chef ist am Arbeiten und bastelt an der Roadmap. Der Analystentag wurde sicherlich nicht ohne Grund auf Februar gelegt. Komodo hat er anscheinend eh schon gestrichen, genauso wie ein >1000 Arbeiter, also da würde ich mich nicht allzuviel auf alte Roadmaps oder Gerüchte verlassen. Gut möglich, dass er jetzt erstmal Bobcat/ARM priorisiert und die Steamroller xPUs verschoben werden. Aber gut - zumindest die APUs laufen gut und sind topp im Zeitplan. Da sollte die SRoller APU mit GCN schön zeitig in 2013 kommen. Aber bei Server/highE-Desktop gibts grad große Fragezeichen.
Das wir aber im Desktop nur mit einem Hexa abgespeist werden finde ich schon sehr bescheiden...
Na da wirds sicherlich auch nen 8Kern Xeon geben. Gibt ja auch 32nm Gulftown Quad Xeons für S1366 - kennt nur fast keiner ^^
Ich hatte große Hoffnung vor Bulldozer, aber mittlerweile bin ich echt am verzweifeln.

Der letzte Funke ist, dass Bulldozer einfach sehr viele kleine Probleme hat, die zusamen den Fuckup ausmachen und nicht die ganze Architektur auf den Prüfstand muss.Schließe mich an. Blöd ist, das wir nicht genau wissen, wieviel der WT Cache, die Cachegröße usw ausmacht...
Aber wie schon erwähnt, der L2 Cache mit steigender Latenz @128kB gefällt mir ganz und gar nicht. Wozu hab ich 2MB Cache, wenn nur 128KB davon "gut" laufen .... :(