AMD - AMDs Bulldozer - neue CPU-Architektur für Q2 2011 [Archiv] - Seite 5

S940

2010-09-17, 16:19:18

klingt für mich eher nach Marketing als Nutzen
Naja - sooo viel heiße Luft ist es nicht, aber Weltbewegendes wirds natürlich auch nicht sein. Was gemeint sein wird:
a)
Bessere L3/RAM Anbindung, bisher läuft das nur über 64bits, das ist für dual channel DDR3 zuwenig, deswegen bringt DDR3-1600 abgesehen von besserer Latency bei den K10 auch nix (solange man nicht die NB übertaktet).

b)
Directory Cache - bringt eh nur was für Multiprozessorsetups mit NUMA, und ist noch unbestätigt

c)
Store - load OoO: The original K8 had a totally in-order memory pipeline, while Istanbul had a non-speculative out-of-order memory pipeline – loads could only move ahead of stores known to have a different address. Bulldozer improves this further with a dependence predictor that will determine when loads can speculatively pass stores. This latter technique is referred to as memory disambiguation by Intel and first showed up in the Core 2 Duo.

d)
3 Mem Operationen pro Takt möglich, anstatt 2, ebenfalls schon auf rwt genannt:
In total, this means that each Bulldozer core can have 33% more memory operations in flight compared to the previous generation and about 20-30% less than Nehalem or Westmere.

e) Prefetcher:
Prefetching is another area where historically Intel has relentlessly focused, and AMD has lagged behind. Prefetching can be highly effective at reducing memory latency, and can lead to tremendous increases in performance – especially for workloads with complex data structures that tend to incur many cache misses. In Bulldozer, there was a tremendous amount of effort put into the prefetching that should yield good results.

Also das ist schon mehr als "nur" Marketing, da wurde an allen Ecken und Enden gearbeitet. Was es am Ende bringt, wird man sehen müssen, aber gegenüber K10 wirds ganz sicher einen tüchtigen Aufschlag geben ^^

Falls es nicht bekannt sei sollte Quelle der Zitate:
http://www.realworldtech.com/page.cfm?ArticleID=RWT082610181333&p=1 ff

ciao

Alex

WEGA

2010-09-17, 17:04:10

klingt für mich eher nach Marketing als Nutzen
war auch mein erster gedanke. aber genau das fehlte AMD früher - weiter so AMD! ;)

Finch

2010-09-19, 14:30:00

Ja stimmt schon. Amd hat da zu lange zu wenig getan.

Finch

2010-09-20, 22:00:46

Auslieferung von „Bulldozer“-Samples steht kurz bevor(Computerbase) (http://www.computerbase.de/news/hardware/prozessoren/amd/2010/september/auslieferung-von-bulldozer-samples-steht-kurz-bevor/)

john carmack

2010-09-23, 22:44:03

Sagt mal, wie lange will AMD denn noch den Bulldozer hinauszögern?
Absicht von AMD ist das bestimmt nicht. Aber die PhenomII Generation ist meiner Meinung nach am Ende!

Es kommt jetzt vielleicht noch ein 1100T mit 6x 3300Mhz (Der glaube ich schon bestätigt wurde) - Maximal einer mit 6x 3400Mhz. Und dann?

So wie es für mich aussieht kommt der Bulldozer erst nach dem SandyBridge. Und die aktuellen i5 / i7 CPU´s sind ja jetzt schon viel schneller. Wie soll das noch enden?

Alles was im Moment für AMD spricht, ist der Preis - Mainstream eben.
Schade...

Gast

2010-09-23, 22:56:24

Bulldozer ist ein 2 Alu + 2 Agu Design, dazu noch 30% höherer Takt bei gleicher Spannung @17 FO4

wahrscheinlich erstmal Single Thread bis 4,5 Ghz und Multi Thread bis 4 Ghz

K10 vs. Nehalem

http://www.computerbase.de/artikel/prozessoren/2010/test-drei-neue-amd-cpus/5/#abschnitt_cinebench

Bei Single Thread ist der schnellste Intel Quad Core 25% schneller als der AMD 1090T.

Bei Multi Thread nur noch 10% ;)

http://www.abload.de/img/amd1isp4.png (http://www.abload.de/image.php?img=amd1isp4.png)
http://www.abload.de/img/amdvsv0.jpg (http://www.abload.de/image.php?img=amdvsv0.jpg)

Coda

2010-09-24, 02:10:15

Sagt mal, wie lange will AMD denn noch den Bulldozer hinauszögern?
2011 war doch schon lange klar. Auf 45nm lässt sich das Dinge eh nicht fertigen und vorher ist 32nm eben nicht fertig.

john carmack

2010-09-24, 13:16:17

Acht-Kern-„Bulldozer“ mit 16 MB Gesamt-Cache?

http://www.computerbase.de/news/hardware/prozessoren/amd/2010/september/acht-kern-bulldozer-mit-16-mb-gesamt-cache/

Der_Korken

2010-09-24, 14:32:35

Acht-Kern-„Bulldozer“ mit 16 MB Gesamt-Cache?

http://www.computerbase.de/news/hardware/prozessoren/amd/2010/september/acht-kern-bulldozer-mit-16-mb-gesamt-cache/

Ist das nicht schon länger bekannt? Ich meine das wurde hier schon vor Ewigkeiten im Thread gepostet.

@Gast über Coda: Warum vergleichst du einen Hexacore mit einem Quadcore? Da ist es doch wohl logisch, dass der Hexacore beim Multithreading mehr zulegt als der Quadcore. Der Hexacore von Intel hängt den AMD dagegen ab.

S940

2010-09-24, 17:09:38

Ist das nicht schon länger bekannt? Ich meine das wurde hier schon vor Ewigkeiten im Thread gepostet.

Nö, offiziell ist sind nichtmal die 2MB L2 bestätigt.
Aber das Gerücht liegt halt bei 99% Wahrscheinlichkeit ...

y33H@

2010-09-24, 17:12:43

iirc standen die 2M mal auf einer Folie *grübel*

Da der L2 shared ist, hat man pro Int-Core wenn man so will, 1M. Das ist ziemlich viel für ein exklusives Design. Bulldozer ist somit nicht nur ein Kern- sondern auch ein Cache-Monster. Wobei 8M L3 für 8C weniger sind pro Kern, also die 8M für vier Kerne/acht Threads beim Sandy Bridge. Aber das kann man eh nicht in einen Topf werfen.

Naitsabes

2010-09-24, 19:05:27

Sollte der L1 und L2 nicht inklusiv sein? Habe ich jedenfalls so im Kopf, der L3 wäre aber wieder komplett "abgekoppelt".

Undertaker

2010-09-24, 19:15:31

Da der L2 shared ist, hat man pro Int-Core wenn man so will, 1M. Das ist ziemlich viel für ein exklusives Design. Bulldozer ist somit nicht nur ein Kern- sondern auch ein Cache-Monster.

Wenn man sich den Die-Shot ansieht, und dieser zumindest grob stimmt, ist der Cacheanteil an der Gesamtfläche dennoch recht gering. In 32nm ist das Transistorbudget entsprechend groß, dass man sich das offensichtlich locker leisten kann.

HOT

2010-09-25, 10:35:45

Sollte der L1 und L2 nicht inklusiv sein? Habe ich jedenfalls so im Kopf, der L3 wäre aber wieder komplett "abgekoppelt".
Würde ich auch mal so behaupten, weil die L1 doch recht klein geraten sind und die L2 recht gross. Zudem ist das bei (3?) getrennten L1D pro Modul sicherlich auch sehr nützlich die inclusive immer im L2 zu haben. Der L3 ist was anderes, weil der einfach anders genutzt wird als bei Intel. Der ist eben nur dann inclusive, wenn es Verbindungen zwischen den Threads gibt (ist ja heute schon so).

S940

2010-09-25, 12:01:39

iirc standen die 2M mal auf einer Folie *grübel*
Ne offizielle AMD FOlie ? Da ist mir nichts bekannt. Den besten Hinweis gabs mal von JF, der mal kurz in seinem Blog von 2MB L2 sprach - es dann aber nach nem Hinweis löscht und es als "Typo" bezeichnete :freak:

Da der L2 shared ist, hat man pro Int-Core wenn man so will, 1M. Das ist ziemlich viel für ein exklusives Design.Bulldozer ist somit nicht nur ein Kern- sondern auch ein Cache-Monster. Hmm, wieso ? 1MB/Kern hat LLano doch auch ;-)
Ist ja eh der Vorteil von exklusive L2, dass die beliebig groß sein können, von daher finde ich das jetzt nicht soo aufregend. Die alten 45nm S775 CPUs hatten ~3MB L2 pro Kern, das war ne Hausnummer :freak:
Wobei 8M L3 für 8C weniger sind pro Kern, also die 8M für vier Kerne/acht Threads beim Sandy Bridge. Aber das kann man eh nicht in einen Topf werfen.Öh ja, kann man nicht, denn es gibt ja noch den gerade erst besprochenen exklusiven L2. Intel kann (bei den Quad SBs)total 8 MB L2+L3 Cache nutzen, AMD dagegen 8MB L2+8MB L3 (falls die Werten nun wirklich stimmen würden). Das wäre mal grob gerechnet das Doppelte :biggrin:
@Vladez& HOT:
Realworldtech lesen ...
Bulldozer’s L2 cache is shared between the two cores in a module and is mostly inclusive of the L1D caches (recall that the L1D is write-through).

http://www.realworldtech.com/page.cfm?ArticleID=RWT082610181333&p=8

Undertaker

2010-09-25, 12:09:40

Öh ja, kann man nicht, denn es gibt ja noch den gerade erst besprochenen exklusiven L2. Intel kann total 8 MB L2+L3 Cache nutzen, AMD dagegen 8MB L2+8MB L3 (falls die Werten nun wirklich stimmen würden). Das wäre mal grob gerechnet das Doppelte

Aaachtung, Milchmädchenrechnung. ;) Das klappt nur für den Fall vollkommen unabhängiger Threads. Der andere Extremfall wäre, dass alle Kerne die selben Daten benötigen, dann wären durch den Datenaustausch über den L3 nur noch insgesamt 8MB Cache effektiv verfügbar.
Real dürfte es sich dann je nach Fall irgendwo dazwischen abspielen.

Gast

2010-09-25, 13:01:02

http://www.realworldtech.com/page.cfm?ArticleID=RWT082610181333&p=8

Wow, zumindest allemal ein interessanter Ansatz L1/L2-Cache inklusiv zu machen und den L2/L3 exklusiv. Auch hier beschreitet AMD also völlig neue Wege mit Bulldozer. Ich bin wirklich gespannt, da wurde ja praktisch alles umgekrempelt.

Gast

2010-09-25, 13:07:16

Aaachtung, Milchmädchenrechnung. ;) Das klappt nur für den Fall vollkommen unabhängiger Threads. Der andere Extremfall wäre, dass alle Kerne die selben Daten benötigen, dann wären durch den Datenaustausch über den L3 nur noch insgesamt 8MB Cache effektiv verfügbar.
Real dürfte es sich dann je nach Fall irgendwo dazwischen abspielen.

Selbst wenn alle 8 Threads zur selben Zeit exakt die selben Daten benötigen würden (was sehr unwahrscheinlich ist) kann man über den gesharten L2 auch jeweils zwischen zwei Kernen tauschen sodass es selbst im schlimmsten Fall mehr als 8MB sind. ;)

Undertaker

2010-09-25, 13:22:27

Klar, der jeweils andere Kern des Moduls kann direkt auf den gemeinsamen L2 zugreifen, aber was, wenn auch andere Module die Daten benötigen? Dann muss der Kram dennoch in den L3 ;)
Ansonsten hast du natürlich recht, beide Extremfälle sind reichlich abstrakt. Generell halte ich aber von solchen vergleichenden Cache-Rechnungen zwischen völlig verschiedenen Architekturen recht wenig, dafür sind die Auswirkungen verschiedener Cachegrößen einfach zu unterschiedlich.

Gast

2010-09-25, 13:26:48

Klar, der jeweils andere Kern des Moduls kann direkt auf den gemeinsamen L2 zugreifen, aber was, wenn auch andere Module die Daten benötigen? Dann muss der Kram dennoch in den L3 ;)

Ja, aber das sind dann die 2MB des L2-Caches. Bei dir klingt das so als würde das dann alle 8MB belegen.

Ansonsten hast du natürlich recht, beide Extremfälle sind reichlich abstrakt.

Eben nicht. Es ist fast immer so das jeder Thread seine eigenen Daten benötigt, das mehrere Threads exakt die selben Daten benötigen ist sehr unwahrscheinlich.

Undertaker

2010-09-25, 13:42:38

Das wäre in dem erwähnten Spezialfall doch auch so? Stell dir vor, irgendein Kern von Modul 2-4 braucht die L2-Daten von einem Kern von Modul 1 -> L2-Daten von Modul 1 müssen in den L3 kopiert werden. Ein/beide Kern(e) von Modul 1,3 oder 4 braucht die L2-Daten von einem Kern von Modul 2 -> L2-Daten von Modul 2 müssen in den L3 kopiert werden. Und so weiter.

Theoretisch kann alles, was in einem der L2 Caches liegt, von einem anderen Modul benötig werden und belegt dann, ganz wie bei einem inklusiven Design, den entsprechenden Platz im L3.

Und komplett unabhängige Threads halte ich in der Tat für Ausnahmefälle. Sei es eine Renderingaufgabe, eine auf mehrere Threads parallelisierte Physik- oder KI-Aufgabe eines Spieles, da wird immer wieder modulübergreifender Datenbedarf auftreten.

Zweifellos werden sich aber sowohl AMD bei Bulldozer, als auch Intel für ihre jeweiligen Architekturen ganz genau überlegt haben, welche Kombination aus Cachegrößen, inklusivem und exklusivem Design das beste Ergebnis liefert. :)

Gast

2010-09-25, 13:48:50

Und komplett unabhängige Threads halte ich in der Tat für Ausnahmefälle. Sei es eine Renderingaufgabe, eine auf mehrere Threads parallelisierte Physik- oder KI-Aufgabe eines Spieles, da wird immer wieder modulübergreifender Datenbedarf auftreten.

Erst wenn drei Threads oder mehr die selben Daten benötigen benötigt man den L3. Bei zwei Threads hat man noch den gesharten L2. Im L2 liegen die L1-Daten von beiden Kernen noch dazu inklusiv, hier hat man also auch maximal schnellen Zugriff. Damit hat man die Nachteile des exklusiven Design gut entschärft ohne auf die Vorteil zu verzichten IMO. Sehr spannender Ansatz.

Gast

2010-09-25, 13:55:58

Lolzz63

2010-09-29, 13:16:17

Hallo, was hat 128bit in FP Bereich an sich? Heisst das Fliesskommaberechnungen mit diese (krasse) Präzision möglich sind, oder, zwecks Geschwindigkeit, als 2x 64bit Fliesskommazahlen benutzt werden (für SIMD)? Oder beide sind möglich? Falls 128bit FP möglich wäre, wie werden die Bits für Exponent und Mantissa geteilt?

Danke in voraus :smile:

Sorry, mein Deutsch ist Schrecklich, ich weiss ;(

S940

2010-09-29, 16:28:21

Das ist nur für SIMD, die Genauigkeit beträgt maximal Double Precision, also 64bit.

Wer mehr braucht kann noch per x87 Befehlen auf 80bit Genauigkeit kommen, aber das hat dann nichts mit SSE zu tun.

HOT

2010-10-01, 10:33:25

Man muss die Daten selbst im schlimmsten Fall nur dreimal kopieren und nicht sieben mal, dank des gesharten L2.
Da wird garnix kopiert. Die Daten werden je nach Bedarf im L1 und L2-Cache hinterlegt (beide, da wohl Inclusive) und landen evtl. auch im L3, falls die Daten mehrere Threads betreffen (der ist teil-Inclusive). Das ist aber nicht zwingend, da Daten, die nur das Modul betreffen, da nicht rein sollen. Auf jeden Fall aber, werden die Daten in den Speicher geschrieben (oder über HT nochmal in einem anderen L3 hinterlegt und dann dort in den Speicher geschrieben). Der Cache kann doch nur dafür sorgen, dass die Daten, die im Cache schon liegen, beim Lesezugriff wesentlich schneller vor Ort sind als wenn man auf den Speicher zugreifen müsste, sonst nix. Sind die entsprechenden Synchronisierungsdaten und/oder Arbeitsdaten nicht im L3 hinterlegt, gibts nen Lesezugriff, so einfach ist das. Da wird nix hin- und herkopiert. Der das behauptet hat ne völlig falsche Vorstellung davon, wie Caches funktionieren...

boxleitnerb

2010-10-20, 14:22:27

Da hab ich aber was anderes gelesen:
http://news.techworld.com/sme/3244300/amd-cto-predicts-end-to-multi-core-chip-race/

Wie man Spiele unbegrenzt parallelisieren will, ist auch die Frage. Ich denke, bei 10-12 Cores ist erstmal Ende der Fahnenstange.

dildo4u

2010-10-20, 14:26:45

Da hab ich aber was anderes gelesen:

Bulldozer will über mehr "Cores" Performance erreichen pro Kern wird die näste Gen langsamer als Phenom 2.Es geht mir jetzt erstmal um die nästen 2 Jahre.

S940

2010-10-20, 14:47:13

pro Kern wird die näste Gen langsamer als Phenom 2.
Interessant, woran machst Du das fest ? An der einen INT Pipe weniger ?

y33H@

2010-10-20, 15:28:56

Die IPC wird bei BD steigen, an SB aber wohl kaum vorbei ziehen.

AnarchX

2010-10-20, 15:29:40

Vielleicht gibt es dafür >4GHz Referenztakt bei BD.

y33H@

2010-10-20, 15:34:23

Das wäre eine Option, ja. Wobei mir eine CPU mit mehr IPC lieber ist, da ich prozentual durch OC meist mehr rausholen kann [siehe Lynnfield vs. Deneb] ;)

boxleitnerb

2010-10-20, 15:35:51

Bulldozer will über mehr "Cores" Performance erreichen pro Kern wird die näste Gen langsamer als Phenom 2.Es geht mir jetzt erstmal um die nästen 2 Jahre.

Ah ich dachte längerfristig.

dildo4u

2010-10-20, 15:44:57

Die IPC wird bei BD steigen,
Nope.

Interessant, woran machst Du das fest ? An der einen INT Pipe weniger ?
"Bulldozer“ steht für ein Modul, das im einfachsten Sinne einem Zwei-Kern-Prozessor entspricht – es würde sich im Betriebssystem auch als CPU mit zwei Kernen ausgeben. Es ist aber kein „echter“ Zwei-Kern-Prozessor, er spielt vielmehr eine Etage darunter, weshalb die Vermarktung der Modelle entsprechend spannend wird. Auf einer entsprechenden Skala zwischen 0 Prozent für einen Single-Core-Prozessor und 100 Prozent, die für ein reines Dual-Core-Modell (CMP – Core Multi Processing) stehen, würde das „Bulldozer“-Design nach bisherigen Schätzungen bei etwa 80 Prozent landen"

http://www.computerbase.de/news/hardware/prozessoren/amd/2010/august/offizielle-details-zu-bobcat-und-bulldozer-von-amd/

Ich weiss das man dadurch Transistoren spart aber man setzt halt extrem darauf,das die Anwendung viele Threads nutzt,ein Game was 3 oder 4 Thread's nutzt wird auf Bulldozer ziemlich abkacken.

AffenJack

2010-10-20, 15:53:19

Nope.

Doch sie wird steigen, dass hat JF-AMD schon bestätigt. Damit ist das eher offiziell.
Und was hat dein zitat mit ipc zutun? Gar nix, es zeigt nur wie effektiv das moduldesign im vergleich zu nem richtigen dual-core bzw smt sein soll.

dildo4u

2010-10-20, 16:04:01

Doch sie wird steigen, dass hat JF-AMD schon bestätigt. Damit ist das eher offiziell.
Und was hat dein zitat mit ipc zutun? Gar nix, es zeigt nur wie effektiv das moduldesign im vergleich zu nem richtigen dual-core bzw smt sein soll.
Der Vergleich wird doch mit einem Phenom 2 Dualcore sein oder nicht?AMD kann durch die neue Bauweise mehr Module verbauen ja dafür spart man an der Pro Thread Leistung,das heißt wenn das Game nicht 6 oder 8 Thread's nutzt wird Bulldozer verdammt langsam.

S940

2010-10-20, 16:16:55

Vorne weg, das war ne Fangfrage von mir, ich bin mir ziemlich sicher, dass ich in Sachen BD mehr Ahnung habe als Du, und das mein ich nicht arrogant ;-)
Nope.
Oh yes :)

"Bulldozer“ steht für ein Modul, das im einfachsten Sinne einem Zwei-Kern-Prozessor entspricht – es würde sich im Betriebssystem auch als CPU mit zwei Kernen ausgeben. Es ist aber kein „echter“ Zwei-Kern-Prozessor, er spielt vielmehr eine Etage darunter, weshalb die Vermarktung der Modelle entsprechend spannend wird. Auf einer entsprechenden Skala zwischen 0 Prozent für einen Single-Core-Prozessor und 100 Prozent, die für ein reines Dual-Core-Modell (CMP – Core Multi Processing) stehen, würde das „Bulldozer“-Design nach bisherigen Schätzungen bei etwa 80 Prozent landen"

Das ist alles schön nett, aber wo ist hier der Bezug zum K10 ?
Die 80% Leistung beziehen sich auf nen hypotetischen, "echten" dual core Bulldozer, nicht auf den K10. Der hat damit gar nichts zu tun ;-)
Den Fehler machen viele, Du bist da bei Weitem nicht der Erste, deswegen die Fangfrage, dachte schon, dass das in die Richtung gehen wird ;-)

Ähnliches ist es mit den 3 gegen 2 Pipelines, die oft als Grund ins Feld geführt werden. Da wird dann gemutmaßt, dass das ganz sicher schlechter wäre, schließlich ist 3 > 2. Aber man vergleicht da wieder nur Äpfel mit Birnen, eben 3x K10 Pipes mit 2xBD Pipes.
3x 8800GT im SLi Verbund wären auch nicht schneller als 2x GTX480 ...

Die BD Pipes werden garantiert schneller, dafür ist schon ausreichend offiziell bekannt. Am meisten wird das gute alte CMP Fusion (http://www.tecchannel.de/server/hardware/437111/wechsel_an_der_spitze_intels_neue_core_prozessoren/index8.html) (das was Intel bei Core2 einführte) und das bessere Speicher OoO bringen (das was bei Intel Memory Disambiguity (http://arstechnica.com/hardware/news/2006/04/core.ars/8) genannt wird). Auch die Zugriffsverbesserung auf den L1 Cache (jetzt 3 statt 2 Zugriffe pro Takt erlaubt) wird das ganze Spielchen im Vergleich zum K10 ändern. Und dann gibts da noch viele kleine Sachen, auch ist noch nicht bekannt, das Front-End liegt noch sehr im Dunkeln, da hoffe ich noch auf ne Art Trace Cache, aber das ist nur spekulation.

Wie auch immer, oben drauf kommt dann vermutlich noch ein relativ hoher Standardtakt und als Sahnehäubchen dann noch Turbo bei Nichtnutzung anderer Module ...

Alles in Allem reicht das ganz locker, um schneller als ein K10 zu sein. Alles andere wäre auch arg blamabel ;-)

ciao

Alex

dildo4u

2010-10-20, 16:18:55

Das ist alles schön nett, aber wo ist hier der Bezug zum K10 ?
Die 80% Leistung beziehen sich auf nen hypotetischen, "echten" dual core Bulldozer, nicht auf den K10. Der hat damit gar nichts zu tun ;-)

Aber eine solche CPU wurde doch nie gebaut oder?(Deshalb ging ich von Phenom 2 als Basis aus) wäre doch viel zu teuer alles Simulation?

S940

2010-10-20, 16:26:59

Aber eine solche CPU wurde doch nie gebaut oder?(Deshalb ging ich von Phenom 2 als Basis aus) wäre doch viel zu teuer alles Simulation?
Natürlich nicht, aber man kanns sehr gut simulieren, wie du schon richtig festgestellt hast :)

AffenJack

2010-10-20, 16:30:15

Nein, bei der aussage wurde mit keinem prozessor verglichen sondern generell mit dual-core. Es ist ne allgemeine aussage, dass amds modul eine steigerung der Leistung eines Single-Cores um bis zu 80% bringen soll, während smt laut amd nur 25% steigerung der leistung bringt.
Kurz halt:
BD Singlecore: 100%
BD Modul: 180%
BD echter Dualcore: 200%

Man spart nicht an der pro thread leistung, man will bloß eine höhere skalierung als smt bei deutlich weniger diespace als bei nem dual-core erreichen. Wenn ne Anwendung 4threads hat, dann wird halt von jedem modul 1 kern voll laufen und der rest wohl in stromsparmodus gehen, so in etwa wie es auch bei smt der fall ist.

sklave_gottes

2010-10-20, 22:35:29

Und wenn ein spiel nur auf 2 kernen läuft, werden natürlich direkt 2 BD module angesprochen. Und dann erst der "2" teil vom modul. So das man 100% 2 Kerne hat. Alles andere würde ja keinen sin ergeben.

mfg martin

Duplex

2010-10-20, 22:53:32

Bulldozer soll 30% höher als K8@45nm bei gleicher Spannung takten können, dazu kommt noch mehr IPC als K8 @45nm, Modul mit neuer Turbo Mode, AVX, XOP, FMA4, ich schätze die IPC eines Cluster integer Core wird zwischen Core2 & Nehalem liegen, also die 8 Bulldozer Cores sind dann mit 4-4,5 Ghz sehr schnell, ich glaube nicht das BD 2+2 @17FO4 Design nachteile gegenüber K10 hat, der wird schon was großes leisten können.

Schnitzl

2010-10-20, 23:23:33

(...)

Alles in Allem reicht das ganz locker, um schneller als ein K10 zu sein. Alles andere wäre auch arg blamabel ;-)

ciao

Alex
Hm, das wird nicht reichen, der K10 interessiert nächstes Jahr niemanden mehr.
Man muss zu Intel aufschliessen, idealerweise auf gleiche Höhe SB.
Alles andere wäre imho schlecht :(

MfG

Duplex

2010-10-20, 23:27:47

Sandy Bridge bekommt bei Sockel 1155 max. 4Cores/8Threads, ca. 10-15% mehr IPC & 10% mehr Takt.
Der Bulldozer wird mit sicherheit die schnellere Lösung sein :) geschätzt würd ich sagen das 4 BD Module gegen 12 SB Threads konkurrien werden.

davidzo

2010-10-21, 00:44:08

Der Vergleich wird doch mit einem Phenom 2 Dualcore sein oder nicht?AMD kann durch die neue Bauweise mehr Module verbauen ja dafür spart man an der Pro Thread Leistung,das heißt wenn das Game nicht 6 oder 8 Thread's nutzt wird Bulldozer verdammt langsam.

Da hast du CMT nicht verstanden. wird ein core eines bulldozer nicht genutzt steht ein teil dessen Ressourcen dem Anderen zur verfügung. das heißt das frontend, die stärkeren decoder, caches und eben auch beide 128bit FPUs stehen dann dem einen Core zur verfügung.
Falls man also bei einem 4modul/8core bulldozer unter vier threads benutzt hat jeder dieser vier aktiven cores mehr Leistungspotential als ein achtelcore unter vollast haben würde. der achtelocre shared ja unter vollast teile, während diese bei nur der hälfte der aktiven bdcores und darunter einem einzelnen bdcore zugeordnet werden.

Sprich, wenn BDmodul = 180% von 2x einzelcore, dann bringt ein halbausgelastetes BDmodul immernoch 105-120% der leistung eines vergleichbaren einzelcores. das sind die Vorteile der CMP Bauweise mit gesharten ressourcen die sich eben auch auf die singlethreadedleistung ausweiten.

S940

2010-10-21, 02:55:46

Hm, das wird nicht reichen, der K10 interessiert nächstes Jahr niemanden mehr.
Man muss zu Intel aufschliessen, idealerweise auf gleiche Höhe SB.
Alles andere wäre imho schlecht :(
SB IPC ist nicht nötig, Nehalem IPC + Takt reicht.
Im 8 Thread Betrieb sollte BD eh Kreise um einen 4Core SB+HT fahren, dafür ist das 80% Plus des Moduldesigns einfach zu hoch im Vergleich zu Sandys 30-35% SMT Plus. Wenn man auf K10 IPC & Takt stagnieren würde, würds vielleicht noch reichen, aber das ist sehr unwahrscheinlich, siehe vorheriges Post. Im Teillastbereich muss es dann hoher Standardtakt + Turbo richten.

Intel hatte bisher exklusiv highK, das führt AMD jetzt auch ein, da sollte Takt kein Problem mehr sein. Die SB Prototypen (über)taktet schon auf ~5 GHz. BD ist demgegenüber
a) nach den groben Architektureckdaten die man kennt - noch besser auf höhere Takte ausgelegt und
b) Hat jetzt einen Prozessvorteil, da Intel noch nicht auf ULK setzt. D.h. BD hat weniger Leckströme -> kühler & weniger Stromverbrauch -> es bleibt mehr Spielraum fürs Hochtakten

Ergo muss man da noch mehr Takt erwarten. Der L1 ist dafür auch ein Indiz: 16kB 4fach assoziativ, das ist jeweils die Hälfte von Intel, d.h. AMDs Cache ist weniger komplex (regelrecht primitiv ^^) und kann damit Daten schneller liefern. Trotzdem plant AMD da aber - wie Intel - 4 Takte ein .. verrückt. Das macht nur Sinn, wenn AMDs Takte deutlich kürzer sind, d.h. BD Taktfrequenzt höher liegt. Das kann noch lustig werden ... OC@6 Ghz :freak: ?

Was auch immer am Ende rauskommt, die Architektur ist auf höhere Frequenzen ausgerichtet und der Prozess ist wohl auch besser.

Fragen die offen bleiben sind

1. Stimmen die Annahmen wirklich :)
2. Bekommt GF das auch wirklich gebacken ;-)
3. Reicht der Takt um SBs IPC Vorsprung zu egalisieren

Immerhin scheint Intel soviel Respekt vor BD zu haben, dass sie nen PlanB vorbereiten, indem sie eventuell Ivy Bridge vorziehen könnten, die Antwort auf Frage 1 scheint also eher gegen "ja" zu tendieren ;-)

y33H@

2010-10-21, 09:46:52

@ AffenJack

JF sagte doch Modul = 80% eines DCs (http://blogs.amd.com/work/2010/08/30/bulldozer-20-questions-%E2%80%93-part-2/)! Zumindest "throughput".
Compared to CMP (chip multiprocessing – which is, in simplistic terms building a multicore chip with each core having its own dedicated resources) two integer cores in a Bulldozer module would deliver roughly 80% of the throughput. Wo sagt AMD, dass ein Modul 180% eines fiktiven BD-Dualcores erreicht?
Sprich, wenn BDmodul = 180% von 2x einzelcore, dann bringt ein halbausgelastetes BDmodul immernoch 105-120% der leistung eines vergleichbaren einzelcores.Abgesehen davon, dass ich gerne einen Link für die 180% hätte: Wie sollen da 105-120% raus kommen bei Singlethread-Leistung? Ein Int-Core entspricht einem Kern und legt doch nicht zu, nur weil nur ein zweiter Int-Core mit im Modul sitzt ... falls doch, erkläre mir bitte wieso.

mboeller

2010-10-21, 10:06:55

Wo sagt AMD, dass ein Modul 180% eines fiktiven BD-Dualcores erreicht?

sagt AMD auch nie! Es sind 180% einer fiktiven BD-Single-core CPU

AffenJack

2010-10-21, 10:10:38

ok, dann hatte ich das falsch in erinnerung
Gut dann sollte da wohl 160% eines single cores stehen, hatte das nun so verstanden dass der 2te core 80% der leistung des ersten bringt.

S940

2010-10-21, 10:56:21

ok, dann hatte ich das falsch in erinnerung
Gut dann sollte da wohl 160% eines single cores stehen, hatte das nun so verstanden dass der 2te core 80% der leistung des ersten bringt.
Das Thema gabs schon vor ein paar Wochen auf AMDzone mit JF-AMD:

Direktzitate aus amdzone:
----------------

So, if the first core gives you X performance, then adding the second core
gives you 1.8X. If there were PERFECT scaling, you would get 2.0X, but the scaling is 1.8.
Simple math says us 1.6 ( 0.8*2.0=1.6 ). :wink:

But your math is wrong. 100 + 80 = 180.
I can't argue with you that 100 + 80 = 180. It's true. :)
But 80% of 2.0 is 1.6. It's also true. :wink:

But 180 =/= 160 and I have never said 160, have I?

http://www.amdzone.com/phpbb3/viewtopic.php?f=52&p=188271

;-)

sagt AMD auch nie! Es sind 180% einer fiktiven BD-Single-core CPU
Na so stimmts auch nicht, dass muss wenn dann heißen:
Passt schon, siehe unten.

Sprich der Unterschied zw. CMT (Bulldozer Modul) und CMP (fiktiver Bulldozer X2), nicht zu verwechseln mit SMT ;-)

CMP = Chip level multiprocessing (http://de.wikipedia.org/wiki/Mehrkernprozessor). Erkennungszeichen: Wirklich alles einens Kerns ist verdoppelt. Bisher gabs von AMD nur CMP CPUs. (Gibt da zwar Feinheiten wie den gemeinsamen L3 Cache & Hypertransport, weswegen Puristen meinen, dass nur die alten Intel S775 Quads, echte CMP CPUs waren, aber so pingelig bin ich mal nicht, wen interessiert L3 & Hypertransport, das ist Uncore bzw. NB ^^).

CMT = Clustered base Multithreading (http://citavia.blog.de/2009/07/07/more-details-on-bulldozers-multi-threading-and-single-thread-execution-6464533/). Erkennungszeichen: Einzelne Cluster (Bestandteile) eines CPU Kerns sind mehrfach vorhanden, einige Cluster werden gemeinsam benützt. Im BD Fall sind die INT Cluster samt L1 Cache doppelt, FP & Front-sowie Back-End Cluster werden gemeinsam benützt.

SMT (http://de.wikipedia.org/wiki/Simultaneous_Multithreading) = Hyperthreading bei Intel, dort werden nur die Registersätze und das Nötigste verdoppelt, sodass 2Threads auf einem Kern laufen können.

ciao

Alex

P.S: AMD nennt die INT Cluster des Bulldozers "Core", also Kern. Kann es zwar verstehen, da man mit 180% mMn genügend Rechenleistung einer echten 2Core CPU hat, um das Pi*Daumen zu rechtfertigen. Wenn man aber über Details diskutieren will macht das keinen Sinn, deswegen bleib ich bei Cluster. Ein Core bleibt für mich alles samt Back-& Front-End, ohne Uncore Krams.

mboeller

2010-10-21, 11:22:08

Das Thema gabs schon vor ein paar Wochen auf AMDzone mit JF-AMD:

http://www.amdzone.com/phpbb3/viewtopic.php?f=52&p=188271

;-)

Das bringen viele durcheinander.....AMD hat immer was von +80% gesagt im Gegensatz zu SMT mit +25-35%

PS + OT: wann schläfst du? ;)

edit: gerade erst gesehen:

Es sind 180% zweier fiktiven BD-Single-core CPUs

ehh...nein.
Es sind 180% eines fiktiven BD-Single-Cores, und 90% eines fiktiven (richtigen) BD-Dual-cores bzw. 90% von 2 BD Single-cores.

S940

2010-10-21, 14:02:54

Es sind 180% eines fiktiven BD-Single-Cores, und 90% eines fiktiven (richtigen) BD-Dual-cores bzw. 90% von 2 BD Single-cores.
Ach ja klar natürlich, ist ja der Skalierungsfaktor- haha. Bräuchte vielleicht doch einmal mehr Schlaf :freak:

Schnitzl

2010-10-21, 15:53:48

SB IPC ist nicht nötig, Nehalem IPC + Takt reicht.
Im 8 Thread Betrieb sollte BD eh Kreise um einen 4Core SB+HT fahren, dafür ist das 80% Plus des Moduldesigns einfach zu hoch im Vergleich zu Sandys 30-35% SMT Plus. Wenn man auf K10 IPC & Takt stagnieren würde, würds vielleicht noch reichen, aber das ist sehr unwahrscheinlich, siehe vorheriges Post. Im Teillastbereich muss es dann hoher Standardtakt + Turbo richten.

Intel hatte bisher exklusiv highK, das führt AMD jetzt auch ein, da sollte Takt kein Problem mehr sein. Die SB Prototypen (über)taktet schon auf ~5 GHz. BD ist demgegenüber
a) nach den groben Architektureckdaten die man kennt - noch besser auf höhere Takte ausgelegt und
b) Hat jetzt einen Prozessvorteil, da Intel noch nicht auf ULK setzt. D.h. BD hat weniger Leckströme -> kühler & weniger Stromverbrauch -> es bleibt mehr Spielraum fürs Hochtakten

Ergo muss man da noch mehr Takt erwarten. Der L1 ist dafür auch ein Indiz: 16kB 4fach assoziativ, das ist jeweils die Hälfte von Intel, d.h. AMDs Cache ist weniger komplex (regelrecht primitiv ^^) und kann damit Daten schneller liefern. Trotzdem plant AMD da aber - wie Intel - 4 Takte ein .. verrückt. Das macht nur Sinn, wenn AMDs Takte deutlich kürzer sind, d.h. BD Taktfrequenzt höher liegt. Das kann noch lustig werden ... OC@6 Ghz :freak: ?

Was auch immer am Ende rauskommt, die Architektur ist auf höhere Frequenzen ausgerichtet und der Prozess ist wohl auch besser.

Fragen die offen bleiben sind

1. Stimmen die Annahmen wirklich :)
2. Bekommt GF das auch wirklich gebacken ;-)
3. Reicht der Takt um SBs IPC Vorsprung zu egalisieren

Immerhin scheint Intel soviel Respekt vor BD zu haben, dass sie nen PlanB vorbereiten, indem sie eventuell Ivy Bridge vorziehen könnten, die Antwort auf Frage 1 scheint also eher gegen "ja" zu tendieren ;-)
ok, danke für die Erklärungen :)
Nun, wenn SB bereits auf 5 Ghz übertaktbar ist dann kann man beim BD nur noch hoffen auf IPC in Reichweite von SB oder auf Taktungen von 5 Ghz+ ;)
Sonst kommt doch AMD nie aus der Nische raus und Intel kann weiterhin machen was "es" will...

MfG

davidzo

2010-10-21, 21:36:31

Es sind 180% eines fiktiven BD-Single-Cores, und 90% eines fiktiven (richtigen) BD-Dual-cores bzw. 90% von 2 BD Single-cores.

Genau, das meinen wir glaube ich auch alle, stimmt aber das es teilweise falsch formuliert wurde.

Daraus kann man auch genau ablesen, dass die IPC im singlethreadedbetrieb höher ist als die anteilige Leistung eines Cores (die gesamtleistung aller cores geteilt durch die anzahl cores).
Im Multithreadedbetrieb wären das eben 90% pro Core, im Betrieb mit nur der Hälfte der möglichen Threads wäre die Leistung pro aktiven core mit 100% entsprechend höher, während 80% idlen.

Es gibt also auch durch das CMT-Design gewisse Vorteile bei der Singlethreadedleistung. Die Singlethreadedleistung ist nämlich rund 10% höher als die Leistung eines einzelnen cores in der Multithreaded Auslastung. Von einem Rückgang der Singlethreadedleistung kann man also kaum sprechen, bei 180% für zwei Cores, eher von einem kleinen Rückgang der Leistung jedes einzelnen Threads im Multithreadingbetrieb gegenüber einem vergleichbaren nativen Multicoredesign.

2B-Maverick

2010-11-02, 11:50:02

AMD verrät weitere Details zur FPU der Bulldozer-Architektur
http://ht4u.net/news/22895_amd_verraet_weitere_details_zur_fpu_der_bulldozer-architektur/

Und was heisst das nun?
Schneller oder langsamer als ein Sandy-Bridge?

einerseits heisst es:
Allerdings kann diese in Form von "Sandy Bridge" bis zu drei AVX-Operationen pro Zyklus ausführen, wohingegen bei Bulldozer nur eine AVX-Instruktion bearbeitet werden kann.

dann aber wieder:
Demnach kann die FPU bis zu drei Operationen mit maximal 16 Byte großen Operanden in einem Zyklus verarbeiten. Gemäß AMD ist dies rund der doppelte Durchsatz aktueller Intel-Prozessoren. Wie es sich gegenüber "Sandy Bridge" verhält ist jedoch noch nicht bekannt.

hmmm....

Kann jemand spekulieren, wer nun in "normalen" Anwendungen evtl. die Nase vorn haben wird? (sprich 264er Encoding, Spiele, Bildbearbeitung)

CU
Markus

y33H@

2010-11-02, 12:30:31

Im Text von JF sehe ich nur eine AVX per Cycle bei BD. SB kann iirc zwei plus eine L/S.

BlackBirdSR

2010-11-02, 12:43:41

Im Text von JF sehe ich nur eine AVX per Cycle bei BD. SB kann iirc zwei plus eine L/S.

Wobei das schon zu abstrakt gesehen ist.

BD schickt pro Takt max 2x128Bit über die Datenpfade an die FPU. Das ergibt im besten Fall für einen einzelnen Core 4xDP oder 8xSP.
Allerdings mit dem Vorteil, dass anscheinend 4x64DP FADD oder FMUL sein können. Bei Intel ist das weiterhin getrennt in 2 Pipelines. Eine kann FADD die andere FMUL.

Sandy Bridge hat dafür insgesamt 2x256Bit Einheiten, die allerdings nur bei AVX auch 256Bit breit angesprochen werden, wenn ich das richtig verstehe.
Bei AVX hat SB daher den doppelten Durchsatz zu Nehalem, bei SSE2+ bleibt es wohl bei 4xDP, 8xSP, wobei eben nur wenn 2xADD + 2xMUL ankommt.

Was dabei am Ende bei der Performance rauskommt?
Sehr schwer zu sagen: Müsste ich raten, würde ich sagen...
BD > SB in SSE2-4
BD < SB in AVX
Allerdings spielen da noch viel mehr Faktoren ein.

Fabian_HT4U

2010-11-02, 13:01:39

AMD verrät weitere Details zur FPU der Bulldozer-Architektur
http://ht4u.net/news/22895_amd_verraet_weitere_details_zur_fpu_der_bulldozer-architektur/

Und was heisst das nun?
Schneller oder langsamer als ein Sandy-Bridge?
Dein erstes Quote bezieht sich auf den AVX--Durchsatz. Hier kann Bulldozer 1x 256 Bit pro Taktzyklus, Sandy Bridge 2x 256 Bit (ADD + MUL) und zusätzlich 1x Load/Store mit 256 Bit Operanden (z.B 4x double precision). In Sachen Leistung muss das aber nicht viel heißen, es kommt stark auf den Code an. So kann SB schneller als BD sein, kann aber auch gleichauf liegen.

Dein zweites Quote bezieht sich hingegen auf die AES-Leistung. Also nur indirekt miteinander vergleichbar.

grüße
Fabian

Gipsel

2010-11-02, 13:58:48

Was dabei am Ende bei der Performance rauskommt?
Sehr schwer zu sagen: Müsste ich raten, würde ich sagen...
BD > SB in SSE2-4
BD < SB in AVX
Allerdings spielen da noch viel mehr Faktoren ein.
Z.B. wenn BD FMA nutzen kann, dann sollte BD~=SB rauskommen. Die Peakleistung ist nämlich gleich.

@Fabian:
Da Du hier gerade als Author der Nachricht rumspukst, könntest Du mal ein Detail bei Euch berichtigen? Du schreibst dort:
Wie AMD in seinem Blog bekannt gibt, kann eine solche FMA allerdings nicht in einem einzigen Zyklus bewältigt werden. Einzig eine gewöhnliche Multiplikation sowie eine gewöhnliche Addition – mit je 128 Bit – kann in einem Zyklus verarbeitet werden.
Das ist definitiv nicht richtig. JF schreibt im Blog wörtlich:
Each FMAC can do an FMAC, FADD or a FMUL per cycle.

Fabian_HT4U

2010-11-02, 14:15:33

Z.B. wenn BD FMA nutzen kann, dann sollte BD~=SB

@Fabian:
Da Du hier gerade als Author der Nachricht rumspukst, könntest Du mal ein Detail bei Euch berichtigen? Du schreibst dort:

Das ist definitiv nicht richtig. JF schreibt im Blog wörtlich:
Zum Blog und der Nachricht. Interessant. Ich könnte schwören, dass zum Zeitpunkt als ich die Nachricht geschrieben habe, die FMA nicht als Ein-Zyklus-Operation aufgeführt war, sondern nur ADD und MUL. Ich werde das gleich korrigieren.

In dem Fall sehe ich BD bei FMA-Nutzung leistungsmäßig vor SB, denn hier braucht es einen Zyklus für ADD und einen für MUL und selbst bei hervorragendem Result-Forwarding, glaube ich nicht, dass man es in einem Zyklus bei SB schafft eine MAD-Operation zu berechnen.

grüße
Fabian

mboeller

2010-11-02, 15:15:01

Zum Blog und der Nachricht. Interessant. Ich könnte schwören, dass zum Zeitpunkt als ich die Nachricht geschrieben habe, die FMA nicht als Ein-Zyklus-Operation aufgeführt war, sondern nur ADD und MUL. Ich werde das gleich korrigieren.

Da geht es dir so wie mir. Im Kommentar hat er am 25.10 zB. folgendes geschrieben:

Per cycle each FMAC can do one FMUL or one FADD.

Das konnte man dann leicht verwechseln wenn man den Blog (wie ich) nicht so genau gelesen hatte.

Gipsel

2010-11-02, 15:35:08

Zum Blog und der Nachricht. Interessant. Ich könnte schwören, dass zum Zeitpunkt als ich die Nachricht geschrieben habe, die FMA nicht als Ein-Zyklus-Operation aufgeführt war, sondern nur ADD und MUL. Ich werde das gleich korrigieren.Super. Aber nur mal so als Anmerkung, wenn FMAs nur den halben Durchsatz von MULs hätten, könnte man es auch gleich bleiben lassen ;)
In dem Fall sehe ich BD bei FMA-Nutzung leistungsmäßig vor SB, denn hier braucht es einen Zyklus für ADD und einen für MUL und selbst bei hervorragendem Result-Forwarding, glaube ich nicht, dass man es in einem Zyklus bei SB schafft eine MAD-Operation zu berechnen.Hmm, schwierig. Das kommt darauf an, würde ich sagen, oft ist es nicht ganz so kritisch (z.B. bei Matrixmultiplikation). Latenz ist sowieso 5 Takte oder so, man benötigt eben einfach genügend parallele Operationen.
Aber für den Fall von wirklich seriell abhängigen Multiplikationen und Additionen (wie z.B. beim Auswerten von Polynomen nach dem Horner-Schema (http://de.wikipedia.org/wiki/Horner-Schema)), bringt einem FMA natürlich dann schon einen Faktor 2 gegenüber getrennten MUL/ADD Pipes.
Aber das hängt dann im genauen Fall auch immer davon ab, ob das Ganze multithreaded ist (HT bringt bei solchen Sachen z.T. enorm was, hat ja einen ähnlichen Effekt wie die geteilte FPU) und wie der Instruktionsmix aussieht.

BlackBirdSR

2010-11-02, 16:36:06

Z.B. wenn BD FMA nutzen kann, dann sollte BD~=SB rauskommen. Die Peakleistung ist nämlich gleich.

Nur wird der default compiler der meisten Entwickler FMA compellieren?

Coda

2010-11-02, 16:38:03

Super. Aber nur mal so als Anmerkung, wenn FMAs nur den halben Durchsatz von MULs hätten, könnte man es auch gleich bleiben lassen ;)
Öh nein? Dann hätte man wieder das Präzisionsproblem.

Nur wird der default compiler der meisten Entwickler FMA compellieren?
Der GCC dürfte das ziemlich schnell so machen. Die Optimierung ist nicht so schwierig. Bei Microsoft muss man abwarten.

Partner

2010-11-02, 17:05:13

Nur wird der default compiler der meisten Entwickler FMA compellieren?Die wichtige Frage ist nicht ob es möglich ist, sondern ob es genutzt wird.

AVX wird für die allermeisten Anwendungen (darunter auch Spiele) voraussichtlich erst in 4-6 Jahren eingesetzt werden, einfach weil es sich nicht lohnt für einen kleinen Markt einen zusätzliche Binärcode zu unterstützen.
Halt wie schon immer zuvor bei allen anderen Befehlssatzerweiterungen, nur dass es diesmal wegen des zusätzlichen 32-/64-Bit-Übergangs vielleicht sogar noch länger dauern könnte.

Daher ist es eine sinnvolle Idee von AMD, X87/SSEx als hohe Priorität anzusehen. Aber ich sehe schon die Artikel die über zehn Seiten veranschaulichen wie toll doch AVX glitzert.

Coda

2010-11-02, 17:06:06

nur dass es diesmal wegen des zusätzlichen 32-/64-Bit-Übergangs vielleicht sogar noch länger dauern könnte.
Hä?

Partner

2010-11-02, 17:12:24

Hä?Weil dann bereits zwei Binärcodes ausgeliefert und unterstützt werden müssen. Würde man dann noch AVX als Option anbieten wollen sind es bereits ganze Vier.

So etwas ist sau teuer.

Coda

2010-11-02, 17:21:50

Also ich denke wenn AVX ernsthaft eingesetzt wird, dann kann man einfach auch gleich auf x64-only setzen.

Partner

2010-11-02, 17:36:00

Also ich denke wenn AVX ernsthaft eingesetzt wird, dann kann man einfach auch gleich auf x64-only setzen.Unter den 60% mit einem 32-Bit Betriebssystem wird sich mit Sicherheit ein signifikanter Teil keine 64-Bit Lizenz kaufen nur weil die neu erstandene CPU AVX unterstützt.

Ist schon toll wie sich MS ein paar extra Millionen einheimst indem sie fortwährend Auslaufware auf den Markt werfen.

Coda

2010-11-02, 17:42:17

mrt

2010-11-02, 17:55:21

Wer sich auf einem neuen Prozessor mit AVX noch ein 32-Bit-Windows installiert gehört auch geschlagen.
Und das täglich 3h!
du kannst dir sicher sein, dass das viele machen werden.

Partner

2010-11-02, 18:04:34

Wer sich auf einem neuen Prozessor mit AVX noch ein 32-Bit-Windows installiert gehört auch geschlagen.

Übrigens braucht man keine "64-bit-Lizenz" für Windows Vista und 7. Die "32-Bit-Keys" funktionieren auch mit einer 64-Bit-DVD und beliebigen Sprachversionen.Wer weiß das schon? Vielleicht ein oder gar ein Prozent der Nutzer?

Was zählt ist dass über 60% ein 32-Bit Betriebssytem installiert haben und man daher keine Anwendungen für den Endverbraucher anbieten kann die nur x86-64 unterstützen. Selbst speicherintensive Produktionssoftware wird heute zum Großteil noch für beide Architekturen angeboten.

Coda

2010-11-02, 18:10:01

Und das täglich 3h!
du kannst dir sicher sein, dass das viele machen werden.
Das bezweifel ich. Der Retail-Zocker-Kunde wird es nicht tun und der OEM-Käufer bekommt ein vorinstalliertes OS.

Die 32-Bit-Installationsbasis kommt halt noch von Windows XP. Das dürfte aber ziemlich schnell verschwinden jetzt.

Botcruscher

2010-11-02, 18:18:50

Dank Müll wie Atom sicher nicht.

Savay

2010-11-02, 18:28:02

Dank Müll wie Atom sicher nicht.

auf ner ATOM CPU kannst du aber auch getrost auf AVX support verzichten :wink:

Was zählt ist dass über 60% ein 32-Bit Betriebssytem installiert haben und man daher keine Anwendungen für den Endverbraucher anbieten kann die nur x86-64 unterstützen. Selbst speicherintensive Produktionssoftware wird heute zum Großteil noch für beide Architekturen angeboten.

das problem ist da aber die installierte basis...der crux an der geschichte ist allerdings das die kommenden CPUs mit AVX allesamt eher als highend CPUs durchgehen... :)

die wahrscheinlichkeit das jemand solchen boliden mit einem 32bit OS verkrüppelt ist doch eher verschwindend gering (falls doch sollte man wirklich an seiner geistigen gesundheit zweifeln!)...selbst die OEMs werden einen teufel tun und einen SB (nichtmal den "langsamsten" dualcore) mit nem 32bit windows ausliefern :tongue: naja ausser der kunde besteht drauf...aber in dem fall wird er wohl auch auf AVX verzichten können ;)
zumal jede AVX CPU ja auch zwangsläufig x86-64 beherrscht, stellt sich für potenzielle entwickler IMO garnicht die frage ob man nur für AVX überhaupt noch 32bit betriebssysteme berücksichtigen muss. :freak:

vorallem wenn man sich einmal überlegt wofür AVX überhaupt gedacht ist und in welchen anwendungen die erweiterung vorteile bringt(!) macht es garkeinen wirklichen sinn solche anwendungen mit ner 32bit binary zu "verkrüppeln" :rolleyes: die profitieren nämlich allesamt auch durchaus von den breiteren registern und dem größeren speicherbereich...erst beschleunigst du die anwendungen mit AVX nur um sie über die 32bit bin wieder auszubremsen?! das macht doch keinen sinn :lol:

32bit wird sich in nächster zeit eh recht zügig von selbst verabschieden und ein nieschendasein in VMs und als "behelfs-modus" für alte software oder extrem langsame kisten fristen.

Partner

2010-11-02, 19:00:37

das problem ist da aber die installierte basis...der crux an der geschichte ist allerdings das die kommenden CPUs mit AVX allesamt eher als highend CPUs durchgehen... :)

die wahrscheinlichkeit das jemand solchen boliden mit einem 32bit OS verkrüppelt ist doch eher verschwindend gering (falls doch sollte man wirklich an seiner geistigen gesundheit zweifeln!)...selbst die OEMs werden einen teufel tun und einen SB (nichtmal den "langsamsten" dualcore) mit nem 32bit windows ausliefern :tongue: naja ausser der kunde besteht drauf...aber in dem fall wird er wohl auch auf AVX verzichten können ;)
zumal jede AVX CPU ja auch zwangsläufig x86-64 beherrscht, stellt sich für potenzielle entwickler IMO garnicht die frage ob man nur für AVX überhaupt noch 32bit betriebssysteme berücksichtigen muss. :freak:

vorallem wenn man sich einmal überlegt wofür AVX überhaupt gedacht ist und in welchen anwendungen die erweiterung vorteile bringt(!) macht es garkeinen wirklichen sinn solche anwendungen mit ner 32bit binary zu "verkrüppeln" :rolleyes: die profitieren nämlich allesamt auch durchaus von den breiteren registern und dem größeren speicherbereich...erst beschleunigst du die anwendungen mit AVX nur um sie über die 32bit bin wieder auszubremsen?! das macht doch keinen sinn :lol:

32bit wird sich in nächster zeit eh recht zügig von selbst verabschieden und ein nieschendasein in VMs und als "behelfs-modus" für alte software oder extrem langsame kisten fristen.Sicherlich kann man diskutieren ob es sinnvoll währe Binärcode mit x86-32 und AVX anzubieten.

In den nächsten paar Jahren ist es aber zweifelsohne für den Großteil neuer Anwendungen nötig x86-32 sowie x86-64 parallel zu bedienen, egal ob die Anwendung von AVX profitieren kann oder nicht. Also müsste man mindestens drei verschiedene Versionen anbieten wenn noch zusätzlich eine Option mit AVX angeboten werden soll.

Daher ist der Widerstand für neue Befehlssatzerweiterungen im Moment größer als sonst üblich.

Coda

2010-11-02, 19:25:49

Dann gibt's halt 32 bit ohne nix vanilla x86 und 64 Bit mit SSE2 und optional AVX.

Gipsel

2010-11-02, 19:32:42

Öh nein? Dann hätte man wieder das Präzisionsproblem.Du meinst immer noch ;)
Allerdings frage ich mich da, wie die bisherige Software nur mit ADD und MUL auskommen kann :rolleyes:

Aber mal im Ernst. Will man wirklich binär vergleichbare Ergebnisse haben, muß man sowieso entweder komplett auf FMA setzen oder komplett nicht.

Und nur wegen der kleinen Menge an Sachen, die man mit der erhöhten Präzision des FMA-Befehls bedeutend einfacher als mit MUL/ADD hinbekommt, die also auch von einem half rate FMA profitieren würden, lohnt sich der ganze Aufwand nicht. Wenn FMA, dann also mit gleicher Geschwindigkeit wie ein MUL. Sogar GPUs machen das so ;)

mrt

2010-11-03, 10:50:52

Das bezweifel ich. Der Retail-Zocker-Kunde wird es nicht tun und der OEM-Käufer bekommt ein vorinstalliertes OS.

Die 32-Bit-Installationsbasis kommt halt noch von Windows XP. Das dürfte aber ziemlich schnell verschwinden jetzt.
Schön wärs ;)
Es gibt sehr viele die das Betriebssystem verwenden wollen das sie kennen und das ist XP. Außerdem gibts noch genug Win7 32Bit OEM-Rechner zu kaufen, das wird sich mit Sandy und BD wohl nicht ändern.
Als SW-Enwickler nehm ich allerdings keine Rücksicht auf solche Leute (gibts ja bei Linux auch, da installieren immer noch viele ein 32Bit OS)

Coda

2010-11-03, 13:16:00

Du meinst immer noch ;)
Allerdings frage ich mich da, wie die bisherige Software nur mit ADD und MUL auskommen kann :rolleyes:
Gute Frage. Wie rechnet man denn ohne FMA und ohne x87 beispielsweise eine korrekte Quadratwurzel?

Partner

2010-11-03, 15:25:52

Dann gibt's halt 32 bit ohne nix vanilla x86 und 64 Bit mit SSE2 und optional AVX.Und das macht eben keiner der vernünftig ist. So erhöht sich der Suchaufwand für nicht triviale Programmfehler um den Faktor bis zu drei.

Gipsel

2010-11-03, 15:30:38

Gute Frage. Wie rechnet man denn ohne FMA und ohne x87 beispielsweise eine korrekte Quadratwurzel?
Mit viel Mehraufwand. Das fällt unter die oben erwähnten Sachen, die auch von half rate FMA profitieren könnten. Davon gibt es aber realistisch gesehen nicht so viel, als das sich sowas lohnen würde. Aber genau deswegen haben ja Architekturen ohne FMA (wie x87) Instruktionen für DIV/SQRT (weil das die beiden häufigen Fälle sind).

Partner

2010-11-03, 15:30:42

Gute Frage. Wie rechnet man denn ohne FMA und ohne x87 beispielsweise eine korrekte Quadratwurzel?Taylor Reihen mit einer Software-ALU (rationale Festpunkzahlenfelder).

Coda

2010-11-03, 15:59:45

Aber genau deswegen haben ja Architekturen ohne FMA (wie x87) Instruktionen für DIV/SQRT (weil das die beiden häufigen Fälle sind).
Im x64-Modus wird unter Windows nur noch scalar SSE2 vom Microsoft-Compiler ausgespuckt. Und das hat weder Sqrt noch FMA (aber Div).

Edit: Hä? Es gibt ja SQRTSS seit SSE1, wieso benutzt der Compiler es dann nicht?

Taylor Reihen mit einer Software-ALU (rationale Festpunkzahlenfelder).
Das war eine rhetorische Frage. Und nein, das wird nicht mit Festpunkt gerechnet, ich habe den Code dafür schon angeschaut.

Partner

2010-11-03, 16:41:48

Das war eine rhetorische Frage. Und nein, das wird nicht mit Festpunkt gerechnet, ich habe den Code dafür schon angeschaut.So? Dann rechne mir mal sqrt(1/3) exakt mit Fließpunktzahlen aus.

Coda

2010-11-03, 16:46:27

Du brauchst mir nichts von Numerik und IEEE754 erzählen, danke.

Gipsel

2010-11-03, 19:28:14

So? Dann rechne mir mal sqrt(1/3) exakt mit Fließpunktzahlen aus.
Exakt geht das gar nicht. Das ist nämlich eine irrationale Zahl (wie Pi). ;)

StefanV

2010-11-03, 19:58:38

Die 32-Bit-Installationsbasis kommt halt noch von Windows XP. Das dürfte aber ziemlich schnell verschwinden jetzt.
Zu einem Teil ja, zu einem anderen Teil aber auch von Komplettsystemen und die Netbooks darfst du auch nicht vergessen.

Immerhin gibt es seit einiger Zeit einige Hersteller, die konsequent auf 64bit Software setzen, so sind einige Notebooks, die mit 4GiB RAM ausgestattet sind, mit einem 64bit OS ausgestattet - Unterstützung für 32bit Betriebssysteme gibt es auch nicht unbedingt.

mrt

2010-11-03, 20:00:03

Exakt geht das gar nicht. Das ist nämlich eine irrationale Zahl (wie Pi). ;)
Ich glaub das war absicht von ihm ;)

Gipsel

2010-11-03, 20:34:45

Ich glaub das war absicht von ihm ;)
Das geht prinzipiell nicht exakt, auch nicht durch "Taylor Reihen mit einer Software-ALU (rationale Festpunkzahlenfelder)", die Partner da unbedingt im Einsatz sehen will.
Und für exakt gerundete Ergebnisse (nur das geht ;)) gibt es mehrere mögliche Implementationen.

Aber das ist sowieso OT.

davidzo

2010-11-03, 20:37:03

Wer sich auf einem neuen Prozessor mit AVX noch ein 32-Bit-Windows installiert gehört auch geschlagen.

Wer sich aktuelles Windows installiert gehört sowieso geschlagen!
Scherz beiseite, für viele for allem professionelle Zwecke braucht man noch 32bit Windows, weil die Anwendungen bzw. im besinderen Treiber einfach nicht 64bit kompatibel sind. Habe schon einige großformatdrucker oder cad/cam-softwares gehabt deren software die installation unter 64bit windows einfach verweigert.

Partner

2010-11-03, 20:45:10

Exakt geht das gar nicht. Das ist nämlich eine irrationale Zahl (wie Pi). ;)Ein (auf x Dezimalstellen) beliebig präzises Ergebnis ist natürlich gemeint.

Das für eine solche Anforderung Festpunkt-/Integerarithmetik verwendet wird halte ich für selbstveständlich. Denn Gleitkommaarithmetik bietet dafür doch nur Nachteile.

Naja, wie auch immer. Für unsere Probleme reichen die Registergrößen sowieso aus. :biggrin:

Neocroth

2010-11-03, 21:21:28

Edit: Hä? Es gibt ja SQRTSS seit SSE1, wieso benutzt der Compiler es dann nicht?

Interessante Tests und Informationen zu der Thematik:
http://assemblyrequired.crashworks.org/2009/10/16/timing-square-root/

sorry fürs OT :freak:

Coda

2010-11-03, 21:26:47

Wieso ist ssqrts schneller als fsqrt? Ich hab irgendwie das Gefühl, dass die x87-FPU da nicht im 32- sondern im 64/80-Bit-Modus war. Das kann man durch Flags steuern.

Partner

2010-11-03, 21:56:58

Wieso ist ssqrts schneller als fsqrt? Ich hab irgendwie das Gefühl, dass die x87-FPU da nicht im 32- sondern im 64/80-Bit-Modus war. Das kann man durch Flags steuern.Die FPU wird für die Standardwurzelfunktionen glaube ich gar nicht verwendet, sondern spezielle Funktionseinheiten. Jedenfalls wird bei der Prozessordokumentation keine FPU-Nutzung angegeben.

Was das genau gemacht wird verraten die Hersteller aber soweit ich weiß nicht. Könnte CORDIC oder gar Nachschlagtabellen in hardware sein.

Coda

2010-11-03, 22:02:36

Die FPU wird für die Standardwurzelfunktionen glaube ich gar nicht verwendet
????

Natürlich. FSQRT eine x87-Instruction.

SSE und x87 verwendet exakt die gleichen Schaltkreise. Der Performance-Unterschied muss an der Präzision liegen und die ist bei einem neuen Prozess eben 80 Bit intern, auch wenn 32 bit Float rausgeschrieben werden.

Partner

2010-11-03, 22:07:48

????

Natürlich. FSQRT eine x87-Instruction.

SSE und FPU verwendet exakt die gleichen Schaltkreise. Der Performance-Unterschied muss an der Präzision liegen und die ist bei einem neuen Prozess eben 80 Bit intern, auch wenn 32 bit Float rausgeschrieben werden.Ich meine natürlich dass da nicht z.B. über Taylorreihenapproximation auf Basis der Standardoperatoren gerechnet wird, sondern dedizierte Logik verwendet wird.

Dass es eine X87-Instruktion ist, ist natürlich klar.

Partner

2010-11-03, 22:10:20

doppelt

Coda

2010-11-03, 22:11:01

Ich meine natürlich dass da anscheinend nicht über die Fließpunktarithmetikeinheit der FPU gerechnet wird, sondern dedizierte Logik verwendet wird.
Was bitte tun Implementierungsdetails von CPUs hier zur Sache?

Und natürlich ist das FPU-Logik. Bei AMD hängt das z.B. am FMISC-Port. Wird wohl aber mikrocodiert sein. Aber auch das ist egal.

Die Sache ist das Scalar-SSE2 nicht schneller sein sollte als x87 wenn die gleiche Op gerechnet wird.

Partner

2010-11-03, 22:35:16

Was bitte tun Implementierungsdetails von CPUs hier zur Sache?

Und natürlich ist das FPU-Logik. Bei AMD hängt das z.B. am FMISC-Port. Wird wohl aber mikrocodiert sein. Aber auch das ist egal.

Die Sache ist das Scalar-SSE2 nicht schneller sein sollte als x87 wenn die gleiche Op gerechnet wird.Keine Ahnung wieso du meinst dass das angeblich gleichschnell sein sollte und nicht von der Implementierung abhängig sei. Auch skalare SSE2 Instruktionen verwendet meines Wissens nicht die gleichen Ausführungsresourcen wie die FPU. Soweit ich mich erinnere war das höchsten bei den ersten CPUs mit SSE1 so.

Coda

2010-11-03, 23:08:06

KAuch skalare SSE2 Instruktionen verwendet meines Wissens nicht die gleichen Ausführungsresourcen wie die FPU.
Da liegst du falsch (http://www.chip-architect.org/news/Opteron_FloatPnt_Core.jpg). Wäre auch ziemlich bescheuert Logik unnötig zu duplizieren.

Gipsel

2010-11-03, 23:46:04

Die Sache ist das Scalar-SSE2 nicht schneller sein sollte als x87 wenn die gleiche Op gerechnet wird.
Schau doch einfach mal in der Doku der CPU nach (bzw. dem passendem Optimierungsmanual). Die gibt es sowohl bei AMD und Intel zum Download und enthalten schöne Tabellen mit Latenz und Durchsatz für praktisch jede Instruktion.

Die Geschwindigkeit der x87 DIV bzw. SQRT-Befehle sind übrigens stark von der über das FPU-Kontrollwort eingestellten Präzision (das kann man auch von C aus setzen) abhängig. Habe da ohne jetzt nachzuschauen so was von zwischen 18-20 Takten bei SP, bis zu ~36 Takten oder so bei extended Precision im Kopf. Müßte für K7-K10 ungefähr hinkommen. Ist übrigens die Latenz, eine neue unabhängige Instruktion kann zwei oder drei Takte überlappen (sprich CPI ist 3 Takte niedriger). Wie das standardmäßig gesetzt ist, ist übrigens afaik je nach Compiler/OS-Kombi verschieden. Ist aber schon 'ne Weile her, daß ich mich mit sowas rumgeschlagen habe.

Gipsel

2010-11-04, 00:19:27

Ich meine natürlich dass da nicht z.B. über Taylorreihenapproximation auf Basis der Standardoperatoren gerechnet wird, sondern dedizierte Logik verwendet wird.
Hör' doch mal mit Deinen Taylorreihen auf! Die konvergieren für sowas doch sowieso meist viel zu langsam. Und an CORDIC solltest Du bei einem hochentwicklten x86er Prozessor noch nicht einmal denken!

Für DIV und SQRT werden intern traditionell Newton- bzw. Newton-Markham-Verfahren benutzt, auch wenn es natürlich noch andere und sogar schneller konvergierende gibt (ab Core2 benutzt intel wohl was anderes). Der Trick besteht eigentlich nur in ein wenig Zusatzlogik, mit dem man korrekt gerundete Ergebnisse hinbekommt, ohne gleich FMAs zu verbauen (das mit den FMAs ist eigentlich viel neuer, das wurde erst ziemlich spät bewiesen, daß das damit auch geht).

Bei AMDs 3DNow! sind sogar die internen Instruktionen für diese Iterationen für den Programmierer zugänglich. Man kann sich entscheiden, ob man direkt mit dem Startwert aus der Lookuptable arbeitet (höllisch schnell, aber ungenau), oder ob man eine Iteration dranhängt (23Bit Genauigkeit, eigentlich sogar mehr, aber eben nur SP). Was fehlt ist nur die korrekte Rundung, die über 3DNow! nicht ging (weswegen aber 3DNow! mit Wurzel und Division schneller als die FPU war). Genau daher weiß man übrigens auch, daß AMD etwas größere (genauere) LUTs benutzt hat und dadurch für DP und EP wohl gegenüber Intel eine Iteration sparen konnte (damals, inzwischen nicht mehr aktuell).

Savay

2010-11-04, 00:29:36

Wer sich aktuelles Windows installiert gehört sowieso geschlagen!
Scherz beiseite, für viele for allem professionelle Zwecke braucht man noch 32bit Windows, weil die Anwendungen bzw. im besinderen Treiber einfach nicht 64bit kompatibel sind. Habe schon einige großformatdrucker oder cad/cam-softwares gehabt deren software die installation unter 64bit windows einfach verweigert.

nur brauchts für legacy hard- und software keine AVX binary. :freak:
in vielen fällen reicht da auch ne VM...dualboot gibts eh...und XP32 wird ja nichtmal mehr "verkauft"...zumindest von MS an den großhandel. :wink:

win7 und vista 32 bit sind nen sonderfall...die sind für legacy zwecke eh nicht wirklich geeignet...IMO die überflüssigsten windows versionen aller zeiten. :lol: reiner endanwender verarschungs mist...

32bit ist langsam aber sicher am ende...das in der industrie etc. noch teilweise alte hard und software eingesetzt wird, ist da eigentlich irrelevant weil es einfach recht spezifische sonderfälle sind die eh nicht unter die zielgruppe für software, bei der AVX sinn macht, fallen. :)

Coda

2010-11-04, 00:39:17

Die Geschwindigkeit der x87 DIV bzw. SQRT-Befehle sind übrigens stark von der über das FPU-Kontrollwort eingestellten Präzision (das kann man auch von C aus setzen) abhängig.
Das hab ich geschrieben Gipsel. Wenn die x87-FPU auf 32-Bit gestellt ist, dann sollte SQRTSS und FSQRT gleich schnell sein.

Gipsel

2010-11-04, 01:35:25

Das hab ich geschrieben Gipsel. Wenn die x87-FPU auf 32-Bit gestellt ist, dann sollte SQRTSS und FSQRT gleich schnell sein.
Ich hatte Dich so verstanden, daß Du es ausprobiert hättest und auf deutlich unterschiedliche Geschwindigkeiten gekommen wärst und die 32/64/80 Bit-Geschichte der x87-FPU im Verdacht hattest. Das sollte Dich also sozusagen nur darin bestärken, das mal zu überprüfen ;)
Wieso ist ssqrts schneller als fsqrt? Ich hab irgendwie das Gefühl, dass die x87-FPU da nicht im 32- sondern im 64/80-Bit-Modus war.

Coda

2010-11-04, 01:38:53

Ich mach's definitiv, aber morgen hab ich ne Prüfung und Abends lass ich mich voll... feier ich ;)

Gestrandet

2010-11-04, 02:17:09

Das beruhigt mich, dass sich selbst Coda ab und zu noch Prüfungen stellen muss ... ;)
Viel Erfolg dafür! :up:

HOT

2010-11-04, 12:01:33

Keine Ahnung wieso du meinst dass das angeblich gleichschnell sein sollte und nicht von der Implementierung abhängig sei. Auch skalare SSE2 Instruktionen verwendet meines Wissens nicht die gleichen Ausführungsresourcen wie die FPU. Soweit ich mich erinnere war das höchsten bei den ersten CPUs mit SSE1 so.
Natürlich tut sie das. Alle SIMD-Befehlsätze liefen über die FPU bisher.

john carmack

2010-11-04, 16:29:48

Bulldozer 2 (Bulldozer NG)

:D

http://www.computerbase.de/news/hardware/prozessoren/amd/2010/november/amd-gibt-hinweise-zu-bulldozer-2/

Duplex

2010-11-04, 17:15:01

das wichtigste ist immer noch, wie schnell wird ein integer Core eines Moduls ohne AVX/SSE in Desktop Benches, ich schätze die IPC wird zwischen Core2&Nehalem pro integer Core liegen, dazu kommt dann noch der hohe Takt über 4Ghz, dann kann AMD mit einem 4 Modul BD mit einem SB 6 Core mithalten.

S940

2010-11-04, 17:45:01

Bulldozer 2 (Bulldozer NG)

:D

http://www.computerbase.de/news/hardware/prozessoren/amd/2010/november/amd-gibt-hinweise-zu-bulldozer-2/

Ursprung von vor 2 Wochen:
http://citavia.blog.de/2010/10/21/signs-of-bulldozer-2-and-llano-9726240/
The first slide was used in a discussion at an event earlier this year and even the future socket names used there are not based on any plans and will be called differently. So better take it as an idea than a grand plan of AMD, since the future of the server platform is subject to change depending on market conditions and operative/strategic decisions.Erste Kopie bei xbitlabs:
http://www.xbitlabs.com/news/cpu/display/20101103132545_AMD_Starts_to_Talk_About_Bulldozer_2_Micro_Architecture.html

Erster Kommentar bei xbit:

Wow, this article is really wrong.

First off, this is not a roadmap.

Secondly, it is not new.

This was a slide from a presentation almost a year ago in Bruhl, Germany where I presented on the "future of processing." It was a "what if" type of presentation and the voice over at the beginning of the presentation was that this is only a discussion of what could possibly happen and by no means represented any future products.

It was a theoretical discussion at best.
Posted by:JF-AMD http://www.xbitlabs.com/images/comments_1.png | Date: 11/04/10 02:37:25 AM][/RIGHT]

Und nun kommt cb :freak:

Partner

2010-11-06, 18:14:28

Da liegst du falsch (http://www.chip-architect.org/news/Opteron_FloatPnt_Core.jpg). Wäre auch ziemlich bescheuert Logik unnötig zu duplizieren.Dass die selbe Logik verwendet wird erachte ich nicht als selbstverständlich. Wirklich überzeugen würde mich erst eine Dokumentation des Herstellers. Das soll nicht heißen dass ich das für nicht möglich erachte.

In der Grafik von deVries, die auf vielen Vermutungen basiert, ist viel Interpretationsspielraum möglich.

Das hab ich geschrieben Gipsel. Wenn die x87-FPU auf 32-Bit gestellt ist, dann sollte SQRTSS und FSQRT gleich schnell sein.Meines Wissens, nope -defakto-, unterstützt die Präzisionskontrollmaske der x87 FPU offiziell nur 24-/53-/80-Bit. Habe es eben in meinem eigenen FPU-Einstellungscode und auch in der Dokumentation nachgeschaut.

Coda

2010-11-06, 18:21:39

Da brauchst du keinen "Interpretationsspielraum". Es ist allgemein bekannt dass die FPU sowohl SIMD als auch x87 macht.

Erstens wäre alles andere - pardon - Schwachsinn und zweitens wird das auch explizit auf Blockdiagrammen immer und konsistent so ausgewiesen.

Meines Wissens, nope -defakto-, unterstützt die Präzisionskontrollmaske der x87 FPU offiziell nur 24-/53-/80-Bit. Habe es eben in meinem eigenen FPU-Einstellungscode und auch in der Dokumentation nachgeschaut.
Das bezieht sich auf die Mantisse. 24 Bit Mantisse ist float, 53 bit Mantisse ist Double und 64 bit Mantisse ist TEMPREAL.

Partner

2010-11-06, 18:21:47

Hör' doch mal mit Deinen Taylorreihen auf! Die konvergieren für sowas doch sowieso meist viel zu langsam. Und an CORDIC solltest Du bei einem hochentwicklten x86er Prozessor noch nicht einmal denken!

Für DIV und SQRT werden intern traditionell Newton- bzw. Newton-Markham-Verfahren benutzt, auch wenn es natürlich noch andere und sogar schneller konvergierende gibt (ab Core2 benutzt intel wohl was anderes). Der Trick besteht eigentlich nur in ein wenig Zusatzlogik, mit dem man korrekt gerundete Ergebnisse hinbekommt, ohne gleich FMAs zu verbauen (das mit den FMAs ist eigentlich viel neuer, das wurde erst ziemlich spät bewiesen, daß das damit auch geht).Dass sqrt eben NICHT über normale FPU-Operationen z.B. mittels Taylorreihen berechnet wird war doch meine Aussage.

Bei hochmodernen FPGAs war vor 5 Jahren während meines Studiums eine CORDIC-Implementation definitiv aktuell und deutlich effizienter als eine ganze Reihe von Alternativen.

Dass es bei aktuellen x87-Einheiten anders gemacht wird will ich nicht bestreiten.

Partner

2010-11-06, 18:31:50

Da brauchst du keinen "Interpretationsspielraum". Es ist allgemein bekannt dass die FPU sowohl SIMD als auch x87 macht.

Erstens wäre alles andere - pardon - Schwachsinn und zweitens wird das auch explizit auf Blockdiagrammen immer und konsistent so ausgewiesen.Was irgendwelche Blockdiagramme veranschaulichen, und wie die tatsächliche Verarbeitung im Detail ausschaut sind meiner Erfahrung nach oft zwei unterschiedliche Geschichten.

Siehst du ja an deinem eigenen Beispiel.

Das bezieht sich auf die Mantisse. 24 Bit Mantisse ist float, 53 bit Mantisse ist Double und 64 bit Mantisse ist TEMPREAL.Ah, ja klar! Habe ich im Sturm völlig übersehen. :biggrin:

Coda

2010-11-06, 19:36:08

Partner

2010-11-06, 21:04:35

http://www.intel.com/Assets/PDF/manual/248966.pdf

Penryn/Nehalem:
x87 - FDIV Single Precision - Latency: 23 - Throughput: 23 - Port: FP_DIV
SSE - SQRTSS - Latency: 23 - Throughput 23 - Port: FP_DIV

Wer hätt's gedacht :rolleyes:Wenn ich das richtig lese sind deine Werte von Familie:15, Modell:2 (Netburst).
Bei Familie:15, Modell:3 gibt es nach dem Dokument bereits Unterschiede bei der Ausführung zwischen FSQRT und SQRTSS.
Bei Familie:6, Modell:15/23 (Conroe) sind die Unterschiede erheblich.

Wer hätt's gedacht :rolleyes:

Duplex

2010-11-06, 23:37:05

http://www.semiaccurate.com/2010/11/06/amd-demo-bulldozer-next-week/

laut Charlie soll Bulldozer angeblich (vielleicht C32 Version) nächste Woche beim AMD Analyst Day präsentiert werden

y33H@

2010-11-06, 23:54:03

• Zambesi (Quad-Modul mit insgesamt 8 Int-Cores) läuft April 2011 an, als 95W und 128W
• X8 mit 8M L3, X6 mit 6M L3 und X4 mit 4M L3
• TurboCore 2.0
• DDR3-1866 Support
• AM3+

http://www.xbitlabs.com/news/cpu/display/20101105133510_AMD_to_Start_Production_of_Desktop_Bulldozer_Microprocessors_in_A pril.html

S940

2010-11-07, 00:11:22

X6 mit 6M L3

http://www.xbitlabs.com/news/cpu/display/20101105133510_AMD_to_Start_Production_of_Desktop_Bulldozer_Microprocessors_in_A pril.html

In der Quelle stehen 8MB, aber vielleicht haben auch die sich vertippt, nicht Du, wer weiss :freak:

y33H@

2010-11-07, 00:13:01

Ich könnte schwören, da stand eben noch 6M.

Oder ich habe mich von X8/8M, X6/6M und X4/4M reinlegen lassen, weil's so schön passt :ulol:

S940

2010-11-07, 00:14:09

Ich könnte schwören, da stand eben noch 6M.

Oder ich habe mich von X8/8M, X6/6M und X4/4M reinlegen lassen, weil's so schön passt :ulol:
Eher Letzteres, denn die 8MB sind mir schon gestern aufgefallen ;-)

Coda

2010-11-07, 02:47:34

Wenn ich das richtig lese sind deine Werte von Familie:15, Modell:2 (Netburst).:
Es rechnet trotzdem die gleiche Einheit. Kann sein, dass bei der Core-Architektur das setzen auf 32-Bit-Präzision aber keinen Geschwindigkeitsvorteil bringt, weil trotzdem immer mit voller Präzision gerechnet und dann gerundet wird.

Und da wir hier sowieso über AMD reden (http://support.amd.com/us/Processor_TechDocs/40546-PUB-Optguide_3-11_5-21-09.pdf):
FSQRT: 19 Takte Latenz (SP) - Port FMUL
SQRTSS: 19 Takte Latenz - Port FMUL

Soll ich dir auch noch das Patent dazu geben? In AMD-Prozessoren werden die Quadratwurzeln (egal welche Instruction) vom FP-Multiplier erledigt.

duty

2010-11-07, 07:34:08

Hallo AnarchX
dafür muß AMD auch gegen den Nehalem antreten!
das wird noch schwer genug die nächsten jahre
schafft AMD nicht, was immer versucht AMD heute darzustellen durch Namens Änderung wird die CPU nun mal nicht besser, das ganze was AMD in letzter Zeit produziert hat war mehr als peinlich . was nütztet so eine AMD CPU wenn die im ganzen immer noch nicht mit Intel mithalten kann ?

Menace

2010-11-07, 09:43:59

schafft AMD nicht, was immer versucht AMD heute darzustellen durch Namens Änderung wird die CPU nun mal nicht besser, das ganze was AMD in letzter Zeit produziert hat war mehr als peinlich . was nütztet so eine AMD CPU wenn die im ganzen immer noch nicht mit Intel mithalten kann ?

Aaaaarrrgh. Ich nehme an, Du nutzt Deinen PC zum Geld verdienen? Ich arbeite mit meinen PCs schon seit Jahren (In der Regel Parallel: Quark Xpress 8, CS4 Premium (wie alle Programme mit dem verdienten Geld gekauft!), Capture One 5 Pro, Office Paket, Mediator, Chemsketch, IDimager 5 und etwas 3ds max und im Hintergrund läuft auf 2 Kernen boinc bzw. DVBViewer Pro oder Foobar). Das alles auf einem angeblich so schlechten Phenom. Ich kann nichts peinliches an den CPUs entdecken, aber vielleicht kannst Du mir (jenseits von Balkenlängen) sagen, was ich falsch mache.

Fetza

2010-11-08, 00:53:00

Aaaaarrrgh. Ich nehme an, Du nutzt Deinen PC zum Geld verdienen? Ich arbeite mit meinen PCs schon seit Jahren (In der Regel Parallel: Quark Xpress 8, CS4 Premium (wie alle Programme mit dem verdienten Geld gekauft!), Capture One 5 Pro, Office Paket, Mediator, Chemsketch, IDimager 5 und etwas 3ds max und im Hintergrund läuft auf 2 Kernen boinc bzw. DVBViewer Pro oder Foobar). Das alles auf einem angeblich so schlechten Phenom. Ich kann nichts peinliches an den CPUs entdecken, aber vielleicht kannst Du mir (jenseits von Balkenlängen) sagen, was ich falsch mache.

Ich nutze meinen rechner sogar auch zum zocken und selbst da funzt der phenom 2 prächtig. Gerade im multicore bereicht ist er doch oftmals sogar schneller als ein cd2.

S940

2010-11-09, 19:15:34

aylano

2010-11-09, 19:25:48

Wer sagt, dass der 10 Core in den Desktop kommt?!!
Vielleicht ist es nur ein Server-Produkt.

Ich hielt auch ein 6-Modul möglich (siehe 4 --> 6-Core Steigerung auf 45nm).

Intel macht noch viel größere Dies.

PS: Budozer-Desktop im 2Q 2011

Trap

2010-11-09, 19:34:07

http://www.abload.de/img/bulldozerca0v.png (http://www.abload.de/image.php?img=bulldozerca0v.png)

Q2'11 ist nett :)

Schnitzl

2010-11-09, 19:36:45

http://www.abload.de/img/amddesktop126q72.jpg
http://www.abload.de/img/amdserver12nsvv.jpg

Ojojoj ... sieht so aus, als wolle AMD einen auf Intel machen und monolytische 10 Core CPUs auf ein DIE pressen. Weiss nicht was ich davon halten soll, für Server sicher ok, aber für Desktop ... nachdem das nachwievor nur in 32nm produziert wird, erwarte ich da mal kleinere L2 Caches durch Platzsparmaßnahmen, dazu dann auch weniger Takt ... wird genauso niemand brauchen wie die 8Kern Sandys.

ciao

Alex
Wo siehst du beim Desktop 10-Kerner? Ich seh die nur beim Server...

Was viel mehr ANKOTZT, dass man jetzt auch im Performance-Segment ne DX11-GPU dazupappen will. Hallo AMD was soll der Scheiss??? :mad:

/EDIT:

Q2'11 ist nett :) das heisst für mich bei AMD "wenns gut läuft, September"...
Aber ich hoffe dass ich falsch liege

w0mbat

2010-11-09, 19:40:52

[...]
Was viel mehr ANKOTZT, dass man jetzt auch im Performance-Segment ne DX11-GPU dazupappen will. Hallo AMD was soll der Scheiss??? :mad:

nein, das ist zu begrüßen. wenn alle cpus in zukunft eine gpu-einheit haben, kann man damit rechnen, dass diese auch genützt werden wird. vielleicht nicht für grafik aber zum berechnen von dingen, die gpus besser können.

Schnitzl

2010-11-09, 19:48:43

nein, das ist zu begrüßen. wenn alle cpus in zukunft eine gpu-einheit haben, kann man damit rechnen, dass diese auch genützt werden wird. vielleicht nicht für grafik aber zum berechnen von dingen, die gpus besser können.
hm, hab ich mich zu früh aufgeregt? ;)
Was wäre denn das z.B.? So Zeug wie Physx?

Partner

2010-11-09, 19:56:04

Was viel mehr ANKOTZT, dass man jetzt auch im Performance-Segment ne DX11-GPU dazupappen will. Hallo AMD was soll der Scheiss??? :mad:Und was konkret hast du dagegen einzuwänden?
http://img585.imageshack.us/img585/2312/apugpu.jpg!

AnarchX

2010-11-09, 20:01:30

Also kommen da irgendwo zusätzlich 27GB/s her?

Das könnte wohl so aussehen:
CPU @ DC DDR3-1666
GPU @ 32-Bit GDDR5-3500

Das bedeutet wohl nur dass CPU und IGP sich die Gesamtbandbreite von 27GB/s bei Llano (DDR3-1666 DC) teilen können, bei den BD-APUs gibt es dann vielleicht wirklich GDDR5 als Sideport.

Partner

2010-11-09, 20:06:36

Kohärenter virtueller Speicher (DX12 ahoi). Ein weiterer fundamentaler Punkt der die Zukunftsbedeutung der APUs untermauert:
http://img87.imageshack.us/img87/8633/dx12.jpg

Und auch der Stichpunkt "context switching" ist enorm wichtig.

AnarchX

2010-11-09, 20:09:14

Partner

2010-11-09, 20:16:05

Virtueller Speicher zusammen mit einer diskreten GPU löst aber trotzdem nicht das Problem, wie man einen >1000SPs @<=22nm Fusion Die allein mit Bandbreite versogt, DDR entwickelt sich nicht so schnell.
Wenn dann braucht man irgendwo GDDR/FastDRAM auf dem Package oder mehr Speicherkanäle.http://img641.imageshack.us/img641/1342/bandbreite.jpg

:biggrin:

hm, hab ich mich zu früh aufgeregt? ;)
Was wäre denn das z.B.? So Zeug wie Physx?Mit Cuda beschleunigtes PhysX ist nichts weiter als Subventionsdreck der ohne fließendes Geld keine Existenzberechtigung hat.

mboeller

2010-11-09, 20:44:36

http://img641.imageshack.us/img641/1342/bandbreite.jpg

:biggrin:

Mit Cuda beschleunigtes PhysX ist nichts weiter als Subventionsdreck der ohne fließendes Geld keine Existenzberechtigung hat.

WOW! Sehr beruhigend, so eine absolut nichtssagende Folie.. :freak:

john carmack

2010-11-09, 20:49:35

Kommen denn noch PhenomII Updates?
Wie will den AMD denn noch die nächsten 8 Monate durchhalten?

AMD sieht ja Performance technisch heute schon sehr alt gegen Intel aus. Und besser wirds mit Intels SB auch nicht.

Partner

2010-11-09, 20:56:57

WOW! Sehr beruhigend, so eine absolut nichtssagende Folie.. :freak:Wieso nichtssagend? Damit wird deutlich dass AMD sich auch für langfristig notwendige Speicherkonzepte kümmert und niemand lässt sich da in die Karten gucken. Soweit ich weiß hat AMD bereits mehrere Patente z.B. für Chipstapelung angemeldet.

Für die APUs die in den nächsten zwei bis drei Jahren geplant sind wird so etwas sowieso noch nicht nötig sein, daher beschreibt die mittlere Folie ganz konkret dass die Bandbreiten einfach erweitert werden.

Kommen denn noch PhenomII Updates?
Wie will den AMD denn noch die nächsten 8 Monate durchhalten?

AMD sieht ja Performance technisch heute schon sehr alt gegen Intel aus. Und besser wirds mit Intels SB auch nicht.???
Heute wurde unter Anderem bekannt gegeben dass Bulldozer für den Desktop Im April ausgeliefert wird.

S940

2010-11-09, 21:06:52

Wer sagt, dass der 10 Core in den Desktop kommt?!!
Wo siehst du beim Desktop 10-Kerner? Ich seh die nur beim Server...
Ich geh davon aus, dass er 8Core Komodo nur ein teildefekter Sepang ist. 8 oder 10 Kerne .. das ist nur 1 Modul ... nicht viel um, dafür entwickelt man doch keinen extra Chip...

Ja ich weiss da gibts noch ein Problem mit der Grafik .. unten mehr:

Was viel mehr ANKOTZT, dass man jetzt auch im Performance-Segment ne DX11-GPU dazupappen will. Hallo AMD was soll der Scheiss??? :mad:
nein, das ist zu begrüßen. wenn alle cpus in zukunft eine gpu-einheit haben, kann man damit rechnen, dass diese auch genützt werden wird. vielleicht nicht für grafik aber zum berechnen von dingen, die gpus besser können.
Ich bin mir nicht sicher, ob Komodo wirklich mit GPU kommt, denn im Gegensatz zu den aderen APUs steht da eben nicht APU sondern CPU auf der Folie ...
Aber eben auch noch der DX11 Grafik Zusatz ... ist somit doppeldeutig und man weiss nicht, was der Fehler ist. Ich tippe auf die DX11 GPU, wo soll denn die Bandbreite für 8 Bulldozercores PLUS enthusiast DX11 GPU herkommen .. das kann man doch vergessen. Und wie groß würde das DIE werden ... Neee, das glaub ich erst, wenn ichs seh.

Edit, hat sich erledigt, keine APU:
“Komodo”
Market: Server and Performance Desktops
What is it? “Komodo” is AMD’s next generation CPU and is primarily intended for
servers and high-performance desktops. “Komodo” will feature next-generation
“Bulldozer” CPU cores and, in desktop PC platforms, is designed to couple with
DirectX® 11 GPUs to provide enthusiast-level system performance.
Planned for introduction: 2012

/EDIT:
das heisst für mich bei AMD "wenns gut läuft, September"...
Aber ich hoffe dass ich falsch liegeNö, Q2 ist Product Launch, in der letzten Zeit klappte alles ganz gut, ausserdem schaut es so aus als ob AMD die 32nm Wafer Bestellungen von Llano auf BD gewechselt, da Llanos GPU Teil wohl nachwievor Probleme macht. Ergo BD ist jetzt gerade im Ofen ;)

ciao

Alex

AnarchX

2010-11-09, 22:51:53

2MiB L2 shared 2 Kerne
8MiB L3

http://phx.corporate-ir.net/External.File?item=UGFyZW50SUQ9Njk3NTl8Q2hpbGRJRD0tMXxUeXBlPTM=&t=1 slide 15

"smaller overall die-size", also wohl kleiner als der 340mm² Thuban/Istanbul.

Undertaker

2010-11-10, 00:00:01

Hmm, das könnte sich aber auch auf Magny-Cours zu Interlagos beziehen. So wie ich die Folie verstehe, kommt letzterer mit der gleichen L3-Menge wie Valencia?

Btw: "Launch expected Q3" (S. 20)

Schnitzl

2010-11-10, 07:17:00

Nö, Q2 ist Product Launch, in der letzten Zeit klappte alles ganz gut, ausserdem schaut es so aus als ob AMD die 32nm Wafer Bestellungen von Llano auf BD gewechselt, da Llanos GPU Teil wohl nachwievor Probleme macht. Ergo BD ist jetzt gerade im Ofen ;)
Ah, danke, das beruhigt ... etwas :)

AnarchX

2010-11-10, 08:06:25

Btw: "Launch expected Q3" (S. 20)

Q2 Desktop
Q3 Server

(http://www.computerbase.de/bildstrecke/31680/6/)

Pirx

2010-11-10, 08:18:24

Hmm, war das nicht vor ein paar Wochen noch andersrum vorhergesagt, Desktop erst Ende 2011?
Das kann man ja nur begrüßen, wenn es denn wirklich zu halten ist.

S940

2010-11-10, 10:58:01

Q2 Desktop
Q3 Server (http://www.computerbase.de/bildstrecke/31680/6/)
Hatten wir doch schon auf der letzten Seite:
http://www.abload.de/img/bulldozerca0v.png

Hmm, war das nicht vor ein paar Wochen noch andersrum vorhergesagt, Desktop erst Ende 2011?
Das kann man ja nur begrüßen, wenn es denn wirklich zu halten ist.Jo, war es, da wurde gewechselt:
... ausserdem schaut es so aus als ob AMD die 32nm Wafer Bestellungen von Llano auf BD gewechselt hat, da Llanos GPU Teil wohl nachwievor Probleme macht. Ergo BD ist jetzt gerade im Ofen ;)AMD hat wohl fest 32nm SOI Wafer bestellt, die Llano Yields sind aber noch schlecht, ergo ist mit nem BD Wafer wohl mehr Geschäft zu machen, als mit nem Llano.
Risiko sind jetzt Bugs aufgrund der kürzeren Testzeit. Aber für den 1P Heimanwender muss man nicht sooo gründlich nach Bugs suchen, wie bei den 2P/4P Server Opterons. Den TLB Bug hat meines Wissens z.B. kein Privatuser jemals verifizieren können ...
Die AM3+ Plattform war eh schon länger für Q2 angekündigt, das ist also auch kein Problem.

Was bleibt, bleibt ein Restrisiko auf den Super-Über Mega Bug auch für Heimanwender ^^

ciao

Alex

aylano

2010-11-10, 11:21:49

Ich sagte schon, dass die 32nm-"Probleme" beim Bulldozer nicht das Problem ist.
Schließlich ist der Bulldozer eben kein Masse-Produkt wie beim Llano wo die Yield & Produktionskosten sehr wichtig ist.

... Risiko sind jetzt Bugs aufgrund der kürzeren Testzeit.
Nach 3-4 Jahren werden die wohl bessere (genauer & Schnellere) Testverfahren haben. Aber ein gewisses Rest-Risiko bleibt immer.

Gipsel

2010-11-10, 14:08:09

Hat eigentlich irgendwer die Aussagen zu "TurboCore" bei Bulldozer (http://blogs.amd.com/work/2010/11/09/server-highlights-from-financial-analyst-day/) (der Interlagos/Valencia Server-Variante) gelesen?
Turbo CORE – We have disclosed that we would include AMD Turbo CORE technology in the past, so this should not be a surprise to anyone. But what is news is the uplift – up to 500MHz with all cores fully utilized. Today’s implementations of boost technology can push up the clock speed of a couple of cores when the others are idle, but with our new version of Turbo CORE you’ll see full core boost, meaning an extra 500MHz across all 16 threads for most workloads.

AnarchX

2010-11-10, 14:10:58

Das kann man wohl eher so lesen, dass für bestimmte Workloads der Takt gesenkt werden muss, damit die TDP nicht überschritten wird.

Gipsel

2010-11-10, 14:19:47

Das kann man wohl eher so lesen, dass für bestimmte Workloads der Takt gesenkt werden muss, damit die TDP nicht überschritten wird.Aber dann würden die höheren Taktraten beworben werden, so wie es nvidia mit der GTX580 macht (oder auch AMD mit Cypress in Extremsituationen). ;)

Mir zeigt das eher, daß das Design scheinbar genügend Taktspielraum hat (zumindest in den Servervarianten) und zusätzlich jetzt den Takt praktisch immer an der TDP entlang regeln kann. Ob und in wie weit sich das auf die Desktop-Varianten mit weniger Modulen auswirkt, muß sich dann zeigen. Auf jeden Fall werden die dann mit deutlich mehr Takt kommen, aber das ist ja nicht wirklich was Neues.

AnarchX

2010-11-10, 14:26:53

mboeller

2010-11-10, 14:39:26

Bei 2x 4 Modulen auf einem 105W Package, braucht man auf jeden Fall einen vernünftigen Turbo Modus. 500MHz sind imo schon recht wenig, wenn es denn mal zu einer 1 zu 7 Situation kommen sollte, wo ein Single-Thread möglichst schnell ausgeführt werden muss.
Nehalem EX hat in der 95W 8-Core Version einen Boost von 665MHz(+33%) für 2 Cores.

Die 500MHz gelten aber nur dann, wenn 16 Threads auf der CPU laufen. Wenn weniger Threads laufen, dann kommt der normale Turbo nochmal oben drauf. Wieviel weiß aber momentan nur AMD.

Turbo CORE – We have disclosed that we would include AMD Turbo CORE technology in the past, so this should not be a surprise to anyone. But what is news is the uplift – up to 500MHz with all cores fully utilized. Today’s implementations of boost technology can push up the clock speed of a couple of cores when the others are idle, but with our new version of Turbo CORE you’ll see full core boost, meaning an extra 500MHz across all 16 threads for most workloads

Link: http://blogs.amd.com/work/2010/11/09/server-highlights-from-financial-analyst-day/

S940

2010-11-10, 15:20:09

Die 500MHz gelten aber nur dann, wenn 16 Threads auf der CPU laufen. Wenn weniger Threads laufen, dann kommt der normale Turbo nochmal oben drauf. Wieviel weiß aber momentan nur AMD.
[/URL]

Genau das, JF AMD hats hier auch nochmal deutlich gesagt:
Turbo CORE is about the headroom. There are a few workloads (heavily FPU-laden technical and HPC) that fire all transistors. To keep the processor within the TDP, you end up netting out a lower clock speed than you would have for a lighter workload.

You have to bin for "worst case scenario" so you end up leaving some clock speed on the table. That is why the same die that nets a 2.7GHz shaghai gave you a 3GHz Phenom. They are the same silicon but characterized for different workloads.

With Turbo CORE you keep the base clock speed, so that in the worst case scenario you are at base. But for workloads with headroom you get to boost.We'll see ~500MHz with 16 fully utilized cores. With fewer cores utilized it could go higher..."[url]http://www.semiaccurate.com/forums/showpost.php?p=81780&postcount=11 (http://blogs.amd.com/work/2010/11/09/server-highlights-from-financial-analyst-day/)

Hört sich so an als ob dann z.B: bei webservern (ohne Verschlüsselung) die INT Cluster generell um +500MHz hochtakten, ganz nett. Bin mal gespannt, wie dann die SpecINT Rate ausfällt ^^

Undertaker

2010-11-10, 17:30:32

Die dazugehörige interessante Frage wäre jetzt der jeweilige Grundtakt. ;) Turbo-Takterhöhungen von >1Ghz kennt man ja bereits von aktuellen Mobil-CPUs, die dann allerdings auch eine entsprechend niedrige Ausgangsbasis bieten.

HOT

2010-11-10, 18:33:01

Genau das, JF AMD hats hier auch nochmal deutlich gesagt:
http://www.semiaccurate.com/forums/showpost.php?p=81780&postcount=11

Hört sich so an als ob dann z.B: bei webservern (ohne Verschlüsselung) die INT Cluster generell um +500MHz hochtakten, ganz nett. Bin mal gespannt, wie dann die SpecINT Rate ausfällt ^^
Ich find die Idee garnicht mal so schlecht, den Grundtakt etwas niedriger anzusetzen und die Leistung über den Turbo zu generieren, wenn man sie braucht. Das ist so ähnlich wie Powerplay. Die CPU taktet beim booten nur mit 2,5GHz und taktet, wenn eine App gestartet wird, auf 3-3,5GHz hoch - je nachdem wieviele Threads gebraucht werden.
Das könnte auch der Grund für ein Hochtaktdesign mit relativ langsamen L1-Latenzen sein, man kann den Turbo einfach besser ausreizen, wenn die Kerne möglichst hohen Takt vertragen. So wäre eine CPU mit 3GHz Grundtakt denkbar, Turbo bis 3,5GHz auf alles in 125W-TDP oder 2-4 Threads @ 4GHz bei 125W-TDP. Interessant wäre es, ob die Cluster separat "beturbot" werden können.

aylano

2010-11-10, 18:56:41

Genau das, JF AMD hats hier auch nochmal deutlich gesagt:
http://www.semiaccurate.com/forums/showpost.php?p=81780&postcount=11

Hört sich so an als ob dann z.B: bei webservern (ohne Verschlüsselung) die INT Cluster generell um +500MHz hochtakten, ganz nett. Bin mal gespannt, wie dann die SpecINT Rate ausfällt ^^
Wie meinst du das?

Wenn die FPU nicht gebraucht wird und nur Int-Only-Auslastung herscht, können die Integer-Kerne die Stromverbrauch-Kapazitäten vom der stillgelegten FPU nutzen, welche dann +500 Mhz bei dem Integer ermöglichen??

PS: Das der Turbo jetzt über 500Mhz geht, ist ja keine Überraschung. Denn JF sagte das schon vor paar Monaten, dass der Turbo größer 500Mhz bzw. größer dem Thuban-Turbo der eben auch 500Mhz ausmacht. Wobei die Andeutung deutlich über 500 (also eher 1 Ghz) als knapp über 500Mhz war.

S940

2010-11-10, 20:12:41

Ich find die Idee garnicht mal so schlecht, den Grundtakt etwas niedriger anzusetzen Der Grundtakt sollte eigentlich gleich bleiben. Unter Vollast ändert sich ja nichts, nur wenn die FPU nichts zu tun hat, bekommen die INT Cluster "mehr Körner", das ist dann neu ;-)

JFs Beispiel bezog sich ja auf den Unterschied zw. Athlon64 <> Opteron.
Aber wenn man Opteron K10 mit Opteron BD vergleich, bleibt es gleich.
Interessant wäre es, ob die Cluster separat "beturbot" werden können.Bei den Serverchips geht das nicht, das wurde schon irgendwann früher gesagt, da hieß es Turbo pro Modul, aber ich hoff mal auf AM3+, für irgendwas Sinnvolles muss man doch die VRMs ändern ... Cluster Turbo wär sowas Sinnvolles. Alles andere wäre mMn Kinderkram.
Wie meinst du das?Irgendwo stand, dass die AES Sachen an die FMACs geliefert werden, sprich FPU, d.h. ein Webserver mit Verschlüsselung würde nicht so hoch turbotakten, da die FPU gut beschäftigt wäre.

Wenn die FPU nicht gebraucht wird und nur Int-Only-Auslastung herscht, können die Integer-Kerne die Stromverbrauch-Kapazitäten vom der stillgelegten FPU nutzen, welche dann +500 Mhz bei dem Integer ermöglichen??
So versteh ich das, Dresdenboy hatte dazu vor Jahr und Tag auch schon ein passendes Patent ausgegraben, da gings um Powertokens (das was ich oben Körner genannt hatte). Jede Einheit kann die anfordern, und falls was übrig bleibt, bekommt der Rest mehr Futter ^^

Wobei die Andeutung deutlich über 500 (also eher 1 Ghz) als knapp über 500Mhz war.Naja das ist dann wieder ein Verständnisproblem, was "Turbo" jetzt genau bezeichnet. Im Moment reden wir ja nur von Turbo auf allen Kernen, aber die Turbomodi für 1oder 2 Thread Betrieb werden natürlich dann noch höher ausfallen. Sagte JF ja genau in dem verlinkten Zitat.

ciao

Alex

davidzo

2010-11-10, 21:54:08

Ich sagte schon, dass die 32nm-"Probleme" beim Bulldozer nicht das Problem ist.
Schließlich ist der Bulldozer eben kein Masse-Produkt wie beim Llano wo die Yield & Produktionskosten sehr wichtig ist.

Naja, ich glaube viel mehr dass es daran liegt, dass AMD GFs 32nm gegenüber TSMCs 40nm bulk ziemlich überschätzt hat und es letzendlich doch einiger Anpassungen bedurfte eine GPU-Architektur von 40nm Bulk auf 32nm SOI zu übertragen.

Schließlich gab es zuvor noch nie SOI GPUs, das sollte man auch icht unterschätzen.

aylano

2010-11-10, 23:09:26

Naja, ich glaube viel mehr dass es daran liegt, dass AMD GFs 32nm gegenüber TSMCs 40nm bulk ziemlich überschätzt hat und es letzendlich doch einiger Anpassungen bedurfte eine GPU-Architektur von 40nm Bulk auf 32nm SOI zu übertragen.

Schließlich gab es zuvor noch nie SOI GPUs, das sollte man auch icht unterschätzen.
Eine Möglichkeit wäre es, aber sie müssen sich nicht gleich überschätzt haben, nur weil es mal nicht klappte.
Vorallem ist der Umstieg generell sehr groß.

Einerseits eine neue Architektur oder GPU @ SOI und andererseits kam in der neuen Fertigung High-K & Metal-Gates zusätzlich zum Ultra-Low-K (statt Low-K) dazu.
Also, ich glaube, da kann man nicht für jeden Sprung einen extra-Probechip machen, damit man wie erwartet seinen Zeitplan einhaltet.

Wenn man mit 45nm vergleicht, waurde mit K10.5 per K10 schon eine bekannte Architektur genommen und in der Fertigung gabs AFAIK "nur" den Sprung von Macro-SiGe zu Mirco-SiGe

AMD ist generell knapper dran als Intel und ihre CPUs viel länger reifen lassen, sodass dann schon von Anfang im Jänner neben den Desktop-Modelle schon die Notebook-Modelle erscheinen.

Bei AMD dauerte das länger, sodass die Notebook-Plattform immer erst Mitte des Jahres kam.
Also, wenn Llan-Notebook-Plattform auch gleich Mitte des Jahres erscheint, ist die Verspätung halb so schlimm.
Laut AMD Finanz-Day soll AFAIK ende des Jahres ausschließlich Fusion-CPUs geben.

Man kann generell gespannt sein, wann Bulldozer-Fusion wirklich kommt und ob AMD in den nächsten Jahren mal sofort schafft die Notebook-Modelle gleichzeitig mit den Desktop-Modelle bei Fertigungs & Architektur-Wechseln zu starten.

davidzo

2010-11-11, 01:45:05

Man kann generell gespannt sein, wann Bulldozer-Fusion wirklich kommt und ob AMD in den nächsten Jahren mal sofort schafft die Notebook-Modelle gleichzeitig mit den Desktop-Modelle bei Fertigungs & Architektur-Wechseln zu starten.

Jo, den notebookmarkt sehe ich auch kritisch für AMDs erfolg. Hier kümmert man sich in letzter Zeit nicht so. Dabei sind die margen doch 2-3x so hoch.

Bis vor einem jahr gab es noch altes 65nm zeugs dort zu kaufen, obwohl der notebookmarkt doch am ehesten von den sparsameren 45nm prozessoren profitiert hätte. stattdessen hat man mit dem 45nm regor erstmal den desktop überflutet obwohl dort die Preise sowieso schon kaputt waren. Einen singlecore 45nm prozessor hätt eman auch bringen müssen gegen den atom. naja brazos soll da sja jetzt endlich richten.

Klar, AMD hat 45nm prozessoren erst im mobilbereich angeboten als man den prozess voll ausgelotet hat.
Trotzdem sah selbst der Desktop regor von Anfang an besser aus als die turions auf Brisbane oder kuma Basis. Der 45nm Vorteil war eben von Anfang an schon da und das hätte man unbedingt nutzen müssen. Stattdessen im lowend verramschen den schrott... da hat wirklich jemand gepennt...

aylano

2010-11-11, 16:18:50

Jo, den notebookmarkt sehe ich auch kritisch für AMDs erfolg. Hier kümmert man sich in letzter Zeit nicht so. Dabei sind die margen doch 2-3x so hoch.

Komisch, dass das der am stärksten wachsende Markt ist.

Nicht viel getan? Sie haben in den letzten 12 Monate 2 Plattformen rausgebracht und bald kommt ein Danube-Refresh. Ist das nicht genug?

Bis vor einem jahr gab es noch altes 65nm zeugs dort zu kaufen, obwohl der notebookmarkt doch am ehesten von den sparsameren 45nm prozessoren profitiert hätte.
Wenn sie es in einer Nacht & Nebel-Aktion die Notebook-Plattform rausbringen können, hätten sie es getan. Die Realität sieht anders aus.
Und das konnte man schon einige Plattformen davor sehen, dass die Noteboko-Plattform bei AMD 3 bzw. 6 Monate später rauskommt.

... da hat wirklich jemand gepennt...
Glaubst du wirklich, dass die keine Ahnung haben, dass der Notebook-Markt momentan der Profitablere Markt ist und du schon?

Wie ich schon sagte.
Wenn Fusion-Notebook auch Anfang Juli rauskommt, ist die Verspätung für AMD halb schlimm.
Denn entscheidend ist in Zukunft, dass die Notebook-Plattform gleichzeitig mit Desktop-Versionen rauskommen soll. Wie Intel halt.

Und 2012 kommt dann schon Fusion-Bulldozer @ Desktop und hoffentlich schon gleichzeitig Notebook.

Da AMD auch oft von Llano-Produkte im Sommer redet, könnte so eine gleichzeitige Einführung möglich sein.

HPVD

2010-11-11, 18:37:54

sockelfrage:

die ersten Server Bulldozer kommen 2011 für G34

wann erfolgt der nächste Sockelwechsel auf G42/44?
mit dem optimierten Bulldozer in 2012
oder erst mit dem Next Gen in 2013

Und wie ist das dann im Desktopbereich?
der erste kommt 2011 für AM3+
und wie gehts wohl weiter?

Gruß HPVD

S940

2010-11-11, 18:49:54

mit dem optimierten Bulldozer in 2012
oder erst mit dem Next Gen in 2013

http://www.abload.de/img/amddesktop126q72.jpg
http://www.abload.de/img/amdserver12nsvv.jpg

2012 mit den Bulldozer mit integrierten PCIe. Ob das nun enhanced oder Next Gen ist, weiss nichtmal AMD ... das typische, schlampige Marketing, ein Graus.

Für Komodo würde ich dann auch auf nen neuen Sockel schätzen, vermutlich nen abgewandelten C42 mit Triple Channel. Das sollte dann so laufen wie Sockel 1366 bei Intel, der ist ja auch für high-end desktop Segment und 2P server am Start.

Aber falls sie Hypertransport nicht komplett vom DIE streichen, könnte man auch über ne AM3+ Version spekulieren ... aber daran glaub ich eher nicht. Nachdem BD nicht AM3 kompatibel wird, werden sie dem Ethusiasten 2012 sicherlich wieder ne neue Plattform verkaufen wollen, Triplechannel bringt sicherlich auch wieder ~+5%, um es zu rechtfertigen ^^

ciao

Alex

w0mbat

2010-11-18, 02:48:28

http://news.ati-forum.de/index.php/news/35-amd-prozessoren/1607-exklusiv-roadmap-der-qzambeziq-cpu-und-der-kommenden-apu

http://news.ati-forum.de/images/stories/Szymanski/News/2010/zambezi_roadmap.jpg

Undertaker

2010-11-18, 08:25:01

4 Module ab 95W sind nett, sofern da auch der Takt bzw. die IPC stimmt. :) Leider ist zu beiden Punkten bisher noch fast gar nichts durchgesickert...

davidzo

2010-11-18, 23:21:49

4-core 4mb l3 und 95 Watt klingt ernüchternd.

wohl 4ghz mit einer IPC kurz unterhalb von stars so dass man gerade eben einem core i7 @2,5ghz paroli bieten kann.

toll - wozu?

Gipsel

2010-11-18, 23:28:08

4-core 4mb l3 und 95 Watt klingt ernüchternd.

wohl 4ghz mit einer IPC kurz unterhalb von stars so dass man gerade eben einem core i7 @2,5ghz paroli bieten kann.

toll - wozu?
Ich denke mal, die i7 werden eher das Ziel der 6- bis 8-Kerner sein. Und was die IPC (John Frühe behauptete ja höher als Stars), Takt und Stromaufnahme angeht, würde ich erst mal noch abwarten.

Partner

2010-11-19, 00:23:05

4-core 4mb l3 und 95 Watt klingt ernüchternd.

wohl 4ghz mit einer IPC kurz unterhalb von stars so dass man gerade eben einem core i7 @2,5ghz paroli bieten kann.

toll - wozu?Du hast dich verrechnet!

[4-core] * [4mb l3] = 16384 Tomaten
16384 Tomaten / [4ghz] / [95 Watt] = i7 @4,31ghz

infinity

2010-11-19, 00:59:16

Du hast dich verrechnet!

[4-core] * [4mb l3] = 16384 Tomaten
16384 Tomaten / [4ghz] / [95 Watt] = i7 @4,31ghz

seit wann hat jeder core seinen eigenen L3 cache? Verstehe ich deinen Post einfach falsch, oder sprichst du eher vom L2 cache, dessen größe aber bislang noch nicht bekannt ist und auch bestimmt nicht bei 4mb/core sein wird.

4 core heißt 2 module á 2 int-cores. Diese kriegen dann jew. einen 1-2mb L2 cache, einen vernachlässigbar kleinen L1 cache und teilen sich dann alle zusammen den L3 cache.

Edit:

Und ja, ich finde das auch aus TDP sicht sehr ernüchternd... Wenn man bedenkt, dass es ja eigentlich fast einem Dualcore entspricht (aus sicht der angeblichen DIE-fläche, die ja pro Modul gradmal um 12% zum Singlecore design wächst) ist eine 95W TDP für so einen 2 Modul Bulldozer (folglich ~24% größer als ein hypothetischer Dualcore) in dem neuen Herstellungsprozess von 32nm doch eher krass viel. Man vergleiche mal Core2Duos oder die I3/I5 prozzis von intel... diese verbraten ja eigentlich deutlich weniger als 95W.

Das heißt dann eigentlich fast schon zwangsweise, dass AMD die beiden Module verdammt gut auslasten kann, sodass sie 95W verbrauchen. Also wenn das mal keinen kräftigen Leistungsschub für so einen "fast" 4core Sportwagen gibt, fang ich echt zu grübeln an. Zumal AMD ja immer sehr die Energieeffizienz betont hat. ---> das ding muss sehr stark sein.

Fabian_HT4U

2010-11-19, 07:08:18

Von der TDP auf die Leistungsfähigkeit zu schließen halte ich für gewagt. Aber wenn wir schon so schön beim spekulieren sind, gieße ich auch noch eine Vermutung ins Feuer. :biggrin:

Was ist mit dem neuen TurboMode? Die angedeuteten Taktsteigerungen sind doch schon recht groß und eine höhere TDP hilft sicherlich dabei diese häufiger auch durchsetzen zu können. Ein Core i7 870 ist beispielsweise unter Volllast nur 8 Watt von seiner TDP entfernt, hohe Sommertemperaturen und ein schlechter Kühler und schwupps verbraucht das Ding mehr als die TDP erlaubt und der Turbo kann nicht mehr voll genutzt werden.
http://ht4u.net/reviews/2010/leistungsaufnahme_intel_core_i_cpus/index9.php

Hier könnte AMD möglicherweise etwas größere Reserven eingeplant haben.

grüße
Fabian

P.S Sollte tatsächlich im April Launch sein, dann dürfte es ja nicht mehr all zu lange dauern bis die ersten Benchmarks durchsickern....

CrazyIvan

2010-11-19, 07:11:15

seit wann hat jeder core seinen eigenen L3 cache? Verstehe ich deinen Post einfach falsch, oder sprichst du eher vom L2 cache, dessen größe aber bislang noch nicht bekannt ist und auch bestimmt nicht bei 4mb/core sein wird.

4 core heißt 2 module á 2 int-cores. Diese kriegen dann jew. einen 1-2mb L2 cache, einen vernachlässigbar kleinen L1 cache und teilen sich dann alle zusammen den L3 cache.

Edit:

Und ja, ich finde das auch aus TDP sicht sehr ernüchternd... Wenn man bedenkt, dass es ja eigentlich fast einem Dualcore entspricht (aus sicht der angeblichen DIE-fläche, die ja pro Modul gradmal um 12% zum Singlecore design wächst) ist eine 95W TDP für so einen 2 Modul Bulldozer (folglich ~24% größer als ein hypothetischer Dualcore) in dem neuen Herstellungsprozess von 32nm doch eher krass viel. Man vergleiche mal Core2Duos oder die I3/I5 prozzis von intel... diese verbraten ja eigentlich deutlich weniger als 95W.

Das heißt dann eigentlich fast schon zwangsweise, dass AMD die beiden Module verdammt gut auslasten kann, sodass sie 95W verbrauchen. Also wenn das mal keinen kräftigen Leistungsschub für so einen "fast" 4core Sportwagen gibt, fang ich echt zu grübeln an. Zumal AMD ja immer sehr die Energieeffizienz betont hat. ---> das ding muss sehr stark sein.
:facepalm:
Allein das Wort Tomaten in der Formel sollte doch die Intention des Poster eindeutig machen.
Ansonsten glaube ich eher, dass von 4 Modulen die Rede ist als von 2 Modulen mit 4 "Cores".

infinity

2010-11-19, 15:20:38

:facepalm:
Allein das Wort Tomaten in der Formel sollte doch die Intention des Poster eindeutig machen.
Ansonsten glaube ich eher, dass von 4 Modulen die Rede ist als von 2 Modulen mit 4 "Cores".

Ok der picard sagt alles, mmd :-D oh man sorry....war schon zu spät, hätte mal lieber schon schlafen gehen sollen ^^

Und nein, es ist schon von 2 Modulen=4 cores die rede, da nur der auch einen Cache von 4 mb hat. Das 4 Modul=8Kern modell hat ja 8mb L3 cache. AMD wird meines wissens nach die Module nicht als cores betrachten, sondern die Int-core-anzahl als Coreanzahl betrachten.

Von der TDP auf die Leistungsfähigkeit zu schließen halte ich für gewagt. Aber wenn wir schon so schön beim spekulieren sind, gieße ich auch noch eine Vermutung ins Feuer. :biggrin:

Was ist mit dem neuen TurboMode? Die angedeuteten Taktsteigerungen sind doch schon recht groß und eine höhere TDP hilft sicherlich dabei diese häufiger auch durchsetzen zu können. Ein Core i7 870 ist beispielsweise unter Volllast nur 8 Watt von seiner TDP entfernt, hohe Sommertemperaturen und ein schlechter Kühler und schwupps verbraucht das Ding mehr als die TDP erlaubt und der Turbo kann nicht mehr voll genutzt werden.
http://ht4u.net/reviews/2010/leistungsaufnahme_intel_core_i_cpus/index9.php

Hier könnte AMD möglicherweise etwas größere Reserven eingeplant haben.

grüße
Fabian

P.S Sollte tatsächlich im April Launch sein, dann dürfte es ja nicht mehr all zu lange dauern bis die ersten Benchmarks durchsickern....

Das ist natürlich eine sehr coole überlegung! Würde natürlich sinn machen, und entspricht mit sicherheit auch der tatsache. Ich hoffe, dass die einen schön großen puffer eingeplant haben. Aber unter dem gesichtspunkt kann man das ganze dann ja wirklich als eine art speedstep technik betrachten. Somit hat so ein prozessor einen ständigen Sparmodus und fragt die volle leistungsfähigkeit dann erst bei bedarf ab. Das ist doch im prinzip kein turbomodus mehr... sondern der normalzustand ist einfach ein sparmodus? Ist bei Intels Turbomode dann ja im prinzip der gleiche sachverhalt.

Trap

2010-11-22, 21:39:04

So, ein paar neue offizielle Zahlen sind raus:
http://citavia.blog.de/2010/11/22/isscc-10026027/
The Bulldozer 2-core CPU module contains 213M transistors in an 11-metal layer 32nm high-k metalgate SOI CMOS process and is designed to operate from 0.8 to 1.3V. This micro-architecture improves performance and frequency while reducing area and power over a previous AMD x86-64 CPU in the same process. The design reduces the number of gates/cycle relative to prior designs, achieving 3.5GHz+ operation in an area (including 2MB L2 cache) of 30.9mm2.

mboeller

2010-11-23, 07:09:08

Deinorius

2010-11-23, 09:50:28

Nakai

2010-11-23, 10:29:21

Sind es sicher 8T-Sram-Zellen?
Kommt mir etwas zuviel vor.

mfg

mboeller

2010-11-23, 12:46:10

Die Halbierung des Moduls ist hier doch falsch. AMD hat gesagt, dass für den zweiten Kern im Modul nur 12 % mehr Chipfläche nötig ist. Das wären dann umgerechnet knapp 17 mm² für den eigentlichen Kern und 2 mm² für den Zusatz zum Modul.

Schon klar, aber wie wilst du es dann mit älteren CPUs vergleichen? Deshalb die Aufteilung.
_____________________
Ich bin eigentlich überrascht wie klein so ein Bulldozer-Modul ist. Ein Westmere-Core oder ein Sandy-Bridge-core ist incl. 2MB L3-Cache genauso groß. Beim BD kommt das zwar noch oben drauf, aber dafür haben die Intel-CPUs vergleichsweise sehr wenig L2-Cache.

http://www.chip-architect.com/news/Llano_vs_SandyBridge_vs_Westmere_s.jpg

[edit]
...und damit sollte dann ein 4-Modul/8-Core BD in 32nm fast genauso groß sein wie ein 4-Core Phenom II in 45nm
Doppelts so viele Kerne auf der gleichen Fläche sind für AMD nicht schlecht. Mal sehen ob sie dann auch die 4GHz++ erreichen die angestrebt werden.

mboeller

2010-11-23, 12:47:05

Sind es sicher 8T-Sram-Zellen?
Kommt mir etwas zuviel vor.

mfg

Laut den alten Präsentationen zum Llano benutzt AMD für 32nm 8-T SRAM. Einen Link habe ich aber jetzt nicht.

[edit] doch:
http://www.semiaccurate.com/2010/02/10/amd-finally-outs-32nm-llano-core/

Another big circuit change is in the L1 cache cell, which moves from a double-pumped 6T design to an 8T design. Mirroring some of the changes that Intel made from the 90nm to 65nm P4's, AMD is trading off a smaller and more complex design for a larger but much more robust one.

Deinorius

2010-11-23, 19:31:20

Schon klar, aber wie wilst du es dann mit älteren CPUs vergleichen? Deshalb die Aufteilung.

Hängt davon ab, wie du testest. Wenn du hier jetzt wirklich, die Die-Fläche vergleichen willst, musst du es so machen wie ich. Vergleichst du hingegen die Performance von einem Modul gegen zwei Kerne pro Fläche, könntest du auch ganz einfach halbieren, was zwar auch etwas merkwürdig wäre, aber zumindest nicht komplett falsch.

Nakai

2010-11-23, 20:00:15

Laut den alten Präsentationen zum Llano benutzt AMD für 32nm 8-T SRAM. Einen Link habe ich aber jetzt nicht.

[edit] doch:
http://www.semiaccurate.com/2010/02/10/amd-finally-outs-32nm-llano-core/

Gilt das auch für den L2-Cache?

mfg

Trap

2010-11-23, 20:05:48

Mal sehen ob sie dann auch die 4GHz++ erreichen die angestrebt werden.
Allein durch die verringerte Zahl der Gatter auf dem kritischen Pfad sollte es etwa 25% mehr Takt geben. Der 1090T macht mit Turbo 3.6 Ghz, da kommen schon 4.5 Ghz für einen möglichen 1 Modul Turbomodus raus. Dazu kommt dann noch der Prozessunterschied 32/45nm, keine Ahnung ob da taktmäßig ein Vorteil rauskommt.

Ich wäre da auch von 5+ Ghz im 1 Modul Turbo nicht überrascht, bei Volllast für alle Cores hängt der Takt natürlich von Strombedarf+TDP ab.

y33H@

2010-11-23, 20:31:47

5,0 GHz auf einem Modul? Das wäre krank :ulol:

davidzo

2010-11-23, 22:55:19

Das heist dann wohl, das 1 Modul ohne L2-Cache ca. 19 mm² hat und ein "Core" 9,5mm²; also geringfügig kleiner als ein Llano-core. Nicht schlecht.

[edit]
sind die 213 Mio Transistoren incl. L2-Cache oder ohne? Ich nehme an incl. L2-Cache.

2MB sind bei 8-Transistor-SRAM ca. 135 Mio Transistoren. Da bleibt dann für das Modul nur ~~79 Mio Transistoren übrig.

Da es sich hier um keine vollständigen Kerne mehr handelt, sondern nur noch um INT kerne ohne fetcher und decoder sowie L2 aber mit L1 kann man so nicht rechnen.

Das hyphotetische singlecore Bulldozermodul hätte 88% der Fläche, also rund 187 mio Transistoren. Mit 2MB cache, dickem decoder und den vollen 2x 128bit FPUs.

Ein weiterer Int Kern mit scheduler, zwei pipes und L1 sind dann also nur zusätzliche 25.6 mio Tranistoren (12%*213). Das ist genau soviel wie ein Duron Spitfire (3xInt, 80/64bit FP, 128kbl1/64kbl2) und gar nicht soviel weniger als ein propus Kern ohne l2 (34mio), aber wohlgemerkt propus ist inkl. einer 128bit FPU! Auch ein 2011 Stars-Core (Llano) liegt mit 35mio nicht allzuweit entfernt.

Der L1 ist bei Bulldozer ebenfalls geschrumpft, was ich nicht ganz nachvollziehen kann, vor allem die Assoziativität ist ja mit 2-fach für zwei module dann halb soviel wie bei propus, dafür schlägt der Umstieg auf sparsamere und ggf. schnellere 8T zellen aber ins Transistorbudget.
Möglicherweise hat man den scheduler oder die int-pipes verbessert, weshalb dieser recht hohe transistorcount für die alus zustande kommt.

Die Vorstellung von Bulldozer Modulen als Baukasten ist eine passendere Analogie:
2x 25.6mio INT-Kerne
+ ~10mio pipeline fetch+decode+branchpredict
+ 2x ~10mio 128bit Flex-FPs
+ 135mio 2MB 8T SRAM L2
= 213 mio Bulldozer Module

AMDs frühere Aussage dass die zusätzliche Int-Kerne allgemein nur etwa 5% Diespace ausmachen beziehen sich anscheinend auf den kompletten 4-modul Zambesi.

6MB L3 machen bei Deneb 458mio Transistoren aus, zusammen mit der internen Crossbar, HT und den Speicherkanälen sollten das mindestens 800mio bei Zambesi sein. Bei 1652mio Transistoren komme ich auf gut 6% für vier int-kerne (100mio), entweder die Angaben mit 5% sind etwas geschönt oder Zambesi liegt doch deutlich näher an der 2Milliarden Transistorengrenze als gedacht.

Ein Zaubertrick zum verschwindelassen von Transistoren ist Bulldozer nicht.
Allerdings kann man sich sicher sein, dass man gegenüber Stars einiges stark verbessert hat und darauf geachtet hat dass die zusätzlichen kerne, die man quasi "4free" bekommt auch nicht verhungern, daher die Investitionen in den risesigen L2 und L3.

Bulldozer ist also nicht nur ein Core-Monster, sondern auch ein Cache-Monster.

y33H@

2010-11-23, 23:20:45

Der Gegner 980X, auch 32 nm, hat "nur" 1,17 Milliarden :usad:

davidzo

2010-11-23, 23:45:55

korrigiert mich wenn ich falsch liege, aber ich tippe für zambesi auf
irgendwas zwischen 1,4 und 1,8 Milliarden (gehe jetzt davon aus dass der L3 nur max 6T SRAM ist), bei einer Diefläche kurz unter Thuban etwas mehr als Deneb (~300mm²).

Der Gegner 980X, auch 32 nm, hat "nur" 1,17 Milliarden :usad:
Lol, das ist aber nur der L3, insgesamt hat Gulftown 1.7 Milliarden!
EDIT: nee, hat komplett 1.17

L2 hat der insgesamt ja nur 3MB, AMD dagegen 8MB, die Stufen sind also nicht 1:1 vergleichbar. Insgesamt ist man mit 15mb bei gulftown und 16mb bei Bulldozer dann wieder auf Augenhöge und auch die Transistorenanzahl sollte ja ähnlich werden. Man darf gespannt sein.

Auch Dunnington, Nehalem-EX mit 8 Cores und 650mm² in 45nm hat mit 2,3Milliarden deutlich mehr Transistoren (aber auch 28mb vs 16mb l2+l3).

mboeller

2010-11-24, 07:48:01

Gilt das auch für den L2-Cache?

mfg

Ehrlich gesagt, keine Ahnung. Ich glaube ich habe es mal so gelesen, habe aber weder eine Quelle noch einen Link dazu.

Andererseits hat Davidzo folgendes gepostet:

6MB L3 machen bei Deneb 458mio Transistoren aus,

Das wären dann 9 Transistoren pro bit (Anscheinend incl. ECC)

AnarchX

2010-11-24, 08:02:12

Lol, das ist aber nur der L3, insgesamt hat Gulftown 1.7 Milliarden!

Und wo ist die Quelle dazu? Überall werden 1,17 Mrd. kommuniziert, was auch zur Die-Size passt.

Undertaker

2010-11-24, 11:18:28

Die 1,17Mrd stimmen defintiv. Zum Vergleich: Clarkdale, der bis auf den fehlenden IMC recht genau 1/3 von Gulftown entspricht, hat 383M - x3 wären 1,15Mrd.

Coda

2010-11-24, 15:01:30

as wären dann 9 Transistoren pro bit (Anscheinend incl. ECC)
Dann müssten es 6T Zellen sein. ECC mit einem Bit geht schonmal nicht :)

davidzo

2010-11-24, 22:23:20

ihr habt recht, es sind 1.17mio.

habe mich von einer folie mit bildunterschrift westmere 1.7 und der schrift dadrauf täuschen lassen:
http://media.bestofmicro.com/intel-westmere-2c-6c-gulftown,L-Z-237959-13.jpg

Es wird sich also mit ziemlicher sicherheit um maximal 6T sram beim l3 handeln.

Zambesi sollte dann ebenfalls keine 8T ram für L3 benutzen, höchstens für den L2 (was immer noch genug ist). macht auch Sinn, denn der L3 ist weniger frequentiert und damit nicht so energieintensiv wie der L2.

mboeller

2010-11-25, 08:17:33

Hans de Vries mal wieder:

http://chip-architect.com/news/AMD_Bulldozer.jpg

Gefunden habe ich es auf planet3dnow.de (Posting vom Dresdenerboy ;) )

Deinorius

2010-11-25, 10:04:44

320 mm²?? :eek: Die bei AMD müssen sich bei dem großen Chip hinsichtlich Leistung aber sicher sein, der Phenom II hat im Vergleich nur 258 mm² und das bei 45 nm.

Undertaker

2010-11-25, 11:33:07

335mm² (http://www.abload.de/image.php?img=2nvcpcjvu26.jpg) hatte ich mal aus dem ersten noch recht ungenauen Dieshot berechnet, da lag ich wohl gar nicht weit daneben. ;) Allein die 16MB L2+L3 deuteten schon an, dass wir es mit keinem wirklich kleinen Die zu tun haben werden.

In Anbetracht dessen, dass Thuban allerdings noch ein gutes Stück größer war, sehe ich darin aber ersteinmal kein großes Problem, wenn man den Die nicht unter 150-200€ verscherbelt.

S940

2010-11-25, 13:41:13

320 mm²?? :eek: Die bei AMD müssen sich bei dem großen Chip hinsichtlich Leistung aber sicher sein, der Phenom II hat im Vergleich nur 258 mm² und das bei 45 nm.
Dafür laufen bei BD aber auch 8 Threads und keine 4 ... ;-)

Deinorius

2010-11-25, 13:46:52

Ja schon, aber die haben nicht umsonst die Modulbauweise, welche erheblich Chipfläche einspart und zusätzlich den 32 nm Prozess, welcher die Fläche im Vergleich zu 45 nm halbiert.

Ich hoffe nun wirklich, dass Bulldozer zumindest zu SB einigermaßen aufholen kann. Gibts irgendwelche Vergleichsgrößen zum Sandy Bridge?

Edit: Mögliche 225 mm² für SB? Na auf die Benchmarks bin ich gespannt.

S940

2010-11-25, 13:58:18

Ja schon, aber die haben nicht umsonst die Modulbauweise, welche erheblich Chipfläche einspart und zusätzlich den 32 nm Prozess, welcher die Fläche im Vergleich zu 45 nm halbiert. Klar, aber dafür gibts dann auch noch mal so 7 MB mehr Cache ... ;-)
Das macht dann auch wieder "etwas" aus ;-)
Ich hoffe nun wirklich, dass Bulldozer zumindest zu SB einigermaßen aufholen kann. Gibts irgendwelche Vergleichsgrößen zum Sandy Bridge?Größenvergleich ? Jo gibts, von Sandy war die Größe ja schon lange bekannt:
http://www.chip-architect.com/news/Llano_vs_SandyBridge_vs_Westmere.jpg

Ein BD Modul inkl. 2 MB L2 ist also mit 30,9mm2 ziemlich genauso groß wie ein Sandy Kern mit 256kB L2+2MB L3.

Edit:
Achso, Du meintest die komplette DIE Größe, ja da ist Sandy natürlich kleiner.

Von den Benchmarks her kann man schon sagen, dass BD wenigstens bei den multithreaded Benches schneller sein wird, alles andre wäre blamabel für AMD. Acht K10 Threads sind jetzt schon schneller als 8 Threads of nem HT Lynnfield Quad. Laut AMD wird auch die single thread Leistung von BD besser, ergo folgt aus:
8 Thread BD > 8T K10 und
8T K10 > 8Threads Lynnfield ->

8 Thread BD > 8Threads Lynnfield.

Fragen die offen bleiben:
a) Reichts auch für nen 8Thread Sandy ... ?
b) Single Thread Leistung ?

... da muss man einfach abwarten.

Deinorius

2010-11-25, 14:13:59

S940

2010-11-25, 14:27:17

OK, verstehe ich, jedoch...

Also wenn ich SB und BD Die Shots miteinander vergleiche, fällt mir stark auf, dass bei AMD viel Platz zwischen den funktionalen Einheiten besteht (Sorry, ich kanns nicht anders ausdrücken).

Sowohl bei SB als auch bei Bobcat interessanterweise, fällt auf, dass alles stark zusammengepresst wirkt, um Chipfläche zu sparen (gerade bei Bobcat). Bei BD hab ich eher das gegenteilige Gefühl.
Was genau meinst Du ?
a) Freie Flächen innerhalb eines Moduls ?
b) Freien Flächen auf dem Orochi DIE mit 4 Modulen und L3 ?

Falls b): Das ist kein "echter" DIE Shot, da ist noch viel Photoshop-Tarnung mit dabei. Im Februar sollte zur ISSCC was besseres kommen.

Deinorius

2010-11-25, 14:34:53

Ja, b) hab ich gemeint. Es wundert mich halt, dass es Intel deutlich kompakter hinkriegt. Aber ok, mal sehen, was die Benchmarks bringen werden.

Coda

2010-11-25, 15:03:55

Uhm, auf dem Die-Shot ist das zwischen den hervorgehobenen Baugruppen ziemlich dunkel abgebildet. Das wird schon eher keine Freifläche sein.

Deinorius

2010-11-25, 16:18:43

Hat doch keiner behauptet.

Gauß

2010-11-25, 16:57:47

Ja, b) hab ich gemeint. Es wundert mich halt, dass es Intel deutlich kompakter hinkriegt.Wie kommst du darauf?

AMD benötigt bei Bulldozer für zwei Kerne (ein Modul), inklusive 2 MByte L2 cache etwa 30,9 mm².
Intel benötigt bei Sandy Bridge für einen Kern, inklusive 256 KByte L2 cache etwa 18,4 mm².

Gauß

2010-11-25, 17:05:13

Fragen die offen bleiben:
a) Reichts auch für nen 8Thread Sandy ... ?
b) Single Thread Leistung ?

... da muss man einfach abwarten.Viel wichtiger ist heutzutage die Frage nach Leistung pro Energieverbrauch/Preis, besonders im lukrativem Serverbereich.

Ist die Leistung bei einem thread heutzutage wirklich noch relevant? Und selbst da soll Bulldozer schneller als sein Vorgänger sein. Nur meine ich dass es nicht sehr wichtig ist da der schnellste zu sein.

Undertaker

2010-11-25, 17:10:08

Hier gilt es stark zwischen den Einsatzzwecken zu differieren. Im Bereich großer Rechenfarmen stagniert die Singlethreadleistung seit Jahren, ohne das dies sonderlich stören würde. Im Consumer-, teils auch im Workstationbereich sieht das jedoch anders aus.

Gauß

2010-11-25, 17:33:59

Im Consumer-, teils auch im Workstationbereich sieht das jedoch anders aus.Mir fallen da wirklich keine Beispiele ein wo das noch der Fall ist.

Undertaker

2010-11-25, 17:59:59

Consumerbereich: In erster Linie Spiele, aber auch simple Sachen wie Webbrowser bzw. deren Plugins (zwei kleine Tests dazu: Screenshotthread mit 50 Posts/Seite an einer schnellen Internetleitung öffnen, Flashspiele wie Farmville - hier meckert meine Freundin immer :biggrin:)

Im Workstationbereich (an der Uni: 3,0GHz E8400, zu Hause: 3,5GHz X6) sind es bei mir vor allem numerische Simulations-/Optimierungsprogramme (SimulationX, OptiY), die nur einen einzigen Kern nutzen - und für jede Parameteränderung minuten- bis stundenlang rechnen.

Nicht vergessen sollte man auch, dass Singlethreadleistung nicht nur interessant ist, wenn nur ein einziger Kern genutzt wird. Das Problem ist letztlich genauso relevant, wenn bei 6 oder 8 Kernen/Threads nur 2 oder 3 genutzt werden.

Aber dafür wird es ja einen hoffentlich leistungsfähigen Turbo geben. :)

Gauß

2010-11-25, 18:57:35

Consumerbereich: In erster Linie Spiele, aber auch simple Sachen wie Webbrowser bzw. deren Plugins (zwei kleine Tests dazu: Screenshotthread mit 50 Posts/Seite an einer schnellen Internetleitung öffnen, Flashspiele wie Farmville - hier meckert meine Freundin immer :biggrin:)Moderne Spiele sind fast ausschließlich GPU-Limitiert und zudem auch multi-threaded.
Auch moderne browser verteilen auf mehrere Prozesse oder threads.

Im Workstationbereich (an der Uni: 3,0GHz E8400, zu Hause: 3,5GHz X6) sind es bei mir vor allem numerische Simulations-/Optimierungsprogramme (SimulationX, OptiY), die nur einen einzigen Kern nutzen - und für jede Parameteränderung minuten- bis stundenlang rechnen.Hö? Das ist doch gerade eine Paradedisziplin von paralleler Datenverarbeitung. Da muss die von dir genutzte Software einfach grottenschlecht sein wenn sie das da nicht nutzt.

S940

2010-11-25, 19:27:02

Viel wichtiger ist heutzutage die Frage nach Leistung pro Energieverbrauch/Preis, besonders im lukrativem Serverbereich.
Das ist aber keine offene Frage, das ist der multithreaded Fall, und das wird perfekt laufen. Der Grund des ganzen Moduldesigns ist Stromsparen und Transistorrecycling. Der zweite INT Kern im Modul braucht nicht viel Platz, schafft aber +80% Leistung.
Aber ohne ausreichend gute Grundleistung, bringt einen das nicht weiter, das war mit single Thread Leistung gemeint. +80% auf ATOM Niveau wären uniteressant :freak:

Undertaker

2010-11-25, 19:55:11

Moderne Spiele sind fast ausschließlich GPU-Limitiert und zudem auch multi-threaded.
Auch moderne browser verteilen auf mehrere Prozesse oder threads.

Das berühmte fast. ;) Ich denke man kann aber ohne Zweifel sagen, dass man in Spielen von z.B. 25% mehr IPC wohl praktisch immer eine höhere Leistungssteigerung hat als von einer beliebigen Erhöhung der Kernzahl, ausgehend von einem Quadcore.
Zu den Browsern: Ja, Chrome ist das der Fall. Bei den meistgenutztesten Browsern leider nicht, zudem hilft das in meinen Beispielen leider auch nichts.

Hö? Das ist doch gerade eine Paradedisziplin von paralleler Datenverarbeitung. Da muss die von dir genutzte Software einfach grottenschlecht sein wenn sie das da nicht nutzt.

Nun, ich bin kein Informatiker um das zu beurteilen. ;) Ich weiß nur, das genannte Software zum Standard in diesem Bereich zählt, wer da jetzt die Schuld trägt oder was verbessert werden kann, ist gegenüber dem status quo erstmal sekundär.

Btw, wenn wir das noch weiter ergründen wollen, wäre evntl ein eigener Thread angebracht. Ggfls. splitte ich es später heraus.

Deinorius

2010-11-25, 20:57:17

AMD benötigt bei Bulldozer für zwei Kerne (ein Modul), inklusive 2 MByte L2 cache etwa 30,9 mm².
Intel benötigt bei Sandy Bridge für einen Kern, inklusive 256 KByte L2 cache etwa 18,4 mm².

Mir geht es nicht speziell um die Kerne an sich. Da ist es ja klar, allein schon wegen der Modulbauweise. Mir geht es um den Rest vom Chip (besonders die Teile, die beim BD von van Vries nicht bezeichnet sind).
Ich könnte jetzt an sich ein paar Rechnungen machen, die meinen Standpunkt (vielleicht) veranschaulichen, aber da warte ich lieber ab, bis BD wirklich auf dem Markt ist und zeigen kann, wie seine Performance/Watt/€ aussieht.

davidzo

2010-11-25, 21:11:41

Für AMD ist der 1.6 Milliarden zambesi aber nicht oder nur unwesentlich teurer als für intel der 1.12 Milliarden 4-core Sandybridge.

SB hat wie schon oft bemerkt wesentlich weniger cache. 9mb cache vs 16mb bei Zambesi.
Rechnet man den L2 also aus den Modulen heraus, so sind bleiben lediglich gut 300mio Transistoren für Logik, der Rest ist SRAM.
Die 8T und ggf. 6T (L3) SRAM Zellen von Zambesi sind vollautomatisiert zu planen und die Anpassung der Masken an den Prozess ein Kinderspiel. In sachen Packungsdichte sind SRAM Zellen nicht zu übertreffen, komplexe gatter für logik häufig viel größer.

In Sachen Diefläche ist Zambesi womöglich doch dichter an SB als wir denken, da der SRAM Anteil sehr hoch ist, prozentual gesehen höher als bei jeder anderen DesktopCPU bis jetzt.

In Sachen Produktionskosten ist Zambesi womöglich gar nicht im hintertreffen. Wenn die Masken entsprechend billiger, genauer und schneller herzustellen sind als Sandybridge, kann Zambesi trotz eines größeren Dies gleichteuer oder gar billiger in der Herstellung sein.
(Was natürlich nichts zu den Marktpreisen aussagt, da die mit der nachfrage zusammen hängen, nicht mit den produktionskosten)

Coda

2010-11-25, 22:26:17

Ich bezweifle dass Maskenkosten bei den Stückzahlen die Intel fährt eine große Rolle spielen.

Beim Design könnte AMD aber im Vorteil sein, das stimmt.

mboeller

2010-11-26, 07:36:09

zum BD gibt es hier gerade eine "nette" Diskussion:

http://aceshardware.freeforums.org/amd-bulldozer-preview-t1042-150.html

Vor allem die Fragen von Paul deMone und die kurzen Antworten von J. Frühe (JF-AMD) sind imho wichtig.

Undertaker

2010-11-26, 09:01:03

In Sachen Diefläche ist Zambesi womöglich doch dichter an SB als wir denken, da der SRAM Anteil sehr hoch ist, prozentual gesehen höher als bei jeder anderen DesktopCPU bis jetzt.

Denkst du, die 320mm² von Hans de Vries sind falsch? Natürlich lässt sich Cache deutlich dichter packer als Logik, die Transistorendifferenz ist allerdings auch recht groß.

davidzo

2010-11-26, 13:35:42

Denkst du, die 320mm² von Hans de Vries sind falsch? Natürlich lässt sich Cache deutlich dichter packer als Logik, die Transistorendifferenz ist allerdings auch recht groß.

die 320mm² decken sich mit meiner Schätzung vor zwei Seiten. Allerdings dachte ich da auch noch an 1.6-2 Milliarden Transistoren und ausschließlich 8T sram.
Sollte der L3 kein 8T verwenden, kann man auch unter 300mm² kommen.
Allerdings darf man nicht vergessen das Intel derzeit die dichteste Packung von SRAM erlaubt und bereits deutlich mehr Erfahrung mit 32nm hat. Zum Beispiel ist Gulftown 248mm² groß obwohl nur 50 mio Transistoren größer und davon sogar die meisten im cache.
Sandybridge ist also bei der Packung auf einem anderen level als Gulftown.

Zambesi erreicht aber selbst worstcase eine MTleistung deutlich oberhalb von SB. Das SB nur 70% des Siliziums verbraucht wie Zambesi ist damit locker kompensiert.
Gegenüber Gulftown liegt man immerhin rund 22% zurück, sollte die Diefläche wirklich 320mm² betragen, aber das ist immer noch besser als die heutige Situation, wo Clarkdale mit Deneb, Lynnfield und bloomfield mit Thuban konkurrieren und Gulftown sogar absolut konkurrenzlos.

S940

2010-11-26, 14:18:58

Allerdings darf man nicht vergessen das Intel derzeit die dichteste Packung von SRAM erlaubt

Nö, bei 32nm nicht mehr, da gibts 0,15µm² für IBM/Freescale/AMD (Abkürzung: IFA) und 0,17µm2 für intel. Quelle:

http://www.realworldtech.com/page.cfm?ArticleID=RWT072109003617&p=10
(in der Tabelle)

Was man aber auch erwähnen sollte ist der Abschnitt:
To highlight this, the author reviewed 9 papers from ISSCC, examining the SRAM bit cells used in last level caches (i.e. the densest SRAM), compared to the claimed bit cell size in IEDM process papers. In a given process technology, the SRAM cells actually used in production MPUs were about 5-15% larger than those reported in IEDM papers. For a latency sensitive L1 cache, the SRAM cells might be 50-70% larger than the reported SRAM cell in an IEDM paper, as the cache designers will trade density for performance.

Könnte also durchaus sein, dass die L3 Cache Zellen kleiner sind, als die L2. Bisher war das nicht der Fall, aber nachdem BD eher für hohe Taktraten ausgelegt ist, mit dem auch die L2 Zellen laufen müssen, könnte der Unterschied zum L3 höher ausfallen, was ein extra Cell-Design sinnvoll erscheinen lassen könnte.

davidzo

2010-11-26, 14:29:15

Nö, bei 32nm nicht mehr, da gibts 0,15µm² für IBM/Freescale/AMD (Abkürzung: IFA) und 0,17µm2 für intel. Quelle:

wie gesagt nutzen ibm/freescale/amd bisher auch 6T sram, Intel dagegen seit nehalem robustere 8T zellen. AMD wird bei 8T zellen auch nicht die packungdsdichte erreichen wie beim bisher verwendeten 6T im selben prozess (Llano).

Da angeblich das Taktpotential bei 8T besser ist sowie der stromverbrauch, würde es sinn machen diesen in besonders frequentierten bereichen zu verwenden. im weniger frequentierten bereich würde 6T kaum auffallen, da der mehrverbrauch ja in erster Linie bei den loads und stores entsteht, die im L3 wesentlich seltener sind als im L2. Möglicherweise läuft der L2 direkt mit CPUtakt, während der L3 als eben mit den 2,4ghz läuft, die amd erwähnt hat. bisher sinds 2Ghz in 45nm, da sind 2.4ghz in 32nm ein sehr kleiner schritt, für den 8T Cache erwarte ich deutlich mehr.

S940

2010-11-26, 15:09:49

wie gesagt nutzen ibm/freescale/amd bisher auch 6T sram, Intel dagegen seit nehalem robustere 8T zellen. AMD wird bei 8T zellen auch nicht die packungdsdichte erreichen wie beim bisher verwendeten 6T im selben prozess (Llano).
Ich glaub da wirfst Du jetzt Prozess und Produkt in einem Topf.
Die verlinkte Tabelle vergleicht SRAM Zellgrößen. Das sind jeweils 6T Größen. Ob Intel jetzt 8T Zellen im Nehalem einbaut, oder nicht ist der Tabelle erstmal egal, die sagt erstmal nur aus, dass die IFA Firmen bei 32nm kleinere Zellen bauen können.

Zweite Frage ist dann aber die nach dem Produkt. Wenns dann jetzt um 8T geht, ist das natürlich wieder was anderes, aber ob da Intel dann 8T besser packen kann, als IFA 8T weiss man nicht. Oder hast Du nen Link ?

Auf alle Fälle würde ich mal nicht blind davon ausgehen, dass Intel besser wäre, wenns bei 6T Zellen@32nm nicht der Fall ist.

Da angeblich das Taktpotential bei 8T besser ist sowie der stromverbrauch, würde es sinn machen diesen in besonders frequentierten bereichen zu verwenden. Jo deckt sich mit meinem letzten Absatz. 8T macht für L1&L2 Sinn, aber L3 ? Da sollte man dann vielleicht Fläche sparen. Aber wer weiss .. eventuell war AMD die Robustheit doch wichtiger und sie setzten auch auf 8T im L3.

ciao

Alex

HOT

2010-11-27, 11:38:45

Die 8T-Zellen werden für den L1 genutzt werden. Ich glaube nicht, dass der L2 so hoch getaktet wird (oder sagen wir, er wird berechenbarer getaktet, also 3,5GHz max), der Turbo wird von den garnicht gelten. Ich finde die Caches im Verhältnis zur Logik sehr klein beim BD. Was wirklich Platz frisst auf dem Die ist die Modularität. Offenbar braucht man den Platz ja auch, denn die ganzen Anschlüsse müssen ja auch irgendwo untergebracht werden. Wenn man die Anschlüsse betrachtet und mit dem Deneb vergleicht, müsste der BD eigentlich eher unter 300mm² einzuordnen sein - aber das ist aus der Luft gegriffen, wie alle Schätzungen bisher.

Undertaker

2010-11-27, 14:39:52

Eine eigene Clock-Domain für den L2-Cache? Halte ich für höchst zweifelhaft, oder habe ich hier eine Info verpasst?

merfu

2010-12-26, 02:57:08

Schon bekannt?
http://hartware.net/news_50654.html

MfG

john carmack

2010-12-26, 03:33:18

merfu

2010-12-26, 04:05:24

April 2011

Cool

8 Kerne im Desktop :) (also keine echten 8 aber immerhin)

Wie war das?

SingleCore = 100%
Ein nativer Dualcore = ~ 180%
Intel: 1Kern + HT = ~120%
AMD: 1BD Modul = ~170%

Kommt das etwa hin? Kann mich nicht mehr genau erinnern...

Klingt vertraut. Ich habe aber gerade nochmal nachgeschaut das ein BD Modul ungefähr 80% der Performance eines nativen DC haben könnte (oder wird?) jedoch mit erheblich weniger Die-Size und Leistungsaufnahme.

MfG

y33H@

2010-12-26, 10:59:17

BD-Modul = 80% eines fiktiven BD-DCs

john carmack

2010-12-26, 12:21:25

"Chips im 32-Nanometer-Verfahren soll im März 2011 beginnen. Damit liegt AMD gut in der Zeit für die Veröffentlichung seiner neuen CPUs..."

Das ist ja wohl ein schlechter Witz! :D

SavageX

2010-12-26, 12:40:48

"Chips im 32-Nanometer-Verfahren soll im März 2011 beginnen. Damit liegt AMD gut in der Zeit für die Veröffentlichung seiner neuen CPUs..."

Das ist ja wohl ein schlechter Witz! :D

Nö, April liegt am Anfang des von AMD angesagten Quartals, nicht am Ende. Deshalb liegt das gut in der Zeit.

Käme da der (eingestampfte) 45nm Bulldozer, *dann* wäre das definitiv sehr spät. Für den 32nm Bulldozer liegt das im Rahmen.

y33H@

2010-12-26, 14:17:47

45 nm BD?

S940

2010-12-26, 15:31:06

45 nm BD?
Frag mal Deinen Kollegen:
Bulldozer ist das Next-Generation-Projekt, das eigentlich schon 2009 in 45 nm erscheinen sollte, dann aber kräftig nach hinten verschoben wurde und für 2011 ansteht.
http://www.pcgameshardware.de/aid,698648/AMD-Roadmaps-veroeffentlicht-Update-Bulldozer-2011-mit-acht-CPU-Kernen-und-Radeon-HD-6000/CPU/News/

:)

Der CPU Codename war Sandtiger, war nur kurz auf der Roadmap:
http://images.dailytech.com/nimage/5486_large_sandtiger.jpg
http://www.ferkinghoff.com/bloginfo/03-Sandtiger.png

Das Teil wäre vermutlich genauso schlecht wie die ersten K10 @65nm geworden, weswegen dann vermutlich die Notbremse gezogen wurde.

Sorkalm

2010-12-26, 15:50:31

Wie war das?

SingleCore = 100%
Ein nativer Dualcore = ~ 180%
Intel: 1Kern + HT = ~120%
AMD: 1BD Modul = ~170%

Kommt das etwa hin? Kann mich nicht mehr genau erinnern...

Das ist in etwa das, was bisher kommuniziert wurde, aber das wird sowieso schwer auf den Anwendungsfall ankommen. Bulldozer hat 8 Int-Kerne, aber nur 4 FPU-Kerne, wenn man das so sehen will, wobei man letztere eben aber auch wieder teilen kann, wenn nur 128-Bit-FPU-Befehle anstehen. Da bleibt abzuwarten, wann mal merkt, das ein Modul nicht unbedingt zwei klassischen Kernen entspricht.

Das Modul bricht halt mit dem klassischen CPU-Kern-Gedanken auf. Es als nur einen CPU-Kern anzusehen, wäre sicherlich untertrieben, aber zwei klasissche sinds auch net. Das ist ein Trend, der sich in Zukunft sicher noch mehr zeigen wird.

45 nm BD?

Als ich den Codenamen für den 45 nm BD gelesen hatte, musste ich irgendwie an Papiertiger denken. Das man hätte ahnen können, wie wahr das für den Sandtiger geworden ist... :freak:

y33H@

2010-12-26, 18:32:06

@ S940

Ah, Sandtiger - das sagt mir dann doch was :biggrin:

S940

2010-12-26, 18:34:24

Da bleibt abzuwarten, wann mal merkt, das ein Modul nicht unbedingt zwei klassischen Kernen entspricht.
Nachdem man das selbst bei Intels Hyperthreading nur selten merkt, erwarte ich da 0 Probleme bei AMDs Ansatz. Hans de Vries hat mal auf Anandtech gesagt, dass selbst bei FPU lastigem Code nur 40-50% FPU µOps anfallen, sollte also wirklich kein Problem sein.

Aber solange man noch nichts Gemessenes gesehen hat, bleibt natürlich ein Restrisiko :)

ciao

Alex

john carmack

2010-12-26, 19:24:59

Nö, April liegt am Anfang des von AMD angesagten Quartals, nicht am Ende. Deshalb liegt das gut in der Zeit.

Käme da der (eingestampfte) 45nm Bulldozer, *dann* wäre das definitiv sehr spät. Für den 32nm Bulldozer liegt das im Rahmen.

Ich meine damit das der Phenom1 eigentlich ja schon der Bulldozer sein sollte...
Naja, hat sich halt ein paar Jahre verspätet :D

S940

2010-12-27, 13:04:01

Naja, hat sich halt ein paar Jahre verspätet :D
Da bin ich ausnahmsweise froh darüber .. lieber nen gut hochtaktenden 32nm hK ULK Bulldozer mit 2MB Modul- und 8 MB L3 Cache, als nen 45nm Abklatsch mit 1MB Modul / 4MB L3 Cache, der ohne hK und ULK vermutlich wieder an der 140W Grenze schrammen würde und trotzdem nicht so hoch takten könnte.

Von AVX anstatt SSE5 ganz zu schweigen. SSE5 hätte eh wieder keiner genutzt. Ne das passt so und das ist auch gut so :)

Hätten sie bei Barcelona schon genauso machen sollen, ein Quad MCM aus 2 Dual Core K8 hätte locker gereicht und wäre für lau zu haben gewesen. Aber naja, man wollte wohl unbedingt erster mit nem native Quad sein, und hat sich gehörig die Finger verbrannt.

Insofern gut zu sehen, dass man dann bei AMD lernfähig war, und das Bulldozer Abenteuer @45nm schnell begraben hat :)

davidzo

2010-12-27, 13:33:36

Das Modul bricht halt mit dem klassischen CPU-Kern-Gedanken auf. Es als nur einen CPU-Kern anzusehen, wäre sicherlich untertrieben, aber zwei klasissche sinds auch net. Das ist ein Trend, der sich in Zukunft sicher noch mehr zeigen wird.

Ich finde den Vergleich zu Intel HT cores gar nicht schlecht.
Praktisch fällt Bulldozer bei weniger MTh Auslastung nicht wie bei einem nativen Dualcore auf etwa die Hälfte der Leistung zurück, sondern durch die gesharten teile auf deutlich mehr.
Wenn man vom virtuellen Corecount als 200% ausgehen würde, fällt intel ohne HT lediglich auf 160-180% ab und auch BD wird sich noch bei 110-120% halten können (1 core mit dickem scheduler und massiv cache), während ein nativer Dualcore keinerlei Vorteil aus dem zweiten ungenutzten virtuellen Core ziehen kann.

Ich finde daher dass der Vergleich mit HT günstiger ist, da es ähnlich flexibel ist wie die gesharten Teile bei BD.
letzendlich sind BD-module (ohne cache) auch eher in den Größenordnungen anzusiedeln wie Intel Cores mit HT.

Da BD aber ein absolutes Cachemonster ist (16MB), lässt mich das hoffen dass man die Cores auch gehörig schnell machen will um diese durch cache erkaufte wahrscheinlich sehr gute Skalierung auch zu zeigen.
Der große Cache deutet also auf einen großen Durchsatz und imo hohen Core-takt hin.

Da bin ich ausnahmsweise froh darüber .. lieber nen gut hochtaktenden 32nm hK ULK Bulldozer mit 2MB Modul- und 8 MB L3 Cache, als nen 45nm Abklatsch mit 1MB Modul / 4MB L3 Cache, der ohne hK und ULK vermutlich wieder an der 140W Grenze schrammen würde und trotzdem nicht so hoch takten könnte.

Von AVX anstatt SSE5 ganz zu schweigen. SSE5 hätte eh wieder keiner genutzt. Ne das passt so und das ist auch gut so :)
Sehe ich auch so. Allerdings weiß ich noch nicht was 32nm bedeutet, da man bei GFs Prozess ja noch keine Anhaltspunkte dazu hat.
Geringer Energiebedarf (also unter 140Watt für 8 cores@3,5-4ghz) oder hoher Takt (deutlich mehr als 4Ghz)?

April ist schon bald, ich wundere mich wirklich dass da keine Zahlen durchsickern. Die Dinger müssen doch längst bei den OEMs sein, da muss doch was durchsickern.

Kann mir nur denken dass die OEMs selber noch keinen Plan von den finalen Taktraten haben und die jetzigen Ergebnisse eher ernüchternd sind. Bei allzu enttäuschenden ergebnissen dauert es aber meist nicht lange bis irgend jemand spricht, das ist also auch nicht zu erwarten.

Sind die Ergebnisse dagegen erfreulich gut, dürfte die Welle an neuen Enthusiastenmainboards (siehe P67) eigentlich kaum noch aufzuhalten sein und zumindest schon langsam sichtbar sein.
AM3 gibts zwar schon und viele boards werden wohl nur minimal abgeändert werden, aber die denken ja marktwirtschaftlich. Wenn der Kunde eine neue CPU kauft, will er meist auch ein neues mainboard, nicht dasselbe in grün. Welcher Hersteller dann das jüngste mit den meisten features hat, der steht am besten da.

Undertaker

2010-12-27, 13:38:08

Es gab doch vor kurzem bereits News, die etwas von 3,5GHz und afair auch 125W TDP andeuteten. An die 140W traut man sich vernünftigerweise wohl nicht mehr heran. ;)

davidzo

2010-12-27, 13:43:28

Es gab doch vor kurzem bereits News, die etwas von 3,5GHz und afair auch 125W TDP andeuteten. An die 140W traut man sich vernünftigerweise wohl nicht mehr heran. ;)
das sagt ja noch nichts zur performance. Wenn die IPC sich nur 10% verbessert bzw. dann noch gut 20% hinterherhängt wird man es selbst gegen den i2600, der durch seinen Preis mächtig drückt, schwer haben, geschweige denn den 980x komfortabel schlagen. Derzeit siehts nicht gut aus beim 3,3ghz X6 gegen den 33mhz schnelleren 980x (30-35%).

Ist das dann die midrange SKU die gegen den 2600k antritt oder gibts nach langer Zeit auch wieder highend im premium preisbereich?

Sorkalm

2010-12-27, 13:58:05

Ist das dann die midrange SKU die gegen den 2600k antritt oder gibts nach langer Zeit auch wieder highend im premium preisbereich?

Ich kenne keine vernünftige Schätzung über die Performance, noch den zu erwarteten Preis (auf den man auf ersteres Rückschlüsse ziehen könnte), AMD hält sich da noch ziemlich bedeckt. Mehr als die Aussage, schneller als Phenom II ist da noch nicht bei rumgekommen.

y33H@

2010-12-27, 14:04:17

@ davidzo

Cache-Monster ist relativ. SBe kommt alleine schon auf 20M LLC, allerdings inklusives Design. Dennoch: 2M pro Modul sind schon eine Nummer, das ist das Doppelte eines Phenom II pro zwei Int-Cores. Vermutlich ist daher der L3 mit "nur" 8M nicht viel größer als bisher - Cache frisst halt viel Die-Space.

Fast +50% ohne GPU-Limit trennen laut aktuellem CB-Rating Thuban und Gulftown bei gleichem Takt. Ein Sandy Bridge mit 4C ohne (!) SMT hält bei gleichem Takt im bsp. CB11.5 mit einem Phenom II X6 mit (von Singlethreading und Spielen ganz zu schweigen, da dreht der Kreise), ist dabei sparsamer und lässt sich besser übertakten. Je mehr ich von BD lese und erfahre, desto spannender wird zwar die CPU, aber mit SB enteilt Intel AMD noch weiter, der BD hat eine große Lücke zu füllen. Ich bin heiß auf das Ding =)

mboeller

2010-12-27, 15:25:35

Es gab doch vor kurzem bereits News, die etwas von 3,5GHz und afair auch 125W TDP andeuteten. An die 140W traut man sich vernünftigerweise wohl nicht mehr heran. ;)

Wo denn? Wo denn?

Hier steht nur was zu den 3,5GHz+ :
http://citavia.blog.de/2010/11/22/isscc-10026027/

Damit kann auch ein 16-Core Interlagos mit 115 Watt ACP gemeint sein. ;)

S940

2010-12-27, 21:30:20

Sehe ich auch so. Allerdings weiß ich noch nicht was 32nm bedeutet, da man bei GFs Prozess ja noch keine Anhaltspunkte dazu hat.
Geringer Energiebedarf (also unter 140Watt für 8 cores@3,5-4ghz) oder hoher Takt (deutlich mehr als 4Ghz)?
Sowohl als auch, je weniger Leakage man hat, desto mehr kann man die Leistung in Takt und nicht in Wärme umsetzen :)
Abgesehen davon gabs schon Anhaltspunkte über IBMs 32nm SOI hK Prozess:
http://www.realworldtech.com/page.cfm?ArticleID=RWT072109003617&p=9
Sieht alles ganz gut aus, SRAM sizes sind erstmals besser als bei Intel, wobei man da die Großserie abwarten muss.

April ist schon bald, ich wundere mich wirklich dass da keine Zahlen durchsickern. Die Dinger müssen doch längst bei den OEMs sein, da muss doch was durchsickern.
Hmm, ne die BDs sind - wenn ich mich recht erinnere - jetzt gerade im EV Test, Leaks gibts dann beim DV Test im Februar. DV = Design Validation, d.h. die Boardhersteller bekommen Chips um ihre Bretter zu testen.
IP = Initial Production, heißt übrigens nicht, dass die Teile schon im April beim Händler sind ... da würde ich mal noch 1-2 Monate draufpacken, Mai/Juni ist ja schließlich auch noch im Q2.

@ davidzo

Cache-Monster ist relativ. SBe kommt alleine schon auf 20M LLC, allerdings inklusives Design.
Na komm, also der Vergleich hinkt jetzt aber schon etwas, wieso nimmst Du nicht gleich nen Itanium zum Vergleich ? Gegen die 8core SBes gibts das Interlagos MCM mit 32MB Cache (eventuell abzüglich HT Assist).

Dennoch: 2M pro Modul sind schon eine Nummer, das ist das Doppelte eines Phenom II pro zwei Int-Cores. Vermutlich ist daher der L3 mit "nur" 8M nicht viel größer als bisher - Cache frisst halt viel Die-Space.
Naja, was will man mit viel L3 Cache, wenn man schon 2MB L2@fullspeed hat ? Bei den Intels mit nur 256kB L2 für 2 Threads rentiert sich das sicher, aber bei 2MB für 2 Thread ? 8MB L3 ist einfach das Minimum für die Stromsparmodi, bei denen der L2 in den L3 kopiert wird. Mehr ist einfach nicht sinnvoll, da die L2 Hitraten schon gut genug sein werden. Wie wichtig Intels L3 ist, sieht man ja erstens daran dass sie Sandys LLC jetzt @Kerntakt laufen lassen und zweitens, dass das auch was bringt :)

Je mehr ich von BD lese und erfahre, desto spannender wird zwar die CPU, aber mit SB enteilt Intel AMD noch weiter, der BD hat eine große Lücke zu füllen. Ich bin heiß auf das Ding =)
Jo, man muss nur hoffen, dass am Ende nicht sowas wie ne 1536 Shader 6970 kommt :freak:

@mboeller:
Die meinen in dem Artikel ein einzelnes Modul. Die 3,5 GHz+ fasse ich mal als Minimaltakt auf, bin ja Optimist, und durch hk/ULK *und* die neue, speed-deamon-artige Architektur, erwarte ich da schon nen dicken Taktaufschlag.

y33H@

2010-12-27, 21:49:39

Naja, was will man mit viel L3 Cache, wenn man schon 2MB L2@fullspeed hat ? Bei den Intels mit nur 256kB L2 für 2 Threads rentiert sich das sicher, aber bei 2MB für 2 Thread ? 8MB L3 ist einfach das Minimum für die Stromsparmodi, bei denen der L2 in den L3 kopiert wird. Mehr ist einfach nicht sinnvoll, da die L2 Hitraten schon gut genug sein werden. Wie wichtig Intels L3 ist, sieht man ja erstens daran dass sie Sandys LLC jetzt @Kerntakt laufen lassen und zweitens, dass das auch was bringt.Intel braucht den L3/LLC halt für L1/L2, daher hat man den bei SB auch gepusht: Mehr Takt und flottere Latenzen, imo der Hauptgrund für den IPC-Gewinn. AMDs exklusives Design erfordert weniger L3 und 2M L2 pro Modul sind schon verdammt fett - vor allem, wenn nur einer der zwei Int-Cores gefüttert werden muss. Bei Multithreading, wenn alle Cores/Module rechnen, ist der L2 nicht mehr sooo gefragt, dann geht's meist Richtung L3. Läuft der L2 mit Kerntakt, ja? Habe ich grade nicht im Kopf. Bei einem hochtaktenden Design mit Richtung 4,0 GHz ist das freilich eine flotte Sache. Dazu kommen ja noch +20% mehr CPU-NB-Takt und iirc eine höhere Bandbreite.

Ich gehe derzeit davon aus, dass sich BD in Sachen pro Takt Nehalem annähert oder knapp schlägt und dabei vergleichsweise hoch taktet - ein Grund warum Intel bei gleichem Preispunkt mit SB mal eben so 300 bis 400 MHz draufpackt. Man schafft Distanz zum Hammer Bulldozer. Ein Quad-Modul-BD sollte dank mehr Core-Leistung und höherem Takt einen SB mit 4C/8T schlagen können - bleibt die Frage, bei welchem Stromverbrauch. Aber 32 nm bietet hier ja viel Potenzial (ein i7-2600K etwa ist einfach nur sau schnell und frisst weniger als ein i5-760 bei 600 MHz mehr!).

In diesem Sinne: "Speedy thing goes in, speedy thing comes out" :biggrin: