AMD - Bobcat Core - Ontario APU - Low-Power-CPU [Archiv]

Ailuros

2009-11-12, 08:38:34

Intel will doch eh ins Handy ... da können sie dann hin und AMD übernimmt das von intel geschaffene Nettop Segment. :freak:
Besonders aufgrund AMDs DX11 Grafikeinheit werden die ATOMs wie saure Zitronen rumliegen.

Bliebe höchstens noch der Preis ... die ATOM DIE Größe wird ja wohl sicherlich kleiner bleiben.

ciao

Alex

Wer sagt dass in 2011 Intel nicht DX11 kompliante Grafik liefern kann? Ihre bisherigen Versuche in den smartphone Markt einzudringen gingen den Bach runter und sie verkauften die Sparte samt 2700G an Marvell.

Sonst hat AtomZ den GMA500, der auf IMG IP basiert und SM3.0+ kompliant ist und das gleiche Ding wird auch im CE3100 Media accelerator benutzt:

http://www.imgtec.com/factsheets/intel/Intel_ce3100.pdf

GMA500 leidet unter beschissenen 3D Treibern (was wohl ebenso der Fehler von Intel als auch IMG ist), aber da es sich um wiedergekaute IP handelt die schon seit 2005 lizenziert wurde, steht es offen wann die Lizenzierung der naechsten Generation von IMG IP anfaellt (Serie6).

AMD hat hier natuerlich die Chance erstens schnellere turn times zu haben und zweitens bessere Treiber-Unterstuetzung, obwohl sie so lange die ATI/Bitboys handheld Sparte noch bei ihnen lag die Treiber noch uebler waren als die von IMG. Die Sparte wurde ja wie bekannt an Qualcolmm verkauft.

Zusammengefasst: wenn Intel DX11 Grafik fuer 2011 haben will, sind sie keineswegs nur auf ihr chipset oder LRB Team angewiesen.

DX11 im Nettop? :freak: Da spielen doch eher niedrige Verbräuche und gute Videobeschleunigung eine Rolle. Keine Stärke der aktuellen Plattform, aber die Nachfolger stehen in der Tür.

Wo soll das merkwuerdige genau sein? IMG hat ihr IP zeitlich beschnitten weil sehr vieles fuer die heutliche Verhaeltnisse ueberflussig ist. Wenn sie heute schon einen programmierbaren Geometrie-Prozessor in ihrem Zeug haben ist der Weg zu DX11 relativ kurz fuer die naechste Generation. Wenn man sich irgendwo entlang der Strecke die Muehe macht fortschrittliches multithreading, FP32 und weiss der Geier noch was einbaut ist der Weg zu DX11 auch nicht mehr so lange. Und wenn's trotz allem zu merkwuerdig klingt OpenCL/GPGPU auch auf diesen Dingern fuer die Zukunft. Image processing als Beispiel liegt schon unter R&D bei mehr als nur einen Stellen selbst fuer solche Kleingeraete.

Ich weiß auch nicht ob ihnen das noch gelingt. Kommt drauf an ob man die Prozesse noch so weit shrinken kann, dass die x86-Transistoren auch im embedded Bereich weitgehend irrelevant werden.

Bei LRB war es auf jeden Fall eine schlechte Idee, denn GPUs muss man einfach darauf auslegen möglichst viel Rechenleistung/Die-Area zu haben.

IMG Series6 oder irgend ein Gen-X/next Dingsbums. Die Ankuendigung des ersten wird sich noch Zeit lassen sonst gefaerdet man Series5XT/543MP Verkaeufe, aber vorgezeigt wurde es schon bei Intel und Apple nach IMG's CEO eigenen oeffentlichen Aussagen.

AnarchX

2009-11-12, 08:47:32

Der IGP von Sandy Bridg (http://www.forum-3dcenter.org/vbulletin/showthread.php?t=459536)e sollte ja schon D3D11 sein, wenn man diesen 2011 und auch noch später verkaufen will.
Mit einer Verringerung der EUs sollte man diesen eigentlich auch in einen 32nm SoC integrieren können, jedenfalls für den Nachfolger von Pineview für Netbooks/-tops.

Ailuros

2009-11-12, 08:58:30

S940

2009-11-12, 09:57:36

Wer sagt dass in 2011 Intel nicht DX11 kompliante Grafik liefern kann?
(...)
GMA500 leidet unter beschissenen 3D Treibern (was wohl ebenso der Fehler von Intel als auch IMG ist), aber da es sich um wiedergekaute IP handelt die schon seit 2005 lizenziert wurde, steht es offen wann die Lizenzierung der naechsten Generation von IMG IP anfaellt (Serie6).

Ja wenn ich noch wüßte wo das stand ... es gab auf alle Fälle die Info, dass Sandy den Nachfolger der aktuellen Intel Chipsatzgrafik verpasst bekommt (Intel, nicht IMG). Dass das nichts bahnbrechend Neues werden kann, kann man allein schon daran ablesen, dass es jetzt bereits Sandy Prototypen gibt. Das Design ist abgeschlossen, das Ding hat mit 99%iger Wahrscheinlichkeit damit kein DX11.

Und selbst wenn, dann höchstens mit einem Treiberhack der dann wieder alle möglichen, anspruchsvollen Arbeiten auf die CPU abwälzt, wie das jetzt schon mit T&L passiert (Stichwort 3DMark "Optimierungen). Bei DX11 wäre da z.B: Tessellation ein heißer Kandidat.

Ob so etwas dann so energieeffizient wäre, wage ich zu bezweifeln. Da gefällt mir die Ontario Aufteilung besser, ausreichnd gute CPU plus ausreichend GPU, und jeder macht das, was er am besten kann. Bei Intel gibts rasend schnelle CPU (Inkl. 256bit AVX) + grottige GPU ... das ist mMn etwas "asymetrisch". Aber schauen wir mal, was am Ende hinten rauskommt. Zum Schluss siegt nicht die Eleganz sondern Preis/Leitung/Akkulaufzeit ;-)

Sandy ist ja sowieso eher der Llano Konkurrenz, gegen Ontario wird Intel schon irgendeinen Atom auffahren können. Aber ohne einigermaßen "hilfreiche" GPU wird das mMn eben auch nichts. AMD optimiert jetzt zusammen mit Adobe alles mögliche auf die ATi GPUs ... bei Intel hört man davon nichts.

ciao

Alex

Ailuros

2009-11-12, 10:13:56

Ja wenn ich noch wüßte wo das stand ... es gab auf alle Fälle die Info, dass Sandy den Nachfolger der aktuellen Intel Chipsatzgrafik verpasst bekommt (Intel, nicht IMG). Dass das nichts bahnbrechend Neues werden kann, kann man allein schon daran ablesen, dass es jetzt bereits Sandy Prototypen gibt. Das Design ist abgeschlossen, das Ding hat mit 99%iger Wahrscheinlichkeit damit kein DX11.

Und selbst wenn, dann höchstens mit einem Treiberhack der dann wieder alle möglichen, anspruchsvollen Arbeiten auf die CPU abwälzt, wie das jetzt schon mit T&L passiert (Stichwort 3DMark "Optimierungen). Bei DX11 wäre da z.B: Tessellation ein heißer Kandidat.

Wenn's nur ein hoeher getakteter Nachfolger von dem DX10 Quark sein sollte, dann natuerlich ja. Trotzdem fragte ich ob Intel es kann und nicht will und obwohl es sich um Haarspalterei handelt, tendiere ich konstant zu vergessen wie bloed Intel's Grafik-relevante Entscheidungen meistens sind.

Ob so etwas dann so energieeffizient wäre, wage ich zu bezweifeln. Da gefällt mir die Ontario Aufteilung besser, ausreichnd gute CPU plus ausreichend GPU, und jeder macht das, was er am besten kann. Bei Intel gibts rasend schnelle CPU (Inkl. 256bit AVX) + grottige GPU ... das ist mMn etwas "asymetrisch". Aber schauen wir mal, was am Ende hinten rauskommt. Zum Schluss siegt nicht die Eleganz sondern Preis/Leitung/Akkulaufzeit ;-)

Tja in 2011 keinen DX11 PC SoC zu liefern ist von vorne und hinten krumm.

Shink

2009-11-12, 10:28:12

Ja wenn ich noch wüßte wo das stand ... es gab auf alle Fälle die Info, dass Sandy den Nachfolger der aktuellen Intel Chipsatzgrafik verpasst bekommt (Intel, nicht IMG). Dass das nichts bahnbrechend Neues werden kann, kann man allein schon daran ablesen, dass es jetzt bereits Sandy Prototypen gibt. Das Design ist abgeschlossen, das Ding hat mit 99%iger Wahrscheinlichkeit damit kein DX11.
Mit anderen Worten ein direkter GMA 4500-Nachfolger?

Auch wenns OT ist: Schön langsam hab ich ehrlich gesagt genug von der GMA 500-Beweihräucherung von wegen "unglaublich toll nur die Treiber von Intel und auch IMG sind so schlecht".
Meine Erfahrung bei 3D-Beschleunigern für den PC seit ihrem Bestehen ist: Wenn ein Produkt von den Daten her toll ist und die Treiber ach-so-schlecht sind weil die Firmen ach-so-schlechte Treiberentwickler haben dann darf man sich nicht erwarten dass sich daran großartig etwas ändert. Das war bei S3 nie der Fall, bei SiS ebensowenig und auch wenn Intel vielleicht schon manchmal Treiber mit 100% Performanceboost herausgebracht haben wäre das beim GMA 500 noch immer viel zu wenig um z.B. mit einem GMA 950 mitzuhalten (was ohnehin immer noch zu schlecht für diese Welt wäre).

Ailuros

2009-11-12, 10:41:05

Auch wenns OT ist: Schön langsam hab ich ehrlich gesagt genug von der GMA 500-Beweihräucherung von wegen "unglaublich toll nur die Treiber von Intel und auch IMG sind so schlecht".
Meine Erfahrung bei 3D-Beschleunigern für den PC seit ihrem Bestehen ist: Wenn ein Produkt von den Daten her toll ist und die Treiber ach-so-schlecht sind weil die Firmen ach-so-schlechte Treiberentwickler haben dann darf man sich nicht erwarten dass sich daran großartig etwas ändert. Das war bei S3 nie der Fall, bei SiS ebensowenig und auch wenn Intel vielleicht schon manchmal Treiber mit 100% Performanceboost herausgebracht haben wäre das beim GMA 500 noch immer viel zu wenig um z.B. mit einem GMA 950 mitzuhalten (was ohnehin immer noch zu schlecht für diese Welt wäre).

GMA500 ist nicht auf IGP-Niveau und wird es auch nie sein egal mit welchem Treiber. SGX535 der sich im 500 befindet ist smartphone Material und deshalb hockt auch eine niedriger getaktete Variante von diesem im iPhone3GS.

Sonst informier Dich ueber's Thema ob es Moeglichkeiten gibt oder nicht:

http://www.mitrax.de/?cont=artikel&aid=36

Intel hat original Tungsten fuer Poulsbo die Treiber entwickeln lassen und wuerde auch heute keinen neueren Treiber von IMG annehmen, selbst wenn sie ihn rueberschicken wuerden.

StefanV

2009-11-12, 11:37:58

Ach ja das GenX-Next Zeug. Wenn der Stromverbrauch zu hoch werden sollte, koennen sie stets wieder zu IP greifen.Könntens, machen sie aber nicht, dafür ist Intel viel zu arrogant.
Ganz ab davon sehe ich überhauptnicht, das Intel überhaupt eine Chance gegen die AMD IGPs haben werden!
nVidia hat man ja 'rausgemobbt', mit denen hätt man vielleicht 'ne Chance, aber die Performance/Watt ist bei den unteren Chips nicht so gut wie bei AMD, siehe auch RS780 gegen MCP78 (hm, könnt ich ja mal benchen, leider hab ich nur 'nen 790GX und da auch nur DDR3 SDRAM)...

Schaut übrigens auch so aus, das es mehr AMD CPUs in Notebooks geben wird, D3D11 GPUs sei dank.

Ailuros

2009-11-12, 11:49:23

Man erzaehlte mir gerade dass in Sandy Bridge die GPU anscheinend doch ein Intel GenX Nachfolger ist und die Frequenz soll bei 1.6GHz liegen.

AnarchX

2009-11-12, 12:37:46

Man erzaehlte mir gerade dass in Sandy Bridge die GPU anscheinend doch ein Intel GenX Nachfolger ist und die Frequenz soll bei 1.6GHz liegen.
Passt besser hier hin: http://www.forum-3dcenter.org/vbulletin/showthread.php?p=7655980#post7655980

davidzo

2009-11-20, 17:39:48

Wenn das Teil bei 2 Watt Leistungsaufnahme (Dual-Core) so schnell wie ein Athlon/Turion 64 X2 wird, muss Intel ordentlich nachlegen. Der aktuelle Atom wird das wohl nicht leisten können, auch nicht in 32-nm-Fertigung. Taktraten jenseits der 2 GHz sind Gift für die Leistungsaufnahme und ein Dual-Core-Atom mit dem Verbrauch eines aktuellen Single-Core-Atoms wäre auch nicht konkurrenzfähig.

Bobcat != SOC
Bobcat = CPU-Architektur
TDP(bobcat) = 1-10W / Core
Ontario = APU ((bobcat x 2) + DX11 IGP)
TDP(ontario) = (# of bobcat Cores x TDP(bobcat)) + TDP(DX11IGP)
Brazos = Ontario + I/O Chip (Marketingplattform)

AMD spricht beim Ontario vom sub 20Watt Markt.
Macht auch Sinn:
TDP(Bulldozer) = 10-100W
Der minimale Bulldozer ist ein Dualcore, demnach 20Watt. Hier fängt also Ontario an...

Anandtech spricht von 5-10W für die schnelleren Modelle:

Anand la Shimpi ist auch nur am raten, mehr als die Präsentation hat er auch nicht gesehen oder gehört.
Ich denke eher, dass er AMD bezüglich bobcat/ontario auf den Leim gegangen ist wie die anderen auch. Die TDP Angabe bezieht sich auf Bobcat, nicht auf Ontario. Insofern bezieht sich die Leistung von 90% auch auf einen einzelnen Core eines Athlon X2 und nicht auf einen Dualcore. Nichtsdestotrotz wird Ontario ziemlich beeindruckend, wenn fast dieselbe Leistung wie bei einem K10.5 Dualcore erreicht wird.

Was zusammen mit der angepeilten Leistung eines Dualcore-K8 eher für einen Konkurrenten der ULV-Core 2 bzw. deren Nachfolger spricht. Der Atom soll nach Intels Plänen wohl eher stärker verbrauchs- als leistungsverbessert werden.

Atom ist nicht gleich Atom.
Derzeit nutzen die Plattformen dieselbe CPU, aber das wird sich spätestens nächstes Jahr ändern. Bobcat könnte als Singlecore mit einer deutlich reduzierten IGP vielleicht mit Moorestown und Medfield konkurrieren, aber es sieht nicht danach aus das es sowas geben wird in AMDs roadmap. Tomcat, der signlecore wurde gecancelt ebenso wie Twincat, der dualcore für 2009, stattdessen haben wir Ontario als Dualcore Fusion bobcat in 2011.
Ontarios Gegner ist klar Intels Netbook/nettop Plattform für 2011, Cedartrail.
Pinetrail hat die Leistung kaum erhöht und die elektrische Leistung nur ein bisschen verbessert gegenüber Diamondville+945GSE - ist ja auch immernoch 45nm. Genauso wird es sein, wenn man 2011 Cedartrail, 32nm Atom mit einer DirectX10 GenX Grafik bringt. DDR3, vielleicht 2Ghz, eventuell ein bisschen update beim Befehlssatz, mehr ist da an Überraschungen nicht zu erwarten.

DX11 im Nettop? :freak: Da spielen doch eher niedrige Verbräuche und gute Videobeschleunigung eine Rolle. Keine Stärke der aktuellen Plattform, aber die Nachfolger stehen in der Tür.
das würde ich mal nicht behaupten. derzeit ist mir keine GPUarchitektur bekannt die eine bessere performance pro Watt bringt als AMDs DX11 Chips. RV740 war ja eher ernüchternd, aber die rv8xx sind schon ziemlich gut auf diesem gebiet denke ich. Sicher wird man cedar etwas runtertunen müssen, aber das sollte schon möglich sein mit der IGP unter 10Watt zu kommen. ich sehe daher Ontarios IGP als ein Evergreenabfolger an, da er auch in 40nm kommt. Zeitlich kommt er aber mit den Island refreshchips, die wahrscheinlich noch sehr auf evergreen Architektur bauen, aus marketinggründen ist der cedar-le in Ontario daher auch ein Island chip.

Wenn das Teil bei 2 Watt Leistungsaufnahme (Dual-Core) so schnell wie ein Athlon/Turion 64 X2 wird, muss Intel ordentlich nachlegen.
Wird nicht der Fall sein s.o. - AMD kann auch nicht zaubern.

Ein Dual-Core-Atom mit dem Verbrauch eines aktuellen Single-Core-Atoms wäre auch nicht konkurrenzfähig.
Doch schon, was den Verbrauch angeht. Kommt aber auf die Leistung an und da hat der Atom wahrscheinlich schlechtere Karten...

Wer sagt dass in 2011 Intel nicht DX11 kompliante Grafik liefern kann?

1. Intel scheint keine IP gekauft zu haben die weit über SGX535 hinaus geht, schon garnicht series6. sonst hätte man auch moorestowns Grafik aufgebohrt, da steckt aber wohl wieder nur ein SGX535 diesmal mit mehr takt drin.
2. Alle guten Grafikentwickler bei Intel arbeiten an Larabee und das wird über absehbare zeit nicht in einer IGP, schon gar nicht im Netbook/MIDbereich zu finden sein.
3. Alle schlechten Grafikentwickler bauen an GenX weiter. Ergo wird es DX11 vielleicht für Sandybridge geben, das wird aber eher wie beim GMA X3100 ablaufen, theoretisch möglich, praktisch funzt der betatreiber nicht richtig und das teil ist dann sowieso zu lahm so dass es auch niemand mehr will.
4. Darf ich Erinnern, dass Atom/netbook immer erst den GMA von vorgestern bekommen und dann nocheinmal taktmäßig abgespeckt? Also wenns ein X4500 in 2011 für die netbookplattform wird, dann ist das schon viel.

Der IGP von Sandy Bridg (http://www.forum-3dcenter.org/vbulletin/showthread.php?t=459536)e sollte ja schon D3D11 sein, wenn man diesen 2011 und auch noch später verkaufen will.
Mit einer Verringerung der EUs sollte man diesen eigentlich auch in einen 32nm SoC integrieren können, jedenfalls für den Nachfolger von Pineview für Netbooks/-tops.
Es ist nichtmal klar ob (und wann hehe) Sandybridge D3D11 bekommt.
nachfolger von Pineview ist Cedartrail und da steht Dx10.x fest.

Es wird wohl ähnlich wie beim Atom sein.

Teure "sub-one-Watt" CPUs mit <=1GHz, für MIDs.

nach der dezeitigen Roadmap gibt es nur ein Silizium auf bobcatbasis, den Dualcore Ontario und der wird 100% nicht unter 1Watt kommen, selbst im idle nicht.

Wenn man mit einem 80SPs IGP und 2 Bobcat-Cores irgendwo unter 100mm² landet, wäre das doch schon eine gute Leistung.

ich gehe immer noch von der ursprünglichen bobcatfolie aus die sie gezeigt hatten:
http://pics.computerbase.de/2/2/9/7/2/1_m.jpg
Änderungen am ursprünglichen Plan für den bobcatcore betreffen wahrscheinlich nur den Speichercontroller (nun DDR3), Takt (1,5Ghz), TDP und vielleicht noch den Cache (bei 40nm ist n bisschen mehr nicht schlimm). Die lange Zeit für die Änderungen am Design hängen alle hauptsächlich mit 40nm und Fusion zusammen. Nicht vergessen darf man auch den Designschritt indem zwei bobcat Cores mit einem DX11 Grafikchip vermählt werden.

Undertaker

2009-11-20, 17:53:51

das würde ich mal nicht behaupten. derzeit ist mir keine GPUarchitektur bekannt die eine bessere performance pro Watt bringt als AMDs DX11 Chips. RV740 war ja eher ernüchternd, aber die rv8xx sind schon ziemlich gut auf diesem gebiet denke ich. Sicher wird man cedar etwas runtertunen müssen, aber das sollte schon möglich sein mit der IGP unter 10Watt zu kommen.

So eine Skalierung nach unten klappt aber nur bedingt - wir reden bei einem Atom idle ja nur vom 2-3-stelligen Milliwattbereich. Ob da eine IGP 1W oder 3W für die Windowsoberfläche verbrät, kann eine mehr als deutliche Auswirkung auf die Akkulaufzeit haben - die maximale TDP halte ich da eher schon für sekundär, hier mit simplem Heruntertakten in ausreichende Bereiche zu kommen, ist wohl weniger das Problem.

davidzo

2009-11-20, 18:00:17

So eine Skalierung nach unten klappt aber nur bedingt - wir reden bei einem Atom idle ja nur vom 2-3-stelligen Milliwattbereich. Ob da eine IGP 1W oder 3W für die Windowsoberfläche verbrät, kann eine mehr als deutliche Auswirkung auf die Akkulaufzeit haben - die maximale TDP halte ich da eher schon für sekundär, hier mit simplem Heruntertakten in ausreichende Bereiche zu kommen, ist wohl weniger das Problem.

Atom ist ein Prozessor, besteht aber aus Äpfeln und Birnen.
Einen Apfel (Silverthorne noSMT singlecore 2W) mit einer Birne (Diamondville dualcore SMT 8Watt) zu verwechseln und das dann mit einer Kokosnuss zu vergleichen (IGP) kann nicht klappen! Ja, Ontario ist eine SKU mit bobcat technologie die sich nicht noch weiter nach unten skalieren lässt.

Im übrigen hab ich schon gesagt, das Ontario keine Konkurrenz für Medfield wird, sondern für Cedartrail. Um es mit alten Codenamen für die jeweiligen Marktsegmente auszudrücken Ontario ist gegen Diamondville und 945GSE/GC aufgestellt, nicht gegen Poulsbo. Also der Markt von Nano 3000+ION2 und Atom Cedartrail.
Und da ist ein 32nm Ableger von GenX drin, der ist auch nicht viel sparsamer. Auch was den GMA950 angeht stimmen deine Aussagen zum 1W o.Ä. nicht.

Nur so als vergleich:
Atom N270(2,5W) + 945GSE(6W) + SB(3,3W) = 11,8W
Atom 330DC(8W) + ION(12W) = 20W
Atom PinetrailDC(13W) + Tigerpoint(2W) = 15W
Atom CedartrailDC (10W) + I/Ohub(2W) = 12W
Ontario bobcatDC (2x4W) + DX11IGP (8W) = 16W??

Werte für Cedartrail und Ontario sind geschätzt, im Gegensatz zu Pinetrail wird zwar in 32nm gefertigt, aber dafür kommt statt einem aufgebohrten GMA950 ein GenX grafikchip rein, der sicher nicht weniger verbraucht. Bei Ontario habe ich eine mittlere bobcat Dc CPU angenommen und eine kleine DX11 IGP. Die verbrauchswerte der IGP richten sich nach den bisher sehr guten idle verbrauchswerten des dx11 lineups, wenn takt und spannung zurückgefahren werden ist sowas realistisch. selbst AMDs 4670 hatte ja schon lediglich 8Watt idle.

Undertaker

2009-11-20, 18:47:37

Ich habe mich vielleicht undeutlich ausgedrückt, gemeint war der aktuelle Atom, der afair mit 80-200mW (je nach Modell, sowas in der Größenordnung) angegeben ist. Ein gutes aktuelles Netbook verbraucht insgesamt idle um die 7W, das wird mit den Nachfolgern eher noch sinken. In diesem Zusammenhang denke ich, dass eine simple herunterskalierte RV8** GPU als IGP nur schwer in diesen Verbrauchsrahmen passt - da werden schon deutlich größere Änderungen nötig sein.

Immer unterscheiden zwischen TDP als Maximalverbrauch und den idle-Werten. 8W TDP für die IGP können 500mW idle, aber auch 4W bedeuten. Für ersteres braucht es mehr als "nur" niedrige Spannungen und Takte für einen normalen Notebook- oder gar Desktop-Chip.

davidzo

2009-11-20, 22:10:39

Ich habe mich vielleicht undeutlich ausgedrückt, gemeint war der aktuelle Atom,

In der tat ist das undeutlich ausgedrückt. Der aktuelle Atom wäre der Pineview (DC, IMC), der ist aber noch nicht flächendeckend lieferbar, also denke ich du beziehst dich auf den Diamondville. Den gibt es allerdings auch in zig varianten, sogar unterschiedlichen bauformen und da gehen die Unterschiede im idleverbrauch zwischen 1x und 10x auseinander.
Alleine die Z Serie (diamondville), die N Serie und der 230 und 330 gehen im idleverbrauch um mehrere Watt auseinander (Z-serie nur 0.01W).

der afair mit 80-200mW (je nach Modell, sowas in der Größenordnung) angegeben ist. Ein gutes aktuelles Netbook verbraucht insgesamt idle um die 7W, das wird mit den Nachfolgern eher noch sinken.

Wie du schon richtig sagst, das sind Idlewerte, natürlich nicht vergleichbar mit der TDP. Wenn ein 1600 Shader Monster inklusive 1GB RAM 27Watt (gemessen sogar 21W) idle verbraucht in einem 40nm Prozess der auf high performance ausgelegt ist, kann ich mir leicht vorstellen, dass ein 80 Shader integrierter Chip in einem lowpower 40nm Prozess im idle auch nur 1-2Watt zieht. Intel betreibt beim GenX noch nicht effektives Clockgating, da hat ATI schon mehr Erfahrung.

7 Watt - diese Netbookwerte werden eher nicht mehr sinken, weil von den 7 Watt ca. 5Watt für das Display draufgehen, also selbst wenn man den idleverbrauch noch senken kann, dann würdest du das gar nicht merken. Der Verbrauch von netbooks wird sich eher ein bisschen erhöhen, weil die meisten Netbook LCDs ein paar zu wenid LEDs als Hintergrundbeleuchtung haben und dahe rnicht sonnentauglich sind und die Nachfrage nach Netbooks mit 10,11 und 12" am stärksten ist.

Gerd

2009-11-27, 22:08:21

Ich habe nicht alles über die neue AMD-CPU gelesen, aber eine sache intressiert mich: Ist bekannt, ob es diese CPU auch als Quadcore oder höher geben wird?

fdk

2009-11-27, 22:30:50

S940

2009-11-28, 00:15:00

Ich habe nicht alles über die neue AMD-CPU gelesen, aber eine sache intressiert mich: Ist bekannt, ob es diese CPU auch als Quadcore oder höher geben wird?
Bisher ist Ontario der einzig angekündigte Chip mit Bobcat Cores.
Hatte die Frage auch schon (indirekt) JF-AMD gestellt, aber da kam nur eine grobe Antwort ala "AMD beobachtet die Verlustleistung und weiss das die wichtig ist".

Also mal abwarten. Chancen stehen aber wohl eher schlecht, ein 32nm Propus reicht in 2011 für den low-cost Quad Markt. Falls der überhaupt geschrumpft werden sollte ...

ciao

Alex

S940

2009-11-28, 00:32:18

ich gehe immer noch von der ursprünglichen bobcatfolie aus die sie gezeigt hatten:
http://pics.computerbase.de/2/2/9/7/2/1_m.jpg
Wo steht da was von Bobcat ? Das ist ein K8 Sempron in nem BGA Gehäuse, den braucht man für die schmalen Subnotebooks, z.B. dem Akoya.

Da es die Akoyas schon länger gibt, gibts die CPU logischerweise auch schon ;-)

Guck mal hier:
http://products.amd.com/en-us/NotebookCPUSideBySide.aspx?id=511&id=512

Da steht: "Package ASB1", und das ist nichts anderes als BGA, wie man anhand der Überschrift sehen kann:
ASB1 (BGA) Processor Family
http://www.amd.com/us/products/embedded/processors/asb1-bga/Pages/asb1-bga-processor-family.aspx

Auf den Chip musst Du also nicht mehr warten ;-)

Änderungen am ursprünglichen Plan für den bobcatcore betreffen wahrscheinlich nur den Speichercontroller (nun DDR3), Takt (1,5Ghz), TDP und vielleicht noch den Cache (bei 40nm ist n bisschen mehr nicht schlimm). Die lange Zeit für die Änderungen am Design hängen alle hauptsächlich mit 40nm und Fusion zusammen. Nicht vergessen darf man auch den Designschritt indem zwei bobcat Cores mit einem DX11 Grafikchip vermählt werden.Da passiert mehr, erstens wird das Design auf 2way verschmälert (u.a. deswegen wohl die 90% Leistungs-Aussage) ausserdem gibts auch ne strom- & flächensparende FPU, zumindest hat Dresdenboy was dazu ausgegraben:

http://mesa.ece.wisc.edu/publications/cp_2009-02.pdf
http://www.planet3dnow.de/vbulletin/showthread.php?p=4084682#post4084682

Also das Ding wird höchstwahrscheinlich ziemlich umgekrempelt.

ciao

Alex

Undertaker

2009-11-28, 11:36:34

Wie du schon richtig sagst, das sind Idlewerte, natürlich nicht vergleichbar mit der TDP. Wenn ein 1600 Shader Monster inklusive 1GB RAM 27Watt (gemessen sogar 21W) idle verbraucht in einem 40nm Prozess der auf high performance ausgelegt ist, kann ich mir leicht vorstellen, dass ein 80 Shader integrierter Chip in einem lowpower 40nm Prozess im idle auch nur 1-2Watt zieht.

Genau das bezweifle ich etwas. Du wirst nicht jeden Bestandteil linear herunterskalieren können und damit auch den Verbrauch im gleichen Maße senken können.

7 Watt - diese Netbookwerte werden eher nicht mehr sinken, weil von den 7 Watt ca. 5Watt für das Display draufgehen, also selbst wenn man den idleverbrauch noch senken kann, dann würdest du das gar nicht merken. Der Verbrauch von netbooks wird sich eher ein bisschen erhöhen, weil die meisten Netbook LCDs ein paar zu wenid LEDs als Hintergrundbeleuchtung haben und dahe rnicht sonnentauglich sind und die Nachfrage nach Netbooks mit 10,11 und 12" am stärksten ist.

Ich denke schon, dass hier noch ein gutes Potential besteht. Subnotebooks mit einer Core 2 ULV Basis - wo der Prozessor sicherlich mehr verbraucht als eine Atom-Alternative, dafür aber der Chipsatz sehr sparsam ist - kommen bis auf Tiefstwerte von 4,4W - bei 13,3"!

http://www.notebookcheck.com/Test-Asus-UL30A-QX050V-Notebook.21809.0.html

Jetzt müssen wir hypothetische 1-2W einer besonders schnellen IGP zu diesem Verbrauch ins Verhältnis setzen, dass sind beachtliche Größenordnungen. Ein Watt mehr oder weniger kann im Extremfall Stunden an Laufzeit kosten!

anddill

2009-12-03, 08:57:56

...

Was mich allerdings sehr wundert: wieso bringt man 2011 Bobcat in einem total veralteten Prozess (40 nm)?

Weil kleiner nicht immer stromsparender ist, vor allem, wenn der Prozess noch neu ist. Und weil die alten Anlagen ja noch da sind, und Bobcat ist auch in 40nm klein.

robbitop

2009-12-03, 09:54:18

Es gibt aber keine "alten" 40 nm Anlagen. Ein solcher Prozess ist bei GF noch nichteinmal installiert. Ein 32 nm SOI Prozess sollte 2011 auch schon ausgereift genug sein. 40 nm Bulk wäre pro Wafer natürlich billiger. IMO wären 2011 28 nmm Bulk dafür prädestiniert. Möglicherweise schwenkt man dann ja auch schnell um. Eigentlich sollte vorher ja auch noch ein 32 nm Bulk kommen.

SavageX

2009-12-03, 10:52:29

Vielleicht fühlt sich der Grafikteil bei half-nodes wohler (32nm lässt man da ja aus) und 28 nm ist denen für eine CPU+GPU-Kombi einfach noch etwas riskant.

anddill

2009-12-03, 12:05:54

Eben. Die werden froh sein, das Ding überhaupt sauber hinzubekommen. Da vermeidet man doch nach Möglichkeit weitere Probleme durch einen brandneuen Prozess.
Und wie gesagt, für so einen kleinen Chip ist ein gröberer Prozess sicher allemal gut genug. Ist ja kein 2-Milliarden Transistor Monster.

mrt

2009-12-03, 12:14:18

Undertaker

2009-12-03, 12:16:31

Den Atom gibt es seit April 2008, also fast direkt nach dem Start der Massenproduktion dieses Prozesses, in 45nm. Ein 65nm oder größeres Modell gibt es nicht.

Sefegiru

2009-12-03, 12:17:54

Bobcat wird ja auch nicht von GF gebaut sondern von TSMC und die haben 40nm, zwar mehr schlecht als recht aber sie haben ihn :)

robbitop

2009-12-03, 14:24:09

Bobcat ist ähnlich wie Atom ein kleiner Billigchip. Der neueste Prozess macht da einfach keinen Sinn, da einfach zu teuer und die Chips sowieso klein sind. Atom kommt auch erst jetzt in 45 nm, 32nm gibts dann in 2 Jahren, also 2012.
Atom kam Anfang 2008 im brandneuen 45nm HKGM Prozess.

Bobcat wird ja auch nicht von GF gebaut sondern von TSMC und die haben 40nm, zwar mehr schlecht als recht aber sie haben ihn :)
Aha? Das ist mir neu. Quelle?

reunion

2009-12-03, 15:29:55

Hm, was ist los? Bobcat kommt von GF in 28nm bulk. Wie kommt jemand auf 40nm?

AnarchX

2009-12-03, 16:28:44

Hm, was ist los? Bobcat kommt von GF in 28nm bulk. Wie kommt jemand auf 40nm?
Auf der in Japan gezeigten Roadmap von Ende Oktober wird Brazos mit 40nm aufgeführt:
http://www.forum-3dcenter.org/vbulletin/showthread.php?t=469903
Wie kommst du auf 28nm? Auf der Analyst Day Roadmap fehlte für Brazos der Prozess: http://images.anandtech.com/reviews/cpu/amd/FAD2009/notebookroadmap.jpg

Zu Fusion @ TSMC gab es durchaus Gerüchte: http://www.digitimes.com/mobos/a20070226PB205.html

Ansonsten könnte man Brazos vielleicht auch auf den Anlagen von Chartered fertigen, die wohl etwas hinter den ehemaligen AMD Fabs sollten.

Sefegiru

2009-12-03, 16:58:36

Naja das ist eine Spekulation im P3D in dem Thread dazu da TSMC 40nm hat und GF für ein Produkt das wohl nicht unbedingt einführen möchte. Belegen kann ich das nicht, es ist ja auch nur eie Spekulation. Meiner Meinung nach eine kleine Aufmerksamkeit an TSMC wenn sie schon keine AMD GPU´s mehr fertigen.

mrt

2009-12-03, 18:50:57

Den Atom gibt es seit April 2008, also fast direkt nach dem Start der Massenproduktion dieses Prozesses, in 45nm. Ein 65nm oder größeres Modell gibt es nicht.
Stimmt natürlich, da war ich gerade komplett daneben beim schreiben :eek: ;D

mboeller

2009-12-03, 19:30:02

auf der Bobcat-Page (Seite 14) der Präsentation "AMD 2009 Analyst Day Chekib Akrout.pdf"findet man vielleicht die Erklärung für die 40nm:

Synthesizable / Easy to Reuse

AMD wird den Bobcat also anscheinend nicht nur selbst herstellen sondern so wie ARM als "Softcore" auf dem Markt anbieten wollen. Da machen die 40nm dann Sinn, wie von Sefegiru schon gesagt.

Coda

2009-12-03, 19:42:49

Das glaube ich eher weniger.

mrt

2009-12-03, 20:10:07

Das dürfte aus Sicht des Patentaustauschabkommens mit Intel unmöglich sein für AMD (auch für Intel).

StefanV

2009-12-03, 20:17:34

AMD wird den Bobcat also anscheinend nicht nur selbst herstellen sondern so wie ARM als "Softcore" auf dem Markt anbieten wollen. Da machen die 40nm dann Sinn, wie von Sefegiru schon gesagt.
Das ist eine interessante Spekulation, gerade auch in Hinblick auf die kommende Konsolengeneration.

Ich muss aber Coda zustimmen, das das doch eher unwahrscheinlich sein wird, aufgrund der IP die da drin steckt.

S940

2009-12-03, 20:57:47

Meiner Meinung nach eine kleine Aufmerksamkeit an TSMC wenn sie schon keine AMD GPU´s mehr fertigen.Oder ein Zwang, da man mit TSMC langfristige Waferverträge geschlossen hat ...

mboeller

2009-12-04, 11:05:22

Das glaube ich eher weniger.

ich habe mich auf das hier bezogen:

Besonders wichtig für AMD – außer dem Recht, weiter x86-Prozessoren herstellen zu dürfen – ist, die Fertigung der eigenen Produkte auch auslagern zu dürfen; das bisher gültige, nur in Teilen öffentlich bekannte Patentaustauschabkommen enthielt eine Klausel, die den Anteil der nicht von AMD selbst gefertigten Prozessoren mit x86-Technik beschränkte (auf ein nicht veröffentlichtes Maß). Nun darf AMD die Fertigung von x86- oder auch Kombiprozessoren aus CPUs und GPUs, also Systems-on-Chip (SoCs), auch komplett an Dritte vergeben – Globalfoundries muss also nicht mehr zu einem gewissen Teil zur "AMD Product Company" gehören.

Quelle: http://www.heise.de/newsticker/meldung/Intel-und-AMD-legen-Streitigkeiten-bei-Update-858633.html

Wer sagt denn, das nur GL in Zukunft AMD Prozessoren herstellen wird.

AnarchX

2010-06-02, 13:32:25

Sorkalm

2010-06-02, 14:00:11

Bobcat so klein ... hmm, aber 32/28 nm widerspricht eigentlich allen bisherigen Annahmen, jede Folie hat auf 40 nm hingedeutet. Bobcat war jedenfalls explizit nicht in der 32nm-Farbe auf den entsprechenden Folien aufgezeichnet.

Gast

2010-06-02, 14:12:24

Sorkalm

2010-06-02, 14:13:37

IMHO der Veröffentlichungszeitraum, käme doch sehr früh...
Ist wohl aber inzwischen trotzdem das wahrscheinlichste.

EDIT: Oder ein 40SP-GPU-Kern wie AnarchX schon sagte, und eine CPU-Einheit. Bobcat soll doch mit Bulldozer in irgendeiner Art und Weise verwandt sein, wenn auch dtl. abgespeckt. So könnte ma das 2 Cores was ich bisher immer gelesen habe vielleicht als eine Art Mini-Modul interpretieren. Aber ob man das auf 40 nm so packen kann?

davidzo

2010-06-03, 16:08:19

bisher deutet eher alles daraufhin, dass bobcat mit bulldozer nur über die gemeinsamen vorfahren k8 und k10 verwandt ist.

Alle Quellen reden derzeit von 40nm!
Bulk ist sogar gesichert, da gibt es aussagen seitens AMD. Da alle foundries die prozesse etwas nach hinten verschoben haben ist es extrem unwahrscheinlich dass 2011 ein neuer Prozess als low power bulk bereit steht. GF wird 32nm und 28nm erstmal mit sram chips testen und dann die ersten arm und mips socs ausspucken und wie ich deren pr kenne werden die dann auch lautstark drüber berichten dass sie schon 28nm chips ausliefern. bis das nicht der fall ist denkt amd nichtmal dran 28nm zu benutzen.
bei der jetzigen situation, der netbookmarkt unter hegemonie von intel, via abgeschlagen an der seite, wird amd wohl kaum eine verzögerung von 6-12 monaten in kauf nehmen und auf einen unausgegorenen prozess setzen. mit 40nm hat man außerdem aus dem grafikbereich viel erfahrung was das packen und das stromsparen angeht - genau richtig für eine netbook CPU.

S940

2010-06-03, 16:25:26

Auch wenn AMD alles dafür getan hat, den Wafer möglichst zu verstecken, kann man wohl doch Ontarios Die-Size abschätzen:
http://forum.beyond3d.com/showthread.php?p=1436184#post1436184

~ 80mm²

Auf Basis dieser Schätzung kann man wohl 40nm eher ausschließen, sodass es wohl möglich 32 oder 28nm Bulk sind.
Oder es sind 40nm mit nur einem CPU-Kern und einer 4 TMU+40SPs GPU.
...oder so ein Bobcat Kern ist sehr, sehr, klein ... das Ding ist kein K8 oder K10 .. nicht vergessen.
Ausserdem sind 1MB L2 für 2 Kerne ebenfalls nicht viel und man spart sich auch einen Speichercontroller.

ciao

Alex

AnarchX

2010-06-03, 16:37:02

80mm² @40nm bleiben aber trotzdem verdammt wenig für 2 CPU-Cores (oder sind 1- und 2-Core-Version verschiedene Dies?), einen D3D11-IGP, NB und wohl ein 64-Bit DDR3-IMC.

davidzo

2010-06-03, 16:41:35

Einfache Rechnung dazu:

athlon II - 117mm² & 2mb l2 @45nm SOI
single athlon II core w64bit IMC= 58mm² @45nm
single athlon II core w IMC = 45mm² @40nm

also ca. 40mm², wenn man bedenkt, dass sich der cache auch noch halbiert auf 512kb pro core. wer weiß was noch weggelassen wird...

"[..]offering today's mainstream performance at less than half of the die size[...]"

ergo
Bobcatcore = 1/2 * single Athlon II core @40nm = 20mm²

Ontario = 80mm² = 2x20mm²bobcatcore + 40mm² IGP

Cedar = 80sp@40nm @63mm²

entweder man hat einen weg gefunden beim grafikchip transistoren zu sparen, man vertraut auf kleinere ältere dx10technik oder man verbaut tatsächlich nur 40sps.

- Ich halte 40sps bei allem für am realistischten. derzeit ist die HD 4225 für netbooks und normale notebooks verdammt gut aufgestellt. Intel wird einen niedriger getakteten ableger der X4500HD im nächsten Atom bringen, da reichen 40sps locker aus um den zu kontern.

ein cedar ohne speicherinterface und mit nur 40sps kann schon unter 30mm² kommen.
selbst wenn sich die aussage mit dem "less than half of the diesize" auch auf den fertigungsprozess bezog, die bobcatcores also doch mit mehr als 20mm² zu buche schlagen, hat man mit 80mm² echt genug platz um alles unter zu bekommen.

Deinorius

2010-06-03, 16:51:24

Intel wird einen niedriger getakteten ableger der X4500HD im nächsten Atom bringen, da reichen 40sps locker aus um den zu kontern.

Würde es nicht eher ein IMG Chip sein? Oak Trail wird eher auf Moorestown basieren, welches ja einen IMG benutzt und hoffentlich einen DDR3- statt LPDDR1-Controller inne hat.

davidzo

2010-06-04, 00:26:03

Würde es nicht eher ein IMG Chip sein? Oak Trail wird eher auf Moorestown basieren, welches ja einen IMG benutzt und hoffentlich einen DDR3- statt LPDDR1-Controller inne hat.

es geht um cedartrail mit cedarview, nicht um oak-trail und moorestown. das sind chips für mids und smartphones und da wird ontario wohl kaum konkurrieren wollen. zur lieferbarkeit von moorestown wollen wir mal nix sagen... - meiner meinung nach ist das produkt reine vapourware.
oak trail wird weder preislich noch leistungsmäßig mit ontario konkurrieren.

StefanV

2010-06-04, 11:28:21

80mm² @40nm bleiben aber trotzdem verdammt wenig für 2 CPU-Cores (oder sind 1- und 2-Core-Version verschiedene Dies?), einen D3D11-IGP, NB und wohl ein 64-Bit DDR3-IMC.
Sicher, das es 2 Cores sind und nicht nur ein Cluster!?

Bedenke, das sich beim Bulldozer ja 2 'Cores' ein Frontend teilen, was sich sehr stark auf die Größe auswirkt!
Bei Ontario ists AFAIR ähnlich, so dass es hier recht schwer ist, von Cores zu sprechen.

Triskaine

2010-06-04, 18:29:46

Sicher, das es 2 Cores sind und nicht nur ein Cluster!?

Bedenke, das sich beim Bulldozer ja 2 'Cores' ein Frontend teilen, was sich sehr stark auf die Größe auswirkt!
Bei Ontario ists AFAIR ähnlich, so dass es hier recht schwer ist, von Cores zu sprechen.

Nein. Bobcat ist ein ganz normaler Kern ohne SMT oder CMT Schnickschnack.

http://www.brightsideofnews.com/Data/2009_11_11/AMD-sub1W-Bobcat-architecture-targets-ARM-Intel-Atom/AMD_Bobcat_675.jpg

Gast

2010-06-06, 11:50:51

Nein. Bobcat ist ein ganz normaler Kern ohne SMT oder CMT Schnickschnack.

http://www.brightsideofnews.com/Data/2009_11_11/AMD-sub1W-Bobcat-architecture-targets-ARM-Intel-Atom/AMD_Bobcat_675.jpg
Moment - das sehe ich ja jetzt erst: Kein SSE 4?

Triskaine

2010-06-06, 18:46:54

Atom hats auch nicht, also halb so wild. Es wurde wohl in so einem Prozessor für unnötig erachtet. SSE4 wird eigentlich nur von manchen Encodern eingesetzt und Videos enkodieren werden die allerwenigsten auf so einem Ultraportable machen.

Savay

2010-06-06, 23:21:25

und zur not gibts für sowas natürlich noch die OpenCL taugliche IGP gratis dazu...natürlich vorrausgesetzt das sich GPGPU denn irgendwann endlich mal sinnvoll nutzen lässt. ;)

BlackBirdSR

2010-06-07, 08:38:33

SavageX

2010-06-07, 09:01:14

Ist jemandem schon mal das "x86" aufgefallen???
Oder ist das schon Tatsache, dass hier kein x64 unterstützt wird und ich habs verpennt?

Würde auch erklären, warum kein SSE4+ dabei wäre, da AMD dies wohl an AMD64 koppelt. Was auch sonst....

Ich denke hier ist "x86" eher als Familienbezeichnung zu verstehen, nicht als konkrete 32bit Ausprägung.

Virtualisierung aber kein 64bit wäre schon eine ulkige Kombination.

edit: Bei Bulldozer steht auch "x86": http://www.planet3dnow.de/photoplog/file.php?n=8160&w=l

BlackBirdSR

2010-06-07, 09:04:59

Ich denke hier ist "x86" eher als Familienbezeichnung zu verstehen, nicht als konkrete 32bit Ausprägung.

Virtualisierung aber kein 64bit wäre schon eine ulkige Kombination.

edit: Bei Bulldozer steht auch "x86": http://www.planet3dnow.de/photoplog/file.php?n=8160&w=l

Hmm anscheinend ist der neue Marketing-Praktikant noch nicht ganz eingearbeitet. AMD hatte es damals mit allen Mitteln vermieden, beim K8 (K10 auch glaube ich) von x86 zu sprechen. Immerhin hatte man ja AMD64 (x64) neu erfunden.

SavageX

2010-06-07, 10:02:49

Hmm anscheinend ist der neue Marketing-Praktikant noch nicht ganz eingearbeitet. AMD hatte es damals mit allen Mitteln vermieden, beim K8 (K10 auch glaube ich) von x86 zu sprechen. Immerhin hatte man ja AMD64 (x64) neu erfunden.

Ich glaube inzwischen kann man im Kontext neuer Architekturen einfach von x86-64 ausgehen. Man meint ja auch 32bit bei x86, obwohl das eigentlich strenggenommen auch nur 16bit sicher abdeckt ;)

BlackBirdSR

2010-06-07, 10:11:38

Ich glaube inzwischen kann man im Kontext neuer Architekturen einfach von x86-64 ausgehen. Man meint ja auch 32bit bei x86, obwohl das eigentlich strenggenommen auch nur 16bit sicher abdeckt ;)

Stimmt auch wieder.. es entwickelt keiner mehr einen IA32-Only Kern. Sieht man ja auch an Atom, egal ob es nun von Nutzen ist oder nicht. Da hat man sich den Aufwand für die Zukunft schon gespart.

Gibts schon genauere Daten zu den Caches? Generell gilt ja: Mehr Cache ist gut für die Energiebilanz des Gesamtsystems.

Triskaine

2010-06-07, 13:16:36

Gibts schon genauere Daten zu den Caches? Generell gilt ja: Mehr Cache ist gut für die Energiebilanz des Gesamtsystems.

1 MB (wahrscheinlich) L2 Cache beim Zweikern Ontario. Mit der AMD üblichen Cachestruktur also 512 KB L2 pro Kern.

http://www.planet3dnow.de/photoplog/file.php?n=3287&w=l

S940

2010-06-07, 13:46:31

Mit der AMD üblichen Cachestruktur also 512 KB L2 pro Kern.
Naja ... das war AMD K8 & K10 üblich ... aber Bobcat ist was Neues ... vielleicht steigen sie auf nen shared L2 um. Mal abwarten ...

Triskaine

2010-06-07, 14:57:58

Sinnvoll wäre es, dann könnte man einen Kern schlafenlegen und seine Daten einfach im Shared L2 lassen.

Coda

2010-06-07, 17:29:57

Das kann man doch auch wenn der L2 nicht gemeinsam benutzt wird.

Gast

2010-06-07, 18:27:39

Das kann man doch auch wenn der L2 nicht gemeinsam benutzt wird.
Dann hat man nichts vom Cache und schlafenlegen mit cache-power-off ist nicht so flexibel bei einem 512KB flush -> langsam oder stromhungrig.

davidzo

2010-06-09, 17:06:52

ja, sinnvoll wären ein design mit kleinen 64k instruction und data caches (128k l1) und dann einen goßen shared l2 dessen bänke man einzeln abschalten kann (also in der größe dynamisch regeln).
allerdings sollte AMD dabei unbedingt von einem exklusiven Design auf ein inklusives Wechseln, was das schnellabschalten einzelner kerne besser ermöglicht, außerdem ist es langsam Zeit dass AMD begreift dass seine 128kb heutzutage nicht mehr wirklich viel sind, bei cachegrößen von mehreren megabyte, der verlust an cachegröße bzw. diespaße ist also absolut verkraftbar. zudem funktioniert propus mit nur 512kb pro core auch sehr gut, wenn jetzt im worstcase nur 448kb oder eben biszu 896kb zur verfügung stehen im L2, dann passt das auf die architektur imo recht gut.

robbitop

2010-06-09, 18:41:11

Im Vergleich mit Intel sind die 128 kiB immernoch groß. Ist halt immer ein Trade-Off: Groß oder Schnell.

Coda

2010-06-09, 18:43:20

Es geht ja nicht nur um die Latenz, sondern auch um die Assoziativität. Cachegröße ist deshalb nur bedingt aussagekräftig.

davidzo

2010-06-25, 23:06:34

eben und auch die wäre bei einem shared l2 (crossbar) doppelt so hoch für den einzelnen core...

das ganze erfordert natürlich ein inklusives design. Das allerdings wäre ein ganzschöner paradigmenwechsel seitens AMD.

Die Entscheidung für ein exklusives Design ist aber beim K7 gefallen, wird also mal zeit, dass man über solche nicht mehr zeitgemäßen Paradigmen hinweg kommt. So verschwenderisch wie heute mit Transistoren umgegangen wird spielt es überhaupt keine Rolle ob der L1 nun noch in voller Größe den l2 belegt...

Ich hoffe da hat bei AMD jemand drüber nachgedacht und nicht einfach faulerweise das kopiert was man schon immer hatte (exklusiv).

Coda

2010-06-25, 23:17:04

eben und auch die wäre bei einem shared l2 (crossbar) doppelt so hoch für den einzelnen core...
Das musst du mir jetzt genauer erklären. Vor allem was Assoziativität mit inklusivem und exklusivem Cache zu tun hat.

IVN

2010-06-25, 23:23:13

Er meint, das wenn man beispielweise 2MB shared L2 hat, ein Core die vollen 2MB nutzen kann, wenn das andere schläft. Bei einem 1+1MB L2 Design kann es das swiw nicht. Und so ein Feature ist besonders bei den CPUs für mobile Geräte sinvoll. Der Teil der CPU, der am meisten verbraucht, wird ausgeschaltet, währen der L2 immer noch arbeitet (aber kaum Strom zieht) und für höhere single-threaded Perf sorgt.

Coda

2010-06-25, 23:36:25

Ja, aber was hat das jetzt mit der Assoziativität zu tun? Die nimmt nicht mit der Kapazität zu.

Edit: Hier stand mal Mist ;)

IVN

2010-06-25, 23:49:23

Ich denke, er meint folgendes:

1) Es gibt 2 L2s je 1MB und mit je 8x Ass. Wenn der eine Kern schläft, kann der andere nur 1MB nutzen, das eben 8x Ass hat.

2) Es gibt einen L2 mit 2MB und 16x Ass. Wenn der eine Kern schläft, nutzt der andere den vollen Cache mit voller Ass.

Die Frage ist aber, wie teuer so ein 16x ass 2MB im Vergleich zu 2x1MB und 8x Ass, doch tatsächlich ist. Ich kann mir schon vorstellen, das der Shared mit steigender Ass. immer teuerer wird.

Coda

2010-06-26, 00:35:53

Das ist technisch aber vollständiger Käse. Die Assoziativität ist eine Eigenschaft der Sets und ändert sich nicht wenn man Teile des Caches deaktiviert.

IVN

2010-06-26, 00:44:58

Von Cache-Deaktivierung wird auch nicht geredet. Sondern von der Stilllegung der Cores. Bei einem Shared-Cache, kann der "wache" Kern den vollen Cache nutzen. Bei einer CPU die mehrere L2s hat, kann der "wache" Kern nur den eigenen nutzen.

Coda

2010-06-26, 02:23:14

Und was hat das jetzt nochmal mit der Assoziativität zu tun? Ich weiß, ich wiederhole mich.

IVN

2010-06-26, 02:37:06

Und was hat das jetzt nochmal mit der Assoziativität zu tun? Ich weiß, ich wiederhole mich.
Es kann potenziell was mit der Ass zu tun haben, muss aber nicht. Guck dir das Bsp noch mal an:

Ich denke, er meint folgendes:

1) Es gibt 2 L2s je 1MB und mit je 8x Ass. Wenn der eine Kern schläft, kann der andere nur 1MB nutzen, das eben 8x Ass hat.

2) Es gibt einen L2 mit 2MB und 16x Ass. Wenn der eine Kern schläft, nutzt der andere den vollen Cache mit voller Ass.

Coda

2010-06-26, 02:42:59

Das Beispiel ist schön, ergibt aber trotzdem keinen Sinn, weil es eben nichts mit der Assoziativität zu tun hat.

Ich will dir nicht zu nahe treten, aber Assoziativität ist nicht einfach zu verstehen. Die meisten stellen sich etwas völlig falsches darunter vor.

IVN

2010-06-26, 03:21:57

Er sagt doch das ein shared L2 zu höhere Ass führen kann. Und mein Bsp zeigt genau das.

Verstehst du was gemeint ist?

Der Hersteller denkt sich ein Transistorbudget aus, und überlegt jetzt:

1) verpassen wir der neuen CPU einen shared L2 mit 2MB und 16x Assoziativität,

oder

2) jeder Kern bekommt seinen eigenen 1MB L2, und jeder der 2 Caches hat ne 8x Assoziativität

?

Falls die beiden Lösungen den gleichen Transistoraufwand haben, dann fürht ein shared Cache zu mehr Assoziativität. Es ist so, vom Designstandpunkt gemeint. Und nicht etwa, das ein shared Cache irgendwie dynamisch, on-the-fly höhere Assoziativität "erzeugen" kann.

Coda

2010-06-26, 18:51:10

Sie haben aber nicht den gleichen Transistoraufwand.

BlackBirdSR

2010-06-26, 23:29:44

Ich hoffe da hat bei AMD jemand drüber nachgedacht und nicht einfach faulerweise das kopiert was man schon immer hatte (exklusiv).

Wenn Du dir das Cachesystem von Barcelona und Aufwärts genauer ansiehst, wirst Du feststellen, dass man hier nicht nur einfach das kopiert, was man schon immer hatte und AMD sich durchaus Gedanken gemacht hatte und hat.
Was nun besser funktioniert für einen gegebenen Kern, darüber lässt sich streiten. So wie Du das unterstellst, ist es aber nicht ganz glaube ich ;)

davidzo

2010-06-28, 01:20:20

Der Hersteller denkt sich ein Transistorbudget aus, und überlegt jetzt:

1) verpassen wir der neuen CPU einen shared L2 mit 2MB und 16x Assoziativität,

oder

2) jeder Kern bekommt seinen eigenen 1MB L2, und jeder der 2 Caches hat ne 8x Assoziativität

Genau das ist gemeint. Das Trsnsistorbudget von 1mb 16fach assoziativ ist sicherlich nicht ganz identisch mit 2x 512k 8fach, aber vergleichbar.
shared cache ist da nicht nur vom cachegrößenstandpunkt aus auch für die singlethreaded performance entscheidend.
Und nicht etwa, das ein shared Cache irgendwie dynamisch, on-the-fly höhere Assoziativität "erzeugen" kann.

Naja, ich denke die assoziativität hat schon etwas mit der anzahl der aktiven cachebänke zutun. deneb hat einen 48fach assoziativen 6mb l3cache, deaktiviert man 2mb hat man gar 64way (x4 810), barcelona selber hatte aber nur 32way. merkwürdig...

Wenn Du dir das Cachesystem von Barcelona und Aufwärts genauer ansiehst, wirst Du feststellen, dass man hier nicht nur einfach das kopiert, was man schon immer hatte und AMD sich durchaus Gedanken gemacht hatte und hat.
Was nun besser funktioniert für einen gegebenen Kern, darüber lässt sich streiten. So wie Du das unterstellst, ist es aber nicht ganz glaube ich ;)

Naja, beim L1 und l2 hat man seit barcelona nix verändert, die große neuering gegenüber dem k8 war simpel die busbreite (128bit statt 64bit). dann hat man beim prefetching verbessert, ansonsten ist man bei der assoziativität beim k8-niveau geblieben, das war seinerseits die erste verbesserung seit dem k7.
der l3-cache als victim-cache ist natürlich eine schlaue überlegung gewesen die mangelnde cachegröße der amdcpus zu adressieren ohne viel diespace. so richtig aufgegangen ist das konzept aber wohl beim barcelona noch nicht. das ganze neue l3-gedöns wird lohnenswert wohl erst mit steigendem takt und steigender cachegröße, wenn man propus und deneb vergleicht, dazu die taktskalierung...
an der grundsätzlichen philosphie, inklusiv oder exklusiv egal bei welchem cache hat man seit k7 nix geändert. und der derzeitige rückstand in performance/watt geht unter anderem auf dieses konto.

S940

2010-06-28, 01:38:02

Rein von der Logik her sollten die Bulldozer L2 Caches inklusive L1 werden. Das wäre zumindest eine Konsequenz der Größenverhältnisse (16kB L1 / 2 MB L2). Wenn man da 2x16kB im L2 belegt juckt das nicht, außerdem macht es Sinn, da sich die beiden Cluster dann relativ schnell über den L2 abgleichen könnten. Der L3 sollte dann aber weiterhin der klassische VictimCache werden. Voll-inklusive bei 4x2MB L2 und 1x8MB L3 wäre etwas arg blöde ...

Natürlich alles unter der Voraussetzung, dass die AMD Compiler Informationen über die Cache Größen korrekt sind.

Aber was hat das eigentlich hier im Ontario Thread zu suchen .. gibts keinen Bulldozer Thread ?
und der derzeitige rückstand in performance/watt geht unter anderem auf dieses konto.
Finde ich überdramatisiert, da ist high-k, das Intel bereits einsetzt, viel wichtiger.

HOT

2010-06-28, 11:21:28

Tiamat

2010-06-28, 12:50:18

Genau das ist gemeint. Das Trsnsistorbudget von 1mb 16fach assoziativ ist sicherlich nicht ganz identisch mit 2x 512k 8fach, aber vergleichbar.
shared cache ist da nicht nur vom cachegrößenstandpunkt aus auch für die singlethreaded performance entscheidend.

Naja, ich denke die assoziativität hat schon etwas mit der anzahl der aktiven cachebänke zutun. deneb hat einen 48fach assoziativen 6mb l3cache, deaktiviert man 2mb hat man gar 64way (x4 810), barcelona selber hatte aber nur 32way. merkwürdig...

Naja, beim L1 und l2 hat man seit barcelona nix verändert, die große neuering gegenüber dem k8 war simpel die busbreite (128bit statt 64bit). dann hat man beim prefetching verbessert, ansonsten ist man bei der assoziativität beim k8-niveau geblieben, das war seinerseits die erste verbesserung seit dem k7.
der l3-cache als victim-cache ist natürlich eine schlaue überlegung gewesen die mangelnde cachegröße der amdcpus zu adressieren ohne viel diespace. so richtig aufgegangen ist das konzept aber wohl beim barcelona noch nicht. das ganze neue l3-gedöns wird lohnenswert wohl erst mit steigendem takt und steigender cachegröße, wenn man propus und deneb vergleicht, dazu die taktskalierung...
an der grundsätzlichen philosphie, inklusiv oder exklusiv egal bei welchem cache hat man seit k7 nix geändert. und der derzeitige rückstand in performance/watt geht unter anderem auf dieses konto.

Nein, der ganze Cache besitzt einen so und so hohen Assoziationsgrad. Bei x4 810 kommt einfach ein anderer Cache zum Einsatz.
Der Assoziationsgrad ist einfach in wie vielen Mengen (im Vergleich zu DirectMapping) gleichzeitig nach einem CacheEintrag gesucht werden kann.
Gleichzeitig heißt das, dass in jeder Menge ein gleichbezeichneter Cacheblock existiert und dementsprechend, dass man n(Assoziativitätsgrad) mal mehr Speicheradressen und deren Inhalte im Cache ablegen kann, bevor eine Verdrängungsstrategie angewandt werden muss.
Was man noch beachten muss, dass die Formel mehr ist besser nur eingeschränkt gilt, es senkt in der Regel zwar die Missrate aber führt gleichzeitig in vielen Fällen zu einer höheren Zugriffszeit.

Gruß
Tiamat

Gast

2010-06-28, 13:31:38

Nein, der ganze Cache besitzt einen so und so hohen Assoziationsgrad. Bei x4 810 kommt einfach ein anderer Cache zum Einsatz.

Falsch, der X4 810 basiert auf einem teildeaktivierten deneb. Das ist schon 1:1 derselbe cache, nur eben 2mb weniger.

Der Assoziationsgrad ist einfach in wie vielen Mengen (im Vergleich zu DirectMapping) gleichzeitig nach einem CacheEintrag gesucht werden kann.
Gleichzeitig heißt das, dass in jeder Menge ein gleichbezeichneter Cacheblock existiert und dementsprechend, dass man n(Assoziativitätsgrad) mal mehr Speicheradressen und deren Inhalte im Cache ablegen kann, bevor eine Verdrängungsstrategie angewandt werden muss.
[QUOTE]
Die Adressierungsbits werden so abgelegt dass möglichst kurze latenzen entstehen, das hat also alles schon ein bisschen mit der Blockstruktur des caches zutun.

Wie sollte man sich es sonst erklären, dass AMD beim teildeaktivierten deneb eine andere assoziativität verwendet als beim vollen Phenom II?
Ich vermute dass die assoziativität von deneb 64 oder gar 96fach betragen kann, man aber in Leistungstest herausgefunden hat dass es sinn macht sie bei 6mb auf 48fach zu begrenzen. Dass man bei 4mb cache aber die nächste zahl 64fach nimmt spricht für eine hardwarelimitation, man hätte hier sicherlich auch gerne 48fach gewählt, wobei 32fach wie beim barcelona wohl in meisten tests weniger Leistung bringen. ich tippe dass deneb mit biszu 96fach geplant war, barcelona in dieser hinsicht aber eben unflexibel war, deneb aber am besten in 16er schritten einstellbar ist.
dafür spricht eben auch deine Aussage hier:
[QUOTE]
Was man noch beachten muss, dass die Formel mehr ist besser nur eingeschränkt gilt, es senkt in der Regel zwar die Missrate aber führt gleichzeitig in vielen Fällen zu einer höheren Zugriffszeit.

Gruß
Tiamat

Gast

2010-06-28, 14:39:36

Man macht sicher keine exklusiven Caches mehr, weil die zuviel vom L2 belegen würden. Das muss andere Gründe haben. Davon abgesehen nutzt AMD den L3 teilweise inklusive bei K10. Und die Assozivität hat nichts mit inklusive oder exklusvie zu tun, genausowenig, ob man einen Kern abschalten kann oder nicht... da werden Verknüpfungen gezogen, die nicht begründbar sind.
Hä, exklusive caches belegen gar nichts vom L2, ich denke du verwechselst das gerade.
Die assoziativität hat bloß Coda ins spiel gebracht, weil er ein fan von mehr assoziativität ist, die ursprüngliche diskussion ging um die designentscheidung shared cache oder discrete cache, wobei ein sharedcache beim transistoraufwand besser genutzt werden kann und da er größer ist und von zwei cores benutzt wird auch eine höhere assozitativität aufweisen sollte als zwei kleine caches.

Aber was hat das eigentlich hier im Ontario Thread zu suchen .. gibts keinen Bulldozer Thread ?

Es geht nicht um bulldozer, es geht um Bobcat, das ist ein völlig anderes Design.

Bobcat ist ein reiner lowcost und stromsparprozessor. Es geht also nicht darum welche cachestruktur mehr leistung bringt, sondern welche weniger transistoren verbraucht und sparsamer ist.

Rein von der Logik her sollten die Bulldozer L2 Caches inklusive L1 werden. Das wäre zumindest eine Konsequenz der Größenverhältnisse (16kB L1 / 2 MB L2). Wenn man da 2x16kB im L2 belegt juckt das nicht, außerdem macht es Sinn, da sich die beiden Cluster dann relativ schnell über den L2 abgleichen könnten. Der L3 sollte dann aber weiterhin der klassische VictimCache werden. Voll-inklusive bei 4x2MB L2 und 1x8MB L3 wäre etwas arg blöde ...

bei der Inklusivität stimme ich dir zu. einen L3 gibt es bei Bobcat aber nicht, daher wird es auch keinen low-latency L1 geben. Ich denke man konstruiert für bobcat eher einen mittelmäßigen L1 mit mittelmäßiger assoziativität und der L2 ist dann shared. Shared ist einfach ein Muss, wenn man Transistoren sparen muss und für mich ist außerdem völlig klar dass es sowas wie eine core-abschaltung geben wird und das ist mit einem shared cache viel einfacher und letztendlich performanter.

Denkt man über die coreabschaltung nach ist imo auch völlig klar, dass es sich beim shared L2 um einen inklusives design handelt, da dann die coreabschaltung viel weniger zyklen benötigt, wenn der inhalt des l1s im l2 enthalten ist und der eine core somit alle threads vom zweiten core erben kann.

Bei inklusivem cache verschlingt die adressierung aber eben mehr latenzzeit, die assoziativität sollte daher runter gehen. Andererseits brauchen zwei cores die sich einen cache teilen eher mehr assoziativität. Wird also interessant für was sich AMD einigt.
Ich denke eher an einen konservativen kompromiss, z.B.:
L1 2x 64kb 2way associative pro core (wie K8/10)
L2 1x 1024kb 16way associative 2 ports inclusive shared L2 (kann zwei datensätze aus unterschiedlichen bänken pro zyklus fetchen, so wie der L1 data-cache des K8).

leistungsmäßig sollte das dann knapp unter regor fallen. der L1 ist ähnlich schnell, während der L2 geteilt werden muss. Das ganze kostet dann aber nahezu halbsoviel wie der regor cache.

denkbar wäre aber auch - vorrausgesetzt man verwendet einen inklusiven shared l2 - dass man die latenzen beim L1 senkt, also z.B. mit der assoziativität und größe herunter geht (read: 2x 32kb 1way/core).

Finde ich überdramatisiert, da ist high-k, das Intel bereits einsetzt, viel wichtiger.

Naja, im mobilbereich kommen seitens intel cachemäßig stark abgespeckte CPUs auf den markt, die trotzdem schneller sind, vor allem singlethreaded als ihre amd gegenstücke.
Die ganze cachestruktur des K10 ist schlechter als die vom penryn und erst recht vom core i7. mittlerweile hat intel so dramatisch aufgeholt, kürzere latenzen und letzendlich auch beim speicherinterface größere bandbreiten, kein wunder dass AMD da nicht nachkommt, selbst wenn man die IPC der cores erhöht und sie besserzusammenarbeiten...

HOT

2010-06-28, 17:13:44

Hä, exklusive caches belegen gar nichts vom L2, ich denke du verwechselst das gerade.

Hä? Hab ich doch garnet behauptet ;). Ich glaub das hast einfach falsch verstanden - ist aber auch nicht ganz einfach geschrieben :D.

Die assoziativität hat bloß Coda ins spiel gebracht, weil er ein fan von mehr assoziativität ist, die ursprüngliche diskussion ging um die designentscheidung shared cache oder discrete cache, wobei ein sharedcache beim transistoraufwand besser genutzt werden kann und da er größer ist und von zwei cores benutzt wird auch eine höhere assozitativität aufweisen sollte als zwei kleine caches.

Je mehr Cache, desto mehr Assoziativtät ist auch vonnöten. Und Shared Caches sind nunmal grösser als separate Caches.
Naja, im mobilbereich kommen seitens intel cachemäßig stark abgespeckte CPUs auf den markt, die trotzdem schneller sind, vor allem singlethreaded als ihre amd gegenstücke.
Die ganze cachestruktur des K10 ist schlechter als die vom penryn und erst recht vom core i7. mittlerweile hat intel so dramatisch aufgeholt, kürzere latenzen und letzendlich auch beim speicherinterface größere bandbreiten, kein wunder dass AMD da nicht nachkommt, selbst wenn man die IPC der cores erhöht und sie besserzusammenarbeiten...
Zu allgemein. AMD hat eine andere Cache-Stategie, aber das muss nicht heißen, dass die schlechter ist. Ein K10 hat sehr viel kleinere L2-Caches, kann aber trotz deutlich langsameren Caches und fehlender High-K-Fertigung leistungsmässig gut mit dem Penryn mithalten. Zudem hat eine 3-stufige Cache-Hierarchie ihre Vorteile ggü. einer 2-Stufigen - wobei man dazu ja sagen muss, dass Penryn keine interne NB hat. Ich würde nicht anmassen zu behaupten diese Cache-Struktur sei besser als jene, dafür weiss man zuwenig darüber, warum das so gemacht wurde und auch der klare Nachweis fehlt. Nehalems Caches sind latenzmässig z.B. nicht so viel schneller als die K10 (45nm) Caches. Ich glaube aber nicht, dass man das auf den Cache allein schieben kann, dass Nehalem schneller ist als ein K10 taktbereinigt. Da spielen noch ganz andere Sache ne Rolle, z.B. der Loopdetektor.

CrazyIvan

2010-06-28, 17:24:38

So wie Du es geschrieben hast, kann man eigntlich nur genau das hineininterpretieren, was der Gast schrieb. Selbst nach 3x lesen fällt mir da nix groß Anderes dazu ein. Wie meintest Du es denn dann?

/edit:
Oder wolltest Du sagen:
Man verbaut sicherlich nicht nur aus dem einen Grund exklusive Caches, dass inklusive zu viel vom L2-Cache verwenden würden.

Gast

2010-06-28, 17:28:32

Nehalems Caches sind z.B. nicht so viel schneller als die K10 (45nm) Caches.

Nehalems Caches sind ganz erheblich schneller. Dazu gibt es mehr als genügend Messungen, speziell beim L-2 und L-3 Cache sind die Differenzen eklatant.

Tiamat

2010-06-28, 17:36:55

Falsch, der X4 810 basiert auf einem teildeaktivierten deneb. Das ist schon 1:1 derselbe cache, nur eben 2mb weniger.

Wie sollte man sich es sonst erklären, dass AMD beim teildeaktivierten deneb eine andere assoziativität verwendet als beim vollen Phenom II?

Das erklärt sich deswegen, weil die Gerüchte diesbezüglich falsch sind. Es gibt keinen dynamischen n-m assoziativen Cache.
Dass die 2MB lediglich deaktiviert wurden, wurde sicher von irgendwelchen Hardwareseiten gepostet, die vorzeitige Schlüsse gezogen haben, aber das ist ein eindeutiger Gegenbeweis.

HOT

2010-06-28, 17:49:48

[...]
Oder wolltest Du sagen:
Man verbaut sicherlich nicht nur aus dem einen Grund exklusive Caches, dass inklusive zu viel vom L2-Cache verwenden würden.
Bingo :)

Deneb hat offenbar die Option die Hälfte der Assoziativtät beim L3 abschalten zu können. Normal wären dann pro 2 MiB 32 fach (Agena; Deneb 4MiB-Variante, welcher definitiv dasselbe GI-Die hat wie der 6MiB), beim 6MiB Deneb nurnoch 16 fach.

Gast

2010-06-28, 18:27:22

Bingo :)

Deneb hat offenbar die Option die Hälfte der Assoziativtät beim L3 abschalten zu können. Normal wären dann pro 2 MiB 32 fach (Agena; Deneb 4MiB-Variante, welcher definitiv dasselbe GI-Die hat wie der 6MiB), beim 6MiB Deneb nurnoch 16 fach.

bedingt richtig.
barcelona 2mb - 32fach
deneb 4mb - 64fach
deneb 6mb - 96fach - hier hat man wohl in benches gemerkt dass das zu hohe latenzen verursacht und auf die hälfte gekürzt.

denke daher für einen ontario shared 1mb cache wären 16fach nicht falsch.

Triskaine

2010-06-28, 21:54:50

Tatsächlich hat Regor eine, zu den Wolfdale's mit vergleichbar großem L2 Cache, vergleichbare Leistungsfähigkeit.

Schaut man sich diesen Test an:

http://www.behardware.com/articles/778-14/giant-roundup-146-intel-and-amd-processors.html

und vergleicht den Athlon II X2 250 mit den Pentium Dual-Core E6500/6600, so kommt taktnormalisiert die gleiche Leistung raus.

Wahrscheinlich kann der Athlon durch seinen IMC Defizite in anderen Bereichen ausgleichen. Man sollte auch bedenken das der L2 Cache des Pentium durch die Beschneidung massiv an Leistung verliert. Im Vergleich zum Athlon hat er dann die selbe Größe bei niedrigerer Assoziativität und höherer Latenz.

Gast_mboeller

2010-06-29, 08:43:44

Es geht nicht um bulldozer, es geht um Bobcat, das ist ein völlig anderes Design.

Ist das wirklich sicher? Auch beim Bulldozer teilen sich AFAIK 2 (INT-)Cores 1 L2-Cache. Was für den Bobcat gilt, könnte IMHO also auch für den Bulldozer gelten.

Tarkin

2010-06-30, 07:47:43

http://www.xtremesystems.org/forums/showthread.php?t=254645

http://citavia.blog.de/2010/06/29/llano-tri-core-and-ontario-dual-core-spotted-8884456/

90% der Performance von Deneb, Verbrauch in Regionen eines Atom CPUs

Das wird AMDs KILLER-Netbook und Ultra Portable CPU !!!

Undertaker

2010-06-30, 08:52:31

Gast

2010-06-30, 09:07:11

Nicht 90% der Leistung eines Deneb, 90% der IPC - ein ganz erheblicher Unterschied. ;) Um die gleiche TDP wie ein Atom zu erreichen (bei 1,66GHz: 2,5W CPU-only (N280), 5,5W inkl. IMC und GPU (N450)), müssten da sicherlich Taktraten im ≤1GHz Bereich angelegt werden - was allerdings immernoch klar schneller ist als ein aktueller Atom. ;)

AMD gibt selbst an das Bobcat sub-1W-capable ist. Und hier sprechen wir von einer APU inkl. MC und GPU. Das schafft kein Atom, von der Leistung ganz zu schweigen.

Gast

2010-06-30, 09:10:07

Nicht 90% der Leistung eines Deneb, 90% der IPC - ein ganz erheblicher Unterschied. ;) Um die gleiche TDP wie ein Atom zu erreichen (bei 1,66GHz: 2,5W CPU-only (N280), 5,5W inkl. IMC und GPU (N450)), müssten da sicherlich Taktraten im ≤1GHz Bereich angelegt werden - was allerdings immernoch klar schneller ist als ein aktueller Atom. ;)

Wie kommst du von "90% of todays mainstream performance" auf die IPC?

SavageX

2010-06-30, 09:11:12

AMD gibt selbst an das Bobcat sub-1W-capable ist. Und hier sprechen wir von einer APU inkl. MC und GPU. Das schafft kein Atom, von der Leistung ganz zu schweigen.

Ich denke das war eine Angabe pro Kern (was auch schon nicht schlecht wäre). An sub-1W mit Grafik und dem sonstigen Gedöns glaube ich nicht, lasse mich aber gerne überraschen.

Undertaker

2010-06-30, 09:14:59

Wie kommst du von "90% of todays mainstream performance" auf die IPC?

Das hat sich doch bereits durch die Boinc-Ergebnisse bestätigt. ;) Siehe auch hier (http://www.xtremesystems.org/forums/showpost.php?p=4450978&postcount=31). 90% der Absolutleistung eines aktuellen Mainstreammodells (X4 630-945?) wären wohl etwas unrealistisch für eine Netbook CPU 2011. ;)

Gast

2010-06-30, 09:42:24

AMD gibt selbst an das Bobcat sub-1W-capable ist. Und hier sprechen wir von einer APU inkl. MC und GPU. Das schafft kein Atom, von der Leistung ganz zu schweigen.
Atom Z500 verbraucht 0.5W oder so... hat jemand eine Ahnung was die neue ultra low power Atom version (mit PowerVR on-chip) verbraucht, das war doch auch irgendwas im Handy-bereich?

aylano

2010-06-30, 11:34:33

Ich denke das war eine Angabe pro Kern (was auch schon nicht schlecht wäre). An sub-1W mit Grafik und dem sonstigen Gedöns glaube ich nicht, lasse mich aber gerne überraschen.
Ja, Bobcat ist der Kern. Also, ohne iGPU & iMC & Co

Atom Z500 verbraucht 0.5W oder so... hat jemand eine Ahnung was die neue ultra low power Atom version (mit PowerVR on-chip) verbraucht, das war doch auch irgendwas im Handy-bereich?
O,65 Watt-TDP, wenn man genau ist.
http://ark.intel.com/Product.aspx?id=35472

Aber das Entscheidene wird IMO der UnCore-Bereich sein bzw. vorallem die Video- & Flash und vielleicht die Grafik-Fähigkeiten, wenn man jetzt so die Tablets ansieht.
(Und natürlich der Stromverbrauch, der bei den Chipsätzen ein x-faches größer ist als der Kern.)

Mit 5 Watt-Single-Core Ontario wäre AMD damit AFAIK im Bereich der Z-Serie mit 4-5 Watt.

Es könnte sein, dass dieser mit 40nm-TSMC gefertigt wird. Wenn dieser schon mit Atom mithalten könnte, dann wäre das schon sehr gut, da die Intel-Fertigung besser ist und mit 28nm bei GF und TSMC z.b. auch High-K dazukommt.

Gast

2010-06-30, 11:38:29

One strange number is the cache size of the Ontarios. In one case it is listed as 512 kB which is ok. But in the other case it is 488 kB, 24 kB less than the maximum amount. One explaination could be a power management feature, which dynamically resizes the L2 cache depending on cache usage and power budget.

The Ontario core's integer performance is comparable to an 1.3 GHz Phenom II core, while the (single precision) floating point performance even matches that of an 1.6 GHz Phenom II core. The BOINC benchmark only measures single core performance.
http://citavia.blog.de/2010/06/29/llano-tri-core-and-ontario-dual-core-spotted-8884456/

BlackBirdSR

2010-06-30, 12:03:55

Leider!!! besitzt AMD noch kein Multithreading, das würde der Bobcat noch einmal in vielen Situationen helfen.

aylano

2010-06-30, 12:07:10

Das betrifft dann (fast) nur den 5 Watt-Single-Core-Ontario.
Aber dieser wird dann eher in Tablets verbaut, wo dann Multithread ja auch nicht mehr so wichtig ist.

Gast

2010-06-30, 12:22:17

Leider!!! besitzt AMD noch kein Multithreading, das würde der Bobcat noch einmal in vielen Situationen helfen.

Ontario ist es ein Dual-Core.

MR2

2010-06-30, 12:34:20

Nö, Ontario kommt auch als 1 Kerner mit 5Watt. Aber wie aylano schon sagte......

S940

2010-06-30, 13:03:50

Leider!!! besitzt AMD noch kein Multithreading, das würde der Bobcat noch einmal in vielen Situationen helfen.
Im Endeffekt egal, solange das Gesamtpaket stimmt ;-)
Wen interssiert SMT, wenn man 2 "echte" Kerne plus passabler GPU im vernünftigem PowerBand zu nem fairen Preis bekommt.

ciao

Alex

mboeller

2010-06-30, 13:16:39

http://citavia.blog.de/2010/06/29/llano-tri-core-and-ontario-dual-core-spotted-8884456/

ich glaube der Vergleich ist wichtiger:

Looking at the 1.66Ghz Atom numbers,Ontario that was tested in BOINC is roughly 2x faster in int and 3x faster in fp... Clocks are probably rather lowish,I reckon 1.2 or 1.6Ghz tops.

http://www.xtremesystems.org/forums/showthread.php?t=254645&page=2

Coda

2010-06-30, 13:20:15

Wen interssiert SMT, wenn man 2 "echte" Kerne plus passabler GPU im vernünftigem PowerBand zu nem fairen Preis bekommt.
Mehr Leistung pro Transistor resultiert auch immer in effektiv weniger Stromverbrauch.

SavageX

2010-06-30, 13:57:51

Leider!!! besitzt AMD noch kein Multithreading, das würde der Bobcat noch einmal in vielen Situationen helfen.

Ontario ist doch nur zweifach superskalar - und noch dazu scheint er die Einheiten überaus gut beschäftigen zu können. Ich wäre mir nicht sicher, dass die zusätzlichen Transistoren für was HT-artiges bei einem so schmalen Design gut investiert wären, wenn es sowieso nicht viele Bläschen zu füllen gibt.

Dresdenboy

2010-06-30, 14:33:19

Leider!!! besitzt AMD noch kein Multithreading, das würde der Bobcat noch einmal in vielen Situationen helfen.
Dafür ist das ein OOO-Core. Und wir sollten hier im Auge behalten, wo Bobcat eingesetzt werden soll. Kommt es da auf hohen Gesamtthroughput über alle Threads an? Nicht benutzte Einheiten könnten abgeschaltet werden. So müssen sie nicht unbedingt ausgelastet sein. Die Energie für die Ausführung wird später verbraucht. Battery Life wäre damit gleich.

mrt

2010-06-30, 14:46:19

Mehr Leistung pro Transistor resultiert auch immer in effektiv weniger Stromverbrauch.
Für SMT braucht es aber auch ein entsprechendes Design, schau dir die ARM-Kerne an, da wäre SMT eher kontraproduktiv.

Coda

2010-06-30, 14:51:19

Wie begründest du das? Bei einem A9 könnte das durchaus nützlich sein.

Ontario ist doch nur zweifach superskalar - und noch dazu scheint er die Einheiten überaus gut beschäftigen zu können. Ich wäre mir nicht sicher, dass die zusätzlichen Transistoren für was HT-artiges bei einem so schmalen Design gut investiert wären, wenn es sowieso nicht viele Bläschen zu füllen gibt.
Guter Punkt.

mrt

2010-06-30, 15:06:49

Was soll ich da groß begründen, das ist offensichtlich.
Es fehlt dem A9 die Rohpower, das Ding hat keine 3 schnellen Int-ALUs wie ein x86er, dazu noch eine recht einfache Architekur, die Compiler sorgen schon für eine sehr gute Aulastung.

Coda

2010-06-30, 15:10:54

Ich kann keine Blockdiagramme zum A9 finden. Woher hast du diese Infos?

A9 ist keine "einfache" Architektur. Das Ding ist Out-Of-Order.

mrt

2010-06-30, 15:19:31

A9 ist ein überarbeiteter A8 mit FPU/Neon. Auf infocenter.arm.com findest ein paar Sachen, für vieles braucht man Bücher, die hab ich aber nicht hier zu Hause rumfliegen.
Aus Compiler/Programmierer-Sicht ist es ein einfacher Kern, der relativ leicht auszulasten ist.

Coda

2010-06-30, 15:21:12

A9 ist ein Out-Of-Order-Kern. A8 ist In-Order. Das ist ganz sicher nicht nur eine "Überarbeitung mit FPU/Neon".

mrt

2010-06-30, 15:33:25

Klar was sonst? Bestreitest du etwa die Verwendtschaft zwischen A8 und A9?
(überarbeitet heißt nicht nur ein paar Kleinigkeiten geändert, sondern auch eine konsequente Weiterentwicklung, komplett neu ist der A9 NICHT).
BTW http://infocenter.arm.com/help/index.jsp?topic=/com.arm.doc.ddi0388f/I1002917.html

Coda

2010-06-30, 15:37:28

Klar was sonst? Bestreitest du etwa die Verwendtschaft zwischen A8 und A9?
Nein die bestreite ich nicht, aber Out-Of-Order ist ein riesen Schritt den man sicher nicht nur "überarbeiten" nennt. Die Verwandschaft ist mit Sicherheit viel geringer als du annimmst.

Auch stellt ist es vor allem für den Compiler ein riesen Schritt, denn für OOO optimiert man ganz anders.

BTW http://infocenter.arm.com/help/index.jsp?topic=/com.arm.doc.ddi0388f/I1002917.html
Und was soll man da sehen?

mrt

2010-06-30, 15:44:29

Arbeite dich da durch, mehr gibts nur in Büchern von ARM. Schematisch stimmts aber, A9 hat zwei ALUs, nur eine davon kann Multiplikationen.
Wie nennst du das denn bitte sonst wenn nicht überarbeitet? Ich komm mir vor als würd ich mit einem Marketingheini reden, bei denen ist auch immer als neu...

Coda

2010-06-30, 15:54:15

Dir ist der Unterschied zwischen OOO und In-Order schon bewusst, nicht?

Das ist auf keinen Fall nur eine kleine Änderung - außer sie lügen schlichtweg.

mrt

2010-06-30, 16:06:38

Wo schreibe ich das? Lies bitte das, was da steht und nicht das was du gerne hättest das da steht.
überarbeiten = weiterentwickeln
neu = jede VHDL/Verilog-Zeile neu (überspitzt formuliert)
zumindest aus technischer Sicht.

Coda

2010-06-30, 16:16:00

Nochmal von vorne. Du hast behauptet:

Was soll ich da groß begründen, das ist offensichtlich.
Es fehlt dem A9 die Rohpower, das Ding hat keine 3 schnellen Int-ALUs wie ein x86er, dazu noch eine recht einfache Architekur, die Compiler sorgen schon für eine sehr gute Aulastung.

Ich behaupte: Nein, A9 ist keine einfache Architektur. Eine einfache Architektur ist nicht Out-Of-Order.

Der Compiler wird bei OOO auch sehr stark von der Aufgabe entbunden die Auslastung der Einheiten zu gewährleisten.

Am Ende bleibt natürlich trotzdem die Frage, ob A9 genügend Execution-Resources hätte damit sich SMT lohnt. Das ist aber eine andere Diskussion.

mrt

2010-06-30, 16:24:25

Dir ist schon klar welchen Vergleich ich hier ziehe? Ich vergleich mit aktuellen x86ern...
Schon erstaunlich wie selektiv du Beiträge liest...

Coda

2010-06-30, 16:27:39

Was ist daran "selektives Lesen"? Ich bin nur anderer Meinung bzgl. A9 und SMT - und auch was Bobcat angeht.

mrt

2010-06-30, 16:50:21

Das ist daran selektiv:
Ich schreibe, dass A9 im Vergleich zu aktuellen x86ern eine recht einfache Architektur ist, du liest daraus, dass A9 ist eine einfache Architektur. Ich schreibe, dass A9 eine Weiterentwicklung aus dem A8 ist und nicht neu ist, du liest daraus, dass der A9 ein leicht überarbeiteter A8 ist.

Bezüglich Bobcat lehn ich mich nicht aus dem Fenster, dazu sind mir nicht genug Informationen verfügbar, ich hab eigentlich nur darauf hingewiesen, dass SMT nicht immer sinnvoll ist. Beim A9 bin ich mir sogar sicher, dass es nicht sinnvoll ist.

Coda

2010-06-30, 18:12:40

Okay, alles klar.

Gast

2010-06-30, 22:13:57

Die Architektur ist eine Mischung aus AMD K6 & bischen sowas wie Intel P3² ;)

Tarkin

2010-07-13, 11:54:37

Bobcat wird einen Turbo haben :)

http://www.xtremesystems.org/Forums/showpost.php?p=4467330&postcount=88

Gast

2010-08-24, 19:50:07

Hier einige Neuheiten zu Bobcat:
http://www.brightsideofnews.com/news/2010/8/24/bobcat-amds-answer-to-intel-atom2c-arm-movement.aspx

Coda

2010-08-24, 20:35:15

SavageX

2010-08-24, 20:57:34

Interessanter Floorplan:
http://www.brightsideofnews.com/Data/2010_8_24/Bobcat-AMD-Answers-to-Intel-Atom-ARM/AMD_Bobcat_Core_675.jpg

Ich bin mal gespannt, ob Bulldozer auch von den quadratischen und gleich angeordneten Blöcken weggeht, die AMD bisher seit K7 verwendet.

Vielleicht eine Folge der Synthese? Bisher sind ja viele Funktionsblöcke tatsächlich handgesetzt, da erklärt sich die eher quadratische Natur von selbst. Eine Synthese hingegen kann die Geometrie ja global angehen.

Gast

2010-08-27, 17:52:46

Nach Servern mit 512 Atoms oder Dells VIA Nano Überlegungen, könnte wohl Bobcat auch in Servern für viele Clients (Cloud-Computing) landen: http://www.itworld.com/hardware/118751/amd-test-upcoming-netbook-processors-servers?source=itw_rss

Ailuros

2010-09-02, 09:55:32

http://www.xbitlabs.com/news/cpu/display/20100831145625_AMD_Will_Not_Compete_Against_ARM_System_on_Chip_Devices_Chief_Exe cutive.html

"I do not foresee that day [when AMD competes with ARM is] coming in the near term. First of all, when we consider which areas to approach, we look at markets, we look at the technology capabilities we have, and we try to find an intersection point that really represents really big opportunities. By far the biggest business opportunity we have got is in PCs and servers. The market for silicon processing content is bigger than the smartphone market. [...] The other thing we really like about our core market is that there aren't that many competitors [...]. I would rather focus on the big market, where there's a small number of competitors," said Dirk Meyer, chief executive officer and president of AMD, in an interview with the Fortune magazine.

Durchaus logisch IMO. Von der anderen Seite hat man ja auch die Imageon Sparte an Qualcollmm verkauft und da waere es auch etwas fies denen innerhalb so kurzer Zeit auf die Pfoten zu treten. Wie dem auch sei, mir waere es lieber gewesen wenn AMD den Markt auch bedient haette ;(

"We view the tablet market as something we'll enter when the market gets big and we have the resources to appropriately address it. [...] I do not think we can ignore in the long term what is going on with mobility, the fact that people's eyeballs are spending more time in front of things like tablets and smartphones. We are ensuring that we are developing the technology that will, over time, address these markets. It's not a 'not-ever,' it's just a 'not now' statement [about ARM]," Mr. Meyer clarified.

Bestaetigt auch irgendwie den obrigen Verdacht. Das "ja aber" steckt im letzten Paragraph des Artikels:

But the absence of plans to compete with ARM or low-power Intel architectures now may play a bad joke with AMD. Once the market establishes itself, the Sunnyvale, California-based company will have to follow its competitors, not establish new categories of products. Moreover, the company's the rivals will have an advantage of established brands on those markets by the time AMD reaches them.

Und hiermit hat der Author auch vollkommen recht. Eben genau der Grund warum es mir persoenlich lieber gewesen waere wenn sie gleich von Anfang an mitgespielt haetten. Zu dem Zeitpunkt koennte Apple als einfaches Beispiel so viel von ihrem i-Zeug verkaufen dass es dann nicht mehr der Rede wert sein wird.

robbitop

2010-09-02, 10:54:12

Ailuros

2010-09-02, 11:34:00

IMO ist es völlig richtig, was AMD im Moment tut. Sie konsolidieren sämtliches Portfolio und sämtliche Ressourcen auf die absolut notwendigen Dinge. AMD hat nicht mehr die Ressourcen für andere Dinge. Und selbst als sie das Geld noch hatten galt IMO "better to do the basics well than to suck at the fancy stuff". Denn damals haben sie in den nicht-Kernmärkten nicht gerade konkurrenzfähig ausgesehen - und was nützt uns ein konkurrenzloses AMD im Handheld-SoC-Markt, wenn sie on top noch überlebenswichtige Ressourcen vergeuden und kein Geld in der Sparte verdienen? AMD muss überleben und sie müssen auf ihren Core-Märkten alles tun, um konkurrenzfähig zu bleiben. Und das sind zunächsteinmal Laptop/Desktop/Server CPUs und Grafikkarten.
Fancy: PhysX, Handheld-SoCs, CUDA. Das sind zwar wachsende Zukunftsmärkte, aber wenn keine Ressourcen da sind, sind keine da.

Ich bezweifle dass es ausschliesslich eine Affaere von Resourcen ist. Von der einen Seite hat Qualcollmm eine fette Summe fuer die Imageon Sparte bezahlt und von der anderen Seite haetten sie tatsaechlich mit sehr viel mehr Konkurrenten zu tun im <netbook Markt; eine Kleinigkeit die NVIDIA als SoC Lieferant mit Tegra mit Absicht uebersehen hat und heute bei jeglichem forecast ihren projezierten Umsatz konstant reduziert.

AMD wartet etwas ab bis sich mehrere Faktoren fuer sie selber stabilieren koennten u.a. auch mit GF und hier passt sehr schoen der Link hier rein: http://www.xbitlabs.com/news/other/display/20100901152909_Globalfoundries_Adds_Another_28nm_Fabrication_Process_to_Roadmap. html ...risk production ab Q4 2011.

Intel hat weiterhin Probleme in den smart-phone Markt einzudringen und wenn dieses in der Zwischenzeit vorkommen sollte und auch im Licht ihrer ziemlich aktiven Zusammenarbeit mit NOKIA und auch was sie in letzter Zeit dazukaufen wird es nicht leicht sein spaeter in diesem Markt dynamisch einzudringen.

http://www.xbitlabs.com/news/networking/display/20100830125932_Intel_Acquires_Technologies_for_Cell_Phones_from_Infineon.html

http://www.xbitlabs.com/news/mobile/display/20100823225714_Intel_and_Nokia_Establish_Joint_Research_and_Development_Center.h tml

http://www.xbitlabs.com/news/mobile/display/20100823235215_Intel_Our_Next_Gen_Ultra_Mobile_Platform_Will_Beat_ARM_in_Power_C onsumption.html

Gast

2010-09-03, 14:24:49

Nicht schlecht: 18 und 9W TDP für eine OoO Dual-Core plus 80SP DX11 GPU:

http://img710.imageshack.us/img710/678/hjx7jg6e.png (http://img710.imageshack.us/my.php?image=hjx7jg6e.png)

http://img809.imageshack.us/img809/8283/go04xq8x.png (http://img809.imageshack.us/my.php?image=go04xq8x.png)

http://www.computerbase.de/news/hardware/prozessoren/amd/2010/september/amds-fusion-apu-auf-der-ifa-im-einsatz/

Damit wird man Intel ordentlich unter Druck setzten.

Gast

2010-09-03, 16:15:57

http://www.computerbase.de/news/hardware/prozessoren/amd/2010/september/amds-fusion-apu-auf-der-ifa-im-einsatz/

Ich komme auf 9,25 x 8,3 mm² incl Randbereich. Die APU selbst dürfte noch ein wenig kleiner sein. 9,25x8,3 = ~77mm² Ohne Rand (man zieht doch immer so 0,5mm ab?) sind es wahrscheinlich 7,3 x 8,3 mm² also 61mm².....also sehr klein!

Coda

2010-09-03, 16:44:09

Ich dachte bisher Ontario hätte nur einen CPU-Kern. Das ist natürlich erfreulich.

w0mbat

2010-09-03, 16:58:31

Ontario (9W) als dual-core mit IGP wäre extrem lecker, aber der takt wird da wohl nicht so berühmt sein.

Aber ein Zacate für ein sub-notebook mit 2 cores & ordentlichem takt bei geringen verbrauch wäre super. so 11''+

davidzo

2010-09-03, 16:59:13

kaum zu glauben dass da ein cedar drinsteckt. der hat immerhin schon 62mm² - das speicherinterface ist ja dasselbe, 64bit also singlechannel DDR3, aber trotzdem frage ich mich wie da zwei cores hineingehen. also wirds doch wohl eher ein 890gx onchip, also 40sp wie zu hd3450 zeiten.

Macht auch Sinn, denn die Aussage 90% of todays mainstream performance bezog sich auf die Notebookplattform wie AMD ja zugegeben hat. Und wenn wir einen Blick in die Roadmap von Danube werfen, so steht mainstream für einen Athlon II X2 auf 880m Chipsatz. Wie es der Zufall will hat der genau 40sp bei 500mhz. Da sich das fertigungsverfahren nicht geändert hat würde ich nicht mehr erwarten, eher weniger(takt)... - zudem hätte amd bei 80sp befürchten müssen den gleich ausgestatteten cedar für lowcostPCs gar nicht mehr verkaufen zu können.

RS880m verfügt ja über ein 128bit Interface welches mit der CPU geteilt werden muss und bisher in den meisten notebooks mit DDR2 667 SODIMM ausgestattet wird. Ontario verfügt lediglich über 64bit, aber dafür höher getakteten DDR3 SODIMM (vermutlich 800mhz). Trotzdem bleibt Ontario bei der Bandbreite deutlich zurück, daher gehe ich davon aus, dass man auch den Takt gegenüber RS880m gesenkt hat, also 400-450mhz bei Ontario und 500-700mhz bei Zacate.

Damit kommt man dann den 90% von RS880m im mobilebereich und den 90% von 890GX im Desktop sehr nahe.

SavageX

2010-09-03, 17:12:52

Gibt es denn wen, der aus dem Die-Shot klug wird?

http://a.imageshack.us/img837/6563/ontariodie.jpg (http://img837.imageshack.us/i/ontariodie.jpg/)

Uploaded with ImageShack.us (http://imageshack.us)

Oben Cache (?), unten Speichercontroller und -pads (?), in der Mitte die Shadercores (?).

Die x86-Kerne kann ich nicht wirklich zuordnen :(

fdk

2010-09-03, 17:27:02

Coda

2010-09-03, 17:40:33

Gibt es denn wen, der aus dem Die-Shot klug wird?
Das ist die Interconnect-Ebene, da sieht man gar nichts.

kaum zu glauben dass da ein cedar drinsteckt. der hat immerhin schon 62mm² - das speicherinterface ist ja dasselbe, 64bit also singlechannel DDR3, aber trotzdem frage ich mich wie da zwei cores hineingehen.
Ich würde vermuten, dass Cedar von der Die-Size Pad limitiert ist. Auf dem Ontario-Die sieht man recht sicher zwei GPU-Cluster.

Gast

2010-09-03, 17:43:25

Kann man denn aus einem Die-Shot wirklich so viele Rückschlüsse ziehen? Ich finde es schon sehr seltsam das AMD hier ein solches Geheimnis um Bulldozer und Bobcat macht.

Coda

2010-09-03, 17:45:43

Kann man denn aus einem Die-Shot wirklich so viele Rückschlüsse ziehen? Ich finde es schon sehr seltsam das AMD hier ein solches Geheimnis um Bulldozer und Bobcat macht.
Manche Leute können das. Beispiel (http://chip-architect.com/news/2003_03_26_Prescott_clues_for_Yamhill.html).

S940

2010-09-03, 19:09:25

Oben Cache (?), unten Speichercontroller und -pads (?), in der Mitte die Shadercores (?).

Die x86-Kerne kann ich nicht wirklich zuordnen :(

Ich würd sagen die Kerne liegen oben beim "Cache". Das kann nämlich nicht alles Cache sein, das wäre viel zu viel für 2x512kB.
Ok - es könnte Cache für die GPU sein - aber das glaub ich bei Ontario nun wirklich nicht.

Ausserdem müssen die Bobcats ja auch irgendwo stecken :biggrin:
z.B: ungefähr so:
http://www.abload.de/img/bob_testijys.jpg

Laut dem Floorplan ist ein Bobcat mit L2 ja auch rechteckig, und der L2 hat ca. 1/3 Anteil an der Gesamtfläche.

ciao

Alex

Coda

2010-09-03, 19:14:36

Das was du da als Cores markiert hast ist mit sehr großer Sicherheit der Cache.

S940

2010-09-03, 19:16:31

Das was du da als Cores markiert hast ist mit sehr großer Sicherheit der Cache.
AUf der ganzen, kompletten Breite ? Das dürfen doch nur 2x512kB sein ...

Zum Vergleich: Floorplan:
http://www.planet3dnow.de/photoplog/file.php?n=10875&w=l

Coda

2010-09-03, 19:26:34

Meine (sehr grobe) Prognose:

http://axelgneiting.de/files2/ontario.png

Wobei das oben auch L3 sein könnte, aber ich vermute eher einen shared L2. Der Rest ist halt Video-Decoder, GPU-Logik, Crossbar etc.

S940

2010-09-03, 19:34:15

Hm, also L2 kanns nicht sein, der muss laut Floorplan direkt am Bobcat dranhängen, das gehört dazu.

L3 kann ich mir nicht vorstellen, zuviel Verschwendung für das LowCost Teil, ausserdem war davon bisher nie die Rede, in allen Roadmaps steht 1MB L2 bzw 2x512kB, keine Info zum L3. Sinn würd es vermutlich eh keinen machen, wenn der L2 schon nur mit halben Takt läuft, was soll man dann mit nem L3 ... ?

Aber gut .. bleibt unsicher, warten wirs mal ab. Vielleicht ne Art embedded Side-port Memory für die GPU ?

davidzo

2010-09-03, 19:39:15

Sieht aus als ob man da nichts sieht.

Ich denke AMD hat hier die Möglichkeit sich in Sachen Performance/Laufzeit an einem sinnvollen Punkt zwischen Atom und "echten" Notebooks zu platzieren. Falls es denn Stimmt was über die Verfügbarkeit gesagt wurde - der Atom-shrink steht ja erst h2/11 an. Inwiefern sich das in Punkto Ergebnis auszahlt muss sich aber erst noch zeigen. Wäre ja nicht das erste Mal das sie ein im Vergleich zu Intel perfomanteres Produkt trotz höherer Kosten zum niedrigeren Preis verkaufen.

ich würde nichtmal sagen dass AMD derzeit die höheren kosten hat. der aktuelle atom ist ziemlich groß, intels infeeizienz in sachen grafik sei dank. man sollte auch nicht vergessen, das intel in 45nm ist und amd in 40nm, bis zu cedartrail hat also amd also auch noch den fertigungsvorteil. das spielchen von intel mal umgedreht.

offensichtlich haben sie über die ganze gpu ein bisschen schneeregen gephotoshopt, wenn man den wegdenkt, so kann das in der mitte nur die gpu sein und das oben nur der cache. ich vermute also dass die cpu sich wirklich nur links und rechts versteckt.

Ich denke die x86 cores könen sich nur links und rechts verstecken. die 1mb l2 cache sind oben schon ganz gut aufgehoben und stimmen auch größentechnisch. der 64bit speichercontroller unten wirkt etwas groß, könnte aber hinkommen, der brauch die meisten pads.

allerdings glaube ich auch nicht an zwei shadercluster, sondern nur an eines, die trennlinie sehe ich da nicht so eindeutig und könnte auch bewusst gephotoshopt sein. bei 63mm² diefläche in 40nm ist neben 1mb cache und 2 x86 cores einfach nicht mehr drin als ein cluster...

Coda

2010-09-03, 19:48:46

Hm, also L2 kanns nicht sein, der muss laut Floorplan direkt am Bobcat dranhängen, das gehört dazu.
Das ist definitiv SRAM und keine Logik. Die Struktur ist da sehr eindeutig. Es muss also Cache sein.

Logik ist viel unregelmäßiger. Und der Floorplan muss nicht für alle Chips gelten, die Bobcat enthalten. Das Ding ist ja anscheinend sehr flexibel synthetisierbar.

S940

2010-09-03, 20:01:29

Das ist definitiv SRAM und keine Logik. Die Struktur ist da sehr eindeutig. Es muss also Cache sein.

Logik ist viel unregelmäßiger. Und der Floorplan muss nicht für alle Chips gelten, die Bobcat enthalten. Das Ding ist ja anscheinend sehr flexibel synthetisierbar.

Hmm mag sein, aber den L2 Cache deswegen soweit ab vom Schuß ?
Aber gut .. wenn der L2 mit halbem Takt läuft, ist er damit vielleicht auch in der GPU clock Domain. Sagen wir mal 1,6 GHz CPU Takt und 800 Mhz GPU Takt, käme doch einigermaßen hin. Wobei 800Mhz da immer noch viel Holz für ein low-power Teil wären.

Ach egal, warten wirs mal ab.

ciao

Alex

Coda

2010-09-03, 20:03:58

Hmm mag sein, aber den L2 Cache deswegen soweit ab vom Schuß?
Das habe ich mir auch schon überlegt, aber ich vermute, dass die Bobcats nicht die oberen Strukturen sind. Die ALU-Cluster würde ich eher kleiner einschätzen.

Aber ich würde darauf nichts verwetten. Bei den unteren Strukturen könnte man sogar am unteren Rand TMUs reininterpretieren mit etwas Fantasie.

Ich halte es jedenfalls für höchst wahrscheinlich, dass die vier Blöcke innen die CPU-Cores und ALU-Cluster sind - egal in welcher Anordnung ;)

S940

2010-09-03, 20:25:39

Ok, also keine Wetten ^^

Hier noch ein ausführlicher Ontario Artikel von der IFA, Auszug:
zudem verriet uns eine Firmennahe Quelle, das zum Beispiel StarCraft II auch auf mittleren Settings spielbar sein soll.
http://www.hardware-infos.com/news.php?news=3681

Gibts dazu Atom Erfahrungen ?

ciao

Alex

P.S: Hab das Fusionpatent gefunden, Posting im Bulldozerthread ist entsprechend aktualisiert, falls es noch nicht aufgefallen ist.

davidzo

2010-09-03, 21:40:50

kühlungstechnisch macht es sinn die cpucores an den rand zu legen und den cache eher mittig. solche optimierungen werden schon seit jahren gemacht siehe prescott, also wieso nicht auch bei einem core, der sowieso fast komplett synthetisierbar ist? ich denke dass die cpu ausführungseinheiten links und rechts kleben, die unregelmäßigkeiten links und rechts entsprechen dem was wir bei orochi auch sehen - sind also gephotoshopt - in wirklichkeit sind die cores symmetrisch.

Coda

2010-09-03, 21:49:06

Prescott hat den Cache in der Mitte? Hab ich was verpasst (http://www.pctechguide.com/images/22PrescottDie.jpg)?

Das am oberen Rand des Dies ist garantiert keine Logik.

ich denke dass die cpu ausführungseinheiten links und rechts kleben, die unregelmäßigkeiten links und rechts entsprechen dem was wir bei orochi auch sehen - sind also gephotoshopt - in wirklichkeit sind die cores symmetrisch.
Sehr unwahrscheinlich. Dann wäre der komplett Shot Müll.

davidzo

2010-09-03, 22:01:39

nein, bei prescott hat man die zu hotspots neigenden teile der ausführungseinheiten wenn möglich bewusst verteilt um hitzeproblemen aus dem weg zu gehen. diese strategie führte und die erstrebte rekordverdächtige packungsdichte in kombination mit dem problematischen 90nm verfahren führten dann unter anderem zur fast 20% höheren TDP eines gleichgetakteten prescotts im vergleich zum 130nm northwood.

Coda

2010-09-03, 22:20:26

Soso. Das an der Seite ist trotzdem garantiert keine CPU-Logik.

Und was soll das dann in der Mitte sein? 50% des Dies die GPU oder was? Glaubst du doch selber nicht.

davidzo

2010-09-03, 22:26:44

ich denke die obere hälfte des gesamten DIE sind l2 und beide cores nebeneinander, die untere sind dann GPU und SI. halb unten links und rechts sitzen I/O und VP.

Coda

2010-09-03, 22:37:08

Sind sie nicht. Das ist SRAM.

davidzo

2010-09-04, 00:02:29

klar ist das der cache, hab ich was anderes geschrieben? der cache sind aber nur ca 1/4 der diefläche, der streifen ganz oben, darunter kommt direkt Core0 links Core1 rechts und dadrunter dann die GPU mittitg, rest links-rechts und SI ganz unten.

BTW: ist euch mal aufgefallen, das anhand des eurovergleichs bei CB Ontario definitiv unter 80mm² liegt?
Das ist verdammt wenig für zwei ooo cores und 2x 512kb cache in 40nm, sogar weniger als der Intel Atom!

Zum Vergleich ein billiger in order atom dualcore mit einem ollen gma3150 grafikkern kommt auf immerhin 85,5 mm². AMD hat hier einen fertigungsvorteil, aber selbst wenn der dahin wäre scheint man den benches nach ja leistungsmäßig sowieso in einer anderen liga zu spielen. es würde mich nicht wundern, wenn ontario auch den kommenden 32nm cedartrail atom alt aussehen lässt.

Coda

2010-09-04, 02:27:36

klar ist das der cache, hab ich was anderes geschrieben? der cache sind aber nur ca 1/4 der diefläche, der streifen ganz oben, darunter kommt direkt Core0 links Core1 rechts und dadrunter dann die GPU mittitg, rest links-rechts und SI ganz unten.
Das sieht aber alles schwer nach Cache aus. Die vertikalen Merkmale sind eigentlich eindeutig.

Wie gesagt wäre Logik nicht so regelmäßig.

Gipsel

2010-09-04, 09:11:28

Das ist die Interconnect-Ebene, da sieht man gar nichts.
Das ist definitiv SRAM und keine Logik. Die Struktur ist da sehr eindeutig. Es muss also Cache sein.

Logik ist viel unregelmäßiger.
Mit ersterem hast Du sicher Recht ;)

Das ist offensichtlich ein Shot eines der oberen Metallayer, da sieht man nur noch die ganz groben Strukturen, eine Identifikation ist damit kaum möglich.

Hans deVries hat übrigens auch einen Tipp abgegeben:

http://i51.tinypic.com/6nxr1i.jpg

=Floi=

2010-09-04, 09:31:32

also das mit den transistoren kann nicht stimmen. :rolleyes:

Gast

2010-09-04, 10:02:28

Und was soll das dann in der Mitte sein? 50% des Dies die GPU oder was? Glaubst du doch selber nicht.

Hallo Herr Schlaumeier! Die ist aber schon klar das eine 80SP DX11 GPU alleine im selben Prozess schon auf ~70mm² kommt? Der ganze Ontario scheint aber nur ~70mm² zu haben. Ergo es ist alles andere als unwahrscheinlich das die GPU 50% oder mehr des Dice benötigt. Videoprozessor, Display-Anschlüsse, etc. benötigen eben Die-Size, da kann man nicht mehr viel zusammen stutzen ohne auf Features zu verzichten.

Gast

2010-09-04, 10:16:10

also das mit den transistoren kann nicht stimmen. :rolleyes:

Warum? Es passt sogar perfekt.
Siehe: http://de.wikipedia.org/wiki/ATI-Radeon-HD-5000-Serie

Redwood hat 104 mm² und 627 Mio Transistoren. => 63/104 x 627 = 380 Mio Transistoren.

Zu den 80SPs:

Unterschied zw. Redwood und Juniper: 104mm² + 400SPs/20TMUs; 166mm² + 800SPs/40TMUs. Für 400SPs/20TMUs sind also max. 62mm² notwendig (wenn man die anderen Unterschiede,wie ROPs mal unter den Tisch fallen lässt).

80/400 x 62mm² = 12,4mm²

80SPs/4TMUs gehen sich also locker aus

Sorkalm

2010-09-04, 10:18:18

also das mit den transistoren kann nicht stimmen. :rolleyes:

Die Packdichte unterscheidet sich halt - nicht nur wegen dem etwas kleineren Prozess. Der größere GPU-Anteil macht da auch einiges aus.

Tiamat

2010-09-04, 10:27:54

Ist beim Bobcat schon n genaueres Release-Datum in Sicht? Hätte gerne für mein Netbook Ersatz, aber der Zeitpunkt ist wohl nicht der beste.

Zurzeit sieht der Mark so aus : Intel Atom Netbooks oder Subnotebooks mit Intels Ulv Dual-Core ( bis 1.4 Ghz ) sind mittlerweile günstig und neu auch welche mit i7 Ulv, allerdings kostspielig. AMD Vision zu hoher Verbrauch. In dem Bereich wäre der Bobcat perfekt platziert.

robbitop

2010-09-04, 10:31:10

Unglaublich dass AMD einen OoO-Core auf weniger Die-Fläche bekommt. Dazu noch eine wesentlich leistungsfähigere Grafikeinheit und dennoch bleibt man unter der Gesamt-Die-Size vom Intel Prozessor.

davidzo

2010-09-04, 10:35:07

Das sieht aber alles schwer nach Cache aus. Die vertikalen Merkmale sind eigentlich eindeutig.

Wie gesagt wäre Logik nicht so regelmäßig.

oh mann, fällt dir vielleicht auf, dass wir uns in den letzten vier posts kein bisschen widersprechen? also tu nicht so als ob ich was anderes geschrieben hätte und lies es lieber nochmal durch.

@all: Die Folie von Hans de Vries ist ja mal totaler bullshit.

1. Pineview ist ein GMA derivat, nix PoverVR (selbst das kann er nichtmal richtig schreiben)
2. Sieht es jeder blinder dass die zellen oben der cache sind, nie im leben ist da ein x86 core drin. die sind zwar deutlich größer als intels 512kb, aber das intel bei sram besser packen kann als jeder andere ist ja nix neues. zudem ist die assoziativität bei amd deutlich höher latenz geringer.
3. Die 380 millionen von bobcat sind sowas von off, man kann schließlich nicht einfach cedar und einen athlon II zusammenrechnen.
- das einzige was an der folie stimmt ist die anzahl der trannies vom atom und dessen diesize.

ich gehe bei der berechnung von propus aus, da er vom cache pro core am besten mit bobcat vergleichbar ist. propushat 4 stars cores mit 512kbl2/core und 300mio trannies und zufällig ein 128bit SI, während ontario mit 2 cores und 64bit SI kommt, was die rechnung sehr einfach macht. Ein propus core hätte demnach irgendwas unter 75mio trannies mit anteiligem SI und HTlink. AMD hat uns nur half size und nicht half trannies versprochen, daher denke ich kann man bei bobcat nur moderat sparen kann, ich erwarte knapp unter 50mio trannies pro core, also deutlich mehr als K7, aber auch weniger als K8 (68,5mio trannies mit 512kb cache bei newcastle).
beim grafikchip erwarte ich dass man einen rv610 mit DX11 nimmt(40sp, 180mio), allerdings kann man sich hier das Speicherinterface sparen, was den grafikchip auf unter 150mio trannies fallen lassen dürfte
also 2x 50mio + 150mio lassen mich auf 250mio trannies kommen. das ist realistisch.

jetzt wird auch mit der diesize ein schuh draus.
ontario ist trotz 42% mehr trannies 17% kleiner als Pineview weil:
- 40nm theoretisch 27% kleinere dies zu lässt als 45nm
- Intel nicht so agressiv packt wegen der Leckströme die im UMPC und MIDbereich stören
- AMDs Grafikchips schon immer rekordverdächtige packungsdichten hatten, hier spart man also Fläche

Cedartrail, also der kommende Atom in 32nm soll die Grafikleistung verdoppelt, wird es aber trotzdem sehr schwer gegen Ontario haben, die übermacht bei der CPUleistung ist auch sehr deutlich.

Gast

2010-09-04, 10:37:36

Ist beim Bobcat schon n genaueres Release-Datum in Sicht? Hätte gerne für mein Netbook Ersatz, aber der Zeitpunkt ist wohl nicht der beste.

Netbooks und Notebooks soll es ab Januar 2011 geben. Die APU geht anscheinend ab Anfang Q4/2010 zu den OEMs.

Quelle: Konferenzcall von AMD

Gast

2010-09-04, 10:40:16

2. Sieht es jeder blinder dass die zellen oben der cache sind, nie im leben ist da ein x86 core drin. die sind zwar deutlich größer als intels 512kb, aber das intel bei sram besser packen kann als jeder andere ist ja nix neues. zudem ist die assoziativität bei amd deutlich höher latenz geringer.

Wirklich?

Originally Posted by Chumbucket843
SRAM cell size for intel's 45nm process: .346um^2
high density SRAM cell size for TSMC's 40G process: .242um^2

Von hier: http://www.xtremesystems.org/forums/showthread.php?t=258499&page=3

Vielleicht läuft der Cache ja deshalb mit halber Geschwindigkeit?

Dural

2010-09-04, 11:21:24

hmm von oben nach unten:

GPU

CPU

L2

oder so wie es coda sieht...

Gast

2010-09-04, 11:23:11

hmm von oben nach unten:

GPU

CPU

L2

Also das ist mal defintiv falsch. :)

Was außer Streit steht ist: Unter Memorycontroller, oben L2 Cache, Mitte GPU/CPU.

Gestrandet

2010-09-04, 11:49:52

Das große in der der Mitte ist der Fluxkompensator ^^
AMD und Intel sollten so Spiele öfter machen, macht wirklich Spaß :D
Bin mal gespannt wer hinterher am nächsten dran liegt - oder ob auch hier der Marketing-Praktikant bei AMD wieder alte Bilder durch den Photoshhopwolf gedreht hat.
http://images.encyclopediadramatica.com/images/5/5c/Shop_Cat.jpg

robbitop

2010-09-04, 12:13:43

Die Größe der L2 Caches kommt anhand der Packdichten des TSMC 40G Prozesses schon hin. Und bisher war bei jeder CPU immer der CPU Kern direkt am L2-Cache.
Und ein Cedar nimmt auch sehr sehr viel Platz von diesem Mini-Die ein. Ergo kann auch die Position von der GPU von Hans durchaus korrekt sein.
Vieleicht kann man von der Verdrahtungsebene (Ontario hat doch bestimmt 7+ Verdrahtungsebenen!) noch nicht so viel erkennen und vieleicht hat AMD genau deswegen den Die-Shot veröffentlicht. Ich glaube nicht, dass sich ein alter und bekanntermaßen kompetenter Hase wie Hans de Vries dermaßen irren kann (bis auf Pineviews Grafikeinheit - GPUs sind glaube ich nicht seine Spezialität).

davidzo

2010-09-04, 12:51:20

die diesize hat mit der geschwindigkeit ja nichts zutun.

kann mir das eigentlich nur erklären damit dass AMD eben kein high density sram verwendet, vll. wegen der leakage, vielleicht wegen der besseren anbindung im vgl zum atom. das es mehr cache als 1mb ist wäre extrem unwahrscheinlich, da alle anzeichen bisher auf 2x 512kb hindeuten.

Das was hans de vries schreibt ist der größte quatsch seit jahren...
seine hauptaussage ist das 80% der grafikchip seinen und dieser 80sp habe. von grafikchips hat er nunmal null ahnung, daher kann man das getrost vergessen was der sagt.

80sp sind nunmal nicht im transistorbudget und ein netbookchip mit 80% grafikchip herzustellen, so dumm ist nichtmal amd. wenn man hd-beschleunigung bringt und intels GMA leicht übertrifft hätte es gereicht. mehr sinn als 80sp in der grafik macht es dann eher den stromverbrauch auf ein vergleichbares level zu reduzieren wie die mobilen atoms, was man nun wohl doch nicht ganz erreicht.
ein 40sp dx11 chip ist das minimum was ati ohne die architektur zu verändern herstellen kann und das erreicht in etwa die leistung von intels clarkdale grafik, jegliche GMAs von intel hat man also geschlagen und auch die vermeintliche verdopplung von der GMA3150 3dleistung bei Cedartrail wird man noch im zaum halten können. und Cedartrail ist eben wie man nicht vergessen darf der Hauptgegner für Ontario 2011.

robbitop

2010-09-04, 12:58:10

Selbst wenn es keine so hohe Packdichte wäre, wäre der Unterschied viel zu groß. Der Größenvergleich passt schon IMO ganz gut.
Auch muss -wie gesagt- beachtet werden, dass eine 80sp DX11 GPU von ATI einen Löwenanteil des Kerns in Anspruch nimmt. Das sollten kaum unter 60 sqmm sein. Wenn man beide Fakten im Hinterkopf behält, kommt das was Hans gepostet hat, schon hin. Wie gesagt: es ist nur 1 von vielen Verdrahtunsebenen.

davidzo

2010-09-04, 13:01:47

S940

2010-09-04, 13:03:51

80sp sind nunmal nicht im transistorbudget und ein netbookchip mit 80% grafikchip herzustellen, so dumm ist nichtmal amd. wenn man hd-beschleunigung bringt und intels GMA leicht übertrifft hätte es gereicht. mehr sinn als 80sp in der grafik macht es dann eher den stromverbrauch auf ein vergleichbares level zu reduzieren wie die mobilen atoms, was man nun wohl doch nicht ganz erreicht.
Man ist kleiner als die Atoms, verbraucht 9-18W und hat trotzdem die deutlich bessere Grafikleistung.

Passt doch ... worüber willst Du Dich beschweren ? Das man keine 5W erreicht ? Peanuts ... das interessiert AMD nicht, die wollen keinen Ontario im Handy sehen ;-)

Die wollen gute CPU Leistung, gute GPU Leistung, auf ner vernünftigen Fläche zu nem vernünftigen Preis bei nicht allzuviel Stromverbrauch .. und genau das wird Ontario abliefern ;-)

Edit:
Noch zur Leistungsidee bzw. 80 vs 40 Shader:
Kann jemand mal Starcraft 2 auf ner AMD IGP testen ? Die hat ja 40 Shader, wenn ich mich recht erinnere, wenn das einigermaßen mit nem X2 läuft, dann könnte Ontario auch nur 40 SPUs haben (Gab gestern ja die Meldung das SC2 laufen würde).

davidzo

2010-09-04, 13:09:17

Man ist kleiner als die Atoms, verbraucht 9-18W und hat trotzdem die deutlich bessere Grafikleistung.

Passt doch ... worüber willst Du Dich beschweren ? Das man keine 5W erreicht ? Peanuts ... das interessiert AMD nicht, die wollen keinen Ontario im Handy sehen ;-)

Die wollen gute CPU Leistung, gute GPU Leistung, auf ner vernünftigen Fläche zu nem vernünftigen Preis bei nicht allzuviel Stromverbrauch .. und genau das wird Ontario abliefern ;-)
seh ich auch so. 40sp sind völlig ausreichend für netbooks. die 9watt variante finde ich interessant.
Cedartrail soll den Verbrauch nochmals massiv senken (30-50%) und dabei mehr grafikleistung bieten (>2x in 3dmark), trotzdem bleibt ontario da die bessere wahl denke ich. zudem macht der hauptverbrauch bei einem netbook das display aus. die akkulaufzeit wird sich also nicht so viel unterscheiden als dass dies ein überwiegendes kaufargument wird.
da wünsche ich mir lieber einen schicken 11 oder 12 zöller mit dickem sechs zellen akku - wie das Thinkpad x100 mit 8 stunden + laufzeit - das wäre perfekt

SavageX

2010-09-04, 13:16:59

robbitop

2010-09-04, 13:32:50

seh ich auch so. 40sp sind völlig ausreichend für netbooks. die 9watt variante finde ich interessant.
Cedartrail soll den Verbrauch nochmals massiv senken (30-50%) und dabei mehr grafikleistung bieten (>2x in 3dmark), trotzdem bleibt ontario da die bessere wahl denke ich. zudem macht der hauptverbrauch bei einem netbook das display aus. die akkulaufzeit wird sich also nicht so viel unterscheiden als dass dies ein überwiegendes kaufargument wird.
da wünsche ich mir lieber einen schicken 11 oder 12 zöller mit dickem sechs zellen akku - wie das Thinkpad x100 mit 8 stunden + laufzeit - das wäre perfekt
Das simmt zwar - aber ein ordentlicher SoC (Fusion fängt ja dort ebenfalls an) entlastet das Powerbudget der restlichen Komponenten ebenfalls. Dass das Wirkung zeigt, zeigen Geräte, wie das iPad deutlich. Geringes Gewicht, kleiner Akku (25 Wh) und dennoch über 10 h Betriebsdauer (trotz 10" Display). Mit herkömmlichen x86 Notebookkomponenten bräuchte man locker die doppelte Akkugröße. Das Display ist zwar einer der Hauptenergiekonsumenten, aber es gilt immer noch ein recht großen Anteil am Gesamtenergiekonsum in der Elektronik zu sparen. Und genau das könnte ein anständiger SoC.

davidzo

2010-09-04, 13:36:56

Die Größen, die Hans da angibt, machen Sinn.

AMD sagt doch schon seit Ewigkeiten, dass Bobcat ungefähr halb so groß (oder eher kleiner) ist wie ein heutiger Mainstream Kern, womit AMD mit guter W'keit seine derzeitigen Stars-Kerne meint.

Ein LLano-Kern ist auf 32nm 9.69 mm² groß, ein 45nm Stars-Core liegt bei ca. 15.3 mm². Wenn man sich bei 40nm ganz dumm in der Mitte trifft, dann blieben so ungefähr 12.5 mm², womit man auf eine pi*Daumen obere Schranke von 6.25 mm² käme.

Es ist absolut klar, dass Ontario eine GPU mit x86-Kernen ist, nicht andersherum ;)

edit: Oh, warum glauben hier einige, dass 80 SP da nicht draufpassen? Cedar liegt bei ca. 59 mm^2 (oder von mir aus in der ersten Hälfte der 60er), Ontario aber tatsächlich eher bei 74mm^2, das konnte man jetzt mit den Fotos ja super ausmessen.

wo hast du die 59mm² her, ich denbke du unterschlägst da mal eben 4mm²

Ich steige mal in deine Rechnung ein.
Llano 9.69mm² @32nm
Stars 15.3mm² @32nm
Stars 12.5mm² @40nm hypotetisch

ein Starscore hat derzeit schon unter 75 mio Transistoren inklusive cache und anteilig SI! 512kb Cache hat beim Athlon64 bekanntlicherweise ca. 20mio Transistoren, für einen Stars core kommen also knapp mehr als 50mio Trannies heraus.
Wenn Bobcat nur 4.6mm² hätte, dann müsste bobcat ja deutlich weniger Transistoren (ca. 20mio) als ein K7 Duron packen (25mio)!
ok, Bobcat ist klein. aber bobcat hat viele register, erweiterungen ala 64bit und SSE3 sind nicht so billig. Selbst Silverthorne/Diamondville hat als in order CPU bereits 53mio (inkl. 512kb cache). Bobcats viel schnelleres ooO-design wird da sicher nicht sparsamer sein.

Im übrigen hat AMD nie gesagt das Bobcat nur halbsoviel Tranistoren fasst. AMD hat gesagt dass Bobcat bei 90% der Leistung weniger als 50% der Diefläche verbraucht!
Das ist ein erheblicher Unterschied, der schon zum großen Teil durch die 27% verkleinerung im 40nm Prozess zustande kommt.
Die Leute die hier von 4.6mm² kleinen CPUcores träumen die dann trotzdem doppelt so schnell sind wie intels doppelt so große cores sollen mal zurück auf den boden kommen. Im übrigen wäre es absolut nichts schlimmes wenn man bei der CPU mehr TRansistoren verbauen würde als Intel, denn man spart durch die effiziente Grafikeinheit sehr viel an Diegröße gegenüber Intel ein.

Bobcat nur 4.6mm² - nie im leben.
80 sp - völlig daneben.

Gast

2010-09-04, 13:39:42

cedar ist bei 63mm² - da passen keine cores und caches mehr rein. schon gar nicht bei 9watt bzw. 18watt.

es gibt definitiv keine 80sp GPU in Ontario!
Derzeit hat der 880GX und der 890GX @40sp selbst Clarkdale noch ganz gut im Griff. Es gibt absolut keine Veranlassung für AMD im untersten aller Marktsegmente mehr zu bieten als eine heutige mainstreamIGP, damit macht man sich nur die sales bei den diskreten chips kaputt.

Es ist ja nicht so als müsste Ontario sich in irgendeiner Weise mit SB messen, das ist ein völlig anderer Markt. Selbst dann kann man mit 40SP noch einigermaßen mit den 6EU Varianten mithalten, vorrausgesetzt Anandtech hatte wirklich die 12EU Variante im Test.

Ich hoffe dir ist auch klar das die SPs des Cedar nur einen verschwinden kleinen Teil des Dice belegen. Ich denke auch das 40SPs reichen, aber damit sparst du ggü. 80SPs allerhöchstens 5-10mm² Die-Fläche. Den Löwenanteil bei Cedar macht der Videoprozessor, die Display-Anschlüsse und der MC (den kann man mit der CPU sharen) aus.

Was ich sagen will: Die GPU macht mit Sicherheit einen Großteil des Dice aus, nicht die zwei CPU-Kerne plus Cache, deshalb könnte das auch bei 40SPs durchaus stimmen mit der Aufteilung.

davidzo

2010-09-04, 13:45:57

Ich hoffe dir ist auch klar das die SPs des Cedar nur einen verschwinden kleinen Teil des Dice belegen. Ich denke auch das 40SPs reichen, aber damit sparst du ggü. 80SPs allerhöchstens 5-10mm² Die-Fläche. Den Löwenanteil bei Cedar macht der Videoprozessor, die Display-Anschlüsse und der MC (den kann man mit der CPU sharen) aus.

Was ich sagen will: Die GPU macht mit Sicherheit einen Großteil des Dice aus, nicht die zwei CPU-Kerne plus Cache, deshalb könnte das auch bei 40SPs durchaus stimmen mit der Aufteilung.

die alus selber nicht.
alleridngs braucht eine integrierte GPU eben auch den Speichercontroller und eben auch den VP, die display Anschlüsse etc. - das alles fällt ja nicht weg und den Speichercontroller hat sowieso noch niemand in die cores mit eingerechnet, dabei gehört er dazu.
Da cedar 63mm² in 40nm hat und Ontario nun auf fast dieselbe Größe im selben Prozess kommt kann es einfach nicht sein, dass man da den vollen Grafikchip integriert. 40sp sind taktisch einfach viel günstiger weil man dann der abstand zu cedar gewahrt ist und man sich trotzdem deutlich von intel absetzen kann.

Gast

2010-09-04, 13:52:58

die alus selber nicht.
alleridngs braucht eine integrierte GPU eben auch den Speichercontroller und eben auch den VP, die display Anschlüsse etc. - das alles fällt ja nicht weg und den Speichercontroller hat sowieso noch niemand in die cores mit eingerechnet, dabei gehört er dazu.
Da cedar 63mm² in 40nm hat und Ontario nun auf fast dieselbe Größe im selben Prozess kommt kann es einfach nicht sein, dass man da den vollen Grafikchip integriert. 40sp sind taktisch einfach viel günstiger weil man dann der abstand zu cedar gewahrt ist und man sich trotzdem deutlich von intel absetzen kann.

Ähm, du hast jetzt nichts anderes getan als das zu wiederholen was ich gerade gesagt habe. Die Quintessenz ist das der Grafikchip einen Großteil des Dice belegen wird.

SavageX

2010-09-04, 14:09:49

wo hast du die 59mm² her, ich denbke du unterschlägst da mal eben 4mm²

Von mir aus. Können wir uns darauf einigen, dass Ontario größer als Cedar ist?

Ich steige mal in deine Rechnung ein.
Llano 9.69mm² @32nm
Stars 15.3mm² @32nm
Stars 12.5mm² @40nm hypotetisch

Ohne L2, wohlgemerkt.

ein Starscore hat derzeit schon unter 75 mio Transistoren inklusive cache und anteilig SI! 512kb Cache hat beim Athlon64 bekanntlicherweise ca. 20mio Transistoren, für einen Stars core kommen also knapp mehr als 50mio Trannies heraus.

Pi mal Daumen, von mir aus.

Wenn Bobcat nur 4.6mm² hätte, dann müsste bobcat ja deutlich weniger Transistoren (ca. 20mio) als ein K7 Duron packen (25mio)!

(Für den K7 gibt es übrigens auch eine 22mio Angabe im Netz)

Ein K7 hat doppelt so viel L1 Cache, hat drei Integer Pipelines mit reichlich Ausführungseinheiten und eine dicke FPU.

Ein K6 hat übrigens alles drum-und-dran um die 8,8 Millionen Schaltbiester. Wenn man es drauf anlegt, dann kriegt man also eine zweifach superskalare x86 OoO-Architektur auch in so ein Budget gepresst. (Und nein, ich sage nicht, dass Bobcat und K6 auch nur einen einziges Gatter gemeinsam haben.)

Bobcat kann aus meiner Sicht ganz natürlich unterhalb des K7 liegen, was Transistoren angeht.

ok, Bobcat ist klein. aber bobcat hat viele register, erweiterungen ala 64bit und SSE3 sind nicht so billig. Selbst Silverthorne/Diamondville hat als in order CPU bereits 53mio (inkl. 512kb cache). Bobcats viel schnelleres ooO-design wird da sicher nicht sparsamer sein.

Befehlssatzerweiterungen sind in der Regel nicht mächtig transistorintensiv, da reichen ggf. Einträge im Decoder-ROM. Beim Athlon 64 kam SSE3 einfach mal bei einem Shrink-Stepping, ohne dass das merkbar auf das Transistorbudget ausgewirkt hat.

Silverthorne ist übrigens ein gaaaanz schlechter Benchmark, was Flächeneffizienz angeht. Wenn man sich anguckt, was AMD bei 45nm mit ~16 mm² anfängt, dann finde ich 9,7 mm² keineswegs beeindruckend.

Im übrigen hat AMD nie gesagt das Bobcat nur halbsoviel Tranistoren fasst. AMD hat gesagt dass Bobcat bei 90% der Leistung weniger als 50% der Diefläche verbraucht!
Das ist ein erheblicher Unterschied, der schon zum großen Teil durch die 27% verkleinerung im 40nm Prozess zustande kommt.

Errr... Du argumentierst doch mit Transitorenzahlen, ich nicht.

Bobcat nur 4.6mm² - nie im leben.
80 sp - völlig daneben.

Wir werden sehen, glücklicherweise ist es ja nicht mehr lang.

davidzo

2010-09-04, 14:36:05

(Für den K7 gibt es übrigens auch eine 22mio Angabe im Netz)

Das ist die richtige Angabe für den Athlon Classic one cache, SSE und sonstiges...
Ein Athlon XP mit 256kb L2 cache hat 37.5mio Transistoren, Barton mit 512kb schon 54mio. Ich habe ganz bewusst auch fairerweise einen Duron Spitfire gewählt, weil der eben eine mit dem Atom durchaus vergleichbare IPC hat und für mich der absolute Benchmark in Sachen IPC/Tranistorbudget ist. Selbst der Pentium3 mit seinen 29mio war nicht wirklich schneller als der Duron und damit weniger effizient.

Ein K7 hat doppelt so viel L1 Cache, hat drei Integer Pipelines mit reichlich Ausführungseinheiten und eine dicke FPU.

Die FPU ist dieselbe wie beim K8 und damit schon reichlich betagt, bei bulldozer wird man da deswegen anrücken. glaube kaum dass die FPU schmaler wird, die breite wird alleine schon benötigt um 128bit SSE befehle akzeptabel auszuführen. OK, zwei statt drei Integer pipes, aber das macht nicht viel diespace aus, wie wir seit bulldozer wissen (2 int < 12%) der L1 ebenfalls nicht. 64bit und VT bringen schon noch einige trannies ins boot.

cBobcat kann aus meiner Sicht ganz natürlich unterhalb des K7 liegen, was Transistoren angeht.[/QUOTE]
unmöglich bei dem featureset. der Spitfire ist mit 25mio die effizienteste Architektur was diespace angeht der letzten zehn Jahre.

Wenn man sich anguckt, was AMD bei 45nm mit ~16 mm² anfängt, dann finde ich 9,7 mm² keineswegs beeindruckend.
16mm ohne cache, ohne SI, ohne HT, etc. Das ist im silverthorne schon alles drin. Auch wenn ich dir von der Tendenz zustimme sollte man nicht Äpfel mit Birnen vergleichen.

Errr... Du argumentierst doch mit Transitorenzahlen, ich nicht.
AMD aber nicht. Hier nochmal zum mitschreiben:
http://images.bit-tech.net/news_images/2010/07/amd-ontario-performance-numbers-leaked/amd_2010_bobcat-614x250.png
da steht eindeutig "less than half of the silicon area"!

Wenn also der Prozess schon 27% kleiner ist (45nm vs 40nm), dann wird der Transistorcount nicht nochmal 60% weniger sein.
Bobcat kommt vll. auf 70% der Transistoren von einem K10 stars Core und das wäre auch eine gute Leistung.

Im Edeffekt ist diese Diskussion aber sowieso unnötig, denn im netbookbereich interessiert das Transistorbudget oder Diefläche sowieso niemanden, die Energieeffizienzg der Architektur ist hier das einzige Kriterium und da wird sich Bobcat eben noch beweisen müssen.

fdk

2010-09-04, 14:47:44

Im Edeffekt ist diese Diskussion aber sowieso unnötig, denn im netbookbereich interessiert das Transistorbudget oder Diefläche sowieso niemanden, die Energieeffizienzg der Architektur ist hier das einzige Kriterium und da wird sich Bobcat eben noch beweisen müssen.

Den Verbraucher interessiert es nicht, das ist richtig - aber für den Hersteller ist es ein wichtiger Faktor der bestimmt wieviel man mit dem Teil verdienen kann. Und es ist ja nicht so das es bei den Netbooks keinen Preisdruck gibt.

S940

2010-09-04, 14:48:17

Im Edeffekt ist diese Diskussion aber sowieso unnötig, denn im netbookbereich interessiert das Transistorbudget oder Diefläche sowieso niemanden, die Energieeffizienzg der Architektur ist hier das einzige Kriterium und da wird sich Bobcat eben noch beweisen müssen.
Zuvor sollten aber Webbrowser und Flashspielereien ruckelfrei laufen ;-)

Hans hat ein Update gebracht:
http://www.chip-architect.com/news/AMD_Ontario_Bobcat_vs_Intel_Pineview_Atom.jpg

Im Forum hatte einer festgestellt, dass man die gelben (Trenn)Linien im Floorplan auch im Die Foto sehen kann.

ciao

Alex

Gast

2010-09-04, 14:51:32

Im Edeffekt ist diese Diskussion aber sowieso unnötig, denn im netbookbereich interessiert das Transistorbudget oder Diefläche sowieso niemanden, die Energieeffizienzg der Architektur ist hier das einzige Kriterium und da wird sich Bobcat eben noch beweisen müssen.

IMO ist der Drops schon gelutscht. 18W und 9W TDP gibt AMD an. Ein Dual-Core Atom benötigt 8,5W TDP. Die Leistung/Featureset bei AMD wird erheblich höher sein. Das Ding wird gut einschlagen.

Undertaker

2010-09-04, 14:59:21

fdk

2010-09-04, 15:02:34

h2/11

SavageX

2010-09-04, 15:17:02

@davidzo:

Ich weiss einfach gar nicht, worum wir uns hier eigentlich prügeln und warum Du mit Transistorenzahlen argumentierst, wild über viele Generationen von Silizium. AMD hat doch schon lange gesagt, dass sie (weniger als) die Hälfte von Siliziumfläche für Bobcat benötigen, bezogen mit guter W'keit auf deren Mainstream-Kern.

Damit käme man grob geschätzt auf eine *obere* Schranke von 6,25 mm² für 40nm, ansonsten stimmt AMDs auf tausend Folien geschriebene Aussage nicht.

Weiterhin wissen wir vom Floorplan (auch offizielle AMD Folie), dass der Cache ca. 71% der Core-Fläche groß ist.

Damit kommt, als obere Abschätzung, eine Gesamtfläche von 6.25 + (6.25 * 0,71) ~= 10.67 mm² raus.

Wenn man hingegen den Kern auf 5 mm² schätzt (also etwas optimistischen Abstand zur Obergrenze hinzuplant), dann kommen insgesamt 8,55 mm² raus, womit bei zwei Kernen für den ganzen Rest 56.9 mm² übrig bleibt. Wenn AMD etwas dichter packt und/oder weniger Redundanz baut und/oder der neue Speichercontroller besonders klein ausgefallen ist, dann sind aus meiner Sicht 80 SP noch gerade möglich.

Wenn man mit 10.67 mm² pro Bobcat fährt (immer noch eine Super-Leistung), dann würde es mit 80 SP in 74 mm² nicht mehr hinhauen - allerdings dind dann 50,66 mm² Rest-Platz für 40 SP nicht etwas sehr großzügig?

Kurzum: Ich halte 80 SP noch für möglich, verstehe aber Skepsis.

Trap

2010-09-04, 17:06:04

Kurzum: Ich halte 80 SP noch für möglich, verstehe aber Skepsis.
40 SP ist nicht schneller als die bisherigen Desktop-IGPs von AMD, das wäre völlig uninteressant und kein Verkaufsargument gegenüber den integrierten Grafiklösungen von Intel (außer Atom, Ontario soll aber über Atom positioniert sein).

Gast

2010-09-04, 17:21:11

@davidzo:

Wenn man hingegen den Kern auf 5 mm² schätzt (also etwas optimistischen Abstand zur Obergrenze hinzuplant), dann kommen insgesamt 8,55 mm² raus, womit bei zwei Kernen für den ganzen Rest 56.9 mm² übrig bleibt. Wenn AMD etwas dichter packt und/oder weniger Redundanz baut und/oder der neue Speichercontroller besonders klein ausgefallen ist, dann sind aus meiner Sicht 80 SP noch gerade möglich.

Wenn man mit 10.67 mm² pro Bobcat fährt (immer noch eine Super-Leistung), dann würde es mit 80 SP in 74 mm² nicht mehr hinhauen - allerdings dind dann 50,66 mm² Rest-Platz für 40 SP nicht etwas sehr großzügig?

Kurzum: Ich halte 80 SP noch für möglich, verstehe aber Skepsis.

Warum sollten 80SP/8TMUs nicht möglich sein?

Ich hatte schon auf der letzten Seite ein kleine Rechnung aufgemacht, das 80SP/4TMUs nur max. 12,4 mm² groß sind. Mit zusätzlichen 4 TMUs und ein wenig anderer Organisation dann vielleicht 16 mm²

Übrigens, was ihr hier alle anscheinend unterschlagt ist, das das Package für den Ontario ca. 74-77 mm² groß ist. Davon gehen aber nocheinmal ca. 0,5mm pro Seite weg. Ich bin mir bloß nicht sicher ob das für alle 4 Seiten gilt oder nochmals geteilt werden muss (also 0,25mm pro Seite).
Je nachdem hat der Ontario dann nur 61 - 65mm² (abhängig auch davon welche Messung des Package nun wirklich stimmt).

Gast

2010-09-04, 17:29:21

Die Ontario-Cores sind ja winzig, wenn Hans de Vries recht hat.

Selbst ein Quad-Core mit jeweils 1MB L2-Cache wäre winzig.

3x2 x 4= 24mm² für 4 x 1MB L2-Cache
4,6 x 4 = 18,4 mm² für die 4 Cores

=>

macht zusätzlich zu den ~65 mm² des Ontario dann +24+18,4 - 15,2 =

92,5 mm² für einen Quadcore Ontario !!

S940

2010-09-04, 17:37:28

fdk

2010-09-04, 17:54:04

Imo wird man eh abwarten müssen ob cedar trail wirklich nur wieder ~10% mehr cpu-leistung bei stark gesunkener Leistungsaufnahme bringt oder ob Intel dort schon auf die neue Konkurrenz im Markt reagiert (wenn sie denn überhaupt auf Bobcat eingehen und sich nicht einfach performancemäßig Ober- und unterhalb aufstellen.)
Zu einem Nachfolger der Bonell-cores im Atom ist afaik noch garnichts bekannt.

Gast

2010-09-04, 18:16:10

übrigens:

http://www.xtremesystems.org/forums/attachment.php?attachmentid=107360&stc=1&d=1283591065

64mm² in 55nm wären (bei idealem Scaling) 34 mm² in 40nm

http://www.xtremesystems.org/forums/showthread.php?t=258499&page=3

Undertaker

2010-09-04, 18:43:56

Naja das ist kein Argument, denn von Ontario kommt irgendwann später ebenfalls eine kleinere Version, vermutlich in 28nm.

Allerdings ist die 28nm Version nicht auf der Roadmap bis 2011 - aber gut, mittelfristig wird der Shrink sicherlich folgen. Die besten Karten hat Ontario aber sicher zunächst einmal im H1 2011, wo man mit der neueren Architektur und dem kleineren Prozess aufwarten kann.

Gast

2010-09-04, 18:54:34

Allerdings ist die 28nm Version nicht auf der Roadmap bis 2011 - aber gut, mittelfristig wird der Shrink sicherlich folgen. Die besten Karten hat Ontario aber sicher zunächst einmal im H1 2011, wo man mit der neueren Architektur und dem kleineren Prozess aufwarten kann.

Evergreen war auch erst 2010 auf der Roadmap obwohl die Chips schon ab September 2009 kamen. Southern Islands ist auch erst 2011 auf der Roadmap obwohl die ersten Chips schon in 2010 kommen.

Was ich sagen will ist klar. Durchaus möglich das ein Shrink noch zum Weihnachsgeschäft 2011 kommt, auch wenn der Nachfolger erst 2012 auf der Roadmap steht, das plant AMD meistens so. Im übrigen hat man angekündigt die Fusion-Chips jährlich zu refreshen.

Gast

2010-09-04, 19:04:50

Allerdings ist die 28nm Version nicht auf der Roadmap bis 2011 - aber gut, mittelfristig wird der Shrink sicherlich folgen. Die besten Karten hat Ontario aber sicher zunächst einmal im H1 2011, wo man mit der neueren Architektur und dem kleineren Prozess aufwarten kann.

28nm HPP soll angeblich Ende 2011 in Produktion gehen. Erste Produkte kommen dann wahrscheinlich Mitte Q2/2012 auf den Markt.

Der Beginn der
"Risikoproduktion" der 28 nm High Performance Plus (HPP) Technologie ist für
das 4. Quartal 2011 geplant

Link:
http://www.globalfoundries.com/technology/28nm.aspx

http://www.engadget.com/2010/09/02/globalfoundries-takes-arm-cortex-a9-into-28nm-land-looks-forwar/

http://www.themenportal.de/wirtschaft/business-wire-auf-der-gtc-2010-bereitet-globalfoundries-den-weg-fuer-nachhaltige-technologiefuehrerschaft-bei-28-nm-und-hoeher-73788

Gast

2010-09-04, 19:16:42

28nm HPP soll angeblich Ende 2011 in Produktion gehen. Erste Produkte kommen dann wahrscheinlich Mitte Q2/2012 auf den Markt.

Link:
http://www.globalfoundries.com/technology/28nm.aspx

http://www.engadget.com/2010/09/02/globalfoundries-takes-arm-cortex-a9-into-28nm-land-looks-forwar/

http://www.themenportal.de/wirtschaft/business-wire-auf-der-gtc-2010-bereitet-globalfoundries-den-weg-fuer-nachhaltige-technologiefuehrerschaft-bei-28-nm-und-hoeher-73788

Der HPP-Prozess ist ein ganz neuer 28nm Node der merklich später kommt. Globalfoundies hat angekündigt das erste LP und HP 28nm Chips noch im ersten Halbjahr 2011 den Markt erreichen könnten.

davidzo

2010-09-04, 21:03:24

Wann genau sollte denn die 32nm Atom-Generation erscheinen? Gegen die aktuellen 45nm Modelle - bzgl. des CPU-Teils seit nunmehr über 2 Jahren angestaubt - ist Ontario natürlich erheblich im Vorteil, der längerfristige Gegner wird Pineview aber vermutlich nicht sein.
Ne, ontario wird ende dieses jahr samplen und im ersten halbjahr 2011 in produkten erscheinen. h1/2011 ist ebenfalls intesl aussage zu cedarview. demnach ist intels 32nm atom cedarview/cedartrail der hauptgegner für Ontario.

@davidzo:
Ich weiss einfach gar nicht, worum wir uns hier eigentlich prügeln und warum Du mit Transistorenzahlen argumentierst, wild über viele Generationen von Silizium. AMD hat doch schon lange gesagt, dass sie (weniger als) die Hälfte von Siliziumfläche für Bobcat benötigen, bezogen mit guter W'keit auf deren Mainstream-Kern.
Damit käme man grob geschätzt auf eine *obere* Schranke von 6,25 mm² für 40nm, ansonsten stimmt AMDs auf tausend Folien geschriebene Aussage nicht.

Nein, du rechnest mit völlig falschen größen. erstmal wirfst du ständig cores ohne cache mit welchen mit cache durcheinander. zweitens ist dein hypotetischer 12.5mm core schon ein in 40nm interpolierter stars core ohne cache. AMDs marketing wird sicher den 40nm prozessvorteil ausschlachten, sonst hätten sie eher 30% geschrieben statt 50% diesize. prozessverbesserungen sind immer eine gute quelle für marketingbehauptungen und ich bin sicher dass sie diese chance nicht ausgelassen haben.
Meiner meinung sollten wir uns beim vergleich, wenn wir auch keinen echten bobcat haben nicht mit hypothetischen anderen 40nm cores befassen, sondern mit realen. das heißt wir sollten uns mit propus in 45nm befassen. und genau das vermeidest du ständig. Propus hat 169mm² bei 300mio transistoren in 45nm - u do the math!

Weiterhin wissen wir vom Floorplan (auch offizielle AMD Folie), dass der Cache ca. 71% der Core-Fläche groß ist.
ich bin sicher das kannst du mir näher erläutern. bisher sehe ich nichtmal 50% cachefläche...

Damit kommt, als obere Abschätzung, eine Gesamtfläche von 6.25 + (6.25 * 0,71) ~= 10.67 mm² raus.
ja, ich finde die mm² problematisch und bevorzuge dass wir uns um mio transistoren unterhalten. 11mm² finde ich absolut diskutabel für einen core ohne cache, aber solange wir nicht wissen über was wir reden, ob mit cache oder ohne, in welchem prozess man sich befindet, sind mm2 Angaben wirklich problematisch. Transistoren sind da ähnlich schwierig aber eine Abstraktionsebene früher, also realistischer, bitter versuche die Diskussion deshalb auf Transistorenebene weiter zu führen.

Wenn AMD etwas dichter packt und/oder weniger Redundanz baut und/oder der neue Speichercontroller besonders klein ausgefallen ist, dann sind aus meiner Sicht 80 SP noch gerade möglich.
der speichercontroller von AMDs aktueller generation ist perfekt, ich glaube kaum das hier etwas geänder wird. du solltest dir eher den 780G angucken, der hat nämlich dank HT und Chipsatzfunktionen gut 20 millionen mehr transistoren als RV610 (181mio vs 205mio). Das wird bei bobcat nicht anders der Fall sein.

40 SP ist nicht schneller als die bisherigen Desktop-IGPs von AMD, das wäre völlig uninteressant und kein Verkaufsargument gegenüber den integrierten Grafiklösungen von Intel (außer Atom, Ontario soll aber über Atom positioniert sein).#
was denn sonst?
arrandale mit minimal 18Watt und einer diefläche von insgesamt fast 300mm² wird wohl kaum ein konkurrent für ontario sein. und selbst die arrandale grafik könnte man mit einem 40sp ontario noch in schach halten... weniger dessen cpuleistung...

Allerdings ist die 28nm Version nicht auf der Roadmap bis 2011 - aber gut, mittelfristig wird der Shrink sicherlich folgen. Die besten Karten hat Ontario aber sicher zunächst einmal im H1 2011, wo man mit der neueren Architektur und dem kleineren Prozess aufwarten kann.
Ontario wird in H1 2011 in systemen verfügbar sein und trifft damit ein zeitfenster was gut auf intels cedarview passt. das rennen ist also 40nm vs 32nm zugunsten von intel. allerdings denke ich nach den bisherigen daten zu ontario dass sich AMD trotzdem keine sorgen machen muss.

Imo wird man eh abwarten müssen ob cedar trail wirklich nur wieder ~10% mehr cpu-leistung bei stark gesunkener Leistungsaufnahme bringt oder ob Intel dort schon auf die neue Konkurrenz im Markt reagiert (wenn sie denn überhaupt auf Bobcat eingehen und sich nicht einfach performancemäßig Ober- und unterhalb aufstellen.)
Zu einem Nachfolger der Bonell-cores im Atom ist afaik noch garnichts bekannt.
cedartrail wird die bonell-cores verändern und ca. 5-10% mehrleistung bringen, das ist die aussage von intel. Was die Grafik angeht, so haben wir die Aussage das es einen HD decoder geben wird der stereoskopie unterstützt und man möchte die 3D-Leistung mindestens verdoppeln. Nach der bisherigen intel Politik, wird man eine vorhandene ältere Technik in das lowcost segment verschieben, höchst wahrscheinlich GMA X4500HD.
Weiter möchte man den Plattformverbrauch senken. Unter 10Watt sind im Gespräch und damit unterbietet man die kleinste AMD SKU wieder knapp.
http://www.netbooknews.de/11275/intel-atom-cedar-trail-2011-mit-5-10-prozent-mehr-leistung/
http://www.notebookcheck.com/Newseintrag.54+M5256f42aae5.0.html

Nach allem was intel da in aussicht stellt wird es in allen belangen mit Ausnahme des Energieverbrauchs trotzdem nicht gegen Ontario reichen. 40sp sind immer noch schneller als GMA X4500HD und 10% mehr Leistung bei den CPUs wird die gigantische Lücke zu Ontario kaum schrumpfen können.

S940

2010-09-04, 21:15:26

h1/2011 ist ebenfalls intesl aussage zu cedarview. demnach ist intels 32nm atom cedarview/cedartrail der hauptgegner für Ontario..
Quelle ?
Ich finde nur Meldungen die laut Gerüchten H2/11 vermelden.

Gast

2010-09-04, 21:22:26

ist doch egal wann Intels 32nm ATOM Chip kommt, der kann nur mehr strom sparen, Ontario ist bis 2012 schneller als jeder Atom shrink

SavageX

2010-09-04, 21:53:57

Nein, du rechnest mit völlig falschen größen. erstmal wirfst du ständig cores ohne cache mit welchen mit cache durcheinander.

Wo tue ich das? Wenn ich von Kern rede, meine ich immer *ohne* L2.

(Kann sein, dass ich beim Atom danebenlag und da den L2 mit drin hatte, aber mit dessen Größe rechne ich nicht weiter).

Nochmal:

Stars 45nm, ohne L2 Cache: ~16 mm²
LLano 32nm, ohne L2 Cache: ~9,7 mm²
Gedachter Stars 40nm, ohne Cache: liegt dazwischen.

Wo zum Henker mische ich da denn noch einen L2 mit rein?

Meiner meinung sollten wir uns beim vergleich, wenn wir auch keinen echten bobcat haben nicht mit hypothetischen anderen 40nm cores befassen, sondern mit realen. das heißt wir sollten uns mit propus in 45nm befassen. und genau das vermeidest du ständig. Propus hat 169mm² bei 300mio transistoren in 45nm - u do the math!

Versuchen wir nicht, die Größe des Bobcat *Kerns* (einmal mit und einmal ohne L2) zu klären? Die 169 mm² des Propus enthalten Haufenweise Uncore und externe Schnittstellen, die allesamt große Flächen bei geringer Transistorzahl beanspruchen. Damit kannst Du nicht die Dichte des Kerns abschätzen.

ich bin sicher das kannst du mir näher erläutern. bisher sehe ich nichtmal 50% cachefläche...

Guck Dir den Floorplan an. Die Länge des L2 ist ungefähr "(Länge des Kerns) * 0.72". Allerdings ist der L2 ein wenig schmaler. Ich schätze von der Fläche ist der Kern Faktor ~1.5 größer als der L2.

Übrigens, nochmal eine andere Rechnung, die sich nicht auf "Bocat ist nur halb so groß wie ein Mainstream-Kern" stützt:

512 KB Cache sind auf 45nm nur 4,4 mm² groß beim Atom - und Intel hat hier etwas größere Zellen als sonst verwendet, um Energie zu sparen.

http://www.anandtech.com/show/2493/12
While Silverthorne is built entirely on Intel's high-k/metal gate 45nm process, there is one major difference: SRAM cell size. Intel uses a 0.382 um^2 SRAM cell in Silverthorne compared to 0.346 um^2 in Core 2.

Eine TSMC "HD SRAM" Zelle liegt bei 0.242μm² (nachzulesen in http://www.tsmc.com/download/english/a05_literature/02_40_and_45_Nanometer_Process_Technology.pdf), womit die Silverthorne-Zelle also um den Faktor 1,58 und die Core 2 Zelle um den Faktor 1,43 größer ist als das, was TSMC packen kann.

Damit landet man mit guter Sicherheit so oder so bei ~3 mm² für 512 KB Bobcat L2.

Laut Floorplan ist der eigentliche Bobcat-Kern (mit Logik und L2) so um den Faktor ~1.5 größer als der dazugehörige Cache (der Cache scheint etwas schmaler zu sein als der Kern), womit man tatsächlich auf 4.5 - 5 mm² kommt.

Das wird ungefähr das sein, was Hans da gerechnet hat - und das dürfte auch ungefähr hinkommen.

Gast

2010-09-04, 22:23:40

Der HPP-Prozess ist ein ganz neuer 28nm Node der merklich später kommt. Globalfoundies hat angekündigt das erste LP und HP 28nm Chips noch im ersten Halbjahr 2011 den Markt erreichen könnten.

Du hast nicht verstanden worauf ich raus wollte.

28nm HP und LP sind für die jetzt vorgesehen Produkte (u.a. AMD GPUs) gut genug. Der 28-HPP Prozess ist IMHO für den Ontario in 28nm vorgesehen und darauf zugeschnitten.

nochmal Businesswire:

GLOBALFOUNDRIES stellte heute eine neue Technologie vor, die sich auf den
wachsenden Markt von intelligenten mobilen Geräten und Hochleistungsprozessoren
mit einem Prozessorleistungsbedarf von mehr als 2 GHz richtet. Der Beginn der
�Risikoproduktion� der 28 nm High Performance Plus (HPP) Technologie ist für
das 4. Quartal 2011 geplant. Die neue Technologie bietet eine
Leistungssteigerung von sage und schreibe 10 Prozent gegenüber der aktuellen 28
nm High Performance (HP) Technologie des Unternehmens. Des Weiteren werden
optional Transistoren mit sehr niedrigem Leckstrom und SRAMs angeboten, wodurch
das Einsatzgebiet von Hochleistungsanwendungen auf Anwendungen mit niedrigem
Stromverbrauch erweitert wird. Außerdem wird ein umfassendes RF CMOS
Produktsegment angeboten, wodurch diese Technologie ideal für die neuesten
leistungsstarken System-on-Chip (SoC) Anwendungen mit einem breiten Absatzmarkt
von Niedrigstromanwendungen bis hin zu Hochleistungsgeräten geeignet ist.

S940

2010-09-04, 22:48:41

http://www.heise.de/newsticker/meldung/AMD-zeigt-Fusion-CPU-mit-integrierter-DirectX-11-Grafik-im-Betrieb-1072583.html

Undertaker

2010-09-05, 00:53:52

"Der Grafikkern in den APUs muss sich den Datenpfad zum Arbeitsspeicher mit den CPU-Kernen teilen, weshalb 3D-Spielen relativ schnell durch die geringe Speicherbandbreite limitiert sind. AMD behauptet, diesen Engpass durch einen verbesserten Speicher-Controller gemildert zu haben. Details dazu will man in etwa einem Monat veröffentlichen."

Den Absatz finde ich besonders interessant, denn die Speicherbandbreite - egal ob wie jetzt über DDR3-1600 oder 1866 reden - ist für einen 400-480 SPs Chip ersteinmal äußerst gering; zumindest was Spiele betrifft, GPGPU-Anwendungen sind da wohl weniger anspruchsvoll.
Fragt sich, was sich hinter dem verbesserten Speichercontroller jetzt genau verbirgt... Nett wäre auch ein verbreiterter Sideport mit 64Bit Anbindung.

Gast

2010-09-05, 09:43:03

Gast

2010-09-05, 09:44:42

Noch einige Neuigkeiten:
http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?id=1283637747

„Ontario“ vs. Quad-Core-Notebookprozessor „Champlain“:

http://img641.imageshack.us/img641/2860/9gv36irx.png (http://img641.imageshack.us/my.php?image=9gv36irx.png)

Wenn man sich das Bild so ansieht scheint das gesamte Package keine 2cm zu messen, schon sehr beeindruckend für die Leistungsfähigkeit plus GPU da drinnen.

Gipsel

2010-09-05, 10:07:48

Den Absatz finde ich besonders interessant, denn die Speicherbandbreite - egal ob wie jetzt über DDR3-1600 oder 1866 reden - ist für einen 400-480 SPs Chip ersteinmal äußerst gering;
Da es hier um Ontario/Zacate geht, reden wir von wahrscheinlich 80 SPs mit single channel (64Bit) DDR3, also ganz grob etwa das, was auch auf Cedar-Karten verbaut wird.
Für Llano reichen m.M. auch 240 hoch getaktete SPs (mit 32nm HKMG SOI sollten locker >1GHz drin sein) an einem 128Bit Interface. Das entspricht ewa einem Redwood auf einer HD5550, mit einem überarbeitetem Mem-Controller kann man den wahrscheinlich locker schlagen.
zumindest was Spiele betrifft, GPGPU-Anwendungen sind da wohl weniger anspruchsvoll.Es gibt auch eine Menge speicherlimitiertes GPGPU-Zeugs. Die Variabilität ist im Vergleich zu Spielen einfach höher.
Fragt sich, was sich hinter dem verbesserten Speichercontroller jetzt genau verbirgt... Nett wäre auch ein verbreiterter Sideport mit 64Bit Anbindung.Interessant schon, aber ich würde auf ein paar vergrößerte Puffer/coalescing Caches o.Ä. und verbesserte Prefetcher tippen. Ein Sideport kostet zu viel Platz (dann würde man eher dual channel verbauen, das kann die CPU mitnutzen, so das alle was davon haben) und ist auch schwierig so zu managen, daß er zu wirklicher Mehrperformance führt.

HOT

2010-09-05, 12:10:34

Allerdings ist die 28nm Version nicht auf der Roadmap bis 2011 - aber gut, mittelfristig wird der Shrink sicherlich folgen. Die besten Karten hat Ontario aber sicher zunächst einmal im H1 2011, wo man mit der neueren Architektur und dem kleineren Prozess aufwarten kann.

Der Halfnodeprozess bietet zwar ein kleinere Die, jedoch sind die thermischen und elektischen Eigenschaften kaum besser als beim 45nm Prozess. Ich würde sagen, dass Intels 45nm Prozess eher leistungsfähiger ist als TSMCs 40nm. Von besserer Fertigung zu sprechen ist also gewagt. Wie gut GFs 28nm sind, wird sich zeigen. Das wird aber eh nix vor Ende 2011.

Undertaker

2010-09-05, 12:16:54

aylano

2010-09-05, 13:40:24

. Wie gut GFs 28nm sind, wird sich zeigen. Das wird aber eh nix vor Ende 2011.
Wobei das geringere Problem vielleicht die 28nm-Fertigung ist.

Problematisch würde ich die South-bridge sehen, welche in 40nm-Dual-Core-Onatrio für Netbooks noch nicht ganz so stört.

Wenn man dann mit "Ontario-28nm" auch in den Tablet-Markt einsteigen will und gegen sehr energie-Effizienzte ARM-Chips konkurrieren will, dann muss die South-Bridge bzw. SoC? sehr sparsam werden.

Und da man Bobcat ja auch für Multimedia-Geräte gedacht war, könnte es auch eine Extra-Version für diese Richtung geben.

Dann könnte sowas rauskommen, was Intel mit Atom jetzt auch macht. Eine Atom-Version für Netbooks, eine für Tablets(/Smartphones) und eine für Multi-Media.

Diese Basis für alle drei richtugnen zu entwickeln dauert auch seine Zeit.
Wahrscheinlich ist HPP (HP + SLP-Vorteile) dann extra für Bobcat & Equivalente gedacht, weil die Basis-Entwicklung sowieso seine Zeit braucht und Fertigungstechnisch auch etwas optimieren könnte.

Wenn Ontario jetzt wirklich Performane-Technisch besser sowie im Stromverbrauch zumindestens gleichgut sein sollte als Atom, dann bräuchten sie sich mit 28nm auch nicht so wirklich beeilen, da jede Performance-Steigerung (bessere GPU-Performance, HD-Decodinge, DX11-Grafiks, ... usw usw) ja auch mehr Stromverbrauch bedeutet und so die Einsparungen von 32nm mildert bzw. Kompensiert kann.

Ailuros

2010-09-05, 15:46:57

Ist ohne identische Produkte natürlich schwer zu vergleichen, aber vorstellbar wäre es...

@Gipsel:

Heise bezog sich auf Llano, war evntl. etwas uneindeutig das ich das nicht nocheinmal erwähnt habe. Bei Ontario muss man sicherlich keine vergleichbaren Bandbreitensorgen haben, die Rechenleistung ist im Vergleich zu Llano einfach deutlich geringer.

Wo immer Bandbreiten-resourcen zwischen Prozessoren geteilt werden ist es ein Kopfschmerz und dabei ist die Anzahl bzw. Groesse der Prozessoren wurscht. Jeglicher SoC hat heute zumindest 8 verschiedene Prozessoren (ergo nicht nur CPU, GPU) und diese teilen sich alle die gleiche Bandbreite.

Wenn Ontario jetzt wirklich Performane-Technisch besser sowie im Stromverbrauch zumindestens gleichgut sein sollte als Atom, dann bräuchten sie sich mit 28nm auch nicht so wirklich beeilen, da jede Performance-Steigerung (bessere GPU-Performance, HD-Decodinge, DX11-Grafiks, ... usw usw) ja auch mehr Stromverbrauch bedeutet und so die Einsparungen von 32nm mildert bzw. Kompensiert kann.

Atom besteht Gott sei Dank nicht nur aus einer CPU. Weder GPU Leistung (und auch Bildqualitaet), encoding, decoding oder weiss der Geier was noch mach ich mir keine besondere Sorgen auf Intel's naechster Generation Medfield da die Mehrzahl nicht von Intel entwickelt wird. Linux Treiber koennten mir hoechtenfalls Sorgen machen von Intel, aber wenn ich so hinter die Kulissen ihn Richtung AMD/Fusion schiele, gehen meine persoenlichen hohen Hoffnungen fuer Fusion generell schnell den Bach runter.

Dann könnte sowas rauskommen, was Intel mit Atom jetzt auch macht. Eine Atom-Version für Netbooks, eine für Tablets(/Smartphones) und eine für Multi-Media.

Wo sind denn die smartphones die mit GMA500 ausgestattet sind? Vom heutigen GMA600/Moorestown kann man zwar noch keine Schlussfolgerungen ziehen, aber es sieht auch nicht nach smart-phone "success" aus.

Uebrigens und obwohl es in einen anderen Thread gehoert: PowerVR Grafik IP/SGX unterstuetzt auch power gating nach dem neuen vertraulichen 540 floorplan den ich gesehen habe. Anders die GPU/encoding/decoding IP Bloecke verbrauchen auf den AtomZ Dingern alles andere als viel Strom. Intel muss lediglich ihre SoCs generell fuer diesen Markt kleiner und stromsparender gestalten als bis jetzt und ja hier koennten sie tatsaechlich mit ihrem eigenen 32nm sich einen Vorteil eingearbeitet haben.

Gipsel

2010-09-05, 17:14:36

Heise bezog sich auf LlanoHeise hat einen Satz zu Llano geschrieben. Danach haben sie nur von den Bandbreitenproblemen bei APUs im Allgemeinen geredet ;)
Btw: Du rechnest mit nur 240 SPs für letztgenannten? Hat AMD nicht mal von "Teraflop-class GPU" gesprochen? Das wären dann doch mindestens 480 SPs bei ~1050MHz Takt oder 400 SPs bei 1250MHz...
Ich schrieb, daß meiner Meinung nach 240 SPs reichen würden. Mit den ~400 SPs, die bisher nach der näherungsweise bekannten Transistorzahl wie die wahrscheinliche Lösung aussieht, will AMD wohl auf Nummer sicher gehen, was die (arithmetische) Leistungsfähigkeit angeht. Vielleicht ist es auch einfach vom Stromverbrauch günstiger, lieber eine etwas dichter gepackte und niedriger taktende low-power Variante als weniger aber dafür hochgezüchtete SPs zu verbauen. Übrigens, ein halber Teraflop ist auch "Teraflop class" ;). Ich glaube den Begriff benutzte ATI erstmals mit der HD3870.

w0mbat

2010-09-05, 17:30:43

laut HWI (http://www.hardware-infos.com/news.php?news=3681) ist das zacate die kleiner als ein rv810 und der hat nur 63mm²:
http://www.hardware-infos.com/img/startseite/img_3957.jpg

Gestrandet

2010-09-05, 17:32:07

Hmmm ... dann war ich, ohne es zu ahnen, vor Jahrzehnten schon ins Exaflop Computing eingestiegen (6502, 0.0000000000000005 Exa-FLOPS) *g*
Die Gewissheit gibt irgendwie ein gutes Gefühl :D

edit: Wow, Ontario schrumpft und schrumpft, von 77 auf 63mm² ... das erinnert ja an Die unglaubliche Geschichte des Mr. C. (http://de.wikipedia.org/wiki/Die_unglaubliche_Geschichte_des_Mister_C.) Zu dumm, dass die Spider Plattform auch ein AMD Gewächs war ;)

Gipsel

2010-09-05, 18:33:18

Hmmm ... dann war ich, ohne es zu ahnen, vor Jahrzehnten schon ins Exaflop Computing eingestiegen (6502, 0.0000000000000005 Exa-FLOPS) *g*
Nee, die richtige Größenordnung sollte es schon sein, d.h. bis auf einen Faktor von etwa 3 muß man da rankommen. Aber dann paßt es ;)

Eine HD3870 kam auf eine Peakleistung von etwa 0,5 TFlops. Damit ist TFlop-Class nach obigem Kriterium gerechtfertigt. Im Prinzip ist das ja eine logarithmische Skale, ein TFlop sind 10^12 Flop/s. Eine HD3870 erreichte nun 10^11,7 Flop/s. Also die gleiche Größenordnung (11,7 ist gerundet 12).
Bei 0,0000000000000005 Exa-FLOPs, fehlen mindestens 15 Größenordnungen. Exa wären 10^18, Dein Beispiel aber nur 5*10^2 = 10^2.7

davidzo

2010-09-05, 19:02:09

Wo tue ich das? Wenn ich von Kern rede, meine ich immer *ohne* L2.

(Kann sein, dass ich beim Atom danebenlag und da den L2 mit drin hatte, aber mit dessen Größe rechne ich nicht weiter).

Nochmal:

Stars 45nm, ohne L2 Cache: ~16 mm²
LLano 32nm, ohne L2 Cache: ~9,7 mm²
Gedachter Stars 40nm, ohne Cache: liegt dazwischen.

Wo zum Henker mische ich da denn noch einen L2 mit rein?

aber genau das ist dein problem. du redest von bobcat, was eine architektur ist und kein chip, im zusammenhang mit quadratmilimetern. eine architekrut hat eben nichts mit quadratmilimetern zutun. entweder du redest von bobcat cores und transistoren oder du redest von ontario und quadratmilimetern. da es letzendlich immer um reales silizium geht ziehe ich die diskussion vor von ontario zu reden.
Nur mal so als anstoß:
propus hat 169mm², vier stars cores a 16mm² ergeben aber nur 64mm². solange man das SI, den cache, HT etc. nicht mitrechnet kommt man immer auf völlig unrealistische zahlen.

In deinen Berechnungen tust du aber so als wenn Ontario nur aus zweimal bobcat und einer 80sp GPU bestünden, das ist unrealistisch. Gerade bei einer so kleinen integrierten CPU ist der uncorebreich anteilig eher größer als kleiner zumal Ontario vermutlich auch direkt die PCIelinks etc. beherbergt.
Wenn man die richtigen zahlen beim rechnen verwendet und nicht irgendwelche fantasiebeträge, dann erkennt jeder blinde dass Ontario nicht mehr als 40sp haben kann.

Übrigens, nochmal eine andere Rechnung, die sich nicht auf "Bocat ist nur halb so groß wie ein Mainstream-Kern" stützt:

512 KB Cache sind auf 45nm nur 4,4 mm² groß beim Atom - und Intel hat hier etwas größere Zellen als sonst verwendet, um Energie zu sparen.
Mir ist es im prinzip egal auf was du die berechnungen stützt bzw. wie groß der Kern an sich ist. ohne L1 und L2 fuktioniert die architektur nicht und ohne HTlink, PCIe unde SI ebenfalls nicht. Daher ist mir die Diskussion, was nun zum Kern gehört und wie groß ist völlig schnurz. meinetwegen kann man bei intel noch HT herausrechnen, da es ja prinzipiell nicht zum Rechenkern selber gehört. und den tracecache kannste auch mal rauspflücken, sowas gildet alles nicht... ;D
- echt. es geht um realistische DIEeinschätzungen und da ist es mir schnurz ob eine core architektur in 40nm 10 oder 4 mm² misst.

Ich bleibe dabei dass 80sp nicht im budget sind. cedar ist schon verdammt klein und wenn man ihn kleiner hätte machen können, so hätte man das dann auch schon gemacht. ich bin sicher cedar braucht eher weniger pads als ontario, daher ist die behauptung cedar wäre nur wegen der pads so groß geraten auf sehr wackeligen füßen.
Propus hat einen 128bit speichercontroller, Ontario nur 64bit, propus hat vier cors, ontario nur zwei, beide haben gleichviel l2 pro core, propus hat nen htlink, ontario nur PCIe aber dafür einen highspeedbus zur internen GPU. - ich denke nicht dass propus(300mio) anteilig einen soviel größeren uncorebereich hat. - ich denke nicht dass cedar und rv610(181mio) nicht gute ausgangspunkte für die gpudiskussion sind.
wenn man davon ausgeht dass ontarios CPUteil 1/2 propus (169mm²) mit 25% Flächenbedarf (42.25mm²) wäre, dann kommt man auf 23% weniger Transistoren (+ 27% geringerer flächenbedarf durch 40nm).
Ontarios CPUteil muss also unter 42.25mm² liegen damit AMDs Aussage zutrifft: "half die space of todays mainstream CPU cores." Cedar passt da beim besten willen nicht mehr rein...

Heise bezog sich auf Llano, war evntl. etwas uneindeutig das ich das nicht nocheinmal erwähnt habe. Bei Ontario muss man sicherlich keine vergleichbaren Bandbreitensorgen haben, die Rechenleistung ist im Vergleich zu Llano einfach deutlich geringer.
Es geht. Vergess nicht dass Ontario nur ein singlechannel interface hat. also 64bit für zwei cores(ontario) vs 128bit für vier cores(Llano) - wenn man sich überlegungen macht bandbreitenschonende features zu implementieren so sind diese bei Ontario zumindest was die x86 cores angeht fast ebenso angebracht wie bei Llano.

Wobei das geringere Problem vielleicht die 28nm-Fertigung ist.

Problematisch würde ich die South-bridge sehen, welche in 40nm-Dual-Core-Onatrio für Netbooks noch nicht ganz so stört.

Mich stört sie jetzt schon. 6 Watt - das ist einfach zuviel, was macht AMD da? Ich hoffe dass es da noch eine mobile variante mit nicht mehr als 3 Watt von gibt, sonst zerstört das doch die schöne Energiebilanz beim 9Watt Ontario...

Wenn Ontario jetzt wirklich Performane-Technisch besser sowie im Stromverbrauch zumindestens gleichgut sein sollte als Atom, dann bräuchten sie sich mit 28nm auch nicht so wirklich beeilen, da jede Performance-Steigerung (bessere GPU-Performance, HD-Decodinge, DX11-Grafiks, ... usw usw) ja auch mehr Stromverbrauch bedeutet und so die Einsparungen von 32nm mildert bzw. Kompensiert kann.
Du beziehst dich bei 32nm performancesteigerungen auf cedarview?
Das sehe ich zwar grundsätzlich ähnlich, intel wird den großteil der 32nm Vorteile in mehrperformance investieren müssen um mit Ontario mithalten zu können, aber was die Grafikleistung angeht, bin ich sicher, dass intel es schafft trotz verdoppelter grafikpower im idle soviel abzuschalten dass man letzendlich weniger verbraucht. unter last wird die cedarview grafik aber mehr verbrauchen als die pineview. von nichts kommt nichts, mehr grafikleistung ohne mehr stromverbrauch geht nur über effizienzsteigerungen und da war intel bisher nicht so glohreich.

Ne, Ontario 28nm wird wohl auch gegen Cedarview nicht nötig sein, das weiß auch AMD, sonst wären entsprechende produkte schon deutlicher auf den roadmaps zu sehen...

Ailuros

2010-09-05, 20:15:55

Was das GPU Geschwaetz bei zukuenftigen SoCs betrifft waere es realitaetsnaher wenn Ihr eher auf TMUs einschaetzt und nicht auf SPs. Mehr als 8 TMUs (und selbst das ist schon verdammt optimistisch) sehe ich in solchen Dingern nicht. HEUTE haben wir bestenfalls 2TMUs pro SoC GPU und dazu bestenfalls auf SM3.0/DX9 Nivaeu fuer tablets/netbooks. Bleibt erstmal die logische Frage wieviel Chipkomplexitaet in einem Markt von Generation zu Generation wirklich steigen kann ohne den Stromverbrauch durch die Decke zu jagen und dieses ist der primaere Faktor im embedded Markt.

Noch dazu dass Ontario DX11 kompliant sein soll, was erstmal heisst dass jegliche Einheit und ja selbst die TMUs um ein ziemliches fettes Prozentual groesser sein werden.

PowerVR SGX543 liegt bei SM3.0 ohne das DX11 Zeug dass dort DX9.0 braucht und nimmt unter 65nm 8mm2 ein. SGX545 hingegen mit gleichen aber schaecheren ALUs aber gleicher Anzahl an TMUs mit DX10.1 Komplianz liegt unter 65nm bei 12.5mm2. Sicher sind nicht alle 4.5mm2 der 10.1 Komplianz zuzuleiten, aber Anstoss zum Nachdenken sollte es trotz allem sein.

Mir egal was sich jeder denken will, aber ich will hoffen dass viele von Ontario nicht doch zu viel am Ende erwarten.

Gast

2010-09-05, 20:21:46

edit: Wow, Ontario schrumpft und schrumpft, von 77 auf 63mm² ... das erinnert ja an Die unglaubliche Geschichte des Mr. C. (http://de.wikipedia.org/wiki/Die_unglaubliche_Geschichte_des_Mister_C.) Zu dumm, dass die Spider Plattform auch ein AMD Gewächs war ;)

Ontario schrumpft gar nicht. Die Leute vergessen bei den ~77mm² aber immer zu erwähnen, das es sich um die Gehäuseabmessungen handelt und nicht wirklich um die Abmessungen des Die!

Die Bilder bei Computerbase zeigen das sehr schön. Da kann man die Abmessungen sehr gut raus messen, da die sowohl die 1-Euro Münze als auch das Ontario-Plättchen direkt von oben nahezu ohne Verzerrung abgelichtet haben.

Siehe z B. dieses Bild: http://www.computerbase.de/bildstrecke/30669/7/

Gast

2010-09-05, 20:22:56

Ich schrieb, daß meiner Meinung nach 240 SPs reichen würden. Mit den ~400 SPs, die bisher nach der näherungsweise bekannten Transistorzahl wie die wahrscheinliche Lösung aussieht, will AMD wohl auf Nummer sicher gehen, was die (arithmetische) Leistungsfähigkeit angeht. Vielleicht ist es auch einfach vom Stromverbrauch günstiger, lieber eine etwas dichter gepackte und niedriger taktende low-power Variante als weniger aber dafür hochgezüchtete SPs zu verbauen. Übrigens, ein halber Teraflop ist auch "Teraflop class" ;). Ich glaube den Begriff benutzte ATI erstmals mit der HD3870.

Du vergisst was wesentliches:

Es gibt 2 verschiedene Llano APUs !! Siehe: letzter Konferenzcall von AMD im Juli. AMD hat ganz klar von 2 verschiedenen APU/CPU Dies gesprochen.

Es kann also gut sein, das eine APU mit nur 160-240 SPs kommt während die andere dann 320-480 haben könnte.

Coda

2010-09-05, 20:24:49

Gibt's irgendwo einen Die-Shot von einem SGX?

Gipsel

2010-09-05, 20:31:46

In deinen Berechnungen tust du aber so als wenn Ontario nur aus zweimal bobcat und einer 80sp GPU bestünden, das ist unrealistisch. Gerade bei einer so kleinen integrierten CPU ist der uncorebreich anteilig eher größer als kleiner zumal Ontario vermutlich auch direkt die PCIelinks etc. beherbergt.
Wenn man die richtigen zahlen beim rechnen verwendet und nicht irgendwelche fantasiebeträge, dann erkennt jeder blinde dass Ontario nicht mehr als 40sp haben kann.
Dein Ansatz ist aber erheblich unrealistischer als der von SavageX. Denn ein Cedar hat bereits ein Speicherinterface, eine PCI-Express-Anbindung und somit den platzfressenden Bereich des Uncore an Bord. Somit kann Ontario sehr wohl von der Fläche einfach Cedar + die beiden mickrigen Bobcat-Cores+L2 sein (oder sogar weniger als die Summe).
Denn auch bei Cedar sind die SPs noch das Kleinste. 80SPs und 4 TMUs messen in 55nm so ungefähr 10,5mm² (bei RV770). In 40nm wahrscheinlich also etwa 6mm². 40SPs mit 4 TMUs kosten so etwa 4-4,5mm². Das ist also etwa die Größe eines Bobcat-Core ohne L2. Der ganze andere Kram frißt den Platz, da hast Du vollkommen Recht. Deswegen kann es schon sehr gut hinkommen, daß Ontario/Zacate praktisch eine sehr ähnliche Größe wie Cedar aufweist, da man genauso padlimitiert ist. Dafür ist die Frage 40/80 SPs fast irrelevant.