AMD/ATI - Kaveri: 28nm, 2-4 Steamroller Kerne, GCN GPU - Ende 2013 [Archiv]

AnarchX

2012-02-02, 20:27:30

http://img684.imageshack.us/img684/8705/screen20shot20201202012.png (http://imageshack.us/photo/my-images/684/screen20shot20201202012.png/)

http://www.anandtech.com/show/5491/amds-2012-2013-client-cpugpuapu-roadmap-revealed

... oder besser HSA 3. ;D

8 CUs = 512SPs

Testing performed by AMD Performance Labs. Calculated compute performance or Theoretical Maximum GFLOPS score for 2013 Kaveri (4C, 8CU) 100w APU, use standard formula of (CPU Cores x freq x 8 FLOPS) + (GPU Cores x freq x 2 FLOPS). The calculated GFLOPS for the 2013 Kaveri (4C, 8CU) 100w APU was 1050. GFLOPs scores for 2011 A-Series “Llano” was 580 and the 2013 A-Series “Trinity” was 819. Scores rounded to the nearest whole number.
http://phx.corporate-ir.net/External.File?item=UGFyZW50SUQ9MTI1MTM5fENoaWxkSUQ9LTF8VHlwZT0z&t=1

AMD1305.1 = "KV SPECTRE DESKTOP 100W (1305)"
AMD130F.1 = "KV SPECTRE DESKTOP 65W/100W (130F)"
AMD131C.1 = "KV SPECTRE EMBEDDED 35W (131C)"
AMD1313.1 = "KV SPECTRE LITE DESKTOP 65W/100W (1313)"
AMD130A.1 = "KV SPECTRE LITE MOBILE 17W (130A)"
AMD1309.1 = "KV SPECTRE LITE MOBILE 25W (1309)"
AMD130D.1 = "KV SPECTRE LITE MOBILE 35W (130D)"
AMD1304.1 = "KV SPECTRE MOBILE 35W (1304)"
AMD130C.1 = "KV SPECTRE MOBILE 35W (130C)"
AMD1307.1 = "KV SPECTRE SL DESKTOP 100W (1307)"
AMD1315.1 = "KV SPECTRE SL DESKTOP 65W (1315)"
AMD131B.1 = "KV SPECTRE SL EMBEDDED 17W (131B)"
AMD130B.1 = "KV SPECTRE SL MOBILE 17W (130B)"
AMD1306.1 = "KV SPECTRE SL MOBILE 35W (1306)"
AMD130E.1 = "KV SPECTRE SL MOBILE 35W (130E)"
AMD1311.1 = "KV SPECTRE WORKSTATION 100W (1311)"
AMD1310.1 = "KV SPECTRE WORKSTATION 65W (1310)"
AMD1316.1 = "KV SPOOKY DESKTOP 65W (1316)"
http://www.rage3d.com/board/showthread.php?t=34001853

Ronny145

2012-02-02, 20:42:16

http://pics.computerbase.de/3/9/3/8/6/3.png

Knapp 1000 GFLOPS compute performance laut Roadmap.

AnarchX

2012-02-02, 20:44:13

Wenn man wieder in Richtung ~200mm² geht, dürfte wohl ein voller Cape Verde (geschätzt auf 768SPs) darauf passen. Mit 700MHz wäre dieser schon jenseits der 1 TFLOPs.

edit:
8 CUs = 512SPs

Testing performed by AMD Performance Labs. Calculated compute performance or Theoretical Maximum GFLOPS score for 2013 Kaveri (4C, 8CU) 100w APU, use standard formula of (CPU Cores x freq x 8 FLOPS) + (GPU Cores x freq x 2 FLOPS). The calculated GFLOPS for the 2013 Kaveri (4C, 8CU) 100w APU was 1050. GFLOPs scores for 2011 A-Series “Llano” was 580 and the 2013 A-Series “Trinity” was 819. Scores rounded to the nearest whole number.
http://phx.corporate-ir.net/External.File?item=UGFyZW50SUQ9MTI1MTM5fENoaWxkSUQ9LTF8VHlwZT0z&t=1

Da zielt man wohl >900MHz an, vorrausgesetzt die CPU schafft fast 4GHz.

disap.ed

2012-02-02, 21:31:19

Wenn man wieder in Richtung ~200mm² geht, dürfte wohl ein voller Cape Verde (geschätzt auf 768SPs) darauf passen. Mit 700MHz wäre dieser schon jenseits der 1 TFLOPs.

Laut Beyond3D sind es 512 SPs @ >900MHz

http://forum.beyond3d.com/showpost.php?p=1617262&postcount=297

EDIT: Beaten

AnarchX

2012-02-02, 21:35:57

Laut Beyond3D sind es 512 SPs @ >900MHz

http://forum.beyond3d.com/showpost.php?p=1617262&postcount=297

EDIT: Beaten
Und wer hat dort den Beitrag geschrieben? ;)

Mal sehen was man in Richtung Bandbreite tun wird, langsam ist 128-Bit DDR3 doch ein Flaschenhals.

AnarchX

2012-03-07, 10:50:24

28nm Bulk: http://www.brightsideofnews.com/news/2012/3/6/amd-ditches-soi-kaveri-goes-bulk-at-gf2c-more-details-from-the-new-wsa.aspx

BlackBirdSR

2012-03-07, 11:24:25

28nm Bulk: http://www.brightsideofnews.com/news/2012/3/6/amd-ditches-soi-kaveri-goes-bulk-at-gf2c-more-details-from-the-new-wsa.aspx

Interessant.. nachdem SOI seit Jahren AMDs großes Fertigungsmerkmal war.
Bin gespannt, wie sich die Unterschiede dann aufzeigen.

Knuddelbearli

2012-03-07, 19:21:24

dachte der preisvorteil liegt im mittleren 1 stelligen bereich ? dafür ist das umrüsten und forschen dankd er IBM Allianz deutlich günstiger ( tangiert AMD auch ohne GF da GF die kosten dafür wieder auf den chip draufrechnen muss )

und was ist dann 2014 im Server auch BULK ?

AnarchX

2012-03-21, 14:48:46

Kaveri schon im Januar 2013 zur CES?
http://www.fudzilla.com/home/item/26451-kaveri-28nm-apu-scheduled-for-january-2013

Ronny145

2012-03-21, 14:56:43

Halte ich für unwahrscheinlich. Trinity sollte auch mal Anfang des Jahres kommen, man sieht was daraus geworden ist. Das wären gerade mal 6 Monate Abstand zu Trinity.

Knuddelbearli

2012-03-21, 17:35:32

nbaja denke da kommt es jetzt vor allem auf die fertigung an wenn es wirklich 28nm werden

wenn die früher fertig ist könnte ich es mir schon vorstellen

AnarchX

2012-03-21, 17:37:05

Es soll ja ein Bulk-Design sein, da könnte man schon entsprechend weit sein, wenn man damit 2011 bei GF begonnen hat.

Wobei es natürlich etwas abenteuerlich scheint, wie man eine leistungsfähige CPU mit 28nm Bulk umsetzen will, die möglicherweise sogar noch synthetisiert ist.

Naitsabes

2012-03-21, 17:52:59

[...]wie man eine leistungsfähige CPU mit 28nm Bulk umsetzen will

So wie Intel?

Knuddelbearli

2012-05-01, 20:56:27

Zergra

2012-05-01, 21:33:02

Amd möchte auch in den Tablet Markt einsteigen ? Davon hab ich noch nichts gehört, naja vllt. machen sie es ja besser als NV :D

y33H@

2012-05-01, 21:51:32

Die Z-Serie gibt's seit letztem Sommer, nur sind Geräte mit dem Z-01 arg selten ... genauer ein Tablet wie mir scheint (hierzulande) :usad:

http://geizhals.at/de/?cat=nbtabl&xf=2177_Z-01

S940

2012-05-01, 22:24:28

wie lange dürfte 28nm dann aktuell sein die vollen normalen 2,5 jahre? oder wird GF aggressiv Anschluss an tsmc suchen?

wenn 28nm bei GF mitte 2013 kommt kommt ca 1 jahr drauf bei tsmc ja schon 20nm
28nm ist solange aktuell wie AMD den Prozess haben will. Die Steamroller-Server CPUs werden 2013/2014 wohl auch noch mit 28nm kommen. Da will AMD nen SHP Prozess, und den gibts immer später als die low-power Version.
Hat jetzt mit Kaveri aber nicht viel zu tun, Du hattest da eher ne Fab-Frage.

wobei es natürlich etwas abenteuerlich scheint, wie man eine leistungsfähige CPU mit 28nm Bulk umsetzen will, die möglicherweise sogar noch synthetisiert ist.Die forschen in Dresden an 28nm mit ULK. Das würde es vom Stromverbrauch her sicher rausreißen. Hauptproblem ist wohl die Haltbarkeit, weswegen es ULK nur bei den Desktop 6Kernern gab, nicht bei den Serverversionen. Aber zumindest Kaveri ist ja wieder Desktop ... von daher sollte es keine Probleme damit geben. Aber warten wirs mal ab.

Knuddelbearli

2012-05-09, 12:11:20

ging mir eher darum in was für ein Verfahren dann Excavator kommt, ob immer noch 28nm ( was langsam ein gigantischer Fertigungsunterschied zu Intel ist ) oder ob recht schnell 20nm nachkommt.

Wobei ich mich eh Frage ob wirklich noch eine Klassische CPU Architektur auf Excavator Basis kommt. Dachte mit Excavator soll die GPU endlich als richtiger CO Prozessor fungieren? Also Inkl Cache zugriff automatische Umverteilung je nachdem was gerade schneller wäre usw.

AnarchX

2012-05-20, 15:53:30

http://translate.google.com/translate?hl=de&ie=UTF8&prev=_t&sl=tr&tl=en&u=http://www.donanimhaber.com/islemci/haberleri/DH-Ozel-AMD-ucuncu-nesil-Fusion-islemci-ailesinde-radikal-degisikliklere-gidiyor.htm

Kaveri wohl mit GDDR5 auf dem Package bzw. On-Die?

Ronny145

2012-05-20, 16:57:34

Aus der Übersetzung lässt sich leider kaum was rauslesen. GDDR5 wäre interessant, fragt sich wie das umgesetzt wird. Und die Speichergröße wäre interessant. Es wäre sehr erfreulich wenn AMD sich was einfallen lassen hat. Die integrierten GPUs könnten nächstes Jahr einen deutlich größeren Sprung machen.

Duplex

2012-05-20, 17:32:29

Bei der CPU Performance muss sich aber auch was in Richtung +25% gegenüber BD ändern, sonst ist das CPU Design für die Tonne.

Dural

2012-05-20, 17:53:36

ist doch egal, bei den APU hat noch nie die leistung gezählt, da geht es nur um den preis.

low-cost ware halt.

Duplex

2012-05-20, 18:50:48

Nichts ist egal, die CPU Kerne die bei Kaveri zum Einsatz kommen sind Steamroller Kerne und diese werden afaik auch im Server Markt eingesetzt. :rolleyes:

Knuddelbearli

2012-05-20, 19:27:41

wo BD ja jetzt bereits ganz gut ist

denke IPC wird mit Steamroller nicht so steigen ( vieleicht 10% ) aber dafür nochmal ~15% höhere taktraten beim selben verbrauch und ohne shrink. was dann doch wieder deine 25% wären ^^

mboeller

2012-05-21, 09:02:07

robbitop

2012-05-21, 09:22:34

Piledriver war in Punkto Verbrauch und Leistungssteigerung (IPC + Taktrate) schon ein ganz guter Bulldozernachfolger. Aber natürlich war es nur eine Evolution.
Dort wird man mit Kaveri weitermachen. Shrink, GCN GPU, CPU IPC + 10..15 % (laut AMD Folie), etwas mehr Takt.
Vieleicht ist das Ding im Endeffekt also Dank Takt + IPC 25 % schneller als Piledriver.
Angeblich soll nun jeder Int Core seinen eigenen Decoder bekommen. Da schien wohl einer der Engpässe zu liegen.
Excavator sollte IIRC in 20 nm gefertigt werden. Da das ja erst 2014 ist, kommt das auch hin.
Wobei man ja nun offenbar auf halfnodes gewechselt ist und 2013 28 nm neu ist. Ist vieleicht dann noch etwas früh für einen kompletten Sprung.
Andererseits ist 28 nm nur ein 32 nm Halfnode und 20 nm war unabhängig davon eh in Entwicklung. Die zeitliche Differenz könnte ggf. einmalig doch kürzer als 2 Jahre sein...

Twodee

2012-05-21, 10:01:35

Ravenhearth

2012-05-21, 12:20:42

Excavator sollte IIRC in 20 nm gefertigt werden. Da das ja erst 2014 ist, kommt das auch hin.
Wobei man ja nun offenbar auf halfnodes gewechselt ist und 2013 28 nm neu ist. Ist vieleicht dann noch etwas früh für einen kompletten Sprung.
Andererseits ist 28 nm nur ein 32 nm Halfnode und 20 nm war unabhängig davon eh in Entwicklung. Die zeitliche Differenz könnte ggf. einmalig doch kürzer als 2 Jahre sein...
http://www.3dcenter.org/news/amds-zukunftsplaene-desktop-trinity-erst-im-august-excavator-erst-im-jahr-2015:wink:

btw.: http://www.fudzilla.com/home/item/27235-amd-says-%E2%80%9Cenough%E2%80%9D

Mancko

2012-05-21, 12:31:50

ist doch egal, bei den APU hat noch nie die leistung gezählt, da geht es nur um den preis.

low-cost ware halt.

In diesem Punkt hat AMD aber auch nicht gerade die besten Karten, wenn ich mir den Größenunterschied zwischen einem core ix und einer AMD APU ansehe. Das sind signifikante Größenunterschiede zum Nachteil von AMD. Da sollte die CPU Leistung schon ordentlich zulegen.

Gipsel

2012-05-21, 15:25:25

So exorbitant wichtig sind die Größenunterschiede für die Kosten auch nicht, da er auf einem Prozeßunterschied beruht. Es gibt nicht umsonst Klagen von allen Seiten, daß die Kosten für die kleineren Prozesse explodieren, so daß der Preis pro Transistor nicht mehr wirklich sinkt. Der kleinere Prozeß bringt also hauptsächlich Vorteile bei Performance und der Möglichkeit zur Integration von mehr Transistoren (was dann aber auch teurer wird). Der "free lunch" ist langsam wirklich vorbei. Man kann nicht mehr zu gleichen Kosten doppelt soviel Transostoren verbauen. Schon die 28nm TSMC Wafer sind sehr deutlich teurer als die 40nm-Teile. Und die 20nm Wafer werden wiederum beinahe doppelt so teuer werden. Ergo resultieren aus dem Prozeß und dem kleineren Die kaum Kostenvorteile. Oder zumindest längst nicht so große, wie man bei einem Blick auf die reinen Diegrößen erwarten könnte.

davidzo

2012-05-21, 18:10:31

ist doch egal, bei den APU hat noch nie die leistung gezählt, da geht es nur um den preis.

low-cost ware halt.

naja, schon jetzt zeichnet sich ab, dass man nur noch zwischen Atom und vollwertigen CPUs (Core i3 und aufwärts) landet - das ist gefärhlich. Der Lowendbereich ist ja enorm geschrumpft und wird durch die ARM Konkurrenz weiter schrumpfen, den ATOM gibt es bis auf als embedded und Storageserver CPU bald auch nicht mehr, im Consumerbereich ist einfach kein Platz mehr für so langsame CPUs.

Wenn ein Käufer jetzt überlegt anstatt einer lahmen APU nicht doch gleich lieber einen nur geringfügig lahmeren Atom zu nehmen weil Intel draufsteht und er billiger ist (gibts ja sogar mit diskreter Grafik), wird er später gar nicht mehr über eine lowend CPU nachdenken, da die Computingaufgaben von Lowendgeräten fast komplett von ARM SoCs erledigt werden können.

YfOrU

2012-05-21, 18:53:00

Es gibt bei Intel eine Pentium Reihe. Sowohl auf dem Desktop als auch im mobilen Segment. Die findet hier im Forum natürlich kaum Beachtung, ist aber nicht so unbedeutend ;)

Im Übrigen ist der Abgesang auf den Atom eine Fehlinterpretation. In Zukunft wird genau gegenteiliges der Fall sein und das trifft auch auf die kleinen AMD APUs zu. Primär verliert nur der klassische Desktop (Format) weiter an Bedeutung. Welche ISA in kompakteren, mobilen oder sehr kostengünstigen (PC ähnlichen) Produkten vertreten ist hat damit erst mal sehr wenig zu tun.

...wird er später gar nicht mehr über eine lowend CPU nachdenken, da die Computingaufgaben von Lowendgeräten fast komplett von ARM SoCs erledigt werden können.

Warum sollen das dann zwingend ARM und keine x86 SoCs sein ?

Natürlich kann praktisch jeder die entsprechende IP bei ARM lizenzieren aber um mit Unternehmen wie Intel oder AMD in ihrem angestammten Markt ernsthaft konkurrieren zu können ist mehr als das nötig (dazu gehört auch x86 low-end). Wenn dann noch mit einbezogen wird das in Zukunft (aktuelle) Atom IP auch diversen Partnern für eigene Designs zur Verfügung stehen wird ist hier noch absolut nichts in Stein gemeißelt.

disap.ed

2012-05-30, 08:32:36

Mir ist aufgefallen dass Vishera ja offenbar (zumindest einige Modelle. Server?) ein Quad-Channel-Speicherinterface hat. Wäre das für Kaveri eine Möglichkeit den Flaschenhals der Grafikeinheit zu entschärfen? Oder ist das zu teuer für diesen Preisbereich?

Undertaker

2012-05-30, 08:46:22

robbitop

2012-05-30, 08:58:49

Ja mehr als 2 Kanäle sind teuer für die Boards und niemand (Normalpersonen) baut sich > 2x Module rein.
Der LL Cache bei Intel ist relativ klein. Der ist halt zum Puffern der Speicherzugriffe - vieleicht auch als Texturcache. Sowas hat jede AMD/NV GPU seit Jahren. Ich glaube nicht, dasss AMDs APU da hinterher steht. Für AMD ist sowas vermutlich regulärer Teil der GPU (Framebuffer und Texturcaches).

Erlösung wird wohl nur ein Speicherbaustein auf dem gleichen Package bringen. Das muss allerdings kosteneffizient machbar sein...

Undertaker

2012-05-30, 09:20:33

Natürlich hat die Ivy Bridge GPU ebenso eigene, exklusive Cachestufen (L1/L2/L3) (http://www.realworldtech.com/page.cfm?ArticleID=RWT042212225031&p=6), der L3 hat mit 256/512 KB sicher ähnliche Ausmaße wie auch bei AMD. Der mit der CPU geteilte LLC Cache ist hingegen 3-8 MB und damit in einer ganz anderen Kategorie - ich denke schon, dass ein solcher auch Trinity bzw. kommenden Nachfolgern gute Dienste leisten würde?

ndrs

2012-05-30, 10:05:21

Es ist halt die Frage, wie oft Daten mehrfach genutzt werden, oder geprefetcht werden können. Bei GPUs spricht man ja immer von Durchsatz > Latenz. Das können unsere GPU-Spezis sicher beantworten, wie groß in etwa der Vorteil von großen "langsamen" Caches ist.

Skysnake

2012-05-30, 10:29:59

Quadchannel haben afair nur die Dual-Chip Servermodelle.

Für den Desktop ist das ganz sicher nichts. Selbst ein dritter Speicherkanal würde den Chip größer, die Boards teurer, den Stromverbrauch höher und die Speicherbestückung unpraktischer machen. Wie schoneinmal an anderer Stelle angesprochen: Imo wäre es wohl am besten, zukünftig eher auf gemeinsame Caches für CPU und GPU zu setzen, wie es der L3 bei Intel ist. Dazu könnte auch die Effizienz des Speicherinterfaces noch etwas besser sein, wenn man entsprechenden Sandra-Benchmarks glauben mag.

Ja Quad/Triple Channel ist teuer. Wenn man aber Charlies ausführungen zu den Möglichkeiten von Trinity glauben schenken darf, sollte der Stromverbrauch kein Thema sein, da man einzelne Channels beliebig hoch/runter Takten kann und sogar ganz abschalten kann, wenn diese nicht gebraucht werden.

Mit Trinity kann die iGPU wohl, soweit ich das verstanden habe, auch auf die Daten im Cache der CPU zugreifen.

Kurz um, mit Trinity tut sich EINIGES! Ein Vergleich mit Llano taugt hier meiner Meinung nach nicht mehr.

Man muss aber klar sagen, das ein extra Channel eben doch einiges an Geld kostet.

Ein "Cache"/Zwischenspeicher in Form von DRAM what ever direkt auf dem Package, so wie es mit Haswell kommen soll sollte aber auf mittlere/kurze Sicht schon kommen.

Die Bandbreitenanforderungen sind einfach immens, und da hilft ein "großer" Zwischenspeicher schon immens, diese Anforderungen an den Hauptspeicher/Speicherinterface ab zu mildern.

512MB würden da sicherlich schon ausreichen, um ein quad-Channel-Interface überflüssig zu machen, wenn dieser entsprechend an CPU/GPU angebunden ist. So ein 512/1024Bit Interface wären schon nicht schlecht. Damit könnte das Ding schon rennen wie sau :biggrin:

robbitop

2012-05-30, 11:08:05

Vieleicht gehen sie auch erst einen Zwischenschritt wie damals mit Turbocache. Einfach 1x Speicherbaustein mit 64 bit Breite zusätzlich drauf (in diesem Fall auf's Package). Für den Fall, dass SI noch nicht massenproduktionsreif sind.

AnarchX

2012-05-30, 11:14:31

Auf einen ~200mm² Die sollte durchaus noch ein 128-Bit 4Gbps GDDR5 Interface passen, was man dann in das Package mit 4 Chips ausführen könnte. Vielleicht reduziert man auch das externe SI auf Single-Channel DDR3-1600/1833, was wohl für die meisten Anwendungen ausreichend (http://www.computerbase.de/artikel/arbeitsspeicher/2012/test-welchen-ram-fuer-intel-ivy-bridge/3/)wäre.

robbitop

2012-05-30, 11:28:04

4x Chips wären aber für Low Cost schon wieder zu teuer - oder?

AnarchX

2012-05-30, 11:31:09

Vergleichbare Speichermengen werden 2013 wohl auf 50-60€ GraKas verbaut sein, sodass es für die ~100€ APUs wohl durchaus eine Option sein sollte.

Knuddelbearli

2012-05-30, 12:01:38

S940

2012-05-30, 13:45:03

eventuell kommen die Server CPUs schon mit DDR4 da brauchts dann 4 Channels
Naja, aber er redet ja von Kaveri, da erwarte ich eigentlich FM2-Kompatibilität, also Dual DDR3. Sicher ist aber natürlich nichts.

Für die DDR4 Generation ist es ne gute Frage was AMD da macht. Eigentlich können sie wg. der steigenden Bandbreite von DDR4 bei Dual-channel pro DIE bleiben. 8GB DIMMs gibts heutzutage schon relativ günstig und 2x8=16GB reichen im Moment dick.

Die Dual-Dies dann halt wieder mit Quad, wie gehabt.

Knuddelbearli

2012-05-30, 13:49:16

naja kann mir vorstellen das mit kavari es auch erste APUs für Server gibt, mit passenden programmen und der inzwischen dann doch recht hohen integration der gpu in die cpu wirds langsam sehr interessant

ndrs

2012-05-30, 14:06:19

Wie hoch sind eigentlich die Latenzen von GDDR5-Speicher? (die ja der einzige Nachteil gegenüber gewöhnlichem DDR sind???) Vielleicht wäre es fast schon praktischer auf etwas CPU-Leistung zu verzichten und stattdessen die hohe Bandbreite GDDR-Speicher in einer APU zu nutzen. Da müsste doch eigentlich nur jemand die Speicherchips auf gewöhnliche Riegel packen und den Controller in der CPU anpassen.
Naja, die Signalgüte beim Weg über das Mainboard wird dann vielleicht noch zu nem Problem.

S940

2012-05-30, 14:09:29

Coda

2012-05-30, 14:11:18

GDDR5 muss man auf's PCB löten, mit den Steckverbindungen würde das nicht funktionieren.

ndrs

2012-05-30, 14:40:39

Rentiert sich nicht wirklich, das was man von GDDR5 braucht hat man in DDR4 integriert. Wenn dann gibts bei Kaveri vielleicht integriertes / stacked RAM, da gibts ja entsprechende Gerüchte.
Ist klar. Mich haben nur mal die technischen Probleme und Chancen dabei interessiert.
GDDR5 muss man auf's PCB löten, mit den Steckverbindungen würde das nicht funktionieren.
Wegen der Signalgüte aufgrund höherer Frequenzen oder gibt's da noch was zu beachten?

S940

2012-05-30, 17:22:44

Wegen der Signalgüte aufgrund höherer Frequenzen oder gibt's da noch was zu beachten?Jo klar, was sonst. So ein Stecker ist ein großer Störenfried, v.a. bei den Frequenzen.

Skysnake

2012-05-30, 17:42:23

Naja, die Signalgüte könntest du mit stärkeren Treibern versorgen, aber man kann auch sinnfrei Strom verballern und DIE-Space opfern...

ndrs

2012-05-30, 17:49:53

Naja, die Signalgüte könntest du mit stärkeren Treibern versorgen, aber man kann auch sinnfrei Strom verballern und DIE-Space opfern...
Stimmt, bei PCIe gehts ja auch, aber da sinds halt <50 Lanes und nicht gleich 128 :)

Skysnake

2012-05-30, 18:41:17

Dir ist schon klar, warum mit PCI-E 3.0 128/130 coding eingeführt wurde anstelle von 8/10 Bit Coding bei PCI-E 1&2?

Richtig, Sie haben die Signalgüte für die entsprechenden Taktraten nicht hin bekommen, also haben Sie den Overhead zu Lasten der Latenzen usw. eben erhöht, damit die Taktraten gesenkt werden können.

Wenn ich mich recht erinnere sind bei den ersten Planungen für PCI-E 4.0 davon die Rede, das man nur noch den ersten, oder die ersten zwei Slots auf einem ATX Mainboard ohne aktiven Singalverstärker betreiben kann, wenn man nicht grundlegend das PCB-Desing verteuern will mit teureren Materialien usw.

Ich wäre mir also nicht sicher, ob es PCI-E 4.0 noch unbedingt als Sockel geben wird. Eventuell nur einen und den rest halt verlötet und das wars.

ndrs

2012-05-30, 22:32:09

Ähm, der Overhead wurde nicht erhöht, sondern von 20% auf 1,5% verringert. Allein die größere Wortlänge zugunsten des GERINGEREN Overheads verschlechtert die Latenz. Das hat aber rein garnichts mit der Signalgüte zu tun.

Skysnake

2012-05-30, 23:01:44

Äh ja, mein ich doch. Hab mich da unglücklich ausgedrückt.

Der Overhead ist runter durch das 128/130 Coding, aber man hat jetzt eben große Pakete, welche erstmal verarbeitet werden müssen, bis man überhaupt die Daten nutzen kann, was natürlich die Latenz ungemein erhöht.

Ronny145

2012-06-06, 13:24:33

In der inf vom 8.98.4 Treiber Leak im guru3d Forum taucht Kaveri auf.

"%AMD1305.1%" = ati2mtag_Kaveri_Desktop, PCI\VEN_1002&DEV_1305
"%AMD1304.1%" = ati2mtag_Kaveri_Mobile, PCI\VEN_1002&DEV_1304
"%AMD1307.1%" = ati2mtag_Kaveri_Desktop, PCI\VEN_1002&DEV_1307
"%AMD1306.1%" = ati2mtag_Kaveri_Mobile, PCI\VEN_1002&DEV_1306

AMD1305.1 = "KAVERI1 DESKTOP (1305)"
AMD1304.1 = "KAVERI1 MOBILE (1304)"
AMD1307.1 = "KAVERI2 DESKTOP (1307)"
AMD1306.1 = "KAVERI2 MOBILE (1306)"

Kabini taucht ebenso auf. Sogar mit Watt Angabe. Versionen zwischen 5-25W mit 2-4 Kernen sind offenbar geplant.

AMD9833.1 = "KB 2C 12W (9833)"
AMD9834.1 = "KB 2C 5W (9834)"
AMD9831.1 = "KB 4C 17W (9831)"
AMD9832.1 = "KB 4C 17W (N-1) (9832)"
AMD9830.1 = "KB 4C 25W (9830)"
AMD6600.1 = "MARS (6600)"
AMD6601.1 = "MARS (6601)"
AMD6602.1 = "MARS (6602)"
AMD6603.1 = "MARS (6603)"
AMD6606.1 = "MARS (6606)"
AMD6607.1 = "MARS (6607)"
AMD6620.1 = "MARS (6620)"
AMD6621.1 = "MARS (6621)"
AMD6623.1 = "MARS (6623)"

"%AMD9833.1%" = ati2mtag_Kabini_Mobile, PCI\VEN_1002&DEV_9833
"%AMD9834.1%" = ati2mtag_Kabini_Mobile, PCI\VEN_1002&DEV_9834
"%AMD9831.1%" = ati2mtag_Kabini_Mobile, PCI\VEN_1002&DEV_9831
"%AMD9832.1%" = ati2mtag_Kabini_Mobile, PCI\VEN_1002&DEV_9832
"%AMD9830.1%" = ati2mtag_Kabini_Mobile, PCI\VEN_1002&DEV_9830

disap.ed

2012-06-06, 16:17:54

Weiß man schon ob die Jaguar-Kerne auch auf Bulldozer basieren? Oder ist das ein weiterentwickelter Bobcat?

mrt

2012-06-06, 16:26:44

Bobcat

deekey777

2012-06-13, 13:42:11

AFDS12, Tag 2: Kaveri-APU mit 1 TFLOPS weiter auf Kurs für 2013 (http://www.pcgameshardware.de/aid,890477/AFDS12-Tag-2-Kaveri-APU-mit-1-TFLOPS-weiter-auf-Kurs-fuer-2013/CPU/News/)

http://www.heise.de/newsticker/meldung/AFDS-2012-AMD-und-ARM-gehen-Hand-in-Hand-1616555.html
In der Zwischenzeit hat AMD aber noch eine ganze Menge vor. So sollen 2013 etwa der Unified Address Space und kohärenter Speicher für CPU und GPU Einzug halten. Ab 2014 sollen GPUs Preemption und Compute Context Switching beherrschen.

AMD hat wirklich noch viel vor.

Skysnake

2012-06-14, 11:30:28

Man man man....

Ich hatte die Speicherkohärenz schon für dieses Jahr mit Trinity erwartet...

Wenn dann mit Kaveri aber gleich Preemtption dazu kommt, dann bin ich wieder glücklich :biggrin:

Ailuros

2012-06-14, 14:49:44

http://semiaccurate.com/2012/06/13/amd-puts-arm-cortex-a5-cores-in-its-cpus/

:D

S940

2012-06-14, 14:58:48

http://semiaccurate.com/2012/06/13/amd-puts-arm-cortex-a5-cores-in-its-cpus/

:D

(1) The ARM Coretex-A5 is in current AMD CPUs, likely both Brazos 2.0 and Trinity. AMD hasn’t officially disclosed which models it is in, but SemiAccurate is confident that it is there.
Könnte sogar stimmen, oder weiß wer, für was die unbeschrifteten Teile links und/oder rechts der UNB gut sind?
Irgendwo hab ich gestern auch gelesen, dass der ARM-core nahe der UNB sein muss, damit er als erstes aufwachen kann.

http://www.abload.de/img/amd_trinity_labledvb7ks.jpg

Ronny145

2012-06-14, 15:12:34

Wofür wäre das nützlich?

Screemer

2012-06-14, 15:33:38

wie alle trusted modul konzepte, um die "sicherheit" am pc zu erhöhen. mit sicherheit sehen dabei vor allem die gesicherten umsätze der softwareindustrie durch wegfall der softwarepiraterie... hoffentlich wird das der nächste gescheiterte vorstoß in diese richtung.

S940

2012-06-14, 15:54:08

Wofür wäre das nützlich?DRM, TPM, kennst Du das nicht?
Kleine Übersicht hier:
http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?id=1339667038
(Für mehr Info: Das erste PDF im Quellenverzeichnis ist ziemlich gut)

Oder beziehst Du Dich aufs eventuelle Vorhandensein des A5-Kerns schon im Trinity? In dem Fall halt Test/Debug etc. pp.

Coda

2012-06-14, 16:06:14

Ein Cortex-A5 ist in 32nm winzig klein (< 1mm²).

Knuddelbearli

2012-06-14, 16:32:09

war ja klar das das erst 2013 kommt

2012 kann gpu auf den cpu adressraum zugreifen ( umgekehrt nicht ) und 2013 dann ein gemeinsamer adressraum

Ronny145

2012-06-14, 20:54:06

http://www.computerbase.de/news/2012-06/amd-gibt-neue-details-zu-kaveri-kabini-und-temash-preis/

Kaveri zwischen 15W-35W.

S940

2012-06-15, 02:34:52

Ein Cortex-A5 ist in 32nm winzig klein (< 1mm²).Ja, aber ein Cortex-Kern allein macht noch keine Trustzone, außerdem gibts vielleicht nen L2 dazu. Für ne Trustzone brauchst Du in jedem Fall noch ein bisschen mehr. Der zentrale Teil des unbeschrifteten Areals links im oben im Eck, zwischen RAM und linkem L2-Cache hat ungefähr um die 2mm², Tendenz weniger. Die kleinen Quadrate drumherum könnten vielleicht ROMs oder E2PROMs sein, irgendwo muss das SecureOS und potentielle DRM-Infos welcher Titel wie lange freigeschaltet ist, ja gespeichert werden. Allerdings wär dann noch die Frage, was die Fläche in Richtung UNB sein soll. Also alles ziemlich wild spekuliert.

Wie dem auch sei, das Bildchen ist gut genug aufgelöst, um auch ~1mm² Strukturen erkennen zu können - wenn es denn welche gäbe und AMD das nicht zermatscht hat, so wie links oben im Eck.

Skysnake

2012-06-16, 09:20:11

Das sollte wohl sogar in der UNB drin stecken, ist aber wirklich alles wilde Spekulation, und werden wir wohl auch nie erfahren.

Ne ganz andere Sache, lasst uns mal auf den Planet3Dnow Artikel eingehen:

Also da wird durchaus richtig erkannt, das man einige gute Sachen damit erreichen kann, allerdings sich damit auch das Tor für ziemlich viel Schindluder für die Hersteller auf tut.

Kann es sein, das Intel auch nen kleinen ARM-Core drin hat, oder zumindest deren LEistungsumfang integriert hat? Die haben wenn ich mich recht erinnere doch auch eine ARM-Lizenz, und sind eben groß genug das dann auch komplett neu zu machen, statt den ARM-Core komplett rein zu pflanzen. Wir erinnern uns doch an die Vorführung von Win8 (?) als man gesehen hat, das ein Hacker bei der Virtuellen Tastatur für die Eingabe der PIN nur ein schwarzes Viereck sieht, weil der Teil im Secure-Bereich abläuft. DAS könnte doch im prinzip genau das sein was AMD hier auch implementiert hat über den ARM-Core. Das wäre dann ja auch durchaus positiv.

SO jetzt mal zu dem Negativen Punkten.

Man kann sich sicher Modelle vorstellen, wo z.B. Games bei Origin oder Steam nur im Secure-Modus gestartet werden dürfen, was dann bedeutet, das man keine illegalen Kopien so zum laufen bekommt (scheinbar). Die Hacker müssten also den Programmcode an sich haben und das Game dann für den Normalmodus neu compilieren. Anders wird man es wohl kaum hin bekommen. Sollte aber durchaus schaffbar sein. :rolleyes:
So eine Version setzt dann auch einen feuchten Haufen auf den Secure-Mode.

Ob der Secure-Mode oder der Normal-Mode genutzt wird hängt ja auch von der Software ab. Ansonsten könntest du die ganzen selbst entwickelte + alte Software wegschmeisen, und DAS traut sich keiner. DAs wäre selbst für Intel ein Todesstoß. Die Softwareentwicklung macht ein vielfaches von dem aus, was über Jahre in Hardware investiert wird (im Normalfall bei Firmen).

Was halt problematisch bleibt sind halt Accountbans usw, wobei das heute im Prinzip ja auch schon voll umfänglich möglich ist.

Man kann also quasi den Secure-Mode nicht abschalten, WAS ESSENZIELL für die Sicherheit ist, da man ansonsten nicht prüfen könnte was denn nu los ist, man kann ihn aber auch einfach nicht benutzen. Dann siehts halt aus wie bisher.

Die Sicherheit kommt daher auch erst dadurch bei Internetseiten zustande, dass der Programmcode auf dem gesicherten Server liegt und nicht auf dem PC, also selbst ein gehackter PC weiterhin gesichert ist, da der Programmcode eben auf dem Server geschützt ist und per Internet dann direkt an den Secure-Mode geht.

Bzw. eben das OS an sich zu gewissen Teilen dann im Secure-Modus abläuft, was sicherstellt, dass die Internetübertragung/virtuelle Tastatur whatever. geschützt ist, sprich bei einer unbefugten Änderung nicht mehr ausgeführt werden kann.

Was allerdings wirklich weiterhin bedenklich bleibt ist die Möglichkeit von Backdoors für Geheimdienste usw....

AMD ist ja leider auch eine amerikanische Firma.... Die sind da verpflichtet mit den Geheimdiensten zusammen zu arbeiten.. :kotz::down:

StefanV

2012-06-16, 09:23:24

Das schöne dabei ist, dass es noch einige Zeit brauchen wird, bis alle CPUs diesen Secure Mode haben werden...
Aber letztendlich wird sich in den nächsten Jahren zeigen, ob wir die Copyright Wars gewinnen oder verlieren werden...

Bezüglich der Backdoors hast du leider Recht. AFAIR ist die Gesetzeslage in US of A jetzt schon so schlimm, dass jeder Hersteller das implementieren muss...

Allerdings frage ich mich auch, warum einige Unternehmungen das auch mitmachen und nicht einfach mal umziehen, an einem Standort, der in diesen Punkten wesentlich weniger restrikt ist...

Knuddelbearli

2012-06-16, 10:47:13

und wohin?
Deutschland ist da nicht weniger schlimm China erst recht nicht. Wüsste nicht welches land da in frage käme

Skysnake

2012-06-16, 11:36:20

S940

2012-06-16, 14:13:08

Schweiz z.B.

Aber auch Deutschland stellt meines Wissens nach keine solchen Forderungen. Das Problem ist wohl eher, das sich AMD dann das USA Geschäft abschminken kann, und mit ziemlichen Repressalien innerhalb der USA zu rechnen hat. Fraglich ob Sie dann dort überhaupt noch verkaufen dürften usw usw .....
Naja, umgekehrt wird ein Schuh drauß:
Due to legal restrictions TPMs may not be deployed in a number of countries. Possible reasons for these legal restrictions include the fact that state security services may not be able to access data or keys secured with a TPM.

China (http://en.wikipedia.org/wiki/China)[9] (http://en.wikipedia.org/wiki/Trusted_Platform_Module#cite_note-TCG_presentation_low_cost_strong_authentication_with_tpm-8)[10] (http://en.wikipedia.org/wiki/Trusted_Platform_Module#cite_note-Technet-9)
Russia (http://en.wikipedia.org/wiki/Russia)[9] (http://en.wikipedia.org/wiki/Trusted_Platform_Module#cite_note-TCG_presentation_low_cost_strong_authentication_with_tpm-8)[10] (http://en.wikipedia.org/wiki/Trusted_Platform_Module#cite_note-Technet-9)[11] (http://en.wikipedia.org/wiki/Trusted_Platform_Module#cite_note-10)
Belarus (http://en.wikipedia.org/wiki/Belarus)[9] (http://en.wikipedia.org/wiki/Trusted_Platform_Module#cite_note-TCG_presentation_low_cost_strong_authentication_with_tpm-8)
Kazakhstan (http://en.wikipedia.org/wiki/Kazakhstan)[9] (http://en.wikipedia.org/wiki/Trusted_Platform_Module#cite_note-TCG_presentation_low_cost_strong_authentication_with_tpm-8)

http://en.wikipedia.org/wiki/Trusted_Platform_Module
http://www.trustedcomputinggroup.org/files/resource_files/346839FC-1A4B-B294-D00AFF9CB5A75CB4/TCG%20%20Seminar%20RSA%20Conference%202011%20Keynote.pdf

Kann mir nicht vorstellen, dass dieses TPM-Verbot nicht auf für Trustzone gelten sollte. Müsste man mal recherchieren, ob/wie das aktuell auf chin. Handys aktiv ist. Kernstück ist ja das "Secure OS". Falls es da ne chin. Version gäbe ...
Was ich mich auch frage: Was spricht gegen ein open source secure OS? Wenn da einige Linux Chef oder der CCC darüberschauen würde, wär wohl vielen wohler. Gibt doch auch ein extra gestähltes secure Linux (SELinux), das ist doch auch open source. Aber naja, da gehts ja nicht um DRM...

Ronny145

2012-08-06, 14:49:29

Being a late Q1 or early Q2 update leaves Kaveri for 2H/2013, something that SemiAccurate has been hearing was the schedule for a while now. The update to Trinity pretty much nails down Kaveri as later 2013, not the usual late spring release like v1.0 and Llano before that.
http://semiaccurate.com/2012/08/06/amd-to-update-trinity-to-trinity-2-0/

Vorher steht ein Trinity refresh in Q1/2013 an laut Charlie.

y33H@

2012-08-06, 14:58:36

Also gleiches Spiel wie mit Llano, hoffen wir, dass sich Kaveri nicht als dritte APU in Folge verzögert ...

Ronny145

2012-08-06, 15:02:08

Also gleiches Spiel wie mit Llano, hoffen wir, dass sich Kaveri nicht als dritte APU in Folge verzögert ...

Von Llano gab es kein refresh soweit ich weiß. Es sei denn, hier sind die üblichen 100-200 Mhz mehr CPU Takt gemeint, was ich nicht als refresh bezeichnen würde. Refresh wäre neues Stepping oder zumindest CPU+GPU Upgrades.

y33H@

2012-08-06, 15:50:49

Das ist Charlie Slang ... ich gehe davon aus bzw meinte schlicht ein Speedbump - so wie bei Llano eben.

S940

2012-08-06, 16:45:47

Das ist Charlie Slang ... ich gehe davon aus bzw meinte schlicht ein Speedbump - so wie bei Llano eben.

Ne, Trinity ist aktuell doch nur Rev. A1, da kommt ziemlich sicher noch ne Revision B hinterher. Llano war dagegen schon Rev. B

AnarchX

2012-09-19, 10:06:47

Kaveri wohl auch im Sockel FM2?
http://www.computerbase.de/news/2012-09/trinity-nachfolger-kaveri-auch-im-sockel-fm2/

mczak

2012-09-19, 16:24:32

Kaveri wohl auch im Sockel FM2?
http://www.computerbase.de/news/2012-09/trinity-nachfolger-kaveri-auch-im-sockel-fm2/
Naja ob FM2 oder FM2+ macht wohl eh keinen grossen Unterschied? Das klingt jedenfalls ziemlich kompatibel :-). Vielleicht hat man da irgendwo die Toleranzen verschärft so dass auch PCIE 3.0 mit Kaveri dann sauber läuft? Keine Ahnung wozu man sonst einen neuen Sockel bräuchte, es wäre wohl wirklich sinnvoll den bis zur Unterstützung von ddr4 zu behalten.

Leonidas

2012-09-20, 19:06:47

Vorher steht ein Trinity refresh in Q1/2013 an laut Charlie.

Was übersetzt bedeutet: Mehr Taktrate. Früher ein ganz alltäglicher Vorgang im CPU-Business, heute hochtrabend "Refresh" genannt.

S940

2012-09-21, 00:42:43

Was übersetzt bedeutet: Mehr Taktrate. Früher ein ganz alltäglicher Vorgang im CPU-Business, heute hochtrabend "Refresh" genannt.
Falls der Takt mit ner Revision Bx kommt kann man das schon Refresh nennen.
Falls nicht, geb ich Dir recht.

Ronny145

2012-09-21, 01:00:40

Kommt ja auch drauf an, was unter Takterhöhung zu verstehen ist. Die üblichen 100 Mhz mehr CPU Takt wären langweilig, solch kleine Updates werden eh immer nachgeschoben. Dagegen wäre bspw. 200 Mhz mehr CPU und +100 Mhz GPU nicht zu verachten. Im neuen Stepping wäre die Refresh Bezeichnung definitiv gerechtfertigt.

StefanV

2012-09-21, 01:24:28

Oder man bekommt so einen 'Stunt' wie beim K5 hin. Sprich dass man die IPC ein klein wenig erhöhen kann, durch das Erschlagen der Käfer...

Also 100-200MHz mehr CPU Takt und etwa 2% mehr IPC wären schon nicht schlecht ;)

SavageX

2012-09-21, 09:57:24

Oder man bekommt so einen 'Stunt' wie beim K5 hin. Sprich dass man die IPC ein klein wenig erhöhen kann, durch das Erschlagen der Käfer...

Na, das "ein klein wenig erhöhen" beim K5 war ja mehr als der Sprung von Bulldozer zu Piledriver, da stieg ja das Performance Rating gleich um 33%. ;)

StefanV

2012-09-21, 12:11:21

Na, das "ein klein wenig erhöhen" beim K5 war ja mehr als der Sprung von Bulldozer zu Piledriver, da stieg ja das Performance Rating gleich um 33%. ;)
Ja, da hast Recht, da hab ich etwas untertrieben ^^

Aber mal schauen, wie die Realität ausschaut, ob man an der IPC noch etwas schrauben kann, oder nicht (wahrscheinlich nicht, abe die Hoffnung stirbt ja bekanntlich zuletzt ;))

AnarchX

2012-10-14, 17:25:01

Kaveri erst 2014?
Rumors we’ve heard — and they are, let us stress, just rumors — are that AMD’s Kaveri tapeout was significantly delayed. If true, this would likely push the chip’s volume launch back into 2014. Worst-case, it means AMD’s first 28nm APU would launch against Broadwell, not Haswell.
http://www.extremetech.com/computing/137796-amd-executives-have-forgotten-how-to-run-a-company

dildo4u

2012-10-14, 17:27:01

Fuck ich hoffe das verzögert die PS4 nicht.

disap.ed

2012-10-14, 18:45:37

Vielleicht war das der Grund warum man (gerüchteweise) auf Jaguar-Cores umgeschwenkt hat?

y33H@

2012-10-14, 18:57:27

PS4 mit Jaguar? Bissi schwachbrüstig.

Ronny145

2012-10-14, 19:01:38

Rumors we’ve heard

Genauer ging das nicht? Das wäre extrem übel wenns stimmt.

Locuza

2012-10-14, 19:05:30

PS4 mit Jaguar? Bissi schwachbrüstig.
Als ich erste Rumors dazu gelesen habe, habe ich erst einmal gelacht, aber jetzt im Nachhinein scheint das gar nicht so abwegig.
Für die PS4 und Xbox3 hat irgendjemand Jaguar-Cores angegeben und bis zu 8 Stück davon.
Jetzt lässt man den Cache mit Clockspeed laufen, verändert hier und da was und dann ist das vielleicht ein besseres Angebot, billiger und rechtzeitig zur Verfügung.

y33H@

2012-10-14, 19:08:59

Selbst wenn es acht mit je 4C sind, die Dinge sind immer noch ziemlich lahm. Hmmm, bin ich mal gespannt.

Duplex

2012-10-14, 20:08:48

Kaveri erst 2014?

http://www.extremetech.com/computing/137796-amd-executives-have-forgotten-how-to-run-a-company
Dann kann man ja gleich mit den 20nm DIE Shrink anfangen, macht irgendwie kein sinn, Kaveri (Steamroller+GCN) & Kabini (Jaguar+GCN) sind fertig und warten nur noch auf die 28nm bulk Produktion, warum soll man jetzt das fertige Design 1 Jahr verschieben, nebenbei gibt es noch 28nm SOI oder wurde das etwa gestrichen? Es hieß doch das die 28nm Kapazitäten bei TSMC zum ende des Jahres sich deutlich verbessern sollten & 28nm von GF soll ähnlich wie 32nm funktonieren, natürlich hat der half-node Prozess auch kleine Vorteile gegenüber den aktuellen 32nm SOI.

Ronny145

2013-01-08, 12:55:56

An der Versprechung wird sich AMD messen lassen müssen: http://www.computerbase.de/bildstrecke/46507/6/

Ich glaube das nicht. Richland macht so kein Sinn für mitte des Jahres. Immerhin ist wohl damit die Aussage vom Clown widerlegt, dass Steamroller komplett gestrichen wäre.

Knuddelbearli

2013-01-08, 15:01:23

? was meinst du mit Versprechungen?

R.I.P.

2013-01-08, 15:05:37

? was meinst du mit Versprechungen?

Vice President Global irgendwas Su hat Kaveri für 2H2013 angekündigt, auch wenn sie scheinbar "starts shipping in..." gesagt hat, was Vieles bedeuten kann

Knuddelbearli

2013-01-08, 15:16:17

start shipping für oem bedeutet bei amd meist noch 4-6 monate wird also passen

aber wo steht das bitte in ronnys link? sehe da keinerlei zeitinfo

Ronny145

2013-01-08, 15:44:13

? was meinst du mit Versprechungen?

Die Versprechung Kaveri in 2H 2013 zu bringen, nichts anderes suggeriert AMD mit dieser Roadmap. Und so gut wie jede Webseite und jeder Forenuser geht jetzt davon aus, dass Kaveri dieses Jahr im Handel aufschlägt. Das bezweifle ich.

mboeller

2013-01-10, 16:02:40

http://www.pcper.com/reviews/Shows-and-Expos/AMD-CES-2013-Temash-Kabini-and-Kaveri-side-Sea-Islands

hier steht auch viel über den Kaveri drin. Also kopiere ich den Link auch mal hier rein.

Ronny145

2013-01-10, 16:40:27

Das Relevante ist folgendes:

AMD expects to start shipping Kaveri in a late Q4 timeframe this year. These parts will be desktop at first and will transition to mobile in 2014.

Also kein Kaveri dieses Jahr. So wie ich das vorausgesagt habe. Late Q4 shipping würde ein Produktlaunch frühestens Februar-März ermöglichen. Ich zweifle selbst den shipping Zeitraum an (die Betonung liegt auf expects). Aus Erfahrung raus werden die das nicht halten können. Das ist fast ein ganzes Jahr noch hin. Es gibt immer Anpassungen nach hinten, selbst Intel bleibt davor nicht verschont. Als realistischer Zeitraum ist ein Q2 2014 launch zu betrachten. 1 Jahr nach Richland, vorher imo unwahrscheinlich.

Dass AMD Kaveri überhaupt auf die 2013er Folie draufgepackt hat, soll wohl eher einen positiven Effekt auf Analysten und Medien zur Folge haben.

Schaffe89

2013-01-10, 21:29:35

Wenn Desktop zuerst kommt, hat dies aber zufolge dass das alles viel schneller gehen wird, als im mobilen Markt.
Ich rechen damit noch mit einem Start im ersten Quartal 2014.

Locuza

2013-01-10, 21:31:45

Oder mit einem Paperlaunch, dass ist aber immer noch alles besser, als die Vermutungen von (H1-) H2 2014.

S940

2013-01-29, 19:34:03

Kaveri doch mit neuem FM3-Sockel - Kompatibilität zu FM2 fraglich (http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?id=1359483666)

Knuddelbearli

2013-01-29, 19:58:55

hmm eventuell als Nachfolger für AM3+?

DDR3 dürfte erstmal eh nicht fürs billig Segment sein nichtmal fürs mainstream Segment erstmal

Wird also vermutlich einige zeit FM2 und FM3 parallel verkauft

S940

2013-01-29, 20:25:15

hmm eventuell als Nachfolger für AM3+?
Jo und natürlich als Nachfolger von C32 und FM2.
DDR4 dürfte erstmal eh nicht fürs billig Segment sein nichtmal fürs mainstream Segment erstmal
Wird also vermutlich einige zeit FM2 und FM3 parallel verkauft
Ja darauf spekuliere ich auch.

Knuddelbearli

2013-01-29, 21:54:26

naja fürs FM2 eben nicht da bleibt erstmal Richard als günstiger ableger

ebenso eventuel C32 rein fürs Server segment

könnte mir vorstellen das in zukunft jede desktop CPU als APU daherkommt dafür erstmal maximal 6 Kerne. und nur für Server als C32 mit 10-12 Kerne unter 28nm

Vermutlich stimmts nicht aber sinnvoll wärs ihmo. vor allem da AMD immer merh auf Tools beim erstellen setzt also es nicht mehr ganz so teuer ist verschiedene Chips für verschiedene Segmente zu bringen ( ok masken sind halt immer noch schweineteuer ) dafür spricht aber auch das AMD zuletzt immer A1 bringt

10-12 Kerne für Desktop hat halt das Problem das das sicher die teuerste CPU wird und AMD dann wieder nur daran gemessen wird.

Selbes ja auch aktuell bei Trinity. Der 5800K ist recht ineffizient der 5700 dagegen ist klasse fast gleich schnell aber 25W TDP weniger die auch so im echten Leben durchschlagen. Trotzdem hat insgesamt Trinity den ruf kein kostverächter zu sein

S940

2013-02-07, 01:30:24

naja fürs FM2 eben nicht da bleibt erstmal Richard als günstiger ablegerSorry ja, kurzfristig natürlich, aber langfristig nicht.
ebenso eventuel C32 rein fürs Server segment
Kostet nur, bringt nicht viel und AMD muss sparen ;-)

Naja mal schauen obs am Ende wirklich schon DDR4 wird oder doch nicht.

Der Herstellungs-Prozess wird auch interessant, auf ner aktuellen GF-Folie tauchte plötzlich 28SHP wieder aus der Versenkung auf :freak:

Mehr hier:
http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?id=1360178291

Also wohl eher nix mit bulk oder FD-SOI für Kaveri, sondern gut abgehangenes PD-SOI.

Knuddelbearli

2013-02-07, 01:30:54

http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?id=1360178291

28nm doch SOI?

langsam nervt es das man auch gar nichts weiss ... ^^

und richtig übel das es bei FD SOI wohl von 28nm direkt auf 14nm gehen soll aber nur sie können sie wohl aufholen wenn 28nm erst mitte 2014 ready sein soll

S940

2013-02-07, 01:33:22

30 sec. zu spät (und das um die Uhrzeit) *lach*

Knuddelbearli

2013-02-07, 01:34:32

haha! ^^

habe da schnell noch vorm schlafen gehen reingeschaut ^^

S940

2013-02-07, 01:37:28

Dann gute Nacht :)

Zum Thema 28SHP macht am meisten Sinn, gut, alt, bewährt. Das wurde bestimmt schon lange bezahlt, dran glauben musste wohl 20SHP.

Ein Restrisiko besteht natürlich, dass Kaveri doch nur in HPP käme, aber das ist wohl gering, bisher waren alle APUs in SOI und das ganze "Standardprozessgerede" von Letzens bezog sich sicherlich auf die übernächste 20/14er-Generation.

Außerdem braucht man die Steamrollerkerne für die Serverchips so oder so in SOI.

Knuddelbearli

2013-02-07, 07:51:41

Doofe Post *gähn*
naja zumindest anch fast 3,5 Monaten endlich mein Asus Board aus der RMA zurück ...

zumindest für APUs wäre das Risiko überschaubar sofern der BULK dann perfekt läuft
GPU profitiert ja soweit ich weiss nicht ansatzweisse so stark wie die CPU von SOI
Und auch ohne FinFets war Intels Fertigung auch bei selber Strukturgröße was die Höhe der Spannung angeht weit vorraus

HOT

2013-02-07, 09:31:37

Vor allem ist damit gekärt, wie Kaveri über 4GHz Takt schaffen wird, denn die braucht er ja, wenn er Richland bis oben hin ersetzen will. Mit SHP-Prozess geht das problemlos - bei LP wär das illusorisch gewesen und bei fdSOI hätte es länger gedauert. Dann waren Rory Reads Aussagen einfach über einen anderen Zeitraum zu sehen, nämlich für die post 28nm-Ära. Ist ja eigentlich auch logisch, dass die Verträge bei den Aussagen von Read schon lange unter Dach und Fach gewesen sein müssen. 20nm SHP ist ja wirklich ersatzlos gestrichen worden - 20nm Planar ist eh ineffizient und der PDSOI-Bonus kommt kaum noch zum Tragen AFAIK bei 20nm, das wär eh ein teures Abenteuer mit eher negativem Ausgang geworden. Dann gehts bei AMD bei 14nm FinFET, bestimmt auch mit fdSOI, weiter, denn man braucht einen Prozess, der über 4GHz skaliert auch in Zukunft.

mboeller

2013-02-07, 18:59:27

Mehr hier:
http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?id=1360178291

Zwar OT, aber ich will mich auf planet3dnow jetzt nicht extra anmelden:

Bei der ganzen Diskussion über Highend-CPU's von AMD/GF überseht ihr auf planet3dnow vielleicht ein kleines Detail:

alle neuen Prozesse von GF gehen von "wireless..." bis "High Performance Computing"; also über die gesamte Bandbreite. Das heißt für mich jetzt, das GF AMD auch weiterhin Herstellprozesse für Highend-CPU's zur Verfügung stellen wird. Kommt nur darauf an was AMD draus macht.

Und da die Prozesse (20LPM, 14XM, 10XM) jeweils die gesamte Bandbreite "als Standardprozess" überdecken bleibt ja eigentlich nur FD-SOI als Erklärung dafür übrig, oder? ;)

HOT

2013-02-07, 22:33:23

So seh ich das auch. Wenn das wirklich so gut ist, wie es den Anschein macht, wird es sicherlich standard werden.

S940

2013-02-07, 23:48:54

@mboeller:
Natürlich wirst Du nen high-end Prozessor auch in nem LP-Prozess herstellen können, aber ob Du damit dann auch high-end Taktraten erreichen kannst ist sehr fragwürdig. Für die Opterons würde es wohl reichen, aber nicht für FXe. Einziger Lichtblick ist eben FD-SOI, da kann man durch body-biasing gut was rausholen. Wahrscheinlich würde der Stromspareffekt das bisschen Verlust beim Taktspielraum locker aufwiegen.

Zuviel würde ich auf die Grafik aber auch nicht geben. Ja da sind Pfeile nach unten und oben, machen kann man sicherlich viel, aber obs auch Sinn macht ist ne andere Frage. Außerdem ist GF ja nicht gerade die Zuverlässigkeit in Person. Die haben auch Yield-Grafiken von 28nm HPP und SLP gezeigt, 2012 waren die demnach noch ziemlich schlecht, erst seit Q4/12 - Q1/13 ist es annehmbar. D.h. die Streichung von Krisha hat ziemlich sicher GF verbockt.

Meinst Du FD-SOI wäre die Erklärung für die Pfeile? Glaub ich eher nicht, das sind sonst alles bulk-Prozesse, der 14XM z.B. auch, GF bewirbt da v.a. Finfets, kein Wort zu FD-SOI in dem Kontext. Vor allem finde ich es auch komisch, dass FD-SOI da komplett in der Roadmap fehlt. Sonst haben sie doch wirklich jeden 28nm Prozess drin(*). Kombinieren könnte man FD-SOI und Finfets natürlich, aber ob das wer macht ... kA, IBM vielleicht. Aber selbst dann ist die Frage, ob AMD das dann auch nutzen darf.

(*)Frag mich gerade ob 28SHP vielleicht schlicht und einfach die Bezeichnung für FD-SOI ist, aber dann hätte der Vortragende Vizepräsident das eigentlich sagen sollen ... :confused:
Später bei den FD-SOI slides war davon dann auch nichts mehr zu sehen.

Locuza

2013-03-05, 17:41:28

Mal etwas interessantes:
http://www.brightsideofnews.com/news/2013/3/5/amd-kaveri-unveiled-pc-architecture-gets-gddr5.aspx

Damit wäre doch tatsächlich eine GDDR5 und Kaveri-Kombo möglich.

Sorkalm

2013-03-05, 17:57:00

Wohl insbesondere für Notebooks interessant. Da kriegt die GPU-Einheit gleich nochmal mehr Dampf und diskrete Grafiklösungen dazu werden immer uninteressanter.

Knuddelbearli

2013-03-05, 18:04:03

klingt gut, aber wenn dann lohnt sich das ja nur wenn es dafür einen komplett eigenen Chip gibt

GPU sollte dann ja auch deutlich größer sein so Richtung 7750 bis 7770

Gipsel

2013-03-05, 18:09:56

Mal etwas interessantes:
http://www.brightsideofnews.com/news/2013/3/5/amd-kaveri-unveiled-pc-architecture-gets-gddr5.aspx

Damit wäre doch tatsächlich eine GDDR5 und Kaveri-Kombo möglich.
BullShitNews halt. Bei den Datenraten ist das eher ein dual-channel DDR3/DDR4-Kombi-Controller als GDDR5. :rolleyes:
Er erzählt ja, das Datenraten von QDR 800 MHz und 850 MHz unterstützt werden. Das wären DDR4-3200 und DDR4-3400. DDR3-Support hört ja irgendwo bei DDR3-2400 oder so auf.
Edit: Gerade mal auf der JEDEC-Seite vorbei geschaut, DDR4-3200 ist momentan die höchste offizielle Spezifikation. Das paßt also perfekt.

Locuza

2013-03-05, 18:18:04

Gipsel

2013-03-05, 18:23:16

Huch, dann wären aber DDR4 auch eine erfreuliche Nachricht!
Gipsel weißt du eig. wie so ein DDR4 Controller aussieht bzw. wie aufwendig solche Dinger sein könnten?
Es gibt ja jetzt keine Channels mehr und jedes Modul wird einzeln angesteuert, heißt das, dass man jetzt flexibel 1-4 Leitungen verbauen kann oder muss man eine feste Anzahl verbauen?
Ein DIMM wird ja sehr wahrscheinlich weiterhin mit 64Bit angebunden sein. Wenn Du ein Dual-Channel Controller (128Bit) hast, kann man also entweder 1 DIMM (halbiert die Speicherbandbreite) oder 2 DIMMs dranhängen. Im Prinzip ändert sich nur, daß man ab sofort keine 2 oder gar noch mehr DIMMs pro Kanal benutzen darf, sondern immer nur einen.

Naitsabes

2013-03-05, 20:27:39

Heißt das also Mainboards mit mehr als 2 Speicherslots würden bei nem 128Bit Controller nicht mehr machbar sein?

OBrian

2013-03-05, 20:35:53

Ja, so gesehen wäre das sogar ein Rückschritt, weil man ja schlechter RAM erweitern kann (nicht einfach dazustecken, sondern immer austauschen). Aber mit signaltechnisch saubererem Kanal und vor allem der seriellen Übertragung lassen sich deutlich höhere Takte fahren, das bringt schon was, auch bei nur zwei "Kanälen" wie bisher.

Andererseits besteht auch die Möglichkeit (jedenfalls wenn AMD das im Sockel und im Speichercontroller so anlegt), daß Mainboardhersteller auch einen dritten oder gar vierten Riegel ermöglichen und so die Bandbreite um 50 oder gar 100% steigern. Damit wäre die integrierte Grafik dann super versorgt.

Ist natürlich eine Preisfrage. Wird nur dann kommen, wenn ein DDR4-Link (von Kanal kann man wohl nicht mehr reden, oder?) deutlich einfacher auf der Platine unterzubringen ist als ein bisheriger DDR3-Speicherkanal.

Andererseits ist DDR4 anfangs eh dem High-End-Bereich vorbehalten, weil schon der RAM so viel mehr kosten wird (so wie üblich bei jeder neuen Speichersorte). Da dürften ein paar Dollar mehr für ein aufwändigeres PCB auch noch erlaubt sein.

Heißt das also Mainboards mit mehr als 2 Speicherslots würden bei nem 128Bit Controller nicht mehr machbar sein?
Genau, bei DDR4 hängen in einem Kanal nicht mehr wie bisher mehrere Speicherriegel, sondern genau einer. Die Anbindung ist insgesamt komplett anders gestrickt, sehr gut vergleichbar mit dem Unterschied zwischen Parallel ATA und SATA, bei letzteren gibt es ja auch nur noch ein Gerät pro Port.

Das Kapazitätsproblem (bisher konnte man ja mit registered RAM einfach praktisch beliebig viele DIMMs reinhängen, was ja im Serverbereich extrem nötig ist, RAM geht da meist als erstes aus) will man übrigens mit stacked dies begegnen, also vereinfacht gesagt man druckt dieselben Schaltkreise mehrfach übereinander auf dasselbe Die. Der Trick hat mit DDR4 erstmal wenig zu tun, aber da das ungefähr zeitgleich passieren soll, hofft man, längerfristig mit dem einen Riegel pro "Kanal" auszukommen.

Gipsel

2013-03-05, 21:03:41

So viel anders als DDR3 funktioniert DDR4 nun auch nicht. Der Unterschied ist sogar eher kleiner als von DDR2 nach DDR3. Aber man bekommt höhere Frequenzen eben nicht mehr stabil hin, wenn mehrere Lasten auf einem Bus sitzen. Deswegen wird das mit DDR4 abgeschafft. Als Schwachstelle bleibt noch der Steckplatz. Mit aufgelötetem RAM wäre nochmal deutlich mehr drin (siehe GDDR5).

john carmack

2013-03-05, 22:03:01

Knuddelbearli

2013-03-05, 22:40:41

hmm bin mal echt so langsam auf die DDR4 Preise gespannt ^^

bei maximal doppelten Preis gegenüber DDR3 jetzt wäre ich vermutlich sogar in Versuchung wenn es OC dann ne Performance über 7770 gibt ^^

S940

2013-03-05, 22:43:11

So viel anders als DDR3 funktioniert DDR4 nun auch nicht. Der Unterschied ist sogar eher kleiner als von DDR2 nach DDR3.Würde ich nicht sagen, da gibts schon ein paar Kleinigkeiten, die anders geregelt werden. Und dann insbesondere das 1DImm-Limit, das ja hier besprochen wird, das ist doch ein deutlicher Unterschied ;-)
Viel passiert nicht, aber es passiert mehr als von DDR2 -> 3.

Skysnake

2013-03-07, 10:14:08

ndrs

2013-03-07, 11:09:12

Hat DDR4 nicht differenzielle Leitungspaare jetzt, und eben auch training? Das macht ja das Boarddesign VIEL einfacher.
Zumindest ist das Interface selber jetzt nicht mehr parallel, sondern besteht aus mehreren Punkt-zu-Punkt-Verbindungen, wie bei PCIe. Der Controller macht das ganze dann wieder parallel. Die Maßnahme sollte das Layout auch schon stark vereinfachen.
Von differentiellen Leitungen hab ich noch nix gelesen. Und was meinst du mit Training (genauere Bezeichnung oder Wiki-Link reicht mir :) )?

Gipsel

2013-03-07, 12:00:02

Zumindest ist das Interface selber jetzt nicht mehr parallel, sondern besteht aus mehreren Punkt-zu-Punkt-Verbindungen, wie bei PCIe. Der Controller macht das ganze dann wieder parallel. Die Maßnahme sollte das Layout auch schon stark vereinfachen.Außer daß Du nur ein DIMM pro Kanal reinstecken kannst, ändert das praktisch nicht viel. Ja, das vereinfacht das Layout im Prinzip etwas, aber das wird durch die höheren Frequenzen gleich wieder aufgefressen. Und für DDR3-2400 oder so funktioniert auch am besten mit nur einem Modul pro Kanal.
Ein Unterschied ist, daß ein Modul optional in "bank groups" unterteilt sein kann (2 oder 4), die sich mehr oder weniger individuell ansteuern lassen, also ein 64bit breiter DDR4-DIMM kann also in 2 bank groups unterteilt sein. Dies bringt Vorteile bei Zugriffen mit geringer Granularität. Dies paßt vielleicht zu dem, was BSN geschrieben hat (vier 32 Bit Controller, wovon zwei allerdings immer zusammenarbeiten, sprich: Kaveri könnte 2 bank groups pro DIMM unterstützen, je nachdem wie BSN das verstanden hat).
Von differentiellen Leitungen hab ich noch nix gelesen. Und was meinst du mit Training (genauere Bezeichnung oder Wiki-Link reicht mir :) )?Clock und Strobes sind differentiell, die Datenleitungen nicht (bei GDDR5 übrigens auch nicht, differential GDDR5 wäre eine Option, wenn man über 7Gbps kommen will).
Das Training mißt die Phasenverschiebungen zwischen Takt-, Adress-, Strobe- und Datensignalen, so daß diese kompensiert werden können. Dies ermöglicht die Erreichung höherer Takte und vereinfacht das Layout (weil Weglängenunterschiede oder leicht unterschiedliche Impedanzen der Leitungen [verursacht beides veränderte Signallaufzeiten] kein Hindernis mehr darstellen).

Von Micron kommen übrigens diese Grafiken:

http://www.abload.de/img/ddr3_ddr4_gddr5ovsjw.png

http://www.abload.de/img/dram_feature_matrixxusn8.png

Die DDR4 Specs sind auf der JEDEC-Seite übrigens kostenlos einsehbar, falls sich irgendwer da durch wühlen will.

Skysnake

2013-03-07, 13:38:13

Danke Gipsel, besser hätte ich es auf die Schnelle auch nicht erklären können :up:

Hast du aber was du den Datenleitungen? Ich bin mir recht sicher mal gelesen zu haben, dass die auch differenzielle Paare werden/sein sollen bei DDR4

Gipsel

2013-03-07, 14:03:18

Hast du aber was du den Datenleitungen? Ich bin mir recht sicher mal gelesen zu haben, dass die auch differenzielle Paare werden/sein sollen bei DDR4Die Datenleitungen sind definitiv single ended. Sind sie bei GDDR5 ja auch. Ansonsten würde man kaum mit der nur sehr mäßig steigenden Leitungsanzahl auskommen. Steht auch in der DDR4-Spec. Wie gesagt kann man sich die bei www.jedec.org (http://www.jedec.org/standards-documents/results/jesd79-4%20ddr4) kostenlos runterladen. ;)

AnarchX

2013-03-07, 14:08:52

Wohl möglich doch GDDR5: http://www.brightsideofnews.com/news/2013/3/6/analysis-amd-kaveri-apu-and-steamroller-core-architectural-enhancements-unveiled.aspx

DrumDub

2013-03-07, 14:18:02

Ronny145

2013-03-07, 14:24:57

guck mal, was gipsel zu dieser news oben geschrieben hat. ;)

Zu der News hat er nichts geschrieben.

DrumDub

2013-03-07, 14:32:07

Zu der News hat er nichts geschrieben. ok. mein fehler.

Gipsel

2013-03-07, 14:47:17

Wohl möglich doch GDDR5: http://www.brightsideofnews.com/news/2013/3/6/analysis-amd-kaveri-apu-and-steamroller-core-architectural-enhancements-unveiled.aspx
Das Ding würde ich gerne mal selber lesen.
Ich denke übrigens, da sind noch ein paar Fehler drin. Deswegen interpretiert der Author es ja auch falsch, daß die Anzahl der FP pipeline Stages von vier auf drei gehen würde (es sind aber mehr als 4 FP-Stages ;)). Es gibt momentan allerdings 4 FP/SIMD Pipelines und diese Anzahl der Pipelines wird auf drei reduziert. Also wer weiß, was man davon halten soll.

Im Übrigen sind DDR3/4/GDDR5 alle nicht so weit voneinander entfernt, als daß man nicht einen Kombicontroller für alle da hinstellen könnte. Also eventuell gibt es die Option, in irgendwelchen AIO-Systemen den RAM direkt auf der Platine zu verlöten und dann GDDR5 zu benutzen. Das würde sich aber nur lohnen, wenn GDDR5 billiger wäre als DDR4 (den kann man ja auch auflöten). Das halte ich allerdings eher für zweifelhaft. Und die von BSN genannten Übertragungsraten sprechen wie gesagt am Meisten für DDR4. GDDR5 mit 3,2-3,4 Gbps wäre irgendwie ziemlich lahm. Da waren ja die allersten GDDR5-GPUs vor einigen Jahren bereits schneller.

Knuddelbearli

2013-03-07, 14:49:50

hmmm habe ich es nur überlesen oder wurde das hier noch gar nicht genannt ?

Laut PCGH-Heft hat AMD gesagt das Kaveri in 28nm SHP PD-SOI kommt

Duplex

2013-03-07, 15:23:43

Von P3DNOW
http://www.planet3dnow.de/vbulletin/showpost.php?p=4744072&postcount=615

BSN hat einen Artikel über Kaveri und Steamroller. Infos stammen angeblich von "Preliminary BIOS and Kernel Developer's Guide for AMD Family 15h Models 30h-3Fh Processors"

2-3 CUs (4-6 "Kerne")
GDDR5 SI
96 KB L1I, 3-fach assoziativ
virtualisierter Interrupt Controller
Onion Interface auf 256-bit verbreitert

IPC Verbesserungen:

Store to load forwarding optimization
Dispatch and retire up to 2 stores per cycle
Improved memfile, from last 3 stores to last 8 stores, and allow tracking of dependent stack operations.
Load queue (LDQ) size increased to 48, from 44.
Store queue (STQ) size increased to 32, from 24.
Increase dispatch bandwidth to 8 INT ops per cycle (4 to each core), from 4 INT ops per cycle (4 to just 1 core). 4 ops per cycle per core remains unchanged.
Accelerate SYSCALL/SYSRET.
Increased L2 BTB size from 5K to 10K and from 8 to 16 banks.
Improved loop prediction.
Increase PFB from 8 to 16 entries; the 8 additional entries can be used either for prefetch or as a loop buffer.
Increase snoop tag throughput.
Change from 4 to 3 FP pipe stages.

Triple Modul Steamroller ist nicht schlecht, das sind immerhin 50% mehr Kerne als Trinity (20% mehr IPC ?)

Wenn die IPC um 20% steigen würde und der CPU Takt der APU bei 4Ghz liegt, dann sind 6 Threads ca. 20% schneller 6 Piledriver Kerne.

AnarchX

2013-03-07, 15:25:48

GDDR5 mit 3,2-3,4 Gbps wäre irgendwie ziemlich lahm. Da waren ja die allersten GDDR5-GPUs vor einigen Jahren bereits schneller.
Vielleicht baut man GDDR5-DIMMs. ;D

Knuddelbearli

2013-03-07, 15:30:42

also wenn Kaveri echt so kommt und dazu 512 GCN Shader dann wow

damit sollte man so ziemlich alles aufm TV in Full HD spielen können

robbitop

2013-03-07, 15:52:50

Naja die Modulanzahl müssen sie hochschrauben, schließlich soll es ja keine reinen CPUs mehr geben sondern nur noch APUs. Mit 2x Modulen als maximale Ausbaustufe könnten sie einpacken.

Eine Version mit GDDR5 fände ich schlau: immerhin haben sie damit das Bandbreitenproblem gelöst und man hätte gleich eine brauchbare GPU für Laptops an Board. Allerdings werden größere RAM Ausbaustufen damit teurer. Aber das kann der Vendor/Kunde ja selbst auswählen.

IPC mäßig dürfte sich bei Kaveri ja auch noch einiges tun. Klingt insgesamt interessant.

Gipsel

2013-03-07, 19:33:14

Vielleicht baut man GDDR5-DIMMs. ;D
Wie jemand bei P3D rausgefunden hat, gibt es tatsächlich eine Norm für SO-DIMMs mit GDDR5M (gemeinsam mit DDR4, sind nur anders keyed, wenn ich das richtig sehe). Also wenn DDR4 zu teuer wird, könnte man GDDR5 auf die SO-DIMMs setzen. Insbesondere für kleinere Kapazitäten (ein 64 Bit SO-Dimm kann mit den verfügbaren 4GBit-Chips maximal 2 GB groß sein) ist das zumindest am Anfang eventuell sogar billiger. Wegen der Steckkontakte macht dann sogar wieder der niedrigere Takt Sinn.

Oder BSN ist vollkomen auf dem falschen Dampfer und AMD plant in Konkurrenz zu Crystalwell bei intel Kaveri mit einem optionalen 128Bit GDDR5 Sideport auszustatten. 4 GDDR5 Chips direkt mit auf dem Package könnten allerdings platztechnisch knapp werden (oder FM3 wird größer). Aber damit wären dann 1 oder 2 GB VRAM drin. http://www.techpowerup.com/img/11-05-03/17a.jpg
Ob das angesichts des mit Kaveri eingeführten gemeinsamen Adressraums viel Sinn macht, wäre wohl abzuwarten.

Edit:
Hier hat Hynix (http://sites.amd.com/us/Documents/TFE2011_006HYN.pdf) GDDR5M übrigens explizit als Zwischenlösung für den Mainstream beim Übergang von DDR3 zu HBM genannt und behauptet, sie arbeiten mit AMD daran. Und gehostet wird die Präsentation bei AMD. :|
GDDR5M soll es laut Hynix übrigens auch mit x8 Interface geben, wodurch man mehr Chips (8) pro DIMM ermöglicht.

S940

2013-03-07, 22:07:47

Edit:
Hier hat Hynix (http://sites.amd.com/us/Documents/TFE2011_006HYN.pdf) GDDR5M übrigens explizit als Zwischenlösung für den Mainstream beim Übergang von DDR3 zu HBM genannt und behauptet, sie arbeiten mit AMD daran. Und gehostet wird die Präsentation bei AMD. :|
GDDR5M soll es laut Hynix übrigens auch mit x8 Interface geben, wodurch man mehr Chips (8) pro DIMM ermöglicht.
Jupp, und Hynix hat die Chips auch schon auf der Roadmap, Available Q3/13 (wann kommt nochmal Kaveri .... ^^) :
http://www.skhynix.com/inc/pdfDownload.jsp?path=/datasheet/Databook/Databook_1Q%272013_GraphicsMemory.pdf

Was auffällt sich die geringeren Datenraten, schon ab 3,2 GT/s. Die 800/850 MHz QDR der ersten Meldung von BSB könnten sich also doch auf GDDR5 beziehen, genauer gesagt auf GDDR5M mit 3,2/3,6 GT/s.

Frag mich nur, wieso man nicht gleich DDR4 nimmt .. was wollen sie mit GDDR5? So kompliziert kann DDR4 auch nicht sein, wenn der SPeicherkontroller DDR3 und GDDR5 kann. Du hattest ja erst die Übersicht hier gepostet:

http://www.abload.de/img/ddr3_ddr4_gddr5ovsjw.png

Da sind fast alle DDR4-Features auch schon bei DDR3 oder bei GDDR5 zu finden.

Aber gut - vielleicht kam die finale DDR4 Spec. etwas zu spät für Kaveri. Geplant war er ja schon Für Anfang 2013. Vielleicht dann mit der nächsten Revision und/oder die ATi-Leute sind halt firm @GDDR5, das können sie im Schlaf ;-)

S940

2013-03-08, 03:52:43

Laut PCGH-Heft hat AMD gesagt das Kaveri in 28nm SHP PD-SOI kommtWürde mich nicht wundern nachdem GF 28nm SHP angekündigt hat. Aber wo haben sie das gesagt? Privatinterview mit PCGH?

HOT

2013-03-08, 08:24:21

Vielleicht baut man GDDR5-DIMMs. ;D
Weniger. Es wird denke ich eine fest verlötbare Variante geben wie bei Kabini. Die unterstützt dann GDDR5 der Einfachheit halber. Das ist vor allem ne interessante Mobil-Lösung. Auf dem Desktop wirst nur DDR3/4 sehen. Endlich mal wieder ein abwärtskompatibler Prozessor :D.

Aber ein Gedanke ist auch interessant; jetzt wo Kaveri als 3-Moduler kommt, könnte es sein, dass es gar keinen Serverprozessor abseits dessen mehr geben könnte, also keinen Vishera-Nachfolger. Dann kommt FM3 einfach mir mehr Rumms in der VRM und 2014 kann dann einfach ein Kaveri mit 4 Modulen hinzukommen. Damit hätte man nur noch eine Plattform, was man ja immer wollte. Im Serverbereich pappt man wieder zwei davon zusammen und fertig. Bis dahin wird man auch nichts am Fertigungsprozess ändern.
Zudem kommt noch, dass man sich fragt, welche Konfigurationen gibt es? 3 Module deuten auf ein separates Die hin, das würde dann aber sicher eher 4 beinhalten, von denen eins deaktiviert ist. Vllt. sind auch 3 Konfigurationen denkbar:
2 Module + kleine GCN (512 1/16) (Q4/2013), 4 Module + kleine GCN (512 1/4 DP/SP) (Q2 2014) und 2 Module + fette GCN (1024 1/16) (Q4 2014) für Mobil mit GDDR5, so als Broadwell-Antwort.

y33H@

2013-03-08, 09:43:23

Würde mich nicht wundern nachdem GF 28nm SHP angekündigt hat. Aber wo haben sie das gesagt? Privatinterview mit PCGH?Das basiert auf deiner Meldung, Alex.

Undertaker

2013-03-08, 09:55:03

Vllt. sind auch 3 Konfigurationen denkbar:
2 Module + kleine GCN (512 1/16) (Q4/2013), 4 Module + kleine GCN (512 1/4 DP/SP) (Q2 2014) und 2 Module + fette GCN (1024 1/16) (Q4 2014) für Mobil mit GDDR5, so als Broadwell-Antwort.

1024 GCN-Shader erscheinen mir im Mobilbereich in 28nm nicht realisierbar bzw. sinnvoll. Eine HD 7750 mit 512 Shadern / 800 MHz liegt bei maximal bei rund 50 Watt. In einer typischen Mobil-CPU (35 W TDP) hast du ein sinnvolles Budget von max. 15-20 W, der Rest geht auch im extremsten GPU-Limit für CPU-Kerne und I/O drauf. Ziehen wir von den 50 W ein bisschen was für Speicher und Board ab, erscheinen mir ~400-500 MHz bei den genannten 15-20 W denkbar. Da macht es wenig Sinn, noch niedriger zu takten und 1024 Shader zu verbauen.

Edit: Kaveri dürfte, wo Richland erst jetzt im März kommt, ohnehin wohl erst 2014 erscheinen. Ich tippe auf Q1/2014, dann aber auch gleich parallel für Desktops und Mobil.

HOT

2013-03-08, 13:24:59

1024 GCN-Shader erscheinen mir im Mobilbereich in 28nm nicht realisierbar bzw. sinnvoll. Eine HD 7750 mit 512 Shadern / 800 MHz liegt bei maximal bei rund 50 Watt. In einer typischen Mobil-CPU (35 W TDP) hast du ein sinnvolles Budget von max. 15-20 W, der Rest geht auch im extremsten GPU-Limit für CPU-Kerne und I/O drauf. Ziehen wir von den 50 W ein bisschen was für Speicher und Board ab, erscheinen mir ~400-500 MHz bei den genannten 15-20 W denkbar. Da macht es wenig Sinn, noch niedriger zu takten und 1024 Shader zu verbauen.

Ok, 1024 war etwas zu optimistisch. Dann streich die letzte Variante.

Edit: Kaveri dürfte, wo Richland erst jetzt im März kommt, ohnehin wohl erst 2014 erscheinen. Ich tippe auf Q1/2014, dann aber auch gleich parallel für Desktops und Mobil.
Man wird auf biegen und brechen am Erscheinungstermin festhalten. Die CPU ist wichtig für HSA. Das gilt aber sicher nur für den 2-Moduler.
Außerdem ist es nicht unwahrscheinlich. Zwar ist Richland ab März am Start, jedoch ist da nicht soviel Entwicklungsarbeit hineingeflossen, dass er unbedingt das Jahr überbrücken muss. Den Zeitraum kannst du eh zu Trinity hinzuzählen, dann passt Kaveri doch prima. Und die Fertigung wird man ab Jahrensmitte ziemlich sicher so im Griff haben, dass man mit der Massenfertigung beginnen kann. Ich denke, dass man getrost davon ausgehen kann, dass Kaveri ab Q4 in Massen für alle Plattformen verfügbar sein wird.

Ronny145

2013-03-08, 13:30:37

Man wird auf biegen und brechen am Erscheinungstermin festhalten.

Was bedeuten würde Q1 2014 im Bestfall. AMD will spät in Q4 erst die Desktop Varianten ausliefern. Vor Februar oder März wird es da keine Verfügbarkeit geben, außer AMD strebt einen paper launch an. Ich tippe eh auf eine Verschiebung. Die kann man immer einplanen.

OBrian

2013-03-08, 13:51:38

Ronny145

2013-03-08, 13:55:34

Ich nehme mal an, Notebookvarianten werden den Vorzug erhalten. Die Notebookhersteller brauchen ja auch immer eine Weile, bis sie damit dann Notebooks verfügbar haben, und das Weihnachtsgeschäft wird man unbedingt mitnehmen wollen. Desktopprodukte kann man kurzfristiger in den Markt geben, und die einzeln verfügbaren machen ja auch nur relativ geringe Stückzahlen aus.

Könnte man denken, nur hat AMD genau das Gegenteil erzählt.

AMD expects to start shipping Kaveri in a late Q4 timeframe this year. These parts will be desktop at first and will transition to mobile in 2014. AMD wants (and needs) to get these parts out in a timely manner, and they are pulling in the launch as much as possible. Hence the desktop first release while they refine production to be able to adequately address the mobile space. Achieving good bins and yields at the higher TDP is easier than trying to hit those numbers for a 35 watt and below product line.

S940

2013-03-08, 14:14:05

Das basiert auf deiner Meldung, Alex.
Lol, das hatte ich befürchtet :freak:

Könnte man denken, nur hat AMD genau das Gegenteil erzählt.Jupp, bei nem schnellen Marktstart ist das ebenfalls normal. Mobile-Dies muss man ja erstmal etwas länger sortieren, bis man ne nennenswerte Lagerstückzahl erreicht. Wenn man ein Produkt gleich auf den Markt wirft, dann die 08/15 95W Teile. Die bekommen einfach ne hohe Vcore verpasst, die Stabilitätstests laufen dann bei fast allen Dies durch, noch verpacken und fertig.

Knuddelbearli

2013-03-08, 14:17:54

In der PCGH steht:
Auf dem "Common Platform Technology"-Forum gab GloFo jedoch bekannt das AMD auf SHP setzen würde.
[...]
SHP ist ein PD-SOI Prozess[...]

|MatMan|

2013-03-08, 19:14:32

Man wird auf biegen und brechen am Erscheinungstermin festhalten. Die CPU ist wichtig für HSA.
Was ist denn so wichtig an HSA? Wie soll man damit mehr APUs verkaufen? Hat man ne Killer-App in der Tasche (was sollte das sein?)? Klar, interessant ist HSA, finde ich auch. Samples an Entwickler kann man aber auch so verteilen...

Wenn dann wäre HSA doch eher für den HPC- als für den Desktop-Markt wichtig, oder übersehe ich da gerade was?

StefanV

2013-03-08, 20:42:03

Wenn dann wäre HSA doch eher für den HPC- als für den Desktop-Markt wichtig, oder übersehe ich da gerade was?
Jop, neue Features in Spielen, die jetzt nicht möglich sind, da der Weg von CPU zur GPU zu lang ist.

Bei der HSA Architektur hängen CPU und GPU zusammen, so dass man beide Einheiten zusammen etwas berechnen lassen kann. Letztendlich wird die GPU das gleiche Schicksal wie die FPU einst erfahren - früher irgendwo auf dem Board platziert, heute integrierter Bestandteil des Prozessors...

|MatMan|

2013-03-09, 12:52:25

Jop, neue Features in Spielen, die jetzt nicht möglich sind, da der Weg von CPU zur GPU zu lang ist.

Bei der HSA Architektur hängen CPU und GPU zusammen, so dass man beide Einheiten zusammen etwas berechnen lassen kann. Letztendlich wird die GPU das gleiche Schicksal wie die FPU einst erfahren - früher irgendwo auf dem Board platziert, heute integrierter Bestandteil des Prozessors...
Ich weiß wofür HSA steht, danke. Glaubst du wirklich es wird ein AAA Spiel kommen, welches HSA speziell nutzt? Zeitnah zum Kaveri Launch meine ich natürlich. Bei AMDs Marktanteil wäre das ja noch wahnsinniger als GPU-PhysX zu unterstützen :freak:

dildo4u

2013-03-09, 12:55:42

Ich weiß wofür HSA steht, danke. Glaubst du wirklich es wird ein AAA Spiel kommen, welches HSA speziell nutzt? Zeitnah zum Kaveri Launch meine ich natürlich. Bei AMDs Marktanteil wäre das ja noch wahnsinniger als GPU-PhysX zu unterstützen :freak:
PC spielt wie immer keine Rolle,HSA wird ein Thema weil die PS4 eine AMD APU nutzt,PC Port's könnten da Verhältnismäßig besser auf APU's laufen(Vs Sub 100€ GPU's) aber natürlich wird man nicht gegen externe 400€,200Watt GPU's anstinken können.Wie immer wird das Problem am PC mit Brute Force gelöst.

Undertaker

2013-03-09, 13:06:41

Sicher, dass die PS4 wirklich schon auf einen gemeinsamen Adressraum für CPU und GPU setzt?

dildo4u

2013-03-09, 13:11:09

Die anderen Jaguar SOC's können es wüsste nicht warum man das bei der PS4 streichen sollte,laut AMD kommen die PC APU's mit GCN eh schon Monate vor der PS4.

y33H@

2013-03-09, 13:13:23

Dazu habe ich bisher nichts gefunden, laut AMD kommt der gemeinsame Adressraum bzw kohärenten Speicher erst mit Kaveri - bei Kabini gibt's das trotz GNC afaik nicht.

dildo4u

2013-03-09, 13:15:15

Gipsel

2013-03-09, 13:21:16

Bei Temash steht es nich bei Kabini schon,denke mal die PS4 wird eher diese Konfig als die des Tablet SOCs nutzen.

http://images.anandtech.com/doci/5491/Screen%20Shot%202012-02-01%20at%202.14.03%20PM_575px.png
Temash und Kabini benutzen das gleiche Silizium. Da kann es also keinen prinzipiellen Unterschied geben.

dildo4u

2013-03-09, 13:22:48

Kann man Funktionen abschalten um Strom zu sparen könnte beim Tablet SOC Sinn machen.

Locuza

2013-03-09, 13:31:48

Ich denke nicht das ein Copy-Overhead energetisch sparsamer ist, als ein gemeinsamer Adressraum.

y33H@

2013-03-09, 13:37:39

@ dildo4u

Bei der Roadmap steht nichts von HSA für Kabini+Temash, auf der CES-Slide hieß es zudem "HSA Features arrive on Kaveri (http://www.pcgameshardware.de/CPU-Hardware-154106/News/AMD-Mobile-Roadmap-2013-Benchmarks-1042865/galerie/2027537/)".

Gipsel

2013-03-09, 13:39:54

dildo4u

2013-03-09, 13:43:14

Enttäuschend aber die PS4 nutzt ja ein Custom Chip,hoffe die Features sind drinn,die 360 war ja Featuremäßig auch weiter als die Desktop GPU's in 2005.

mboeller

2013-03-09, 20:08:59

Edit: Kaveri dürfte, wo Richland erst jetzt im März kommt, ohnehin wohl erst 2014 erscheinen. Ich tippe auf Q1/2014, dann aber auch gleich parallel für Desktops und Mobil.

Wo steht das Kaveri Richland ersetzt?
Vielleicht lebt ja der Richland als Mainstream-APU weiter während Kaveri als Highend vermarket wird. Mit DDR4 od. GDDR5 sollte Kaveri zumindest bei Spielen ja glatt doppelt so schnell sein wie Richland. Damit kannst du beide APU's doch gleichzeitig vermarkten.

Lowend = Kabini
Midrange/Mainstream = Richland
Highend = Kaveri

wäre zumindest meine Idee

y33H@

2013-03-09, 20:15:27

Tja, aber auf der oben abgebildeten (zugeben älteren) Folie steht es eben auch bei Kabini.Nein, die Klammer mit dem HSA Text ist bei Kaveri, nicht bei Kabini + Temash.

Gipsel

2013-03-09, 20:35:40

Nein, die Klammer mit dem HSA Text ist bei Kaveri, nicht bei Kabini + Temash.Ich meinte nicht die Klammer sondern den Text direkt in der Kabini-Kachel, der bezüglich HSA identisch zu Kaveri ist.

Undertaker

2013-03-09, 20:50:50

Wo steht das Kaveri Richland ersetzt?
Vielleicht lebt ja der Richland als Mainstream-APU weiter während Kaveri als Highend vermarket wird. Mit DDR4 od. GDDR5 sollte Kaveri zumindest bei Spielen ja glatt doppelt so schnell sein wie Richland. Damit kannst du beide APU's doch gleichzeitig vermarkten.

Lowend = Kabini
Midrange/Mainstream = Richland
Highend = Kaveri

Kann ich mir nicht so recht vorstellen - 3 verschiedene Designs und Sockel für den Mobilbereich? Das kann kaum rentabel sein...

Kaveri dürfte zu Beginn übrigens sicherlich erst einmal mit einer DDR3-Version starten (schon aus Kostengründen für den Speicher). GPU-Leistung sehe ich auch mit DDR4/GDDR5 maximal 50-60% über Richland (3DM11: P1400 laut AMD). Man kann sich hier grob an der HD 7770M orientieren, die mit GDDR5 und 675 MHz Kerntakt (512 GCN-Shader) ~70% schneller als Richland ist.

Knuddelbearli

2013-03-09, 20:56:17

vermutlich wirds eh so ablaufen wie AM2+ und AM3

Anfangs nur DDR3 für FM2 ( mit eventuell beschränkter TDP falls sie was and er Spannungsversorgung ändern )
später dann mit Kombi für FM2+3

mboeller

2013-03-09, 21:58:21

Kann ich mir nicht so recht vorstellen - 3 verschiedene Designs und Sockel für den Mobilbereich? Das kann kaum rentabel sein...

Kaveri dürfte zu Beginn übrigens sicherlich erst einmal mit einer DDR3-Version starten (schon aus Kostengründen für den Speicher). GPU-Leistung sehe ich auch mit DDR4/GDDR5 maximal 50-60% über Richland (3DM11: P1400 laut AMD). Man kann sich hier grob an der HD 7770M orientieren, die mit GDDR5 und 675 MHz Kerntakt (512 GCN-Shader) ~70% schneller als Richland ist.

Es muss ja nicht nur für Mobile sein, sondern auch für den Desktop.

Richland wird ja nicht auf ewig unterstützt werden sondern übergangsweise (0,5 - 1 Jahr); hätte ich wohl dazu schreiben sollen. GDDR5 od. DDR4 sollte ja spätestens 2015 vom Preis her Mainstream sein und damit Richland überflüssig sein.

Ohne GDDR5 od. DDR4 wird Kaveri seine bessere Hardware bei Spielen ja leider nicht richtig ausspielen können. Mit DDR3 hängt ja selbst Trinity (bei DDR3-1866) noch ein wenig am Bandbreitenlimit. Kaveri mit DDR3-2133 ist dann höchstens 20-25% schneller da GCN ja etwas bandbreitenschonender ist als VLIW4.

noch eine Frage:
auf BSN steht was von dem "PCIe Endpoint Mode" und der "Torrenza initiative". Handelt es sich dabei um einen Hinweis auf einen kohärenten Bus, den AMD ja benötigt um HSA im Serverbereich bei Multi-APU Systemen richtig benutzen zu können (wurde zumindest in einem Forum mal angeschnitten)?

S940

2013-03-09, 23:03:17

noch eine Frage:
auf BSN steht was von dem "PCIe Endpoint Mode" und der "Torrenza initiative". Handelt es sich dabei um einen Hinweis auf einen kohärenten Bus, den AMD ja benötigt um HSA im Serverbereich bei Multi-APU Systemen richtig benutzen zu können (wurde zumindest in einem Forum mal angeschnitten)?
Das ist BSN BS ...

Das Eine hat mit dem Anderen nicht viel zu tun. Zwar waren bei Torrenza auch PCIe-Beschleuniger mit dabei, aber das war mehr oder minder nur Beiwerk, die Hauptsache waren kohärente Beschleuniger, die entweder über HTX angeschlossen wurden, oder gleich Chips, die in den Opteron-Sockel gepasst hätten. In ferner Zukunft war Chip-Integration geplant. Wenn man so will, dann kann man HSA als Torrenza 2.0 sehen, denn da haben wir ja jetzt endlich die Integration und kohärenten Speicher.

Die BSN Typen haben da wohl nur PCIe gelesen und sich an das bisschen PCIe erinnert und dann das Falsche geschlussfolgert. Keine Ahnung, was sie mit den ollen Kamellen wollen. Kaveri gibts demnächst auch als PCIe-Steckkarte, na und? Von Kohärenz steht nirgendwo etwas, dann wärs ja auch kein PCIe mehr, sondern QPI.

Vielleicht ist das ganze GDDR5-Gedöns nur für den PCIe-Endpoint-Fall geplant, nämlich ne Firestreamkarte mit Kaveri ... dafür reichen dann die 4 GB.

y33H@

2013-03-09, 23:52:23

Ich meinte nicht die Klammer sondern den Text direkt in der Kabini-Kachel, der bezüglich HSA identisch zu Kaveri ist.Argl, du hast natürlich Recht.

Skysnake

2013-03-10, 08:59:47

Das ist BSN BS ...

Das Eine hat mit dem Anderen nicht viel zu tun. Zwar waren bei Torrenza auch PCIe-Beschleuniger mit dabei, aber das war mehr oder minder nur Beiwerk, die Hauptsache waren kohärente Beschleuniger, die entweder über HTX angeschlossen wurden, oder gleich Chips, die in den Opteron-Sockel gepasst hätten. In ferner Zukunft war Chip-Integration geplant. Wenn man so will, dann kann man HSA als Torrenza 2.0 sehen, denn da haben wir ja jetzt endlich die Integration und kohärenten Speicher.

Die BSN Typen haben da wohl nur PCIe gelesen und sich an das bisschen PCIe erinnert und dann das Falsche geschlussfolgert. Keine Ahnung, was sie mit den ollen Kamellen wollen. Kaveri gibts demnächst auch als PCIe-Steckkarte, na und? Von Kohärenz steht nirgendwo etwas, dann wärs ja auch kein PCIe mehr, sondern QPI.

Vielleicht ist das ganze GDDR5-Gedöns nur für den PCIe-Endpoint-Fall geplant, nämlich ne Firestreamkarte mit Kaveri ... dafür reichen dann die 4 GB.
Dir ist schon klar, dass das ziemlich heftiger Tobac wäre?

Das würde dann praktisch in die gleiche Kerbe wie Intels XeonPhi schlagen! Nur das man eben nicht nur CPU-Cores anbietet, sondern CPU+iGPU. Das wäre ziemlich cool, weil man eben SingleThread doch ne ganz ordentliche Leistung hätte, XeonPhi muss ja mit mindestens 2 Threads/Core laufen, da nur minimal jeden zweiten Takt eine Instruction eines Threads ausgeführt werden kann!, und auf der anderen Seite eben die iGPU, welche vergleichbar ist mit den 512Bit Vektorregistern/Instruktionen.

Zudem könntest du eben so wohl auch ein Multi-Sockel-System aufbauen. Der Knackpunkt hier sind halt die Latenzen, und die Transparenz für die Programme.

Gipsel

2013-03-10, 10:02:38

Zudem könntest du eben so wohl auch ein Multi-Sockel-System aufbauen. Der Knackpunkt hier sind halt die Latenzen, und die Transparenz für die Programme.
Für MPI oder sowas wären die Latenzen besser als zu den Nachbarknoten über das Netz.
Aber ich würde da erst mal die Strategie "wait and see" verfolgen.

Skysnake

2013-03-10, 10:29:11

Klar :ugly:

Aber du willst ja auch innerhalb des Knotens niedrige Latenzen haben, und ich habe da auch NICHT an MPI gedacht, sondern an OpenMP/PThreads usw.

Also wenn man nur auf einem Knoten bleibt.

Ich fände so ne APU-PCI-E Steck"karte" aber schon sehr interessant :biggrin:

Vor allem müsste man da dann wohl nicht mal mehr extra kompilieren :eek:, wie das bei XeonPhi der Fall ist, da man halt kein MMX/SSE hat usw.

S940

2013-03-10, 12:07:12

Dir ist schon klar, dass das ziemlich heftiger Tobac wäre?Na ich finde es weniger dramatisch, eben weil:
Das würde dann praktisch in die gleiche Kerbe wie Intels XeonPhi schlagen! .. es eben so was ähnliches wie ne Phi wäre ;-)

Traditionell will sich AMD da sicherlich nicht die Butter vom Brot nehmen lassen, nvidia reicht schon ;)

Zudem könntest du eben so wohl auch ein Multi-Sockel-System aufbauen. Der Knackpunkt hier sind halt die Latenzen, und die Transparenz für die Programme. Naja das läuft dann wieder auf unser Hypertransport-Steckenpferd raus. Da hatte ja jeder schon seit Urzeiten auf HTX-Karten gewartet. Aber mittlerweile seh ich da wirklich PCIe vorne. Wenn da nächstes Jahr auch AMD endlich Ihre PCIe-integrierte Opteron-Plattform präsentiert, sollte es in Sachen Latenz ja auch wieder einigermaßen "ok" aussehen. Zwar hat PCIe im vergleich zu HTr ne miese Latenz, aber so schlimm, dass AMD nen Hypertransport-Chip designt, ist es wohl nicht.

Wobei .. wir reden ja über ne APU nicht über ne GPU und AMD hatte mal PCIe/Hypertransportkombi-Anschlüsse im Plan (wenn ich da die Infos der Komodo-Teile richtig interpretiere). Wenn Kaveri auch so nen PCIe/HTr Kombi-Anschluss hätte *höhö*

Aber sicherlich nur Wunschdenken ^^

Skysnake

2013-03-10, 12:54:37

Na ich finde es weniger dramatisch, eben weil:
.. es eben so was ähnliches wie ne Phi wäre ;-)

Wäre es eben NICHT! Da gibt es einen entscheidenden Vorteil/Unterschied. XeonPhi basiert auf nem asbachuralt CPU-Design, welches nen richtig fettes Vektorregister dazu gepackt bekommen hat. Damit ist man aber relativ unkompatibel bzgl. der Software. Man muss also zumindest neu compilieren. Ok, im Vergleich zu dem was man mit CUDA/OpenCL hat ist es noch immer ein großer Schritt nach vorne, aber es bleiben halt einige Punkte die man nicht gerne hat. Mit so ner APU als Steckkarte wäre das nicht mehr wirklich der Fall, vor allem, wenn HSA dann mal richtig funktioniert.

Traditionell will sich AMD da sicherlich nicht die Butter vom Brot nehmen lassen, nvidia reicht schon ;)

:confused:

Naja das läuft dann wieder auf unser Hypertransport-Steckenpferd raus. Da hatte ja jeder schon seit Urzeiten auf HTX-Karten gewartet.

Die gab/gibt es auch. Ist aber eher ein Nischenprodukt. Intel hat halt leider nicht bei HT mitgemacht.

Aber mittlerweile seh ich da wirklich PCIe vorne.

PCI-E bietet nur mehr Bandbreite, vor allem PCI-E 3.0, wobei INSBESONDERE! PCI-E 3.0 nen Schuss ins Knie ist, wenn man niedrige Latenzen braucht, weil man eben auf das 128/130 Bit Coding gegangen ist... -.-

Wenn da nächstes Jahr auch AMD endlich Ihre PCIe-integrierte Opteron-Plattform präsentiert, sollte es in Sachen Latenz ja auch wieder einigermaßen "ok" aussehen.

Nein, weil PCI-E keine bevorzugung von gewissen Paketen kennt, zumindest meines Wissens nach nicht. Zudem ist das HT Interface eben auf die CPU-Architektur ausgelegt. Ob man diese Annäherung inzwischen bei PCI-E geschafft hat, wage ich etwas zu bezweifeln. Man wird also nicht die gleichen Latenzen schaffen wie bei HT, auch wenn natürlich durch die direkte Integrierung in die CPU die ganze Sache etwas besser wird als aktuell. Gegen HT kann es dennoch nicht anstinken, vor allem nicht mit PCI-E 3.0 -.-

Zwar hat PCIe im vergleich zu HTr ne miese Latenz, aber so schlimm, dass AMD nen Hypertransport-Chip designt, ist es wohl nicht.

Das wird man sehen müssen. PCI-E ist halt ein Bandbreitenmonster, und "billig" zu realisieren, weil es ein verdammt starker Standard ist, aber man hat halt auch einige Probleme. Man muss da wirklich abwägen.

Wobei .. wir reden ja über ne APU nicht über ne GPU und AMD hatte mal PCIe/Hypertransportkombi-Anschlüsse im Plan (wenn ich da die Infos der Komodo-Teile richtig interpretiere). Wenn Kaveri auch so nen PCIe/HTr Kombi-Anschluss hätte *höhö*

Aber sicherlich nur Wunschdenken ^^
Das ist kein "Plan", das ist teil der HT Specs... Du kannst über HT (xy, keine Ahnung ab welcher Version, aber die aktuellen CPUs können das) PCI-E Pakete einfach tunneln.

Das ist also schon Realität.

Gipsel

2013-03-10, 14:18:06

S940

2013-03-10, 14:52:22

Wäre es eben NICHT! Da gibt es einen entscheidenden Vorteil/Unterschied. XeonPhi basiert auf nem asbachuralt CPU-Design, welches nen richtig fettes Vektorregister dazu gepackt bekommen hat. Damit ist man aber relativ unkompatibel bzgl. der Software. Man muss also zumindest neu compilieren. Ok, im Vergleich zu dem was man mit CUDA/OpenCL hat ist es noch immer ein großer Schritt nach vorne, aber es bleiben halt einige Punkte die man nicht gerne hat. Mit so ner APU als Steckkarte wäre das nicht mehr wirklich der Fall, vor allem, wenn HSA dann mal richtig funktioniert.

:confused:
Sorry, ich meinte das aus Produktsegment-Sicht, nicht aus Techniksicht. Nvidia und AMD waren da die ersten, die Ihre Karte als HPC-Beschleuniger verkauften, Firestream und Fermi/Tesla und Intel ist nach den gestutzten Larrabee-Plänen auch dort gelandet. Alle mit verschiedenen Programmieransätzen, aber ich seh das halt nur technisch nur seeeeehr grob ;-)

PCI-E bietet nur mehr Bandbreite, vor allem PCI-E 3.0, wobei INSBESONDERE! PCI-E 3.0 nen Schuss ins Knie ist, wenn man niedrige Latenzen braucht, weil man eben auf das 128/130 Bit Coding gegangen ist... -.-Jo, aber bleibt dafür nicht wenigstes etwas aufgrund des höheren Takts hängen? Also in Paketen gerechnet ist die Latenz sicherlich schlecht, aber in Zeit?
Das ist kein "Plan", das ist teil der HT Specs... Du kannst über HT (xy, keine Ahnung ab welcher Version, aber die aktuellen CPUs können das) PCI-E Pakete einfach tunneln.

Das ist also schon Realität.Ja, den Tunnelmodus gibts schon ewig, kannte ich auch schon. Aber Kaveri kommt offiziell ja vermutlich nur mit PCIe (behaupte ich jetzt mal, Llano und Trinity hatten auch kein HTr). Da ist dann die Preisfrage ob irgendwo doch noch ein HTr-Controller auf dem Die schlummert oder nicht. Falls ja wärs für HTX toll :) Wäre dann endlich mal ein sinnvoller Einsatz für HTX3.

Dazu müsste man auch wissen, wie die internen Busse betrieben werden. Es gibt ja Gerüchte, die besagten, dass Hypertransport auch intern benutzt wurde. Aber bei den APUs ist das nicht sicher. Erstens haben sie nach außen schon kein HTr mehr und intern ist die GPU recht wichtig. Mit HSA noch mehr als zuvor.

Möglicherweise werden die CPU-Kerne bei HSA so wie aktuell die GPU-CUs auch schon "angeflanscht". Zumindest hat mich AMDs Wortwahl bei der Jaguar-Quad-Vorstellung verwundert. Die nannten das "Quad-Modul" "Compute-Unit". Bisher hatten sie das nur bei den GPUs verwendet. Möglich, dass der Vortragende aus der ATi-Sparte kam, möglich, dass es schlicht Zufall ist, aber vielleicht gibts doch nen tieferen Grund um GPU-Terme anzuwenden ... falls ja wäre dann HTr wohl aus dem Rennen.

OBrian

2013-03-10, 19:06:48

Nur weil man über Hypertransport auch PCIe-Pakete tunneln kann, heißt das nicht automatisch, daß es auch andersrum geht, d.h. HT über PCIe. Ich bezweifele sogar, daß das geht, wenn bei PCIe die Latenzen so mies sind. Gut, evtl. geht es, wäre aber sinnlos.

Skysnake

2013-03-11, 10:24:33

Und wo wäre der Sinn dabei HT Pakete über PCI-E zu tunneln?

Und natürlich geht das... Du brauchst halt nur eine entsprechende Logik, die die Pakete wieder entsprechend umpakt. Du hast bei HT ja meines Wissens nach keine garantierten Latenzen. Daher alles kein Problem.

Es macht halt nur absolut keinen Sinn. Du nimmst einfach das HT Interface, und lässt PCI-E drüber laufen, wenn du PCI-E brauchst. Das ist die einfachste Lösung, welche heute auch schon eingesetzt wird.

ndrs

2013-03-11, 10:46:49

Und wo wäre der Sinn dabei HT Pakete über PCI-E zu tunneln?
Ging es in den letzten zwei Seiten Diskussion nicht darum mehrere Kaveris zu vernetzen? Da steht ja laut letztem Stand physikalisch nur PCIe zur Verfügung.

Skysnake

2013-03-11, 10:49:50

Ja, darum gehts, aber das sind eben nur Interfaces. Also elektrisch unterscheidet sich das nicht/nicht viel. Du musst halt die entsprechende Ansteuerungslogik dazu packen.

Daher würde es auch durchaus Sinn machen, HT zu verwenden, und PCI-E drüber laufen zu lassen, wobei da dann mal ein Refresh für HT nötig wäre, um mit PCI-E 3.0 mit zu halten.

Man kann aber natürlich auch sonst noch jede Menge spielereien machen. Kommt halt immer auf die Implementierung drauf an, und da ist man mit nem Full-Custom-ASIC halt komplett frei ;)

fondness

2013-03-13, 19:14:40

Ob das angesichts des mit Kaveri eingeführten gemeinsamen Adressraums viel Sinn macht, wäre wohl abzuwarten.

Kann ich mir angesichts des immer wieder betonte gemeinsamen Adressraumes nicht vorstellen, wenn dann bekommt die ganze APU GDDR5.

http://img818.imageshack.us/img818/6946/amdhsaevolution.jpg (http://imageshack.us/photo/my-images/818/amdhsaevolution.jpg/)

Uploaded with ImageShack.us (http://imageshack.us)

Sideport-Memory wurde auch schon ewig nirgends mehr erwähnt.

Gipsel

2013-03-13, 19:28:39

Kann ich mir angesichts des immer wieder betonte gemeinsamen Adressraumes nicht vorstellen, wenn dann bekommt die ganze APU GDDR5.Schau Dir Durango an, der eSRAM ist dort auch Teil des gemeinsamen Adressraums. Man kann zwei physikalisch getrennte Speicherpools durchaus in einem Adressraum zusammenfassen, so daß die Prozessorkerne (CPU-Kern, CU) im Prinzip gar nicht wissen müssen, auf welchen der Pools sie mit einer bestimmten Adresse denn nun gerade zugreifen. Es obliegt dann der Anwendung (oder dem Treiber bzw. OS) das entsprechend zu verteilen.

Ein zweites Beispiel wäre das "FLAT" Adressierungsmodell von GCN 1.1. (C.I.), was in ähnlicher Form auch von nVidia unterstützt wird. Dort wird der globale Speicher und der lokale Speicher in einen Adressraum zusammengefaßt.

S940

2013-03-13, 21:01:49

Wenn man das Ganze als Cache einbauen und verwalten würde, müsste man doch nichts adressieren, oder?
Ob das aber Sinn machen würde .. keine Ahnung ^^

Skysnake

2013-03-13, 21:07:19

Schau Dir Durango an, der eSRAM ist dort auch Teil des gemeinsamen Adressraums. Man kann zwei physikalisch getrennte Speicherpools durchaus in einem Adressraum zusammenfassen, so daß die Prozessorkerne (CPU-Kern, CU) im Prinzip gar nicht wissen müssen, auf welchen der Pools sie mit einer bestimmten Adresse denn nun gerade zugreifen. Es obliegt dann der Anwendung (oder dem Treiber bzw. OS) das entsprechend zu verteilen.

Ein zweites Beispiel wäre das "FLAT" Adressierungsmodell von GCN 1.1. (C.I.), was in ähnlicher Form auch von nVidia unterstützt wird. Dort wird der globale Speicher und der lokale Speicher in einen Adressraum zusammengefaßt.
Ich sag nur Memory Mapped I/O. Das läuft ja auch auf das Gleiche raus. Man hat zwar unterschiedliche Speicherpools, aber eben nur einen Adressraum.

Wenn man das Ganze als Cache einbauen und verwalten würde, müsste man doch nichts adressieren, oder?
Ob das aber Sinn machen würde .. keine Ahnung ^^
Und wie greifst du ohne Adressen auf die Daten zu? :rolleyes:

Entweder wird es ein echter Cache, wovon ich ausgehe, oder man hat einen gewissen Speicherbereich, wie z.B. bei Memory-Mapped-I/O, in den man eben expliziet rein schreiben muss. So was kann es durchaus geben. Bei x86 gibt es ja einige Speicherbereiche, die fest vergeben sind (physikalische Adressen). Ich geh aber eher nicht davon aus, das man sich sowas aufhalst.

S940

2013-03-13, 21:38:51

Und wie greifst du ohne Adressen auf die Daten zu? :rolleyes:
Auf Daten in nem Cache greift keiner direkt zu, da heißt es Pfoten weg. Wenn Du Die Daten ändern willst, dann greifst Du auf die originale Speicherstelle im RAM zu, nicht direkt auf die Cachezelle. Den Rest erledigen die Kohärenzprotokolle.
(Einzige Ausnahme die ich kenne ist kurz beim Booten, da kann man den L3 der Opterons als Speicher nutzen. Aber dann ist die Cachlogik auch nicht aktiv).

Skysnake

2013-03-13, 22:21:24

Äh nein :ugly:

Das ist ja der Sinn von nem Cache (nicht WT), das man die Daten eben im Cache hat, und erst dort nach schaut und arbeitet, bevor man in den RAM geht. Dafür muss man aber eben die "Adresse" kennen ;)

Der Cache an sich hat natürlich nicht die Adresse, aber man hat eben ein Mapping.

Deswegen gibt es ja z.B. bei Mutlicore Systemen ja auch verschiedene Modi bzgl. Caches. Man weiß also, ob man die Daten exklusib hat, und dann natürlich auch einfach diese ändern kann, oder nicht. usw usw usw. Gibt ja unglaublich viele unterschiedliche Varianten wie man was machen kann.

Btw. hast du mich falsch verstanden. Natürlich haben der Cache selbst keine Adresse in diesem Fall, aber man assoziert gewisse Adressen mit gewissen Cacheeinträgen. Du greifst mit Adresse XY also auf eine gewisse Cachezeile zu, wenn eben Adresse XY im Cache liegt, bzw genauer, die Daten die an dieser Adresse stehen. Aber wir wollen doch jetzt nicht wieder mal in Spitzfindigkeiten abdriften oder?

Du brauchst Adressen, auf die du zugreifst. Wie das dann intern geregelt wird, also ob Caches da vorher schon Zugriffe abfangen ist doch was ganz anderes. Adressen braucht man immer für Zugriffe, wo das dann am Ende landet ist ja was GANZ anderes.

S940

2013-03-13, 23:02:47

Das ist ja der Sinn von nem Cache (nicht WT), das man die Daten eben im Cache hat, und erst dort nach schaut und arbeitet, bevor man in den RAM geht. Dafür muss man aber eben die "Adresse" kennen Natürlich, aber das ist dann ne Adresse im "normalen" großem Rambereich, nicht eine Adresse irgendwo im GDDR5 (Cache)-Chip.

Es ging doch darum, ob man neue/andere Adressen für nen GDDR5 Speicher benötigen würde. Meine Aussage war schlicht, dass man die nicht bräuchte, wenn man den als Cache benützt. In dem Fall würden nur Daten gecacht werden. Cachen heißt, es sind nur Kopien, die eine "normale" Speicheradresse haben, an die sie bei nem Cache-Flush oder explizitem WT geschrieben werden.

An ne Cachezelle kommt man direkt gar nicht ran, wenn man nen MOV Befehle mit ner Adresse hat, dann ist das ne Speicheradresse. Natürlich kann der MOV Befehl dann trotzdem gecacht werden, aber damit hat man als Programmierer nichts am Hut.
Scheinst Du ja auch so zu sehen:

Btw. hast du mich falsch verstanden. Natürlich haben der Cache selbst keine Adresse in diesem Fall, aber man assoziert gewisse Adressen mit gewissen Cacheeinträgen. Du greifst mit Adresse XY also auf eine gewisse Cachezeile zu, wenn eben Adresse XY im Cache liegt, bzw genauer, die Daten die an dieser Adresse stehen. Aber wir wollen doch jetzt nicht wieder mal in Spitzfindigkeiten abdriften oder?
Weiss nicht, das ist für mich im Moment keine Spitzfindigkeit, das ist doch die Hauptsache um die es gerade geht, oder nicht? Liefe der GDDR5 Speicher als Cache bräuchte man sich keinen Kopf um ein Flat-Adressierungsmodell oder sonstwas zu machen, der er keine (eigenen) Adressen hätte. Ist doch eigentlich ganz simpel...

Nur weiss ich wie besagt nicht, ob das irgendwie sinnvoll wäre. Mit GDDR5 würde man ja wohl auch "etwas" mehr Kapazität verbauen. Ob ein Cache von 256MB aufwärts aber sinnvoll wäre ... keine Ahnung.

Skysnake

2013-03-14, 09:11:30

Ok, dann haben wir aneinander vorbei geredet ;)

Wie du schon sagst, das trifft eben nur zu, wenn man es als Cache ausführt. Das Problem ist dann halt eben, das man wieder ne gewisse Assoziativität des Caches hat, womit effektiv weniger nutzbar ist, als drauf steht. Zudem kann man eben nicht gezielt Steuern, was drin sein soll usw usw.

Aber um nochmal auf "aber das ist dann ne Adresse im "normalen" großem Rambereich, nicht eine Adresse irgendwo im GDDR5 (Cache)-Chip" zurück zu kommen.

Nur weil man expliziet adressen für gewissen Speicher (Register, GDDR5, what ever) hat, muss man keine getrennten Adressbereiche haben, also im Sinne von CPU<->GPU Speicher.

Man kann es einfach so machen:

[0x0FFFFFFFFFFF:0x000000000000] ist CPU Adressraum. Also alle Adressen von 0 bis 32 TB wären DDR3/4 (what ever) wäre ganz normaler CPU-Speicher, wie heute halt auch

[0xFFFFFFFFFFFF:0x100000000000] ist der GPU Speicher auf dem Package (oder what ever wo). Also alle Adressen von 32TB+1 bis 64TB.

Das ist dann auch ein großer gemeinsamer Adressraum, bei dem CPU und GPU freudig drauf rum arbeiten können, ohne sinnloses rumkopieren. Sind halt alles Adressen aus Sicht der CPU. Man hat halt nur kein Cacheing.

Was jetzt besser ist, will und kann ich nicht beurteilen, wenn ich auch eher dazu tendieren Caches zu bevorzugen, weil man dann einfach nicht selbst das Beachten muss, und daher immer einen Vorteil daraus zieht. Vor allem auch alte/ältere Software.

Hauptsächlich soll ja aber wohl die GPU das Ding mit Daten füllen. Zudem entspräche kein Cache auch durchaus dem, was man heute schon macht...

Möglich ist auf jeden Fall beides. CPUs und GPUs haben intern genug breite Adresspfade, so das man auch bei den größten Multisockel-Systemen noch genug freien Adressraum hat.

StefanV

2013-03-14, 10:00:18

Also ich bin auch der Meinung, dass das mit dem Cache die bessere Lösung wäre.

Das mit dem GPU Speicher im Adressraum einblenden ist IMO wäre nur ein ziemlicher Fuckup, der nur zur Fragmentierung
Ähnlich dem ganzen Mist, den wir aus vergangenen Tagen kennen...

Gut, das wird momentan nicht soo ein Problem sein, irgendwann wird das aber zu einem Problem werden. Und da kann ich nur hoffen, dass das nicht auf diese Art realisiert wird...

ndrs

2013-03-14, 11:01:33

Kurze Zwischenfrage: Erhöht eine zusätzliche Cachestufe nicht die Latenz, da erst jede Stufe durchsucht werden muss, bevor auf die nächsthöhere zugegriffen wird?

Skysnake

2013-03-14, 11:23:17

Heutzutage wird das eigentlich immer alles parallel abgearbeitet, und bei nem Hit in einer der Stufen der Rest abgebrochen. Soweit das natürlich überhaupt möglich ist. Die Bandbreiten variieren ja teilweise dramatisch. Man kann also nicht jeden Zugriff auf nen L1 auch parallel auf dem RAM anstoßen. Da sollte man z.B. schon warten, ob man nen Hit hat oder nicht. Bei L1<->L2 läuft es meines Wissens nach im Allgemeinen aber durchaus parallel, also zumindest das Anstoßen des snoops. Gibt aber verdammt viele unterschiedlche Implementierungen. Da spielen dann auch immer die Cachecohärenzmodelle mit rein.

Pauschal kann man das also nicht wirklich sagen.

S940

2013-04-03, 12:50:33

AMD bestätigt GDDR5 für zukünftige APUs (http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&id=1364983798)

stav0815

2013-04-03, 12:52:23

Und hier die Orginal-Quelle (http://www.theinquirer.net/inquirer/news/2258442/amd-forecasts-gddr-coming-to-cpus-as-prices-fall)

S940

2013-04-03, 13:10:26

Und hier die Orginal-Quelle (http://www.theinquirer.net/inquirer/news/2258442/amd-forecasts-gddr-coming-to-cpus-as-prices-fall)
Steht doch dort unter Quelle ^^

2phil4u

2013-04-03, 21:45:34

Könnte AMD nicht den Bulldozernachfolger, Kaverie glaube ich mit GDDR5 3000 MHZ rausbringen.
Das Ding schreit doch nach Bandbreite, 20-30% Mehrleistung dürften da drin sein und wenn man das ganze noch in 20 nm irgendwie hinbekommt mit eventuell 16 Cores, dann dürfte doch Intel geschlagen sein, oder etwa nicht ?

Oder hat AMD gar keine Lust mehr sich im Highend Segment mit Intel anzulegen, weil zu riskant ?

2phil4u

2013-04-03, 21:46:57

Schaffe89

2013-04-03, 22:09:16

Die IGP schreit nach Bandbreite, nicht die CPU.
Wenn ich meinen Arbeitsspeicher auf 2800mhz Oce, dann gibt das keinen Performancegewinn, eher Performanceverlust.

Wenn Kaveri nicht mehr im Bandbreitenlimit hängt, dann dürfte Kaveri wohl rund doppelt so schnell sein wie Trinity/Richland, dann ist Intel weit abgeschlagen was IGP Performance angeht.

Ronny145

2013-04-03, 22:12:16

Wenn Kaveri nicht mehr im Bandbreitenlimit hängt, dann dürfte Kaveri wohl rund doppelt so schnell sein wie Trinity/Richland, dann ist Intel weit abgeschlagen was IGP Performance angeht.

Desktop ja, Mobile nein. (es sei denn Broadwell kommt für Desktop)

Locuza

2013-04-03, 22:44:59

Könnte AMD nicht den Bulldozernachfolger, Vishera glaube ich mit GDDR5 3000 MHZ rausbringen.
Das Ding schreit doch nach Bandbreite, 20-30% Mehrleistung dürften da drin sein und wenn man das ganze noch in 20 nm irgendwie hinbekommt mit eventuell 12 Cores, dann dürfte doch Intel geschlagen sein, oder etwa nicht ?

Oder hat AMD gar keine Lust mehr sich im Highend Segment mit Intel anzulegen, weil zu riskant ?
Bulldozer 32nm -> Piledriver 32nm -> Steamroller 28nm -> Excavator 20nm (?)

Namen beim Desktop:
Zambezi --> Vishera ---> ?

Vishera gibt es schon.
Von viel Bandbreite profitieren CPUs im Anwendungsfall Spiele wenig bis kaum.
Mit was willst du eig. gegen Intel mit 20nm ankämpfen?
12-16 Kerne?
Wie groß wäre dann der Chip?
Welche Verlustleistung hätte er?

Intel ist da schon bei 14nm mit ihrem Tri-Gate.
Intel ist durchschnittlich einfach unaufholbar.
Bei der iGPU wird Intel auch noch irgendwann auf dem selben Level spielen, solange der Fertigungsvorteil so extrem groß ist.

Schaffe89

2013-04-04, 00:22:05

Desktop ja, Mobile nein.

Ich denke nicht dass Haswell an die Richland mobile Performance herankommt, 50% Mehrleistung zu Ivy Bridge sind sehr ambitioniert.
Kaveri dürfte gegen Haswell mobile auch einiges reißen. Bis Broadwell mitte bis ende 2014 mal kommt, könnts auch schon wieder ein Update von Kaveri geben.

Desktop Haswell ist "nur" 20% schneller als Ivy Bridge.

http://www.tomshardware.de/core-i7-4770k-haswell-performance-Vorschau,testberichte-241235-7.html

Ronny145

2013-04-04, 00:26:49

Ich denke nicht dass Haswell an die Richland mobile Performance herankommt, 50% Mehrleistung zu Ivy Bridge sind sehr ambitioniert.

Es sind nur 30%, wenn überhaupt. Denn die A8 oder A6 müsste man extra behandeln und die ULV sowieso. Gegen die GT3 kann Richland nichts ausrichten, weder im ULV Bereich noch bei den Premium Modellen.

YfOrU

2013-04-04, 13:26:19

Desktop Haswell ist "nur" 20% schneller als Ivy Bridge.

Die mobilen Trinity und Richland APUs müssen im Gegensatz zum Desktop mit der gleichen TDP wie die Intel CPUs auskommen. Deshalb ist die Differenz (Performance) zu einer mobilen HD4000 deutlich kleiner als am Desktop.

Bei 17W TDP ist die HD4000 schon heute auf Augenhöhe bzw. teils schneller (HD7500G) womit die ULV IB CPU+iGPU das deutlichst bessere Paket darstellt. Mit Haswell wird sich das gegenüber Richland auch in höheren TDP Regionen fortsetzen.

Zum einen hat Intel in die GPU investiert und zum anderen ist Richland immer noch ein 32nm Chip (und praktisch identisch zu Trinity) welcher gegen ein weiter auf Effizienz getrimmtes 22nm Design anrennen muss. Das ist zwangsläufig eine denkbar schlechte Ausgangsposition denn abseits der GPU Performance hat AMD als Argument nur den Preis. Gleichzeitig sieht es bei der CPU Performance absolut übel aus denn ein ULV i5-3317U (17W TDP) legt durch die Bank eine höhere CPU Performance an den Tag als ein A10-4600M (35W TDP). Wobei der 4600M das mobile AMD Topmodell darstellt und der 3317U der günstigste ULV mit Turbo ist.

Die (CPU) Performance des 3317U sehe ich vor allen deshalb als relevant an da ab diesem Modell ausreichend Leistungsreserven vorhanden sind um auch im stationären Betrieb angenehm arbeiten zu können. In den Bereich wird natürlich auch der AMD A10-5750M fallen. Allerdings mit einer massiv höheren TDP womit es praktisch unmöglich ist dem Trend zu leichteren und kompakteren Geräten bei halbwegs vergleichbarer Performance zu folgen.

Ronny145

2013-04-04, 13:46:09

Die mobilen Trinity und Richland APUs müssen im Gegensatz zum Desktop mit der gleichen TDP wie die Intel CPUs auskommen. Deshalb ist die Differenz (Performance) zu einer mobilen HD4000 deutlich kleiner als am Desktop.

Das ist nicht der einzige Grund. Intel räumt der mobilen Version größere Priorität ein. Bei IVB taktet die größte Desktop Version mit 1150 Mhz und der i3 nur noch mit vergleichsweise niedrigen 1050 Mhz obwohl viel größerer TDP Spielraum vorhanden wäre. Im Notebook taktet Intel höher. Bei AMD ist die Differenz in entgegengesetzter Richtung größer, das ist klar.

YfOrU

2013-04-04, 15:21:55

Das ist nicht der einzige Grund. Intel räumt der mobilen Version größere Priorität ein. Bei IVB taktet die größte Desktop Version mit 1150 Mhz und der i3 nur noch mit vergleichsweise niedrigen 1050 Mhz obwohl viel größerer TDP Spielraum vorhanden wäre. Im Notebook taktet Intel höher. Bei AMD ist die Differenz in entgegengesetzter Richtung größer, das ist klar.

Die mobilen "Mainstream" CPUs von Intel wie i3-3110M, i5-3317U und i5-3210M haben maximale GPU Frequenzen von 1000, 1050 bzw. 1100Mhz.

GPU Frequenzen oberhalb von 1150Mhz gibt es praktisch nur bei den teuren und vergleichsweise seltenen Modellen (wie i5-3380M -> 1250Mhz). Die würde ich in den Vergleich nicht direkt mit einbeziehen da insgesamt weit außerhalb von AMDs aktueller Marktplatzierung.

Undertaker

2013-04-04, 15:33:06

Dennoch takten die Mobilmodelle im Direktvergleich passender Modelle ähnlich bzw. meist höher, auch wenn Intel natürlich die billigeren Modelle etwas einbremst (was AMD mit Takt- und Einheitenkastrierung ja noch viel stärker macht).

i3-3120M zu i3-3225: 1100 zu 1050 MHz
i5-3380M zu i5-3570K: 1250 zu 1150 MHz
i7-3740QM zu i7-3770K: 1300 zu 1150 MHz

Und der größte Faktor ist natürlich, dass die Mobilmodelle durchgängig die HD 4000 bekommen.

Ronny145

2013-04-04, 15:40:00

Die mobilen Mainstream CPUs von Intel wie i3-3110M, i5-3317U und i5-3210M haben maximale GPU Frequenzen von 1000, 1050 bzw. 1100Mhz.

GPU Frequenzen oberhalb von 1150Mhz gibt es praktisch nur bei den teuren und vergleichsweise seltenen Modellen (wie i5-3380M -> 1250Mhz).

Ändert nichts daran, dass die Notebook Varianten höher takten. Vom Preis war nicht die Rede. Wenn es danach geht taktet der $342 teure 3770k zu niedrig. ULV spielt keine Rolle weil die in der Praxis sowieso niedriger takten. Stabil halten können den Takt nur die Standardmodelle.

Und der größte Faktor ist natürlich, dass die Mobilmodelle durchgängig die HD 4000 bekommen.

Nicht ganz richtig. Ab Core-i3. Pentium/Celeron nicht. HD4000 Notebooks fangen aber bereits ab 400€ an, von daher ist das vergleichbar mit AMD (Trinity).

YfOrU

2013-04-04, 15:52:25

Ändert nichts daran, dass die Notebook Varianten höher takten. Vom Preis war nicht die Rede. Wenn es danach geht taktet der $342 teure 3770k zu niedrig. ULV spielt keine Rolle weil die in der Praxis sowieso niedriger takten. Stabil halten können den Takt nur die Standardmodelle.

Selbst wenn wir den Preis außen vor lassen ergibt das nur eine positive Taktdifferenz zwischen 0 und 10%.
Wie Undertaker schon geschrieben hat kommt der größte Teil über die in diesen Modellen vorhandene HD4000. AMD muss die Taktfrequenz im Gegensatz immer deutlich reduzieren und je nach Modell auch die Anzahl der Einheiten.

Ein 3317U kann die GPU Frequenz von 1050Mhz (Furmark) halten solange auf der CPU (Basis: 1,7 Ghz) nicht etwas wie Prime parallel seine Runden dreht. Mit Prime sind es ~700Mhz für die GPU (Furmark). In der Praxis reicht das normalerweise um bei Spielen welche bezogen auf die verfügbare Leistung Sinn ergeben die GPU Frequenz oben zu haben. Leider ist das sehr stark abhängig von der Konstruktion (->Kühlung) der Geräte und hierbei versagen viele Hersteller.

Undertaker

2013-04-04, 16:00:30

Nicht ganz richtig. Ab Core-i3.

Der Zusatz war natürlich gemeint, aber fehlte noch. Danke.

Ein 3317U kann die GPU Frequenz von 1050Mhz (Furmark) durchaus halten solange auf der CPU (Basis: 1,7 Ghz) nicht etwas wie Prime parallel seine Runden dreht. Mit Prime sind es ~700Mhz für die GPU (Furmark).

Bei aktuellen Exemplaren (Fertigungsverbesserungen?) landet man idR sogar bei ~1000 MHz. :)

YfOrU

2013-04-04, 18:27:28

Bei aktuellen Exemplaren (Fertigungsverbesserungen?) landet man idR sogar bei ~1000 MHz. :)

Vermutlich denn ansonsten würden sich ULV CPUs wie der i5-3317U kaum im Bereich der 400€ Low-Cost Notebooks wiederfinden. Zusätzlich wurde das Portfolio der IB ULVs noch nach unten abgerundet (7W SDP bzw. 13W TDP).

Spricht recht eindeutig dafür das die 22nm Fertigung im Vergleich zur IB Produkteinführung deutlich besser läuft. AMD hat momentan eine miserable Ausgangsposition und Intel wird obendrauf den vielversprechenden Jaguar SoCs zwangsläufig die kleinen IB ULVs wie i3-3217U gegenüberstellen. Dafür muss nicht mal mehr groß am Preis gedreht werden denn vom offiziellen Listenpreis sind die inzwischen meilenweit entfernt.
War bei der letzten Runde genauso: Die alten SB ULVs wie i3-2365M wurden nach der IB Einführung gegenüber den Bobcat APUs platziert. Der Wettbewerb ist in diesem Segment knallhart und die günstigsten Intel ULV Geräte haben praktisch immer ein identisches Schwestermodell mit AMD APU.

Ronny145

2013-05-15, 13:19:50

S940

2013-05-15, 14:22:00

http://www.sweclockers.com/nyhet/16999-amd-a-serien-kaveri-kan-krava-ny-sockel

Google:

http://translate.google.de/translate?sl=sv&tl=en&prev=_t&hl=de&ie=UTF-8&eotf=1&u=http://www.sweclockers.com/nyhet/16999-amd-a-serien-kaveri-kan-krava-ny-sockel&act=url

Lol, AMD Tech Day, Embargo 23. May ... da kann einer der SChweden wohl kein Englisch :freak:

Aber die Sockelmisere ist ja mal wieder typisch AMD ...:freak:

robbitop

2013-05-15, 14:55:48

Immerhin scheint es lauffähiges Silizium vom Kaveri zu geben. :up:

Ronny145

2013-05-15, 14:59:24

Aber ziemlich spät für CPU Verhältnisse wenn die jetzt erst lauffähiges haben.

y33H@

2013-05-15, 14:59:55

Lol, AMD Tech Day, Embargo 23. May ... da kann einer der SChweden wohl kein Englisch.Die Roadmap ist ja bereits alt ;-) der Techday war letzte Woche Dienstag, sieht man an den EXIF-Daten ^^

S940

2013-05-15, 15:00:42

Die Roadmap ist ja bereits alt ;-)
Ja, aber die Infos die sie herausgeben ist ja wohl auch vom NDA betroffen ^^

CyLord

2013-05-15, 15:10:31

Lol, AMD Tech Day, Embargo 23. May ... da kann einer der SChweden wohl kein Englisch :freak:

Aber die Sockelmisere ist ja mal wieder typisch AMD ...:freak:

Ist nicht schlimmer, als bei Intel selber.

robbitop

2013-05-15, 15:20:40

Aber ziemlich spät für CPU Verhältnisse wenn die jetzt erst lauffähiges haben.
Naja haben und öffentlich zeigen ist bestimmt ein Unterschied oder? Gut - Intel hat lauffähiges Silizium oftmals schon ~1 Jahr vor dem Launch gezeigt.
Aber AMD ist da idR deutlich knapper dran.

Bei Bulldozer hat man doch erst sehr sehr spät etwas zeigen können. Bis Jahresende sind es ja noch ~7 Monate. Bis dahin wollte man Kaveri bringen. Sollte doch zu machen sein, oder?

Ronny145

2013-05-15, 15:23:30

Naja haben und öffentlich zeigen ist bestimmt ein Unterschied oder? Gut - Intel hat lauffähiges Silizium oftmals schon ~1 Jahr vor dem Launch gezeigt.
Aber AMD ist da idR deutlich knapper dran.

Bei Haswell waren es fast 2 Jahre. Auf der IDF 2011 gab es die erste öffentliche Demo.

dildo4u

2013-05-15, 15:24:55

Scheint zu passen von der Zeit her Temash wurde im Januar Live gezeigt und wird jetzt verkauft,vielleicht schafft AMD noch September oder Oktober.

robbitop

2013-05-15, 15:26:18

Naja Intel ist aber auch echt unnormal. Ich will nicht wissen, was die reißen könnten, wenn sie wirklich wollten/müßten. :D
Deren Fertigungsprozess ist beim Produktlaunch ja schon extremst ausgereift, da träumen gewisse Leute von... (AMD hingegen erinnert mich eher an Jan Ulrich, der die Tour de France z.T. noch als Training genutzt hat, um zu den Bergetappen in Form zu kommen :D)

S940

2013-05-15, 15:26:43

Ist nicht schlimmer, als bei Intel selber.
Bei Intel weiss man, dass ein gewisser Sockel kommt und nix geht. Bei AMD weiss man wieder mal nix, wie schon bei AM3 <> AM3+.
Bei AM3 hieß es mal, ja es geht bei ein paar Boards, dann gings plötzlich nicht.

Wenns das gleiche wie bei Intel wäre, dann hätten sie schon vor längerem nen Sockel FM3 angekündigt und fertig. Stattdessen reden sie von FM2 und ein "bisschen" kompatibel.

dildo4u

2013-05-15, 15:28:54

Müssen sie den Sockel nicht ändern wenn sie Konkurrenzfähig sein wollen was idle Verbrauch angeht?Intel will mit Haswell dort ja deutlich besser werden.

robbitop

2013-05-15, 15:30:27

Was ist eigentlich mit PCIe 3.0? Braucht man dazu nicht ebenfalls einen neuen Sockel? Ist kein FM3 geplant?

Müssen sie den Sockel nicht ändern wenn sie Konkurrenzfähig sein wollen was idle Verbrauch angeht?Intel will mit Haswell dort ja deutlich besser werden.

Meinst du Spannungswandler auf den Kern integrieren? Das wird bei AMD bestimmt noch ein bisschen dauern.

Wird AMD eigentlich auch mittelfristig auf einen LGA Sockel wechseln oder bleibt man bei Pins?

Locuza

2013-05-15, 15:36:57

Meinst du Spannungswandler auf den Kern integrieren? Das wird bei AMD bestimmt noch ein bisschen dauern.

Haswells Chipsatz wird in 32nm gefertigt, davor war es 65nm.
Sollte noch zusätzlich sparen.

S940

2013-05-15, 16:21:38

Was ist eigentlich mit PCIe 3.0? Braucht man dazu nicht ebenfalls einen neuen Sockel? Ist kein FM3 geplant?
Gute Frage ... ich glaub da gabs die Aussage, dass das technisch angeblich schon mit Trinity ginge ... also spätestens bei Kaveri sollten sie die Bugs gefixt haben.
http://www.sweclockers.com/nyhet/16999-amd-a-serien-kaveri-kan-krava-ny-sockel

Google:

http://translate.google.de/translate?sl=sv&tl=en&prev=_t&hl=de&ie=UTF-8&eotf=1&u=http://www.sweclockers.com/nyhet/16999-amd-a-serien-kaveri-kan-krava-ny-sockel&act=urlHabs mal übersetzt und noch nen Schuss Dramatik dazu gepackt ^^
http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?id=1368627124

fondness

2013-05-15, 16:25:45

Wird AMD eigentlich auch mittelfristig auf einen LGA Sockel wechseln oder bleibt man bei Pins?

AMD hat im Serversegment eben solange wie Intel ein LGA. Würde man das auch am Desktop einführen wollen, hätte man es schon längst machen können.

Gute Frage ... ich glaub da gabs die Aussage, dass das technisch angeblich schon mit Trinity ginge ... also spätestens bei Kaveri sollten sie die Bugs gefixt haben.

Wäre ich mir nicht so sicher, da auch Kabini bei PCIe2.0 bleibt.

S940

2013-05-15, 16:28:49

Wäre ich mir nicht so sicher, da auch Kabini bei PCIe2.0 bleibt.
Was hat jetzt Kabini damit zu tun?

robbitop

2013-05-16, 08:31:09

AMD hat im Serversegment eben solange wie Intel ein LGA. Würde man das auch am Desktop einführen wollen, hätte man es schon längst machen können.

Tatsache! Das wußte ich noch nicht! :)

Gute Frage ... ich glaub da gabs die Aussage, dass das technisch angeblich schon mit Trinity ginge ... also spätestens bei Kaveri sollten sie die Bugs gefixt haben.

Bedeutet, Trinity hat schon einen PCIe 3.0 Controller auf dem Kern? Ist also FM2 bereits dafür vorbereitet?

ndrs

2013-05-16, 10:12:08

Bedeutet, Trinity hat schon einen PCIe 3.0 Controller auf dem Kern? Ist also FM2 bereits dafür vorbereitet?
Mit dem Sockel hat das eigentlich weniger zu tun. Der muss nur die höheren Frequenzen abkönnen, was bestimmt der Fall ist. Problematischer wird es bei den Boards selber, also der Signalabschirmung der Leitungen zum Slot usw.

robbitop

2013-05-16, 10:40:29

Und was ist mit dem Controller selbst? Der ist dann vieleicht erstmalig im Kaveri implementiert? (sollte der nicht das erste Mal im gecancelten Komodo integriert sein)
Letztenendes kann sich AMD wohl nicht ewig erlauben, PCIe 3.0 nicht zu unterstützen.

S940

2013-05-24, 15:43:03

Aus dem Temashthread:

Ich habe von IPC gelesen. Könnte es ein Hinweis auf 2x256 bit FPUs sein?
Ne, die bringen doch nur was bei AVX256-Code. Beim Gros der Programme bringen die 0,0.
IPC wird v.a. durch die doppelt so große Sprungvorhersage profitieren, dadurch gibts angeblich 30% weniger Falschvorhersagen. Dann noch ein paar Pünktchen durch diverse Feinarbeiten (AGLUs, Dekoder, größere Caches).
Was bringt der L3 denn im Durchschnitt bei Vishera? Der L2 ist schon relativ groß - man würde annehmen, dass es nicht mehr die Welt ist, oder?Ja, aber komischerweise bringts doch was, wenn man den Uncore übertaktet. Das heißt der L3 bringt was. Letztens haben wir auf P3D die CPUID Bits untersucht, laut der steht der L3 auf "inklusive". Das ist das gleiche Bit, mit dem der L2 als "inklusive L1" markiert wird.
Da der L2 aber garantiert nicht komplett voll "inklusive" im L3 liegt, könnte es sein, dass es sich auf den L1 bezieht. Das wiederum hieße, dass der L3 auch als Snoop-Cache für Kohärenzabfragen genutzt werden würde. Das würde dann auch den Performanceeinfluss erklären. Ohne L3 müsste über das RAM gesnoopt werden, das wäre ziemlich sch......lecht.
Aber im Moment pure Spekulation ...
Interessant in dem Zusammenhang ist aber, dass Steamroller wg. HSA ja Snoopcaches mitbringen soll. Eventuell behebt das das Problem des fehlendes L3-Caches -- zumindest wenn er aktuell wirklich als Snoop-Cache herhalten sollten.
hmm bin mal gespannt 25% schneller in allen Lebenslagen wäre genial kann man aber wohl ausschließen ^^

1.) wird bei Kaveri vor allem die FPU optimiert die zB in Spielen selten der flaschenhals istHmm nö eher nicht, die FPU wird ja auf 3 Ports gestutzt, da läuft nichts "schneller", dafür gibts starke Umbauarbeiten am Front-End und ein paar kleinere an den INT-Clustern (AGLUs, Register & Schedulerplätze), das sollte allgemein schon allen Anwendungen zugute kommen. Ne treffsichere Sprungvorhersage bringt immer was :) (Edit: Außerdem sollte auch der Stromverbrauch sinken, da weniger unnütze Arbeit gemacht wird, bin mal gespannt, ob man was messen wird können. Wobei aber auch wieder viel vom Herstellungsprozess abhängen wird, schwer zu sagen, an was etwas liegt.

Knuddelbearli

2013-05-24, 15:50:26

ja auf die FPU kam ich nur weill die +25% IPC Aussage auf CB gemünzt war und CB ist ja massiv FPU lastig

S940

2013-05-24, 15:55:27

ja auf die FPU kam ich nur weill die +25% IPC Aussage auf CB gemünzt war und CB ist ja massiv FPU lastig
Ah jetzt. Ok, da hast Du auch wieder recht, aber dazu passte mein anderer Kommentar hier:
Kann mich dunkel erinnern, dass es da irgendwo ne Aussage [zu Leistungssteigerung von AMD bei CB] gab, aber war die nicht bei CB14? Das soll auch schon auf den aktuellen FXen (deutlich) besser laufen. Nur gibts das halt nirgends :(
Finde ich schon irgendwie komisch.
CB 11.5 kennt den BD einfach nicht, da läuft kein guter Code. Wenn die mal in die Socken kommen würden und den CB14 releasen würden, wüsste man mehr.. :(

Knuddelbearli

2013-05-24, 15:59:46

na ich denk mal der +25% vergleich ist ( hoffentlich ) sicher bei selber cb version

und ja CB13 bringt so oder so vermutlich nen ordentlichen Boost bei den Bulldozerbasierenden CPUs

gibt es eigentlich Programme womit man aufzeichnen kann wie ein Programm die verschiedenen Teile einer CPU belastete ? zB 80% Int 20% FPU usw

S940

2013-05-24, 16:13:49

na ich denk mal der +25% vergleich ist ( hoffentlich ) sicher bei selber cb versionJa das sowieso aber die Frage stellt sich noch auf welchem Chip - Vishera oder Steamroller. Wobei Steamroller eigentlich auch bei FP von ner besseren Sprungvorhersage profitieren könnte...

gibt es eigentlich Programme womit man aufzeichnen kann wie ein Programm die verschiedenen Teile einer CPU belastete ? zB 80% Int 20% FPU uswDas ging mal mit dem erwähnten Perfmonitur von CPUID.com. Die alte Version war recht gut, da konnte man viel abfragen, nur lief sie max. nur auf K10 und Intel CPUs bis Sockel 775.
Die neue läuft jetzt auch auf allen modernen CPUs, nur sind die Abfrageoptionen ziemlich schlecht. Nur Branchtrefferate, IPC und L2/L3-Treffer. Ziemlich mau :(

Gipsel

2013-05-24, 18:22:06

Letztens haben wir auf P3D die CPUID Bits untersucht, laut der steht der L3 auf "inklusive". Das ist das gleiche Bit, mit dem der L2 als "inklusive L1" markiert wird.
Da der L2 aber garantiert nicht komplett voll "inklusive" im L3 liegt, könnte es sein, dass es sich auf den L1 bezieht. Das wiederum hieße, dass der L3 auch als Snoop-Cache für Kohärenzabfragen genutzt werden würde. Das würde dann auch den Performanceeinfluss erklären. Ohne L3 müsste über das RAM gesnoopt werden, das wäre ziemlich sch......lecht.
Aber im Moment pure Spekulation ...
Interessant in dem Zusammenhang ist aber, dass Steamroller wg. HSA ja Snoopcaches mitbringen soll. Eventuell behebt das das Problem des fehlendes L3-Caches -- zumindest wenn er aktuell wirklich als Snoop-Cache herhalten sollten.Hast Du mal einen Link?
Irgendwie habe ich mit dem Snooping des Speichers ein Problem. Snooping bezeichnet die Anfragen bzw. Mitteilungen an an die anderen Caches, (a) beim Lesen ob diese eine bestimmte Speicherstelle vorhalten (und wenn ja, mit welchem Status) oder (b) daß ein Kern irgendeine in seinem eigenen Cache stehende Speicherstelle geschrieben hat. Den Speicher kann man also in dem Sinne gar nicht snoopen.
Ist ein Cache-Level inklusiv ausgelegt, muß man lediglich dessen Tags überprüfen, aber nicht mehr alle niedrigeren Level, zumindest wenn es keinen Hit gab (bei einem Hit, muß man eventuell noch den L1 für den Status checken, wenn das nicht in Write-Through-Manier propagiert wird). Für ein für alle Kerne im System gemeinsamen Cachelevel (z.B. ein L3) benötigt man streng genommen allerdings kein Snooping mehr (solange man keine Multi-CPU-Systeme bauen will), weil der Inhalt des L3 nur eine für alle gemeinsame Kopie des Speichers darstellt. Inkohärenz kann ja nur auftreten, wenn es parallel mehrere Kopien geben kann (und das trifft bei so einer Anordnung nur auf die L1 und L2 zu, die werden gesnooped).

Ein Probe- bzw. Snoop-Filter versucht ja den durch dieses ganze Kohärenzgedöns verursachten zusatzlichen Traffic zu minimieren. Dies kann dadurch geschehen, daß irgendwo (die integrierte Northbridge bietet sich an) die ganzen Kohärenzanfragen/-mitteilungen mitgeschnitten werden und damit quasi eine (teilweise) Kopie der Tags aller Kerne/Caches aufgebaut wird. Damit "weiß" der Filter also oft, wer eine bestimmte Mitteilung bekommen muß bzw. wer eine Anfrage beantworten kann. Damit können die Broadcasts an alle reduziert werden (die müssen trotzdem noch in vielen Situationen erfolgen, es eliminiert sie nicht völlig). Bei nur einer CPU mit einer Handvoll Kerne lohnt sich das aber noch nicht wirklich. Bei Multisockelsystemen hilft es natürlich sehr, wenn man das Die nicht verlassen muß, so daß da der L3/Northbridge zum natürlichen Ort so eines Filters wird. Aber wie gesagt dürfte das bei einer normalen Consumer-CPU kaum eine Rolle spielen. Sogar bei den Opterons (die das im Gegensatz zu den Consumer-CPUs unterstützen, nennt sich HT-Assist) empfiehlt AMD die Aktivierung erst ab 4P-Systemen (es kostet L3, weil die entsprechenden Datenstrukturen von der nutzbaren Kapazität abgehen, reduziert die Performance in 2P-Systemen deswegen oft sogar etwas). On-Die spielt es (bisher) keine Rolle. Bevor man in den L3-Tags (die dazu mit einer Bitmaske entsprechend der Kernanzahl erweitert werden müßten) nachgesehen hätte, welcher Kern denn eventuell eine Kopie einer Speicherstelle in seinem Cache liegen hat, hat man bereits alle Kerne direkt überprüft. Vielleicht läßt sich so etwas Strom sparen, schneller wird es vermutlich nicht.

Aber wie Du richtig bemerkst, sind wir hier im Kaveri-Thread. Also schauen wir doch mal in die Zukunft. Bei Kaveri soll ja die Kohärenz bidirektional sichergestellt werden. Also nicht nur können bei Speicherzugriffen der GPU die CPU-Caches gesnooped werden, auch andersrum soll es dann gehen. Und dann wird es interessant. Denn der verursachte Traffic skaliert so grob quadratisch mit der Anzahl der Caches. Und wie wir wissen, stecken in einer GPU auch jede Menge unterschiedlicher Caches. Jede CU hat einen eigenen vL1-D, dazu gibt es pro CU-Gruppe aus 2 bis 4 CUs noch einen sL1-D (bisher read-only, aber wer weiß, ob sich das nicht mit einer zukünftigen GCN-Version ändert) und schließlich haben wir den L2 mit oft gar nicht so wenigen Partitionen (wobei man da eigentlich wissen sollte, welche Partition für eine bestimmte Adresse zuständig ist, so daß das nur als ein Cache zählen sollte). Wenn auch Framebuffer-Exports durch die ROPs (die nicht in der normalen Cache-Hierarchie hängen) irgendwie direkt für die CPU sichtbar sein sollen, würde das nochmal einen oder gar zwei Caches (Color+Z) pro RBE addieren.
So oder so, die Anzahl der Caches geht also deutlich hoch.
Bei der hUMA-Präsentation hat AMD nun auf einer Folie verlauten lassen, daß "Probe filters and directories will maintain power efficiency". Da kommen wir also näher. Eine Vermutung könnte sein, daß der GPU-Teil seine Caches per Directory verwaltet (logisch gesehen verwaltet eine zentrale Stelle [kann praktisch aber auch gesplittet und damit dezentralisiert werden] die Kohärenzinformation, Snoop-Traffic wird damit eliminiert, skaliert gut mit vielen Clients, ist aber langsamer mit wenigen). Die Anzahl der CUs und dortigen Caches wird vermutlich schneller steigen als die CPU-Kerne, so daß es dort vermutlich am meisten Sinn macht. Damit eliminiert man Snoop-Traffic innerhalb der GPU. Ein Snoop-Filter könnte dann zwischen CPU- und GPU-Teil sitzen und nur den Teil der Anfragen propagieren, den der jeweils andere Teil interessiert. Das könnte die Schnittstelle zwischen inklusivem L3-Cache (falls der existiert) und dem Directory of GPU-Seite bilden. Aber keine Ahnung was die mit der Zeile auf der Folie genau meinen.

Skysnake

2013-05-24, 20:31:06

Gipsel

2013-05-25, 00:21:34

Ich denke, das wird darauf rauslaufen, dass es eben Cache Tags gibt zu den einzelnen Speicherbereichen.

Bei CPUs gibt es ja schon länger bei Multisockel eben die Handhabe, das es einen Owner gibt, der eine Cacheline verwaltet, und sich merkt, wer denn noch alles auf die Cacheline zugreift. Wenn jemand liest, dann trägt er sich in die "Liste" ein. Die wird dann dementsprechend abgearbeitet, wenn geschrieben wird.

Der Owner kann sofort schreiben. Wenn ein anderer schreiben will, muss er erst Owner der Cacheline werden, also die Cacheline für alle anderen invalidieren usw.

Frag mich jetzt aber bitte nicht mehr, wie das heist :ugly:

So was kann ich mir auch gut für die iGPU vorstellen.

Das skaliert nämlich verdammt gut, bis zu einem gewissen Grad. Wenn die Hardwareliste voll ist, dann gehts halt den Bach runter, aber bis dahin ist es so ziemlich am schnellsten.

Ich denke die Snoopfilter werden sowas in der Art sein.
Standardmäßig merkt sich ein Cache in den Tags nur, ob ein anderer ebenfalls eine Kopie besitzt (zusätzlich dazu, ob er das selber exklusiv drin hat, ob es das verändert wurde oder nicht), nicht welcher das hat. Deswegen müssen ja diese Snoop-Broadcasts versendet werden. Da das bei Multisockelsystemen mit vielen Kernen dann irgendwann zum Flaschenhals wird, gibt es dort (ab einer gewissen Größe, bei Dual-Sockelsystemen typischerweise noch nicht) zumindest diese Snoopfilter oder gar gleich Directories (dort steht dann wirklich drin, wer es hat).

Skysnake

2013-05-25, 08:34:29

AHHHHHHHHH!

Genau Directories, das Wort ist mir nicht eingefallen ;D

Danke!

Und ja, ich bezog mich da auf Multi-Sockel Systene, wo das genutzt wird. Soweit ich das in Erinnerung habe, ist das bei AMD teilweise zumindest direkt in Hardware gegossen, und erst ab einer gewissen Anzahl von Einträgen wirds dann halt langsamer, weil nicht mehr direkt in Hardware gelöst über FFU.

Bin daher davon ausgegangen, dass das durchaus auch bei Single-CPUs genutzt wird. Die Ressourcen hat man ja eh rumliegen.

Wenn ich mich recht erinnere, gibt es nämlich bei den Opterons eine sehr begrenzte Anzahl an Directorie-Einträgen, wo man den L3 noch nicht anfassen muss. Die könnte man dann auch für single-CPU nutzen.

Das ist aber jetzt ~2-3 Jahre her, wo ich mich damit beschäftigt habe, also keine Gewähr darauf, dass das so noch stimmt/100% richtig ist.

S940

2013-05-25, 12:55:47

@Gipsel:
Ja sorry, hast natürlich recht, Snooping ist nur die Abfragevorgänge, ich hab das dann gleich mit dem anschließendem Laden (im Hit-Fall) in einen Topf geworfen. Wenns bei nem AMD System ohne L3 nen Hit in nem anderen L2 gibt, dann muss das im Umweg über das RAM geladen werden, direkt kommt man ja nicht ran. Schreiben ist weniger kritisch, da wird der andere L2-Eintrag dann halt nur invalidiert, das könnte (sollte) noch intern funktionieren,andernfalls wärs ja mal wirklich sch...lecht.
Link: Finds gerade nicht, sorry, eventuell wars in nem anderen Forum, viel wars aber sowieso nicht.

Zur Directory: Volle Directories hat AMD nicht, seit den 6Kern Chips kann ein Teil des L3-Caches für nen Directory-Cache abgezweigt werden. Da stehen halt immer die letzten, aber nicht alle Einträge drin. Sie nennen es deswegen "Filter" und nicht Cache.

Bei Single-CPUs wirds nicht genützt, intern braucht mans nicht, bei 2P Setups braucht mans auch noch nicht. Wenn ich mich recht erinnere war das deswegen so, da die Tags noch die Info haben, dass Daten "off-node" sind. Bei nem 2P System weiss man dann, welche Node das ist, gibt ja nur eine mehr. Erst darüber wirds dann kompliziert. Deck sich also mit Gipsels Aussage.