AMD - Fusion 2 - Trinity - 4 Piledriver Kerne + D3D11 VLIW4 GPU [Archiv] - Seite 4

y33H@

2012-04-13, 16:30:24

Das "APU in MBA"-Gerücht gab's letztes Jahr schon bei Llano, AMD konnte aber offenbar nicht genügend Stückzahlen und vor allem keine 17W-Version liefern, die Apple getaugt hätte. Wie die Yields bei Trinity 17W aussehen kA und zudem ist es fraglich ob AMD in 17W eine iGPU rein kriegt, die der HD 4000 meilenweit davon läuft. Für reine 2D-Nummern ist die Performance der iGPU trotz HD+ zudem egal. Möglich wäre es, daran glauben tu ich aber nicht. Zudem S|A ;-)

Zergra

2012-04-13, 16:33:58

S940

2012-04-13, 16:34:17

zudem ist es fraglich ob AMD in 17W eine iGPU rein kriegt, die der HD 4000 meilenweit davon läuft.Naja, wie leistungsfähig ist denn nen HD4000 @17W TDP? Wird ja wohl auch kaum ein Überflieger werden...

Shink

2012-04-13, 16:40:50

y33H@

2012-04-13, 16:43:30

@ S940

Die HD 4000 in den 17W ULVs ist schneller als die HD 4000 eines i7-3770K :biggrin: gleiche Specs, aber 150 MHz mehr iGPU-Turbo.

Ronny145

2012-04-13, 16:53:01

Zockerfrettchen

2012-04-13, 17:31:26

Wie wäre es denn mit einem 17 Watt Trinity plus zusätzliche AMD Grafikkarte die dann mit der igp im "Crossfire?" läuft und sich im Idle abschaltet? Daran habe ich zumindest gedacht als isch es gelesen habe...
Mfg Zockerfrettchen

y33H@

2012-04-13, 18:10:29

Das nutzt Intel schon mit Nvidias Kepler und Apple angeblich bei an MBs auch. Daher bezweifle ich Trinity für die MB(A)s.

R.I.P.

2012-04-13, 19:20:34

Glaubt ihr, dass das Trinity-Top-Modell für den Desktop als CPU mit dedizierter Grafikkarte einem FX-6200 ebenbürtig wird? Gepaart mit einer 7870 in Spielen wie z.B. BF3?

y33H@

2012-04-13, 19:29:13

Das Trinity-Flaggschiff liegt CPU-seitig irgendwo in Richtung eines FX-4170, der FX-6200 ist noch mal ein gutes Stück flotter (bei entsprechender Software). Dennoch ist der FM2 als Plattform die modernste, welche AMD anbietet - denn für AM3+ gibt's zB kein natives USB 3.0. Bei einem Neukauf mit Spielefokus und dedizierte Grafikkarte ist aber eher Ivy Bridge sinnvoll, da schneller (i3).

R.I.P.

2012-04-13, 19:33:40

Na ich will keinen Intel :biggrin: bin gegen deren CPUs allergisch...:tongue:

Bin gerade dabei einen neuen gemütlichen SpielePC zu bauen, mit einer XFX 7870 DD BE als Grafikkarte. Deshalb meine Frage. (Übrigens OT: wie kommt es Euch bei PCGH überhaupt in den Sinn bei der CPU Übersicht im vorletztem Heft keinen 4170 und 6200 zu testen, sondern nur den 4100 und 6100:confused:)

Deshalb meine Frage: glaubt ihr, dass bei aktuellem Wissensstand bzgl. Trinity, eben dieser in Spielen einem FX-6200 ebengürtig sein wird?

Danke!!

samm

2012-04-13, 19:41:37

Trinity ist ja maximal ein Zweimoduler - wenn du etwas ebenbürtiges erwartest, eher auf Vishera warten. Der aktuelle Wissensstand ist aber, wie du an diesem Thread siehst, minim - alles nur Gerüchte, Fakes und Vermutungen ;)

y33H@

2012-04-13, 19:41:55

@ R.I.P.

Wie bereits ausgeführt wird Trinity das meiner Vermutung (!) nach nicht.

Denn der A10-5800K hat 2M/4C bei 3,8 bis 4,2 GHz und der FX-6200 hat 3M/6C bei 3,8 bis 4,1 GHz. Das sind mal eben eben 50 Prozent mehr "Kerne", die gerade die FX nötig haben und in halbwegs modernen Spielen auch nutzen. Trinity wird zwar mehr IPC bieten als Zambezi, dafür fehlt der L3 und dem A10 hat 1M/2C.

Warte einfach noch vier Wochen, dann sage ich dir genaueres ^^

Übrigens OT: wie kommt es Euch bei PCGH überhaupt in den Sinn bei der CPU Übersicht im vorletztem Heft keinen 4170 und 6200 zu testen, sondern nur den 4100 und 6100?Ich hätte beide gerne drin gehabt, aber bis Redaktionsschluss war da keine Möglichkeit an Retails ranzukommen ;(

Den Test findest du (daher) online und mittlerweile auch im aktuellen Heft: http://www.pcgameshardware.de/aid,870241/

btw Allergien sind heilbar :P

R.I.P.

2012-04-13, 19:49:28

@y33H@

Ok, bitte erschlag mich nicht, aber deinem vorletzten Post zu beurteilen, nimmst du an, dass der 5800K ca. die Leistung eines 4170FX erreichen wird; welcher in BF3 z.B. nur minimal langsamer als der 6200FX ist, in manchen Spielen sogar schneller. Was nun? :redface: Als reinen Spiele PC würde mir ein 2Moduler reichen.....

@samm

Das ist mir schon klar, aber ich brauch ne anständige microATX Platine, welche Am3+ nicht zu bieten hat :frown:

mboeller

2012-04-13, 20:05:00

Im positiven oder negativen Sinne? Also zuviel oder zuwenig Performance? Weiß nicht wie ich mboellers "hoffentlich..." deuten soll.

Als Scherz, was auch sonst?

y33H@

2012-04-13, 20:05:53

A10-5800K = FX-4170 < FX-6200

Du hast Recht, im Mittel der PCGH-Spieleauswahl kann sich der FX-6200 kaum absetzen. Wenn dir 2M/4T reichen und du kein Intel willst, dann ist der A10-5800K eine gute Wahl für die Leistung, vor allem was den Stromverbrauch anbelangt (ich hab zwar noch keinen da, aber der wird sicherlich viel weniger schlucken als ein FX). Und µATX ist ja für dich noch ein Argument ... also FM2 mit dem A10.

R.I.P.

2012-04-13, 20:09:03

Danke dir für deine Prognose. Dann warte ich noch bis Mai....und werde dann abwägen

aylano

2012-04-14, 12:10:51

Bei semiaccurate geistert seit gestern rum Apple würde seine neuen Macbook air mit dem 17W Trinity ausrüsten, da sie eine höhere Auflösung als HD anstreben und die in den Intels verbaute Grafik nicht performant genug ist. Wie schätzt ihr das ganze einß Ist das möglich?
Mfg Zockerfrettchen
Wenn AMD alle seine Marketing-Versprechen hält, dann könnte die Chance ziemlich groß sein.

http://www.notebookcheck.com/Test-Sortierung-Prozessor.243.0.html
Ich hatte mal die 35W-TDP-Quad-Llano-IGP gegen Intels-35W-TDP-iGP (i/ 2620M) vergleichen und war verblüfft, dass diese Quad-Llanos die selbe Effizienz unter Chinebench 11.5-Multi-Last hatten. Zwar sind Intels Notebook-CPUs in CPU-Performance stärker, aber sie verbrauchen auch erheblich mehr Strom. Begründet könnte das der Turbo-Modus sein, der bei i7-Cores erheblich agressiver ist als bei effizienteren i3-Modellen, wo der Turbo-Core deaktiviert ist.

Nicht umsonst hat Apple Llano schon mal in Betracht gezogen.

Mich würde ja nicht überraschen, wenn gerade bei 17W-Modellen der Turbo ebenfalls agressiv genutzt wird. Wenn AMD die 100% Effizienz-Steigerung eines 17W-Trinity gegenüber eines aktuellen 35W-Llano ungefähr einhält, dann könnten auch die Trinitys bei selben TDPs im Stromverbrauch sehr sparsam werden.

Wenn das so eintreten sollte, dann sieht es ziemlich gut aus. Gerade Apple legt das mehr wert auf Effizienz als andere und hatten bei den Mac-Air nicht umsonst mal die Westmere-Generation ausgelassen. Wenn Apple schon den Llano in Betracht zogen, sehe ich kaum einen Grund Trinity nicht in Betracht zu ziehen, der in Last, Idle & Teillast nicht unerheblich weiter zulegt. Vorallem könnte Apple mit AMD dann weiter die CPU-Einkaufspreise drücken und so mehr Profit zu erzielen.

Yields und Verfügbarkeit sollten eigentlich kein Problem werden, da die 32nm-Fertigung schon ziemlich ausgereift & hochgefahren ist und die Umstellung von Llano auf Trinity recht schnell erfolgen kann.

y33H@

2012-04-14, 12:23:28

Ein 35W i7 soll CPU-seitig mehr Strom fressen als ein 35W Llano-Quad? Das glaube ich zwar, aber auch gerade daher ist der CPU-Part weitaus schneller, sprich die CPU-seitige Effizienz ist klar höher beim i7.

aylano

2012-04-14, 13:13:24

http://www.notebookcheck.com/Test-Lenovo-ThinkPad-Edge-E525-NZ62KGE-Notebook.69770.0.html
http://www.notebookcheck.com/Test-Lenovo-ThinkPad-X220T-4298-2YG-Convertible-Notebook.59907.0.html

Mit 3,11 Chinebench 11.5-Multi-Thread-Punkte ist der Core i7-2620M zwar um 65% schneller, aber bei einem 31% größeren Akku hat dieser eine 24% geringere Akku-Zeit.
Von klar höher ist keine Rede, wenn Core i7-35W-TDP sogar leicht ineffizienter ist.
Das gilt nicht nur für den schnellsten (dieser Vergleich) sondern auch beim 2.schnellsten sowie im Schnitt aller 35W-TDP-Quad-Llano-IGP vs 35W-TDP-Intel-Core i7, wo es auch alle Daten dazu gab.

Ich weiß, mich verblüffte es selber.
Zuerst dachte ich, die 35W-Core i7 modelle wären die effizientesten Modelle, da diese Modell im Notebook-Check alle so zwischen 1500 und 2000 Euro kosten und mit SSD & Co eigentlich bessere Werte zu erwarten waren.
Aber im vergleich zu Core i3 und Core i5 sind sie (etwas) ineffizenter in Sachen Multi-Thread-Chinebench 11.5.
Ich betone, dass ich da iGP-Notebooks verglichen habe, da Notebook mit dezentierten GPUs generell effizienter sind..

Wie ich schon sagte, wenn sich
1) Trinity 17W-TDP im Stromverbrauch wie die 35W-TDP-Quad-Llanos verhalten sowie
2) Trinity 17W-TDP-Performance ähnlich zu 35W-TDP-Llano-Performanceund auch 1:1 in der CPU-Performance gilt sowie
3) die 17W-TDP-Intel-CPUs sich im Stromverbrauch wie die Core i7 (im Turbomodus) verhalten,
dann könnten die 17W-TDP-Trinitys sehr interessant (für Apple) werden.

Allein wenn Punkt 1 nicht eintritt, kann das ein Effizienz-Unterschied von bis zu 50% ausmachen.
Zu Punkt 1 gibts ja keine direkten Marketing-Aussagen. Aber generell wurde gesagt, dass ein 17W-TDP-Quad-Trinity um 100% effizienter ist als ein 35W-Quad-Llano. Daraus sollte sich ein ähnliches Stromverbrauchsverhalten des 17W-Trinity im Vergleich zum 35W-Quad-Llano ergeben.

S940

2012-04-14, 13:15:20

Sieht nach einer Fälschung aus.
Dacht ich zuerst auch, aber nach ein bisschen Recherche geh ich vom Gegenteil aus. Details die Tage, muss noch was testen.
Nur soviel: Für die normale Durchschnittsleistung relativ belanglos. Ist halt ein synth. Benchmark ...
@ S940
Die HD 4000 in den 17W ULVs ist schneller als die HD 4000 eines i7-3770K :biggrin: gleiche Specs, aber 150 MHz mehr iGPU-Turbo.Lol, achso, nur die CPU wird runtergedreht und die GPU nicht? Hätt ich nicht gedacht, na dann könnts wirklich enger werden. Thx 4 Info.

mboeller

2012-04-15, 12:56:37

S940

2012-04-20, 15:09:58

Dacht ich zuerst auch, aber nach ein bisschen Recherche geh ich vom Gegenteil aus. Details die Tage, muss noch was testen.
Nur soviel: Für die normale Durchschnittsleistung relativ belanglos. Ist halt ein synth. Benchmark ...
Sorry hab den Thread hier vergessen, für die, dies noch nicht kennen:
Trinity mit aktivierter Integer-Divisions-Einheit: Auch auf FX-Chips reaktivierbar? (http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&id=1334532731)

Entspricht zur Hälfte dem vom mboeller Verlinkten, die andre Hälfte ist die, dass das Problem für BD & Trinity das gleiche sein muss, aber leider kann man die DIV-Einheit beim BD doch nicht reaktivieren - zumindest hats noch keiner geschafft.

davidzo

2012-04-21, 12:18:36

http://www.passmark.com/forum/showthread.php?t=3656

aus diesem Thread: http://semiaccurate.com/forums/showthread.php?t=5021&page=176

erklärt die schlechte Performance der Llano-CPU's im Integer Test. Die Trinity-CPUs sind also im Vergleich nicht wirklich so gut.

Ach ja:

http://browse.geekbench.ca/geekbench2/610262 (Trinity)
http://browse.geekbench.ca/geekbench2/539909 (Llano)

Llano ist da mit asynchroner Speicherbestückung getestet worden, was afaik kein Dualchannel bedeutet (Flexmemory gibts nur bei Intel). Die halbierte Bandbreite ist wohl für die schlechten Memory Streaming werte verantwortlich, mit Dualchannel sollten sie doppelt so hoch, also auf augenhöhe mit trinity sein.

selbst gegen einen i5-2410 schaut der mobile-Trinity im Geekbench nicht so schlecht aus:

amdfx.blogspot.com/2012/04/amd-trinity-benchmark-geekbench.html

Hier scheint ein völlig anderer Llano (ohne turbo?) getestet worden zu sein als im obigen Test (2500 vs 3800punkte). Ebenfalls scheint nur singlechannel Ram verwendet worden zu sein.

Die Aussagen zu Llano sind wertlos. Einzig der Vergleich zum Core i5 lässt ein paar Rückschlüsse zu, nämlich dass das 35Watt 4-Core Trinity Topmodell ganz gut mit einem 2core+HT Sandybridge mithalten kann. Allerdings muss man bei 35Watt wohl eher gegen einen quadcore Ivybridge antreten...

Undertaker

2012-04-21, 14:41:40

Llano ist da mit asynchroner Speicherbestückung getestet worden, was afaik kein Dualchannel bedeutet (Flexmemory gibts nur bei Intel).

Nicht ganz. Beispielsweise gibt es bei 2GB + 4GB Dualchannel-Zugriff auf 4GB, die restlichen 2GB des größeren Moduls werden nur Singlechannel angesprochen. IdR hat man damit praktisch die Dualchannel-Performance.

mboeller

2012-04-22, 12:36:24

y33H@

2012-04-22, 12:44:26

Das Dumme ist nur: Die GPU war nie das Problem ... wenngleich Trinity ja "nur" gegen die i3, Pentiums und Celerons ran muss. Da ist AMD dann wieder im Vorteil je nach workload.

dilated

2012-04-22, 13:09:42

Das Dumme ist nur: Die GPU war nie das Problem ... wenngleich Trinity ja "nur" gegen die i3, Pentiums und Celerons ran muss. Da ist AMD dann wieder im Vorteil je nach workload.

sieht doch ganz gut aus bisher, die workload, wofür die meisten sowas
kaufen(Wohnzimmer htpc ect.) passt imho eher zu amd mit der guten Grafik

und der preis sicher auch

Undertaker

2012-04-22, 13:10:47

685 MHz auf der GPU sind tatsächlich mal eine Ansage - bei der 6620G waren es nur 400 MHz. Die 40nm-Mittelklasse dürfte man damit gut hinter sich lassen können, sofern die Bandbreite nicht zu stark limitiert.

sieht doch ganz gut aus bisher, die workload, wofür die meisten sowas
kaufen(Wohnzimmer htpc ect.) passt imho eher zu amd mit der guten Grafik

und der preis sicher auch

Für HTPC-Anwendungen sind die neusten IGPs schon fast überdimensioniert - wirklichen Mehrwert wirst du vor allem in Spielen haben. Dabei muss man allerdings hoffen, dass es mit Trinity mehr Auswahl an Notebooks ohne Crossfire-Lösung geben wird. So ein A10-4600M mit üblicher Ausstattung in einem 500-550€-Gerät wäre was feines. :) Darüber würde es durch Ivy Bridge + 28nm-GPUs schon wieder uninteressant.

dilated

2012-04-22, 13:15:19

Für HTPC-Anwendungen sind die neusten IGPs schon fast überdimensioniert - .

die meisten spielen auch mit ihrem htpc ;), und ps3, xbox Qualität erreicht man ja schon mit llano

S940

2012-04-22, 13:37:33

Llano ist da mit asynchroner Speicherbestückung getestet worden, was afaik kein Dualchannel bedeutet (Flexmemory gibts nur bei Intel).
Kann es sein, dass Dir die Features von "unganged" Memory entgangen sind?
Gibts seit dem K10, asymetrische Bestückung ist kein Problem. Such mal ein paar alte Threads in denen sich die K10-Käufer aus versehen 6GB Sockel-1366 Speicherkits gekauft haben.
Also das sollte auch Llano hinbekommen. Der A10 lief dagegen ganz normal mit 2x2048MB.
Edit: Hmm nö eventuell hast Du doch recht, die Geekbench-Werte des Llano sind wirklich schlecht.

Die halbierte Bandbreite ist wohl für die schlechten Memory Streaming werte verantwortlich, mit Dualchannel sollten sie doppelt so hoch, also auf augenhöhe mit trinity sein.
Mit halbierter Bandbreite hast Du allerdings trotzdem recht. Aber halt nicht wg. vermeintlich deaktivierte, dual-channel sondern aufgrund DDR3-800. Das zeigt zumindest Passmark beim A10 an. Scheint ausnahmsweise kein Fehler zu sein, die Werte passen ja dazu, und im mobile-Bereich bzw. bei nem Sample kann man mit sowas schon rechnen.
Edit: Aber was die beim Llano getrieben haben .. kA. Am besten wäre noch ne Erklärung mit single-channel und 2GB für die Grafik, aber 8GB DImms sind für sowas eigentlich noch zu teuer (wenns überhaupt schon SODIMMs gibt).

Ronny145

2012-04-22, 16:17:26

http://ai.esmplus.com/etecom/G6(640GB)/2002/g6_2002_002.jpg

Trinity A10-4600M

35W APU: CPU mit 2.5GHz - 3.2GHz und die GPU hat 384 SPs @ 685MHz

Hoffentlich ist die Performance damit noch ein wenig besser. Die bisherigen Tests waren ja bei 2.3GHz. Der Fortschritt, zumindest bei der GPU ist massiv.

685 Mhz sind ziemlich viel für die mobile GPU. Der Leistungsabstand zwischen mobile und Desktop sinkt offenbar. So langsam müssten doch mal vernünftige Leaks auftauchen.

685 MHz auf der GPU sind tatsächlich mal eine Ansage - bei der 6620G waren es nur 400 MHz. Die 40nm-Mittelklasse dürfte man damit gut hinter sich lassen können, sofern die Bandbreite nicht zu stark limitiert.

444 Mhz :wink:

AnarchX

2012-04-22, 16:38:22

Da wirken die 800MHz für die Top-Desktop-APU mit 100W in der Tat etwas wenig. Aber mehr macht wohl bei 128-Bit DDR3 auch nicht Sinn.

y33H@

2012-04-22, 16:56:07

Mein letzter Stand war, dass AMD bei DDR3-1866 stagniert und nicht auf DDR3-2133 hoch geht. Das bremst die Trinity-GPUs fei ein.

Undertaker

2012-04-22, 16:59:36

444 Mhz :wink:

Argh, war bei der 6520G. ;) Dennoch, auch das sind über 50% Zuwachs.

Mein letzter Stand war, dass AMD bei DDR3-1866 stagniert und nicht auf DDR3-2133 hoch geht. Das bremst die Trinity-GPUs fei ein.

Bei Notebooks werden wohl viele Hersteller gar nur DDR3-1333 verbauen... Und manche nicht einmal ein zweites Modul. :( Da bleibt oftmals einiges an Performance auf der Strecke.

y33H@

2012-04-22, 17:10:31

Hier sehe ich AMD in der Pflicht, den OEM zu sagen, sie mögen gescheiten Speicher einsetzen - es ist ja im Interesse AMDs. Immerhin bieten sie ja "selbst" DDR3-1866 an: http://www.amd.com/de/products/technologies/radeon-memory/Pages/system-memory.aspx#2

HOT

2012-04-23, 13:07:48

Mein letzter Stand war, dass AMD bei DDR3-1866 stagniert und nicht auf DDR3-2133 hoch geht. Das bremst die Trinity-GPUs fei ein.
Bei Llano gabs auch keine signifikante Unterschiede mehr zwischen DDR1600 und DDR1866. Dann wird es beim Trinity vermutlich kaum einen Unterschied zwischen 1866 und 2133 geben... Ich würd weiterhin sagen Minimum bleibt DDR1600 bei den größeren IGPs. Das Problem ist weiterhin, dass es kaum "echte" DDR1600-JEDEC-Teile gibt, sondern nur diese dämlichen XMP-Profile. Das ist für AMD echt ein Problem, da diese Profile nur von High-End-Boards genutzt werden (jaja, nicht nur für Intel, richtig gelesen), nicht jedoch von Llano/Trinity-OEM-Brettern - deshalb gibts ja jetzt "eigenen" (Patriot) RAM. Das sind ganz normale DIMMs nur JEDEC-Konform programmiert. Leider scheint dieses Beispiel keine Schule zu machen und die ganzen Hersteller meiden weiterhin die JEDEC-konforme Programmierung und setzen weiterhin auf XMP (weiss der Teufel wieso).
Mal sehen was man sich bei Kaveri einfallen lässt, da wird sicherlich wirklich eng mit der Bandbreite.

aylano

2012-04-23, 13:22:24

Trintiy soll AFAIK Virtual Memory haben, sodass die CPU auf GPU zugreifen kann.
Vielleicht kann diese Technik die Bandbreite reduzieren bzw. mehr Arbeit bei gleicher Bandbreite erreichen.

Knuddelbearli

2012-04-23, 16:00:08

naja gpu leistung ist +40% da müsste ( sofern Virtual Memory nix dran ändert ) auch die Speicherbrandbreite ca 40% erhöht werden das wäre von 1600 ausgehend dann doch mehr als 2133

HOT

2012-04-23, 17:40:01

Das Speicherinterface wächst nie im 1/1 Verhältnis und das ist auch nicht notwendig. Bei MSAA wird das Interface aber genausowenig reichen wie das 128Bit-Interface der x7x0er Karten. Für Grafik ohne AA wird es locker reichen mMn. Bei Kaveri wird aber auch MSAA immer interessanter und da reichts dann auch beim Speicherinterface nicht mehr.

Schnitzl

2012-04-25, 00:05:21

Das Dumme ist nur: Die GPU war nie das Problem ... wenngleich Trinity ja "nur" gegen die i3, Pentiums und Celerons ran muss. Da ist AMD dann wieder im Vorteil je nach workload.
au contraire mon capitaine (Q)
die GPU ist immer das Problem ;)

y33H@

2012-04-25, 00:15:12

Undertaker

2012-04-25, 00:17:42

au contraire mon capitaine (Q)
die GPU ist immer das Problem ;)

Doch aber nicht für AMD. ;) Käufer, die mit der IGP spielen wollen, werden zur stärkeren Lösung greifen - egal ob diese jetzt 40, 60 oder 80 Prozent vorne liegt. Alle anderen kann man nur dann für sich gewinnen, wenn der CPU-Teil bzw. die Effizienz konkurrenzfähig wird.

Trap

2012-04-25, 00:27:03

Die Trinity CPU wird näher am Benchmarksieger CPU (i7-3960X) dran sein als die Trinity GPU am Benchmarksieger GPU (GTX 690, oder von mir aus auch nur 680).

Twodee

2012-04-25, 07:50:48

Aber nicht in der DualCore (2 Module) - Variante ;)

Trap

2012-04-25, 11:27:28

Aber nicht in der DualCore (2 Module) - Variante ;)
In der 2-Modul Variante bekommt man wahrscheinlich etwa 30% der Leistung vom i7-3960X. Du meinst Trinity GPU hat mehr als 30% der GTX680-Leistung? Das wäre ja HD7770 / GTX 550Ti Niveau. Schön wärs :)

YfOrU

2012-04-25, 12:29:28

So wie es bisher aussieht liegt ein A10-4600M mit Turbo (35W) sowohl was die CPU als auch die GPU betrifft ungefähr auf Augenhöhe mit dem A8-3870 (Desktop). Im Vergleich zum A8-3520M (ebenfalls 35W) ist das ein ziemlich großer Schritt in die richtige Richtung.

Letztens kam mir (bei der Suche nach geeigneten Produkten für ein Planungsbüro) ein Gedanke der von AMD bisher nicht verfolgt worden ist:

Gerade das Lineup der mobilen APUs würde sich zumindest ab Trinity derart gut für kostengünstige mobile Workstations eignen das es kaum verständlich ist warum AMD diesen Bereich vollkommen ignoriert.
Wobei es mir da nicht um mobile Highend CAD Workstations geht sondern schlichtweg um kostengünstige Business Produkte mit den Vorzügen der AMD Fire Reihe. In erster Linie also gute und potente Treiber mit Eignung für kleinere CAD Aufgaben. Hier ist durchaus eine profitable Marktlücke vorhanden denn mit Intel IGPs ist oft nichts zu holen (Kompatibilität und Performance) und jedem Anwender ein Produkt für ~1500€ aufwärts hinzustellen macht meistens keinen Sinn.

Das Argument das die Software Lizenzen den großen Teil der Kosten ausmachen und die Ausgaben für die Hardware deshalb eher weniger ins Gewicht fallen gilt heute auch nicht mehr. Man kauft heute praktisch nur noch eine ausreichende Anzahl an Netzwerklizenzen welche dynamisch je nach Bedarf an Clients verteilt werden.

Ronny145

2012-04-25, 12:50:33

http://www.nordichardware.se/nyheter/69-cpu-chipset/45773-3dmark-11-prestanda-med-amd-trinity-avsloejas-i-saeljmaterial.html

1135 3dmark11 Punkte ist ein Niveau auf A8-3870K.

Undertaker

2012-04-25, 12:56:17

So wie es bisher aussieht liegt ein A10-4600M mit Turbo (35W) sowohl was die CPU als auch die GPU betrifft ungefähr auf Augenhöhe mit dem A8-3870 (Desktop).

GPU ja, aber bzgl. CPU liegst du weit daneben. Skaliere mal die Ergebnisse eines FX-4100 auf 2,3 GHz herunter (Multithreaded), ergänze ein paar Prozent IPC und schau, was herauskommt. Singlethreaded wird es durch den hohen Turbo einen schönen Boost geben (allerdings im Konkurrenzvergleich immer noch recht schwach), Multithread durch CMT trotz der anderen Verbesserungen nur minimale Gewinne zu den bisherigen mobilen Llanos.

YfOrU

2012-04-25, 13:01:58

Unter der Voraussetzung das der Turbo bei Trinity ordentlich funktioniert wird das bei realen Workloads kaum negativ ins Gewicht fallen.
Der Haken bei den mobilen Llano APUs ist primär die niedrige ST Performance.

Wobei ich nicht davon ausgehe das der Basistakt (2,3Ghz) gleichzeitig der maximalen Frequenz auf beiden Modulen unter Last entspricht. Hier ist eher eine dynamische Lösung wie bei Intel zu erwarten denn bei 2,3Ghz muss in der (35W) TDP noch Raum für GPU Vollast sein.

Undertaker

2012-04-25, 13:09:24

Unter der Voraussetzung das der Turbo bei Trinity ordentlich funktioniert wird das bei realen Workloads kaum negativ ins Gewicht fallen.
Der Haken bei den mobilen Llano APUs ist primär die niedrige ST Performance.

Llanos Turbo funktioniert bei vielen Notebooks durchaus korrekt, nur greift der Turbo eben nur bei 1-2 Threads. Werden diese in Spielen oder Anwendungen überschritten, geht es schlagartig auf den niedrigen Basistakt zurück. Nötig wären hier feine Zwischenschritte wie bei Intel.

Aber dennoch, Trinity macht Singlethreaded zumindest einen guten Schritt nach vorne. Auf diesem Gebiet war Llano aber selbst alten Arrandale-Pentiums unterlegen...

Wobei ich nicht davon ausgehe das der Basistakt (2,3Ghz) gleichzeitig der maximalen Frequenz auf beiden Modulen unter Last entspricht.

Wie schon gesagt, genau das wäre nötig, ist aber leider wohl nicht dabei.

YfOrU

2012-04-25, 13:44:22

Llanos Turbo funktioniert bei vielen Notebooks durchaus korrekt, nur greift der Turbo eben nur bei 1-2 Threads. Werden diese in Spielen oder Anwendungen überschritten, geht es schlagartig auf den niedrigen Basistakt zurück. Nötig wären hier feine Zwischenschritte wie bei Intel.

Genau das verstehe ich unter einer ordentlichen Implementierung denn die bisherige ist in der Praxis alles andere als optimal.

Wie schon gesagt, genau das wäre nötig, ist aber leider wohl nicht dabei.

Zum exakten Funktionsumfang von TurboCore 3.0 gab es meines Wissens nach bezogen auf die mobilen Varianten bisher keine Aussagen.
Das dieser auf dem Desktop bei wesentlich höherer TDP und bereits sehr hohen Frequenz wohl nur bei Teilauslastung aktiv ist muss nicht zwangsläufig auch für die mobilen Ableger gelten.

Twodee

2012-04-25, 14:21:46

In der 2-Modul Variante bekommt man wahrscheinlich etwa 30% der Leistung vom i7-3960X. Du meinst Trinity GPU hat mehr als 30% der GTX680-Leistung? Das wäre ja HD7770 / GTX 550Ti Niveau. Schön wärs :)
Berücksichtigt man Takt und (derzeitige Bulld.) IPC, dann sind es eher 20%.
Die Frage ist, um wieviel Trinity zulegen kann (durch Verbesserungen) bzw. verliert durch den L3.

YfOrU

2012-04-25, 14:37:36

Bei einem typischen Mix aus ST und MT Anwendungen sind es eher 40 als 20% ;)

Als Beispiel CB: http://www.computerbase.de/artikel/prozessoren/2012/test-intel-ivy-bridge/15/#abschnitt_anwendungen
A8-3870K 3,00 GHz -> 100%
Core i7-3960X SMT 3,30Ghz -> 227%

Womit Trinity in der Desktop Variante inkl. Turbo bei ~50% landen wird.

Im Vergleich dazu steht eine GTX 680 bei ~500% gegenüber einer GPU wie der Radeon 6670 (100%). Wobei die 6670 natürlich noch ein Stück vor der Trinity IGP einzuordnen ist. Die IGP liegt damit bei knapp 20% der maximal möglichen Leistung.

Twodee

2012-04-25, 16:17:26

Och nö, du vergleichst ja einen Mix aus Anwendungen, welche nicht alle durchgängig zu 100% die CPU komplett nutzen. Selbst ein I3 liegt da bei 46%, obwohl er nur 2 anstatt 6 Kerne hat.

Schau mal hier beim Pass 2: http://ht4u.net/reviews/2011/intel_sandy_bridge_e_hexa_core/index27.php

und dann betrachte den FX-4100, und rechne auf den Takt des A10 herunter.
=> ~20%, oder 500% je nach Sichtweise ;)

Das die Desktop Variante schneller ist, sollte klar sein [4 Module, mehr Takt], aber das war nicht Bestandteil der ursprünglichen Behauptung ;)

YfOrU

2012-04-25, 16:35:29

Och nö, du vergleichst ja einen Mix aus Anwendungen, welche nicht alle durchgängig zu 100% die CPU komplett nutzen. Selbst ein I3 liegt da bei 46%, obwohl er nur 2 anstatt 6 Kerne hat.

Was denn sonst ? Alles andere ist vollkommen abseits der Realität und daran wird sich über den Produktzeitraum auch nichts ändern. Wobei ich hier sogar einen Kompromiss eingegangen bin und Spiele nicht mit einbezogen habe um das Ergebnis nicht zu verfälschen.

Das die Desktop Variante schneller ist, sollte klar sein [4 Module, mehr Takt], aber das war nicht Bestandteil der ursprünglichen Behauptung ;)

Der i7-3960X wurde als Vergleichsobjekt genannt und ist ebenfalls keine mobile CPU. Es sind im übrigen auch auf dem Desktop 2 Module (4 Kerne).

Twodee

2012-04-25, 16:41:28

Was denn sonst ? Alles andere ist vollkommen abseits der Realität und daran wird sich über den Produktzeitraum auch nichts ändern. Wobei ich hier sogar einen Kompromiss eingegangen bin und Spiele nicht mit einbezogen habe um das Ergebnis nicht zu verfälschen.
Schön, beim GPU-Vergleich wird natürlich im GPU-Limit verglichen, damit das 20% bzw. 500% Verhältnis passt :rolleyes:

Btw. Handbreak auf einem i7 ist nicht unrealistisch :biggrin:

Der i7-3960X wurde als Vergleichsobjekt genannt und ist ebenfalls keine mobile CPU. Es sind im übrigen auch auf dem Desktop 2 Module (4 Kerne).
Gut dann streichen 2 eben 2 Module. Wußte ich nicht. PD bekommt dann 4 Module?

Trap

2012-04-25, 16:43:03

Das die Desktop Variante schneller ist, sollte klar sein [4 Module, mehr Takt], aber das war nicht Bestandteil der ursprünglichen Behauptung ;)
Ich meinte schon den 2-Modul Desktop Trinity mit 3.8 GHz.

Twodee

2012-04-25, 16:49:38

Gut. Das ging halt nicht richtig hervor, da die letzte Diskussion sich ursprünglich um den Trinity A10-xxxx drehte.

YfOrU

2012-04-25, 16:52:35

Schön, beim GPU-Vergleich wird natürlich im GPU-Limit verglichen, damit das 20% bzw. 500% Verhältnis passt :rolleyes:

Das GPU Limit liegt bei einer IGP praktisch immer vor. Tausch diese gegen eine dedizierte GPU aus und schon geht es um n Faktoren nach oben. Bei einer CPU mit mehr Kernen (als das Vergleichsobjekt) ist diese Relation nicht gegeben.

Btw. Handbreak auf einem i7 ist nicht unrealistisch :biggrin:

Und ist trotzdem in der Praxis ein Einzelfall der nicht die allgemeine Skalierung widerspiegelt.

Gut dann streichen 2 eben 2 Module. Wußte ich nicht. PD bekommt dann 4 Module?

Die AM3+ Variante hat bis zu 4 PD Module. FM2 hat maximal 2 PD Module.

Twodee

2012-04-25, 17:30:45

Das GPU Limit liegt bei einer IGP praktisch immer vor. Tausch diese gegen eine dedizierte GPU aus und schon geht es um n Faktoren nach oben. Bei einer CPU mit mehr Kernen (als das Vergleichsobjekt) ist diese Relation nicht gegeben.
Reicht dir ein Gegenbeispiel aus? Handbreak :P

Und ist trotzdem in der Praxis ein Einzelfall der nicht die allgemeine Skalierung widerspiegelt.Für einen CPU-Vergleich ist es aber ziemlich daneben eine Anwendung/Mix zu wählen, welche eben diese CPU nicht komplett ausnützt.
Wenn die Skalierung nun nicht stattfindet, liegt das nicht an der CPU, sondern an der gewählt Anwendung.

Die AM3+ Variante hat bis zu 4 PD Module. FM2 hat maximal 2 PD Module.
Jut, wir reden von der Variante mit IGP, also 2 Module. Alles klar.

Knuddelbearli

2012-04-25, 17:36:32

gut dann nehmen wie bei gpus auch nur die theoretischen ausnutzungswerte aus profi tools?

ist doch nicht die schuld der gpu wenn ein spiel nicht die gesamte Leistung abruft

YfOrU

2012-04-25, 17:53:03

Reicht dir ein Gegenbeispiel aus? Handbreak :P

Nein und es reichen auch nicht zwei oder drei. Über die Masse der Applikationen sieht es mit einer Skalierung von deutlich über zwei Kernen miserabel aus und das kann man nicht einfach durch Benchmarks bei Auslastungen nahe am theoretischen Maximum unter den Tisch fallen lassen.

Für einen CPU-Vergleich ist es aber ziemlich daneben eine Anwendung/Mix zu wählen, welche eben diese CPU nicht komplett ausnützt.
Wenn die Skalierung nun nicht stattfindet, liegt das nicht an der CPU, sondern an der gewählt Anwendung.

Siehe oben. Wenn die Anwendung nicht entsprechend skaliert wäre eben für ein optimales Ergebnis eine CPU mit weniger Kernen bei höherer IPC und Takt die bessere Lösung ;)

Twodee

2012-04-25, 17:56:01

Sinnlos. Lass gut sein. ;)

Schnitzl

2012-04-25, 18:25:18

Tres bien mon copain mais je pense [ich kann's nimmer], dass das wohl eher uns (?) Spieler zutrifft. Otto Normal ist idR zufrieden mit allem, was ein Bild macht :usad: oder worauf genau beziehst du dich?
Q - Star Trek ;)
ich beziehe mich auf diverse Aussagen von hier, z.B. dass bei Skyrim Phenom2 + 5850 die CPU zu langsam wäre.
Allerdings war das Upgrade auf ne 7950 top, seitdem läuft das Spiel wie Butter...
Ähnlich ging es mir auch bei anderen Spielen

MfG

y33H@

2012-04-25, 18:49:48

Skyrim auf einem PH2 mit 3,x GHz sind 40 bis 50 Fps, im worst case Richtung 30 Fps (bei maximalen Details). Mir wäre das gerade aufgrund von Modding zu wenig, 99 % der Spieler sind damit aber sicherlich glücklich.

Schnitzl

2012-04-26, 19:20:48

ja gut mein PH2 läuft auf 4,2 und ich hab 2 oder 3 Kleinigkeiten reduziert (Unschärfegedöhns nur mittel, Sichtweite 14 anstatt 15)

Aber was ich damit sagen wollte war, vorher waren die Regler irgendwo in der Mitte (z.B. Sichtweite bei 9 k.A. genauer Wert) und es war in Kämpfen schon oft ziemlich rucklig.
Nach dem Grafikkartenwechsel hat Skyrim selbst schon alles auf max gestellt :D und selbst mit fast-max läufts deutlich besser als vorher...
Incl. Textur-Paket welches vorher auch nicht drin war.

Lange Rede kurzer Sinn, ich finds gut, dass AMD weiterhin die Grafik mehr steigert als die CPU-Leistung. Imho der richtige Weg.

Ronny145

2012-04-30, 09:05:00

1.303 Mrd Transistoren bei 246 mm² Größe.

http://chinese.vr-zone.com/15572/omg-is-trinity-apu-power-point-04302012/

y33H@

2012-04-30, 09:46:22

1,303 Milliarden oder 1.303 Millionen bitte ;-)

Knuddelbearli

2012-04-30, 09:52:33

1,3 billionen ? wow das wollte nv doch eigentlich erst für 2015 ? ^^

Shink

2012-04-30, 09:54:54

1,3 billionen ?
1 billion = 1 Milliarde = 0,001 Billionen

Ronny145

2012-04-30, 09:59:53

http://chinese.vr-zone.com/wp-content/uploads/2012/04/nEO_IMG_trinity-6-665x360.jpg

Die Folie ist auch interessant, sieht man doch wie der Turbo vom A10-4600M arbeitet. 3,2 Ghz bei 1 Kern Auslastung, 2,7 Ghz bei CPU Last mit mehr Kernen und 2,3 Ghz wenn GPU workload dazukommt.

Knuddelbearli

2012-04-30, 10:10:09

jetzt nur noch statt gpu 2d oder 3d eine echtzeit leistungsaufnahme / temperatur überwachung und es wär perfekt ^^

samm

2012-04-30, 10:56:58

1,303 Milliarden oder 1.303 Millionen bitte ;-)In der Schweiz (oder wohl auch sonstwo auf der Welt, wo man wissenschaftlich rechnet?) wäre ein Dezimal-Punkt, wie ihn Ronny145 angewandt hat, das einzig Richtige - Kommata gibt's in Zahlen nicht, und wenn es ein Tausender-Trennzeichen sein muss, dann ist es ein Hochkomma ;)...
So oder so ist die Transistorenanzahl nicht dermassen spannend, interessanter ist, welche Performance unter welchem Workload bei welchem Verbrauch resultiert, am Besten im Vergleich mit Llano und Core-iXX-Mobilevarianten...

Locuza

2012-04-30, 11:04:07

1.303 Mrd Transistoren bei 246 mm² Größe.

http://chinese.vr-zone.com/15572/omg-is-trinity-apu-power-point-04302012/
~150 Millionen Transistoren weniger und 18 mm² größer.
Große Fortschritte hat GF scheinbar nicht gemacht oder ist das Design so luftig, dass es jeden Vorteil bei der Integrationsdichte auffrisst?

Knuddelbearli

2012-04-30, 11:15:54

naja sind ja nur noch 2 wochen

Felixxz2

2012-04-30, 11:37:15

1 billion = 1 Milliarde = 0,001 Billionen

Er bezieht sich auf das 1.303 Mrd von Ronny, was nach deutscher Schreibweise tatsächlich 1,3 Billionen sind. ;)

@Samm

Leider falsch, laut internationalen Normen gilt das schmale Leerzeichen als Tausendertrennung.

HOT

2012-04-30, 11:48:34

~150 Millionen Transistoren weniger und 18 mm² größer.
Große Fortschritte hat GF scheinbar nicht gemacht oder ist das Design so luftig, dass es jeden Vorteil bei der Integrationsdichte auffrisst?
Das würde ich so nicht sagen. Llano war extrem dicht gepackt, dichter als Sandy und wir wissen ja vom Cayman, dass VLIW4 etwas mehr Platz pro Transistor benötigt. Inwieweit ein BD-Modul weniger Transistoren pro Platz hat als ein K10 ist unklar, aber auch hier sollte es so sein. Also hat das mit GloFos Prozess überhaupt nichts zu tun ;).

mboeller

2012-04-30, 12:48:29

1.303 Mrd Transistoren bei 246 mm² Größe.

http://chinese.vr-zone.com/15572/omg-is-trinity-apu-power-point-04302012/

Nett, in einer der Folien steht "+26% gegenüber Husky-Desktop" oder so ähnlich

Auf der gleichen Folie steht auch noch, das Trinity mit max. 3.8GHz kommt. Ein 3870 hat ja 3.0 GHz. 3.8/3.0 = 1,2667

Heißt das nun wirklich, das eine Trinity-APU pro MHz ganz geringfügig schneller ist als eine Llano-APU?

y33H@

2012-04-30, 12:51:04

Die IPC wird wohl eher auf dem gleichen Level, wenn nicht gar darunter sein - denn Trinity hat ja noch den Turbo, der über die 3,8 GHz hinaus geht.

Locuza

2012-04-30, 12:59:29

Das würde ich so nicht sagen. Llano war extrem dicht gepackt, dichter als Sandy und wir wissen ja vom Cayman, dass VLIW4 etwas mehr Platz pro Transistor benötigt. Inwieweit ein BD-Modul weniger Transistoren pro Platz hat als ein K10 ist unklar, aber auch hier sollte es so sein. Also hat das mit GloFos Prozess überhaupt nichts zu tun ;).
Überhaupt nichts? Ich würde mich nicht so sehr aus dem Fenster lehnen ;)

mboeller

2012-04-30, 13:00:23

naja gleicher Level wie ein Llano ist gegenüber BD schon mal ein (großer) Fortschritt. Hilft gegenüber den Intel-Desktop-CPUs zwar nicht viel aber besser als nix.

Ach ja:

auf der Folie stehen auch noch 17W, 25W und 35W Notebook-APUs + 65W und 100W Desktop-APUs drauf und 2.0 - 3.8 GHz

Heißt das etwa, das die 17W Variante mit 2.0 GHz kommt ??? Das wäre verdammt schnell den soweit ich weiß soll auch die 17W Variante als 2+2 Core kommen (also 2 Module).

Ronny145

2012-04-30, 13:01:14

System Performance kann alles mögliche heißen.

samm

2012-04-30, 13:01:25

Er bezieht sich auf das 1.303 Mrd von Ronny, was nach deutscher Schreibweise tatsächlich 1,3 Billionen sind. ;)

@Samm

Leider falsch, laut internationalen Normen gilt das schmale Leerzeichen als Tausendertrennung.Weiss ich doch, drum sag ich ja "in der Schweiz" :P Aber hast recht, das mit dem Tausender-Trennzeichen hätte ich klarer nur CH zuordnen müssen.

Die IPC wird wohl eher auf dem gleichen Level, wenn nicht gar darunter sein - denn Trinity hat ja noch den Turbo, der über die 3,8 GHz hinaus geht.Würde mich auch (positiv) überraschen wenn die leichte Überarbeitung der BD-Cores in die Nähe von Llano käme - der IPC-Schritt wäre zu gross, und das noch ohne L3-Cache.

Gipsel

2012-04-30, 13:18:11

Würde mich auch (positiv) überraschen wenn die leichte Überarbeitung der BD-Cores in die Nähe von Llano käme - der IPC-Schritt wäre zu gross, und das noch ohne L3-Cache.
Ja. Realistisch betrachtet dürfte das außerhalb einiger Spezialfälle auf vielleicht 5% Steigerung gegenüber BD hinauslaufen. Alles was mehr ist, wäre eine Überraschung.

Skysnake

2012-04-30, 13:24:28

Naja, Sie sind den L2 Cache angegangen, welche wohl mit einer der größten Flaschenhälse war/ist.

Zudem wurde ja auch am prefetch was geändert, der TLB vergrößert usw. usw.

Also die haben wohl überall Hand angelegt, und wenn wir uns an die letzten Analysen zu BD erinnern, dann wurde da ja auch klar herausgestellt, das etwas am L2 broken sein muss, und allein deswegen schon recht viel Leistung verloren geht. Waren es nicht bis zu 25% (ich glaub sogar 33 oder 50%) im Extremsituationen?

Also von daher würde es ja eigentlich schon genügen, wenn man diesen "bug" beseitigen würde, um die IPC ganz ordentlich zu steigern.

Wir werden aber wohl einfach die ersten Tests abwarten müssen, wobei wahrscheinlich nicht nur die, sondern auch aussagekräftige Detailanalysen, was denn nun alles verändert wurde, und wie sich dies genau auswirkt auf die Performance.

y33H@

2012-04-30, 13:29:58

Ich würde mir eher mehr L1 wünschen :usad:

Duplex

2012-04-30, 13:48:18

Ich würde mir eher mehr L1 wünschen :usad:
Und das bringt dir wieviel steigerung nochmal? Es muss sein grund gehabt haben warum amd den L1D statt 64 auf 16KB festgelegt hat...

Die Ressourcen die pro CU geteilt weriden müssen, sind für die schwache Thread leistung verantwortlich, beim K10 war das noch doppelt vorhanden.

Was bringt amd 10% mehr Takt wenn man 20-30% ipc durch das shared Design gegenüber K10 verliert...

YfOrU

2012-04-30, 14:36:45

Was bringt amd 10% mehr Takt wenn man 20-30% ipc durch das shared Design gegenüber K10 verliert...

Wie kommst du denn darauf ?

Die Verlustleistung geht beim K10 selbst in 32nm bei höheren Frequenzen vollkommen durch die Decke. Genau hier setzt AMD mit BD an (Skalierung). Die geringere IPC ist nicht allein mit der Gruppierung in Module zu begründen.

Was die Effizienz betrifft (Takt und IPC zu Verlustleistung) sind die PD Module bei Trinity jeder K10 Umsetzung deutlichst überlegen.

Skysnake

2012-04-30, 15:08:25

Ich würde mir eher mehr L1 wünschen :usad:
Naja, der Instruction-Cache ist vergrößert worden, wenn ich das grad auf den Folien richtig sehe.

Das sollte auch schon mal helfen. Wenn ich mich recht erinnere hat ja BD gewissse schwächen beim Microcode oder? Also das man nicht genug Instructionen decoden kann. Da sollte ein größerer Instructioncache doch schon etwas helfen, vor allem mit den anderen Änderungen in dem Bereich kann man hoffen, dass dieser Malus ausgebügelt wurde.

Ich bin vor allem auf die Anbindung des L2 gespannt. Wenn da die Schwächen beseitigt sind, gehts sicherlich ziemlich nach oben, und der kleine L1 schlägt nicht mehr so rein.

Gipsel

2012-04-30, 15:57:24

Naja, der Instruction-Cache ist vergrößert worden, wenn ich das grad auf den Folien richtig sehe.Nee, der ist nicht größer. Angeblich ist das "Instruction window" vergrößert worden. Das bezieht sich eventuell auf die instruction buffer windows vor den Decodern. Da gibt es 16 Einträge (Windows) zu je 16 Bytes, die bereits aus dem I$ geladen wurden (branch prediction muß natürlich funktioniert haben, damit das richtige da drin steht; dieser Puffer entkoppelt den L1-Cache ein wenig von den Decodern) und decodiert werden müssen.
Im Prinzip kann BD Befehle aus 2 Fenstern (2*16 Byte = 32 Byte) gleichzeitig dekodieren, allerdings gibt es diverse Einschränkungen dabei, die das auch schon mal auf ein einziges Fenster limitieren können (und 16 Bytes sind für einen 4fach-Decoder ein bißchen wenig). Dieser Punkt auf der Folie könnte also heißen, daß solche Limitierungen bei PD nicht mehr zutreffen, also immer aus 32 Byte Fenstern decodiert werden kann.

Trap

2012-04-30, 16:47:07

Was bringt amd 10% mehr Takt wenn man 20-30% ipc durch das shared Design gegenüber K10 verliert...
Die 20-30% verliert man nicht durch das Modul-Konzept, sondern durch die stark verbesserungsfähige tatsächliche Umsetzung des Konzepts.

Hyperthreading bringt ja auch ca 5 bis 10% obwohl die erste Umsetzung im P4 bei -5% war.

y33H@

2012-04-30, 16:56:09

Trap

2012-04-30, 17:02:52

Wo verringert SMT die Performance bei den ersten P4?
Stimmt, hatte ich falsch in Erinnerung. Das Argument ist aber trotzdem nicht falsch: Nur weil die erste Umsetzung vom Modul-Konzept mies ist, heißt das nicht automatisch, dass das Konzept an sich falsch ist.

y33H@

2012-04-30, 17:08:09

Das Konzept war von Anfang an auf dem Papier gut und Trinity+VLIW4 zeigt gegenüber Llano+VLIW5 ja, dass AMD bei weniger Transistoren deutlich mehr Leistung aus dem gleichen TDP-Budget rausholen kann. Nur leidet auch Piledriver generell an wenig IPC im Vergleich zur Konkurrenz.

YfOrU

2012-04-30, 18:02:22

S940

2012-04-30, 18:05:07

Wo verringert SMT die Performance bei den ersten P4? Das ist eher das Problem der Software/OS. SMT an sich bringt in den meisten Fällen bei einem P4 mit 1C/2C durchweg Performance-Zuwächse im zweistelligen Prozentbereich. Ne, abgesehen vom OS gabs beim Northwood noch ein Problem mit dem "Replay". Hab ich auch erst vor Kurzem gelernt, hatte ich damals nicht mitbekommen.

Dazu gibts hier nen Thread (such mal replay), und mit google gibts ne Untersuchung des Phänomens bei xbitlabs.

disap.ed

2012-04-30, 19:53:33

Eben. Die Steigerung der Effizienz muss für AMD auch absolut oberste Priorität haben.

Ob das über hohe Frequenzen und vergleichsweise niedrige IPC oder umgekehrt realisiert wird ist sekundär. Wichtig ist in erster Linie das AMD eine konkurrenzfähige Plattform für Notebooks und günstige Komplettsysteme im Angebot hat.

Das ist nur möglich wenn die Verlustleistung bei akzeptabler Rechenleistung in einem vertretbaren Rahmen bleibt. Passende Beispiele sind die kommenden mobilen 25 und 35W APUs.

Sie sollten auch einmal versuchen dies mit konkurrenzfähigen Die Sizes zu schaffen, das kann für den Gewinn langfristig nicht gut sein wenn man 100mm² größere Dies als Intel braucht um halbwegs konkurrenzfähig zu sein.
Und ich wünsche AMD nichts mehr als auf stabilen Beinen zu stehen!

Duplex

2012-04-30, 20:14:00

Die Verlustleistung geht beim K10 selbst in 32nm bei höheren Frequenzen vollkommen durch die Decke. Genau hier setzt AMD mit BD an (Skalierung). Die geringere IPC ist nicht allein mit der Gruppierung in Module zu begründen.
Llano war ursprünglich mit über 3Ghz+ geplant, Llano wurde nicht ausreichend optimiert, deshalb auch nur B0 Stepping. (Die Fertigung ist auch nicht Banane, siehe die hohen Standard VIDs von AMD !!!)

Was die Effizienz betrifft (Takt und IPC zu Verlustleistung) sind die PD Module bei Trinity jeder K10 Umsetzung deutlichst überlegen.
Das kommt drauf an wieviel Ressoucen AMD hier investiert hat, Llano müsste eig. durch 32nm HighK + ULK 3,6Ghz+ packen, jeder weiß das 32nm größere Vorteile außer DIE Fläche gegenüber 45nm haben muss.
6x K10 Kerne in 45nm mit 6MB L3 haben bei 3,3Ghz takt nur 125W TDP, 4x Llano Kerne mit IGP in 32nm haben nur 3Ghz, hier wurde nicht richtig optimiert, 3,6Ghz mit High K + ULK sollte eig. drine sein.

Die 20-30% verliert man nicht durch das Modul-Konzept, sondern durch die stark verbesserungsfähige tatsächliche Umsetzung des Konzepts.
Was ist den für dich eine bessere Umsetzung des CMT Konzeptes? Ich dache der Papiertiger wurde doch schon längst entwickelt und Oktober 2011 vermarktet :rolleyes:

Nenne mir bitte einige Beispiele was du unter bessere Umsetzung meinst, Software oder Compiler zählt nicht, das hätte man sich vorher überlegen müssen, ein Design mit viel IPC oder Bobcat IPC mit viel Takt, Bulldozer hat weniger IPC als K8 "2003" :(

Bulldozer hat weniger Leistung pro Takt als der Vorgänger weil die Ressourcen pro Modul (Compute Unit) geteilt werden müssen, die neue FPU von Bulldozer mag effizienter arbeiten, hat aber viel zuwenig Power, nimm ein Thuban mit 6 FPUs, der wird in Cinebench jeden FX8150 vernichten!

K10 "Llano"
4x 64KB L1D Cache
4x FPUs
4x Decoder
3x ALU / 3xAGU

Bulldozer "Trinity"
4x 16KB L1D Cache
2x FPUs
2x Decoder
2x ALU + 2 AGU

Selbst auf dem Papier ist der K10 noch deutlich Leistungsfähiger als Bulldozer.

Hyperthreading bringt ja auch ca 5 bis 10% obwohl die erste Umsetzung im P4 bei -5% war.
HT skaliert ganz gut wenn man berücksichtigt das es nichtmal 5% DIE Space kostet, ein alter 2C/4T Lynnfield kann bereits bis zu 30% durch SMT gewinnen!

Trap

2012-04-30, 20:30:44

Was ist den für dich eine bessere Umsetzung des CMT Konzeptes? Ich dache der Papiertiger wurde doch schon längst entwickelt und Oktober 2011 vermarktet :rolleyes:
Naja, eine ohne die ganzen mittlerweile bekannt gewordenen Detailfehler im Bulldozer. Wie die falsche Dimensionierung vom Front-End, die wahrscheinlich deaktivierte IDIV-Unit, extrem lahmer Cache, ...

Außerdem ist BD gleichzeitig der erste Versuch mit automated design tools für performance-CPUs bei AMD. Eine bessere Umsetzung wäre da entweder wieder Design von Hand oder weiter automatisiert aber mit mehr Erfahrung und verbesserten tools.

Duplex

2012-04-30, 20:43:43

Naja, eine ohne die ganzen mittlerweile bekannt gewordenen Detailfehler im Bulldozer. Wie die falsche Dimensionierung vom Front-End, die wahrscheinlich deaktivierte IDIV-Unit, extrem lahmer Cache,Schwaches Frontend & Cache Design, hat AMD nichts aus der K8 Entwicklung gelernt, selbst beim K10 hat hier das Frontend noch limitiert, die Ausführungseinheiten beim K10 sind sogar größer als bei Bulldozer, ohne SSE/AVX/FMA Code ist Bulldozer gegen K10 null.

Trinity wird durch den hohen CPU Takt nur minimal gegenüber Llano punkten, wartet mal auf die 2C/4T Ivy Bridge CPUs, die Verlustleistung in der Praxis könnte interessant werden :D

Zergra

2012-04-30, 22:06:33

Trinity wird durch den hohen CPU Takt nur minimal gegenüber Llano punkten, wartet mal auf die 2C/4T Ivy Bridge CPUs, die Verlustleistung in der Praxis könnte interessant werden :D
Psssst :D das ist doch geheim :eek:

Bulldozer "Trinity"
4x 16KB L1D Cache
2x FPUs
2x Decoder
2x ALU + 2 AGU

Das sind die echten Specks von Trinity ? Ich dachte AMD ist aufgewacht, an Rohleistung scheint das nicht viel zu sein, aber wir können noch an die Umsetzung hoffen auch wenn wir den Mehrtakt dort haben...

Gipsel

2012-04-30, 22:24:59

Das sind die echten Specks von Trinity ? Ich dachte AMD ist aufgewacht, an Rohleistung scheint das nicht viel zu sein, aber wir können noch an die Umsetzung hoffen auch wenn wir den Mehrtakt dort haben...
Was hast Du erwartet? Daß die mal so eben in einem knappen Jahr ein vollständig neues CPU-Design rausbringen? Das schafft auch Intel nicht. War doch klar, daß PD nur BD mit ein paar kleinen Tweaks ist. Auch Steamroller wird das Rad (Modulkonzept) nicht neu erfinden. :rolleyes:

Duplex

2012-04-30, 22:39:26

mrt

2012-05-01, 01:32:35

Nein wird AMD nicht, da arbeiten keine Idioten. Es krankt bei BD ganz woanders als du glaubst...

S940

2012-05-01, 03:03:39

Bei den größeren DIEs mit L3 Cache ohne iGPU erwarte ich 5% mehr IPC & 4Ghz Basistakt, das wird die Lage aber nicht verbessern können da der Turbo von Ivy Bridge verbessert wurde.
Größere Eingriffe bei der Architektur kann man erst bei Excavator (2014) erwarten, möglicherweise wird man hier aus dem CMT ein CMP Konzept basteln (8x Decoder + 8 FPUs in 22/20nm), alles andere wäre eine schwierige Aufgabe.Steamroller wird nach meiner Prognose deutlich mehr. Piledriver verdient mMn keinen eigenen Codenamen, das ist max. ein Bulldozer v1.1.
Allein schon der Witz mit der verbuggten IDIV-Einheit, die jetzt als Neuheit verkauft wird aber schon in jedem Bulldozer-Paper aufgeführt ist.
Dazu ein paar Puffer samt Sprungvorhersagetable vergrößert und mehr Takt wg. des neuen Clock-Mesh und schon hat man "Piledriver". Das ist nicht wirklich weit von nvidias Sprung von der 400 auf die 500er Serie.
Steamroller war mal für 22nm geplant, jetzt werdens halt nur 28, aber in jedem Fall kann man schon nen größeren Schritt erwarten.

Spasstiger

2012-05-01, 08:35:34

Mit max. 384 SPs @ 496/685 MHz (Standard-3D/Turbo) wird die integrierte Grafik von Trinity nicht wesentlich schneller als die von Llano (max. 400 SPs @ 600 MHz). Ist ja ähnlich wie von einer Radeon HD 5870 zur Radeon HD 6970.
Im Mobilbereich bringt es AMD aber natürlich wieder den von Llano vs. Sandy Bridge gewohnten Vorsprung bei der Grafikleistung gegenüber Intel.

fondness

2012-05-01, 08:43:04

Knuddelbearli

2012-05-01, 09:25:12

A10-4600M 4 Piledriver-Kerne, 2.3 GHz (TC 3.0 GHz), 4 MB L2, DDR3/1600 Radeon HD 7660G: 384 VLIW4 SE @ 685 MHz 35W

nur die 3GHz TC stimmen nicht, die Folie hat 3,2 Ghz

Schade das es scheinbar keine mehr mit 45W TDP geben wird

Habe aktuell einen P8400 + GT 9600M das sind deutlich mehr als 45W und trotzdem von der größe und dem Gewicht her passt es mir

y33H@

2012-05-01, 09:29:43

45W werden idR eh mit einer dedizierten GPU kombiniert und hier kann AMD aufgrund der schwachen CPU-Leistung nicht konkurrieren, zudem sind Desktop-Replacements nicht so die Verkaufsschlager. Also lieber in den lukrativen 17W-Markt expandieren.

Knuddelbearli

2012-05-01, 09:31:46

also mein Samsung R560 kann ich ohne probleme überall mit hinnehmen aber mit diskreter igp hast du vermutlich recht :-/

sowas
http://geizhals.at/de/538902
mit einem 45W Trinity würde mir aber gefallen :-/

Spasstiger

2012-05-01, 09:47:59

Das sind die Taktraten im mobilen Bereich, die Desktop-Ableger takten mit 800Mhz.
Ah, ich dachte schon, die 685 MHz gelten für beide Segmente, weil AMD den Fokus aufs Mobilsegment legt.

Undertaker

2012-05-01, 10:59:40

sowas
http://geizhals.at/de/538902
mit einem 45W Trinity würde mir aber gefallen :-/

Es wäre generell wünschenswert, mehr Modelle ohne zusätzliche GPU zu sehen. Crossfire ist bei kritischen Frameraten um 30fps ein einziger Murks, die Skalierung klappt nicht immer wunschgemäß und häufig läuft es dank Mikroruckler sogar gefühlt schlechter. Zudem gibt man so den Vorteil der starken IGP aus der Hand.

Wirklich attraktiv wird es, wenn man mit den stärksten Trinity-Ablegern die Preisklasse vernünftiger Geräte mit dedizierter Grafik - die beginnt bei etwa 550-600€ - unterbieten kann. Das die CPU-Leistung nur auf i3-Level spielt, würde da auch nicht weiter ins Gewicht fallen.

mboeller

2012-05-01, 11:55:20

Crossfire ist bei kritischen Frameraten um 30fps ein einziger Murks, die Skalierung klappt nicht immer wunschgemäß und häufig läuft es dank Mikroruckler sogar gefühlt schlechter.

vielleicht haben deshalb die bisher angekündigten Trinity-Notebooks eine HD7670m mit dabei. Da sollte die Paarung, abgesehen von der Bandbreite nahezu ideal sein. die 96 4D-Shader (=384) im Trinity entsprechen ja den 96 5D-Shadern (=480) im 7670m.

Zudem gibt man so den Vorteil der starken IGP aus der Hand.

sehe ich auch so.

[edit: spelling]

Undertaker

2012-05-01, 11:59:51

vielleicht haben deshalb die bisher angekündigten Notebooks mit Trinity eine HD7670m mit dabei. Da sollte die Paarung, abgesehen von der Bandbreite nahezu ideal sein. die 96 4D-Shader (=384) im Trinity entsprechen ja den 96 5D-Shadern (=480) im 7670m.

Das allein wird wohl nicht ausreichen, da auch leistungsmäßig perfekt passende GPU-Kombinationen bei Llano - z.B. 6520G + 6470M - deftige Mikroruckler produzierten. Dazu kommt wie schon angesprochen das Problem der Skalierung, was sich natürlich auch negativ auf die Energieeffizienz auswirkt - bei Notebooks ein riesen Problem.

Wie gesagt, Trinity allein wäre bei einem attraktiven Preis eine ziemlich nette Alternative in der 500€-Klasse, wenn es denn mehr Geräteauswahl als bei Llano geben sollte.

mboeller

2012-05-01, 15:33:45

naja, CF ist für mich selbst auch nicht interessant. Mal sehen, ob sie die Treiber entsprechend weiterentwickeln konnten und vielleicht hilft auch das neue(?) Speicherinterface.

Apropos:
http://img402.imageshack.us/img402/9939/intelamd.png
not so bad. Nur bei SSE/SSE2 etc.. scheint der Trinity wirklich zurück zu liegen. Zumindest gehe ich mal davon aus, das Compression, Encryption und Physics davon abhängen.

Skysnake

2012-05-01, 16:28:50

Ui, das sind mal interessanter Ergebnisse. In Integer geht das Teil ja scheinbar ganz gut ab, genau wie beim Primzahlen suchen.

Fragt sich nur, warum er in SSE Sachen so schlecht dasteht :(

Eventuell Probleme wegen irgendwelchen Hints im Programmcode, so das man auf x86 zurückfällt?

y33H@

2012-05-01, 16:53:17

Bei 2,7 bis 3,2 statt fixen 2,5 GHz sollte man erwarten, dass der A10 mit einem SNB statt einem IVB mithalten kann. Mal gucken wie sich die Desktop-Chips machen, mobile interessiert mich persönlich nur 17W ULV.

Coda

2012-05-01, 17:43:27

Eventuell Probleme wegen irgendwelchen Hints im Programmcode, so das man auf x86 zurückfällt?
Wat?

Skysnake

2012-05-01, 17:56:34

Die alte Story halt mit den unterschiedlichen SSE Implementierungen bei AMD und Intel, und den tollen Sachen beim Intel compiler, der früher AMD benachteiligt hat, weil er AMDs weniger optimierten Programmcode vorgelegt hat. Hab ja keine Ahnung, womit das compiliert wurde, und wann.

Ich hoffe du weißt was ich mein.

S940

2012-05-01, 19:09:44

Ui, das sind mal interessanter Ergebnisse. In Integer geht das Teil ja scheinbar ganz gut ab, genau wie beim Primzahlen suchen.?
Das liegt nur am hohen Anteil von DIVisionscode. Der beträgt da 25% und bremst die bisherigen BDs überproportional ein, da nur schneckenlahmer Microcode läuft. Ausführliche Geschichte hier:
http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?id=1334532731

Mit den neuen Trinity-Folien ist der Fall auch bestätigt, da führt AMD ja "neue" DIV-Einheiten als "tolle" Piledriver-Neuerung an.

Bei SSE seh ich nen starken Anstieg von Nehalem -> SandyB. Wird in dem Fall wohl weniger irgendwas mit SSE zu tun haben, als mit dem µOp Cache. Kleinen, synth. Tests passen da wohl noch rein. Die c't hatte mal spasseshalber den Mobilebenchmark CoreMark gestetet, da war ein 4core Sandy schneller als ein 6core Westmere (und ja, das ist ein Multithread-bench).

Kurz: Das alte Problem mit dem künstlichen Benchmarks und deren Aussagekraft auf reale Belastungen.

mboeller

2012-05-01, 19:35:09

Das liegt nur am hohen Anteil von DIVisionscode. Der beträgt da 25% und bremst die bisherigen BDs überproportional ein, da nur schneckenlahmer Microcode läuft.

Der Vergleich ist aber zwischen einem A10-4600M Trinity und einem Intel i5 2400S.

Wenn DIV bei der Intel-CPU nicht "broken" ist so wie bei den alten AMD-CPUs (K10, BD) dann passt der Vergleich doch, oder?

Auf jeden Fall scheint ein Trinity A10 Taktbereinigt ( max. 3,2GHz <-> max. 3,3GHz) und max. 4 Threads bei beiden CPUs bei INT und FP gleichwertig zu sein. 1 Trinity-Modul scheint zumindest bei INT und FP genauso gut zu sein wie 2 i5-2400s Cores.

Undertaker

2012-05-01, 20:03:21

Bei solchen synthetischen Benchmarks muss man immer genau hinschauen, dieser Test scheint wohl auch Bulldozer extrem gut zu liegen:

http://www.overclock.net/t/1199493/updated-fx-bulldozer-benchmarks

Haltet euch mal lieber an die Prognose von Gipsel:

Ja. Realistisch betrachtet dürfte das außerhalb einiger Spezialfälle auf vielleicht 5% Steigerung gegenüber BD hinauslaufen.

S940

2012-05-01, 20:06:15

Wenn DIV bei der Intel-CPU nicht "broken" ist so wie bei den alten AMD-CPUs (K10, BD) dann passt der Vergleich doch, oder?
Klar, in dem Benchmark kann man vergleichen, nur was bringts?
Wollte nur Skysnakes Euphorie etwas bremsen, da er vielleicht glaubte, das BD jetzt plötzlich bei allen INTeger Operationen mithalten könnte oder gar schneller wäre.

Edit:
1 Trinity-Modul scheint zumindest bei INT und FP genauso gut zu sein wie 2 i5-2400s Cores.
Das ist genau der Fehler, du verallgemeinerst. Bei Deinem obigen Zitat fehlt der Hinweis, dass das *nur* bei Passmark der Fall ist.

Duplex

2012-05-01, 20:45:42

Steamroller wird nach meiner Prognose deutlich mehr.
Deutlich mehr als Excavator bzw. das 22/20nm Design?
Erstmal muss man sehen wie der 28nm Prozess läuft, ich denke AMD wird hier nur auf höhere Taktraten gegenüber Trinity setzen.

Piledriver verdient mMn keinen eigenen Codenamen, das ist max. ein Bulldozer v1.1.
Allein schon der Witz mit der verbuggten IDIV-Einheit, die jetzt als Neuheit verkauft wird aber schon in jedem Bulldozer-Paper aufgeführt ist.
Dazu ein paar Puffer samt Sprungvorhersagetable vergrößert und mehr Takt wg. des neuen Clock-Mesh und schon hat man "Piledriver". Das ist nicht wirklich weit von nvidias Sprung von der 400 auf die 500er Serie.
Genauso ist es, nur minimale änderungen.
Das Marketing wird dann halt mit 8 Kerne + 4000 MHz Basistakt werben...

Steamroller war mal für 22nm geplant, jetzt werdens halt nur 28, aber in jedem Fall kann man schon nen größeren Schritt erwarten.
Wenn die Spekulation mit den 2. Decoder pro Modul stimmt, dann ist klar das Steamroller bessere integer performance als Piledriver liefern kann, shared Ressourcen sind bei diesem frischen Design ein großer Nachteil.
Bei 28 statt 22nm sehe ich aber auch wieder Nachteile bei den Taktraten, wenn sich bzgl. IPC nicht viel tut, dann braucht AMD im Server kein Steamroller, ach ja Piledriver ist auf den Roadmaps bis 2014 aktuell...

S940

2012-05-01, 21:00:14

Deutlich mehr als Excavator bzw. das 22/20nm Design?
Jupp, das Wahrscheinlichste ist, dass Excavator nur wieder ein Streamroller v1.1. wird.
Erstmal muss man sehen wie der 28nm Prozess läuft, ich denke AMD wird hier nur auf höhere Taktraten gegenüber Trinity setzen.
28nm wird bombig laufen, das ist zu 90% identisch mit dem 32nm Prozess - zumindest bei GF :)
Preisfrage ist nur, wie sich der Verzicht von SOI auswirken wird, wobei es aber für die Server-CPUs wohl aber noch nen 28nm SHP-Prozess gibt. Mal schauen, ob da jetzt SOI dabei ist, oder nicht.

Bei 28 statt 22nm sehe ich aber auch wieder Nachteile bei den Taktraten, wenn sich bzgl. IPC nicht viel tut, dann braucht AMD im Server kein Steamroller, Das ist nur ein half-node Abstand. Sicherlich schlechter, aber nicht die Welt.

ach ja Piledriver ist auf den Roadmaps bis 2014 aktuell...Die aktuellen Roadmaps sind sehr wage. Da steht nur was von 2012 oder 2013. Trinity, z.B. steht bei 2012, aber gibts das Ding schon?

Was ich sagen will: Die Wahrscheinlichkeit, dass da noch was in H2/13 kommt ist nicht gleich Null. Genausowenig wie die Wahrscheinlichkeit, dass der verbesserte Vishera 2013 nicht doch mit Steamroller-kernen käme. Wäre ungewöhnlich - ja, aber die neue Führung nimmt den Mund deutlich weniger voll.

mboeller

2012-05-02, 09:00:18

Das ist genau der Fehler, du verallgemeinerst. Bei Deinem obigen Zitat fehlt der Hinweis, dass das *nur* bei Passmark der Fall ist.

Schuldig :)

Naja, momentan finde ich den Trinity eigentlich am spannendsten. Dadurch sehe ich vielleicht alles ein wenig durch die Rosa-Brille. Das wird sich am 15. Mai aber wahrscheinlich wieder ändern. :biggrin:

[edit]

Anbei (anscheinend) einige der Benchmarks, die ein User im semiaccurate-forum von einem lowend A6-4400m gepostet hat. da das nur eine Single-Modul-APU ist sind die Werte nicht gerade berauschend:

http://www.overclock.net/t/1250896/trinity-a6-4400m-a10-4600m-benchmarks

das hier sollte der Original-Thread sein:
http://semiaccurate.com/forums/showthread.php?t=6402
Da ich dort nicht angemeldet bin, kann ich die Ergebnisse aber nicht sehen

Weiter unten sieht man aber, das ein A10-4600m sehr gut mit einem i5-2410m (zumindest) beim Geekbench mithalten kann.

Undertaker

2012-05-02, 11:57:24

Ein A6 mit nur einem Modul? Das ist aber mal eine Mogelpackung, Multithread sind die A6-Llanos damit teils erheblich schneller. Cinebench kann man damit aber ganz gut hochrechnen: 1,13 Punkt * 2 = 2,26 Punkte bei 2,7 GHz und 2 Modulen, damit ist absehbar, wo der A10-4600M in etwa landet.

32 Sekunden in SuperPi entsprechen in etwa einem A6-3420M Llano mit 2,4 GHz Turbo-Takt.

Schnitzl

2012-05-02, 16:44:15

Es wäre generell wünschenswert, mehr Modelle ohne zusätzliche GPU zu sehen. Crossfire ist bei kritischen Frameraten um 30fps ein einziger Murks, die Skalierung klappt nicht immer wunschgemäß und häufig läuft es dank Mikroruckler sogar gefühlt schlechter. Zudem gibt man so den Vorteil der starken IGP aus der Hand.

Wirklich attraktiv wird es, wenn man mit den stärksten Trinity-Ablegern die Preisklasse vernünftiger Geräte mit dedizierter Grafik - die beginnt bei etwa 550-600€ - unterbieten kann. Das die CPU-Leistung nur auf i3-Level spielt, würde da auch nicht weiter ins Gewicht fallen.
+1000!!!
ich krieg jedesmal Haarausfall wenn ich sehe dass z.B. ne 6470M dazugebaut wird :motz:
so einen i3 mit dedizierter Grafik könnte ein Trinity durchaus in der Leistungsaufnahme unterbieten und trotzdem ausreichende Spieleleistung bieten, ich bin jedenfalls gespannt was da so kommt in den nächsten Wochen :)

Undertaker

2012-05-02, 20:07:09

Gerade falls sich die breite Verfügbarkeit der neuen 28nm-Mittelklasse noch weiter verzögern sollte, hätten die großen Trinity-Ableger echtes Potential. Karten wie die HD 76xxM oder GT 540M/630M sollte die IGP durchaus erreichen können.

merfu

2012-05-03, 16:24:01

Desktop Trinity erst ab August? Sollte da nicht Piledriver für Desktop irgendwann kommen der noch weitere Verbesserungen gegenüber dem Piledriver in Triniy mitbringt?

http://www.computerbase.de/news/2012-05/desktop-version-des-trinity-ab-august-dieses-jahres/

Duplex

2012-05-03, 20:39:41

Jupp, das Wahrscheinlichste ist, dass Excavator nur wieder ein Streamroller v1.1. wird.
So einfach würde ich mir das nicht vorstellen

Wir haben doch hier den großen 32/28nm > 22/20nm Umstieg, warum also nicht die Einheiten der Compute Unit viel breiter gestalten?

1. 8x FPU
2. 8x Decoder
3. 32KB L1D Cache
4. DDR4 Controller
5. Trace Cache

Eine große Baustelle, aber dafür wäre das Design deutlich Leistungsfähiger.

Oder aber man verfolgt die Netburst Strategie ("Netburst vers.1 = 20 Stage Pipeline > vers.2 = 31 Stage Pipeline" :freak: )

fdk

2012-05-03, 20:48:44

So einfach würde ich mir das nicht vorstellen

Wir haben doch hier den großen 32/28nm > 22/20nm Umstieg, warum also nicht die Einheiten der Compute Unit viel breiter gestalten?

Weil neue Architektur + neuer Prozess in der Vergangenheit immer so gut funktioniert hat? Rorys Lieblingsphrase ist doch "time to market" - da wirds solche Experimente mit Sicherheit nicht mehr geben.

Duplex

2012-05-03, 20:54:21

Wer redet hier den von einer neuen Architektur? Das Rad wird nicht neu erfunden sondern ausgbaut...

AMD hat beim K10 damals auch die FPU auf 2x 128 Bit erweitert, zusätzlich einen L3 Cache eingebaut, 32 Byte Speicherbefehle, bessere Sprungvorhersage, neue SSE Instructionen usw. Der K10 war im Server Markt aufgrund mehrerer Neuheiten bis zu Faktor 2 schneller als der K8 A64, beim K10 hat AMD sogar unabhängig von Bulldozer viele Ressourcen investiert, man bedenke das K10 sogar besser als Core2 im Server war.

Rorys Lieblingsphrase ist doch "time to market" - da wirds solche Experimente mit Sicherheit nicht mehr geben.
Stillstand bei der x86 Entwicklung würde heißen das AMD aus dem x86 Geschäft aussteigen wird, natürlich muss man hier wie die vergangenen Jahre weiterhin Geld investieren.

Undertaker

2012-05-03, 21:50:07

Der K10 kam doch auch nicht in einem neuen Prozess?

Duplex

2012-05-03, 22:26:43

Der K10 kam doch auch nicht in einem neuen Prozess?
65nm war damals ein neuer Prozess, das war auch der erste Quad Core von AMD.

fdk

2012-05-03, 22:34:14

Ja, wir erinnern uns alle noch an den durchschlagenden Erfolg des ersten K10/Phenom B2 .

Intel zieht ihr Tick/Tock nicht umsont durch.

Twodee

2012-05-03, 23:03:21

65nm war damals ein neuer Prozess, das war auch der erste Quad Core von AMD.
Nö, der K8 kam vorher schon auf dem 65nm Prozess. Beim K10 war der dann schon alt.

S940

2012-05-03, 23:10:11

So einfach würde ich mir das nicht vorstellen
Mir kommt Dein Ansatz komplizierter vor. Durch die Verschiebung mit DDR4 haben sie Zeit gewonnen. Feinarbeit läuft mMn deshalb jetzt.
Mit Excavator dann halt Feintuning/Bugfix und mehr Kerne.
Der K10 kam damals auch komplett in 65nm, bei 45nm gabs dann nur nen Cache-Nachschlag, bzw. mit Propus Null Cache, und die Erkenntnis, dass die 2MB L3 Cache beim ersten K10 mit Desktop-Apps nix einbrachten.

Selbst 32kB L1 wären kein Problem, dann würde es halt etwas größer, was aber egal ist, da der 28nm Prozess bis dahin sicherlich sehr gut läuft. Da ist eh noch Luft, ursprünglich hatte AMD ja 5 Moduler eingeplant.

Coda

2012-05-03, 23:19:59

Natürlich ist 32KiB L1 ein Problem.

S940

2012-05-04, 00:02:52

Natürlich ist 32KiB L1 ein Problem.
Nö.

Undertaker

2012-05-04, 00:23:06

65nm war damals ein neuer Prozess, das war auch der erste Quad Core von AMD.

65nm wurde zunächst mit dem X2 getestet, um dann die neue Architektur in einem bereits gereiften Prozess produzieren zu können - also ähnlich wie es auch Intel mit Tick/Tock macht. Ich könnte mir gut vorstellen, dass die immer problematischere Einführung neuer Prozesse auch AMD zukünftig wieder zu einer solche Vorgehensweise veranlasst. Vielleicht nicht unbedingt bei den kleineren APUs (darum sind wir hier auch leicht OT), bei großen High-End/Server-Modellen hingegen schon.

Coda

2012-05-04, 08:17:58

Nö.
Doch, das ist ein Problem. Du kannst L1-Cache nicht einfach so skalieren. Weder vom Layout, noch von den Latenzen, noch von der Assoziativität noch der Ersetzungslogik.

Das ist ein elementarer Bestandteil des Cores und ohne großen Umbau nicht machbar.

Skysnake

2012-05-04, 12:07:06

zumal eben gerade die Latenzen wirklich kritisch sind bei dem.

Die ganze Kontrollogik ist schon verdammt hart.

S940

2012-05-04, 16:59:01

Doch, das ist ein Problem. Du kannst L1-Cache nicht einfach so skalieren. Weder vom Layout, noch von den Latenzen, noch von der Assoziativität noch der Ersetzungslogik.
Das ist ein elementarer Bestandteil des Cores und ohne großen Umbau nicht machbar.
Ist klar, aber: Wissen wir, dass Steamroller kein großer Umbau wird? Das Gerücht der ct mit den Decodern spräche eher dafür. Aber warten wirs mal ab. Ein größerer L1 ist auch nicht meine Nummer 1 auf der Änderungs-Prioritätenliste. Habs nur wg. Duplex miterwähnt.

Beim Stichwort Latenz frag ich mich aber auch, wieso AMD für 16kB WT Cache die gleiche Latenz wie Intel für 32kB WB Cache vergibt. Das macht nur Sinn bei hohen/höheren Taktraten. Aber da sehe ich im Moment keinen Taktvorteil für AMD.

Gipsel

2012-05-04, 17:50:44

Ist klar, aber: Wissen wir, dass Steamroller kein großer Umbau wird? Das Gerücht der ct mit den Decodern spräche eher dafür.Welches Gerücht der ct?

S940

2012-05-04, 18:04:31

Welches Gerücht der ct?
Hast Du c'ts BD-Artikel in Ausgabe 23/2011 nicht gelesen?
Da steht drin, dass es als gesichert gälte, dass Steamroller getrennte Front-Ends pro Cluster vorsähe. Seite 137 unten links im Eck unter "Front End".
Bezahl-Link:
http://www.heise.de/artikel-archiv/ct/2011/23/136_kiosk

Getrennte Front-Ends -> größerer Umbau.

Gipsel

2012-05-04, 18:14:31

Hast Du c'ts BD-Artikel in Ausgabe 23/2011 nicht gelesen?
Da steht drin, dass es als gesichert gälte, dass Steamroller getrennte Front-Ends pro Cluster vorsähe. Seite 137 unten links im Eck unter "Front End".
Bezahl-Link:
http://www.heise.de/artikel-archiv/ct/2011/23/136_kiosk

Getrennte Front-Ends -> größerer Umbau.
Das ist sooo alt, das ist doch schon nicht mehr wahr. ;)

Aber nein, habe ich nicht gelesen. Und daß das als gesichert gilt, hmm. :|

Duplex

2012-05-04, 22:16:52

Das ist sooo alt, das ist doch schon nicht mehr wahr. ;)
Kann es sein das du Steamroller mit Piledriver verwechselst?
Warum soll es nicht wahr sein, pro Cluster ein Decoder wäre sinnvoll damit die Integer Leistung höher ausfallen kann.

Naitsabes

2012-05-04, 23:17:46

Könnte man den shared Decoder dann nicht besser "einfach"verdoppeln?
2 Decoder dürften größer sein als ein fetter; allerdings schätze ich, dass ein weiter auch deutlich komplexer und damit fehleranfälliger ist als 2 getrennte.

Außerdem stellt sich die Frage, wie viele Instruktionen man pro Cluster dekodieren können sollte. Was bringt es, wenn man wieder 2 getrennte Decoder hat, die aber jeweils nur halb so mächtig sind wie der geteilte? In diesem Fall würde man einen Vorteil von CMT liegen lassen, da nur noch die FPU geteilt wird.

StefanV

2012-05-05, 00:38:54

Das Problem bei dem Shared Decoder ist, dass sich beide Cores gegenseitig rauskicken könnten bzw im Weg sind. Das dürfte auch eines der Probleme beim BD sein. Da kann es dann schon sinnvoller sein, einen Decoder pro Intcluster zu verwenden, um eben diese Abhängigkeit nicht zu haben.

Gipsel

2012-05-05, 10:37:35

Twodee

2012-05-05, 10:46:39

Mal eine blöde Frage Gipsel, wenn die Lösung so "simple" erscheint, und das Decoder-Kern-Blockier-Problem so offensichtlich ist, warum hat man das nicht gleich gelößt?

Gipsel

2012-05-05, 11:33:48

Weil die Lösung offenbar eben auch nur simpel scheint, im Detail aber eben doch etwas komplizierter ist. Eine Verdopplung der Decoder ist ja im Prinzip nicht kompliziert, nur eben unter Umständen ineffizient.

Die hier schon genannte Variante vom gemeinsamen Frontend (ein L1-I, eine Sprungvorhersage) aber zwei Decoderblöcke (da reichen dann ja wahrscheinlich 2*3 Decoder) ist schon nicht völlig abwegig. Aber was genau günstiger, performanter, effizienter und einfacher zu implementieren wäre, kann man so von außen schwer sagen. Ich kann es zumindest nicht.

Skysnake

2012-05-05, 11:46:13

Das kann niemand, der nicht die genauen Schaltpläne/VHDL kennt.

S940

2012-05-05, 17:34:57

Oder die Funktionsweise etwas abzuwandeln. Die Decoder wechseln im Normalfall jeden Takt zwischen den Cores hin und her. Für Direct-Decode-Instruktionen klappt das auch halbwegs. Ein Problem ist aber, daß Vector-Decode-Instruktionen (µCode), die länger benötigen, die Decoder für beide Kerne komplett blockieren. Eine mögliche Lösung wäre jetzt, daß man dies vermeidet, indem man z.B. einen extra µCode-Sequenzer daneben packt, der explizit dafür zuständig ist und die anderen machen mit dem Decoding für den anderen Kern ganz normal weiter (wird eine µcodierte Instruktion erkannt, liefert der Decoder die erste µOp mitsamt Lookup ins µCode-ROM, lädt die weiteren µOps aber nicht selber von dort sondern transferiert die weitere Arbeit an diesen zusätzlichen Sequenzer [ist ja kein voller Decoder] und gibt den Decoder damit wieder frei). So ein Umbau wäre bestimmt billiger als alles zu verdoppeln.
In den Patenten war eh ein total anderer Decoderblock, da gabs 4 Blöcke aus je einem µCode und einem FPath Decoder. Mal schauen, ob vielleicht das nun kommt.

Ansonsten ist µCode vielleicht nicht *das* Riesenproblem. Sooviel µcoded Befehle gibts auch nicht mehr und falls ja sinds irgendwelche alten Exoteninstruktionen, die sehr selten benutzt werden. Am schlimmsten ins Gewicht fielen vermutlich noch die verbuggten DIV-Befehle im BD1, aber das wird ja jetzt behoben.

Was mir nicht gefällt sind die kleinen 16Byte-Fenster und der "kleine" 32Byte fetch (für 2 Threads). Jetzt werden die Fenster bei Piledriver größer zwar größer, aber wieviel das ohne 64Byte Fetch bringt ... :confused: Ein 64Byte fetch wäre schon "schick", aber das würde 512bit bedeuten, wäre ziemlich viel Holz für ne L1I-Anbindung.

Interessant wäre es noch, wieviel AMD ein µOp-Cache pro Thread/Cluster hälfe. Durch den Decoder-Flaschenhals müßte das beim BD ein größerer Effekt als von Nehalem -> Sandy sein. Aber naja, Genaues weiß man nicht.

StefanV

2012-05-05, 17:58:42

Oder die Funktionsweise etwas abzuwandeln. Die Decoder wechseln im Normalfall jeden Takt zwischen den Cores hin und her. Für Direct-Decode-Instruktionen klappt das auch halbwegs. Ein Problem ist aber, daß Vector-Decode-Instruktionen (µCode), die länger benötigen, die Decoder für beide Kerne komplett blockieren. Eine mögliche Lösung wäre jetzt, daß man dies vermeidet, indem man z.B. einen extra µCode-Sequenzer daneben packt, der explizit dafür zuständig ist und die anderen machen mit dem Decoding für den anderen Kern ganz normal weiter (wird eine µcodierte Instruktion erkannt, liefert der Decoder die erste µOp mitsamt Lookup ins µCode-ROM, lädt die weiteren µOps aber nicht selber von dort sondern transferiert die weitere Arbeit an diesen zusätzlichen Sequenzer [ist ja kein voller Decoder] und gibt den Decoder damit wieder frei). So ein Umbau wäre bestimmt billiger als alles zu verdoppeln.
Ja, das ist eben die Frage, was sinnvoller ist. 2 getrennte Decoder, die sich dafür auch niemals nie nicht im Wege stehen, dafür aber unter Umständen einer 'eier Schaukelt', während der andere Schwitzt, oder ein dicker, bei dem sich die Cores gegenseitig behindern können. Das ist nicht immer leicht zu beantworten.

Es hat eben beides seine vor- und Nachteile.
Ich denke, dass man mit einem fetten Decoder mehr aus der Architektur rausholen könnte und auch einige 'schweinereien' machen könnte, aber das wäre dann auch wieder sehr kompliziert...

Knuddelbearli

2012-05-09, 12:39:39

http://www.computerbase.de/news/2012-05/hp-neue-ultrabooks-mit-intel-cpu-sleekbooks-mit-amd-apu/

Ronny145

2012-05-09, 13:05:57

Das sich diese 1366x768 Krüppelauflösung im Notebook Segment so lange hält, übel.

mboeller

2012-05-09, 13:22:13

Das sich diese 1366x768 Krüppelauflösung im Notebook Segment so lange hält, übel.

Yep! Ich hätte auch lieber ein 16" mit 1920 x 1280 (also 15:10; 135dpi) mit sehr schlankem Rahmen, natürlich matt, am besten mit der neuen Entspiegelung die das MIT entwickelt hat.

Deinorius

2012-05-09, 19:44:50

Yep! Ich hätte auch lieber ein 16" mit 1920 x 1280 (also 15:10; 135dpi) mit sehr schlankem Rahmen, natürlich matt, am besten mit der neuen Entspiegelung die das MIT entwickelt hat.

:up:

Die Notebook Hersteller sollen sich endlich mal sputen und wieder vernünftige Displays anbieten, ohne dabei gleich 2000 € verlangen zu wollen.

Schnitzl

2012-05-09, 19:49:45

Das sich diese 1366x768 Krüppelauflösung im Notebook Segment so lange hält, übel.
ja, bei 11,6" könnte man das ja noch hinnehmen, aber was die Auflösung bei 15,6" soll entzieht sich meiner Kenntnis
1920*1200 ist ja leider auch so gut wie ausgestorben...

Ich hoffe auf Dell+Lenovo dass von dort ein paar nette Trinity-Notebooks kommen.

Knuddelbearli

2012-05-09, 21:06:55

dell kann man wohl vergessen die standen zulange auf der gehaltsliste von Intel

Ronny145

2012-05-11, 17:55:12

Testing performed by AMD Performance Labs as of 2/17/2012 using the 2012 “Manaslu” Reference Design with 2 x 2G DDR3 1600 MHz memory, 250GB 5400rpm HDD (SATA) and Windows 7 Home Premium. Results from 3D Mark11 Performance show the AMD A6-4455M APU to score 626 3D marks.
http://blogs.amd.com/play/2012/05/10/meet-the-2nd-generation-amd-a-series-apu-codenamed-%E2%80%9Ctrinity%E2%80%9D-powering-your-ultrathin-and-light-gaming-machine/

A6-3400M kommt im 3dmark11 auf 700 Punkte und A4-3300M befindet sich in dem Bereich von P626 (http://3dmark.com/3dm11/2841210). Die Grafikleistung vom 17W Trinity müsste demnach ähnlich dem einer A4-3300M APU ausfallen.

Wobei der Vantage Wert eher auf A6-3400M Niveau lag. Lässt sich noch nicht genau einschätzen.

mboeller

2012-05-11, 20:15:01

da stand aber auch noch das:

The 3D Mark 2011 Performance score for the A10-4600M APU is 899

Das ist um ca. 25% weniger (also nur 80%) als hier "geleakt":
http://www.nordichardware.se/nyheter/69-cpu-chipset/45773-3dmark-11-prestanda-med-amd-trinity-avsloejas-i-saeljmaterial.html

899 <-> 1135 Punkte

...Upps!

Ronny145

2012-05-11, 20:21:56

Der Unterschied ist seltsam. 899 Punkte sind eigentlich zu wenig. Taktet die GPU im 4600M nicht mit 685 Mhz? Da müssten locker 1000+ Punkte rauskommen.

DavidC1

2012-05-12, 01:47:18

Undertaker

2012-05-12, 10:28:55

Why should AMD bench without Turbo? And the A6-4455M Score is most likely with turbo.

DavidC1

2012-05-13, 00:41:58

Because that's the February post. Whatever results they have might have been preliminary.

Also, I agree about the A6-4455M, just saying about the 35W part.

merfu

2012-05-13, 02:16:48

Trinity für Embedded Markt?
http://www.computerbase.de/news/2012-05/amd-r-series-auf-basis-von-trinity-enthuellt/

Ronny145

2012-05-13, 11:39:26

Embedded Modelle sind doch keine Überraschung mehr.

http://www.forum-3dcenter.org/vbulletin/showthread.php?p=9134262#post9134262

AnarchX

2012-05-14, 19:17:20

maximus_hertus

2012-05-14, 19:26:02

Tjo, 3DMark, 3DMark und 3DMark - langweilig ^^ Dennoch danke für den Link!

Trap

2012-05-14, 19:57:46

Tjo, 3DMark, 3DMark und 3DMark - langweilig ^^ Dennoch danke für den Link!
Singlecore Cinebench sieht gut aus.

mboeller

2012-05-14, 20:04:08

da stand aber auch noch das:

Das ist um ca. 25% weniger (also nur 80%) als hier "geleakt":
http://www.nordichardware.se/nyheter/69-cpu-chipset/45773-3dmark-11-prestanda-med-amd-trinity-avsloejas-i-saeljmaterial.html

899 <-> 1135 Punkte

...Upps!

Schaut gut aus!

1152 Punkte in dem Test bei PC-Online und das mit 1333er-Speicher (2x2GB)
Mit 1600er oder gar 1866er Speicher sollte noch mehr drin sein.

Apropos Cinebench:
2792 / 3.2 x 2.4 = 2094 (darf man das überhaupt so rechnen???) Wenn ja wäre ein Trinity im SingleCore Bench pro MHz genauso schnell wie ein Llano.

amusing:
die PCMark7 Resultate entsprechen nahezu den versprochenen 29% (28,9% im Test) -> witzig!

Ronny145

2012-05-14, 20:26:02

In Asien ist der 15.05.:
http://translate.google.com/translate?sl=zh-CN&tl=en&js=n&prev=_t&hl=en&ie=UTF-8&layout=2&eotf=1&u=http%3A%2F%2Fnotebook.pconline.com.cn%2Ftesting%2Fcontrast%2F1205%2F2781947.ht ml&act=url

3DM11 wirkt etwas schwach für 685MHz und einen Northern Islands Tessellator.

Wie kommst Du darauf? Wegen dem 3dmark11 Wert? Die 1150 Punkte decken sich mit der geleakten Marketingfolie. Allerdings sind die 964 Punkte für einen A8-3500M zu viel in dem Test und die 2083 in Vantage viel zu wenig. Sieht stümperhaft aus.

Die Modellübersicht zeigt nur eine 17W Variante. Der A6-4455M besitzt angeblich nur 1 Modul. Sollte es nicht auch noch ein 17W Modell mit 2 Modulen geben? Das wundert mich jetzt.

mboeller

2012-05-15, 08:01:20

Notebookcheck hat hier einen guten Trinity-test:

http://www.notebookcheck.com/Trinity-im-Test-AMD-A10-4600M-APU.74604.0.html

incl. SSD und 2x 2GB RAM (1600er)

Auf den computerbase-Test verlinke ich aber nicht. Für diesen "Test" bekommen sie von mir nur das hier:

:facepalm:³

y33H@

2012-05-15, 08:45:45

Das AMD-Sample ist auch mal übel, so ein Teil wird's vermutlich nie im Handel geben.

Undertaker

2012-05-15, 08:50:06

Sehr schade übrigens. So ein A10-Notebook mit schnellem Dualchannel-RAM und IGP-only wäre, entsprechend gepreist, wohl das Interessanteste was man auf Trinity-Basis anbieten könnte. :)

Ronny145

2012-05-15, 11:02:39

Warum wurde der Trinity Review Thread gelöscht?

Undertaker

2012-05-15, 11:13:03

Das war wohl nicht beabsichtigt. Ist wieder da.

Skysnake

2012-05-15, 12:23:33

Das AMD-Sample ist auch mal übel, so ein Teil wird's vermutlich nie im Handel geben.
In wie fern?

Zockerfrettchen

2012-05-15, 12:29:45

Weiß man schon, wieviel die Notebooks und die Ultrathins kosten werden? Ich will mir schon länger einen Laptop zulegen, allerdings möchte ich eine einigermaßen gute Auflösung, eine SSD sowie eine gute bis sehr gute Akkulaufzeit. Leistung, vor allem die des Prozessors, ist eher nebensächlich für mich, da diese schon seit einiger Zeit für alle "normalen" Anwendungen vollkommen ausreicht, vor allem wenn Windows 8 erscheint, da werden auch schwächere Systeme ordentlich laufen können. Ein Laufwerk brauche ich eigendlich auch nicht wirklich, weshalb die Ultrathins sehr interessant für mich werden dürften. Was könnte meine Vorstellung in etwa kosten? Danke für die Antworten,
Mfg Zockerfrettchen

Screemer

2012-05-15, 13:24:09

gibts schon andeutungen für convertibles?

y33H@

2012-05-15, 15:41:42

In wie fern?Weil ich massiv bezweifle, dass Dell einen A10 mit einer Samsung 830 series 120GB und 2x 2G DDR3-1600 kreuzt sowie auf die dedizierte GPU verzichtet.

deekey777

2012-05-16, 12:49:59

Falls es jemanden interessiert:
http://devgurus.amd.com/thread/159178
Trinity has 1:16 rate doubles compared to single precision

AnarchX

2012-05-16, 12:53:21

Wollte man nicht Trinity-basierende HPC-Cluster bauen?

deekey777

2012-05-16, 13:26:06

Wollte man nicht Trinity-basierende HPC-Cluster bauen?
A10-FirePro mit 1:4-DP-Leistung. X-D

Im Ernst:
Durchgehende DP-Berechnungen führen nur faule Wissenschaftler durch, die den Aufwand eines Mixed-Mode scheuen.

Wirklich im Ernst:
Braucht man wirklich im HPC-Bereich befriedigende DP-Leistung?

Gipsel

2012-05-16, 13:49:25

Falls es jemanden interessiert:
http://devgurus.amd.com/thread/159178
A10-FirePro mit 1:4-DP-Leistung. X-DSoweit hergeholt ist das gar nicht. Ich weiß gar nicht, wie die mit der VLIW-Architektur 1:16 hinbekommen wollen, wenn man das nicht künstlich einbremst. Der ISA-Code sagt nämlich im Prinzip 1:4 (eine DP-Instruktion belegt genau eine VLIW-Instruktion). Und wie bei Deinem Link ersichtlich, sagte der eine AMD-Mitarbeiter auch, daß es 1:4 wäre, um dann von einem anderen auf 1:16 korrigiert zu werden. :rolleyes:

Einzige Alternative wäre, daß eine DP-Instruktion das Instruktion-Scheduling stalled (ähnlich wie bank conflicts beim Zugriff auf den LDS). Das wäre ein etwas größerer Umbau von Cayman als gedacht (weil da noch mehr dranhängt, wie das piplined Lesen/Schreiben der Register und Zugriff auf die Pipelineregister [eine Art result forwarding], was ja alles direkt in den VLIW-Instruktionen enkodiert ist, die sich offenbar aber nicht geändert haben).

AnarchX

2012-05-16, 19:39:04

A10-5800K Benchmarks:

http://img269.imageshack.us/img269/8348/029wf.jpg (http://imageshack.us/photo/my-images/269/029wf.jpg/)

http://www.4gamer.net/games/133/G013372/20120516109/

Ronny145

2012-05-16, 19:44:28

Meinst du die Marketing Folie?

Schaffe89

2012-05-16, 21:55:36

Hm.. interessant dass man soviele Settings findet, bei denen Intel nicht mal FPS liefert, schon krass das Treiberchaos.

Ich schätze mal Desktop Trinity wird GPU seitig um die 30% zulegen und die alte doppelte Performance gegenübner dem Intel topmodell wiederherstellen.

y33H@

2012-05-16, 22:07:10

Alles DX11-Titel bis auf Black Ops, was läuft aber.

Davon ab hat man sich die HD 2000 ausgesucht, die jämmerlichste iGPU vom SNB DT. Mit einer HD 4000 des i3-3225 sieht's fei anders (wenn auch nicht gut ^^) aus.

Ronny145

2012-05-16, 22:14:35

Hm.. interessant dass man soviele Settings findet, bei denen Intel nicht mal FPS liefert, schon krass das Treiberchaos.

Dx11 anyone? Black Ops sollte eigentlich laufen. Der AMD Marketingabteilung würde ich dahingehend sowieso nichts glauben, so viel Blödsinn wie die sich in letzter Zeit erlaubt haben. Es ist schon bezeichnend, dass die nicht mal einen i3-2105 dazugenommen haben. Davon mal abgesehen gibt es im August Ivy Bridge Dualcore Modelle.

y33H@

2012-05-16, 22:26:17

Die i3 sind ab Juni in den Läden meinem Stand nach ;-)

Undertaker

2012-05-16, 22:35:14

Mit August war wohl der Launch von Trinity Desktop gemeint. ;)

deekey777

2012-05-17, 19:39:28

Ronny145

2012-05-17, 19:50:36

Was kann AMD dafür, dass Intel ihnen keine Ivy Bridge mit HD4000 zur Verfügung stellt?

AMDs Marketing geht Intel am Arsch vorbei. AMD muss selber zusehen, ob sie neutrale Folien erstellen wollen oder nicht. Dualcores mit HD3000 sind frei erkäuflich. Jemanden etwas zur Verfügung zu stellen, der null Absicht auf Neutralität hat, macht keinerlei Sinn.

w0mbat

2012-05-17, 19:50:56

Also so schwer dürfte es nicht sein eine Intel CPU mit HD4000 zu bekommen ;)

Ronny145

2012-05-17, 20:10:50

Also so schwer dürfte es nicht sein eine Intel CPU mit HD4000 zu bekommen ;)

Kein Dualcore :wink:

Es macht aber sowieso kein Sinn. Der Quadcore wäre verfügbar, trotzdem hat AMD für die eine 5800K Folie Resultate des 3770k vom Anandtech review verwendet anstatt selber zu testen: http://www.hardwareluxx.de/images/stories/galleries/reviews/2012/amd-trinity/amd-trinity-07.jpg

Totaler Schwachsinn solange nicht exakt das gleiche für beide CPUs getestet wird. Exakt muss das fürs Marketing nicht sein, Hauptsache das eigene Produkt steht im guten Licht.

Gipsel

2012-05-17, 23:59:54

AMDs Marketing geht Intel am Arsch vorbei. AMD muss selber zusehen, ob sie neutrale Folien erstellen wollen oder nicht.Marketing und neutral schließen sich aus. Bei jeder Firma. :rolleyes:

Ronny145

2012-05-18, 00:27:10

Marketing und neutral schließen sich aus. Bei jeder Firma. :rolleyes:

Das hat wer bezweifelt? :rolleyes:

Aus dem Grund wäre es der blanke Hohn, wenn Intel AMDs Marketingabteilung Hardware zur Verfügung stellen soll. Mit der neutraler Folie meinte ich im übrigen selbst gemessenes und eine faire Gegenüberstellung. Wer das von vornherein nicht beabsichtigt, braucht keine zur Verfügung gestellte Hardware.

Skysnake

2012-05-18, 07:44:13

Ähm...

Das ist in der Branche aber scheinbar absoluter Standard, das sich die Firmen untereinander alle möglichen und unmöglichen Sachen für Compatibilitätstests usw usw zur Verfügung stellen. Hab mich darüber schon mit verschiedenen Herstellern unterhalten.

Gerade Intel bekommt scheinbar schon ganz schöne Mengen an Hardware teils.

Ronny145

2012-05-18, 10:12:27

So ganz verstanden hast Du die Diskussion nicht kommt mir so vor.

Gipsel

2012-05-18, 11:30:33

Das hat wer bezweifelt? :rolleyes:Du regst Dich völlig unnötigerweise über die erwartbare Nichtneutralität des Marketings einer Firma auf. Ist halt so, mehr als ein Schulterzucken sollte man dafür nicht übrig haben. ;)

Aber zurück zu der Marketing-Folie. Was sagt sie uns denn eigentlich? Doch nicht mehr, als daß man mit Trinity +30% bis +40% Performancezuwachs erwarten sollte (ist jetzt auch nicht so neu oder überraschend), zumindest wenn man halbwegs schnellen Speicher bei Trinity verbaut (damit man nicht immer im Bandbreitenlimit hängt). Den Vergleich zu Intel würde ich eher nicht so ernst nehmen, sondern höchstens als Indiz zur preislichen Einordnung werten.

davidzo

2012-05-22, 15:38:35

Man scheint jetzt auch die Plastikhalterung mit Nasen die es seit dem Sockel940 gibt weggelassen zu haben und stattdessen auf eine Intel-ähnliche 4-loch-quadrat-Montage zu setzen. Da bleibt mehr Platz für den Lüfter, selbst wenn man Strangkühlkörper und eine einfache Schraubenmontage verwendet wie das bei OEMs beliebt ist.
http://fudzilla.com/images/stories/2012/May/General%20News/ms_fm2_1.jpg
http://www.expreview.com/img/news/2012/05/21/FM2_01.jpg

http://en.expreview.com/2012/05/21/amd-socket-fm2-motherboard-and-trinity-apu-pictured/23168.html

Würde mich nicht wundern wenn sogar die Sockellöcher vom 1155 oder 1366/2011 sind, da hat man dann Kühlerkompatibilität. Für die OEMs sicher interessant weil man mehr EInkaufsquellen hat, was die preise für den Kühler deutlich senkt.

Ich denke das wird insgesamt auch positive Auswirkungen auf den boxedkühler haben.

AMD hat ja schon vor einer weile das Boxedkühlerdesign von einem Strangprofil mit Bodenplatte gegen eine Strangprofilscheibe wie bei Intel getauscht. Das Design ist besser, höherer Airflow und bessere Wärmeverteilung.
http://media.bestofmicro.com/cube-pc-project,U-J-253819-13.png

Intel verwendet jedoch außerdem geklipste rahmenlose Lüfter, während AMD klassiche Lüfter mit Schraubenmontage hat. Intels sind dadurch größer und besser entkoppelt. Ich denke die Chance das AMD einen Rahmenlose bzw. runden Lüfter adaptiert ist gegegeben, da die Ecken bei 4-loch Montage sonst nur der Halterung im Weg wären, außer man montiert sie leicht versetzt, was aber merkwürdig aussieht und ggf. übersteht und im weg sein kann.
http://img220.imageshack.us/img220/8849/dsc00578rr9.jpg
http://img.tomshardware.com/us/2005/06/03/dual_core_stress_test/new_cooler.jpg

der aktuelle extraflache intel boxedkühler ist allerdings nur eine ad-hocsparversion. Es hätte konstruktiv mehr Sinn gemacht den Kühler komplett zu verkleinern, aber trotzdem noch ein längeres Strangprofil zu verwenden und ggf. eben nur beim Durchmesser von 92mm auf 80mm zu verringern. Der aktuelle core i3 boxedkühler (ähnlich seit 45nm wolfdale/penryn) ist unausgewogen - hat kaum Oberfläche aber einen großen Lüfter und ist daher im idle lauter als nötig.
http://images.ht4u.net/reviews/2008/intel_core_leistungsaufnahme/boxed_alt_neu_seite.jpg

M4xw0lf

2012-05-22, 16:14:00

Ob dieses Vorserien-Brett überhaupt schon die finale Kühllösung beinhaltet? Würde mich nicht wundern wenn die fertigen Boards wieder mit Retentionmodul ausgestatt sind.

davidzo

2012-05-22, 17:02:43

Vorserienboards kommen von AMD und tragen Vorseriennamen, spezielle diagnostikinterfaces etc. Dies ist ein MSI-board, also ein Serienboard für OEMpcs was zwecks verfügbarkeit bereits im vorraus produziert wird.

Für die Kühllöcher müsste man das PCBlayout wieder ändern. das hier sieht mir aber schon nach einem fertigen waschechten OEMboard aus.

mironicus

2012-05-22, 17:02:49

davidzo

2012-05-22, 17:11:04

@Zu den Kühlern oben
Die Intel Boxed-Kühler sind doch alle Schrott. Die haben schon bei niedriger Drehzahl ein notorisches Surren und kühlen gerade mal so, dass die CPU nicht überhitzt - die kann man nur wegwerfen. Die AMD-Kühler sind durch die Bank besser, im Idle praktisch unhörbar, kein Surren etc.

das liegt alleine an den 4-pin PWM-lüftern. AMD regelt die 3pin Lüfter über die Spannung. rein konstruktiv sind die Inteldinger (strangprofil hochkant, rund, großer Lüfter ohne Rahmen) aber leistungsfähiger und unter Last auch leiser. Dass sie im idle nicht ideal sind hab ich ja bereits erwähnt, das liegt aber auch an den neueren ultraflachen Ausführungen und zum Teil am Lüfterhersteller (ja, es gibt verschiedene).

y33H@

2012-05-22, 17:19:31

Die Intel Boxed-Kühler sind doch alle Schrott. Die haben schon bei niedriger Drehzahl ein notorisches Surren und kühlen gerade mal so, dass die CPU nicht überhitzt - die kann man nur wegwerfen. Die AMD-Kühler sind durch die Bank besser, im Idle praktisch unhörbar, kein Surren etc.Sorry, aber die aktuellen Intel sind (load) viel viel leiser und taugen auch für leichtes OC ohne laut zu werden.

HOT

2012-05-22, 17:38:45

Außerdem sind AMD Boxed schon seit sehr langer Zeit PWM...

Undertaker

2012-05-22, 18:25:48

Sorry, aber die aktuellen Intel sind (load) viel viel leiser und taugen auch für leichtes OC ohne laut zu werden.

Das muss nicht zwingend an der Qualität des Kühlers liegen, wenn man die abzuführende Wärmeleistung betrachtet. ;)

y33H@

2012-05-22, 19:04:03

Nun, das eine bedingt das andere ;D

ndrs

2012-06-01, 15:43:50

http://www.computerbase.de/news/2012-06/elitegroup-enthuellt-fuenf-sockel-fm2-mainboards/

Damit sollte die Diskussion über die Kühlerhalterung vom Tisch sein.

y33H@

2012-06-01, 15:47:50

Das war eigentlich klar, kA warum das so ein Aufriss gemacht wird.

disap.ed

2012-06-01, 17:28:08

http://www.computerbase.de/news/2012-06/elitegroup-enthuellt-fuenf-sockel-fm2-mainboards/

Damit sollte die Diskussion über die Kühlerhalterung vom Tisch sein.

Die FM2-Boards haben ebenfalls nur PCI-E 2.0?

M4xw0lf

2012-06-01, 17:29:47

http://www.computerbase.de/news/2012-06/elitegroup-enthuellt-fuenf-sockel-fm2-mainboards/

Damit sollte die Diskussion über die Kühlerhalterung vom Tisch sein.

+1 für meine hellseherischen Fähigkeiten. :biggrin:

AnarchX

2012-06-01, 17:30:25

Die FM2-Boards haben ebenfalls nur PCI-E 2.0?

Besser gesagt Trinity hat nur PCIe Gen 2, was schon länger bekannt ist.

disap.ed

2012-06-01, 19:02:45

Muss mir entgangen sein, danke. Irgendwo aber schon schwach als Grafikkartenanbieter (auch wenn's vermutlich für den Zielmarkt vernachlässigbar ist).

Knuddelbearli

2012-06-01, 19:19:41

mit was für eine gpu willst du trinity kombinieren das du von PCI-E 3 nen vorteil hättest?

selbst mit der 690 sind es nur 1-2%

boxleitnerb

2012-06-01, 19:28:31

Bei GPGPU kann das schon was ausmachen. Und in ausgewählten Spielen/Settings auch bis zu 10%. Man sollte meinen, jetzt wo bei AMD alles aus einer Hand kommt, wäre man bei den Schnittstellen ganz vorne mit dabei.

Ronny145

2012-06-02, 00:10:44

http://semiaccurate.com/2012/06/01/amd-delays-desktop-trinity-one-quarter/

Der Komiker spricht von September für die Desktop Variante.

S940

2012-06-02, 01:45:57

Hmm 1 Quartal gleich.
Entweder ein Metallayer Respin oder (über)volle Llano-Lager.

Ronny145

2012-06-07, 10:10:22

http://news.techeye.net/chips/amds-trinity-pushed-back-to-october

Eine weitere Quelle berichtet von Oktober.

Testing conducted by AMD performance labs using DiRT 3™@ 1280x1024, DirectX®11 under medium settings. The AMD A10-5800K APU with an AMD Radeon™ HD 6570 in AMD Dual Graphics mode scored and average of 92.62 fps while the AMD A10-5800K APU with only the AMD Radeon™ HD 6570 Graphics card enabled scored an average of 52.63. Test configuration with AMD Dual Graphics enabled and disabled: Pre-production engineering sample AMD A10-5800K APU with AMD Radeon™ HD 7660D Graphics, AMD Radeon™ HD 6570 graphics card, 2x4GB DDR3-1866, 7200rpm Hard Drive with Windows® 7 64 bit on AMD "Annapurna" reference design. TRD-18
http://ir.amd.com/phoenix.zhtml?c=74093&p=irol-newsArticle_pf&id=1695793

Ein A8-3870 Besitzer könnte das mit Dirt 3 gut nachstellen.

Es berichten jetzt auch noch weitere Quellen davon:

http://www.computerbase.de/news/2012-06/desktop-version-des-trinity-von-amd-verzoegert-sich/
http://www.heise.de/ct/meldung/Trinity-Prozessoren-fuer-Desktop-PCs-kommen-spaeter-1612641.html

Heise spricht sogar von frühestens Q4. Noch später als Oktober kann ich mir allerdings nur schwer vorstellen.

AnarchX

2012-08-07, 16:39:34

Falls es jemanden interessiert:
http://devgurus.amd.com/thread/159178
Trinity has 1:16 rate doubles compared to single precision
Wollte man nicht Trinity-basierende HPC-Cluster bauen?

A10-FirePro mit 1:4-DP-Leistung. X-D

Im Ernst:
Durchgehende DP-Berechnungen führen nur faule Wissenschaftler durch, die den Aufwand eines Mixed-Mode scheuen.

Wirklich im Ernst:
Braucht man wirklich im HPC-Bereich befriedigende DP-Leistung?

Wohl doch 1:4 auf den FirePro-APU-Lösungen: http://www.amd.com/us/products/workstation/graphics/ati-firepro-3d/APU/Pages/APU.aspx#4

Skysnake

2012-08-07, 16:55:39

Ne, SP/DP ist für die iGPU eher 1/5 nicht 1/4

Wir haben 736 SP GFlop/s Pro APU davon entfallen auf die:

CPU: 3.8 GHz * 4Core * 8 FLop/s = 121,6 GFlop/s
GPU: 0.8GHz * 384Cores * 2 FLop/s = 614,4 GFlop/s
Summe: 121,6+614,4 = 736 GFlop/s

Für DP sieht es jetzt wie folgt aus:
CPU: 3.8 GHz *4Cores * 4 FLop/s = 62,4 GFlop/s Bei CPUs haben wir ja eigentlich immer 1:2 DP:SP
Wir haben insgesamt 184 DP GFlop/s wovon eben bereits 62,4 GFlop/s auf die CPU entfallen, bleiben also noch für die GPU 121,6 GFlop/s über

614,4 * x = 121,6 GFlop/s
=> x= ~1/5

Ich glaube mal nicht, dass die CPU auch ne SP:DP von 1:4 hat. Würde ich zumindest als seltsam empfinden.

Gipsel

2012-08-07, 18:05:11

Pirx

2012-08-07, 20:22:24

Einen Trinity mit abgeschalteter Grafikeinheit wird es wohl erstmal nicht geben?

mboeller

2012-08-07, 20:25:51

Wohl doch 1:4 auf den FirePro-APU-Lösungen: http://www.amd.com/us/products/workstation/graphics/ati-firepro-3d/APU/Pages/APU.aspx#4

Witzig, waren da wieder mal die Praktikanten am werk?

5) Theoretical Compute Performance. AMD FirePro A320 APU Peak GFLOPs (single-precision)= CPU GFLOPs + GPU GFLOPs = CPU Core Freq. (3.8GHz) X Core Count (4) X 8 FLOPS + GPU Core Freq.(800MHz) X DirectX® 11 capable Shader Count (384) X 2 FLOPS. Double-Precision GFLOPS = single-precision GFLOPS/4

Wenn schon, dann stimmen die 1/4 DP/SP ja nur für die GPU. Bei der CPU sollten es ja 1/2 sein

Stimmen eigentlich die 32 Flops/Takt für die 2 Module? Ich dachte pro Modul steht 1 256bittige FMA-Einheit zur Verfügung, oder sind es 2?

y33H@

2012-08-07, 23:01:25

Einen Trinity mit abgeschalteter Grafikeinheit wird es wohl erstmal nicht geben?Nennt sich Athlon II X4 730, 740 und 750K ... Release vermutlich Q1/2013.

Gipsel

2012-08-08, 00:17:32

Stimmen eigentlich die 32 Flops/Takt für die 2 Module? Ich dachte pro Modul steht 1 256bittige FMA-Einheit zur Verfügung, oder sind es 2?
Es sind zwei 128bit FMA-Einheiten pro Modul. Also 8 FMAs/Takt pro Modul, 16 insgesamt, was dann 32 Flops/Takt in SP sind. Oder aber 16 Flops/Takt in DP. Stimmt also.

Skysnake

2012-08-08, 00:19:41

Fehler in der Tabelle. Die haben einfach nur die 736/4 gerechnet, statt FPU und GPU getrennt zu behandeln. Da eine VLIW4-GPU verbaut ist, geht nur ein 1:4 Verhältnis DP:SP für die GPU.

Edit:
Übrigens, hat irgendwer eigentlich mal einen Desktop-Trinity getestet? Ich glaube die 1:16 nämlich irgendwie immer noch nicht so recht (http://www.forum-3dcenter.org/vbulletin/showthread.php?p=9301468#post9301468).
Klar sollte es eigentlich kein 1/5 sein, aber die Zahlen sagen eben was anderes, oder glaubst du wirklich, dass die CPU keine 1:2 Ratio hat?

S940

2012-08-08, 00:40:12

Stimmen eigentlich die 32 Flops/Takt für die 2 Module? Ich dachte pro Modul steht 1 256bittige FMA-Einheit zur Verfügung, oder sind es 2?Zusätzlich zu gipsel: FMA zählt doppelt, ist ja je eine Mul und eine Add Instruktion.

mboeller

2012-08-08, 09:03:15

Zusätzlich zu gipsel: FMA zählt doppelt, ist ja je eine Mul und eine Add Instruktion.

das mit der FMA war mit schon klar, ich hatte gestern abend nur einen Black-out was nun DP und was SP ist. :(

Also bei DP dann 16 x 3,8 GHz = 60,8 GFlops für die CPU und dann noch 153,6 GFlops für die GPU. Macht zusammen: 214,4 GFlops und nicht 184 GFlops wie auf der AMD-Seite.

214,4 DP / 736 SP = 1:3,42 und nicht 1:4 oder gar 1:5

richtig?

edit:
So und jetzt bitte das ganze auch noch mit einer Spezial-Version des A10-4600M mit 800MHz für die GPU und entsprechend geringem Takt für die CPU und davon dann 4 Stück auf einem Server-Board...wär doch ideal für HPC [>600GFlops DP bzw. 2,4TFlops SP incl. ECC und bis zu 64GB RAM mit 120GB/sec Bandbreite und nur 140-160W Verbrauch]. Geht aber IMHO leider nicht weil die HT3-Links fehlen.

S940

2012-08-08, 09:26:52

das mit der FMA war mit schon klar, ich hatte gestern abend nur einen Black-out was nun DP und was SP ist. :(
Passiert, kein Ding.
So und jetzt bitte das ganze auch noch mit einer Spezial-Version des A10-4600M mit 800MHz für die GPU und entsprechend geringem Takt für die CPU und davon dann 4 Stück auf einem Server-Board...wär doch ideal für HPC [>600GFlops DP bzw. 2,4TFlops SP incl. ECC und bis zu 64GB RAM mit 120GB/sec Bandbreite und nur 140-160W Verbrauch]. Geht aber IMHO leider nicht weil die HT3-Links fehlen.Naja braucht man denn unbedingt nen gemeinsamen Adressraum, also ein 4P System? Wenn nicht, dann pack das Teil auf ne Seamicro-Karte ;) Dafür fehlt dann eigentlich nur ECC.

Skysnake

2012-08-08, 13:10:02

Naja, es macht halt einiges einfacher, weil mehr oder weniger ein Multi-Sockel System aus Programmierersicht sich wie ein Single-CPU-System verhält.

Aber nur fast. Man muss schon wissen, was man macht, ansonsten kann es passieren, das man die Sachen nicht im lokalen Speicher ablegt der jeweiligen CPU/APU und dann eben immer entfernte Zugriffe hat, die natürlich deutlich weniger performant sind. Wer Multi-Sockel-Systeme programmiert weiß das im Normalfall aber.

Ist aber eigentlich nur interessant, wenn man kein MPI nutzen will. Wenn man MPI nutzt ist es fast egal, ob jetzt 2 oder 4 Sockel. Früher hat man auch Single-Sockel-Systeme genutzt. Ging auch. Bei Multi-Sockel hat man halt nur eher noch Einsparpotenzial beim Verbrauch, weil viele Dinge nicht redundant sind.

Gipsel

2012-08-08, 13:20:26

Dafür fehlt dann eigentlich nur ECC.
Das wäre dann aber auch nur so ein Spar-ECC wie bei der Tesla K10. Also nur ECC für den externen Speicher (DDR3 bzw. GDDR5) aber kein ECC für den internen (Caches, Registerfiles, local memory). Das hat nur GF100/110, Tahiti und demnächst GK110 in Form der K20. Bei der VLIW-GPU in Trinity fehlt das ziemlich sicher (der Speichercontrollerselber kann aber ECC, das dürfte kein Problem sein). Die müßten also eine echt andere Version der APU auflegen. Das wird wohl frühestens (wenn überhaupt) mit der näcshten APU-Variante was werden, die auf GCN basiert. Aber die Stückzahlen für die professionellen Modelle, die 1:4 DP und ECC wollen, dürften wohl um Einiges niedriger ausfallen als im Consumermarkt, wo das unnützer Ballast wäre. Und wie groß der ist, kann man vielleicht am Vergleich von Pitcairn (1:16 DP, kein ECC) zu Tahiti (1:4 DP, mit ECC) ablesen.

Skysnake

2012-08-08, 13:42:08

Naja, wenn Sie aber noch 1-2 HT Links dazu packen würden, würde sich durchaus eine interessante Platform für HPC-Computing ergeben. Man könnte auch durchaus überlegen, um zur einfachen Programmierung komplett die dedizierten GPUs weg lässt.

Dafür sollte man dann aber wohl eher auch wirklich in die vollen gehen also min Quad-Channel mit 4 Modulen + 768 GCN Cores und 1 oder 3 HT Links. Das wäre dann schon recht fett. Dann vielleicht noch ne TDP von 160-200W und als Standard Wasserkühlung um die Effizienz des Rechenzentrums zu steigern.

Wobei da wohl selbst ein Quad-Channel wie angedeutet wohl noch zu schwach wäre. Ich seh insbesondere bei AMDs APUs echt große Chancen mit deutlich performanteren Speichersystemen. Dafür muss die Abschaltung nicht benötigter Teile aber wirklich optimal funktionieren!

Und wenn HSA dann mal wirklich selbstständig den Code auf den richtigen Einheiten ausführen lässt, ohne dass der Programmierer OpenCL expliziet programmieren muss, dann haut das sicherlich rein wie ne Bombe. Aber der Weg bis dahin wird noch lange, steinig und beschwerlich.

Gipsel

2012-08-08, 13:49:48

Vielleicht sollte man einen der zukünftigen Konsolen SoCs entsprechend aufbohren. :eek:

Skysnake

2012-08-08, 14:39:29

da ist zu viel Custom-Zeug drin, wobei die zusätzlichen schnellen buffer/caches natürlich schick sind.

Ich würde halt echt gern mal ne APU mit 512MB eDRAM oder so sehen, oder gleich mit Hybridmemorycube. Das würde sicherlich gut abgehen.

Dr@

2012-08-09, 12:01:59

Fehler in der Tabelle. Die haben einfach nur die 736/4 gerechnet, statt FPU und GPU getrennt zu behandeln. Da eine VLIW4-GPU verbaut ist, geht nur ein 1:4 Verhältnis DP:SP für die GPU.

Edit:
Übrigens, hat irgendwer eigentlich mal einen Desktop-Trinity getestet? Ich glaube die 1:16 nämlich irgendwie immer noch nicht so recht (http://www.forum-3dcenter.org/vbulletin/showthread.php?p=9301468#post9301468).

Wegen den merkwürdigen Werten haben wir nachgefragt (im Reviewer's Guide für die neuen FirePro sind auch falsche DP-Werte drin).

Die ursprüngliche Angabe von DP = 1/16 SP für die Trinity-GPU ist laut Engineering korrekt.