PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : AMD - EPYC (32 Kern Server CPU, Naples)


Seiten : [1] 2

FlashBFE
2017-05-17, 14:57:40
Dafür lohnt sich doch ein eigener Thread:
AMD hat Naples als Epyc auf dem Financial Analyst Day offiziell vorgestellt:

Aus AMDs Opteron wird AMDs Epyc (https://www.golem.de/news/server-cpus-aus-amds-opteron-wird-amds-epyc-1705-127862.html)

Das Überraschende: Der Prozessor soll nur sechs und keine acht Speicherkanäle haben. Ok, das war offensichtlich eine Golem-Ente.

davidzo
2017-05-17, 15:07:11
Da hat Golem mist geschrieben, 8ch ist bestätigt: https://www.computerbase.de/2017-03/amd-naples-cpu-benchmarks/

https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=59997&stc=1&d=1495026409
https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=59998&stc=1&d=1495026409

davidzo
2017-05-17, 15:18:49
Package und Sockel:
- 768mm2 bzw. 4x 192mm2 in 14nm
- MCM mit 4x Zeppelin DIE
- Socket SP3
- LGA mit 4094 Kontaktflächen
- TDP bis 200Watt ?
http://www.bitsandchips.it/52-english-news/8353-naples-and-threadripper-will-share-the-almost-same-socket

https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=59999&stc=1&d=1495026812
https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=60000&stc=1&d=1495026812

Anscheinend vom Format sehr ähnlich zu G34, aber nochmal größer:
https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=60002&stc=1&d=1495027099


Anstatt eine Hebels wird der Andruckkäfig der CPU direkt verschraubt. Ohne Federn sieht mir das sehr heikel aus da einen konstanten Anpressdruck hin zu bekommen, ne halbe Umdrehung zuviel und die LGA-Kontakte sind Platt, eine Umdrehung zu wenig und der Kontakt ist schlecht. Das verlangt eine sehr hohe Fertigungsqualität von Lotes.
Auch Merkwürdig sind die vier unregelmäßigen, nicht in einem Rechteck angeordneten Gewinde für die Kühlermontage.

Links Socket G34, rechts SP3:
https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=60001&stc=1&d=1495026812

ndrs
2017-05-17, 15:36:45
Ist ein eigener Thread für den physisch gleichen Prozessor wirklich notwendig?

davidzo
2017-05-17, 15:43:21
Der Sockel ist beinahe so lang wie ein DDR4 Dimm (13cm) und hat in etwa die Größe eines Intel Sockel LGA3647 von 10x8cm wobei die tatsächliche Pinfläche wohl eher im Bereich 6x4.5cm liegt.
https://www.computerbase.de/2016-08/amd-naples-32-kerne-zen-plus/


https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=60003&stc=1&d=1495027955


https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=60004&stc=1&d=1495027955



Hier zum Vergleich LGA3647 für den kommenden Skylake-EP und Knights Landing von dem man aber in letzter Zeit nicht mehr viel hört.
https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=60006&stc=1&d=1495028348
https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=60007&stc=1&d=1495028348

Komische Positionen der Kühlermontageschrauben sind wir ja von Intel gewohnt. Anscheinend haben die Schrauben des Sockelkäfigs beim elektrischen Design vorrang und sind exakt Rechteckig angeordnet. Die Thermal Solution muss ich dann hinten anstellen, zusammen mit dem Niederhalterahmen wo die Schrauben auch gefühlt all over the place sind und nur durch hohe Kräfte einen einigermapen gleichmäßigen Anpressdruck erreichen können.

https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=60005&stc=1&d=1495027955

davidzo
2017-05-17, 15:44:38
Ist ein eigener Thread für den physisch gleichen Prozessor wirklich notwendig?

physisch gleich, bist du dir sicher?
8ch vs 4ch
32c vs 16c; 64T vs 32T
200W vs 180W
2S vs 1S
128 vs 44 PCIe Lanes
...

FlashBFE
2017-05-17, 15:49:59
Ist ein eigener Thread für den physisch gleichen Prozessor wirklich notwendig? Willst du ernsthaft AMDs neue Serverplattform in einem Sammelthread untergehen lassen?

ndrs
2017-05-17, 19:58:59
physisch gleich, bist du dir sicher?
8ch vs 4ch
32c vs 16c; 64T vs 32T
200W vs 180W
2S vs 1S
128 vs 44 PCIe Lanes
...
Ok, mein Fehler. Klassische Verwechselung. Für mich wär es sinnvoller den Threadripper hier zu integrieren (nicht umgekehrt, wie oben angesprochen), da jener höchstwahrscheinlich aus dem Epyc-Portfolio entnommen wird. Zumindest kann man wohl fest davon ausgehen, dass es auch hier 2-Chip-MCMs geben wird, die entsprechend teildeaktiviert für Consumer angeboten werden.

Skysnake
2017-05-17, 22:21:08
Wann gab es eigentlich die Vorstellung der Boards?

Ich hatte mir den Stream bis zu den Finanzzahlen angeschaut, und da wurden keine Borads gezeigt...

davidzo
2017-05-17, 22:54:41
Wann gab es eigentlich die Vorstellung der Boards?

Ich hatte mir den Stream bis zu den Finanzzahlen angeschaut, und da wurden keine Borads gezeigt...


es wurden vorher schonmal Platinen gezeigt, aber keine konkreten boards.
Das erste mal schon im August 2016: https://www.computerbase.de/2016-08/amd-naples-32-kerne-zen-plus/

Dann wurde irgendwann ein Foto eines Sockels mit einer 3d gedrukcten Abdeckung für die Ramslots gezeigt, gegen ende 2016.

Der single socket Board-shot stammt aus AMDs eigener prese:
https://www.computerbase.de/2017-05/amd-epyc-naples-multi-chip-module/

StefanV
2017-05-18, 00:41:18
Anstatt eine Hebels wird der Andruckkäfig der CPU direkt verschraubt.
I don't think so.
Wozu bräuchte man sonst das blaue dings da an der Seite, wo die Schraublöcher näher zusammen sind.
Auch auf der anderen Seite schauts so aus, als ob da 'nen Scharnier wäre

Außerdem: braucht man überhaupt starken Anpressdruck vom Sockel, wenn da eh ein Kühler drauf geschraubt wird?

FlashBFE
2017-05-18, 10:27:04
Hier noch ein paar mehr Bilder:

Weitere Details zum Server-Prozessor AMD Epyc (http://www.planet3dnow.de/cms/31966-weitere-details-zum-server-prozessor-amd-epyc/)

y33H@
2017-05-18, 11:33:04
Das Überraschende: Der Prozessor soll nur sechs und keine acht Speicherkanäle haben. Ok, das war offensichtlich eine Golem-Ente.Natürlich sind es acht, ich war beim FAD einfach völlig neben der Kappe, tut mir Leid ;(

Leonidas
2017-05-18, 12:31:15
Extra Thread ist in jedem Fall nicht schlimm, hier wird man dann sicher auch "Starship" gezielt abhandeln können. Bin gespannt, ob die bei der 7nm-Fertigung dann vielleicht wieder etwas vom MCM-Ansatz weggehen und mehr Cores in einen Die integrieren.

fondness
2017-05-18, 12:34:01
Bei der 7 nm Fertigung kommt ein nativer 12 Core Die. Alles andere wieder über MCM.

fondness
2017-05-24, 10:56:01
Hier noch ein paar Folien zur Infinity Fabric:

https://s27.postimg.org/54qhzuj0j/image.jpg (https://postimg.org/image/eciqgjq2n/)

https://s27.postimg.org/krhrd7wsj/image.jpg (https://postimg.org/image/8cuzcw5a7/)

https://s14.postimg.org/rgf0wv38x/image.jpg (https://postimg.org/image/90ujzgp4d/)

FlashBFE
2017-05-24, 20:39:27
Bei ChipHell (https://www.chiphell.com/thread-1737523-1-1.html)sind zwei Cinebench-Werte aufgetaucht, sowohl von Epyc als auch von Intels größtem Skylake SP, einem Xeon Platinum 8180 mit 28 Kernen und 205W TDP. Danach ist Epyc nur 5% langsamer. Wenn man nur nach der TDP geht, hätte Epyc damit rund 8,5% mehr Rechenleistung pro Watt als Skylake SP.

Das wird in jedem Fall ein interessantes Duell!

FlashBFE
2017-05-24, 20:44:24
https://s14.postimg.org/rgf0wv38x/image.jpg Zur dritten Folie und der Anbindung der GPUs: Ich frage mich, ob es dann irgendwann auch in normalen PCs einen Performancevorteil ergibt, wenn ein AMD-Prozessor und eine AMD-GPU über das IF kommunizieren statt des normalen PCIe-Protokollstacks.

Screemer
2017-05-24, 23:25:36
Zur dritten Folie und der Anbindung der GPUs: Ich frage mich, ob es dann irgendwann auch in normalen PCs einen Performancevorteil ergibt, wenn ein AMD-Prozessor und eine AMD-GPU über das IF kommunizieren statt des normalen PCIe-Protokollstacks.
Da hatten wir grad im Vega thread ne ca. 4 seitige diskussion. Es ging hier los: https://www.forum-3dcenter.org/vbulletin/showthread.php?p=11383758#post11383758

Linmoum
2017-05-31, 04:12:58
https://i.gyazo.com/3b864ce503513fe328b71789b9f8d8c6.png

iuno
2017-05-31, 04:13:21
Release Datum wurde eben auf der Computex bekanntgegeben: 20. Juni

edit: zu lahm :usad:

Skysnake
2017-05-31, 05:02:04
Das ist echt bald. Ich bin mal auf die Verfügbarkeit gespannt.

Mal schauen ob ich am 20ten so ein Ding bekommen kann

Loeschzwerg
2017-05-31, 07:40:47
Mich eher Preise und Lineup ^^

Habe auch überlegt ein Testobjekt anzufordern... aber sehr wahrscheinlich würde ich massive Probleme mit der /390 Emulationsschicht bekommen bzw. es würde schon an der Installation dieser scheitern.

Schön dass AMD so früh dran ist. Hoffentlich stimmt auch die Qualität bei den Boards.

FlashBFE
2017-05-31, 14:45:02
Hier auch gleich noch die Folie mit AMD-eigenen Balken, natürlich nur gegen Broadwell. Da aber wenig Überraschung: Bei der Rechenleistung pro Kern ist Epyc einmal etwas schneller und einmal etwas langsamer als die Xeons, pro Sockel ist Epyc deutlich schneller:

https://pics.computerbase.de/7/8/5/1/0/2-1260.2574437987.jpg

Gipsel
2017-05-31, 16:40:39
Hier auch gleich noch die Folie mit AMD-eigenen Balken, natürlich nur gegen Broadwell.Die Skylake-Server Parts sind ja noch nicht draußen.
Da aber wenig Überraschung: Bei der Rechenleistung pro Kern ist Epyc einmal etwas schneller und einmal etwas langsamer als die Xeons, pro Sockel ist Epyc deutlich schneller:Was eben auch heißt, daß AMD 45% mehr Zen-Kerne auf einem offenbar mindestens vergleichbaren Takt (vermutlich noch 100-200MHz mehr oder so, damit man mit der Performance knapp 50% vorne liegt) in die TDP quetscht. Das müssen die Skylake-Versionen erstmal schaffen. Der E5-2699A V4 hat ja immerhin 2,4 GHz Basetakt (3,6GHz Boost) mit seinen 22 Kernen (der E7-8894 v4 [Version für bis zu 8S] schafft das mit 20W TDP mehr [165W] dann auch auf 24 Kernen). Epyc liegt also mit 32 Kernen mindestens so hoch im Takt bzw. boostet bei dem Compilerbenchmark im Schnitt höher. Skylake bietet bis zu 28 Kerne, aber auch ein breiteres Speicherinterface mit höheren Speichertakten als Broadwell (6 Channel statt 4 Channel), was auch ein wenig Strom kosten dürfte. In dem Bereich wird man sehen müssen, ob da überhaupt größere Taktsteigerungen in die TDP passen oder ob die zwei zusätzlichen Speicherkanäle und 4-6 Kerne mehr sowie die höheren Speicherfrequenzen die Effizienzsteigerungen nicht zum großen Teil gleich wieder auffressen. Bei Volllast auf >20 Kernen hilft einem der single/few-Core-Boost auf 4,x GHz dann nämlich nicht wirklich was. Die höhere Taktbarkeit hilft da dann nicht mehr so viel bei Dingen, die viele Kerne auslasten (und für was Anderes braucht man doch auch keine CPU mit 24 oder 32 Kernen, oder?). Da hängt man praktisch immer im TDP-Limit. Das Entscheidende ist also, wie hoch man dort takten kann, also wie energieeffizient man im Bereich unter 3GHz ist.

Skysnake
2017-05-31, 19:27:55
hm... würde ich nicht zu 100% unterschreiben.

Für OpenMP parallelisierten Code ist der 1/2 Core Turbo schon ganz nett!

Loeschzwerg
2017-05-31, 20:07:39
Frage zur Kühlbarkeit: Haben Threadripper/Epyc hier evtl. einen Vorteil gegenüber einem dicken Single-DIE? Bessere Verteilung der gesamten Wärmeentwicklung (besser Übergang zum Kühlkörper) und nicht so einen "Hotspot" wie bei einem einzelnen Chip? Oder ist das nur von theoretischer Natur und praktisch macht es einen großartigen Unterschied?

Skysnake
2017-05-31, 20:28:49
Ob es einen signifikanten Unterschied macht kann man nur schwerlich sagen, aber theoretisch sollte das MCM von AMD bezüglich Kühlbarkeit im Vorteil sein.

Gipsel
2017-05-31, 22:42:04
Für OpenMP parallelisierten Code ist der 1/2 Core Turbo schon ganz nett!Wenn merkliche Anteile nicht parallel laufen sondern mit 1 bis 2 Kernen auskommen, dann natürlich schon. ;)

Skysnake
2017-06-01, 08:35:54
Naja du hast den startup und die MPI Kommunikation. Da hilft das insbesondere bei onloading wie bei den alten Mellanox Karten oder Omnipath schon

Gipsel
2017-06-01, 10:17:08
Jemand bei B3D hat übrigens Folgendes zu den PCIe-PHYs im "Processor Programming Reference (PPR) for AMD Family 17h Model 01h, Revision B1" (http://support.amd.com/TechDocs/54945_PPR_Family_17h_Models_00h-0Fh.pdf) gefunden (ab Seite 26):
https://abload.de/img/ryzen_iokfupi.png

Es gibt wie auf dem Dieshot zu sehen tatsächlich 34 Lanes (6x4 + 5x2), wovon aber nur 32 für PCIe benutzt werden können (Grund kommt gleich noch). Die dort erwähnten Enterprise 12G-PHYs findet man übrigens bei Synopsis (https://www.synopsys.com/dw/ipdir.php?ds=dwc_ether_enterprise12g). Sie unterstützen offiziell bis zu 12.5 GT/s (z.B. für xGMI für die Verbindung zwischen den Sockeln? Oder geht man da noch höher? Sind ja wahrscheinlich für AMD noch etwas angepaßt).

Eine Seite weiter findet man das Diagramm:
https://abload.de/img/ryzen_soc_diagramm4uq6.png

Die zwei zusätzlichen Lanes der 12.5G PHYs sind offenbar für den "WAFL" Physical Coding Sublayer reserviert (was immer das ist, wohl nicht das WAFL-Dateisystem, bevor das einer raushaut). Die anderen 32 hängen hinter einem MUX an allen Controllern und können offenbar beliebig konfiguriert werden: bis 32 PCIe-Lanes, bis 8 SATA-Ports, bis 4x Ethernet (warum wird das eigentlich nicht genutzt?), oder 2 xGMI-Links (standarmäßig jeweils 8 Lanes nutzend [also jedes Die verbindet sich mit jeweils zwei Dies im anderen Sockel, ergibt ein recht enges Mesh]?).

Die (bis zu vier) GMI-Links für das Verbinden der 4 Dies in einem Package haben wie schon gesagt eigene (deutlich kleinere) PHYs.

Skysnake
2017-06-01, 10:42:50
Himm warum hat man 4 GMI links? Das macht doch keinen Sinn. Ich brauche doch nur 3 um 4 Dies miteinander zu verbinden.

Die xGMI sind dann wohl für die Einbindung von den anderen Sockeln. Das passt wunderbar.

Die Verbindung zwischen den Sockeln läuft also nicht mit 64 GB/s sondern mit rund 100 GB/s.

Ist das nicht auch das was man zu Zeppelin gelesen hat?

Man kann auf jeden Fall jeden anderen Die innerhalb von 2 Hops erreichen.

Wenn jeder xGMI Link sogar aufgeteilt werden kann in nur einem Hop!

Das halte ich auch für am wahrscheinlichsten

PS was ist WAFL?

Gipsel
2017-06-01, 11:06:46
Himm warum hat man 4 GMI links? Das macht doch keinen Sinn. Ich brauche doch nur 3 um 4 Dies miteinander zu verbinden.Habe ich mich auch schon gefragt. Bei B3D wurde spekuliert, daß man zwei Ringe statt einem Mesh auf dem Package baut, was ich aber für nicht übermäßig wahrscheinlich halte (insbesondere da die GMI-Links ja aus zwei unidirektionalen Sublinks bestehen [deswegen auch die Unterteilung der PHYs]). Eventuell nutzt man im Moment nur 3 davon, hält sich aber die Option offen, 5 oder 6 Dies auf's Package zu quetschen oder sowas (muß ja kein Zeppelin sein sondern irgendein anderer Chip [GPU oder anderer Beschleuniger]).

Was ich vor einiger Zeit bei B3D mal als Vermutung aufgestellt habe (fiel mir gerade erst wieder ein, ist schon zwei drei Monate her), war übrigens in etwa Folgendes:
Stelle Dir auf dem Package ein Mesh zwischen den CCX statt der Dies vor. Dann will man 8 CCX im Package verbinden und jeder CCX hätte praktisch 3 Links zur Verfügung (einer on-Die zum anderen CCX [den kann man vielleicht als halben Hop zählen] und zwei off-die). Es kann ja durchaus vorkommen, daß die zwei CCX auf einem Die gleichzeitig etwas von zwei anderen CCX (ebenfalls auf einem Die) wollen. Dann hilft der zusätzliche Link etwas. Die GMI-Links sind natürlich nicht fest einem CCX zugeordnet sondern alle Links können von allen CCX on Die benutzt werden, was die Flexibilität erhöht.
Bei einer naiven Verdrahtung (also kein Überkreuzen um bei der Hälfte der Wege "abzukürzen") würde sich dann übrigens der "Doppelring" (oder ein kleiner Torus) ergeben, der kürzlich bei B3D vorgeschlagen wurde.

Die xGMI sind dann wohl für die Einbindung von den anderen Sockeln. Das passt wunderbar.Das ist so bestätigt: xGMI ist die kohärente Verbindung außerhalb des Sockels (zu gesteckten Karten in PCIe-Slots oder zu anderen Sockeln).
Die Verbindung zwischen den Sockeln läuft also nicht mit 64 GB/s sondern mit rund 100 GB/s.

Ist das nicht auch das was man zu Zeppelin gelesen hat?Die ersten Gerüchte vor zwei Jahren nannten wohl diese Zahl. Allerdings für die on-Package GMI-Links zwischen Zeppelin und einer GPU. Die GMI-Links sollen ja jetzt angeblich mit Speichertakt laufen und die gleiche Bandbreite bieten wie die on-Die-Ports zum Infinity Fabric (also bis zu 42GB/s pro Richtung und Link).
was ist WAFL?Kein Plan. Es ist vermutlich nicht das Write Anywhere File Layout. Da es nur am Control-Fabric hängt, schoß mir sowas wie eine Schnittstelle für's Debuggen durch den Kopf, aber keine Ahnung.

Eldoran
2017-06-04, 01:51:38
Es gibt möglicherweise ganz banale Gründe für 4 statt 3 IF PHY - etwa weil die Flächenersparnis sowie die Ersparnis von Verbindungen zwischen Die - Interposer nicht sonderlich hoch wäre, aber die daraus resultierenden Nachteile das völlig aufwiegen, etwa die sich ergebenden Leitungslänge länger/inkonsistent, komplexeres Routing am Interposer, etc. wäre.
Nicht zu vergessen die Symmetrie - schließlich sind die CCX ja gleich aufgebaut münden also ohnehin in 4 Endpunkten. Womit wir wieder bei den vermutlich geringen Einsparungen gelandet sind.

Skysnake
2017-06-04, 08:36:08
Na 4 links machen nur in zwei Fällen einen Sinn.
1. 1d Torus
2. Hypercube

1. Geht natürlich bei der geringen Anzahl an endpoints macht ein Torus aber keinen Sinn. Klar die Bandbreite ist im Optimalfall besser wenn man nur einen hop weit muss. Bei zwei aber schon nur noch im Mittel gleich hoch und man hat auf der anderen Seite die höhere Latenz.

Rein vom System Design spricht also nicht viel für Fall 1. Wenn würde ich die Erklärung auch eher bei einem einfacheren Routing und gleich langen Traces sehen. Das kann schon entscheidend sein denn auf dem Sockel muss wirklich ein riesiger Haufen an Leitungen geroutet werden...

2. Ist eigentlich eine gute Idee. Man hat ja bei zwei Sockeln genau 16 ccx, was der Anzahl an endpoints eines Hypercube entspricht.
Allerdings würde man da sogar überhaupt nur 4 links. 3 lokale und einer über den Sockel

Von den 3 lokalen links ist einer schon durch die ondie Verbindung der ccx erreicht. Man brüchte also noch 2 links. Das würde schon aufgehen. Denn es sind 1 links per endpoint! Wir haben aber zwei endpoints pro die der 4 GMI links hat. ;)

Nach außen würde das wie ein 1d Torus aussehen. Aber real wäre es eben ein 3d Hypercube aka Würfel.

Das ist recht ähnlich zu dem Aufbau der FX100 mit ihrem Tofu2 Netzwerk von Fujitsu

Das klingt für mich nicht wirklich unrealistisch bzw aktuell nach der vernünftigsten Erklärung

Warlock666
2017-06-05, 13:47:42
Na 4 links machen nur in zwei Fällen einen Sinn.
1. 1d Torus
2. Hypercube


Hätte da noch einen 3. Grund der m.M. nach der wahrscheinlichste ist...

http://cdn.wccftech.com/wp-content/uploads/2015/08/AMD-Greenland-GPU-Based-HPC-APU.jpg

Skysnake
2017-06-05, 18:44:49
Das hatten wir schon ;)

Ist durchaus eine Möglichkeit für ne hpc APU wobei man mit 4 Dies keinen Platz mehr auf dem Package hat und vom Package runter wird man wohl kaum können.

1 die mit einer GPU hätte dann aber wieder nur Dual Chanel was aber vielleicht gar nicht so schlimm/schlecht wäre. Man brüchte halt definitiv einen neuen Sockel

Warlock666
2017-06-05, 19:33:49
So wie ich das verstanden habe, beruht die HPC-APU auf 2 Dies(@Quad Channel) + 1 GPU und sollte somit auf einem Package unterzugringen sein.

Jede Die wäre dann mit 2 GMI Links an die GPU, sowie beide Dies untereinander mit 2 weiteren GMI Links angebunden.

Somit könnte sowohl die GPU, als auch die einzelnen Dies auf den vollen Quad Channel Durchsatz zurückgreifen.

Skysnake
2017-06-05, 20:01:51
Ja das wäre eine Möglichkeit, aber wie gesagt ich sehr das aktuelle nicht als realistisch mit den aktuellen Sockeln.

Und AMD muss HSA für c/c++ als auch Fortran bringen sonst wird das nichts. Oder wenigstens ein Fortran backen für OpenCL, wobei ich das nur als Notlösung im Vergleich zu HSA sehe

Nakai
2017-06-05, 20:13:53
Dann frage ich mich schon wieviel TDP so eine Kombination haben wird. Mehr als 200~250W kann man sich schwer vorstellen. Der Sockel hat jedenfalls genug Platz.

fondness
2017-06-05, 20:22:22
So wie ich das verstanden habe, beruht die HPC-APU auf 2 Dies(@Quad Channel) + 1 GPU und sollte somit auf einem Package unterzugringen sein.

Jede Die wäre dann mit 2 GMI Links an die GPU, sowie beide Dies untereinander mit 2 weiteren GMI Links angebunden.

Somit könnte sowohl die GPU, als auch die einzelnen Dies auf den vollen Quad Channel Durchsatz zurückgreifen.

Geplant war das so definitiv, siehe die Leaks von Fudzilla, die sonst alle eingetreten sind. Auch der Socket ist groß genug für 2x SR + Vega On Package. Allerdings ist es da jetzt mittlerweile auch schon sehr ruhig geworden. Vielleicht erst mit Vega20 oder man hat das Projekt ganz auf Eis gelegt. Aber ja das würde auch die 4 GMI Links @ SR erklären.

Warlock666
2017-06-05, 20:22:47
Die Frage nach der TDP kann uns wohl nur AMD beantworten, mehr wie 200W kann nicht mir hier auch kaum vorstellen.

Gipsel
2017-06-05, 20:39:39
Die Frage nach der TDP kann uns wohl nur AMD beantworten, mehr wie 200W kann nicht mir hier auch kaum vorstellen.Intel geht im etwas kleineren LGA3647 bis auf 260W hoch (Xeon Phi 7290F (https://ark.intel.com/products/95831/Intel-Xeon-Phi-Processor-7290F-16GB-1_50-GHz-72-core)). Das kann AMD mit ihrem LGA4094 eigentlich auch tun (oder man macht gleich die 300W voll).

Nakai
2017-06-05, 20:42:16
Intel geht im etwas kleineren LGA3647 bis auf 260W hoch (Xeon Phi 7290F). Das kann AMD mit ihrem LGA4094 eigentlich auch tun (oder man macht gleich die 300W voll).

Ok, dann sollten wir auf die TDPs von Threadripper warten.

2*Ryzen + Vega10. Ein Ryzen Octa kann schon runter auf 65W gehen, ergo können 170W für den Vega10 übrig bleiben.

Screemer
2017-06-05, 20:44:15
Knights landing in Form eines Xeon Phi 7290F hat eine FDP von 260W. Ist also schon mal kein Problem für lga 3647. denke also nicht, dass ein greenland nicht in ähnlichen Gefilden sein kann.

Edit: zu spät :(

Gipsel
2017-06-05, 20:51:49
2*Ryzen + Vega10. Ein Ryzen Octa kann schon runter auf 65W gehenBei einem 32 Core Epyc wird man die TDP pro Die vermutlich auch auf/unter 45W drücken.

Nakai
2017-06-05, 20:55:04
Bei einem 32 Core Epyc wird man die TDP pro Die vermutlich auch auf/unter 45W drücken.

Mhh, sollten die beiden Ryzens nicht ähnlich viel Abwärme erzeugen wie der Vega? Einfach um eine gleichmäßige Hitzeverteilung zu liefern?

Gipsel
2017-06-05, 21:08:24
Mhh, sollten die beiden Ryzens nicht ähnlich viel Abwärme erzeugen wie der Vega? Einfach um eine gleichmäßige Hitzeverteilung zu liefern?Dann hat man eben eine ungleichmäßige Hitzeverteilung. Na und? Das ist nicht soo kritisch. Falls bei Epyc nur Threads auf einem oder zwei Dies aktiv sind, sollten die auch zumindest teilweise die Powerbudgets der anderen Dies mitbenutzen dürfen.

Warlock666
2017-06-05, 21:22:54
Mit bis zu 300W wäre so eine HPC-APU ein echtes Monster ;D

Ob AMD hier noch Ressourcen hat und wird diese in absehbarer Zeit sehen werden? Ich hoffe es doch sehr :D

@Naples
Wenn man das Bild so betrachtet, könnte man auch davon ausgehen das nicht alle Dies miteinander verbunden sind,
sondern eine Art Ringbus eingesetzt wird, für den ebenfalls alle 4 GMI Links benötigt werden.

https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=60190&stc=1&d=1496688949

Brillus
2017-06-05, 22:37:00
Mit bis zu 300W wäre so eine HPC-APU ein echtes Monster ;D

Ob AMD hier noch Ressourcen hat und wird diese in absehbarer Zeit sehen werden? Ich hoffe es doch sehr :D


Bedenke bitte das es ein HPC Teil ist und nicht für Gamer (oder noch einen anderen Sockel) der hier hat nach allem was man weiß keinen Displayausgang.

OBrian
2017-06-06, 07:11:06
Das Ding ist ja unabhängig von der TDP schon ein Monster. Wie viel TDP man zugesteht, liegt wohl in erster Linie daran, wieviel die Serverhersteller im Gehäuse haben wollen.

Mit den Taktraten des 1800X und entsprechender Abwärme käme man ja schnell in den Bereich von 400 W, aber das ist wohl nicht gewollt, weil das schon deutlich den Bereich des Effizienzmaximums verläßt. Zu wenig bringt aber auch nichts, man könnte sicherlich auf 100 W runterkommen, aber was soll das, halbwegs schnell rechnen soll das Teil ja auch noch.

Also ich könnte mir vorstellen, daß es eine variable TDP gibt (cTDP oder verschiedene Modelle), so daß der Serverhersteller das anpassen kann. Das Maximum könnte dann ja durchaus Richtung 300 W gehen, nutzen wird es aber kaum einer, weil das dann zu sehr auf Kante gebaut ist. Es rechnet ja jeder für sich mit spitzem Bleistift die Stromkosten, Klimaanlagenkosten usw., also alles, was nicht nah am Performance-pro-Watt-Maximum ist, kauft keiner.

Außerdem wollen sicher die Serverhersteller die Gehäuse, Netzteile und Kühlungen der Intel-Lösungen möglichst weiterbenutzen, also kann es gut sein, daß man bei etwa den 260 W von Knight Landing rauskommen wird. Paßt ja auch rechnerisch gut: 4x Ryzen 1700 mit 65 W TDP, die CPU hat auf AM4 ja momentan das beste Verhältnis.

Setsul
2017-06-08, 23:45:05
Na 4 links machen nur in zwei Fällen einen Sinn.
1. 1d Torus
2. Hypercube

1. Geht natürlich bei der geringen Anzahl an endpoints macht ein Torus aber keinen Sinn. Klar die Bandbreite ist im Optimalfall besser wenn man nur einen hop weit muss. Bei zwei aber schon nur noch im Mittel gleich hoch und man hat auf der anderen Seite die höhere Latenz.

Rein vom System Design spricht also nicht viel für Fall 1. Wenn würde ich die Erklärung auch eher bei einem einfacheren Routing und gleich langen Traces sehen. Das kann schon entscheidend sein denn auf dem Sockel muss wirklich ein riesiger Haufen an Leitungen geroutet werden...

2. Ist eigentlich eine gute Idee. Man hat ja bei zwei Sockeln genau 16 ccx, was der Anzahl an endpoints eines Hypercube entspricht.
Allerdings würde man da sogar überhaupt nur 4 links. 3 lokale und einer über den Sockel

Von den 3 lokalen links ist einer schon durch die ondie Verbindung der ccx erreicht. Man brüchte also noch 2 links. Das würde schon aufgehen. Denn es sind 1 links per endpoint! Wir haben aber zwei endpoints pro die der 4 GMI links hat. ;)

Nach außen würde das wie ein 1d Torus aussehen. Aber real wäre es eben ein 3d Hypercube aka Würfel.

Das ist recht ähnlich zu dem Aufbau der FX100 mit ihrem Tofu2 Netzwerk von Fujitsu

Das klingt für mich nicht wirklich unrealistisch bzw aktuell nach der vernünftigsten Erklärung
Ich würde gar nicht so kompliziert argumentieren.
Einfach mal die CCX ignorieren.
Es sind 4 Dies pro Package. Da braucht man einfach keine 4 GMI Links. Einen Die mit sich selbst zu verbinden ist Schwachsinn, also bleiben zwei doppelte Verbindungen einfach weil die PHYs sowieso da sind.
Beantwortet aber nicht die Frage wieso es überhaupt 4 sind.
Für eine APU mit 2x 8 Kern Die wären wieder genug für 4x GMI zur GPU und 2x zwischen den CPU Dies.
Es bleiben eigentlich nur Symmetriegründe, 8 Kern APU (wobei ob sich dafür ein 4ter GMI Link lohnt den man immer mitschleppt und nicht braucht ist auch fraglich) oder eben Yields.

Eldoran
2017-06-11, 16:59:24
Hätte da noch einen 3. Grund der m.M. nach der wahrscheinlichste ist...

http://cdn.wccftech.com/wp-content/uploads/2015/08/AMD-Greenland-GPU-Based-HPC-APU.jpg
Nach reiflicher Überlegung dürfte das die wahrscheinlichste Erklärung sein, bzw. die damals auch geplante Lösung. Zeppelin ist der Name des Ryzen Dies...
Allerdings glaube ich nicht, dass etwas derartiges noch immer geplant ist. Angeblich ist Greenland schon eine Weile tot und auch prinzipiell ist eine derartige Lösung nur begrenzt sinnvoll. Für normale Desktops ist eine extrem breitbandige Anbindung der GPU unnötig - das wäre nur für HSA wirklich relevant. Das ganze muss auch eine relativ hohe Abhängigkeit von CPU und GPU haben. Epyc/Threadripper + Vega mit xGMI dürfte in vielen Fällen nur unwesentlich langsamer sein und viel flexibler. Obendrein ist sehr fraglich ob nicht Epyc + Vega im Endeffekt eine höhere Performance pro HE im Rack erzeugt. Und Threadripper ist ziemlich sicher nicht für eine derartige Kombination möglich (von den Pins im Sockel), das wäre also dann ein weiterer Sockel etc.

Complicated
2017-06-11, 17:19:19
Eine HPC-APU ist wie der Name schon sagt für HPC, daher sind Überlegungen mit Desktop oder Threadripper-Sockeln sowieso obsolet. HSA ist gesichert das Herzstück jeder Software die auf diesem System läuft in HPC Umgebungen - oder besser gesagt ROCm (http://gpuopen.com/radeon-open-compute-new-era-heterogeneous-in-hpc-ultrascale-computing-the-boltzmann-initiative-delivering-new-opportunities-in-gpu-computing-research/). Und wenn man sich das Schaubild anschaut und nun den HBCC von Vega dort einfügt, dann wird klar, dass dieses Design auf jeden Fall kommen wird.

YfOrU
2017-06-15, 14:47:24
AMD EPYC 7000 series specs and performance leaked / AMD EPYC 7000 launches June 20th
https://videocardz.com/70266/amd-epyc-7000-series-specs-and-performance-leaked

The EPYC 7000 series processors feature 128 PCIe lanes and 8-channel DDR4 support (up to 2666 MHz). Some parts are listed with two TDP values (right now I’m not sure why). EPYC CPUs are available with up 32 cores. The cheapest part should be available more than 400 USD and the most powerful EPYC 7601 processor will be sold for around 4000 USD. The highest clock speed is 3.2 GHz in turbo mode.


All EPYC 7000 Processors have 8 Channels DDR4 and 128 PCIe Lanes -> immer vier Chips pro MCM.

EPYC 2-Socket CPUs

EPYC 7601: 32C/64T, 2.2 GHz, 3.2 GHz, 180W, >4000 USD

EPYC 7551: 32C/64T, 2.0 GHz, 3.0 GHz, 180W, >3200 USD

EPYC 7501: 32C/64T, 2.0 GHz, 3.0 GHz, 155/170W

EPYC 7451: 24C/48T, 2.3 GHz, 3.2 GHz, 180W, >2400 USD

EPYC 7401: 24C/48T, 2.0 GHz, 3.0 GHz, 155/170W, >1700 USD

EPYC 7351: 16C/32T, 2.4 GHz, 2.9 GHz, 155/170W, >1100 USD

EPYC 7301: 16C/32T, 2.2 GHz, 2.7 GHz, 155/170W, >800 USD

EPYC 7281: 16C/32T, 2.1 GHz, 2.7 GHz, 155/170W, >600 USD

EPYC 7251: 8C/16T, 2.1 GHz, 2.9 GHz, 120W, >400 USD

EPYC 1-Socket CPUs

EPYC 7551P: 32C/64T, 2.0 GHz, 3.0 GHz, 180W, >2000 USD

EPYC 7401P: 24C/48T, 2.0 GHz, 3.0 GHz, 155/170W, >1000 USD

EPYC 7351P: 16C/32T, 2.4 GHz, 2.9 GHz, 155/170W, >700 USD

tm0975
2017-06-15, 15:16:57
was ist eigentlich mit den kleinen opterons auf basis der 8-kern ryzen? gibt es dafür bereits angaben oder termine?

Gipsel
2017-06-15, 15:31:10
AMD EPYC 7000 series specs and performance leaked / AMD EPYC 7000 launches June 20th
https://videocardz.com/70266/amd-epyc-7000-series-specs-and-performance-leaked

All EPYC 7000 Processors have 8 Channels DDR4 and 128 PCIe Lanes -> immer vier Chips pro MCM.

EPYC 2-Socket CPUs

EPYC 1-Socket CPUsDas sieht takttechnisch doch sehr konservativ aus.

YfOrU
2017-06-15, 15:31:36
was ist eigentlich mit den kleinen opterons auf basis der 8-kern ryzen? gibt es dafür bereits angaben oder termine?

Das ist Snowy Owl mit 1 - 2 Zeppelin. Kommt aber wohl nur als SCM/MCM BGA. Also verlötet wie Intels Xeon-D und vermutlich Q3 da Naples effektiv gerade noch in Q2 fällt.

Naples:
https://cdn.videocardz.com/1/2017/05/AMD-Data-Center-Presentation-10_VC-1000x555.jpg

Snowy Owl:
https://cdn.videocardz.com/1/2017/05/AMD-Data-Center-Presentation-9_VC-1000x555.jpg
https://cdn.videocardz.com/1/2017/05/AMD-Data-Center-Presentation-11_VC-1000x555.jpg

YfOrU
2017-06-15, 15:46:51
Das sieht takttechnisch doch sehr konservativ aus.

Ja. Macht aufgrund des Konzepts (MCMs mit durchgehend vier Chips) und der Skalierung (Spannung/Frequenz bei 3,2Ghz+) aber durchaus Sinn. Wesentlich mehr Kerne bei teils deutlich geringeren Frequenzen. Bezüglich Performance/Watt ist der Weg für AMD meiner Ansicht nach am effizientesten.

Man kommt selbst bei vier jeweils zur Hälfte deaktivierten Chips auf dem MCM bereits auf 16C. Da bietet es sich einfach an in die Breite zu gehen denn derart viele defekte Chips wird es sicher nicht geben.

Leonidas
2017-06-15, 16:13:16
Das sieht takttechnisch doch sehr konservativ aus.


Im Server-Segment darf man halt keine nur halb-richtigen TDPs angeben.

Der_Korken
2017-06-15, 16:13:39
Der EPYC 7251 soll also Octachannel und 128PCIe-Lanes bieten bei nur 8C/16T haben? Das heißt AMD verbaut ernsthaft vier Dies mit je nur 1/4 aktiven Cores?

Pirx
2017-06-15, 16:16:57
Der EPYC 7251 soll also Octachannel und 128PCIe-Lanes bieten bei nur 8C/16T haben? Das heißt AMD verbaut ernsthaft vier Dies mit je nur 1/4 aktiven Cores?
epysche Schrottverwertung:wink:

Skysnake
2017-06-15, 16:41:59
Kommt darauf an wen du fragst. Wird sicherlich genug Leute geben die sich die Finger danach lecken.

Gipsel
2017-06-15, 17:17:46
Im Server-Segment darf man halt keine nur halb-richtigen TDPs angeben.Das hat damit vermutlich eher nicht so viel zu tun, sondern daß der Basetakt vermutlich wirklich nie unterschritten wird. Der Grund dürfte die deutlich größere Konnektivität sein, die geboten wird. Mich würde es nicht unbedingt wundern, wenn beim 2GHz 32Kerner merkliche Teile des Powerbudgets für externe Interfaces (RAM, PCIe; die GMI-Interconnects zwischen den Dies kosten vielleicht nicht soo viel, aber ein paar Watt könnten das in der Summe auch sein) draufgehen können, wenn die voll belastet werden. Was im Umkehrschluß heißen könnte, daß ein passabler allcore-Boost möglich ist, sollte das gerade nicht der Fall sein.
Nach den geleakten SpecInt_Rate-Vergleichen schlagen z.B. die 8 Kerne des kleinsten Modells 7251 (2,1GHz Base und 2,9Ghz Boost) die 8 Kerne des Broadwell E5-2620 v4 (2,1GHz Base und 3,0 GHz Boost) um 23%.
Ich dachte eigentlich nicht, daß SpecInt sehr bandbreitenlastig wäre, lasse mich aber gerne korrigieren.

Complicated
2017-06-15, 18:12:43
Naja 8 Core Ryzen 3,4 GHz bei 95 W TDP
16 Core Threadripper bei 3,4 und 140-155 W TDP
32 Core kann dann bei 180 W TDP nur deutlich niedriger takten. Da lesen sich 2,2 GHz Basis sinnvoll in diesem TDP Rahmen. Zumal es da nur wenig Software mit dem Bedarf für hohe Singlethreadleistung gibt.

Edit:
@Gipsel
Das legt auch die hohe TDP des 8 Kern Epyc nahe. 120 W sind hier sicherlich hauptsächlich für die Anbindung nötig.

Eldoran
2017-06-15, 19:49:17
Es fällt auch auf, dass die dual socket CPUs deutlich teurer und variantenreicher sind. Etwa ein 16C aus 2x 8C wäre teurer. Nachdem man ja auch beim PCIe oder Taktfrequenz nichts gewinnt, sind gerade die kleineren dual socket Varianten nur sporadisch interessant - auch ein einzelner Epyc hat ja schon jede Menge Peripherie. Neben den 24C+ Modellen, mit denen dann eben die Leistung verdoppelt werden kann, dürfte wohl rein das RAM entscheidend sein. Oder kennt jemand andere Gründe?
Eine spannende Frage dürfte auch werden, bei welchen "Benchmarks"/Anwendungsgebieten die dual socket varianten effizient sind. Mir fehlen da echt die Erfahrungswerte. Der Vergleich zu intel ist da auch schon deshalb schwierig, da zumindest nach der bisherigen Informationslage erhebliche Unterschiede bei diversen Datenschutz/Datensicherheit betreffenden Features zu erwarten sind.

bun
2017-06-15, 21:06:35
Naja 8 Core Ryzen 3,4 GHz bei 95 W TDP
16 Core Threadripper bei 3,4 und 140-155 W TDP
32 Core kann dann bei 180 W TDP nur deutlich niedriger takten. Da lesen sich 2,2 GHz Basis sinnvoll in diesem TDP Rahmen. Zumal es da nur wenig Software mit dem Bedarf für hohe Singlethreadleistung gibt.

Edit:
@Gipsel
Das legt auch die hohe TDP des 8 Kern Epyc nahe. 120 W sind hier sicherlich hauptsächlich für die Anbindung nötig.

Nehm doch lieber den 1700 heran. 8 Core 3,0Ghz bei 65W TDP sehen gleich ganz anders aus.

Noch detallierter kann man anhand der Daten hier schätzen:

https://forums.anandtech.com/threads/ryzen-strictly-technical.2500572/

Es würde mich wundern wenn AMD sich weit von 3Ghz entfernen müsste, um die TDP Targets einzuhalten. Die Performance pro Watt verdoppelt sich bei idealer Taktrate im Vergleich zum 1800X nahezu.

vinacis_vivids
2017-06-18, 04:46:55
https://videocardz.com/70266/amd-epyc-7000-series-specs-and-performance-leaked

https://abload.de/img/epycspecslysky.png
https://abload.de/img/epycpricemmsk6.png

StefanV
2017-06-18, 05:46:17
Ich fürchte, dass Ryzen und Epic recht deutliche Auswirkungen auf die Quartalsberichte von Unternehmungen haben werden, da der Preis sehr aggressiv angesetzt ist.

BoMbY
2017-06-18, 11:13:04
Da ist ein Epyc 7601 x2 bei Sandra (http://ranker.sisoftware.net/show_system.php?q=cea598ab9fa89eaa93b5d2efc2f3d5a79aaa8ce5d8edcba39eab8df5c8f9df badfe2d2f487ba8a&l=en). Die Verlässlichkeit aller Angaben sieht eher mal wieder dürftig aus.

dildo4u
2017-06-18, 12:29:19
Zen vs. Skylake: Die-Größenvergleich von Ryzen, Naples und Skylake-SP

https://www.computerbase.de/2017-06/zen-skylake-die-size-ryzen-naples-epyc/

PrivateCeralion
2017-06-20, 00:54:47
Weiß jemand, ob es heute irgendeinen Stream, eine Veranstaltung oder Uhrzeit gibt, um Epyc zu veröffentlichen?

MR2
2017-06-20, 09:40:35
Ich hoffe heute nachmittag gibts zumindest Tests!

Gipsel
2017-06-20, 13:25:49
Mal zur Verdeutlichung, warum die Basetaktraten von AMD offenbar so gewählt wurden:

https://abload.de/img/ryzen_power_scaling_s5fsu7.png

Die Taktraten im Bereich von 2,0 bis 2,4GHz liegen wohl genau im Bereich der maximalen Effizienz (der Punkt, an dem die Tangente durch den Nullpunkt an der Kurve anliegt). Geht man weiter runter, verschlechtert sich die Performance/Watt, darüber ebenfalls. Die Kurve wurde mit den Cinebench-Resultaten von TheStilt erstellt. Andere Workloads generieren etwas andere Verbräuche, aber die Form der Kurve sollte im Groben gleich bleiben (vorbehaltlich des Verbrauchs der GMI-Links).

Skysnake
2017-06-20, 13:47:03
:up:

Sehr schoene Arbeit!

PrivateCeralion
2017-06-20, 13:53:46
Mal zur Verdeutlichung, warum die Basetaktraten von AMD offenbar so gewählt wurden:

https://abload.de/img/ryzen_power_scaling_s5fsu7.png

Die Taktraten im Bereich von 2,0 bis 2,4GHz liegen wohl genau im Bereich der maximalen Effizienz (der Punkt, an dem die Tangente durch den Nullpunkt an der Kurve anliegt). Geht man weiter runter, verschlechtert sich die Performance/Watt, darüber ebenfalls. Die Kurve wurde mit den Cinebench-Resultaten von TheStilt erstellt. Andere Workloads generieren etwas andere Verbräuche, aber die Form der Kurve sollte im Groben gleich bleiben (vorbehaltlich des Verbrauchs der GMI-Links).

Die Grafik ist sehr interessant. Hier kann man auch schon abschätzen, wie viel der CPU Part von Raven Ridge verbrauchen wird, welcher wahrscheinlich dann auch bei 2Ghz betrieben wird. Da es nur ein CCX ist, kommt er auf ungefähr 16Watt. Unter Last :D

Complicated
2017-06-20, 14:15:21
Das wird bei Raven Ridge völlig anders sein, da anderer Die mit anderen Komponenten.

PrivateCeralion
2017-06-20, 14:17:46
Das wird bei Raven Ridge völlig anders sein, da anderer Die mit anderen Komponenten.

Glaube ich nicht, da AMD gar nicht das Geld für die Entwicklung hat, etwas anderes als ein CCX auf den Die zu packen.

Complicated
2017-06-20, 14:56:39
Was ist das für ein unlogischer Unsinn?

Ein einzelner CCX auf dem Die benötigt keine IF Verbingung zu einem zweiten.
Eine iGPU benötigt andere Transistoren. Der Prozess ist deutlich weiter fortgeschritten. Das wird die erste APU mit L3 Cache.

Man kann sicher sein, dass der RR Die einige Überraschungen beinhalten wird und viel Entwickungsarbeit drin steckt. AMD wird diesen Quadcore Die so hoch takten wollen wie nur irgend möglich um ihn auch ohne GPU als Quadcore CPU weiter zu verwenden.

Pirx
2017-06-20, 15:35:05
..aber möglicheweise eine IF-Verbindung zur GPU, andererseits.. Fehlt mit nur einem CCX nicht ein RAM-Controller?

PrivateCeralion
2017-06-20, 15:38:26
Was ist das für ein unlogischer Unsinn?

Ein einzelner CCX auf dem Die benötigt keine IF Verbingung zu einem zweiten.
Eine iGPU benötigt andere Transistoren. Der Prozess ist deutlich weiter fortgeschritten. Das wird die erste APU mit L3 Cache.

Man kann sicher sein, dass der RR Die einige Überraschungen beinhalten wird und viel Entwickungsarbeit drin steckt. AMD wird diesen Quadcore Die so hoch takten wollen wie nur irgend möglich um ihn auch ohne GPU als Quadcore CPU weiter zu verwenden.

Ich sprach ja auch ausdrücklich von dem Prozessor Teil von Raven Ridge. Und selbstverständlich kann AMD diesen hoch takten, da er die gleichen Eigenschaften wie ein CCX auf einem Zepelin Die haben wird.

Complicated
2017-06-20, 15:50:13
Und du meinst GPUs anzubinden im gemeinsamen Adressraum ist das selbe wie einen zweiten CCX? Da hätte sich AMD aber 6 APU Generationen sparen können oder? Ryzen hat auch nur einen RAM Controller mit zwei CCX.

unl34shed
2017-06-20, 16:00:50
Ein Single CCX braucht doch auch IF, da habt ja der Memory Controller, PCIe, etc. dran.

Würde mich zumindest wundern wenn man den uncore neu macht

Complicated
2017-06-20, 16:09:05
Was bei einer APU wohl klar sein sollte. Daher wird es auch einen anderen Sweetspot geben für Performance/Watt. RR wird auch auf das mobile Segment optimiert

tm0975
2017-06-20, 16:36:29
sollte der nappel nicht heute kommen? :confused:
normalerweise ist doch 15 uhr immer die zeit von amd, oder?

Pirx
2017-06-20, 16:42:40
jupp 15 Uhr

hier: https://twitter.com/AMDServer

22 Uhr bei uns

tm0975
2017-06-20, 16:50:21
achso, danke! :-)

Complicated
2017-06-20, 19:37:40
Supermicros Serverboards für EPYC:
http://www.prnewswire.com/news-releases/supermicro-announces-full-portfolio-of-a-server-solutions-optimized-for-new-high-performance-amd-epyc-processors-300476804.html
AMD EPYC™ 7000 Series Processors with 32 "Zen" Cores and 64 Threads

Weiss jemand wofür ein PCIe 3.0 40x Riser Slot gut ist? :eek:
https://www.supermicro.nl/Aplus/motherboard/EPYC7000/H11DSU-iN.cfm
3. Expansion slots:
WIO:
1 PCI-E 3.0 x32 Left Riser Slot
1 PCI-E 3.0 x16 Right Riser Slot
Ultra:
1 PCI-E 3.0 x40 Far Right Riser Slot

Linmoum
2017-06-20, 20:19:19
anandtech hat 'nen Liveticker für nachher.

http://www.anandtech.com/show/11562/amd-epyc-launch-event-live-blog-starts-4pm-et-

Kartenlehrling
2017-06-20, 20:20:54
Foto gibts schon ...

https://twitter.com/LisaSu/status/877155195016359941

Loeschzwerg
2017-06-20, 20:27:24
Weiss jemand wofür ein PCIe 3.0 40x Riser Slot gut ist? :eek:
https://www.supermicro.nl/Aplus/motherboard/EPYC7000/H11DSU-iN.cfm

Na für fünf reguläre x8 PCIe Steckplätze im 2HE Server ;)

Screemer
2017-06-20, 20:32:33
Weiss jemand wofür ein PCIe 3.0 40x Riser Slot gut ist? :eek:
https://www.supermicro.nl/Aplus/motherboard/EPYC7000/H11DSU-iN.cfm
Für eine pcie Reiser mit 5 8x pcie-slots vielleicht

YfOrU
2017-06-20, 20:38:36
Weiss jemand wofür ein PCIe 3.0 40x Riser Slot gut ist? :eek:
https://www.supermicro.nl/Aplus/motherboard/EPYC7000/H11DSU-iN.cfm

Hier das Board bei 2U:
https://www.supermicro.nl/Aplus/system/2U/2023/AS-2023US-TR4.cfm

1x PCI-E 3.0 x16 slot (FH, 10.5" L)
5x PCI-E 3.0 x8 slots (FH, 9.5" L)
1x PCI-E 3.0 x8 slot (LP)
1x PCI-E 3.0 x8 (internal LP)

Und hier 1U:
https://www.supermicro.nl/Aplus/system/1U/1123/AS-1123US-TR4.cfm

2x PCI-E x16 (FH/HL 9.5") slots
2x PCI-E x8 slots (1LP, 1 internal LP)


Ein paar Beispiele von anderen Servern (bei Epyc fehlt noch einiges an Doku und Komponenten):
https://www.supermicro.nl/products/nfo/UIO.cfm?show=AOCSupport

Gipsel
2017-06-20, 22:00:13
Supermicros Serverboards für EPYC:
http://www.prnewswire.com/news-releases/supermicro-announces-full-portfolio-of-a-server-solutions-optimized-for-new-high-performance-amd-epyc-processors-300476804.htmlDie haben auch E-ATX-Boards für 2S-Systeme (https://www.supermicro.com/Aplus/motherboard/EPYC7000/H11DSi-NT.cfm). Aber mit zwei der LGA4094-Sockel da drauf scheint so etwas der Platz für die Konnektivität zu schwinden, selbst wenn die da nur ein Speicherslot pro Kanal verbauen.

Edit:
Übersichtsseite der Epyc-Mainboards von SuperMicro (https://www.supermicro.com/Aplus/motherboard/EPYC7000/)

d2kx
2017-06-20, 22:12:54
AMD Epyc: Comeback mit zwölf CPUs mit bis zu 32 Kernen (https://www.computerbase.de/2017-06/amd-epyc-naples-cpu-server/)
ComputerBase

Epyc 7000: AMDs Chance, Intel viele Marktanteile abzunehmen (https://www.golem.de/news/epyc-7000-amds-chance-intel-viele-marktanteile-abzunehmen-1706-128468.html)
Golem

Complicated
2017-06-20, 22:15:31
https://globenewswire.com/news-release/2017/06/20/1026480/0/en/AMD-EPYC-Datacenter-Processor-Launches-with-Record-Setting-Performance-Optimized-Platforms-and-Global-Server-Ecosystem-Support.html
Record-Setting EPYC Performance

The excitement around EPYC is driven by multiple record-setting server benchmarks achieved by EPYC-powered one-socket and two-socket systems.

AMD EPYC processors set several performance records, including:

• Two-Socket Server

AMD EPYC 7601-based system scored 2360 on SPECint®_rate2006, higher than any other two-socket system score1

• One-Socket Server

AMD EPYC™ 7601-based system scored 1200 on SPECint®_rate2006, higher than any other mainstream one-socket x86-based system score2
AMD EPYC 7601-based system scored 943 on SPECfp®_rate2006, higher than any other one-socket system score3
Hier auch die Testmethoden um das ganze auch in Relation zu sehen:
1. Score based on AMD internal testing of 2 x EPYC 7601 CPU in, Supermicro AS-1123US-TR4, Ubuntu 16.04, x86 Open64 v4.5.2.1 Compiler Suite, 512 GB (16 x 32 GB 2Rx4 PC4-2666) memory, 1 x 500 GB SSD. As of May 29, 2017. See www.spec.org for more information. NAP-11

2. Score based on AMD internal testing of 1 x EPYC 7601 CPU in HPE Cloudline CL3150, Ubuntu 16.04, x86 Open64 v4.5.2.1 Compiler Suite, 256 GB (8 x 32GB 2Rx4 PC4-2666) memory, 1 x 500 GB SSD. Comparison excludes Intel Xeon Phi accelerators. As of May 29, 2017. See www.spec.org for more information. NAP-09

3. Score based on AMD internal testing of 1 x EPYC 7601 CPU in HPE Cloudline CL3150, Ubuntu 16.04, x86 Open64 v4.5.2.1 Compiler Suite, 256 GB (8 x 32GB 2Rx4 PC4-2666) memory, 1 x 500 GB SSD. As of May 29, 2017. See www.spec.org for more information. NAP-10

4. Based on cost of 1 x EPYC 7601-based (1 x $2100 AMD 1k price) system with 256 GB (8 x 32GB 2Rx4 PC4-2666) memory (8 x $300), 1 x 500 GB SSD ($165), and chassis costs ($500) for a total system cost of $5,165; compared to 2 x E5-2660 v4-based(2 x $1445) system with 256 GB (8 x 32GB 2Rx4 PC4-2666 running at 2133) memory (8 x $300), 1 x 500 GB SSD ($165), and chassis costs ($500), plus Intel C612 chipset ($54 per ark.intel.com), and additional socket (est. $35), Intel Thermal Solution STS200P - processor heatsink ($34.99 per CDW), 12 FCI/Amphenol 10124677-0001001LF DIMM sockets ($5.18 each per mouser.com), 5 x VRs (est. $3 each), power supply (est. $51), and board, cooling and misc. components (est. $20), for a total system cost of $6,228. NAP-08

5. Based on estimated SPECint®_rate_base2006 scores. 2P Intel Xeon E5 scores other than E5-2699Av4 were derived by AMD from the following ICC compiler-based test results published at www.spec.org, multiplied by 0.575 to convert from the ICC compiler to the GCC-02 v6.1 compiler used for EPYC testing: E5-2698v4=1620, E5-2695v4=1440, E5-2680v4=1270, E5-2650v4=1000, E5-2640v4=865, E5-2630v4=814, and E5-2620v4=683. The following EPYC 2P scores are projections made by AMD labs (measured test data for these pre-production products is not currently available): EPYC 7301=845, EPYC 7281=760, and EPYC 7251=485. All other scores based on AMD internal testing. 2P E5-2699A v4 in Intel Server System R1208WT2GSR scored 943 on 6/5/2017, with Ubuntu 16.04, GCC-02 v6.3, 512 GB (16 x 32GB 2Rx4 PC4-2666 running at 2133), 1 x 500GB SSD. 2P EPYC 7601 in Supermicro AS-1123US-TR4 scored 1390, with Ubuntu 16.04, GCC-02 v6.3, 512 GB (16 x 32GB 2Rx4 PC4-2666 running at 2400), 1 x 500GB SSD. The following EPYC 2P scores tested using AMD’s “Ethanol” reference system with Ubuntu 16.04, GCC-02 v6.1, 512 GB (16x32GB 2Rx5 PC4-2667 running at 2400), 1 x 500GB SSD: EPYC 7551=1345, EPYC 7451=1218, EPYC 7401=1120, EPYC 7351=939.
Besonders die Umgerechneten Werte von AMD bzgl. Compiler sehe ich hier sehr kritisch - da wurden Intels ICC-Ergebnisse mit dem Faktor 0,575 auf GCC-Werte runter gerechnet - was soll das?

Also alle Performance-Werte mit Vorsicht genießen, die die nächsten Tage hier kursieren werden.

basix
2017-06-20, 22:28:22
Der 16C Bereich fängt ab 600$ an. Das verspricht gutes für Threadripper :D

fondness
2017-06-20, 22:32:03
http://www.anandtech.com/show/11551/amds-future-in-servers-new-7000-series-cpus-launched-and-epyc-analysis

Auch was über Radeon Instict:
https://www.computerbase.de/2017-06/radeon-instinct-mi25-specs/

Linmoum
2017-06-20, 22:46:47
AMD EPYC 7601 Dual Socket Early Power Consumption Observations
https://www.servethehome.com/amd-epyc-7601-dual-socket-early-power-consumption-observations/

Digidi
2017-06-20, 22:50:13
https://globenewswire.com/news-release/2017/06/20/1026480/0/en/AMD-EPYC-Datacenter-Processor-Launches-with-Record-Setting-Performance-Optimized-Platforms-and-Global-Server-Ecosystem-Support.html

Hier auch die Testmethoden um das ganze auch in Relation zu sehen:

Besonders die Umgerechneten Werte von AMD bzgl. Compiler sehe ich hier sehr kritisch - da wurden Intels ICC-Ergebnisse mit dem Faktor 0,575 auf GCC-Werte runter gerechnet - was soll das?

Also alle Performance-Werte mit Vorsicht genießen, die die nächsten Tage hier kursieren werden.

Frag Mal FormatC der hat etwas mit dem Compiler eingespielt bei Ryzen und da gibt es tatsächlich diesen eklatanten Nachteil für AMD wenn ein Intel Compiler benutzt wird.

Auch wenn es etwas OT ist:
Mit allen aktuellen Firmware-Updates und den verbesserten Treibern, kann Ryzen mittlerweile wirklich ganz gut punkten, wenn es nicht speziell auf Intel optimierte Kompilate sind. Das kann man mit etwas Verstand und Aufwand selbst gern nachvollziehen, indem man am Quellcode frickelt und die Komplieroptionen variiert. Ohne jetzt zu spoilern: mit Mesh wird Intel vor ähnlichen Herausforderungen stehen, da muss man kein Hellseher oder Leaker sei

Quelle Post 95:
http://extreme.pcgameshardware.de/news-kommentare-zu-cpus/479670-erstes-skylake-x-review-gesichtet-core-i9-7900x-erweist-sich-als-gut-zu-uebertakten-10.html#post8894491

basix
2017-06-20, 22:54:32
AMD EPYC 7601 Dual Socket Early Power Consumption Observations
https://www.servethehome.com/amd-epyc-7601-dual-socket-early-power-consumption-observations/

Aus dem Link:
With the level of power/ performance of the new systems, you can essentially replace four Intel Xeon E5-2600 (V1) servers with a single dual socket EPYC node and get more performance (in most cases) in a single node that uses half the power. That is absolutely stellar. The AMD EPYC platform is still seeing major updates to BIOS for power and performance which is why we are calling these preliminary results. At the same time, we are already seeing some impressive figures.

Complicated
2017-06-20, 22:57:46
Das Compiler-Problem ist ja wohl bekannt. Nur die Performancewerte aus der SPEC-Datenbank zum Vergleichen mit dem Faktor 0,575 zu reduzieren wegen einer Compiler-Angleichung halte ich für völlig falsch. Im Prinzip sind alle Intel-Werte mit +42,5% zu nehmen in den Folien. Da diese Werte real erzielt wurden und in der Datenbank gelistet sind. Intels CPUs haben ja kein Problem mit dem ICC.

Digidi
2017-06-20, 23:01:48
. Intels CPUs haben ja kein Problem mit dem ICC.
Der ICC kommt ja auch von Intel !? :|

Complicated
2017-06-20, 23:06:45
:| Ach?
Und warum taugen die Werte die Intel mit eigenem ICC-Compiler erzielt nicht?

Digidi
2017-06-20, 23:09:04
Ich glaube eher anders Rum war es gemeint, man muss AMD mit 42,5% erhöhen ;)

Complicated
2017-06-20, 23:10:04
AMDs Werte sind gemessen im Labor. Lies einfach erst einmal das durch was ich hier zitiert habe im Thread.

Setsul
2017-06-20, 23:10:14
Weil ICC das hier macht.
https://spec.org/cpu2006/results/res2015q4/cpu2006-20151214-38331.html

Automatische Parallelisierung wird erstens in >99% der Programme nicht möglich sein und zweitens von GCC einfach nicht unterstützt.
Das ist reine Augenwischerei für Benchmarks.

Digidi
2017-06-20, 23:13:28
Danke für die Info Setsul!

Gipsel
2017-06-20, 23:40:47
AMDs Werte sind gemessen im Labor. Lies einfach erst einmal das durch was ich hier zitiert habe im Thread.
Auf den bei der Präsentation gezeigten Folien waren irgendwie andere Zahlen drauf als in deinem Link zu sehen.

http://images.anandtech.com/doci/11562/1497993967408330751362.jpg

Das sind offenbar "unkorrigierte", also direkt mit dem ICC gemessene eines Broadwell-EX Systems mit 2x24Kernen (2,4GHz Base, 3,4GHz Boost, das absolute Topmodell für ~9k$ das Stück), wenn ich das richtig sehe. Und es ist auch der höchste Eintrag von allen 2S-Systemen in der Datenbank da.
Hmm.

Edit:
Link zum Eintrag in SPEC-Database (http://www.spec.org/cpu2006/results/res2017q1/cpu2006-20170221-46674.html) (das Base-Result war offenbar sogar nur 1860; der Score von 1930 ist mit ein paar Optimierungen), ICC17 und Microquill-Heap ist Alles dabei
Und hier Specfp-Rate (http://www.spec.org/cpu2006/results/res2017q1/cpu2006-20170221-46673.html) (ist ebenfalls das höchste 2S-System von intel in der Datenbank)

Complicated
2017-06-20, 23:58:38
In dem Link waren nur E5 Modelle keine E7. Die haben sich wohl auf diese Folie bezogen:
At every targeted price point for two-socket processors, EPYC outperforms the competition, with up to 70% more performance in the eight hundred dollar price band and up to 47% more performance at the high-end of the market of four thousand dollars or more5.
https://scr3.golem.de/screenshots/1706/Epyc_slides7001-AB/Epyc-15.jpg

Allerdings sind die E5-2699A Werte nicht auf diese Weise ausgerechnet worden.
2P Intel Xeon E5 scores other than E5-2699Av4 were derived

Gipsel
2017-06-21, 00:10:15
In dem Link waren nur E5 Modelle keine E7. Die haben sich wohl auf diese Folie bezogen:

https://scr3.golem.de/screenshots/1706/Epyc_slides7001-AB/Epyc-15.jpg

Allerdings sind die E5-2699A Werte nicht auf diese Weise ausgerechnet worden.Die obige Folie vergleicht nicht mit dem E5-2699A v4 mit 22 Kernen sondern dem E7-8894 v4, der den gleichen Takt auf 24 Kernen schafft und somit noch ein wenig schneller ist. Und für die Rekordwerte von Epyc im Vergleich da benutzt auch AMD offenbar einen anderen Compiler, nämlich den Open64 Compiler v4.5.2.1 ("SPEC-Benchmark-Compiler" liefern öfter mal in der Praxis irrelevante Ergebnisse, sie "knacken" bestimmte Subtests, die somit viel schneller abgearbeitet werden [mit weniger Aufwand] als eigentlich geplant).

Der Vergleich auf den Du Dich beziehst läuft auch bei AMD mit GCC (der in SPEC für intel eben nur ~57% der Performance liefert [am E-2699A v4 kalibriert], in der Praxis ist der Unterschied meist deutlich geringer). GCC ist für viele Anwendungen deutlich praxisnäher. Der Marktanteil des ICC ist nicht besonders groß. Und die gemessenen (nicht errechneten) SpecInt_rate-Werte mit GCC sind für 2S Epic 7601 eben 47% höher als für 2S E5-2699A v4. Mit dem ICC17 und dem schnelleren 2S E7-8894 v4 ist Epyc auch noch 22% schneller.

Digidi
2017-06-21, 00:16:49
Wenn man den E7 mit dem Epyc vergleicht und aus Skylake SP hochskaliert auf 28 Kerne und 20% IPC Gewinn wird das ein Pat von der Leistung her. AMD wird da aber effizienter sein?

Gipsel
2017-06-21, 00:20:34
Wenn man den E7 mit dem Epyc vergleicht und aus Skylake SP hochskaliert auf 28 Kerne und 20% IPC Gewinn wird das ein Pat von der Leistung her. AMD wird da aber effizienter sein?Bei "normalen" Compilern öfter mal schneller und nur die Hälfte kosten (der E7 ist eigentlich die 4S und 8S-Version). Sieht doch nicht so schlecht aus.
Aber mit Skylake-SP wird das ja neu geordnet und segmentiert (Xeon Bronze, Silver Gold, Platinum). Wer weiß, ob die 2S-Variante überhaupt die volle Kernanzahl bekommt (bei Broadwell hat sie es ja auch nicht). Und 20% Leistungszuwachs pro Takt oder mehr konnte zumindest der LCC-Die (i9-7900X) gegenüber dem i7-6950X eigentlich nirgendwo zeigen, wenn nicht AVX2/512 zum Einsatz kommt. Spec_fp sollte also wieder an intel fallen, je nachdem wie gut das da greift, Spec_int wird knapp, falls nicht die steigende Speicherbandbreite was rausreißt.

Digidi
2017-06-21, 00:25:26
Die Kosten sind bei so Servern nie das Problem. Problem ist hier eher der Watt Verbrauch. Die Server laufen 24/365 bei Vollast. Wenn man da 5% spart sind das schon einige Tausend Euro bei der Stromrechnung.

Das ist der Vorteil vom mehr Die Chip. Das Teil dürfte sehr effizient und sehr gut zu kühlen zu sein, dadurch steigt der Takt und sinkt der Verbrauch erheblich. Ich bin Mal gespannt wie effizient der 28 Kerner ist bei der one Die Lösung.

Complicated
2017-06-21, 00:29:26
Ist auf jeden Fall ein gutes Ausrufezeichen. AMD ist gut aufgestellt und die Partner sind breit verteilt und ebenfalls positiv gestimmt und in den Startlöchern.

Letzten habe ich eine Folie gesehen, dass ca. 30% der 2P Boards nur mit einer CPU ausgestattet werden wegen dem Bedarf an IO/RAM. Hier könnte AMD schnelle Wins für sich verbuchen.
https://www.nextplatform.com/2017/05/17/amd-disrupts-two-socket-server-status-quo/

At the moment, about 80 percent of the server units shipped, based on 2016 data from IDC, have two sockets, with 9 percent being represented by machines with four sockets or more and another 9 percent coming from single socket machines. There are not a lot of single-socket machines in enterprise and hyperscale datacenters because of the memory capacity and memory and I/O bandwidth limitations on the processors that are typically used there. Machines with two sockets have twice as much of all this stuff, even if you don’t need all of those cores. That is why AMD is targeting the mainstream Xeon E5 servers with its single-socket Epyc machines and the top-bin Xeon E5 machines and low-end Xeon E7 machines with its two-socket Epyc machines. And by doing so, it thinks it can disrupt the status quo in the datacenter.
https://3s81si1s5ygj3mzby34dq6qf-wpengine.netdna-ssl.com/wp-content/uploads/2017/05/amd-1s-and-2s-servers.jpg

Gipsel
2017-06-21, 00:30:29
Die Kosten sind bei so Servern nie das Problem. Problem ist hier eher der Watt Verbrauch. Die Server laufen 24/7/365 bei Vollast. Wenn man da 5% spart sind das schon einige Tausend Euro bei der Stromrechnung.Über 9000$ pro Blade/1U-Server Unterschied ($4200 vs $8998 pro CPU) ist schon nicht zu vernachlässigen :rolleyes:. Das ist schnell mal eine halbe Million pro Rack (bei dichten Bladeservern wäre es sogar mehr). Davon kann man eine Menge Strom kaufen.

Edit:
5% von maximal 200W pro CPU wären gesparte 10W. Bei 24/7 Betrieb sind das 87,6 kWh im Jahr. Bei einem Preis von 25cent pro kWh (hiesige Preise) mal verdoppelt für den Kühlaufwand (gängige Faustregel) ergeben gesparte 44€ im Jahr. Also nach guten 100 Jahren Betrieb hat man den Preisunterschied der CPUs wieder raus oder so. ;)

Digidi
2017-06-21, 00:34:52
Wie viel CPUs sind in so einem Durchschnittswert Server?

Complicated
2017-06-21, 00:38:25
marktbeobachter sagen ab 20% Unterschied bei der TCO (Total Cost of Ownership) springt im Serverbereich der Wechselwille an weil es sich dann lohnt. AMD reduziert das TCO um etwas über 30% mit Epyc.

Hier hab das Paper gefunden :)
Trias Research: https://www.amd.com/system/files/2017-05/TIRIAS-AMD-Single-Socket-Server.pdf
Figure 3
shows that the number of under $3,000 2S servers shipping with only one socket populated permanently jumped about 20% (from 25% share to over 30% share of the price band) during the Haswell ramp. In addition, the number of $3,000 - $6,000 2S servers shipping with only one socket populated jumped about 25% as well (from 27% to about 35% share of that price band).

Gipsel
2017-06-21, 00:42:11
Wie viel CPUs sind in so einem Durchschnittswert Server?Das multipliziert aber auch den Preisunterschied pro CPU. Ich habe doch schon geschrieben, daß das in einem vollen Rack durchaus eine halbe Million Dollar oder gar mehr nur für die CPUs ausmachen kann. Das bekommst Du über 5% gesparten Strom in der Lebenszeit des Servers nie und nimmer wieder rein.

Digidi
2017-06-21, 00:44:25
Ja da hast du Recht.

Gipsel
2017-06-21, 00:50:16
Ja da hast du Recht.Aber kaum ein Mensch kauft auch das E7-Topmodell für ein 2S-System. Lohnt sich schlicht nicht. Auf die paar Prozent Performance kann man dann schon verzichten, wenn man so viel Geld sparen kann. Damit hat AMD nur verglichen, weil es nominell das schnellste 2S-System ist.
Man wird sehen müssen, wie intel sich mit Skylake-XP dagegen aufstellt.

Digidi
2017-06-21, 00:56:58
Aber kaum ein Mensch kauft auch das E7-Topmodell für ein 2S-System. Lohnt sich schlicht nicht. Auf die paar Prozent Performance kann man dann schon verzichten, wenn man so viel Geld sparen kann. Damit hat AMD nur verglichen, weil es nominell das schnellste 2S-System ist.
Man wird sehen müssen, wie intel sich mit Skylake-XP dagegen aufstellt.

Bleibt also nur der Vorteil das AMD seine Chips wahrscheinlich wegen der besseren Ausbeute billiger produzieren kann und somit immer etwas günstiger ist als Intel
( Und man mit Umweltfreundlich werben kann ;) )

Man spart ja auch die ganzen unterschiedlichen Masken in der Produktion bei Epyc. Das dürfte auch gut beim sparen helfen.

Linmoum
2017-06-21, 01:07:05
With our next-generation Xeon Scalable processors, we expect to continue offering the highest core and system performance versus AMD. AMD’s approach of stitching together 4 desktop die in a processor is expected to lead to inconsistent performance and other deployment complexities in the data center.
http://www.barrons.com/articles/amd-reveals-epyc-details-intel-vows-to-top-it-1497997334

Na mal schauen, ob Intel das in Zukunft immer noch so locker sehen wird bzw. weiterhin überhaupt nichts davon hält. Aber gut, ist ja deren Sache.

CompuJoe
2017-06-21, 01:07:30
Eigentlich schon eine geniale Sache mit einem Die alles (abgesehen der APUs) abzudecken, wenn die Fertigung echt so günstig ist dürfte das AMD gut Geld in die Kasse spülen.

Die Art der Fertigung wie sie AMD aktuell vormacht dürfte die Zukunft sein!
Da muss Intel erstmal was gegenstellen.

Btw. Ryzenbasierende Rechner gehen bei uns gerade weg wie warme Semmeln.

Digidi
2017-06-21, 01:27:47
Eigentlich schon eine geniale Sache mit einem Die alles (abgesehen der APUs) abzudecken, wenn die Fertigung echt so günstig ist dürfte das AMD gut Geld in die Kasse spülen.

Die Art der Fertigung wie sie AMD aktuell vormacht dürfte die Zukunft sein!
Da muss Intel erstmal was gegenstellen.

Btw. Ryzenbasierende Rechner gehen bei uns gerade weg wie warme Semmeln.

Eine APU auf Interposerbaasis wäre auch Mal ein Ansatz. Warum kommt eigentlich kein Notebook Chip auf Xbox Scorpio basis?

Screemer
2017-06-21, 01:32:43
Warum soll man müllige 8 jaguar Kerne denn bitte noch unters Volk bringen wollen. 4 zen Kerne + HT und vega-ip kommen ja mit ravenridge zum Ende des Jahres.

Digidi
2017-06-21, 01:34:17
Warum soll man müllige 8 jaguar Kerne denn bitte noch unters Volk bringen wollen. 4 zen Kerne + HT und vega-ip kommen ja mit ravenridge zum Ende des Jahres.
Natürlich angepasst auf neuste Technik.:P sag ja nur auf Basis der Grundzüge.

Viele Shadern und brauchbare Kerne Anzahl.

iuno
2017-06-21, 02:45:44
Kommt ja alles noch, nur halt nicht alles gleichzeitig.

Jetzt weiss man wenigstens auch mal wie die IFs genau verbunden sind und wieso Zeppelin 3 Links hat: pro Package vollvernetzt und bei 2P jeweils noch ein Die mit einem entfernten.

Gipsel
2017-06-21, 02:54:31
Jetzt weiss man wenigstens auch mal wie die IFs genau verbunden sind und wieso Zeppelin 3 Links hat: pro Package vollvernetzt und bei 2P jeweils noch ein Die mit einem entfernten.Von den on-Package GMI-Links hat Zeppelin sogar vier. Die xGMI-Links zwischen den Sockeln sind physisch getrennt und nutzen die General-Purpose-SerDes-PHYs, die auch für PCIe und SATA benutzt werden. Im xGMI-Modus laufen sie offenbar mit 9,6GT/s (wie QPI bei intel?, die PHYs geben laut Specs angeblich sogar bis 12,5 GT/s her), also etwas schneller als mit PCIe. Die GMI-Links laufen mit nur 5,3 GT/s, sind aber doppelt so breit (arbeiten single ended [also nicht differentiell] und sind kleiner).

Windi
2017-06-21, 07:08:24
Ich hätte nur nicht gedacht, das man immer 4 DIEs nimmt. Da hat man dann bei einem 8 Kerner nur noch einen Kern pro CCX. Hat das denn im Serverumfeld keine Nachteile wegen den Latenzen usw.?

tm0975
2017-06-21, 07:12:17
man hat ja theoretisch auch vorteile, z.b. die ressourcen pro kern (cache, anzahl lanes, ...) wenn man viel io nach draußen hat bei mäßiger rechenleistung, wäre das bestimmt völlig ausreichend.

vinacis_vivids
2017-06-21, 07:44:10
Ich hätte nur nicht gedacht, das man immer 4 DIEs nimmt. Da hat man dann bei einem 8 Kerner nur noch einen Kern pro CCX. Hat das denn im Serverumfeld keine Nachteile wegen den Latenzen usw.?

L3 Cache, Mem Interface, PCIe Lanes, alles wird dadurch gehalten und nicht kastriert.

Die Latenz zwischen den CCX ist kein unproblematisch.

Korvaun
2017-06-21, 07:49:33
Das es sogar langsam getaktete 8-Kern-Varianten von Epyc gibt, die dann ja auch 4 Dies haben hat große Vorteile für AMD. So gut wie jedes Die was vom Band kommt sollte bei gut eingespieltem Prozeß verwendbar sein für irgend einen Prozzi, sei es Consumer oder Pro... wird die Stückkosten doch ordentlich senken. Gut für AMD!

Das 16-Kerner für weit unter 1000$ zu haben sind zeigt mMn wohin die Reise mit Threadripper geht. Möglicherweise kostet das Topmodell an/knapp über 1k$, alle kleineren Modelle sollten aber weit günstiger sein. Ich rechne bei den kleineren Modellen mit Board+CPU <1000€. Bin gespannt :smile:

YfOrU
2017-06-21, 07:56:02
Etwas schade ist das die Plattform wohl noch nicht ganz marktreif ist. Die Ankündigungen waren mit H2/2017 (Live Blog, Anandtech) recht unpräzise. vSphere kommt "bald" und selbst Supermicro welche grundsätzlich immer zu den schnellsten gehören ist noch nicht so richtig bench ready (siehe servethehome).

Dürfte damit eher so Richtung Ende Q3/Anfang Q4 wirklich mit Volumen losgehen.

Niall
2017-06-21, 07:57:24
Jeder der gerade darüber nachdenkt sich den aktuellen Skylake-X zuzulegen (Nein, nicht zum spielen) sollte sich echt noch etwas geduldet, vielleicht bekommt er/sie in kurzer Zeit mit TR 6 Cores/12 Threads mehr fürs Geld. Unproblematischer ist die Intel Plattform derzeit ja auch nicht. :freak:

Ich mag aufgeräumte Produktportfolios, vielleicht rüttelt es Intel nach den Launches dann ja endlich mal wieder "so richtig". :D

Loeschzwerg
2017-06-21, 08:08:36
Ich mag aufgeräumte Produktportfolios,

Absolut, das Xeon v5 Lineup (SKL-SP) ist krass unübersichtlich :(

---

Interessant finde ich die Option bei Bedarf die TDP Grenze anheben bzw. absenken zu können.

FlashBFE
2017-06-21, 09:19:09
Hier der Vollständigkeit halber noch mal eine aktuellere Preisliste:
Edit: Siehe Gipsel

Was ich auch interessant finde ist, dass die TDP nicht nur nach unten konfigurierbar ist, sondern auch nach oben, wenn man mehr Leistung und weniger Effizienz braucht. Von 180W kann man so auch auf 200W hochgehen.

Gipsel
2017-06-21, 09:28:38
Schicker:
Modell|Kerne|Frequenz|Preisbereich|Intel-Konkurrent
Epyc 7601| 32| 2,2 bis 3,2 GHz| Ab 4.000$| Xeon E5-2699A v4
Epyc 7551| 32| 2,0 bis 3,0 GHz| 3.400$| Xeon E5-2698 v4
Epyc 7501| 32| 2,0 bis 3,0 GHz| n.v.| n.v.
Epyc 7451| 24| 2,3 bis 3,2 GHz| Ab 2.400$| Xeon E5-2695 v4
Epyc 7401| 24| 2,0 bis 3,0 GHz| 1.850$| Xeon E5-2680 v4
Epyc 7351| 16| 2,4 bis 2,9 GHz| Ab 1.100$| Xeon E5-2650 v4
Epyc 7301| 16| 2,2 bis 2,7 GHz| Ab 800$| Xeon E5-2640 v4
Epyc 7281| 16| 2,1 bis 2,7 GHz| 650$| Xeon E5-2630 v4
Epyc 7251| 8| 2,1 bis 2,9 GHz| 475$| Xeon E52620 v4
Epyc 7551P| 32| 2,0 bis 3,0 GHz| Ab 2.100$| 2x Xeon E5-2650 v4
Epyc 7401P| 24| 2,0 bis 3,0 GHz| 1.070$| 2x Xeon E5-2630 v4
Epyc 7351P| 16| 2,4 bis 2,9 GHz| 750$| 2x Xeon E5-2620 v4

y33H@
2017-06-21, 09:39:32
Absolut, das Xeon v5 Lineup (SKL-SP) ist krass unübersichtlich :(Ich freue mich schon auf die SKU-Matrix mit allen Modellen und allen Taktraten (AVX, AVX2, AVX512, Basis, Boost) ;D

Isen
2017-06-21, 09:44:11
Pha! Du hast dich nicht zu freuen :comfort:

Skysnake
2017-06-21, 09:52:44
Ich freue mich schon auf die SKU-Matrix mit allen Modellen und allen Taktraten (AVX, AVX2, AVX512, Basis, Boost) ;D
Endlich ein Grund für Ultrawide Monitore im Büro ;D

d2kx
2017-06-21, 10:48:13
Ich freue mich schon auf die SKU-Matrix mit allen Modellen und allen Taktraten (AVX, AVX2, AVX512, Basis, Boost) ;D

Die Verwirrungen des Zöglings Intel, erster Akt.

http://i.imgur.com/QverYbk.jpg

Birdman
2017-06-21, 11:05:21
Die Latenz zwischen den CCX ist kein unproblematisch.
Ich sehe das genau umgekehrt - die CCX Interconnect Latenz ist das grösste "Problem" am Zen Design, bzw. kann es zumindest je nach Anwendung sein.

Wir werden daher vorerst sehr zurückhaltend sein, was den Einsatz von Epyc's in Virtualisierungsplattformen angeht.
Weil hier muss der Scheduler genau wissen was er tut, denn absonsten kann die Performance von VMs deutlich! leiden.

Eldoran
2017-06-21, 11:13:15
Ich habe bei CB in den Folien verteilt diverse Preisangaben gefunden, damit sind noch ein paar weitere Listenpreise quasi fix. Am wackligsten ist der Preis vom 7501 - da ist nicht ganz klar ob der 3400$ für den 7501 und/oder 7551 (Unterschied scheint nur TDP zu sein) gilt. Damit wäre die Liste:
Modell|Kerne|Frequenz|Preis AMD|Intel-Konkurrent
Epyc 7601| 32| 2,2 bis 3,2 GHz| 4.200$| Xeon E5-2699A v4
Epyc 7551| 32| 2,0 bis 3,0 GHz| Ab 3.400$| Xeon E5-2698 v4
Epyc 7501| 32| 2,0 bis 3,0 GHz| 3.400$| n.v.
Epyc 7451| 24| 2,3 bis 3,2 GHz| Ab 2.400$| Xeon E5-2695 v4
Epyc 7401| 24| 2,0 bis 3,0 GHz| 1.850$| Xeon E5-2680 v4
Epyc 7351| 16| 2,4 bis 2,9 GHz| Ab 1.100$| Xeon E5-2650 v4
Epyc 7301| 16| 2,2 bis 2,7 GHz| 825$| Xeon E5-2640 v4
Epyc 7281| 16| 2,1 bis 2,7 GHz| 650$| Xeon E5-2630 v4
Epyc 7251| 8| 2,1 bis 2,9 GHz| 475$| Xeon E52620 v4
Epyc 7551P| 32| 2,0 bis 3,0 GHz| 2.100$| 2x Xeon E5-2650 v4
Epyc 7401P| 24| 2,0 bis 3,0 GHz| 1.070$| 2x Xeon E5-2630 v4
Epyc 7351P| 16| 2,4 bis 2,9 GHz| 750$| 2x Xeon E5-2620 v4

Complicated
2017-06-21, 11:32:12
Ich sehe das genau umgekehrt - die CCX Interconnect Latenz ist das grösste "Problem" am Zen Design, bzw. kann es zumindest je nach Anwendung sein.

Wir werden daher vorerst sehr zurückhaltend sein, was den Einsatz von Epyc's in Virtualisierungsplattformen angeht.
Weil hier muss der Scheduler genau wissen was er tut, denn absonsten kann die Performance von VMs deutlich! leiden.
Irgendwie klingt das nicht sonderlich sinnvoll für mich. Ich kenne jetzt nicht eure typischen Szenarien, doch gerade beim virtualisieren sollte die IF am wenigsten ins Gewicht fallen. Auf dem 32 Core 4 VMs kann man schon auf jeweils 1 Die fest tackern. Bei 8 läuft jede VM auf ihrem eigenen 4-Core CCX. Und die Latenz der Interconnects ist deutlich geringer als das in bisherigen 2-Socket Systemen der Fall war. Was habt ihr denn derzeit an Servern?

fondness
2017-06-21, 11:55:36
Gibt schon einige Kunden:
https://www.computerbase.de/2017-06/amd-epyc-server/

LadyWhirlwind
2017-06-21, 11:57:31
Irgendwie klingt das nicht sonderlich sinnvoll für mich. Ich kenne jetzt nicht eure typischen Szenarien, doch gerade beim virtualisieren sollte die IF am wenigsten ins Gewicht fallen. Auf dem 32 Core 4 VMs kann man schon auf jeweils 1 Die fest tackern. Bei 8 läuft jede VM auf ihrem eigenen 4-Core CCX. Und die Latenz der Interconnects ist deutlich geringer als das in bisherigen 2-Socket Systemen der Fall war. Was habt ihr denn derzeit an Servern?


Wobei auch hier der Hypervisor einer VM mit zwei Kernen keine zwei Kerne auf verschiedenen Dies zuweisen sollte.
Korrekt müsste es so ablaufen:
Kerne auf gleichem CCX
Kerne auf gleichem Die
(Kerne auf benachbartem/direktverbunden Die)
etc.

Wobei Serversoftware in dem Bereich in der Regel für NUMA ausgelegt ist. Das dürfte das Problem auch wieder mindern. Und IF dürfte deutlich schneller sein, als eine 2. CPU.

Birdman
2017-06-21, 12:18:13
Irgendwie klingt das nicht sonderlich sinnvoll für mich. Ich kenne jetzt nicht eure typischen Szenarien, doch gerade beim virtualisieren sollte die IF am wenigsten ins Gewicht fallen. Auf dem 32 Core 4 VMs kann man schon auf jeweils 1 Die fest tackern. Bei 8 läuft jede VM auf ihrem eigenen 4-Core CCX. Und die Latenz der Interconnects ist deutlich geringer als das in bisherigen 2-Socket Systemen der Fall war. Was habt ihr denn derzeit an Servern?
Hier drehen halt tausende VMs mit 1, 2, 3, 4, X virtuellen CPUs, je nach Plattform und Zeitpunkt der Erstellung entweder als "physische" Sockets oder Socket/Core Konfiguration.

Nein, manuell in der Config will man da nichts fest tackern, zumal dies eh nur bei statisch auf einen spezifischen Host zugewiesenen VMs eine sinnvolle Option ist.

Wir haben hauptsächlich Dual-Socket Xeon-E5 /(v1-v4) Systeme, aber auch noch einige Single-Socket Xeon-E5 sowie ein paar Quad-Socket Opterons. (die sind leider aber lizenztechnisch sehr, ähm, suboptimal)

Bei den Xeons sind heutzutage eigentlich alle Hypervisors so weit dass die virtuellen Cores gescheit auf die physischen CPUs/Cores verteilt werden.
Aber bei Ryzen/Epyc? No way und es wird je nach Plattform noch viel Zeit ins Land gehen bis das was wird.

Skylake-X wird da weniger das Problem - da ist die Interconnect-Latenz zu allen Cores gleich beschissen, daher spielt es keine Rolle was der Scheduler macht.

fondness
2017-06-21, 12:26:27
Skylake-X wird da weniger das Problem - da ist die Interconnect-Latenz zu allen Cores gleich beschissen, daher spielt es keine Rolle was der Scheduler macht.

Das ist aber nicht unbedingt ein Vorteil^^

Complicated
2017-06-21, 12:34:41
Bei den Xeons sind heutzutage eigentlich alle Hypervisors so weit dass die virtuellen Cores gescheit auf die physischen CPUs/Cores verteilt werden.
Aber bei Ryzen/Epyc? No way und es wird je nach Plattform noch viel Zeit ins Land gehen bis das was wird.

Ich sehe nicht wo das einen Hypervisor vor größere Probleme stellen soll.
Die rules von LadyWhirlwind sind für jeden Hypervisor problemlos automatisierbar beim dynamischen erstellen von VMs:
Korrekt müsste es so ablaufen:
Kerne auf gleichem CCX
Kerne auf gleichem Die
(Kerne auf benachbartem/direktverbunden Die)
Vor allem haben VMs wirklich andere Probleme in großen Umgebungen. Da laufen bis zu 8 logische Cores auf einem einzigen physikalischen Kern. Dafür gibt es aber separate Management-Tools, die das handhaben. Ich sehe da nun wirklich die wenigsten Probleme in der CCX-Kommunikation auf einem Die.

The_Invisible
2017-06-21, 12:46:25
Hier drehen halt tausende VMs mit 1, 2, 3, 4, X virtuellen CPUs, je nach Plattform und Zeitpunkt der Erstellung entweder als "physische" Sockets oder Socket/Core Konfiguration.

Nein, manuell in der Config will man da nichts fest tackern, zumal dies eh nur bei statisch auf einen spezifischen Host zugewiesenen VMs eine sinnvolle Option ist.

Wir haben hauptsächlich Dual-Socket Xeon-E5 /(v1-v4) Systeme, aber auch noch einige Single-Socket Xeon-E5 sowie ein paar Quad-Socket Opterons. (die sind leider aber lizenztechnisch sehr, ähm, suboptimal)

Bei den Xeons sind heutzutage eigentlich alle Hypervisors so weit dass die virtuellen Cores gescheit auf die physischen CPUs/Cores verteilt werden.
Aber bei Ryzen/Epyc? No way und es wird je nach Plattform noch viel Zeit ins Land gehen bis das was wird.

Skylake-X wird da weniger das Problem - da ist die Interconnect-Latenz zu allen Cores gleich beschissen, daher spielt es keine Rolle was der Scheduler macht.

Stelle ich mir auch spannend vor, die Ryzen CCX werden aber nicht als einzelne NUMA-Nodes angeführt oder? Bei einem größeren Cluster darf man dann also hoffen das der Hypervisor gut auf NUMAs und CCX aufteilt, wird sicher noch ein Spaß. ;)

LadyWhirlwind
2017-06-21, 12:59:36
Windows Server und auch VMWare wurde gestern ja als Partner vorgestellt und haben auch bereits die Unterstützung für EPIC angekündigt.

grauenvoll
2017-06-21, 15:47:32
Hyper-V funktioniert auf einem Ryzen ohne irgendwelche Probleme. Arbeite seit 2 Monaten täglich damit.

Intels Umsatz im Datacentersektor liegt bei 18Mrd USD und liegt damit weit über dem Volumen von nVidias Tesla Produkten. AMD adressiert mit Epyc einen Markt der um ein vielfaches größer ist. Für AMD ein enorm wichtiges Produkt.

Complicated
2017-06-21, 15:54:07
Analysten sagen AMD wird Ende 2018 ca. 7% Marktanteil dieser 18 Mrd. haben. Wären 1,2 Mrd. zusätzlicher Umsatz bei diesen vorsichtigen Schätzungen. Lisa Su will "zweistellige" Marktanteile in "einigen Jahren" erzielen.

P@trick
2017-06-21, 15:55:26
Auf der Seite [Hard]OCP sind auch noch ein paar Slides(sofern noch nicht bekannt).

Birdman
2017-06-21, 20:02:57
Hyper-V funktioniert auf einem Ryzen ohne irgendwelche Probleme. Arbeite seit 2 Monaten täglich damit.
Zwischen funktionieren und optimal arbeiten gibts einen grossen Unterschied.
Ryzen "funktioniert" ja auch in Project Cars....
https://dexter.birdman.ch/screens/misc/ryzenpcars.png


Unter VMWare sieht es mit Ryzen noch nicht so gut aus. Massenhafte Berichte von PSODs wenn HT aktiv ist, zudem ist weder eine aktuelle Ryzen CPU noch eine Plattform dafür von VMWare zertifiziert. (und ohne will man dies für nicht mehr als private spielereien einsetzen)

Ich habe zudem mehr "Angst" vor dem Einsatz unter KVM und/oder Zen. Also bei uns nun KVM, das auf einer Linux/Centos Plattform läuft, welche vom Hersteller zur sehr stiefmütterlich behandelt wird, was jeweils die Version vom OS angeht. (das basiert selbst in der aktuellsten Version von Anfang Mai 2017 noch auf einem 2.6er Kernel)

G3cko
2017-06-21, 20:19:37
Und der i7 6900k erst. Mensch ist der grottig. Nur 3fps mehr. Was ist denn das für ein sinnloser Vergleich...
Das Ding wird unterstützt von VMware und Microsft und ist offiziell supportet. Fertig. Und man testet da auch nicht 3 Tage vor Release.

Complicated
2017-06-21, 20:40:04
Ich weiss wirklich nicht was ich dazu schreiben soll. In einem Serverthread wo es um einen 32-Core Prozessor und Virtualisierung geht, plötzlich eine Benchmark-Grafik von Project Cars auf einem 8-Core Ryzen zu sehen ist das letzte was ich erwarten würde. Das fadenscheinige Argument warum man das hier verlinkt ist auch noch nicht so richtig verdaut.

Die Amis haben da einen wunderschönen Ausdruck der hier tatsächlich passt:
"Still trying to wrap my brain around this!"

Gorkon
2017-06-21, 21:11:21
Ungeachtet dessen, sollte man aber auch einfach mal Entscheidungen akzeptieren. Man steckt ja nun auch nicht wirklich im Arbeitgeber des anderen drinne ;)

Ich persönlich könnte auch im privaten Umfeld öfters Kopfmäßig mit der Tischplatte schmusen, wenn ich mitbekomme wie völlig egal einem Ex-Arbeitgeber (IT-Handel! + Außendienst) die Marktsituation ist. Da gibts nur I**** und fertig, AMD ist was für langhaarige Bombenleger und sonstige Zonsel :ulol:

Aber seis drum...es gibt auch genug Firmen die a) noch ihre erste IT-Infrastruktur kaufen müssen und b) jahrelang nicht den Aufrüstwahn mitgemacht haben und auch mal was neues brauchen. AMD bekommt schon ein Stück vom Kuchen ab, keine Sorge...

mfg

grauenvoll
2017-06-22, 11:36:22
Zwischen funktionieren und optimal arbeiten gibts einen grossen Unterschied.


Ryzen arbeitet unter Hyper-V(Windwos 10 Enterprise) perfekt. Punkt. Ohne wenn und aber.
Die Performance mit 8 Kernen und m2 SSD ist fantastisch, das System ultrastabil.


Unter VMWare sieht es mit Ryzen noch nicht so gut aus. Massenhafte Berichte von PSODs wenn HT aktiv ist, zudem ist weder eine aktuelle Ryzen CPU noch eine Plattform dafür von VMWare zertifiziert. (und ohne will man dies für nicht mehr als private spielereien einsetzen)


Es ist auch ein etwas ungewöhnliches Szenario, dass auf einem Desktopsystem ein Hypervisor wie VMWare läuft.
Man darf aber ruhig davon ausgehen, dass mit dem erscheinen von Epyc VMWare über Patches Kompatibilität herstellen wird. Sie würden sonst Marktanteile verlieren.

Windi
2017-06-22, 12:10:07
@grauenvoll

Es ging nicht darum, ob es funktioniert oder kompatibel ist, sondern darum wie stark sich die Latenzen zwischen den einzelnen CCXs auswirken.
Latenzen gibt es ja auf jeden Fall, sei es nun auf dem selben Silizium oder wenn man über mehrere DIEs kommunizieren muss.
Es wird auf jeden Fall interessant, wenn man mal einen Epic 8c und einen Ryzen 8c gegenüber stellt und sich das Verhalten bei unterschiedlicher Software genau anschaut. Wobei Server Software da schon weiter sein sollte.

Ähnliche Probleme gibt es aber in Zukunft wohl mit allen Prozessoren, die viele Kerne haben. Umso mehr Kerne man hat, umso komplexer wird auch das Kommunikationsnetzwerk, was zu höheren Latenzen führt.

Birdman
2017-06-22, 12:28:19
Ryzen arbeitet unter Hyper-V(Windwos 10 Enterprise) perfekt. Punkt. Ohne wenn und aber.
Die Performance mit 8 Kernen und m2 SSD ist fantastisch, das System ultrastabil.
Ok, perfekt sagt Du, aber wie oder gegen was hast Du das verglichen?

Mit dem Erscheinen von Epyc werden wir dann evtl. auch einige seriöse Virtualisierungs-Benchmarks sehen und können dann anhand von Fakten weiterdiskutieren.
Ich bleibe weiterhin skeptisch, was die Performance unter VM Workloads angeht - wobei das natürlich stark davon abhängt, was für VMs man laufen lässt.
Bei vielen "kleinen" VMs mit nur einer vCPU wird Ryzen sicher abgehen wie Schmitt's Katze, doch wie sieht es aus wenn man mehrere 2-16 vCore VMs auf einem Ryzen laufen lässt?

Performt es in einem Bereich wie man den Ryzen von Applikatation/Encoding Benchmarks kennt? (also hui)
Oder eher so wie es aktuell bei Games aussieht? (eher pfui)
Das ist durchaus entscheidend, wenn man sich ansieht wie ein Ryzen in diesen Kathegorien im Vergleich zu einer aktuellen Intel CPU dasteht.

grauenvoll
2017-06-22, 12:30:03
@grauenvoll

Es ging nicht darum, ob es funktioniert oder kompatibel ist, sondern darum wie stark sich die Latenzen zwischen den einzelnen CCXs auswirken.


Ich will dir ja nicht zu nahe treten, aber Server ist IO!!!
Und da ist Epic üppig ausgelegt. Die Latenzen zwischen CCX werden die wenigsten interessieren. Es gibt da kein nenneswertes Problem. Alle bisher veröffentlichen Benchmarks sind sehr positiv. Das große Interesse der Kunden wäre nicht vorhanden, wenn man da große Schwächen hätte. Dort hat es mit Sicherheit schon zahlreiche Tests gegeben. Du konstruierst dort ein Problem, welches nicht existiert.

Eldoran
2017-06-22, 12:38:28
Eine ganz andere Frage, ist irgendwo Details zu den RAM crypto Funktionen bekannt? Irgendwie ist das etwas widersprüchlich/oberflächlich in den Berichten.
Soweit schaut das ganze ja relativ "normal" zu den klassischen TPM zu sein. Nur wo genau sitzt die Hardware?
Einerseits wird teilweise von separate chip am Package geschwafelt, der Die Shot (https://techreport.com/r.x/2017_06_20_AMD_s_Epyc_7000_series_CPUs_revealed/secureprocessor.png) schaut auch nicht nach Zeppelin aus - könnte Kabini sein.
Mir kommt vor, irgendwo habe ich auch schon einen Slide gesehen, bei dem das logisch am Speicherinterface dran hängt.

Andere Frage wäre auch, ob ein Teil von diesen Server Features auch auf Threadripper nutzbar wäre?

Screemer
2017-06-22, 12:38:31
Oder eher so wie es aktuell bei Games aussieht? (eher pfui)

allein das zeigt ja schon mal deine absolute voreingenommenheit gegenüber ryzen. bei aktuellen games die nicht kompletter crab sind wie eben project cars, dass schon seit jahren seinen crab status weiter pflegt, performt ryzen clock per clock nicht schlechter als ein intel.

das epyc nicht ryzen ist unterschläst du halt einfach mal völlig.

mboeller
2017-06-22, 12:41:09
Ich will dir ja nicht zu nahe treten, aber Server ist IO!!!
Und da ist Epic üppig ausgelegt. Die Latenzen zwischen CCX werden die wenigsten interessieren. Es gibt da kein nenneswertes Problem. Alle bisher veröffentlichen Benchmarks sind sehr positiv. Das große Interesse der Kunden wäre nicht vorhanden, wenn man da große Schwächen hätte. Dort hat es mit Sicherheit schon zahlreiche Tests gegeben. Du konstruierst dort ein Problem, welches nicht existiert.

IMHO:

Ich glaube die "vergessen" alle, das AMD schon vor Monaten viele Samples zur Validierung raus geschickt hat. Die Performance von EPYC ist bei den Kunden schon lange bekannt. Zumindest die großen Firmen wissen genau auf was sie sich einlassen.

Bei Server-SoC's ist es nicht so wie bei Consumer-CPUs das der Kunde erst nach der Vorstellung zum ersten Mal die CPU in der Hand hält und dann mühsam herausfinden muss was geht oder auch nicht.

Complicated
2017-06-22, 12:41:41
CCX Kommunikation ist schneller als die Kommunikation zwischen Intels Ringbusen in den großen Server Chips. Daher ist das aufbringen dieser "Problematik" reines FUD.

Und erneut wird Spieleleistung in diesem Kontext erwähnt. Ich muss mich fragen ob Birdmann überhaupt mit den virtuellen Maschinen direkt was zu tun hat oder nur in einem Unternehnen als Anwender sitzt das damit zu tun hat. Jeder Admin würde solche Fragen nicht in den Raum stellen.

Eldoran
2017-06-22, 12:43:53
Ist eigentlich anzunehmen, dass es Unterschiede bei den SATA/USB/Network Ports zu den PCIe Kombiports gibt - also ob sich in der Funktion diese Controller unterscheiden?

grauenvoll
2017-06-22, 13:14:46
Ok, perfekt sagt Du, aber wie oder gegen was hast Du das verglichen?
... Bei vielen "kleinen" VMs mit nur einer vCPU wird Ryzen sicher abgehen wie Schmitt's Katze, doch wie sieht es aus wenn man mehrere 2-16 vCore VMs auf einem Ryzen laufen lässt?


Es handelt sich um ein Entwicklungssystem (Ryzen 1700, 64 GBRAM, 1TB Samsung 960 PRO). Auf der Maschine läuft eine Datenbank VM(2 Cores, 24GB RAM, 440GB Diskspace), ein ApplikationsserverVM(2Cores, 12GB RAM, 80GB Disk). Dazu Entwicklungswerkzeuge. Soviel zum Thema kleine VMs. Der Performancevergleich findet zum Produktivsystem statt(Hypervisor 2x Xeon E5-2660v3 + Storage 2x Xeon 2640v3). Ryzen lässt das Produktivsystem ziemlich alt aussehen, die Antwortzeiten der Requests liegt auf dem Produktivsystem um fast 100% höher.

Was ich aber eigentlich noch beeindruckender fand, war die Konvertierung der VMs aus dem Produktivsystem. Hyper-V verlangt normalerweise die gleiche CPU-Architektur zwischen Produktiv und Entwicklungssystem. Andernfalls kann es passieren, das die VMs nicht booten. Bei dem Wechsel von Xeon zu Ryzen kam auch eine entsprechende Warnung, aber das OS bootete 2x durch und danach lief es. AMD war schon immer sehr stark, wenn es darum geht, ein altes System auf neue Hardware zu übernehmen. Intel ist da wesentlich zickiger.

Von Ryzen sind wir mehr als begeistert!

Gipsel
2017-06-22, 14:23:35
Eine ganz andere Frage, ist irgendwo Details zu den RAM crypto Funktionen bekannt? Irgendwie ist das etwas widersprüchlich/oberflächlich in den Berichten.
Soweit schaut das ganze ja relativ "normal" zu den klassischen TPM zu sein.Das "klassische" TPM gibt es auch.
Nur wo genau sitzt die Hardware?
Einerseits wird teilweise von separate chip am Package geschwafelt, der Die Shot (https://techreport.com/r.x/2017_06_20_AMD_s_Epyc_7000_series_CPUs_revealed/secureprocessor.png) schaut auch nicht nach Zeppelin aus - könnte Kabini sein.Das ist Kabini, der hatte das als erste CPU/APU von AMD integriert. Im Prinzip sitzt dort ein kleiner ARM-Kern (ein A5 oder sowas), auf dem abgeschottet ein spezielles Betriebssystem läuft. AMD hat dafür Trustzone von ARM lizensiert.
Mir kommt vor, irgendwo habe ich auch schon einen Slide gesehen, bei dem das logisch am Speicherinterface dran hängt.Das ist nochmal ein anderes Feature. Epyc/Zeppelin unterstützt die Komplettverschlüsselung des RAM per AES128. Dafür gibt es im Speichercontroller eine Krypto-Engine, die das on-the-fly beim Schreiben und Lesen des RAMs ver- bzw. entschlüsselt (mit kleinen Performanceeinbußen; vermutlich steigt die Latenz ein wenig, Durchsatz wird praktisch identisch sein weil die Engine den vollen Durchsatz handhaben kann). Dadurch kann man selbst mit physischem Zugriff auf die Speichermodule keine Informationen daraus abgreifen. Außerdem können verschiedene VMs auf der gleichen CPU jeweils eigene (unterschiedliche) Schlüssel benutzen, was die Isolierung verbessert (das Abgreifen von Informationen aus einer anderen VM auf der gleichen Maschine wird nochmals erschwert).
Die Schlüsselverwaltung dürfte dann ebenfalls über den erwähnten integrierten ARM-Core laufen, die eigentliche Verschlüsselung natürlich nicht (wäre viel zu langsam). Dafür gibt es dann die fixed-function-Logik im Speichercontroller.
Andere Frage wäre auch, ob ein Teil von diesen Server Features auch auf Threadripper nutzbar wäre?Theoretisch ja (genau wie auf Ryzen, basiert ja Alles auf dem gleichen Die). Allerdings wird AMD das dort vermutlich deaktivieren (ist zumindest meine Vermutung).

Birdman
2017-06-22, 14:36:21
allein das zeigt ja schon mal deine absolute voreingenommenheit gegenüber ryzen. bei aktuellen games die nicht kompletter crab sind wie eben project cars, dass schon seit jahren seinen crab status weiter pflegt, performt ryzen clock per clock nicht schlechter als ein intel.

das epyc nicht ryzen ist unterschläst du halt einfach mal völlig.
Jaja, Mr. AMD Fanboy Nr. 1, das Wort voreingenommenheit aus deinem Munde ist eigentlich eine Frechheit.
Aber du warst damals beim Thema SMT und Performanceeinbussen ja schon vollkommen auf dem Holzweg, daher gebe ich auf deine Meinung eh nix.

Der 3DCenter Ryzen Performanceindex sagt schon alles:

Anwendungs-Performance
-------------------------
7700K 100%
1800X 120%
6900K 124%

Spiele-Performance
-------------------------
7700K 100%
1800X 86%
6950K 104%

Wenn VM-Workload dem Ryzen gleichgut liegt wie Spiele, dann gute Nacht.


Und zu deine Aussage von epyc != ryzen sage ich mal nix...ja es ist nicht das gleiche, es ist einfach 4x die gleiche Chose :freak:

ndrs
2017-06-22, 14:46:35
Wenn VM-Workload dem Ryzen gleichgut liegt wie Spiele, dann gute Nacht.
Was ist denn ein VM-Workload? Das hängt doch davon ab, welche Anwendungen auf den VMs laufen, oder nicht? Da wird doch nicht drauf gezockt.

Screemer
2017-06-22, 15:07:25
Jaja, Mr. AMD Fanboy Nr. 1, das Wort voreingenommenheit aus deinem Munde ist eigentlich eine Frechheit.

i loled. ich hab mir grad ne 980ti zu meinem 2600k gekauf :lol:


Und zu deine Aussage von epyc != ryzen sage ich mal nix...ja es ist nicht das gleiche, es ist einfach 4x die gleiche Chose :freak:
ccx hat geringere latenzen und höhere bandbreite als der bisherige ringbus-interconnect von intel. :up: nicht umsonst gibts bei intel jetzt auch ein mesh und keinen ringbus mehr.

und welche aussagen zu smt Performanceeinbussen denn bitte? ich glaub du verwechselst mich.

tm0975
2017-06-22, 15:19:37
Der 3DCenter Ryzen Performanceindex sagt schon alles:

Anwendungs-Performance
-------------------------
7700K 100%
1800X 120%
6900K 124%

Spiele-Performance
-------------------------
7700K 100%
1800X 86%
6950K 104%



Dieser Index ist schrott und mißt zumindest bzgl. der spiele keine cpu-performance, sondern den grad der individuellen software anpassung bestimmter architekturen bei teillast!

unser 1700X schlägt im tpc-h (sql server 2016) sämtliche Kundeninstallationen mit 8 und 12 kern xeons samt ht!!! die leistung von ryzen bei vernünftiger software ist geradezu brutal!

grauenvoll
2017-06-22, 16:01:42
unser 1700X schlägt im tpc-h (sql server 2016) sämtliche Kundeninstallationen mit 8 und 12 kern xeons samt ht!!! die leistung von ryzen bei vernünftiger software ist geradezu brutal!

So siehst aus! Die INT-Perfomance ist ein Traum.

y33H@
2017-06-22, 16:18:38
Ein hochtaktender 8C gegen langsame 12C - nicht unerwartet.

Mangel76
2017-06-22, 16:28:20
Ein hochtaktender 8C gegen langsame 12C - nicht unerwartet.

Jetzt fang du doch nicht auch noch an mit dieser Wortverdreherei. Er schrieb doch eindeutig Kundeninstallationen mit 8 und 12 kern xeons

Und es geht hier doch auch nicht um Single-Thread-Old-School-Games, oder?
Was soll also dein Kommentar uns jetzt sagen?

tm0975
2017-06-22, 17:11:49
Ein hochtaktender 8C gegen langsame 12C - nicht unerwartet.

x1700x gegen Intel Xeon E5-1680 v4 bzw. Intel Xeon E5-2687W

Und es geht hier doch auch nicht um Single-Thread-Old-School-Games, oder?
Was soll also dein Kommentar uns jetzt sagen?

Dieser Index ist schrott und mißt zumindest bzgl. der spiele keine cpu-performance, sondern den grad der individuellen software anpassung bestimmter architekturen bei teillast!

y33H@
2017-06-22, 17:22:03
Auch gegen den E5-2687W nicht überraschend, da etwas weniger Takt und IPC.

tm0975
2017-06-22, 17:34:22
3,4 * 8 > 3,0 * 12 bei jeweils 100% CPU-Last. Hätte vor nem halben Jahr niemand geglaubt...

Gipsel
2017-06-22, 17:40:16
Auch gegen den E5-2687W nicht überraschend, da etwas weniger Takt und IPC.
Der 1700X läuft mit 3,4GHz, allcore Boost 3,5GHz, 3,8/3,9GHz single/dual core Boost/XFR in 95W TDP. Der E5-1680 v4 läuft als 8Kerner auf beinahe identischen Taktraten (3,4/4,0GHz Base/Boost) mit 140W TDP (auch wenn die real bei dem Workload wohl recht eng beeinander liegen).
Der 12 Kerner E5-2687W v4 liegt zwar etwas niedriger vom Takt (3,0/3,5GHz Base/Boost), kommt aber mit 50% mehr Kernen und gleich 160W TDP daher. Das würde ich bei einem halbwegs gut parallelisiertem Workload so nicht erwarten, daß der von einem 1700X geschlagen wird. Immerhin zeigen ja diverse Vergleichstests mit Ryzen und dem 6900K, daß Letzterer eben nicht universell langsamer ist, Broadwell also mitnichten durch die Bank eine geringere IPC aufweist.

y33H@
2017-06-22, 17:46:23
Ah, shit - ich hab mich verguckt bei den Specs ;( zudem ging von v1 aus.

Complicated
2017-06-23, 12:47:55
Konkreter Preis des AMD 7601 Epyc: 2.100 $ a 1000 stck.
http://www.it-business.de/amd-draengt-mit-neuen-hochleistungs-cpus-erneut-ins-rechenzentrum-a-618378/
SPECfp_rate2006, NAP-10, vom 29. Mai 2017

1 x EPYC 7601 CPU in einem Server der Marke “HPE Cloudline CL3150“Betriebssystem: Ubuntu 16.04, x86 Open64 v4.5.2.1 Compiler SuiteMemory-Kapazität: 256 GB (8 x 32GB 2Rx4 PC4-2666), 1 x 500 GB SSD.

Das EPYC-System mit einer CPU vollzog die Aufgabe in 33,7 Sekunden, das Intel-System mit insgesamt 24 Kernen brauchte 37,2 Sekunden.

Schneller und günstiger

Werden die Benchmarks auf die Kosten umgerechnet (NAP-08), spart der Single-Socket-Server mit der 7601-CPU ((1 x 2.100 Dollar AMD 1K-Preis) 256 GB (8 x 32GB 2Rx4 PC4-2666) Memory (8 x 300 Dollar), 1 x 500 GB SSD (165 Dollar), Chassis-Kosten (500 Dollar) laut AMD 20 Prozent an CapEx im Vergleich zum Intel Xeon E5-2660 v4-basierten Dual-Socket System.

Die Gesamtkosten für den AMD-basierten Rechner: 5.165 Dollar

Die Gesamtkosten für das Intel-basierte System: 6.228 Dollar

basix
2017-06-23, 13:08:28
2100$ sind ja sehr günstig. War in einer Preistabelle nicht was von 4000$ die Rede?

Complicated
2017-06-23, 14:12:57
Da ging es um die Preisklassen. Ich denke die haben da Intels derzeitige Preisklassen als Unterteilung genommen. Also sozusagen der 7601 bedient die 4000 $ Klasse. Kostet aber 2100 $. Wobei der offizielle Preis ja noch nicht genannt wurde und hier 2 Socket Systeme dagegen stehen und 2 Intel CPUs die 4000 $ Klasse bilden.

Etwas Marketing und Wow Effekt ist da wohl gewünscht.

Eldoran
2017-06-23, 15:35:33
Da ging es um die Preisklassen. Ich denke die haben da Intels derzeitige Preisklassen als Unterteilung genommen. Also sozusagen der 7601 bedient die 4000 $ Klasse. Kostet aber 2100 $. Wobei der offizielle Preis ja noch nicht genannt wurde und hier 2 Socket Systeme dagegen stehen und 2 Intel CPUs die 4000 $ Klasse bilden.

Etwas Marketing und Wow Effekt ist da wohl gewünscht.
Ich denke ein noch niedrigerer Preis als 4200$ MRSP ist nicht zu erwarten. So wie AMD das präsentiert hat, ist der 7601 in Konkurrenz zu einer noch leistungsfähigeren und teureren CPU als von intel angeboten wird. Das aktuelle Top Modell von intel kostetein paar Dollar mehr, aber der Epyc ist 47% leistungsfähiger (https://www.hardocp.com/image/MTQ5Nzk4ODExNWJ3eDRiMzRvazhfMV80M19sLmpwZw==). Und nach "Hausnummer" für den Preis sieht es in dem Zusammenhang nicht aus.

Eldoran
2017-06-23, 15:47:04
Also die Zahlen von it-business sind seltsam - die passen vorne bis hinten nicht zu den Daten von AMD.

FlashBFE
2017-07-13, 16:29:30
Hier sind erste Benchmarkwerte von Epyc gegen Intels größten Skylake SP Platinum. (https://www.heise.de/newsticker/meldung/Intels-Xeon-Prozessorfamilie-Skylake-SP-laeuft-vom-Stapel-Erste-Benchmark-Ergebnisse-gegen-AMD-Epyc-3765089.html?artikelseite=3)
Man kann nach so wenigen Benchmarks natürlich kaum pauschalisieren, aber zusammenfassend scheint ohne AVX512 und bei gleichem Compiler der größte Epyc ungefähr gleich schnell zu sein wie der größte Skylake SP pro Sockel.

Man sieht aber schon wieder, dass alleine die Wahl des Compilers und der Compilerattribute riesige Einflüsse auf das Ergebnis haben. Mit AVX512 zieht Intel davon, bei großer Speicherlast AMD, also muss die Benchmarkauswahl wieder möglichst breit gefächert werden, um sinnvolle Ergebnisse zu bekommen.

Und nicht zu vergessen Anandtechs erste Benchmarks:
Sizing Up Servers: Intel's Skylake-SP Xeon versus AMD's EPYC 7000 - The Server CPU Battle of the Decade? (http://www.anandtech.com/show/11544/intel-skylake-ep-vs-amd-epyc-7000-cpu-battle-of-the-decade)

If performance-per-dollar matters to you, AMD's EPYC pricing is very competitive for a wide range of software applications. With the exception of database software and vectorizable HPC code, AMD's EPYC 7601 ($4200) offers slightly less or slightly better performance than Intel's Xeon 8176 ($8000+). However the real competitor is probably the Xeon 8160, which has 4 (-14%) fewer cores and slightly lower turbo clocks (-100 or -200 MHz). We expect that this CPU will likely offer 15% lower performance, and yet it still costs about $500 more ($4700) than the best EPYC. Of course, everything will depend on the final server system price, but it looks like AMD's new EPYC will put some serious performance-per-dollar pressure on the Intel line.

Piefkee
2017-07-13, 18:27:52
Aus gegebenen Anlass ;D;D;D

https://i.imgur.com/M7uwmqv.jpg

Daredevil
2017-07-13, 18:33:30
:D :D :D

LadyWhirlwind
2017-07-13, 19:24:01
Aus gegebenen Anlass ;D;D;D

https://i.imgur.com/M7uwmqv.jpg

Fairerweise muss man Anmerken das AMD nicht selber produziert, die entsprechenden R&D kosten also nicht bei AMD anfallen ( zumindest nicht unter R&D).

M4xw0lf
2017-07-13, 19:37:40
Fairerweise muss man Anmerken das AMD nicht selber produziert, die entsprechenden R&D kosten also nicht bei AMD anfallen ( zumindest nicht unter R&D).
Hä? Nvidia produziert auch nicht selbst, steht aber auf der Liste. Und bei wem sonst sollten wohl die Entwicklungskosten anfallen?

Complicated
2017-07-13, 19:41:05
Das R&D für die Fabs sind gemeint - nein die hat auch Nvidia nicht.

LadyWhirlwind
2017-07-13, 20:13:30
Das R&D für die Fabs sind gemeint - nein die hat auch Nvidia nicht.

Genau, und die Forschung dafür ist nicht billig.

vinacis_vivids
2017-07-13, 20:30:15
Der 1700X läuft mit 3,4GHz, allcore Boost 3,5GHz, 3,8/3,9GHz single/dual core Boost/XFR in 95W TDP. Der E5-1680 v4 läuft als 8Kerner auf beinahe identischen Taktraten (3,4/4,0GHz Base/Boost) mit 140W TDP (auch wenn die real bei dem Workload wohl recht eng beeinander liegen).
Der 12 Kerner E5-2687W v4 liegt zwar etwas niedriger vom Takt (3,0/3,5GHz Base/Boost), kommt aber mit 50% mehr Kernen und gleich 160W TDP daher. Das würde ich bei einem halbwegs gut parallelisiertem Workload so nicht erwarten, daß der von einem 1700X geschlagen wird. Immerhin zeigen ja diverse Vergleichstests mit Ryzen und dem 6900K, daß Letzterer eben nicht universell langsamer ist, Broadwell also mitnichten durch die Bank eine geringere IPC aufweist.

AMD skaliert einfach besser bzw. Intel's Plattform limitiert mit steigender Corezahl. Vermutlich ist der Ringbus ein krasser Flaschenhals, da die Latenzen ins unermeßliche steigen. Bei harten parallelisierten Workloads ist Intel daher chancenlos.

Die IPC Betrachtung ist veraltet und im Multicore-Bereich völlig irrelevant.

BoMbY
2017-07-13, 20:42:31
Konkreter Preis des AMD 7601 Epyc: 2.100 $ a 1000 stck.


Noch konkreter (https://www.deltacomputer.com/d10z-uln-zn.html):

https://i.imgur.com/MydmRgs.png

YfOrU
2017-07-13, 20:48:12
AMD skaliert einfach besser bzw. Intel's Plattform limitiert mit steigender Corezahl. Vermutlich ist der Ringbus ein krasser Flaschenhals, da die Latenzen ins unermeßliche steigen. Bei harten parallelisierten Workloads ist Intel daher chancenlos.

Infinity Fabric, Ringbus oder Mesh haben bei Workloads wie Cinebench nicht wirklich was zu tun. Gleichzeitig nahezu perfekt skalierbar und ist damit im Kontext der Rohleistung für AMD der Optimalfall.

vinacis_vivids
2017-07-13, 20:54:53
Infinity Fabric, Ringbus oder Mesh haben bei Workloads wie Cinebench nicht wirklich was zu tun.


Klar hat IF, Ringbus&Mesh damit was zu tun.

Nicht umsonst ist AMD beim singel threaded etwas zurück um dann im multithread zur Überholspur zu kommen.

Singel:
1700x - 151
6900k - 155

Multi:
1700x - 1540
6900k - 1477

YfOrU
2017-07-13, 20:58:32
Das ist SMT. Siehe:
http://www.gamersnexus.net/guides/2835-amd-ryzen-r7-1700-smt-off-overclock-benchmarks

R7 1700@4Ghz
SMT aus: 1252
SMT an: 1764
140%

7700K@Stock
SMT aus: 766
SMT an: 988
128%

Und eben diese 12% welche SMT bei Zen in CB15 mehr bringt führen zu deinem Ergebnis. ST etwas langsamer, MT etwas schneller.

AMDs CPU Interconnects sind innerhalb des CCX (also 4 Kerne + 8MB L3) leicht schneller als bei Intel. Alles andere ist teilweise erheblich langsamer (CCX to CCX, Die to Die sowie Socket to Socket). Siehe: http://www.anandtech.com/show/11544/intel-skylake-ep-vs-amd-epyc-7000-cpu-battle-of-the-decade/13

vinacis_vivids
2017-07-13, 21:17:15
AMD`s SMT ist also Intel's HT deutlich überlegen?

Daredevil
2017-07-13, 21:23:43
Edit: Quatsch :D

YfOrU
2017-07-13, 21:24:41
AMD`s SMT ist also Intel's HT deutlich überlegen?

Überlegen würde ich es nicht nennen. Der Leistungsgewinn ist höher und das hilft AMD natürlich bei hoch parallelisierbaren Aufgaben konkurrenzfähig zu sein. Es wäre überlegen wenn AMD gleichzeitig eine identische pro Kern Performance hätte. Bei SMT geht es ja darum den CPU Kern höher auszulasten und das schafft man ohne wohl noch nicht ganz auf dem Niveau von Intel.

vinacis_vivids
2017-07-13, 21:26:02
SMT läuft ja nicht im luftleeren Raum, sondern eben auf physischen Kernen.

damit ich SMT richtig versteh:

https://abload.de/img/00-amd-ryzen-7-1800x-92u0y.png

Bei AMD wird nahezu der ganze Core ausgelastet. Ist es bei Intel anders? werde da weniger Bereiche des Kerns verwendet?

YfOrU
2017-07-13, 21:31:42
SMT (und damit zwei statt ein Thread pro Kern) kann nur dann viel bringen wenn der Kern ohne entsprechend viel Leerlauf hat.

Ein Extrembeispiel sind die alten (in Order) Atom CPUs. Da war der Gewinn von ST zu MT teilweise noch größer. Dafür die ST Performance aber nahe am Boden ;)

StefanV
2017-07-13, 21:46:15
SMT (und damit zwei statt ein Thread pro Kern) kann nur dann viel bringen wenn der Kern ohne entsprechend viel Leerlauf hat.
Diese Formulierung ist einfach völliger Blödsinn.
Und einfach völlig falsch. Und zeugt nur davon, dass du das ganze nicht wirklich verstanden hast.


SMT bringt was, wenn man freie Ausführungseinheiten hat. das hat nix mit 'leerlauf pro Kern' zu tun, das war beim Pentium 4 vielleicht so. Bei modernen Systemen schaut das aber ganz anders aus!
Und hier ist eben die Frage, wie man einen Kern auslegt, welche Ausführungseinheiten und insbesondere wieviele man verbaut. Auch hier hat das mit 'Leerlauf' nix zu tun, denn man kann das ganze ohne Probleme so bauen, dass man die CPU mit nur einem Thread gar nicht wirklich auslasten kann und das ganze auf mehr parallelen Durchsatz hin auslegen.

Das ganze kann man dann auf die Spitze mit SMT4 oder SMT8 wie z.B. bei den ganz fetten IBM CPUs treiben. Die führen dann nicht nur 2 Threads pro Kern aus sondern 4/8.

Und hier muss man einfach sagen, dass AMD die CPU einfach stärker auf Parallele Lasten ausgelegt hat - wie schon damals Bulldozer - als es bei Intel der Fall ist.

Kurz:
Es ist eine Designentscheidung von AMD, dass man stärker von SMT profitiert!
Und im Umkehrschluss eben auch bei Intel, dass SMT nicht soo viel bringt.

AMD hätte auch, wenn sie gewollt hätten, SMT4/8 statt SMT2 implementieren können, hat man aber (momentan) nicht getan. Für Intel gilt das natürlich genau so...

Sprich:
Je mehr Ausführungseinheiten ein CPU Kern hat, desto mehr kann SMT bringen.
Je weniger, desto weniger.
Und AMD Zen ist 'nen bisserl breiter gebaut als Intels Core i-Serie.
Und deutlich breiter als Bulldozer. Quasi das Gegenteil von Bulldozer.
Während Bulldozer eher einfache Kerne mit weniger Ausführungseinheiten (AGU, ALU, Load/Store usw) war, hat Zen deutlich mehr. War das nicht das doppelte von BD?

YfOrU
2017-07-13, 22:09:07
Diese Formulierung ist einfach völliger Blödsinn.

Wenn mit Formulierungen wie dieser gefragt wird:

"Bei AMD wird nahezu der ganze Core ausgelastet. Ist es bei Intel anders? werde da weniger Bereiche des Kerns verwendet?"

darfst es gerne besser erläutern statt es als völligen Blödsinn zu bezeichnen.



SMT bringt was, wenn man freie Ausführungseinheiten hat. das hat nix mit 'leerlauf pro Kern' zu tun, das war beim Pentium 4 vielleicht so. Bei modernen Systemen schaut das aber ganz anders aus!

Ist mir bewusst das es die Ausführungseinheiten betrifft. Bei +40% halte ich "entsprechenden Leerlauf" als durchaus zutreffende Bezeichnung denn die Ressourcen dafür müssen nun mal vorhanden sein und es ist in diesem speziellen Fall (CB) einfach extrem viel.



Kurz:
Es ist eine Designentscheidung von AMD, dass man stärker von SMT profitiert!
Und im Umkehrschluss eben auch bei Intel, dass SMT nicht soo viel bringt.


Ja, ist eine Designentscheidung. Nur sehe ich bei Zen v1 als Startpunkt einer neuen Architektur eher die Notwendigkeit dazu als den Willen. Die Rohleistung ist da und die auch ohne SMT besser auf den Boden zu bekommen ist mit Sicherheit ein Ziel von Zen v2.

StefanV
2017-07-13, 22:13:22
Ist mir bewusst das es die Ausführungseinheiten betrifft. Bei +40% halte ich "entsprechenden Leerlauf" als durchaus zutreffende Bezeichnung denn die Ressourcen dafür müssen nun mal vorhanden sein.
Nein, ist es nicht.

Noch einmal: Das hat nix mit 'Leerlauf' zu tun sondern mit vorhandenen Ausführungseinheiten. Du kannst einen COre zu 100% auslasten und trotzdem noch viele Resourcen drin frei haben.
Daher wäre es schön, wenn du dich an die Fakten halten würdest und nicht einfach irgendwelche Gegebenheiten umdichten würdest.

Denn was du hier erzählst, entspricht der 'Beschreibung' von dem P4 Hyperthreadding, nicht 'echtem' SMT!
Und da ist der "Worst Case" schlicht, dass alle Ausführungseinheiten mehrfach vorhanden sind, so dass sich die beiden Threads so gut wie gar nicht in die Quere kommen.


Da von 'Leerlauf' zu sprechen, ist einfach völlig daneben.

FlashBFE
2017-07-13, 22:19:12
Der Anandtech-Artikel hat das Thema SMT auch behandelt (http://www.anandtech.com/show/11544/intel-skylake-ep-vs-amd-epyc-7000-cpu-battle-of-the-decade/15) mit dem gleichen Ergebnis, dass SMT bei Epyc deutlich mehr bringt und haben als Erklärungsversuch herangezogen, dass die durchschnittlichen Latenzen zu Caches und RAM bei Epyc größer sind und SMT mehr hilft, diese Latenzen zu verstecken, also tatsächlich Leerlauf zu vermeiden.

On average, both Xeons pick up about 20% due to SMT (Hyperthreading). The EPYC 7601 improved by even more: it gets a 28% boost on average. There are many possible explanations for this, but two are the most likely. In the situation where AMD's single threaded IPC is very low because it is waiting on the high latency of a further away L3-cache (>8 MB), a second thread makes sure that the CPU resources can be put to better use (like compression, the network sim). Secondly, we saw that AMD core is capable of extracting more memory bandwidth in lightly threaded scenarios. This might help in the benchmarks that stress the DRAM (like video encoding, quantum sim).

Nevertheless, kudos to the AMD engineers. Their first SMT implementation is very well done and offers a tangible throughput increase.

vinacis_vivids
2017-07-13, 22:28:42
Also stimmt es doch, dass der ringbus von Intel mit zunehmenden Kernen überproportional schlechter skaliert.

StefanV
2017-07-13, 23:08:40
Also stimmt es doch, dass der ringbus von Intel mit zunehmenden Kernen überproportional schlechter skaliert.
CAPTAIN OBVIOUS CALLING!!!!1

Ja, das ist ein grundsätzliches Problem, dass Dinge bei höherer Auslastung problematischer oder Komplizierter werden...
Da gibts dann verschiedene Wege, wie man dieses Problem dann letztendlich lösen kann - einen davon hat AMD gezeigt. Man bastelt einfach 'kleinere' Cluster und verbindet die dann mit einem Interface. Hat natürlich auch gewisse Nachteile, aber auch gewisse Vorteile.

An den Chips des Mittbewerbers sieht man ja auch, dass ein komplexeres Interface schlicht die Leistungsaufnahme expldieren lassen kann.

AMD ist daher den anderen Weg gegangen und hat das ganze nach dem KISS Prinzip gelöst, so hat man zwar geringere Latenzen zwischen dem kleinen Cluster, aber höhere, wenn der eine Cluster auf den anderen zugreifen muss...

PS:
Der Blick auf IBMs Power7 und Power8 wäre hier auch nicht verkehrt. Denn auch diese haben massivst Parralele SMT Einheiten...
Den Vermutungen von Anandtech fehlt auch die Berücksichtigung der Ausführungseinheiten bzw des grundsätzlichen Aufbau der Chips. Und da ist der RYZEN nunmal breiter aufgebaut als Intels Chip.

Und da sind wir dann bei den Innereien der CPUs...
Wieviele Ports hat der Scheduler, wie sind die Ausführungseinheiten aufgeteilt und so weiter...
Das an der Speicherlatenz fest zu machen und zu orakeln halte ich für wenig sinnvoll....

mczak
2017-07-14, 00:52:35
Der Anandtech-Artikel hat das Thema SMT auch behandelt (http://www.anandtech.com/show/11544/intel-skylake-ep-vs-amd-epyc-7000-cpu-battle-of-the-decade/15) mit dem gleichen Ergebnis, dass SMT bei Epyc deutlich mehr bringt und haben als Erklärungsversuch herangezogen, dass die durchschnittlichen Latenzen zu Caches und RAM bei Epyc größer sind und SMT mehr hilft, diese Latenzen zu verstecken, also tatsächlich Leerlauf zu vermeiden.
Wobei die Resultate ziemlich interessant sind, denn es ist ja nicht so dass SMT bei Ryzen immer mehr bringt als bei Skylake(-SP). Von den 12 Benchmarks skaliert die Leistung bei Ryzen mit SMT in 7 Benchmarks besser als bei Skylake, aber immerhin bei 3 skaliert der Skylake besser (2 sind unentschieden). (Und man kann auch nicht sagen es skaliert dort besser mit SMT wo die CPU gegenüber der anderen bei Single-Thread relativ schwach aussieht, ohne das jetzt statistisch überprüft zu haben ist ein solcher Zusammenhang jedenfalls nicht offensichtlich.)

Entropy
2017-07-14, 15:24:14
(2 sind unentschieden)
Mit "Protein seq. analyses" und "Video Encoding", sind das normalerweise sehr L1 optimierte Programme.
Chess, Path Finding, Game AI, Compression, schneidet Zen sehr gut ab. Das sind oft sehr serielle Algorithmen die datenabhängige Sprünge haben.
XML processing und Vehicle scheduling sind wohl auch recht seriel, aber die Sprünge sind nicht Speicherlimitiert, da das meistens arbeiten auf einem Stream ist.

Vielleicht ist Zen also irgendwie Cache- oder Speicherlimitiert, aber wenn das SMT es so gut kompensiert, klingt es für mich nach der inteligenten Lösung.

S940
2017-07-14, 22:51:51
Vielleicht ist Zen also irgendwie Cache- oder Speicherlimitiert, aber wenn das SMT es so gut kompensiert, klingt es für mich nach der inteligenten Lösung.

Anders herum wird ein Schuh draus: Zen hat größere Caches. Logischerweise kann die Trefferrate nicht über 100% steigen. Ergo bringt die Cachegröße bei einem Thread möglicherweise nicht so viel Mehrwert.

Oft sind handoptimierte Programme auf Intels Cachegrößen ausgelegt: 32kB L1I und 256kB L2.

Hat man nun 2 Threads und 64 kB L1I, sowie 512 kB L2 passt das natürlich sehr "schön" :)

Finde es mal wieder typisch, dass man versucht einen AMD-Vorteil durch die per se schlechte Architektur zu erklären. Dabei sind doppelte L1&L2-Cachegrößen bei SMT doch nun wirklich eine sehr naheliegende Erklärung.
Das kommt noch vor der Architekturbreite, Ports & Co.

Ja der L3 mag lahm sein, aber dafür hats eben auch mehr L1 & L2. Wer das nicht sieht, hat Tomaten auf den Augen ;)

vinacis_vivids
2017-07-14, 23:15:39
https://abload.de/img/7ca3a1705392abuc2.jpghttps://abload.de/img/53a6b7581d63m9u6a.jpg

Infinity Fabric ist das Geheimnis beim Zen Core. Soweit ich weiß, verbessern sich die Latenzen, wenn man den Takt hochzieht bzw. die Latenzen werden nicht schlechter wenn man mehr Cores hat.

mczak
2017-07-14, 23:31:19
Finde es mal wieder typisch, dass man versucht einen AMD-Vorteil durch die per se schlechte Architektur zu erklären. Dabei sind doppelte L1&L2-Cachegrößen bei SMT doch nun wirklich eine sehr naheliegende Erklärung.
Das kommt noch vor der Architekturbreite, Ports & Co.

Finde nicht dass das sonderlich naheliegend ist. Vor allem liegst du falsch was den grösseren L2-Cache betrifft. Denn die "grossen" Skylake (und um solche ging es ja beim anandtech test) haben ja 1MB, und damit das doppelte von den Zen-CPUs.
Ein deutlich unterschiedliches SMT-Scaling allein wegen L2-Grösse halte ich für eher unwahrscheinlich. Jedenfalls habe ich bisher noch keine Tests entdeckt die das belegen würden. Skylake gegen Skylake-X wäre da ein guter Anfang, leider gab's da keine solchen SpecInt Vergleiche, aber so im Allgemeinen scheinen sich die CPUs praktisch identisch zu verhalten, dies trotz der doch deutlichen Aenderungen bei den L2/L3 Caches. Ok das stimmt nicht so ganz, es gibt durchaus Benchmarks bei denen man relativ deutliche Aenderungen sieht bei SKL-S gegen SKL-SP. Wäre durchaus interessant da auch SMT-Scaling zu untersuchen, aber ohne solche Tests halte ich die theoretischen Ueberlegungen dazu zwar für einigermassen plausibel, aber darauf wetten dass sich das in der Praxis wirklich so verhält würde ich nicht...

robbitop
2017-07-14, 23:39:00
Hat Zen nicht auch mehr Ports? Und getrennte Sheduler für int und fp? Könnte das nicht gerade bei SMT helfen? Auch war die smt Implementierung hinsichlich Piorisierung bestimmter Dinge zwischen den Threads nicht auch etwas anders?

StefanV
2017-07-14, 23:51:19
AFAIR ja, Zen ist deutlich breiter. Und Int/FP Scheduler getrennt.
Und natürlich hilft das bei SMT, wenn der Scheduler fetter ist, die Architektur grundsätzlich breiter...

Daher find ich es auch reichlich daneben und anmaßend hier von 'mehr Leerlauf' sprechen zu müssen...

Es ist eher der Gegenteilige ANsatz vom Bulldozer und CMT...

mczak
2017-07-15, 00:41:16
AFAIR ja, Zen ist deutlich breiter.

So generell kann man das nicht sagen. Wenn man sich nur die Int-Domain anschaut (und das waren ja SpecInt Werte bei anandtech) kann Skylake beispielsweise 4 ALU-Ops + 3 Speicher-Ops gleichzeitig ausführen, bei Ryzen sind das 4 Alu + 2 Mem, von daher müsste es also ähnlich schwierig sein die Einheiten auszulasten.

Und Int/FP Scheduler getrennt.
Ja, deswegen kann Ryzen 4 FP Ops gleichzeitig zu den Int-Ops ausführen, zumindest in der Theorie. Dispatch hingegen ist sowohl bei Skylake wie auch bei Ryzen 6 uops/Takt maximal, also derselbe Dauerdurchsatz (bei beiden geht auch das nur mithilfe des Op-Cache, der Dekoder macht da nicht mit).
Bei FP allein hat man ja 4 Ops statt nur maximal 3 wie bei intel. Das müsste theoretisch bei sowas wie Cinebench MT helfen besser zu skalieren, das müsste man aber noch genauer untersuchen (bei fixem Takt, vielleicht hat das auch schon wer gemacht), hingegen könnten wiederum die "nur" 2 Mem-Ops limitieren (wobei da die Stackengine wohl hilft). Und bei AVX/AVX2 Code wiederum hat man dann ja netto bloss noch 2 Ops gleichzeitig, müsste dann also nach der Theorie wiederum schlechter mit SMT skalieren als bei intel weil es leichter ist die Einheiten auszulasten mit bloss einem Thread (obowhl bei FP-Code kann man schnell mal eine unterirdische Auslastung haben mit 1 Thread bloss wegen Abhängigkeiten der Befehle, weil die "echten" FP-Operationen alle mehrere Takte brauchen).
Das ist alles ziemlich kompliziert zu vergleichen, einfache Antworten wird man wohl nicht finden.

StefanV
2017-07-16, 05:15:56
https://www.youtube.com/watch?v=f8sXQ6JsNu8#

Linus basht Intel 'ein wenig'.
Recht lustig anzuschauen, was die darüber zu sagen haben.

S940
2017-07-16, 17:34:13
Finde nicht dass das sonderlich naheliegend ist. Vor allem liegst du falsch was den grösseren L2-Cache betrifft. Denn die "grossen" Skylake (und um solche ging es ja beim anandtech test) haben ja 1MB, und damit das doppelte von den Zen-CPUs.
Ein deutlich unterschiedliches SMT-Scaling allein wegen L2-Grösse halte ich für eher unwahrscheinlich. Jedenfalls habe ich bisher noch keine Tests entdeckt die das belegen würden.

Ach klar, Danke, das waren ja die Server-Skylakes. Hatte ich übersehen.

Was dann aber bleibt, ist der doppelt so große Instruction-Cache. Wie wichtig der für den Durchsatz ist, sah man bei Steamroller, wo AMD den sogar auf 96kB erhöhte.

2. Element wäre dann noch der µOp-Cache, der ist bei Zen inoffiziell etwas größer als bei Skylake und die Serversion hat laut den offiziellen Infos auch keinen größeren spendiert bekommen.

3. - etwas unwahrscheinlicher Punkt - wäre noch die Art der INT-Instruktionen. SSE/AVX-INT-Befehle werden an die FPU-Pipes geschickt. Was das aus macht, keine Ahnung, da müsste man den Programmcode genauer kennen.

FlashBFE
2017-08-03, 09:41:42
Hier sieht man, warum AMD die Ein-Sockel-Systeme im Aufwind glaubt:

AMD zeigt Petaflop-Rack mit Epyc und Vega (https://www.golem.de/news/project-47-amd-zeigt-petaflop-rack-mit-epyc-und-vega-1708-129277.html)

Der Großteil der theoretischen Rechenleistung wird durch Vega-RadeonInstinct- Karten gestemmt. Blöd nur der Pferdefuß, dass die nur bei Single Precision und Half Precision richtig schnell und effizient sind.

Aber immerhin sieht das Rack richtig geil aus. AMDs Marketing wird immer besser. :D

PrivateCeralion
2017-08-08, 16:49:33
https://www.mindfactory.de/product_info.php/AMD-EPYC-7351-Tray-Sockel-SP3_1186204.html

:D

Tarkin
2017-08-23, 14:31:16
doppelpost

Tarkin
2017-08-23, 14:32:55
Epyc ist ein Geniestreich von AMD, muss man wirklich sagen!

Chip Kosten fast halbiert ggü. einem monolithischen Die

(von der Hot Chips Präsentation)

(Vom Vorteil nur einen Die für fast alle Produktkategorie zu haben ganz zu schweigen)

Brillus
2017-08-23, 14:43:54
Finde die info mit dem Ares overhead interessant, lägen die hypothetischen 777mm² überhaupt noch im sinnvoll produzierbarem Bereich(Belichtung).

y33H@
2017-08-23, 15:12:02
Wer es nicht gesehen hat: 213 mm²

Sunrise
2017-08-23, 15:18:53
Epyc ist ein Geniestreich von AMD, muss man wirklich sagen!

Chip Kosten fast halbiert ggü. einem monolithischen Die

(von der Hot Chips Präsentation)

(Vom Vorteil nur einen Die für fast alle Produktkategorie zu haben ganz zu schweigen)
Ist ja kein Geheimnis, bei Navi hat AMD Ähnliches vor. Ist nur die Frage, wie AMD die verschaltet, ab 7nm hat man jedenfalls viel Spielraum.

Vor allem wichtig, bei der begrenzten Kapazität von GloFo kommen bei ca. 200mm^2 deutlich mehr Chips raus (Yield) als bei fast 800mm^2. Da kann man natürlich auch ganz andere Preise pro Chip fahren.

unl34shed
2017-08-23, 15:37:26
Ist ja kein Geheimnis, bei Navi hat AMD Ähnliches vor. Ist nur die Frage, wie AMD die verschaltet, ab 7nm hat man jedenfalls viel Spielraum.

Vor allem wichtig, bei der begrenzten Kapazität von GloFo kommen bei ca. 200mm^2 deutlich mehr Chips raus (Yield) als bei fast 800mm^2. Da kann man natürlich auch ganz andere Preise pro Chip fahren.

Die Taktraten sollen wohl auch höher sein als bei einem monolitischen Chip.

Gab es Mal ein AMD Whitepaper dazu.

Tarkin
2017-08-23, 15:51:28
Ist ja kein Geheimnis, bei Navi hat AMD Ähnliches vor. Ist nur die Frage, wie AMD die verschaltet, ab 7nm hat man jedenfalls viel Spielraum.

Vor allem wichtig, bei der begrenzten Kapazität von GloFo kommen bei ca. 200mm^2 deutlich mehr Chips raus (Yield) als bei fast 800mm^2. Da kann man natürlich auch ganz andere Preise pro Chip fahren.

Kann man nur hoffen dass es die Marketing-Profis von der RTG nicht wieder versauen! Finde ja nicht Raja gehört rausgeschmissen, sondern Chris Hook (Senior Marketing Director bei RTG)!!!!

YfOrU
2017-08-23, 16:42:47
Epyc ist ein Geniestreich von AMD, muss man wirklich sagen!

Chip Kosten fast halbiert ggü. einem monolithischen Die



Ja. Die ganze Wahrheit ist es aber nicht denn in der Betrachtung fehlt sowohl die Performance, Skalierbarkeit als auch die Effizienz.

Für AMD ist der Ansatz natürlich genial denn höhere Herstellungskosten und Komplexität sind auch ein größeres wirtschaftliches Risiko. Intel hat da andere Möglichkeiten und kann zusätzlich mit wesentlich höheren Verkaufspreisen und Stückzahlen kalkulieren.

PrivateCeralion
2017-08-23, 18:11:36
http://ir.amd.com/mobile.view?c=74093&v=203&d=1&id=2295144

AMD geht Partnerschaften mit Tencend und JD.com ein.

basix
2017-08-23, 19:23:59
Ja. Die ganze Wahrheit ist es aber nicht denn in der Betrachtung fehlt sowohl die Performance, Skalierbarkeit als auch die Effizienz.

Mein Senf dazu: Skalierbarkeit ist bis zu 2S viel höher (mehr gibt dann das Design nicht her). Bei Intel kann man bis auf 8S gehen. Die Effizienz sollte bei den heutigen EPYC eher vorteilig denn nachteilig sein (Intra-Socket IF kostet z.B. total max. 5W). Nur die maximale Performance kann darunter leiden. Da man aber unter Umständen effizienter ist, ist die durchschnittliche Performance nicht zwingend schlechter.

Den grossen Win sehe ich aber bei AMD definitv bei den Entwicklungskosten und der Entwicklungszeit. Die werden bei ihren begrenzten Ressourcen den grössten Effekt haben, vor allem was den Zeitrahmen von Neuentwicklungen anbelangt. Die Entwicklung und der Ramp-Up / Validierung der Produkte ist einfach massiv kürzer.

robbitop
2017-08-24, 08:56:33
AMD hatte mal IIRC (im Zusammenhang zu ZEN und IF) gesagt, dass der Markt mit >2Sockel deutlich kleiner ist als bis 2 Sockel. Also haben sie sich eher darauf konzentriert.

Dural
2017-08-24, 09:13:07
Epyc ist ein Geniestreich von AMD, muss man wirklich sagen!


Es war noch nie ein Geniestreich mehrere Dies auf einen Träger zu packen, sondern immer nur eine Notlösung weil man nichts anderes hatte :rolleyes:

robbitop
2017-08-24, 10:53:44
Das Know-How steckt in der Fabric. Die ist alles andere als trivial. Wenn man die Vorteile und Nachteile dieser Konfiguration betrachtet, hat AMD IMO keine schlechte Wahl getroffen.
1x DIE und man deckt Produkte von oben bis unten ab. Gute Yields und sicherlich aus Produktionssicht die richtige Wahl. Das wirkt sich sicherlich auf die Fertigungskosten positiv aus. Und der Nachteil scheint ja relativ klein für die Applikationen im Server-/HPCumfeld zu sein.

Skysnake
2017-08-24, 13:20:41
Es war noch nie ein Geniestreich mehrere Dies auf einen Träger zu packen, sondern immer nur eine Notlösung weil man nichts anderes hatte :rolleyes:

IBM hat mit ihren alten System Z CPUS mit 4; oder waren es 5?; Keramik package MCM also nur eine Notlösung?

Oder Intel mit ihren Stratix FPGAS?
Oder Intel mit ihren knl bzw SKYLAKE-X F mit interconnect on package?
Oder NEC damals mit ihren fetten Vektor CPUS mit 48 Chips oder so auf einem package?

Oder nvidia die das auch für die Zukunft ins Auge fassen?

Sorry aber das ist ziemlich stumpf und unreflektiert

nagus
2017-10-31, 14:41:24
Ne le répétez à personne, mais les CPU EPYC de 2e gen d'AMD auront 64 cores, 256 Mo (!) de L3, 8x DDR4-3200 et 128 lignes de PCIe 4.

zu deutsch: "Wiederholen Sie dies nicht bei irgendjemandem, aber AMDs EPYC-CPUs der zweiten Generation werden 64 Kerne, 256 MB (!) L3, 8x DDR4-3200 und 128 PCIe-4-Leitungen haben."

https://twitter.com/CPCHardware/status/925348852147908608

PrivateCeralion
2017-10-31, 15:30:14
Ne le répétez à personne, mais les CPU EPYC de 2e gen d'AMD auront 64 cores, 256 Mo (!) de L3, 8x DDR4-3200 et 128 lignes de PCIe 4.

zu deutsch: "Wiederholen Sie dies nicht bei irgendjemandem, aber AMDs EPYC-CPUs der zweiten Generation werden 64 Kerne, 256 MB (!) L3, 8x DDR4-3200 und 128 PCIe-4-Leitungen haben."

https://twitter.com/CPCHardware/status/925348852147908608

Das wären dann 4 Dies a 16 Kerne. Sollte das stimmen, würde es mich interessieren, was im Desktop Markt ankommt.

Nakai
2017-10-31, 16:37:57
Das wären dann 4 Dies a 16 Kerne. Sollte das stimmen, würde es mich interessieren, was im Desktop Markt ankommt.

Puh, ich hätte mit 12 Kerne maximal pro Die gerechnet. Im Desktop-Markt kommen erst die 12nm-Versionen. Wie gesagt, wenn 7nm eine Verdopplung der Transistorendichte ermöglicht, dann sehen wir auch eine Verdopplung der Kern-Anzahl. Derzeit wird mehr als 2xDichte angekündigt. Was übrig bleibt sehen wir dann.

16 Kerne für den Desktop sehen wir dann...und bei Threadripper sind es dann auch 32 Kerne pro Socket. Nice.

Der_Korken
2017-10-31, 18:14:57
256MB L3-Cache wären 4MB pro Kern, also doppelt so viel wie momentan. Hört sich nach ein bischen viel an. Hätte eher gedacht, dass man irgendwann mal einen 8GB-Stack HBM2 o.ä. als L4 sieht, damit der Datenaustausch zwischen den CCX dort stattfinden kann.

robbitop
2017-10-31, 18:31:11
Vielleicht hat man sie mit Falschinfos gefüttert. Nicht alles von Canard erwies sich als korrekt. Bisher nahm man 12C für 2019 in 7 nm an.

basix
2017-10-31, 18:46:55
12C wäre für mich auch der pragmatischere Schritt, da 7nm teuer sein wird. Aber vielleicht will AMD ja in die Vollen gehen. Zumindest würde ein 64C EPYC Intel sehr in Bedrängnis bringen. Vielleicht gar nicht so dumm. Rein vom Flächenbedarf und Stromverbrauch könnte es klappen (momentan redet man von >50% Flächenreduktion und >60% Energieeinsparung verglichen zu 14nm). Ein 16C Chip sollte wieder um die 200mm2 herauskommen. An 4MB L3$ pro Core glaube ich aber nicht.

Für Desktop kann man dann immer noch teildefekte 12C Chips als höchste Ausbaustufe verkaufen (und entsprechend einiges höherem Takt als mit 16C). Und hätte obendrauf noch die Option, 16C nachzuschieben.

Aber abwarten und Tee trinken. So bald sehen wir das nicht.

MR2
2017-10-31, 18:53:12
Oder 4fach SMT, deswegen so viel Cache und die rumschwirrenden hohen Core Zahlen.
Aber im Desktop Bereich bringt das nix, oder?

fondness
2017-10-31, 19:14:43
Wenn AMD das MCM-Konzept bzw. die Infinity Fabric voll ausspielen will, dann braucht man etwas, dass man mit einem Single-Die nicht mehr fertigen kann. Ein 16C-Chip mit 64 MB L3-Cache plus PCIe4.0 liegt auch in 7nm schnell mal bei 300mm². Das wären mal vier 1200mm², selbst wenn man den Overhead berücksichtigt könnte Intel da nicht mehr mit einem Die dagegen halten.

tm0975
2017-10-31, 19:23:15
mal was anderes. wann kommt denn der markt für sp3-mainboards etwas in fahrt? das sieht ja ganz schön trairig aus. cpus sind kaufbar, aber boards fehlanzeige.

HOT
2017-11-01, 10:22:19
Schon mal ueberlegt, dass der L3 einfach kein SRAM mehr sein koennte?

Pirx
2017-11-01, 10:49:51
War Starship nicht mit 48 Kernen auf den offiziellen Rodmaps? edit: Nagut, Roadmaps sind nicht in Stein gemeißelt.

HOT
2017-11-01, 10:54:03
Die ist ja uralt. Man kann das durchaus noch abgeändert haben um in die Vollen zu gehen.

robbitop
2017-11-01, 13:14:34
Schon mal ueberlegt, dass der L3 einfach kein SRAM mehr sein koennte?
Wie bei IBM 1-T-SRAM bzw eDRAM? Wäre das nicht eher etwas für den L4? IIRC ist 1-T SRAM langsamer. Auch kann das nicht jeder Fertigungsprozess IIRC, oder?
Alternativ könnte man via Interposer auch leicht eDRAM/SRAM/HBM als L4 dazupacken.

Screemer
2017-11-01, 13:26:53
Oder den Interposer als aktives Element nutzen. Soc, i/o oder sich l4 liese sich dort sicherlich effizient unterbringen. Den damit gesparten Platz kann man für mehr Kerne, breitere Anbindung etc. nutzen.