ARM zersägt Intel [Archiv]

Archiv verlassen und diese Seite im Standarddesign anzeigen : ARM zersägt Intel

Zossel

2020-03-04, 05:52:58

https://www.anandtech.com/show/15575/amperes-altra-80-core-n1-soc-for-hyperscalers-against-rome-and-xeon

Ampere has some performance numbers, which as always we take with a grain of salt. These include 2.23x the performance on SPEC2017_int rate over a single 28-core Intel Xeon Platinum 8280, and 1.04x over a single 64-core AMD EPYC 7742. This is obviously extended into a number of claims about improved TCO. Ampere didn’t provide similar numbers for SPEC2017_fp, because the company states that the SoC has been developed with INT workloads in mind. Exact power/performance numbers were not given, but based purely on TDP, which is somewhat of an unreliable metric at times. We’ll wait to run our own numbers in due course.

Selbst wenn die Dinger keine Granaten in FP sind, es wird trotzdem Intel Marktanteile kosten.

gravitationsfeld

2020-03-04, 21:17:47

Viele dafuer langsame Kerne funktionieren nicht fuer Server. Latenz ist genauso wichtig.

dreas

2020-03-04, 21:19:45

https://www.anandtech.com/show/15575/amperes-altra-80-core-n1-soc-for-hyperscalers-against-rome-and-xeon

Selbst wenn die Dinger keine Granaten in FP sind, es wird trotzdem Intel Marktanteile kosten.

das denkt amd auch schon länger.

gravitationsfeld

2020-03-04, 21:34:44

Das denkt AMD nicht nur, es passiert auch.

Zossel

2020-03-04, 22:08:49

Viele dafuer langsame Kerne funktionieren nicht fuer Server. Latenz ist genauso wichtig.

Pro Core ist die Performance vergleichbar. Das Ding nutzt einen Mesh Interconnect, also wohl vergleichbar zu Intel.

gravitationsfeld

2020-03-04, 22:57:42

Pro Core ist die Performance vergleichbar.
Is klar.

Zafi

2020-03-04, 23:55:30

Selbst wenn die Dinger keine Granaten in FP sind, es wird trotzdem Intel Marktanteile kosten.

Meines Wissens nach ist Lenovo der einzige Server-Anbieter, der Ampere unterstützen will. Lenovo hat im Server-Segment nur einen Marktanteil von etwas über 5%. Von daher würde ich jetzt keine großen Sprünge erwarten. Zumal Lenovos Unterstützung seit über einem Jahr nur auf dem Papier zu finden ist. Wenn ich mir Lenovos Server-Portfolio anschaue, dann finde ich zu 90% Intel-CPUs und zu 10% AMD-CPUs. Aber keinen einzigen Ampere CPU. Darüber hinaus ist Ampere ein sehr junges Unternehmen. Ich glaube in der Vergangenheit gab es da schon eine Menge Newcomer, die man als Intel-Killer ausgerufen hat. Doch nur die wenigsten haben ihre Produkte tatsächlich auf den Markt gebracht. Und noch viel weniger haben überlebt. Sorry, aber Ampere ist für Intel nur heiße Luft.

][immy

2020-03-05, 00:26:19

Na, erst mal unabhängige Tests abwarten. Unter Spezialbedingungen kann fast jeder Prozessor andere schlagen. Der Cache ist in dem Bereich z.B. ziemlich klein für so viele Kerne, was ihn nicht grad zu einem Allzweckmonster werden lässt. Auch der aktuelle IBM-Chip hat seine Vorteile in bestimmten bereichen, aber Intel & AMD x86er Prozessoren, haben viele Anwendungszwecke und nicht nur einen.
Hat seine Gründe warum AMD seine ARM-Serverprozessorsparte quasi eingestellt hat.
Auch dieser 80-Core ARM zeigt sehr eindrucksvoll, das er, sobald er in ähnliche Performanceregionen eintaucht, auch mit dem Stromverbrauch zu kämpfen hat. Die 64er von AMD befinden sich auch im 200W Bereich und verlassen diesen eigentlich nur unter absoluter Volllast. Sind dafür aber noch etwas allgemeiner gehalten und haben nicht nur eine Stärke.

Aber wenn man viele Cores bei wenig Leistungshunger betreiben könnte, würde das für so einige Anwendungszwecke vollkommen ausreichen. Aber bei 200W hat man diesen Bereich eigentlich schon wieder verlassen.

Btw, man bedenke auch das Via (oder wie die heute auch immer heißen) auch gerne mal Benches raushaut, die angeblich Intel/AMD in den Schatten stellen (zumindest bei dem gleichen Verbrauch), aber liefern können sie dann doch nicht so wirklich (zumindest nicht das versprochene).

Zu bedenken ist auch, das es nicht mehr viele Fertigungsschritte für Silizium geben wird. Ein großer Vorteil von ARM CPUs war es mal, weniger komplex zu sein und daher schon früh kleinere Fertigungen verwenden zu können. Abgesehen davon das man Intel in dem Bereich generell grad abhängt ist dieser Vorteil hier auch nicht mehr gegeben. Fragt sich wie der Verbrauch aussehen würde, wenn man auf die Cache-Größen von Epyc CPUs kommen würde.

Gipsel

2020-03-05, 00:29:25

Pro Core ist die Performance vergleichbar. Das Ding nutzt einen Mesh Interconnect, also wohl vergleichbar zu Intel.
Laut Link liegt Zen2 offenbar pro Core etwa 20% vorne in Int und vermutlich 100% in FP (also doppelter Score). Und die TDP ist absolut vergleichbar (210W vs 225W für 80C vs 64C). Sieht ganz gut gegen intels 14nm Teile aus (auch nur in Int, nicht FP), aber da muß man schon risikofreudig sein, daß man ohne wirkliche Vorteile (gegenüber Epyc) vom x86-Ökosystem weggeht. Und wenn es die zu kaufen gibt (Datum gibt es noch nicht), konkurrieren die vermutlich schon mit Epyc 7003. ;)

Zossel

2020-03-05, 07:24:11

Laut Link liegt Zen2 offenbar pro Core etwa 20% vorne in Int und vermutlich 100% in FP (also doppelter Score). Und die TDP ist absolut vergleichbar (210W vs 225W für 80C vs 64C). Sieht ganz gut gegen intels 14nm Teile aus (auch nur in Int, nicht FP), aber da muß man schon risikofreudig sein, daß man ohne wirkliche Vorteile (gegenüber Epyc) vom x86-Ökosystem weggeht. Und wenn es die zu kaufen gibt (Datum gibt es noch nicht), konkurrieren die vermutlich schon mit Epyc 7003. ;)

Und das mit Standard-IP aus dem Katalog von ARM: https://www.anandtech.com/show/13959/arm-announces-neoverse-n1-platform/2

Diese ARM-IP wird es wohl bald auch bei Amazon geben: "Make your typical Cloud Workload faster with less money, klick below"

Ghost1nTh3GPU

2020-03-05, 07:54:27

gmb

2020-03-05, 11:27:59

Die Zeit des "big iron" ist halt vorbei, da das "small iron" für die meisten Tasks schnell genug ist. Und selbst der HPC-(DL)-Bereich hat im Bezug auf das Design von Durchsatz-ASICs nicht mehr so hohe Hürden, da kann man nur noch mit Software oder Perf/W Punkten.

Nicht nur für Server. Vielleicht sieht man den Ansatz öfter auch im Desktop zukünftig mit big cores und small cores kombiniert. Gerüchteweise kommt ADL-S mit 16 Kernen, davon 8 big cores und 8 small cores.

robbitop

2020-03-05, 11:45:00

Damit ein Big Little Ansatz auch am Desktop funktioniert, muss der Scheduler und idealerweise auch die Applikation darauf eingerichtet sein. Im Desktop nutzt der Großteil Windows. Und das hat sich in den letzten Jahren nicht gerade mit Ruhm bekleckert, wenn CPU Kern Topologien Änderungen vollzogen haben.

Zumal im Desktop wäre die Frage zu stellen, ob das sinnvoll ist. Wir sind aktuell ja schon bei 8 Kernen in vielen Systemen und 16 Kernen im High End in der AM4 Mainstreamplattform. Die Kerne selbst sind relativ klein und sparsam (insbesondere wenn der Betriebspunkt passt). Dinge wie I/O (Fabric, Interfaces und deren Analogteil), Cache und andere IP Blöcke nehmen immer größere Anteile an der Gesamtfläche an.
Dazu kommt, dass Amdahls Law ja auch immer stärkeren Einfluss hat und auch Anwendungen nicht beliebig parallelisierbar sind. Da stellt sich schon die Frage nach dem Nutzen von kleineren Cores. Auch ist TDP im Desktop jetzt auch nicht so schrecklich knapp.

Je enger die TDP ist, desto mehr könnte so etwas sinnvoll sein. Angesichts Renoir sieht man, dass aber selbst bei 15W mit relativ guten Takt 8x starke Cores und IGP versorgt werden können. Und die Die Size ist ziemlich klein.
Ggf. eher im einstelligen Wattbereich oder aber wenn man besonders viele Cores in hochparallelisierten HPC Workloads nutzen will. Aber auch da muss man erstmal einen Epyc schlagen (der ja dank Shrinks und jährlichen Iterationen der uArch auch gute Steigerungen vor sich hat).

gmb

2020-03-05, 12:18:29

robbitop

2020-03-05, 12:40:34

Das hat Microsoft auch nie interessiert, weil Intel erst mit Lakefield eine big+little CPU auf den Markt bringt.
Wir werden sehen. Gerade der Scheduler hat ja eine Menge an Rattenschwanz in den Kern des Betriebssystems und eine Menge Legacy Code muss da angefasst werden. Und natürlich entsprechend validiert werden. Ich bin da mittelfristig nicht so optimistisch.

"wir werden sehen" sprach der Blinde zu seinem tauben Hund... :D

Die Intel Kerne sind schon recht groß mit dem L2 Cache, der jetzt noch vergrößert wird. Für 4 Willow Cove Kerne geht man derzeit von 40mm² aus, 4 Kerne wohlgemerkt. Golden Cove wird wohl eher größer als kleiner.
Da muss man sich fragen, ob das der richtige Weg ist. Gesetz des sinkenden Grenzertrags greift offenbar stark. Ob es ein guter Deal ist ab einem gewissen Punkt überproportional Transistoren und Energie für IPC auszugeben?
AMD kommt mit 8 leistungsfähigen Kernen in 7nm DUV auf winzige Kerngrößen und sehr gute TDPs. Scheint ein guter Mittelweg zu sein.
Wer weiß, ob Intel sich da nicht verrennt? Bei den ICL Kernen sah man trotz Shrink und deutlich gesunkenen Takt, dass diese überproportional energiehungrig waren. Die waren auch schnell - aber fertigungsnormiert wäre das aus uArch Sicht ein Perf/W Rückschritt. 10 nm rettet natürlich ein bisschen. (bei mobile Taktraten ist der Taktmalus von 10 nm IMO eher zweitrangig)

gmb

2020-03-05, 13:27:39

Da muss man sich fragen, ob das der richtige Weg ist. Gesetz des sinkenden Grenzertrags greift offenbar stark. Ob es ein guter Deal ist ab einem gewissen Punkt überproportional Transistoren und Energie für IPC auszugeben?
AMD kommt mit 8 leistungsfähigen Kernen in 7nm DUV auf winzige Kerngrößen und sehr gute TDPs. Scheint ein guter Mittelweg zu sein.

Zen2 hat ja auch nur Skylake IPC, da sind Sunny Cove und Willow Cove eine andere Liga. In Sachen Gesetz des sinkenden Grenzertrags musst du bei AMD 1-2 Generationen warten, um bei Willow Cove rauszukommen. AVX512 fehlt ja auch noch. Du musst auch bedenken, dass Intel aktiv eine little core Architektur Entwicklungslinie am laufen hat, hier konnte Intel mit jeder neuen Generation immer große IPC Sprünge realisieren. Goldmont, Goldmont+ oder Tremont, es gab immer große Sprünge. Für ADL-S kommt vermutlich Gracemont in Frage. Bei AMD stellt sich die Frage gar nicht erst.

Bei den ICL Kernen sah man trotz Shrink und deutlich gesunkenen Takt, dass diese überproportional energiehungrig waren. Die waren auch schnell - aber fertigungsnormiert wäre das aus uArch Sicht ein Perf/W Rückschritt. 10 nm rettet natürlich ein bisschen. (bei mobile Taktraten ist der Taktmalus von 10 nm IMO eher zweitrangig)

Weil 10+ Müll gewesen ist, du kannst eine deutlich bessere Perf/W mit Willow Cove und 10++ erwarten.

robbitop

2020-03-05, 13:34:07

Zen 2 liegt AFAIK latenznormiert (sieht man in Anwendungen, wo die uArch nicht durch die Latenz der Fabric gebremst wird) ein Stück über Skylake. Das kann man gut prüfen in dem man SKL-X (hat ja auch SKL uArch aber eine skalierbarere und damit natürlich etwas langsamere Fabric) mit Zen 2 CPUs vergleicht. Da kommen Zen 2 CPUs pro Takt schon 5-10% schneller raus. Jetzt kann man natürlich damit argumentieren, dass eine Fabric mit dazu gehört. Jedoch muss auch Intel, wenn sie mittelfristig bei MT mithalten können wollen, die Fabric wechseln und haben dann den gleichen Malus im Desktop und Mobile. Die Entwicklung der Cachegrößen bei SC und WC Kernen zeigt, dass Intel mittels erhöhter Datenlokalität/Cacherate sich darauf bereits vorbereitet.
Dieses Jahr kommt Zen 3 mit spekulierten 2 stelligen Performancegewinnen. Aber prinzipiell sollten sie in ähnliche Engpässe laufen.

AVX512 ist mMn für single cycle fragwürdig. Da gibt es nur sehr sehr wenige Anwendungen, die davon siginfikant profitieren, so dass auch eine günstigere double cycle Implementierung sinnvoll wäre. Kostet weniger Transistoren. Ein guter Teil der wenigen verbleibenden potenziellen Anwendungen, die davon profitieren könnten, sind dann aber noch besser auf GPUs oder anderen ASICs aufgehoben.

Zu 10+:
das ist die Frage. Ob es generell "Müll" war oder nur schlechter bei hohen Taktraten wird. Ich halte es für wahrscheinlicher, dass letzteres gilt. Entsprechend weniger relevant für mobile Anwendungen.
Dass Tigerlake nur mit 4 Kernen in 10++ kommt, ist eher ein Indiz dafür, dass die Kerne selbst zu hungrig sind. Aber zugegeben auch nur ein Indiz.

Zossel

2020-03-05, 14:45:41

Wir werden sehen. Gerade der Scheduler hat ja eine Menge an Rattenschwanz in den Kern des Betriebssystems und eine Menge Legacy ode muss da angefasst werden. Und natürlich entsprechend validiert werden.

Ist das wirklich sooo schlimm? So eine Komponente sollte schon übersichtlich bleiben, weil sonst Probleme mit dem Ding quasi nicht lösbar sind.

Shink

2020-03-05, 16:36:30

Ich glaube in der Vergangenheit gab es da schon eine Menge Newcomer, die man als Intel-Killer ausgerufen hat. Doch nur die wenigsten haben ihre Produkte tatsächlich auf den Markt gebracht. Und noch viel weniger haben überlebt. Sorry, aber Ampere ist für Intel nur heiße Luft.
Das könnte das Problem sein. Für Intel.
Intel ist brauchbar bei klassischen Desktop-CPUs und nur dort. Alles was sie sonst machten - Software, GPUs, Mainframe-CPUs, APUs, mobile CPUs... naja.

Das ARM-Lizenzmodell ist schon eine Anlage. Wer will schon als Amazon, Google, Apple, Samsung oder Huawei von Intel abhängig sein?
Was Microsoft betrifft: Machen die nicht 2/3 ihrer Kohle mit Cloud-Geschichten ala Azure und Office 365?
Ich würde glauben, dass die mehr Interesse daran haben, ihre Betriebssysten-Altlasten loszuwerden um eigene Hardware für ihre Server effizient laufen lassen zu können als ihr Legacy-Zeug ohne Emulation weiter hinzubekommen.

Aber... üblicherweise bin ich bei so Vorhersagen zu tief in der Glaskugel versunken. Vielleicht kommt die Intel-Ablöse auch erst in 20 Jahren. Aber verdient hätten sie's, wenn sie sich nicht neu erfinden.

ChaosTM

2020-03-05, 17:07:09

Siehe auch Fujitsu A64FX low power Supercomputing Processor.

https://www.heise.de/newsticker/meldung/Cray-und-Fujitsu-bauen-gemeinsam-Exascale-Supercomputer-mit-ARM-Prozessoren-4587915.html

https://www.fujitsu.com/global/Images/supercomputer-fugaku.pdf

oder als Video inklusive einer kurzen Geschichtsstunde (Minute) über japanischen Supercomputer

eXhlDt2SD8o

Zossel

2020-03-05, 18:38:43

Intel muß IMHO einfach aufpassen das Ihnen das bisherige Geschäftsmodell nicht wegbricht. Also über große Stückzahlen mit lukrativen Produkten sich seine Top of the Pops Fabs zu finanzieren.

Samsung, TSMC machen einfach richtig Durchsatz mit Smartphone SOCs und diversen anderem Kram wo Intel einfach keine Rolle spielt um sich seine (neuen) Fabs finanzieren. Die angestammten X86 Märkte kommen von allen möglichen Seiten unter Druck, und Intel findet nur mäßig Antworten. Und ohne ein tragbares Geschäftsmodell was in die Zukunft zeigt ist auch bald Essig mit dem schönen Shareholdervalue. Gewinnen tun die die am meisten Kohle in seine (ausgelasteten) Fabs pumpen kann. Und der Kram wird nicht billiger werden.

Eine ARM-Server CPU die Intel die Rücklichter zeigt wäre noch vor nicht allzu langer Zeit einfach undenkbar gewesen.

gmb

2020-03-05, 19:01:28

Dass Tigerlake nur mit 4 Kernen in 10++ kommt, ist eher ein Indiz dafür, dass die Kerne selbst zu hungrig sind. Aber zugegeben auch nur ein Indiz.

Es kommt noch Tigerlake-H, welcher laut einer github Quelle ein Design mit 8 Kernen und GT1 Grafik ist. Das TGL-U Design mit 4+2 wird schon ein paar Jahre so feststehen, daraus ein Indiz zu basteln wäre gefährlich. Dann wäre es auch ein Indiz für die Sparsamkeit, wenn Intel 8 Willow Cove Kerne in 14nm unterbringen kann bei RKL-S, das Indiz wäre genauso unsinnig. Da wäre ich nicht so vorschnell an deiner Stelle.

robbitop

2020-03-06, 11:13:18

Es kommt noch Tigerlake-H, welcher laut einer github Quelle ein Design mit 8 Kernen und GT1 Grafik ist.
H ist doch aber 45 W.
Es geht um U - also 15W.
Und da sind 4 Kerne auffällig wenig. 8 Kerne in 45W - also Faktor 3 - ist ja auch schon mit 14nm und den alten Skylake Kernen Stand der Technik.

Das TGL-U Design mit 4+2 wird schon ein paar Jahre so feststehen, daraus ein Indiz zu basteln wäre gefährlich. Dann wäre es auch ein Indiz für die Sparsamkeit, wenn Intel 8 Willow Cove Kerne in 14nm unterbringen kann bei RKL-S, das Indiz wäre genauso unsinnig. Da wäre ich nicht so vorschnell an deiner Stelle.
Kommt immer auf die TDP an. Unterbringen kann man alles. AMD bringt 8 Kerne in 15 W unter. Und bis zu 64 Kerne aber natürlich mit Größenordnungen mehr TDP...

gmb

2020-03-06, 13:48:55

H ist doch aber 45 W.
Es geht um U - also 15W.
Und da sind 4 Kerne auffällig wenig. 8 Kerne in 45W - also Faktor 3 - ist ja auch schon mit 14nm und den alten Skylake Kernen Stand der Technik.

Kommt immer auf die TDP an. Unterbringen kann man alles. AMD bringt 8 Kerne in 15 W unter. Und bis zu 64 Kerne aber natürlich mit Größenordnungen mehr TDP...

Das ist richtig, nur haben die Y-Modelle nominell 9W und trotzdem 4 Kerne inklusive GT2 Grafik. Eine Frage der Taktfrequenz ist das immer. Bezüglich 8 Kerne und AMD muss man eben auch abwarten, wie hoch der Takt liegt und gleichzeitig wieviel die Kerne verbrauchen dürfen unter dem Takt. Und wie gesagt, die IPC bewegt sich im Bereich der Skylake Generation aus dem Jahr 2015.

robbitop

2020-03-07, 09:20:10

Auch Y Modelle mit 4C gibt es in 14 nm. :)

gmb

2020-03-07, 16:52:32

Auch Y Modelle mit 4C gibt es in 14 nm. :)

Und was sagt dir das jetzt? Dass man anhand der Kernanzahl nicht sehen kann, wie viel Kerne möglich wären mit einer bestimmten Architektur in einem bestimmten Power budget, wenn andere Faktoren wie die Größe, Ausbeute, Preis keine Rolle spielen würden. Außerdem vergisst Du in deiner Rechnung, dass es TGL-U mit 15W und 28W geben wird. Wenn 4C mit 15W möglich sind, wären 6C in 28W sicherlich kein Problem. Für AMD wären 4 Kerne wirklich zu wenig gewesen, da hätten sie quasi null Argumente gegen Tigerlake gehabt, oder sie hätten gleichzeitig eine größere GPU verbauen müssen. Intel auf der anderen Seite wird es sich leisten können, nochmal mit 4 Kernen anzutreten.

robbitop

2020-03-07, 17:39:14

Das sagt mir, dass die Fortschritte nicht so besonders groß sind. Ansonsten hätte man mehr verbaut.

gmb

2020-03-07, 23:12:28

Das sagt mir, dass die Fortschritte nicht so besonders groß sind. Ansonsten hätte man mehr verbaut.

Schön wie du ausweichst, anstatt wirklich darauf einzugehen. Es wäre manchmal schön, wenn du deine Brille absetzen könntest. Dass du Sympathien für AMD hegst, ist mir auch so schon klar.

ChaosTM

2020-03-07, 23:35:47

In dem Thread geht es eigentlich nicht um das übliche AMD vs Intel hickhack, sondern um ARM vs INTEL und AMD.
Für beide brechen zweifellos schwerere Zeiten an. Konkurrenz ist schon was schönes.

robbitop

2020-03-08, 08:44:45

Schön wie du ausweichst, anstatt wirklich darauf einzugehen. Es wäre manchmal schön, wenn du deine Brille absetzen könntest. Dass du Sympathien für AMD hegst, ist mir auch so schon klar.
Sachlich bleiben bitte. Ich habe keine Sympathien zu Unternehmen (sie sind keine Menschen). Ich hege Sympathie für einen ausgeglichenen Markt und starken Wettbewerb um als Kunde das beste P/L zu bekommen. Das ist hier aber nicht das Thema.
Ich sehe nirgends signifikante Lücken in meiner Argumentation, bin da aber offen für sachliche Gegenargumente. Aber bitte keine albernen Fanboyvorwürfe. Auf dem Niveau diskutiere ich nicht.

In dem Thread geht es eigentlich nicht um das übliche AMD vs Intel hickhack, sondern um ARM vs INTEL und AMD.
Für beide brechen zweifellos schwerere Zeiten an. Konkurrenz ist schon was schönes.

So ist es. :up:

gmb

2020-03-08, 16:39:49

Sachlich bleiben bitte. Ich habe keine Sympathien zu Unternehmen (sie sind keine Menschen). Ich hege Sympathie für einen ausgeglichenen Markt und starken Wettbewerb um als Kunde das beste P/L zu bekommen. Das ist hier aber nicht das Thema.
Ich sehe nirgends signifikante Lücken in meiner Argumentation, bin da aber offen für sachliche Gegenargumente. Aber bitte keine albernen Fanboyvorwürfe. Auf dem Niveau diskutiere ich nicht.

Dann musst Du auch mal sachlich bleiben und nicht ständig ausweichen. Egal was von Intel kommen kann, wird von dir zerredet und alles was AMD macht ist der heilige Gral und der einzig richtige Weg. ADL-S 8+8 ist ein big little Konzept aber es kann und darf ja nicht funktionieren, weil es heute nicht funktioniert. Tigerlake-U nur 4 Kerne, die Kerne müssen zu hungrig sein. Kabylake-U gab es anfangs nur mit 2 Kerne, deiner Logik nach hätte es 4 Kerne gar nicht geben dürfen. Ich kann keine Argumentation bei dir erkennen, weil du nichts von alldem beweisen kannst, das sind alles nur Annahmen. Du kannst auch nicht wissen, wie sich der Flächenbedarf bei AMD entwickeln wird, wenn sie mal auf Icelake IPC oder darüber angekommen sind.

robbitop

2020-03-08, 16:55:30

Bleibe beim inhaltlichen Thema. Auf so einem Niveau diskutiere ich nicht weiter. Ist jetzt auch der letzte Hinweis, danach melde ich Beiträge. Argumente zum Thema und nicht zu meiner oder deiner Person. Danke.

Was nicht releast ist kann man schlecht belegen oder das Gegenteil belegen. Das geht nur mit Indizien. Meine Argumente sind alle mit entsprechenden Indizien hinterlegt und auch dem Hinweis, dass es nicht zwangsweise so zutreffen muss. Und so lange nichts auf dem Markt ist, steht jedem seine Meinung bei der Spekulation zu.

Windi

2020-03-08, 21:50:09

Das Problem für Intel ist halt, das jeder verkaufte ARM-Server-Prozessor Intels Verkaufszahlen drückt und man weniger Geld für die eigene Weiterentwicklung hat.
Und gleichzeitig bedeutet es auch, das die Konkurrenz mehr Geld für zukünftige Projekte einnimmt.

Ähnliches sieht man ja auch auf dem Smartphone Markt. Hätte Intel für Apple und den anderen Herstellern eine CPU gehabt, dann würden sie heute diesen Markt wahrscheinlich auch monopolartig beherrschen. Hatten sie aber nicht. Stattdessen haben Firmen wie ARM und TSMC sich das Geschäft unter den Nagel gerissen und klug investiert. Ohne diese Einnahmen hâtte TSMC Intel wahrscheinlich nicht bei der Fertigung überholt.

Für AMD ist die Sache wohl etwas angenehmer. Im Serverbereich hat man noch nicht viel zu verlieren und die Fertigung ist eh nach TSMC ausgelagert.
Auch könnte ich mir vorstellen, das AMD ihre Chiplets einzeln verkaufen könnte, wenn einige Kunden unbedingt eigene Produkte entwerfen wollen. Und die Semi-Coustom Sparte hat man auch noch.

gravitationsfeld

2020-03-09, 05:56:02

Ich seh einfach nicht warum Leute auf ARM migrieren sollten. Da muesste schon ein deutlicher Performance-Vorteil da sein um das zu rechtfertigen. Ich trau den Performance-Zahlen einfach nicht. Und das weak memory model nervt auch bei ARM.

Zum Beispiel behauptet IBM auch immer, dass Power9 so toll sei und dann benchmarkt es mal jemand und x86 gewinnt durch die Bahn einfach wegen besser optimierter Software und Compilern. Selbst wenn die Hardware mithalten koennte.

Zossel

2020-03-09, 19:41:48

Ich seh einfach nicht warum Leute auf ARM migrieren sollten. Da muesste schon ein deutlicher Performance-Vorteil da sein um das zu rechtfertigen. Ich trau den Performance-Zahlen einfach nicht. Und das weak memory model nervt auch bei ARM.

Siehe hier: https://www.forum-3dcenter.org/vbulletin/showpost.php?p=12235241&postcount=10

"Make your typical Cloud Workload faster with less money, klick below"

Zossel

2020-03-10, 20:12:00

Anandtech hat Benchmarks mit der N1 Variante von Amazon (https://www.anandtech.com/show/15578/cloud-clash-amazon-graviton2-arm-against-intel-and-amd)

Graviton2 $2.464 / hour
EPYC 7571 $2.752 / hour
Xeon Platinum 8259CL $3.808 / hour

If you’re an EC2 customer today, and unless you’re tied to x86 for whatever reason, you’d be stupid not to switch over to Graviton2 instances once they become available, as the cost savings will be significant.

Gipsel

2020-03-11, 08:44:43

Exxtreme

2020-03-11, 09:21:28

Anandtech hat Benchmarks mit der N1 Variante von Amazon (https://www.anandtech.com/show/15578/cloud-clash-amazon-graviton2-arm-against-intel-and-amd)

Graviton2 $2.464 / hour
EPYC 7571 $2.752 / hour
Xeon Platinum 8259CL $3.808 / hour
Wobei das kein echter Benchmark ist. Die vergleichen nur Preise und beim Preis spielen auch noch andere Faktoren mit ein als nur reine Rechenleistung bzw. Stromverbrauch. Amazon wird zum Beispiel auch klar sein, dass die Nachfrage nach x86 viel höher sein wird als nach Arm. Weil schlicht dafür viel mehr Software existiert. Und höhere Nachfrage treibt den Preis nach oben.

y33H@

2020-03-11, 09:38:46

Warum kein Vergleich mit einem aktuellen Epyc sondern nur mit einem alten Zen1 Teil?Weil AWS das nicht wollte :P
It’s to be noted that we would have loved to be able to include AMD EPYC2 Rome based (c5a/c5ad) instances in this comparison; Amazon had announced they had been working on such deployments last November, but alas the company wasn’t willing to share with us preview access (One reason given was the Rome C-type instances weren’t a good comparison to the Graviton2’s M-type instance, although this really doesn’t make any technical sense).

Gipsel

2020-03-11, 10:34:30

Weil AWS das nicht wollte :P
It’s to be noted that we would have loved to be able to include AMD EPYC2 Rome based (c5a/c5ad) instances in this comparison; Amazon had announced they had been working on such deployments last November, but alas the company wasn’t willing to share with us preview access (One reason given was the Rome C-type instances weren’t a good comparison to the Graviton2’s M-type instance, although this really doesn’t make any technical sense).Das läßt ja fast vermuten, daß man dagegen nicht so gut aussehen würde. :rolleyes:

y33H@

2020-03-11, 10:38:18

Jupp, das wäre auch meine Vermutung.

amdfanuwe

2020-03-11, 11:03:20

Wenn man noch dieses beachtet:
However, what this also means, is that we’re quite in a bit of an apples-and-oranges conundrum of a comparison when talking about platforms which do come with SMT. When talking about 64 vCPU instances (“16xlarge” in EC2 lingo), this means that for a Graviton2 instance we’re getting 64 physical cores, while for an AMD or Intel system, we’d be only getting 32 physical cores with SMT. I’m sure there will be readers who will be considering such a comparison “unfair”,
Also 64C 7nm vs 32C+SMT 14nm.

Letztendlich entscheidet die Prozesstechnik und das Design der FP-, INT-, AVX-Einheiten, ALUs etc. über die maximale Leistungsfähigkeit. Da kann der ARM oder X86 Überbau im Endefekt keine Wunder wirken.

Ganon

2020-03-11, 11:36:20

Zum Beispiel behauptet IBM auch immer, dass Power9 so toll sei und dann benchmarkt es mal jemand und x86 gewinnt durch die Bahn einfach wegen besser optimierter Software und Compilern. Selbst wenn die Hardware mithalten koennte.

ARM hat hier den Smartphone- und SBC-Vorteil. Im Gegensatz zu einem IBM POWER System kann sich jeder ein ARM-basiertes System leisten. Das führte dann die letzten Jahre auch dazu, dass Software und Compiler dafür besser optimiert wurden. Davon profitieren dann natürlich auch Server.

Auch wenn x86 hier pro Kern immer noch deutlich mehr leistet, ist es unterm Strich für den Endkunden auch egal, wie sich die Leistung zusammensetzt. Hauptsache sie ist da. Ob nun mit 24 bzw. 32 Kernen + SMT oder mit 64 Kernen ohne SMT. Wenn es dann sogar noch billiger ist, warum nicht? Preis ist nämlich bei IBM so ein Problem.

Ich rechne aber auch nicht damit, dass die ARM Architektur hier jetzt große Verbreitung findet. Aber mal so ein Wachrütteln in die Runde ist auch nicht verkehrt.

Tobalt

2020-03-17, 06:50:29

marvell ThunderX3 schlägt Rome 64C deutlich bei 240W. ETA ende 2020 in 7nm

https://www.golem.de/news/marvell-thunderx3-arm-server-cpu-hat-96-kerne-und-384-threads-2003-147270.html

robbitop

2020-03-17, 08:06:50

][immy

2020-03-17, 08:52:29

Dann muss er aber schon gegen Milan antreten. :)

Ui und die „Benchmarks“ kommen direkt vom Hersteller, wie praktisch. :)
Mal sehen wie die Performance n der realen Welt so ist und nicht nur vom IHV ausgesuchte Cases getestet wurden.
Ja, Herstellerbenches sind immer klasse.
Lustig, eine 8-Faches 3200er DDR4 Interface. Das kann natürlich klappen mit den Benchmarks, aber ich schätze nur wenn bei Rome & co das Speicherinterface limitiert. Und besonders Sparsam ist das Ding auch nicht mehr, da gehen die Vorteile von ARM wieder absolut verloren.

btw, Schlägt Cascade Lake SP tatsächlich den Rome (64-Kerner) in einigen der Benches? Hätte jetzt eigentlich gedacht, das allein die Anzahl der Kerne dafür sorgt, das Cascade Lake dort locker abgehängt wird.

robbitop

2020-03-17, 09:07:52

Hat Rome nicht auch ein 8 Channel SI? Die Taktraten sind aber sicherlich geringer.

mboeller

2020-03-17, 09:21:32

wenn man den X2 mit einem Intel System vergleicht sieht man, dass die von einem ziemlich niedrigen Niveau bei der proKern Leistung starten. Da sind so starke Zuwächse noch leichter möglich, siehe AMD Bulldozer -> ZEN

X2 Benchmarks:
https://www.anandtech.com/show/12694/assessing-cavium-thunderx2-arm-server-reality

][immy

2020-03-17, 11:09:26

Hat Rome nicht auch ein 8 Channel SI? Die Taktraten sind aber sicherlich geringer.
oh, hatte 4 in Erinnerungen. Das war dann wohl eher der Threadripper

y33H@

2020-03-17, 11:12:41

Epyc 7002 (Rome) und ThunderX3 (Triton) haben jeweils 8x DDR4-3200, aber der Triton die niedrigeren Latenzen im Chip, was für die effektive Bandbreite hilft.

Rooter

2020-03-18, 12:13:38

SMT4? Daraus kann man dann wohl schliessen, dass die Pipeline ziemlich lang ist, oder? Anders würde das ja keinen Sinn machen.

MfG
Rooter

robbitop

2020-03-18, 12:16:01

Nicht zwangsweise IMO. Sondern eher, dass das Front End es nicht schafft, die Execution Ressources auszulasten oder aber das Backend relativ breit für das Front End ist.

][immy

2020-03-18, 12:16:02

SMT4? Daraus kann man dann wohl schliessen, dass die Pipeline ziemlich lang ist, oder? Anders würde das ja keinen Sinn machen.

MfG
Rooter
auch mit Kurzen Pipelines kannst du SMT4 theoretisch nutzen. Nicht jede Integer oder floating-point einheit ist halt auch immer ausgelastet. Eventuell kann man hier einfach mehr gleichzeitig nutzen.

Einen ähnlichen Ansatz hat AMD ja anfangs bei der Bulldozer Architektur verfolgt, wo sich mehrere cores Einheiten Teilen. Soweit ich noch weiß hat das bei Datenbanken herrlich funktioniert, aber nicht so sehr beim Rest der Welt.

davidzo

2020-03-18, 14:25:49

Epyc 7002 (Rome) und ThunderX3 (Triton) haben jeweils 8x DDR4-3200, aber der Triton die niedrigeren Latenzen im Chip, was für die effektive Bandbreite hilft.

Zu den Latenzen gibt es doch noch gar keine Daten, außer dass man einen monolithischen Ansatz versucht?!
Das macht scheduler und Numa-Architektur zwar einfacher, aber benötigt infinite ressourcen für den mesh interconnect, wenn man die core to core latenzen gleichzeitig auch noch niedrig halten möchte.
Insofern kann der monolitische Ansatz bei 96 Cores also nur ein tradeoff sein und wird zwangsläufig höhere nearest-core Latenzen mit sich bringen als z.B. epyc rome. Die Herstelleraussagen beziehen sich dann wieder auf Romes schlechteste Core to core Latenzen und nicht auf den Durchschnitt.
Bei 96 Cores und 4-fach SMT wird außerdem die cache Architektur nochmal interessant. Und dazu ist noch nichts bekannt. Thunder X2 hatte 32mbL3 der über einen Ringbus zusammenhielt und ziemliche miese dram memory Latency. Das wird man bei 96C nicht mehr machen können, da muss schon was meshmäßiges wie AMDs IF her.

y33H@

2020-03-18, 15:43:34

Marvell sagte das im Briefing.

Zossel

2020-03-18, 16:30:31

da muss schon was meshmäßiges wie AMDs IF her.

IF ist doch eine Fabric? Also kein Mesh?

Zossel

2020-03-18, 16:31:52

Nicht zwangsweise IMO. Sondern eher, dass das Front End es nicht schafft, die Execution Ressources auszulasten oder aber das Backend relativ breit für das Front End ist.

Was eigentlich ständig passiert wenn auf das DRAM zugegriffen wird.

robbitop

2020-03-18, 16:37:01

Was eigentlich ständig passiert wenn auf das DRAM zugegriffen wird.
So ist es. Zum Glück gibt es ausgeklügelte Cache Hirarchien und gute Prefetcher und Sprungvorhersage. :)
Aber genau das kostet u.A. Transistoren und Hirnschmalz - bei weniger aufwänderigen Cores kann man grundsätzlich mehr durch SMT holen. Man schaue sich mal den P4 oder den Atom an (der ja mangels Out of order execution noch schwächer ausgelastet war).

IF ist doch eine Fabric? Also kein Mesh?

Ich mag mich irren, aber ist "Fabric" nicht der übergreifende Begriff? Bitte korrigieren, wenn ich hier falsch liege. Ich habe es zumindest bis dato so aufgefasst.

Badesalz

2020-03-22, 21:18:34

AVX512 ist mMn für single cycle fragwürdig. Da gibt es nur sehr sehr wenige Anwendungen, die davon siginfikant profitieren, so dass auch eine günstigere double cycle Implementierung sinnvoll wäre. Kostet weniger Transistoren. Ein guter Teil der wenigen verbleibenden potenziellen Anwendungen, die davon profitieren könnten, sind dann aber noch besser auf GPUs oder anderen ASICs aufgehoben.Wobei wieviel Nachlauf überhaupt braucht eine Befehlssatzerweiterung von der Einführung bis zu allgemein nenneswerten Verwendung?

Ist AVX überhaupt schon soweit? :usweet:

Man muss aber auch sagen, für einen CPU-Coder ist es schon einfacher was nach SSE zu bringen oder dann auf AVX, als sich mit GPUs auseinanderzusetzen. Obwohl das ja viel mehr bringen würde.

CrazyIvan

2020-03-23, 17:50:12

@Robbi
Jo, Fabric ist wörtlich übersetzt das "Gewebe". AMD hat den Begriff sicher bewusst gewählt, weil er eben genau gar nichts über die Topologie aussagt.

unl34shed

2020-03-23, 18:50:43

Den Begriff Fabric hat AMD nicht "erfunden", sondern von den Netwerktopologien übernommen. Ein switched network wird auch als Network Fabric bezeichnet.
https://en.wikipedia.org/wiki/Switched_fabric

Zossel

2020-03-23, 19:10:06

Und so stellt sich Cray die Fabric zwischen verschiedenen Nodes vor:

https://fuse.wikichip.org/news/3293/inside-rosetta-the-engine-behind-crays-slingshot-exascale-era-interconnect/
https://www.nextplatform.com/2019/08/16/how-cray-makes-ethernet-suited-for-hpc-and-ai-with-slingshot/
https://www.hpcwire.com/2019/11/04/its-probably-a-duck/

davidzo

2020-06-29, 10:23:50

Ich denke die neuen Fujitsu CPUs gehören in diesen Thread.

Anandtech Artikel zum Fugaku Supercomputer: https://www.anandtech.com/show/15869/new-1-supercomputer-fujitsus-fugaku-and-a64fx-take-arm-to-the-top-with-415-petaflops

Slideshare zum a64FX: https://www.slideshare.net/insideHPC/arm-a64fx-and-postk-gamechanging-cpu-supercomputer-for-hpc-big-data-ai

Finde die Namensgebung echt irritierend, A64FX, das ist für mich ein Athlon 64 FX (FX-55 zum beispiel), keine brandneue 48core CPU :rolleyes:

Fujitsu A64FX

- 48 compute cores
- 2 or 4 assistant cores used by the operating system
- ARMv8.2-A SVE
- 2,0 (normal) / 2,2 GHz (boost)
- 32 GB HBM2 / 1024gb/s total
- 8 MB L2-Cache
- on-die Tofu-D interconnect (~400 Gbps)
- PCIe Gen3 x16
- TSMC 7 nm FinFET & CoWoS
- 8.786 billion transistors

https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=70669&stc=1&d=1593418988

Performance claims:
- 10x Power efficiency over leading c86 cores (aka xeon)
- Near Xeon Class Integer performance per core
- 2,7+ Tflops
- GPU-like performance in HPC, Big data, Atomobile, etc.
- 2x Bandwith per Core im Vergleich zum Sparc64-XIfx (und der hatte nur 32 Cores zu versorgen, ich denke HMC ist damit endgültig tot)

Epyc 7742 @ 2,25Ghz : 2.3 DP Tflop/s
A64FX: 2.7 DP Tflop/s

Das Teil scheint trotz nur 48cores und niedrigen taktraten eine echte Konurrenz für Rome zu sein, dabei hat der Basischip selbst gerade mal soviele Transistoren wie das Epyc i/o DIE, bzw. weniger als zwei 7nm chiplets zusammen.

Statt einem großen chip hat man wohl lieber viel Aufwand in das Package gesteckt, 4x HBM2 Stapel direkt an die Core Cluster angebunden und on chip einen extrem schnellen L1 von 11tb/s (aggregiert). Dazu das eigene tofu interconnect welches anscheinend so effizient ist dass man sich viele PCIe lanes sparen konnte und nur 16x Gen3 verbaut.

https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=70670&stc=1&d=1593418988

Vom Core Aufbau sind jeweils 12 Cores wohl in einer Core Memory Group gruppiert, welche je einen HBM2 stapel enthält. Das mit 1024gb/s ist also eher ein marketing claim, wes gibt keinen Core welcher gleichzeitig auf 1024gb/s zugreifen kann, jedes Cluster verfügt aber über 256gb/s. Es scheint also 4x numa nodes auf einem chip zu geben?
Die Aufteilung auf dem Dieshot ist aber schon sehr mehrkwürdig. Das sieht eher nach 44 Cores + 8 helper cores aus...

https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=70671&stc=1&d=1593418988

Badesalz

2021-07-28, 10:43:30

Ich denke die neuen Fujitsu CPUs gehören in diesen Thread.Na gut. Den M1 haben wir schon woanders recht gut abgehandelt :wink:

Nun... Es wurde hier viel über Effizienz und Leistung gesprochen. Irgendwie aber taucht der Fugaku mit bisschen über 7.6 Mio. Kernen weiterhin der mit Abstand schnellster, mit den dafür nötigen 29.9MW im ersten 10er der Green500 nicht auf...
Dafür sind 8 von den 10 Systemen mit Epyc bestückt :freak:
https://www.top500.org/lists/green500/2021/06/

davidzo

2021-07-28, 12:45:49

Na gut. Den M1 haben wir schon woanders recht gut abgehandelt :wink:

Nun... Es wurde hier viel über Effizienz und Leistung gesprochen. Irgendwie aber taucht der Fugaku mit bisschen über 7.6 Mio. Kernen weiterhin der mit Abstand schnellster, mit den dafür nötigen 29.9MW im ersten 10er der Green500 nicht auf...
Dafür sind 8 von den 10 Systemen mit Epyc bestückt :freak:
https://www.top500.org/lists/green500/2021/06/

Hast du mal aufs Datum geschaut? Der Post ist schon über ein Jahr alt ;D

Accelrator basierte Systeme verzerren ein bisschen das Bild. Das hat auch nichts mit Epyc zutun, die CPUs sind da nur nebensächlich. Alle Top 10 Systeme sind mit A100 ausgestattet.

Je nach workload braucht es aber auch reine general purpose CPU Systeme.

Fugaku hat 14.7 gigaflops-per-watt und war damit bei erscheinen (vor nvidia A100) auf dem neunten Platz im Efficiency rating, vergleichbar mit Accelerator Systemen mit nvidia P100.
Viel vom Power Verbrauch hat aber auch mit RAS Features und redundanz zutun, die bei Fugaku sehr im Vordergrund standen und bei GPU nodes praktisch ausgeblendet werden. der kleinere Aufbau mit A64FX test CPUs bei fujitsu Numazu erreichte zum Beispiel 16.87 Gflops/w. Das ist durchaus vergleichbar mit GPU Accelerator nodes von 2020 und für eine CPU basierte Lösung immer noch extrem effizient.

Badesalz

2021-07-28, 15:56:02

Hast du mal aufs Datum geschaut? Der Post ist schon über ein Jahr alt ;DHeute ist der Fugaku immernoch weit vorn ;)

Accelrator basierte Systeme verzerren ein bisschen das Bild. Das hat auch nichts mit Epyc zutun, die CPUs sind da nur nebensächlich. Alle Top 10 Systeme sind mit A100 ausgestattet.Jenachdem wie man es verstehen möchte ist es trotzdem ok ;) Der eine sagt die sind da trotz Epyc, der andere dank Epyc :rolleyes: Es sind trotzdem Epycs und nicht Xeons...

Die CPUs sind niemals nebensächlich ;) Wenn man schon nicht die Hauptrechenlast drauf hat, dann muss man sich um den massiven Durchsatz pro Rack kümmern. Und massiv auf Durchsatz sind z.B. die POWER ausgelegt. Ich bin mal gespannt, ob jemand nur FP64 braucht und ggf. schon so eine Kiste mit Power10 und MI200 plant. Für einfach nur interessierte wäre das auf jeden Fall spannend.

Viel vom Power Verbrauch hat aber auch mit RAS Features und redundanz zutun, die bei Fugaku sehr im Vordergrund standenJa das bleibt auch noch spannend... ob IBM sie nun verklagt oder sie sich doch noch irgendwie einigen.

smalM

2021-10-08, 12:01:08

AnandTech: The Ampere Altra Max Review: Pushing it to 128 Cores per Socket (https://www.anandtech.com/show/16979/the-ampere-altra-max-review-pushing-it-to-128-cores-per-socket)

The Altra Max is a lot more dual-faced than other chips on the market. On one hand, the increase of core count to 128 cores in some cases ends up with massive performance gains that are able to leave the competition in the dust. In some cases, the M128-30 outperforms the EPYC 7763 by 45 to 88% in edge cases, let’s not mention Intel’s solutions.

On the other hand, the 128 cores of the M128 don’t help at all, and actually using them can result in a performance degradation compared to the Q80-33, and also notable slower than the EPYC competition.

I think what we’re seeing here is that Ampere is hyper-optimising themselves into certain workloads. The Altra Max marketing is especially focused around cloud-computing and hyperscaler deployments of the chip.