PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Intel - Sapphire Rapids (Server/HEDT, 7 nm, "Golden Cove", Anfang 2023)


Seiten : [1] 2

davidzo
2021-04-30, 14:56:36
Da ich keinen SR Thread finden konnte und die Architektur anscheinend wenig mit Alderlake zutun hat, mache ich hier mal einen auf.
Bisher wurde schon einiges zu SR in anderen threads diskutiert, z.B. in Alderlake und im Chipfertigung-Fred.

https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=75175&stc=1&d=1619787695

https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=75176&stc=1&d=1619787695

Image credit to YuuKi_AnS/Bilibili https://space.bilibili.com/66644159/


Das volle De-lidding Video: https://www.bilibili.com/video/BV1G54y1b7NM



Bisher dachten wir SR wird aus vier Dies/Chiplets mit bis zu 14 Cores zusammengebaut. In die 420mm könnten aber auch mehr Cores reinpassen, wenn man das mal mit Tigerlake vergleicht der zu mehr als der Hälfte nur aus IGP besteht.
Cache und I/O wie PCIe, Memory channels sind anscheinend pro DIE aufgeteilt und per CXL miteinander verbunden. Wir haben also 2x DDR5 pro Chiplet, was eine gute Basis für 1-2-chiplet HEDT Auskopplungen ergäbe.

Zudem soll es Varianten mit biszu 64GB 64GB of HBM2e Speicher on package geben.
Wo der auf das package passt bzw. ob dafür zwei Chiplets weniger verbaut werden, also halbierte Coreanzahl oder sonstige Kompromisse ist noch nicht klar.


https://www.tweaktown.com/news/78666/intels-new-sapphire-rapids-cpu-pcie-5-0-tech-64gb-of-hbm2e-memory/index.html

Die Delidded CPU ist auf jeden Fall kein HBM2e enabled Modell und soll angeblich 28 Kerne haben. OEMs munkeln aber dass Intel bei allen Samples bisher abschtlich nur die Hälfte an Kernen aktiviert um sie über den Gesamtumfang zu täuschen.


Nun gibt es Gerüchte es sind doch 20 Kerne pro Die/Chiplet verbaut.

https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=75177&stc=1&d=1619787695

https://www.tomshardware.com/news/intel-sapphire-rapids-could-feature-80-cores


Intel scheint dieses mal auf jeden Fall in die Vollen zu gehen, Die Size 1680mm2 (4x 420) in 10SFE , vollflächig verlötet mit von unten vergoldetem heatspreader. 350W TDP wie man munkelt...



AMD Milan wirkt mit 672 mm² geradezu winzig dagegen, trotz des gigantischen 14nm i/o DIEs.



Dazu ein DDR5 SI und 80 Lanes PCIe Gen5. Das ist mehr Gesamtbandbeite als die 128 Lanes PCIeGen4 die AMD momentan in den 1P SKUs oder einem 2P System aufbietet, bzw. gleichviel wie die 160 Lanes spezialSKUs die Dell in einigen Epyc Servern anbietet.

fondness
2021-04-30, 15:29:10
AMD Milan wirkt mit 672 mm² geradezu winzig dagegen, trotz des gigantischen 14nm i/o DIEs.


Zähl nochmal nach. Alleine schon die 8 Chiplets haben 82mm² mal 8.

Gipsel
2021-04-30, 15:44:57
Bisher dachten wir SR wird aus vier Dies/Chiplets mit bis zu 14 Cores zusammengebaut. In die 420mm könnten aber auch mehr Cores reinpassen, wenn man das mal mit Tigerlake vergleicht der zu mehr als der Hälfte nur aus IGP besteht.Ich hatte die 4x14 Kerne als eine Variante mit teildeaktivierten Dies verstanden.
Cache und I/O wie PCIe, Memory channels sind anscheinend pro DIE aufgeteilt und per CXL miteinander verbunden. Wir haben also 2x DDR5 pro Chiplet, was eine gute Basis für 1-2-chiplet HEDT Auskopplungen ergäbe.Also im Prinzip ein Chipletmodell wie damals Zen1. Nur halt etwas enger gekoppelt als über das PCB des Packages.
Intel scheint dieses mal auf jeden Fall in die Vollen zu gehen, Die Size 1680mm2 (4x 420) in 10SFE , vollflächig verlötet mit von unten vergoldetem heatspreader. 350W TDP wie man munkelt...Praktisch alle ordentlich mit Indium verlöteten Heatspreader sind vergoldet. Sonst benetzt das nämlich nicht vernünftig.
Dazu ein DDR5 SI und 80 Lanes PCIe Gen5. Das ist mehr Gesamtbandbeite als die 128 Lanes PCIeGen4 die AMD momentan in den 1P SKUs oder einem 2P System aufbietet, bzw. gleichviel wie die 160 Lanes spezialSKUs die Dell in einigen Epyc Servern anbietet.Das sind keine Spezial-SKUs. Das geht mit allen 2P Epycs (außer 1st Gen), wenn das Board entsprechend verdrahtet ist.

===========================

AMD Milan wirkt mit 672 mm² geradezu winzig dagegen, trotz des gigantischen 14nm i/o DIEs.Zähl nochmal nach. Alleine schon die 8 Chiplets haben 82mm² mal 8.Gemeint sind vermutlich nur die 7nm Dies (da 14/12nm im Vergleich recht billig ist und wohl keine Kapazitätsengpässe hat). Und dann ist er recht nah dran.

Leonidas
2021-04-30, 17:08:35
Da ich keinen SR Thread finden konnte und die Architektur anscheinend wenig mit Alderlake zutun hat

Die Rechen-Kerne von SR sind wohl "Golden Cove". Aber der Rest ist natürlich massiv abweichend.

davidzo
2021-04-30, 17:32:47
Zähl nochmal nach. Alleine schon die 8 Chiplets haben 82mm² mal 8.

Tatsächlich, das sind nur die 7nm Chiplets. Hatte ich ungeprüft übernommen, sind also mit i/o Die rund 1100mm2. :wink:


Praktisch alle ordentlich mit Indium verlöteten Heatspreader sind vergoldet. Sonst benetzt das nämlich nicht vernünftig.
Tatsächlich. Die Packages/Pads, Pins ja auch. Enig oxidiert halt nicht und ist halt einfach immer besser zu verlöten.


Das sind keine Spezial-SKUs. Das geht mit allen 2P Epycs (außer 1st Gen), wenn das Board entsprechend verdrahtet ist.
Die boards sind Spezial SKUs. Das kann nicht jede Delle, sondern nur die dafür gebauten SKUs. Mit nem normalen supermicro board kannst du das nicht reproduzieren.



Die Rechen-Kerne von SR sind wohl "Golden Cove". Aber der Rest ist natürlich massiv abweichend.

Sehr ähnlich scheinen die wirklich nicht zu sein. Schon beim Instruction Set gehen die weit auseinander, Alderlake kann nicht mit TSX, AMX, CET, AVX-512-VP2, AVX-512-bf16 etc. umgehen, während SR kein Keylocker, EHFR und andere CLient Technologien bietet.
Cache sizes, Fabric, Speichercontroller, PCIe gen etc. sind auch unterschiedlich.
Schon Icelake SP hat ja kaum wenig mit Icelake gemein, die FPU ist zum Beispiel eine komplett andere bei den Serverprozessoren.

Nightspider
2021-04-30, 17:59:39
Klingt auf jeden Fall monströs. Ich bin da aber mal auf die Taktraten gespannt.

Bis zu 80 Kerne so eng beieinander in ""nur"" 10nm Fertigung dürfte viel Hitze und Stromverbrauch bedeuten.

Genoa mit 96 Kernen in 5nm und wahrscheinlich recht hohen Taktraten wird es da wahrscheinlich gar nicht so einfach haben.

IPC sollte bei beiden jedenfalls deutlich höher sein als bei aktuellen Modellen. Wobei die IPC bei Rocket Lake ja auch enttäuscht hat. (Zumindest Gamer)

Leonidas
2021-04-30, 18:13:14
Sehr ähnlich scheinen die wirklich nicht zu sein. Schon beim Instruction Set gehen die weit auseinander, Alderlake kann nicht mit TSX, AMX, CET, AVX-512-VP2, AVX-512-bf16 etc. umgehen, während SR kein Keylocker, EHFR und andere CLient Technologien bietet.
Cache sizes, Fabric, Speichercontroller, PCIe gen etc. sind auch unterschiedlich.
Schon Icelake SP hat ja kaum wenig mit Icelake gemein, die FPU ist zum Beispiel eine komplett andere bei den Serverprozessoren.

Interessant. Etwas anderen Instruktions-Sets sind im Server-Bereich nicht unähnlich, aber in dieser Masse ist dies eine ganz andere Hausnummer. Scheint so, als würde Intel diese Entwicklung entkoppeln. Deswegen auch eigene Codenamen und nicht ein weiterer -SP.

Skysnake
2021-04-30, 18:55:43
Server hat halt quasi nichts mehr mit Client am Hut.

Ich hol auf jeden Fall mein Popcorn und lese hier mal still mit.

CrazyIvan
2021-04-30, 19:37:48
Wird nicht ein erheblicher Teil der unterschiedlichen Instruction Sets darin begründet sein, dass die little cores von ADL und damit dieser in Summe AVX512 und Co. nicht unterstützt?
Und der Rest ist möglicherweise nur Differenzierung, obwohl die Kerne identisch sind?

Leonidas
2021-05-01, 03:22:23
Das ist eine Frage, die hier zu klären sein wird: Geht es auf dieselben Kerne zurück (mit Anpassungen) - oder macht man eine unabhängige Fortentwicklung?

Zossel
2021-05-01, 08:32:47
Wird nicht ein erheblicher Teil der unterschiedlichen Instruction Sets darin begründet sein, dass die little cores von ADL und damit dieser in Summe AVX512 und Co. nicht unterstützt?

Das lässt sich wunderbar per Software lösen, nachdem einer der Little Core eine illegal Instruction Exception geworfen hat wird der auslösende Prozess mit mehr auf einen little Core ausgeführt.

Und mittlerweile muss man ja für solche Kisten immer weniger Rücksicht auf Windows nehmen und darauf warten bis MS das in sein "OS" eingebaut hat.

CrazyIvan
2021-05-01, 09:07:42
@Zossel
Bist Du Dir da sicher oder ist das Spekulation?
Nach meinem Verständnis ist es so, dass für ein Feature wie AVX512 ein separater Codepfad generiert wird - entweder explizit vom Entwickler oder implizit vom Compiler. Zu Programmstart werden die Feature Flags der CPU abgefragt und der entsprechende Codepfad findet Anwendung. In dem Moment wird davon ausgegangen, dass das Feature während der gesamten Laufzeit zur Verfügung steht.
Sollte bei ADL das AVX512 Flag gesetzt sein, dann würde das bei bestehendem Code erst einmal zu Laufzeitfehlern führen, wenn der "falsche" Kern Anwendung findet. Das wäre in meinen Augen hinsichtlich Kompatibilität keine Option für Intel.
Um zur Laufzeit auf eine Änderung des Feature-Sets reagieren zu können, muss Software mal mindestens neu kompiliert werden. Und es bedarf eines guten Zusammenspiels mit dem Scheduler, um solche Prozessverschiebungen nicht zum Performance Alptraum werden zu lassen.
Ich lasse mich aber auch gern belehren, wenn ich das völlig falsch einschätze.

Skysnake
2021-05-01, 09:38:29
Ja, das ist etwas komplexer.

Man kann gegen eine entsprechende Architektur komponieren und dann kann -das ist der Normalfall- muss es aber keinen Check geben. Insbesondere wenn intrinsics/Assembler Parts gibt, muss das nicht so sein. Vor allem aber shared libs sind dann so ein Thema...

Wenn man gegen mehr als eine Architektur kompiliert, dann muss aber bei jeder Verzweigung wo man unterschiedliche Architekturen unterstützt ein expliziter Check gemacht werden, was durchaus Performance kosten kann. Daher will man das eigentlich vermeiden wenn möglich. Die Binaries werden da auch schnell ziemlich groß...

Edit:
Wegen dem sheduler kann man sich z.b. die FX Serie von Fujitsu anschauen. Die haben zwar kein Big little, aber sie verwenden manche Cores fürs OS/Kernel und die meisten nur für die User Applikationen.

Das hat deutliche Vorteile bei Latenzen und OS noise.

MS könnte sowas auch durchaus einfach implementieren. Gibt ja mehr als genug Zeug was von denen das System voll müllt

Zossel
2021-05-01, 10:54:22
Bist Du Dir da sicher oder ist das Spekulation?

Schon vor Ewigkeiten wurde durch eine entsprechende Behandlung der Illegal Opcode Traps eine Möglichkeit geschaffen FPU-Code auf CPUs auszuführen die keine FPU haben.
Linux schaltet z.b. die FPU für jeden neuen Prozess ab und sichert solange nicht den State der FPU bei einem Contextswitch bis ein FPU-Opcode abgefangen wurde.

Zossel
2021-05-01, 11:23:40
Wegen dem sheduler kann man sich z.b. die FX Serie von Fujitsu anschauen. Die haben zwar kein Big little, aber sie verwenden manche Cores fürs OS/Kernel und die meisten nur für die User Applikationen.

Wird allerdings blöd wenn der Kernel all Cores auslasten könnte oder der Userspace alle Cores auslasten könnte. Ich bin kein Freund von solchen unflexiblen Konstruktionen, möglicherweise macht das für Corner Cases Sinn.

Zurück zu big/little, wenn die Caches von dem Little Core mit dem Big Core geshared sind könnte man sich vorstellen im Kernel die top half IRQ-Handler nur auf dem dem Little Core zu lassen und den korrespondierenden bottom half auf den korrespondierenden Big Core zu shedulen.
Nur mal so als Idee in den Raum gestellt, die Idee kann auch totaler Müll sein.

Wenn ich mir den Die-shot vom Zen 3 so anschaue https://wccftech.com/amd-ryzen-5000-zen-3-vermeer-undressed-high-res-die-shots-close-ups-pictured-detailed/ wäre da evtl. Platz für einen kleinen Int-only-In-Order-Core der die L[12][DI]$ und den TLB$ mit nutzt.

Zossel
2021-05-01, 11:31:19
Also im Prinzip ein Chipletmodell wie damals Zen1. Nur halt etwas enger gekoppelt als über das PCB des Packages.

Wäre ja nicht das erste Mal das Intel über ein Konzept von AMD (NUMA) ab lästert um es kurze Zeit später selbst zu bringen.

KarlKastor
2021-05-01, 12:19:58
Die Frage ist wie bei Intel die Latenzen aussehen.
Zwei Dies auf einem Package haben sie auch schon zu Pentium 4 und Core 2 Zeiten gemacht.
Dort hat AMD auch gut hingelangt.


Die Kritik betrifft ja die Performance und da war Zen 1 nun mal schlecht. Das waren Latenzen die Intel bei der inter-Socket Kommunikation hatte. Erst Rome war wirklich durchgängig konkurrenzfähig. Dann allerdings auch schon größtenteils an Intel vorbei.

Also erstmal abwarten ob Intel die Latenzen mit EMIB deutlich niedriger bekommt.

reaperrr
2021-05-01, 13:28:55
Bis zu 80 Kerne so eng beieinander in ""nur"" 10nm Fertigung dürfte viel Hitze und Stromverbrauch bedeuten.

Die Gerüchteküche hat schon vor Monaten mal gesagt (ob Charlie, RedGamingTech oder MLID weiß ich nicht mehr), dass mal bis zu 72 Kerne geplant waren (also vmtl. 4 20C-Dies mit je 2 deaktivierten), SR Stand jetzt aber (erstmal?) nur mit bis zu 56 launchen soll, so wie es auch Anfang April berichtet wurde (https://videocardz.com/newz/intel-sapphire-rapids-to-feature-up-to-56-cores-350w-tdp-and-64gb-of-hbm2-memory).
Ob das über kleinere 14C-Dies realisiert wird, oder die 10nm-Ausbeute immer noch so schlecht ist, dass entweder aus Defekt- und/oder Verbrauchs-/Takt-Gründen 6 der 20 Kerne deaktiviert werden müssen, wird man sehen.
Ich tippe auf letzteres, denn wenn schon für die 56C-Varianten 350W veranschlagt werden, kann man sich ausrechnen, wie "konkurrenzfähig" die Taktraten in 350 - max. 400W ausfallen würden, wenn man 72-80 Kerne aktiviert.

Will nur sagen: Darauf, dass SR tatsächlich mit Modellen mit 72+ aktiven Kernen launcht, würde ich trotz dieser Bilder und Infos Stand jetzt keinen Cent setzen. Als limitierte Sonder-SKU für bestimmte Supercomputer oder Premium-Kunden will ich nicht ausschließen, aber wundern wenn's selbst dort weniger wird, würde ich mich nicht.

Skysnake
2021-05-01, 14:42:10
Im HPC hast du eigentlich nie topend CPUs. Du hast ja immer Cluster und viele Nutzer. Da kommt es also fast immer auf die Clusterperformance an und nicht darauf was man aus einem Knoten bekommt. Preis/Peak ist bei den Mittelklasse bis obere Mittelklasse immer besser. Und fast noch wichtiger Preis/Mem Bandbreite ist viel besser.

davidzo
2021-05-02, 02:29:17
Wird nicht ein erheblicher Teil der unterschiedlichen Instruction Sets darin begründet sein, dass die little cores von ADL und damit dieser in Summe AVX512 und Co. nicht unterstützt?
Und der Rest ist möglicherweise nur Differenzierung, obwohl die Kerne identisch sind?

Die FPUs sind auf jeden Fall völlig unterschiedliche Designs. Dass da im clientbereich was auf sämtlichen SKUs deaktiviert ist mag ich anhand der riesigen größe die die FPU auf dem DIE einnimmt nicht glauben.

Das ging schon mit Skylake SP auseinander, der neben den beiden FMAs an Prot 0+1 die sich für AVX512 zusammenschalten lassen noch eine zweite FMA an port5 hatte die beim Client-Design fehlte.

Seitdem haben wir zwei verschiedene Designteams im mobile und im client, die z.B. cache-systeme und FPU nur für ihren Anwendungszweck hin entwicklen.
Ich denke schon dass Intel in der Hinsicht so modular denkt, das solche FUnktionsblöcke ausgetauscht werden können, bzw. es ein "Core" Design als ganzes so nicht gibt, sondern eben mehrere Teildesigns die mit einander kombiniert bzw. einzeln geändert werden können.


Sehr interessant ist es doch, dass gerade im Serve+HPC Bereich Intel kein Wort über big little verliert.
Dabei geht es da viel stärkler um Multithreading und Energieeffizienz als im Clientbereich.

Also entweder die kleinen cores sind echt nur zum energiesparen und werden ab mittlerer Last gar nicht mehr benutzt, was sie für server mit sustained loads überflüssig macht. Oder big little skaliert nicht so toll mit vielen kernen, dass man bei 16Core aufwärts CPUs lieber darauf verzichtet.

Nightspider
2021-05-02, 03:29:52
Also entweder die kleinen cores sind echt nur zum energiesparen und werden ab mittlerer Last gar nicht mehr benutzt, was sie für server mit sustained loads überflüssig macht. Oder big little skaliert nicht so toll mit vielen kernen, dass man bei 16Core aufwärts CPUs lieber darauf verzichtet.
Larrabee hat ja gezeigt das viele kleine CPU Kerne nicht so pralle sind.

Auch wenn ARM teilweise ganz gut fährt damit.

Die FPUs sind auf jeden Fall völlig unterschiedliche Designs. Dass da im clientbereich was auf sämtlichen SKUs deaktiviert ist mag ich anhand der riesigen größe die die FPU auf dem DIE einnimmt nicht glauben.

Das ging schon mit Skylake SP auseinander, der neben den beiden FMAs an Prot 0+1 die sich für AVX512 zusammenschalten lassen noch eine zweite FMA an port5 hatte die beim Client-Design fehlte.

Seitdem haben wir zwei verschiedene Designteams im mobile und im client, die z.B. cache-systeme und FPU nur für ihren Anwendungszweck hin entwicklen.
Ich denke schon dass Intel in der Hinsicht so modular denkt, das solche FUnktionsblöcke ausgetauscht werden können, bzw. es ein "Core" Design als ganzes so nicht gibt, sondern eben mehrere Teildesigns die mit einander kombiniert bzw. einzeln geändert werden können.


Ist das ganze Zeug sehr von Vorteil im Server-Bereich oder sammelt man da nur Peanuts?
Kann das schwer einschätzen da ich mich da gar nicht auskenne.

Zieht Zen4 da teilweise mit bei solchen Extensions oder bietet Alternativen oder setzt AMD gerade noch nur auf Rohpower?

davidzo
2021-05-02, 19:39:10
Ist das ganze Zeug sehr von Vorteil im Server-Bereich oder sammelt man da nur Peanuts?
Kann das schwer einschätzen da ich mich da gar nicht auskenne.

Zieht Zen4 da teilweise mit bei solchen Extensions oder bietet Alternativen oder setzt AMD gerade noch nur auf Rohpower?
Ich bin kein Entwickler oder Devops, daher kann ich auh nur mutmaßen und interpretieren was ich mitkriege.
Es gibt Edge Cases die wohl gewaltigen Code speedup sehen, nicht ein bisschen sondern um Potenzen. Aber das sind eben nur edge cases und die würden wohl auch auf einer GPU sehr schnell laufen.

Wenn man nach Leuten wie Linus Torvalds geht werden CPU-Befehlssatzerweiterungen wie AVX-512 und Bfloat16 eher als ein Störfeuer gegen nvidia gesehen und nicht als ein nennenswerter Beitrag zur Leistungssteigerung von general Purpose CPUs.

Diese gigantischen SIMD Einheiten für AVX-512 wurde im Rahmen von Larabee / Knights Landing entwickelt, was ja bekanntlich gescheitert ist. Eine Manycore Pentium CPU mit einer gigantischen SIMD Einheit für AVX-512 drangepflanscht. Damals wollten die Manager wohl vor allem Nvidias Zugewinne im HPC Sektor eindämmen. Dass bei einigen Installationen mehr Geld für GPUs verwendet wurde als für CPUs war denen wohl ein Dorn im Auge.
Intels erster Anlauf zu massive Instruction-level parallelism war bereits Itanium mit einer VLIW Architektur und krachend gescheitert. Dass AMD und nvidia dann 10 Jahre später im HPC solche erfolge feiern würde hat die Intel-Bosse wohl nachhaltig verärgert. Leider ist das scheitern von Larabee wohl auch darauf zurückzuführen dass das Ding unsinnigerweise eben auch eine CPU sein sollte. Es hat weitere 10 Jahre gebraucht bis Intel mit XE nun endlich eingesehen hat dass man vielleicht auch mal eine GPU baut anstatt das ganze in einer CPU lösen zu wollen.

y33H@
2021-05-14, 00:51:14
uArch-Talk auf der HC im August:

https://hotchips.org/advance-program/

CrazyIvan
2021-06-13, 11:13:20
Sapphire Rapids Die shots: https://wccftech.com/intel-next-gen-10nm-esf-based-sapphire-rapids-xeon-cpu-die-shots-leak-out-up-to-56-active-golden-cove-cores/?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+Wccftechcom+%28WCCFtech.com%29

Nix überraschendes. 4x4 Anordnung, wobei ein Quadrant Segment den IMC beherbergt. Von den 15 Kernen sind nur bis zu 14 aktiviert - aus Yield Gründen.

davidzo
2021-06-13, 12:00:29
Mal wieder sehr interessant, vor allem die Anordnung mit dem IMC-switch. Intel hat anscheinend eine vorliebe für asymetrische und leicht weirde designs. Aber ist der HBM Controller gleichzeitig der DDR5 DRAM Controller? Wo sonst ist der dann? wirkt auf mich sehr kompakt der angebliche IMC+HBM Controller. eigentlich sehen die "Emib" bridges eher aus wie ein DRAM Controller, aber so weit vom IMC-switch entfernt? :uponder:
oder wandert der DRAM Controller mit SR wieder in den Chipsatz?

Jim Keller sagte mal 'A CPU has to look good. If it doesn't look good in the floorplan and on paper, it can't be good.' frei erinnert. Das war wohl bezogen auf kuriose designs wie Cooperlake, die schon im floorplan chaotisch aussehen und rocketlake der schon auf dem papier imbalanced ist (cachesystem underpowered).
Ob Jim SR approven würde? So richtig gut sieht es imo nicht aus, wobei immerhin Meilen besser als CL.
Jim hat aber wohl eher an den Konzepten für danach gearbeitet.

Man fragt sich wirklich wo die auf dem package noch HBM unterbringen wollen. Am Rand liegt ja schon der heatspreader auf und da sind auch noch einige SMD Capacitors. Andererseits sind HBM stacks auch nicht groß, kaum größer als der FPGA dort. Längs würden sie vllt. daneben passen wenn man die capacitors entfernt.
Es ist etwas weird dass der Kleber für den Heatspreader direkt neben den DIEs ist, wo gar keine direkte auflagefläche ist und nicht außen wo der Absatz ist. Das heißt dass außen ein luftspalt ist bzw. eben nicht festgeklebt und dafür aber direkt neben den Dies ein großes volumen mit Kleber aufgefüllt ist. Vielleicht ist das die Stelle wo der HBM hinkommt?

Oder aber die HBM enabled SKUs haben nur 2x oder gar nur 1x DIE?

EDIT: So wird es sein, die HBM enabled SKUs haben nur 2 DIES, maximal 30 Cores, praktisch wohl eher 28C. HBM2e hat 300-512gb/s pro stack. Die geleakte Folie von Videocards spricht von 1tb/s. Das läuft auf 2 Stacks hinaus, also auch nur 2 DIEs.
EDIT2 Was wieder für 4 DIEs spricht sind die 64gb Kapazität: Da ein Stack 12hi afaik bei 24gb maxed zumindest laut Wikipedia und die meisten nur 8hi / 16gb sind. Aber lediglich 256gb/s pro Stack ist nur HBm1 Niveau von 2015. Also doch HBM2e mit 32gb per stack oder gar ein extrem früher HBM3?

Oder die HBM Enabled SKUs werden erst mit der Verfügbarkeit von HBM3 nachgereicht (Q4 2022), haben nur 2 DIEs und 2 Stacks.
Intel hat ja eine lange Geschichte mit dem Nachreichen von Features, vor allem beim Speicher. Skylake SP stand auf den roadmaps auch zuerst mit Optane support, schließlich musste man aber 2 Jahr später Cascade lake nachschieben weil die implementierung wohl noch nicht richtig funktionierte.

KarlKastor
2021-06-14, 08:32:29
400 mm² per Tile. Nicht gerade klein, aber auch nicht unbedingt unerwartet.
https://mobile.twitter.com/AnsYuuki/status/1403724256295460868
https://mobile.twitter.com/AnsYuuki/status/1403699835883171843

Edit:
Ups würde oben schon verlinkt. Dachte das wären nochmal ein Satz neuer Bilder.

davidzo
2021-06-25, 00:18:47
SR wird aus zwei verschiedenen Chiplet Typen zusammengebaut: https://mobile.twitter.com/Olrak29_/status/1405131713706037252/photo/1

Hier Dieshots als Proof:
https://mobile.twitter.com/chiakokhua/status/1405240413821173760/photo/1


aufwändig!

CrazyIvan
2021-06-26, 07:44:57
Interessant!
Während AMD bei der Minimierung der notwendigen Dice immer noch jeden Groschen zählt , scheint Intel sich sowas einfach "gönnen" zu können.

w0mbat
2021-06-26, 11:28:20
Oder sie schaffen es nicht besser.

Blediator16
2021-06-26, 12:02:26
Interessant!
Während AMD bei der Minimierung der notwendigen Dice immer noch jeden Groschen zählt , scheint Intel sich sowas einfach "gönnen" zu können.

OH ja die Massen an 10nm CPUs auf dem Markt ist einfach nur krass, dass sie sich einfach mal gönnen riesen dice raus zu hauen

KarlKastor
2021-06-26, 12:06:13
OH ja die Massen an 10nm CPUs auf dem Markt ist einfach nur krass, dass sie sich einfach mal gönnen riesen dice raus zu hauen

Was will uns der Autor mit diesem Post sagen?

reaperrr
2021-07-01, 01:02:17
Produktionsbeginn erst Q1/22, "ramp" und damit potentiell auch erste Auslieferungen erst Q2/22:

https://www.nextplatform.com/2021/06/29/intel-delays-sapphire-rapids-server-chips-confirms-hbm-memory-option/

Intel bleibt also voll auf dem Kurs der letzten Jahre =)

=Floi=
2021-07-01, 01:08:05
Auch mit gelsinger geht es nicht sofort. Nur kann er die weichen für die nächsten jahre stellen und eventuell schwenkt man eher auf EUV.

CrazyIvan
2021-07-01, 05:04:20
OH ja die Massen an 10nm CPUs auf dem Markt ist einfach nur krass, dass sie sich einfach mal gönnen riesen dice raus zu hauen
Ironie = Der Unterschied zwischen wörtlicher Bedeutung und wirklicher Bedeutung.
Ich empfehle an der Stelle den Konsum von Reality Bites (https://m.imdb.com/title/tt0110950/?ref_=nv_sr_srsg_0).

Skysnake
2021-07-01, 05:40:46
Ramp erst in 2022 ist katastrophal. Intel produzierte mal so für 6 Monate vor bevor sie in den Markt gingen.

Als erstes müssen Sie ja auch Aurora am Argon NL bringen und SupermucNG bekommt auch 480(?) Stück. K das sind jetzt nicht so viele aber bis dahin wird es auch so noch den einen oder anderen Deal geben. Sprich vor Q3 eher Q4 2022 würde ich im Allgemeinen Handel nichts/nicht viel erwarten.

CrazyIvan
2021-07-01, 06:01:32
Gerüchte zu Performance & Verbrauch: https://wccftech.com/intel-10nm-sapphire-rapids-xeon-cpu-performance-rumors-hbm-variants-slip-to-2023-only-56-cores-to-compete-against-amd-epyc-genoa/

Das erste Spinnennetz Diagramm ist besonders underwhelming. Gegen Genoa Milan bei der harten Währung INT & FP so lala auf Augenhöhe und ansonsten nur Special Workloads. Das zweite sieht nach Desaster gegen Zen 4 aus.
Heap of salt und so natürlich...

mboeller
2021-07-01, 06:59:12
Das erste Spinnennetz Diagramm ist besonders underwhelming. Gegen Genoa bei der harten Währung INT & FP so lala auf Augenhöhe und ansonsten nur Special Workloads. Das zweite sieht nach Desaster gegen Zen 4 aus.
Heap of salt und so natürlich...

Das erste Spinnennetz ist aber vers. 64c Milan. Erst das 2. Spinnennetz ist gegen 96c Genoa.

CrazyIvan
2021-07-01, 09:01:09
Sorry, meinte ich. Wird editiert.

Denniss
2021-07-01, 10:11:45
Pat kann halt auch nicht zaubern. Der muß erstmal gründlich den Mist der Vorgänger durchputzen und vieles neu sortieren/aufbauen.

CrazyIvan
2021-07-04, 09:46:51
So so, anscheinend will Intel mit SPR ins HEDT zurück - so richtig, ernsthaft, in echt jetzt. Nicht vor Q2/22 allerdings.

https://videocardz.com/newz/intel-sapphire-rapids-hedt-appears-in-a-roadmap-with-w790-chipset

w0mbat
2021-07-04, 11:17:52
Und zwar Ende Q2 2022, also noch ca. ein Jahr hin. mal sehen, ob sie damit einem 5950X schlagen.

Nakai
2021-07-04, 18:59:38
Ja, klingt alles ganz spannend. Ich warte eher auf Zen4 ab. Das wird mindestens noch eine Ecke spannender.

HOT
2021-07-04, 20:10:56
So so, anscheinend will Intel mit SPR ins HEDT zurück - so richtig, ernsthaft, in echt jetzt. Nicht vor Q2/22 allerdings.

https://videocardz.com/newz/intel-sapphire-rapids-hedt-appears-in-a-roadmap-with-w790-chipset
Die Roadmap ist ja offenbar schon wieder veraltet. Sowohl zu SR als auch zu ADL gab es bereits wieder Verschiebungsgerüchte. SR soll erst in 1. Halbjahr 22 in Produktion gehen (also nicht erst Quartal wie es aussieht), also deutlich später als in der Roadmap und ADL soll vielleicht aufgrund eines Fehlers noch ne Ehrenrunde machen. Mal sehen, was da dran ist.

Leonidas
2021-07-09, 09:11:00
CapFrameX weist auf die Codenamen-Quelle hin:
https://twitter.com/CapFrameX/status/1412659946613772290

... ergibt Potential für noch dutzende weiterer Intel-Codenamen

CrazyIvan
2021-07-09, 11:19:24
Nice! ;)
"Does that mean it goes uphill or downhill at Intel?"
Hoffentlich lassen sie "Mile 85.3 - Zoroaster Rapid" nicht aus.

davidzo
2021-09-01, 11:10:29
Wow, wenn dass die finalen Base-clocks sind, dann sieht es nicht gut aus für Golden Cove.
Server ist ja in der Regel näher am Sweetspot als Desktop, aber meistens noch über mobile.

https://twitter.com/yuuki_ans/status/1428295864351485957/photo/1


Wenn das so wird, dann sind die CPUs vielleicht im Turbo großartig, aber in sustained Loads vllt. sogar langsamer als Icelake SP?

Ich tippe ja eher darauf dass das ES sind, wobei vom Timing und Verbreitung eher QS. Da kann noch ein bisschen Takt dazukommen...

dildo4u
2021-11-15, 16:11:51
Neue SR Folien zur Supercomputing 2021.



https://www.hardwareluxx.de/index.php/news/hardware/prozessoren/57522-intels-sapphire-rapids-xeons-kommen-mit-bis-zu-64-gb-hbm2e.html

Lehdro
2021-11-15, 19:13:38
Im HEDT wird man HBM2e wohl eher nicht sehen, richtig?

memory_stick
2021-11-15, 19:36:28
vermutlich nicht, nein. Die HBM Varianten werden für HPC gedacht sein, und nicht ins Prosumer Segment wandern, analog den XCC dies früeher. Vermutlich schon rein wegen Yield/Packaging und Fertigungskapazität.

Bin gespannt ob Sie überhaupt den Vollausbau mit 56C im HEDT bringen. Durch Golden Cove und massig Cache sollte SPR durchaus konkurrenzfähig sein zu Chagall (Zen3 TR), wenn auch vermutlich nicht im Multicore

davidzo
2021-11-21, 16:27:45
Interessant, anscheinend bringt man neben SR Chiplets aus dem Serverbereich doch noch ein zusätzliches MMC DIE (monolitisch).
https://www.hardwaretimes.com/intel-to-ditch-sapphire-rapids-x-lineup-in-favor-of-xeon-workstation-series-rumor/

Wenn das so ist, wird das wieder ein Riesenchip um die 600mm2 und sicher auch für die medium und low core count Server Xeons verwendet werden. Gerade die möglichen 8ch DDR5 deuten daraufhin dass das Design eigentlich ein serverdesign ist und auch die 64 PCIe Gen5 sind exzessiv und mehr als man sinnvoll im HEDT verwendet.

Der Wegfall der X-series und stattdessen nur noch Xeon-W Branding heißt ja auch dass man einen stärker abgegrenzten Markt adressiert. Also nichts mehr mit Gaming-HEDT wie zu Nehalem, Ivybridge, Haswell, Skylake Zeiten.
Das deutet darauf hin dass man da wohl nicht die richtige performance für hat, auch im Vergleich zu ADL-S, bzw. AMDs Gegenschlag mit TR X3D das Ding in den Kinderschuhen stoppen könnte.

36C und 5Ghz Turbo werden allerdings durchaus spannend, wenn ich auch nicht damit rechne dass die cache Architektur sonderlich geeignet für Spiele ist, analog zu Skylake-X und Cascadelake-X damals, die in Games keinen Nutzen aus dem vergrößerten L2 ziehen konnten.

Thunder99
2021-11-21, 20:12:11
HEDT ist wohl gestorben für private Zwecke. Siehe auch AMDs TR 59xx Pro.

VooDoo7mx
2022-01-15, 00:24:12
DEr Bauer hat einen SR XCC ES oder QS in die Finger bekommen und diesen zerstört. :ugly:

UtqBhMZv3yc

Er hat sogar die Oberfläche von einen Chiplet weggeätzt bei ungefähr 14:57 sieht man, dass ein Chiplet tatsächlich 16 Cores hat.
Also mit 4 Chiplets gehen dann maximal 64 Cores. ;)

=Floi=
2022-01-15, 00:34:31
vor allem für 150€ :ugly:

Da wird man bei intel aber augen machen. :D

Atma
2022-01-15, 05:17:11
Interessant, anscheinend bringt man neben SR Chiplets aus dem Serverbereich doch noch ein zusätzliches MMC DIE (monolitisch).
https://www.hardwaretimes.com/intel-to-ditch-sapphire-rapids-x-lineup-in-favor-of-xeon-workstation-series-rumor/
Das sind keine guten Neuigkeiten, sollte der 10980XE wirklich die letzte und finale Extreme Edition sein? Ein Grund mehr für mich die CPU nach der Ausmusterung auf Hochglanz zu polieren und ihr einen Ehrenplatz zu geben ;)

Bin echt super zufrieden, nachdem man ein paar Stellschrauben angezogen hat ist es eine sehr runde CPU. Was danach kommt ist völlig offen sollte Sapphire Rapids-X tatsächlich nie erscheinen. Hatte mich schon mehr oder weniger darauf eingeschossen :(

Locuza
2022-01-22, 22:06:23
DEr Bauer hat einen SR XCC ES oder QS in die Finger bekommen und diesen zerstört. :ugly:

https://youtu.be/UtqBhMZv3yc

Er hat sogar die Oberfläche von einen Chiplet weggeätzt bei ungefähr 14:57 sieht man, dass ein Chiplet tatsächlich 16 Cores hat.
Also mit 4 Chiplets gehen dann maximal 64 Cores. ;)
Die Ergebnisse von Der Bauer zeigen es nicht so klar, aber es sind physikalisch 15-Kerne vorhanden, also maximal 60 Aktive wären möglich:
https://twitter.com/yuuki_ans/status/1403699835883171843/photo/2
https://pbs.twimg.com/media/E3rxiOVXoAUPIFc?format=jpg&name=large

Ein Tile, mehrheitlich schwarz im Bild, hat den DDR5 Memory-Controller integriert.

Skysnake
2022-01-23, 08:09:12
Jup. Nach so nem Bild hatte ich leider vergeblich gesucht

Leonidas
2022-01-27, 09:35:02
https://www.3dcenter.org/news/news-des-26-januar-2022

They'll provide the product, then we'll provide a product.'
SPR coming after Genoa then.

Loeschzwerg
2022-01-27, 09:37:44
Ja, das hat sich alles um ein Quartal geschoben.

fondness
2022-01-27, 10:00:49
Selten hat der Spruch too little, too late besser gepasst als bei Sapphire Rapids. Das reicht nichtmal für Milan und AMD bringt in Kürze Milan-X mit fast einem GB Cache und Genoa in 5nm mit 96 und Bergamo mit 128 Kernen.

Skysnake
2022-01-27, 10:16:50
Naja, warten wir erst mal ab wann was wie kommt.

Aber ja wieder mal Verschieberitis bei Intel....

Das ist schon langsam hart lächerlich wenn man bedenkt wie lange wir schon warten....

Ich bin ja echt drauf gespannt wann Argone Intel die Rote Karte zeigt und Sie raus wirft. Gelb haben Sie ja schon gesehen und ich kann mir ehrlich gesagt nicht vorstellen, dass die nochmals ein oder zwei Jahre warten bis ihre Kiste funktioniert.

Man stelle sich das mal vor. Die warten bald 5 Jahre auf ihr wichtigstes Werkzeug. Total verrückt für die Site.

basix
2022-01-27, 11:39:39
Naja, Intel wird SPR Chips haben. Aber halt nicht genug oder mit zu schlechtem Yield. Da könnte Intel deutlich vor dem offiziellen Launch CPUs schicken. Und der HPC Cluster inkl. Ponte Vecchio soll meines Wissens nach in Auslieferung sein. Ohne SPR geht das ja nicht.

mocad_tom
2022-01-27, 21:06:56
Pat Gelsinger sagt dies bei einem Interview

https://twitter.com/SteakandChickn/status/1486745852886458370

Sapphire Rapids soll zum Ende diesen Quartals released werden.

Unicous
2022-01-27, 21:14:45
Nix Release. Shipping. Und was genau geliefert wird, sagt er auch nicht.

Ian Cutress' Tweet zu der Aussage im Earnings Call:


'Additional SKUs of SPR to select customers over Q1' You mean engineering samples. That's a critical point to leave out

Wenn laut dir einzelne Chips zu liefern ein "Release" ist, dann wurde SPR schon im letzten Jahr "released".:rolleyes:

dildo4u
2022-02-18, 16:05:54
Erste Benches mit SR+HBM.


https://wccftech.com/intel-sapphire-rapids-sp-hbm-xeon-cpus-over-2x-faster-amd-epyc-milan-milan-x-chips/

HPVD
2022-02-18, 16:58:47
Erste Benches mit SR+HBM.


https://wccftech.com/intel-sapphire-rapids-sp-hbm-xeon-cpus-over-2x-faster-amd-epyc-milan-milan-x-chips/


Interessant. Wie viel HBM hat der denn?
Der gezeigte Testfall ist mit 28MioZellen ziemlich gross.
Wahrscheinlich Sicher passt er in den Milan X Cache nicht rein, in den HBM vom SR aber grade noch so...

HPVD
2022-02-18, 18:16:36
hier die Details der Testkonfiguration:

Test by Microsoft® Azure as of 11/08/21.

1-node, 2x AMD EPYC 7V73X on Azure HBv3, 128 cores (120 available), HT Off, Total Memory 448 GB, CentOS 8.1 HPC Image, GNU compiler 9.2.0, OpenFOAM® v1912, Motorbike 28M @ 250 iterations

Test by Intel as of 01/26/2022.

1-node, 2x Next Gen Intel Xeon Scalable processor (codenamed Sapphire Rapids, > 40 cores), HT On, Turbo On, Total Memory 512 GB (16x32GB 4800MT/s, Dual-Rank), preproduction platform and BIOS, Red Hat Enterprise Linux 8.4 , Linux version 4.18.0-305.el8.x86_​64, OpenFOAM® v1912, Motorbike 28M @ 250 iterations;
Build notes: Tools: Intel Parallel Studio 2020u4, Build knobs: -O3 -ip -xCORE-AVX512

Test by Intel as of 01/26/2022.

1-node, 2x Next Gen Intel® Xeon® (code Sapphire Rapids > 40) Plus HBM, HT Off, Turbo Off, Total Memory 128 GB (HBM2e at 3200 MHz), preproduction platform and BIOS, CentOS 8, Linux version 5.12.0-0507.intel_​next.06_​02_​po.5.x86_​64+server, OpenFOAM® v1912, Motorbike 28M @ 250 iterations; Build notes: Tools: Intel Parallel Studio 2020u4, Build knobs: -O3 -ip -xCORE-AVX512

Quelle: https://edc.intel.com/content/www/us/en/products/performance/benchmarks/investor-day-2022/

HPVD
2022-02-18, 18:22:19
zusätzlich zur passig gewählten Modellgröße:
kein voller Milan X, in Cloud-Umgebung, mit anderem Betriebsystem, mit unterschiedlichen flags compiliertes OpenFoam...

HPVD
2022-02-18, 18:32:51
ah gefunden:
up to 64GB HBM2e

https://www.anandtech.com/show/17067/intel-sapphire-rapids-with-64-gb-of-hbm2e-ponte-vecchio-with-408-mb-l2-cache


=> da passt natürlich einiges rein ;-)

Milan-X hat nur 768MB L3...

basix
2022-02-18, 21:09:23
zusätzlich zur passig gewählten Modellgröße:
kein voller Milan X, in Cloud-Umgebung, mit anderem Betriebsystem, mit unterschiedlichen flags compiliertes OpenFoam...

HT off hast du noch vergessen ;)

Beim non-HBM SPR scheint HT on gewesen zu sein. Das ist alles irgendwie undurchsichtig.

y33H@
2022-02-21, 17:56:40
Intel hat auf der ISSCC gesagt, jeder der vier Chiplets ist etwas kompakter als 400 mm² und hat 11-12 Milliarden Transistoren - das Ding wird in Intel 7 aka 10ESF aka 10+++ nm gebaut.

Skysnake
2022-02-21, 18:05:13
Ja und 10TB/s für den Interconnect, der mit 0.5pJ/b auch super effizient ist....


Wir übersehen dabei mal lieber, dass das dann trotzdem 40W sind ;)

y33H@
2022-02-21, 18:14:40
Ja, Daten off Chip kriegen ist halt so ne Sache.

Nightspider
2022-03-07, 03:52:09
Sapphire Rapids tile-to-tile latency is an extra 5-8 nanoseconds. It's a 2x2 grid with no diagonal, so worst case is +16ns between cores vs prev gens.

CLX-SP core-to-core was 44-53ns
ICX-SP core-to-core was 43-54ns
so SPR-SP will be ~43-70ns

https://twitter.com/IanCutress/status/1500609374414417928

For comparison, Zen 3 is

- 19-27ns within CCX
- 86-97ns within IO quadrant
- 104-115ns outside IO quadrant

i.e. best case is better, worst case is worse. Chiplet ringbus on CCX is faster than Intel mesh, but Intel mesh across EMIB'ed tiles is faster than AMD IF-over-package.

mocad_tom
2022-03-08, 11:47:05
Das sind ziemlich gute Werte für den Interconnect.

Eine höhere Anzahl an Kerne und dabei niedrigere Latenzen ist eine ziemliche Ansage.

Und das mit den 40W für den EMIB unterschlägt einfach, dass ein Mesh, Ring oder oder oder (egal welche Topologie verwendet wird) in sich selber auch wieder Energie verbraucht.

Bei AMD geht man raus vom Compute-Die, rein in das Package und dann ein Übergang wieder rein in das IO-Die und dieser Kommunikationsaufwand wurde nirgends mit einer Zahl bemessen, er ist aber da.

Einige Benchmark-Parcours sind einfach dumm wie Stroh.

Z.B. sobald Cinebench komplett im Cache ablaufen kann, dann skaliert der ganze Scheiß richtig ordentlich, weil es komplett im eigenen Data-Set dahinlaufen kann, keine Last mehr auf dem Interconnect (Amdahl flucht, weil Cinebench dann nur noch die thermische Abführung von Wärmeenergie misst).

Igors Lab hat schon gezeigt, dass die Interconnects bei Intel auch mit unförmigeren Lasten gut zurecht kommen (selbst wenn ich AVX512 einschalte sind die Datenautobahnen so stark, dass sie liefern).

davidzo
2022-03-08, 12:52:36
Erste Benches mit SR+HBM.


https://wccftech.com/intel-sapphire-rapids-sp-hbm-xeon-cpus-over-2x-faster-amd-epyc-milan-milan-x-chips/

Irgendwie beeindruckt das nicht besonders.
Dafür dass das ein AVX-512 benchmark ist der direkt auf die HBM cache size angepasst ist, ist das kein besonders hoher speedup.

Intel hat schon beim Icelake-SP Launch von 3.0x schneller als Epyc (8380 vs 7763) in AVX-512 workloads gesprochen. Durch DDR5, mehr Cores, HBM Cache etc. hätte ich da etwas mehr erwartet, gerade weil der AVX-512 troughput bei größeren Problemen durchgängig bandbreitenlimitiert ist.

Btw, CFD ist eigentlich ein ideales problem für GPU Computing. Insbesondere seitdem es 80GB A100 Karten und 128GB Mi-250x gibt.
Auch für Openfoam gibt es bereits GPU accelerated resolver. - Ist der workload den Intel da präsentiert überhaupt noch aktuell für die praxis in H2/2022 und darüber hinaus?


Die prerelease Benchmarks von PV sind noch übler. Das sind von Intel selbst geschriebene Benchmarks (siehe Github), keine vergleichbare Industrial Standards wie MLperf, LAMMPs, HPL, Nbody, Quicksilver...
https://twitter.com/IntelGraphics/status/1494341056757784576

Man zeigt typische Double Precision workloads, z.B. das Financial model mit monte carlo algoritmus das 1,7x schneller sein soll als die schnellste Competition.

Das Problem ist dass der grüne Vergleichsbalken sich auf A100 bezieht und das ist eben nicht die schnellste Competition wenn es um DP/64bit FP geht.
A100 ist nicht primär für DP gebaut sondern für AI/reduced precision mit sparsity etc. Selbst AMDs alte Mi-100 hat mehr DP-Leistung und Aldebaran hat 4,9x soviel. Mi250 ist laut AMD 2,5x schneller in Monte Carlo Algorithmen als A100, also arscheinlich auch schneller als PV mit 1,7x.

Es ist okay nur gegen den Marktführer zu Benchen, aber dann behauptet bitte nicht dazu das wäre das beste Ergebnis der versammelten Konkurrenz.

Intels marketing kann man weiterhin kein bisschen trauen. Schade, erst klang es so als wenn Gelsinger da wirklich was ändern wollte.

mocad_tom
2022-03-08, 22:34:20
MI250 gibt es halt einfach noch nicht.

Und AMD wird auch den Frontier-Supercomputer nicht vor Aurora fertig stellen können.

Die neuen Intel Xeon D schauen auf den ersten Blick gar nicht so spannend aus. Dennoch werden das jetzt dann wahnsinnig spannende chips. Alles drauf auf dem Die.

Ich mag Synology NAS mit dem neuen Xeon D sehen.

Denniss
2022-03-08, 23:45:06
Läuft Aurora überhaupt schon?
Frontier ist in Betrieb und wird schrittweise bis zur maximalen Bestückung aufgebaut. Vollausbau wird für Mitte 2022 erwartet, vollumfänglicher wissentschaftlicher Einsatz ab 1/23

davidzo
2022-03-09, 00:13:39
MI250 gibt es halt einfach noch nicht.

Und AMD wird auch den Frontier-Supercomputer nicht vor Aurora fertig stellen können.

Die neuen Intel Xeon D schauen auf den ersten Blick gar nicht so spannend aus. Dennoch werden das jetzt dann wahnsinnig spannende chips. Alles drauf auf dem Die.

Ich mag Synology NAS mit dem neuen Xeon D sehen.

Wird seit Dezember letzten Jahres ausgeliefert und Benchmarkdaten gibt es auch. Ich meine Intel hat auch Benchmarks von Milan-X gmacht und den gibt es offiziell wirklich noch nicht. Mi-250x ist ähnlich lange verfügbar.
Einen freien Markt mit lieferbarer Ware gibt es bei HPC Ware ohnehin nicht. Das ist immer auf Bestellung und mit langfristigen Verträgen unter ausschluss der Öffentlichkeit. Ist bei PV selbst und Nvidia HPC installationen wie mit A100-80g auch nichts anderes.

Und wie gesagt, in den DP workloads die Intel da zeigt ist selbst Mi-100 bereits schneller als A100. Ist halt schon cherrypicking wenn man sich die schwächere Konurrenz auswählt imo.

davidzo
2022-03-14, 20:09:55
Okay, nach Alderlake released Intel wohl auch Sapphire Rapids ohne AVX-512. Selbst die neuen AMX Extensions werden anscheinend erstmal deaktiviert sein.

https://twitter.com/yuuki_ans/status/1492517955065634816

Im Gegensatz zum Desktop sind die aber nicht per Bios gelockt oder gar fused off wie kürzlich bei den neueren ADLs. Der Support kann per kostenpflichtigem DLC aktiviert werden.

Das ist imo der Anfang vom Ende von AVX-512. Das verkleinert die Plattform dermaßen dass es total unattraktiv wird für Developer überhaupt einen Gedanken an einen AVX-512 Codepfad zu verschwenden. Am ehesten wär das noch was für hyperscaler, die dann halt Firmenweit eine Lizenz für die Aktivierung kaufen - aber die setzen bis auf Facebook alle eher auf GPUs, Accelerator-karten und möglichst hohe Int-Leistung bei der CPU.

- Möglicherweise macht Intel das um AVX512 langsam auszufaden ohne die langfristigen Zusagen oder Veträge die man mit Softwarehäusern gemacht hat direkt zu brechen.
- Möglicherweise ist das auch eine Methode um nicht den eigenen GPU-Beschleunigern Konkurrenz zu machen. AVX war ein großer Teil der CPU, den es von Intel quasi geschenkt gab und den nur wenige nutzen, während man für Beschleunigerkarten echtes Geld bezahlen muss. Dass ist in der internen Sicht nicht kompetitiv.
- Eventuell hilft das auch dabei die TDP im Rahmen zu halten und dann in den mainstream Tests gut da zu stehen, während man in den Edgecases mit AVX-512 immer noch sehr gut abliefern kann. Es regt sich dann ja auch kaum jemand auf über die fallenden Taktraten bei AVX-512, schließlich passiert das bei den mainstream CPUs nicht mehr.



Und sonst so?

Performance des 48C Samples (2,3-3,3Ghz) liegt zwar erwartbar oberhalb eines 40C Xeon Platinum 8380 (2,3/ 3,4Ghz) aber noch weit unterhalb eines Milan-X 7773x.
Dies ist die 270W Version, also konkurrenzfähig zu den 280W von Milan-X.
Mindestens das 56C Modell wird wohl die volle Sapphire Rapids TDP von 350Watt haben. Das könnte dann locker auf Milan-X niveau oder leicht drüber liegen, vor allem die HBM enabled Versionen. Nur ist der Gegner dann halt schon Genoa.
Die Taktraten für das 48C Modell müssen nicht final sein, aber angesichts dessen dass Icelake-SP in 10SF mit deutlich kleineren Cores schon sehr ähnliche Taktraten fährt ist da kein großer Zuwachs zum ES zu erwarten.
https://twitter.com/yuuki_ans/status/1492486783744888832/photo/1
yuuki ans vermutet dass die Firmware noch buggy ist und für die niedrige performance in einzelnen benchmarks verantwortlich ist, z.B. der etwas zu niedrige CB R15 Wert. Dafür sind ES ja da.

BlacKi
2022-03-14, 20:30:10
AVX-512
kann man das essen?

mocad_tom
2022-04-10, 11:35:37
project moonshot:

https://mobile.twitter.com/Redfire75369/status/1512979716982345728

redfire schätzt, dass 110W für den die-to-die interconnect bei PV aufgewendet werden muss.

Sunrise
2022-04-10, 13:50:00
IMHO ein typisches Intel-Design, bzw. es passt in die Intel-Mentalität, wie wir es die letzten Jahre kennen.

Das Ding hat für mich nichts wirklich technisch Raffiniertes an sich, strotzt aber nur so von Brute-Force-Ansätzen (extrem teuer), sowohl was externe Prozesstechnologie als auch den Aufbau betrifft.

Wahrscheinlich ließe sich soetwas (mal den HBM ausgenommen) in deutlich kleinere Brötchen backen und am Ende hätte man auch noch deutlich mehr (Energie-)Effizienz.

Man wäre damit aber nicht schnell genug am Markt gewesen, und ist so wohl flexibler, auch hinsichtlich der Konkurrenz. Es wird dann einfach immer das draufgeklatscht, was Vorteile bringt, koste es was es wolle. So kann man dann auch je nach Anforderung wieder Mondpreise verlangen, auch wenn man kaum liefern kann.

dildo4u
2022-05-07, 10:24:57
Angeblich kommt dieses Jahr ein 24 Big Core monolithisches Design(5Ghz Boost) von Intel um Threadripper bis 32 Cores anzugreifen.

bGXa_ECv7dQ

mocad_tom
2022-05-07, 13:25:00
https://mobile.twitter.com/Redfire75369/status/1522608395349803008

dildo4u
2022-06-08, 10:18:13
Nvidia nutzt SR für ihre Hopper DGX Server.



https://wccftech.com/nvidia-dgx-h100-ai-system-utilizes-intel-sapphire-rapids-xeon-cpu-confirms-ceo-jensen/

Linmoum
2022-06-17, 00:45:42
My latest supply chain check indicates the highly anticipated Intel server chip Sapphire Rapids shipments may postpone to 2Q23, significantly later than the market consensus of 2H22, which is unfavorable to Intel and its server supply chain.https://medium.com/@mingchikuo/intels-sapphire-rapids-shipment-delay-to-2q23-is-detrimental-to-intel-and-its-server-supply-chain-a1de691bd093

Wird dann wahrscheinlich erst offiziell zugegeben, wenn sie nach außen auch gar nicht mehr anders können, weil es ansonsten auffällt. ;D

Unicous
2022-06-17, 01:38:30
Ich meine das kann jetzt auch wieder irgendein weirder Buschfunk aus Asien sein (aus China und auch Taiwan kommen ja immer mal wieder wilde Gerüchte die sich dann als komplett unwahr herausstellen), aber Ming-Chi Kuo ist ja jetzt nicht Irgendjemand, daher wäre das, wenn es sich bewahrheiten sollte, das Todesurteil für SR und ein weiteres Indiz, dass sich mit Gelsinger nichts geändert hat. Intransparent, großspurig und arrogant wie eh und je um dann per Salamitaktik extreme Missstände in der Unternehmensführung zuzugeben und zu hoffen, dass man mit noch mehr großspurigen Ankündigungen das schnell unter den Teppich kehren kann.

Mit Gelsinger hat sich die Kultur nicht grundlegend verändert, aber Intel hat kurzzeitig positive PR und Wohlwollen einsammeln können.

Ich will gar nicht wissen was die Kunden dazu sagen. Solch einen Ausfall kann ja auch AMD nicht auffangen, auch wenn sie sich bestimmt darüber insgeheim freuen. Die roadmap wird davon ja auch in Mitleidenschaft gezogen. Intel kann froh sein, dass Emerald Rapids Eagle Stream als Platform hat sonst wäre das dann so gut wie ein Totalausfall.

Wie auch im Artikel erwähnt wird davon die supply chain zusätzlich in Mitleidenschaft gezogen. Intels Partner werden ordentlich angepisst sein, sollte das mit dem delay stimmen.

Es ist schon sehr erstaunlich wie sich die Situation von AMD 2011/2012 bis 2017 jetzt in Intel spiegelt, wobei die Probleme bei Intel allesamt intern zu suchen sind. AMD hatte ja wenigstens die Ausrede, dass Globalfoundries vollkommen bei den Prozessgenerationen seit 32nm versagt hat und TSMC auch einige Probleme beim Umstieg von 40nm zu 28nm hatte. Es wurden ja etliche Produkte nicht nur aus Geldmangel eingestampft sondern weil man sie schlicht nicht hätte produzieren können.
Stattdessen hat man jahrelang versucht noch etwas aus 32nm herauszuquestschen während man darauf warten musste, dass GF endlich 28nm in den Griff bekommt, nach zweijähriger Verspätung iirc.
Der Umstieg zu 16nm/14nm war da nicht viel anders.

Das kann man analog auf Intels 14nm, 10nm und jetzt "7nm" schreiben, nur sollte es bei Letzterem laut Intel gar keine Probleme mehr geben denn er ist ja nur seit Langem tried and true. Also kann es nicht der Prozess sein. Was ist es dann? Die Chips selbst? Die Plattform? Letzteres wäre fatal denn wie gesagt ER nutzt Eagle Stream ja auch. Intel spricht aktuell von mehr "validation time". Das ist PR-Aussage wie sie im Buche steht. Denn sie sagt rein gar nichts aus, aber Presse und Kundschaft scheint von diesen leeren Worten besänftigt worden zu sein. Es gab bislang keine größeren Beschwerden, und Nvidia hat ein Produkt mit SR angekündigt. Wird spannend wenn Nvidia ihr Produkt um ein halbes Jahr verschieben darf obwohl es für Ende 2022 angekündigt ist.

Tarkin
2022-06-17, 08:41:15
https://medium.com/@mingchikuo/intels-sapphire-rapids-shipment-delay-to-2q23-is-detrimental-to-intel-and-its-server-supply-chain-a1de691bd093

"SPR shipments delayed to Q2 2023"

big ouch if true

Intels Execution ist die reinste Katastrophe.

y33H@
2022-06-17, 14:53:01
Siehe zwei Posts über dir ...

OgrEGT
2022-06-17, 16:26:06
Kühler kann aber wohl schon kaufen :D

https://videocardz.com/newz/intel-sapphire-rapids-cpu-coolers-are-already-on-newegg-while-the-shipment-of-new-xeon-series-is-reportedly-delayed-to-q2-2023

Felixxz2
2022-06-19, 03:15:55
Aber das müssen doch dann schon ziemlich grundlegende Probleme sein bei 1 Jahr (!) Verspätung.

Wäre aber natürliche der finale SuperGAU, dann kann AMD mit Genoa frei schalten und walten.

fondness
2022-06-19, 09:09:35
Intel wird immer mehr zum Ankündigungsweltmeister, der weit hinter seinen eigenen Zielen zurück bleibt. Sie sind es nicht gewohnt unter Druck zu stehen. Und unter Druck scheinen Fehler zu passieren.

davidzo
2022-06-19, 12:18:19
Aber das müssen doch dann schon ziemlich grundlegende Probleme sein bei 1 Jahr (!) Verspätung.

Wäre aber natürliche der finale SuperGAU, dann kann AMD mit Genoa frei schalten und walten.

Ist eigentlich nichts neues, Intel hat schon seit Skylake-X und Cascade lake Probleme mit großen DIEs.

Seit Skylake-X hat Intel jedes DIE größer als 250mm2 verkackt. Ja, sogar rocketlake mit 270mm2 hat man beinahe vergeigt, bzw. eben extrem verzögert. XE-HP hat man großspurig angekündigt und nach dem tapeout einfach leise verschwinden lassen. ACM-G10 mit gut 380mm2 hat nur eine Chance weil es bei TSMC gefertigt wird, nicht bei Intel.
Ob das nun fertigungsbedingt ist, also dass Intels Prozesse 14nm++++ und 10SF/intel7 yieldtechnisch nicht für große DIEs geeignet sind, oder das an intels floorplanning oder validierungsteams liegt kann ich aber auch nicht einschätzen. Es gibt Gründe für beides.

Damals hat man sich aber auch mit den Features verannt. Skylake-X sollte ursrpügnlich optane unterstützen, bzw. sollte das per biosupdate nachgereicht werden als klar wurde dass die optane Entwicklung hinter dem Zeitplan ist. Letzendlich wurde dann doch neues Silizium gebraucht (Cascade lake) und die Validierung dauerte 2 jahre, nicht 1 Jahr.

In Sapphire Rapids steckt wieder sehr viel unterschiedliche IP. Intels Strategie ist nicht bei Corecount oder Rohperformance mit AMD zu konkurrieren, sondern AMD durch zusätzliche Accelerator in den gängigsten Workloads zu umrunden. Eine Strategie der AMD mit begrenzter Manpower einfach nicht folgen kann.
Das heißt wohl aber auch das sehr viele Köche mit am Brei kochen, ein Umstand der bereits Skylake-SP und Cascadelake-SP sabotiert hat.

Andererseits deutet Intels Centaur-Deal sehr darauf hin dass man auch einfach nicht genügend Validierungsteams hat um die Roadmap umzusetzen.

reaperrr
2022-06-19, 14:27:10
Andererseits deutet Intels Centaur-Deal sehr darauf hin dass man auch einfach nicht genügend Validierungsteams hat um die Roadmap umzusetzen.
Scheint so.
Ich weiß nicht mehr, wo genau ich es gelesen habe, aber angeblich sollen die Verzögerungen bei SR inzwischen nicht (mehr) an den Yields, sondern nur noch der Validierung hängen. Was die Sache im Grunde für Intel noch peinlicher macht. Da haben sie den Prozess endlich halbwegs im Griff, und kriegen es aus dem nächsten Grund trotzdem nicht gebacken.

Felixxz2
2022-06-19, 14:37:43
@davidzo
Intel versucht also AMD in ihrer begrenzten Manpower auszuhebeln, scheitert dann aber selbst an der Validierung? :freak:
Das Leben ist manchmal die beste Satire.

bbott
2022-06-19, 17:29:35
Kühler kann aber wohl schon kaufen :D

https://videocardz.com/newz/intel-sapphire-rapids-cpu-coolers-are-already-on-newegg-while-the-shipment-of-new-xeon-series-is-reportedly-delayed-to-q2-2023
Dann kann man immerhin schon mal Trockenübungen mit der Kühler Montage machen :biggrin:

davidzo
2022-06-19, 20:59:25
@davidzo
Intel versucht also AMD in ihrer begrenzten Manpower auszuhebeln, scheitert dann aber selbst an der Validierung? :freak:
Das Leben ist manchmal die beste Satire.

Ja Intel ist Realsatire. Das gleiche bei der proprietären Walling-Strategie mit 3D-Xpoint. Solange das proprietär und kein Jedec Standard ist und AMD bei den CPUs einigermaßen konkurrenzfähig bleibt wird sich das keine Marktdurchdringung erreichen. Trotzdem ist Walling die übliche und anerkannte Strategie eines Marktführers und wird von Analysten und Anlegern auch eingefordert um die Rendite zu maximieren. Deshalb kommen jetzt halt Features wie AIA, QAT, DSA und HBM enabled Modelle...
Und Intel ist nunmal trotz AMDs teilweiser Technologieführerschaft noch der Marktführer und AMD in vielen Segmenten nur Follower.

Interessanterweise tauchen die Fehler bei SR in Teilen auf die schonmal in zum Teil älteren Prozessen funktioniert haben. Entweder Intel hat da sehr viel neu designed und dabei haben sich neue Fehler eingeschlichen, der Prozess hat echt mehr Tücken, oder Intels design tools sind echt so mies dass die bugs davon kommen.
The processor that reaches the D*(ES) step stage has a temperature sensor error problem.
There is a "UPI Link Error" problem in some SPR-SP processor that reaches the E1/E2(QS) stepping stage.

HOT
2022-06-20, 08:04:22
Also ich finde, den Prozess da als unschuldig zu deklarieren ist sicher nicht zielführend. Ich denke, die Yields von I7 ist weiterhin unterirdisch und je größer die Dies, desto beschissener. Für 10nm ist da der Zug mMn auch abgefahren, Intel muss jetzt beweisen, dass das Problem bei I4 nicht mehr auftritt.

w0mbat
2022-06-20, 12:37:00
Jupp, ohne EUV geht da nichts.

stinki
2022-06-20, 14:33:56
Es wird interessant sein zu sehen, ob Intel in 2024 Granite Rapids in Intel3 und Arrow Lake in Intel A20 gegen Zen5 in N4(X)/N3(E) liefern kann.
Vorher erwarte ich mir von Intel7 (Sapphire Rapids und Emerald Rapids) und Intel4 (Meteor Lake) nicht mehr allzu viel.

HOT
2022-06-20, 14:42:19
Also A20 in 24 halte ich für ein absolutes Luftschloss, das wird nicht passieren. Ich bin davon überzeugt, dass, wenn I4 ordentliche Yields liefert, wir erst mal etliche Produkte über 2023 bis 2025 auf diesem Prozess sehen werden. Mit den Intel Roadmaps kann man sich mMn den Allerwertesten abwischen, die sind genau 0 wert.

mocad_tom
2022-06-23, 17:18:41
> The processor that reaches the D*(ES) step stage has a
> temperature sensor error problem.
> There is a "UPI Link Error" problem in some SPR-SP processor
> that reaches the E1/E2(QS) stepping stage.

https://twitter.com/yuuki_ans/status/1526253426622930944

D-Stepping hatte noch einen Temp-Sensor-Bug. E1/E2-Stepping hat jetzt in manchen Situationen einen UPI Link Error.

Kann sein, dass dies nur Configs mit größer 4 Sockel betrifft.


Für Fishhawk Falls HEDT gibt es wohl schon ein fertiges Mainboard:
https://www.hwinfo.com/version-history/

> Enhanced sensor monitoring on ASUS Pro WS W790E-SAGE

Skysnake
2022-06-24, 06:24:26
SP ist normal Single Processor. Ich denke also eher die CPU an sich hat das Problem zwischen den tiles. Die Verbindungen sind ja auch neu designed.

Denniss
2022-06-24, 07:16:11
Das mit dem "Zusammenkleben" ist wohl noch zu neu für Intel und da klappt noch nicht alles

Triskaine
2022-06-24, 09:36:37
SP ist normal Single Processor. Ich denke also eher die CPU an sich hat das Problem zwischen den tiles. Die Verbindungen sind ja auch neu designed.

1. SP steht für "Scalable Processor"...

2. UPI Links werden zur Inter-Socket Kommunikation genutzt.

3. Sapphire Rapids ist mit 8 Socket Support angekündigt.

4. Die Tiles sind über einen low-power Multi-Die Fabric IO (MDFIO) gekoppelt

dildo4u
2022-06-24, 09:50:48
Ist die Server Version irgendwie komplexer oder warum soll HEDT dieses Jahr kommen aber die Server Modelle nicht?

Loeschzwerg
2022-06-24, 10:17:24
Ist die Server Version irgendwie komplexer

Siehe

2. UPI Links werden zur Inter-Socket Kommunikation genutzt.

Und diesbezüglich war auch schon die SKL-SP Plattform eine holprige Geschichte.

aceCrasher
2022-06-24, 10:20:32
Ist die Server Version irgendwie komplexer oder warum soll HEDT dieses Jahr kommen aber die Server Modelle nicht?

Die Server Version muss funktionierenden multi-Socket Support haben.

davidzo
2022-06-24, 11:49:42
Sieht nicht so aus als wenn das als HEDT CPU sinn macht. Als Workstation CPU vielleicht okay, aber für Gaming kannst du den in die Tonne treten, die L3 Latenz ist grausig.

https://twitter.com/yuuki_ans/status/1516082249250222082/photo/2


*96ns DRAM +50% gegenüber nem 12900k oder 5950x. Ist zu erwarten bei Server DDR5 womöglich ECC. also alles normal
*1.6ns L1 - +50% gegenüber Alderlake scheint rein taktratenbedingt zu sein. Ist schließlich ein ES. alles normal
*4.9ns L2 ebenfalls +50%, not bad not terrible, wird mit den Taktraten gefixt.
*39ns L3 :eek::freak: Das ist +100% schlechter als Alderlake bzw. viermal so schlecht wie Zen3. Hier ist irgendwas schief gelaufen, oder sind das nur die zusäzlichen Stops die so hart reinknallen? Wir nähern uns hier der DRAM Latenz eines schnellen RAM-Kits auf einer Spieleplattform. Da nützten dann auch die 105mb Größe nicht mehr viel.


Anscheinend hat Intel L3 Größe und mehr Bandbeite mit mehr Latenz umgesetzt. Die Bandbreite ist mehr als das das Dreifache von Alderlake wenn man die niedrigen ES-Taktraten berücksichtigt.
Das wird AVX512 und AMX Workloads zugute kommen, aber sonst weitgehend ungenutzt sein. Durch die hohen Latenzen geht das auf Kosten von General purpose integer workloads und leichteren FP Aufgaben wie in Spielen. Das ist definitiv keine HEDT CPU im früheren Sinne, sondern eine reine Server- und Workstation Maschine.

dildo4u
2022-06-24, 12:24:25
Vieleicht Probleme mit dem Multi Chip Design, HEDT soll angeblich monolithisch mit 24 Cores sein.
Wäre nicht schlecht da AMD erstmal nur Zen 3 als Threadripper bringt und die Dinger auch ständig teurer werden.

Der_Korken
2022-06-24, 14:05:37
Wie setzen sich denn 105MB L3 auf 56 Kerne zusammen? Das wären 1,875MB/Kern bzw. 15/8MB pro Kern. Würde zumindest zum 15-way passen. Aber die Latenzen sind wirklich übel, wenn die so stimmen. Na gut, die müssen den Cache über mehrere Dies sharen, da geht ordentlich Latenz bei drauf. Mir gefällt AMDs Ansatz da besser, da man auch die Bandbreite und die Effizienz erhöhen kann, wenn nicht jeder Core auf jeden Cache-Slice der anderen Dies zugreifen können muss.

BlacKi
2022-06-24, 15:20:53
wenn monolitisch, dann wirds auch andere l3 latenzen geben. das sich die l3 latenzen mit multi chip die verschlechtern war doch abzusehen.

mocad_tom
2022-06-25, 23:28:30
Bei den Intel Folien für die ISC2022 verstecken sich ein paar sehr interessante Details

https://www.hardwareluxx.de/index.php/news/hardware/prozessoren/58822-intel-nennt-weitere-leistungsdaten-zu-sapphire-rapids-hbm-und-ponte-vecchio.html

Die Performanceangaben werden dann hinterfüttert mit dem Kleingedruckten.

https://edc.intel.com/content/www/us/en/products/performance/benchmarks/isc-2022/

Die HBM-Sapphire Rapids laufen mit mehr als 40 Kernen und laufen in einem 2-Sockel-Board


Interessant ist auch, was nicht zusammenkombiniert wird.

Kein System ist Sapphire Rapids + Ponte Vecchio.
Auch keins Sapphire Rapids + Nvidia A100.

Stattdessen Ponte Vecchio + Ice Lake.

Skysnake
2022-06-26, 07:56:32
Ja das ist interessant

y33H@
2022-06-26, 08:58:24
Der Mare Nostrum 5 nutzt SPR+H100.

OgrEGT
2022-06-26, 09:30:49
Der Mare Nostrum 5 nutzt SPR+H100.

"Wird" nutzen?

Skysnake
2022-06-26, 09:48:55
Ok war mir jetzt nicht bewusst. Das ist schon schwach, wenn die da kein PV verkauft bekommen

y33H@
2022-06-26, 09:50:47
Wird? Soll ^^

dildo4u
2022-09-28, 10:35:39
34-Kern-CPU: Intel zeigt Wafer mit neuer CPU-Serie für Workstations


https://www.computerbase.de/2022-09/34-kern-cpu-intel-zeigt-wafer-mit-neuer-cpu-serie-fuer-workstations/

HOT
2022-09-28, 10:55:03
Schönes Dingen. Wenns den mit 16C für Sockel 1800 geben würde, würd ich den sofort kaufen :freak:.

fondness
2022-11-01, 17:08:46
The never ending Story

"Intel's upcoming Sapphire Rapids processors have faced multiple delays over the past few years. Built on Intel 7 manufacturing process, the CPU is supposed to bring new advances for Intel's clients and significant performance uplifts. However, TrendForce reports that the mass production of Sapphire Rapids processors will be delayed from Q4 of 2022 to the first half of 2023. The reason for this (yet another) delay is that the Sapphire Rapids MCC die is facing a meager yield on Intel 7 manufacturing technology, estimated to be at only 50-60% at the time of writing. Economically, this die-yielding percentage is not profitable for Intel since many dies are turning out to be defective"

https://www.techpowerup.com/300533/yields-of-intel-sapphire-rapids-processors-are-low-mass-production-to-start-in-1h2023?s=09

Zossel
2022-11-01, 20:37:07
https://www.techpowerup.com/300533/yields-of-intel-sapphire-rapids-processors-are-low-mass-production-to-start-in-1h2023?s=09Wird noch peinlicher:The source also cites that Intel has supply issues with low-end FPGA devices made by its Altera division that affect shipments of dual-socket systems. As a replacement, these dual-socket systems use Lattice CPLDs, which are also in low supply. This is why many CSPs and OEMs are now turning their heads to AMD and its solutions that are simpler to operate and have lower TCO. TrendForce thus predicts that AMD CPUs will reach a 25% market share in Q4 of 2023, with an annual growth rate of 7%.Intel könnte ja noch auf ein TTL-Grab ausweichen :-)
Oder was von xilinx verbauen:-)

Edgecrusher86
2022-11-02, 08:56:12
Schade - ich hätte in Zukunft ja gerne wieder Intel HEDT verbaut - massig Lanes - mindestens Quad-Channel und z.B. 16 P-Cores mit massiv Cache wären schon sehr nice. ;(

Skysnake
2022-11-02, 09:29:18
Also mir ist nicht wirklich klar, für was da jetzt nen FPGA unersetzlich sein sollte. Vor allem sollte Intel da genug know how UND Manpower haben un da kurzfristig ne Lösung zu finden.

HOT
2022-11-02, 09:52:00
Jetzt ists ja schon 2.H 2023. Irgendwann muss für das Teil doch ein Nachfolger fertig sein? :freak:

dildo4u
2022-11-02, 09:55:56
Es kommen Modelle Q1 nur nicht alles.

https://videocardz.com/newz/intel-4th-gen-xeon-scalable-sapphire-rapids-to-launch-on-january-10th

Badesalz
2022-11-02, 10:13:52
@Skysnake
Dataplane Switching?

@all
Keine Ahnung was die machen oder was im Laufe des 10nm Desasters alles wohin abgewandert ist... Bei Chiplets (Tiles), die ja alles einfacher machen (sollten), haben sie jetzt auch eine riesen Baustelle aufgemacht die für sie nicht beherrschbar scheint.
Verkacken FPGAs, verkacken Superkomputer. 5G-Modems haben sie an Apple verkauft, was die dann repariert haben. HomeGateway (AnyWAN) haben sie an Maxliner verkauft, weil das auch nicht wirklich so richtig gut war und Maxliner das zu fixen glaubte.
Optane?
https://www.makeuseof.com/tag/reasons-why-intel-optane-drive-rip-off/
https://www.tomshardware.com/news/intel-optane-massive-losses

Machen jetzt für Desktop P-Cores und E-Cores wo dem Anwender auffällt, das alles eigentlich am rundesten läuft, wenn man die E-Cores deaktiviert.

Was läuft da eigentlich noch halbwegss rund? NICs? Da haben sie auch schon versucht den neuen Traditionen zu folgen. Ist diesmal aber noch nicht ganz gelungen. Wird wohl noch...

Skysnake
2022-11-02, 11:40:08
Was für nen data plane switching?

Nics läuft auch nicht. Die haben Opa ausgelagert.

Und Ethernet? Ja bei 10G vor allem BaseT waren/sind Sie ne Macht, aber danach?

Also ich sehe da nichts und 10G stirbt aktuell stark. 25G drückt schon jetzt massiv und hat eigentlich 10G schon obsolet gemacht in meinen Augen. 10G nimmt man eigentlich nur noch wenn man es for free bekommt.

Badesalz
2022-11-02, 12:32:16
@Skysnake
Überschlag dich mal nicht gleich in deiner Hypertrain-Blase. 25Gbit ist Blödsinn. Das ist nicht die Stufe die man vorsieht, wenn 10Gbit nicht reichen. 40Gbit ist nicht nur dank des Dauerbrenners Mellanox ConnectX-3 (FCBT :wink:) der klare Problemlöser.
Rechenzentren interessieren sich dagegen nicht für so ein Mumpitz. Die fangen mit 40Gbit erst an.
Und was bei denen noch vintage mit 10Gbit läuft wird mit einer Garantie von 100% nicht erst auf 25Gbit gerüstet.

Wenn man sich die Trains real anschaut, gibt es auch JEWEILS z.B. auf YT mind. 10x so viele Videos zu 10Gbit und 40Gbit (und mittlerweile schon zu 2,5Gbit), als zu 25Gbit.
Im Gegensatz zu dem Rest, wird 25Gbit nur als Zwischenschritt gesehen. Da hat einfach keiner wirklich Bock drauf.
So ähnlich wie wenn man 1Gbit fährt und es real drückt/nervt, und über 2,5Gbit nachdenkt. Macht dann auch kaum jemand. Die meisten machen dann 10Gbit. Und nicht 25Gbit :rolleyes:

Auf die Schnelle (zugegeben) hab ich jetzt auch keinen Youtuber gefunden der wegen der Bearbeitung/Lagerung seines Schwachsinnscontents (meist) eine Story draus macht wie er von 10Gbit auf 25Gbit ging. Dafür direkt zig über zig Videos wie es von 10Gbit auf 40Gbit ging.

25Gbit obenrum wird das werden was 5Gbit untenrum ist. Eine Abstufung die sich technisch so ergibt und die man mit aufnimmt, die meisten der allermeisten aber links liegen lassen.

PS:
Ah ja. Ich glaub wir haben einen Thread dazu.

Skysnake
2022-11-02, 12:58:12
...

Hast du den geringsten Schimmer von dem was du da schreibst? Ich glaube nicht Tim. Denn YT ist keine Expertise...

40G ist TOT. Die meisten TOR Switche haben schon von 40G auf 100G für die Uplinks gewechselt. Das ist ein echtes Problem btw wenn du für Bestandssysteme eine Replacement brauchst...

Und 25G oben Rum? Oh man... ist dir das nicht peinlich?

Dir ist schon klar, das 25G wie 10G Single Lane ist und deswegen auch gerne verwendet wird, weil du eben mit Breakout Kabeln aus einem 40/100G Port 4x 10/25G machen kannst.

25G ist also die kleinste Lösung für die Anbindung von Servern. Das wird nirgends in den Aggregation Layern benutzt. Da geht man auf 100/400G

Das ist kein Spielzeug für irgendwelche YT Möchtegerns, sondern wird für reale Probleme eingesetzt.

Wie viele tausend 10/40/25/100G+ Ports hast du denn schon deployen um so ne dicke Lippe zu riskieren? Man man man...

Wie gesagt, 10G ist ziemlich tot. Man setzt es teilweise noch ein, wenn Performance ziemlich unwichtig ist, gerade wenn man im Bestand investiert. Aber abseits von kleinen Systemen wo man bei einem Switch oder ner Hand voll bleibt, macht es einfach nicht mehr viel Sinn. Dafür ist 25G einfach zu billig geworden und wird zu sehr in den Markt gedrückt. Von 40G will ich gar nicht erst reden. Da musst du dich ja schon bemühen etwas sinnvolles zu finden im Vergleich zu QSFP.

Und das ist Stand heute so. Nächstes Jahr wird die Situation noch viel schlimmer, weil das Angebot an 40G Produkten massiv kleiner wird. Und das sind reale Probleme...

Wenn man sich auch so anschaut, was bei aktuellen 10G/100G Switchen unter der Haube steckt, dann sieht man, dass das fast immer 25/100G Chips sind. Die also künstlich beschnitten werden...

Das ist einfach Margenmaximierung. Je kleiner der Markt wird, und das wird er rapide, desto sinnloser wird so ne Segmentierung. Ich gehe nicht davon aus, das man in 5 Jahren noch Systeme mit 10 statt 25G ausliefern wird abseits von Kleinstsystemen.

Badesalz
2022-11-02, 14:31:48
...

Hast du den geringsten Schimmer von dem was du da schreibst?Das wichtigste als erstes: Laber nicht rum.

Sonst hab ich dir bereits den Hinweis gegeben, daß wir einen Thread dafür haben. Da kannst du deine Märchenstunde samt Rauchkerzenparty entspannt ausrollen. Was ein Typ ej. Ein Deployer vorm Herren... Dann "deploye" mal in deinem IT-Äthiopien deine Bettlernetze mit 25Gbit. Kein Ding.

Skysnake
2022-11-02, 14:39:14
Ja einer, der tausende von 10-200G Ports deployed hat in den letzten Jahren.... in Gegensatz zu dir weiß ich also wovon ich rede.

Badesalz
2022-11-02, 15:08:17
Sag mal... Ich hab das jetzt nochmal vernünftig gelesen. Redest du mir da über Bande nicht eh nach dem Mund? :usweet: Außer du möchtest 10G mit 25G "ersetzen", während das bei uns nur irgendwelche disaster-management Sachen sind für die sich eh keiner interessiert, solange sie eben selbst nicht kaputt sind und alles sonst MIND. über 40Gbit läuft.

Vielleicht ist es aber eher andersrum und ich bin Äthiopien und du nur mit Scheuklappen? :) Ich hab die Vergleiche zwischen Home und kleiner wie mittlerer Industrie mit eigenen Räumen. Du hast irgendwie so Strategien wie bei OEDIV & Co. Vielleicht liegt hier mein Denkfehler. Solche Leute machen oft den Pofalla, weil sie glauben ihre Welt ist die einzige mit Wert.

Ja ok. Egal. OT Ende.

Janos
2022-11-02, 20:13:58
auch wenn es etwas überzogen war hat Skysnake recht, 40Gb steht sicher noch bei einigen Kunden, aber neue Projekte werden damit nicht mehr realisiert, 100Gb sind die neuen 40Gb.

Ich komme von der Herstellerseite und wir verbauen seit 2018-2019 keine 40Gb Switches mehr, damit einhergehend der Wechsel von Infiniband auf RoCE.

Skysnake
2022-11-02, 21:50:09
Ich bin auch bei nem Hersteller und RoCE ist für uns keine Alternative wegen den schlechteren Latenzen, daher sind wir noch bei 1G/10G für das Management Netzwerk im Leaf Bereich geblieben und 10/40G im Spine Bereich. Nur bekommst du eben kaum noch 10/40G Spine switch sondern fast nur noch 10/100G. Und da ist eben absehbar, dass das auch eingestampft wird. Die Frage ist was mit den 1/10G switchen passiert. An sich wäre es nett wenn die auf 1/25G gehen würden, dann könnte man mit nem 2er (M)LAG den voll anbinden. Zwar normal unnötig, aber dann müsste man sich da keine Gedanken mehr machen ob man nicht doch nen 3er oder 4 (M)LAG nehmen sollte oder nicht.

So ganz OT ist das auch nicht, da Saphire Rapids ja auch mit Beachleunigern im Netzbereich kommt.

Badesalz
2022-11-03, 01:35:54
@janos
Hast ja auch nicht ganz unrecht, aber... vorher 1 Minute mal was sinnvolles in 2 Absätzen geschrieben, dann eine Zahl entflohen, zweiten Tab aufmachen wollen... und drücke mit dem Mausrad das das noch einzige Tab... Browser geht zu :mad:

Erstmal also wieder zurpck zu "willste wirklich beenden?" zurück. Jetzt hab ich aber auch keinen Bock mehr hier OT rumzuspamen. Sorry.

Zossel
2022-11-03, 06:15:37
So ganz OT ist das auch nicht, da Saphire Rapids ja auch mit Beachleunigern im Netzbereich kommt.

Was kommt den da von Intel?

Skysnake
2022-11-03, 06:53:15
Intel verbaut in Sapphire Rapids QAT. Das ist für IPSec etc nützlich https://www.servethehome.com/hands-on-with-intel-sapphire-rapids-xeon-accelerators-qct/5/

Ich kenne das nur als dedizierte Karte. Ich hatte schon mal den Fall das ein Kunde so nen Accelerator dedizierte angefragt hat. Wenn Intel das jetzt in die CPUs einbaut kann das schon nen Argument pro Intel sein.

Ansonsten mal schauen ob Intel wieder die F CPUs auflegt mit NIC in Package, auch wenn ich nicht dran glaube

Badesalz
2022-11-03, 11:24:48
Ich will jetzt nicht wieder anfangen :wink: aber wenn Skysnake schon 44 48x Switche installiert hat und während der Zeit EIN Kunde das angefragt hat, dann scheint mir das trotzdem nicht so DAS Feature zu sein (?)
Ist QAT echt fest an AVX-512 (?) gebunden oder verstehe ich das nur falsch?

Ab dem 2.0 Treiber vor 2 Jahren (?!) mit Chacha20-Poly1305 Unterstützung, sollte QAT auch mit WireGuard laufen.
http://patches.dpdk.org/project/dpdk/cover/20200115175524.15796-1-arkadiuszx.kusztal@intel.com/

Nach dem pfSense Massaker https://www.golem.de/news/vpn-wireguard-landet-nach-grossen-problemen-neu-in-freebsd-2103-154981.html hat Donenfeld das dabei noch und nöcher durchoptimiert und teils auch überdacht, was später auch die Versionen anderer Distris angehoben hat.

Fiel mir so auf und ein, da ich Ende letzten Jahres irgendwie vernahm, daß alle jetzt plötzlich WireGuard machen wollen. Selbt AVM :rolleyes:
https://avm.de/fritz-labor/frisch-aus-der-entwicklung/neues-und-verbesserungen/unterstuetzung-von-wireguard-fuer-den-einfachen-aufbau-von-vpn-verbindungen/

PS:
So eine ColetoCreek Karte ist aber mal übelst teuer ;)

Skysnake
2022-11-03, 11:36:06
Sind eher reine Switch ports 20.000 IB HDR, 50.000 1G, 4.000 10G, 500 40G und 1.000 100G würde ich grob abschätzen. Vielleicht habe ich aber auch mal hier oder da nen tausender vergessen. Ich kümmere mich eher um die Client Seite.

Und ja, bei mir war es ein Kunde, ist aber an sich auch der völlig falsche Markt. Wir machen OnPrem Systeme die nicht im Inet hängen. Da ist das dann schon eher ungewöhnlich.

LifeScience Systeme mit Gesundheitsdaten usw zieht dann aber die Sicherheitsanforderungen massiv hoch. Da sieht man dann sogar in geschlossenen Systemen so was.

Und genau da könnte Intel schon nen Fußabdruck hinterlasse , wobei ich die Memory encryption Lösung von AMD um Welten besser finde als das was Intel da liefert...

Badesalz
2022-11-03, 11:57:09
LifeScience Systeme mit Gesundheitsdaten usw zieht dann aber die Sicherheitsanforderungen massiv hoch. Da sieht man dann sogar in geschlossenen Systemen so was.
Ja ich weiß. Grad das ist immer sehr wichtig... Letztes Jahr die Krankenakte meiner Mutter samt allen bisher angesammelten Daten/Bildern beim Arzt angefordert und die Helferin hat dafür eine CD gebrannt :smile:

Erstmal musste ich schon lachen, weil sie dafür echt voll fachmännisch :tongue: Verbatim UltraLife Archival Grade nehmen... Und dann klappte ich im Stuhl zusammen, weil die Dumpfbacke den übergeordneten Ordner gebrannt hat. Das heißt ich bekam die kompletten Krankenakten von um die 120 Leuten.

Skysnake
2022-11-03, 12:24:57
Naja, das sind Arztpraxen, was erwartest du da?

Wir machen Cluster. Da hampeln dann hunderte von Forschern auf dem System herum. Da müssen dann schon Sicherheitskonzepte umgesetzt werden. Aber gegen DAUs kann man nur bedingt etwas tun. Da hilft nur Schulen Schulen Schulen....

Btw den Datenschutz verstoß ans BSI gemeldet?

Badesalz
2022-11-03, 14:25:12
Der Arzt, ist hervorragend. Ich hab ihm per Telefon den Kopf gewaschen. Der hat das auch klar verstanden um was es geht ;)

Ich bin kein Geldeintreiber für staatliche Institutionen.

Pirx
2022-11-03, 14:48:42
Thema?

Zossel
2022-11-03, 15:13:18
Fiel mir so auf und ein, da ich Ende letzten Jahres irgendwie vernahm, daß alle jetzt plötzlich WireGuard machen wollen. Selbt AVM :rolleyes:
https://avm.de/fritz-labor/frisch-aus-der-entwicklung/neues-und-verbesserungen/unterstuetzung-von-wireguard-fuer-den-einfachen-aufbau-von-vpn-verbindungen/


Wireshark ist auch ein geiles Stück Software, wenig Codezeilen, reduziert auf das notwendige, einfach zu konfigurieren und schnell.

Selbst auf einen Plasterouter performt das gut wenn da ein ARM mit Vektorerweiterung drin steckt :-)

Wie sagte Bruce Schneier: "ipsec ist to complex to be secure".

Zossel
2022-11-03, 15:16:05
Intel verbaut in Sapphire Rapids QAT. Das ist für IPSec etc nützlich https://www.servethehome.com/hands-on-with-intel-sapphire-rapids-xeon-accelerators-qct/5/

Ich kenne das nur als dedizierte Karte. Ich hatte schon mal den Fall das ein Kunde so nen Accelerator dedizierte angefragt hat. Wenn Intel das jetzt in die CPUs einbaut kann das schon nen Argument pro Intel sein.

Sieht auf den ersten Blick wie angepasste Libs aus die AVX-irgentwas nutzen.
Oder sollte ich noch mal genauer drauf schauen?

Badesalz
2022-11-03, 17:29:15
Wie sagte Bruce Schneier: "ipsec ist to complex to be secure".Hat er echt "ist" gesagt? Wow :tongue:

(für Pirx nun wieder OnT ;))
Hab ich ja schon gefragt, ob das direkt mit aktiven :rolleyes: AVX-512 zusammenhängt (?) Find ich bisschen Schräg auf den ERSTEN Blick. Sie schieben dir ihre Libs vor die über AVX-512 laufen und sagen an, die CPU hat jetzt sowas wie eine CryptoEngine? :|

dildo4u
2022-11-09, 16:32:32
Infos zu den HBM Modelle.

https://www.computerbase.de/2022-11/intel-xeon-max-sapphire-rapids-mit-64-gb-hbm-bietet-56-kerne-bei-350-w/


https://videocardz.com/press-release/intel-introduces-max-series-cpus-and-gpu-featuring-sapphire-rapids-hbm-and-ponte-vecchio

Blediator16
2022-11-09, 16:42:11
Gefühlt die 20. Präsi und 35. Pack an PDFs.

Denniss
2022-11-09, 18:12:37
Schöne bunte Bildchen, Intel wird immer mehr zum Papiertiger

Zossel
2022-11-09, 20:33:00
Schöne bunte Bildchen, Intel wird immer mehr zum Papiertiger

Wann kann man das kaufen?

Mortalvision
2022-11-09, 20:42:47
Ist doch ein guter Ansatz: HBM auf dem CPU-Package. Natürlich ein wenig AMD-move nachgemacht (X3D), trotzdem eine nette Entwicklung.

Was ich schwer einschätzen kann: sind die 350 Watt zu viel oder angemessen für eine Server-CPU?

iamthebear
2022-11-09, 22:01:08
64GB sind schon echt eine Ansage. Das spielt in einer ganz anderen Liga als AMDs VCache.

Schade, dass doe Optane Sparte mittlerweile eingestampft wurde. Das hätte sich hier gut kombinieren lassen können:
64GB als Cache für oft genutzte Daten und für den Rest 1 TB billigen Optane. Bei dem spielt es dann auch keine Rolle mehr wenn dieser langsamer ist.

Auch wenn man das Ganze etwas runter skaliert macht das echt Sinn:
Nur 1 Cluster mit 14 Kernen und 16GB HBM. Dazu füllt man um die 256GB normalen RAM und schon hat man einen netten Allround Server wo so einiges an virtuellen Maschinen gleichzeitig laufen kann.

Pirx
2022-11-10, 07:00:23
64GB sind schon echt eine Ansage. Das spielt in einer ganz anderen Liga als AMDs VCache...
inbesondere bei der Latenz...

Skysnake
2022-11-10, 08:41:02
Ja, das ist bei Intel wirklich nicht so ganz zu verstehen mit dem HMR/HBM plus DDRx. DDRx hat die niedrigere Latenz und in Summe noch immer zu viel Bandbreite um Sie links liegen zu lassen. Man hätte eigentlich aus XeonPhi lernen sollen, dass das einfach ne beschissene Kombi ist.

Mit dem Nachfolger wollen/werden Sie es aber wohl endlich besser machen und CXL statt DDR für nen großen Memory Pool nehmen. Der kann dann ja auch shared sein zwischen Knoten!

Das ist dann auch ein Konzept mit dem man arbeiten kann, aber nicht das Aktuelle.

Das ist halt so ne Situation wo ApachePass, also die 3DxPoint Dimms gut gepasst hätten. Da hätten es dann auch zwei oder vier Channels wohl getan. Aber seis drum. Mal wieder ne verpasst Chance für Intel.

Ich bin aber wirklich auf die Perf/Watt Benchmarks gespannt. Mal schauen ob Sie meine Erwartungen übertreffen.

HPL sollte man sich definitiv im Vergleich zu letzten Gen und AMD anschauen.

robbitop
2022-11-10, 08:59:49
VCache ist mit HBM nicht zu vergleichen - vor allem bei der Größe. Das wird von der Latenz deutlich langsamer sein. HBM nutzt man für Dinge, bei denen Bandbreite relevant ist.

Edgecrusher86
2022-12-02, 13:05:26
Intel “Fishahawk Falls” Sapphire Rapids-WS from 6 to 56 cores (https://videocardz.com/newz/intel-xeon-sapphire-rapids-ws-workstation-series-rumored-to-feature-6-and-8-core-skus)

So ein 16-20C HEDT mit einer späteren Architektur als Golden Cove und 4-CH DDR5 + 64 Lanes 5.0 hätte schon was - noch besser als Nachfolger des W790 mitsamt DDR6 + PCI-E 6.0 - würde ich kaufen und als erstes SMT deaktivieren. :D :D :D

HOT
2022-12-02, 13:14:18
Wobei FHF nur 24 Kerne haben soll. Die oberen WS-CPUs müssen also SR sein. Ich möchte einen I9 mit FHF und Consumer Plattform.

Wuge
2022-12-02, 14:43:38
Jetzt hab ich ein Z790 Brett im Zulauf und HEDT wird doch wiederbelebt... grrr ... hmm...
Scheiß auf DDRx

64 GB HBM dran und gut :D

Sunrise
2022-12-02, 14:49:13
Intel “Fishahawk Falls” Sapphire Rapids-WS from 6 to 56 cores (https://videocardz.com/newz/intel-xeon-sapphire-rapids-ws-workstation-series-rumored-to-feature-6-and-8-core-skus)

So ein 16-20C HEDT mit einer späteren Architektur als Golden Cove und 4-CH DDR5 + 64 Lanes 5.0 hätte schon was - noch besser als Nachfolger des W790 mitsamt DDR6 + PCI-E 6.0 - würde ich kaufen und als erstes SMT deaktivieren. :D :D :D
Krass, wie hart am Topmodell der Takt wegbricht…

HOT
2022-12-03, 10:14:14
Na jo, SR ist ja ne Serverarchitektur. Ich hab den Verdacht, dass die Wx 3k SR sind und nur die Wx 2k FHF. Dann wären die 2k deutlich höher getaktet. Deshalb haben die 2k auch so hohe Modellnummern mMn. Ein SR 3475X (Wohl bei AMD geklaut, das X) hat ja 36C und 2,2GHz Basistakt, ein FHF 2475X hat nur 20C aber dürfte deutlich über 3GHz bieten.
6C6T ist geil, das ist ja weniger Threads als aktuelle I3 :D.

OgrEGT
2022-12-03, 11:45:01
Na jo, SR ist ja ne Serverarchitektur. Ich hab den Verdacht, dass die Wx 3k SR sind und nur die Wx 2k FHF. Dann wären die 2k deutlich höher getaktet. Deshalb haben die 2k auch so hohe Modellnummern mMn. Ein SR 3475X (Wohl bei AMD geklaut, das X) hat ja 36C und 2,2GHz Basistakt, ein FHF 2475X hat nur 20C aber dürfte deutlich über 3GHz bieten.
6C6T ist geil, das ist ja weniger Threads als aktuelle I3 :D.

Die Frage ist ja wie der 6C6T aufgebaut also aus wievielen Tiles... scheint aber ziemlich viel Ausschuss zu produzieren die Fertigung...

HOT
2022-12-03, 12:52:50
Jo, das würd ich auch sagen ;). Das Teil wird ja auch groß werden, denn FHF wird monolithisch, also keine Tiles. Wx 2k -> monolithische CPU Fishhawk Falls, maximal 28 Kerne, wovon es erst mal nur 20 aktive gibt (kack Yield eben), Wx 3k -> Sapphire Rapids, maximal 56 Kerne in 4 Tiles.
FHF hat nur 4 Speicherkanäle und 64 PCIe Lanes, wie der ursprüngliche Consumer TR.

OgrEGT
2022-12-03, 21:00:23
Stimmt... laut MLID 24C monolithic... Um auf ausreichend Stückzahl zu kommen bis 6C runter... das ist dann der komplett kaputte Rest :freak:

Pirx
2022-12-06, 07:31:36
Krass, wie hart am Topmodell der Takt wegbricht…
Da hat Intel wohl nicht so viel Spielraum wie anderswo beim Erhöhen der TDP?:ulol:

Edgecrusher86
2022-12-08, 15:38:07
Hm, bestimmt 1500€ locker der große W7. Die Plattform ist mir jedenfalls sympatisch (FHF).

Edgecrusher86
2022-12-08, 15:40:34
Nachtrag 2S - Sapphire Rapids SP und Chipsätze:

dildo4u
2022-12-31, 09:20:49
Specs eines W790 Boards von Supermicro.


https://www.chiphell.com/forum.php?mod=viewthread&tid=2472275

Wuge
2022-12-31, 13:08:09
Das VRM sieht mir ziemlich nach IVR für die VCore aus...

Edgecrusher86
2022-12-31, 16:45:59
Sowas noch als Enthusiasten Modell a la ROG, AORUS EXTREME oder EVGA SR-4 DARK hätte schon was - aber über den Preis möchte ich gar nicht erst nachdenken (2000-3000€ easy) - ein w9-2495X dürfte wohl ähnlich viel wie der TR PRO 5965WX kosten oder wenn weniger, dann immer noch 1500€+. :eek: :freak:

konkretor
2023-01-10, 19:39:43
https://www.computerbase.de/2023-01/intel-sapphire-rapids-vorstellung-architektur-modelle/ inkl aller Folien

https://www.servethehome.com/4th-gen-intel-xeon-scalable-sapphire-rapids-leaps-forward/

Pirx
2023-01-11, 09:16:33
erste Linux-Benchmarks https://www.phoronix.com/review/intel-xeon-platinum-8490h

dildo4u
2023-01-11, 09:53:21
Endlich Konkurrenz weit vorne in AI daher die 17k fürs Top Modell.
Könnte problematisch für AMD werden wenn Jetzt wieder der ganze AI Softwarestack auf Intel ausgerichtet wird erinnert an Cuda bei der GPU.

Pirx
2023-01-11, 10:03:04
Naja sieht doch eher recht bescheiden aus bei allgemeiner Performance und Leistungsaufnahme - also versucht Intel den Fokus auf eigene "Spezialfelder" abzulenken.

Der_Korken
2023-01-11, 10:43:53
Zen 3 sieht in einigen Workloads fast schon schäbig aus gegen Zen 4 und Sapphire Rapids. Krass wie stark sich AVX512 da bemerkbar zu machen scheint. Ansonsten sieht es abseits der AI-Anwendungen so aus wie erwartet: AMD hat einfach insgesamt mehr Bumms. Interessanterweise ist der Vorsprung von AMD bei 2P deutlich kleiner als bei 1P. Das liegt an einigen Benches, wo Intel bei 2P >150% zulegt, was eigentlich keinen Sinn ergibt. Sieht teilweise sehr komisch aus. Ich hatte befürchtet, dass Intel schlechter abschneiden würde, was nach all den Verzögerungen ein Desaster gewesen wäre. Allerdings wird sich Intel bei der AI-Performance auch mit der neuen Mega-APU von AMD messen lassen müssen. Da hätte AMD dann seine eigenen CDNA-Units quasi als "accelerators" mit auf dem Chip.

aceCrasher
2023-01-11, 10:46:14
SR 3475X (Wohl bei AMD geklaut, das X)
Die -X Endung gibt es doch schon ewig bei Intel??? :confused:
Siehe i7 5960X oder mein i7 7820X.

Lehdro
2023-01-11, 14:46:07
Die -X Endung gibt es doch schon ewig bei Intel??? :confused:
Siehe i7 5960X oder mein i7 7820X.
Sind aber keine Xeons, oder?

Skysnake
2023-01-11, 21:45:43
erste Linux-Benchmarks https://www.phoronix.com/review/intel-xeon-platinum-8490h

Wie erwartet. SR ist abseits von AI Benchmarks, die massiv von den neuen Instruktionen profitieren, langsamer als Genoa und säuft dabei auch noch mehr.

Btw die Werte für SR mit HBM sind noch nicht raus oder?

Zossel
2023-01-11, 22:44:04
Wie erwartet. SR ist abseits von AI Benchmarks, die massiv von den neuen Instruktionen profitieren, langsamer als Genoa und säuft dabei auch noch mehr.

Wie ist das im Vergleich zu NV?

Badesalz
2023-01-12, 00:37:29
Endlich Konkurrenz weit vorne in AI daher die 17k fürs Top Modell.
Könnte problematisch für AMD werden wenn Jetzt wieder der ganze AI Softwarestack auf Intel ausgerichtet wird erinnert an Cuda bei der GPU.(Lachflasch) My Lord... 17k. Ist klar Jungen. Es gibt eine MI210 für PCIe für weniger als das halbe Geld. Dazu braucht man auch nicht eine ganze Rig noch dazu kaufen. Falls das jemand überhaupt abwägen würde.
Der Rest macht das längst auf Nvidia.

Sonst wird das Ding von AMD fast nur direkt verhauen. Nicht selten schon vom 7773X. Der Epyc 9654 ist überall WEIT unter 9000€ zu haben.

dildo4u
2023-01-12, 04:07:20
zIWlXjxyIuM

Gott1337
2023-01-12, 07:05:23
Wie ist das im Vergleich zu NV?
https://cdn.mos.cms.futurecdn.net/nK2h9R6msjPYc3Bk4DHcz4.png

ist zwar nur ein SR preview chip aber naja, die wird ja auch mit Hopper kombiniert.

dildo4u
2023-01-12, 09:25:18
Frage ist ob dort die neuen Blöcke genutzt werden, GPU werden immer massiv schneller sein Frage ist welcher Faktor der Realität entspricht.

Badesalz
2023-01-12, 11:19:03
Frage ist ob dort die neuen Blöcke genutzt werden, Nein, das ist nicht die Frage. Wenn das ohne wäre, wären bei der Skala die blauen Balken bei ResNet nicht zu sehen.
Das Gedöns hat mit SXM oder OAM nichts zu tun. In "der Realität" wird das später ein Gamerfeature für die NPCs sein. Wie bei AMD auch.

@all
Wieviele Steppings hat das Ding jetzt hinter sich? 14? 16? Es hat sich ja nicht wegen dem Herstellungsprozess extrem verzögert. Die Komplexität übersteigt langsam Intels Fähigkeiten (?) Ist das überhaupt möglich? :usweet: Oder haben sie selbst keinen Bock mehr auf x86?


Bester Kommentar auf Luxx zu deren News darüber, hatte übrigens nichts mit der Technik zu tun:

"Ah, die definitive Antwort auf die Frage: wie viel Produktsegmentierung ist zu viel?"

dildo4u
2023-01-12, 12:12:10
Ich bin von NV DLSS 3 Benches als Gen on Gen "Performance Sprung" gewohnt daher hinterfrage ich mal jedes Marketing.

Gott1337
2023-01-12, 19:15:28
Ich bin von NV DLSS 3 Benches als Gen on Gen "Performance Sprung" gewohnt daher hinterfrage ich mal jedes Marketing.
ja das muss man bei allen Herstellern beachten das Cherrypicking betrieben wird, da nehmen die sich alle nix.

Man muss aber sagen das NV den Umsatz stark steigt in diesem Marktsegment, das wird nicht ohne Grund so sein
Aber wenn du schon von DLSS3 sprichst wollen wir nicht die Performanceangaben oder Effizienzsteigerungen bei AMD vergessen. AMD hat dreist gelogen, NV hat einen unpassenden Vergleich gezeigt, dies aber auch immer hingeschrieben.

davidzo
2023-01-12, 22:31:01
SR hat allerdings noch den Vorteil dass Memory Copies ausbleiben. Bei vielen realworld workloads wird nämlich kurz was auf der CPU gemacht oder vorbereitet, dann zur GPU rübergeschoben um am Ende oder gar zwischendurch wieder ein bisschen mit der CPU am Datensatz zu arbeiten. Das kostet viel Zeit und wird in den reinen Tensorflow-benchmarks nicht so wiedergegeben. Schon Jim Keller meinte dass die Integration von general purpose CPU-Cores die auf denselben Speicherpool zugreifen der nächste Schritt ist (Risc-V bei Tenstorrent).
Auch muss man bedenken dass man den RAM/HBM in Nvdias Fall doppelt braucht, sowohl für die CPU als auch für die GPU. Sapphire Rapids ist also wesentlich kostengünstiger bei der RAM-Ausstattung. Es wird auch garantiert workloads geben wo die 80GB von H100 nicht ausreichen. Es hat ja einen grund gehabt haben wieso man schon bei A100 relativ schnell die 80gb Variante nachgeschoben hat. Außerdem sind sowohl A100 als auch H100 SXM Module mit 600 bzw. 700W. In dem Powerbudget bekommt man genau 2x SR unter, ein fairer Vergleich wäre also 2:1, wo SR dann schon fast auf 50% der A100 Leistung kommen würde. Für eine general purpose CPU in einem ganzen fullnode weniger als H100 ist das gar nicht so schlecht.

Was den Vergleich A100 vs H100 angeht würde ich bei den Außreißern stutzig werden, das sieht mal wiede rnach einem klassischen Jensen aus. Bei Bert large rechnet H100 anscheinend weitgehend mit 8bit Genauigkeit während auf A100 16bit Präzision verwendet wird.

Badesalz
2023-01-13, 10:47:58
SR hat allerdings noch den Vorteil dass Memory Copies ausbleiben. Bei vielen realworld workloads wird nämlich kurz was auf der CPU gemacht oder vorbereitet, dann zur GPU rübergeschoben um am Ende oder gar zwischendurch wieder ein bisschen mit der CPU am Datensatz zu arbeiten. Das kostet viel Zeit und wird in den reinen Tensorflow-benchmarks nicht so wiedergegeben. Schon Jim Keller meinte dass die Integration von general purpose CPU-Cores die auf denselben Speicherpool zugreifen der nächste Schritt ist (Risc-V bei Tenstorrent).
Davon hab ich schonmal was gehört :wink:
https://www.youtube.com/watch?v=oBk749pktjw

Bei vielen realworld workloads wird nämlich Ja... So ist das natürlich schade, daß Intel sich für die Folien keine Benches aus dem A... pullen konnte welche eben die beschriebenen Vorteile in Balken darstellen können.
Da war jemand nicht kreativ genug. Bei 10 Verschiebungen mit 14 (15?) Steppings von A0 bis zum Release hätte man sich ruhig mal gegen CDNA2 und A100/H100 zeigen können...

Außerdem sind sowohl A100 als auch H100 SXM Module mit 600 bzw. 700W. In dem Powerbudget bekommt man genau 2x SR unter, ein fairer Vergleich wäre also 2:1, wo SR dann schon fast auf 50% der A100 Leistung kommen würde. Für eine general purpose CPU in einem ganzen fullnode weniger als H100 ist das gar nicht so schlecht.

Was den Vergleich A100 vs H100 angeht würde ich bei den Außreißern stutzig werden, das sieht mal wiede rnach einem klassischen Jensen aus. Bei Bert large rechnet H100 anscheinend weitgehend mit 8bit Genauigkeit während auf A100 16bit Präzision verwendet wird.Das kann man ja machen.
Man kann die grünen Balken auch mal weglassen und die passenden von A100/8bit finden. Und dagegen 2x 17k$ Xeons setzen. Nur zu. Ist das dann pro AMD?? :usweet: Wenn man sich das nämlich schon anschaut, weil man wegen all dem obigen sich überlegt, ob man das noch weiter auf NV fahren will, dann schaut man sich wie gewohnt allgemein kurz um und findet neben Intels ersten Gehversuchen auch das
https://www.tomshardware.com/news/amd-cdna-3-mi300-apu
Und das kommt in etwa zu dem Zeitpunkt wo es SR auch in nötiger Stückzahl gibt... Da weiß ich nicht wie das dann für Intel oft ausgeht.

Natürlich stellt man sich in solchen Fällen gleichzeitig auch die Frage - wenn man sich schon bewegen und migrieren wollen könnte - was man davon hätte, wenn man sein Zeug nur um-setzen würde. Auf NVs Grace-Hopper Module
https://www.nvidia.com/en-us/data-center/grace-hopper-superchip/

dildo4u
2023-01-13, 10:56:35
Hier ein 44 Core Modelle laut dem Video könnten diese Versionen oft mehr Sinn machen da sie in Teillast höher takten.

0dQiXZlqr8M

Badesalz
2023-01-13, 11:41:35
Ja das macht auch echt Sinn. Wenn man auf so einem System erwähnenswert oft Teillast auf den 44 Kernen erwartet, braucht man nicht zwingend einen 8490H :uup:

Guter Tipp von von Wendell. Sehr scharfsinnig...

davidzo
2023-01-13, 17:10:42
Davon hab ich schonmal was gehört :wink:
https://www.youtube.com/watch?v=oBk749pktjw



Genau, wenn AMD das gut executed werden sie mit SR, PV den Boden aufwischen. GH ist ein ähnliches Konzept, und kommt vom Marktführer, wird also nicht schlecht sein, hat aber immer noch kein unified memory konzept.


Ja... So ist das natürlich schade, daß Intel sich für die Folien keine Benches aus dem A... pullen konnte welche eben die beschriebenen Vorteile in Balken darstellen können.
Da war jemand nicht kreativ genug. Bei 10 Verschiebungen mit 14 (15?) Steppings von A0 bis zum Release hätte man sich ruhig mal gegen CDNA2 und A100/H100 zeigen können...

Wozu sollte Intel eine CPU mit einem spezialiserten Accellerator vergleichen, wo man doch immer den Kürzeren zieht?


Und dagegen 2x 17k$ Xeons setzen.

Zahlt kein Mensch. Der Preis ist Verhandlungssache und wird in der Praxis deutlich unter dem 9654 liegen. Und der liegt gerade bei 8K bzw. ca. 6K mit rebates. Ich denke nicht dass eine größere Organisation mehr als 5K für die 60C SKU zahlen wird. Aber ist auch egal, der Hauptkostenpunkt von solchen Systemen ist sowieso DRAM und danach Softwarelizenzen. Und bei beidem sieht ein traditionelles CPUsystem aktuell noch gut aus.


Natürlich stellt man sich in solchen Fällen gleichzeitig auch die Frage - wenn man sich schon bewegen und migrieren wollen könnte - was man davon hätte, wenn man sein Zeug nur um-setzen würde. Auf NVs Grace-Hopper Module
https://www.nvidia.com/en-us/data-center/grace-hopper-superchip/
Da migriert niemand. Leute die bisher schon Nvidia Racks haben sind AI Trendsetter und dermaßen Thema investiert dass die nicht so leicht wechseln werden, auch nicht zu AMD, aber noch viel weniger auf SR und PV. Die machen Software, denen ist nur wichtig dass alles kompatibel bleibt und wenn es schneller, günstiger oder sparsamer wird ist das nett, aber im b2b-kontext sekundär (Kosten werden durchgereicht).

Das braucht Intel aber auch gar nicht. Der Markt für AI-Hardware ist so stark am Wachsen, dass man einen völlig anderen Teil bedienen kann.
Jede kleine wie große noch so konservative Softwarebude die letztes Jahr noch gar nichts mit AI am Hut hatte spielt gerade mit Chat-GPT, GPT3, Stable Diffusion, Dall-e etc. - 90% der Software die da draußen entwickelt wird ist kein heißer AI Scheiß, sondern langweilige Datenbanken mit banalen Webfrontends. Java, C#, php Businessprogrammierer mit mittelmäßigen Fähigkeiten sind klar in der Überzahl gegenüber Python, pytorch, openCL etc Experten. Diese Leute werden demnächst versuchen AI in ihre Anwendungen zu integrieren, ob wir es wollen oder nicht. Der erste Schritt ist sicher ein Firmenaccount bei OpenAI, aber wenn man mehr Freiheiten braucht wird man einfach mal GPT3 auf einem fetten Webserver installieren und damit rumspielen. Vieles kann man zwar in die Cloud verlagern, z.B. OpenAI, aber im Businesskontext ist On premise vielerorts noch wichtig, nicht nur wegen dsgvo und EU privacy shield.
Das sind genau die durchschnittlich bis unterdurchschnittlich innovativen Softwarefirmen auf die Intel abziehlt, die seit Jahrzehnten treue Kunden sind aber einen Großteil des Marktes ausmachen. Die haben 90% langweilige Businessanwendungen und mit viel Glück bald 10% AI Workloads. Für die ist SR mit AMX Instructions daher eine sehr gute value proposition. Ein Epycserver kommt vielleicht mal in Frage wenn CPUleistung gewünscht ist. Aber keiner von den leuten hat genug Eier zu entscheiden in welche Acceleratorarchitektur die Firma massiv investieren sollte, AMD Instinct oder Nvidia DGX. Die entry barrier ist bei SR einfach viel niedriger, im worstcase bleibt die Investition einfach nur ein neuer webserver mit einem netten QAT accelerator.

Badesalz
2023-01-13, 22:45:16
Der letzte Absatz stimmt schon. Grundsätzlich. Auch wenn ich noch nicht so richtig checke was solche 0815 Buden damit wollen bzw. aus was bei denen die 10% bestehen sollen. Aber es ist wohl ein netter Einstieg. Wenn sich das bei denen steigert können sie dann immernoch zu NV gehen :usweet:

Ich bin mir aber nicht sicher, ob QAT den Leuten die so eine Kiste dann selbst betreiben, Webserver und QAT wichtiger wäre als DSA. Aber hej, Intel-on-Demand und so :uup:

edit:
Genau, wenn AMD das gut executed werden sie mit SR, PV den Boden aufwischen. GH ist ein ähnliches Konzept, und kommt vom Marktführer, wird also nicht schlecht sein, hat aber immer noch kein unified memory konzept.Die Hardwarekomponenten für ElCapitan sind ja genehmigt. D.h. die Samplenodes mit MI300 funktionieren wie geplant (!) und das bringt am Ende 2 Exaflops.
Frontier macht 1,1Exaflops. Mit 21MW. Aurora macht noch garnichts. Und Jülich will weiterhin keinem erzählen was für Hardware sie nun beschaffen...

dildo4u
2023-01-20, 08:25:00
AVX 512 Performance SR vs Genova.


https://www.phoronix.com/review/intel-sapphirerapids-avx512/8

Ramius
2023-01-21, 00:05:28
Das braucht Intel aber auch gar nicht. Der Markt für AI-Hardware ist so stark am Wachsen, dass man einen völlig anderen Teil bedienen kann.
Jede kleine wie große noch so konservative Softwarebude die letztes Jahr noch gar nichts mit AI am Hut hatte spielt gerade mit Chat-GPT, GPT3, Stable Diffusion, Dall-e etc. - 90% der Software die da draußen entwickelt wird ist kein heißer AI Scheiß, sondern langweilige Datenbanken mit banalen Webfrontends. Java, C#, php Businessprogrammierer mit mittelmäßigen Fähigkeiten sind klar in der Überzahl gegenüber Python, pytorch, openCL etc Experten. Diese Leute werden demnächst versuchen AI in ihre Anwendungen zu integrieren, ob wir es wollen oder nicht. Der erste Schritt ist sicher ein Firmenaccount bei OpenAI, aber wenn man mehr Freiheiten braucht wird man einfach mal GPT3 auf einem fetten Webserver installieren und damit rumspielen. Vieles kann man zwar in die Cloud verlagern, z.B. OpenAI, aber im Businesskontext ist On premise vielerorts noch wichtig, nicht nur wegen dsgvo und EU privacy shield.
Das sind genau die durchschnittlich bis unterdurchschnittlich innovativen Softwarefirmen auf die Intel abziehlt, die seit Jahrzehnten treue Kunden sind aber einen Großteil des Marktes ausmachen. Die haben 90% langweilige Businessanwendungen und mit viel Glück bald 10% AI Workloads. Für die ist SR mit AMX Instructions daher eine sehr gute value proposition. Ein Epycserver kommt vielleicht mal in Frage wenn CPUleistung gewünscht ist. Aber keiner von den leuten hat genug Eier zu entscheiden in welche Acceleratorarchitektur die Firma massiv investieren sollte, AMD Instinct oder Nvidia DGX. Die entry barrier ist bei SR einfach viel niedriger, im worstcase bleibt die Investition einfach nur ein neuer webserver mit einem netten QAT accelerator.

Da möchte ich doch mal stark widersprechen.
Von diesen Firmen wird niemand versuchen AI zu integrieren, da die Programmierer dort gar nicht wissen wie sie AI integrieren könnten noch wofür ihre Software das gebrauchen könnte. AI wird man dort nur nutzen wenn der MS Compiler dies automatisch in die Anwendung integriert. Da wird auch niemand in neue Hardware investieren (weshalb auch, wenn deren Kunden selbst auch nicht in SR, AMD Instinct oder Nvidia DGX investieren).

Badesalz
2023-01-22, 10:09:38
AVX 512 Performance SR vs Genova.


https://www.phoronix.com/review/intel-sapphirerapids-avx512/8Intel gelegentlich halbe Motorhaube vorne oder AMD mal genauso. Und die anderen Benches wo der Epyc schon ohne AVX-512 eine Wagenlänge vorne ist und die, wo er mit AVX DREI Wagenlängen vorne liegt :freak:

edit:
oneDNN ist übrigens Intels Handoptimiertes und nutzt auch noch AMX ;)

davidzo
2023-01-22, 16:44:32
Da möchte ich doch mal stark widersprechen.
Von diesen Firmen wird niemand versuchen AI zu integrieren, da die Programmierer dort gar nicht wissen wie sie AI integrieren könnten noch wofür ihre Software das gebrauchen könnte.

Hast du mal ChatGPT oder GPT3 getestet? Scheint mir als wenn du keine Ahnung hast wovon du sprichst.
Dazu braucht man kein Wissen.
Neuronalen Netze wie GPT3 sind ja gerade das Gegenteil von Programmieren. Die brauchen nur ausreichend Lerndaten. Um die mit sowas zu füttern muss man kein Programmierer sein, das kann jeder. Und die vorgelernten Modelle die z.B. bereits alle Sprachen sprechen und eine Allgemeinbildung eines Doktoranden haben kannst du wie gesagt einfach lizensieren und dann mit deinen Fachspezifischen Daten ergänzen.
Das ist doch gerade der Vorteil an AI, integrieren kann das ein 12-jähriger. Das knowhow liegt halt bei der openAI Foundation, bzw. nichtmal bei denen sondern in deren neuronalen Netzwerk.

Überall dort wo bisher ein Kontaktformular, Chatscript, FAQ, Kundenberater etc. auf einer webseite eingebunden ist packst du jetzt einen GPT3 rein der einen Teach-In Text bekommt über den er dann reden soll.

Ich habe bei chat GPT mal die Aufgaben einer Abitur Testklausur einer Freundin auf Deutsch eingegeben, mit Vorgabe zur Satzzahl. Da kam eine perfekte Charakterisierung raus, besser als jeder Deutsch Nachhilfelehrer das könnte. Ebenso Matheaufgaben, etc. - ChatGPT ist einfach verdammt schlau. Und wenn man das kennt, dann kommt man schnell auf die Idee die Hälfte der Kundenberater und Supportleute durch eine eigene KI Lösung zu ersetzen. Und die lizensiert man einfach irgendwo damit sie die basics schon kann und füttert die dann mit seinen Fachtexten.

Ich kenne einige Leute aus der Softwarebranche die vorher delegiert haben, auf echte Coder angewiesen waren, die jetzt einfach selbst mit ChatGPT programmieren. "Chat GPT, schreibe eine iOS App in Swift welche RSSfeeds von Spiegel online, Computerbase und PCGH anzeigen und abspielen kann."+
Und da kommt dann sauber programmierter und gut kommentierter funktionstüchtiger Code bei heraus.

Oder Leute die Bildbearbeitungs und Fotoretusche-Aufträge aus Fiverr annehmen und in die Dall-E Api pipen und dann ihr Geld zählen. Und zwar Leute ohne richtige Bildbearbeitungserfahrung.
Das ist alles schon Realität.


AI wird man dort nur nutzen wenn der MS Compiler dies automatisch in die Anwendung integriert. Da wird auch niemand in neue Hardware investieren (weshalb auch, wenn deren Kunden selbst auch nicht in SR, AMD Instinct oder Nvidia DGX investieren).

Lol, natürlich gibt es auch AI-konstrukte für Compiler, genauso wie für Hardware wo Cadence und Synopsis schon im großen Stil floorplanning AIs verwenden und gerade versuchen beim RTL und frühersinnvoll einzusetzen. Aber das ist gerade ein winziger Bruchteil der AI-Branche, beinahe die late-mover/laggards.

Zossel
2023-01-22, 16:51:46
Neuronalen Netze wie GPT3 sind ja gerade das Gegenteil von Programmieren. Die brauchen nur ausreichend Lerndaten. Um die mit sowas zu füttern muss man kein Programmierer sein, das kann jeder. Und die vorgelernten Modelle die z.B. bereits alle Sprachen sprechen und eine Allgemeinbildung eines Doktoranden haben kannst du wie gesagt einfach lizensieren und dann mit deinen Fachspezifischen Daten ergänzen.
Das ist doch gerade der Vorteil an AI, integrieren kann das ein 12-jähriger. Das knowhow liegt halt bei der openAI Foundation, bzw. nichtmal bei denen sondern in deren neuronalen Netzwerk.

Du hast die Klickworker vergessen:

https://www.derstandard.at/story/2000142768897/das-schmutzige-geheimnis-von-chat-gpt-sind-kenianische-billiglohnkraefte

davidzo
2023-01-22, 17:43:40
Du hast die Klickworker vergessen:

https://www.derstandard.at/story/2000142768897/das-schmutzige-geheimnis-von-chat-gpt-sind-kenianische-billiglohnkraefte

Hat GPT3 nicht. Das ist ja genau der Unterschied zwischen chatgpt und gpt3. Deswegen gehe ich ja davon aus dass in realen Anwendungen viel häufiger gpt3 as on premise Lösung benutzt werden wird. Vor allem dann wenn OpenAI das Geld ausgeht und Elon und Microsoft ein bisschen rendite haben wollen. Das wird kommen, aber erstmal müssen sie sich als Marktführer etablieren.
Aber ja, jeder Betreiber muss sich Gedanken über irgendeine art von content managing machen.

dildo4u
2023-02-04, 11:23:00
Workstation bis 24 Core kommt im März und bis 56 Core im April.



https://videocardz.com/newz/intel-xeon-w-2400-workstation-hedt-cpus-are-launching-in-march-reviews-on-february-22nd

Edgecrusher86
2023-02-04, 12:59:29
Intel Sapphire Rapids Xeon Workstation


Embargo Date: 15 Feb 2023 09:00 AM PT
Review Embargo: 22 Feb 2023 09:00 AM PT
Sales Embargo: W-2400 + Intel W790 Chipset: 08 March to 22 March 2023
Sales Embargo: W-3400: 12 April to 26 April 2023



112 PCIe Gen 5.0 Lanes (Xeon W-3400)
64 PCIe Gen 5.0 Lanes (Xeon W-2400)
16 PCIe Gen 4.0 Lanes (W790 PCH)
12 PCIe Gen 3.0 Lanes (W790 PCH)
8 SATA III 6 GB/s Ports (W790 PCH)


Nochmal kurz und knackig - schade, dass das Dingen nicht gleich schon als Granite Rapids kommt, auf Golden Cove in 2023 hätte ich keine Lust. :)

HOT
2023-02-04, 13:12:55
Ich bin gespannt wie ein Flitzebogen auf die 2k-Serie. Die 3k-Serie wird nicht so interessant, weil die Takte Mist sind.

dildo4u
2023-02-04, 13:19:44
Leider sind die Threadripper Zen 3 Preise absurd der 24 Core Intel kann weit über 2k kosten und wäre nicht zu teuer.

Edgecrusher86
2023-02-10, 12:04:04
https://videocardz.com/newz/intel-24-core-xeon-w7-2495x-processor-spotted-on-geekbench-slower-than-core-i9-13900k

Geekbench skaliert aber auch mal mehr schlecht als Recht - gerade im MT, wenn man einmal den 13900K mit AMDs HEDT 32-64C vergleicht.

https://abload.de/img/vck8dfr.png

Im ST sieht es aber auch etwas seltsam für Fishhawk Falls (https://browser.geekbench.com/v5/cpu/20450437) aus. Eventuell lagen die 4,6 GHz ja nur zum Start kurzfristig an und es ging schnell auf ~ 4,0 bis 4,1 GHz herunter, wenn ich das so mit dem i5-12100 (4,3 GHz ST) und i5-12500 (4,6 GHz ST) vergleiche. Wären es konstante 4,6 GHz, so müsste irgendetwas die CPU gewaltig bremsen.

https://abload.de/img/2495xn5fp7.png https://abload.de/img/12100d8e3z.png

https://abload.de/img/12500cecee.png https://abload.de/img/12600t1cfk.png

Wären es konstante 4,8 GHz ST beim W7-2495X, wie in der Intel Folie angegeben, sollten eigentlich über 1700 Punkte heraus kommen, wie man anhand des i5-12600 sieht. Die besagten 1766 des 12600 entsprächen ~ 80% des 13900K, was sozusagen 1:1 mit dem Takt skaliert (5,8 GHz vs. 4,8 GHz -> 21%).
Beim obigen Ergebnis fehlen also noch ca. 18% Leistung, was ADL bei 4,8 GHz packen sollte.

mocad_tom
2023-02-14, 10:55:02
Zu dem geleakten Geekbench score

Fishhawk Falls muss mit DDR5 ECC RDIMM als RAM bestückt werden.

https://geizhals.de/?cat=ramddr3&xf=15903_mitECC%7E15903_registered%7E5828_DDR5

Bei Raptor Lake sieht man, wie sehr hier nochmals zugelegt wird, sobald man schnelleren RAM reinpackt.

Dann ist die Topologie, die innen drin steckt ein Mesh (wird wohl langsamer sein als der Ring).

Und dann ist mir nicht klar, ob manche Cache-Hierarchie-Sachen nicht mit Blick auf AMX so gestaltet wurden, dass sie dort (bei AMX) Topleistungen abliefern müssen.

Das was man bei Phoronix so liest ist wirklich vielversprechend.

Clear Linux und Sapphire Rapids und Wald und Wiesen-Server-Anwendungen:
https://www.phoronix.com/review/centos-clear-spr/3

DaCapo-Benchmark, PHPBench, MariaDB, ClickHouse

Sachen wie Renderer oder Videokompression interessieren nicht, weil die auch im Cloud-Bereich auf Beschleuniger rübertransferiert werden.

Dann wird es interessant, wie Microsoft die K.I.-Sache im täglichen Betrieb laufen lassen will.

Das sind zufällige Suchanfragen auf große Modelle, viel preemptives mit drin.

Wir sehen ja bei den Inference-Benchmarks nur die "Heile Welt".

Im Realbetrieb läuft es chaotischer.
Wir sind jetzt nicht mehr nur bei Spracherkennung ("Alexa mach das und das")

Es wird einen Grund haben, warum
AMD CPU+GPU (Instinct MI300)
Intel Falcon Shores
Nvidia Hopper + Grace

Sowohl Google als auch Microsoft machen das aktuell mit der KI-Suche mit Einladungen.

ChatGPT Plus möchte Geld sehen.

dildo4u
2023-02-14, 11:47:38
https://videocardz.com/newz/intel-24-core-xeon-w7-2495x-processor-spotted-on-geekbench-slower-than-core-i9-13900k

Geekbench skaliert aber auch mal mehr schlecht als Recht - gerade im MT, wenn man einmal den 13900K mit AMDs HEDT 32-64C vergleicht.

https://abload.de/img/vck8dfr.png

Im ST sieht es aber auch etwas seltsam für Fishhawk Falls (https://browser.geekbench.com/v5/cpu/20450437) aus. Eventuell lagen die 4,6 GHz ja nur zum Start kurzfristig an und es ging schnell auf ~ 4,0 bis 4,1 GHz herunter, wenn ich das so mit dem i5-12100 (4,3 GHz ST) und i5-12500 (4,6 GHz ST) vergleiche. Wären es konstante 4,6 GHz, so müsste irgendetwas die CPU gewaltig bremsen.

https://abload.de/img/2495xn5fp7.png https://abload.de/img/12100d8e3z.png

https://abload.de/img/12500cecee.png https://abload.de/img/12600t1cfk.png

Wären es konstante 4,8 GHz ST beim W7-2495X, wie in der Intel Folie angegeben, sollten eigentlich über 1700 Punkte heraus kommen, wie man anhand des i5-12600 sieht. Die besagten 1766 des 12600 entsprächen ~ 80% des 13900K, was sozusagen 1:1 mit dem Takt skaliert (5,8 GHz vs. 4,8 GHz -> 21%).
Beim obigen Ergebnis fehlen also noch ca. 18% Leistung, was ADL bei 4,8 GHz packen sollte.
Wie sehr reagiert der Bench auf Cache?
W7-2495x hat nur 1.875 mb L3 Pro Core, der 12500 3mb L3 pro Core.

Edgecrusher86
2023-02-15, 13:40:46
Update:
VC.com: Intel Launches New Xeon Workstation Processors – the Ultimate Solution for Professionals (Press Release) (https://videocardz.com/press-release/intel-launches-xeon-w3400-2400-workstaion-cpus-with-up-to-56-cores-112-pcie-gen5-lanes-and-8-channel-ddr5-memory-support)


Der TR 5995WX PRO hat 256MB L3 Cache und setzt sich nicht wirklich ab. Ein User im CB mit 3990X meinte, dass die CPU im GB 6 fast im gesamten Test (MT) nur zu 1-2% Load hatte, erst zum Schluss mehr. Also allerhöchstens ein ST Test.

https://videocardz.com/newz/intel-xeon-3400-2400-specs-and-pricing-leaks-out-56-core-xeon-w9-3495x-to-cost-5889

Autsch, damit ist die Plattform für Enthusiasten nochmals deutlich unattraktiver - sehr hohe Preise, wie befürchtet wurde.


https://abload.de/img/intel-xeon-w3400-w240lkfia.jpg

https://abload.de/img/intel-xeon-w3400-w240std1v.jpg


ASUS DOMINUS II EXTREME? (EEB Form Factor; wie etwa auch das DOMINUS EXTREME)

https://twitter.com/momomo_us/status/1625703210894888961

https://twitter.com/momomo_us/status/1625846671187013634?cxt=HHwWhMDT9d27lZAtAAAA

Ausstattung siehe Pic.



Taktraten:
https://abload.de/img/fpak_x0aqaalfixj7egp.png

https://twitter.com/OneRaichu/status/1625887663067926528?cxt=HHwWgMDUneONqJAtAAAA

dildo4u
2023-02-15, 13:47:04
24 Core Threadripper ist 2.4k zumindest die kleinere Serie scheint für Intel Verhältnisse Konkurrenzfähig.

https://www.techpowerup.com/cpu-specs/ryzen-threadripper-pro-5965wx.c2721

Edgecrusher86
2023-02-15, 15:01:16
ASRock W790 WS (Produktseite) (https://www.asrock.com/mb/Intel/W790%20WS/index.asp)

https://abload.de/img/27dclw.png

Also geht wohl auch was am Mem-OC. :freak:

ASRock W790 Handbuch (https://download.asrock.com/Manual/W790%20WS_German.pdf)

https://abload.de/img/190fd5.png

https://abload.de/thumb/11rca6.png (https://abload.de/image.php?img=11rca6.png)

https://abload.de/img/4e5ck5.png

https://abload.de/img/3z1dod.png


VC.com: ASRock launches W790 WS motherboard for Intel Xeon W3400/W2400 series (https://videocardz.com/press-release/asrock-launches-w790-ws-motherboard-for-intel-xeon-w3400-w2400-series)


https://twitter.com/momomo_us/status/1625871704823324673

Edgecrusher86
2023-02-15, 20:50:51
VC.com: ASUS unveils PRO WS W790 SAGE and ACE motherboards ‘built for overclocking’ (Press Release) (https://videocardz.com/press-release/asus-unveils-pro-ws-w790-sage-and-ace-motherboards-built-for-overclocking)

https://abload.de/img/screenshot2023-02-1526nfgg.png


ASUS Pro WS W790E-SAGE SE (Produktseite (https://www.asus.com/motherboards-components/motherboards/workstation/pro-ws-w790e-sage-se/))

https://abload.de/img/asus-w790-sage-76hcb4.jpg

https://abload.de/img/asus-w790-sage-66vcir.jpg

https://abload.de/img/function_img14gi9c.png
https://abload.de/thumb/asus-w790-sage-7pafzu.jpg (https://abload.de/image.php?img=asus-w790-sage-7pafzu.jpg) https://abload.de/thumb/asus-w790-sage-6e9dsk.jpg (https://abload.de/image.php?img=asus-w790-sage-6e9dsk.jpg)

Das einzige Board mit 7 PCI-E 5.0 Slots - Vollbestückung: x16/x16/x16/x16/x16/x8/x16 (+ 2x x4 M.2 Gen 5)


ASUS Pro WS W790-ACE (Produktseite) (https://www.asus.com/motherboards-components/motherboards/workstation/pro-ws-w790-ace/)

https://abload.de/img/asus-w790-ace-245cwe.jpg

https://abload.de/img/asus-w790-ace-1kzcym.jpg


https://abload.de/thumb/asus-w790-ace-2sbc1s.jpg (https://abload.de/image.php?img=asus-w790-ace-2sbc1s.jpg) https://abload.de/thumb/asus-w790-ace-1jafd7.jpg (https://abload.de/image.php?img=asus-w790-ace-1jafd7.jpg)

Also doch kein ROG Brett dabei. ;)

davidzo
2023-02-15, 21:27:46
Ich wünsche mir solche simplen aber effektiven VRM-Kühler für alle mainboards :uclap:

Das ist soviel effektiver als die Isolierplatten ohne Oberfläche die heutzutage verbaut werden und sieht gerade in schwarz so viel besser aus als der "military" Schrott der auf consumer boards verbaut wird. Da kann ich sogar auf heatpipes verzichten. Wobei man die auch gut unsichtbar in die Bodenplatte von so einem Alu-Strangprofil-Kühlkörper einpressen kann. Die "Pro Series" Isolierplatte aber bitte durch einen Rippenkühlkörper mit gleichem Lamellenabstand und Ausrichtung ersetzen!

Edgecrusher86
2023-02-16, 10:26:21
Supermicro X13SWA-TF (Produktseite) (https://www.supermicro.com/en/products/motherboard/x13swa-tf)


https://abload.de/img/17ye8w.png https://abload.de/img/1bsrefq.png

Das einzige Board am Markt mit 16 DIMMs für die theor. Vollbestückung von 4TB.


Supermicro X13SRA-TF (Produktseite) (https://www.supermicro.com/en/products/motherboard/x13sra-tf)

https://abload.de/img/3jfev6.png https://abload.de/img/3bbfiu1.png

Wuge
2023-02-16, 15:06:44
Boah, dieser Sockel... das Ding ist ja so groß wie ein Micro-ITX Board ;)

Spaß beiseite, super hübsche Bretter. 1 DPC konfigurationen mit 4 DDR5 Slots wären mal interessant aus OC Sicht.

HOT
2023-02-16, 17:13:17
Die starten bestimmt bei 1200$ :freak:

davidzo
2023-02-16, 17:36:33
Boah, dieser Sockel... das Ding ist ja so groß wie ein Micro-ITX Board ;)

Spaß beiseite, super hübsche Bretter. 1 DPC konfigurationen mit 4 DDR5 Slots wären mal interessant aus OC Sicht.


Der ist doch noch klein:freak:. SP5 / LGA6096 ist fast genau so breit wie hoch (72x75mm). LGA4677 ist nur 82x61mm groß.

Und Sierra Forrest wird in zwei Jahren einen 1,7x größeren Sockel nur für E-Cores bringen. Intel will mit LGA7529 dann mit Genoa gleichziehen und ebenfalls auf 12ch DDR5 setzen. Man munkelt von biszu 512 E-Cores :eek:

Ob es überhaupt nach SR noch ein LGA4677 update gibt steht in den Sternen. Granite Rapids wird wohl auf das gleiche i/o DIE setzen wie Sierra Forrest und deshalb vermutlich auch nur auf LGA7529.

Es wäre nicht das erste mal dass eine sehr teure und lange zu validierende High-End Plattform von Intel dann doch ein sehr kurzes Leben führt. Erstaunlich bei was die Boardpartner so alles mitmachen.

Loeschzwerg
2023-02-16, 18:04:44
Ob es überhaupt nach SR noch ein LGA4677 update gibt steht in den Sternen.

Emerald soll noch kommen, allerdings nur noch für 1-2 Sockel und nicht mehr wie ursprünglich für Multi. So zumindest mein letzter Stand von vor zwei Monaten. Kann sich natürlich alles noch ändern, so richtig darauf verlassen kann man sich bei Intel da nicht mehr ^^

=Floi=
2023-02-16, 18:38:29
Die starten bestimmt bei 1200$ :freak:

Solange intel bei 100$ pro core bleibt kann man sich deren prozessoren sparen. Finde die abgrenzung zwischen 200watt und 350watt auch komisch.

y33H@
2023-02-17, 09:51:18
SPR und EMR laufen beide in LGA 4677, jupp.

EDIT:
Intel will mit LGA7529 dann mit Genoa gleichziehen und ebenfalls auf 12ch DDR5 setzen [...]Granite Rapids wird wohl auf das gleiche i/o DIE setzen wie Sierra Forrest und deshalb vermutlich auch nur auf LGA7529.So wie AMD den SP5 mit 12ch und den SP6 mit 6ch hat, so wird es bei Intel zwei Sockel für SFR und GNR mit unterschiedlicher Menge an Channels sowie Lanes geben - sprich SP bzw AP.

robbitop
2023-02-17, 10:48:44
Die 56 Core sind soweit ich verstanden habe, 4x Dies per EMIB verbunden, oder?
Mesh halte ich bei so vielen Teilnehmern auch für sehr wahrscheinlich. Die Frage ist, haben alle Cores von den 56 über die Dies hinweg Zugriff auf den gesamten L3 Cache? Und die Frage ist, wie viel Latenz kostet es wenn man über die Dies hinweg zugreifen will? Wird interessant.

AMD hatte mit TR ein tolles Produkt im Lineup hat aber mangels Wettbewerb im HEDT dann die Entscheidung getroffen, kein TR mehr nachzulegen sondern über die "PRO" Strategie einfach mehr Geld zu verdienen. Wettbewerb und so. Ggf. ist das jetzt mal der Tritt in den Hintern (e.g. Wettbewerb) um TR zurückzubringen?
Andererseits nutzt AMD die Cores wahrscheinlich lieber für Epyc wo sie mehr verdienen. Würde mich nicht wundern, wenn AMD nicht alle Märkte mit dem Output der Dies bei TSMC füllen kann und sich entsprechend die lukrativsten auswählt.

Mit Zen 4X3D könnten sie ja theoretisch einen fetten 96er Kerner TR rausbringen, der das soeben gelaunchte Lineup von Intel wegfegt.

dildo4u
2023-02-17, 11:03:42
Die Pros sind ca im selben Bereich, was fehlt sind Low End Modelle.
Der 16 Core ist z.b bei 1.300$ wie der neue 16 Core Intel.

https://www.newegg.com/amd-ryzen-threadripper-pro-5955wx/p/N82E16819113776

mocad_tom
2023-02-17, 11:32:16
Ein Threadripper 5955X kostet $1299 16 Kerne

Ein W5-2465X kostet $1389 16 Kerne

DDR5 ECC Registered Speicher wird etwas teurer sein als beim Threadripper DDR4 ECC (weil der schluckt auch unregistered ECC).

Mainboard von Sapphire Rapids wird etwas teurer sein, weil PCIe 5 und DDR5

Sapphire ist in manchen Anwendungen schon ziemlich weit vor dem Threadripper und er wird es noch mehr.

Für MariaDB, Postgres und MS SQL Server 2022 kommen gerade erst die Anpassungen rein.

Manche AVX512 Sorts legen massiv zu, oder JSON parsing mit AVX512

https://www.phoronix.com/news/Intel-AVX-512-Quicksort-Numpy

davidzo
2023-02-17, 16:51:26
Für die Differenzkosten bei Speicher und Mainboard kriegst du schon fast einen 5965X.

Oder viel besser gleich den 7950X. Ebenfalls 16 kerne, aber 50% schneller als der TR und mit gutem DDR5 nichtmal viel weniger Bandbreite als der 4ch DDR4 Threadripper. Btw, auf Wunsch läuft x670 + 7950x auch mit ECC, gleiches beim W680 + 13900K.

HEDT mit nur 16Kernen macht keinen Sinn.

DeadMeat
2023-02-17, 18:22:58
Gleicher Preis wie bei einem 16Kern Genoa, da wäre ein Vergleich mal interessant.

dildo4u
2023-02-17, 18:26:49
Für die Differenzkosten bei Speicher und Mainboard kriegst du schon fast einen 5965X.

Oder viel besser gleich den 7950X. Ebenfalls 16 kerne, aber 50% schneller als der TR und mit gutem DDR5 nichtmal viel weniger Bandbreite als der 4ch DDR4 Threadripper. Btw, auf Wunsch läuft x670 + 7950x auch mit ECC, gleiches beim W680 + 13900K.

HEDT mit nur 16Kernen macht keinen Sinn.
Kommt doch drauf an die Intel Systeme mit wenigen Kernen machen Sinn wenn man sein Code auf multiplen GPU laufen lassen kann, laut Linus ist das I/O hier ein Verkaufsgrund.

h7mNA2L_6Z4

y33H@
2023-02-17, 19:00:49
Die 56 Core sind soweit ich verstanden habe, 4x Dies per EMIB verbunden, oder? Die Frage ist, haben alle Cores von den 56 über die Dies hinweg Zugriff auf den gesamten L3 Cache? Und die Frage ist, wie viel Latenz kostet es wenn man über die Dies hinweg zugreifen will? Ja + Ja ... zur Latenz: wenig, quasi monolithisch.

Zossel
2023-02-17, 19:15:34
Wie verhält sich eigentlich der Takt von Sapphire Rapids wenn AVX-512 ausgeführt wird?

y33H@
2023-02-18, 10:22:27
Verglichen zu SSE und AVX2 sinkt er, die absolute Leistung und Perf/Watt steigt jedoch.

latiose88
2023-02-18, 11:34:31
Ja und wenn man es so macht wie bei AMD dann kostet AVX 512 auch garnix,aber dafür bringt es dann auch Leistung.Gibt also zu Intel durchaus Unterschiede beim AVX 512.Zugerne würde es mich interessieren was richtiges AVX 512 dann am Ende noch so an Mehrleistung bringt.Freilich bei gleichen Takt und ob das dann noch Kühlbar ist,ist ne andere Frage.
Also wird ein Intel CPU mit richtigen AVX 512 Unterstüzung benötigt um festzustellen was es so alles schönes bringt.Ich bin also auf die Tests gespannt.Nur leider wird das so halt keiner Testen,also hieße es ja selbst testen,kostet nur leider einige paar Tausend € um das testen zu können.Es hat aber schon an den Xeon 3175x schon gescheitert,also habe ich hier erst recht so meine Zweifel an dem ganzen.Selbst jetzt sieht es düster aus da was in die hände zu bekommen,was kein Vermögen kostet.

Edgecrusher86
2023-02-18, 12:31:38
Wie verhält sich eigentlich der Takt von Sapphire Rapids wenn AVX-512 ausgeführt wird?


https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13238213#post13238213

Unten. Hat sich nur leicht verschrieben, der Herr.

Zossel
2023-02-18, 13:18:45
richtigen AVX 512

Definiere "richtiges AVX-512".

latiose88
2023-02-18, 13:32:53
ja bei AMD baut AVX 512 eben auf AVX 2 auf,bei Intel ja nicht darum ist bei Intel das AVX512 ein echtes AVX512.

y33H@
2023-02-18, 14:21:34
Dual Cycle vs Single Cycle - bei Intel braucht ist's halt schneller.

latiose88
2023-02-18, 14:53:52
was meinst du mit Dual und SIngle Cycle damit?

reaperrr
2023-02-18, 14:59:29
was meinst du mit Dual und SIngle Cycle damit?
AMD braucht 2 Takte, um eine AVX512-Op auszuführen, Intel einen.

Intel muss unter AVX-Last dafür niedriger takten als AMD, weil die großen 512bit-AVX-Einheiten von Intel unter hoher Last viel Strom verbrauchen.

y33H@
2023-02-18, 15:43:28
Jupp, wobei wie gesagt absolut gesehen die Intel-Implementierung mehr Leistung und Perf/Watt rausholt (auf Kosten der Die-Fläche zugegeben) und es mit AMX ja schon eine weitere Entwicklung in diese Richtung gibt.

latiose88
2023-02-18, 16:08:56
ja ist halt die Frage ob die Software AMX ohne das groß ne neue Entwicklung stattgefunden hatte automatisch unterstüzt.Wohl eher weniger.Aber heißt wenn bei AMD AVX 512 schon keine so große Sprung stattgefunden hatte,ist es dann mit Intel zu erwarten oder auch nicht?

y33H@
2023-02-18, 16:42:25
AMX legt verglichen zu AVX-512 vor allem bei Inferencing/Training massiv zu, sprich es gibt ein passendes Anwendungsfeld.

latiose88
2023-02-18, 16:53:23
Ok also das ist ne Funktion die sich bei sobald AVX 512 oder sowas benutzt wird,Aktiviert sich AMX dann auch automatisch bei Intel?

Und legt es dann bei Intel Automatisch mehr zu das AVX 512 als bei AMD.ALso wenn es bei AMD 5 % sind,sind es dann bei Intel 20% oder mehr Leistungsteigerung wenn AVX 512 verwendet wird trotz das sich der Takt senken tut?

CrazyIvan
2023-02-18, 18:03:12
Nein, Software muss mindestens für diesen Ziel-Befehlssatz neu kompiliert werden.
Das ist in Forschung, Wissenschaft und bei den Hyperscalern keine unüberwindbare Hürde - vor allem überall da, wo man sich aufgrund AMX signifikante Vorteile verspricht und eben deshalb keinen EPYC anschafft.

latiose88
2023-02-18, 18:12:35
ok schade,dann halt eben nicht.

Intel bietet ja zum glück auch noch neben AMX auch noch AVX 512 an.
Aber naja so meilenweit ist ja Intel bei AVX 512 nicht mehr vorne,dank der AM5 Plattform die ja auch AVX 512 beherscht.Mag ja sein das Intel noch vorne ist,aber wenn es bei AMD schon nicht groß die Software profitiert,gillt das ja auch bei Intel dann?

y33H@
2023-02-18, 18:17:08
Die Sprünge mit AMX sind idR immens, von Faktor drei bis fünf (vs AVX-512 VNNI) reicht die Spanne bei Sapphire Rapids.

latiose88
2023-02-18, 18:25:52
also auf gut deutsch AVX 512 bei AMD ist Faktor 2,AVX 512 bei Intel Faktor 3 und bei AMX 3-5
Oder kann man es so sehen das AVX 512 bei AMD Faktor 1,5 ,bei AVX 512 bei Intel Faktor 2 und bei AMX bei Intel Faktor 3-5 oder sowas.

Und da AMX ja ne weitere Funktin ist,braucht das extra Fläche bei der CPU,kann man das so sehen?

Zossel
2023-02-18, 19:15:27
Dual Cycle vs Single Cycle - bei Intel braucht ist's halt schneller.

Durchsatz oder Latenz?

CrazyIvan
2023-02-18, 19:36:18
also auf gut deutsch AVX 512 bei AMD ist Faktor 2,AVX 512 bei Intel Faktor 3 und bei AMX 3-5
Oder kann man es so sehen das AVX 512 bei AMD Faktor 1,5 ,bei AVX 512 bei Intel Faktor 2 und bei AMX bei Intel Faktor 3-5 oder sowas.

Und da AMX ja ne weitere Funktin ist,braucht das extra Fläche bei der CPU,kann man das so sehen?

Du machst es Dir da etwas zu einfach. Nicht falsch verstehen, aber wenn Du ein wenig mehr in das technische Verständnis für CPUs eintauchen möchtest, dann wäre vielleicht ein erster Anlaufpunkt dieser: https://de.m.wikipedia.org/wiki/Prozessor

Da bekommst Du vielleicht einen besseren Einblick in die Begrifflichkeiten und Zusammenhänge. Hier in diesem und auch anderen Threads zu CPUs geht es mitunter schon ganz schön ans Eingemachte.

Und bevor mich jemand anzündet, weil ich Wikipedia verlinke: Allzu viele deutschsprachige Informationsquellen fürs Generelle fallen mir tatsächlich nicht ein. Also wer noch einen guten Rat hat, immer her damit.

y33H@
2023-02-18, 19:54:06
Und da AMX ja ne weitere Funktin ist,braucht das extra Fläche bei der CPU,kann man das so sehen?Klar, die AMX-Blöcke brauchen Fläche.

Hier gibt's Benchmarks mit AMX on/off bei Sapphire Rapids vs Genoa:

https://www.phoronix.com/review/intel-xeon-amx/6

y33H@
2023-02-18, 20:08:05
Durchsatz oder Latenz?Kommt auf den Workload an, aber bei Inferencing verbessern sich Durchsatz und Latenz drastisch.

Complicated
2023-02-18, 20:09:46
Ich denke hier sollte nicht ausser Acht gelassen werden, dass AVX in Konkurenz zu den GPU-Beschleunigern steht. AMD baut dort heterogene Syteme, wo Intel versucht mit Vektorbefehlen in CPU Anschluss zu halten.

Die Nutzung ist schon für AVX-512 fragwürdig. AMX ist im HPC Segment nicht gerade für vieles besser als Nvidas oder AMD GPUs. Da sieht AMD eher wenig Bedarf wenn mit MI300 verglichen wird.

HPC ohne GPU ist nicht gerade an der Spitze zu finden. Und wenn es GPU nodes gibt, wozu brauch ich dann Matrix Befehlssätze auf der CPU? Daher sind das für AMD eher Kompatibilität Check-Features, so günstig wie möglich implementiert werden. Wie AVX 512 eben mit 2 Zyklen und dafür ohne Takt Regression.

Zudem sind Serverbetreiber eher nicht bereit sich in das OneApi Ökosystem zwingen zu lassen. Googles TPUs sind da weit vorne mit Matrixberechnungen. Daher sind CPU Benchmarks mit AMX ziemlich witzlos. Da müssen die Workloads mit Googles, Nvidias und AMD Hardware für den selben Usecase verglichen werden.

y33H@
2023-02-18, 20:25:06
Intel hat doch selbst dedizierte Beschleuniger wie Gaudi, Greco, Ponte Vecchio - aber AMX soll diese ja gar nicht ersetzen (zumindest nicht die schnellsten Modelle), sondern ergänzen bzw andere Ausrichtung: Inferencing auf der CPU hat teils Latenzvorteile, du sparst zudem Energie und Platz.

Complicated
2023-02-18, 21:04:29
Ob man Energie und Platz spart hängt wohl davon ab auf welcher Ebene man die Rechnung macht. Auf Systemebene stimmt die Aussage nicht. AMX macht keinen Workload schneller oder sparsamer verglichen mit bestehenden Sytemen. Gerne lasse ich mich mit einer überzeugenden Quelle/Bench überzeugen.

latiose88
2023-02-18, 22:21:23
ok ich sehe schon ohne AMX sind also diese CPU von intel doch nicht meilenweit entfernt.
Ich dachte ja weil bei Zen 4 ja auch AVX 512 ja nun kann,angeführt von Ryzen 9 7950x und so.
Nun AMD hat also ganz schön aufgeholt.Meine Anwendung können ganz sicher kein AMX da bin ich mir sehr sicher und es wird alt bleiben.
Nun um die wahre Leistung von AVX 512 zu bekommen,wird halt ein Intel System benötigt.WIll wissen wie viel man gegenüber des AMD AVX 512 das ja 2 Takte braucht Intel da noch steigern könnte.
Aber einen solches Duell aus Mainstream CPU mit Workstation wird leider keiner machen,also werde ich wohl warten müssen um die wahre Leistung zu herausbekommen.Erhoffe mir also von Intel nen richtigen Leistungssteigerung.Klar erwarte ich keine Wunder.

Um ne richtige Leistungsteigerung bei AVX 512 zu erhalten,scheint wohl AMDS Technik nicht auszureichen. Ich erhoffe mir und heilsbringer ist dann Intel.

Es wird ja nachgesagt das Intels AVX 512 bis zu 40 % mehrleistung hat.Durch die 2 Takte bei AMD ergibt das nur ne Leistungsteigerung von 20%.
Um also zu erfahren was wirklich geht,kann ich nur auf Intel setzen.Ich weis das auch ältere CPUS AVX 512 können.Um also herauszufinden ob diese Technik wirklich was bringt,wird also eines dieser CPUS benötigt.

Na dann heist es entweder nach eine suchen der ne Workstation hat oder selbst Mieten zum testen.Soweit ich weis kann sogar ein Xeon w3175x ja auch schon AVX 512 damit umgehen.
So neu ist ja AVX 512 nicht mehr.Aber selbst diese CPU ist super teuer.Nur zum testen ist also sowas einfach zu teuer.Und so ein direkter Vergleich wie gut AMDS AVX 512 ist und wieviel da AMD von Intel noch entfernt ist.

Für mich kommt also AMX nicht in Frage,wenn dann nur AVX 512.Ich weis nur das bisher AVX 1 und AVX 2 schon gescheitert war.Das diese beiden nicht gingen aber AVX 512 dann schon,da frage ich mich,warum das die Anwendung so merkwürdig macht,aber gut,wie dem auch sei.
Ich will halt alles aus einer CPU herausholen,da gehört ja auch AVX 512 dazu.

DeadMeat
2023-02-18, 22:59:33
Das wurde hier sicher schonmal verlinkt aber wenn du etwas zu den AVX512 sehen willst gibts hier ein paar Tests zwischen SR und Genoa, Icelake.

https://www.phoronix.com/review/intel-sapphirerapids-avx512