Anmelden

Archiv verlassen und diese Seite im Standarddesign anzeigen : Intel - Sapphire Rapids (Server/HEDT, 7 nm, "Golden Cove", Anfang 2023)


Seiten : 1 [2]

Zossel
2023-02-19, 08:13:37
Kommt auf den Workload an, aber bei Inferencing verbessern sich Durchsatz und Latenz drastisch.

Eigentlich ging es um "Dual Cycle vs Single Cycle" was nur bedingt was mit Inferencing zu tun hat.

Auch mit 2*256 kann man den selben Durchsatz wie mit 1*512 erreichen, die Latenz kann möglicherweise mit 1*512 besser sein, muss aber nicht.
Und bei vektorisierten Code dürfte auch Durchsatz im Vordergrund stehen.

Zossel
2023-02-19, 08:17:09
Das wurde hier sicher schonmal verlinkt aber wenn du etwas zu den AVX512 sehen willst gibts hier ein paar Tests zwischen SR und Genoa, Icelake.

https://www.phoronix.com/review/intel-sapphirerapids-avx512

Eigentlich geht es mir nicht um Balken sondern um die rein technische Ausführung aus akademischen Interesse wie gut es Intel geschafft hat einen Takt-Verlust zu vermeiden.

y33H@
2023-02-19, 09:16:32
Sorry, hab deine Frage falsch interpretiert - was genau willst du wissen und wo gibt es keinen Takt Verlust?

Skysnake
2023-02-19, 15:17:14
Er meint den clock Penalty bei Nutzung von AVX512. Am Anfang ging der Takt ja gleich bei der ersten Instruktion runter. Inzwischen ist es bei wenig AVX512 ja kein Verlust mehr und bei viel eben noch ein hoher Verlust.

So genau kann man das meiner Meinung nach aber nicht mehr wirklich beziffern. Zumal das wohl auch mit dem Compiler zusammenhängt.

latiose88
2023-02-19, 15:53:52
ist mit dem Vektoriesieren etwa sowas wie : Bewegunsvektoren gemeint.Diese kommen ja bei verfeinerung von einer Mixed Referenz Frames ja zu stande. Und das soll also Bandbreiten Limiterend sein,wie stark ist denn sowas Bandbreiten Limiteren ,etwa für den Cache und wie gut kann das AVX 512 denn sowas ausgleichen?

Complicated
2023-02-19, 16:27:06
ist mit dem Vektoriesieren etwa sowas wie : Bewegunsvektoren gemeint.
Nein. Und der Rest ergibt keine sinnvolle Frage.

latiose88
2023-02-19, 16:39:17
ok wenn das es nicht ist,was ist es denn dann.Dann hat es wenn dann nur indirekt mit AVX 512 was zu tuen.Da wird wohl auch Intel nicht viel dampf drauf geben können.

basix
2023-02-19, 18:27:49
Vektorisierung kann schon auch was mit "Latenz" zu tun haben. Zum Bespiel für die Wartezeit des Benutzers :D

Vektorisierung von Code macht eigentlich überall Sinn, wo es leicht geht. Durchsatz ist einfach massiv höher und oftmals wird auch der Code schlanker. Einfaches Beispiel: 1000 Messwerte von °C zu °F konvertieren. Geht dann via Vektor "in einem Rutsch". Je nach Programmiersprache muss man aber die Problemgrösse beachten. Eine Handvoll Werte in z.B. Python umrechnen sind in einem for-loop deutlich schneller als per Vektor. AVX512 verlangt nach sehr grossen "Problemen", damit es sich nennenswert lohnt. Und bei vielen Programmen ist ziemlich schnell File oder Netzwerk IO limitierend und nicht Arithmetikleistung. Hier auf Gedeih und Verderb zu vektorisieren bringt dann nicht viel. Und andere Dinge kann man kaum vektorisieren (Simulation von z.B. Sensor Auswertealgorithmen, wo der nächste Wert vom Vorgängerresultat abhängt), dafür aber leicht parallelisieren (mehrere Datensätze und mehrere Algo-Parameter).

latiose88
2023-02-19, 18:39:39
Ah ok,ja dann ist ja zumindest AVX 512 nicht komplett umsonst.
Mir ist aufgefallen und ich weis nicht ob Windows damit auch seine Finger im Spiel hat.
Auf jedenfall weil habe ja das Porblem erkannt wie du so schön geschrieben hast.
Ich habe einen Ryzen 9 5950x mit Windows 10.Der kann ja kein AVX 512,sondern nur AVX 1 und AVX2.
Nun hat wer für mich ja jedoch einen Ryzen 9 7950x mit Windows 11 in Verwendung.AVX 1 und 2 brachte auch hier zwar nix,aber als dann AVX 512 bei dem Zen 4 zum Einsatz kam,brachte es rund 6% mehrleistung.
Ein anderer hat einen Threadripper 5965wx zum Einstatz gehabt mit Windows 11.Bei dem Funktionierte jedoch AVX 1 und AVX 2 ohne Leistungsverluste.Wie soll ich das denn nun verstehen?
Also beim 7950x ist es dank AVX 512 mir schon klar dank der 2x256.Bei Threadripper kann ich mir das nur so erklären dank der ganzen 2x256 wo ja dann gleichzetig ebenso indirekt AVX 512 berechnet wird weil ja alle Chiplets gleichzeitig berechnen.
Also sind in beiden fällen AVX 512,wenn auch indirekt der Fall.
Beide brachten 6% mehr Leistung dank indirektes AVX 512.
Nun dachte ich ok,wenn das so ist,müsste es ja doch bei Intel besser sein.Weil dieser ja Natives AVX 512 hat.Weil Intel ist ja der Vorreiter,also ist es da ja Automatisch besser.VIelleicht sind es ja dann mehr als 10% weil durch das aufteilen Verliert AVX 512 ja an Leistung.Wer weis vielleicht sind es ja sogar dann 12 % Mehrleistung oder gar noch mehr.

Das oben ist der aktuelle ist Wert ,also was bei meiner Software so Aufgefallen ist.

Interessant das es bei 3 CPUS zu so krassen Unterschieden führt.

Complicated
2023-02-19, 19:41:56
Du hast dir da ziemlich viel zusammengereimt.
Vielleicht hilft dir das zum grundlegenden Verständnis und warum es eigentlich hier im Thread langsam nicht mehr paßt:
https://www.pc-erfahrung.de/hardware/prozessor/prozessor-befehlssaetze-sse-avx-aes-3dnow-und-mehr.html

latiose88
2023-02-19, 20:06:31
Hm warum denn nicht,es hat doch was mit HEDT und dem AVX512 zu tuen,weis nicht was du hast.
Und was heißt da zusammenreimen.Ich schreibe nur wie ich es erlebt habe.Und ich habe auch viele Test gesehen wo Intel verliert beim Thema AVX 512.ALso so überlegen ist Intel noch nicht wie ich gedacht hatte.Dachte weil Intel ja so meilenweit vorne war.Nun scheint wohl nicht mehr so zu sein.Die Übermacht bei Workstation.

Complicated
2023-02-19, 20:14:37
Du hast halt keinen Schimmer von Vektor-Instruktionen und daher ist das alles kein Austausch zu dem Thema, sonder Basis-Lehrstunde auf Zuwurf deiner wilden Phantasien über Zusammenhänge.
Lies dich doch ein und erzähl nicht stattdessen etwas wie "Intel meilenweit vorne " - das sind halt schon falsche Prämissen mit denen du da startest. Und das sollte halt hier nicht das Thema sein.

Vielleicht diese Perspektive: https://www.golem.de/news/x86-torvalds-sieht-kaum-praktische-vorteile-in-avx-512-2211-170114.html
Torvalds schreibt: "Die Vektorisierung erweist sich im wirklichen Leben als sehr, sehr schwierig". Das betreffe vor allem existierende Anwendungen, deren Daten-Stream nicht von vornherein auf die Vektorisierung ausgelegt sei. Schwierig sei außerdem auch die automatische Umsetzung in Compilern, die sich zwar verbessert habe. Die häufige Wiederholung von Codeteilen, die sich durch eine Vektorisierung beschleunigen lässt, gebe es aber nur sehr selten.

Eine Vektorisierung helfe laut Torvalds aber nichts, wenn statt zuvor optimierten Code eine Hashtabelle oder andere Datenstrukturen genutzt werden, die dafür eben nicht geeignet seien. Zwar gebe es auch echte Beispiele, die über AVX-512 beschleunigt werden und entsprechende Benchmarks.

AVX-512 wohl nur was für Server
Torvalds schreibt: "echte Menschen benutzen Computer immer noch für große Berechnungen", um direkt danach einzuschränken: "Aber Massenmarkt? Sie machen keine Wettervorhersage auf der CPU, die Sie gekauft haben." Viele der Aufgaben, die jetzt auf CPUs vektorisiert werden, seien ohnehin besser auf der GPU aufgehoben, wie die Verarbeitung von Bild und Videodaten.
Und wieviel Freude Intel da verbreitet hat mit diesen Instruktionen konnte man 2 Jahre zuvor lesen: https://www.linux-community.de/nachrichten/linus-torvalds-wuenscht-avx-512-einen-qualvollen-tod/
„Ich hoffe, AVX512 stirbt einen qualvollen Tod, und dass Intel die echten Probleme behebt, anstatt zu versuchen, besondere Befehle zu erfinden, um anschließend in Benchmarks besser auszusehen.“

latiose88
2023-02-19, 21:35:43
ok danke den letzten Abschnitt habe ich schon gelesen und ja stimmt,ich habe mich da wohl zu weit aus dem Fenster mit meiner Aussage herausgelehnt gehabt,das gebe ich zu.
Und scheinbar braucht das meine Programme nicht,sonst hätte ich das ja gewusst.DIe Technik wo angeblich von AVX beschleundigt worden wäre,ist von 2005.Also scheint wohl was anderes dafür Verantwortlich zu sein.Wer weis.Kann AVX die Bandbreite für die CPU erhöhen bzw Beschleunigen?
Weil ich da was in die RIchtung gelesen hatte.Ich behaupte nicht das es Automatisch bei der Software so ist.

Und warum ich da so dabei bin,weil dieses mehr an mehr Kernen durchaus seinen Reiz hat.Sonst hätte ich mir ja auch die Threadripper sowie Threadripper Pro nicht testen lassen und ich hatte selbst auch mal einen Xeon CPU gehabt.Aber das verhielt sich auch anderst als ich mir das Vorgestellt hatte.Ist halt nicht so einfach ,normal verwenden wie ein Privatuser und so.Habe scheinbar die CPu nicht so verwendet wie es vorgesehen gewesen war.Dabei wohl zu hohe Erwartungen gehabt und dann Entäuscht gewesen.

Zossel
2023-02-19, 22:00:56
ok danke den letzten Abschnitt habe ich schon gelesen und ja stimmt,ich habe mich da wohl zu weit aus dem Fenster mit meiner Aussage herausgelehnt gehabt,das gebe ich zu.

Hier was zum lesen für dich:

https://www.google.com/search?q=instruction+latency+and+throughput

https://www.agner.org/optimize/

https://www.bookdepository.com/author/Dave-Patterson

latiose88
2023-02-19, 22:22:29
uff du erschlägst mich ja mit Wissen.Und ok das ist auch nicht Klug mit einem 32 Bit Anwendung auf einer Workstation zu hantieren.Denke mal das könnte auch noch bremsen wenn nicht alles Verwendet wird oder halt 2 Anwendung Verwenden also 2x32 Bit.Und nein ich mache nicht den Fehler 2x32 Bit = 64 Bit,das weis ich auch das es nicht richtig ist.
Und danke für die Lektüre.

Complicated
2023-02-19, 22:47:22
Was heisst das könnte? Du kannst max. 4GB Arbeitsspeicher nutzen und redest über Matrix-Multiplikationen und Bandbreiten-Limits von x64-CPUs.

latiose88
2023-02-19, 22:51:15
ja das ist Peinlich,aber in der Version gab es diese leider nur als 32 Bit zu holen.Naja ist halt dann wie es ist.Und scheinbar limitert das auch die CPU dann wie es scheint.Beim Ram verballere ich nicht mal ansatzweise die 4 gb ,da bin ich so weit weg,wie man sein könnte.Manche würden es als Minimalistisch bezeichnen.

Vorteile sind dann sogar noch weniger Vorhanden bei solch einer Plattform als eh schon wäre.

y33H@
2023-02-19, 23:05:50
Zwar gebe es auch echte Beispiele, die über AVX-512 beschleunigt werden und entsprechende BenchmarksExakt =)

Complicated
2023-02-20, 01:10:30
Nur halt nicht schneller als mit TPUs und GPUs. Die schnellste CPU ist halt immer noch weit zurück. Daher ist ein CPU-Benchmark lediglich eine Demo unterhalb der Leistungsspitze für solche Workloads.

y33H@
2023-02-20, 07:21:33
GPUs/TPUs kosten extra Geld, Energie, Platz, Latenz - daher ist gerade AMX für diverse Workloads die bessere Wahl, kleine Modelle wie etwa Nvidias A10 werden überdies zumeist deutlich geschlagen.

Complicated
2023-02-20, 07:31:58
Ich hatte schon einmal nach einer seriösen Quelle für diese Rechnung gefragt. Preis/Platz/Energie auf Systemebene verglichen.

Hier liest sich das nicht als ob die TCO sich lohnt:
https://www.servethehome.com/4th-gen-intel-xeon-scalable-sapphire-rapids-leaps-forward/3/

Taking a look at this, here is what the parts looks like on a dollar per core basis. The average part cost is now $4990. That was $2566 in the Ice Lake generation. Part of that is due to the four HBM-enabled “Max” SKUs that have onboard HBM2e memory that we are noting in black. The average cost per core is $145.98 with the Xeon Max, and $137.48 without them.
[...]
AMD averages $119/ core. The AMD EPYC 9564 96 core part is $123/ core, the same cost per core as the previous generation.
[...]
Cores are not everything of course, and clock speeds are also very important. AMD and Intel cores are getting very close on an IPC basis, so simply looking at cores x clocks tells us a lot. Here is Intel’s view looking at base clocks:
Part of that is due to Intel now having built-in acceleration. Still, for those:
Intel’s average is $64.11 for each core-GHz. Without the Max series with HBM, that is $59.79. AMD’s average is $39.55. Part of that is due to the base clocks. AMD’s average base clock is 3.0GHz. Intel’s is only 2.3GHz.

DSA – 73% have one accelerator, 27% have four
QAT – 56% of SKUs do not have QAT accelerators enabled
DLB – 56% of SKUs do not have DLB accelerators enabled
IAA – 60% of SKUs do not have IAA accelerators enabled

Given that, most Sapphire Rapids SKUs actually have very little onboard acceleration. Let us next discuss acceleration.
Ich frage mich gerade welche kleine Nvidia GPU da für $4.999,- in den Benches geschlagen wird und beim Vergleich Kosten/Nutzen.

mocad_tom
2023-02-20, 22:21:43
Man mietet sich eine Instanz:

Diese Instanz muss Workload XY ausführen und ein Teil dieses Workloads ist es etwas Inferencing zu betreiben.

Was ist nun billiger?

Sich eine Instanz mit GPU-Beschleunigung zu mieten, oder eine im CPU-Bereich stärkere Instanz zu mieten und die bringt halt auch AMX mit und mit der kann man das Inferencing auch ganz vernünftig hinbekommen.

Kein Mensch mietet sich eine Instanz, um darauf einen Benchmark laufen zu lassen.

Und oft hat man noch nicht so viel Workload beisammen, dass man eine Instanz nur für Datenbank, eine nur für Frontend, eine nur für Inferencing herholen kann.

latiose88
2023-02-20, 23:28:04
achja hätte ich fast vergessen,intel wird ja ein Modell machen wo eher schlecht für Kunden ist.

Diese du kaufst Grundmodell und wenn man mehr will zahlt man für das Freischalten für diese Funktion dann was.
So zahlt man für jeden Beschleuniger extra.Das Geschäftmodell erinnert mich an Sky Fernsehen oder andere ähnliche Modelle.
Für die Beschleuniger muss die Software auch angepasst sein,sonst Funktioniert es nicht.Darum ist diese auch mehr für die Firmen als für die Privat User.
Und die Preise haben es echt insich.Wer also ene Workstation mit höheren Allcore Takt will,zahlt ebenso mehr,als der wo sich mit niedirgeren Takt zufrieden gibt. Und je nach Modell finde ich 2,8 ghz bis 3 ghz echt als wenig an.
Nun verstehe ich auch warum es so wenig Menschen daran interesse zeigen.

y33H@
2023-02-20, 23:39:36
Xeon Max ist für HPC, weniger für AI - davon ab geht's da um Sapphire Rapids vs Genoa und nicht um AMX und TCO vs Nvidia, klassische Nebelkerze von dir ;(

=Floi=
2023-02-21, 00:48:48
irgendwie ist die preisgestaltung trotzdem mau. Seit jahren hällt man an den 100$/core fest und irgendwann fliegt ihnen das um die ohren.

Ein vergleich mit AMD und ARM bei $/core wäre mal interessant, wenn der workload eher standard ist.
Deswegen setzen die größeren ja auf ihre eigenen chips.

Complicated
2023-02-21, 07:06:33
GPUs/TPUs kosten extra Geld, Energie, Platz, Latenz - daher ist gerade AMX für diverse Workloads die bessere Wahl, kleine Modelle wie etwa Nvidias A10 werden überdies zumeist deutlich geschlagen.
Xeon Max ist für HPC, weniger für AI - davon ab geht's da um Sapphire Rapids vs Genoa und nicht um AMX und TCO vs Nvidia, klassische Nebelkerze von dir ;(
Wenn Du schon mit dem Offtopic anfängst, dann schreib doch bitte die Nebelkerzen nicht anderen zu.

Zossel
2023-02-21, 07:51:12
Diese Instanz muss Workload XY ausführen und ein Teil dieses Workloads ist es etwas Inferencing zu betreiben.

Billiger wäre es wenn beim Inferencing nicht so ein Schrott raus kommt:

https://www.heise.de/news/Sechs-Jahre-nach-AlphaGo-Mensch-besiegt-erneut-zuverlaessig-staerkste-Go-KIs-7520941.html
https://www.derstandard.at/story/2000143724213/rueckschlag-fuer-maschinenherrschaft-mann-bezwang-eine-der-weltbesten-go-kis

y33H@
2023-02-21, 10:23:10
Wenn Du schon mit dem Offtopic anfängst, dann schreib doch bitte die Nebelkerzen nicht anderen zu.Es ging um AVX/AMX bei Sappire Rapids, sprich AI, und wie sich diese CPUs hier vs dedizierte Beschleuniger schlagen - und Xeon Max ist nun mal für HPC gedacht.

mocad_tom
2023-02-21, 11:43:42
Wenn das Asrock W790 wirklich für $899 und dann vllt 950€ bei uns auf den Markt kommt, dann sind wir hier bei einem Schnapper-Preis.

Ein Supermicro X13SAE für Raptor Lake kostet 450€ hat aber nur zwei Memory-Controller nach draussen und nur 4 Memory-Slots. Und nur ein PCIe kann 5.0.


https://geizhals.de/?cat=mbtr4&xf=317_WRX80
Alle Threadripper für Zen3-Mainboards haben nur DDR4 und PCIe 4.0
Und kosten auch alle über 780€

Aber den 10Gbit-NIC mit Aquantia ist kompletter Schrott, sobald man ein bisschen mehr mit Hyper-V rumspielt spinnt das Ding komplett.

Complicated
2023-02-21, 12:50:38
Es ging um AVX/AMX bei Sappire Rapids, sprich AI, und wie sich diese CPUs hier vs dedizierte Beschleuniger schlagen - und Xeon Max ist nun mal für HPC gedacht.
Die Nutzung ist schon für AVX-512 fragwürdig. AMX ist im HPC Segment nicht gerade für vieles besser als Nvidas oder AMD GPUs. Da sieht AMD eher wenig Bedarf wenn mit MI300 verglichen wird.

HPC ohne GPU ist nicht gerade an der Spitze zu finden. Und wenn es GPU nodes gibt, wozu brauch ich dann Matrix Befehlssätze auf der CPU? Daher sind das für AMD eher Kompatibilität Check-Features, so günstig wie möglich implementiert werden. Wie AVX 512 eben mit 2 Zyklen und dafür ohne Takt Regression.

Zudem sind Serverbetreiber eher nicht bereit sich in das OneApi Ökosystem zwingen zu lassen. Googles TPUs sind da weit vorne mit Matrixberechnungen. Daher sind CPU Benchmarks mit AMX ziemlich witzlos. Da müssen die Workloads mit Googles, Nvidias und AMD Hardware für den selben Usecase verglichen werden.
Ach und wer verschiebt jetzt Torpfosten, weil eine Diskussion abseits des Thema geführt wurde? Du pickst dir eine Max aus, die nur als eine SKU gelistet ist. Die Kosten sind auch ohne Max verglichen worden. Zumal der Phoronix Test zeigt, dass aus 8x-10x Beschleunigung auf Intels Folien in den Benchmarks 2-4x (eigene Produkte AMX on/off) übrig geblieben ist für die wenigen Best Cases. Und 50% der SKUs mit SPR nur 1/4 der AI Beschleunigung bieten.

Edit: Und das gilt ja schon für die Top Max SKU für $13.000,-
The Xeon CPU Max Series 9480 as the flagship model topping out at $12,980 is also more comparable to the listed EPYC 9654 pricing, especially if you are able to forego some DDR5 memory expenses as a result of the onboard HBM2e memory acting alone or in combination with some DDR5 system memory. The Xeon CPU Max Series 9480 model has 56 cores / 112 threads compared to the Xeon Platinum 8490H as tested topping out Intel's current core offerings with 60 cores / 120 threads per processor.

Zossel
2023-02-21, 14:04:31
Aber den 10Gbit-NIC mit Aquantia ist kompletter Schrott, sobald man ein bisschen mehr mit Hyper-V rumspielt spinnt das Ding komplett.

Ist das dieser legendär geile Treiber-Support von Windows von dem immer alle reden?

mocad_tom
2023-02-21, 16:45:58
Beim Aquantia-Chip ist es so:

Hyper-V und dann mehrere VM machen, die direkt eine IP aus dem normalen lokalen Adressbereich erhalten(virtual Ethernet Adapter). Dann den Rechner über Nacht laufen lassen (und die VM auch) und am nächsten morgen ist die Netzwerkverbindung weg.

Ethernet-Kabel abziehen und wieder anstecken hilft meistens.

Da Intel i225 und i226 auch verkorkst sind gehen eigentlich nur die 3 wirklich gut:

Intel i219 (für normales 1GBit und Hyper-V ist das ein gutes Arbeitspferd)
Intel X550
Intel X710

y33H@
2023-02-21, 17:32:00
[...]AI ungleich HPC ...

Complicated
2023-02-21, 17:51:39
Jetzt wird es wieder seltsam - wie wäre wenn du einfach mal die Benches hier postest von denen du so einsilbig Behauptungen aufstellst über Preis/Energie/Kosten. Das ist nun die dritte Frage danach.
AI ungleich Wortklauberei.

Zossel
2023-02-21, 18:52:09
Beim Aquantia-Chip ist es so:

Hyper-V und dann mehrere VM machen, die direkt eine IP aus dem normalen lokalen Adressbereich erhalten(virtual Ethernet Adapter). Dann den Rechner über Nacht laufen lassen (und die VM auch) und am nächsten morgen ist die Netzwerkverbindung weg.

Ethernet-Kabel abziehen und wieder anstecken hilft meistens.

Da Intel i225 und i226 auch verkorkst sind gehen eigentlich nur die 3 wirklich gut:

Intel i219 (für normales 1GBit und Hyper-V ist das ein gutes Arbeitspferd)
Intel X550
Intel X710

In einer Hype-V Installation sind mir mal diese Dinger über den Weg gelaufen:

$ modinfo enic | grep ^des
description: Cisco VIC Ethernet NIC Driver
$

Zu mindestens haben die Dinger nicht mehr Trouble gemacht als eine Hype-V Installation sowieso schon macht.
Jedenfalls bis auf dieses ziemlich hirntote Interrupthandling.

Das es Betriebssysteme gibt die nicht so zickig sind brauche ich wohl nicht erwähnen :-)

Tarkin
2023-02-22, 16:00:35
https://www.pugetsystems.com/labs/articles/intel-xeon-w-3400-content-creation-preview/

das ist jetzt nicht gerade toll... intel schafft es nicht wirklich, threadripper vom Tron zu stoßen.

N0rG
2023-02-22, 16:24:16
Platformvorstellung mit Benchmarks und OC

zXWHmkhxePY

latiose88
2023-02-22, 16:37:39
OK wenn es um was mit Videos geht ist AMD also nach wie vor noch vorne. Na dann weiß ich ja wie gut die ungefähr sind. Da ich ja mehr Leistung erwarte, sind wohl meine Erwartungen scheinbar zu hoch gewesen. Und die fahren gewiss härtere settings als ich es je machen würde. Und da wird sich das ganze ja noch weiter gestickt an den Verhältnisse sich eh nix dran ändern denke ich mal. Die machtveehalt isse bleiben dann gleich.

mocad_tom
2023-02-22, 17:18:21
Sapphire Rapids läuft stabil mit 4.2 GHz und macht im Intel Lab einen Geekbench 5 durchlauf.

Bei der8auer läuft ein Aufbau, der gerade aus der Schachtel herausgenommen wurde mit 2.9GHz und macht einen Cinebench R23 score von 68.000 Punkten.

Lässt man den gleichen Aufbau also mit 4.2Ghz laufen, so landet man bei 98.000 Cinebench-Punkten.

Wo ist jetzt genau nochmal das Problem?

Die haben anscheinend auch die Validierung für DDR5-5600 ECC RDIMM fertig.

Acht Kanäle bestückt mit diesen DIMMs ist kostspielig, aber halt auch notwendig, damit die Kerne auch ordentlich gefüttert werden.

Complicated
2023-02-22, 17:21:44
Geekbench als Referenz mit dieser Rechnung :) Ich wüsste gar nicht wo ich anfangen soll das Problem mit den ausgerechneten 98.000 CB Punkten zu beschreiben. Daher lass ich es dann lieber ;)

latiose88
2023-02-22, 17:22:42
Ja stimmt und die Tatsache das zen 4 Workstation schon seid letzes jahr erschienen ist. Ich habe bisher nur mit threadripper pro Zen 3 getestet gehabt. Scheint wohl doch noch ne Steigerung zu bringen wie es scheint. Habe also die wahre Kraft der richtigen cpu von beiden noch nicht erlebt gehabt.

Complicated
2023-02-22, 17:34:31
Da dies HEDT/Server CPUs sind, ist Geekbench und auch CineBench nicht die beste Wahl.
Geekbenchs Schwäche liegt gerade für die CPU-Klasse in einem wichtigen Aspekt:
https://www.hardwareluxx.de/index.php/news/hardware/prozessoren/54459-geekbench-versus-spec-nuvia-erlaeutert-unterschiede-im-anforderungsprofil.html
Der Geekbench 5 stellt zwar für eine aktuelle Micro-Architektur einen gewissen Basiswert dar, sobald aber gewisse Subsets an Workloads zum Einsatz kommen, kann es schwierig werden.

Faktoren, die einen großen Einfluss haben, sind "branch mispredicts" (also falsche Sprungvorhersagen, die zwar ausgeführt, dann aber verworfen werden) und damit verknüpfte Zugriffe auf den Data-Cache (D-Cache) und den translation lookaside buffer oder besser gesagt Data-TLB). Solche Zugriffe sind in SPEC CPU2006 sowie CPU2017 um den Faktor 1,1 bis 2 höher als beim Geekbench 5.

Ein weiterer Einflussfaktor kann die Laufzeit des Benchmarks sein. Der Geekbench 5 ist in wenigen Minuten beendet, während die Tests des SPEC CPU2006 sowie CPU2017 über Stunden laufen. Hier spielt dann auch die Kühlung eine Rolle, denn nicht alle Prozessoren können ihren Takt über eine längere Zeit halten bzw. die Boost-Mechanismen sind darauf ausgelegt, kurzzeitig mehr zu liefern.
https://www.hardwareluxx.de/images/cdn01/52B59EEEB3CA4D52A51D0B1262234088/img/AA51C8B307824B04BE10A78B8A17CCA3/Nuvia-Geekbench-SPEC-5_AA51C8B307824B04BE10A78B8A17CCA3.jpg

mocad_tom
2023-02-22, 18:04:41
https://www.phoronix.com/review/centos-clear-spr/6

MariaDB ClearLinux
Sapphire Rapids 2 Sockel 8490H 792 Queries Per Seconds
Genoa 2 Sockel 9654 696 Queries Per Seconds

Komplexe Aufgaben liegen Sapphire Rapids

Ich denke da wird im Datenbank-Umfeld noch einiges kommen.

latiose88
2023-02-22, 19:17:48
Ja verstehe,also je höhere dioe Settings wie H264 oder h265,desto besser für die Xeons von Intel und je niedriger die Einstellung desto schlechter bei Intel.Da ich ja eher niedrigere Einstellung setze also hohe ,können sich hier die Monster CPUs nicht wirklich voll ihre Leistung Entfallen.Darum auch die geringeren Leistungssteigerung.

Ich frage mich ob das was für GPU gillt,auch für CPU gillt.Wenn ne GPU nicht mehr beim Videoumwandeln an Leistung mehr zulegen kann,gillt das auch auf CPU seite es dann genauso oder nicht?

Edgecrusher86
2023-02-22, 22:37:46
2KW anyone? ;D

latiose88
2023-02-22, 22:57:18
wow war ja schon bei 4,3 ghz bei bis 1000 Watt gewesen aber dann mit gleich so hohen Takt das sprengt gleich alles was bis dahin jemals da gewesen war.Da ist ja sogar mein 5950x mit 3,8 ghz auf 120 Watt dagegen wie ein kleines süßes schnurrendes Kätzchen.Kein Vergleich.Mit so hohen Stromverbrauch da habe ich 3 Pcs gleichzeitig am Laufen mit 3x Bildschirm und so.Aber selbst dann komme ich noch immer nicht auf 2000 Watt.Das ist echt hart.
Wenn ich sowas kaufen wollen würde,müsste ich mich ja glatt schämen mir sowas gekauft habe und sogar im Gedanken sogar.
Spannend wird eher für mich die 28 und 32 Kerner von Intel werden.Na dann abwarten wie gut die sich gegen AMDS 32 Kerner schlagen werden.Aber der Preis ist wohl so hoch das selbst wenn man nur die CPU nehmen würde,man davon 3 Pcs mir davon gleichzeitig kaufen könnte.Alleine das Verhältnis ist echt hart.

y33H@
2023-02-22, 23:52:04
Ja stimmt und die Tatsache das zen 4 Workstation schon seid letzes jahr erschienen ist. Ich habe bisher nur mit threadripper pro Zen 3 getestet gehabt. Gibt noch kein TR mit Zen4.

mocad_tom
2023-02-22, 23:54:37
die mesh topologie, der mem controller, die fivr, jede komponente macht den spass mit

Ja da steht der neue HEDT-Oberboss

Die 28-Core variante, smt abschalten, auf 5,2GHz hochjagen und spiele damit testen

latiose88
2023-02-23, 00:33:57
aber nur wenn die Anwendung probleme mit HT probleme hat nicht SMT,das ist ja von AMD.
Hast da wohl was zusammen geworfen gehabt.
Bei AMD gibt es dank richtiger Optimierung keine Leistungsverlust mehr.WIe es bei Intel der Fall ist,kann ich nicht sagen weil ich leider keinen 3175 oder neuer mehr gehabt hatte.Liegt halt leider daran das solche CPUS fast nirgendwo verkauft werden das man da was drauf testen lassen kann.Diese CPUS hier werden wohl auch für die meisten so Teuer sein.

Wenn du aber dir sowas gönnen willst @mocad_Tom dann tue dir da keine zwang an.
Und mir schon klar das es noch keinen Zen 4 Threadripper gibt aber einen Zen 4 Epyc gibt es sehr wohl.Und da ist gewiss schon die leistung eines Zen 4 mit drinnen.
Es wird also spannend werden aber neue CPU Takt mastäbe sind kaum noch zu erwarten.4,4 ghz bzw 4,5 ghz ist schon ne hausnummer um es kühlbar zu halten.

Der wo diese CPU hatte,hantertierte mit dem Noctua NH D15 also einen Luftkühler.
Mit so einen viel Spaß auf solche CPUS wo es bei Intel wohl heißer zu gehen wird.AUf so hohe Taktraten ist nicht mehr Kühlbar leider.

OgrEGT
2023-02-23, 06:36:10
2KW anyone? ;D
Ich sehe auf dem Screenshot nichts von 2kW? Sorry vlt bin ich blind :ugly:

Edgecrusher86
2023-02-23, 09:11:59
War nun geschätzt anhand der knapp 1,1KW Peak mit 4,2 GHz und 1,0V. :D

Hm....im Bild ist ein Thor 1600W zu sehen und 1,1KW sieht man...aber es scheinen zwei NTs dran zu hängen - das Thor mit Cable-Mod und ein Enermax (darf er natürlich nicht nennen, wenn ASUS sponsored ^^).

https://hwbot.org/submission/5209423_safedisk_cinebench___r23_multi_core_with_benchmate_xeon_w9_3495x_128391_ cb

Hm, non ECC wurde verwendet - interessant. ^^

user77
2023-02-23, 09:15:37
die SSD :freak: das ist doch illegal

https://hwbot.org/image/2869875.jpg

mocad_tom
2023-02-23, 09:23:46
@latiose88
Mein Freund, Leute mit Plan fröstelt es wenn sie deine Posts lesen.
(ich spreche jetzt mal für mehrere)


Ich bin gerade positiv überrascht, was Sapphire Rapids für ein stabiles Beast ist.

Man möchte meinen, dass EMIB und LN2-Kühlung vielleicht gar nicht zusammen passt, aber Pustekuchen.


So wie das aussieht wurden da zwei Netzteile drangesteckt.
Das ist schon massiv.

Edgecrusher86
2023-02-23, 09:29:15
Ja, als Platimax User ist mir die Farbgebung gleich ins Auge gesprungen. Pic siehe oben. ;)

Baumkrone9000
2023-02-23, 09:33:51
Ich biete drei :D

Das Thor vorne im Benchtable, FSP Aurum rechts hinten etwas abseits und eines versteckt hinter dem Benchtable wo nur die Backplane mit den modularen Anschlüssen sieht (Platimax?).

Edgecrusher86
2023-02-23, 09:50:56
Stimmt, da steht ja noch eines. :D


E:

Korea (republic) safedisk`s Cinebench - R20 score - Elite League

48433 cb with Intel Xeon w9 3495X at 5220.8MHz (https://hwbot.org/submission/5209420_safedisk_cinebench___r20_xeon_w9_3495x_48433_cb)

Mal zum Vergleich hier mit dem Großväterchen auf 4,5 GHz - 4091 cb. :D

latiose88
2023-02-23, 09:57:56
@mocad_tom

Was meinst du denn mit frösteln weil ich so viel schreibe oder was meinst du denn damit?

mocad_tom
2023-02-23, 18:09:47
Ich habe mir as mal ein bisschen durchgelesen und ich muss schon sagen, dass schaut schon ziemlich cool aus:
https://networkbuilders.intel.com/solutionslibrary/microservices-solution-optimizations-with-intel-xeon-scalable-processor-solution-brief

Sie haben halt wirklich auch Technologien rausgepickt, wo ich auch denke, das dort was zu holen ist und es nicht einfach nur Einhörner.

Gut gRPC macht alleine schon deshalb Sinn, weil Google und Intel eng zusammengearbeitet haben, wenn hier Mount Evans gleich mit reinbeschleunigen kann, wie krass ist das denn?

Aber auch die andere Sachen NGINX, Memcached, DPDK

Complicated
2023-02-23, 18:45:51
@mocad_tom

Was meinst du denn mit frösteln weil ich so viel schreibe oder was meinst du denn damit? Er meint wohl deine Ausführungen zu SMT und HT. Ich stimme ihm da zu.

Zossel
2023-02-23, 20:25:56
Er meint wohl deine Ausführungen zu SMT und HT. Ich stimme ihm da zu.

Möglicherweise wären auch maschinelle Übersetzungen aus seiner Muttersprache leserlicher.

latiose88
2023-02-23, 20:38:35
ich weis was ihr meinte das die Funktion gleich ist.
Aber AMD hat mit SMT es doch besser hinbekommen oder ist inzwischen Intel gleich gut bei Hypertrading?

Ich weis ja noch wie es bei Intel 25 % eines Kernes und bei AMD 30 % eines Kernes entsprach.
Denke mal inzwischen ist Intel da gleich gut.

Was ich sagen wollte das ab einen gewissen Kernmenge die Wirkung von SMT keine mehr zeigte.Das es bei Intel da ja gewiss nicht besser dann aussieht.

Hängt freilich von der Software davon ab.Bei meiner Software war es bei AMD jedenfalls so ohne Leistungsteigerung.Zumindest halt ab 24 Kerne aufwärts zeigte sich halt da mit SMT ein anderes Verhalten als bei weniger Kerne.Was anderes wollte ich damit ja nicht sagen.
Oder hat Intel auf SMT ebenso umgestellt wie bei AMD,das würde ich ja wissen,weil davon habe ich ja nix gelesen.
Also hinterm Mond lebe ich nicht.Ich verfolge alles was es bei CPU so passiert.
Und daran hat sich auch nix geändert.
Ich hoffe zumindest das es bei Intel besser abschneidet,aber Zaubern kann die Software eben nicht wenn sie die selbe Version seid Jahren so hat.Also entweder Entwickelt da in der hinsicht Intel was herausragendes und gleicht die schlechte Software die wo ab 32 Kernen die Kerne schlecht auslastet aus oder halt nicht.

Ich weis noch zu Threadripper 3970x zeiten wo es Leistung gekostet hatte.Hypertrading kann man also sehr wohl Optimieren.Darum kostet das beim Nachfolger zwar halt mit Pro auch keine Leistung mehr wenn es eingeschaltet ist.Hoffe das Intel das auch so Optimiert,das es der Software egal ist.Sonst sehe ich da halt was schlechtes drin.Wenn es nicht optimiert wird,müsste man es halt abschalten.Da verschenkt man halt dann Potenzial.
Aber das kann ich nur feststellen bei Tests.
So was wird leider aber halt keiner Testen weil Firmen interessieren sich nur für ihre eigenen Arbeit aber nicht der eines Privat Users.
Es sich extra nur zu kaufen um zu testen um es dann Anschließend wieder zurück zu geben,ist halt nicht wirklich cool für den Shop der die Hardware Anbietet,weil kann man ja dann nicht mehr als neu Verkaufen.

G3cko
2023-02-23, 22:29:39
Intel nutzt SMT seit Pentium4-Zeiten. Ob eine Anwendung davon profitiert oder in wenigen sehr seltnenen Fällen sogar Performance einbüßt entscheidet im wesentlichen das Betriebsystem. Viel entscheidender ist ob die Anwendung mit vielen Threads generell etwas anzufangen weiß.

Es ist sehr anstrengend deine Texte zu lesen.

Complicated
2023-02-23, 22:54:01
AMD nennt meistens die Technologie (IP) beim Namen. Intel gibt seiner Implementierung von SMT Marketingnamen. IBM nennt es ebenfalls SMT und ARM auch.
Die derzeit wohl bekannteste Form des SMT ist Intels Hyper-Threading-Technik (HTT)

latiose88
2023-02-23, 22:58:42
Ja weil je länger diese sind desto schlimmer wird es.
Ja freilich hat auch das OS ein Wort mit zu reden.Aber meist geht es ja eh bei mir nur noch um Windows 10 und 11.Wobei ich eher wohl Windows 10 bevorzuge weil es da weniger Probleme zu geben scheint.Merke ich ja sehr deutlich an meiner Anwendung.Diese scheint nicht so flexible zu sein wie ich es dachte.Es verhält sich bei egal welchem Hersteller von CPU merkwürdig.

Nun ich hatte schon früher zwar nur ein Xeon ES Enering immer schon mit 24 Kernen(auf Level 2011 Sockel) so meine Probleme gehabt.Aber CPUS wurden mit der Zeit besser und so macht die Anwendung auf Moderenen CPUS weniger Probleme.

Man könnte ja auch meinen wenn es auf neuste Aktuelle CPUS auf AMD so ist,sollte es wohl auch so auf Intels CPUS so sein.Aber ich kann nur raten weil genau wissen kann man es ja nur in der Praxis. Und da sehe ich so meine Zweifel.Merkwürdigerweise haben mehr moderene CPUS auf AMD als auf Intel.Weil sonst hätte ich schon wen gefunden.Warum das so ungleich Verteilt ist,ist ne gute Frage.

Zossel
2023-02-24, 07:54:17
Ob eine Anwendung davon profitiert oder in wenigen sehr seltnenen Fällen sogar Performance einbüßt entscheidet im wesentlichen das Betriebsystem.

Der konkret ausgeführte Code dürfte wesentlich mehr Einfluss haben als das Betriebssystem. (Jedenfalls wenn der Scheduler halbwegs brauchbar implementiert wurde)

dildo4u
2023-03-16, 12:21:30
2x48 SR vs 96 Core Epyc.


ambaCzFTyo8

Edgecrusher86
2023-03-16, 15:13:13
ElmorLabs: Xeon w9-3495X 5.5 GHz 1900W in Cinebench R23 (https://www.youtube.com/watch?v=d5xC2Dv009I)

w9-3495X OC - 56C - R23 132220cb MT - 1881W Peak. :uwoot:
TR PRO 5995WX OC - 64C - R23 121215cb MT - 969W

OgrEGT
2023-03-17, 07:06:18
ElmorLabs: Xeon w9-3495X 5.5 GHz 1900W in Cinebench R23 (https://www.youtube.com/watch?v=d5xC2Dv009I)

w9-3495X OC - 56C - R23 132220cb MT - 1881W Peak. :uwoot:
TR PRO 5995WX OC - 64C - R23 121215cb MT - 969W
Wow...
Und der TR ist noch Zen3 :ugly:

Edgecrusher86
2023-03-17, 11:44:32
9% Mehrleistung - Takt bereinigt 7% Plus (mit 5,4 GHz lief der TR) - bei 86% der AMD Zen 3 Threads für SR, aber 94% Mehrverbrauch. :uconf3:
Die DIE-Size-Differenz ist natürlich auch enorm. Grob 1600mm² in 10nm bei Intel zu 560mm² für die Chiplets in N7 und 400mm² I/O in N12 beim AMD.

Das wird noch viel böser für Intel im R23 MT aussehen, wenn der 96C Genoa TR mit 5+ GHz rennt.

OgrEGT
2023-03-18, 07:32:22
Ist der w9-3495X Fishhawk Falls also die maximale HEDT Ausbaustufe? Dann macht der Vergleich zu AMDs HEDT Prozessor Sinn... interessanter als solche OC Benchmarks sind bei Workstations genauso wie bei Servern eher Tests innerhalb der Specs da deren Normalbetrieb auf maximale Stabilität ausgerichtet ist... gibts da schon Benchmarks/Leaks?

ryan
2023-03-29, 18:04:14
Es gibt neue Server Roadmaps.


Intel is presenting a new/updated Xeon roadmap:

5th Gen Xeon Scalable (Emerald Rapids):
- Q4 2023
- increased core density
- same power envelope
- higher perf/w

Granite Rapids (P-Core Xeon):
- H1 2024
- Intel 3
- DDR5-8800 (MCR DIMM)
- increased core density

E-Core Xeon Strategie:

1st Gen Sierra Forest:
- 1H 2024 (closely followed by Granite Rapids)
- 144 E-Cores
- first partners already receiving samples

2nd Gen Clearwater Forest:
- schedules for 2025
- Intel 18A

https://s20.directupload.net/images/230329/8r3rseeu.jpg

https://s20.directupload.net/images/230329/6iucm3gn.jpg

https://s20.directupload.net/images/230329/jy4tem6c.jpg

https://s20.directupload.net/images/230329/9gasuyc4.jpg

https://www.hardwareluxx.de/index.php/news/hardware/prozessoren/60717-mit-viel-zuversicht-intel-nennt-details-seiner-zuk%C3%BCnftigen-xeon-prozessoren.html
https://twitter.com/aschilling/status/1641100550329565185

davidzo
2023-03-29, 18:43:54
Doch nur 144 Cores für Sierra. Das ist viel weniger als die Gerüchte von 384 bis 512 Cores die hier mal herum schwirrten.
Angesichts das man mit 128 Zen4-Cores konkurrieren muss, also echten P-Cores, ist das etwas dürftig. Dafür aber wohl endlich mal ein Produkt im Zeitplan!
Wenn Intel die Plattform preislich gegenüber SP6, also AMDs 6ch Plattform mit 64C Zen4C kernen positioniert, würde man sogar ziemlich gut aussehen. 8CH DDR5, mehr PCIlanes, mehr Cores...

Möglicherweise kommt das sogar monolithisch. Wenn 4x E-Cores im gleichen Diespace umsetzbar sind wie 1x P-Core, dann dürfte der DIE in N3 kaum größer sein als ein Einzel-die bei Sapphire Rapids.

Jedenfalls erstaunlich dass diesmal der neue Prozess zuerst im Server kommt und dann erst im Client. Meteorlake soll ja Intel4 sein und ca. gleichzeitig launchen. Und die µArch ist ebenfalls top notch, Crestmont wie die E-Cores in MTL.

dildo4u
2023-03-29, 18:48:07
Hat mich immer gewundert warum Server nicht die neuste Fertigung nutzen wenn die noch im Takt beschränkt ist, Intel 4 oder 3 wird zum Anfang Probleme mit 6ghz haben.

HOT
2023-03-29, 19:03:14
Naaaaa, warten wir mal ab, was da wirklich kommt. Bei Sierra hat Intel ja offenbar derartigen Druck von Partnern, die sonst abspringen, dass der pünktlich kommen muss. Ob das auch für Granit Falls gilt, sehen wir dann. Der Plan sieht jedenfalls wieder viel zu ehrgeizig aus. Ich würd an GF mal ein sehr großes Fragezeichen machen, erst recht, wenn ER nur wenig vorher erscheinen soll. Die sind nicht umsonst so schwammig bei der Aussage "kommt ein wenig danach", das kann auch locker 1/2 Jahr oder mehr sein. Ich vermute, dass SF und ER recht pünktlich sein werden, für GF würd ich mal Q4 24 veranschlagen, frühestens.

davidzo
2023-03-29, 20:27:53
Hat mich immer gewundert warum Server nicht die neuste Fertigung nutzen wenn die noch im Takt beschränkt ist, Intel 4 oder 3 wird zum Anfang Probleme mit 6ghz haben.

Große Dies brauchen länger zu validieren und ein nicht so optimaler yield haut da auch richtig ins Kontor. Denke das ist der Hauptgrund weshalb man mit eher kleinen Dies anfängt, also Consumer.

davidzo
2023-03-30, 17:24:28
https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=83292&stc=1&d=1680188589

Sieht sehr nach monolitisch aus. Ich sehe da 15 gleichförmige Blöcke auf einem ca. 415mm2 großen DIE. Geht nicht wirklich auf, entweder es sind mehr Blöcke und der schimmer auf dem Bild trügerisch, oder es gibt viel reserve Silicon.

Klar wäre es möglich dass die Sierra Forest genau wie Emerald rapids aus zwei DIEs zusammengesetzt wird, aber das wäre für 144 Cores bei weitem zu viel Fläche in Intel3.

SR sind 48Mrd Transistoren auf 1600mm2.
Intel4 als HP-Prozess soll biszu 2x scaling ermöglichen, auf der transistorebene sind es aber nur 0,65x (0.83x0.8). Also alles zwischen 50% und 64% sind also realistisch von intel7 nach intel4.
Intel3 als LP Prozess soll in erster Linie dichtere Libraries haben, also wird man dort wohl an die 2.5x-3x Scaling gegenüber intel7 haben.

Also sind das auf dem abgebildeten DIE 30-40Mrd Transistoren. Das passt gut zur Coreanzahl. Ein P-Core hat aktuell ca. 600Mio Transistoren, ein 4-Core E-Kern Cluster dürfte ca. 800Mio haben. Das kommt also gut hin bei einem single-DIE.

Interessanterweise berichtet fudzilla allerdings von einem i/o DIE, welches zwischen sierra forest und granite rapids gleich sein soll: https://fudzilla.com/news/pc-hardware/56629-intel-updates-its-xeon-roadmap

Ich wäre mir da nicht sicher mit dem i/o DIE. Einerseits ist das 415mm2 DIE von Sierra selbst groß genug um ein bisschen i/o zu integrieren und der floorplan sieht auch danach aus. Andererseits wäre da ein Bruch mit dem Vorgänger Sapphire Rapids.
Andererseits konnte man auch schon früher damit rechnen das Intel die DIEs irgendwann wie AMD auch nach Funktion trennt, also i/o DIE mit SI, Cache, PCIe etc. und reine high density Compute DIEs. Das scheint bei Emeralds aber noch nicht der Fall zu sein.


Außerdem hat Techpowerup Gerüchte gehört dass die E-Cores bei Sierra der Crestmont Generation zugehören sollen:
https://www.techpowerup.com/304114/intel-xeon-sapphire-rapids-to-be-quickly-joined-by-emerald-rapids-granite-rapids-and-sierra-forest-in-the-next-two-years
Das wäre in der Tat früh für eine Server-CPU, denn die gleiche Architektur soll in Meterorlake stecken die in etwa gleichzeitig in Intel4 für den Client launchen soll.

https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=83293&stc=1&d=1680188589

Bei Emerald rapids geht man nun zurück zu riesen DIEs um die ca. 800mm2? anstelle von vier kleineren bei Sapphire rapids. Das scheint für Intel wohl mehr Density zu ermöglichen und immer noch wirtschaftlicher zu sein als das teure 4-DIE Package. Erstaunlich das Intel hier zurückrudert, aber das sagt einiges aus wie stabil der Intel7 Prozess jetzt ist. Es soll ja mehr Cores geben. Ich tippe auf 64 - bietet wer mehr - 72 80 oder gar 96?

mocad_tom
2023-04-12, 16:44:37
Es ist komplett illegal das alles lieferbar in den Regalen zu haben:

https://geizhals.de/kingston-fury-renegade-pro-rdimm-kit-128gb-kf556r36rbk4-128-a2919548.html?hloc=at&hloc=de
860€ RAM

https://geizhals.de/asus-pro-ws-w790-ace-a2899131.html
850€ MoBo

https://geizhals.de/intel-xeon-w7-2475x-bx807132475x-a2899422.html?hloc=at&hloc=de
2000€ CPU

Komplett illegal.

CrazyIvan
2023-04-12, 23:10:27
@davidzo
Wenn ich alles richtig verstanden habe, dann ist ja der MC auch bei SRF und GNR nicht etwa auf den IODs, sondern auf den Compute Tiles - weird.
SRF mit nur einem Compute Tile ist IMHO gesichert.
Der Rückschritt Schritt zurück auf nur noch zwei compute tiles bei EMR hat vermutlich damit zu tun, dass man dann nur noch zwei Sub-NUMA Cluster hat und auch nur 2 verschiedene Distanzen von einem Kern zu einem L3, anstatt wie bisher drei. Dadurch wird dessen Latenz vermutlich deutlich sinken und auch der Verbrauch. Aber ja, Luft nach oben hat man dann keine mehr - mit High-NA am Horizont genau das Gegenteil.

y33H@
2023-04-12, 23:18:47
Der Wafer ist SPR XCC statt SFR.

Skysnake
2023-04-13, 01:02:17
ich habe aktuell nicht so ganz den Überblick. Sind die SR eigentlich schon in freier Wildbahn verfügbar oder nicht?

Sprich wir sehr würde man sich noch über Ergebnisse freuen?

CrazyIvan
2023-04-13, 06:39:54
Du meinst Sapphire Rapids (SPR)?
Die wurden von STH, Phoronix und Co. bereits ausführlichst getestet - im Grunde gibt es keine Unbekannte mehr.

Skysnake
2023-04-13, 06:56:13
Ok. Habe nämlich bald ein neuen Cluster damit als Spielzeug :D

CrazyIvan
2023-04-13, 08:11:41
Auf jeden Fall auch nice - da fällt mir bestimmt noch was dazu ein. Siehe bspw. meine Signatur :wink:

mksn7
2023-04-13, 10:07:03
ich habe aktuell nicht so ganz den Überblick. Sind die SR eigentlich schon in freier Wildbahn verfügbar oder nicht?

Sprich wir sehr würde man sich noch über Ergebnisse freuen?

Soweit ich das sehen kann wird mittlerweile fleißig ausgeliefert, aber mancherorts wartet man immer noch auf Systeme. Aber Ergebnisse sind immer interessant :smile:

konkretor
2023-04-13, 10:32:12
Hab euch mal nen NUMA Bild von einem Xeon Max angehängt
Das zeigt die Konfiguration SNC4 Sub-Numa Clustering 4 genannt von Intel
Der Xeon Max kann auch nur mit dem HBM Speicher betrieben werden.

Skysnake
2023-04-13, 11:01:05
Hast du ne Y CPU?

Wird für uns interessant wie das läuft.

Btw wie sieht denn der Verlauf der Leistungsaufnahme während nem Linpack aus?

konkretor
2023-04-13, 12:26:43
nope hab kein Zugriff auf eine Y CPU, ebenso auch kein Zugriff mehr auf den Xeon Max.
War nur ein beschränkter Zugriff um mal etwas vor zu fühlen ob der Xeon Max etwas wäre.

Linpack hab ich auch nicht abgefeuert.

reaperrr
2023-04-13, 13:22:17
Granite Rapids (P-Core Xeon):
- H1 2024
Anhand Intels eigener Folien halt ich das für eine Fehlinterpretation.

Intel selbst schreiben für GR nur "2024" und "closely following Sierra Forest". Klingt für mich nach "frühestens Q3", sonst hätten sie auch dort explizit H1 geschrieben, haben sie aber nicht. Sie haben mMn nur deshalb nicht H2 geschrieben, weil sich das marketingtechnisch nicht so gut anhört wie "kurz nach Sierra".


Jedenfalls erstaunlich dass diesmal der neue Prozess zuerst im Server kommt und dann erst im Client. Meteorlake soll ja Intel4 sein und ca. gleichzeitig launchen. Und die µArch ist ebenfalls top notch, Crestmont wie die E-Cores in MTL.
Zwischen den ersten MTL (Q4/23) und GR (Q3?/24) werden m.E. mindestens ca. 9 Monate liegen, außerdem sind Intel 4 und Intel 3 im Grunde der gleiche Prozess, nur dass bei Intel 3 halt auch die IO- und High-Density-Libraries fertig sind.
Abgesehen davon, dass einiges darauf hindeutet, dass sich MTL um mehrere Monate gegenüber der internen Planung verschoben hat. Wäre nicht überrascht, wenn der Designbeginn zwischen MTL und GR wesentlich deutlicher auseinander lag und MTL ewig drauf warten musste, dass sie ihren 7nm-EUV-Prozess in den Griff bekommen.

dildo4u
2023-04-19, 19:14:04
10nm hier von Vorteil 60° bei 500 Watt Chips sind riesig. :lol:


FfH2uKL-3nY

Zossel
2023-04-25, 10:02:01
Mit viel Tamtam und guten Nachrichten (stark verspätet) gestartet, sollte Sapphire Rapids für Intel die Kohlen aus dem Feuer holen. Doch nach der Schwäche im PC-Markt ist nun das Datacenter an der Reihe und könnte Intels Aufholjagd massiv in die Parade fahren.

https://www.computerbase.de/2023-04/datacenter-nachfrage-bricht-ein-intel-sapphire-rapids-koennte-zum-ladenhueter-werden/

Wurden eigentlich schon die kleineren Kerne (*c) von AMD in freier Wildbahn gesichtet?
Die konkurrieren eher mit den Server-ARM Chips.

Skysnake
2023-04-26, 07:13:45
Nicht das ich wüsste

Skysnake
2023-04-28, 04:35:38
Hat einer von euch HPL gemessen?

Ich sehe aktuell, dass der HPl schneller wird im Laufe der Zeit statt langsamer. Das ist ziemlich seltsam....

dildo4u
2023-07-26, 12:41:02
Intel Xeon w9-3495X im Test: Workstation-CPU mit 56 P-Cores und Octa-Channel-RAM

https://www.computerbase.de/2023-07/intel-xeon-w9-3495x-test/

Besser als gar keine Konkurrenz zu AMD aber wirklich Druck übt Intel hier nicht aus.

mocad_tom
2023-07-26, 15:00:51
Der Test ist schon schwer daneben.

Wenn man eine Kontramaschine zu Threadripper bauen will, dann wird Intel Xeon w7-2495X hierfür der bessere Prozessor sein.

Der muss nicht durch EMIB durch, er hat aber trotzdem Quad-Channel DDR5-5800 ECC.

Das ganze Uncore läuft schon deutlich geschmeidiger auf Sapphire Rapids MCC.

Mit 24 Cores und 48 Threads dürfte schon einiges gehen und bei unvorteihaften Benches dürfte der 13900K nicht so böse davonziehen.


Hier z.B. wird der 24Core Sapphire Rapids gegen den Threadripper mit 64Cores gebencht und man sieht, wieviel eigentlich schlechtes Uncore wegvermurkst:
https://www.storagereview.com/review/dell-precision-5860-tower-workstation-review



Was mich auch wundert - der Die von Sapphire Rapids MCC hat eigentlich 32 Cores drauf.
Die Dies mit vielen aktiven Kernen scheinen alle zu den Cloud-Providern zu gehen:
https://geizhals.de/?cat=cpu1151&xf=12099_Server%7E12099_Workstation%7E12476_Quad+Channel%7E820_4677

y33H@
2023-07-26, 22:30:28
SPR MCC hat 34c.