Intel - Knights Landing MIC - 72 Kerne, 3 TFLOPs DP, 8-16GiB On-Package, 384GiB DDR4 - 2015 [Archiv]

Ailuros

2013-11-20, 15:54:34

hm??

...dass ich RUmpelstilzchen heiß??

"Weiss" reimt auch auf "Scheiss" u.a. :P :freak: :biggrin:

Standalone würde auch das zusätzliche DDR4-Interface erklären. "No PCIe overhead" wird allerdings erst auf der Folie "Future Xeon Phi" erwähnt, die sich wohl auf die Entwicklungen nach Knights Landing bezieht.
Interessant übrigens, dass der x86-Overhead nur 1% der Gesamtleistungsaufnahme kostet. Daran wird die Energieeffizienz nicht scheitern.

Nach 4 ganzen LRB Generationen waere es ziemlich blamierend wenn sie den x86 overhead nicht auf 1% reduziert haetten (ich akzeptiere auch zu Angabe ohne es zu bezweifeln).

AnarchX

2013-11-25, 12:17:51

KNL Folien: http://vr-zone.com/articles/xeon-phi-knights-series-continues-landing-2015/64112.html

basix

2013-11-25, 16:14:14

72 Kerne und 3 TFlop/s DP? Wenn das Ding dann nicht mit 2,6GHz läuft, bleiben wohl nur zwei Vektoreinheiten pro Kern übrig.

http://abload.de/image.php?img=knl130kdr6.png

;)

2phil4u

2013-11-25, 17:22:26

Nett wäre ja ein 2 Sockelsystem mit einmal 16-Kerner @ 4 ghz und Knight Landing.
Als Grafikkarte dann 9000 Shader auch mit HMC 16 GByte (4x4).

Das Ganze als Konsole mit Direktverbindungen, wenn wir 7nm erreichen mit 200W Verbrauch.

Grafikkarte kann dann auch nochmal 4mal so gross sein mit sehr niedriger Spannung um 0.1V.

Naja in 15 Jahren sicher machbar.

Dann mit der Leistung 100-200 TFlops/sec.

basix

2013-11-25, 18:44:31

Grafikkarte kann dann auch nochmal 4mal so gross sein mit sehr niedriger Spannung um 0.1V.

Mit 0.1V wird das niemals gehen. Rein physikalisch kann ein Transistor nicht unter einer bestimmten Spannung "komplett" durchschalten (0.3..0.4V oder so glaube ich). Leiten tut er evtl. schon vorher aber man muss den Logikzustand ja noch bestimmen können :)

Und auch schon bei den oben genannten Spannungen ist die Schaltgeschwindigkeit sehr langsam verglichen mit normaler Chip-Spannung.

Es kann natürlich sein, dass irgendwelche neue Halbleitertechnologien diese Spannungsgrenze nach unten schieben. Das dauert aber sicher noch wesentlich länger als 15 Jahre ;)

pittiplatsch

2013-11-26, 18:15:40

@2phil4u

Vielleicht rafft sich eine Firma nochmal auf, sowas in eine Konsole zu verbauen, 15 Jahre brauchts nicht, das geht in 4-5 Jahren ca., vielleicht Nintendos Revenge nach Wii-U, das wär mal n Ding, aber ich träum schon wieder. :redface:

Eine voll raytracingfähige Heimkonsole, und Big N ändert diesmal die Paradigmen der Programmierung, weg vom Rasterisieren, hin zum voll dynamischen Sparse Voxel Octree Raytracing oder Point Cloud Rendering, dann gäbs mal n richtigen Techniksprung, mmh schmacht. :tongue:

Ailuros

2013-11-26, 19:33:23

@2phil4u

Vielleicht rafft sich eine Firma nochmal auf, sowas in eine Konsole zu verbauen, 15 Jahre brauchts nicht, das geht in 4-5 Jahren ca., vielleicht Nintendos Revenge nach Wii-U, das wär mal n Ding, aber ich träum schon wieder. :redface:

Das letzte Mal als Intel mit fettgestopften Geldkoffern die Konsolen-IHVs besuchte wollten sie von Larabee nichts wissen, aus Gruenden die schon etliche Male erwaehnt wurden.

Eine voll raytracingfähige Heimkonsole, und Big N ändert diesmal die Paradigmen der Programmierung, weg vom Rasterisieren, hin zum voll dynamischen Sparse Voxel Octree Raytracing oder Point Cloud Rendering, dann gäbs mal n richtigen Techniksprung, mmh schmacht. :tongue:

Ein Schritt nach vorne und zwei zurueck. Wurde auch schon bis zum kotzen besprochen.

Knights landing ist HPC hw und bei dieser wird es auch voruebergehend bleiben und ich wuerde auch bitten dass die Debatte auch in dem Rahmen gehalten wird.

Skysnake

2013-11-27, 12:21:09

Falls es euch noch nicht aufgefallen ist bei den VR-Folien sieht man, das man wohl außen nen 1D-Torus (Ringbus) hat, in Innenbereich aber ein Grid.

Es könnte allerdings auch sein, dass es sich dabei jeweils wieder um einen Ringbus handelt. Intel nimmt es da ja mit der Darstellung nicht immer soooo genau. Dann hätte man einen 2D-Torus als Interconnect statt einem 1D-Torus wie bisher. Das würde der Kommunikation zugute kommen.

Ein Punkt der mir ein bischen sauer aufstößt ist der Punkt mit dem "Storm Lake Fabric" inkl on package Connector...

Ich hoffe, dass die Folien nicht echt sind, es passt aber sehr gut zusammen. Da sieht man eben die Auswirkungen des Zukaufs des Crays Interconnects und von NetEffect sowie QLogic...

Wenn man sich das so anschaut, schlägt Intel den IBM Weg ein. Alles aus einer Hand und fertig. Wenn die das wirklich durchziehen, wird man sich umschauen müssen.

Ich bin auch mal gespannt, was die Kartellbehörden dazu sagen. Immerhin besteht so die Chance praktisch den kompletten Infinibandmarkt zu killen. In ~80% der HPC-Cluster stecken Intel CPUs...

Hugo

2013-12-02, 16:16:06

wer ist eigentlich AMD's und NVIDIA's gegenspieler zu Knights Landing?

Knuddelbearli

2013-12-02, 16:25:49

20nm ( oder 16nm also 20nm + trigate ) Maxwell also GM110
bei AMD wohl Bermuda bzw Pirate Island Refresh

HPVD

2014-06-02, 07:07:03

interessanter Artikel der alles etwas "zusammenbaut" und zu skylake ins Verhältnis setzt:
http://www.realworldtech.com/knights-landing-details/

Loeschzwerg

2014-06-24, 07:01:54

http://www.computerbase.de/2014-06/xeon-phi-knights-landing-mit-72-kernen-und-on-package-dram/

und

http://www.pcgameshardware.de/Xeon-Phi-Hardware-256199/News/ISC14-Intel-Knights-Landing-fuer-2015-1126350/

Scheint ein richtig dicker Brummer zu werden :eek:

HPVD

2014-06-24, 07:52:36

Ergänzung auf computerbase:

Update 21:06 Uhr
Gegenüber EETimes bestätigte Micron die Nutzung von Hybrid Memory Cube für Intels „Knights Landing“. Der Speicher wird laut Micron dabei so schnell und für Programmierer dennoch einfach zu adressieren sein, dass er quasi als bis zu 16 GByte großer L3-Cache gesehen werden kann.

(Anmerkung: von anderen Folien: 5x Bandbreite von DDR4)

quelle:
http://www.eetimes.com/document.asp?doc_id=1322855

Skysnake

2014-06-24, 08:02:43

Loeschzwerg

2014-06-24, 08:23:46

Im Grunde nicht, nein, aber ich fands trotzdem schön wieder etwas von dem Ding zu lesen und wollte the thread etwas pushen :D

Edit: Aber ich bin gespannt wie das Ding letztendlich auf den Markt kommen wird, denn bei KNC waren in den finalen Xeon Phi Produkten nie alle 62 Kerne aktiv.

Skysnake

2014-06-24, 08:31:40

Ah Ok ;D

Ich hoffe es ist jetzt dann auch wirklich klar, was Intel da an Kaliber in Vorbereitung hat, und wohin die Reise geht. Gerade nVidia hat damit echt ein Problem, weil ihre Beschleuniger halt durch XeonPhis ersetzt werden.

AMD natürlich in einem ähnlichen Rahmen, wobei Sie mit ihren APUs noch eine Chance haben, ähnliches zu machen. nVidia muss sich an sich auf IBM verlassen.

Was Intel halt macht ist, alles von Ihnen, und wenn ich sage alles, dann meine ich auch wirklich alles. Intel verzahn aktuell alles so eng, das man eigentlich gar nichts anderes mehr haben will als Intel+Intel. Und bei der Marktmacht ist das alles andere als toll. Das ist quasi ein Monopol und Intel beginnt das auch richtig schön auszukosten.

Loeschzwerg

2014-06-24, 08:37:08

Ja, mal schauen was Nvidia da mit Pascal auf die Beine stellt und AMD sollte mit deren Möglichkeiten locker im "Budget" Bereich mitspielen können (ich hoffe ehrlich gesagt sogar auf mehr). Es bleibt spannend wie sich der Markt hier entwickeln wird.

Zugegeben, ich kann es schlecht abschätzen, dafür habe ich mit diesen HPC Formen zu wenig zu tun, ich sitze da im klassichen Mainframe Bereich (Mono thread ahoi!).

Wie im edit noch geschrieben, ich zweifle etwas daran dass wir alle 72 Kerne beim KNL aktiv sehen werden, hat beim KNC schon nicht geklappt.

AffenJack

2014-06-24, 09:19:16

AMD natürlich in einem ähnlichen Rahmen, wobei Sie mit ihren APUs noch eine Chance haben, ähnliches zu machen. nVidia muss sich an sich auf IBM verlassen.

Wo siehst du den Unterschied zwischen AMD und Nvidia so groß? Mit ARM Kernen auf der Karte ist das dann mehr oder weniger auch ne APU bei Nvidia.

Knights-Landing sieht auf jeden Fall gut aus, aber er ist halt auch 14nm. AMD und Nv könnten nen halbes Jahr später in H1 2016 ihre Gegner liefern die in ähnlichen Regionen sind. Bei AMD würde ich bei 2,5Tflops DP im Moment dann schon 5 TF DP erwarten. Das ist dann doch schonmal nen gutes Stück über den 3 TF von KL. Nvidia muss ihre DP Rate auch auf 1:2 erhöhen, wenn sie nicht abgehängt werden wollen.

Skysnake

2014-06-24, 13:45:12

Wie im edit noch geschrieben, ich zweifle etwas daran dass wir alle 72 Kerne beim KNL aktiv sehen werden, hat beim KNC schon nicht geklappt.
Hä?

KNC gibt es doch als vollen Ausbau ganz normal zu kaufen :freak:

Wo siehst du den Unterschied zwischen AMD und Nvidia so groß? Mit ARM Kernen auf der Karte ist das dann mehr oder weniger auch ne APU bei Nvidia.

Ja, aber das kannste nicht vergleichen. nvidia hat absolut keine Erfahrung bezüglich Kohärenten Links, sondern nur mit PCI-E.

Auch bezüglich Datenaustausch zwischen CPU und iGPU sehe ich nVidia nicht auf dem gleichen lvl. Und von Bibliotheken will ich gar nicht anfangen. Da ist das ganze Fortran zeug halt für x86 oder vielleicht noch Power, aber das wars dann wohl auch.

Ein SOC ist halt einfach mehr als die Summe seiner Einzelteile. Man sollte echt nicht unterschätzen, wie wichtig Interconnects inzwischen sind. Intel hat nicht ohne Grund massiv KnowHow eingekauft.

Knights-Landing sieht auf jeden Fall gut aus, aber er ist halt auch 14nm. AMD und Nv könnten nen halbes Jahr später in H1 2016 ihre Gegner liefern die in ähnlichen Regionen sind. Bei AMD würde ich bei 2,5Tflops DP im Moment dann schon 5 TF DP erwarten. Das ist dann doch schonmal nen gutes Stück über den 3 TF von KL. Nvidia muss ihre DP Rate auch auf 1:2 erhöhen, wenn sie nicht abgehängt werden wollen.
Sterile Flop Vergleiche sind hier nicht angebracht. XeonPhi sollte viel flexibler sein als die GPU-Architekturen von AMD und nVidia.

Und vor allem muss man kein OpenCL bzw. CUDA verwenden, sondern kann schlicht ne stink normale High-lvl Sprache benutzen. DAS ist mehr oder weniger meiner Meinung nach das Killerfeature.

Godmode

2014-06-24, 13:51:17

Sterile Flop Vergleiche sind hier nicht angebracht. XeonPhi sollte viel flexibler sein als die GPU-Architekturen von AMD und nVidia.

Und vor allem muss man kein OpenCL bzw. CUDA verwenden, sondern kann schlicht ne stink normale High-lvl Sprache benutzen. DAS ist mehr oder weniger meiner Meinung nach das Killerfeature.

Und genau darum rechne ich stark damit, dass der Marktanteil von Nvidia deutlich zurückgehen wird. Wenn man dann noch die Verzögerung von den 20nm Maxwells einrechnet, wirds noch viel düsterer.

Nightspider

2014-06-24, 13:57:31

Wo landet man bei 5facher DDR4 Bandbreite?

DDR4 ist im Vergleich zu GDDR5 doch immer noch arschlahm oder.

Erreicht man mit 5facher DDR4 Bandbreite nicht auch gerade mal 200-400 GB/s. ?

Loeschzwerg

2014-06-24, 14:02:56

Hä?

KNC gibt es doch als vollen Ausbau ganz normal zu kaufen :freak:

http://ark.intel.com/products/family/71840/Intel-Xeon-Phi-Coprocessors

Hm... nö, sind doch immer Cores deaktiviert.

mrck

2014-06-24, 14:14:54

...

Godmode

2014-06-24, 14:16:31

Wo landet man bei 5facher DDR4 Bandbreite?

DDR4 ist im Vergleich zu GDDR5 doch immer noch arschlahm oder.

Erreicht man mit 5facher DDR4 Bandbreite nicht auch gerade mal 200-400 GB/s. ?

Die Latenzen sollen ähnlich hoch sein wie beim L3 Cache, was dann schon ordentlich ist. Normale DRAM Zugriffe auf GPUs dauern ja 1000+ Takte IIRC, L3 Latenzen dürften hier um einen Faktor niedriger sein.

Nightspider

2014-06-24, 14:17:56

Gibt es zur Latenz angaben im Vergleich zu GDDR5 Lösungen?

Kann ja höchstens Faktor 2-3 kleiner sein. Der Weg, welcher eingespart ist, wurde ja nicht auf auf weniger als 40% reduziert, würde ich schätzen.

Coda

2014-06-24, 14:26:09

Der Weg ist nur teilweise das Problem, die Latenz kommt auch von der Encode/Decode-Logik.

HPVD

2014-06-24, 14:30:25

wie funktioniert das denn dann mit der Anbindung an den DDR4 Speicher auf dem Board wohl genau?
Bin irgendwie darüber gestolpert das der "nur" 384 GByte DDR4-Speicher verwenden kann..

Wenn man ein Dual-Socket Board hat mit einem Xeon v2600v5 und einem XeonPhi drin (sollen ja beide die gleichen Sockel haben..)

Hat jeder dann seinen eigenen Speicher?

Bereits heute "teilen" sich ja 2 Xeon v2600 auf manchen Boards bis zu 1TB.

|MatMan|

2014-06-24, 15:52:51

Und vor allem muss man kein OpenCL bzw. CUDA verwenden, sondern kann schlicht ne stink normale High-lvl Sprache benutzen. DAS ist mehr oder weniger meiner Meinung nach das Killerfeature.
Das hast du auch schon bei KNC behauptet und es hat sich nicht bewahrheitet. Bestehenden Code einfach durch einen "XeonPhi-Compiler" jagen wird nicht viel bringen, außer dass es erstmal läuft. Um wirklich Geschwindigkeit rauszuholen wird man in den allermeisten Fällen den Algorithmus umbauen müssen und dazu sehr ähnliche Strategien verwenden, wie bei CUDA oder OpenCL Programmierung. Da steckt der Knackpunkt und der eigentliche Aufwand. In welcher Sprache man dies umsetzt ist dann eher zweitrangig und hängt vielleicht eher noch von der Entwicklungsumgebung ab.

Ich bin schon sehr auf die Energieeffizienz von KNL gespannt. Bei KNC war das ja eher nix... Die Chance für Intel ist auf jeden Fall da. Insbesondere, da nVidia mit ihren eigenen ARM Kernen schon viel weiter sein wollte/müsste um etwas vergleichbares bauen zu können.

mrck

2014-06-24, 21:53:21

...

Skysnake

2014-06-25, 09:11:17

http://ark.intel.com/products/family/71840/Intel-Xeon-Phi-Coprocessors

Hm... nö, sind doch immer Cores deaktiviert.
Und wie kommst du darauf, dass das mit den 61 Cores kein voller Chip ist?

Das hast du auch schon bei KNC behauptet und es hat sich nicht bewahrheitet. Bestehenden Code einfach durch einen "XeonPhi-Compiler" jagen wird nicht viel bringen, außer dass es erstmal läuft.

Naja, das würde ich so nicht sagen. Schau dir mal an, in wievielen Systemen KNC drin steckt, und was alles in der Forschung läuft. KNC hat z.B. schon mal ausgereicht, um dreimal in Folge an der Spitze der Top500 zu bleiben :P

Ein paar Unschönheiten gibt es wirklich. Das musste ich bei der Optimierung von meinem Treiber für KNC auch feststellen. Mir ist da auch leider noch nicht wirklich, woher die Probleme kommen. Also ob es der Memory-Controller ist, oder doch der ringbus oder oder oder....

Rein für Streamanwendungen ist er aber schon ganz ok, und die Entwicklung von Software geht wirklich schneller von der Hand als mit CUDA/OpenCL, und ja, überhaupt mal was lauffähiges zu haben ist kein unwesentlicher Punkt!

Um wirklich Geschwindigkeit rauszuholen wird man in den allermeisten Fällen den Algorithmus umbauen müssen und dazu sehr ähnliche Strategien verwenden, wie bei CUDA oder OpenCL Programmierung.

Naja, wenn man die Intrinsics verwendet, dann geht das schon relativ gut von der Hand, aber ja, dadurch, das KNC eine eigene ISA hat, muss man etwas mehr arbeiten. Was einem aber auf jeden Fall schonmal weg fällt ist das gesamte Grundgerüst. Das kann man einfach weiter verwenden. Das ist schon sehr angenehm.

Auch das einbinden eines NFS, also das man schlicht nen Linux auf der Karte laufen hat, ist wirklich ziemlich cool! Einfach nen stink normales Programm schreiben und Daten lesen&schreiben, und nicht erst aufwändig hin und her kopieren. Das reduziert schon den Aufwand. Es ist nicht DER Einzelpunkt, sondern sehr sehr sehr viele Kleine, die aber in Summe dann doch einen großen Unterschied machen.

Da steckt der Knackpunkt und der eigentliche Aufwand. In welcher Sprache man dies umsetzt ist dann eher zweitrangig und hängt vielleicht eher noch von der Entwicklungsumgebung ab.

So und jetzt überleg mal, was mit KNL noch kommt...

Ah ja richtig, normale Xeon-CPUs und KNL werden sich die ISA zum Großteil teilen. Man kann also noch mehr Code einfach wiederverwenden.

Ich bin schon sehr auf die Energieeffizienz von KNL gespannt. Bei KNC war das ja eher nix... Die Chance für Intel ist auf jeden Fall da. Insbesondere, da nVidia mit ihren eigenen ARM Kernen schon viel weiter sein wollte/müsste um etwas vergleichbares bauen zu können.
ja, das Ding hat etwas viel Strom verballert, man sollte aber auch nicht ganz vergessen, wo das Ding her kam. ;) KNL wird da schon ein anderes Kalieber.

Loeschzwerg

2014-06-25, 10:09:11

Und wie kommst du darauf, dass das mit den 61 Cores kein voller Chip ist?

https://sharepoint.campus.rwth-aachen.de/units/rz/HPC/public/Shared%20Documents/aixcelerate%202013/Aixelerate13_1_IntroductionToHWAndSoftware.pdf

Folie 11 und 37 u.A. :) Es sind 62 Cores, wobei teilweise sogar in irgendwelchen News von 64 Cores die Rede ist :confused:

Ailuros

2014-06-25, 10:15:15

Skysnake

2014-06-25, 10:36:29

https://sharepoint.campus.rwth-aachen.de/units/rz/HPC/public/Shared%20Documents/aixcelerate%202013/Aixelerate13_1_IntroductionToHWAndSoftware.pdf

Folie 11 und 37 u.A. :) Es sind 62 Cores, wobei teilweise sogar in irgendwelchen News von 64 Cores die Rede ist :confused:
hm....

Später ist in den Folien aber meines Wissens nach immer nur von 61 Cores die Rede, und die 61 Core Chips laufen bei Intel auch unter "Vollausbau". Hab selbst zwei von denen hier rumstehen. Man müsste auch nochmal in die Doku rein schauen, eigentlich sollte sogar die öffentlich alles enthalten!

Da ist meines Wissens nach auch nur von 61 Cores maximal die Rede. Man hat ja noch die S&M Boxes.

Im Prinzip ist es aber auch egal. Der eine Core macht das Ding auch nicht mehr fett.

Aber was ganz anderes. Intel hat wohl endlich angefangen zu reden.
http://www.golem.de/news/omni-scale-xeons-und-beschleuniger-xeon-phi-ab-2015-optisch-verbunden-1406-107427.html
Viel Spaß beim darüber nachdenken

Loeschzwerg

2014-06-25, 10:55:41

Also beim DIE Shot zähle ich auch 62 Core, aber stimmt, macht das Kraut ned fett. Mir stellt sich nur die Frage ob wir den KNL ebenfalls nur "teilaktiv" sehen werden (meiner Meinung nach ja).

MXC, fein fein. Da bin ich wirklich gespannt was wir zukünftig an dicken Supercomputern sehen werden. Ebenfalls spannend die Integrierung von Omni Scale in 14nm Xeon, damit könnten die 8 Sockel Systeme wohl endgültig sterben.

Finde ich super, so umgeht man die ganzen Probleme die mit "PCIe" bzw. den Switches und Verbindungen einhergehen.

Dural

2014-06-25, 13:02:43

Finde den Chip jetzt nicht mal so besonders, Intel rettet einfach mal wieder ihre eigene gute Fertigung und halt ihr x86

Würde beide fehlen, würde den Chip in 2015 kein Mensch interessieren.
Dies wiederum kann für Intel gefährlich werden, sollte man bei beiden Sachen in Zukunft nicht mehr alleine dastehen.

Auch wenn ich nicht denke das Intel damit an die Rohleistung der AMD und NV Chips ende 2015 ran kommt, so wird Intel wegen den genannten Vorteilen gerade für NV in diesem Beriech ziemlich viel Marktanteil weg schnappen, beziehungsweisse habe sie ja schon. Bei AMD dürfte das egal sein, den die haben quasi bis heute keinen Marktanteil ;)

Ailuros

2014-06-25, 13:28:14

Woher kommt es genau dass AMD Null Marktanteil im HPC Markt hat? Sonst wenn Intel mit KNL ihre projezierten 14-15 DP FLOPs/W erreichen sollte, ist es ein weiterer Engpass fuer NVIDIA denn fuer mehr als 12 DP FLOPs mit Maxwell unter 28nm sieht es wohl schwer aus.

Dural

2014-06-25, 16:31:38

ich meine die 16nm NV / AMD Chips die ende 2015 / 2016 ja sicher (hoffentlich) mal auf den Markt kommen.

Knights Landing soll ja auch erst in 2016 gross Verfügbar sein.

Ailuros

2014-06-25, 18:47:14

ich meine die 16nm NV / AMD Chips die ende 2015 / 2016 ja sicher (hoffentlich) mal auf den Markt kommen.

Sicher und hoffentlich? :freak: GM200 kommt in 2015.

Knights Landing soll ja auch erst in 2016 gross Verfügbar sein.

Sagt wer? :freak:;D

Nakai

2014-06-25, 19:03:06

Finde den Chip jetzt nicht mal so besonders, Intel rettet einfach mal wieder ihre eigene gute Fertigung und halt ihr x86

Der Portierugsaufwand bestehendem HPC-Code sollte sehr niedrig sein, da es sich hier um echte Kerne handelt und keine SPs. OpenMP und MPI sollten darauf laufen.

Wie groß beläuft sich der Cache, der direkt integriert ist?

Skysnake

2014-06-25, 19:40:44

OpenMP und MPI sollten nicht darauf laufen, sondern Sie tun es "einfach"

Dural

2014-06-25, 20:09:40

Sagt wer? :freak:;D

3dcenter news:
Einzelne Exemplare soll es zwar schon im zweiten Halbjahr 2015 geben, ein erster laufender GPGPU-Cluster ist jedoch erst für Mitte 2016 geplant.

original:
Bis Intel nächster Xeon Phi aber Supercomputer antreibt, wird es noch ein bis zwei Jahre dauern: Das erste System soll Mitte 2016 Nerscs Cori mit über 9.300 Knights Landings werden, einzelne Beschleuniger sollen im zweiten Halbjahr 2015 verfügbar sein. Hintergrund ist die 14-Nanometer-Fertigung von Intel, die schon bei den kleinen Broadwell-Chips nicht rund läuft.
http://www.golem.de/news/xeon-phi-knights-landing-bietet-3-teraflops-16-gbyte-edram-und-ddr4-1406-107381-2.html

Ailuros

2014-06-25, 20:20:01

H2 2015 ist immer noch das Jahr in dem NV nichts anderes als Maxwell GM200 haben wird. Ich weiss wirklich nicht ob Du ueberhaupt verstehst was Du selber zitierst, aber nochmal bis es sitzt:

........ einzelne Beschleuniger sollen im zweiten Halbjahr 2015 verfügbar sein.

Dural

2014-06-25, 21:22:44

wenn ich mich zitieren darf:

Knights Landing soll ja auch erst in 2016 gross Verfügbar sein.

hab nie gesagt das es 2015 keine geben wird, aber was will Intel mit "einzelstücke" genau anstellen? richtig nicht viel :wink:

Wie auch immer, die Konkurrenz Produkte von NV und AMD werden sicher keine 28nm Chips sein. Und überhaupt GM200 kommt eventuell ja schon H1 und nicht H2 wie Intel. Dazwischen kann ein halbes Jahr liegen und erst noch sicher die deutlich bessere Verfügbarkeit.

ndrs

2014-06-25, 22:31:29

Ich glaube, wenn Intel einen Launch durchführt heißt "einzelne Exemplare" bestimmt nicht das, was sich unsereins drunter vorstellen mag. Ich denke eher, dass der Verkauf einzelner (im Sinne von "eins pro Packung", nicht "ein paar weniger") PCIe-Boards dann starten wird.
Lediglich das erste wirkliche HPC-Großprojekt wofür eh immer mehrere Jahre Vorausplanung draufgehen und man dann auch die dicken Boards nutzen wird, ist mit 2016 gemeint. Für Workstations und kleinere Cluster sollten die ersten Liefermengen reichen.

Ailuros

2014-06-25, 22:46:50

wenn ich mich zitieren darf:

hab nie gesagt das es 2015 keine geben wird, aber was will Intel mit "einzelstücke" genau anstellen? richtig nicht viel :wink:

Wie auch immer, die Konkurrenz Produkte von NV und AMD werden sicher keine 28nm Chips sein. Und überhaupt GM200 kommt eventuell ja schon H1 und nicht H2 wie Intel. Dazwischen kann ein halbes Jahr liegen und erst noch sicher die deutlich bessere Verfügbarkeit.

Streng Dich ruhig an "Verfuegbarkeit" neu zu definieren.

Sonst ist NVs eigentliches Problem dass GM200 nicht gegen KNL ausreichen koente wenn Intel ihre Ziele erreichen sollte. Pascal wird zwar ein anderes Kapitel sein aber von 2016 sehe ich nichts auf NV's roadmap komischerweise, da Pascal komischerweise etwas zuuuu "rechts" nach 2016 eingetragen ist :P

Skysnake

2014-06-26, 08:06:12

Könnte?

Das ist aber nett formuliert. Wenn Intel nicht den Interconnect (Fabric) total verkackt bzgl. Latenzen, dann spielen die allein damit schon in einer ganz anderen Liga. Und dazu kommt auch noch der 16GB HMC als nearMemory...

Intel macht mit KNL das, was früher IBM gemacht hat. "Einfach" alles, was man hat an Knowhow in einen einzigen fetten Chip packen. Ein "Big Iron" halt. Sowas hat bisher eigentlich nur IBM gemacht, oder halt Firmen mit den big Goverment Dollars. $.$

Mich würde es aber auch überhaupt nicht überraschen, wenn Intel von der NSA oder sonst wie der US-Regierung für KNL Geld in den Arsch geblasen bekommen hat. Die potenziellen Verbesserungen für BigData, und ich meine da wirklich extremes BigData, also PetaByte++ sind schon verlokend.

Man sollte sich da aus Sicht der Konkurrenz eher Hoffnungen machen, das Intel den Interconnect nicht mit der vollen Bandbreite am Anfang schafft, sondern "nur" 100-300 GBit/s, und das auch nicht bei den tollsten Latenzen.

Das Ding ist halt wirklich ein Monster, und selbst Intel könnte sich daran kräftig verheben, denn damit machen Sie wirklich das was halt technisch machbar ist aktuell. Also Grenzen ausloten. Das hat Intel an sich schon länger nicht mehr gemacht.

Ailuros

2014-06-26, 09:23:02

Könnte?

Das ist aber nett formuliert.

Es ist mit Absicht konservativ formuliert weil selbst Intel keinen Zauberstab hat wenn etwas schief gehen sollte. Und es ist eben nicht gerade so dass es selten ist dass IHVs ihre originalen Projektionen ueberhaupt fuer perf/W nicht zu 100% einhalten koennen. Je fetter die Versprechungen desto groesseren Abstand nehme ich aus Sicherheitsgruenden :P

Dural

2014-06-26, 09:24:19

Ihr träumt wohl etwas, wenn Intel für schlappe 9000 Chips nur mit einem Termin um Mitte 2016 rechnen kann ist Intel selber nicht mal sicher ob sie in 2015 etwas liefern können.

Zum Vergleich, NV hat GK100 zuerst im Titan geliefert und das war ein halbes Jahr vor der Serien Auslieferung.

Das ding ist ca. 700mm gross und das erst noch in einer Brand neuen Fertigung. Und was man so hört laufen derzeit ja nicht mal die kleinen Chips in 14nm rund. :rolleyes: ihr könnt froh sein wenn Intel im 2015 ein paar Chips ausliefern kann die nicht halb deaktiviert sind :wink:

Ailuros

2014-06-26, 10:09:40

Ihr träumt wohl etwas, wenn Intel für schlappe 9000 Chips nur mit einem Termin um Mitte 2016 rechnen kann ist Intel selber nicht mal sicher ob sie in 2015 etwas liefern können.

Aendert es etwas an der Tatsache dass NV bis dahin hoechstwahrscheinlich gar nichts konkurrenzfaehiges haben wird? Nein.

Zum Vergleich, NV hat GK100 zuerst im Titan geliefert und das war ein halbes Jahr vor der Serien Auslieferung.

Erstens gab es NIE einen GK100 sondern GK110 und dieser wurde im Herbst damals durch einen begrenzten wafer run ausgeliefert weil die Herstellung fuer desktop zu teuer gewesen waere.

Das ding ist ca. 700mm gross und das erst noch in einer Brand neuen Fertigung. Und was man so hört laufen derzeit ja nicht mal die kleinen Chips in 14nm rund. :rolleyes: ihr könnt froh sein wenn Intel im 2015 ein paar Chips ausliefern kann die nicht halb deaktiviert sind :wink:

Du solltest froh sein wenn Intel tatsaechlich nichts liefern kann; denn bis Ende 2006 sieht es auch nach nichts aus von NV ausser GM200 .

Skysnake

2014-06-27, 07:20:16

Aber nicht nur die. Auch IBM kann froh sein, wenn Intel sich verhebt an KNL, was definitiv nicht auszuschließen ist.

Was die SPARC Fraktion noch macht wird interessant. Zumindest bei XMC macht ja Fujitsu mit. Das wird wirklich spannend, wie sich da SPARC vs Intel entwickelt. Für IBM sicherlich auch ziemlich uncool.

Wobei auch klar sein sollte, das IBM die Fibre-to-the-chip Pläne in der Schublade hat. Die haben die ganze Sache bzgl Grundlagenforschung ja überhaupt erst richtig voran gebracht. Nur ich bin mir ziemlich unsicher, ob die wirklich so schnell etwas Massenmarkttaugliches bringen können.

nVidia hängt halt bei IBM mit dran, und AMD sieht ziemlich mau aus, weil bzgl Fibre-to-the-chip haben die meines Wissens nach noch rein gar nichts gemacht.

StefanV

2014-06-27, 13:38:35

denn bis Ende 2006 sieht es auch nach nichts aus von NV ausser GM200 .
Ende 2006 hat man von R600 und G80 geträumt ;-)
Oder meinst du 2016??

Anyway:
Schaut so aus, als ob Intel nVidia mit diesem Zeugs ausm HPC Markt fegen wird...

Auch wenn das nicht das Thema ist, aber Anfang vom Ende von nVidia?

Aber schon interessant, was man alles machen kann, wenn man es denn unbedingt möchte und kann....

Godmode

2014-06-27, 14:03:38

Ende 2006 hat man von R600 und G80 geträumt ;-)
Oder meinst du 2016??

Anyway:
Schaut so aus, als ob Intel nVidia mit diesem Zeugs ausm HPC Markt fegen wird...

Auch wenn das nicht das Thema ist, aber Anfang vom Ende von nVidia?

Aber schon interessant, was man alles machen kann, wenn man es denn unbedingt möchte und kann....

Über die nächsten Jahre könnte das Nvidia schon treffen, aber Intel muss erstmal auch liefern. Auf Folien kann man immer viel drauf malen, am Ende zählt aber ein kaufbares Produkt.

mksn7

2014-06-27, 14:13:19

Naja, warten wir erstmal ab. Bis 2016 ist es ja auch noch ein bisschen Zeit. Ich hab mich diese Woche auf der ISC mit zwei nvidia leuten unterhalten. Die wissen schon, dass es nicht so einfach wird gegen einen Giganten wie Intel, der masiv Geld gegen ein Problem schmeißen kann. Der Plan scheint momentan zu sein, an Maktrdurchdringung zu gewinnen solange man noch vorne ist. Man ist auch sehr skeptisch ggb. dem homogenen Ansatz, den ein self boot Phi darstellt. Bei nvidia ist man recht überzeugt vom heterogenen CPU+GPU Konzept und einem offloading programmier modell. Nvidia setzt da große Hoffnungen in OpenAcc, das ähnlich wie OpenMP funktioniert.

Wir hatten das ja schon oft, damit Codes gut auf dem Phi laufen, muss man sich für alle hotspots nochnmal individuell mit Parallelisierung und vektorisierung beschäftigen. OpenMP ist ja super banal auf einem quadcore, aber auf einem 72 Kern system ist das schon nicht mehr so einfach. Da können ein paar ungeschickte Barriers schnell den ganzen Speedup auffressen. Und wenn man die Hotspots sowieso nochmal indivudell berarbeiten muss, könnte man da auch OpenAcc Direktiven setzen. Ich hab selbst noch kein OpenAcc gemacht, kann also auch nicht sagen, wie gut das wirklich geht.

Von nvidia habs doch auch mal einige Gerüchte über neuere Speichertechnologien, oder?

Ailuros

2014-06-27, 14:56:46

Danke StefanV; es war natuerlich ein Tippfehler und haette 2016 lauten sollen.

Naja, warten wir erstmal ab. Bis 2016 ist es ja auch noch ein bisschen Zeit. Ich hab mich diese Woche auf der ISC mit zwei nvidia leuten unterhalten. Die wissen schon, dass es nicht so einfach wird gegen einen Giganten wie Intel, der masiv Geld gegen ein Problem schmeißen kann. Der Plan scheint momentan zu sein, an Maktrdurchdringung zu gewinnen solange man noch vorne ist. Man ist auch sehr skeptisch ggb. dem homogenen Ansatz, den ein self boot Phi darstellt. Bei nvidia ist man recht überzeugt vom heterogenen CPU+GPU Konzept und einem offloading programmier modell. Nvidia setzt da große Hoffnungen in OpenAcc, das ähnlich wie OpenMP funktioniert.

Wir hatten das ja schon oft, damit Codes gut auf dem Phi laufen, muss man sich für alle hotspots nochnmal individuell mit Parallelisierung und vektorisierung beschäftigen. OpenMP ist ja super banal auf einem quadcore, aber auf einem 72 Kern system ist das schon nicht mehr so einfach. Da können ein paar ungeschickte Barriers schnell den ganzen Speedup auffressen. Und wenn man die Hotspots sowieso nochmal indivudell berarbeiten muss, könnte man da auch OpenAcc Direktiven setzen. Ich hab selbst noch kein OpenAcc gemacht, kann also auch nicht sagen, wie gut das wirklich geht.

Von nvidia habs doch auch mal einige Gerüchte über neuere Speichertechnologien, oder?

Endlich mal ein Beitrag der die Realitaet hinter den Kulissen so genau wie moeglich wiederspiegelt ;)

Skysnake

2014-06-27, 17:25:50

Durchaus, nur darf man halt eins nicht aus den Augen verlieren.

Energieeffizienz!

Und da ist son Standalone KNL schon verdammt heis. Bis auf ne Stromversorgung haste auf dem PCB nichts anderes als den RAM und den KNL. Das wars dann auch. Das kannste extrem dicht packen und verdammt effizient auslegen.

@OpenMP:
Würde ich nicht unbedingt machen. PThreads+MPI sind an sich die größte Aussicht auf massig Performance, aber auch durchaus am Aufwändigsten zu implementieren. Es gibt halt nichts Umsonst :(

@Barrier:
Das ist durchaus richtig, aber ein Dual-Sockel System mit Haswell-E hat ja schon 60 Threads, und QPI hat im Vergleich zu dem On Chip Bus ja eine geringe Bandbreite und eine hohe Latenz.

Aber ja, das ist wohl eine der kritischten Punkte bei KNL. Also der OnChip Interconnect zwischen den Cores und das Cache Kohärenzprotokoll. Da lässt KNC etwas zu wünschen übrig, genau wie an ein paar anderen Stellen... Einige Optimierungen die ich gemacht hatte waren ziemlich enttäuschend.

Genau den Punkt überarbeitet ja Intel aber massiv mit KNL. Die sind sich also wohl ziemlich darüber im Klaren, das man da etwas tun muss. Man wird wohl auch etwas weniger Stark auf den Streaming-Gedanken setzen und die Latenzen versuchen zu drücken.

KNC merkt man halt doch noch an, woher er mal kam. KNL wird wohl nicht mit dem Graphics-"Ballast" daher kommen.

y33H@

2014-06-27, 20:44:12

Auch IBM kann froh sein, wenn Intel sich verhebt an KNL, was definitiv nicht auszuschließen ist.Einer mag Intel nicht ...

Auch wenn das nicht das Thema ist, aber Anfang vom Ende von nVidia?... und der andere Nvidia nicht :freak:

mksn7

2014-06-28, 01:29:46

Und da ist son Standalone KNL schon verdammt heis. Bis auf ne Stromversorgung haste auf dem PCB nichts anderes als den RAM und den KNL. Das wars dann auch. Das kannste extrem dicht packen und verdammt effizient auslegen.

Was kann man denn bei einem standalone KNL weglassen, was man bei einem CPU node nicht auch weglassen kann? Ok, der hat jetzt dann das Interconnect eingebaut, aber das kriegen die CPUs ja dann auch irgendwann.

@OpenMP:
Würde ich nicht unbedingt machen. PThreads+MPI sind an sich die größte Aussicht auf massig Performance, aber auch durchaus am Aufwändigsten zu implementieren. Es gibt halt nichts Umsonst :(

Uh, das macht aber keiner. Die allermeisten Codes sind pur MPI oder MPI/OpenMP hybrid. Was wär denn ein Beispiel, wo man mit prthreads besser ist als mit OpenMP? Ich sehe da eher die Gefahr, dass man Sachen schlechter nach implementiert. Und auch noch wichtig, wenn das ein Physiker oder Geologe nicht hinkriegt, ist es leider wertlos...

@Barrier:
Das ist durchaus richtig, aber ein Dual-Sockel System mit Haswell-E hat ja schon 60 Threads, und QPI hat im Vergleich zu dem On Chip Bus ja eine geringe Bandbreite und eine hohe Latenz.

Ach, HT kann man doch nicht zählen... Aber du hast natürlich recht, da kommen auch schon hohe Threadcounts zusammen. Die CPUs sind trotzdem deutlich schneller. Ein Dual Socket Sandy Bridge 8 core braucht 3000 takte für eine Barrier, KNC braucht 18000. Und der ist halb so schnell getaktet. Liegt wie du schon gesagt hast, am langsamen Interconnect. Überhaupt ist alles was Daten zwischen Cores hin und her schiebt ein bisschen traurig, Dafür muss man sich beim Phi keine Gedanken um NUMA domains machen.

Ja, mal sehen was KNL macht. Ich glaube auch, dass Intel KNL eher ein bisschen in die CPU richtung platziert.

Gipsel

2015-01-14, 18:14:04

Die Diskussion der radikalen Preissenkung für Knights Corner wurde in den entsprechenden Thread (https://www.forum-3dcenter.org/vbulletin/showthread.php?p=10486694#post10486694) geschoben.

Skysnake

2015-03-11, 08:54:56

Ailuros

2015-03-11, 09:46:29

Ziemlich ausführliches Video, was die eine oder andere Kleinigkeit verrät. Ich selbst habe es mir noch nicht ganz angeschaut, aber ich denke es ist ein guter Einstieg für die Leute, die sich damit noch nicht beschäftigt haben.

http://youtu.be/ypvV-qLJMAs

Tut mir leid aber nach knapp 10 Minuten generellem yadda yadda fuer den Otto Normalverbraucher ist es mir zu langweilig geworden.

Skysnake

2015-03-26, 08:36:21

AnarchX

2015-03-26, 08:49:41

Ob so ein ~500GB/s + DDR4 Package wohl teuerer ist als der Si-Interposer bei Fiji? Die HMC sind für 1/2GiB pro Chip aber auch nicht gerade klein.

Skysnake

2015-03-26, 09:59:53

Das ist kein organishes Package mehr, sondern ein keramisches. Die Dinger sind nicht wirklich billig.

Auch hat der Sockel allein unten rund 4k Kontakte. Das ist alles, nur nicht billig. Jeder HMC hat ja glaub auch nochmal 1k Kontakte. Da kommt also richtig was zusammen. :ugly:

Sunrise

2015-03-26, 10:54:05

Bei dem Ding kann man eigentlich nur staunen. Am Beeindruckendsten finde ich aber das hier:
Saleh also disclosed that the Knights Landing processor will have around three times the single-threaded performance (meaning the X86 work, not the floating point work) as the custom Pentium 54C cores used in the Knights Corner variant of the Xeon Phi chips. Without getting too specific, Saleh said that this very big increase in performance was due to a combination clock speed increases enabled by the process shrink, a radically improved core, and bigger and faster cache and main memories.
Meine Fresse, wann hat man schonmal die 3-fache x86 Single-Threaded Leistung zur Verfügung? Ein gigantischer Sprung. Ist schon verdammt attraktiv, so ein Teil dann auch als vollen Prozessor zu verbauen.

Wobei ich immer noch nicht verstehe, warum die Dinger beim H.264-Encoding nicht gut sein sollen (laut einem der Maincoder von x264). Denn x264 ist extrem gut parallelisierbar (die 64bit-Version hängt zumindest immer nahe an 100% Auslastung bei den nicht-Xeon Phi-Cores (Haswell, Broadwell, etc.), egal wieviele Threads zur Verfügung stehen.

Was ist hier genau der Grund? Das würde mich wirklich mal interessieren.

Loeschzwerg

2015-03-26, 16:52:58

Bilder zu einem KNL System

https://twitter.com/search?t=1&cn=cmVjb3NfbmV0d29ya19kaWdlc3RfYWI%3D&sig=5836de5b37b40bdef252414aa39cc8f533d339ae&al=1&refsrc=email&iid=75b2b2f32b614d0c8e0c0d493df8a31c&q=%23IntelHPC&autoactions=1427325929&uid=321303771&nid=244+297+20150323

EDIT:
Gerade beim durchschauen des tweet noch gefunden: http://www.theplatform.net/2015/03/25/more-knights-landing-xeon-phi-secrets-unveiled/

Da sind auch Bilder vom Chip und Package. Ist mal ein echt "putziges" Package ;D

Fettest Teil :cool: Package size ~55 x ~85 mm

We did not have a ruler on hand to measure the size of the Knights Landing package, but it is about as wide as a credit card and a little bit taller.

Das Package sieht für mich aber organisch aus.

AnarchX

2015-03-26, 17:06:26

Bei dem Ding kann man eigentlich nur staunen. Am Beeindruckendsten finde ich aber das hier:

Meine Fresse, wann hat man schonmal die 3-fache x86 Single-Threaded Leistung zur Verfügung? Ein gigantischer Sprung. Ist schon verdammt attraktiv, so ein Teil dann auch als vollen Prozessor zu verbauen.

Die Kerne basieren auf Silvermont (Atom Z3000), ein Haswell ist da 3-mal so schnell pro MHz: http://anandtech.com/bench/product/1227?vs=1260

Da man wohl annehmen kann, dass die 72 Cores nicht so besonders skalieren sollten unter CPU-lastigen Workloads, dürfte da ein verfügbarer 12/14 Core Haswell durchaus gleichziehen.

Skysnake

2015-03-26, 21:21:52

Das Package sieht für mich aber organisch aus.
Jetzt bei nem zweiten Blick haste Recht. Ich hatte mich da wohl durch die SChwarz"weiß" Aufnahme irritieren lassen. Man sollte einfach nicht unter Zeitdruck seine Meinung zusammen fassen :rolleyes:

transstilben

2015-03-26, 22:27:55

Die Kerne basieren auf Silvermont (Atom Z3000), ein Haswell ist da 3-mal so schnell pro MHz: http://anandtech.com/bench/product/1227?vs=1260

Da man wohl annehmen kann, dass die 72 Cores nicht so besonders skalieren sollten unter CPU-lastigen Workloads, dürfte da ein verfügbarer 12/14 Core Haswell durchaus gleichziehen.

Ich sehe nicht, warum die ATOM Cores nicht ordentlich "skalieren" sollten. In erster Näherung skalieren die genauso gut, wie die Haswell Cores. Insofern sehe ich leichte Vorteile für KNL gegenüber Haswell. Dies wird sich IMHO auch in einer entsprechenden Preisgestaltung niederschlagen :freak:

Skysnake

2015-03-27, 07:23:04

Billig wird das Ding sicherlich nicht.

Die aktuell gezeigte Version ist aber an sich eh nur eine "Schmalspur"-Version. Wirklich interessant wird es mit OmniPath direkt auf dem Package.

Da wird es sehr interessant, wie Intel die Latenzen und Bandbreiten in den Griff bekommt. Skalierungen bis Tb/s sind ja wohl machbar damit. Das wäre dann schon ziemlich heftig.

AnarchX

2015-03-27, 08:55:00

Ich sehe nicht, warum die ATOM Cores nicht ordentlich "skalieren" sollten. In erster Näherung skalieren die genauso gut, wie die Haswell Cores. Insofern sehe ich leichte Vorteile für KNL gegenüber Haswell. Dies wird sich IMHO auch in einer entsprechenden Preisgestaltung niederschlagen :freak:
Wie gesagt ist KNL wohl für andere Workloads gedacht und die Verbindung zwischen den Kernen wohl nicht so effektiv wie bei einem ~18 Core Haswell.

Bei Anandtech ist Haswell ja etwa 3x so schnell wie Silvermont.
72 / 3 (IPC) /2(Takt) = ~12. Und so ein 12 Core Haswell ist definitiv Preisklassen unter einem 72 Core KNL. Aber natürlich dürften entsprechende Benchmarks zum Release interessant sein.

Vielleicht sehen wir nach Skylake vielleicht doch mal die ursprüngliche Planung des Larrabee-Projektes:
4 Big-Cores + 24 LittleCores, in welcher zugleich die GPU abgebildet wird und am besten noch sein ein netten ~256GB/s HMC auf dem Package.

Skysnake

2015-03-27, 09:05:52

Sunrise

2015-03-27, 09:08:31

@AnarchX:
Interessant, danke für den Vergleich.

Dass Haswell nochmal soviel schneller ist, hätte ich jetzt nicht gedacht. Da sieht man mal, was die Zeit für einen Streich mit einem spielt, selbst wenn Intel immer nur minimale Verbesserungen draufgelegt hat.

Das erklärt wohl auch, warum man sich fürs H.264-Encoding eher einen Haswell-E (Skylake wird da sicher endlich mal ordentlich einen draufsetzen), bzw. Dual-Socket Xeon kaufen sollte.

Klar ist aber auch, dass da noch deutlich Steigerungspotential vorhanden ist, u.a. dann, wenn Intel auf 10nm geht.

Wobei das bei Intel, trotz deren Fertigungsvorteil, wohl auch noch bis min. 2017 dauern sollte, und NV dann sicher auch schon Volta am Start hat. Und da der Fertigungsvorteil nun zumindest etwas zu schrumpfen beginnt, wird auch Intel da alles daran setzen, die IPC pro Core stark zu steigern.

Es wird spannend.

AnarchX

2015-03-27, 09:18:47

Der ursprüngliche Plan war praktisch die ganze Grafik in Software zu erledigen, und das werden wir sicherlich nicht zu sehen bekommen. Es macht einfach schon Sinn, Sachen wie Rasterize in Hardware zu bauen.
Bei Intels RnD-Budget kann man vielleicht auch die Mont-Cores, Larabee-Überreste und Gen X Slices mergen. Gerade im Bezug auf Mobile / IoT, wären solche UPUs (Universal Processing Units) vielleicht auch nicht verkehrt.

y33H@

2015-03-27, 16:06:59

Fettest Teil :cool: Package size ~55 x ~85 mmDie HMCs dürften die Variante mit 360 mm² sein.

Skysnake

2015-03-27, 18:00:20

Btw. echt interessant, wieviele Seiten seit meinem Post den Beitrag über KNL auf theplatform.net gefunden haben :rolleyes:

y33H@

2015-03-27, 18:05:21

Ich saß neben Tim in Hillsboro und habe die originalen Hi-Res-Bilder seit vorgestern von ihm ;-)

Skysnake

2015-03-27, 18:43:49

Von dir hat ja auch niemand gesprochen :tongue:

PS:
Dann zähl mal die Pins. Die Auflösung bei theplatform ist zu schlecht, als das man das genau machen könnte. Ich kam wie gesagt auf ~4000 Pins für den Sockel.

PPS:
Gibt es auch Bilder zu OmniPath? Wenn ja NEEEEEEEEEEEEEEEEEEEEEEEEEEEED!

y33H@

2015-03-27, 19:56:21

Groß genug?

http://scr3.golem.de/screenshots/1503/XeonPhi-KnightsLanding/Knights-Landing-02.JPG

iuno

2015-03-28, 01:34:38

4000 sollten denke ich etwas zu viel sein, ich komme nur auf ~3600, wobei gut möglich ist, dass einige Nachbarn nur einzeln gezählt werden. Das Bild ist nicht ganz ideal

Nightspider

2015-03-28, 01:40:31

Gibts das Ding auch als PhysX-Beschleuniger zu kaufen? :ulol:

basix

2015-03-28, 19:43:06

Groß genug?

http://scr3.golem.de/screenshots/1503/XeonPhi-KnightsLanding/Knights-Landing-02.JPG

Schönes Stück. Kann man sicher auch sehr gut als Briefbeschwerer verwenden :biggrin:

transstilben

2015-03-29, 22:19:45

Schönes Stück. Kann man sicher auch sehr gut als Briefbeschwerer verwenden :biggrin:

Diese Art von "Briefbeschwerern" gab es schon vor 20 Jahren. Insofern beeindruckt mich die schiere Größe des Package nicht die Bohne. Trotzdem, wenn das Ding hält, was es verspricht ist es gekauft. :freak:

Skysnake

2015-03-30, 07:06:07

Wenns rein darum geht, dann ist selbst das Package im Vergleich zu dem eines Power8 MCM in ner zMachine noch winzig. Darum geht es doch aber nicht. Man muss es ja immer im Vergleich sehen.

Die alten Packages hatten ja eine viel niedrigere Pindichte als die heutigen, bzw das von IBM wird ein vielfaches von dem von KNL kosten.

Das größte mir bekannte Package steht bei uns in nem Institut. Da wird direkt der komplette Wafer eingebaut ;D

transstilben

2015-04-08, 09:16:05

Um die Wartezeit auf eigenes Silizium zu verkürzen, kann Frau sich schon mal mit dem Intel Software Emulator beschäftigen:
https://software.intel.com/en-us/articles/intel-software-development-emulator
Der kennt KNL schon eine Weile. :) Und nein, das ist kein April-Scherz.

y33H@

2015-04-08, 12:07:33

72 Kerne bestätigt (Seite 24).

https://intel.lanyonevents.com/sz15/connect/fileDownload/session/23562B1D7A0F5BACF173CC721DA1655F/SZ15_SFTS003_100_ENGf.pdf

transstilben

2015-04-09, 00:11:46

Wie sieht's mit dem Takt aus ? Ich denke 2 GHz ist wahrscheinlich zu optimistisch ? Gehen wir mal von sagen wir 240 Watt aus für 72 Kerne. Irgendwo muss ja die sagenhafte Energieeffizienz herkommen ;-)

y33H@

2015-04-09, 08:53:45

Bei 3+ DP-TFLOPS und 72C bräuchte es etwa 1,3 GHz.

Skysnake

2015-04-09, 13:15:26

Sollten es nicht 2.6 GHz sein?

3000GFlop/s/72/2/8Flop=2.6GHz

72 Cores, wobei jeder Core ja zwei AVX Einheiten hat, und jede AVX Einheit kann 8 DP Ops pro Takt ausfuehren. HT/SMT bringt da in dieser Betrachtung ja rein gar nichts. Das ist ja nur dafuer da, die Auslastung zu erhoehen.

transstilben

2015-04-09, 14:24:34

Meine Rechnung geht eher in die Richtung: (240 W - x) / 72 gibt ~ 3 W/Core. Wie hoch kann ich einen 14nm KNL-Silvermont Kern takten, damit er damit hinkommt ? Ich geb mal einen "educated guess" ab: > 1,66 GHz

y33H@

2015-04-09, 14:27:57

Beachte die HMCs und Platine samt Wandlern etc, zudem dürfte es auch 300W-Modelle geben. Oder sind die 240W bereits rein auf den Chip bezogen?

mksn7

2015-04-09, 18:10:03

Knights Corner hat ein FMA pro Takt, mit zwei FMA pro Takt braucht Knights Landing nur 1.3 GHz für 3 TFlops.

Skysnake

2015-04-09, 18:55:34

Ah stimmt sorry, FMA habe ich total vergessen -.-

Dann kommt man wirklich auf 1.3 GHz.

y33H@

2015-04-09, 19:14:56

Technisch ginge wohl auch 2,6 GHz - aber dann würde so ein Teil wohl 800 Watt saufen ^^

transstilben

2015-04-09, 20:23:55

Knights Corner hat ein FMA pro Takt, mit zwei FMA pro Takt braucht Knights Landing nur 1.3 GHz für 3 TFlops.
Hoffen wir mal, das KNL nicht im Falle von massivem FMA anfängt aus thermischen Gründen den Takt zu reduzieren, wie Haswell. :freak:
Insofern ist die theoretische Peakleistung bzgl. FMA hier evtl. etwas irreführend. Etwas mehr als die 1.3 GHz von KNC erwarte ich schon ;)

dildo4u

2015-04-10, 13:23:10

Aurora Supercomputer ab 2018 mit Knights Hill.

http://www.computerbase.de/2015-04/intel-aurora-schnellster-supercomputer-mit-180-petaflops-leistung/

Skysnake

2015-04-10, 19:20:19

Wird nicht der Einzige bleiben. Intel baut KNL/KNH ja nicht zum Spaß.

transstilben

2015-04-10, 23:16:47

Aurora Supercomputer ab 2018 mit Knights Hill.
...

Ganz ehrlich: Bis KNL in voller Schönheit käuflich zu erwerben ist, wird es noch ein gutes Weilchen dauern, was juckt mich da KNH "ab 2018" ? :freak:
Außerdem muss ich bei "Aurora" an eine billige Margarine denken. ;D
Am Anfang von KNC war dessen Lieferbarkeit sehr bescheiden. Wahrscheinlich haben die Chinesen alle aufgekauft vor dem drohenden Embargo. :biggrin:
Wenn ich mir diesbezüglich E5-2699v3 so anschaue, glaube ich nicht, dass es da mit KNL am Anfang besser aussehen wird.

transstilben

2015-04-26, 21:24:38

what disclosures has Intel made about Knights landing (https://software.intel.com/en-us/articles/what-disclosures-has-intel-made-about-knights-landing)

y33H@

2015-04-26, 23:09:56

Errrm, November 25, 2014.

DavidC1

2015-04-28, 00:06:21

Bei Anandtech ist Haswell ja etwa 3x so schnell wie Silvermont. 72 / 3 (IPC) /2(Takt) = ~12. Und so ein 12 Core Haswell ist definitiv Preisklassen unter einem 72 Core KNL. Aber natürlich dürften entsprechende Benchmarks zum Release interessant sein.

Difference is less though. When you link back to the benchmark, in Single Thread the difference is 3-5x.

That'd due to Haswell having Hyperthreading. KNL cores have 4-way SMT. Also, they specifically note that KNL cores are an "enhanced Silvermont core" for HPC with double the OoO resources and better branch prediction.

Of course, you do still have a point in that its much more specialized due to having 3x+ Flops DP and high BW near memory.

Leaks say SKUs range in TDP from 160-215W. I think the realistic DP Flops peak for the SKU would turn out to be the 215W with 15 DP Flops/watt at 3.2TFlops.

transstilben

2015-04-30, 19:13:32

Warum braucht man für die "fabric" eigentlich 0.8 Milliarden Transistoren (~ 10 %) ? Ist das nicht arg viel ? Mal angenommen ich habe n kooperierende KNL, was treiben die dann den ganzen Tag ?

Skysnake

2015-05-20, 08:24:43

Ailuros

2015-05-20, 09:49:45

http://insidehpc.com/2015/05/thinkmate-offers-free-xeon-phis-with-your-server/
Intel scheint wohl noch zu viele XeonPhis auf Lager zu haben, und will diese nun anfangen zu leeren. KNL wird dann wohl nicht mehr all zu weit entfernt sein.

Das ist die eine Perspektive; Tatsache ist dann eher dass Intel noch einen Markt hat in dem sie verzweifelt mir nichts dir nichts Marktanteile verdammt teuer einkaufen. Die Phis haben wohl doch nicht die Baeume ausgerissen die so manche erwartet haben; mal sehen wie viel Unkraut KNL am Ende pfluecken kann denn das Baeume ausgerissen werden glauben wohl doch nicht mehr so viele am Ende....

Skysnake

2015-05-20, 18:42:43

KNL haut erst so richtig mit OmniPath rein, und das wird sicher nicht gleich kommen, sondern irgendwann. Würde mich nichtmal überraschen, das 2015 gar nicht mehr zu sehen.

transstilben

2015-05-20, 19:02:21

KNL haut erst so richtig mit OmniPath rein, und das wird sicher nicht gleich kommen, sondern irgendwann. Würde mich nichtmal überraschen, das 2015 gar nicht mehr zu sehen.
Irgendwann sind wir alle tot.:freak: irgendwann is always true.

Coda

2015-05-20, 19:04:34

Warum braucht man für die "fabric" eigentlich 0.8 Milliarden Transistoren (~ 10 %) ? Ist das nicht arg viel ? Mal angenommen ich habe n kooperierende KNL, was treiben die dann den ganzen Tag ?
Cache Coherency und Bandbreite. Ist nicht verwunderlich.

Ailuros

2015-05-20, 22:48:22

Irgendwann sind wir alle tot.:freak: irgendwann is always true.

Bis man irgendwann einsieht dass die Konkurrenz doch nicht zu untersschaetzen ist und man irgendwann wieder hw verschenkt, weil sich irgendwie manche zu viel erhofft haben.

transstilben

2015-05-25, 14:45:54

Bis man irgendwann einsieht dass die Konkurrenz doch nicht zu untersschaetzen ist und man irgendwann wieder hw verschenkt, weil sich irgendwie manche zu viel erhofft haben.
Vor 4 Jahren hätte ich das Gratis-Angebot für KNC sexy gefunden und wahrscheinlich angenommen. Aus heutiger Sicht sieht das anders aus. Wenn Intel nicht langsam mal in die Pötte kommt, gibt das ne BruchLandung. :freak:
Das Gesetz der unaufhaltsamen zeitlichen Fortschreitung ist omnipräsent, um es mal mit Intels Worten zu sagen ... ;D

Skysnake

2015-05-25, 15:56:13

Gibt jetzt auch ne Folie, laut der KNL wohl erst Ende 2015 Anfang 2016 kommt...

Ich hoffe dabei bleibt es dann wirklich endlich mal...

Laut der Roadmap (http://www.computerbase.de/2015-05/intel-skylake-ep-ex-28-kerne-sechs-channel-ram-avx-512-und-upi/), gibt es aber immerhin direkt OmniPath. Damit hätte ich jetzt nicht gerechnet.Zumindest verstehe ich die "integrated Fabric" dahingehend.

Ansonsten muss ich meinem Vorredner Recht geben. Intel muss jetzt dann wirklich mal in die Pushen kommen... Wann sollte das Ding ursprünglich kommen? Anfang 2015 oder gar 2014 noch???

tdon

2015-05-25, 16:02:54

Wann sollte das Ding ursprünglich kommen? Anfang 2015 oder gar 2014 noch???

Der Plan war 2015, wurde später auf H2 2015 konkretisiert, auch offiziell seit einem Jahr (ISC 2014).

Sunrise

2015-05-25, 16:04:45

Gibt jetzt auch ne Folie, laut der KNL wohl erst Ende 2015 Anfang 2016 kommt...
Das wird nur der offizielle Termin für alle sein, aber nicht für Systeme, bei denen KNL schon fest eingeplant wurde. Es hieß die ganze Zeit, dass Intel für Großprojekte und Aufträge bereits deutlich früher liefert.

Laut der Roadmap (http://www.computerbase.de/2015-05/intel-skylake-ep-ex-28-kerne-sechs-channel-ram-avx-512-und-upi/), gibt es aber immerhin direkt OmniPath. Damit hätte ich jetzt nicht gerechnet.Zumindest verstehe ich die "integrated Fabric" dahingehend.
Hm, das stand doch schon auf den letzten Folien vor Monaten drauf?!

Ansonsten muss ich meinem Vorredner Recht geben. Intel muss jetzt dann wirklich mal in die Pushen kommen... Wann sollte das Ding ursprünglich kommen? Anfang 2015 oder gar 2014 noch???
Bitte?! 2014? Seit wann denn das? Wie soll denn das gehen, wenn das Ding auf 14nm geplant war? Man hatte ja Probleme mit 14nm, dadurch werden sich die Pläne mit KNL sicher etwas nach hinten verschoben haben. Das Ding war aber nun seit Monaten schon für Q3/15 avisiert, plus minus ein paar Monate.

Da Intel die Dinger aber sowieso größtenteils nur fertigt, weil sie bereits feste Aufträge mit mehreren Tausend Stück haben, wird von dem Ding doch sonst sowieso niemand groß Gebrauch machen.

NV baut GP100 und GV100 doch auch primär erstmal nur für Großprojekte (so früh als möglich, für horrende Preise), verkauft die Dinger dann aber zusätzlich noch im Desktop erst Monate später, aufgrund der festen Lieferverträge zusammen mit IBM. Das ist bei Intel eigentlich nicht anders, nur sind die Dinger mal locker um ein Vielfaches teurer, während NV sämtliche Grafik-relevanten Bereiche zusätzlich bedienen kann, mit etwas Verzögerung. Und rein von der Leistung wissen wir schon die ganze Zeit, wird NV sich nicht verstecken müssen, vor allem wenn Intel bei Knights Hill wieder ähnlich lange braucht. Intel hat ja die Vorteile ganz klar woanders, dass sie alles aus einer Hand anbieten können (Beschleuniger, Fabric, CPUs, etc.)

Skysnake

2015-05-25, 16:16:35

Ich meinte Ende 2014 ;) Also kurz vor Q1/15.

Es gibt ja auch wohl schon seit einiger Zeit inzwischen Samples von KNL. Da ist es unverständlich, warum man fast bis 2016 braucht, um die wirklich zu bringen, wobei der Einwand mit den Großaufträgen richtig ist. Zu SC15 in Austin im November sollten zumindest die aber ausgeliefert sein. Sprich man müsste spätestens Ende Q3 damit anfangen. Es dauert ja auch seine Zeit große Systeme auf zu bauen, und in Betrieb zu nehmen.

tdon

2015-05-25, 16:35:31

Herr Doktor Klöbner

2015-05-25, 16:53:47

fondness

2015-05-25, 17:42:18

Ich frage mich bei diesen Produkten halt immer ob Intel die richtige Strategie hat.

Auf dem Markt der X86 Prozessoren hat Intel keine Konkurrenz, eine Bedrohung der Marktposition sieht Intel aus anderen Richtungen: Im Mobilsegment durch ARM im HPC Bereich durch Nvideas Tesla Karten.

Und Intel reagiert auf beide Bedrohungen gleich: Man drückt mit irrem Aufwand X86 in dafür nicht geeignete Marktsegmente, ich denke mit einem Einstieg in den ARM Bereich und einer komplett neu designten GPU wäre man effektiver unterwegs.

Das interessiert doch bei Intel keinen, x86 steht nicht zur Disposition. Wenn ein Problem erkannt wird, dann wird Geld drauf gepumpt bis die anderen kapitulieren müssen. Wenn man kurzfristig nicht reagieren kann nutzt man eben seine Marktmacht aus um den Konkurrenten auszubremsen.

Skysnake

2015-05-25, 17:46:16

Bei Intel gibt es Samples immer lange im Voraus, wo da die Besonderheit bei KNL liegt weiß ich nicht. Ich habe mich schon immer gewundert, dass du von H1 2015 ausgingst, obwohl Intel selber schon lange von H2 2015 spricht.
Weil es Samples an sich schon "lange" gibt, und auch schon einige Zeit Samples für den "Normalo".

Ich ging davon aus, das man zur ISC dann irgend einen Bumsfallara HPC-Cluster ausstattet für gute Werbung, also noch in H1/15 und dann in H2/15 auch "normale" Kunden dann die Dinger bekommen können.

So siehts aber eher danach aus, das man gerade so noch zur SC Cluster ausrüstet, also Ende Q3 Anfang Q4 und dann erst Ende H2/15 bzw. eher Anfang Q1/16 dann die "normalen" Kunden bedient.

Ailuros

2015-07-14, 11:34:28

https://semiaccurate.com/2015/07/13/intel-talks-bit-omnipath-tech/

In short it looks like Intel has another dog on their hands. They are again playing the classic game of ‘hide the turkey’ while trying to get the press to repeat the glorious highs of the ‘tech’ and it’s ‘class leading’ features’ they won’t tell you about. It is being force bundled onto their CPUs so it will succeed in the market, but not likely because it is a good technology. On the up side they did disclose vastly more on it this time around, so I think we are making progress. That and they finally admitted that Knights Landing has 72 cores.

:biggrin:

Skysnake

2015-07-15, 08:57:02

Ja, auf der ISC haben Sie KNL auch nicht gezeigt, und auch zu OmniPath hat man nichts gesehen. Die Leute waren insgesamt auch überhaupt nicht gesprächig.

Eventuell hat man bei Intel im NDA room mehr gezeigt, da war ich nicht, und dürfte wenn auch nichts sagen.

Das Gefühl, das Intel sich verhoben hat wird aber immer stärker. Mal schauen, ob wir KNL in Q3 überhaupt noch sehen. OmniPath erwarte ich ehrlich gesagt nur noch 2016, und da auch nicht gleich.

Ailuros

2015-07-15, 11:34:21

Es sollte Dir ausreichen zu wissen dass das Ding 72.... *spuck* 71 Kerne hat ;D

Skysnake

2015-07-15, 12:49:20

Pft. Als ob die Anzahl der Kerne sooo wichtig wäre.

Wenn die das Problem hätten, einfach nur keine vollständig funktionstüchtigen Chips zu bekommen, aus welchen Gründen auch immer, und man eine neue Revision brüchte, dann wäre das erstmal egal. Dann bringt man halt einen Chip, in dem 1,2 oder auch 4 Kerne deaktiviert sind. Das ist nichts, was ein Produkt zum Flop werden lassen darf.

Da scheint weitaus mehr im Argen zu liegen, als nur die Kernanzahl....

transstilben

2015-07-23, 23:48:07

In Ermangelung von aktuellen Info's sowie käuflich erwerbbarer Adam & Eva Boards blicken wir auf nicht mehr ganz aktuelle Folien
http://www.inteldevconference.com/wp-content/uploads/2015/05/Day1_Intel_Processor_Update.pdf
... und denken uns unseren Teil hinzu ...

tdon

2015-07-24, 00:12:38

Das Gefühl, das Intel sich verhoben hat wird aber immer stärker. Mal schauen, ob wir KNL in Q3 überhaupt noch sehen. OmniPath erwarte ich ehrlich gesagt nur noch 2016, und da auch nicht gleich.

Na ja kann auch sein das sich wegen 14nm alles verschoben hat. KNL ist nochmal eine ganz andere Größe als Skylake-S GT2 oder BDW-H GT3. Du bist aber auch von Anfang an zu optimistisch gewesen. Als H2 2015 längst bekannt war, bist du noch von H1 2015 ausgegangen.

transstilben

2015-07-24, 00:30:46

http://www.nersc.gov/assets/Uploads/Preparing-Software-for-KNL-ISC15-IXPUG-Keynote.pdf

Skysnake

2015-07-24, 03:56:26

Na ja kann auch sein das sich wegen 14nm alles verschoben hat. KNL ist nochmal eine ganz andere Größe als Skylake-S GT2 oder BDW-H GT3. Du bist aber auch von Anfang an zu optimistisch gewesen. Als H2 2015 längst bekannt war, bist du noch von H1 2015 ausgegangen.
Ich würde jetzt echt gern etwas dazu sagen, aber das kann/darf ich leider nicht....

Schau dir aber einfach mal an, wie lange Intel schon Muster verteilt usw. Das sieht nicht aus, als ob es rund läuft.

tdon

2015-07-24, 13:26:16

Schau dir aber einfach mal an, wie lange Intel schon Muster verteilt usw. Das sieht nicht aus, als ob es rund läuft.

Intel verteilt schon immer sehr lange im Voraus Muster, schon bei Consumer CPUs. Bei einer so komplexen Architektur und sensiblen Infrastruktur wie KNL wahrscheinlich noch länger im Voraus. Unzureichende 14nm yields kommen noch hinzu. Ich meine es ist schon klar, dass KNL wahrscheinlich ein Quartal früher kommen sollte Minimum, die Besonderheit sehe ich darin nicht. Diese Verschiebung gibt es immer.

Skysnake

2015-07-24, 16:27:17

Die Frage ist eben nur, wie lange die Verschiebung dann wirklich ist, und wie viele Verschiebungen es gab/gibt....

Ailuros

2015-07-25, 14:37:36

Die Frage ist eben nur, wie lange die Verschiebung dann wirklich ist, und wie viele Verschiebungen es gab/gibt....

Verschiebungen gibt es bei fast allen heutzutagen hauptsaechlich weil die Prozesse zu "empfindlich" geworden sind. Intel hat bezueglich Prozessen immer noch den Vorteil, macht aber fuer ihre LRB Enkelkinder bis jetzt immer noch keinen sehenswerten Unterschied fuer perf/mm2, perf/W und perf/$. KNL ist/war wohl auch etwas zu "optimisch" projeziert, jetzt liegen alle Hoffnungen auf dem KNL Successor....(klingt verdammt bekannt....)

Skysnake

2015-07-25, 23:08:17

/sign
Die Frage ist nur immer, stimmt das Design an sich nicht, oder hat man die Früchte sich selbst einfach mit überzogenen Vorstellungen zu hoch gehängt? Das wird sehr spannend zu sehen sein, denn selbst wenn KNL schlechter wird als prognostiziert, kann er noch immer gut sein.

Spannend wird wie schon mal gesagt vor allem OmniPath.

y33H@

2015-08-26, 09:41:32

KNL hat 76 Kerne bzw 152 AVX-VPUs:

http://www.golem.de/news/xeon-phi-knights-landing-verfuegt-ueber-76-kerne-1508-115944.html

Skysnake

2015-08-27, 12:46:39

Und wie OmniPath angebunden ist an KNL, sollte dann jetzt wohl dank dem Bild 14 in eurer News dann wohl auch klar sein ;) Man sollte auch das kleine (*) anmerken. Da steht zwar 2x 16 PCIe , aber wirklich PCIe ist das dann zumindest in dem Betriebsmodi auch nicht mehr.

Die Omni-Path Fabric scheint aber wirklich quasi die Minimallösung geworden zu sein. Schade eigentlich.

Das man so spät jetzt aber kommt ist echt hart. Wer rechnet wirklich noch damit, das "Ottonormal"-User das Ding noch 2015 kaufen kann? Wenn werden wohl 2015 noch an ausgewählte Kunden welche gehen und das wars dann auch. Freier Verkauf dann erst ab 2016.

Tja, dann sind die Yields wohl noch immer nicht hoch genug.

Skysnake

2015-09-01, 19:11:55

Es gibt jetzt endlich mal nähere Infos zu OmniPath zusammen mit ein paar Leistungsdaten.

http://insidehpc.com/2015/09/intel-omni-path-white-paper-details-technology-improvements/

Loeschzwerg

2015-09-17, 19:49:10

Xeon Phi x200 products will be available in Q3 2016. These parts will use "Knights Landing" design.

http://www.cpu-world.com/news_2015/2015091601_Launch_schedule_of_Intel_Xeon_processors.html

y33H@

2015-11-16, 23:31:23

Was ein krass fettes Teil:

53937

https://twitter.com/XeonPhi/status/665925232343932929

http://www.intel.com/newsroom/kits/scc/2015/gallery/images/KNL_DiePhotoHires.jpg

Agent117

2015-11-17, 02:13:49

Na wenn ich mir den Verschnitt anschaue erscheint es ja fast als sinnvoll mal darüber nachzudenken DIEs im Kreisraster zu designen und auf dem Wafer anzuordnen:biggrin:

Loeschzwerg

2015-11-17, 09:31:51

Ziemlich dicker DIE :cool: 76 möglich Kerne.

Godmode

2015-11-17, 09:36:08

Hat das Ding wirklich nur 7 Mrd. Transistoren?

Loeschzwerg

2015-11-17, 09:49:26

Ja, sind anscheinend nur 7,2 Mrd. Ziemlich schlechte Dichte bei den spekulierten ~700mm².

Hallo

2015-11-17, 10:46:52

Wäre dieses Ding RT tauglich? Realtime natürlich... ohne Artefakte@60fps... Grafik sollte natürlich besser sein als heutige High-End Rasterizer GPUs.

Und was heisst Ram auf dem gleichen Substrat? Die oder "nur" die Epoxy Platine.

Loeschzwerg

2015-11-17, 11:02:12

Der Speicher sitzt auf dem organischen Träger.

Hallo

2015-11-17, 11:03:27

Also auf der Platine, nicht auf dem Die. Richtig?

Loeschzwerg

2015-11-17, 11:05:01

Jup.

http://www.eweek.com/imagesvr_ce/8194/290_IntelKnightsLanding.jpg (wobei hier noch kein Speicher bestückt ist)

Hallo

2015-11-17, 11:08:05

Danke für die schnelle Antwort und das klasse pic. Sieht echt bös' aus.

Hmm, wieso nicht gleich auf dem Die (ja die Kosten...und Intel hat kein Geld ;) )

Aber voller CPU Speed ala 1st Lv Cache wäre wirklich mal ne Ansage.

Edit Power8: http://www.overclock.net/content/type/61/id/1993795/width/500/height/1000/flags/LL

Und der Power7: https://upload.wikimedia.org/wikipedia/commons/thumb/1/1f/Power5.jpg/220px-Power5.jpg

Frage mich wie IBM mit Intel konkurrieren kann...

Ailuros

2015-11-18, 06:46:18

Ja, sind anscheinend nur 7,2 Mrd. Ziemlich schlechte Dichte bei den spekulierten ~700mm².

1. Mal absehen ob es erstmal wirklich 700mm2 sind.
2. Egal ob 500,600 oder 700 es kann nur Absicht (bzw. eine bewusste design-Entscheidung) seitens Intel sein.
3. Ich bin ehrlich auf den Stromverbrauch gespannt. Verbraucht KNL bei sagen wir mal 3TFLOPs dann nur noch 200W, dann Hut ab und dafuer kann man sehr gerne N mehr die area opfern ueberhaupt als Intel.

Im jeden anderen Gegenfall kauft man sich eben eher frische Erdbeeren stattdessen:

http://www.fudzilla.com/media/k2/items/cache/61791d192bca5de4f35ef6492e924078_L.jpg

http://www.fudzilla.com/news/processors/39262-knights-landing-lands

:biggrin:

Skysnake

2015-11-18, 19:47:32

Was ein krass fettes Teil:

53937

https://twitter.com/XeonPhi/status/665925232343932929

http://www.intel.com/newsroom/kits/scc/2015/gallery/images/KNL_DiePhotoHires.jpg
Naja , dass das Ding so groß ist, war doch an sich schon lange bekannt. Das Bild mit dem fehlenden Speicher gibt es ja schon lange, genau wie das Bild vom Sockel usw.

Ich bin nun aber endgültig der Meinung, dass Sie sich doch an dem Ding verhoben haben, was echt traurig ist, wenn man bedenkt welche Ressourcen Intel auf das Problem schmeisen kann...

Danke für die schnelle Antwort und das klasse pic. Sieht echt bös' aus.

Hmm, wieso nicht gleich auf dem Die (ja die Kosten...und Intel hat kein Geld ;) )

Aber voller CPU Speed ala 1st Lv Cache wäre wirklich mal ne Ansage.

Edit Power8: http://www.overclock.net/content/type/61/id/1993795/width/500/height/1000/flags/LL

Und der Power7: https://upload.wikimedia.org/wikipedia/commons/thumb/1/1f/Power5.jpg/220px-Power5.jpg

Frage mich wie IBM mit Intel konkurrieren kann...
Naja, IBM macht ja jetzt auf OpenPower. Da kommt halt ein organisches Substrat besser an als ein cheramisches. Kosten Kosten Kosten.

Ansonsten hat es wohl "einfach" gereicht für das was Sie wollten. Hatte da neulich ein nettes Gespräch mit nem IBM-Entwickler. Das heist aber nicht, das man das in Zukunft nicht wieder ändert, sofern die Konkurrenz weiter dick auf den Tisch haut.

PS:
Ailuros das Bild ist genial :up:

tdon

2015-11-19, 20:49:25

http://www.anandtech.com/show/9802/supercomputing-15-intels-knights-landing-xeon-phi-silicon-on-display

Dort gibt es noch mehr Bilder.

Hat das Ding wirklich nur 7 Mrd. Transistoren?

Das ist nicht sicher.

Relating this to transistor counts, we have a differing story of Charlie Wuischpard (VP of Intel’s Data Center Group) stated 8 billion transistors to us at the briefing but there are reports of Diane Bryant (SVP / GM, Data Center Group) stated 7.1 billion at an Intel Nov ’14 investor briefing,

neustadt

2015-11-19, 21:55:36

http://www.intel.com/newsroom/kits/scc/2015/gallery/images/KNL_DiePhotoHires.jpg

Mal so ein paar Noob-Fragen zur Fertigung:

Die kleinen Punkte (die micro bumps?) entlang der Ränder: Sind das die Verbindungen zum Interposer?

Wenn ja: Nutzt man die beiden Flächen wo nur die Leitungen der Memory Controller zu sehen sind nicht, weil
a) es nicht zur Architektur passt? (Kerne müssen im Doppelpack kommen)
b) die Leitungen zu den MCs alle Schichten des Siliziums benötigen?

oder sind die Leitungen selbst Schnittstellen zum Interposer?

Oder alles Quatsch? :uconf2:

transstilben

2015-11-21, 17:28:24

Es sieht ja fast so aus, als täte sich mal langsam was. Ein schönes Board mit 1 bis 2 KNL unterm Weihnachtsbaum, das wäre doch was. Traum Ende. Vielleicht dann nächsten Jahr...
board bilder bei anandtech (http://www.anandtech.com/show/9802/supercomputing-15-intels-knights-landing-xeon-phi-silicon-on-display)

Hallo

2015-11-23, 18:14:53

Moment der untere Trümmer ist "nur" ein Co-Prozessor?

Ich hätt echt Angst vor den Teilen.

http://images.anandtech.com/doci/9802/wm%20Packages.jpg

Und noch 'ne Frage, sind die Dies auf dem Wafer verbunden? Sprich neun rauslasern, SI anpassen und schwupps? Spart man sich den Multisockel Mainboard"kram". Oder besser noch gleich komplett nen SOC draus machen mit externem HBM2, Rest alles drine.

Skysnake

2015-11-23, 19:42:56

Nein die sind nicht verbunden. Das sind ganz normale Chips wie nen stink normaler Xeon/Core-i.

KNL soll nur eben kein QPI bieten, womit man eben keine Multi-Sockel Nodes bauen kann. 1Chip = 1 System bei KNL. Zumindest wurde das so schon gesagt.

Ich frage mich dann allerdings, warum man den gleichen Sockel verwendet wie die Xeons, die werden ja hoffentlich auch weiterhin QPI bieten, oder etwa nicht? :ugly:

kdvd

2015-11-23, 23:40:45

Irgendwie hab ich den Eindruck, dass Intel sich mit solchen Monsterchips verrennt.

Ailuros

2015-11-24, 06:46:25

Irgendwie hab ich den Eindruck, dass Intel sich mit solchen Monsterchips verrennt.

Wieso? Die KNL chips sind zwar Flaechen-maessig riesig, aber die Packdichte bzw. Anzahl der Transistoren ist fuer den benutzten Prozess laecherlich gering. Gross heisst nicht unbedingt gleich dass ein chip auch kompliziert ist. Je geringer die Packdichte je hoeher die Chance (unter normalen Bedingungen) dass es eine absichtliche design-Entscheidung ist welches jegliches Risiko minimalisiert und auch sehr gut Strom sparen kann.

BlackBirdSR

2015-11-24, 07:30:12

Macht es euch doch nicht so schwer.
Was wird KNL tun? Arbeiten.
Wie ein mobiler Chip von ARM mit Throttling nach 2 Minuten ? Nein!
KNL wird zu 100% ausgelastet sein und das für Stunden am Stück.
Und was muss man dann machen? Viel Platz und warmekapazitat zur Ableitung der Wärme ins Substrat und den obersten layer schaffen. Also Packdichte runter, metal layer vereinfachen.

Wieso? Die KNL chips sind zwar Flaechen-maessig riesig, aber die Packdichte bzw. Anzahl der Transistoren ist fuer den benutzten Prozess laecherlich gering. Gross heisst nicht unbedingt gleich dass ein chip auch kompliziert ist. Je geringer die Packdichte je hoeher die Chance (unter normalen Bedingungen) dass es eine absichtliche design-Entscheidung ist welches jegliches Risiko minimalisiert und auch sehr gut Strom sparen kann.

y33H@

2015-11-24, 11:16:17

KNL soll nur eben kein QPI bieten, womit man eben keine Multi-Sockel Nodes bauen kann.Intels François Piednoël, Senior Performance Analyst, sagte KLN hat QPI.

Skysnake

2015-11-24, 23:32:52

Dann sollte man das besser nochmals aufgreifen, denn auf insidehpc (?) oder so, war zu lesen, das es nur Single-Node KNLs geben würde, da QPI fehlt.

Eventuell finde ich nochmals Zeit, das raus zu suchen. Ich bin mir aber 100% sicher, das es derartige Aussagen gab.

transstilben

2015-11-30, 22:27:16

X200 @ Supermicro.nl (http://www.supermicro.nl/newsroom/pressreleases/2015/press151116_SMCI_Intel_OPA_KNL_SSF_Solutions.cfm)
Wird langsam Zeit das Sparschwein zu mästen ;D

HPVD

2015-12-01, 06:24:03

eine Zusammenfassung und hübsche Bilder sowie etwas über eine neue Variante ohne onboardMemory http://www.nextplatform.com/2015/11/30/inside-future-knights-landing-xeon-phi-systems/

Skysnake

2015-12-01, 20:41:30

Danke für den Link, bin gerade erst dazu gekommen, ihn zu lesen.

Ist ja echt der Hammer, was man da liest

as they prepare to ship production systems concurrent with Intel’s volume shipments for Knights Landing, now set for an unspecified time during the first half of 2016

Intel hat sich echt definitiv mit KNL übernommen. Jetzt soll volume shipment sogar erst irgendwann H1/16 kommen, und da reden wir sicherlich noch nicht mal direkt von der Version mit integriertem OmniPath. Das Ding soll ja eh schon länger bekannt erst später kommen.

Das ist echt traurigerschreckend, was Intel da abzieht.

AffenJack

2015-12-01, 21:44:18

fondness

2015-12-01, 22:46:36

Intel hat ja selbst ganz klar gesagt, dass die Yields mit 14nm nach wie vor klar unter den eigenen Erwartungen und Zielen liegen.

Skysnake

2015-12-01, 23:26:59

Jo, die Aussage gabs schon auf der SC 15. Ich bin mir aber unsicher ob es wirklich an KL liegt. Es könnte auch sein, dass man KL schlicht und einfach nicht unter 14nm fertigen kann im Moment. Die Yields sind schlecht, man schafft es nichtmal genug CPUs mit guter Yield zu fertigen und das sind gerademal 100-150mm² DIEs. Wenn es da schon Yieldprobleme gibt, wie will man bitte nen >600mm² Chip fertigen.
Natürlich liegt es dann an KNL. Wenn man einen chip designt, dann macht man das nie im luftleeren Raum, sondern immer mit dem jeweiligen Prozess im Hinterkopf....

Das Design ist halt einfach unbrauchbar mit dem Prozess wie es scheint, einfach weil es viel zu fett geworden ist. Das muss sich Intel schon selbst zuschreiben, denn Sie entwickeln ihre Prozesse selbst und sollten daher wissen, was geht und was nicht. Wenn man da eben nen Griff ins Klo macht und sich verschätzt bei der Entwicklung des Prozesses, dann muss man die Konsequenzen auch tragen.

Ein 500mm² Chip hätte es sicherlich auch getan für die nächste Gen. Lieber schneller einen Refresh bringen.

Ansonsten scheint der onPackage Speicher aber auch nicht ganz unproblematisch zu sein, genau wie OmniPath. Ansonsten würde es nämlich keine Version ganz ohne MCDRAM geben :freak:

Das muss man sich mal vorstellen, die wollen den teils komplett weglassen. WTF!

Skysnake

2016-04-14, 10:11:18

Man kann jetzt DevKits für KNL kaufen:

http://www.hpcwire.com/2016/04/12/intel-debuts-knights-landing-developer-platform/

Ich hoffe mal, das ich in absehbarer Zeit so eine Kiste in die Finger bekomme. Wenn ja berichte ich mal.

iuno

2016-05-21, 13:04:24

Beachte die HMCs und Platine samt Wandlern etc, zudem dürfte es auch 300W-Modelle geben. Oder sind die 240W bereits rein auf den Chip bezogen?
Wo kommen die 240 Watt her?
tdon behauptet im Vega Thread eine Angabe von 160-200 Watt sei offiziell (!) verlautbart worden. Ich habe dahingehend nichts gehoert.
Eine 200W TDP (160-200) bei 14-16 GFLOPS/Watt steht schon lange im Raum, sogar offiziell.
Gibt es da noch keine Infos bzgl. der ersten Testsysteme?

tdon

2016-05-21, 14:17:41

http://fs5.directupload.net/images/160521/kafb6nr5.png

http://fs5.directupload.net/images/160521/wpu6kmjj.png

http://fs5.directupload.net/images/160521/4pn7y26c.png

http://fs5.directupload.net/images/160521/w8cv2ni9.png

http://www.hotchips.org/wp-content/uploads/hc_archives/hc27/HC27.25-Tuesday-Epub/HC27.25.70-Processors-Epub/HC27.25.710-Knights-Landing-Sodani-Intel.pdf
http://www.pcgameshardware.de/Xeon-Phi-Hardware-256199/News/Intel-Xeon-Phi-Knights-Landing-Folien-aufgetaucht-1099030/

Sunrise

2016-05-21, 16:53:55

Waren da nichtmal 300W im Gespräch? Die 200W überraschen mich etwas. Warum wird die TDP auf einmal so konservativ angegeben?

Die 200W sind eine Ansage, aber da hätte man auch mehr rausholen können, wenn das auf die peak sustained Leistung bezogen ist.

fondness

2016-05-21, 17:11:34

Vor allem steht da Nvidia mit ihrem 300W GP100 auf einmal ziemlich an der Seitenlinie.^^

dildo4u

2016-05-21, 17:14:55

Was soll daran gut sein der Vorgänger hatte 300 Watt TDP,die ganzen Racks sind also schon drauf ausgelegt.Da wird einfach Potenzial verschwendet.Und hat GP100 nicht 5 TF DP?

AnarchX

2016-05-21, 17:17:22

Vor allem steht da Nvidia mit ihrem 300W GP100 auf einmal ziemlich an der Seitenlinie.^^
Man könnte es auch so auslegen, dass Intel nicht in der Lage war den KNL-Sockel bis zu 300W zu skalieren und man mit P100 mehr Leistung auf die gleiche Rackfläche bringt.

iuno

2016-05-21, 17:37:02

@tdon: danke, geht doch :P

Hier geht es ja um zwei Varianten, die beide gesockelt sind aber sich durch die IF unterscheiden?! Daher wuerde ich 300 W noch nicht fuer die Erweiterungskarte abschreiben.

transstilben

2016-05-21, 19:42:44

Ich glaube die 200W erst, wenn ich sie gesehen habe. Wie sieht's denn nun mit den Taktfrequenzen aus ? Werden die dann a la Nvidia anhand der 200W runtergeregelt ;-) Interessant ist auch, wie man die Netzteile der Developer Preview Maschinen dimensioniert hat. Niemand mit Verstand kauft eine überhitzende Katze im Sack :)

Skysnake

2016-05-22, 11:51:16

Waren da nichtmal 300W im Gespräch? Die 200W überraschen mich etwas. Warum wird die TDP auf einmal so konservativ angegeben?

Du musst bedenken, das es KNL auch als gesockelte Version gibt, welche meiner Meinung nach auch ganz klar die Version mit der größten Verbreitung haben wird.
Die Vorteile sind einfach immens. Man kann leicht recht viel RAM durch ein Hexa-DDR4 Channel interface bekommen und man kann alles nativ laufen lassen ohne einen Host haben zu müssen, der vorwiegend eh nur Strom frissst.

Die 200W sind eine Ansage, aber da hätte man auch mehr rausholen können, wenn das auf die peak sustained Leistung bezogen ist.
200 ist schon ziemlich viel, wobei ich glaube, dass die 200W gar nicht für die gesockelte Version verfügbar sein werden, sondern nur für die externe Version.

Was soll daran gut sein der Vorgänger hatte 300 Watt TDP,die ganzen Racks sind also schon drauf ausgelegt.Da wird einfach Potenzial verschwendet.Und hat GP100 nicht 5 TF DP?
Die Racks haben damit erstmal nicht viel zu tun, sondern die ganzen Chassis. Da muss man aber klar sagen, dass die aller aller aller wenigsten Chassis wirklich mit 300W Karten klar kommen. Bei fast allen die das überhaupt können haste dann kein redundantes Netzteil mehr...

Also von daher ist das wirklich immer begrüßenswert, wenn man nicht auf die 300W im Standard geht.

Btw. Bevor einer mit Packdichte kommt.
Sehr viele europäische HPC/Computing Center haben große Probleme mit den kommenden Generationen. Die Integrationsdichte insbesondere mit Wasserkühlung sorgt dazu, dass die Traglasten der Doppelböden überschritten werden. Sprich die können gar nicht mehr die Dinger aufstellen, weil ihnen sonst der Boden einbricht....

In den USA gibt es da meist weniger Probleme, weil die sehr oft einfach eine Beton-Bodenplatte haben und fertig.

Nur mal so als kleine Randnotiz aus 1. Hand.

Marodeur3D

2016-05-22, 19:47:10

Ob das der Grund für die Verzögerungen bei Cray ist? Die GP100-Systeme sollen möglicherweise bis ins nächste Jahr verschoben werden, während KNL-basierte System mehr oder weniger im Plan liegen sollen.

Skysnake

2016-05-26, 11:15:13

Ein ziemlich intressantes Video. Betrifft halt nur HPC. Daher habe ich es auch erstmal hier gepostet, auch wenn es prinzipiell Pascal mit NVLink betrifft.

https://www.youtube.com/watch?v=yMWpjjWHUs4

An sich ist die Aussage bezüglich den Acceleratoren etwas widersprüchlich, denn NVLink ändert an der grundlegenden Problematik ja nichts, das man über einen vergleichweise langsamen bus gehen muss, wenn man das mit OnChip Bussen vergleicht. An sich sollte man also meinen, dass das Ding mit NVLink schon für tot erklärt wird, bevor es richtig gestartet ist. Wobei ich diese Sichtweise durchaus teile.

Das skaliert eben vielleicht noch 1-2, wenns ganz gut läuft 3 Generationen, aber dann ist aus die Maus. Warum sich also jetzt mit so einem Konzept beschäftigen, das eh bereits auf mittlere Sicht tot ist. Codes die man ja optimieren will/muss für so etwas begleichten einen eher Jahrzehnte....

Skysnake

2016-05-26, 15:58:48

https://twitter.com/FujitsuHPC/status/733554970918670337?cn=ZmxleGlibGVfcmVjcw%3D%3D&refsrc=email

KNL zeigt sich mal wieder

StefanV

2016-05-26, 16:28:51

Wie schaut es eigentlich mit LWL als Verbindung zwischen Schips aus?

MilesEdgeworth

2016-05-26, 22:48:50

Meinst du optische Chip-to-Chip Interconnects?

Skysnake

2016-05-28, 17:34:05

Mal eine Wasserstandmeldung.

DEEP
-
ER:
–
HW: Prototype under development (impacted by KNL delay) (http://www.deep-er.eu/images/materials/DEEP_DEEPER_20160510_EXDCI_Prague_Final.pdf)
–
SW + APPs: Very good progress in software and applications
–
APPs:
Benefit from new memory technologies shown.
Strong co
-
design within the project.

KNL hat sich also definitiv selbst im Forschungsbereich so weit verzögert, das es sich auf das Design von Exascale Systemen auswirkt. Und wir reden hier wirklich von echten Prototypen Systemen die nicht wie geplant gebaut werden können.

Skysnake

2016-06-04, 11:04:56

Bischen älter aber ich glaube noch nicht gepostet.
http://www.hpcwire.com/2016/05/10/japan-unveils-details-25-pflops-machine-operational-december-2016/?eid=328383596&bid=1403807

Dez 2016 ein 25 PFLOPS System in Japan.

In den USA laufen wohl auch schon die ersten Tests mit einer größeren Installation. Ich erwarte sehr stark, das man auf der ISC demnächst etwas sehen wird diesbezüglich. Produktion ready wird man aber wohl noch nicht sein. Das zieht sich ziemlich sicher bis ins nächste Jahr hin. Es sollte aber dieses Jahr eine größere Anzahl an Systemen mit KNL auf der TOP500 aufschlagen im vorderen Bereich.

Abseits davon siehts aber wohl noch immer nicht so super aus mit Developerkisten. :(

Loeschzwerg

2016-06-10, 11:57:41

Also ich habe immer noch keinen Timeslot für KNL :( Kann wohl noch dauern.

Hoffen wir mal auf den 19.-23. Juni. Edit: In der aktuellen c't schreibt man zumindest von einem Knights Landing Stapellauf voraussichtlich am letzten Tag der ISC und auf der Intel HPC SW Dev Conf wurde von einem 2017er Produkt geredet.

Edit2: Ist der Name "Knights Mill" schon mal gefallen?

iuno

2016-06-20, 18:33:49

Computerbase: Knights Landing in vier Modellen ab 2.438 US-Dollar
http://www.computerbase.de/2016-06/intel-xeon-phi-knights-landing-vier-modelle/

Ailuros

2016-06-20, 18:39:57

Computerbase: Knights Landing in vier Modellen ab 2.438 US-Dollar
http://www.computerbase.de/2016-06/intel-xeon-phi-knights-landing-vier-modelle/

...und wieviel TFLOPs DP landet die $6.3k SKU, um die 3.5 TFLOPs oder hab ich mich da verrechnet?

AffenJack

2016-06-20, 18:45:25

Sieht insgesamt schon ganz in Ordnung aus das Ding und auch die TDP ist relativ niedrig, aber wird ja zeitlich auch langsam Zeit bei der massiven Verspätung.

Hmm, zumindest beim Alexnet Vergleich haben sie sich aber derbe ein Eigentor geschossen.

Ailuros

2016-06-20, 18:50:45

tdon

2016-06-20, 18:54:31

Die TDP liegt aber schon ein bisschen über dem einstigen Plan, beim Topmodell ein ganzes Stück.

y33H@

2016-06-20, 19:12:05

...und wieviel TFLOPs DP landet die $6.3k SKU, um die 3.5 TFLOPs oder hab ich mich da verrechnet?Nö, stimmt.

72*1,5*32 = 3,456 Teraflops

Foobar2001

2016-06-20, 19:25:45

TFLOPs wuerde ich auch so nicht vergleichen mit GPUs. Das Ding hat voll kohaerenten Cache, man kann normale Threads darauf laufen lassen und kann ein OS booten.

tdon

2016-06-20, 20:10:43

http://fs5.directupload.net/images/160620/9oxjxe5l.jpg
http://www.nextplatform.com/2016/06/20/intel-knights-landing-yields-big-bang-buck-jump/

Zur besseren Übersicht.

Ailuros

2016-06-20, 20:18:31

Nö, stimmt.

72*1,5*32 = 3,456 Teraflops

Also wenn man 15W fuers fabric weg laesst sind es 14 GFLOPs/W FP64. Wenn mich mein Gedaechtnis jetzt nicht betruegt hatten sie doch ein Design-Ziel von 14-15 GFLOPs/W. Wenn ja haben sie ihr Ziel auch erreicht, denn mit einem refresh und leicht hoeheren Frequenzen bei vergleichbarem Verbrauch sollten 15 schon erreichbar sein. Oder zielten sie auf mehr?

transstilben

2016-06-20, 21:23:45

http://fs5.directupload.net/images/160620/9oxjxe5l.jpg
http://www.nextplatform.com/2016/06/20/intel-knights-landing-yields-big-bang-buck-jump/
.
Und ich dachte, man bekäme für 900 Dollar heutzutage 1000 mal mehr als nur ein GFlop ;)

Skysnake

2016-06-21, 09:08:41

Also wenn man 15W fuers fabric weg laesst sind es 14 GFLOPs/W FP64. Wenn mich mein Gedaechtnis jetzt nicht betruegt hatten sie doch ein Design-Ziel von 14-15 GFLOPs/W. Wenn ja haben sie ihr Ziel auch erreicht, denn mit einem refresh und leicht hoeheren Frequenzen bei vergleichbarem Verbrauch sollten 15 schon erreichbar sein. Oder zielten sie auf mehr?
Denke ich nicht. Mehr wäre natürlich immer gut, aber man sollte da jetzt erstmal keine Wunder mehr mit KNL erwarten. Das Ding läuft jetzt und ist verkaufbar. Wirklich richten wird es wohl erst der Nachfolger. Der Nachnachfolger ist ja auch schon klar. Daher glaube ich nicht, das man da noch groß Ressourcen reinbuttert.

Was mich allerdings wirklich überrascht ist, dass die Fabric wirklich erst später kommt. Ich bin mal wirklich gespannt, ob der Cluster in Texas schon mit Fabric arbeitet. Wenn nein, dann gibt es da wohl Probleme.

Man sollte sich auf jeden Fall mal die 15W auf der Zunge zergehen lassen für die Fabric. Das Ding ist ja jetzt nicht wirklich das riesen Ding, weil man ja bei Omnipath noch auf zentrale Switches setzt. Die FSP Module hat man auch noch und man verwendet Kabel statt PCB zu den Modulen, was weniger Dämpfung bedeuten sollte. Jetzt fragt euch mal, was die NVLinks mit deutlich mehr Gesamtbandbreite frisst....

PS:
Fragen zur Verfügbarkeit stellt sich hier komischerweise auch keiner...
Ich komm ja leider noch nicht an so Kisten ran. :(

Ailuros

2016-06-21, 09:24:43

+1 GFLOP/W mit einem metal spin sollten durchaus moeglich sein, da sie dafuer weniger als 10% mehr Takt brauchen; Vorraussetzung dass sie es ueberhaupt wollen natuerlich.

Sunrise

2016-06-21, 10:00:49

245W + 15W fabric = 260W fuer 8Mrd. Transistoren und einen angeblichen 700mm2 die. Stimmen die Daten dann sie es 11.4Mio Transistoren/mm2 und bei einer 1.5GHz Frequenz die alles andere als extravagant ist. Ich kann zwar die Logik vom sehr breiten Teig hier verstehen, aber ein besonderes Ereignis ist es im Vergleich zu jeglicher Konkurrenz gerade nicht.
Sind eben auch nicht wirklich vergleichbar, da anderer Ansatz. Das sind 72 CPUs mit 36MB L2 die da auf einem Die sind, plus der andere Schnickschnack, das ist schon recht beeindruckend. Die Krux aktuell ist ja, dass sich Intel nicht unbedingt dem Vergleich stellen muss, eben genau weil sie ein OS auf den Dingern booten können und auch sonst sämtlicher Code darauf ohne Modifikation erstmal läuft und mit Anpassungen dann aber rasend schnell. Die reinen Fertigungs-Grunddaten sind ja weniger relevant, da Intel inhouse produzieren kann und ihre Prozesse über die komplette Kette an Produkten finanziert werden. Auch da muss sich Intel nicht unbedingt einem Vergleich stellen, solange sie ihr Designziel irgendwie erreichen, was sie ja haben. Was allerdings sicher sehr negativ aufstößt ist die Verzögerung von KNL.

Dass Intel bei GPUs trotz früherer Planung nie eine Rolle im oberen Segment gespielt hat, zeigt, dass sie sich sehr ungern aus ihrem CPU-KnowHow-Fahrwasser begeben. Hätte NV eine ordentliche CPU-Lizenz oder das CPU-KnowHow, hätten sie hier mehr als ein echtes Problem die Dinger überhaupt abzusetzen, da würde nur wieder mit "unlauteren Methoden" funktionieren.

Und genau deshalb ist AMD hier so interessant, denn die haben beides, "Intel-CPU" und "NV-GPU-KnowHow". GCN sollte man nicht unterschätzen (mit all den Verbesserungen die bei Vega anstehen werden) und mit dem kompakten und performanten Zen lässt sich sicher so einiges anstellen. Mal sehen, was die Jungs mit dem begrenzten R&D auf die Beine stellen können. Zu wünschen wäre es ihnen, wird aber wohl noch etwas dauern und Zeit ist leider etwas, was dagegen spielt, da sich bis dahin Intel und NV schon auf dem Markt ordentlich breit gemacht haben.

Ailuros

2016-06-21, 10:41:24

Ich erlaube mir ein ganz schnelles semi-OT: ich hatte nicht vor langer Zeit einen insider (ausserhalb Intel) gefragt ob es je so weit kommen wuerde dass Apple vielleicht SoCs bei den Intel foundries herstellt. Die Antwort war verdammt selbstsicher negativ, da Intel's Prozess-Varianten verstaendlicherweise auf ihre CPUs "angepasst" sind.

Denkt man darueber nach, waere es schon ziemlich ueberfluessig fuer Intel eine zweite Prozess-Variante nur fuer ihre MICs zu entwickeln. Da bleibt man lieber beim existierenden Material und kommt was resources betrifft immer noch billiger davon selbst wenn man N% mehr die area verplempern sollte (Charlie gibt uebrigens weniger als 700mm2 an....658mm^2 (20.853mm x 31.558mm) https://semiaccurate.com/2016/06/20/intel-launches-knights-landing-phi-goodies/ ).

Ich hab mich natuerlich nicht mit dem Umsatz von Intel's HPC Loesungen beschaeftigt, aber ich kann mir schon vorstellen dass es ein gutes Geschaeft fuer sie ist mit steigender Tendenz.

Skysnake

2016-06-21, 10:46:22

Man sollte vor allem nicht unterschätzen, das man einfach jedwedes FORTRAN Programm auf den Dingern laufen lassen kann. Ich habe in letzter Zeit mit einigen FORTRAN Programmen zu tun gehabt, und eins hat von dGPUs gar nicht profitiert, und bei dem anderen wäre es ein riesen Aufwand, das so zu implementieren, das man wirklich den vollen nutzen daraus zieht, der dann auch durchaus signifikant sein kann, wobei man auch sagen muss, das die allerneuesten CPUs von Intel schon extrem viel Rechenleistung haben mit AVX.

KNL ist da schon sehr sehr interessant. Ich würde z.B. gerne die eine Bandbreitenlimitierte Anwendung mal auf mehreren KNL laufen lassen. Die skaliert recht gut runter bis zu einigen GB an Nutzdaten pro Node. Könnte sein, das man alles in den HMC rein bekommt und dann das Ding mal so richtig zulegt was die Performance anbelangt.

EDIT:
@Ailuros:

Intel spielt da vor allem rein, dass Sie auf einer vollintegrierten Platform zwei unterschiedliche Designziele verfolgen könnten.

1. XeonPhi: schlechtes BW/FP
2. Xeon: gutes BW/FP

Den 2. Punkt sieht man aktuell noch nicht so, einfach weil man die HighCoreCount CPUs da eben auch drin hat. Wenn man sich aber anschaut, das eben die kleinen LowCoreCount CPUs nicht beim Speicher beschnitten sind, dann sieht man, das man dort doch besser weg kommt. Es gibt einfach genug Codes/Probleme wo man immer an der Bandbreite hängt, egal was man am Ende macht. Wenn man einfach 1 Byte oder sogar mehr pro Flop braucht, dann geht da halt einfach nichts.

Intel rundet damit sein gesamtes Angebot sehr gut ab. Man muss sich schon fragen, warum man etwas anderes nutzen soll, weil man eben immer einen ziemlichen Portierungsaufwand hat. Bei den Xeon/XeonPhi Linien wird das marginal sein. Vor allem wenn man dann auch noch Hersteller wie Cray hat, die einem das als Konfiguration erlauben werden. Ich sehe da Intels Angebot noch immer insbesondere deswegen als interessant an, weil man eben alles aus einer Hand bekommt und wenig Manpower reinstecken muss.

Ich musste in letzter Zeit leider meine Sichtweise bestätigt sehen, das es genug Leute da draußen gibt (unsere gesamte Förderungslandschaft darauf ausgelegt ist), die lieber für Hardware Geld ausgeben als für Menschen.

Skysnake

2016-06-21, 12:33:42

http://fs5.directupload.net/images/160620/9oxjxe5l.jpg
http://www.nextplatform.com/2016/06/20/intel-knights-landing-yields-big-bang-buck-jump/

Zur besseren Übersicht.
Damit ist P100 als NVLink Karte teurer als der teuerste KNL in $/DP-FLOP, wobei man da fairerweise noch dazu sagen muss, das da natürlich dann noch Board, Kühler und RAM dazu kommt. Dafür ist die Nutzung einfacher.

Also die NVLink Version ist sicherlich kein Preisbrecher für KNL. Bei der PCI-E Version sieht es schon anders aus. Das Ding kostet nur noch die Hälfte, ist allerdings auch aufwändiger in der Nutzung....

Wenn Intel noch 20-30% im Preis runter geht, dann sieht es auch für die PCI-E Version nicht mehr überzeugend aus.

http://www.nextplatform.com/2016/06/20/nvidia-rounds-pascal-tesla-accelerator-lineup/
Modell $ $/DPFlop
NVLink P100 10,500 1,981
P100 PCI-E 16GB 5,500 1,170
P100 PCI-E 12GB 5,000 1,064

iuno

2016-06-21, 12:48:52

P100 ist ja auch deutlich schneller ;)

Deine Tabelle ist etwas danebengegangen:

Modell|$|$/DPFlop
NVLink P100|10,500|1,981
P100 PCI-E 16GB|5,500|1,170
P100 PCI-E 12GB|5,000|1,064

Skysnake

2016-06-21, 12:54:49

Danke, war gerade zu faul, und ich dachte das wird eh alles in eine Tabelle geklatscht :wink::tongue:

Ob P100 schneller ist, muss sich erst noch zeigen. Also nicht absolut sondern bezüglich $/DP. Ich erwarte an sich eigentlich, das KNL schneller ist bezüglich $/DP. Vor allem aber wenn man sich reale Anwendungen anschaut sollte KNL große Vorteile haben. Das elendige Hin und Her kopieren killt dich einfach, und da mag NVLink noch so schnell sein, es ist immer noch langsamer als gar nicht kopieren in der Regel. ;)

iuno

2016-06-21, 13:05:54

Ja, ich meinte auch nur die absolute Performance. Dass das schnellste Produkt am Markt bzgl. $/Perf. schlechter ist, ist aber ja auch nicht gerade untypisch.

Ja, ich denke auch dass KNL nicht schlecht aufgestellt ist, auch wenn die absolute Leistung natuerlich etwas niedriger liegt. Ich bin dahingehend auch mal gespannt, was AMD mit Vega und MCMs hinbekommt und ob/wann Nvidia autarke Beschleuniger mit ARM Kernen anbietet, aber das ist ja alles noch lange hin...

Ailuros

2016-06-21, 14:39:43

Wenn man Lust zum schmunzeln hat, liest man einfach ein bisschen Fudzilla:

http://www.fudzilla.com/news/processors/40956-intel-s-xeon-phi-can-now-tackle-any-multi-processing

Intel cliams Xeon Phi arrays of were 1.38 times faster than GPUs compared with a single Intel Xeon Phi processor with 87 percent efficiency compared to 32 Nvidia Tesla K20 GPUs with 62 percent efficiency.

Muss ziemlich fortschrittliche Mathe sein, denn ich verstehe nur Bahnhof :P

Skysnake

2016-06-21, 14:53:52

Wohl 32 vs 32 Devices.

(32(??)x0,87) / (32x0,62)=~1,4

Aber ja, das ist mal wieder so ne Nullaussage an sich.

Ailuros

2016-06-21, 20:28:18

Ich hab zwar auch ein Talent (oefters dank Sprachbarrierre...) ziemlich wirre Saetze zu schreiben, aber dieser Farell Typ hat jeglichen Rekord gebrochen :P

transstilben

2016-06-26, 23:34:14

http://ark.intel.com/de/products/family/92650/Intel-Xeon-Phi-Product-Family-x200#@Server
http://ark.intel.com/de/products/87430/Intel-Server-Board-S7200AP

Skysnake

2016-07-06, 17:23:32

Ich hätte da mal eine Frage an alle.

Welche Tests würdet ihr denn machen, wenn Ihr einen KNL hättet?

Sunrise

2016-07-06, 17:32:08

Ich hätte da mal eine Frage an alle.

Welche Tests würdet ihr denn machen, wenn Ihr einen KNL hättet?
Zum Beispiel Encoding-Tests (AVC, HEVC) mit x264 und x265.

Skysnake

2016-07-06, 17:49:03

Also schon was unter Linux läuft, am Besten zusammen mit nem Link ;)

Loeschzwerg

2016-07-08, 11:13:58

Läuft evtl. der Luxmark? (möglicherweise entsprechend kompiliert)

x264 Bench für diverse OS:
http://www.voodooalert.de/board/index.php?page=Thread&threadID=17833

In jedem Fall müsste man die Sache erst noch kompilieren. Ein gute Performance erwarte ich hier aber nicht von KNC/KNL, denn die genutzte Referenz x264 Version ist alt und generell sind in der Parallelisierung Grenzen gesetzt.

Hm... was gibt es denn sonst noch so für OpenCL Benchmarks?

mksn7

2016-07-08, 12:55:58

Stream und Linpack - um mal die beiden Extreme abzustecken. Ok, zugegeben nicht so spannend. Wobei beim Stream schon interessant ist ob KNL etwas mehr als KNC vom theoretischen Speicherdurchsatz erreichen kann, grade mit MCDRAM und so.

Vielleicht irgendwas single threaded, nicht vektorisiert, einfach nur um zu sehen was die weniger komplexe Kernarchitektur ausmacht.

transstilben

2016-07-09, 19:47:20

https://www.supermicro.nl/products/system/tower/5038/SYS-5038K-I.cfm

Ailuros

2016-07-20, 11:48:20

http://www.fudzilla.com/news/processors/41151-knight-s-landing-beating-nvidia

Nichts komisches bis man zum letzten Satz kommt.....:freak:

It might also start getting interesting when ARM chips start making an impact.

Weiss der Trottel ueberhaupt fuer was genau KNL steht bzw. benutzt wird?

Skysnake

2016-07-20, 12:10:29

Wenn einen Stream interessier that, in dem Roofline Model wird Stream verwendet um die Bandbreite zu bekommen. Der Graph ist halt viel umfangreicher als einfach nur stream.

http://www.nextplatform.com/2016/07/12/optimization-tests-confirm-knights-landing-performance-projections/

transstilben

2016-07-24, 09:39:05

Erste Listungen bei Händlern:
http://www.heise.de/preisvergleich/eu/?fs=phi+72%3F0&in=&x=0&y=0

Skysnake

2016-07-24, 12:20:12

A, D & P?

Was soll das denn sein?

iuno

2016-07-24, 13:18:27

Das sind doch noch die alten, nur die CPUs sind KNL:
https://geizhals.de/?cmp=1475822&cmp=1475821&cmp=1475819&cmp=1475820

Stattlich finde ich die 50% Aufschlag alleine fuer DDR4 2400 statt 2133 und 1800 statt 1600 MHz MCDRAM. Ansonsten ein ziemliches Schnaeppchen oder?! ;p
aber gut, die MSRP waren ja eigentlich schon bekannt:
http://scr3.golem.de/screenshots/1606/Xeon-Phi-Knights-Landing/thumb620/Xeon-Phi-Knights-Landing-05.png

transstilben

2016-07-24, 19:10:29

https://geizhals.de/?cmp=1475822&cmp=1475821&cmp=1475819&cmp=1475820
...

Wie ist dort die Angabe "Sockel 3647-1, max. 4 CPUs" zu verstehen ? In Analogie zu Sockel 2011-[1-3] -> "E5-1650, E5-2650, E5-4650", ... ?
Das würde ja dann heißen, bis zu vier Phi 7210 könnten auf einem Board "out of the box" kooperieren ? Wo sind lieferbare Dual- und Quadsockel Boards ?
Als 3647 kompatiblen Kühler dann sowas nehmen ? (http://www.overclock3d.net/news/cpu_mainboard/noctua_showcases_a_skylake-ep_lga_3647_compatible_cpu_cooler/1)

StefanV

2016-07-24, 19:53:03

Wozu ist das TEil,w as aus dem Package/Sockel rausragt? Wie funktioniert das? Was macht man damit?

Skysnake

2016-07-24, 20:06:25

Das ist die Fabric.

Das Ding schließt man mit einem Kabel an eine OmniPath KArte an, die die physischen Interfaces und Treiber für FSP Stecker bietet.

Loeschzwerg

2016-07-26, 17:48:48

Cray XC mit Xeon und Xeon Phi (KNL):
lkf3U_5QG_4

Skysnake

2016-07-26, 19:54:07

Danke für das Video.

Das interessante dabei ist allerdings weniger der XeonPhi, da wusste man ja schon relativ klar, was da kommen würde, wobei man eventuell noch auf 12DIMMs spekulieren konnte, sondern das, worüber nicht gesprochen wird. Wenn ich das richtig gesehen habe, dann zeichnet sich da nämlich ein Paradigmenwechsel bei Cray ab.

Ich muss mal noch schauen, wie Cray und IBM das lösen wollten. Ich bin mir da nämlich gerade nicht sicher. Hatte das nämlich genau umgekehrt zu dem was ich gesehen habe im Kopf.

Mal schauen, ob noch jemand etwas interessantes sieht ;)

PS: Das sind XC40 blades.

mksn7

2016-07-29, 12:40:10

Magst du oder darfst du nicht erzählen was du da entdeckt hast? Ich seh nix...

Skysnake

2016-07-29, 14:21:57

Ich wollte warten, bis jemand mal einen Tip abgegeben hat ;)

Aber scheinbar interessiert es niemanden.

Aber wenn du willst, kann ich es ja dann jetzt sagen.

iuno

2016-07-29, 14:50:59

Mir ist auch nichts aufgefallen. Bei 2:05 sieht man beide im Vergleich.
Vorher: base plate mit Aries, 2 daughter boards mit je 4 Xeons
Jetzt: base plate mit Aries (sieht fuer mich gleich aus; edit: sagt auch "identical"), 2 daughter boards mit je 2 Xeon Phi

Also, erleuchte uns doch ;) Fehlt die Moeglichkeit, statt einem zweiten daughter board PCIe Boards zu verbauen?

Skysnake

2016-07-29, 14:58:00

Die KNL Boards boards bieten die Möglichkeit eine M.2 SSD pro Node zu verbauen.

Die Cray-Knoten sind also nicht mehr "disk less", wenn man eine SSD als disk durchgehen lässt.

Ich gehe stark davon aus, das man zwar noch immer übers Netzwerk booten wird, und das OS usw in einer RAM-Disk ablegen wird, aber eben noch ein lokales Scratch filesystem haben wird.

Wenn man sich das NextGenIO Projekt anschaut, könnte man auch stark davon ausgehen, das man dieses Scratch Filesystem zum Preload von Nutzerdaten/Applications nutzen wird können.

Das ist schon sehr sehr sehr anders als das was Cray die letzten Jahre gemacht hat.

Aurora und Summit haben auch zwei unterschiedliche Modelle für das Checkpointing. Einmal das man ein Scratch auf den Breakout nodes fährt mit SSDs, und beim anderen, das man das auf jedem Node macht. Ich war nur bisher der Meinung, das IBM das auf jedem Node machen will und die Cray&Intel Kiste nur auf den Breakout nodes.

Ich bin bisher aber leider noch nicht dazu gekommen das zu verifizieren, wer welches Modell nutzen wollte. Wenn sich also jemand berufen fühlt, schaut mal nach. Ich komme die nächstne Wochen wahrscheinlich nicht dazu.

PS: Man sieht die M.2 SSDs auch direkt auf dem Youtube Vorschaubild ;)

iuno

2016-07-29, 15:04:22

Aaah, das hatte ich natuerlich gesehen aber ich habe irgendwie nach etwas gesucht, was den neuen fehlt und nicht was dazugekommen ist :facepalm:

Was sind das denn fuer kleine aufgeschraubte Module unter den schwarzen Kuehlkoerpern neben den M.2 SSDs bzw. beim alten jeweils in der Mitte des daugter boards?

Skysnake

2016-07-29, 15:14:46

Wenn ich es richtig im Kopf habe, sind da noch Chipssätze mit drauf. Ansonsten gibts auch noch einiges zur Überwachung der Nodes, also Temp usw. Aber keine Ahnung, was da jweils wo ist. Meines wissens gibt es dazu auch keine öffentliche Doku. Und son Ding mal selbst auseinander schrauben ist ja eher unwahrscheinlich ;)

transstilben

2016-07-30, 21:24:31

KNL System @ delta computer:
https://www.deltacomputer.com/d10x-uln-kl.html

Skysnake

2016-07-31, 10:20:19

Der Preis geht schon in Ordnung würde ich sagen. Für den Preis von 129.000$ eines DGX Systems von nVidia bekommt man, wenn man $=€ annimt, etwa 14 gut ausgestattete KNL Systeme die wie folgt konfiguriert sind:

XeonPhi 7230
192 GB RAM
3x 480GB Intel S3610 (SSD)
GTX 750 Ti
Mellanox MCX545A-ECAT (100GBit/s EDR Infiniband + 100 GBit/s Ethernet)
1x 200GB Intel S3710 (SSD Fürs OS usw)

An sich muss man jetzt noch einen IB Switch für rund 15k $ dazu kaufen, weil man eben einen Cluster aufbauen muss. Das muss man beim DGX nicht unbedingt, auch wenn dann natürlich die Netzwerkcontroller brach liegen würden. Dafür brauch man aber auch 4 Ports pro DGX und nur einen pro KNL System.

Wie dem auch sei. Man könnte ja auch 14,6 KNL Systeme etwa kaufen. Sagen wir also es sind "nur" 12 KNL Systeme, die man nutzen kann.

Dann sähe der Vergleich wie folgt aus zwischen KNL und DGX

KNL
31,92 DP TFLOPs (12x XeonPhi 7230 2,66 DP TFLOPs)
2.304GB DDR4 RAM (12x 192GB)
192 GB MCCDRAM (12x 16 GB)
1.382 GB/s DDR4 RAM (12x 115,2 GB/s)
4.800 GB/s MCCDRAN (12x 400 GB/s)
17.280 GB Mass storage über SSDs
2.400 GB SSDs für OS usw.
12x 100GB/s 1x EDR Infiniband + 1x Ethernet

DGX
2x Xeon E5-2698 v3 (16 cores mit 2,3 GHz)
512 GB DDR4-2133
7.680 GB Mass storage über PCI-E SSD
42,4 DP TFLOPs (8x P100 mit 5,3 DP TFLOPs = 42,4 DP TFLOPs)
128 GB HBM2 (8x P100)
5.760GB/S HBM2 (8x 720 GB/s )
Wahrscheinlich irgend eine HDD

Gut, das DGX System hätte jetzt etwas mehr Peak TFLOPs, aber auch ein etwas schlechteres FLOPs/Bandwidth Verhältnis (5,16 GFLOP/GB vs 7,36 GFLOP/GB). Man kann also durchaus davon ausgehen, dass das KNL System wohl die Leistung besser auf die Straße bekommt. Wo man halt große Vorteile mit KNL hat ist der Gesamtstorage mit 17,3 vs 7,7 TB, HighSpeedMemory 192 vs 128 GB, DRAM 2,25 TB vs 0,5 TB und dann eben noch die Anbindung des Storage. Bei KNL gibt es die quasi nicht, wiel es eben nur die eine CPU gibt. Bei DGX haste nur 16x oder 2x16x PCI-E zwischen CPU (und damit Storage) und dem P100 Netz.

Wo der KNL Cluster wohl schlechter dastehen wird ist die Leistungsaufnahme. Da steht für das DGX system ja was um die 3,2 KW im Raum. Das wären für jedes KNL System gerade mal 266W. Das wird sich aber nicht ausgehen. Da muss man wohl eher 400W-500W rechnen. Da schlagen die GTX GPUs halt auch nochmals rein, die man eigentlich wegschmeisen will und das Ding Diskless betreiben will. Wenn man da auch noch etwas kostenoptimieren würde, könnte man für den Preis sicherlich 14-16 KNL Systeme bekommen und eben auch noch einiges an Stromverbrauch einsparen, so das ein Node so auf 350W kommen würde.

Wären am Ende halt immer noch 30% mehr. Dafür hat man aber auch eine ganze Menge mehr an RAM usw.

Ein Vorteil hätte das DGX System. Man könnte ohne MPI auskommen, dafür brüchte man CUDA. Ich glaube ich würde klar MPI vorziehen.

|MatMan|

2016-07-31, 13:29:08

Du vergisst den Hauptvorteil vom DGX System: die Software. Für Deep-Learning (was der Hauptanwendungszweck von DGX sein soll) gibt es ein fertiges Toolkit, was mit Sicherheit auch speziell für DGX optimiert wird. Gibt es vergleichbares auch für KNL?

Ansonsten fehlt für mich im Rohleistungsvergleich noch NVLink vs. Infiniband. Die direkte Verbindung von GPUs muss einen gewissen Vorteil bieten, sonst würde man den Aufwand nicht treiben. Aber das hängt natürlich wie immer vom jeweiligen Problem ab...

mksn7

2016-07-31, 16:31:50

Ich hatte immer angenommen dass der Preis um einen P100 zu besitzen in Zukunft noch deutlich sinken wird. Es wird Nvidia wohl aktuell ganz recht sein, wenn sie zu dem Preis nicht soviel verkaufen, da die verfügbaren Stückzahlen noch nicht so rießig sind. Andere vendors bauen dann bestimmt billigere 8 GPU Systeme. Sind Einzelpreise für P100 mit dem Mezanine Connector und PCIe bekannt?

Loeschzwerg

2016-08-18, 06:51:07

Skysnake

2016-08-18, 07:39:02

Als nächstes kommt ja an sich Knights Hill (Knights Mill ist da eventuell ein Ableger?) und dann halt KN(?)

Loeschzwerg

2016-08-18, 07:56:47

KNM scheint eher ein KNL Ableger zu sein, der von Prozessoptimierungen und evtl. kleineren Anpassungen profitiert.
Musste man vermutlich "kurzfristig" einschieben weil die 10nm Fertigung KNH verzögert.

Die Informationslage ist wie immer sehr mau :D

Skysnake

2016-08-18, 08:50:51

Der Kreis der Wisser ist halt ziemlich gering, da die Dinger halt nicht in 0815 Kisten wandern. Damit haste auch weniger Leaks, da man Sie leichter eingrenzen kann.

Für die Wissbegieriger ist das halt ziemlich doof, aber so ist das halt.

PCGH fragt btw aktuell ob Sie KNL mal testen sollen. Wäre ich ehrlich gesagt sehr dafür. Könnt also mal ins Forum auf den entsprechenen Topic ;)

Ailuros

2016-08-18, 18:26:55

http://www.anandtech.com/show/10575/intel-announces-knights-mill-a-xeon-phi-for-deep-learning

Hill, Mill oder Kill? :freak:

Skysnake

2017-08-31, 09:55:40

Die KNL Karten gab es ja nie wirklich im Verkauf, und man hat hintenrum auch das eine oder andere gehört. Nun ist es aber wohl offiziell, das es auch keine mehr geben wird. Die Produktlinie der MIC Karten ist damit wohl tot. Wie ich finde auch zurecht. Das gesamte Offloading Modell mag zwar für die eine oder andere Anwendung funktionieren, aber insgesamt ist es ein viel zu kleiner Anwendungsbereich.

https://insidehpc.com/2017/08/intel-discontinues-xeon-phi-7200-series-knights-landing-coprocessors/?t=1&cn=ZmxleGlibGVfcmVjcw%3D%3D&refsrc=email&iid=00c757cc876c42c8b4340e03620dd500&uid=321303771&nid=244+289935368

Jetzt müssen Sie nur noch den large RAM wirklich groß dafür aber langsam machen und den Highbandwidth RAM auch wirklich high Bandwidth im vergleich zu dem large RAM.

=Floi=

2017-09-07, 02:34:53

es gibt ja auch keine software für semi professionelle user oder kleine firmen.
bei so eingeschränkten märkten braucht man sich über den erfolg nicht wundern.

ganz früher hatte man auch mal gamer im blickpunkt. Heute wäre das teil eventuell fürs minen, Video encoden etc. ganz gut geeignet.

deekey777

2017-11-14, 11:00:14

Intel Xeon Phi: Beschleuniger Knights Hill in 10 nm ist Geschichte (https://www.computerbase.de/2017-11/intel-xeon-phi-knights-hill-eingestellt/)

Niemand wird dich vermissen.

Skysnake

2017-11-14, 13:41:18

Damit ist dann auch hoffentlich endlich klar das Aurora eingestampft wurde weil KNH nicht das gebracht hat was man erwartet hat.

Intel hat da also gefailed

@deekey
Die Leute von Argon sind sicher traurig

Loeschzwerg

2017-11-14, 17:42:09

Man geht halt jetzt andere Wege als diesen extrem kostenintensiven... zu viel Aufwand mit Gewinn nur in speziellen Fällen. Daher habe ich die News auch bei "Intel Discrete Graphics" gepostet, da fügt sich das Bild.

Kartenlehrling

2017-11-14, 19:54:58

Vor meiner Haustür in Jülich haben sie einen Booster mit Intel Xeon Phi 7250-F verbaut,
schon seltsam das sie immer noch CPU den GPU Beschleuniger vorziehen.

Daten und Fakten
Das JURECA Cluster-Booster-System erreichte mit einer Leistung von 3,78 Petaflop/s den 29. Platz auf der TOP500.
Die aktualisierte Fassung dieser Liste der schnellsten Rechner der Welt – die ihr 25-jähriges Jubiläum und die 50. Ausgabe feierte –
wurde heute zu Beginn der internationalen Supercomputing-Konferenz SC17 in Denver, USA, vorgestellt.
Mit dem JURECA-Booster kommen nun 1.640 Rechenknoten mit Intel Xeon Phi 7250-F Prozessoren hinzu, von denen jeder über 68 Rechenkerne verfügt.

Intel hat das System, das auf Intels Scalable Systems Framework (Intel® SSF) basiert, gemeinsam mit DELL EMC bereitgestellt,
unter Verwendung der Server Dell EMC PowerEdge C6230P. Den Cluster-Part bildet der Superrechner JURECA.
Dieser Computer wurde 2015 von dem Unternehmen T-Platforms geliefert, das den Aufbau des Boosters aktiv unterstützt hat.
Betrieben wird das System mittels der ParaStation Cluster Suite der Firma ParTec,
welche die für das modulare Supercomputing notwendige Software-Funktionalität vollständig implementiert.
http://www.fz-juelich.de/SharedDocs/Pressemitteilungen/UK/DE/2017/2017-11-13-jureca-booster.html

Skysnake

2017-11-14, 20:27:18

Nein, das ist gar nicht seltsam. Es können halt nicht viele Leute gut CUDA programmieren, mal ganz davon abgesehen das es ein ziemlicher Aufwand ist.

Es schreiben ja oft genug Leute den Code die NICHT aus der Informatik kommen und man schon froh sein kann wenn sie vernünftigen CPU Code schreiben können.

Mal ganz davon abgesehen das die GPU Systeme noch immer Exoten sind.

Und gerade bei alten komplexen Codes scheuen viele den Schritt hin zu GPUS. Zumal GPUS auch problematisch sind bezüglich strong scaling.

Ich habe da erst dieses Jahr eine gute Presentation gesehen die sich strong scaling angeschaut hat. Da brauchte man zwar weniger nodes für eine bestimmte Problemgröße und kann damit insgesamt größere Probleme rechnen, wenn.die größten CPU Systeme zu schwach sind, aber die Time to solution kannst du mit CPU Systemen weiter drücken als mit GPU Systemen.

Irgendwann werden die halt zu ineffizient weil zu wenig Arbeit da ist pro GPU u. Die Latenzen zu verstecken. Da skalieren CPUS besser.

Und Time to solution ist schon für viele wichtig, da sie eh schon. zich Tage oder Wochen rechnen