Intel - Haswell - Crystalwell als L4-Cache (Split aus: IP 5200) [Archiv]

PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Intel - Haswell - Crystalwell als L4-Cache (Split aus: IP 5200)

Skysnake

2013-06-03, 10:47:35

Bin etwas skeptisch, ob die Schätzung von 174 mm² für die GPU seitens Anandtech realistisch ist, auf 28 nm hochgerechnet wäre das fast GK104-Diesize. Ich denke, dass das L4-Interface relativ viel Fläche belegt, wir reden hier immerhin von 2*256 Datenleitungen.

Das wird nur ein Bruchteil eines DDR3 Interfaces sein, weil du NICHT! vom Package runter musst. Das ist ein gewaltiger Unterschied ;)

Schön zu sehen, dass der eDRAM als L4-Cache auch Performancevorteile abseits von GPU-Anwendungen bringt. Aber die Performancesteigerung der GPU gegenüber der HD 4600 im i7-4770K fällt geringer aus als gedacht, was wohl an der Limitierung der TDP liegt. Von 47 Watt auf 55 Watt bringt teilweise über 10% höhere Frameraten.

Jo, der L4 kann schon schön was bringen. Man hat dafür aber halt auch einen oder gar zwei Hops mehr im Ringbus, was die Latenz verschlechtert. Man muss den L4 also auch vernünftig verwenden können, sonst ist es eher ein Hindernis.

Durch die 128MB ist das aber relativ leicht der Fall ;)

Nur "ältere" Programme, die maximal ~10MB Cache erwarten profitieren halt wenig von dem L4. Gerade auch die selbstoptimierenden Algorithmen werden sowas wohl auch noch nicht wirklich erwarten befürchte ich :( Aber keine Ahnung.

Naja, schaumer mal, wie sich neuere Programme schlagen, die den L4 wirklich effektiv nutzen können.

EDIT:
http://techreport.com/review/24879/intel-core-i7-4770k-and-4950hq-haswell-processors-reviewed/8

ALTER Schalter :eek:

WTF? Was geht denn da bei Haswell bzgl den Caches ab???

Das ist ja abartig krank, was die da an Bandbreite haben :eek:

Vor allem, wie schlecht steht denn da BD da? :freak: Kein wunder, dass da nicht viel geht...

Wenn man sich das anschaut, dann bin ich sogar eher überrascht, dass BD nicht noch mehr abstinkt. So wenig Bandbreite im Vergleich zu Konkurrenz ist natürlich ganz übel, wenn man aus den Registern raus muss, also etwas größere Windows für das Dataset hat.

Sollte aber auch viel Platz für Optimierung da sein, also niedrig hängende Früchte ;)

Nightspider

2013-06-03, 13:08:52

Wo bringt denn der L4 der CPU-Performance bisher was?
Ich glaube ich habe die Vorteile bisher gekonnt übersehen, falls da welche waren.

AnarchX

2013-06-03, 13:15:13

Am Anfang und am Ende ist jeweils ein Beispiel: http://techreport.com/review/24879/intel-core-i7-4770k-and-4950hq-haswell-processors-reviewed/13

Skysnake

2013-06-03, 13:22:41

Naja, du kannst typical Worksizes von ~128MB nun gut verarbeiten, wo es vorher "nur" ~8MB waren.

Du kannst also Algorithmen entschlacken usw usw.

Der Vorteil geht halt wie bei JEDEM! Cache gegen Null, wenn du eben ne Worksize hast, die >128MB ist. +/- paar MB wegen der Assoziativität.

Und genau deswegen "sieht" man bei vielen Tests den Vorteil eben nicht. Die Workingsets sind so groß, dass Sie schnell mal paar Gigabyte fassen, und die Algos erfassen eben den L4 nicht.

Kleines Beispiel:
Matrixmultiplikation:
Problemgröße < letzter Cachestufe:

"Dummer Algo" -> volle Leistung
"Algo der Cachestufen kennt, und daher Datenreuse innerhalb der Cachesize macht -> volle Leistung

Problemgröße > letzter Cachestufe:

"Dummer Algo" -> Leistung bricht massiv ein
"Algo der Cachestunfen kenn, und daher Datenreuse innhalb der Cachesize macht, aber nur von ~8 MB ausgeht" -> Leistung bricht eventuell etwas ein, bleibt aber fast gleich. Matrixmul ist hier sehr dankbar, daher nur kleine/kein Einbruch
"Kluger Algo, der auch die 128MB L4 kenn" -> bricht noch etwas weniger ein als der vorherige

Das Problem ist halt, dass du 1. einen Algo brauchst, der die große Cachegröße überhaupt verwendet und 2. Muss das Problem auch noch eine so "schlechten" Datenreuse haben, dass die Cachestufe davor nicht bereits ausreicht, um die CPU voll aus zu lasten.

Mat-Mul reicht eigentlich schon die Cachestufe vorher voll auf aus. Da wird der L4 nicht mehr viel bringen. Es gibt aber genug Anwendungen, wo man von ner simplen MatMul abweicht, und da kann es dann wieder viel bringen, WENN man denn den L4 verwendet/verwenden kann.

Ein Beispiel was z.B. EXTREM! vom eDRAM profitieren sollte, wären z.B. relativ kleine Datenbanken, die komplett in den eDRAM passen. DA! würde die Performance einen unglaublichen Sprung nach vorne machen. Bei Datenbanken springt man ja meist recht wahrlos hin und her, und ne 128MB Datenbank ist jetzt auch nicht winzig, bzw ein 128MB Teilset einer Datenbank ist nicht wenig. Gerade Shopsysteme könnten davon durchaus profitieren. Die Datensätze sind ja auch nicht Gigabyte groß, aber werden oft gelesen. Da könnte ich mir schon vorstellen, dass der Durchsatz schön nach oben gehen kann. Auch wenn dann am Ende wohl die Netzwerkanbindung zum Problem wird :(

Spasstiger

2013-06-03, 13:35:34

Anandtech hat versucht, den Vorteil des L4-Cache indirekt zu bestimmen: http://anandtech.com/show/6993/intel-iris-pro-5200-graphics-review-core-i74950hq-tested/18 ("CPU Performance").

Skysnake

2013-06-03, 13:46:34

Unseriös.

Mehr kann man dazu nicht sagen...

Man kann es eben NICHT so einfach quantifizieren, was der L4 bringt, außer zwischen >100% Mehrleistung und 0% Mehrleistung.

Kommt halt immer GENAU auf das Problem und die verwendete Software drauf an...

Man kann hier wirklich nur sagen in Anwendung XY mit Problem Z macht das so und so viel aus.

Am besten kann man das bei Games machen, wo sich wirklich nichts ändert. Da wird der Vorteil aber wohl auch am geringsten sein.

Nehmen wir mal als Beispiel ein Renderer:
Wenn das Problem <128MB aber >> 8MB ist, dann wird man wahrscheinlich einen großen Vorteil sehen. Wenns aber mal so 512MB ist, kann bei der GLEICHEN! Anwendung der Vorteil komplett weg gehen, weil man eben nicht expliziet auf die 128MB achtet.

Das ist halt der "Rotz". Man muss da schon sehr aufpassen und kann keine Pauschaussagen treffen...