Archiv verlassen und diese Seite im Standarddesign anzeigen : Intel - Meteor Lake ("MTL", Raptor-Lake-Nachfolger, "Redwood Cove" CPU-Kerne, 4 nm, 2023)
Leonidas
2021-03-28, 06:31:21
3DC News-Übersicht zu "Meteor Lake" (https://www.3dcenter.org/news/intel-meteor-lake)
https://pbs.twimg.com/media/ExMWunEVIAEHsTz?format=jpg&name=small
w0mbat
2021-03-28, 12:06:21
Wie lange braucht es vom IP tape-in zum tape-out?
Tarkin
2021-03-28, 20:30:09
Wie lange braucht es vom IP tape-in zum tape-out?
Das kann man glaube ich nicht so ganz genau sagen.
Aber nur so mal als Anhaltspunkt wenn es NICHT nach Plan läuft... Ice Lake hat vom Tape in zum Release 4 Jahre gebraucht ;D
2x LOL
https://twitter.com/intelnews/status/872939120334479361
https://twitter.com/intelnews/status/872965215566127104
Also was Intel rauslässt, darauf kann und sollte man sich nicht verlassen.
dildo4u
2021-07-27, 06:32:54
Meteor Lake mit bis zu 192EU IGP soll Intel 4 Fertigung nutzen ehemals 7nm EUV.
https://i.ibb.co/kBwV6p4/Intel-Meteor-lake-CPU.jpg (https://ibb.co/026pVkC)
https://videocardz.com/newz/intel-reveals-the-design-of-alder-lake-sapphire-rapids-meteor-lake-and-granite-rapids-cpus
https://videocardz.com/newz/intel-introduces-its-new-node-naming-enhanced-superfin-is-now-intel-7
Loeschzwerg
2021-07-27, 06:42:51
Bei 5 - 125W ist man mit MTL ordentlich dynamisch unterwegs. Bin gespannt wie sich das in den Konfiguration der Compute und GPU DIEs auswirkt.
Im Q3 earnings call hat sich Intel zu Meteor Lake und passend dazu zur Fertigung geäußert.
I am happy to share that Intel 7, Intel 4, Intel 3, Intel 20A and Intel 18A are all on or ahead of the timelines we set out in July.
For example, on Intel 4, we said we had taped out our compute tile for Meteor Lake, and this quarter, it came out of the fab and powered up, and within 30 minutes with outstanding performance right where we expected it to be. All told, this is one of the best lead product start-ups we have seen in recent memory, which speaks to the health of the process. In fact, we are using a preproduction release of Intel 4 in our newest neuromorphic computing chip, Loihi 2. Finally, on the product front, we are intent on delivering leadership products in every category in which we compete.
https://www.fool.com/earnings/call-transcripts/2021/10/22/intel-intc-q3-2021-earnings-call-transcript/
basix
2021-10-22, 22:04:51
Bei 5 - 125W ist man mit MTL ordentlich dynamisch unterwegs. Bin gespannt wie sich das in den Konfiguration der Compute und GPU DIEs auswirkt.
Könnten 4-12 Big Cores sein. GPU steht ja schon in der Grafik (96-192 EU).
Big.Little wird man sicher beibehalten. So in etwa würde ich mir das vorstellen:
- Die 1 = 4P + 8E
- Die 2 = 8P + 16E
- Die 3 = 12P + 24E
Diese drei Konfigurationen würden Desktop, Mobile und Ultra Mobile entsprechen (siehe Alder Lake Abstufungen)
Im Q3 earnings call hat sich Intel zu Meteor Lake und passend dazu zur Fertigung geäußert.
https://www.fool.com/earnings/call-transcripts/2021/10/22/intel-intc-q3-2021-earnings-call-transcript/
Ende 2022 / Anfang 2023 wird spannend. AMD Zen 4 in 5nm vs. Metero Lake in Intel 4.
iamthebear
2021-10-24, 01:04:39
Ich habe irgendwo einmal etwasvon 8+32 bei Meteor Lake gelesen, finde allerdings die Quelle nicht mehr.
12 Big Cores im Desktop glaube ich nicht. Es werden eher die Big Cores noch größer.
Also vereinfacht gesagt:
Big Cores werden größer
Little Cores werden mehr
BlacKi
2021-10-24, 01:15:24
Ich habe irgendwo einmal etwasvon 8+32 bei Meteor Lake gelesen, finde allerdings die Quelle nicht mehr.
12 Big Cores im Desktop glaube ich nicht. Es werden eher die Big Cores noch größer.
Also vereinfacht gesagt:
Big Cores werden größer
Little Cores werden mehr
ja, die big werden optimiert. größer wohl nur was den gaming cache angeht.
die littles spielen aber wohl die größere rolle, vorallendingen in cinebench und co.
Ich habe irgendwo einmal etwasvon 8+32 bei Meteor Lake gelesen, finde allerdings die Quelle nicht mehr.
12 Big Cores im Desktop glaube ich nicht. Es werden eher die Big Cores noch größer.
Also vereinfacht gesagt:
Big Cores werden größer
Little Cores werden mehr
Das verwechselst du mit Arrows Lake und ist keineswegs eine Bestätigung.
Arrow Lake (Lion Cove / Skymont) Q4’23
Will feature an updated compute tile with 8/32 config for the high end enthusiast products.
https://videocardz.com/newz/intel-arrow-lunar-and-nova-lake-codenames-appear-in-a-leak-as-meteor-lake-successors
Davon abgesehen könnte ich mir auch vorstellen, dass es erstmal bei 8 big cores bleibt.
Leonidas
2021-10-24, 03:55:42
Wenn Arrow Lake bei 8 großen Kernen bleibt, wird es der Vorgänger (Meteor) auch tun.
Zwei Unsicherheiten: Stimmt die Angabe und können wir davon ausgehen, dass Arrows Lake auch tatsächlich auf Intel 4 basiert und es nicht wieder zu einer Vermischung mit Intel 7 und Intel 4 kommt. Wenn man dem Leak glauben schenkt, soll es innerhalb von nur 2 Quartalen Meteor Lake und Arrows Lake geben. Das hatten wir damals mit ICL-U+CML-U/CML-H und später mit TGL+RKL. Die neuen CPU Architekturen mit tile Design würden zwar erstmal auf Intel 4 hindeuten, doch ausschließen würde ich noch nichts.
So wie es bislang aussieht:
22 RTL 8+16 I7
23 MTL 8+16 I4 (Ocean Cove, nächster IPC-Sprung)
Ende23 ARL 8+32 N3 (Zen5-Konter quasi)
24 LNL 8+32 I3
25 NVL entweder schon Royal Core 20A oder noch ne 8C+x Ausprägung in I3, das ist bislang (warum bloß) nicht zu sagen.
Und übrigens:
22 Sapphire Rapids Golde Cove I7
23 Emerald Rapids Raptor Cove I7
24 Granite Rapids Ocean Cove I4
24 Ruby Rapids Redwood Cove N3
25 Diamond Rapids Lion Cove (?) I3
Wenn man das Spekulationsspiel weiter treibt würde ich sagen:
Golden Cove -> I7
Raptor Cove -> I7 Golden Cove Refresh
Ocean Cove -> I4
Redwood Cove -> N3-Variante von Ocean Cove
Danach wirds undurchsichtig.
iamthebear
2021-10-25, 01:21:21
ja, die big werden optimiert. größer wohl nur was den gaming cache angeht.
Also was den "Gaming Cache" angeht so wurde das afaik nur einmal in einer Intel Präsentation für Raptor Lake erwähnt und hier ist das Lineup ja schon bekannt.
Der "Gaming Cache" bezieht sich nur darauf, dass der L2 von 1.25MB auf 2MB erhöht wird. Ob das jetzt wirklich den riesigen Unterschied macht weiß ich nicht.
die littles spielen aber wohl die größere rolle, vorallendingen in cinebench und co.
2 Little Cores entsprechen bei MT Last ca. einem Big Core mit SMT. Man kann also 8+16 ca mit einem 16 Core gleich setzen und 8+32 mit einem 24 Core.
Was jedoch mit den Little Cores schlechter läuft ist Software, die in etwa BigCores+LittleCores/4 Threads auslastet.
Beispiel: 10 Threads bei 8+8 bzw. 16 Threads bei 8+32.
Das verwechselst du mit Arrows Lake und ist keineswegs eine Bestätigung.
Stimmt das war schon Arrow Lake. Zu Meteor Lake ist noch auffällig wenig bekannt.
Davon abgesehen könnte ich mir auch vorstellen, dass es erstmal bei 8 big cores bleibt.
Denke ich auch allerdings denke ich, dass sich Intel die Lineups noch offen lässt und diese danach anpasst was sich softwareseitig tut.
Wenn Arrow Lake bei 8 großen Kernen bleibt, wird es der Vorgänger (Meteor) auch tun.
Ich würde mir da nicht so sicher sein, dass Arrow Lake der Nachfolger von Meteor Lake sein wird. Es liegen nur 2 Quartale dazwischen und Intel 4 wird vermutlich kaum pünktlich sein.
MLID hat erwähnt, dass wir uns generell von dem Gedanken eines Nachfolgers lösen sollen und dass es mehrere Architekturen parallel geben wird.
Mit den verschiedenen Tiles wird es auch mehrere Fertigungen parallel geben. Im Gespräch ist TSMC für die GPU.
Was ich auch nicht für ausgeschlossen halte ist dass es 2 CPUs parallel gibt: Meteor Lake in Intel 4 und Arrow Lake bei TSMC.
So wie es bislang aussieht:
22 RTL 8+16 I7
23 MTL 8+16 I4 (Ocean Cove, nächster IPC-Sprung)
Ende23 ARL 8+32 N3 (Zen5-Konter quasi)
24 LNL 8+32 I3
25 NVL entweder schon Royal Core 20A oder noch ne 8C+x Ausprägung in I3, das ist bislang (warum bloß) nicht zu sagen.
Und übrigens:
22 Sapphire Rapids Golde Cove I7
23 Emerald Rapids Raptor Cove I7
24 Granite Rapids Ocean Cove I4
24 Ruby Rapids Redwood Cove N3
25 Diamond Rapids Lion Cove (?) I3
Wenn man das Spekulationsspiel weiter treibt würde ich sagen:
Golden Cove -> I7
Raptor Cove -> I7 Golden Cove Refresh
Ocean Cove -> I4
Redwood Cove -> N3-Variante von Ocean Cove
Danach wirds undurchsichtig.
Laut MLID wurde Ocean Cove eingestampft.
Meteor Lake ist Redwood Cove + Crestmont.
Arrow Lake in TSMC N3 halte ich für möglich.
Lunar Lake ist Lion Cove
Nova Lake ist Panther Cove
Was den Royal Core angeht:
Irgendwie habe ich das Gefühl, dass hier nicht die Big Cores gemeint sind sondern dass es sich eher um 1-2 wirklich fette Kerne handelt für die reine ST Software die wirklich nur 1 Thread nutzt.
Generell ist das alles jedoch mit Vorsicht zu genießen. Derzeit weiß noch nicht einmal Intel ob das alles so funktionieren wird.
Der_Korken
2021-10-25, 09:56:35
Was den Royal Core angeht:
Irgendwie habe ich das Gefühl, dass hier nicht die Big Cores gemeint sind sondern dass es sich eher um 1-2 wirklich fette Kerne handelt für die reine ST Software die wirklich nur 1 Thread nutzt.
Das wären dann aber drei verschiedene Arten von Cores? Ich glaube das wäre übertrieben, weil der Unterschied gar nicht groß genug wäre, um diesen Design-Aufwand zu rechtfertigen. Ich könnte mir eher vorstellen, dass die Big Cores noch lange Zeit bei 8 stehen bleiben oder sogar wieder auf 4-6 runtergehen und die IPC weiter gepusht wird. Da man durch mehr kleine Kerne immer leicht an MT und Effizienz kommt, kann man die großen Kerne kompromissloser designen in Hinblick auf Fläche und Verbrauch.
basix
2021-10-25, 10:24:18
Das wären dann aber drei verschiedene Arten von Cores? Ich glaube das wäre übertrieben, weil der Unterschied gar nicht groß genug wäre, um diesen Design-Aufwand zu rechtfertigen. Ich könnte mir eher vorstellen, dass die Big Cores noch lange Zeit bei 8 stehen bleiben oder sogar wieder auf 4-6 runtergehen und die IPC weiter gepusht wird. Da man durch mehr kleine Kerne immer leicht an MT und Effizienz kommt, kann man die großen Kerne kompromissloser designen in Hinblick auf Fläche und Verbrauch.
Drei verschieden Cores hören sich komplex an, passiert im ARM-Universum aber bereits. Beim PC halte ich das allerdings nicht unbedingt für sinnvoll.
8 P-Cores scheint mir eine sinnvolle Grösse zu sein. Es gibt schon einiges an SW, welche mit 6-8 Cores skaliert und die NextGen Konsolen haben auch 8 Cores. Mit 8C hat man das alles abgedeckt und sogar noch etwas Luft nach oben. Werden die Big Cores in den nächsten Iterationen nicht übermässig grösser, sollte ihr Anteil der Chipfläche mit neuen Nodes geringer werden und man kann mehr E-Cores verbauen. Scheint mir ein sinnvoller Path Forward zu sein.
Zurück auf 4 Cores halte ich für sehr unwahrscheinlich, zumindest für das Topmodell. Bei den Mobile/U-Mobile Varianten wird man bei Alder Lake ja schon die Anzahl P-Cores reduzieren.
Der_Korken
2021-10-25, 11:14:58
Ich könnte mir schon vorstellen, dass die Anzahl der P-Cores nochmal schrumpft. Nur weil Software ohne big.LITTLE bis 8 Kerne skaliert, heißt das ja nicht, dass es mit auch weiter geht. Kerne 5 bis 8 arbeiten vielleicht nur Kleinkram ab, der sich theoretisch weiter parallelisieren ließe, was in der Praxis aber keinen Vorteil bringt, weil der Main-Thread auf Kern 1 dann limitiert. Mit 4 großen und 8 kleinen Kernen würde es aber genauso schnell laufen (bzw. mit 4 extragroßen und 12 kleinen Kernen sogar noch schneller).
Das wären dann aber drei verschiedene Arten von Cores? Ich glaube das wäre übertrieben, weil der Unterschied gar nicht groß genug wäre, um diesen Design-Aufwand zu rechtfertigen. Ich könnte mir eher vorstellen, dass die Big Cores noch lange Zeit bei 8 stehen bleiben oder sogar wieder auf 4-6 runtergehen und die IPC weiter gepusht wird. Da man durch mehr kleine Kerne immer leicht an MT und Effizienz kommt, kann man die großen Kerne kompromissloser designen in Hinblick auf Fläche und Verbrauch.
Sehe ich auch so. Das ist der cove-Nachfolger. Komplett neue Architektur.
basix
2021-10-25, 14:10:09
Ich könnte mir schon vorstellen, dass die Anzahl der P-Cores nochmal schrumpft. Nur weil Software ohne big.LITTLE bis 8 Kerne skaliert, heißt das ja nicht, dass es mit auch weiter geht. Kerne 5 bis 8 arbeiten vielleicht nur Kleinkram ab, der sich theoretisch weiter parallelisieren ließe, was in der Praxis aber keinen Vorteil bringt, weil der Main-Thread auf Kern 1 dann limitiert. Mit 4 großen und 8 kleinen Kernen würde es aber genauso schnell laufen (bzw. mit 4 extragroßen und 12 kleinen Kernen sogar noch schneller).
Prinzipell hast du schon recht. Am PC gibt es aber haufenweise Bananen-Software, das ist kein geschlossenes Ökosystem. Da ist eine weniger komplexe Lösung (-> CPU Aufbau) oftmals im Vorteil.
Wie gesagt, mit der Zeit sollte der Anteil der P-Cores am Gesamtkonstrukt sowieso abnehmen (neue, kleinere Nodes). Den freiwerdenden Platz kann man mit E-Cores und GPU vollpflastern. Das sehe ich nicht ubedingt im Widerspruch mit der Idee, dass man weniger P-Cores hat. Halt einfach nicht von der Anzahl her, aber von der Chipfläche her. Mega-Riesige CPU-Kerne sind mMn eh nicht sinnvoll. Da sind gezielte Beschleuniger für gewisse Tasks deutlich effektiver.
mocad_tom
2021-10-25, 19:08:57
Bei Meteor Lake wird Foveros verwendet.
Wieso nicht EMIB?
Ich denke Foveros wird deshalb verwendet, weil im Base-Die massenweise L3-Cache steckt.
So wie massenweise Cache im Base-Die von Ponte Vecchio steckt.
Es könnte etwas ähnliches wie der V-Cache bei AMD sein.
Die eigentlichen Tags und TLBs stecken im Compute-Tile, die Cache-Zeilen stecken im Base-Die(z.B.).
iamthebear
2021-10-26, 00:51:02
Derzeit gibt es 8 Big Cores für i7/9 und 6 Big Cores für i5 im Desktop. Ich denke nicht, dass dies nach Arrow Lake mit 8+32 reduziert wird da es auch Software gibt (vor allem Spiele) die so halb MT optimiert sind. Es werden mehr als 4 Kerne benutzt allerdings nicht mehr als 40 dass man wirklich von mehr als 32 Little Cores noch profitieren würde. Man braucht hier nur auf die Threadripper Benchmarks über 32 Kernen sehen.
Was den Royal Core angeht:
Laut dem Video von MLID sind die Designziele von Lunar Lake:
.) Royal Core bis zu 100% IPC mehr als Golden Cove
.) Lunar Lake mindestens 30% über Meteor Lake
.) SMT4 steht zur Diskussion
Irgendetwas spießt da etwas und 100% IPC hört sich etwas zu optimistisch an selbst für ein radikales Redesign. Daher meine Vermutung:
.) 1-2 Royal Cores mit 100% mehr IPC und SMT4
.) 6 reguläre Big Cores mit <30% mehr IPC und SMT2
.) Rest Little Cores ohne SMT
Vom Scheduling wäre das nur 1 Stufe mehr und mit SMT4 wären wieder alle Threads ca. gleich schnell. Bis dahin sollte das doch schon längts funktionieren.
Leonidas
2021-10-26, 05:45:33
Arrows Lake auch tatsächlich auf Intel 4 basiert
Arrow Lake ist laut Gerüchten TSMC N3.
Derzeit gibt es 8 Big Cores für i7/9 und 6 Big Cores für i5 im Desktop. Ich denke nicht, dass dies nach Arrow Lake mit 8+32 reduziert wird da es auch Software gibt (vor allem Spiele) die so halb MT optimiert sind. Es werden mehr als 4 Kerne benutzt allerdings nicht mehr als 40 dass man wirklich von mehr als 32 Little Cores noch profitieren würde. Man braucht hier nur auf die Threadripper Benchmarks über 32 Kernen sehen.
Was den Royal Core angeht:
Laut dem Video von MLID sind die Designziele von Lunar Lake:
.) Royal Core bis zu 100% IPC mehr als Golden Cove
.) Lunar Lake mindestens 30% über Meteor Lake
.) SMT4 steht zur Diskussion
Irgendetwas spießt da etwas und 100% IPC hört sich etwas zu optimistisch an selbst für ein radikales Redesign. Daher meine Vermutung:
.) 1-2 Royal Cores mit 100% mehr IPC und SMT4
.) 6 reguläre Big Cores mit <30% mehr IPC und SMT2
.) Rest Little Cores ohne SMT
Vom Scheduling wäre das nur 1 Stufe mehr und mit SMT4 wären wieder alle Threads ca. gleich schnell. Bis dahin sollte das doch schon längts funktionieren.
Halte ich für Quatsch. 100% zu GC ist für den big Core in 5 Generationen doch völlig normal. Die großen Brocken werden Redwood und Lion Cove werden. Du musst aber die % Rechnung im Augen behalten. Siehe Zen3 vs Zen1.
Auch SMT4 ist ne völlig normale Folge wenn die Cores immer größer werden.
w0mbat
2021-10-26, 10:34:37
Arrow Lake ist laut Gerüchten TSMC N3.
Woher soll denn das Volumen kommen? Apple und AMD haben sicher schon den Großteil fest gebucht, was soll Intel da groß produzieren? Und wenn sie so viel Geld in ihre eignen FABs stecken, dann macht das noch weniger Sinn.
Ich glaub das verwechselt die Gerüchteküche gerade GPUs mit CPUs.
Der_Korken
2021-10-26, 10:42:14
Halte ich für Quatsch. 100% zu GC ist für den big Core in 5 Generationen doch völlig normal. Die großen Brocken werden Redwood und Lion Cove werden. Du musst aber die % Rechnung im Augen behalten. Siehe Zen3 vs Zen1.
Auch SMT4 ist ne völlig normale Folge wenn die Cores immer größer werden.
Wenn die big cores nur noch für ST-Loads bzw. Low-MT-Loads gebraucht werden, könnte man sogar mutmaßen, dass SMT irgendwann wieder aus diesen verschwinden wird. SMT4 klingt für mich schon sehr fragwürdig, solange SMT2 noch meilenweit von 100% Skalierung entfernt ist. Um mit SMT4 die Skalierung zu sehen, die wir heute bei SMT2 sehen, müsste man die Breite der Cores verdoppeln ohne die ST-Leistung zu erhöhen. Das steht aber im Widerspruch zu dem Ziel, was man mit den big cores verfolgt.
Woher soll denn das Volumen kommen? Apple und AMD haben sicher schon den Großteil fest gebucht, was soll Intel da groß produzieren? Und wenn sie so viel Geld in ihre eignen FABs stecken, dann macht das noch weniger Sinn.
Ich glaub das verwechselt die Gerüchteküche gerade GPUs mit CPUs.
Arrow Lake ist sicherlich wie Raptor Lake. Das sind vor allem die großen Desktop-Varianten und teure Mobilvarianten, davon braucht man nicht sooo viele. Der Masse bleibt schlichtweg Meteor Lake (bzw. Alder Lake). Es werden sicherlich Teile des Lineups ergänzt oder ersetzt, nicht das komplette Lineup.
Wenn die big cores nur noch für ST-Loads bzw. Low-MT-Loads gebraucht werden, könnte man sogar mutmaßen, dass SMT irgendwann wieder aus diesen verschwinden wird. SMT4 klingt für mich schon sehr fragwürdig, solange SMT2 noch meilenweit von 100% Skalierung entfernt ist. Um mit SMT4 die Skalierung zu sehen, die wir heute bei SMT2 sehen, müsste man die Breite der Cores verdoppeln ohne die ST-Leistung zu erhöhen. Das steht aber im Widerspruch zu dem Ziel, was man mit den big cores verfolgt.
Wenn die Cores immer breiter werden, wird auch die Auslastung immer schwieriger. Sicherlich steigert man weiterhin die IPC, aber in der Breite wird dann SMT2 irgendwann nicht mehr reichen, um den Core bei Massiv-MT bei komplett auszulasten. Energieeffizienz spielt hier auch mit hinein. Es ist u.U. billiger den Takt zu senken und stattdessen mehr Threads abarbeiten zu können. PowerPC nutzen aufgrund ihrer Breite ebenfalls SMT4.
iamthebear
2021-10-26, 11:30:37
In der Präsentation von Intel war die Reden von:
.) Compute Die (Intel 4)
.) SOC Die (vermutlich mit Intel 7 oder 14nm)
.) GPU Die (TSMC 3nm)
Kühlungstechnisch ist Foveros sicher suboptimal vor allem wenn der GPU Die auch wirklich etwas tut.
Ich denke, dass es zwar keinen Cache gibt der drauf gestapelt wird sondern eher sich CPU und GPU denselben Cache teilen müssen.
Es ist jedoch durchaus möglich. dass die dicken GPU Tiles mit 128/196 EUs nur im Notebookbereich existieren während die 125W Desktop Varianten dann stattdessen wie AMD auf diskrete GPUs setzen.
Es könnte aber gut möglich sein, dass die GPU einfach auf den SOC Die gestacked wird und ihren eigenen Cache (eventuell auch eDRAM) während für den Compute Die dann eine andere Lösung kommt.
basix
2021-10-26, 14:18:02
Wenn ich Foveros in dieser Folie interpretieren würde:
- Compute Die und GPU Die werden auf den SOC Die gestacked. Evtl. überlappen die Compute Tiles dabei den SOC Tile oder der SOC Tile beherbergt massig SRAM/eDRAM wie AMDs Infinity Cache / V-Cache
Vom Stacking her siehe Lakefield. Einfach mit dem Unterschied, dass kein POP-Memory noch obendrauf kommt (thermische Probleme deutlich reduziert, die Power Die können direkten Kontakt zur Kühllfäche machen) und dass zwei verschiedene Die auf den SOC-Die gestacked werden. Selbst Intels Folien zeigen bezüglich Foveros dieses Szenario, einfach mit einem "Active Interposer" anstelle eines SOC-Tile: https://arstechnica.com/gadgets/2018/12/intel-introduces-foveros-3d-die-stacking-for-more-than-just-memory/
Ähnlich macht das AMD mit V-Cache und vermutlich Navi 31/32. Einfach mit einer etwas anderen technologischen Grundlage.
Nur informationshalber: Ist übrigens bei Zen4 offenbar auch schon so:
https://www.techpowerup.com/288273/amd-to-implement-tsmc-soic-tech-with-upcoming-hpc-chips
jedenfalls bei Genoa. Ob das auch für Desktop umgesetzt wird, wird sich zeigen.
iamthebear
2021-10-26, 19:04:25
Die Frage dich mir dabei stelle:
.) 125W TDP ist bereits bei 10nm monolithisch relativ hoch
.) Mit einem Shrink von Intel 7 auf Intel 4 sollte der Compute Die deutlich kleiner werden
.) Wenn dann noch mehrere Lagen aufeinander gestacked werden wird es noch schwieriger die Hitze vom Die weg zu bekommen.
Auch wenn CPU + GPU auf dem IO Die aus thermischer Sicht Sinn macht: Beim Topmodell bezweifle ich dass CPU + GPU beide auf den IO Die passen.
Wenn ich das mal grob überschlage:
1 Golden Cove hat 10 mm². Redwood Cove hat sicher etwas mehr Transistoren also zumindest 7.5mm².
Angenommen es gibt nur 8 Big Cores + 16 Little Cores wie bei Raptor Lake wären das 12 * 7.5 = 90 mm²
512 EUs mit TSMC 6nm sind 400 mm². Wenn man alle Hardwareinterfaces abzieht und den Shrink auf Intel 4 mitgerechnet eventuell um die 50mm² für 128 EUs
Dazu dann noch um die 40mm² L3 Cache (dieser wird eher schlechter shrinken wenn man von TSMC ausgeht)
Dann wären wir bei ca. 180 mm² in der Maximalkonfiguration. So groß wird der IO Die kaum werden.
Bei den kleineren Varianten würde das wohl noch funktionieren aber diese kommen kaum auf 125W.
Was spricht denn gegen die Variante IO Die + GPU per Foveros drauf und Compute Die per EMIB nebenbei?
AMD bekommt 141W bei 80mm² weggekühlt. Das ist halt ähnlich.
basix
2021-10-26, 19:36:53
Auch wenn CPU + GPU auf dem IO Die aus thermischer Sicht Sinn macht: Beim Topmodell bezweifle ich dass CPU + GPU beide auf den IO Die passen.
Muss es das? Wieso sollten die Top-Die nicht über das Base-Die hinausragen können? Wäre sowieo sinnvoll, da man damit einiges an Power Vias nicht durch den Base-Die führen müsse.
iamthebear
2021-10-26, 22:41:21
AMD bekommt 141W bei 80mm² weggekühlt. Das ist halt ähnlich.
Der Unterschied ist nur, dass bei AMD bei 140W wirklich Schluss ist während bei Intel die 125W nur PL1 ist. PL2 kann deutlich höher sein und wenn es um die Übertragung von Die auf Heatspreader geht dann nützt es auch wenig wenn die 200+ Watt nur 60 Sekunden anlegen.
Abgesehen davon: Wieviel Energie von den 140W kommt denn beim 5800X tatsächlich vom Compute Die und wieviel kommt vom IO Die auf dem CPU auch der Speichercontroller sitzt?
Muss es das? Wieso sollten die Top-Die nicht über das Base-Die hinausragen können? Wäre sowieo sinnvoll, da man damit einiges an Power Vias nicht durch den Base-Die führen müsse.
Hab noch einmal nachgegoogelt und du scheinst Recht zu haben.
Bei Foveros musste der Base Die noch größer sein.
Ab Foveros Omni (das bei Meteor Lake zum Einsatz kommt) kann der Base Die auch kleiner sein.
Die Idee SOC Die unten mit CPU + GPU Die oben könnte also gar nicht so falsch sein.
davidzo
2021-10-26, 22:42:48
Wenn die big cores nur noch für ST-Loads bzw. Low-MT-Loads gebraucht werden, könnte man sogar mutmaßen, dass SMT irgendwann wieder aus diesen verschwinden wird. SMT4 klingt für mich schon sehr fragwürdig, solange SMT2 noch meilenweit von 100% Skalierung entfernt ist. Um mit SMT4 die Skalierung zu sehen, die wir heute bei SMT2 sehen, müsste man die Breite der Cores verdoppeln ohne die ST-Leistung zu erhöhen. Das steht aber im Widerspruch zu dem Ziel, was man mit den big cores verfolgt.
Genau, der einfachste Weg die ST perf zu steigern ist sogar der Verzicht auf SMT. Dadurch dass bei SMT4 die ressourcen geshared werden, also caches, TLB, BP tables ist das zwangsläufig keine so gute und effiziente 1T Maschine mehr. Caches müssen größer sein, größere Assoziativität bieten und sind damit wähernd der 1T Nutzung langsamer und weniger energieeffizient als ein perfekt ausgewogener 1T Core. Außerdem hat man weniger Datenlokalität und damit ggf. höheren energieverbrauch.
Intel hat sich zudem mit SMT ja sicherheitstechnisch schon so stark die Finger verbrannt, dass man imo eher nicht gleich das nächste Abenteuer starten will mit SMT4.
Es ist hier seit Northwood und Smithfield schon tausendmal spekuliert worden dass AMD oder Intel irgendwann SMT4 bringen, nie ist es passiert.
Wieviel Kompromisse man bei der 1T Leistung machen musste sieht man ja bei IBMs Power 8 SMT8 Implementierung: https://www.anandtech.com/show/10435/assessing-ibms-power8-part-1/4
Bei Power9 wird daher im HPC nur noch die SMT4 Variante eingesetzt, auch wenn es die SMT8 version parallel weiter gibt.
Auch SMT4 ist ne völlig normale Folge wenn die Cores immer größer werden.
Nur wenn Performance per Area wichtig ist. Wenn Performance per Watt wichtiger ist, wie es bei Mobilprozessoren eigentlich sein sollte (siehe M1max), dann wäre es sinnvoller SMT wegzulassen und für reine MT workloads stattdessen E-cores zu nehmen. Clock gating von ressourcen ist anscheinend effizienter als zu versuchen diese mehr schlecht als recht dennoch auszulasten. Bei den E-Cores gated Intel ja schon innerhalb der Pipeline, z.B. wird der zweite 3fach decoder bei den E-Cores einfach abgeschaltet wenn nicht gebraucht.
iamthebear
2021-10-27, 00:33:41
Ein Vorteil in der aktuellen Konstellation mit Big Cores + SMT und Little Cores ohne SMT ist, dass unter Volllast alle Threads annähernd gleich schnell laufen. Die Big Cores bearbeiten 2, die Little Cores nur 1. Das sollte das Scheduling für alle Betriebssysteme ohne Thread Director (bzw. falls dieser keine klaren Präferenzen der Threads ermitteln kann) deutlich vereinfachen.
Beispiel: Mit 8+8 und SMT kann man gleichmäßige Performance auf ca. Little Core Niveau für 24 Threads garantieren. Ohne SMT kann man dies nur für 16 Threads, wobei von diesen 8 schneller laufen.
SMT hat auch den Vorteil, dass gelegentliche L3 Misses oder lahme Speicherlatenzen nicht so sehr auf die Endperformance durchschlagen, da der Kern trotzdem ausgelastet bleibt.
Die große Frage ist jedoch: Wie aufwändig ist SMT bei heutigen bzw. zukünftigen Designs? Bei Einführung zu P4 Zeiten bzw. Wiedereinführung mit Nehalem kann ich mich an Aussagen erinnern, dass es nur 10% Transistoren kostet. Die Frage ist ob dies immer noch zutrifft. Falls es z.B. mittlerweile 20% sind macht es bei den Big Cores keinen Sinn mehr. Da ist es sinnvoller stattdessen ein paar Little Cores mehr zu verwenden.
Zossel
2021-10-27, 06:29:14
Genau, der einfachste Weg die ST perf zu steigern ist sogar der Verzicht auf SMT.
SMT war bei Intel nie der Knaller, selbst bei gut parallelisierbaren Lasten war der Gewinn nicht sonderlich ausgeprägt.
Zen1 war da schon um einiges besser, Faktor 3/4 bzw. 4/3 je nach Betrachtungswinkel.
Eigene Messungen, Kernel Compile mit make -j x bzw. make -j x/2.
Hat da jemand Werte für andere CPUs?
Wieviel Kompromisse man bei der 1T Leistung machen musste sieht man ja bei IBMs Power 8 SMT8 Implementierung: https://www.anandtech.com/show/10435/assessing-ibms-power8-part-1/4
Bei Power9 wird daher im HPC nur noch die SMT4 Variante eingesetzt, auch wenn es die SMT8 version parallel weiter gibt.
Aufgepasst, eine Power Generation gab es mal als In-Order mit hohen Takt.
basix
2021-10-27, 08:14:12
Ein Vorteil in der aktuellen Konstellation mit Big Cores + SMT und Little Cores ohne SMT ist, dass unter Volllast alle Threads annähernd gleich schnell laufen. Die Big Cores bearbeiten 2, die Little Cores nur 1. Das sollte das Scheduling für alle Betriebssysteme ohne Thread Director (bzw. falls dieser keine klaren Präferenzen der Threads ermitteln kann) deutlich vereinfachen.
Genau das habe ich mir auch schon gedacht. Und solange High-Prio Workloads vor allem auf den P-Cores laufen, sollte auch die ST Performance normalerweise stimmen.
Nimmt man +30...40% aufgrund SMT dazu, müsste ein E-Core dementsprechend 65...70% der Performance eines P-Cores liefern, zusammengesetzt aus Takt und IPC. Da die E-Cores eher etwas langsamer laufen, sind 70-75% IPC wohl eine gute Hausnummer. Dann wäre die IPC des P-Cores in etwa +30...+40% höher als die des E-Cores. Was bei Alderlake ziemlich genau zu passen scheint.
Zossel
2021-10-27, 11:11:02
Nimmt man +30...40% aufgrund SMT dazu,
Wie viel schneller schafft den Intel mit SMT?
Ich glaub nicht, dass sich auf den littles SMT überhaupt lohnt. Die sind ja schon sehr gut auf optimalen Durchsatz optimiert, wahrscheinlich wäre der Gewinn mit SMT nur sehr klein.
iamthebear
Die sind doch nicht gleich schnell :freak:. SMT ist doch kein 2-Teiler für einen big-Core. Natürlich ist ein Thread, der auf dem big-Core landet deutlich schneller durch als auf einem little-Core. Der 2. Thread, der auf dem big-Core landet wird halt deutlich langsamer laufen, dementsprechend funktioniert der Windows Scheduler ja auch. Dennoch werden Programme von den littles profitieren, wie sie von SMT profitiert haben. Darauf setzt Intel (jedenfalls bis Royal Core, mal sehen, was dann kommt).
Und ein Meteor Lake, bei dem das Core-Die vielleicht noch 100mm² groß ist, wird man halt keine 241W mehr fahren können, so einfach ist das.
basix
2021-10-27, 13:09:06
Wie viel schneller schafft den Intel mit SMT?
Wissen wir noch nicht, wenn du darauf hinaus wolltest ;)
Die 30-40% ist in etwas das, wass Intel und AMD im Schnitt in Rendering Benchmarks hinkriegen. AMD eher an der oberen Grenze und Intel an der unteren Grenze. Je nach Applikation kann das aber zwischen 0...80% schwanken.
Bei Anandtech gab es mit Zen 3 mal einen schönen Test: https://www.anandtech.com/show/16261/investigating-performance-of-multithreading-on-zen-3-and-amd-ryzen-5000/2
Edit:
Hier noch ein paar interessante Ergebnisse inkl. Intel CPUs https://linustechtips.com/topic/946917-intel-ht-vs-amd-smt-scaling/?do=findComment&comment=11584053
aufkrawall
2021-10-27, 14:25:19
Wie viel schneller schafft den Intel mit SMT?
Bei WinRAR mit ungedrosseltem 11400F:
smt off: 13.354 KB/s
smt on: 23.105 KB/s
Bringt ja wirklich nichts, was ein Müll HT bei Intel ist. Kann weg. :freak: ;D
davidzo
2021-10-28, 15:20:55
Aufgepasst, eine Power Generation gab es mal als In-Order mit hohen Takt.
Vorsicht, lieber nachgucken als Vermutungen anzustellen. Power 8 ist eine massive out of order Architektur mit einem für damalige Verhältnisse riesigen ROB. Auch der Vorgänger Power 7 war eine ein breites, massiv out-of-order, ILP-fokussiertes Design.
Du verwechselst die Power Designs wohl mit den abgespeckten Power-PC Prozessoren die außer der ISA wenig gemein haben und im Gamecube, xbox360 und PS3 stecken.
Die waren In-Order und auf minimale Area und viel Takt optimiert, sind aber aus einem ganz anderen Jahrzehnt und Marktsegment als Power8. Solange ich auf Serverlevel Power CPUs zurüschauen kann gab es nur 2007 einen einzigen Ausflug in die in-order-welt mit einem 4,7Ghz Multicore Power6. Alles davor seit dem Power1 um 1990 und alles danach nutzt speculative out-of-order Processing.
Der Power 1 ist der erste Chip der überhaupt register renaming und out of order execution implementiert hat - 12 Jahre vor Intel mit dem Northwood!
Ein Vorteil in der aktuellen Konstellation mit Big Cores + SMT und Little Cores ohne SMT ist, dass unter Volllast alle Threads annähernd gleich schnell laufen. Die Big Cores bearbeiten 2, die Little Cores nur 1. Das sollte das Scheduling für alle Betriebssysteme ohne Thread Director (bzw. falls dieser keine klaren Präferenzen der Threads ermitteln kann) deutlich vereinfachen.
Beispiel: Mit 8+8 und SMT kann man gleichmäßige Performance auf ca. Little Core Niveau für 24 Threads garantieren.
Da kann man nichts garantieren, das ist auch überhaupt nicht vorraussehbar für den Scheduler wie was mit SMT skaliert.
Wie effektiv SMT ist, bleibt extrem workloadabahängig und ist nicht einfach nach ST oder MT loads festzustellen. Es gibt Workloadads die weniger als 10% oder gar eine performanceregression zeigen(durch mehr power draw, geringere taktraten wegen overhead und cachingstress) , es gibt aber auch welche die +70-80% bringen wie Aufkrawall da gerade gezeigt hat. Das ist immer dann der Fall wenn kaum ILP existiert und das decode/fetch und cache-konstrukt für zwei volle Threads ausreicht. Dann gibts theoretisch biszu +100% oben drauf.
Von der Energieeffizienz ist es effektiver bei reinen MT workloads die großen kerne komplett schlafen zu legen und stattdessen die TDP komplett mit mehr kleinen kernen auszufüllen.
Ein Großer Kern der kompromisslos auf einen einzelthread ausgelegt ist mag zwar von der Diesize bezogen auf den durchsatz in MT loads nicht besonders effizient sein, wäre aber immerhin kleiner als ein big core der noch zusätzlichen Ballast für einen zweiten oder gar vierten Thread mit sich herum schleppt. Und so ein reiner 1T Kern würde in Latenzkritischen 1T-Workloads auch besser performen als ein Kern mit besagtem SMT-ballast.
Der_Korken
2021-10-28, 16:26:28
Von der Energieeffizienz ist es effektiver bei reinen MT workloads die großen kerne komplett schlafen zu legen und stattdessen die TDP komplett mit mehr kleinen kernen auszufüllen.
Ich glaube das ist der entscheidende Punkt. In dem Moment wo die big cores für massiv parallele Berechnungen gar nicht mehr benutzt werden, wird SMT dort überflüssig. Wenn, dann würde man eher in den kleinen Kern nachträglich noch SMT implementieren, wobei auch das fraglich ist, wenn man die Kerne bewusst schlank hält, um über die Anzahl zu skalieren statt über immer größer werdende Kerne. Letzteres hat man in x86 immer gemacht, aber eigentlich nur, damit es auch in ST-Workloads Fortschritte gibt und das müssen die kleinen Kerne gar nicht leisten. Die Entwicklung 8+8 -> 8+16 -> 8+32 sagt imho ganz gut, wohin die Reise bei Intel geht. Es hätte ja auch 8+8 -> 12+12 -> 16+16 sein können.
iamthebear
2021-10-28, 20:47:14
Bei WinRAR mit ungedrosseltem 11400F:
smt off: 13.354 KB/s
smt on: 23.105 KB/s
Bringt ja wirklich nichts, was ein Müll HT bei Intel ist. Kann weg. :freak: ;D
WinRAR ist schon ein relativ extremes Beispiel, da das relativ wenige Berechnungen in der CPU durchführt da es fast durchgehend auf den RAM oder Cache wartet..
Ich glaub nicht, dass sich auf den littles SMT überhaupt lohnt. Die sind ja schon sehr gut auf optimalen Durchsatz optimiert, wahrscheinlich wäre der Gewinn mit SMT nur sehr klein.
Natürlich geht es bei den Little Cores primär darum den Kern klein zu halten.
Ein nicht zu unterschätzendes Problem dürfte jedoch das Scheduling bei so vielen Threads sein. Intel bringt mit Arrow Lake ja schon 8+32 also 48 Threads. Mit SMT auf den kleinen Kernen wären das dann schon 80 Threads. Man sieht ja an den Threadripper Benchmarks wie schlecht selbst gut MT optimierte Software dann jenseits von 32 Kernen skaliert.
iamthebear
Die sind doch nicht gleich schnell :freak:. SMT ist doch kein 2-Teiler für einen big-Core. Natürlich ist ein Thread, der auf dem big-Core landet deutlich schneller durch als auf einem little-Core. Der 2. Thread, der auf dem big-Core landet wird halt deutlich langsamer laufen, dementsprechend funktioniert der Windows Scheduler ja auch.
Bei SMT sind beide Threads gleichberechtigt.
Beispiel:
1 Thread auf einem Big Core: 100 Operationen/Sekunde
2 Threads auf einem Big Core: 2 Threads je 70 Operationen/Sekunde also in Summe 140 Operationen/Sekunde
Wer das nicht glaubt kann es gerne selbst nachtesten indem er einen Benchmark 2 Mal im Loop anwirft und per Task Manager dem jeweiligen Kern zuweist. Hier wird auch die Priorität des Prozesses ignoriert.
Und ein Meteor Lake, bei dem das Core-Die vielleicht noch 100mm² groß ist, wird man halt keine 241W mehr fahren können, so einfach ist das.
Ich sehe das so:
.) Der neue Prozess bringt (zumindest in der ersten Version) keinen Taktvorsprung
.) Der neue Prozess kann die Leistungsaufnahme bei gleicher Architektur/Takt um ca. 30% senken (entspricht 50% mehr Performance/Watt)
.) Intel wird keine 125W Desktop CPU launchen wenn diese nicht in allen Bereichen besser ist als die vorherige. Deswegen kam selbst Tiger Lake nie auf den Desktop
.) Es sind keine großartigen IPC Steigerungen zu erwarten die das Auffangen könnten.
.) Raptor Lake wird vermutlich noch etwas über den 240W liegen (eher um die 280W)
a) Falls Intel weiterhin 8+16 bringt, so würden sie ca. 160W brauchen. Mit 125W ohne Turbo wären sie etwas langsamer
b) Falls Intel mehr als 8+16 bringt (z.B. 8+24) so würden sie zwar auch mit 125W Raptor Lake schlagen allerdings verschenken sie dann schon einiges an Performance und würden z.B. gegenüber einem 24 Core Zen4 stark zurückfallen.
Also ich denke es kommt entweder:
a) IO Die unten mit CPU+GPU per Foveros Omni oben
b) GPU per Foveros Omni auf dem IO Die, Compute Die hängt per EMIB dran.
Ich glaube das ist der entscheidende Punkt. In dem Moment wo die big cores für massiv parallele Berechnungen gar nicht mehr benutzt werden, wird SMT dort überflüssig. Wenn, dann würde man eher in den kleinen Kern nachträglich noch SMT implementieren, wobei auch das fraglich ist, wenn man die Kerne bewusst schlank hält, um über die Anzahl zu skalieren statt über immer größer werdende Kerne. Letzteres hat man in x86 immer gemacht, aber eigentlich nur, damit es auch in ST-Workloads Fortschritte gibt und das müssen die kleinen Kerne gar nicht leisten. Die Entwicklung 8+8 -> 8+16 -> 8+32 sagt imho ganz gut, wohin die Reise bei Intel geht. Es hätte ja auch 8+8 -> 12+12 -> 16+16 sein können.
Ich denke, dass der Nutzen von SMT bei den Little Cores prozentual niedriger ist als bei den Big Cores. Gleichzeitig ist der Transistoraufwand vermutlich relativ ähnlich.
SMT Threads auf den Little Cores würden dann auch sehr langsam laufen, was bei einer ungünstigen Schedulerentscheidung dann auch nach hinten losgehen kann.
Ein weiteres Problem könnte auch der Energieverbrauch sein.
Wenn die Little Cores dieselbe Energieeffizienz wie die Big Cores haben, so bedeutet die in etwa doppelte Verlustleistung/Fläche wenn die Little Cores auch am Anschlag laufen. Wenn dann SMT auch noch dazu kommt könnte das schon ein Problem mit lokalen Hotspots geben.
Da kann man nichts garantieren, das ist auch überhaupt nicht vorraussehbar für den Scheduler wie was mit SMT skaliert.
Wie effektiv SMT ist, bleibt extrem workloadabahängig und ist nicht einfach nach ST oder MT loads festzustellen. Es gibt Workloadads die weniger als 10% oder gar eine performanceregression zeigen(durch mehr power draw, geringere taktraten wegen overhead und cachingstress) , es gibt aber auch welche die +70-80% bringen wie Aufkrawall da gerade gezeigt hat. Das ist immer dann der Fall wenn kaum ILP existiert und das decode/fetch und cache-konstrukt für zwei volle Threads ausreicht. Dann gibts theoretisch biszu +100% oben drauf.
Workloads die stark durch SMT profitieren sind oft diese, wo der Kern schlecht ausgelastet ist (z.B. durch viele Cache Misses, schlecht parallelisierbaren Code mit vielen Sprüngen usw.) Diese sollten in der Theorie auch diese sein, wo der Unterschied Big/Little kleiner ist.
Beispiel WinRAR: Hier bringt SMT 80% weil der Thread je nach Dictionary fast nur auf L3/RAM wartet. Umgekehrt kann das "auf L3/RAM warten) ein Little Core genauso gut wodurch der Big Core keine 50% schneller ist sondern vielleicht nur 20% und somit bleibt das Gesamtverhältnis 1 Big Core SMT Thread = 1 Little Core Thread relativ ähnlich.
Von der Energieeffizienz ist es effektiver bei reinen MT workloads die großen kerne komplett schlafen zu legen und stattdessen die TDP komplett mit mehr kleinen kernen auszufüllen.
Ein Großer Kern der kompromisslos auf einen einzelthread ausgelegt ist mag zwar von der Diesize bezogen auf den durchsatz in MT loads nicht besonders effizient sein, wäre aber immerhin kleiner als ein big core der noch zusätzlichen Ballast für einen zweiten oder gar vierten Thread mit sich herum schleppt. Und so ein reiner 1T Kern würde in Latenzkritischen 1T-Workloads auch besser performen als ein Kern mit besagtem SMT-ballast.
Die höchste Energieeffizienz wird man im Normalfall erhalten indem man alle zur Verfügung stehenden Kerne verwendet und diese damit so niedrig wie möglich taktet.
Ausnahmen könnte nur bei extrem niedrigem Powerlimit sein (z.B. 8W durch Batteriebetrieb bei 6+8 Kernen). Da könnte es Sinn machen bei intesivem MT Workload (z.B. Cinebench) nur die 8 Little Cores zu verwenden da diese durch ihre Wide Frequency Range besser in niedrigere Taktbereiche skalieren.
Im Fall von nur mäßig parallelisierbaren Workloads (z.B. 6 Threads) wird es jedoch energieeffizienter sein diese auf den Big Cores mit relativ gemütlichen 3 GHz auszuführen als die Little Cores auf (für ihre Verhältnisse hohe) 3.6GHz zu treiben.
Nach den bisherigen Informationen sind die Little Cores nicht prinzipiell energieeffizienter. Sie können es aber in typsichen Lastszenarien sein, wenn diese niedriger getaketet sind mit dem Gedanken Hintergrundaufgaben energieefizienter zu erledigen. Dann laufen die P Cores z.B. mit 4.5GHz auf Turbotakt und die Little Cores mit 2.4GHz auf Basistakt.
aufkrawall
2021-10-28, 21:10:42
Sind mit 6C immerhin noch 21% in SotTR:
https://abload.de/thumb/sottr_2021_10_28_21_068kot.png (https://abload.de/image.php?img=sottr_2021_10_28_21_068kot.png) https://abload.de/thumb/sottr_2021_10_28_20_54cjpt.png (https://abload.de/image.php?img=sottr_2021_10_28_20_54cjpt.png)
Mit schnellerem RAM/IMC ggf. noch ein paar % mehr, wer weiß.
davidzo
2021-10-29, 00:43:39
Da könnte es Sinn machen bei intesivem MT Workload (z.B. Cinebench) nur die 8 Little Cores zu verwenden da diese durch ihre Wide Frequency Range besser in niedrigere Taktbereiche skalieren.
Im Fall von nur mäßig parallelisierbaren Workloads (z.B. 6 Threads) wird es jedoch energieeffizienter sein diese auf den Big Cores mit relativ gemütlichen 3 GHz auszuführen als die Little Cores auf (für ihre Verhältnisse hohe) 3.6GHz zu treiben.
Weder noch.
Wenn man mehr MT-Leistung braucht, dann einfach nur mehr kleine Kerne, nicht mehr Takt.
Die höchste Energieeffizienz wird man im Normalfall erhalten indem man alle zur Verfügung stehenden Kerne verwendet und diese damit so niedrig wie möglich taktet.
Das Effizienteste in MT Workloads wäre es die großen Kerne ganz abzuschalten und die kleinen auch im sweetspot, z.B. bei 2,4Ghz zu belassen. Denn der sweetspot der kleinen ist effizienter als der sweetspot der großen, wozu sollte man also die großen noch an lassen bei MT workloads?
Wenn die Leistung dagegen an einem Thread hängt, dann einen großen Core dafür aufwecken.
KarlKastor
2021-10-29, 11:24:25
Denn der sweetspot der kleinen ist effizienter als der sweetspot der großen, wozu sollte man also die großen noch an lassen bei MT workloads?
Wenn die Leistung dagegen an einem Thread hängt, dann einen großen Core dafür aufwecken.
Weil man mit den großen zusammen noch mehr Kerne hat und alle niedriger takten können.
Bei nur 8 Kleinen momentan dürfte das effizienter sein. Wenn man natürlich schon 32 oder mehr kleine hat sieht es vielleicht anders aus.
Der_Korken
2021-10-29, 14:48:06
Weil man mit den großen zusammen noch mehr Kerne hat und alle niedriger takten können.
Bei nur 8 Kleinen momentan dürfte das effizienter sein. Wenn man natürlich schon 32 oder mehr kleine hat sieht es vielleicht anders aus.
Die Frage wird sein wieviel effizienter die kleinen Kerne gegenüber den größeren sind. Bei Apple hat Anandtech gemessen, dass die kleinen Kerne gerne mal nur 1/3 der Gesamtenergie für eine Aufgabe brauchen im Vergleich zu den großen (die brauchen natürlich deutlich auch 3x mal so lange, aber wenn sie nur 1/9 Durchschntitsverbrauch haben, passt es wieder). Wenn es bei Intel ähnlich extrem ist, könnte es durchaus sein, dass die großen Kerne sich bei MT gar nicht lohnen. Es hängt natürlich wie du schon sagst vom Mengenverhältnis ab, aber das scheint sich immer weiter Richtung little cores zu verschieben.
Zossel
2021-10-29, 15:24:26
könnte es durchaus sein, dass die großen Kerne sich bei MT gar nicht lohnen. Es hängt natürlich wie du schon sagst vom Mengenverhältnis ab, aber das scheint sich immer weiter Richtung little cores zu verschieben.
Wirf mal einen Blick auf GPUs da kommt das zum Einsatz.
Und es gab mal die Niagara CPUs von Sun, die waren nach diesem Prinzip gebaut.
Ich gehe allerdings davon aus das für general purpose computing es bei vielen fetten Cores bleiben wird, evtl. noch 2 kleine Cores dazu dann aber ohne große Scheduler Magie.
iamthebear
2021-10-29, 16:54:31
Das Effizienteste in MT Workloads wäre es die großen Kerne ganz abzuschalten und die kleinen auch im sweetspot, z.B. bei 2,4Ghz zu belassen. Denn der sweetspot der kleinen ist effizienter als der sweetspot der großen, wozu sollte man also die großen noch an lassen bei MT workloads?
Wenn die Leistung dagegen an einem Thread hängt, dann einen großen Core dafür aufwecken.
Der Sweetspot der kleinen Kerne ist nicht 2.4GHz. Der Sweetspot (bei der Verlustleistung und Takt linear steigen) wird irgendwo um die 1 GHz liegen, möglicherweise noch darunter. Bei den Big Cores um die 1.5GHz. Die 2.4GHz ist lediglich der Basistakt.
Die Frage hierbei ist was ist die TDP die zur Verfügung steht und die Aufgabe des Schedulers ist es bei gegebenem TDP Limit die höchste Performance raus zu holen.
Beispiel1: Ein 36W Notebook mit 6+8 Konfiguration (Werte sind geschätzt)
Hier gibt es 3 Alternativen:
a) 6 Big Cores mit 3 GHz inkl. SMT laufen zu lassen (6W pro Kern). Performance: 6*3*2 = 36
b) 8 Little Cores um die 3 GHz laufen zu lassen (4.5W pro Kern). Performance: 8*3 = 24
c) 6 Big Cores mit 2.5GHz und 8 Little Cores mit 1.5GHz laufen zu lassen (6*4W + 8*1.5W). Performance: 6*2.5*2 + 8*1.5 = 30 + 16 = 42
Beispiel2: Ein Notebook mit 6W TDP (da Akkubetrieb) mit 6+8 Konfiguration
a) 6 Big Cores mit je 500MHz (1W pro Kern) Performance: 6
b) 8 Little Cores mit 1.5GHz (0.66W pro Kern) Performance: 8
c) 6 Big Cores + 8 Little Cores nicht mehr möglich
Die Frage wird sein wieviel effizienter die kleinen Kerne gegenüber den größeren sind. Bei Apple hat Anandtech gemessen, dass die kleinen Kerne gerne mal nur 1/3 der Gesamtenergie für eine Aufgabe brauchen im Vergleich zu den großen (die brauchen natürlich deutlich auch 3x mal so lange, aber wenn sie nur 1/9 Durchschntitsverbrauch haben, passt es wieder).
Das ist doch ein Äpfel mit Birnen Vergleich. Entweder man testet bei selber Performance und schaut wer weniger Watt benötigt oder man testet bei selber Verlustleistung und schaut wer schneller ist.
Es macht keinen Sinn zu sagen "der Little Cores ist bei 3GHz doppelt so effizient, braucht aber doppelt so lange wie ein Big Core auf 4.5GHz". Man könnte ja genauso den Big Core verwenden aber auf 2GHz runter takten.
Ein Vergleich der Gesamtenergie macht nur dann Sinn wenn bei beiden CPUs im Sweetspot getestet wird (z.B. ca. 1.5GHz beim Big Core vs. 1GHz beim Little Core) und das dann als Grundlage für Hintergrundaufgaben eines Smartphones im Connected Standby zu verwenden.
Wenn man jedoch von einem Notebook oder Desktoprechner spricht, so gibt es hier keinen Connected Standby und dieser hätte auch relativ wenig sinnvolle Anwendungen wenn der Anwender nicht davor sitzt.
[/quote]Wenn es bei Intel ähnlich extrem ist, könnte es durchaus sein, dass die großen Kerne sich bei MT gar nicht lohnen. Es hängt natürlich wie du schon sagst vom Mengenverhältnis ab, aber das scheint sich immer weiter Richtung little cores zu verschieben.[/QUOTE]
Siehe oben. Es macht dann Sinn wenn man nicht mehr alle Kerne gleichzeitig betreiben kann, da die Little Cores bei sehr tiefen Taktraten besser skalieren.
Ansonsten ist es effizienter alle Kerne zu benutzen und bei mittlerem und hohem Takt sind auch die Big Cores bei gleicher Performance effizienter als die Little Cores (bei gleicher Threadanzahl).
Ich gehe allerdings davon aus das für general purpose computing es bei vielen fetten Cores bleiben wird, evtl. noch 2 kleine Cores dazu dann aber ohne große Scheduler Magie.
2 kleine Cores machen im Notebook/Desktopbereich relativ wenig Sinn, da es keinen Connected Standby gibt.
Ansonsten hängt es davon ab, wieviele Threads die eigenen Anwendungen nutzen.
Bei einem Universalmix macht Big/Little immer Sinn. Die Frage ist lediglich wie intensiv es genutzt wird.
Im Fall einer 6+4 Konfiguration (also 1 Big Core durch 4 Little Cores ersetzt) bekommt man dadurch ca. 15% mehr MT Performance und der einzige Nachteil sind 5% weniger Performance wenn GENAU 7 Threads genutzt werden
Bei einer 4+16 Konfiguration (4 Big Cores durch Little Cores ersetzt) sieht das schon anders aus. Hier bekommt man zwar 50% MT Boost, hat jedoch von 5-11 Threads einen relativ großen Bereich wo man Performance verliert. Das ist der Bereich wo z.B. alle aktuellen Spiele liegen und der Performanceverlust ist 15-20%. Das ist ein relativ schlechter Deal wenn man selten Software nutzt, wo man die MT Performance wirklich braucht.
Zossel
2021-10-29, 18:05:04
Die Frage hierbei ist was ist die TDP die zur Verfügung steht und die Aufgabe des Schedulers ist es bei gegebenem TDP Limit die höchste Performance raus zu holen.
Und wo gibt es diesen Scheduler der nicht in ominösen Cornercases komische Sachen tut?
basix
2021-10-29, 19:27:51
2 kleine Cores machen im Notebook/Desktopbereich relativ wenig Sinn, da es keinen Connected Standby gibt.
Ansonsten hängt es davon ab, wieviele Threads die eigenen Anwendungen nutzen.
Bei einem Universalmix macht Big/Little immer Sinn. Die Frage ist lediglich wie intensiv es genutzt wird.
Im Fall einer 6+4 Konfiguration (also 1 Big Core durch 4 Little Cores ersetzt) bekommt man dadurch ca. 15% mehr MT Performance und der einzige Nachteil sind 5% weniger Performance wenn GENAU 7 Threads genutzt werden
Bei einer 4+16 Konfiguration (4 Big Cores durch Little Cores ersetzt) sieht das schon anders aus. Hier bekommt man zwar 50% MT Boost, hat jedoch von 5-11 Threads einen relativ großen Bereich wo man Performance verliert. Das ist der Bereich wo z.B. alle aktuellen Spiele liegen und der Performanceverlust ist 15-20%. Das ist ein relativ schlechter Deal wenn man selten Software nutzt, wo man die MT Performance wirklich braucht.
Apples 8P4E Konfiguration im M1 Pro/Max halte ich für Notebook/Dekstop für sinnvoll. Primär hat man schnelle Cores, für Systemtasks und Office kann man aber die kleinen Cores verwenden.
Bei der 192/256C Geschichte von Zen 5 aus der News von gestern wäre zum Beispiel eine denkbare Aufklärung, dass man die Zen 5 Chiplets mit 12P4E aufbaut. Die 192C Variante hat die E-Cores disabled. Die 256C Variante hat the E-Cores aktiviert.
Im Desktop wie auch Notebook sind 12P4E eigentlich auch noch sehr OK. Die E-Cores sind dann aber nicht wirklich dazu da, die MT-Performance zu pushen, sondern die Energieeffizienz zu optimieren.
Bei Server geht es bei 256C/512T vor allem um mehr Threads, Effizienzsteigerungen und QoS. Ein OS und Hintergrunddienste kann man auf den E-Cores laufen lassen und die User-Applikation explizit auf den P-Cores.
iamthebear
2021-10-30, 19:47:45
E Cores zum Erhöhen der Energieeffizienz machen im Desktop absolut keinen Sinn. Das erreicht man auch indem man einen Big Core auf 2GHz runter taktet. Dann zieht der auch nur mehr 2W. Für 1W mehr oder weniger sollte man eher einmal am Mainboard bzw. bei der GPU anfangen. Da gibt es mehr Einsparungspotential.
Dieses ARM Big/Little Design für Energieeffizienz hat seine Daseinsberechtigung für Smartphones, wo den ganzen Tag zig Apps im Hintergrund laufen und sich Benachrichtigungen von irgendeinem Server abholen (WhatsApp, Mailclient, Facebook Benachrichtigungen usw.) Die Situation gibt es im Desktop/Notebookbereich nicht.
Twodee
2021-10-30, 20:07:02
E Cores zum Erhöhen der Energieeffizienz machen im Desktop absolut keinen Sinn. Das erreicht man auch indem man einen Big Core auf 2GHz runter taktet. Dann zieht der auch nur mehr 2W. Für 1W mehr oder weniger sollte man eher einmal am Mainboard bzw. bei der GPU anfangen. Da gibt es mehr Einsparungspotential.
Dieses ARM Big/Little Design für Energieeffizienz hat seine Daseinsberechtigung für Smartphones, wo den ganzen Tag zig Apps im Hintergrund laufen und sich Benachrichtigungen von irgendeinem Server abholen (WhatsApp, Mailclient, Facebook Benachrichtigungen usw.) Die Situation gibt es im Desktop/Notebookbereich nicht.
Dem würde ich zustimmen, wenn die last auf mindestens einem core annähernd 100% wäre, ist es aber nicht. Für teillast (und das ist mMn häufiger der Fall) eignen sich die eCores besser.
iamthebear
2021-10-30, 22:20:17
Wenn die Last geringer ist wird es noch schlimmer.
Angenommen man hat so viel Hintergrundlast, dass ein Big Core mit 2GHz durchgehend ausgelastet ist so zieht dieser 2W mehr als wenn er Idle ist.
Wenn dieser nur die halbe Zeit aktiv ist, dann ist es im Schnitt 1W.
Wenn er nur 10% der Zeit aktiv ist sind es im Schnitt 0.2W.
Was soll es bringen den Verbrauch von 0 2W auf 0.1W auf einem Desktopsystem zu senken wenn Board, GPU etc. schon um die 50 Watt ziehen.
basix
2021-10-31, 12:44:43
Dieses ARM Big/Little Design für Energieeffizienz hat seine Daseinsberechtigung für Smartphones, wo den ganzen Tag zig Apps im Hintergrund laufen und sich Benachrichtigungen von irgendeinem Server abholen (WhatsApp, Mailclient, Facebook Benachrichtigungen usw.) Die Situation gibt es im Desktop/Notebookbereich nicht.
Das macht dein PC nicht, z.B. auf Arbeit? Meiner macht das andauernd. Nicht Whatsapp, aber Outlook, Teams und sonstige Tools und Services. Speziell OneDrive Synchronisation ist ein Akku-Killer ohnegleichen, das wäre was für einen E-Core.
Wenn die Last geringer ist wird es noch schlimmer.
Angenommen man hat so viel Hintergrundlast, dass ein Big Core mit 2GHz durchgehend ausgelastet ist so zieht dieser 2W mehr als wenn er Idle ist.
Wenn dieser nur die halbe Zeit aktiv ist, dann ist es im Schnitt 1W.
Wenn er nur 10% der Zeit aktiv ist sind es im Schnitt 0.2W.
Was soll es bringen den Verbrauch von 0 2W auf 0.1W auf einem Desktopsystem zu senken wenn Board, GPU etc. schon um die 50 Watt ziehen.
Da widerspreche ich. Das Problem ist, dass die Big Cores deutlich mehr Energie zum Aufwachen benötigen. Sobald sie laufen, ist es jetzt bei Alderlake nicht ein dramatischer Unterschied zu den E-Cores (Perf/Watt mit tiefem P-Core Takt). Man kann sich aber auch fragen, wieso die M1 Dinger so super sparsam im Idle sind und die entsprechenden Geräte sehr lange Akkulaufzeiten haben?
Intels Big Cores ziehen im Boost auch gerne mal 10-20W, das ist noch nichtmal bei max. Takt. 2W ist bei 2GHz evtl richtig, aber schau dir mal das Boost-Verhalten der P-Cores an. Da wird eher in Richtung 4+ GHz geboostet. Bei den E-Cores könnte man ein weniger aggressives Boost-Verhalten implementieren, welches zwar rauftaktet, aber eben noch im effizienten Betriebsbereich (z.B. 2-3 GHz).
Und klar, wenn man im Desktop ein super duper Ultra MoBo mit RGB-LED Christbaum-Beleuchtung verwendet, ist der Unterschied evtl. vernachlässigbar. Schlussendlich ist jegliche Effiziensteigerung aber ein Fortschritt.
davidzo
2021-10-31, 14:54:44
Weil man mit den großen zusammen noch mehr Kerne hat und alle niedriger takten können.
Bei nur 8 Kleinen momentan dürfte das effizienter sein. Wenn man natürlich schon 32 oder mehr kleine hat sieht es vielleicht anders aus.
Du verstehst nicht was ich meine. Ich gehe nicht von festen 8 Little kernen aus. Von mir aus können es auch 32x Little kerne bei 1,5Ghz sein. Das wird im zweifel effizienter sein als 8 kleine + 8 große auf 3Ghz.
Beispiel1: Ein 36W Notebook mit 6+8 Konfiguration (Werte sind geschätzt)
Hier gibt es 3 Alternativen:
a) 6 Big Cores mit 3 GHz inkl. SMT laufen zu lassen (6W pro Kern). Performance: 6*3*2 = 36
b) 8 Little Cores um die 3 GHz laufen zu lassen (4.5W pro Kern). Performance: 8*3 = 24
c) 6 Big Cores mit 2.5GHz und 8 Little Cores mit 1.5GHz laufen zu lassen (6*4W + 8*1.5W). Performance: 6*2.5*2 + 8*1.5 = 30 + 16 = 42
d) 32 little Cores mit 1,5Ghz á 1Watt = 48
Deine Effizienzzahlen zwischen big/little sind übrigens Murks. Wenn das so wäre dass Little Cores bei 3Ghz 75% eines big Cores bei 3Ghz verbrauchen würden (4,5W/6W), dann gibt es einfach keine Daseinsberechtigung für Little Cores.
Das ist doch ein Äpfel mit Birnen Vergleich. Entweder man testet bei selber Performance und schaut wer weniger Watt benötigt oder man testet bei selber Verlustleistung und schaut wer schneller ist.
Es macht keinen Sinn zu sagen "der Little Cores ist bei 3GHz doppelt so effizient, braucht aber doppelt so lange wie ein Big Core auf 4.5GHz". Man könnte ja genauso den Big Core verwenden aber auf 2GHz runter takten.
Ich glaube du hast das nicht richtig verstanden.
Joule ist nicht die Einheit für Leistung, sondern die für Energie, also erledigte Arbeit. Statt in Joule kann man das auch in Wh angeben, aber das wären sehr viele Nachkommastellen (/3600).
Damit ist der Zeitfaktor schon herausgerechnet, also nichts Äpfel mit Birnen. Das ist genau der Relevante vergleich, bzw. das ist die Definition von "Effizienz".
Im Gegenteil, die üblichen Durchschnittsverbräuche sie in tests angegeben werden sind Äpfel-Birnen vergleiche. Was ist überhaupt der Durchschnittsverbrauch, arithmetisches oder geometrisches Mittel? Kommt das überhaupt mit modernem Power Management zurecht, wenn die Abtastrate viel langsamer ist als die Power State Sprünge?
Was zählt ist wieviel Energie ich am Ende eines definierten Arbeitspakets noch in meinem Akku habe. Damit deckt man alles ab. Das ist die Definition von Effizienz und ja, da spielt nicht nur die Architektur, sondern das Ganze System, auch der scheduler und die Firmware eine Rolle und natürlich der workload. Aber deswegen besteht die spec suite ja nicht nur aus einem einzelnen workload.
Ein Vergleich der Gesamtenergie macht nur dann Sinn wenn bei beiden CPUs im Sweetspot getestet wird (z.B. ca. 1.5GHz beim Big Core vs. 1GHz beim Little Core) und das dann als Grundlage für Hintergrundaufgaben eines Smartphones im Connected Standby zu verwenden.
Die Effizienz im sweetspot ist total irrelevant für den User und auch schwer nachzustellen. Es muss so getestet werden wie die Geräte konfiguriert sind. Wenn sie per Firmware im Sweetspot gehalten werden, dann ist das ja auch ein realer benefit für den User. Wenn Intel sich aber absichtlich einen Effizienznachteil einbaut weil man die CPU bis an die Kotzgrenze taktet, dann muss man das auch schonungslos offenlegen. Was zählt ist die performance und effizienz out of the box, nicht irgendein theoretischer wert.
Wobei ich bezweifle dass sich in einem wie auch immer definierten Teillast-sweetspot-Szenario noch irgendein Blumentopf gewinnen ließe. Schon im Idle hat der M1 einen so gewaltigen Vorsprung dass das nicht mehr feierlich ist.
basix
2021-10-31, 15:40:12
Wenn das so wäre dass Little Cores bei 3Ghz 75% eines big Cores bei 3Ghz verbrauchen würden (4,5W/6W), dann gibt es einfach keine Daseinsberechtigung für Little Cores.
Naja doch: Sie sind Little ;)
Perf/Area wird so gesteigert.
iamthebear
2021-10-31, 16:20:42
Das macht dein PC nicht, z.B. auf Arbeit? Meiner macht das andauernd. Nicht Whatsapp, aber Outlook, Teams und sonstige Tools und Services. Speziell OneDrive Synchronisation ist ein Akku-Killer ohnegleichen, das wäre was für einen E-Core.
Im Standby? Da ist mein PC aus und hat bestenfalls die USB Ports aktiv, damit ich ihn per Tastendruck wieder starten kann.
Da widerspreche ich. Das Problem ist, dass die Big Cores deutlich mehr Energie zum Aufwachen benötigen. Sobald sie laufen, ist es jetzt bei Alderlake nicht ein dramatischer Unterschied zu den E-Cores (Perf/Watt mit tiefem P-Core Takt). Man kann sich aber auch fragen, wieso die M1 Dinger so super sparsam im Idle sind und die entsprechenden Geräte sehr lange Akkulaufzeiten haben?
Warum muss ein P Core auf einem Desktop/Notebook überhaupt aufwachen? Wenn der PC aus ist, dann ist er aus und muss nicht aufwachen. Wenn der PC läuft so kann er sowieso nicht abgeschaltet werden. Den Connected Standby gibt es hier nicht.
Intels Big Cores ziehen im Boost auch gerne mal 10-20W, das ist noch nichtmal bei max. Takt. 2W ist bei 2GHz evtl richtig, aber schau dir mal das Boost-Verhalten der P-Cores an. Da wird eher in Richtung 4+ GHz geboostet. Bei den E-Cores könnte man ein weniger aggressives Boost-Verhalten implementieren, welches zwar rauftaktet, aber eben noch im effizienten Betriebsbereich (z.B. 2-3 GHz).
Den Boost haben die P Cores aber deswegen, weil man diesen auch haben will.
Klar kann man einen E Core schön runter takten damit er effiektiv ist. Das kann man aber mit einem P Core genauso machen. Man könnte z.B. im Batteriebetrieb genauso Hintergrundtasks nur mit 2 GHz abarbeiten statt mit 4GHz selbst wenn man nicht im Powerlimit ist.
Und klar, wenn man im Desktop ein super duper Ultra MoBo mit RGB-LED Christbaum-Beleuchtung verwendet, ist der Unterschied evtl. vernachlässigbar. Schlussendlich ist jegliche Effiziensteigerung aber ein Fortschritt.
Das schon aber man muss dort anfangen wo die großen Verbraucher sind. Da lässt man die GPU 24/7 mit 400W Ethereum minen aber gleichzeitig wird darüber diskutiiert ob zufällig einmal der Virenscanner beim Updaten mal 100mW weniger ziehen könnte. Das passt nicht ganz zusammen.
Du verstehst nicht was ich meine. Ich gehe nicht von festen 8 Little kernen aus. Von mir aus können es auch 32x Little kerne bei 1,5Ghz sein. Das wird im zweifel effizienter sein als 8 kleine + 8 große auf 3Ghz.
d) 32 little Cores mit 1,5Ghz á 1Watt = 48
Natürlich aber dann stinkt das Ding ohne P Cores bei 90% aller Alltagsaufgaben furchtbar ab, die keine 32 Threads haben. Das giot besonders für die 15W Geräte die jetzt eher selten für Blender etc. verwendet werden. Da läuft Word, Excel. Outlook, Chrome und vielleicht auch mal Teams.
Ein Gerät das deutlich weniger ST Performance als der Vorgänger liefert ist unverkäuflich.
Deine Effizienzzahlen zwischen big/little sind übrigens Murks. Wenn das so wäre dass Little Cores bei 3Ghz 75% eines big Cores bei 3Ghz verbrauchen würden (4,5W/6W), dann gibt es einfach keine Daseinsberechtigung für Little Cores.
Die Daseinsberechtigung der Little Cores ergibt sich durch Performance/Fläche, nicht durch Performance/Watt. Sie werden in der Praxis wohl etwas gemächlicher getaktet werden aber zwingend notwendig ist das nicht.
Ich glaube du hast das nicht richtig verstanden.
Joule ist nicht die Einheit für Leistung, sondern die für Energie, also erledigte Arbeit. Statt in Joule kann man das auch in Wh angeben, aber das wären sehr viele Nachkommastellen (/3600).
Damit ist der Zeitfaktor schon herausgerechnet, also nichts Äpfel mit Birnen. Das ist genau der Relevante vergleich, bzw. das ist die Definition von "Effizienz".
Aber es ist für den Anwender eben nicht egal wie lange er auf die Arbeit warten muss. Der Ansatz ist sinnvoll im connected Standby wo das System zu 10% ausgelastet ist.
Bei einem Notebook im Batteriebetrieb hast du einen Anwender vor der Kiste sitzen, der will, dass die Webseite die er gerade geöffnet hat lädt, dass der Virenscanner die Dateien prüft, die er gerade kopiert usw.
Was Hintergrundanwendungen angeht so ist dies zu 90% schlampige Programmierung. Es gibt keinen Grund warum OneDrive Unmengen an CPU Last generieren muss. Da sollte MS lieber einmal dafür sorgen, dass sie ihre Anwendungen resourcenschonend programmieren statt versuchen mit die Effekte davon mit Little Cores zu verschleiern.
Im Gegenteil, die üblichen Durchschnittsverbräuche sie in tests angegeben werden sind Äpfel-Birnen vergleiche. Was ist überhaupt der Durchschnittsverbrauch, arithmetisches oder geometrisches Mittel? Kommt das überhaupt mit modernem Power Management zurecht, wenn die Abtastrate viel langsamer ist als die Power State Sprünge?
Was zählt ist wieviel Energie ich am Ende eines definierten Arbeitspakets noch in meinem Akku habe. Damit deckt man alles ab. Das ist die Definition von Effizienz und ja, da spielt nicht nur die Architektur, sondern das Ganze System, auch der scheduler und die Firmware eine Rolle und natürlich der workload. Aber deswegen besteht die spec suite ja nicht nur aus einem einzelnen workload.
Bei seriösen Tests wird beim Vergleich unterschiedlicher Hersteller direkt an der Steckdose gemessen. Für den Batteriebetrien musst man direkt die Akkulaufzeit, wobei hier das Display oft mehr Einfluss hat als die CPU.
Die Effizienz im sweetspot ist total irrelevant für den User und auch schwer nachzustellen. Es muss so getestet werden wie die Geräte konfiguriert sind. Wenn sie per Firmware im Sweetspot gehalten werden, dann ist das ja auch ein realer benefit für den User. Wenn Intel sich aber absichtlich einen Effizienznachteil einbaut weil man die CPU bis an die Kotzgrenze taktet, dann muss man das auch schonungslos offenlegen. Was zählt ist die performance und effizienz out of the box, nicht irgendein theoretischer wert.
Wobei ich bezweifle dass sich in einem wie auch immer definierten Teillast-sweetspot-Szenario noch irgendein Blumentopf gewinnen ließe. Schon im Idle hat der M1 einen so gewaltigen Vorsprung dass das nicht mehr feierlich ist.
Grundsätzlich hast du Recht, dass bei Notebook/PC Reviews die reale Konfiguration getestet werden muss, die der Systembauer konfiguriert hat. Nur wie soll das bei einem Review von Einzelkomponenten gehen? Da ist der Systembauer der Käufer und woher will der Reviewer wissen wie ich mein System konfigurieren werde.
Selbst bei Notebooks ist das schon schwierig wenn es mehrere unterschiedliche Powermodi gibt und der Anwender auswählt was er gerade haben will.
Platos
2021-10-31, 16:42:43
Wo hast du denn das mit der Perf./Fläche her bzw. dass die Energieeffizienz bei kleinen Kernen schlechter ist?
basix
2021-10-31, 17:15:34
Im Standby? Da ist mein PC aus und hat bestenfalls die USB Ports aktiv, damit ich ihn per Tastendruck wieder starten kann.
Warum muss ein P Core auf einem Desktop/Notebook überhaupt aufwachen? Wenn der PC aus ist, dann ist er aus und muss nicht aufwachen. Wenn der PC läuft so kann er sowieso nicht abgeschaltet werden. Den Connected Standby gibt es hier nicht.
Ich glaube du hast mich missverstanden. Ein Computer macht all diese Dinge während des arbeitens, ergo ist der PC eingeschaltet. Hier macht er dauert Hintergrund-Stuff / Syncs etc. und das eignet sich hervorragend für die E-Cores, da Performance hier nebensächlich ist. Energieverbrauch und Akkulaufzeit sollten sich dadurch verbessern.
davidzo
2021-10-31, 18:09:59
Natürlich aber dann stinkt das Ding ohne P Cores bei 90% aller Alltagsaufgaben furchtbar ab, die keine 32 Threads haben. Das giot besonders für die 15W Geräte die jetzt eher selten für Blender etc. verwendet werden. Da läuft Word, Excel. Outlook, Chrome und vielleicht auch mal Teams.
Ein Gerät das deutlich weniger ST Performance als der Vorgänger liefert ist unverkäuflich.
Es geht doch gar nicht darum keine P-Cores zu haben, sondern darum diese in MT Loads vollständig abzuschalten und stattdessen mehr E-Cores zu nehmen.
Und dadurch erübrigt sich eben SMT, da die P-cores nur noch für ST loads anlaufen brauchen.
KarlKastor
2021-10-31, 19:00:25
Du verstehst nicht was ich meine. Ich gehe nicht von festen 8 Little kernen aus. Von mir aus können es auch 32x Little kerne bei 1,5Ghz sein. Das wird im zweifel effizienter sein als 8 kleine + 8 große auf 3Ghz.
Doch ich verstehe sehr gut. Aber die Frage war ja ob die Großen mitlaufen sollten oder nicht. Da stets ja nicht 32 Kleine gegen 8+8, sondern gegen 8+32.
Die Sache ist eben, dass ein Produkt nie am absoluten Optimum betrieben wird. Das ist ja einfach nicht wirtschaftlich, da die Gesamtperformance für die Die-Fläche viel zu niedrig ist.
Und dann kann es durchaus günstiger sein, wenn die großen Kerne auch mitlaufen, da durch die höhere Anzahl an Kerne, alle näher am Optimum takten. Auch wenn die großen Kerne vielleicht ineffektiver arbeiten als die Kleinen.
iamthebear
2021-10-31, 21:00:43
Wo hast du denn das mit der Perf./Fläche her bzw. dass die Energieeffizienz bei kleinen Kernen schlechter ist?
Da brauchst du nur einen Blick auf die Intel Folien werfen
https://pics.computerbase.de/1/0/0/1/4/4-60ae88a97ab688d0/8-1080.6d3168ff.jpg
Linke Seite: Der P Core ist von der Architektur grundsätzlich schneller und effizienter, die Little Core lässt sich etwas weiter runter takten.
Rechte Seite: Dadurch dass man 8 Little Cores auf der Fläche von 2 unter bringt ist man in Summe schneller auch wenn die Verlustleistung größer ist. Bei selber Performance wäre man jedoch energieeffizienter wenn es ausreichend Threads gibt.
Ich glaube du hast mich missverstanden. Ein Computer macht all diese Dinge während des arbeitens, ergo ist der PC eingeschaltet. Hier macht er dauert Hintergrund-Stuff / Syncs etc. und das eignet sich hervorragend für die E-Cores, da Performance hier nebensächlich ist. Energieverbrauch und Akkulaufzeit sollten sich dadurch verbessern.
Doch ich habe dich schon verstanden aber während dem Betrieb ist das nicht relevant. Smartphones brauchen die Little Cores auch nicht für den laufenden Betrieb sondern für den connected Standby.
Es geht doch gar nicht darum keine P-Cores zu haben, sondern darum diese in MT Loads vollständig abzuschalten und stattdessen mehr E-Cores zu nehmen.
Ja nur wenn du 32 Little Cores verbaust, dann bekommst du auf derselben Fläche keine P Cores mehr unter.
Natürlich wäre es nett wenn man 8 Big Cores und 32 Little Cores hat aber die CPU will dann keiner mehr bezahlen.
Das einzig sinnvolle, was Intel machen könnte ist eine 4+16 Lösung zu bringen. Das wird früher oder später auch passieren aber am Anfang gibt es eben einmal den etwas sanfteren Einstieg mit 6+8.
Es stellt sich also nur mehr die Frage:
.) Nur Big Cores verwenden
.) Nur Little Cores verwenden
.) Alles verwenden was man hat und niedriger takten
Und dadurch erübrigt sich eben SMT, da die P-cores nur noch für ST loads anlaufen brauchen.
Die Frage die sich hierbei stellt ist wieviel Fläche würde man sich denn Ssparen wenn man auf SMT verzichtet. In einer 6+8 Konfiguration sind das im Schnitt immerhin noch um die 15% mehr Performance bzw. 3 Little Cores. Gelingt es durch das Weglassen von SMT 12% Fläche zu sparen kann man es weglassen und stattdessen 3 Little Cores mit dazu packen. Gelingt das nicht ist es besser bei SMT zu bleiben.
Früher gab es einmal die Aussage SMT kostet 5-10% Fläche. Damit würde es noch keinen Sinn machen es zu entfernen zumindest nicht im Clientbereich wo mögliche Sicherheitslücken kein großes Thema sind.
CrazyIvan
2021-10-31, 21:32:24
@davidzo
+1
Damit hast Du auch noch einmal gut dargelegt,warum ich diesen ganzen Ziehauf mit PES (https://www.forum-3dcenter.org/vbulletin/showthread.php?t=606794) betreibe. Bin da auch schon sehr auf erste ADL Ergebnisse gespannt, die hoffentlich nicht mehr lange auf sich warten lassen.
davidzo
2021-10-31, 21:40:53
Ja nur wenn du 32 Little Cores verbaust, dann bekommst du auf derselben Fläche keine P Cores mehr unter.
Selbe Fläche war auch gar nicht die rede, es geht um dieselbe power.
Natürlich wäre es nett wenn man 8 Big Cores und 32 Little Cores hat aber die CPU will dann keiner mehr bezahlen.
Es ist offensichtlich schon möglich wenn man die richtige Fertigungsstrategie hat. Man kann für denselben Preis eines Highend PC-Notebooks mit i9 auch ein Highend Notebook mit 33 oder 57Mrd Transistoren SoC kaufen. Das sind Faktor 4-6x von dem was Intel bisher zu vergleichbaren Preisen geliefert hat. Und die Firma mit den gigantischen Socs hat sogar noch größere operative Margen als Intel aktuell.
Das einzig sinnvolle, was Intel machen könnte ist eine 4+16 Lösung zu bringen.
Wie wäre es mit 1P + nE. Es geht doch um Royal Cores und von Königen gibt es nicht mehrere pro Land gleichzeitig.
Ich kann mir das aber auch gut mit einem Prime Core vorstellen. 2 oder 4 P kerne, das verbessert den yield.
Die Frage die sich hierbei stellt ist wieviel Fläche würde man sich denn Ssparen wenn man auf SMT verzichtet.
Das ist in einer extrem Kompetitiven Situation nicht die Frage.
Wenn Zen5 wirklich so einen Riesensprung hinlegt und Apple sicher auch nicht schläft ist die Frage eher: Müsste man nicht mehr Fläche investieren damit die Produkte überhaupt noch gekauft werden?
In einer 6+8 Konfiguration sind das im Schnitt immerhin noch um die 15% mehr Performance bzw. 3 Little Cores. Gelingt es durch das Weglassen von SMT 12% Fläche zu sparen kann man es weglassen und stattdessen 3 Little Cores mit dazu packen. Gelingt das nicht ist es besser bei SMT zu bleiben.
Was ist denn mit 2+16 oder 1+8? Die kleinen Cores verbrauchen ja nur 1/4 der Fläche, da kriegt man eher mehr MT leistung je weniger big cores verbaut werden? Mit Royal Core ohne SMT kriegt man trotzdem eine kompromisslose ST Leistung.
Das OS würde praktisch nur mit den kleinen Cores starten, P-cores im standby. Der Royal Core würde vom Scheduler nur berücksichtigt werden wenn ein starker singlethreadTask anliegt.
iamthebear
2021-10-31, 22:57:35
Selbe Fläche war auch gar nicht die rede, es geht um dieselbe power.
Dann redest du komplett am Thema vorbei.
Das Thema war:
"Sollen bei MT Last und begrenzter TDP im Notebook die vorhandenen P Cores mit genutzt werden oder nicht"
Die Notebook Chips sind vorgegeben und zwar 2+8, 6+8 und 8+8. Da bringen irgendwelche Hirngespinnste von 32 Little Cores nicht viel, da diese nicht vorhanden sein werden.
Es ist offensichtlich schon möglich wenn man die richtige Fertigungsstrategie hat. Man kann für denselben Preis eines Highend PC-Notebooks mit i9 auch ein Highend Notebook mit 33 oder 57Mrd Transistoren SoC kaufen. Das sind Faktor 4-6x von dem was Intel bisher zu vergleichbaren Preisen geliefert hat. Und die Firma mit den gigantischen Socs hat sogar noch größere operative Margen als Intel aktuell.
Apple bedient ein ganz anderes Kundenclientel. Würde Intel eine ganze Architektur nur auf die Kunden aufbauen, die 3K für ein Notebook ausgeben wäre das der Fail des Jahrhunderts.
Und nein Intel hat nie denselben Preis verlangt. Apple hat nur kräftig beim Preis drauf geschlagen weil die Kunden bereit sind diesen zu zahlen.
Wie wäre es mit 1P + nE. Es geht doch um Royal Cores und von Königen gibt es nicht mehrere pro Land gleichzeitig.
Ich kann mir das aber auch gut mit einem Prime Core vorstellen. 2 oder 4 P kerne, das verbessert den yield.[quote]
Das kann ich mir ehrlich gesagt auch vorstellen allerdings in einer 3er Kombination:
1 Royal Core
6-8 Big Cores
32+ Little Cores
Die Version 1 Royal Core + Little Cores würde scheitern da es eben auch Applikationen gibt, die 4-8 Kerne auslasten können aber von mehr als 16 keinen Vorteil ziehen. Ein gutes Beispiel dafür wären Spiele.
Allerdings wird das erst ein Thema ab Lunar Lake oder Nova Lake mit Intel 3 oder 20A.
[quote]Das ist in einer extrem Kompetitiven Situation nicht die Frage.
Wenn Zen5 wirklich so einen Riesensprung hinlegt und Apple sicher auch nicht schläft ist die Frage eher: Müsste man nicht mehr Fläche investieren damit die Produkte überhaupt noch gekauft werden?
Wenn Intel sich dazu gezwungen sieht und die Kapazitäten dafür ausreichen durchaus möglich siehe Rocket Lake. Dies wird man allerdings erst mit einer Tile based Architektur machen (Meteor Lake aufwärts) damit die Yields nicht in den Keller gehen.
Was ist denn mit 2+16 oder 1+8? Die kleinen Cores verbrauchen ja nur 1/4 der Fläche, da kriegt man eher mehr MT leistung je weniger big cores verbaut werden? Mit Royal Core ohne SMT kriegt man trotzdem eine kompromisslose ST Leistung.
Das OS würde praktisch nur mit den kleinen Cores starten, P-cores im standby. Der Royal Core würde vom Scheduler nur berücksichtigt werden wenn ein starker singlethreadTask anliegt.
Und wie definierst du einen "starken singlethread Task"?
Es gibt den Ansatz von MS, dass nur das auf die P Cores wandert, was eine Applikation im Vordergrund ist. Davon halte ich allerdings nicht allzu viel, denn oft passiert die Arbeit ja gar nicht direkt in der Vordergrund Applikation. Nur weil eine Applikation minimiert ist bedeutet das nicht, dass man nicht darauf wartet. Vor allem wenn man sowieso im Netzbetrieb arbeitet macht das absolut keinen Sinn.
Warum nicht 1+8 oder 2+16
Ich denke, dass im täglichen Betrieb eines 15W Notebooks deutlich mehr Situationen auftreten in denen man 3-4 Threads laufen hat und so mehr P Cores braucht als Situationen wo man man mehr als 8 Threads nutzen würde.
basix
2021-11-01, 09:22:16
Doch ich habe dich schon verstanden aber während dem Betrieb ist das nicht relevant. Smartphones brauchen die Little Cores auch nicht für den laufenden Betrieb sondern für den connected Standby
Effizienter Betrieb der CPU ist also nicht relevant? Oder wie soll ich diese Aussage verstehen? Wie gesagt, ich selbst habe beruflich heute Use Cases, wo durch E-Cores und entsprechend optimierte Boosting-Algorithmen deutlich was an Akku-Durchhaltedauer gewonnen werden könnte. Durch COVID hat sich der Trend zu Online-Diensten nochmals deutlich beschleunigt, womit also relativ viel im Hintergrund "nach Hause telefoniert" wird. Privat wäre dieser Vorteil sicher deutlich geringer, da dort wesentlich weniger solcher Dienste im Hintergrund laufen. Vorhanden wäre er aber trotzdem (Dropbox, Mail-Client, etc.).
Was und wie im Smartphone gemacht wird, ist für Alderlake völlig irrelevant. Aber auch dort kann ich nur schwer glauben, dass man die nicht im Hintergrund für irgendwelche Networking und Messaging Sachen verwendet, welche nicht gerade von der gerade genutzten App verwendet werden.
Gipsel
2021-11-01, 14:48:08
Der Power 1 ist der erste Chip der überhaupt register renaming und out of order execution implementiert hat - 12 Jahre vor Intel mit dem Northwood!Während das mit dem Power1 (als Vorreiter aus dem Jahre 1990) zwar stimmt, hatten aber auch schon der Nexgen 5x86 (1994), der Pentium Pro (1995), der AMD K5 (1996, aus dem Nx6x86 ist dann nach einem Redesign der K6 geworden [AMD hat Nexgen zum Jahreswechel 95/96 gekauft]), oder der Cyrix 6x86 (1996) OoOE und Register Renaming. Das ist also im x86er-Bereich auch schon etwas älter als der P4 Northwood. Im Prinzip war im x86er-Bereich Nexgen Vorreiter, weil die neben OoOE/Register-Renaming auch als Erstes die x86=>RISC-µOp Decoder (vereinfacht die OoO-Sache ein wenig, auch wenn Cyrix das ohne gemacht hat) hatten, noch vor Intel (PentiumPro, die erste Iteration der P6-Architektur).
aufkrawall
2021-11-01, 15:13:10
Was und wie im Smartphone gemacht wird, ist für Alderlake völlig irrelevant. Aber auch dort kann ich nur schwer glauben, dass man die nicht im Hintergrund für irgendwelche Networking und Messaging Sachen verwendet, welche nicht gerade von der gerade genutzten App verwendet werden.
Die Schwierigkeit ist auch, die littles arbeiten zu lassen, ohne das ganze Package aus den C-States zu wecken. Bei ARM-SoCs gibt es da viele Jahre milliardenschwerer Expertise unter härtesten Bedingungen und Konkurrenz bez. LP. Ich glaub nicht, dass das Intel oder AMD mal eben so hinbekämen.
Gipsel
2021-11-01, 15:36:44
Da brauchst du nur einen Blick auf die Intel Folien werfen
https://pics.computerbase.de/1/0/0/1/4/4-60ae88a97ab688d0/8-1080.6d3168ff.jpgWas glaubst Du, was unterhalb des Punktes passiert, wo die Kurve des P-Kerns aufhört? Ich sag's Dir: Der E-Kern ist da besser. ;)
Platos
2021-11-01, 15:43:52
Da brauchst du nur einen Blick auf die Intel Folien werfen
https://pics.computerbase.de/1/0/0/1/4/4-60ae88a97ab688d0/8-1080.6d3168ff.jpg
Linke Seite: Der P Core ist von der Architektur grundsätzlich schneller und effizienter, die Little Core lässt sich etwas weiter runter takten.
Rechte Seite: Dadurch dass man 8 Little Cores auf der Fläche von 2 unter bringt ist man in Summe schneller auch wenn die Verlustleistung größer ist. Bei selber Performance wäre man jedoch energieeffizienter wenn es ausreichend Threads gibt.
Ja... Da kann ich mich Gipsel nur anschliessen (deine Antwort ist untergegangen, habe sie erst jetzt durch Gipsel gesehen). Die Kurve ist doch nicht mal zu Ende gezeichnet. Mal davon abgesehen, dass man nicht mal sicher gehen kann, dass das nur eine schematische Darstellung ist (es sind ja auch keinerlei Zahlenwerte eingetragen). Aber man kann ja erahnen, dass die Kurve da abfällt und dann die P-Cores eben gegen unten hin schlechter als die E-Cores sind.
Aber dann basieren deine vielen Behauptungen über dieses Thema also immer noch (ich habe dich schonmal gefragt vor ein paar Wochen) auf dieser Folie ^^ Ich wollte nur nochmals sicher gehen, dass das immer noch darauf basiert. Du stellst das nämlich immer wieder als absoluter Fakt dar. Dabei ist das eine Grafik ohne Zahlen und auch noch eine unfertiger Graph, den du einfach von selbst noch gedanklich weiter gezeichneit hast (um diese Behauptung aufzustellen geht das nicht anders, denn niemand weiss, wo auf der Kurve die beiden Cores betrieben werden in der Praxis).
iamthebear
2021-11-01, 19:57:02
Was glaubst Du, was unterhalb des Punktes passiert, wo die Kurve des P-Kerns aufhört? Ich sag's Dir: Der E-Kern ist da besser. ;)
Das ist schon klar, dass irgendwann sehr tief unten die Little Cores besser sind. Aber eben erst sehr tief unten und nicht pauschal überall.
@Platos: Nur nur auf dieser Folie. Es lässt sich aus den anderen Folien herleiten (z.B. der Vergleich mit dem Skylake Core am Architecture Day). Da sieht man es nur nicht schön in einer Grafik.
Das heißt jetzt nicht, dass die relalen Little Cores in ADL nicht stromsparender sein werden als die Big Cores aber das liegt nur am Takt, nicht an der Architektur.
Platos
2021-11-01, 20:38:13
Du weisst doch kein bisschen, bei welchen Taktraten die jeweilige Architektur besser oder schlechter ist. Wie gesagt, die Grafik zeigt keine Zahlenwerte.
Und die Skylake-Vergleiche zeigen ja gerade, wie viel Energieeffizienter die Architektur sein soll. Wobei auch da keinerlei Taktraten usw. angegeben sind.
Du spekulierst, mehr nicht. Kann man natürlich machen, ist ja das Spekuforum.
iamthebear
2021-11-02, 02:31:33
Unten ist 0, das Maximum bei den P Cores ist bekanntlich um die 5 GHz. Da kann man gut ablesen, dass das Ende der P Core Daten bei ca. 2 GHz ist. Dafür braucht man keine Daten.
Was den Vergleich mit Skylake angeht: Ja da muss man es sich manuell rausrechnen, habe ich doch schon gesagt. Wenn man die Skylake Kurve der Power Achse um 40% staucht (10nm statt 14nm) und in der Performance um ca. 20% zieht (Taktverbesserung zwischen Skylake und Comet Lake), so kommt man ziemlich genau auf dasselbe Ergebnis wie beim Vergleich mit den Big Cores.
Platos
2021-11-02, 12:36:40
Was du dir alles zusammenbastelst...
Weiterhin gilt: Du stellst Dinge als Fakt dar als Basis von Grafiken mit unvollständigen Graphen und ohne Zahlenwerte und rechnest von völlig anderen Architketuren milchdmächenhaft etwas hoch/um ;)
Mehr muss man dazu nicht sagen. Milchmädchenrechnung gepaart mit "freier Interpretation".
iamthebear
2021-11-02, 18:44:42
Bisher hat eben noch niemand, der nicht unter NDA steht einen Skalierungstest mit Big vs. Little gemacht also haben wir nur das Datenmateriel das Intel zur Verfügung stellt und eindeutiger als die Grafik von der Hot Chips kann man es glaube ich nicht darstellen.
Drehen wir den Spieß mal um: Zeig mir einmal qualitativ besseres Datenmaterial das das Gegenteil behauptet.
Undertaker
2021-11-02, 19:05:50
Unten ist 0, das Maximum bei den P Cores ist bekanntlich um die 5 GHz. Da kann man gut ablesen, dass das Ende der P Core Daten bei ca. 2 GHz ist. Dafür braucht man keine Daten.
Was den Vergleich mit Skylake angeht: Ja da muss man es sich manuell rausrechnen, habe ich doch schon gesagt. Wenn man die Skylake Kurve der Power Achse um 40% staucht (10nm statt 14nm) und in der Performance um ca. 20% zieht (Taktverbesserung zwischen Skylake und Comet Lake), so kommt man ziemlich genau auf dasselbe Ergebnis wie beim Vergleich mit den Big Cores.
Es steht nirgends, dass das Diagramm links unten einen Nullpunkt besitzt. Ebenso wenig, dass es sich um lineare Achsen handelt. Damit bricht eigentlich jegliche weitere quantitative Argumentation von vornherein zusammen. Getoppt wird das noch durch den Zusatz "Charts are for illustrative purposes only" unten links im Diagramm. Warten wir doch Zahlenwerte ab, bei welchem Takt genau sich die Effizenzkurven von Big- und Little-Cores kreuzen.
IMO ist diese Frage ohnehin nur begrenzt interessant - praktisch relevanter wird es, wenn man Perf/Watt bei gleichem Flächenverbrauch betrachtet, also das rechte Diagramm. Und da sieht man sehr gut, wie die Little Cores die Effizienz fördern. Prinzipiell heißt der Grundsatz für das CPU-Design damit nun: So viele Big Cores wie nötig, um alle Performance-kritischen und nicht weiter parallelisierbaren Threads zu befeuern. Und dann das verfügbare Flächenbudget mit der maximalen Zahl an Little Cores auffüllen. Schade, dass es keinen 4C+24c Chip als Alternative zur 8C+8c Variante gibt - in Render- und Simulations-Szenarien wäre das wohl ein absolutes Monster bei vergleichbarem Flächen- und Power-Budget geworden... :freak:
KarlKastor
2021-11-02, 19:38:44
Ich weiß gar nicht wie oft ich dir schon geschrieben habe, dass unten auf der Folie, "Charts are for illustrative purpose only" steht. Das einzige was man aus den Diagrammen rausziehen kann, sind die zwei Zahlen die Intel dran geschrieben hat. Den Rest kann man vergessen.
iamthebear
2021-11-02, 20:35:00
1.) Ja und genau das will Intel hiermit illustrieren: Performance und Verlustleistung. Deshalb gibt es ja auch 2 Achsen in dem Diagramm:
Links: Bei ST Last sind Big Cores schneller UND effizienter.
Rechts: Da jedoch statt 1 Big Core 4 Little Cores verbaut werden können sind unter MT Last die Little Cores effizienter.
Wichtig ist hier der Punkt "bei MT Last", denn wenn die Software nur 1 Thread nutzt (oder im Fall eines 12900K nicht mehr als 8) bringen die ganzen kleinen Kerne nichts, weil man sie nicht ausgelastet bekommt.
2.) Natürlich gibt es unten einen 0 Punkt. Was soll die weiße Linie denn sonst sein?
Links gibt es keinen Nullpunkt.
Tobalt
2021-11-02, 20:37:47
natürlich würden auch die big cores effizient weiter nach unten skalieren.. nicht so weit wie die littles aber doch weit genug für PC und mobile Alltag. das wäre aber deutlich *teurer* da mehr Silizium und das will dann am Ende niemand kaufen..
überall da wo einfach nur die Effizienz zählt und Anschaffungskosten zweitrangig sind findet man ja genau den Fall: dicke Breite Hardware bei sehr niedrigem Takt. das geht bis hin zu Wafer Size Chips.
Mit kam heute ein Gedanke zum Thema Big vs. Little Cores, SMT etc...
Mehr als sagen wir mal 2-4 Little Cores macht ja aus Energiespargesichtspunkten keinen Sinn. Es geht dann ehr um Durchsatzerhöhung, da viele Little Cores effizienter sind als ein Big Core mit entsprechendem Takt.
Aber weshalb baut man nicht z. b. 1 oder 2 Big Cores die aggressiv auf OOO optimiert sind und zeitkritische Threads abarbeiten. 2 Little Cores, die leichte Last übernehmen und alleine laufen wenn die Big Cores nicht benötigt werden. Dazu einen "Durchsatzkern", der sehr breit ist (Datenpfade, Cache, Ausführungseinheiten) und massiv SMT bietet aber wenig bis keine spekulative Ausführung / OOO durchführt? Letzterer muss doch in so Cinebench Szenarien besser "gehen" als 16 little Cores die jeweils ein eigenes Frontendmitbringen etc...?
iamthebear
2021-11-02, 21:48:11
Der Verwaltungsaufwand um 16 Threads performant auf einem Kern laufen zu lassen wäre enorm. Wenn das so einfach gehen würde bzw. sinnvoll wäre, dann bräuchte man ja generell nur 1 extrem breiten CPU Kern.
Bei SMT geht es primär darum, dass Einheiten nicht brach liegen wenn sie nicht genutzt werden (z.B. wenn ein Thread gerade auf den RAM wartet oder der Code nicht genug parallelisierbar ist um den Kern voll auszulasten).
Was einen kompletten Verzicht auf spekulative Ausführung angeht so könnte man so bestimmt sehr energieeffiziente und kleine Kerne schaffen nur wäre jeder einzelne Kern dann verdammt lahm. Was nützen z.B. 100 Kerne mit je Pentium 3 Performance wenn selbst Multimediaanwendungen nur bis ca. 32 Kerne skalieren.
Beispiel der 3990X im CB Test nur 18% vor dem 3970X bei doppelter Kernanzahl:
https://www.computerbase.de/2020-02/amd-ryzen-threadripper-3990x-test/3/#abschnitt_benchmarks_in_anwendungen
Im Desktop mit einem normalen Dual Channel Interface bzw. ohne 256MB L3 wird das kaum besser werden.
Platos
2021-11-02, 22:05:22
Bisher hat eben noch niemand, der nicht unter NDA steht einen Skalierungstest mit Big vs. Little gemacht also haben wir nur das Datenmateriel das Intel zur Verfügung stellt und eindeutiger als die Grafik von der Hot Chips kann man es glaube ich nicht darstellen.
Ja, deshalb besser abwarten als hier ständig das selbe rauf und runter zu behaupten (spekulieren ist ja ok, aber du stellst das so dar, als wäre es ein Fakt). Wobei das vermutlich schwierig wird mit dem Testen. Man könnte das höchstens irgendwie versuchen rauszurechnen, weil anscheinend soll man ja einen der beiden Core-Arten nicht ausschalten können (und das wird sicherlich der Big-Core sein). Also kann man die kleinen nicht einzeln testen.
Drehen wir den Spieß mal um: Zeig mir einmal qualitativ besseres Datenmaterial das das Gegenteil behauptet.
Nein, so geht das nicht mit Behauptungen :D Ich muss da nix belegen, sondern du ^^
Aber ich sage dazu mal nichts und zitiere einfach Undertaker, das sagt so ziemlich alles, was ich dir noch sagen würde:
Es steht nirgends, dass das Diagramm links unten einen Nullpunkt besitzt. Ebenso wenig, dass es sich um lineare Achsen handelt. Damit bricht eigentlich jegliche weitere quantitative Argumentation von vornherein zusammen. Getoppt wird das noch durch den Zusatz "Charts are for illustrative purposes only" unten links im Diagramm. Warten wir doch Zahlenwerte ab, bei welchem Takt genau sich die Effizenzkurven von Big- und Little-Cores kreuzen.
iamthebear
2021-11-02, 22:53:46
Ja, deshalb besser abwarten als hier ständig das selbe rauf und runter zu behaupten (spekulieren ist ja ok, aber du stellst das so dar, als wäre es ein Fakt).
Sorry aber wenn es ein eindeutiges Diagramm des Herstellers gibt, dann sehe ich das als Fakt solange bis das Gegenteil davon bewiesen wurde.
Wobei das vermutlich schwierig wird mit dem Testen. Man könnte das höchstens irgendwie versuchen rauszurechnen, weil anscheinend soll man ja einen der beiden Core-Arten nicht ausschalten können (und das wird sicherlich der Big-Core sein). Also kann man die kleinen nicht einzeln testen.
Einfach im Task Manager den Cinebench Prozess den Little Cores zuweisen und schauen wie stark die Verlustleistung ansteigt. Dasselbe macht man dann mit den Big Cores. Den Test kann man dann auf verschiedenen Taktraten wiederholen.
Nein, so geht das nicht mit Behauptungen :D Ich muss da nix belegen, sondern du ^^
Du hast doch behauptet das Diagramm von Intel stimmt nicht :P
Aber ich sage dazu mal nichts und zitiere einfach Undertaker, das sagt so ziemlich alles, was ich dir noch sagen würde:
Und die weiße Linie unten ist Dekoration?
mocad_tom
2021-11-02, 22:59:14
Man stellt Gracemont und Golden Cove auf Ghz-Werte ein, wo beide gleich viel Spec-Int-Punkte liefern.
Z.B. Golden Cove 2.8Ghz und Gracemont 3.5GHz
Und nun ist aber Gracemont 70% energieeffizienter als Golden Cove.
Z.B. benötigt Gracemont hierfür 2W und Golden Cove 3.4W
Platos
2021-11-02, 23:39:01
Sorry aber wenn es ein eindeutiges Diagramm des Herstellers gibt, dann sehe ich das als Fakt solange bis das Gegenteil davon bewiesen wurde.
[...]
Du hast doch behauptet das Diagramm von Intel stimmt nicht :P
Ein eindeutiges Diagramm? Ohne Zahlenwerte, ohne Nullpunkt, keine Angabe zur Skalierung und einer Angabe, dass es nur zur Illustration dient....eindeutiges Diagramm...aha.
Ich habe nicht behauptet, dass das Diagramm nicht stimmt. Wo habe ich das behauptet? Ich habe gesagt, dass du alles nur zusammenbastelst, was nichts davon ablesbar ist. Du behauptest Dinge, die nicht dastehen. Da kann gar nicht viel "nicht stimmen", weil eben gar nichts da steht ausser 2 Zahlen. Das ist es ja gerade.
Du musst es nicht nochmals versuchen. Es steht klipp und klar: "Charts are for illustrative purposes only". Und das mit der Grafik hat dir Undertaker ja erklärt.
iamthebear
2021-11-03, 00:48:14
Das linke Diagramm illustriert genau eine einzige Sache nämlich dass bei Single Threaded Last 1 Big Core bei gleicher Verlustleistung mehr Performance liefert als 1 Little Core. Da brauchst du weder Achsen, Nullpunkte, Werte oder Skalierungen.
Wenn das für dich nicht offensichtlich ist sorry aber dann kann ich dir auch nicht mehr helfen.
Der Verwaltungsaufwand um 16 Threads performant auf einem Kern laufen zu lassen wäre enorm. Wenn das so einfach gehen würde bzw. sinnvoll wäre, dann bräuchte man ja generell nur 1 extrem breiten CPU Kern.
Bei SMT geht es primär darum, dass Einheiten nicht brach liegen wenn sie nicht genutzt werden (z.B. wenn ein Thread gerade auf den RAM wartet oder der Code nicht genug parallelisierbar ist um den Kern voll auszulasten).
Was einen kompletten Verzicht auf spekulative Ausführung angeht so könnte man so bestimmt sehr energieeffiziente und kleine Kerne schaffen nur wäre jeder einzelne Kern dann verdammt lahm. Was nützen z.B. 100 Kerne mit je Pentium 3 Performance wenn selbst Multimediaanwendungen nur bis ca. 32 Kerne skalieren.
Beispiel der 3990X im CB Test nur 18% vor dem 3970X bei doppelter Kernanzahl:
https://www.computerbase.de/2020-02/amd-ryzen-threadripper-3990x-test/3/#abschnitt_benchmarks_in_anwendungen
Im Desktop mit einem normalen Dual Channel Interface bzw. ohne 256MB L3 wird das kaum besser werden.
Ursprung meines Gedanken war: nehme die 16 kleinen Kerne, merge sie zu einem und entferne alles was redundant ist. Auslastung per SMT. Das muss zwangsläuftig weniger Transistoren haben und mehr Durchsatz liefern als 16 einzelne Kerne. Es skaliert natürlich scheiße, d.h. es taugt nur wenn es auch ausgelastet wird. Aber wenn man eh schon heterogen aufbaut, könnte man anstatt einer Unzahl kleiner Kerne auch einen teil derer zu einer Durchsatzmaschine zusammenführen. Wenn dann 2 kleine Kerne für Low Power Anwendungen übrig bleiben reicht das ja dann auch.
iamthebear
2021-11-03, 19:04:30
Was würdest du dir denn sparen, was dann nicht 16 fach ausgelegt werden muss?
Für mich hört sich das lediglich nach einem grauenhaften Overhead an festzulegen welcher Thread wann auf welche Komponente zugreifen darf. Ich frage mich wie sie das überhaupt mit normalem SMT vernünftig hinbekommen haben.
Ich bin kein CPU Entwickler... ;) Aber eine logische implementierung mehrerer Kerne muss effizienter sein als das physisch zu machen. Mehrfach-SMT gibts ja z.b. auch bei IBM also das geht schon. Oder schau Dir mal GPUs an, die sind 1.000 mal so breit wie CPUs. Workloads die am Desktop 32 Threads voll auslasten, können doch nur Numbercrunching/Encoding etc. sein.
Der_Korken
2021-11-03, 20:49:13
Ursprung meines Gedanken war: nehme die 16 kleinen Kerne, merge sie zu einem und entferne alles was redundant ist. Auslastung per SMT. Das muss zwangsläuftig weniger Transistoren haben und mehr Durchsatz liefern als 16 einzelne Kerne.
Das wage ich stark zu bezweifeln. Die gesamte Vernetzung der einzelnen Komponenten skaliert nicht linear, sondern quadratisch. Statt einer ALU, einer AGU, einem Register File und einem L1-Cache, die jeweils verbunden sind, hast du nun 16 ALUs und 16 AGUs, die alle unabhängig voneinander auf ein 16 mal so großes RF zugreifen können (d.h. es ist 16 mal so groß und muss 16-fachen Durchsatz liefern und mit 16 ALUs verdrahtet sein) und mit Cache genauso. Und dadrüber hast du einen Super-Scheduler, der die Ressourcen konfliktfrei und effizient für 16 unabhängige Threads auf 16 ALUs verteilen muss. Zugegeben, die verschmolzene Konstruktion ist deutlich leistungsfähiger, weil sie die Ressourcen geteilt werden und einzelne Threads sich auch mal mehr Leistung abzwacken können, aber der Aufwand steigt wesentlich mehr als der Nutzen. Wenn man hinreichend parallele Aufgaben hat, sollte man auch entsprechend unabhängige Recheneinheiten bauen, die alle ihre eigenen Register und Caches haben - so wie in einer GPU.
basix
2021-11-19, 14:27:55
Schaut mal: Meteor Lake Test-Chips. Nicht funktionsfähige Chips, mehr für Qualifikation des Packaging-Verfahrens
https://www.computerbase.de/2021-11/intel-fab-42-seltener-blick-hinter-die-kulissen/
- 4 Chips?!
- In der Mitte der Compute Die?!
mocad_tom
2021-11-19, 15:26:02
Meteor Lake wird Foveros
https://www.anandtech.com/show/13699/intel-architecture-day-2018-core-future-hybrid-x86/6
Also unten gibt es eine Bodenplatte, die wird mit 10nm gemacht
(der Prozess heißt 1274.11) (aka Intel 7)
Darauf wird dann ein 7nm Compute Die gelegt
(der Prozess heißt 1276) (aka Intel 4)
Und weil Intel das bei Ponte Vecchio auch schon macht, nehmen sie einen GPU-Die von TSMC.
Die kleinen Seiten-Streifen / Seiten Schnipsel sind nur "Structural Die".
Da ist keine Funktion drin, das sind nur Silizium-Plättchen, das dient nur zum stützen.
Im Base-Die 1274.11 steckt der Memory-Controller, Southbridge, Logical-Layer-Wlan, Sound, vllt Last Level Cache ... drin.
mocad_tom
2021-11-20, 21:55:42
Dies sind Schnitte durch Meteor Lake
_____________________________
| * Compute Die / Intel 4 / 1276 * |
-----------------------------------------
| *Base Die / Intel 7 / 1274.11 * |
-----------------------------------------
_____________________________
| * * * GPU Die / TSMC N5 * * * * |
-----------------------------------------
| * * Base Die / Intel 7 / 1274.11 *|
-----------------------------------------
Der SoC-Die ist der Base Die.
Amd hat beim V-Cache ein Problem.
Der V-Cache wird oben aufgelegt.
Bisher konnte die Wärmeenergie von den Kernen zum Cache hinfließen und dann gab es dort genügend Kontaktfläche zur Wärmeableitung(natürlich gab es auch genug Wärmeableitung direkt beim Kern nach oben, aber die Ableitung über den Cache ist zusätzlich ein guter Weg).
* * * * _____________
* * * *| * * V-Cache *|
______|____________|_______
| * * * * Compute Die * * * * * |
|_________________________|
So nun wird hier ein Teil der Fläche überdeckt und der Wärmeübergang zum V-Cache ist eine Unterbrechung. Es kann zwar Wärme hochgeschafft werden, aber nicht so viel wie vorher.
Intel macht das mit ihrem Foveros anders.
Das Compute Die ist oben.
Es könnte sein, dass Intel es ähnlich macht wie AMD beim V-Cache.
Die MOESI-Tags und der TLB steckt im Compute-Die die eigentlichen Cache-Lines liegen im Base-Die.
Durch diesen Trick schafft es AMD, dass die Cache-Latency des V-Cache und des On-Die-Cache gleich schnell ist.
Dieses Vorgehen wurde auch schon früher z.B. beim Pentium 2 genutzt.
Deshalb wird man das nicht patentieren können.
Complicated
2021-11-21, 08:38:38
So nun wird hier ein Teil der Fläche überdeckt und der Wärmeübergang zum V-Cache ist eine Unterbrechung. Es kann zwar Wärme hochgeschafft werden, aber nicht so viel wie vorher.
https://www.extremetech.com/computing/326194-amd-unveils-new-ryzen-v-cache-details-at-hotchips-33
In AMD’s case, the company claims to have integrated its V-NAND technology directly above the 2D L3 cache. This keeps the L3 from absorbing additional heat dissipation off the ALUs and other hot spots on the actual CPU die. AMD hat nicht vor über den V-Cache Hitze abzuführen.
Schaut mal: Meteor Lake Test-Chips. Nicht funktionsfähige Chips, mehr für Qualifikation des Packaging-Verfahrens
https://www.computerbase.de/2021-11/intel-fab-42-seltener-blick-hinter-die-kulissen/
- 4 Chips?!
- In der Mitte der Compute Die?!
Da würd ich sagen ist GPU und SoC-Die vertauscht. Das Wifi ist im SoC-Die mit drin würd ich sagen, wenn das mini-Die nur der Stabilität gilt. Das Base-Die verknüpft doch nur alles und wird keine Funktion haben. Die GPU kann auch N6 sein.
mocad_tom
2021-11-21, 09:51:19
@complicated
du bestätigst gerade genau das, was ich geschrieben habe.
und amd hat gesagt, dass bei gleicher frequenz die v-cache-cpu 15% mehr IPC hat.
Sie haben aber gleichzeitig gesagt, dass sie wegen hitzeproblemen den takt nicht so hochjagen können.
und in einer zukünftigen generation von Amd wird das nach unten wandern, haben sie auch schon mal gesagt.
Wo haben die das gesagt? Das ist doch Unsinn. Der VCache liegt ja genau überm Cache, damit die Takte normal bleiben können. Die Problematik würd nur dann auftreten, wenn der VCache über den Kernen liegen würde. Cache als Base-Die würde das Problem dann lösen, so wird das ja mMn bei N31 schon sein.
Complicated
2021-11-21, 10:37:38
@complicated
du bestätigst gerade genau das, was ich geschrieben habe.
Da steht im Gegenteil, dass der V-Cache möglichst isoliert von der Hitzeentwicklung der ALUs ist und der L3$ daher keine thermischen Probleme bekommt. Was das für die CPU-Kerne selber bedeutet und für deren Kühlung, das steht auf einem anderen Blatt. Dein Theorie, dass der Stacked L3$ für die Hitzeableitung mit genutzt wird, ist damit von AMD offiziell ausgeschlossen:
So nun wird hier ein Teil der Fläche überdeckt und der Wärmeübergang zum V-Cache ist eine Unterbrechung. Es kann zwar Wärme hochgeschafft werden, aber nicht so viel wie vorher.
Ich habe mich lediglich auf diesen Teil Deines Beitrags bezogen. Der erste Satz trifft nicht zu. Der Fette ist ebenfalls nicht zutreffend oder angestrebt von AMD.
Edit: Das Stacking oben auf dem Die hat einen weiteren Vorteil, den man nicht unterschätzen sollte. AMD soll bis zu 4 Lagen Cache übereinander stapeln können, sofern gewünscht. Das wird unter dem CPU-Die deutlich schwieriger umzusetzen.
basix
2021-11-21, 10:53:27
Mittels Sandwich-Konstruktion könnte man schon den L3$ zwischen Base-Die und Compute-Die stapeln. Eigentlich gleich vie bei AMDs V-Cache oben auf den Base-Die. Danach noch den Compute Die obendrauf.
Complicated
2021-11-21, 11:31:23
AMD soll bis zu 4 Lagen Cache übereinander stapeln können, sofern gewünscht. Das wird unter dem CPU-Die deutlich schwieriger umzusetzen.Das ist unter dem CPU-Die deutlich schwieriger. Da spielt es kaum eine Rolle ob man einen einzelnen Cache dazwischen packen kann. Es geht auch um Skalierbarkeit, falls nötig.
Mittels Sandwich-Konstruktion könnte man schon den L3$ zwischen Base-Die und Compute-Die stapeln. Eigentlich gleich vie bei AMDs V-Cache oben auf den Base-Die. Danach noch den Compute Die obendrauf.
Ist aber bei MTL schlichtweg nicht der Fall. Hier gibts kein externes Cache-Die. Vielleicht bei Arrow Lake dann. Und Sandwich wäre ja gar nicht nötig, wenn das Base-Die auch Cache beinhalten würde.
mocad_tom
2021-11-21, 13:45:51
Ponte Vecchio hat 408MB Cache im Base Die (dieser wird gemacht mit dem Prozess 1274.11)
https://www.anandtech.com/show/17067/intel-sapphire-rapids-with-64-gb-of-hbm2e-ponte-vecchio-with-408-mb-l2-cache
Ponte Vecchio und Meteor Lake teilen sich die gleiche Generation der Foveros Technik.
Der Base Die von Meteor Lake wird ebenfalls im Prozess 1274.11 gefertigt.
In Ponte Vecchio haben sie eine fertig entwickelte Cache-Zelle für 1274.11.
Warum sollte sich im Jahr 2023 Intel von Apple mit dem M2 nass machen lassen?
Intel hat fertige Technologien in der Schublade und nutzt diese dann nicht?
davidzo
2021-11-21, 13:47:34
Mittels Sandwich-Konstruktion könnte man schon den L3$ zwischen Base-Die und Compute-Die stapeln. Eigentlich gleich vie bei AMDs V-Cache oben auf den Base-Die. Danach noch den Compute Die obendrauf.
Viel Spaß bei der power delivery. Schick mal 255Ampere durch Base und Cache Die so dass es verteilt über den ganzen compute DIE ankommt.
3D ist interessant wenn die Current-Dichte nicht so hoch ist (mobile, ultramobile), aber selbst backside power delivery wird da im Desktop nicht des Rätsels letzter Schluss sein, da man da wieder große Strecken horizontal in den Backside Layern überbrücken muss, oder eben doch mit hohem current wieder durch den ganzen Stack hindurch.
Nightspider
2021-11-21, 14:06:34
Man kann doch den Strom an den Seiten des Base und Cache Die nach oben führen, eventuell mit entweder sehr breiten TSVs (falls das geht) oder eben eine hohen Anzahl.
Die Fläche für die Daten-TSVs (siehe V-Cache Kontaktstellen) sind ja sehr sehr klein.
basix
2021-11-21, 14:45:08
Ist aber bei MTL schlichtweg nicht der Fall. Hier gibts kein externes Cache-Die. Vielleicht bei Arrow Lake dann. Und Sandwich wäre ja gar nicht nötig, wenn das Base-Die auch Cache beinhalten würde.
Habe ich auch nicht behauptet ;) War nur eine Antwort bezüglich mehrere Cache-Dies stapeln wie bei Zen.
Viel Spaß bei der power delivery. Schick mal 255Ampere durch Base und Cache Die so dass es verteilt über den ganzen compute DIE ankommt.
3D ist interessant wenn die Current-Dichte nicht so hoch ist (mobile, ultramobile), aber selbst backside power delivery wird da im Desktop nicht des Rätsels letzter Schluss sein, da man da wieder große Strecken horizontal in den Backside Layern überbrücken muss, oder eben doch mit hohem current wieder durch den ganzen Stack hindurch.
Ja, das wäre wohl ein Problem. Wenn das Compute-Die aber selbst auch noch Cache hat (wie ein Zen 2/3 CCD), wäre dass dann nicht auch denkbar? Ich nehme an, die Haupt Power-Delivery ist dort wo die Cores sitzen?
Und mocad_toms Einwand zu Ponte Vecchio gibt es da auch noch: Dort sitzen die Compute-Die schon über dem Cache Die. Irgendwie geht es also schon. Die Stacked-Die sind ja deutlich dünner abgeschliffen, da ist allenfalls nicht so viel Distanz zu überbrücken. Problematisch sind dann eher die mehreren Übergangswiderstände bei den Verbindungsstellend der Dies.
mocad_tom
2021-11-21, 15:07:22
https://www.anandtech.com/show/16823/intel-accelerated-offensive-process-roadmap-updates-to-10nm-7nm-4nm-3nm-20a-18a-packaging-foundry-emib-foveros/4
Foveros Omni
"This means that the limit of the first generation Foveros which needed a top die smaller than the base die is now removed. The top die can be larger than the base die, or if there are multiple die on each of the levels, they can be connected to any number of other silicon. The goal of Foveros Omni is really to solve the power problem as discussed in the initial section on Foveros – because power carrying TSVs cause a lot of localized interference in signaling, the ideal place to put them would be on the outside of the base die. Foveros Omni is a technology that allows for the top die to overhang from the base die and copper pillars are built from the substrate up to the top die to provide power."
Meteor Lake kann von 5W bis 125W.
Meine Vermutung Meteor Lake braucht noch nicht Foveros Omni.
Und Meteor Lake wird wohl noch nicht eine High-End-Desktop-SKU bekommen.
Raptor Lake 13900K und Sapphire Rapids-HEDT wird in 2023 Highest Desktop End.
Aber Meteor Lake mit 100W boxt in jeder Kategorie mit Apple M2.
Deshalb bekommt Meteor Lake auch diese außerordentlich große GPU spendiert.
Und Meteor Lake bekommt eine Neural Engine (so überraschend).
Granite Rapids benötigt dann Foveros Omni.
davidzo
2021-11-21, 16:36:47
. Foveros Omni is a technology that allows for the top die to overhang from the base die and copper pillars are built from the substrate up to the top die to provide power."
Wie gesagt, das verlagert das Problem nur in die Horizontale. Plötzlich musst du dann vom Rand des DIEs armdicke Power delivery in die Mitte des DIEs führen. Ob da nicht eine TSV Area zentral im DIE doch besser wäre vom Innenwiderstand?
Das scheint mir nur eine Lösung für sehr kleine DIEs zu sein, mit noch kleineren Base/Cache DIEs.
Meteor Lake kann von 5W bis 125W.
Meine Vermutung Meteor Lake braucht noch nicht Foveros Omni.
Und Meteor Lake wird wohl noch nicht eine High-End-Desktop-SKU bekommen.
Raptor Lake 13900K und Sapphire Rapids-HEDT wird in 2023 Highest Desktop End.
Ich denke dass die Technik gerade bei einem Mobile Design mit kleinen chiplets am besten aufgehoben ist.
Granite Rapids benötigt dann Foveros Omni.
Hm, das hieße aber wirklich sehr kleine Tiles und überall foveros omni power delivery zwischen den Tiles. Klingt sehr anders als der SR Ansatz mit breiten die zu Die interconnects.
Hm, was wäre denn wenn man für Backside Power delivery quasi ein Sandwich-Package mit zwei Substraten verwenden würde. Das obere Substrat wäre für Power delivery und besteht quasi aus massiven Kupfer traces mit ganz wenig hochwärmeleitfähigen Isoliermaterial dazwischen gegossen. Die Chips sind zwischen dem oberen Power delivery Substrat und dem unteren Standard-flipchip substrat. Von der Wärmeleitung her sollte die Power Deliver quasi die Funktion des IHS übernehmen. Je mehr solides Kupfer, desto weniger beeinträchtigt das die Wärmeleitung.
Ich kann mir sonst nicht vorstellen wie die Omni Copper pillars von der Seite und die und Backside power delivery irgendeinen Vorteil bringen können gegenüber der Direktkontaktierung von der Chiprückseite.
Meteor Lake kann von 5W bis 125W.
Meine Vermutung Meteor Lake braucht noch nicht Foveros Omni.
Und Meteor Lake wird wohl noch nicht eine High-End-Desktop-SKU bekommen.
Raptor Lake 13900K und Sapphire Rapids-HEDT wird in 2023 Highest Desktop End.
Nach den letzten Gerüchten der üblichen Twitter leaker ist Meteor Lake mobile only und für den Desktop kommt nach Raptor Lake-S erst mit Arrow Lake etwas neues.
basix
2021-11-21, 20:21:05
Mobile only bei 5-125W? Sehr glaubwürdig...
mocad_tom
2021-11-21, 21:32:51
@davidzo
Die Kerne (weil sie wirkliche Hitzenester sind) werden eh außen positioniert.
Ein Gesamt-Ponte Vecchio kann wohl so um die 550W verbrauchen und der hat noch kein Foveros Omni.
Mit TSV kann schon einiges an Power hochgeschafft werden.
Mit Intel 20A und PowerVia kann man Strom von oben und von unten reinfüttern.
Da gehts dann so richtig ab(Nova Lake war 20A?)
Die Designs sind zukünftig dann immer Foveros.
@basix
125W aber mit einer wahnsinnig potenten GPU.
Minimum 3070er Niveau on Package.
Würde hier auch vermuten, dass die GPU der TDP-Treiber ist. Ich hatte ja schon früh den Gedanken, dass MTL wieder nur mobil sein könnte und von RPL wird es wohl keine mobile Variante geben. Zudem könnte MTL dann auch alles bis zur dicksten H-Variante abdecken.
So ergibt auch das Lineup Sinn: Q3 geht RPL in Massenproduktion (so zählt Intel ja für gewöhnlich), Q4 dann Launch, Q4 23 dann Launch von ARL.
Mobiel launcht ADL dann Q1 22, MTL wird dann wohl mobil Q2 23 werden.
Für Intel ist der Mobilmarkt erheblich wichtiger als der Desktop.
Mobile only bei 5-125W? Sehr glaubwürdig...
Das wurde so nicht behauptet. Also erstmal ist die 5-125W Angabe von Intel ein paar Monate alt und damit älter als die letzten Gerüchte, Pläne können sich ändern. Zweitens wäre das ohnehin nie eine Bestätigung für Meteor Lake im Desktop gewesen. Meteor Lake kann bis 125W skalieren, ja schön. Das kann Tigerlake-H auch schon, obwohl mobile only. Eine Desktop Bestätigung war das nie, das wurde immer nur reininterpretiert.
Es deutet nichts auf Meteor Lake im Desktop hin, leider. Es ist von Anfang unwahrscheinlich gewesen, weil Intel bis tief ins Jahr 2023 rein sehr wenig EUV Kapazität besitzt und aufgrund der Intel typisch schwachen yields (+wenig Kapazität) bei einer neuen Fertigung Intel traditionell kleine niedriger taktende CPUs zuerst bringt und mobile sich dafür besser eignet, siehe Broadwell-U oder Icelake-U.
Oder Cannonlake-U, wenn der nicht quasi gecancelt wurden wäre. Auch der geringe Abstand von Meteor Lake zu Arrow Lake ist ein Zeichen. Wenn nur 2 Quartale später Arrow Lake ansteht, passt Meteor Lake nicht rein. Dann kann Intel gleich auf die nächste Architektur setzen.
Vielleicht wird bei Arrow Lake zuerst wieder der Desktop bedient, das könnte ich mir gut vorstellen. Den 1 Jahr Zyklus wird Intel versuchen einzuhalten.
iamthebear
2021-11-22, 01:58:39
Wenn Meteor Lake und Arrow Lake wirklich nur 2 Jahre Abstand haben, würde ich nicht annehmen, dass beide das volle Lineup bedienen.
Ich würde sagen Meteor Lake ist der gewöhnliche Raptor Lake Nachfolger mit Mobile + Desktop. Mit 125W in Intel 4 kann das nicht Mobile only sein. Laut MLID ist Meteor Lake auch nur 10% schneller als Raptor Lake. Ich denke Meteor Lake wird ein eher langweiliger Raptor Lake Shrink sein bei dem sie nur ein bisschen mit dem Packaging üben.
Arrow Lake ist dann irgendetwas anderes. Mit den 320 EUs und der 3nm TSMC Fertigung (so wie ich es verstanden habe auch für den CPU Teil) hört sich das für mich mehr nach einer APU an. Eventuell eine Art Konsole auf PC Basis?
Die Frage die ich mir nur stelle ist: Wenn Arrow Lake TSMC 3nm sein soll und Lunar Lake Intel 3 ist, wie können dann beide mit Lion Cove denselben Kern haben?
Generell bin ich aber noch ein bisschen skeptisch:
a) Es ist echt fraglich, ob Intel ihren 4nm Prozess wirklich rechtzeitig zum Laufen bekommen, um da das gesamte Lineup zu bedienen bzw. ob sie überhaupt genug EUV Kapazitäten haben.
b) Es ist fraglich, ob deren größere GPUs überhaupt brauchbar sein werden. Wenn Arc failed, dann wird auch aus Arrow Lake + 320 EUs nichts werden.
mocad_tom
2021-11-22, 23:09:53
intel 7 raptor lake
intel 4 meteor lake
intel 3 arrow lake
tsmc 3 lunar lake
intel 20a nova lake
intel 18a mit Euv high-na
Ramius
2021-11-23, 07:19:47
Die Frage die ich mir nur stelle ist: Wenn Arrow Lake TSMC 3nm sein soll und Lunar Lake Intel 3 ist, wie können dann beide mit Lion Cove denselben Kern haben?
Na weil bei TSMC nur die GPU der APU gefertigt wird und die CPU bei Intel.
Wenn Meteor Lake und Arrow Lake wirklich nur 2 Jahre Abstand haben, würde ich nicht annehmen, dass beide das volle Lineup bedienen.
2 Quartale.
Ich würde sagen Meteor Lake ist der gewöhnliche Raptor Lake Nachfolger mit Mobile + Desktop.
Warum würdest du das sagen? Es deutet nichts darauf hin und wenn man sich Intels 14nm und 10nm history ansieht, ist das von vornherein unwahrscheinlich.
Woher soll Intel plötzlich die EUV Kapazität in 2023 herbekommen, um in mitte 2023 desktop und mobile gleichzeitig zu bedienen? Und wie wahrscheinlich wäre es, dass Intel von Anfang an hohe Taktraten für den Desktop fahren kann und der yield für Desktop CPUs mit größerer Kernanzahl passt?
Warum gab es keinerlei Desktop Dokumente zu einem Meteor Lake in Intels Datenbank im Frühjahr und etliche zu mobile Meteor Lake? https://twitter.com/i/web/status/1375447791577669635
Warum der kurze Abstand zu Arrow Lake?
Warum ist sich Greymon so sicher, Arrow Lake wäre der Nachfolger zu Raptor Lake? https://twitter.com/greymon55/status/1460283124349222919
Mit 125W in Intel 4 kann das nicht Mobile only sein.
Intel hat nirgends bestätigt, dass es 125W geben wird. Sie haben damit nur bestätigt, dass Meteor Lake zwischen 5-125W skalieren kann, alles andere wird reininterpretiert. TGL-H skaliert auch über 100W, ja viele OEMs lassen TGL-H so laufen.
Laut MLID ist Meteor Lake auch nur 10% schneller als Raptor Lake. Ich denke Meteor Lake wird ein eher langweiliger Raptor Lake Shrink sein bei dem sie nur ein bisschen mit dem Packaging üben.
Bei einer neuen Fertigung ist Intel vorsichtig und setzt auf das "Tick" Modell, siehe Ivy Bridge oder Broadwell oder Cannonlake wenn er nicht gecancelt wurden wäre. Es könnte also sein. Jedenfalls was die big cores angeht.
Interessanter ist der potenzielle perf/w Gewinn über Intel 7, für Notebooks ist das alles andere als langweilig. Deswegen ist Meteor Lake im Desktop ja auch unwahrscheinlich, CPU seitig würde ein Tick kaum oder nichts an Performance bringen.
Arrow Lake ist dann irgendetwas anderes. Mit den 320 EUs und der 3nm TSMC Fertigung (so wie ich es verstanden habe auch für den CPU Teil) hört sich das für mich mehr nach einer APU an. Eventuell eine Art Konsole auf PC Basis?
Intel hat nicht nur eine GPU Größe im Angebot, haben sie doch schon bei Alder Lake. Die mobile Variante hat dreimal so viele EUs und mit den chiplets sind sie zukünftig noch flexibler.
320 EUs wird man im Desktop lineup sicherlich nicht bekommen. Es sei denn, Intel legt ein paar Spezialmodelle auf wie damals mit Broadwell edram. Ansonsten wird Intel versuchen die iGPU Fläche klein zu halten im Desktop. 96EUs im Desktop wären trotzdem denkbar. Das wäre mit TSMC 5nm klein genug und irgendwann muss Intel was drauflegen zu den 32EUs.
Außerdem deuten 6P cores auf eine mobile Variante hin. https://videocardz.com/newz/intel-arrow-lake-p-gpu-rumored-to-feature-320-execution-units
Es ist davon auszugehen, dass Arrow Lake eine komplett neue Generation ist und Desktop+mobile bedient. Broadwell hatte damals auch nur ein recht kurzes Leben (aufgrund der 14nm Verschiebung), 8 Monate später kam Skylake mit vollem deskop+mobile lineup.
intel 7 raptor lake
intel 4 meteor lake
intel 3 arrow lake
tsmc 3 lunar lake
intel 20a nova lake
intel 18a mit Euv high-na
Ich glaub, das wird so nicht laufen. Da werden noch ein paar Unwägbarkeiten drin sein.
Klar ist für mich, dass jeder Prozess sehr sicher für 2 Generationen genutzt wird. Ich denke auch, dass Lion Core für Arrow Lake ne glatte Fehlinfo ist. Das wird ein Refreshkern von Redwood Cove sein.
Das wird mMn eher so aussehen:
Meteor Lake Intel4+N3/N4 Redwood Cove
Arrow Lake Intel4+N3/N4 "Arrow Cove" (Redwood Cove Refresh)
Lunar Lake Intel3+N3/N4 Lion Cove
? Lake Intel3+?
Nova Lake Intel20A
Klar staucht Intel den Zeitplan soweit die möglich, aber die können halt auch nur mit Wasser kochen. TSMC werden die so schnell nicht einholen. Intel4 ist mit N5 vergleichbar, das ist 2,5 bis 3 Jahre später. 20A wird ganz sicher nicht zusammen mit N2 daherkommen, da ist mindestens noch ein Jahr dazwischen eher mehr.
mocad_tom
2021-11-25, 16:06:40
Von Intel 4 zu Intel 3 wird nur ein half node step.
Beides EUV, beide noch nicht GAA.
Da üben sie mal für den half node step, das haben sie bisher noch nicht gemacht.
Die werden vllt sogar von der selben Linie runterpurzeln.
In Intel 20A wird großes eingeführt (GAA und PowerVia) und in Intel 18A ebenfalls wieder (EUV high-NA).
EUV high-NA wird schon deshalb ein einschniedender Moment, weil die Fabs höhere Deckenhöhen und allgemein größer werden müssen.
Mit Intel 3 hat Intel zu TSMC N3E aufgeschlossen.
TSMC kann GAA und EUV High-NA ebenfalls noch nicht.
TSMC hatte halt jetzt den "EUV-Lauf".
GAA wird ein neues Kapitel.
EUV High-NA wird wieder ein neues Kapitel.
Bei High-NA bekommen beide Kontrahenten gleich viele Maschinen in der gleichen Zeitperiode. Mit Gelsinger ist der Angsthasenfußball vorbei.
w0mbat
2021-11-25, 16:55:31
EUV high-NA wird schon deshalb ein einschniedender Moment, weil die Fabs höhere Deckenhöhen und allgemein größer werden müssen.
Hast du da mehr Infos zu?
Von Intel 4 zu Intel 3 wird nur ein half node step.
Beides EUV, beide noch nicht GAA.
Da üben sie mal für den half node step, das haben sie bisher noch nicht gemacht.
Die werden vllt sogar von der selben Linie runterpurzeln.
In Intel 20A wird großes eingeführt (GAA und PowerVia) und in Intel 18A ebenfalls wieder (EUV high-NA).
EUV high-NA wird schon deshalb ein einschniedender Moment, weil die Fabs höhere Deckenhöhen und allgemein größer werden müssen.
Mit Intel 3 hat Intel zu TSMC N3E aufgeschlossen.
TSMC kann GAA und EUV High-NA ebenfalls noch nicht.
TSMC hatte halt jetzt den "EUV-Lauf".
GAA wird ein neues Kapitel.
EUV High-NA wird wieder ein neues Kapitel.
Bei High-NA bekommen beide Kontrahenten gleich viele Maschinen in der gleichen Zeitperiode. Mit Gelsinger ist der Angsthasenfußball vorbei.
Diese Einschätzung kann ich beim besten Willen nicht teilen. Das war ja kein "Angsthasenfussball" sondern technisches Unvermögen die bisherigen Prozesse zum Laufen zu bringen und ich wiederhole mich. TSMC ist über 2 Jahre vorne. Das holen die nicht mit 20A ein, das ist einfach ne blödsinnige Annahme. Lass doch mal die Kirche im Dorf.
N3 geht nächstes Jahr in die Massenproduktion, Intel3 Produkte sind nicht vor Ende 24 zu erwarten mMn. Alles andere ist mir viel zu optimistisch.
basix
2021-11-25, 21:21:42
Er hat insofern recht, dass mit GAA und High-NA die Karten neu gemischt werden. GAA ist aus Energieeffizienz und Herstellbarkeit / Yield ein ganz neues Kaliber, vermutlich noch mehr als damals bei der Einführung von FinFET. High-NA wird wahnsinnig teuer, ist technologisch noch nicht mal Spruchreif (einige Dinge weiss man heute noch nicht, wie man sie löst) und ASMLs Herstell-Kapazitäten sind begrenzt. Wer hier zuerst ist oder die Lithographie besser beherrscht wird ebenfalls einen grossen Vorteil haben bei Leading Edge.
Intel hat hier die Kohle und Manpower und eigentlich auch das Know-How die es braucht. Fokussiert man sich hier mehr darauf und fährt bei Intel 7/4/3 eher relaxed Parameter (technisch weniger anspruchsvoll, Timeline besser einhaltbar), bestellt einige Sachen noch bei TSMC wo es technologisch besser passt, könnte das für Intel schon aufgehen. TSMC wird aber sicher auch viel Geld und Manpower draufwerfen.
Nichtsdestotrotz: Intel kann immer einige Elemente bei TSMC fertigen lassen (z.B. GPU), wenn ihr eigener Node irgendwas nicht hergibt oder TSMC irgendwo besser da steht. Aufgrund der Chiplets hat man hier viel flexiblere Möglichkeiten und kann das Produktdesign entsprechend optimieren. Schlussendlich entscheidet aufgrund der Chiplets nicht der Lithographie-Node, wer gewinnt (da anpassbar), sondern die Architektur und das Packaging. Intel verkauft in erster Linie immer noch Produkte, und nicht Lithographie-Prozesse (ja IDM 2.0 gibt es da noch nebenbei). Und Intel hat da mehr Möglichkeiten, da mehr Geld und die Wahl zwischen Intel, TSMC und Samsung. AMD und Nvidia haben nur TSMC und Samsung. Aber wer weiss, evtl. bestellt AMD die Chips ja irgendwann bei Intel :D
//differentRob
2021-11-25, 21:56:08
Stichworte GAA & High-NA: Hat sich da Intel bei R&D nicht ins Team IBM|Samsung geschmuggelt? Oder verwechsel ich da was?
mocad_tom
2021-11-25, 22:56:44
redfire auf twitter notiert das ziemlich gut auf
https://mobile.twitter.com/Redfire75369/status/1458047568349306888
intel hat mit intel 10 esf aka intel 7 den kompaktesten DUV prozess industrieweit.
euv hat ja das problem, dass weniger waferstarts machen kann, der belichtungsdurchsatz ist geringer.
deshalb ist eine kombi bei foveros aus duv-prozess und euv-prozess gar nicht so übel.
in lakefield war der memory controller im 10nm die, im 22nm die waren noch einfachere strukturen.
in meteorlake wird der memory controller im duv prozess (10nm) stecken, die cpu pipeline im euv prozess.
ich bin gespannt wie viel kapazität im intel 4- und intel 3-verfahren aufgebaut wird.
Da wird nicht viel kapazität gebraucht, weil das base die so viel funktionen reinbekommt.
vielleicht machen sie ja auch bei den gpu foveros.
damit könnte man waferstarts hochfahren.
warum raja bei ponte vecchio den rambo cache in 10nm esf machen hat lassen kann mir auch keiner erklären?
iamthebear
2021-11-25, 22:59:24
Der Grund für das 10nm Desaster war meiner Ansicht nach eine Kombination aus 3 Dingen:
a) Man hat sich dafür entschieden 10nm noch ohne EUV zu machen, da Intel damals noch 2 Jahre vorne war und EUV noch nicht ausgereift genug war.
b) Man hat sich ein Ziel vorgenommen, das ohne EUV einfach nicht mehr möglich war und da der Schritt so groß war konnte man das lange nicht erkennen. Dann musste man zurückrudern und nachkorrigieren, was alles Zeit gekostet hat.
c) Man hatte lange Probleme die 10nm Fertigung auf brauchbare Taktraten zu bringen, was aber nicht unbedingt ein Intel Problem sein muss. Bei TSMC 7nm und 5nm hat es auch sehr lange gedauert bis die ersten hoch taktenden CPUs von AMD kamen.
Wenn Intel seinen Zeitplan hatlten kann, sind sie spätestens ab 2024 wieder gleichauf. Man darf hier nicht den Fehler der Risk Production bei TSMC mit realen hoch taktenden Desktopprodukten bei Intel im Handel zu vergleichen.
Wo ich nur meine Zweifel habe ist dass der Terminplan halten wird nach all den Verzögerungen. Bisher hat man von Intel 4 noch nicht viel gesehen außer einem kleinen 30mm² Chip wo Yields egal waren.
Mich erinnert das Ganze etwas an die P4 Prescott Ära als das Management komplett unrealistische Taktziele vorgelegt hat was dazu geführt hat, dass bessere Alternativlösungen gar nicht mehr diskuttiert wurden, da ja unterhalb der Ziele.
Es ist jedoch auch genauso möglich, dass TSMC mit GAA das selbe Schicksal ereilt und hier wieder Intel und Samsung vorne sind während sich TSMC bei 2nm die Zähne ausbeißt.
Zossel
2021-11-26, 06:43:54
c) Man hatte lange Probleme die 10nm Fertigung auf brauchbare Taktraten zu bringen, was aber nicht unbedingt ein Intel Problem sein muss. Bei TSMC 7nm und 5nm hat es auch sehr lange gedauert bis die ersten hoch taktenden CPUs von AMD kamen.
Das ist das strukturelle Problem von Intel, zu wenig Produkte mit denen man eine neue Node hochfahren kann, bei gleichzeitig zurückgehender Bedeutung des CashCow-Produkts.
Und als Fremdfetiger wird Intel immer das Problem haben das man als Kunde immer dem Risiko ausgesetzt sein wird gegenüber (End)Produkten von Intel benachteiligt zu werden.
b) Man hat sich ein Ziel vorgenommen, das ohne EUV einfach nicht mehr möglich war und da der Schritt so groß war konnte man das lange nicht erkennen. Dann musste man zurückrudern und nachkorrigieren, was alles Zeit gekostet hat.
Korrigiere mich wenn ich falsch liege aber sie haben es doch jetzt letztendlich ohne EUV geschafft?
basix
2021-11-26, 13:52:25
Korrigiere mich wenn ich falsch liege aber sie haben es doch jetzt letztendlich ohne EUV geschafft?
Nachdem man den Prozess relaxed hat (weniger Dichte) und 5 Jahre dafür gebraucht hat ;)
mocad_tom
2021-11-26, 15:56:41
Hast du da mehr Infos zu?
samsung Hwaseong
https://www.hardwareluxx.de/index.php/galerie/sonstiges/wirtschaft/samsung-hwaseong_euv_line.html
Und Oregon D1X
https://www.hoffmancorp.com/project/fab-d1x-mod-3/
Bei der Oregon D1X Gebäudehülle haben sie damals gesagt, warum baut man so eine riesen Fab und danach steht sie dann leer.
Die Hüllen bei Samsung und Intel hat man so groß gebaut, dass beim Retooling ein EUV High-NA reinpasst.
Die meisten anderen Fabs können da nicht mithalten.
In Israel und Irland müssen neue Fabs mit ganz anderen Abmaßen nebendran gebaut werden.
Intel Leixlip
https://www.google.de/maps/search/intel+leixlip/@53.3751479,-6.5236829,1002m/data=!3m1!1e3
Jetzt wird es physikalisch erfahrbar -> real men own BIG fabs
In die kleinen Reinräume kann man DUV Equipment reinparken, in die großen Reinräume EUV und EUV High-NA.
Die einzelnen Reinräume(klein mit DUV und groß mit EUV) werden über Reinraum-Förderbänder miteinander verbunden (wo dann diese Boxen rumfahren können).
Meteor Lake mit 125W ist mobil, das dürfte jetzt klar sein.
Raptor soll schon erheblich mehr TDP als ADL haben, von bis zu 300W ist die Rede, das sagt jedenfalls Igor.
https://youtu.be/8Yy4pLjPtDQ
Das ganze Video interessant, hier kommt mit ATX3.0 echt heftiges beim Stromverbrauch auf uns zu.
Thunder99
2021-11-27, 13:00:22
Krank, wohin soll das führen, auch kühlungstechnisch?
Meteor Lake 125W mobile ist Quatsch, Raptor mit 300W PL2 könnte sein, wenn sie den ineffizienten 12900K fortführen wollen. 16 statt 8 E-cores und etwas mehr Takt, dann werden 300W im PL2 erreicht. 150 Watt Mehrverbauch für 5% mehr Leistung so ungefähr.
Meteor Lake 125W mobile ist Quatsch, Raptor mit 300W PL2 könnte sein, wenn sie den ineffizienten 12900K fortführen wollen. 16 statt 8 E-cores und etwas mehr Takt, dann werden 300W im PL2 erreicht. 150 Watt Mehrverbauch für 5% mehr Leistung so ungefähr.
Das ist eben nicht Quatsch ;). Siehe M1 Max, der kann in Hochlastscanrien bei der Grafik auch ziemlich viel Strom verbrauchen. Wenn du die TDP überall hochziehst, wieso nicht auch mobil?
Die nächste Generation wird ja nicht weniger TDP haben als RPL, wie kommt man auf sowas?
Ich bleibe dabei, MTL ist ein reiner Mobilprozessor aus meiner Sicht, der eben so ne dicke Grafik mitbringt, dass die 125W gerechtfertigt werden. Warum auch nicht? Der bekommt einfach LPDDR5 wie die Apples und fertig. Das ist das eigentliche Konkurrenzprodukt zu Apple, kein Desktop-Produkt. Hinzu kommt als netter Nebeneffekt, dass man mit starker Grafik auch noch NV in den nicht-High-End Mobilsektoren aussperren kann mit solchen Produkten.
Krank, wohin soll das führen, auch kühlungstechnisch?
Im High-End ganz klar zu Wasser. Die normalen Produkte bleiben ja im OEM-Rahmen, da wird die TDP nicht so extrem steigen mMn. Aber wenn Intel jetzt einmal die Tür zu 300W für den Prozessor aufstößt, wird sich das nicht wieder schließen und AMD wird da mitmachen.
basix
2021-11-27, 17:21:07
Meteor Lake 125W mobile ist Quatsch, ...
Sehe ich genauso. 125W ist bei Intel die TDP. PL1/2 können nochmals deutlich darüber liegen.
Das ist eben nicht Quatsch ;). Siehe M1 Max, der kann in Hochlastszenarien bei der Grafik auch ziemlich viel Strom verbrauchen. Wenn du die TDP überall hochziehst, wieso nicht auch mobil?
Die nächste Generation wird ja nicht weniger TDP haben als RPL, wie kommt man auf sowas?
Siehe 430mm2 Chipfläche vs. 150-200mm2 für die Kühlung (hohe Bandbreite möglich hier, da Intel 4, TSMC N3 und SoC Die unter den anderen Die). Das ist eine ganze andere Vergleichsbasis. Anhand der Bilder des MTL 300mm Wafers (https://www.cnet.com/pictures/a-look-inside-intels-mammoth-arizona-chipmaking-fab/3/), komme ich auf ~185mm2 (26x17 Die -> ~11x17mm). Der M1 Max zieht max. (haha) 92W (https://www.extremetech.com/extreme/328541-the-apple-m1-pro-and-m1-maxs-power-efficiency-should-rattle-intel-amd), das ist deutlich weniger als 125W und das bei 2.4x der Chipfläche. Ich weiss, dass Intel Chips schon heute 100W verbraten können. Ausserhalb von superschweren und dicken Notebooks aber nicht ohne eine Lüfter-Turbine.
Bei Intel hat der 12900K eine Base Power von 125W, was früher die TDP war: https://ark.intel.com/content/www/de/de/ark/products/134599/intel-core-i912900k-processor-30m-cache-up-to-5-20-ghz.html. Intel hat bei allgemeinen Angaben noch nie was anderes als die TDP bei der Leistungsaufnahme angegeben.
Ich bleibe dabei, MTL ist ein reiner Mobilprozessor aus meiner Sicht, der eben so ne dicke Grafik mitbringt, dass die 125W gerechtfertigt werden. Warum auch nicht? Der bekommt einfach LPDDR5 wie die Apples und fertig. Das ist das eigentliche Konkurrenzprodukt zu Apple, kein Desktop-Produkt. Hinzu kommt als netter Nebeneffekt, dass man mit starker Grafik auch noch NV in den nicht-High-End Mobilsektoren aussperren kann mit solchen Produkten.
MTL ist sicher ein starker Mobil-Prozessor und aufgrund der starken Grafik gut dafür gerüstet. Aber wie gesagt, mit 45-64W TDP oder so (was real im Boost wohl 100W entsprechen wird) und nicht 125W. Wenn die CPU zudem schneller ist als Raptor Lake (was aufgrund Intel 4 und neuer CPU Architektur wahrscheinlich ist), wird die garantiert auch im Desktop aufschlagen.
Das ist eben nicht Quatsch ;). Siehe M1 Max, der
kann in Hochlastscanrien bei der Grafik auch ziemlich viel Strom verbrauchen.
Du sagst, es wäre kein Quatsch. Dann begründe es realistisch. Bei Meteor Lake M steigt die Kernanzahl nicht oder oder sinkt sogar. Bei dem gezeigten Wafer geht man von einer 4+8 Konfiguration aus.
Intel 4 ist mit einer 20% besseren perf/w über Intel 7 angegeben, also wofür 125W? 125W für einen mobile Meteor Lake ist nicht nur Quatsch, das ist Utopie. Viel wahrscheinlicher ist es, dass Meteor Lake M nur die low power Varianten von ADL-P ersetzt. Ihr interpretiert viel zu viel in die 5-125W rein.
Und nein wegen den 192 EUs werden sicher keine 125W gebraucht. TGL-U mit 92 EUs kommt mit 10SF bereits gut aus, zu TSMC 5nm ist das ein Quantensprung. Schon 10ESF wird gut was rausholen.
mocad_tom
2021-11-28, 12:29:34
In Meteor Lake kommt die Architektur von Battlemage rein.
Eine EU von Tiger Lake hat ca. die halbe Leistung verglichen mit einer EU von Battlemage.
Bei gleichem Takt hat die GPU von Meteor Lake verglichen mit Tiger Lake die vierfache Leistung.
Zusätzlich wird in den Base Die unmengen an Cache reingesetzt.
Könnt ihr euch noch an Intel Iris Pro 6200 (aka GT3e) mit 128 eDRAM erinnern?
Wenn ich die EUs stärker auslasten kann, weil die Caches größer geworden sind, dann steigt der Verbrauch, aber noch stärker steigt die Effizienz.
Dann kommt in Raptor Lake und in Meteor Lake 2MB L2 Cache rein(aktuell 1.25MB L2 Cache in Alderlake).
Meteor Lake wird ein wahnsinns SoC in der großen Ausbaustufe.
Wo wird die Neural Engine drin sein?
Im TSMC N5 Die oder im Intel 4 Die?
Platos
2021-11-28, 13:02:24
Sind die Cores bei Meteorlake eig. noch Ringbus? Weil die Cores sitzen doch in einem Chiplet, also die Cores werden gar noch nicht aufgeteilt, so viel ich weiss.
Ich frage mich, wie dann die Latenzen so ausfallen werden. Chiplets haben bisher den Stromverbrauch bei niedriglats (nicht=Idle) stark nach oben getrieben. Bin gespannt, wie/ob Intel das lösen kann/wird.
basix
2021-11-28, 15:41:55
TGL-U mit 92 EUs kommt mit 10SF bereits gut aus, zu TSMC 5nm ist das ein Quantensprung. Schon 10ESF wird gut was rausholen.
Mein letzter Infostand ist, dass die MTL iGPU sogar schon in N3 daherkommen soll. Hier eine News dazu: https://www.techspot.com/news/92360-intel-rumored-order-tsmc-3nm-chips-meteor-lake.html
Dass Battlemage in N3 kommt inkl. MTL iGPUs würde auch die gerüchteweise grossen 3nm Bestellungen bei TSMC erklären (und dass Intel anfangs der grösste 3nm Kunde sein soll).
N3 wäre ein riesiger Sprung verglichen mit N6 (Intels Xe-HPG dGPUs). Das entspricht ca. 2.6x Logic Density. Die GPU wird also flächenmässig nicht sehr gross sein, auch mit 192 EU nicht. Ich würde da etwas zwischen 40-50mm2 erwarten.
Hier auf dem Meter Lake Chip sind 4x Chiplets + 1x Base Die zu sehen
https://www.hardwareluxx.de/index.php/news/hardware/prozessoren/57555-meteor-lake-abgelichtet-cnet-besucht-intels-fab-in-arizona.html
Die GPU wird vermutlich der zweitgrösste Chip sein. Beim MTL gehe ich von ~11x17mm=187mm2 aus. Anhand dieser Abmasse ist dieser Die ~45mm2 gross. Würde ziemlich gut in meine Abschätzung von oben passen.
Der Compute Die scheint ~105mm2 gross zu sein. Bei Alder Lake sind die 8P8E Cores in etwa 115mm2 gross. 8P16E wie bei Raptor Lake gehen wohl in Richtung 150mm2. Die 105mm2 würden also bei neuen Cores (P wie auch E) mit einer 8P16E Konfiguration wohl gut passen in Intel 4.
In Meteor Lake kommt die Architektur von Battlemage rein.
...
Meteor Lake wird ein wahnsinns SoC in der großen Ausbaustufe.
Wo wird die Neural Engine drin sein?
Im TSMC N5 Die oder im Intel 4 Die?
Wie gesagt, soll sogar TSMC N3 sein. Da die "Neural Engine" eher zur CPU passt, würde ich sie dort erwarten (entweder als AVX-Erweiterung, als eigenständige NPU im Compute-Die oder allenfalls auch im Base-Die wie der GNA 3.0, welcher bei Alderlake eher dem SoC Teil zugeordnet wird). Die GPU hat mit XMX schon genug Matrix-Cores, die NPU passt nicht zu HPG.
Aber ja, das Ding wird fett. Hat aber auch ziemlich viel Silizium verbaut:
- 180-190mm2 Intel 7
- 100-110mm2 Intel 4
- 40-50mm2 TSMC N3
Da ist man bei der CPU deutlich schneller als ein M1 Pro/Max und bei der GPU irgendwo zwischen M1 Pro und M1 Max, je nach Taktrate.
Sind die Cores bei Meteorlake eig. noch Ringbus? Weil die Cores sitzen doch in einem Chiplet, also die Cores werden gar noch nicht aufgeteilt, so viel ich weiss.
Keine Ahnung. Ich denke aber schon, oder zumindest was vergleichbares. Auch bei AMD wird es bei Zen 3 als Ringbus bezeichnet, obwohl da anscheinend noch was mehr drin ist (Ringbus+).
Chiplets haben bisher den Stromverbrauch bei niedriglats (nicht=Idle) stark nach oben getrieben. Bin gespannt, wie/ob Intel das lösen kann/wird.
Foveros ist deutlich fortschrittlicher als AMDs MCM Ansatz. Wir reden hier von ~5-10x weniger Energie (pJ/bit). Foveros wird mit 0.15pJ/bit angegeben. AMDs IFOP mit 2pJ/bit (war allerdings damals bei Zen 1). Nehmen wir hier Worst case 5x an, ist Idle-Verbrauch vermutlich fast gar nicht höher als heute.
mocad_tom
2021-11-28, 16:20:09
Aufbau Meteor Lake draufsicht
. __________
. |1|...2.......|
_|_|_______|
|................|
|................|
|......3........|
|................|
|__________|
|____4_____|
1 und 4 sind nur structural Die, die helfen, dass bei Die 2 und 3 nix abbrechen kann. Bei Ponte Veccio gab es auch schon solche kleinen Schnipsel.
Die 2 ist der CPU-Die
Die 3 ist der GPU-Die
Eine Etage tiefer ist der Soc-Die.
Weil es Foveros Omni ist, ist der Base Die nicht unter der kompletten Fläche von 2 und 3 sondern etwas nach innen versetzt.
Ich zitiere ein Detail aus der Folie von Intel zu Meteor Lake "36 Microns Bump Pitch"
https://wccftech.com/intel-13th-gen-meteor-lake-cpus-allegedly-feature-intel-4compute-tile-tsmc-3nm-gpu-tile-tsmc-n5-n4-soc-lp-tile/
Das scheint selbst zu Ponte Vecchio noch eine Steigerung zu sein. (Edit:Nein Ponte Vecchio hat auch 36 Micron Bump Pitch)
Wenn die Neural Engine in der CPU steckt, dann wird es mit Advanced Matrix Extension (AMX) zusammenhängen.
Wenn die Neural Engine in der GPU steckt, dann wird es direkt mit den AI Features der GPU zusammenhängen.
In dieser Entscheidung steckt wirklich Sprengstoff drin.
Platos
2021-11-29, 00:44:04
Foveros ist deutlich fortschrittlicher als AMDs MCM Ansatz. Wir reden hier von ~5-10x weniger Energie (pJ/bit). Foveros wird mit 0.15pJ/bit angegeben. AMDs IFOP mit 2pJ/bit (war allerdings damals bei Zen 1). Nehmen wir hier Worst case 5x an, ist Idle-Verbrauch vermutlich fast gar nicht höher als heute.
Ahh ok, wusste ich nicht. Das ist ja krass. Die Zahlen habe ich gar nie mitbekommen. Wenn das dann wirklich so einschlägt, ist für mich dann wohl Meteorlake 'die' Plattform...Wobei danach folgen laut Gerüchteküche auch eine geile Generation nach dem anderen (IPC-Sprünge, Fertigung usw.) :D
Kann man sich kaum entscheiden. Bei AMD kommen die Apus leider immer sehr Zeitversetzt, die anderen sind für mich uninteressant. Und mit besserem Fertigungsverfahren sollte Meteorlake (bei gleichen Taktraten und gleicher Anzahl Kerne) auch nochmals stromsparender sein.
War bei CPUs schon lange nicht mehr so spannend, dass man am liebsten noch und noch eine Generation warten will, um möglichst einen grossen Sprung zu haben.
WedgeAntilles
2021-11-29, 09:20:11
War bei CPUs schon lange nicht mehr so spannend, dass man am liebsten noch und noch eine Generation warten will, um möglichst einen grossen Sprung zu haben.
Jepp, in der Tat - geht mir genauso.
Ich habe noch nen alten Xeon (identisch zum 4770 non K). Aber irgendwie reizt es mich jetzt, sogar noch bis Meteor Lake zu warten.
Gerade wenn man es mit "GPUs werden noch laaange so teuer bleiben" kombiniert scheint ein: "Och, warten wir halt noch mal ein halbes Jahr, darauf kommt es jetzt auch nicht mehr an." immer stärker zu werden bei mir.
Naja, mal sehen wie die Preise von Lovelace sein werden. "Notfalls" wird eben wirklich noch auf MeteorLake gewartet.
Platos
2021-11-29, 10:18:23
Ja, und man muss ja ein neuer Rechner nicht auf einmal zusammenstellen. Man kann die Grafikkarte ja auch direkt beim Launch von Lovelace/RDNA3 kaufen und dann eben noch bis Meteorlake warten.
Vor Turing hätte ich zwar gesagt, dass man dann gleich warten kann, bis die Preise der Grafikkarte stark gesunken ist, aber bei der nächsten Chipgeneration würde ich so schnell wie möglich kaufen, bevor eben alles weg ist (damit meine ich aber nicht vorbestellen). Vorausgesetzt der Strassenpreis ist dem Listenpreis entsprechend.
basix
2021-11-29, 10:25:07
Aufbau Meteor Lake draufsicht
. __________
. |1|...2.......|
_|_|_______|
|................|
|................|
|......3........|
|................|
|__________|
|____4_____|
1 und 4 sind nur structural Die, die helfen, dass bei Die 2 und 3 nix abbrechen kann. Bei Ponte Veccio gab es auch schon solche kleinen Schnipsel.
Die 2 ist der CPU-Die
Die 3 ist der GPU-Die
Ich glaube, du vertauscht hier CPU und GPU ;) Die CPU wird niemals so klein sein und die GPU niemals so gross. Zumindest nicht, wenn die TSMC N3 Gerüchte für die GPU stimmen.
Kann man sich kaum entscheiden. Bei AMD kommen die Apus leider immer sehr Zeitversetzt, die anderen sind für mich uninteressant. Und mit besserem Fertigungsverfahren sollte Meteorlake (bei gleichen Taktraten und gleicher Anzahl Kerne) auch nochmals stromsparender sein.
Ja, es wird spannend. MTL sieht mMn sehr gut aus. Im Base Die soll es ja noch massig Cache haben, ich tippe auf ~128-192 MByte. Intels eigener V-Cache / Infinity Cache ;) Wir interessant, ob das dann als L4-Cache im System auftaucht (wie bei Broadwell).
Intel packt Cache sehr dicht. Bei Alderlake erreicht man 30 MByte in ~20mm2. Inkl. Ring Agents etc. sind es ~33mm2.
AMDs Zen 4 APU wird vermutlich etwas früher dran sein und schon in Q1/2023 aufschlagen. Meteor Lake ist auf H1/2023 angekündigt. AMD wird bei Zen 4 oder spätestens Zen 5 auch bei den APUs auf Chiplets umsteigen. Dann werden die APUs auch zeitnäher mit der neuesten CPU und GPU IP ausgerüstet. Wenn wir Glück haben, kommt Anfang 2023 eine APU mit Zen 4 und RDNA3.
WedgeAntilles
2021-11-29, 10:25:20
Ja, und man muss ja ein neuer Rechner nicht auf einmal zusammenstellen. Man kann die Grafikkarte ja auch direkt beim Launch von Lovelace/RDNA3 kaufen und dann eben noch bis Meteorlake warten.
Vor Turing hätte ich zwar gesagt, dass man dann gleich warten kann, bis die Preise der Grafikkarte stark gesunken ist, aber bei der nächsten Chipgeneration würde ich so schnell wie möglich kaufen, bevor eben alles weg ist (damit meine ich aber nicht vorbestellen). Vorausgesetzt der Strassenpreis ist dem Listenpreis entsprechend.
Prinzipiell richtig, bei mir nur mit dem Problem, dass ich für die GraKa ein neues Netzteil brauche.
Da ist nix mit nur kurz GraKa tauschen, sondern man muss dann zweimal ran.
Da ich faul bin will ich das vermeiden falls möglich :D
Und GraKa kaufen und liegen lassen ist wegen Garantiebedinungen auch nicht optimal.
Aber dennoch, darauf wird es vermutlich hinauslaufen. Bei GraKas abzuwarten war früher sinnvoll (zumindest hat es nix geschadet) - aber seit einem Jahr ist das eine ganz schlechte Idee.
Und zwar egal bei welchen GraKas, auch die späteren Modelle waren ja in den ersten Stunden / Tagen noch am günstigsten und sind dann nur teurer geworden.
Mal sehen, evt. lässt Nvidia ja tatsächlcih neben Lovelace noch die 2060 für LowEnd und vielleicht die 3060 für unteren Midrange weiterproduzieren.
Dann könnte sich die Lage doch etwas entspannen an der GraKa Front.
Eigentlich wären sie doof wenn sie es nicht machen würden, auf etwas längere Sicht wäre das Beste, was sie machen könnten.
mocad_tom
2021-11-29, 13:36:06
@basix
> CPU-Die so klein
Nein ich vertausche da nix.
Im CPU-Die kommt kein Memory-Controller rein, kein PCIe 5.0 Controller und der L3-Cache auch nicht.
Mem-Controller, L3-Cache und PCIe 5.0-Controller kommt in den Base-Die rein.
Und der Shrink von Intel 7 auf Intel 4 wird ein Full-Node-Shrink.
Was dann noch im Die übrig bleibt wird deutlich kleiner durch den Full-Node-Shrink.
Und 192 EU in Meteor Lake heisst da sind mehr EU drin als im DG2-128EU Alchemist.
davidzo
2021-11-30, 01:30:43
redfire auf twitter notiert das ziemlich gut auf
https://mobile.twitter.com/Redfire75369/status/1458047568349306888
intel hat mit intel 10 esf aka intel 7 den kompaktesten DUV prozess industrieweit.
Marketingewäsch.
Und wieder einer der auf Intels Bogus Labzahlen reinfällt, die es nicht ansatzweise in ein shipping product geschafft haben. CPUs liegen bei Intel weit unter der Hälfte dieser Theoriewerte, anders als bei TSMC und Samsung.
Meteor Lake mit 125W ist mobil, das dürfte jetzt klar sein.
125W ist ganz klar Desktop. PL2 kommt da noch obendrauf.
Übrigens wurde ADL-S auch als "up to 125W" Part entwickelt, wieviel Watt da am Ende welche SKU bekommt ist keine Sache die das Architekturteam oder Implementierungsteam entscheidet oder überhaupt irgendwie interessiert. Das ist eine Entscheidung rein zwischen Fertigung und technical Marketing.
Schon gar nicht so früh vom Launch entfernt.
Das ist eben nicht Quatsch ;). Siehe M1 Max, der kann in Hochlastscanrien bei der Grafik auch ziemlich viel Strom verbrauchen. Wenn du die TDP überall hochziehst, wieso nicht auch mobil?
Ich glaube da hast du die Reviews nicht richtig gelesen. Der CPUteil braucht nie 90Watt. Der M1max kann in reiner MT CPUlast bis zu 30Watt verbrauchen, ja. Bei ST-Last übrigens ganze 7 Watt.
In reiner GPUlast 60Watt. Kombinierst du beide erhältst du zwar 90Watt, diese Zahl ist aber rein theoretisch und nicht mit Intel Prozessoren zu vergleichen. Die 60Watt GPU im M1max ist praktisch ein 30Mrd+ Transistorenmonster auf RTX3080 Level. Von solchen IGPs ist Intel nicht nur Lichtjahre entfernt, sondern man hat auch überhaupt kein Interesse so etwas zu bauen. Schließlich vergammelt die IGP eh bei 95% ihrer (Business-) Kunden, der einzige Kunde auf der Welt für so etwas baut jetzt eigene CPUs mit IGP und ab 2022 wird Intel auch wie AMD eher ihr discrete GPU-bottom Level nicht durch zu starke IGPs/APUs kannibalisieren wollen.
Also der Vergleich der (theoretischen) maximal-TDP einer fetten GPU mit der einer praktisch reinen CPU ist doch lächerlich.
Mit 192EU + DDR5 kommt MTL wohl gerade mal dorthin wo der Vanilla M1 im Macbook Air schon 2020 war, bzw. dem was von AMDs Rembrandt mit DDR5 zu erwarten ist. Das ist in 2023 nur noch Entrylevel, aber eben auch nur so hoch wie das Pferd springen muss.
basix
2021-11-30, 08:06:53
Mit 192EU + DDR5 kommt MTL wohl gerade mal dorthin wo der Vanilla M1 im Macbook Air schon 2020 war, bzw. dem was von AMDs Rembrandt mit DDR5 zu erwarten ist. Das ist in 2023 nur noch Entrylevel, aber eben auch nur so hoch wie das Pferd springen muss.
Kommt drauf an, was Intel beim Takt anstrebt. Wenn es denn TSMC N3 ist, liegt da ziemlich viel Platz zwischen Intel 7/TMSC N6. Dazu noch vermutlich Battlemage anstatt Alchemist als Architektur und vermutlich ein grosser Cache im Base Die. Da könnte man schon etwas auf M1 Pro Niveau erwarten.
dildo4u
2021-11-30, 08:23:16
Mit 192EU + DDR5 kommt MTL wohl gerade mal dorthin wo der Vanilla M1 im Macbook Air schon 2020 war, bzw. dem was von AMDs Rembrandt mit DDR5 zu erwarten ist.
Angeblich soll schon das 128 Modell bei der 1650 Super sein die massiv schneller als M1 ist.
https://videocardz.com/newz/leaked-slide-shows-intel-dg2-arc-alchemist-gpus-compete-with-geforce-rtx-3070-and-radeon-rx-6700xt
M1 22k
https://browser.geekbench.com/v5/compute/3558149
1650 Super 56k
https://browser.geekbench.com/cuda-benchmarks
davidzo
2021-11-30, 13:43:40
Angeblich soll schon das 128 Modell bei der 1650 Super sein die massiv schneller als M1 ist.
Zum Geekbench Metal vs Cuda Vergleich sage ich mal nichts zu, merkste selber :facepalm::ulol3:
Du vergleichst aber auch Äpfel mit Birnen. Du musst mobile GPUs auch mit mobile vergleichen, nicht Desktop. Der M1 ist sehr wohl auf GTX1650m Niveau.
Und der Desktop bekommt bei MTL eh nur maximal 96EU. Dazu hast du im Desktop 100gb/s DDR5 wenn es hochkommt. Auf DG2-128 Niveau wird das nicht sein. Ich bezweifle auch dass es schon die neue Battlemage Architektur sein wird, denn genau wie AMD bei APUs muss Intel bei IGPs frühzeitig den floorplan entscheiden, was die µarch von CPU und GPU bei APUs immer etwas hinterher hinken lässt.
Und die 192 EU im mobile werden mit Sicherheit nicht auf DG2-128 Niveau takten die alleine schon 75Watt verbraucht und damit mehr als die 32Core M1Max GPU mit ihrem 512bit Interface. Die 192EU werden schön niedrig takten, TDP gedeckelt. Guck dir die 64EU Gen11 aus Lakefield an, die landete gerademal auf UHD620 Niveau (24EU Gen9.5)
DG2-128 hat GDDR6 mit 192gb/s und 75Watt TBP für unlimitierten Turbo zur Verfügung.
LPDDR5 liefert nur 86gb/s, DDR5 100gb/s und LPDDR5x immerhin 136gb/s (EDIT: Die Folien sprechen nur von LPDDR5, nicht von X). Wie man Intel so kennt wird es sowieso nur einige wenige i7 Ultramobile SKUs geben die mit weniger CPU-kernen und dafür vollen 192EU und LP5X Ram kommen, der Rest wird bei 128 oder 96EUs bleiben und DDR5L bekommen, insbesondere weil die H-series mit 45-55Watt wieder auf dem Desktopchip mit 96EU basieren wird.
dildo4u
2021-11-30, 13:53:39
Ebend weniger Takt da mher Kerne ergo bessere Effizienz als das Desktop Modell und erstmal abwarten was die Intels real nehmen.
TDPs wie 45 im Notebooks haben selten mit der Realität zu tun.
basix
2021-11-30, 14:02:42
Ebend weniger Takt da mher Kerne ergo bessere Effizienz als das Desktop Modell und erstmal abwarten was die Intels real nehmen.
Und TSMC N5/N3 obendrauf ;)
Wenn das wirklich noch viel Cache à la Infinity Cache im SoC Die vorhanden ist, sollte man schon was auf DG2-128 Niveau erwarten können. Auch bei 45W TDP.
davidzo
2021-11-30, 14:06:50
Ich schätze nicht dass die 192EU Variante mit 45W TDP kommt. Klar, PL2 kann von mir aus bei 90Watt sein, aber im Ultramobile wird es weiterhin bei 15-28W, vielleicht maximal 35W bleiben. Akkutechnologien ändern sich nicht so schnell und die Kühlung ist ein physikalisches Limit. PL2 interessiert bei Dauerlast auf der GPU nicht.
Die 45W Variante wird wieder vom Desktop Die abgeleitet sein und maximal 96EU haben. 45W und mehr Mobil-CPUs will man mit diskreten Chips kombinieren, diese Strategie bei Windowsnotebooks wird sich nicht so einfach ändern bloß weil Apple das mit zwei Chips anders macht. Zumal Intel ebenfalls ein Interesse daran hat diskrete GPUs dazu zu verkaufen.
MTL soll auch eine fette NPU haben, vom SOC balancing sieht das also nach viel GPU, viel NPU plus dicke mediablöcke und einer moderat bis kleinen CPU mit vielen Efficiencykernen aus. Klingt sehr nach dem M1-Ansatz (nonpro, nonmax)
Ich bezweifle auch dass es schon die neue Battlemage Architektur sein wird, denn genau wie AMD bei APUs muss Intel bei IGPs frühzeitig den floorplan entscheiden, was die µarch von CPU und GPU bei APUs immer etwas hinterher hinken lässt.
Battlemage, also Xe2 HPG, ist Gen12.9 basierend und kommt bei Lunar Lake zum Einsatz. Meteor Lake und Arrow Lake sind noch Xe HPG. Wobei das auch ein gutes IPC+Feature Upgrade zur jetzigen Xe LP geben sollte, und eben deutlich mehr Rohleistung obendrauf.
Und die 192 EU im mobile werden mit Sicherheit nicht auf DG2-128 Niveau takten die alleine schon 75Watt verbraucht und damit mehr als die 32Core M1Max GPU mit ihrem 512bit Interface. Die 192EU werden schön niedrig takten, TDP gedeckelt.
Wird sie nicht und muss sie auch gar nicht. Arc A380 soll auf 2,45 Ghz boosten was 5 tflops entspricht. Mit 192 EUs würden schon 1,65 Ghz für 5 tflops ausreichen. Das ist immer noch ein hoher Takt verglichen zur jetzigen Xe LP iGPU, doch ist die Xe HPG viel taktfreudiger+effizienter und das GPU Chiplet wird eher in 5nm gefertigt sein als in 6nm. Einige erwarten sogar 3nm (was ich stark bezweifle)
Wie man Intel so kennt wird es sowieso nur einige wenige i7 Ultramobile SKUs geben die mit weniger CPU-kernen und dafür vollen 192EU und LP5X Ram kommen, der Rest wird bei 128 oder 96EUs bleiben und DDR5L bekommen, insbesondere weil die H-series mit 45-55Watt wieder auf dem Desktopchip mit 96EU basieren wird.
Es gibt keine klassische H-Serie mehr. Das ist alles P-Serie und ADL-P gibt es nur mit 96EUs wenn nichts deaktiviert wird. Außerdem ist Meteor ein Chiplet Design, von einem Desktop Chip kann man nicht sprechen. Meteor Lake wird es aller Voraussicht nach für den Desktop nicht geben.
Aber klar, bei den 45W+ Modellen ist die iGPU normalerweise nebensächlich, weil die eh mit einer dedizierten verkauft werden. Hier könnte Intel also ein kleineres iGPU Chiplet verbauen. Falls es überhaupt 45W Modelle geben wird.
iamthebear
2021-12-11, 00:34:46
Wird sie nicht und muss sie auch gar nicht. Arc A380 soll auf 2,45 Ghz boosten was 5 tflops entspricht. Mit 192 EUs würden schon 1,65 Ghz für 5 tflops ausreichen. Das ist immer noch ein hoher Takt verglichen zur jetzigen Xe LP iGPU, doch ist die Xe HPG viel taktfreudiger+effizienter und das GPU Chiplet wird eher in 5nm gefertigt sein als in 6nm. Einige erwarten sogar 3nm (was ich stark bezweifle)[/quote]
Ich denke Intel wird denselben Weg gehen wie bei den CPUs. Die mobile GPUs bekommen auch 2.4 GHz Maximaltakt und alleinig die TDP (CPU + GPU gesamt) entscheidet was wirklich an Performance dabei raus kommt.
Was die Fertigungstechnologie angeht bin ich mir eigentlich ziemlich sicher, dass die 3nm stimmen. Intel hat laut Gerüchten sich ja mehr von den ersten 3nm Produktionen gesichert als TSMC. Was wollen die denn sonst damit machen? Ein paar Entry Desktop GPUs bei einem derzeitigen Marktanteil von Null würden sie nicht riskieren. High End Desktopmodelle wären zu groß. Das können nur iGPU Chips sein.
Es gibt keine klassische H-Serie mehr. Das ist alles P-Serie und ADL-P gibt es nur mit 96EUs wenn nichts deaktiviert wird. Außerdem ist Meteor ein Chiplet Design, von einem Desktop Chip kann man nicht sprechen. Meteor Lake wird es aller Voraussicht nach für den Desktop nicht geben.
Das spießt sich etwas mit den 125W TDP, die Intel veröffentlicht hat. Ich kann mir kaum vorstellen, dass Intel einen 125W Mobile Meteor Lake launched aber keine Desktopversion.
Aber klar, bei den 45W+ Modellen ist die iGPU normalerweise nebensächlich, weil die eh mit einer dedizierten verkauft werden. Hier könnte Intel also ein kleineres iGPU Chiplet verbauen. Falls es überhaupt 45W Modelle geben wird.
Das lag in erster Linie daran, dass man über 96 EUs nichts brauchbares anzubieten hatte. Ich denke dass die 192 EU Version gerade erst mit einer höheren TDP Sinn macht denn was will man mit 15-28W groß spielen.
Ich denke eher, dass es 2 verschiedene Serien geben wird. 192 EUs wäre für die meisten Firmennotebooks (Workstation Serie mal abgesehen) eine Verschwendung. Da reichen 32 EUs vollkommen aus, mit 96 EUs ist man selbst jetzt schon stark überdimensioniert.
Ich denke Intel wird denselben Weg gehen wie bei den CPUs. Die mobile GPUs bekommen auch 2.4 GHz Maximaltakt und alleinig die TDP (CPU + GPU gesamt) entscheidet was wirklich an Performance dabei raus kommt.
Einen gewissen Rahmen gab es schon immer bei den ULV je nach power budget, das ist ja nicht Neues. Nur muss das Sinn machen. Wenn die real anliegende Frequenz in Spielen bei zum Beispiel 1.5 Ghz liegt, braucht niemand einen Utopie Boost von 2.4 Ghz. Ich denke mal Intel wird sich am höchsten TDP up Wert von der jeweiligen SKU orientieren.
Das spießt sich etwas mit den 125W TDP, die Intel veröffentlicht hat. Ich kann mir kaum vorstellen, dass Intel einen 125W Mobile Meteor Lake launched aber keine Desktopversion.
Vielleicht war zu dem Zeitpunkt sogar eine Desktop Version geplant oder zumindest nicht ausgeschlossen, das ist ja nicht auszuschließen. Mittlerweile ist doch recht klar, dass Meteor mobile only wird. Ist ja auch nicht überraschend, siehe ICL-U oder Broadwell. Und auch nicht so wirklich schlimm, weil ja im selben Jahr Arrow Lake für den Desktop kommt. Bei Arrow Lake ist dann auch Intel 3 (das alte 7+) drin.
Das lag in erster Linie daran, dass man über 96 EUs nichts brauchbares anzubieten hatte. Ich denke dass die 192 EU Version gerade erst mit einer höheren TDP Sinn macht denn was will man mit 15-28W groß spielen.
Ein iGPU wird in absehbarer Zukunft nicht mit dGPUs konkurrieren können, nicht mit der Bandbreite von DDR5 und LPDDR5x. Dedizierte GPUs bleiben nicht stehen.
Und was die 15-28W anbelangt, das ist kein Problem. Intel bekommt 96EUs mit 10SF seit Ende 2020 unter, die Iris Xe braucht in Spielen typischerweise 12-15Watt bei den ULV für den vollen Takt von 1300-1350 Mhz. Das ist alles eine Frage der Taktfrequenz.
Das GPU Chiplet von MTL wird von TSMC 3nm/5nm gefertigt, ein riesen Sprung zu 10SF. Schon mit TSMC 6nm gibt Intel eine 50% gesteigerte perf/Watt gegenüber Xe LP an: https://pics.computerbase.de/1/0/0/0/7/6-3bb764a49d7c3371/9-1080.3bf99244.png
Und gerade im Bereich von 15-28W ist eine starke iGPU gefragt, weil die meisten Geräte in dem Bereich ohne dedizierte auskommen. Bei den Modellen mit 35W und höher ist es genau andersrum, fast jedes Gerät hat sowieso eine dedizierte Grafik mit an Bord. Bei AMD übrigens genauso, obwohl sie (vor Iris Xe) deutlich stärkere iGPUs anbieten konnten auch bei den H Modellen. Trotzdem wird eine dGPU verbaut.
Ich denke eher, dass es 2 verschiedene Serien geben wird. 192 EUs wäre für die meisten Firmennotebooks (Workstation Serie mal abgesehen) eine Verschwendung. Da reichen 32 EUs vollkommen aus, mit 96 EUs ist man selbst jetzt schon stark überdimensioniert.
Also laut Intel fängt es bei 96EUs an und weil das schon die kleinste Größe bei ADL-P ist (voll aktiviert), wird Intel da wohl nicht drunter gehen. Beim nächsten Desktop shrink wird Intel sicher auch nicht mehr bei 32EUs bleiben, ich rechne mit 64EUs oder 96EUs bei Arrow Lake.
https://twitter.com/aschilling/status/1494448784440496137/photo/1
2023: Meteor Lake Intel 4 +N3 external
2024: Arrow Lake Intel 20A +N3 external
2024+: Lunar Lake Intel 18A +external
N3 steht für TSMC 3nm oder was soll das sein?
Loeschzwerg
2022-02-18, 06:54:17
Ja, TSMC N3. Was anderes passt auch nicht ^^
Endlich hat Intel diesen Fertigungsplan mal offengelegt, das passte ja alles zeitlich vorne und hinten nicht mit Intel4, 3 und A20.
https://twitter.com/aschilling/status/1494448784440496137/photo/1
2023: Meteor Lake Intel 4 +N3 external
2024: Arrow Lake Intel 20A +N3 external
2024+: Lunar Lake Intel 18A +external
N3 steht für TSMC 3nm oder was soll das sein?
Geschicktes Marketing wiedermal bei der Folie. Die suggeriert, dass ARL und MTL zeitlich nah beieinader sind. Das stimmt aber wieder mal garantiert nicht.
MTL schreit übrigens förmlich geradezu nach einem Refresh, da zwischen ARL und MTL mindestens 1 1/2 Jahre liegen werden, was man schon an den Startdaten der Massenfertigung der Prozesse sehen kann.
Übrigens:
https://wccftech.com/intel-client-server-cpu-roadmap-updates-meteor-lake-in-2023-20a-18a-powered-xeons-core-chips-beyond-2024/
Mehr Infos.
Der Trick ist einfach der, dass Intel die 3 nur im Serverbereich nutzen möchte und damit Granite Rapids und Diamond Rapids fertigen möchte. Und man sieht an der Folie auch wieso, Intel 3 ist offenbar ein auf Performance ausgelegter Intel 4 (oder weiter geschrumpfter) FINFET-Prozess, zumindest sieht das so aus, also ein reiner Server-HP-Prozess. Witziges Detail am Rande: Intel "garantiert" den Start der FINFET-Prozesse, aber nicht den Start des A20 sondern spricht nur vom Start einer Testproduktion, was alles heißen kann.
Was auch auffällig ist, sind die "kleineren" Performancesprünge, die Intel hier bei den einzelnen Prozesschritten angibt. Hier ist offenbar die Realität eingekeht. Ich halte nur den Zeitplan wieder für viel zu straff. Da wird sicherlich noch das ein oder andere Quartal Verzögerung kommen. Klar ist, dass Intel 3 und Intel4/A20 weitgehend parallel laufen werden.
basix
2022-02-18, 10:29:40
Also kann man nun mit mehr oder minder grosser Sicherheit sagen, dass MTL und ARL eine iGPU mit N3 mitbringen wird ("ARC Tile GPU") und somit unter Umständen auch Battlemage.
Platos
2022-02-18, 12:14:31
Wie gross werden diese werden, wenn es sich lohnt, die als eigenes "Chiplett" auszulagern?
Das müsste doch eigentlich sehr wenig Fläche sein.
?
basix
2022-02-18, 12:50:26
Eine Antwort: Klein :D
DG2-512 ist ~400mm2 gross. Nimmt man Speicher-Interface, I/O, Display und Video Zeugs raus, landet man bei vermutlich ~300mm2 für die 512 EUs.
Wenn es nun Alchemist wird, kann man die Grösse einigermassen abschätzen:
- 192 / 512 = 0.38x
- N3 / N6 = 3.0x Density (grobe Schätzung)
Ergäbe ~40mm2 für 192 EUs. Wenn es Battlemage wird, kann es natürlich ganz anders aussehen. Und 3.0x Density ist auch eher optimistisch geschätzt, aber für den Mobile Ansatz könnte Intel wie die Smartphone SoCs auf mehr Density anstatt max. Performance gehen.
Also kann man nun mit mehr oder minder grosser Sicherheit sagen, dass MTL und ARL eine iGPU mit N3 mitbringen wird ("ARC Tile GPU") und somit unter Umständen auch Battlemage.
MTL und ARL haben sind ARC Xe HP, also erste Generation, das ist jedenfalls eindeutig dem Treiber zu entnehmen. Bei HWL (https://www.hardwareluxx.de/index.php/news/hardware/prozessoren/58158-intel-ueber-raptor-lake-meteor-lake-arrow-lake-und-lunar-lake.html) wird komischerweise im Text nur N3 bei ARL erwähnt, keine Ahnung ob im Video selber andere Angaben gemacht wurden.
Wie gross werden diese werden, wenn es sich lohnt, die als eigenes "Chiplett" auszulagern?
Das müsste doch eigentlich sehr wenig Fläche sein.
?
Wie basixs schon sagt 192 EU's.
Geht vielleicht gar nicht so darum dass man hier die Chipfläche auslagert. Das hätte Intel wahrscheinlich auch selbst fertigen können. Aber die Grafikchips sind ja nun für TSMC Prozesse ausgelegt und die können es nicht so einfach 1:1 auf ihre Fertigung übertragen? (Auch in Anbetracht der Tatsache dass man schlicht und ergreifend hinter TSMC zurück ist was die Fertigung anbelangt)
Daneben ergibt sich die schicke Möglichkeit wenn es ein extra Tile ist das du viel flexibler bist- so kannst du im Prinzip unendlich kombinieren und musst nicht jedes mal n neuen Chip auflegen. Du kannst alle CPU Chips mit beliebig großen Grafikchips kombinieren oder auch weg lassen wenn du welche ohne verkaufst. Möchte nicht wissen wieviel Fläche in allen Intel CPUs als GPU steckt und überhaupt nicht genutzt wird weil es eine diskrete gibt. So gesehen sparst du wahrscheinlich sogar Fläche.
basix
2022-02-18, 14:19:06
Geht vielleicht gar nicht so darum dass man hier die Chipfläche auslagert. Das hätte Intel wahrscheinlich auch selbst fertigen können. Aber die Grafikchips sind ja nun für TSMC Prozesse ausgelegt und die können es nicht so einfach 1:1 auf ihre Fertigung übertragen? (Auch in Anbetracht der Tatsache dass man schlicht und ergreifend hinter TSMC zurück ist was die Fertigung anbelangt)
Genau. Ein zurückportieren der GPU-IP auf Intel Prozesse macht einfach keinen Sinn. Und entlastet die Intel Fabs. Selbst die laufen am Anschlag.
MTL und ARL haben sind ARC Xe HP, also erste Generation, das ist jedenfalls eindeutig dem Treiber zu entnehmen. Bei HWL (https://www.hardwareluxx.de/index.php/news/hardware/prozessoren/58158-intel-ueber-raptor-lake-meteor-lake-arrow-lake-und-lunar-lake.html) wird komischerweise im Text nur N3 bei ARL erwähnt, keine Ahnung ob im Video selber andere Angaben gemacht wurden.
Das würde dem oben genannten Gedanken von ceed und mir irgendwie widersprechen. Sollte hier nicht mindestens Alchemist und somit "DG2" dabei sein? Hier käme mir vor allem auch XeSS in den Sinn, was bei iGPUs viel bringen würde.
Daneben ergibt sich die schicke Möglichkeit wenn es ein extra Tile ist das du viel flexibler bist- so kannst du im Prinzip unendlich kombinieren und musst nicht jedes mal n neuen Chip auflegen. Du kannst alle CPU Chips mit beliebig großen Grafikchips kombinieren oder auch weg lassen wenn du welche ohne verkaufst. Möchte nicht wissen wieviel Fläche in allen Intel CPUs als GPU steckt und überhaupt nicht genutzt wird weil es eine diskrete gibt. So gesehen sparst du wahrscheinlich sogar Fläche.
Sowas wird vermutlich mit Arrow Lake geschehen: Bis zu 384 EUs und somit vermutlich 2 GPU-Tiles. CPUs ohne GPU werden vermutlich nicht mehr viele erscheinen. Die KF-Versionen sind vor allem ja auch Yield-Optimierung. Es wird GPU-lose CPUs sicher geben, aber bei den meisten SKUs erwarte ich eine iGPU.
Das würde dem oben genannten Gedanken von ceed und mir irgendwie widersprechen. Sollte hier nicht mindestens Alchemist und somit "DG2" dabei sein? Hier käme mir vor allem auch XeSS in den Sinn, was bei iGPUs viel bringen würde.
Ist es doch auch. Alchemist ist erste Generation Xe-HP und Xe2-HP ist Battlemage zweite Generation.
basix
2022-02-18, 15:26:41
Äh ja, danke :) Ich war irgendwie noch bei Xe-LP = Erste Generation hängen geblieben.
y33H@
2022-02-18, 15:51:14
Alchemist ist erste Generation Xe-HP und Xe2-HP ist Battlemage zweite Generation.Xe HPG bitte :tongue:
mocad_tom
2022-03-27, 21:08:34
Davon kann man halten, was man will:
https://twitter.com/witeken/status/1506216487828271105
Ich bin schon sehr gespannt auf die Vorstellung von Alchemist.
Für die Intel EVO-Plattform-Marketing-Menschen wird das sicher ein Fest.
Auch den Nvidia-MUX-switch wird doch sicher Intel auch irgendwie ähnlich verwursten.
Kann auch gut sein, dass Intel dGPU-Tiles auflegt, wo Media-Encoder-Decoder nicht im dGPU-Tile mit drin sind, weil man die im iGPU-Tile drin hat.
Davon kann man halten, was man will:
https://twitter.com/witeken/status/1506216487828271105
Was meinst du damit? Battlemage dGPU in 2023-2024 ist doch doch klar. Die tile iGPU in MTL dagegen ist Xe1 HPG.
iamthebear
2022-03-27, 23:12:48
Ich sehe das auch so:
2022 nutzt man Alder/Arrow Lake inkl. deren iGPU + optional Alchemist als dGPU
2023 nutzt man Meteor Lake inkl. nicht weiter spezifiziertem GPU Tile + Battlemage als dGPU
Aber die Interpretation könnte natürlich auch komplett falsch sein. Da müsste man sich anhören was Raja dazu gesagt hat.
Für mich sind da aber sowieso noch viele Fragezeichen:
.) Ist Intel 4 bis Mitte 2023 in ausreichender Kapazität verfügbar
.) Bekommt TSMC den 3nm Prozess in den Griff oder muss Intel rückportieren
.) Wird es überhaupt eine 2. GPU Generation geben und word Alchemist so hart failen, dass Intel kapituliert. Derzeit bin ich da ehrlich gesagt nicht mehr sehr optimistisch.
Ich sehe das auch so:
2022 nutzt man Alder/Arrow Lake inkl. deren iGPU + optional Alchemist als dGPU
2023 nutzt man Meteor Lake inkl. nicht weiter spezifiziertem GPU Tile + Battlemage als dGPU
Sie spezifizieren es nicht weiter, weil sie dann zugeben müssten, dass der iGPU Tile eine Generation hinterherhinkt. Die Architekturen sind von Intel schon lange bekannt, vom Grafiktreiber. Battlemage, also Gen12.9, kommt erst bei Lunar Lake zum Einsatz.
mocad_tom
2022-03-28, 17:23:50
https://twitter.com/CarstenSpille/status/1508461259393359874
Wenn Meteor Lake auch Gen12.7 ist und damit dann auch Direct X 12 Ultimate, dann ist alles cool.
Der Lokator
2022-04-29, 02:00:25
ich habe jetzt ein als Upgrade von Z370 mit 8700k ein DDR4-Z690-Board mit 12600k und 3600 Mhz DDR4 CL16 Ram (noch vom 8700k) samt RTX 3080 bei 3440x1440p und 160 Hz.
Folgende Gedanken: Es kann gut sein, dass Meteor Lake weder auf einem Z690-Board läuft, noch dass es DDR4 supportet.
Ein neues Board + neue CPU + neuen DDR5 Ram: darauf hab ich echt keine Lust.
Falls es also so sein sollte, wie ich es vermute, wäre evt. später ein Upgrade auf Raptor Lake mit 8 Performance-Kernen, vielleicht sogar ohne K interessant. Dann kann ich mich ein par Generationen entspannen, da DDR5 Ram als Komplett-3er-Upgrade schon abturnt.
Sonyfreak
2022-04-29, 07:31:54
Meteor Lake wird zu 99,9% nicht auf deinem Z690-Board laufen. In der Vergangenheit hat es bei Intel immer nur zwei CPU-Generationen pro Mainboard-Generation gegeben.
mfg.
Sonyfreak
mocad_tom
2022-04-29, 21:49:30
Meteor Lake
https://twitter.com/MJHolthaus/status/1520058744008183808
Ja das hatte Gelsinger im earnings report (https://wccftech.com/intel-achieves-14th-gen-meteor-lake-cpu-power-on-with-launch-scheduled-for-2023/) ebenfalls verkündet.
Intel 4 Meteor Lake has now successfully booted Windows, Chrome, and Linux. The speed at which the team was able to achieve this milestone is a significant sign of the health of both Meteor Lake and our Intel 4 process technology.
Intel CEO, Pat Gelsinger
Laut MLID (https://twitter.com/mooreslawisdead/status/1520120577893281792) ist die Desktop Version bereits seit ein paar Wochen am laufen.
stinki
2022-05-02, 09:42:21
Jetzt ist auch klar welches Tile was ist.
https://videocardz.com/newz/14th-gen-core-meteor-lake-has-been-powered-on-on-track-to-launch-in-2023
GFX Tile, CPU Tile, SOC Tile und IO Tile.
Das GFX Tile ist ja winzig.
davidzo
2022-05-02, 12:29:16
Jetzt ist auch klar welches Tile was ist.
https://videocardz.com/newz/14th-gen-core-meteor-lake-has-been-powered-on-on-track-to-launch-in-2023
GFX Tile, CPU Tile, SOC Tile und IO Tile.
Das GFX Tile ist ja winzig.
Ich würde jetzt nicht von Blockschaubildern auf reale Größen und Anordnung spekulieren. In den Folien sind die Chips auch so groß wie das ganze Package, was nie und nimmer der Realität entspricht (wären über 600mm2).
Es kann auch gut sen dass CPU-tile von Intel und GPU Tile von TSMC auf dem SOC-Teil von TSMC gestapelt werden. Zumindest sind in dem Foto keine einzelnen DIEs erkennbar und scheinbar alles mit underfill verschlossen.
EDIT: Es gibt andere Fotos wo die DIEs einzeln nebeneinander erkennbar sind. Zudem gibts bisher nur 2P+8E Shots.
stinki
2022-05-02, 13:37:43
Ich bezog mich auf das Bild von
https://wccftech.com/intel-13th-gen-meteor-lake-cpus-allegedly-feature-intel-4compute-tile-tsmc-3nm-gpu-tile-tsmc-n5-n4-soc-lp-tile/
das schon vor ein paar Seiten besprochen wurde.
Zu dem passt die Intel Folie ganz gut.
mocad_tom
2022-05-02, 19:11:00
Das schaut mir eigentlich nach ganz normalen Die-Größen aus:
https://twitter.com/Locuza_/status/1461548879137198086
GPU-Tile 97mm2 in TSMC N3
CPU-Tile 41mm2 in Intel 4
Base-Tile mit Memory-Controller und PCIe Gen5 und L3-Cache, insgesamt 190mm2 in Intel 7
Das schaut mir eigentlich nach ganz normalen Die-Größen aus:
https://twitter.com/Locuza_/status/1461548879137198086
GPU-Tile 97mm2 in TSMC N3
CPU-Tile 41mm2 in Intel 4
Base-Tile mit Memory-Controller und PCIe Gen5 und L3-Cache, insgesamt 190mm2 in Intel 7
Ich glaube er hat das vertauscht, also 41mm² ist die GPU Tile. Wir wissen von Intel, dass 320EUs in TSMC 3nm gefertigt etwa 80mm² groß sind, da kommen die 41mm² mit 192 EUs schon eher hin.
davidzo
2022-05-12, 13:25:08
Ich glaube er hat das vertauscht, also 41mm² ist die GPU Tile. Wir wissen von Intel, dass 320EUs in TSMC 3nm gefertigt etwa 80mm² groß sind, da kommen die 41mm² mit 192 EUs schon eher hin.
Eher nicht. Nach den Die- und Wafershots vom CPU-teil ist der CPU-Die rechteckig. Der große Die ist aber nahezu quadratisch.
Der kleine DIE wäre auch sonst trotz Intel4 Fertigung wesentlich größer als Alderlake 2P+8E, was eher unwahrscheinlich ist da MTL nur ein "tick" ist, kein "tock".
Wahrscheinlicher ist dass der GPU-DIE eben noch TSMC N5 ist, so wie es auch ursprünglich mal geplant war. Ich halte das mit N3 einfach für eine Verwechslung/ Gerücht, denn das ist bis Ende 2023 einfach noch kein Massenprozess.
Intel auf der Roadmap bisher Meteorlake und Arrowlake gemeinsam dargestellt und TSMC N3 dazugeschrieben, sowie Intel 4. Ich denke das N3 bezieht sich lediglich auf den Arrowlake GPU Tile.
90-100mm2 für 192EU+Cache und Media kommt schon gut hin für N5, wenn man bedenkt dass DG2 Soc2 mit 128EU in 6nm schon 156mm2 sind und die Cores+Cache+media ca. 70% dieses SOCs ausmachen. Bei SOC1 machen 256EUs mit Cache ca. 140-150mm2 aus.
Vor ein paar Tagen gab es auch das Gerücht dass Intel den CPU-Tile doch bei TSMC fertigt, ausgerechnet in N5. Digitimes ist zwar keine seriöse Quelle, aber sind immerhin Taiwans größtes Tech-News-Outlet und schnappen immer mal wieder was auf.
https://www.digitimes.com/news/a20220503PD216.html
Das ist natürlich bullshit, so einen Wechsel macht man nicht mal eben so kaum 12 Monate vor Launch. Pat hatte ja bestätigt dass die CPU die powered on wurde und in Linux lief aus der eigenen intel 4 Fertigung kam.
Wahrscheinlich hat Digitimes das einfach in den falschen Hals bekommen weil dennoch ein großer Teil von MTL aus TSMC Fertigung kommt - nämlich der fette GPU-DIE.
Zudem ist die 320EU GPU für ARL Intels "lead vehicle for N3" laut den von geleakten confidential Folien. Wenn ARL der erste chip mit TSMC N3 wird, dann kann schlecht MTL ein Jahr früher auch schon eine N3 GPU haben.
https://twitter.com/AdoredTV/status/1496217229922291715
Die Folie ist so hässlich vom Layout und mit sovielen kryptischen Abkürzungen, die kann eigentlich nur echt sein. Ein Fälscher hätte die sicher schöner und verständlicher gemacht und nicht Fließtext in Schriftgröße 10 verwendet.
Piefkee
2022-05-12, 15:44:38
Das schaut mir eigentlich nach ganz normalen Die-Größen aus:
https://twitter.com/Locuza_/status/1461548879137198086
GPU-Tile 97mm2 in TSMC N3
CPU-Tile 41mm2 in Intel 4
Base-Tile mit Memory-Controller und PCIe Gen5 und L3-Cache, insgesamt 190mm2 in Intel 7
Blöde Frage, gibt es irgendwas handfestes außer die Gerüchte das Intel wirklich N3 GPU hat? Würde mich einfach wundern wenn PVC 5Nm von TSM nutzt und im selben Jahr noch 3nm GPU von Intel kommt. Scheint mir zu früh. Vorallem wenn man bedenkt das N3 erst nächstes Jahr in HVM geht.
BavarianRealist
2022-05-12, 16:06:27
Das schaut mir eigentlich nach ganz normalen Die-Größen aus:
https://twitter.com/Locuza_/status/1461548879137198086
GPU-Tile 97mm2 in TSMC N3
CPU-Tile 41mm2 in Intel 4
Base-Tile mit Memory-Controller und PCIe Gen5 und L3-Cache, insgesamt 190mm2 in Intel 7
Wieso ist der "Base-Tile" so riesengroß? Was ist da bitte drin, was ihn so groß macht? Ein riesiger L4?
Mit 190mm² (Intel7) + 41mm² (Intel3) + 97mm² (TSM-N3) = 328mm² ... und dann noch der MCM-Aufwand für einen mobile-CHip? Was soll das Ding kosten? 500$???
vor allem N3 mit fast 100mm² :freak:. AMD bekäme da spielend ne N23 rein, vielleicht sogar mehr. Ohne I/O versteht sich.
davidzo
2022-05-12, 17:31:36
Wieso ist der "Base-Tile" so riesengroß? Was ist da bitte drin, was ihn so groß macht? Ein riesiger L4?
Mit 190mm² (Intel7) + 41mm² (Intel3) + 97mm² (TSM-N3) = 328mm² ... und dann noch der MCM-Aufwand für einen mobile-CHip? Was soll das Ding kosten? 500$???
https://www.cnet.com/a/img/resize/65c37fbd9397157d84954a34c90f94c7040d8772/hub/2021/11/17/7dd0a026-7369-4a9f-b78b-a082397b5627/20210819-intel-arizona-fab-12.jpg?auto=webp&width=1092
https://www.cnet.com/pictures/a-look-inside-intels-mammoth-arizona-chipmaking-fab/3/
Das ist ein ganz dünner passiver RDL Wafer. Nichts besonderes und wahrscheinlich 2-4 layer in 65nm oder älter. Minimaler pitch ist 36µm, also relativ entspannt im Vergleich zu AMDs biszu 9µm beim 3D V-cache.
Zwischen den chips kommt dann noch schwarzes underfill-material.
Nennt sich "Foveros Wafer level assembly".
Hier sind mehr Bilder, auch von Intel4 compute module Wafern. Da sieht man klar dass es der kleinere Chip ist.
https://download.intel.com/newsroom/2021/client-computing/Intel-Accelerated-products.zip
Btw, etwas vergleichbares zu TSMCs / AMDs direct Copper to Copper Bonding mit Pitches unter 10µm geht bei intel erst in 2023 in Produktion, nennt sich Foveros Direct. Ich würde also nicht vor Lunar Lake damit rechnen dass wir sowas sehen. Arrowlake nutzt noch dasselbe Packaging wie Meteorlake.
basix
2022-05-12, 19:14:47
Soll es im Base Tile nicht auch Cache geben? Intel 22FFL würde sich für sowas ja gut eignen.
PCGH mit einem Bild aufs Meteor Lake Compute Tile, von Locuza annotiert:
https://www.pcgameshardware.de/CPU-CPU-154106/News/Meteor-Lake-Die-Shot-mit-erstem-Blick-auf-das-Compute-Tile-1394949/
https://twitter.com/Locuza_/status/1524441315441786881
https://pbs.twimg.com/media/FSfmkpiWYAIgXVg?format=jpg&name=4096x4096
Und bei der Source auch Intel 20A Die Shots eines Test Chips: https://www.comptoir-hardware.com/actus/processeurs/45991-intel-vision-exclusivite-comptoiresque-un-die-shot-de-meteor-lake-ca-vous-dit-.html
Der kleinere Die scheint wirklich die CPU zu sein, ich hätte das etwas anders aufgezeichnet gehabt: Siehe unten. Stimmt aber so wies aussieht nicht ;)
Demzufolge:
- Grosses Die = SoC?
- Langes Die auf der Seite = GPU?
davidzo
2022-05-12, 19:53:34
Woher kommt die Info mit 64mb cache, i/o etc. im base-Die? Ist das Belastbar oder eigene Speku?
Ich dachte der i/o DIE wäre einer von den Schnipseln oben drauf?
In der Folie zu Arrowlake sind auch einige Infos zu Meteorlake drin:
https://pbs.twimg.com/media/FMOhNpmWUAAV_WR?format=jpg&name=large
Es gibt also folgende Anzahl an DIEs:
- CPU: CPU-68 (N3)
- GPU: GT3 (N3) + GT2P (nicht N3)
- IOE-P: i/o DIE
- SOC-M/P: SOC Die
- ADM: Interposer?
SOC und IO sollen 100% reuse von MTL sein!
Das -P und -M ist einfach die jeweilige Ausführung für P-series oder M-series SKUs, das heißt es
wird auch größere i/o DIEs geben.
GT2P ist offensichtlich eine kleinere GPU für die P-series SKUs die auch nicht in N3 gefertigt wird weil sie viel früher zum Testen bereit steht. Die damit gebauten Prototypen sind rein optional um Risiken beim ADM auszuschließen.
ADM interpretiere ich daher als den Interposer. Der wird etwa Zeitgleich mit dem GT3 DIE entwickelt, welches ja das N3 Pilot-vehikel für Intel darstellt.
Es gibt den SOC B-Step, womit i/o DIE und SOC DIE gemeint sind und den SOC C step womit ADL gemeint ist. Das könnten aufeinander folgende SOC Packaging steps sein.
Das wird bei Meteorlake das gleiche sein, zumal die SOC und i/o DIEs das gleiche sind.
Ich rechne nicht mit einem aktiven Interposer + cache DIE, wenn es doch soc funktionalität und i/o schon als extra DIE gibt.
iamthebear
2022-05-12, 22:33:08
1 Golden Cove Kern war ca. 7mm² groß. Mit dem L3+Ringbus um die 12-13mm². Ein 4er Block E Cores braucht auch ca. so viel. Das wären für 2+8 ADL dann um die 50mm² in Intel 7.
So gesehen halte ich die 40mm² eigentlich schon für extrem groß für dass, dass es ein Full Node Shrink nach klassischer Definition sein soll. Nennenswerte IPC Verbesserungen sind für Meteor Lake ja auch nicht angekündigt.
Was das GPU Tile angeht:
3nm ist es definitiv nicht. Momentan verwerfen gerade alle ihre 3nm Pläne z.B. AMD mit Zen 5. Da glaube ich nicht, dass Intel schon lauffähiges Silizium hat und 2023 wird auch noch zu früh sein für die Massenfertigung.
Auch 90mm² kommt mir für 192 EUs in 5nm zu groß vor. Bei den 150mm² bei 128 EUs ist ja der größte Teil IO. Das fällt ja alles weg.
Die 200mm² Base Die sind dann die gesamte Fläche? Also 90mm² GPU + 40mm² CPU + 70mm² IO oder wie darf ich das verstehen?
Eher nicht. Nach den Die- und Wafershots vom CPU-teil ist der CPU-Die rechteckig. Der große Die ist aber nahezu quadratisch.
Der kleine DIE wäre auch sonst trotz Intel4 Fertigung wesentlich größer als Alderlake 2P+8E, was eher unwahrscheinlich ist da MTL nur ein "tick" ist, kein "tock".
Wahrscheinlicher ist dass der GPU-DIE eben noch TSMC N5 ist, so wie es auch ursprünglich mal geplant war. Ich halte das mit N3 einfach für eine Verwechslung/ Gerücht, denn das ist bis Ende 2023 einfach noch kein Massenprozess.
Intel auf der Roadmap bisher Meteorlake und Arrowlake gemeinsam dargestellt und TSMC N3 dazugeschrieben, sowie Intel 4. Ich denke das N3 bezieht sich lediglich auf den Arrowlake GPU Tile.
90-100mm2 für 192EU+Cache und Media kommt schon gut hin für N5, wenn man bedenkt dass DG2 Soc2 mit 128EU in 6nm schon 156mm2 sind und die Cores+Cache+media ca. 70% dieses SOCs ausmachen. Bei SOC1 machen 256EUs mit Cache ca. 140-150mm2 aus.
Und dass die CPU Tiles von TSMC kommen halte ich auch für Schwachsinn. Wenn das gemacht wird dann nur wie bei AMD als Einwegticket wenn die eigene Fertigung aufgegeben wird.
[QUOTE=Piefkee;13002161]Blöde Frage, gibt es irgendwas handfestes außer die Gerüchte das Intel wirklich N3 GPU hat? Würde mich einfach wundern wenn PVC 5Nm von TSM nutzt und im selben Jahr noch 3nm GPU von Intel kommt. Scheint mir zu früh. Vorallem wenn man bedenkt das N3 erst nächstes Jahr in HVM geht.
Kann sein, dass ich mich irre aber hat es da nicht schon offizielle Folien von Intel gegeben bei irgendeinem Event?
basix
2022-05-12, 23:07:14
Ich rechne nicht mit einem aktiven Interposer + cache DIE, wenn es doch soc funktionalität und i/o schon als extra DIE gibt.
Anhand der neuen Infos denke ich auch nicht, dass der Interposer aktiv ist. Aber evtl. hat es im SoC Die Cache? Das Ding ist viel zu gross. Vielleicht verwechsle ich das mit dem Cache auch mit Raptor Lake.
Kann sein, dass ich mich irre aber hat es da nicht schon offizielle Folien von Intel gegeben bei irgendeinem Event?
Wenn man Intels Roadmap 2023-2024 so interpretiert: Ja, N3 für die iGPU. Intel 4 für Meteor Lake und Intel 20A für Arrowlake.
https://www.tomshardware.com/news/intel-roadmap-meteor-lake-arrow-lake-lunar-lake-cpus
Bei der Arrowlake Folie, die davidzo gepostet hat, steht aber auch was von Compute (CPU) in N3...
davidzo
2022-05-13, 00:40:39
Wenn man Intels Roadmap 2023-2024 so interpretiert: Ja, N3 für die iGPU. Intel 4 für Meteor Lake und Intel 20A für Arrowlake.
Und genau diese Interpretation bezweifle ich. MTL und ARL werden dort zusammen abgehandelt und natürlich schreibt man nur die beste Fertigung vorne drauf. Anhand Intels Vorgeschichte immer alles schön färben zu wollen kann man schon davon ausgehen dass mit den cutting edge Prozessen N3 und 20A nur ARL gemeint sein kann, nicht MTL.
Das Verfahren für i/o, SOC und Base-Die ist mit Sicherheit nicht Intel4 oder N3. Das hat man einfach weggelassen weil es uninteressant ist und nicht auf die Folie passte.
Dementsprechend ist auch N5 eine Möglichkeit und passt für die MTL-GPU imo besser in den Zeitraum.
Die Entscheidung die CPU bei ARL nicht in 20A sondern TSMC N3 zu bauen, soll schon 2021 gefallen sein. Also theoetisch noch genug Zeit auf 20A zu wechseln falls das früher verfügbar geworden ist.
Damals war auch noch von N5 für die MTL GPU die rede, das N3 Gerücht ist jünger, weshalb ich einen wechsel dort unrealistisch finde.
Das einzige was bestätigt ist dass der MTL CPU-Teil Intel 4A ist und die GPU "external".
Hat jemand eine Idee für was die Abkürzung ADM stehen könnte?
w0mbat
2022-05-21, 16:16:25
Ist MTL eigentlich ne Kombi aus Foveros und EMIB?
Foveros ist ja 3D-stacking und nutzt TSVs, EMIB ist 2.5D und verzichtet auf einen großen silicon interposer und setzt stattdessen auf kleine, ins substrate eingesetzte, "Brücken".
Also sitzten CPU & GPU tile wirklich 3D auf dem I/O tile, oder wissen wir das noch nicht genau?
davidzo
2022-05-21, 16:56:35
Ist MTL eigentlich ne Kombi aus Foveros und EMIB?
Foveros ist ja 3D-stacking und nutzt TSVs, EMIB ist 2.5D und verzichtet auf einen großen silicon interposer und setzt stattdessen auf kleine, ins substrate eingesetzte, "Brücken".
Also sitzten CPU & GPU tile wirklich 3D auf dem I/O tile, oder wissen wir das noch nicht genau?
Wir wissen dass das i/o Tile eines der zwei kleinen Top DIEs neben der CPU und GPU ist. Das ist auf den Fotos vom Package zu sehen und deckt sich mit den schematischen Darstellungen auf den Intel-Folien. 3D bzw. das ganze i/o im Basedie kann man damit eigentlich ausschließen.
EMIB wird es zumindest für die Mobilvariante auch nicht sein, denn Emib ist eine in-package Technologie. Da werden zuerst die bridges im Package embedded und dann die DIEs bestückt, das ist also keine wafer-level Technologie.
Es ist aber auf den veröffentlichten Fotos klar zu sehen dass die Tiles alle zusammen auf einem Wafer angeordnet sind und nicht erst auf dem Package. Aus dem Foto ergeben sich auch eindeutig die rund 200mm2 für den baseDIE der mobilen Variante.
Ich bleibe dabei dass der Base-DIE mit ziemlich großer Wahrscheinlichkeit einfach nur ein dumb Interposer bzw. RDL Wafer ist. Vermutlich nichtmal mit vielen Layern und dünnerem Ausgangsmaterial als einem vollwertigen Wafer.
Foveros ist einfach der Überbegriff für Intels advanced Packaging Technologien. Der Marketingname wenn man so will. EMIB ist eine konkrete Technologie die schon etwas länger existiert als Foveros, ist sozusagen Vorgänger, wird aber in Zukunft auch mit Foveros Omni zusammengeführt.
Das ist nur die Mobile Package-Variante für die P-series SKUs (28W) und vermutlich auch U-Series.
Mich würde nicht wundern wenn die H-Series ein anderes Packaging bekommt. Zum Beispiel mit einem externen i/o DIE als MCM so wie bisher, oder gar einem PCH Package nebenan. Als PCH könnte man zum Beispiel den von Alderlake HX nehmen.
Es würde mich aber auch nicht wundern wenn es diesmal keine H-Series gibt, ebensowenig wie Desktop, sondern diese zugunsten von RKL und ARL gestrichen hat.
Von MTL Desktop ist bisher noch gar nichts zu sehen, außer die theoretische Angabe dass MTL bis 125W skaliert.
w0mbat
2022-05-21, 17:26:39
Intels Aussagen sind einfach sehr vague. Wenn ich Foveros höre, denke ich erstmal an Lakefield, wo es ja "echtes" 3D stacking gab, also aktives silicon auf aktivem silicon.
Aber MTL sieht nicht nach "echtem" 3D stacking aus, aber ist auch nicht EMIB, was ja nur kleine Brücken zwischen den einzelnen tiles bildet.
Ich denke MTL hat einen reduzierten interposer, so dass nicht alle Verbindungen vom PCB durch den interposer müssen, was die TSV penalty reduziert. Hier gibts ein fast drei Jahre altes Video von Intel: https://www.youtube.com/watch?v=JZt4rqzGuHs
MTL wird mMn alle tiles auf über einen interposer verbinden und dadurch mehr Bandbreite, niedrigere Latenzen und weniger Verlust haben als AMD mit ihrem Infinity Fabric. Aber wir werden kein aktives silicon auf aktivem silicon sehen. Aber 100% sicher bin ich mir halt auch nicht. Foveros könnte auch bedeuten, dass zB ein Teil vom I/O bzw. SoC wirklich unter CPU und GPU liegt.
Ich glaube Intel lässt uns da auch absichtlich im unklaren :D
Eher nicht. Nach den Die- und Wafershots vom CPU-teil ist der CPU-Die rechteckig. Der große Die ist aber nahezu quadratisch.
Der kleine DIE wäre auch sonst trotz Intel4 Fertigung wesentlich größer als Alderlake 2P+8E, was eher unwahrscheinlich ist da MTL nur ein "tick" ist, kein "tock".
Beim großen Chip in der Mitte geht man vom Soc aus und ganz unten soll zusätzliches IO sein: https://forums.anandtech.com/threads/intel-current-and-future-lakes-rapids-thread.2509080/page-629#post-40760263
CPU und GPU sind oben nebeneinander. So zeigt es auch Intel in einem groben Schaubild:
https://cdn.videocardz.com/1/2022/04/Intel-Meteor-Lake.jpg
320 EUs in TSMC 3nm wären etwa 80mm² groß gewesen sagt Intel. Für 192 EUs in TSMC 3nm würde ich nicht mehr als 50-60mm² veranschlagen. Es soll aber wohl auch 96EU tiles geben, Intel spricht von 96-192. Das Gezeigte können auch 96 oder 128EUs sein.
Intel und TSMC 5nm ist kein Thema, hat Intel überhaupt Kapazitäten gebucht? Davon ist nicht zu lesen, sehr wohl aber von 3nm und Intel. Das 5nm Gerücht von digitimes wurde längst dementiert und ergab so ohnehin nie Sinn weil der Soc/IO kein TSMC 5nm braucht und die tiles zu groß wären. Das Compute Tile ist in Intel 4 gefertigt und der tapeout ist schon länger her.
Wenn die GPU bei Meteor nicht für 3nm gedacht wäre, hätten sie das doch zeigen können, so wie sie auch beim CPU tile Meteor und Arrow extra aufgeführt haben in der Roadmap, deine Argumentation ist nicht schlüssig. Ich hätte noch 4nm für möglich gehalten, nur gibt es dazu bislang nicht den kleinsten Hinweis.
mocad_tom
2022-05-25, 22:35:13
Ich denke die Chancen stehen nicht gut, dass das Base-Tile nur etwas passives ist.
https://twitter.com/OneRaichu/status/1528877367334412288
Auf SemiAnalysis (https://semianalysis.substack.com/p/meteor-lake-die-shot-and-architecture?s=r) gibt es eine sehr aufwändige Analyse vom Die Shot eines MTL-M mit 2+8 und 64/96EU iGPU (unklar, mehr als 96EUs passen aber wohl nicht rein) und weiteren Infos.
https://abload.de/img/3c9k1g.png
https://abload.de/img/4hvjnw.png
https://abload.de/img/1tck85.png
https://abload.de/img/2rtkeo.png
https://abload.de/img/5w4kw2.png
https://semianalysis.substack.com/p/meteor-lake-die-shot-and-architecture?s=r
https://youtu.be/2JBXnVyZRr4
Redwood Cove ist eindeutig eine Evolution aus Golden Cove. Größere Änderungen beim Cove, weniger beim Mont wenn man sich das Shrink Verhältnis ansieht.
Golden Cove with its L2 cache is ~4.48x larger than Gracemont without the shared L2. The difference in size between these two cores is getting larger with Meteor Lake. Redwood Cove is ~5.1x larger than Crestmont.
TSMC N3B für die GPU.
At first this may seem to be a tall order, but SemiAnalysis can confirm that Intel is utilizing TSMC’s N3B node for the Meteor Lake GPU tile. With this shrink, it would be possible for 64/96EU to fit on the ~23mm2.
Laut Intel skaliert MTL von 96-192 EUs. Allerdings hat ja ein Slice 64EUs in Gen12HPG, würde also auch Sinn ergeben.
Keine Ahnung wie das mit 96EUs passen würde. Klar sie könnten 2 slices verbauen und 32 EUs deaktivieren, wie sie das schon häufiger gemacht haben. Das passt nur kaum in 23 mm².
MTL-M BGA package ist kleiner als bei ADL-M. Intel könnte sich bei MTL-M verstärkt auf das ultra low power Segment konzentrieren bzw. neu auflegen. Bei ADL liegt der Fokus auf ADL-P 28W+, während die ADL-U 15W schon eher beiläufig sind und ADL-M gibt es derzeit gar nicht.
In addition to making the X and Y dimensions smaller, we believe Intel focused heavily on squeezing down the Z dimension as well. 5W to 10W class devices that are thin and performant on the x86 architecture could finally be realized due to this high-density package design.
basix
2022-05-27, 17:12:04
Ich würde sagen, dass die Media Engines der GPU im SoC Tile untergebracht sind. Dann sind 96EU in 23mm2 schon denkbar in N3B. Allenfalls sitzt auch der GPU-L3$ im SoC Die.
Wird Gen12 HPG so viel größer? Im Intel 7 node für Xe LP sind es 42.5mm² mit Media Engines und etwa 30mm² ohne. Ich kenne jetzt nicht das genaue area scaling von Intel 7 auf TSMC 3nm, mindestens 2x sollte es aber schon werden. Raichu glaubt übrigens, im Soc tile würde ein ULV Core sitzen und er vermutet TSMC 5nm bei der GPU.
ChaosTM
2022-05-27, 18:07:54
Wann soll Intel 4 eigentlich fertig sein ?
Offiziell ist Intel 4 manufacturing ready in H2 2022. Von manufacturing ready bis Chips im Laden können aber 6 Monate vergehen, das muss man wissen.
Bringt denn das alles überhaupt einen Kostenvorteil ggü. einem Intel 4 Monolithen? Die haben doch schon so fette Chips gebaut, da müsste das bissl Zeug doch auf einem Die unterzubringen sein, nicht?
Intel muss nur 40mm² für Intel 4 aufwänden, bei einem Monolithen 2+8 wären das eher 180mm² und je nach GPU Größe deutlich drüber. Intel ist nächstes Jahr noch EUV limitiert, das ist also schon ein großer Vorteil. In der Vergangenheit hat Intel immer mit kleinen Chips angefangen, weil die Ausbeute zu schlecht gewesen ist oder die Kapazitäten nicht ausreichten. Erste 14nm CPUs sind Dualcore Broadwell gewesen, erste 10nm Chips Dualcore Cannonlake mit deaktivierter Grafik. Die fetten Chips kamen erst viel später.
Alles Kinderkram im Vergleich zu nem 14nm 22 Kerner ;) Aber das war dann ja auch auf nem ausgereiften Prozess...
iamthebear
2022-05-27, 21:54:59
Bringt denn das alles überhaupt einen Kostenvorteil ggü. einem Intel 4 Monolithen? Die haben doch schon so fette Chips gebaut, da müsste das bissl Zeug doch auf einem Die unterzubringen sein, nicht?
Die Yields werden vermutlich am Anfang unterirdisch sein. Umsonst ist man nicht schon 3 Jahre hinten nach.
Abgesehen davon wird Intel wie AMD nur den Compute Die in 4nm fertigen:
Compute Die ist relativ klein und in 4nm
IO Die wird wohl weiterhin in Intel 7 gefertigt. Theoretisch würden auch 14nm gehen aber dort ist die Kapazität immer noch eine Katastrophe.
Intel muss nur 40mm² für Intel 4 aufwänden, bei einem Monolithen 2+8 wären das eher 180mm² und je nach GPU Größe deutlich drüber.
Naja so schlimm wird es doch hoffentlich doch nicht werden. Selbst ein 12900K mit 8+8 hat nur um die 200mm². Ich würde mal schätzen um die 100mm².
rentex
2022-06-04, 06:51:28
https://videocardz.com/newz/intel-14th-gen-core-desktop-meteor-lake-allegedly-requires-new-lga-2551-socket
Wann soll Intel 4 eigentlich fertig sein ?
Wenn ich mich Recht entsinne kann man schon KI Chips von Intel in Intel4 kaufen
Complicated
2022-06-04, 10:34:59
Der KI Chip Loihi in Intel 4 kann derzeit nicht gekauft werden. Intel nutzt die alle selber derzeit. Das sind Vorserienproduktionen in kleiner Stückzahl, bei niedriger Yield. Geplant war 2H2022 als Release. Der Chip hat 31 mm^2, daher ist schwer einzuschätzen wann da größere Chips mit Yields für Serienproduktion möglich werden.
Der KI Chip Loihi in Intel 4 kann derzeit nicht gekauft werde. Intel nutzt die alle selber derzeit. Das sind Vorserienproduktionen in kleiner Stückzahl bei niedriger Yield. Geplant war 2H2022 als Release. Der Chip hat 31 mm^2, daher ist schwer einzuschätzen wann da größere Chips mit Yields für Serienproduktion möglich werden.
Woher weißt du das die Yields schlecht sind?
Complicated
2022-06-04, 14:27:18
Weil PCGH das berichtet hat.
LGA 1851 für Meteor Lake und Arrow Lake.
https://videocardz.com/newz/intel-lga-1851-socket-for-desktop-intel-meteor-lake-and-arrow-lake-has-been-leaked
ChaosTM
2022-06-06, 10:50:59
Also Alder und der Saurier haben den selben Sockel und dann kommt wieder was neues.
@ceed - danke
MSABK
2022-06-06, 12:19:58
Da sieht man was für eine Marktmacht Intel hat, die können ohne Probleme alle 2 Jahre einen neuen Sockel bringen und die Verkäufe sind trotzdem enorm.
BavarianRealist
2022-06-06, 12:38:34
Da sieht man was für eine Marktmacht Intel hat, die können ohne Probleme alle 2 Jahre einen neuen Sockel bringen und die Verkäufe sind trotzdem enorm.
Noch! Alle zwei Jahre eine neue Plattform stört nicht nur die Käufer (die gerne später aufrüsten würden), sondern auch die Hersteller der Boards, weil sich deren Entwicklungskosten dann auf entsprechend weniger Boards verteilen. Vor allem im DIY-Markt dürfte das Intel zu spüren bekommen, weil hier AMD bereits rund die Hälfte des Marktes hat.
Hinzu kommt: je komplexer die Sockel, desto komplexer und teurer auch die Boards. Braucht Intels Meteor-Lake eine neue Plattform, hat er dadurch bereits bei Erscheinen einen Plattform- und Kostennachteil, den Zen5 nicht haben wird. Diesen Nachteil muss Intel mit Preiszugeständnissen kompensieren.
BlacKi
2022-06-06, 14:00:59
lol, wer kauft sich denn alle 1-2 jahre neue cpus. die meisten haben die cpu 4-5 jahre drinn und dann kannst du auch gleich das board mitwechseln. wer zen3 kauft, der will auch pcie4.0 haben.
leute die alle 1-2 jahre die cpu wechseln sind die absolute minderheit. und ein 4-5 jahre altes board willst du nicht weitere 4 jahre nutzen.
die sockelkompatibilität wird hier im forum massiv überbewertet.
So siehts aus... und den Boardherstellern ist sicher nicht daran gelegen, dass man eine Boardgeneration 10 Jahre nutzen kann. Ich würde gerne mal sehen, wie viele Rechner jemals in ihrem Leben überhaupt in eine neue CPU Generation aufgerüstet werden. Ich mache das mal, hier im Forum machen das welche... aber unter allen meinen Freunden, Familie, Firma wird nie ein PC aufgerüstet. Die Teile laufen 5-7 Jahre und dann kommt ein neuer her. Möchte wetten >98% der Rechner Weltweit werden nie mit einer neuen CPU ausgestattet wenn vorher schon was großes drin war.
Weshalb also Legacy mitschleppen und Fortschritt bremsen? Intel macht das schon richtig...
dildo4u
2022-06-06, 14:58:21
lol, wer kauft sich denn alle 1-2 jahre neue cpus. die meisten haben die cpu 4-5 jahre drinn und dann kannst du auch gleich das board mitwechseln. wer zen3 kauft, der will auch pcie4.0 haben.
leute die alle 1-2 jahre die cpu wechseln sind die absolute minderheit. und ein 4-5 jahre altes board willst du nicht weitere 4 jahre nutzen.
die sockelkompatibilität wird hier im forum massiv überbewertet.
Wenn AMD Verkäufe bis Zen 4 nicht massiv einbrechen war es erflogreich macht kein sinn jetzt ein Fazit zu ziehen, da das Beste erst jetzt passiert ist.
Zen 3 Support für Chipsätze von 2017, das sind Upgrades die in Games über 50% Leistung bringen.
Ich stimme dir zu selbst Zen 2 wäre mir noch zu wenig von meinem Ryzen 2600X, aber jetzt muss ich langsam überlegen was mein näster Schritt ist und ob ich im Herbst wirklich alles neu kaufen will.
ChaosTM
2022-06-06, 15:15:27
Wenn AMD Verkäufe bis Zen 4 nicht massiv einbrechen war es erflogreich macht kein sinn jetzt ein Fazit zu ziehen, da das Beste erst jetzt passiert ist.
Zen 3 Support für Chipsätze von 2017, das sind Upgrades die in Games über 50% Leistung bringen.
Ich stimme dir zu selbst Zen 2 wäre mir noch zu wenig von meinem Ryzen 2600X, aber jetzt muss ich langsam überlegen was mein näster Schritt ist und ob ich im Herbst wirklich alles neu kaufen will.
Wenn man auf PCIe-4 verzichten kann, sind auch die älteren AM4 MBs noch gut nutzbar.
Bei Intel hat man halt schon 5, was zwar noch nicht all zu viel Sinn macht, aber es ist vorhanden.
LGA1851 sollte dann neben TB auch USB4 unterstützen. Danach sehe ich wenige neue "Killer features" am Horizont.
AMD macht dass dann alles auf einmal. DDR5, PCIe 5.0 und USB4.
w0mbat
2022-06-06, 15:30:50
MLID vor ein paar Tagen mit seinem "leak Video": Raptor Lake ist LGA1800 aber trotzdem kompatibel mit ADL (LOL) und Meteor Lake kommt dann mit LGA2551. Dazu zeigt er ganz klar einen BGA Sockel :ugly:
ADL & RPL (ich hasse dass es nicht RTL geworden ist, klingt wie Raphael): LGA1700
MTL & ARL: LGA1851
MTL-S wird anscheinend nichts für highend CPUs, sondern für das lowend bis midrange. Das highend wird erst mit ARL-S bedient. Das behaupten Raichu und kopite7kimi. Speziell Raichu ist eine äußerst gute Quelle. Er behauptet auch, dass MTL-S und ARL-S fast zur gleichen Zeit in den Markt kommen.
Meine Vermutung wäre, dass wir im Desktop nur 6+8 sehen werden bei MTL-S. MTL-P hat nämlich 6+8.
More detail is that.
In the MSDT platform, Meteor lake maybe is the mid and low-end product, and Arrow lake act as the high-end product.
About Lunar lake, it is the codename of one low-voltage product.
https://twitter.com/OneRaichu/status/1533759998186393600
For desktop,
High end, ARL-S,
mainstream, MTL-S.
https://twitter.com/kopite7kimi/status/1533783931044376576
Darüber hinaus ist Lunar Lake möglicherweise nur als low power CPU gedacht, darauf folgend ist Panther Lake.
w0mbat
2022-06-06, 19:53:25
Würde auch dahingehend Sinn machen, dass Raptor Lake ja für das 2H 2022 erwartet ist, Meteor Lake aber schon Anfang 2023 für mobile kommen soll. Bisher haben wir auch nur MTL mobile gesehen, zuletzt auf der Intel InnovatiON.
Also Anfang 2023 MTL mobile, Mitte 2023 MTL-S mid-range und Ende 2023 dann ARL-S high-end?
ARL-S CPU tile läuft mit 20A, also keine Chance für Ende 2023. Massenfertigung von 20A ist manufacturing ready in H1 2024 sagt Intel selber, wenns ganz gut läuft könnte man vielleicht in Q2 2024 etwas mit 20A sehen. Vielleicht platzt der Knoten mit GAA und mehr EUV, ein node Start gleich mit großen Modellen ist schon ungewöhnlich für Intel in den letzten fast 10 Jahren.
Sieht man wieder bei Intel 4 und MTL, sie haben bis jetzt immer nur MTL-M 2+8 gezeigt, die könnte es mitte 2024 geben oder sogar einen semi launch Anfang 2024, wer weiß. launch und Verfügbarkeit sind zwei paar Schuhe bei mobil CPUs, siehe zuletzt Rembrandt-U oder ADL-P/U mit bescheidener Verfügbarkeit Monate nach launch.
Vor Ende würde ich kein MTL-S erwarten, eher zur CES 2024. Die non K von Raptor Lake sollen auch erst Anfang 2023 starten. 1 Jahr danach würde Sinn machen. Oder sie schieben MTL-S so weit raus, bis sie ARL-S highend und MTL-S mainstream/lowend wirklich fast zeitgleich bringen können. Raichu meint ja, die würden fast zeitgleich kommen. Naja schwer zu sagen, die Zeitpläne können sich bis dahin noch verschieben.
Meteor Lake 6+8
https://abload.de/img/203xj9o.jpg
https://abload.de/img/21xujtt.png
https://twitter.com/phobiaphilia/status/1535502729061318656
w0mbat
2022-06-11, 14:04:55
Also ganz einfaches Foveros 3D stacking mit einem silicon interposer auf dem alle tiles sitzen. D.h. power & co. müssen auch über TSV laufen (wenn das Schaubild stimmt).
Dann bleibts ja bei 2+8 und 6+8, wenn MTL nicht High-End werden soll. Bin gespannt, wie sie die High-End-Variante nennen werden. ARL kanns ja nicht sein, das klappt schlichtweg zeitlich nicht. Oder es war BS und ein 8+16 ist doch auch auf dem Weg.
iamthebear
2022-06-11, 19:26:40
Ich habe das Ganze einmal grob nachgemessen. Unter der Annahme, dass das ein 50x25mm Socket wie ADL-P ist und das Ganze maßstabsgetreu ist komme ich in etwa auf folgende Werte:
GFX: 4,92x11,01mm = 55mm²
SOC: 9,27x11,01mm = 102mm²
IO: 8,69x3,19mm = 28mm²
Compute: 8,69x7,53 = 65mm²
Gesamt: 249mm²
8mm² pro P Core scheinen mir realistisch. ADL war mit Ringbus und L3 in etwa bei 11mm². Das hört sich ziemlich plausibel an und entspricht in etwa der Entwicklung von Skylake zu Alder Lake.
Die Größe vom SOC erscheint mir jedoch viel zu groß. Ich frage mich was da so viel Platz braucht wenn die Kerne, GPU und IO jeweils schon ihren eigenen Die haben.
w0mbat
2022-06-11, 19:36:27
Wissen wir, was für eine node für den SoC tile verwendet wird?
bloodflash
2022-06-11, 19:50:05
Die Größe vom SOC erscheint mir jedoch viel zu groß. Ich frage mich was da so viel Platz braucht wenn die Kerne, GPU und IO jeweils schon ihren eigenen Die haben.
Auf dem Compute-Die sehe ich relativ wenig Cache.
Ich habe das Ganze einmal grob nachgemessen. Unter der Annahme, dass das ein 50x25mm Socket wie ADL-P ist und das Ganze maßstabsgetreu ist komme ich in etwa auf folgende Werte:
GFX: 4,92x11,01mm = 55mm²
SOC: 9,27x11,01mm = 102mm²
IO: 8,69x3,19mm = 28mm²
Compute: 8,69x7,53 = 65mm²
Gesamt: 249mm²
8mm² pro P Core scheinen mir realistisch. ADL war mit Ringbus und L3 in etwa bei 11mm². Das hört sich ziemlich plausibel an und entspricht in etwa der Entwicklung von Skylake zu Alder Lake.
Die Größe vom SOC erscheint mir jedoch viel zu groß. Ich frage mich was da so viel Platz braucht wenn die Kerne, GPU und IO jeweils schon ihren eigenen Die haben.
Das sieht nach 192EUs aus, beim 2+8 ist das GPU tile nur etwa 23mm² groß. Beim IO wird noch mehr drin sein, bestätigt ist da aber noch nichts. Spekuliert wird über mehrere Dinge, zum Beispiel könnte die Media Einheit im Soc tile mit untergebracht sein.
https://twitter.com/OneRaichu/status/1530085962042470400
https://twitter.com/Locuza_/status/1530238026898710536
https://twitter.com/OneRaichu/status/1528877367334412288
KarlKastor
2022-06-13, 13:43:07
Sehe ich nicht wirklich Platz für.
Irgendwie auf IO-Tile und SoC muss Speichercontroller und -Interface, PCIe-Controller und Thunderbolt von der CPU, Mediacontroller, ISP und Displayengine von der GPU sowie der komplette PCH untergebracht werden.
Ich denke die Chancen stehen nicht gut, dass das Base-Tile nur etwas passives ist.
https://twitter.com/OneRaichu/status/1528877367334412288
They will have a new uarch line called proton as the ULP cores on the SOC tile in MTL, it will be a derivative of the quark line, currently used in less consumer facing products, but will be like X/A Arm cores, where one line splits into two
https://twitter.com/wowpople/status/1544453316419239940
Könnte was bringen für den Leerlauf wenn sie das Compute Tile abschalten können. Das könnte die Akkulaufzeit verlängern.
P-cores + E cores + LP E-cores. Bei Igorslab gibt es ein Plattform Schaubild von MTL-U/P/H. Laut Raichu (https://twitter.com/OneRaichu/status/1544911245169418242) sind es 2 ULP Kerne.
https://www.igorslab.de/en/intel-meteor-lake-u-p-and-h-exclusive-block-diagram-of-mobile-14-generation-leak/
Xe LPG/Xe² architecture up to 128 EUs. Von 192 auf 128 runter?
Speichersupport DDR5-5600/LPDDR5x-7467. Interessant finde ich den 4x Encode mode.
ULP Cors im SoC Tile und power gaten des kompletten CPU Tile samt interconnect wäre natürlich mega für Leerlauf/Standby auf mobilen Geräten.
davidzo
2022-07-08, 12:47:03
https://twitter.com/wowpople/status/1544453316419239940
Könnte was bringen für den Leerlauf wenn sie das Compute Tile abschalten können. Das könnte die Akkulaufzeit verlängern.
Ich glaube nicht dran dass der Base-tile CPU cores enthält. Für weniger Energieverbrauch müsste der basetile auch in einem modernen Verfahren mit hoher density gefertigt sein, wieder nicht ideal für den Analogen SOC kram. Quark cores sind Microcontroller, die sind nicht für ein modernes OS gedacht, sondern für embedded system controller Funktionen. Also wahrscheinlich für eine Secure Enclave oder höchstens für ein always-on feature zum emails abrufen im standby, wie Apple es mit dem T2-Chip umgesetzt hat. Ich sehe das eher auf eine Reaktion auf Qualcomm. Intel scheint Respekt vor den kommenden Nuvia Cores zu haben und baut also in den Bereichen vor wo man jetzt schon weit hinten liegt.
Was die LP Cores angeht, so sollen die ja ein Teil der 8 E-Cores sein. Ich denke das handelt sich hier eher um sowas wie "preferred cores", also dass für burst loads auch auch einigen E-Cores höhere taktraten fahren kann während der rest unter 3Ghz im sweetspot läuft.
Und wo sollen die LP E-cores dann sitzen? Im Compute tile nicht, das hätte man in dem stark vergrößerten Wafer Bild gesehen. Wenn Raichu das sagt, wird es stimmen. Die Frage ist nur, welchen Nutzen Intel davon hat. Ich tippe wie gesagt auf Vorteile beim Verbrauch in tieferen Idle/sleep Modi, wenn sie dafür das compute tile runterfahren können.
basix
2022-07-08, 13:13:40
Wichtige Unterscheidung: Base Tile != SoC Tile ;)
LP-E Cores sitzen natürlich im SoC Tile. Wenn es denn nicht innerhalb der E-Cores ein paar speziell gepinnte Cores sind.
https://www.digitimes.com/news/a20220707PD212/ic-manufacturing-intel.html
Ha! Ich wusste es doch, dass das passieren würde. Jetzt warte ich noch auf das Canceln von Arrow Lake, das kommt unter Garantie auch noch. Der Grund für die Verschiebung auf Ende 23 soll übrigens das Compute-Die in Intel4 sein, wer hätte damit rechnen können ;D!
w0mbat
2022-07-09, 16:07:54
Es ist ja immer noch fraglich ob MTL wirklich als high-end desktop kommt, oder ob das ARL überlassen wird.
ARL würd ich einfach schonmal streichen. Das ist purer Marketing BS, das Produkt gibts mMn gar nicht. Es wird eine High-End-Variante dazu geben mMn, die nicht MTL ist, aber in Intel4 gefertigt wird, als Nachfolger von RPL. Alles was Intel3 oder besser ist kannst sicherlich getrost auf 2025 und später verschieben. Ich hab denen diese Marketingoffensive nie abgekauft und jetzt stellt sich auch raus, dass es purer BS war. Wenn der erste Intel4-Prozessor Ende 23 auf den Markt kommt, wird man sicherlich über 2024 hinweg einige Intel4-Produkte sehen.
reaperrr
2022-07-09, 17:44:07
ARL würd ich einfach schonmal streichen. Das ist purer Marketing BS, das Produkt gibts mMn gar nicht. Es wird eine High-End-Variante dazu geben mMn, die nicht MTL ist, aber in Intel4 gefertigt wird, als Nachfolger von RPL. Alles was Intel3 oder besser ist kannst sicherlich getrost auf 2025 und später verschieben. Ich hab denen diese Marketingoffensive nie abgekauft und jetzt stellt sich auch raus, dass es purer BS war. Wenn der erste Intel4-Prozessor Ende 23 auf den Markt kommt, wird man sicherlich über 2024 hinweg einige Intel4-Produkte sehen.
Man kann bei Intel momentan zwar nie wissen, was in 2 Jahren ist (oder nicht ist), aber zumindest das kann mit an Sicherheit grenzender Wahrscheinlichkeit ausgeschlossen werden, aus einem ganz einfachen Grund:
Intel3 ist der Marketingname des fertigen 7nm-Prozesses inkl. HighDensity- und IO-Libraries, Intel4 der Name der "Beta-Version", bei der sich Intel erstmal auf die Performance-Transistoren konzentriert hat.
MTL wird mMn das einzige relevante Produkt in Intel4 bleiben, weil der Prozess nur ne Zwischenlösung und von der Packdichte her für alles über 6+8 eher ungeeignet ist.
Intel wird einen HighEnd-Compute-Tile nicht in Intel4 bringen, sondern in dem Fall eher einfach weiter verschieben. Um nämlich in 2024 einen Intel4-High-End-Chip oberhalb MTL bringen zu können, müsste der sich bereits jetzt in Entwicklung und kurz vorm TapeOut befinden, sonst wird das nämlich zeitlich nix und dann kann man die paar Monate, bis Intel3 oder 20A so weit ist auch mit Refreshes überbrücken.
Das ist ein guter Einwand ;)., Aber 20A wird vor 2025 definitv nichts aus meiner Sicht. Das ist dann ja die "beta-Version" von 18A und wird erst nach Intel3 aktuell werden.
iamthebear
2022-07-11, 05:01:09
An einen pünktlichen Release glaube ich bei Arrow Lake auch nicht jedoch zeigen die ersten Die Shots bereits, dass Intel 4 weit weg von dem üblichen 2 Shrink ist und ich vermute bei 20A wird es ähnlich sein.
Was 18A angeht: Hier wird anscheinend schon wieder improvisiert, da High NA EUV anscheinend nicht rechtzeitig lauffähig ist.
High-NA, war eh ein Luftschloss und dürfte für 18A lange bregraben sein, falles es je mehr als Marketing war, woran ich zweifle. Das dürfte bei dessen Nachfolger relevant werden.
eratte
2022-08-04, 14:26:24
Intel "Meteor Lake": Übernächste CPU-Generation angeblich deutlich verspätet (heise) (https://www.heise.de/news/Intel-Meteor-Lake-CPU-Generation-Core-i-14000-angeblich-auf-2024-verschoben-7202116.html)
Intel "Meteor Lake": Übernächste CPU-Generation angeblich deutlich verspätet (heise) (https://www.heise.de/news/Intel-Meteor-Lake-CPU-Generation-Core-i-14000-angeblich-auf-2024-verschoben-7202116.html)
Die letzten Gerüchte besagen, dass Intel auf 4nm oder 5nm beim GPU tile geht. Die 3nm Probleme von TSMC würden Intel dann nicht direkt reffen. Auch könnte es erklären, weshalb in der letzten Folie nur noch von 128EUs die Rede ist statt 192 EUs.
Linmoum
2022-08-04, 14:32:59
Es wäre gelogen wenn ich sagen würde, ich wäre von einem Delay überrascht. Und so geht es bei Intel wahrscheinlich jedem.
SPR wohl frühestens im Februar, MTL ggf. nicht vor 2024. Intels Execution ist schon abenteuerlich. Wie will man denen überhaupt irgendwas noch abnehmen? Wahrscheinlich kommen als nächstes dann Meldungen, dass sich die Prozesse auch verspäten.
Es gab erst im Februar von Intel Folien, wo klar auf "External N3" verwiesen wird. Wenn sich das nun in der Zwischenzeit geändert hat, dann wird sich der ursprünglich angepeilte Launchtermin sicher nicht mehr halten lassen.
eratte
2022-08-04, 14:37:07
Die 3nm Probleme von TSMC würden Intel dann nicht direkt reffen.
Hast du dir das mal richtig durchgelesen bevor du das wieder klein schreibst?
Der in Asien gut vernetzte Marktforscher Trendforce berichtet, dass TSMC gemäß der ursprünglichen Planung im zweiten Halbjahr 2022 mit der Serienproduktion des GPU-Tiles hätte beginnen sollen. "Aufgrund von Problemen beim Produktdesign und der Prozessverifizierung" hätte aber zunächst eine Verschiebung auf das erste Halbjahr 2023 stattgefunden. Inzwischen soll die Serienproduktion ein zweites Mal auf Ende 2023 verschoben worden sein.
Da ist nirgendwo von 3nm Problemen bei TSMC die Rede.
memory_stick
2022-08-04, 17:46:43
Auch die Originalquelle von Trendforce nennt die hervorgehobenen Gründe, aufgrund deren ich die Probleme eher bei Intel als bei TSMC verorten würde. Es wird ebenfalls auf die deutlich geringeren N3 Mengen im 23 verwiesen (nur Apple als Kunde) und damit zusammenhängende Auslastungplannungsänderungen von TSMC.
(Will nicht heissen TSMC ist darüber wahnsinnig unglücklich, ist das Marketing doch schon hauptsächlich auf N3E fokussiert welcher eh erst 2H23 rampen soll)
vBulletin®, Copyright ©2000-2025, Jelsoft Enterprises Ltd.