Diskussion zu: Intels DG3 "Battlemage" soll einen Angriff auf die Leistungsspitze ... [Archiv]

Leonidas

2021-12-28, 14:48:06

Link zur News:
https://www.3dcenter.org/news/geruechtekueche-intels-dg3-battlemage-soll-einen-angriff-auf-die-leistungsspitze-bringen

Gast Ritis

2021-12-28, 15:03:18

Ich denke Intel wird nach anfänglichen grossen Schritten jedes Jahr kleinere Verbesserungen für GPU-Generationen bringen, nur damit die jährlichen Laptop-Designs neue Verkaufsargumente bekommen.
Bei der Leistung wird man genau so viel oben drauf satteln, dass man Nvidia ungefähr Paroli bieten kann, schon dann gewinnt man mit dem Argument alles aus einer Hand.
AMD interessiert da eh nicht weil man keine Intel GPUs für AMD-Systeme erwartet und vice-versa das auch nicht mehr erwartet wird.

Im Pro-Segment zählt am Ende wer besser Video-Coding beschleunigt und ob man CUDA Monokultur aufbrechen kann. Im Gegensatz zur Radeon-Group traue ich das Intel & Koduri zu.

Gast

2021-12-28, 15:06:06

"In dieser Frage können sich wie bekannt große Differenzen können, man denke an GA102 auf 10'752 FP32-Einheiten gegen Navi 21 auf nur 5'120 FP32-Einheiten mit letztlich nur geringem Performance-Abstand zwischen den jeweiligen Spitzen-Lösungen."

Aaaaah, bitte nicht.
Turing besaß gleiche Anzahl von FP32 wie INT32 Einheiten. Bei Ampere ist es so, dass die INT32 Einheiten ebenfalls auf FP32 'umschalten können' bzw. Operationen abarbeiten können.
Zu Marketingzwecken zählt man das dann doppelt.
Ein Spiel/Anwendung, die (so halt üblich) einen Mix aus FP&INT Operationen durchführt, wird niemals 10752 FP32 Einheiten 'sehen'.

Die 10752 sind eigentlich 5376 reine FP32 Einheiten. Dazu kommt halt der Teil an INT32 Einheiten, der gerade nicht für INT Berechnungen benötigt werden und daher auch auf FP32 laufen. Das sind aber in den seltensten alle 5376 INT32 Einheiten.

PS: Und das zweite 'können' müsste ein 'ergeben' sein.

Leonidas

2021-12-28, 15:15:59

Schreibfehler gefixt @ Gast.

Zum eigentlichem Kritikpunkt stimme ich allerdings nicht zu. Es sind 10k FP32-Einheiten. NV kann jene nicht auslasten, weil man die Verdrahtung der Shader-Cluster nicht wesentlich angepasst hat. Trotzdem ist es möglich, diese 10k FP32-Einheiten dann, wenn diese Limitierungen nicht zählen (theoretische Tester, ohne Power-Limit) sowohl zu sehen als auch zu nutzen.

Natürlich benutzte NV diese Einheiten auch, um damit INT32 durchzuführen - und dann fehlen die belegten Einheiten für FP32. Nur ist dies bei AMD gänzlich anders? Auch dort wird INT32 im Endeffekt auf den FP32-Einheiten ausgeführt.

Gast

2021-12-28, 15:42:08

Schreibfehler gefixt @ Gast.

Zum eigentlichem Kritikpunkt stimme ich allerdings nicht zu. Es sind 10k FP32-Einheiten. NV kann jene nicht auslasten, weil man die Verdrahtung der Shader-Cluster nicht wesentlich angepasst hat. Trotzdem ist es möglich, diese 10k FP32-Einheiten dann, wenn diese Limitierungen nicht zählen (theoretische Tester, ohne Power-Limit) sowohl zu sehen als auch zu nutzen.

Natürlich benutzte NV diese Einheiten auch, um damit INT32 durchzuführen - und dann fehlen die belegten Einheiten für FP32. Nur ist dies bei AMD gänzlich anders? Auch dort wird INT32 im Endeffekt auf den FP32-Einheiten ausgeführt.

Wenn Intel und AMD klug wären, würden sie sich zusammen gegen cuda mit open cl oder ähnlichem open source standard stellen. Auch xess oder fsr sollten die zusammen gegen dlss antreten lassen.
Ich 3zweifl3 jedoch, dass Intel in 2-3 Jahren nvidia und auch AMD an der Spitze einholen kann. Bisher hat es noch keiner geschafft (auch Intel früher). Bin aber sehr enthusiastisch, dass noch ein Dritter Spieler ins Spiel kommt (aktuell eigentlich zweiter, bei den angeblichen kleinen liefermengen von AMD). Nicht zuletzt könnte bzw sollte dies auch den Aktienkurs von Intel verbessern ^ ^

Rabiata

2021-12-28, 15:55:02

Ich denke Intel wird nach anfänglichen grossen Schritten jedes Jahr kleinere Verbesserungen für GPU-Generationen bringen, nur damit die jährlichen Laptop-Designs neue Verkaufsargumente bekommen.
Bei der Leistung wird man genau so viel oben drauf satteln, dass man Nvidia ungefähr Paroli bieten kann, schon dann gewinnt man mit dem Argument alles aus einer Hand.
AMD interessiert da eh nicht weil man keine Intel GPUs für AMD-Systeme erwartet und vice-versa das auch nicht mehr erwartet wird.
Das könnte zum Verkauf an OEMs eine sinnvolle Strategie sein, aber mit kleinen Lücken:
Bei AMD gibt es auch alles aus einer Hand in Form der APUs. in dem Maß, wie diese leistungsfähiger werden, kommen auch Laptop-Designs mit diskreter GPU stärker unter Druck.
Und dann muß man noch damit rechnen, daß Apple irgendwie seitlich reingrätscht.
Im DIY Markt bauen die Kunden eh zusammen, wie sie lustig sind.

ryan

2021-12-28, 16:47:06

DG3 ist Xe2-HPG/Gen12.9, die Architektur ist nicht gleich. Mit DG2 Vergleichen muss man etwas vorsichtig sein, solange wir nicht wissen, wie stark sich Xe2 unterscheidet.

Intel ist neben Apple Hauptabnehmer von 3nm+4nm im Jahr 2023 laut Berichten von digitimes, zu 5nm hört man dagegen nicht mehr viel bezüglich Intel. Ich glaube Intel wird direkt auf 4nm oder 3nm gehen.

Gast

2021-12-28, 17:49:09

Niedrig hängende Früchte gibt es im Top Notch Bereich nicht. An der Spitze macht man nicht (mehr - 3dfx-Zeit war einmal) 'einfach so' größere Sprünge.
Außer Extrem-Multi-Chip - also mehr als AMD oder Nvidia zu dem Zeitpunkt - fällt mir nichts ein, wie intel da hin kommen sollte. Bei den Chipgrößen ist Nvidia schon ganz vorn dabei. Dass intel so viel bessere Architektur hat, dass das den Vorsprung erklärt, halte ich für unwahrscheinlich.

Gast Ritis

2021-12-28, 18:35:30

Bei AMD gibt es auch alles aus einer Hand in Form der APUs. in dem Maß, wie diese leistungsfähiger werden, kommen auch Laptop-Designs mit diskreter GPU stärker unter Druck.
Und dann muß man noch damit rechnen, daß Apple irgendwie seitlich reingrätscht.

Denke das interessiert im Massnmarkt den üblichen Laptop-Kunden oder OEM Desktop Käufer nicht mehr.

Der kauft einfach mit XYZ Grafik Leistungsklasse ohne zu wissen ob das jetzt ne iGPU oder ne dGPU ist. Da steht dann AMD vs. Intel und als Premium mit deutlichem Aufpreis der Exot mit dGPU von Nvidia.

Wer Apple kauft kauft vor allem OSX mit dem besonderen Ökosystem drum rum, der will einfach kein Windows oder gar Linux. Die HW ist da nur innerhalb der OSX Angebote entscheidend.

wolik

2021-12-28, 19:29:33

Cool. Nicht mal eine Graka in Sicht... und schon : "Angriff auf die Leistungsspitze"

iamthebear

2021-12-28, 20:03:09

DG2 mit wird laut MLID mit 512 EUs ca. 400mm² haben und im Idealfall (wenn die Treiber mitspielen) die Performance einer 3070 Ti haben, könnte aber auch weniger sein.
Intel schafft mit TSMC 6nm also in etwa so viel wie Nvidia mit Samsung 8nm. Das ist ein ganzer Full Node Unterschied.

Wenn AD102 vs. GA102 schon 2.2x ist und GA102 vs. GA104 auch schon 1.75x ist, dann bräuchte Intel also ca. 4-5x Performance vergleichen mit DG2.

Die plausibelste Erklärung für mich ist:
.) Die Variante mit den 2560 EUs ist korrekt
.) Intel setzt auf TSMC 3nm (wie für Meteor Lake) also wieder 1 Node Vorsprung weil sonst sehe ich keine Chance
.) Das Ganze wird ein Multi Chip Konstrukt, das wahrscheinlich mit EMIB verbunden wird weil mit 1 Chip wären die Yieldraten vermutlich zu schlecht.

Mir ist jedoch noch nicht klar wie Intel das Problem mit der Speicherbandbreite lösen wird. Viel mehr Cache wird bei 3nm vermutlich nicht die Lösung sein. Das Speicherinterface zu verbreitern reicht auch nicht aus weil mehr als 384 Bit machen wohl kaum Sinn. GDDR7 ist auch noch zu weit weg. Also vielleicht doch HBM? Wo liegen denn da mittlerweile die Preise/GB?

WedgeAntilles

2021-12-28, 20:25:48

Cool. Nicht mal eine Graka in Sicht... und schon : "Angriff auf die Leistungsspitze"
Ja, finde ich auch sehr amüsant.

OpenVMSwartoll

2021-12-28, 20:39:47

Ja, finde ich auch sehr amüsant.

Das kann ja durchaus das Ziel sein. Wieviel dabei am Ende zu erreichen ist, wird sich zeigen. Aber dass man den Aufwand nicht betreibt, um im Mittelfeld zu stehen, sollte klar sein.

Th3o

2021-12-28, 22:28:46

Mal wieder große arrogante Klappe bei Intel, ich hoffe, dass sie ordentlich auf die Schnauze fallen.

ryan

2021-12-28, 23:14:00

Für den Markt und für die Spielerschaft kann ein dritter Anbieter im dGPU Geschäft nicht schaden, so kann endlich mal wieder frischer Wind reinkommen. Dass der AMD boy Intel lieber scheitern sehen will, ist Verblendung. Solche Leute wird es immer geben.

TwoBeers

2021-12-29, 00:49:44

Als AMD boy begrüsse ich Intel auch sehr. Mehr Wettbewerb ist immer gut. Hilft vielleicht auch die offenen Standards mehr durchzusetzen.
Aber ja "Angriff auf die Leistungsspitze" .. wir werden sehen. Mir macht da gerade der Software-Unterbau (Treiber, Unterstützung der Entwickler) Sorgen. Da ist nVidia ganz vorne dabei (und pusht ihre eigenen Standards) und AMD hat es bis heute nicht geschafft da ran zu kommen.

Gast

2021-12-29, 08:00:13

DG2 mit wird laut MLID mit 512 EUs ca. 400mm² haben und im Idealfall (wenn die Treiber mitspielen) die Performance einer 3070 Ti haben, könnte aber auch weniger sein.
Intel schafft mit TSMC 6nm also in etwa so viel wie Nvidia mit Samsung 8nm. Das ist ein ganzer Full Node Unterschied.

Wenn AD102 vs. GA102 schon 2.2x ist und GA102 vs. GA104 auch schon 1.75x ist, dann bräuchte Intel also ca. 4-5x Performance vergleichen mit DG2.

Die plausibelste Erklärung für mich ist:
.) Die Variante mit den 2560 EUs ist korrekt
.) Intel setzt auf TSMC 3nm (wie für Meteor Lake) also wieder 1 Node Vorsprung weil sonst sehe ich keine Chance
.) Das Ganze wird ein Multi Chip Konstrukt, das wahrscheinlich mit EMIB verbunden wird weil mit 1 Chip wären die Yieldraten vermutlich zu schlecht.

Mir ist jedoch noch nicht klar wie Intel das Problem mit der Speicherbandbreite lösen wird. Viel mehr Cache wird bei 3nm vermutlich nicht die Lösung sein. Das Speicherinterface zu verbreitern reicht auch nicht aus weil mehr als 384 Bit machen wohl kaum Sinn. GDDR7 ist auch noch zu weit weg. Also vielleicht doch HBM? Wo liegen denn da mittlerweile die Preise/GB?

Vielleicht EMIB mit 3-4 compute/shader dies in 3nm, IO/Speichercontroller Die in 4nm mit Cache drauf oder ein drittes die in 6nm tsmc (oder Intel 7) mit dem Cache. Sowas machen die doch schon mit der HP Lösung für Server. Wäre naheliegend das auch im high end für consumer zu machen.

Gast

2021-12-29, 12:13:16

@Leonidas:
True, aber afaik ( https://www.techspot.com/article/1874-amd-navi-vs-nvidia-turing-architecture/ ) besitzt RDNA immer noch eine (bzw. 2, da zusammengefasst zu dual compute units) seperate skalare INT32 Units.

Zudem ist der Aufbau von den Architekturen eigentlich ziemlich verschieden (z.B. Vektor ALUs vs reine Skalare ALUs -> Verwendung von SIMD/SIMT usw.), sodass ich es grundsätzlich zumindest immer etwas schwierig finde einfach FP32 Shader querbeet zusammenzuzählen.
Hat irgendwie (für mich jedenfalls ^^) etwas von 'Äpfel und Kürbisse zusammen in einen Karton schmeißen und sich dann darüber zu wundern, dass ja der eine Karton schwerer ist, als der andere'
Also ja, es gibt Szenarien, in denen zufälligerweise nur skalare FP32 Operationen durchgeführt werden und dann alle 10752 Einheiten als klassische FP32 Einheiten laufen, aber wie du ja auch selber schreibst, lässt einen die Anzahl der FP32 Einheiten (je nach Zählweise/Architektur usw.) kaum eine Aussage über die reale Performance in Anwendungen&Spielen treffen.
(außer vielleicht innerhalb derselben Generation eines einzelnen Herstellers)

Die meisten Tech Seiten/Magazine machen das ja (leider) nicht viel anders und die 'Architecture deep dives' umschiffen bei RDNA meist die Kernpunkte (wobei Hardwaretimes da einige sehr schöne Artikel hat). Naja, war halt nur mein Input zu dem Thema, der zugegebenermaßen vllt. etwas überdramatisch war im ersten Post, sorry dafür.

Leonidas

2021-12-29, 16:07:28

Ach was, danke für den Input. Das mit dem INT32 bei RDNA ist ein sehr interessanter Hinweis. Allerdings erscheint diese einzelne Einheit nicht mit dem vergleichbar, was NV dagegen aufbietet.

Und ja - die meisten Archiektur-Besprechungen sind inzwischen Abschreibübungen aus den Hersteller-PDFs. Die sind inhaltlich durchaus nicht schlecht. Aber sie umschiffen auch das, was der Hersteller nicht sagen will, womit jeglicher guter Vergleich leidet.

Gast

2021-12-29, 18:15:51

Bei AMD gibt es auch alles aus einer Hand in Form der APUs. in dem Maß, wie diese leistungsfähiger werden, kommen auch Laptop-Designs mit diskreter GPU stärker unter Druck.

Laptop-Designs mit diskreter GPU sind eh ein Auslaufmodell, Apple zeigt wie´s geht.

Warum AMD da nicht schon längst was vergleichbares gebraucht hat ist mir ein Rätsel, mit den Konsolen-SOCs hätte man die Hardware ja quasi schon und wenn Apple 3-4k verlangt, könnte AMD mit eine solchen APU mit einem 2-3k Laptop immer noch haufenweise Geld machen.

Leonidas

2021-12-30, 04:04:56

Man erreicht mit Big-APU keine höhere Energieeffizienz, zumindest wenn man nicht (wie Apple) einen Vorteil beim Fertigungsverfahren hat. Im Endeffekt hat man einen Null-Vorteil und geringere Flexibilität bezüglich der Paarung mit verschieden starken dGPUs. Und am Ende will der Käufer "extra Grafik". Big-APU lohnt also nicht.

Gast

2022-01-01, 18:25:26

Man erreicht mit Big-APU keine höhere Energieeffizienz, zumindest wenn man nicht (wie Apple) einen Vorteil beim Fertigungsverfahren hat.

Doch, unified memory ist das Zauberwort, was wesentlich mehr Energieeffizienz als jeder Fertigungsvorteil bringt.

Ein großer Teil der Energie wird durch das Verschieben von Daten verbraucht, und je weiter die Daten verschoben werden müssen desto ineffizienter wird es. Der Weg vom Hauptspeicher ist relativ gesehen ein sehr weiter. Das PCIe Interface ist relativ gesehen zu LPDDR extrem ineffizient. Zudem braucht man auch insgesamt wesentlich mehr Speicher, da viele Daten doppelt im VRAM und im Hauptspeicher vorhalten muss. Die Tatsache dass man den kompletten Hauptspeicher sowohl für CPU als auch für Grafik verwenden kann spart auch enorm am notwendigen Streaming der Assets. Wenn du 8GB VRAM und 32GB Hauptspeicher hast und ständig die Daten die du aktuell im VRAM brauchst hin- und herschieben musst, ist das um Größenordnungen ineffizienter als wenn du einfach in der GPU direkt den Hauptspeicher verwenden kannst.

Weiters können gemeinsame LLCs für alle Blöcke im SoC/APU weitere Datentransfers und damit auch den Energieverbrauch minimieren.

All diese Dinge machen einen SoC/APU wie immer man das jetzt auch nennen will, inhärent deutlich effizienter als getrennte Lösungen, komplett unabhängig von der Fertigung.

Nicht umsonst setzt man mittlerweile bei Konsolen seit einiger Zeit auf SoC-Lösungen.

Das ist ja gerade das groteske, AMD hat seit langer Zeit die notwendige Technik, macht aber nichts daraus.

Damit hätte man vor allem gegenüber Intel seit langem einen unique selling advantage, nicht mit den APUs die man gebracht hat, die zwar am Papier die deutlich schnellere Grafik als Intel haben, damit aber immer noch um Größenordnungen zu langsam für echte Spiele sind. Und genau das ist es auch womit AMD vor 10-15 Jahren, wann auch immer das genau war den ATI Kauf begründet hat.

Aber das einzige was man daraus gemacht hat sind Konsolen SoCs. Sicher nichts schlechtes, und wahrscheinlich auch überhaupt der Grund warum es AMD noch gibt, aber man hätte so viel mehr daraus machen können.

Für die Konsolen war AMD deshalb auch die letzten 10 Jahre die einzig ernsthafte Auswahlmöglichkeit, niemand sonst konnte alles aus einer Hand liefern, überall sonst hätte man entweder unterschiedliche IPs in einem SoC zusammenstoppeln müssen, oder aber auf getrennte DIEs setzen müssen, was eben aus oben genannten Gründen viel ineffizienter ist.

Im Endeffekt hat man einen Null-Vorteil und geringere Flexibilität bezüglich der Paarung mit verschieden starken dGPUs. Und am Ende will der Käufer "extra Grafik". Big-APU lohnt also nicht.

Man kann mehrere APUs für verschiedene Leistungsklassen auflegen. Von one size fits all muss man sich freilich verabschieden.

Leonidas

2022-01-02, 03:54:13

Das mit dem Energietransfer ist ein gewichtiger Punkt. Leider kann AMD das nicht von allein lösen, weil die Anpassungen auf Software-Seite kann AMD zum gewissen Teil nicht machen. Apple hat es da einfacher, weil man die volle Kontrolle über sein System hat und somit selbst fremden Software-Firmen Dinge vorschreiben kann.

Gast

2022-01-02, 18:14:50

Leider kann AMD das nicht von allein lösen, weil die Anpassungen auf Software-Seite kann AMD zum gewissen Teil nicht machen.

Kann man größtenteils schon. Speicher ist eh virtualisiert und jedes mal wenn die Software ein Copy vom Hauptspeicher in den VRAM wird nichts kopiert, sondern einfach ein Pointer auf den eh schon vorhanden Speicher zurückgegeben.

Mit SAM&rBAR hat man das im Grunde eh schon, damit wird alles in den selben virtuellen Adressbereich abgebildet. Wo etwas physisch liegt hat die Anwendersoftware schon aus Sicherheitsgründen keinen blassen Schimmer, und mehrere virtuelle Adressen auf die selbe physische zeigen zu lassen ist nichts neues sondern Alltag und wird beispielsweise auch bei Shared Memory so gemacht.

Viel anders läuft es auch bei heutigen IGPs nicht, der Speicher ist hier zwar nicht komplett Unified, aber es wird nur ein sehr kleiner Teil vom Hauptspeicher fix dem IGP zugeordnet (typisch 64-256MB). Aus sicht der Software haben wir hier eine GPU mit sehr wenig Speicher, und ein großteil der Loads in den "VRAM" wird hier quasi in den Hauptspeicher "ausgelagert" wie es auch mit einer dezidierten Grafikkarte mit so wenig Speicher passieren würde, nur eben mit dem Unterschied dass man jedes mal im gleichen Speicherpool landet.

Apple hat es da einfacher, weil man die volle Kontrolle über sein System hat und somit selbst fremden Software-Firmen Dinge vorschreiben kann.

Bei IOS ja, bei MacOS zumindest kurz- und mittelfristig nicht wirklich. Hier muss auch alle mögliche 3rd Party-Software laufen die nicht durch Apples Kontrolle im Form des Appstores geht.