AMD Strix, Point, Halo etc. NPU, FP8-fähig: Nutzung beim Upscaling als Koprozessor? [Archiv]

Eadzon64

2025-10-04, 15:28:01

habe mich gefragt, ob bei zB. APU's, RDNA3.5 Strix etc., es nicht möglich ist,
das fehlende Feature bei der GPU, also FP8, über die NPU nutzbar zu machen und damit zB. FSR4 zu ermöglichen.

mal abgesehen vom höheren Verbrauch der den anderen Komponenten dann fehlt, wird da 8Bit Gleitkomma überhaupt unterstützt?
und zwar nativ ohne Emulationsschicht!
wie ist der Verbrauch einer NPU, in der Größenordnung, bei 50 Tops Leistung im Vergleich GPU/CPU ?

konnte da auf die schnelle nix finden

basix

2025-10-04, 15:44:43

Das sage ich schon lange. Die NPU wäre für sowas gut geeignet. Ist eher die Frage, ob die Datenpfade zur GPU das hergeben.

FP8 sollte von XDNA2 unterstützt werden, wenn AIE-ML v2 Tile verwendet wird. XDNA1 verwendet AIE-ML v1 und XDNA2 vermutlich v2 (Block FP16 ist ja bestätigt):
https://docs.amd.com/r/en-US/am027-versal-aie-ml-v2/Functional-Overview
- FP8 = 50 TFLOPS
- Block FP16 / MX9 = 50 TFLOPS
- Block FP6 / MX6 = 100 TFLOPS

FP8 Throughput ist auf Block FP16 Niveau. Also 50 TFLOPS.

MX4 und INT4 können emuliert werden. MX4 erbt wohl den Throughput von MX6 (100 TFLOPS) und bei INT4 ist nicht ganz klar, ob es dann 50 oder 100 TOPS wären.

Multiplication of 4-bit by 4- bit can be emulated.
MX4 multiplication is emulated using MX8.

Hier die Takttabelle von XDNA2: 1800 MHz im höchsten Modus (wären eher 58 TFLOPS anstatt nur 50 TFLOPS).
https://github.com/amd/xdna-driver/blob/6e2c124330b8644f89635a2169e15cf6f217f0cd/src/driver/amdxdna/npu4_regs.c#L45

Eadzon64

2025-10-04, 16:15:43

Das sage ich schon lange. Die NPU wäre für sowas gut geeignet. Ist eher die Frage, ob die Datenpfade zur GPU das hergeben.

FP8 sollte von XDNA2 unterstützt werden, wenn AIE-ML v2 Tile verwendet wird. XDNA1 verwendet AIE-ML v1 und XDNA2 vermutlich v2 (Block FP16 ist ja bestätigt):
https://docs.amd.com/r/en-US/am027-versal-aie-ml-v2/Functional-Overview
- FP8 = 50 TFLOPS
- Block FP16 / MX9 = 50 TFLOPS
- Block FP6 / MX6 = 100 TFLOPS

FP8 Throughput ist auf Block FP16 Niveau. Also 50 TFLOPS.

MX4 und INT4 können emuliert werden. MX4 erbt wohl den Throughput von MX6 (100 TFLOPS) und bei INT4 ist nicht ganz klar, ob es dann 50 oder 100 TOPS wären.

Hier die Takttabelle von XDNA2: 1800 MHz im höchsten Modus (wären eher 58 TFLOPS anstatt nur 50 TFLOPS).
https://github.com/amd/xdna-driver/blob/6e2c124330b8644f89635a2169e15cf6f217f0cd/src/driver/amdxdna/npu4_regs.c#L45

das wäre eine feine Sache!
habe auch schon von der lahmen Anbindung der NPU bei Strix gehört
und Bandbreite bzw. Latenz sind da natürlich sehr kritisch.
trotzdem hoffe ich da auf fähige Programierer, die das mal angehen...
weis jemand ob es möglich ist und ob da was in der Pipeline steckt?

Exxtreme

2025-10-04, 16:30:03

Kann sein, dass das zuviel Latenz kostet und man das deshalb nicht macht. Alle in der Grafikkarte erzeugten Grafiken müssten zur NPU um dort nachbearbeitet zu werden. Und dann müssten sie wieder zur Grafikkarte zurück.

Eadzon64

2025-10-04, 16:49:13

Kann sein, dass das zuviel Latenz kostet und man das deshalb nicht macht. Alle in der Grafikkarte erzeugten Grafiken müssten zur NPU um dort nachbearbeitet zu werden. Und dann müssten sie wieder zur Grafikkarte zurück.

das erklärt einiges, wird kein kompletter stall sein?, aber die zusätlichen Zugriffe sind sicher eine sehr große Herausforderung!

Guru meditation:smile:

mironicus

2025-10-04, 17:49:07

Microsoft arbeitet schon daran, die NPU für Skalierung zu nutzen, aber unabhängig von FSR, im Betriebssystem integriert. Automatic Super Resolution gibt es bisher für x64-CPUs noch nicht, nur für Qualcomm ARM-Prozessoren. Im Zusammenhang mit der Xbox Ally X wurden dies wieder erneut angekündigt, um die Besonderheit der NPU im System hervorzugehen.

Eadzon64

2025-10-04, 17:54:10

Microsoft arbeitet schon daran, die NPU für Skalierung zu nutzen, aber unabhängig von FSR, im Betriebssystem integriert. Automatic Super Resolution gibt es bisher für x64-CPUs noch nicht, nur für Qualcomm ARM-Prozessoren.

nice Nfo, danke Dir!

hast was lesbares?

mironicus

2025-10-04, 18:04:03

https://www.tweaktown.com/news/107215/asus-explains-what-the-xbox-ally-xs-new-npu-actually-does/index.html

The ROG Xbox Ally X also features AMD's cutting-edge Ryzen AI Z2 Extreme processor with a built-in NPU, that unlocks upcoming AI powered features starting early next year-with more to come. These features include:

Automatic Super Resolution (Auto SR): a system-level feature that uses the power of the NPU to upscale games running at lower resolutions. This delivers high-resolution visuals and smooth framerates across a wide range of games, with no additional changes required from game developers.
Highlight reels:AI captures standout gameplay moments-like epic boss battles or victories-and generates short replay clips to share with friends or on social channels

More AI-specific features are on the horizon, and Microsoft has already confirmed that any learnings with AI and NPU made on the Ally X will also be used to build the next Xbox console. The next-gen Xbox will also have a special NPU chip, too.

Read more: https://www.tweaktown.com/news/107215/asus-explains-what-the-xbox-ally-xs-new-npu-actually-does/index.html

Die angekündigten Features im Überblick
- Automatic Super Resolution (Auto SR):
- Läuft als systemweites Feature direkt über die NPU.
- Spiele können in niedriger Auflösung gerendert werden, die NPU skaliert sie hoch → bessere Performance + Bildqualität.
- Vorteil: Entwickler müssen nichts anpassen, da es auf OS‑Ebene greift.
- Highlight Reels:
- Die NPU analysiert Gameplay in Echtzeit.
- Erkennt „besondere Momente“ (Bosskämpfe, Siege etc.).
- Erstellt automatisch kurze Clips, die man teilen kann.
- Weitere AI‑Features:
- Microsoft hat bestätigt, dass die Erfahrungen mit der NPU im Ally X direkt in die Entwicklung der nächsten Xbox‑Generation einfließen.
- Die nächste Xbox wird ebenfalls eine dedizierte NPU enthalten, um ähnliche (und erweiterte) Funktionen zu ermöglichen.

Eadzon64

2025-10-04, 23:13:28

https://www.tweaktown.com/news/107215/asus-explains-what-the-xbox-ally-xs-new-npu-actually-does/index.html

The ROG Xbox Ally X also features AMD's cutting-edge Ryzen AI Z2 Extreme processor with a built-in NPU, that unlocks upcoming AI powered features starting early next year-with more to come. These features include:

Automatic Super Resolution (Auto SR): a system-level feature that uses the power of the NPU to upscale games running at lower resolutions. This delivers high-resolution visuals and smooth framerates across a wide range of games, with no additional changes required from game developers.
Highlight reels:AI captures standout gameplay moments-like epic boss battles or victories-and generates short replay clips to share with friends or on social channels

More AI-specific features are on the horizon, and Microsoft has already confirmed that any learnings with AI and NPU made on the Ally X will also be used to build the next Xbox console. The next-gen Xbox will also have a special NPU chip, too.

Read more: https://www.tweaktown.com/news/107215/asus-explains-what-the-xbox-ally-xs-new-npu-actually-does/index.html

Die angekündigten Features im Überblick
- Automatic Super Resolution (Auto SR):
- Läuft als systemweites Feature direkt über die NPU.
- Spiele können in niedriger Auflösung gerendert werden, die NPU skaliert sie hoch → bessere Performance + Bildqualität.
- Vorteil: Entwickler müssen nichts anpassen, da es auf OS‑Ebene greift.
- Highlight Reels:
- Die NPU analysiert Gameplay in Echtzeit.
- Erkennt „besondere Momente“ (Bosskämpfe, Siege etc.).
- Erstellt automatisch kurze Clips, die man teilen kann.
- Weitere AI‑Features:
- Microsoft hat bestätigt, dass die Erfahrungen mit der NPU im Ally X direkt in die Entwicklung der nächsten Xbox‑Generation einfließen.
- Die nächste Xbox wird ebenfalls eine dedizierte NPU enthalten, um ähnliche (und erweiterte) Funktionen zu ermöglichen.

Na gut, das ist heruntergebrochen, ja nur die implementierung der standard Features ab RDNA4, durch Marketing aufgeblasen
aber was is nu mit der so bahnbrechend:smile: angepriesenen AI Hardware von Strix und Co ?
komplette Lachnummer, oder findet sich dafür nu abgesehen von Spionage, eine sinnvolle Verwendung im Alltag eines normal sterblichen?

wette die Antwort ist nein:D

DrFreaK666

2025-10-04, 23:51:19

AutoSR ist ein post process Verfahren, so wie SMAA, nur halt mir ML.
Digital Foundry hat vor einer Weile ein Video dazu gemacht
MuvwlbPGbcE

Aus dem offiziellen Paper von MS:
While running our large model, Auto SR introduces a single frame of latency on average as it uses AI to significantly boost your game’s visuals.
https://devblogs.microsoft.com/directx/autosr/

Und dazu gibt es hier schon einen Thread:
https://www.forum-3dcenter.org/vbulletin/showthread.php?t=618514&highlight=autosr

Exxtreme

2025-10-05, 00:23:29

das erklärt einiges, wird kein kompletter stall sein?, aber die zusätlichen Zugriffe sind sicher eine sehr große Herausforderung!

Guru meditation:smile:

Die Problematik ist, die Daten müssen über den PCIe-Bus hin und her geschoben werden. Und das wird Latenzen ohne Ende produzieren. Wo man die NPU aber womöglich gebrauchen kann sind IGPUs.

Eadzon64

2025-10-05, 02:04:39

Die Problematik ist, die Daten müssen über den PCIe-Bus hin und her geschoben werden. Und das wird Latenzen ohne Ende produzieren. Wo man die NPU aber womöglich gebrauchen kann sind IGPUs.

fand und finde das Ding, extrem fraglich
komplett abschalten, aber ne Wahl wird einem da als User gar nich mehr gelassen, das hat halt mal so, un produziert dabei noch Geld:confused:

Eadzon64

2025-10-05, 02:15:23

AutoSR ist ein post process Verfahren, so wie SMAA, nur halt mir ML.
Digital Foundry hat vor einer Weile ein Video dazu gemacht
https://youtu.be/MuvwlbPGbcE

Aus dem offiziellen Paper von MS:

https://devblogs.microsoft.com/directx/autosr/

Und dazu gibt es hier schon einen Thread:
https://www.forum-3dcenter.org/vbulletin/showthread.php?t=618514&highlight=autosr

wie ich das verstehe ist das ja nur ein recht "günstiges kombiniertes Post Process Verfahren.
Na toll, das sie dazu die tolle AMD stars'n -- Wunder NPU nutzen, die dabei ein sonst recht gut abgestimmtes System durcheinander bringt:confused:
youtube ist inzwischen, auch eine reine Interessen Platform, und meiner Meinung nach zur Wahrheitsfindung nur noch bedingt geignet
über Microsoft wollen wir nicht wirklich reden
aber vielleicht taugts ja was, un lässt sich per NPU beschleunigen:)

basix

2025-10-05, 08:45:20

Die Problematik ist, die Daten müssen über den PCIe-Bus hin und her geschoben werden. Und das wird Latenzen ohne Ende produzieren. Wo man die NPU aber womöglich gebrauchen kann sind IGPUs.

Die NPU als FSR4 Accelerator macht mMn nur bei iGPUs Sinn. Alles andere würde ich mal ausschliessen.

Aber insbesondere iGPUs würden von einer Entlastung am meisten profitieren. Die hängen an Bandbreite, Powerlimit und haben relativ wenig Rechenleistung. Eine NPU für den DNN Anteil von FSR4 zu verwenden wäre vermutlich hilfreich. Und da es dort momentan nur RDNA3 und RDNA3.5 zusammen mit einer NPU gibt, wäre das schon nice. Selbst mit nur 10 TOPS eines 7940HS wäre das evtl. noch nützlich.

Idealfall FSR Redstone Release:
- FP8 Matrix Pfad (RDNA4, XDNA2)
- INT8 Matrix Pfad (RDNA3 dGPU, XDNA1, PS5 Pro)
- INT8 DP4a Pfad (RDNA1, RDNA2, Nvidia, Intel, PS5, XBSX)

Noch cooler wäre ja, wenn die INT8/FP8 Matrix-Pfade auch auf Nvidia und Intel GPUs laufen würde, wenn die GPU das unterstützt. Das wäre aber wohl etwas zu viel des Guten. Aber wenn doch: :massa: AMD

Noch als Info:
Qualcomm macht afaik sowas mit ihren neuesten Chips. Sie haben die NPU stärker an die iGPU angebunden. Dafür hat die GPU keine eigene Matrix-Acceleration. ARM hat das Thema ebenfalls schon angeschnitten und mit einer 10 TOPS NPU gerechnet (für Smartphone SoCs). Dabei kam ein angepasstes FSR2 zum Einsatz, welches mit einem DNN gepimpt wurde. FSR4 ist sicher aufwändiger, aber dafür ist die Output-Qualität deutlich besser. Falls es jemand mal anschauen will, hier die Präsentation von der Siggraph 2024:
https://community.arm.com/cfs-file/__key/communityserver-blogs-components-weblogfiles/00-00-00-20-66/siggraph_5F00_mmg_5F00_2024_5F00_mobile_5F00_nss_2D00_LiamONeil_2D00_v7_2D00_spe akers_5F00_notes.pdf

robbitop

2025-10-05, 09:11:51

Wozu eigentlich eine NPU? Mit RDNA4 hat es nun nach 8 Jahren seit Volta bzw 7 Jahren nach Turing auch der letzte geschafft Matrix HW in die GPU einzubauen. IMO kann man jetzt aufhören Transistorfläche zu verschwenden. ^^ (leider dauert es noch eine Weile bis die moderne uArch auch in iGPUs Einzug hällt aber dann ist die Durststrecke überwunden)
Ggf ist eine NPU energieeffizienter - also für Notebooks ggf gut. Aber mal ganz ehrlich wer nutzt die ernsthaft? Die Anwendungen sind fast nur Spielkram und die 50 TOPs sind auch nicht viel. IMO ist das Kram (zumindest LLMs und diese Spielereien mit Video und Bildbearbeitung)den man auch auf der cloud laufen lassen kann.
Upsampling hingegen ist doch bereits gut auf der GPU aufgehoben. Alles ein IMHO.

Auch als accelerator für APUs macht das ja nur Sinn wenn die iGPU keine Matrix Cores hat. Die nächste APU Gen hat RDNA5. Dann ist das passee. Und wenn man die Fläche der NPU in die iGPU investiert sollte da mehr bei rumkommen.

Aber ja für den RDNA3 IGP Krams könnte die Nutzung der NPU für FSR4 sinnvoll sein. Aber andererseits wieder mehr Varianten die man mitschleppen/supporten muss.
Ich würde an AMDs Stelle INT8 für legacy releasen und fertig. ^^

robbitop

2025-10-05, 09:21:10

- FP8 Matrix Pfad (RDNA4, XDNA2)
- INT8 Matrix Pfad (RDNA3 dGPU, XDNA1, PS5 Pro)
- INT8 DP4a Pfad (RDNA1, RDNA2, Nvidia, Intel, PS5, XBSX)

Noch cooler wäre ja, wenn die INT8/FP8 Matrix-Pfade auch auf Nvidia und Intel GPUs laufen würde, wenn die GPU das unterstützt. Das wäre aber wohl etwas zu viel des Guten. Aber wenn doch: :massa: AMD
Es wäre sogar verdammt clever von AMD. Weil das dann wieder eine moderne Lösung (die auch qualitativ mit proprietären Lösungen mithalten kann!) geben würde, die GPU agnostisch läuft (so wie auch xess aber halt besser) und nicht proprietär ist. Entsprechend gibt es für Studios weniger Gründe proprietäre Lösungen zu implementieren und auf jeden Fall mehr Priorität die agnostische Lösung zu implementieren was mehr Software support beseutet.
AMDs Marktanteil ist zu klein um rein proprietär wie Nvidia vorzupreschen. Entsprechend macht es IMO schon Sinn wieder dahin zurück zu gehen wie man es noch vor fsr4 gemacht hat.
Sie Offenheit hat es FSR1-3 erst ermöglicht sich so schnell zu verbreiten. Die unterlegene BQ hat sie allerdings etwas behindert. Wenn das entfällt -> offene Schleusen

basix

2025-10-05, 11:14:15

Wozu eigentlich eine NPU?

Copilot+ Sticker und Energieffizienz ;)

Copilot soll ja sehr oft im Hintergrund aktiv werden. Da immer wieder die volle iGPU aktiv werden zu lassen ist aus Energieeffizienz-Sicht schon nicht optimal.
Bei Smartphone SoCs ist Energieffizienz nochmals wichtiger und die NPU wird auch viele andere Tasks benutzt (Audio, Video, Bilder Bearbeitung // Live Sprachübersetzung // lokale LLM Assistenten // usw.). Deswegen werden Smartphone SoCs definitiv auch in Zukunft eine NPU beibehalten.

Ich hoffe, die 40 TOPS für Copilot+ bleiben mal so für die nächsten Jahre. Mit TSMC N3/N2 dürfte der Flächenbedarf dann sinken. Vielleicht gibt es eine Revision mit FP4/FP6/FP8 Anforderungen (z.B 50 TFLOPS FP8 // 100 TFLOPS FP4), was XDNA2 aber schon kann.

Für gröbere ML-Sachen würde ich dann definitiv an die GPU / iGPU auslagern. Das wird ja gut mit dem Matrix-Acceleration Trend bei den GPUs zusammenpassen.

Und es gibt auch bereits Hybrid-Setups bei AMD, welche NPU und iGPU im Gespann nutzen (hier ein LLM Use-Case):
https://www.amd.com/en/developer/resources/technical-articles/deepseek-distilled-models-on-ryzen-ai-processors.html
- Compute Bound Zeugs kommt wohl auf die NPU
- Bandwidth Bound Zeugs vermutlich auf die iGPU

Das ist ein bisschen sowas wie Nvidia bei Rubin CPX macht ;)

Es wäre sogar verdammt clever von AMD. Weil das dann wieder eine moderne Lösung (die auch qualitativ mit proprietären Lösungen mithalten kann!) geben würde, die GPU agnostisch läuft (so wie auch xess aber halt besser) und nicht proprietär ist. Entsprechend gibt es für Studios weniger Gründe proprietäre Lösungen zu implementieren und auf jeden Fall mehr Priorität die agnostische Lösung zu implementieren was mehr Software support beseutet.
AMDs Marktanteil ist zu klein um rein proprietär wie Nvidia vorzupreschen. Entsprechend macht es IMO schon Sinn wieder dahin zurück zu gehen wie man es noch vor fsr4 gemacht hat.
Sie Offenheit hat es FSR1-3 erst ermöglicht sich so schnell zu verbreiten. Die unterlegene BQ hat sie allerdings etwas behindert. Wenn das entfällt -> offene Schleusen
Für AMD hätte es den grossen Vorteil, dass man Mindshare bei Nvidia Nutzern sammeln könnte. Wenn FSR Redstone mindestens gleich gut wie DLSS4 laufen würde (Performance, Qualität), würde man die DLSS-Vendor-Lock Mauer einreissen. Jeder kann FSR4 bei sich anschauen und bewerten. Ah, das schaut ja gut aus und ist in allen Spielen verfügbar, ich kann also auch AMD Karten kaufen. Wenn FSR viel langsamer läuft (weil nicht via WMMA), denken sich Nvidia Nutzer wohl eher "meh".

Lustig wäre das INT8 Matrix-Modell auf Turing und Ampere Karten. DLSS SR läuft afaik mit FP16. Wenn FSR jetzt schneller auf diesen Karten läuft (INT8 TOPS auf Turing und Ampere laufen mit doppelter Rate wie FP16), wo der Aufrüstdruck deutlich grösser als bei Lovelace ist, wäre das auch ein wenig Werbung für AMD ;)
Dass FSR FG auch auf Turing und Ampere Karten laufen wird (evtl. sogar 4x MFG), würde ins selbe Horn blasen. Werbung für AMD.

Was evtl. ein Hinderungsgrund sein könnte sind APIs. Cooperative Vectors ist noch nicht so weit und reines WMMA führt glaube ich zu grösseren Latenzen beim switchen zwischen Vektor-Code.

robbitop

2025-10-05, 11:28:12

Also ich finde CoPilot ist ein Witz gegenüber dem was mit pro Accounts auf der Cloud geht. Kann man sich IMO sparen. Und dann braucht es gar kein compute auf dem Gerät was noch energieeffizienter ist ^^

Wo hakt es denn bei coopertive vectors eigentlich noch? Ist doch schon eine Weile draußen und die Treiber der IHVs unterstützen das iirc doch schon oder?

basix

2025-10-05, 11:30:31

Momentan ist es sicher noch ein Witz. Time will tell, wie nützlich es dann am Schluss ist. Deswegen: NPU zwar beibehalten, aber nicht grösser werden lassen. Umso mehr Endgeräte die Copilot+ Anforderungen erfüllen, desto eher wird man das in Applikationen auch nutzen.
Das können relativ simple Sachen sein wie ein paar Helferlein bei Email / Word / Programming (Auto-Complete) oder Bildbearbeitung (z.B. Leute im Hintergrund aus Bildern retuschieren). Das lokal auszuführen macht viel mehr Sinn.
Vieles davon geht bereits heute, mit einer spezialisierten NPU und mehr Performance als auf CPU / iGPU dürfte das aber schneller, energieeffizienter und qualitativ besser klappen.

Wenn sich herausstellt, dass die NPU nicht das gelbe vom Ei ist, hat man in modernen Nodes dann eh nicht so viel Fläche verbraten (<10mm2 in N3P).
XDNA2 in Strix erreicht die 50 TOPS mit ~1.6 GHz. Evtl. lässt sich hier auch noch was drehen, wenn man die Performance auf Kosten der Energieffizienz (je nach Anwendung) noch variieren will.
Vielleicht kann man das Ding bei Bedarf auf 3.1 GHz prügeln, dann würde man bei 100 TOPS INT8 landen. Viel mehr Fläche dürfte das aber nicht benötigen, GPUs takten ja auch bereits >3.0 GHz).
Ist eher eine Frage der Energieffizienz, ob man so hoch gehen will. Aber auch eine NPU kennt verschiedene Power States, das dürfte schon irgendwie klappen.

robbitop

2025-10-05, 11:43:51

Ich vermute aber damit mehr sinnvolle Dinge damit on device gehen man mehr tops brauchen wird. Ich frage mich halt nur wozu wenn das auch alles off device geht. Naja lässt sich eh nicht ändern.

basix

2025-10-05, 11:47:04

Man hat nicht überall Netzwerk Zugriff. Und Netzwerk Latenzen sind grausam für gewisse Tasks. Die User Experience ist deutlich weniger konsistent als bei lokaler Ausführung.

Die angetönten kleinen Helferlein können unter dem Strich einen sehr grossen Produktivitätsgewinn bewirken. Nicht alles muss "Big LLM" sein ;)

Ausserdem:
DNN werden immer effizienter. Das heisst, man benötigt immer weniger Parameter und FLOPS für das selbe Resultat. Diese Entwicklung darf man auch nicht vergessen.

robbitop

2025-10-05, 12:12:23

Naja man kann sich über die cloud schon praktisch in Echtzeit mit einer LLM unterhalten. Und mit den pupsigen TOPs wird es dann auch nicht schneller. Klar ggf gibt es pups Tasks mit denen die TOPS reichen geht es ggf schneller. Aber die guten Sachen brauchen alle wahrscheinlich mehr bums.
Und heutzutage hat man doch eigentlich immer Internet. Zur Not mit Tethering. Und das wird auch eher noch besser werden. Ohne Internet kann man ja heutzutage ohnehin kaum noch was machen.
Dank Starlink bekommen auch immer mehr airliner (und alle anderen Umgebungen in denen das bis dato schwierig war) sinnvolles Internet.

Ich bin was on device NN anngeht noch sehr skeptisch. Die usecases sind ein Witz und die Rechenleistung wird immer ein Bruchteil dessen sein was in den Serverfarmen steht. Und so hoch sind Latenzen heute auch nicht mehr. Siehe Echtzeitgaming über Geforce Now was auch immer besser wird.

Latenzen um per Netzwerk zu einer Serverfarm zu kommen sind ja heute sub 50 ms. So dass das ein Mensch kaum nich merkt.

basix

2025-10-05, 12:39:12

Also wenn ich an unser lahmes Firmennetzwerk denke (aufgrund zig Security Zeugs, welches im Hintergrund läuft), sind Netzwerke nicht unbedingt mein Freund hinsichtlich Performance ;) Bei privatem Nutzen ist das deutlich unkritischer (und Zeit ist dort nicht direkt Geld).

Der Punkt ist:
Man hat keine Garantie für gute Netzwerke. Bei lokaler Ausführung entfällt das alles, man hat deutlich reduzierte Latenz und hat auch noch Vorteile hinsichtlich Datensicherheit. Wir haben in der Firma auch online Portale für ChatGPT und usw. wo Cloud absolut Sinn macht. Aber ich rede von direkter Applikations-Integration von DNN für kleinere und sehr oft wiederkehrende Tasks. Dort killt instabiles Netzwerk oder erhöhte Latenz den ganzen Benefit. Da die Tasks relativ klein und isoliert sind (spezifische Use Cases) braucht man für das auch nicht unendlich viele FLOPS. Aber zackige Performance (Latenz) ist hier wichtig, wo eine NPU ideal dafür geeignet ist (deutlich besser als eine lokale GPU und nochmals viel besser als eine fette GPU in der Cloud). Sobald du real-time Anforderungen hast, sind Netzwerke einfach nicht ideal.

Und falls es nicht klar sein sollte:
Ich rede vor allem von professionellen Umgebungen. Für rein private Anwendungen ist Copilot+ deutlich unwichtiger, da man es vermutlich viel seltener braucht.

Aber ich glaube wir schweifen ein wenig vom Kernthema des Threads ab. Ausser wir reden von Super Resolution DNN Outsourcing in die Cloud :D

Eadzon64

2025-10-05, 13:38:16

so gesehen, ist eine upscaling beschleunigung, gerade auf AMD Strix Hardware, der worst case
was auf den ersten Blick Sinn ergibt, macht keinen, da mit einer hohen Rate, jedes Bild analysiert, berechnet und wieder eingepflegt werden muss
und da ist der Flaschenhals pcie1x halt zu schmal? Errinert mich etwas an die Zeit von 3DFX voodoo 5000 und pci 33mhz Anbindung:)

war halt die große KI Boom Zeit, Lederjacke war sich für kein Marketing geblubber zu schade und AMD musste reagieren um nicht komplett unterzugehen.
da habens halt in die Trickkiste gegriffen, das ganze in Hardware gegossen und den KI/AI Gaul geritten.
Immerhin hatte Su bei ihren Auftritten keine Lederjacke an, (die armen Tiere, oder im Fall der Tech Giganten Schafe):)

und hat ja auch funktioniert, hatten eine gute publicity und grossen Erfolg damit.
mission accomplished!
ist ja auch das problem der heutigen Märkte, es setzt sich nicht durch was Sinn macht, sondern gut verkaufen muss es sich, da werden Konsequenzen erst gar nicht hinterfragt
das macht AI mMn auch so gefährlich

MSABK

2025-10-05, 16:42:20

Die NPU sehe ich bissi kritisch, dachte da kann man direkt lokal eine LLM laufen lassen. Ist wohl nicht so. Fur die iGPU hatvsie wohl auch keinen nutzen.

Muss mal das DigitalFoundry Video zum Thema AutoSR ansehen. Ich spiele bissi Skyrim mit AutoSR und es läuft ok bis gut wurde ich sagen.

basix

2025-10-05, 16:51:31

Die NPU sehe ich bissi kritisch, dachte da kann man direkt lokal eine LLM laufen lassen. Ist wohl nicht so.

Wieso sollte das nicht gehen? Ist sicher kein Problem der HW, eher der SW-Unterstützung.

Ich habe hier schon verlinkt, dass man NPU + iGPU im Hybrid-Modus für LLMs nutzen kann:
https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13822381#post13822381

Und hier gibt es ein Tool, welches nur die NPU verwendet:
https://github.com/FastFlowLM/FastFlowLM

Bei 4K Kontextlänge 2.4s Prefill (time to first token) und 16 Token/sec für LLama 3.2 3B ist jetzt nicht so schlecht. Für ganz grosse LLM ist die NPU natürlich etwas schwach.

Jetzt wurde grad erst letztens Jet-Nemotron veröffentlicht. Das sollte nochmals deutlich schneller laufen und auch die Qualität ist deutlich besser als bei LLama:
https://github.com/NVlabs/Jet-Nemotron

robbitop

2025-10-05, 17:25:13

Die NPU sehe ich bissi kritisch, dachte da kann man direkt lokal eine LLM laufen lassen. Ist wohl nicht so. Fur die iGPU hatvsie wohl auch keinen nutzen.

Muss mal das DigitalFoundry Video zum Thema AutoSR ansehen. Ich spiele bissi Skyrim mit AutoSR und es läuft ok bis gut wurde ich sagen.
Skyrim kann man mit Mod auch mit DLSS spielen. (und wenn DLSS geht kann mannmit Optiscaler aucj FSR4 nutzen sofern man eine AMD GPU hat oder XeSS wenn man eine Intel hat). Sollte alles besser als AutoSR sein.

MSABK

2025-10-05, 18:05:39

Skyrim kann man mit Mod auch mit DLSS spielen. (und wenn DLSS geht kann mannmit Optiscaler aucj FSR4 nutzen sofern man eine AMD GPU hat oder XeSS wenn man eine Intel hat). Sollte alles besser als AutoSR sein.

Habe ein Snapdragon X Elite.:)

robbitop

2025-10-05, 18:34:21

Mein Beileid X-D

Exxtreme

2025-10-05, 18:41:24

Wozu eigentlich eine NPU?

Damit man einen "Copilot ready"-Sticker auf den PC kleben kann. :)

mironicus

2025-10-05, 19:58:34

Die NPU im Snapdragon X Elite 2 soll 80 Tops stark werden. Und natürlich laufen auch LLM mit der NPU (Click to Go, erweiterte Windowssuche sind aber noch nicht freigeschaltet in der EU), auch generative KI läuft damit (Windows-Fotoanzeige-App Extrafunktionen), das hat aber nicht das Niveau von ComfyUI mit einer RTX 5090. :freak:

Unter Windows 11 ARM gibt es bis heute mehr Funktionen integriert die die NPU nutzen, als in Windows 11 x64 (in der Fotoanzeige App und bereits systemweites Automatic Super Resolution für Spiele).

robbitop

2025-10-05, 20:21:30

Frage mich wozu wenn es viel komplexere Modelle online gibt. Ist das nur Liebhaberei oder Paranoia?

mironicus

2025-10-05, 20:48:19

Es ist weder „Liebhaberei“ noch „Paranoia“, sondern eine logische Evolution:
- Die Cloud bleibt für große Modelle und Training wichtig.
- Die NPU im PC sorgt für Alltags-KI, die schnell, sicher und überall verfügbar ist.
Man könnte sagen: Die Cloud ist das Rechenzentrum, die NPU ist der persönliche Co-Prozessor. Zusammen machen sie den PC der Zukunft aus.

Gast

2025-10-05, 21:05:03

Ich verstehe nicht, warum hier niemand das offensichtliche erwähnt: Datenschutz. Nicht jeder will seine möglicherweise sensiblen Daten in der cloud. Eine lokale llm die auf der Npu läuft ist deshalb immer vorzuziehen.

Daredevil

2025-10-05, 21:11:28

Die Herausforderung bei einer NPU ist halt die richtige Implementierung. Whisper Transcription ist eine App für den Mac, Parakeet 3 ein Speech-to-Text Modell von Nvidia. Dies ist so gut integriert, das eine Transkribierung von einer Datei so kurz ist, dass man schlicht die GPU nicht benötigt, weil es die NPUs besser können bei einem geringeren Verbrauch. Wie gut das übertragbar ist auf andere "AI Tasks", weiß ich allerdings nicht, hier scheint allerdings wohl Potential zu stecken, bei Windows sicherlich noch mehr als bei MacOS, weil es bei Windows ja viele verschiedene NPUs gibt.

Hier mal ein GPU vs CPU/NPU Vergleich mit einem 72Min Podcast.
Englische Sprache mit Sprecher Erkennung auf einem Apple M3 Ultra.

WhisperKit v2 on GPU @ 105w : 15:03 Minuten
WhisperKit v2 on NPU @ 35w : 17:39 Minuten

WhisperKit v3 Turbo on GPU @ 105w : 2:44 Minuten
WhisperKit v3 Turbo on NPU @ 30w : 4:24 Minuten

Parakeet v2 on GPU @ 185w : 12 Sekunden
Parakeet v2 on CPU/NPU @ 65w : 10 Sekunden

Parakeet v3 on GPU @ 185w : 18 Sekunden
Parakeet v3 on CPU/NPU @ 80w : 11 Sekunden

Die Whisper Modelle sind "LastGen" Technik von OpenAI, Parakeet wie gesagt der heiße scheiß von Nvidia.
Mit dem aktuellsten Modell und der tiefen Integration beider Apple NPUs ( ca. 8w ) ist man nicht nur erheblich sparsamer, sondern auch bedeutend schneller und laut einigen Tests funktioniert Parakeet auch deutlich besser bei der Qualität der Ergebnisse. Wenn auch NPUs zurecht deutlich belächelt werden, liegts nicht an der NPU selber, sondern wahrscheinlich?! an der richtigen Integration?

Also mal völlig davon abgesehen, dass eine 72Min Transkribierung vor wenigen Monaten noch 15 Minuten gedauert hat und heute in besserer Qualität 11 Sekunden. Das sind schon enorme Fortschritte bei der Software. ^^

x-force

2025-10-05, 21:35:01

Englische Sprache mit Sprecher Erkennung auf einem Apple M3 Ultra.

sobald du mit einer richtigen gpu vergleichst, wirst du feststellen, dass npus in aktueller form kein ersatz für diese sind.

Eadzon64

2025-10-05, 21:49:52

Hier mal ein GPU vs CPU/NPU Vergleich mit einem 72Min Podcast.
Englische Sprache mit Sprecher Erkennung auf einem Apple M3 Ultra.

WhisperKit v2 on GPU @ 105w : 15:03 Minuten
WhisperKit v2 on NPU @ 35w : 17:39 Minuten

WhisperKit v3 Turbo on GPU @ 105w : 2:44 Minuten
WhisperKit v3 Turbo on NPU @ 30w : 4:24 Minuten

Parakeet v2 on GPU @ 185w : 12 Sekunden
Parakeet v2 on CPU/NPU @ 65w : 10 Sekunden

Parakeet v3 on GPU @ 185w : 18 Sekunden
Parakeet v3 on CPU/NPU @ 80w : 11 Sekunden

endlich mal was zum Verbrauch in Relation Danke

sind schon stromhungrige Datenkraken!

auch, wenn nicht sogar hauptsächlich, dazu geschaffen, das bisher unbeherrschbare, also I-Net, große Datenströme etc. auszuwerten und unter Kontrolle zu bringen.
hängen ja inzwischen überall mit dran.
das muss ja nicht explizit was schlechtes bedeuten, macht mir persönlich, im zuge einer zunehmenden und immer weiter voranschreitenden Gleichschaltung Angst!

Daredevil

2025-10-05, 21:51:56

sobald du mit einer richtigen gpu vergleichst, wirst du feststellen, dass npus in aktueller form kein ersatz für diese sind.

Darum gehts doch. Wenn eine NPU so gut implementiert ist, dass sie einen sonst schwergängigen Task ( Mehrere Minuten ) in wenigen Sekunden erledigen kann, brauchst es schlicht keine GPU mehr. Zudem glänzt AMD jetzt nicht unbedingt mit Anwesenheit und Software Support im AI Bereich, weswegen es hier nochmal wichtiger wäre, wenn Neural Engines als "Neutrale Einheit" unabhängig von der GPU Aufgaben erledigen können. Wie schwer die Implementierung zwischen den unterschiedlichen Herstellern ist, da habe ich aber keine Ahnung.
endlich mal was zum Verbrauch in Relation Danke

sind schon stromhungrige Datenkraken!

Die NPUs selber ziehen selten über 10w, bei den enormen Geschwindigkeiten wird offenbar der SoC deutlich beansprucht. Der M3 Ultra ist ja kein monolithischer Chip, sondern das sind zwei zusammen geklebte M3 Max. Das ist also im Vergleich immer noch höchst ineffizient, dass diese beiden Chips miteinander reden müssen. Ein M4 Max wäre bedeutend sparsamer. Hier gehts aber ja nicht um den Vergleich, sondern um die theoretische Leistung einer NPU.

Eadzon64

2025-10-05, 22:34:54

kann hier zu? Nee, mach jetzt mehr on topic weiter...

vom C64 ausgehend, hoffe den kennt noch wer und den großartigen Programmier Leistungen dort, gibt es bestimmt Wege,
die upscaling Prozesse clever zu unterstüzen, wen man Kosten und Nutzen abwägt.
muss mich da aber, in die Art der beim upscaling benötigten Rechenoperationen einlesen, um sowas mit Sicherheit behaupten zu können.
und warum sollte jemand das tun, auf einer nicht mal weit verbreitenden und bald vergangenen Hardware Basis?

weil er dann ein Held ist!

robbitop

2025-10-06, 07:28:48

Es ist weder „Liebhaberei“ noch „Paranoia“, sondern eine logische Evolution:
- Die Cloud bleibt für große Modelle und Training wichtig.
- Die NPU im PC sorgt für Alltags-KI, die schnell, sicher und überall verfügbar ist.
Man könnte sagen: Die Cloud ist das Rechenzentrum, die NPU ist der persönliche Co-Prozessor. Zusammen machen sie den PC der Zukunft aus.
Aha und was kann ich damit auf dem PC heute machen was auf der Cloud nicht geht oder schlechter? Ganz konkret bitte.
Latenz ins Rechenzentrum sind unter 50 ms durch das Netzwerk allein.

Bisher sehe ich vor allem dass Leute LLMs in reduzierter Form lokal ausführen und sich einen Kullerkeks freuen dass es geht. Oder Videogenerierung. Geht online alles besser und schneller und man braucht keine HW.

robbitop

2025-10-06, 07:31:09

Ich verstehe nicht, warum hier niemand das offensichtliche erwähnt: Datenschutz. Nicht jeder will seine möglicherweise sensiblen Daten in der cloud. Eine lokale llm die auf der Npu läuft ist deshalb immer vorzuziehen.

Gibt gekapselte Instanzen. Wer sich dann noch Gedanken macht dass MS lügt -> Paranoia.
Und IMO ist der meiste Kram den Leite da eingeben/prompten dermaßen trivial (gemessen am Stand der Forschung und Technik) und irrelevant für andere dass es zu 99% der Zeit Paranoia ist. IMO.
Dazu läuft der Kram auf einer richtigen GPU schneller als auf einer NPU und isR größere Modelle. Was der NPU usecases entzieht.

mironicus

2025-10-06, 08:10:20

Durch die Cloud wird der PC zum Terminal. Clounddienste haben Geschäftsbedindungen, die sich täglich ändern können. Sieht man ja gerade bei Sora 2 (Zensur). Lokale LLM machen unabhängig, sie geben dir einen Grund neue Hardware zu kaufen und damit zu arbeiten macht Spaß, vor allem wenn man Workflows gefunden hat, wofür man sie produktiv nutzen kann. Bildgenerierung und Bildbearbeitung mit Qwen Image, Qwen Image Edit, Flux, Flux Kontext nutze ich zum Beispiel täglich mit meiner RTX 4090.

Und die NPU wird fester Bestandteil von Desktopprozessoren werden, bei Intel gibt es bereits eine kleine NPU (nur 13 Tops), und AMD wird im neuen Zen 6 IO/Die die Möglichkeit haben, dies einzubauen zusammen mit einer RDNA 3.5-Grafikeinheit.

robbitop

2025-10-06, 08:20:16

Also aktuell keinen konkreten faktischen Grund außer Angst/Bedenken wie sich Dinge in der Zukunft ändern könnten und Spaß an der Bastelei. -> ergo Paranoia und Liebhaberei - sag ich doch ^^
Wenn sich Bedingungen verschlechtern bis zu einem Punkt an dem sie unakzeptabel werden, kann man ja immer noch Dinge lokal aufbauen. GPUs sind schnell gekauft.

Was APUs angeht: Die NPUs sind IMO verschwendeter Platz. GPU größer machen um den gleichen Platz und den Kram bei Bedarf auf den Matrixcores der GPU laufen lassen. Dann hat man mehr GPU Leistung und wahrscheinlich sogar mehr Bums für lokales ML processing.

DrFreaK666

2025-10-06, 08:43:46

... Geht online alles besser und schneller und man braucht keine HW.

Ob ich ein Bild lokal mit Gigapixel hochskaliere oder in der Cloud macht zeitlich für mich kaum ein Unterschied.
Mag bei großen Bildern anders aussehen, aber für meine Zwecke nutze ich immer lokal

MSABK

2025-10-06, 09:13:19

Also aktuell keinen konkreten faktischen Grund außer Angst/Bedenken wie sich Dinge in der Zukunft ändern könnten und Spaß an der Bastelei. -> ergo Paranoia und Liebhaberei - sag ich doch ^^
Wenn sich Bedingungen verschlechtern bis zu einem Punkt an dem sie unakzeptabel werden, kann man ja immer noch Dinge lokal aufbauen. GPUs sind schnell gekauft.

Was APUs angeht: Die NPUs sind IMO verschwendeter Platz. GPU größer machen um den gleichen Platz und den Kram bei Bedarf auf den Matrixcores der GPU laufen lassen. Dann hat man mehr GPU Leistung und wahrscheinlich sogar mehr Bums für lokales ML processing.

Deswegen gebe ich den NPU‘s keine Zukunft. In 2-3 Jahren sind die weg und läuft über die iGPU.

Microsoft hatte nur einen Grund gebraucht neue PCs zu verkaufen.

Gast

2025-10-06, 09:57:51

Also aktuell keinen konkreten faktischen Grund außer Angst/Bedenken wie sich Dinge in der Zukunft ändern könnten und Spaß an der Bastelei. -> ergo Paranoia und Liebhaberei - sag ich doch ^^
Wenn sich Bedingungen verschlechtern bis zu einem Punkt an dem sie unakzeptabel werden, kann man ja immer noch Dinge lokal aufbauen. GPUs sind schnell gekauft.

Was APUs angeht: Die NPUs sind IMO verschwendeter Platz. GPU größer machen um den gleichen Platz und den Kram bei Bedarf auf den Matrixcores der GPU laufen lassen. Dann hat man mehr GPU Leistung und wahrscheinlich sogar mehr Bums für lokales ML processing.

Denke doch mal über den Tellerrand. RnD-Abteilung eines führenden Unternehmens. Zu glauben, dass die Daten in der Cloud nicht abgegriffen werden ist unglaublich naiv.

Eine GPU verschlingt Unmengen an Strom und ist deshalb für den dauerhaften Einsatz viel zu ineffizient. Mit dem selben Argument könnte man sagen für was brauche ich eine GPU, lassen wir doch alles auf der CPU laufen. Ein spezialisierter Prozessor ist eben wesentlich effizienter.

mironicus

2025-10-06, 10:01:03

NPUs werden ein fester Bestandteil aller CPUs werden, sei es ARM oder jetzt x64. Der Übergang wo dann alle neuen CPUs die NPU haben kann aber Jahre dauern, gerade im x64-Bereich.

Sie werden in jedem ARM- und x64-Prozessor der nächsten Jahre stecken – von Smartphones bis High-End-Desktops.
- Die iGPU bleibt wichtig für grafiklastige KI (z. B. Stable Diffusion, 3D-Rendering), aber die NPU übernimmt die dauerhaften, energieeffizienten Hintergrundaufgaben.

mboeller

2025-10-06, 10:44:11

nt

mboeller

2025-10-06, 10:46:28

Deswegen gebe ich den NPU‘s keine Zukunft. In 2-3 Jahren sind die weg und läuft über die iGPU.

IMHO eher umgekehrt. NPU und iGPU verschmelzen mit Schwerpunkt NPU/LLM's

robbitop

2025-10-06, 12:00:03

Denke doch mal über den Tellerrand. RnD-Abteilung eines führenden Unternehmens. Zu glauben, dass die Daten in der Cloud nicht abgegriffen werden ist unglaublich naiv.

Eine GPU verschlingt Unmengen an Strom und ist deshalb für den dauerhaften Einsatz viel zu ineffizient. Mit dem selben Argument könnte man sagen für was brauche ich eine GPU, lassen wir doch alles auf der CPU laufen. Ein spezialisierter Prozessor ist eben wesentlich effizienter.
Eine R&D Abteilung kann sich doch wohl einen GPU Cluster leisten statt eine anämische NPU in einer APU zu nutzen.
Und ja für R&D Abteilungen kann das schon anders aussehen. Aber das ist eine absolute Minderheit dessen die das lokal auszuführen scheint. ^^

basix

2025-10-06, 12:51:24

Eine NPU hat schlicht andere Anwendungszeile verglichen mit einer lokalen GPU und vor allem auch Cloud. Ich denke nicht, dass die NPU verschwinden wird. Man wird zukünftig vermutlich eher bei der GPU massiv ausbauen und die NPU primär noch feintunen (z.B. FP4 / Bitnet Support) aber nicht deutlich grösser machen. Aber eine sparsame "always-on" NPU kann schon Sinn machen.

Neben Acceleration für verschiedensten kleineren Applikations-internen Aufgaben (wo GPUs und Cloud einfach nicht optimal wären) wären auch so Sachen wie Live-Translation & Transkribierung und anschliessendes Protokoll/Zusammenfassing in z.B. Teams ein Thema. Das selbe bei Dokumenten. Kann man in der Cloud machen, sicher. Aber für 90+% der Aufgaben würde eine NPU reichen.
Ich verstehe nicht, warum hier niemand das offensichtliche erwähnt: Datenschutz. Nicht jeder will seine möglicherweise sensiblen Daten in der cloud. Eine lokale llm die auf der Npu läuft ist deshalb immer vorzuziehen.

Doch, Datensicherheit wurde erwähnt ;)
https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13822405#post13822405

Aber ob das eine NPU ist oder lokale GPU mit Matrix-Accelerationist , spielt in dieser Frage keine Rolle.

robbitop

2025-10-06, 12:56:46

Kann man auch machen ist für mich immer noch kein Anwendungszweck wofür man die NPU wirklich braucht wenn es auch ohne geht. Kann man auch über die Matrixcores der GPU machen oder? :)

Gast

2025-10-06, 13:31:00

Kann man auch machen ist für mich immer noch kein Anwendungszweck wofür man die NPU wirklich braucht wenn es auch ohne geht. Kann man auch über die Matrixcores der GPU machen oder? :)

Man kann es auch über die CPU machen, ist halt noch ineffizienter als über die GPU.

basix

2025-10-06, 15:59:17

Jein. Energieeffizienz mal ausgeklammert: Die NPU wird für vieles eine niedrigere Latenz haben ;)

Nicht für die grossen Tasks die eh einige Zeit dauern. Aber das ist mMn auch nicht der Hauptanwendungszweck, sondern Realtime fähige Acceleration für bestimmte Tasks.
Bei der GPU hast du dazu noch Scheduling Kopfschmerzen, wenn parallel noch Grafik und anderes Zeugs auf der GPU laufen soll. Oder wie sieht da z.B. ein Live Translation Service für Gaming aus? Du spielst mit jemandem aus Polen oder der Türkei und bist via Live Chat miteinander verbunden. Die GPU hat da anderes zu tun ;)

robbitop

2025-10-06, 17:35:22

Jein. Energieeffizienz mal ausgeklammert: Die NPU wird für vieles eine niedrigere Latenz haben ;)

Nicht für die grossen Tasks die eh einige Zeit dauern. Aber das ist mMn auch nicht der Hauptanwendungszweck, sondern Realtime fähige Acceleration für bestimmte Tasks.
Bei der GPU hast du dazu noch Scheduling Kopfschmerzen, wenn parallel noch Grafik und anderes Zeugs auf der GPU laufen soll. Oder wie sieht da z.B. ein Live Translation Service für Gaming aus? Du spielst mit jemandem aus Polen oder der Türkei und bist via Live Chat miteinander verbunden. Die GPU hat da anderes zu tun ;)
Welche Anwendung ist denn konkret so latenzkritisch, dass die Ausführung auf der iGPU statt der NPU einen echten, relevanten Nachteil hat? Und um wie viele ns geht es hier?
Ist es denn gesichert, dass die NPU ineffizienter ist als eine moderne GPU mit Tensor Cores? ZB Blackwell?

Warum muss parallel Zeug auf der GPU laufen? Oder soll gespielt werden und gleichzeitig ML laufen?
Aber ansonsten sollte Scheduling jetzt auch kein großes Problem sein. Immerhin kann man heute schon Spielen und gleichzeitig Aufnehmen/Encoden, oder auch einen 3D stresstest im Hintergrund laufen lassen oder gar eine GPU auf mehrere VMs aufteilen und die Leistung aufteilen und es läuft. Ich denke das ist bei modernen GPUs ein Problem was bereits gelöst ist.

Man kann es auch über die CPU machen, ist halt noch ineffizienter als über die GPU.
Die CPU hat keine Matrixcores und ist prinzipbedingt auch gar nicht für diesen Workflow gemacht. Eher dazu gemacht möglichst viel ILP aus seriellem Code zu extrahieren und viel IPC.
Die GPU hingegen ist für paralleles Processing gemacht und hat Matrixcores. Und Nvidias und AMDs GPUs werden in großen Rechenzentren bereits genutzt um zu NNs zu trainieren und zu inferencen (und ja auch die consumer GPU uArchs). Wenn die so energieineffizient wären, würde das längst mit NPUs laufen. Tut es aber nicht. Ergo bin ich da sehr skeptisch, dass NPUs wahnsinnig energieeffizienter sein sollen als moderne GPUs.

Gast

2025-10-06, 17:53:28

Die CPU hat keine Matrixcores und ist prinzipbedingt auch gar nicht für diesen Workflow gemacht. Eher dazu gemacht möglichst viel ILP aus seriellem Code zu extrahieren und viel IPC.
Die GPU hingegen ist für paralleles Processing gemacht und hat Matrixcores. Und Nvidias und AMDs GPUs werden in großen Rechenzentren bereits genutzt um zu NNs zu trainieren und zu inferencen (und ja auch die consumer GPU uArchs). Wenn die so energieineffizient wären, würde das längst mit NPUs laufen. Tut es aber nicht. Ergo bin ich da sehr skeptisch, dass NPUs wahnsinnig energieeffizienter sein sollen als moderne GPUs.

Matrixcores ist ein Marketingbegriff, du hast keine Ahnung wie eine GPU intern aufgebaut ist. Die schönen bunten Schaubilder sind reines Marketingmaterial das extrem simplifiziert ist. Ich kann auf eine CPU problemlos FP8-Code ausführen genau wie auf eine GPU. Auf eine CPU sogar wesentlich flexibler. Natürlich ist eine GPU aus offensichtlichen Gründen trotzdem wesentlich besser dafür geeignet als eine CPU, allerdings gilt dasselbe auch bei NPU vs. GPU.

Heutige GPUs sind für Training relativ gut geeignet, für Interference sind sie um ca. Faktor 1000 zu teuer und zu wenig energieeffizient. Was glaubst du warum sich fast die gesamte Forschung bei Nvidia und AMD auf eine effizientere Ausführung von Interference fokussiert? Das wird in Zukunft 90% der Tasks ausmachen und da gibt es noch deutlich Potential.

basix

2025-10-06, 18:17:18

Wir reden bei Real-time bei Menschen (Feedback zwischen Eingabe und Ausgabe) typischerweise von Millisekunden (wie auch Spiele bei den Framerates).

Hier gibt es eine gute Übersicht ;)
https://www.servermania.com/kb/articles/npu-vs-gpu-comparison-guide

Fazit:
- GPUs = Throughput
- NPU = Latenz / Real-time

Und eine spezialisierte Inferencing-Architektur in Form von einer NPU wird immer energieffizienter sein als eine GPU.
Einige latenzkritische Anwendungen gibt es vermutlich noch gar nicht, nämlich on-the fly inferencing innerhalb verschiedener Applikationen. Die bereits genannten Helferlein und in-Tool Accelerations. Das wird definitiv kommen (z.B. Live Audio Translation/Transkribierung, Text/Mail/Code Autocomplete, CAD Tools mit eingebauten PiNN für Simulationen, Tool Usage Assistant, ...). Deswegen heisst das Ding ja auch Copilot ;) Der soll dir konstant und immer mal wieder helfen und dir Arbeit abnehmen. Der muss nicht durch ein 70B Parameter LLM durch-crunchen. Aber die vielen kleinen Tasks soll er schnell und energieeffizient abarbeiten.

robbitop

2025-10-06, 19:28:59

Ich sehe noch immer keine schlüssige Erklärung, dass die paar ns die es länger dauert auf die iGPU (mit Matrixcores) zuzugreifen als auf die NPU (wir reden ja von einer APU/SoC wo beides integriert ist) für eine Anwendung die ein Mensch bedient (der bestenfalls 3x Größenordnungen über den ns die es an Latenzdifferenz die in einem SoC zu erwarten sind im Bereich der Wahrnehmungsschwelle liegt). Warum soll es hier genau ein Latenzproblem geben und wie sieht das genau aus?
Weiterhin ist noch nicht klar woher die Gewissheit genommen wird dass eine NPU energieeffizienter ist als eine moderne GPU mit Matrixcores. Wir reden von Inferencing Usecases - ob jetzt große oder kleine Modelle ändert am Sachverhalt nicht viel - auch eine iGPU kann bei kleiner Belastung in Teillast sehr effizient sein. Wenn NPUs hier so viel energieeffizienter wären, wäre XDNA2 (gibt es separat zu kaufen) sicherlich viel mehr in Inferencingrechenzentren. Stattdessen sind es moderne GPUs.

basix

2025-10-06, 22:00:46

Eine NPU ist bei selben TOPS schneller bei niedriger Batch Size (z.B. = 1). Aus dem verlinkten Artikel:
NPU = Best suited for inference and real-time AI applications with smaller batch sizes
GPUs sind zwar schön und gut und schnell. Aber nur wenn man ihr viele Aufgaben gleichzeitig gibt. Für viele Consumer Anwendungen hast aber genau das: Eine niedrige Batch-Size. Du bist ja nur eine einzelne Person.

Was dann latenztechnisch unter der Wahrnehumgsschwelle liegt ist dann sehr spezifisch auf die Anwendung bezogen und auch wie schwer das DNN ist. Aber eines ist klar: Eine NPU ist auf real-time, small batch-size Use Cases ausgelegt. Genau das, was du an deinem lokalen Einzelrechner am häufigsten antreffen wirst.

Du kannst das alles in die Cloud auslagern, aber die Interaktivität und "Schwuppdizität" wird darunter leiden. Du kannst ja gerne MS Word lokal oder online nutzen und vergleichen. Was fühlt sich direkter und besser an? Und das sind relativ simple Nutzereingaben oder Scrolling durch Dokumente ohne super viel Rechenlast dahinter wie bei einem DNN. Online ist gut und recht für vieles, aber eine ideale Nutzererfahrung wirst du damit nicht erreichen. Online auszulagern macht erst dann Sinn, wenn die lokale Rechenleistung (oder Speicherkapazität) nicht mehr ausreicht.

Weiterhin ist noch nicht klar woher die Gewissheit genommen wird dass eine NPU energieeffizienter ist als eine moderne GPU mit Matrixcores. Wir reden von Inferencing Usecases - ob jetzt große oder kleine Modelle ändert am Sachverhalt nicht viel - auch eine iGPU kann bei kleiner Belastung in Teillast sehr effizient sein. Wenn NPUs hier so viel energieeffizienter wären, wäre XDNA2 (gibt es separat zu kaufen) sicherlich viel mehr in Inferencingrechenzentren. Stattdessen sind es moderne GPUs.

Wann waren spezalisierte Einheiten nicht effizienter als General Purpose Einheiten? Gab es das schon mal? :rolleyes:

Der Punkt mit den GPUs zählt nicht wirklich im Datacenter. GPUs waren schon immer sehr breit und gross und bringen neben ML/AI auch andere Use Cases mit sich. Die Investition kannst du breiter reinholen. Das ist auch ein wenig historisch bedingt und die ganzen Systeme usw. welche rundherum designed worden sind. Dazu die Programmiermodelle und SW-Bibliotheken, die es bei NPUs aufgrund ihrer Neuheit schlicht noch nicht gibt. Stell dir vor, Nvidia würde eine reine NPU rausbringen aber die Hälfte der SW muss überarbeitet werden oder läuft gar nicht mehr. Undenkbar. Aber man sieht ja bereits die GPU-Spezialisierungen, dass immer mehr Matrix-Cores verbaut werden. Googles TPU ist auch eher eine grosse NPU denn eine GPU. Das Ding wie GB300 ähnelt auch immer mehr einer fetten NPU als einer GPU (nur noch wenig FP64 und FP32 Throughput). Mit zwei Unterschieden: Throughput Fokus und DNN Training, nicht nur Inferencing. In einem Datacenter kann ich tausende Nutzer auf die selbe GPU loslassen. Lokal hast du diesen Vorteil nicht. Aber man hat dann halt die Netzwerk-Latenz dazwischen.
Man kann auch die iGPU verwenden. Logisch. Nur ist die NPU für gewisse Use Cases einfach idealer geeignet, da spezialisiert. Das müssen wir nicht diskutieren, das ist halt einfach so. Und das sage ich nicht so weil ich einfach das Gefühl habe, dass das so ist. Das kann man überall nachlesen. FPGAs sind bezüglich Latenz und Real-Time sogar am besten, weil man den Datenstream des ganzen DNN feingranular auf den Chip partitionieren kann. FPGAs sind aber nie so effizient wie ASICs. Eine NPU ist die näheste Approximierung eines FPGAs, da man deren Tiles ein bisschen FPGA mässig konfigurieren kann (je nach DNN individuell). Du kannst ja auch den Groq-Chip oder Cerebras anschauen, die ähneln viel mehr einer NPU (spatial scheduling, viel SRAM) als einer GPU und für latenzarme Ausführung umrunden die alle GPUs bei weitem. GPUs sind aufgrund ihres Designs aber sehr skalierbar und dann die ganzen Libraries und SW-Bibliotheken. Du kannst breitere Anwendungsfelder abdecken, was mit einem spezialisierten Design wie einer NPU einfach schwieriger ist.

Es kann sein, dass sich irgendwann aus Kostengründen oder Use-Case-Amortisation was ändert und man die NPU weglässt. Die iGPU ist zwar nicht so ideal wie die NPU aber allenfalls gut genug für Consumer und kann für mehr Dinge verwendet werden. Dafür spart man etwas an den Chipkosten.

Aber sogar Nvidia mit ihren Tensor-Core-GPUs verbaut in ihren Chips NPUs ;)
Sieh dir Nvidias DLA an: https://developer.nvidia.com/deep-learning-accelerator
https://developer.nvidia.com/blog/maximizing-deep-learning-performance-on-nvidia-jetson-orin-with-dla/
https://developer-blogs.nvidia.com/wp-content/uploads/2023/08/DLA-power-efficiency-1024x518.png

Die machen das nicht wegen lustig. Das hat schon seine Gründe und sie schreiben auch selbst hin, dass es energieffizienter ist ;) Spezialisierung auf einen Taks schlägt General Purpose immer.

Bei der allerneusten Generation Jetson Thor haben sie es aber weggelassen:
By the confirmation from internal team, there is no DLA in Thor. With the rise of Transformer Models, we enabled more performance on the GPU. There is a transformer engine in the GPU that is optimized for Transformer Models, and there is PVA and OFA for offloading CV Algorithms.
Die haben zusätzliche Spezial-Accelerators in die GPU eingebaut. Ist das effizienter als ein DLA? Vielleicht, da spezialisiert. Dafür aber noch unflexibler als eine NPU. Aber auch den DLA könnte man für Transformer ergänzen. Den DLA wegzulassen ist wohl mehr Entwicklungsaufwand vs. Ertrag geschuldet. In der weiten Welt da draussen gibt es aber nicht nur Transformer. Hier ein wenig Flexibilität beizubehalten ist schon nicht schlecht. Das kann die GPU auch, aber eben nicht so effizient wie eine NPU.

Oranje7

2025-10-06, 23:18:20

Ich sehe noch immer keine schlüssige Erklärung, dass die paar ns die es länger dauert auf die iGPU (mit Matrixcores) zuzugreifen als auf die NPU (wir reden ja von einer APU/SoC wo beides integriert ist) für eine Anwendung die ein Mensch bedient (der bestenfalls 3x Größenordnungen über den ns die es an Latenzdifferenz die in einem SoC zu erwarten sind im Bereich der Wahrnehmungsschwelle liegt). Warum soll es hier genau ein Latenzproblem geben und wie sieht das genau aus?
Weiterhin ist noch nicht klar woher die Gewissheit genommen wird dass eine NPU energieeffizienter ist als eine moderne GPU mit Matrixcores. Wir reden von Inferencing Usecases - ob jetzt große oder kleine Modelle ändert am Sachverhalt nicht viel - auch eine iGPU kann bei kleiner Belastung in Teillast sehr effizient sein. Wenn NPUs hier so viel energieeffizienter wären, wäre XDNA2 (gibt es separat zu kaufen) sicherlich viel mehr in Inferencingrechenzentren. Stattdessen sind es moderne GPUs.

in jedem Smartphone SOC ist doch eine NPU, als es AMD nicht im desktop hatte wurde gefragt wieso das die zwei großen nicht machen :freak:

robbitop

2025-10-07, 09:02:31

Die sind da seit >10 Jahren drin - vor allem für den Imageprocessingteil. Da gab es noch keine GPUs mit Matrix Cores. Entsprechend hat sich dort historisch ein Ökosystem entwickelt. Und bis heute haben embedded GPUs noch keine Matrixcores.
Auf dem PC hingegen ist das anders. Aber gibt es dort eben noch keine x86 SoCs mit Matrixcore GPUs (bis auf eine Intel Arc SKU IIRC die tatsächlich XMX Cores hat). Mit RDNA5 wird sich das erst ändern.

Mein Eindruck ist, dass Microsoft das getrieben hat, weil sie das für CoPilot haben wollten und es keine andere HW gab. Aber warum sollte das mit entsprechender Schnittstelle nicht auch sinnvoll auf GPUs laufen?

robbitop

2025-10-07, 09:04:50

Wann waren spezalisierte Einheiten nicht effizienter als General Purpose Einheiten? Gab es das schon mal? :rolleyes:
Was genau ist an einer NPU denn mehr fixed function als bei einer GPU die Matrix Cores? Nach meinem Verständnis müssen immer Matritzen gerechnet werden. Dafür gibt es Matrix cores in modernen GPUs. Alles andere brauchst du auch: Register, Scheduler usw.
Nehmen wir mal XDNA2 - was ist daran mehr specialized für Inferencing als bspw Blackwell?

Du kannst das alles in die Cloud auslagern, aber die Interaktivität und "Schwuppdizität" wird darunter leiden.
Geht zuletzt nicht um die cloud sondern um die lokale iGPU (die man als Opportunität gesehen) um die Fläche größer machen könnte, die die NPU wegfrisst. (natürlich eine moderne uArch mit Matrix Cores). Und selbst wenn die NPU dabei effizienter wäre - stellt sich die Frage, reicht die GPU nicht trotzdem aus? Wer jetzt nicht kontinuierlich in Echtzeit was drauf laufen lässt (die meisten APUs sind für Consumers) hat ggf. kaum einen Nachteil - aber den Vorteil, dass die iGPU mächtiger wäre. :)

Aber sogar Nvidia mit ihren Tensor-Core-GPUs verbaut in ihren Chips NPUs ;)
Sieh dir Nvidias DLA an: https://developer.nvidia.com/deep-learning-accelerator
https://developer.nvidia.com/blog/maximizing-deep-learning-performance-on-nvidia-jetson-orin-with-dla/
https://developer-blogs.nvidia.com/wp-content/uploads/2023/08/DLA-power-efficiency-1024x518.png
Das ist ein Vergleich mit INT8 und mit uralter HW (Orin ist 5 Jahre alte IP). Gilt das auch für moderne uArchs mit Matrix Cores mit deutlich mehr Durchsatz / mehr Sparsity und FP Datenformaten die ja auch sehr oft zum Einsatz kommen (Spektrum FP4...FP16)?

Was ich gelesen habe in dem Zusammenhang: DRIVE/Jetson Thor auf Blackwell bietet bis zu 2.000 FP4/1.000 INT8 TFLOPS und skaliert transformer‑zentrierte Inferenz so stark, dass die Perf/Watt‑Vorteile des DLA im ursprünglichen CNN‑Zielgebiet an Relevanz verlieren. Ggf. hat das auch Implikationen auf NPUs <-> GPUs im Generellen.

Gast

2025-10-07, 10:50:25

Was genau ist an einer NPU denn mehr fixed function als bei einer GPU die Matrix Cores? Nach meinem Verständnis müssen immer Matritzen gerechnet werden. Dafür gibt es Matrix cores in modernen GPUs. Alles andere brauchst du auch: Register, Scheduler usw.
Nehmen wir mal XDNA2 - was ist daran mehr specialized für Inferencing als bspw Blackwell?

Geht zuletzt nicht um die cloud sondern um die lokale iGPU (die man als Opportunität gesehen) um die Fläche größer machen könnte, die die NPU wegfrisst. (natürlich eine moderne uArch mit Matrix Cores). Und selbst wenn die NPU dabei effizienter wäre - stellt sich die Frage, reicht die GPU nicht trotzdem aus? Wer jetzt nicht kontinuierlich in Echtzeit was drauf laufen lässt (die meisten APUs sind für Consumers) hat ggf. kaum einen Nachteil - aber den Vorteil, dass die iGPU mächtiger wäre. :)

Das ist ein Vergleich mit INT8 und mit uralter HW (Orin ist 5 Jahre alte IP). Gilt das auch für moderne uArchs mit Matrix Cores mit deutlich mehr Durchsatz / mehr Sparsity und FP Datenformaten die ja auch sehr oft zum Einsatz kommen (Spektrum FP4...FP16)?

Was ich gelesen habe in dem Zusammenhang: DRIVE/Jetson Thor auf Blackwell bietet bis zu 2.000 FP4/1.000 INT8 TFLOPS und skaliert transformer‑zentrierte Inferenz so stark, dass die Perf/Watt‑Vorteile des DLA im ursprünglichen CNN‑Zielgebiet an Relevanz verlieren. Ggf. hat das auch Implikationen auf NPUs <-> GPUs im Generellen.

Ich verstehe nicht wie man so falsch liegen kann und noch immer darauf beharrt. Heutige GPUs sind für Training relativ gut geeignet, für Interference sind sie um ca. Faktor 1000 zu teuer und zu wenig energieeffizient. Was glaubst du warum sich fast die gesamte Forschung bei Nvidia und AMD auf eine effizientere Ausführung von Interference fokussiert? Das wird in Zukunft 90% der Tasks ausmachen und da gibt es noch deutlich Potential. Und nein, es sind nicht alle blöd und verbauen NPUs obwohl GPUs eh viel besser geeignet sind, sondern weil NPUs für Interference schlicht Stand heute deutlich besser geeignet sind.

Gast

2025-10-07, 13:38:25

Die sind da seit >10 Jahren drin - vor allem für den Imageprocessingteil. Da gab es noch keine GPUs mit Matrix Cores. Entsprechend hat sich dort historisch ein Ökosystem entwickelt. Und bis heute haben embedded GPUs noch keine Matrixcores.

A19/A19Pro haben diese.