PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Z-Image GenAI Benchmark


Daredevil
2026-01-30, 03:44:42
Rangliste ( Stand 30.01.2026 )
Speed | CPU | GPU | VRAM |Software| Verbrauch |Watt pro it/s | Member
2.69 it/s | 9800X3D | RTX5090| 32GB GDDR7| Invoke | 600w| 223 | Colin MacLaren
2.48 it/s | 5700X | RTX5090| 32GB GDDR7| Invoke | 600w| 241 | Daredevil
2.14 it/s | 5700X | RTX5090| 32GB GDDR7| Invoke | 400w| 187 | Daredevil
1,75 it/s | 285K | RTX4090| 24GB GDDR6X| Invoke | 610w| 348 | Schrotti
0.28 it/s | M3 Ultra | 60c| 96GB LPDDR5| Invoke | 178w| 635 | Daredevil
0,03 it/s | 7950X| --------- | 64GB DDR5 | Invoke | 180w| 5769 | MORPHiNE



Moin Mädels!

Analog zum GPT LLM Benchmark Thread hätte ich auch gerne ein Rangliste für GenAI und GPU Berechnung, daher versuche ich mal hiermit mein Glück und erhoffe mir rege teilnahme, damit wir wieder eine breite Palette an Daten bekommen. 12GB+ GPUs sollten das packen. :)

Hier ein kleines Step by Step Tutorial:
1. InvokeAI laden und starten: https://invoke.ai/ (Windows/Linux/Mac - Stable Version)
2. Links unten findet ihr hinter dem 3D Viereck den "Models" Tab
3. Wechselt oben rechts auf "Starter Models"
4. Sucht nach "Z-Image Turbo" ( 13GB ) und drückt auf Install
5. Nach dem Download wechselt ihr oben links unter "Aa" zu Generate

Folgende Einstellungen sollen getroffen werden:
https://s1.directupload.eu/images/260130/5cdj3l9z.png
( Die Steps sind unnötig hoch, es gehr hier nur ums messen. Optimal sind 9 )
6. Tippt nun unter "Prompt" folgendes ein und startet oben Links mit dem grünen "Invoke" Button
Create a hyper-photorealistic, lifelike depiction of a mystical elf as a captivating mythical creature from Norse and Celtic mythology, as if captured by a professional photographer in reality – ultra-detailed with fine skin textures, realistic hair strands, natural lighting, and anatomically perfect figure. The elf is a graceful, slender adult woman with alabaster flawless skin, long pointed ears (realistically proportioned), flowing silver hair with individual strands blowing in the wind, intense emerald green eyes with reflections, and delicate translucent dragonfly-like wings with fine veins. She wears a gossamer natural gown of leaves, vines, and crystals with realistic folds and dew; she hovers lightly above a moss-covered forest altar with glowing mushrooms and mist in a dense moonlit primeval forest at twilight, holding a bow of iridescent light and sprinkling healing sparks from her hands. Scene with cinematic lighting: soft moonlight filtering through leaves, volumetric mist, moist textures on bark and moss, hyperrealistic details like sweat beads, dust particles, and natural shadows. Wide-angle, 8K resolution, photorealistic, dramatic, immersive, and believable – as if she truly exists

7. Im zweiten Fenster von InvokeAI in der Konsole sehr ihr nun die IT/s, das ist die Geschwindigkeit der Berechnung eurer GPU.

Schreibt mir gerne in dem Format euer Ergebnis:
Speed: XXXXX
CPU: XXXXX
GPU: XXXXX
VRAM: XXXXX
Software: XXXXX
Verbrauch: XXXXX

Sowas kommt beim Prompt dann raus
https://s1.directupload.eu/images/260130/uwy5bjho.png
Happy Benching! :)

Colin MacLaren
2026-01-30, 12:42:10
Speed: 2.69 it/s
CPU: 9800X3D @EcoMode
GPU: 5090
VRAM: 32GB
Software: Invoke
Verbrauch: 600W

MORPHiNE
2026-01-30, 12:56:51
Speed: 0,0312 it/s
CPU: 7950X @ 230W PPT
GPU: 9070XT (ungenutzt)
VRAM: 16 GiB (ungenutzt)
Software: Invoke
Verbrauch: 180W

RAM: 64 GiB (benutzt: 13,29 GiB)

Schrotti
2026-01-30, 16:08:45
Speed: 1,75 it/s
CPU: Core Ultra 285K
GPU: 4090
VRAM: 24GB
Software: Invoke
Verbrauch: 610 W

Daredevil
2026-01-30, 16:22:01
Dort! :) Danke fürs mitmachen!
https://s1.directupload.eu/images/260130/wxo7dj43.png
Beim Mac wird lustigerweise nicht it/s angegeben sondern s/it, also muss man das kurz umrechnen. Kleiner Sprung in den Matheuntericht, dann klappts schon. :D

@MORPHiNE
Hat AMD dort keine GPU Unterstützung? Ich konnte es nicht gegen checken aber dachte, wenn es extra im Setup ein "AMD Mode" gibt, dann wird das auch unterstützt. :usad:

joe kongo
2026-01-30, 16:55:20
Man muss "rocminfo" für AMD installieren, irgendein Tool von AMD (in Mint über den Software Manager verfügbar).
Dann geht eine der Fehlermeldungen weg beim Starten.

Bleibt aber buggy, weil ein Teil trotz AMD Einstellung CUDA verlangt:

.../.invoke/.venv/lib/python3.12/site-packages/torch/amp/autocast_mode.py:266: UserWarning: User provided device_type of 'cuda', but CUDA is not available. Disabling
warnings.warn(
[2026-01-30 16:43:14,027]::[InvokeAI]::INFO --> Using torch device: CPU


Und dann, beim Installieren des Bundles "Z-Image Turbo",
verlangt er für "FLUX.1-schnell_ae" einen HF Token.
Soviel ich verstanden hab ist das eine Art Passwort welches man nur
bekommt wenn man sich auf HuggingFace registriert.

MORPHiNE
2026-01-31, 12:59:29
Dort! :) Danke fürs mitmachen!
https://s1.directupload.eu/images/260130/wxo7dj43.png
Beim Mac wird lustigerweise nicht it/s angegeben sondern s/it, also muss man das kurz umrechnen. Kleiner Sprung in den Matheuntericht, dann klappts schon. :D

Das liegt nicht am Mac an sich, sondern an zu wenig Leistung. :D Ich musste auch umrechnen.

Hat AMD dort keine GPU Unterstützung? Ich konnte es nicht gegen checken aber dachte, wenn es extra im Setup ein "AMD Mode" gibt, dann wird das auch unterstützt. :usad:

Man muss "rocminfo" für AMD installieren, irgendein Tool von AMD (in Mint über den Software Manager verfügbar).
Dann geht eine der Fehlermeldungen weg beim Starten.

Hatte es auf Windows versucht. Tatsächlich macht Invoke auf Linux direkt alles richtig, wenn rocminfo und ein C-Compiler installiert sind. Fehlermeldungen kamen diesbezüglich keine mehr.


Und dann, beim Installieren des Bundles "Z-Image Turbo",
verlangt er für "FLUX.1-schnell_ae" einen HF Token.
Soviel ich verstanden hab ist das eine Art Passwort welches man nur
bekommt wenn man sich auf HuggingFace registriert.
Ja, darauf bin ich auch zunächst hereingefallen und habe mir HuggingFace-Account und API-Key erstellt. Konnte dann aber die Optionen nicht wie vorgegeben setzen.
Mein Fehler: Nicht genau gelesen. :deal:

3. Wechselt oben rechts auf "Starter Models"
4. Sucht nach "Z-Image Turbo" ( 13GB ) und drückt auf Install

Hier soll wohl das Model "Tongyi-MAI/Z-Image-Turbo" installiert werden, wofür man keinen API-Key braucht. :redface:

Erster Versuch ohne weitere Tweaks:

torch.OutOfMemoryError: HIP out of memory. Tried to allocate 1.88 GiB. GPU 0 has a total capacity of 15.92 GiB of which 1.27 GiB is free. Of the allocated memory 13.86 GiB is allocated by PyTorch, and 470.59 MiB is reserved by PyTorch but unallocated.
If reserved but unallocated memory is large try setting PYTORCH_HIP_ALLOC_CONF=expandable_segments:True to avoid fragmentation. See documentation for Memory Management (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)

[2026-01-31 11:43:37,522]::[InvokeAI]::INFO --> Graph stats: aed5d7f6-41df-4eb5-b03a-a4b4ace28a18
Node Calls Seconds VRAM Used
string 1 0.003s 0.000G
integer 1 0.001s 0.000G
core_metadata 1 0.001s 0.000G
z_image_model_loader 1 0.001s 0.000G
z_image_text_encoder 1 3.457s 7.852G
collect 1 0.000s 7.578G
z_image_denoise 1 2.422s 13.917G
TOTAL GRAPH EXECUTION TIME: 5.885s
TOTAL GRAPH WALL TIME: 5.889s
RAM used by InvokeAI process: 13.40G (+11.843G)
RAM used to load models: 18.96G
VRAM in use: 11.597G
RAM cache statistics:
Model cache hits: 3
Model cache misses: 3
Models cached: 1
Models cleared from cache: 2
Cache high water mark: 11.46/0.00G


Zweiter Versuch mit PYTORCH_HIP_ALLOC_CONF=expandable_segments:True und TORCH_ROCM_AOTRITON_ENABLE_EXPERIMENTAL=1:


Loading checkpoint shards: 0%|
| 0/Loading checkpoint shards: 100% | 3/3 [00:00<00:00, 184.62it/s]
[2026-01-31 12:00:19,258]::[ModelManagerService]::INFO --> [MODEL CACHE] Loaded model '73dac5b9-de44-4631-bb1e-f4fa8d94d3b1:text_encoder' (Qwen3Model) onto cuda device in 2.55s. Total model size: 7672.25MB, VRAM: 7672.25MB (100.0%)
[2026-01-31 12:00:19,258]::[ModelManagerService]::INFO --> [MODEL CACHE] Loaded model '73dac5b9-de44-4631-bb1e-f4fa8d94d3b1:tokenizer' (Qwen2Tokenizer) onto cuda device in 0.00s. Total model size: 0.00MB, VRAM: 0.00MB (0.0%)
Loading checkpoint shards:
[...]
| 3/3 [00:01<00:00, 2.44it/s]
[2026-01-31 12:00:22,015]::[ModelManagerService]::INFO --> [MODEL CACHE] Loaded model '73dac5b9-de44-4631-bb1e-f4fa8d94d3b1:transformer' (ZImageTransformer2DModel) onto cuda device in 0.50s. Total model size: 11739.56MB, VRAM: 11739.56MB (100.0%)
[...]
| 100/100 [03:12 100%| 100/100 [03:12<00:00, 1.92s/it]
[2026-01-31 12:03:34,254]::[ModelManagerService]::INFO --> [MODEL CACHE] Loaded model '73dac5b9-de44-4631-bb1e-f4fa8d94d3b1:vae' (AutoencoderKL) onto cuda device in 0.17s. Total model size: 159.87MB, VRAM: 159.87MB (100.0%)
[2026-01-31 12:03:35,032]::[InvokeAI]::ERROR --> Error while invoking session 651e8dac-50c5-42d0-abe7-a8cd9fa2fd68, invocation cf4f34e9-aa6f-47b4-aeba-1c9fa5f46458 (z_image_l2i): HIP out of memory. Tried to allocate 2.25 GiB. GPU 0 has a total capacity of 15.92 GiB of which 462.00 MiB is free. Of the allocated memory 12.39 GiB is allocated by PyTorch, and 2.57 GiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_HIP_ALLOC_CONF=expandable_segments:True to avoid fragmentation. See documentation for Memory Management (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)
torch.OutOfMemoryError: HIP out of memory. Tried to allocate 2.25 GiB. GPU 0 has a total capacity of 15.92 GiB of which 462.00 MiB is free. Of the allocated memory 12.39 GiB is allocated by PyTorch, and 2.57 GiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_HIP_ALLOC_CONF=expandable_segments:True to avoid fragmentation. See documentation for Memory Management (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)
[...]
[2026-01-31 12:03:35,039]::[InvokeAI]::INFO --> Graph stats: 651e8dac-50c5-42d0-abe7-a8cd9fa2fd68
Node Calls Seconds VRAM Used
string 1 0.004s 0.000G
integer 1 0.001s 0.000G
core_metadata 1 0.001s 0.000G
z_image_model_loader 1 0.001s 0.000G
z_image_text_encoder 1 3.322s 7.769G
collect 1 0.000s 7.578G
z_image_denoise 1 194.348s 12.098G
z_image_l2i 1 0.959s 14.643G
TOTAL GRAPH EXECUTION TIME: 198.635s
TOTAL GRAPH WALL TIME: 198.639s
RAM used by InvokeAI process: 13.57G (+12.011G)
RAM used to load models: 19.11G
VRAM in use: 11.767G
RAM cache statistics:
Model cache hits: 4
Model cache misses: 4
Models cached: 2
Models cleared from cache: 2
Cache high water mark: 11.62/0.00G



Aber immerhin 1,92s/it mit ZImageTransformer2DModel bei 304 Watt :) Leider waren die paar MB für AutoencoderKL dann zu viel.

[Update]
Mit "max_cache_ram_gb: 1" in invokeai.yaml lief es dann durch :)

Speed: 0.52it/s
CPU: 7950X
GPU: 9070XT
VRAM: 16 GiB GDDR6
Software: Invoke
Verbrauch: 304W

Mit OC + UV:

Speed: 0.58it/s
Verbrauch: 304W

Gouvernator
2026-01-31, 22:46:38
Speed: 1.06 it/s
CPU: Zen3 Mobile Cezanne 5900HX (45W TDP 8-Core)
GPU: 5070Ti (eGPU PCIe 3.0 x4 Oculink SSD-Adapter)
VRAM: 16Gb
Software: Invoke
Verbrauch: 230 Watt

joe kongo
2026-02-01, 00:14:53
Ja, darauf bin ich auch zunächst hereingefallen und habe mir HuggingFace-Account und API-Key erstellt. Konnte dann aber die Optionen nicht wie vorgegeben setzen.
Mein Fehler: Nicht genau gelesen. :deal:


Danke, dann bin ich nicht der einzige, beruhigt etwas. :)
Konnte so das Ding zum Laufen bringen, nur noch nicht mit der RX 6700XT

Frage, diese Dev Console, befinde ich mich dort in der virtuellen Umgebung
und beschädige das Haupsystem nicht?
Die Console beginnt mit:
source "/home/username/.invoke/.venv/bin/activate"
(invoke) rd@rd-main:~$ cd /home/username/.invoke
wobei ".invoke" der Installationsordner ist den ich einst angab.
Weil die KI (Googles Adressleiste) schlägt mir vor
die vorhandene Version von PyTorch zu deinstallieren und stattdessen
PyTorch für ROCm neu zu installieren.

blinki
2026-02-01, 12:59:18
ich hab den benchmark versucht, auf ner 680u mit 32gb ram, hat nicht geklappt.
Was chatgpt zu der situation sagt:
📌 Deine Situation nüchtern zusammengefasst

✔️ Deine Beobachtung ist 100 % korrekt

✔️ Denoising ist der GPU-kritische Teil

❌ InvokeAI blockiert genau diesen Weg

❌ CPU + 25 W = Frust

🧯 Ein letzter konstruktiver Ausweg (ohne Neuinstallation)

Wenn du irgendwann nochmal Lust hast, ohne großen Umbau:

SD.Next + DirectML

512×512

15–20 Steps

Euler a

Batch 1

Das ist der einzige Weg, wie dein 680U unter Windows wenigstens ansatzweise Spaß macht.

Wenn du jetzt einfach nur sagen willst

„okay, Thema durch“

→ völlig fair.
Wenn du aber noch eine technische Verständnisfrage hast (UNet, Sampler, Turbo intern), beantworte ich sie dir gern — ohne dich weiter durch Setup-Höllen zu jagen.

Relex
2026-02-01, 15:06:18
Unabhängig vom Benchmark, Invoke kannte ich noch nicht. Das Teil ist genial.
Hab mich letztens mit ComfyUI und Forge beschäftigt und wäre fast durchgedreht wegen der unendlich vielen Abhängigkeiten. Man installiert es und wird erstmal mit 10 Milliarden errors beworfen. Das ist komplett unbenutzbar, wenn man damit nicht unendlich Zeit verschwenden will. Hab’s zwar zum laufen gebracht, bis ich dann was ändern wollte und es wieder zig Konflikte gab.

Invoke funktioniert direkt out of the box, lädt alle Packages und Abhängigkeiten automatisch. Null konfigurationswand bis auf den Huggingface API Key. Und es gibt vorkonfigurierte Packages für Z-Image und co.
Wirklich tolle Sache.

Gouvernator
2026-02-01, 16:09:08
Unabhängig vom Benchmark, Invoke kannte ich noch nicht. Das Teil ist genial.
Hab mich letztens mit ComfyUI und Forge beschäftigt und wäre fast durchgedreht wegen der unendlich vielen Abhängigkeiten. Man installiert es und wird erstmal mit 10 Milliarden errors beworfen. Das ist komplett unbenutzbar, wenn man damit nicht unendlich Zeit verschwenden will. Hab’s zwar zum laufen gebracht, bis ich dann was ändern wollte und es wieder zig Konflikte gab.

Invoke funktioniert direkt out of the box, lädt alle Packages und Abhängigkeiten automatisch. Null konfigurationswand bis auf den Huggingface API Key. Und es gibt vorkonfigurierte Packages für Z-Image und co.
Wirklich tolle Sache.
Es gibt noch Pinokio, um aller Art KI Zeugs easy zu benutzen/installieren.

BAGZZlash
2026-02-01, 20:42:53
Danke, dann bin ich nicht der einzige, beruhigt etwas. :)

Bin auch drauf reingefallen... :rolleyes:


Übrigens, in der Tabelle des TS ist die Einheit "Watt pro it/s" zwar formal korrekt, aber hirnlos. Letztlich sollte man besser "Wattsekunden pro Iteration" schreiben. Ist dasselbe, macht aber deutlicher, dass dies eine Einheit für Energie ist, nicht für Leistung. Bin aber nicht sicher, ob dem TS der Unterschied überhaupt klar ist.

Ach so, und ein "3D Viereck" finde ich doch sehr drollig. Gemeint ist der Würfel da unten links.

Speed: 0,02 it/s
CPU: Ryzen 5600X
Grafikkarte: RTX 3070
VRAM: 8 GB
Software: Invoke
Verbrauch: ? W