Archiv verlassen und diese Seite im Standarddesign anzeigen : gpt-oss-20b LLM Benchmark
Daredevil
2025-08-14, 01:01:37
Rangliste ( Stand 15.08.2025 )
Speed | CPU | GPU | RAM |Verbrauch |Token pro Watt | Member
250,09 tok/sec | 9800X3D | RTX5090| 32GB | 448w | 0,56 | hq-hq
218,57 tok/sec | --- | RTX5090| 32GB | 300w | 0,72 | Backe
223,00 tok/sec | 9950X3D | RTX5090| 32GB | 328w | 0,68 | HisN
180,85 tok/sec | 14900K | RTX4090 |24GB| 300w| 0,60 | Darkman.X
178,91 tok/sec | 285K | RTX4090 |24GB | --- | ---| misterh
164,30 tok/sec | 5800X3D | RTX5070Ti| 16GB | --- | --- | BUG
163,76 tok/sec | 5900X | RTX5080| 16GB | --- | --- | BeetleatWar1977
157,00 tok/sec | 7800X3D | RTX5070ti |16GB | 250w | 0,63| x-force
152,00 tok/sec | 8700K | RTX5090| 32GB | --- | ---| Gouvernator
140,00 tok/sec | 265k | 7900XTX| 24GB | 350w | 0,40 | RoNsOn Xs
139,67 tok/sec | 9800X3D | RTX4070Ti SUPER| 16GB | 231w | 0,60 | Mond
137,52 tok/sec | 5800X3D | RTX4070Ti| 16GB | 186w | 0,74 | Maorga
135,58 tok/sec | 5800X3D | RTX4080 |16GB | 225w |0,60 | Relex
108,00 tok/sec | 5900HX | RTX3090| 24GB | --- | --- | Gouvernator
106,00 tok/sec | 5800X3D | RTX4080 LP |16GB | 150w |0,71 | Relex
92,08 tok/sec | M3 Ultra 28c | M3 Ultra 60c |96GB | 100w | 0,92 | Daredevil
83,53 tok/sec | M4 Max 16c | M4 Max 40c |48GB | --- | --- | urpils
55,34 tok/sec | 11400 | RTX4000| 20GB | 70w | 0,79 | Loeschzwerg
34,18 tok/sec | EPYC 74F3 | ---| 1000GB | --- | --- | BUG
28,58 tok/sec | 5800X | RTX4070| 12GB | --- | --- | Djudge
23,01 tok/sec | X Elite X1E-80 | X Elite X1E-80| 32GB | --- | --- | MSABK
21,96 tok/sec | 13700H | RTX4070| 8GB | --- | ---| pest
17,00 tok/sec | Z1 Extreme | Z1 Extreme| 16GB | 30w | 0,57 | Gouvernator
19,77 tok/sec | 7900 | RTX3070| 8GB | --- | --- | Immortal
13,24 tok/sec | 5600G | VEGA7| 16GB | --- | --- | BUG
6,60 tok/sec | 6900HX | 680M| 16GB | --- | --- | Immortal
------------------------------------------------------------------------------------------------------
Moin!
KI benutzt ja mittlerweile fast jeder irgendwo und irgendwie, was die wenigsten aber tun, ist dass ganze lokal zu nutzen. Da ich mich in einer Apple Bubble befinde würde ich gerne mal wissen, wie sehr die Kollegen von AMD, Intel und Nvidia performen anhand eines Beispiel, was bei den meisten laufen sollte.
OpenAIs erstes local Free2Use Modell mit 20 Milliarden Parameter, welches ungefähr 12GB groß ist und in den RAM/VRAM passen muss.
Was müsst ihr tun?
1. LMStudio laden und starten: https://lmstudio.ai
2. Laden euch im discover Tab das 12.11GB große gpt-oss 20b MXFP4 Modell herunter
3. Startet das Modell und platziert es somit im Speicher
4. Öffnet einen Chat und gebt z.B "Fasse mir Harry Potter zusammen" ein
5. Notiert euch am unteren linken Rand die "tok/sec", welches die Token pro Sekunde sind, womit man die Ausführgeschwindigkeit messen kann.
Wenn ihr links auf "My Models" geht, könnt ihr u.a. auch über das Zahnrad neben dem Modell einstellen, ob die Last eher auf die CPU oder GPU gelegt werden soll, somit kann man unterschiedlich oder gemeinsam die Geschwindigkeit messen, je nach dem was man möchte.
https://s1.directupload.eu/images/250814/fosynpof.png
Wenn alles geklappt hat, sollte das Chatfenster dann unten folgende Infos anzeigen. Somit lege ich mal vor mir meinem M3 Ultra und 60GPU Kernen, dabei hat die Kiste ca. 100w verbraucht.
https://s1.directupload.eu/images/250814/pkcsl2u4.png
Wenn ihr ein anderes Tool als LMStudio nutzt, auch kein Thema. Hauptsache ein paar Infos zum System und die Token/s kommen hier rein.
Happy Benching! Bin gespannt, was hier so bei rum kommt. :)
Relex
2025-08-14, 10:53:17
Nette Idee,
so sieht das mit meinem 5800X3D und der RTX4080 aus.
135.58 tok/sec
Die GPU nimmt sich etwa 220-230W
EDIT: mit der GPU auf 150W limitiert sind es noch 106 tok/sec
Darkman.X
2025-08-14, 17:36:44
i9-14900K
MSI RTX4090 (Werks-OC)
GPU:
180.85 tok/sec
ca. 300 W
CPU:
15.84 tok/sec
Die Screenshots von links nach rechts:
GPU, CPU
x-force
2025-08-14, 18:37:57
7800x3d und 5070ti: 157 token/s bei 250w gpu
7800x3d: 18,4 token/s bei 65w, 18,47 mit größerer batch size
die gleiche anfrage führt in ollama übrigens zu ca 18x mehr denk- und ausführungszeit, zieht dabei nur ~100w und liefert eine wesentlich ausführlichere antwort ohne aufzählungen und tabellen.
misterh
2025-08-14, 18:46:57
[24/24 + 1/12]
RTX 4090 @ +200/+1600 : 178,91 Tok/Sek
[0/24 + 12/12]
U9 285K + 8400CL38 1T : 17,10 Tok/Sek
Edit : ist eher für Tonne.
Geht aus unerfindlichen Gründen nicht korrekt
Habe einen Laptop mit
i7-13700H 32GB und RTX 4070 8GB
Einzige Einstellung die halbwegs funktioniert
GPU Offload 12/24
CPU Thread-Pool 10/10
15,71 tok/s ;D
alles andere resultiert in 5-6 tok/s
ich habe auch dieses Bug mit der Harmony-lib
https://github.com/lmstudio-ai/lmstudio-bug-tracker/issues/867
Ist halt Python und das Ding hat über 600 open issues
Gouvernator
2025-08-14, 22:13:38
Coffee Lake 8700K 6-core, 64gig Ram, RTX5090.
152t/s
gpt-oss 120b in llama.ccp mit CPU-offloading
16 t/s
AMD Ryzen 5 5600G + VEGA7 APU (Asrock DeskMini x300)
13.24 tok/sec (1 GPU detected with Vulkan)
https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=93911
Daredevil
2025-08-15, 00:15:43
Der Eingangspost hat nun ne kleine Rangliste, für die Motivation hier mitzumachen. :D
https://s1.directupload.eu/images/250815/iurdwihy.png
Kleines Update meinerseits, ich habe die Kiste mal frisch neu gestartet, die hatte ca. 11 Tage Uptime.
M3 Ultra - 60c GPU - 96GB Ram
Stock Settings: 95 tok/sec - 105w - 0,90 W/tok
Power Save: 42 tok/sec - 48w - 0,88W/tok
Spannend, dass der Power Save Mode hier überhaupt keinen Effekt hat. Säuft die Bandbreite da vielleicht ab und wird zum Flaschenhals?
Wenn ich den Spaß nur auf der CPU laufen lasse, hat das ganze einen Effekt:
Stock Settings: 21 tok/sec - 95w - 0,22 W/tok
Power Save: 19 tok/sec - 45w - 0,42W/tok
Relex
2025-08-15, 04:04:21
Ich glaube deine berechneten Werte für Watt pro Token sind falsch.
Du hast Token/Watt gerechnet, müsstest aber Watt/Token rechnen.
Oder du änderst einfach nur die Überschrift in Token pro Watt, was mMn. auch geläufiger sein dürfte.
Häufig nutzt man ja auch FPS pro Watt oder performance pro Watt in Spielen zur Effizienzbeurteilung. Und dann ist es auch gut lesbar, weil der höhere Wert dann der bessere ist.
Gouvernator
2025-08-15, 04:33:40
Was doch interessant wäre ist partielles CPU Offloading bei größeren Modellen.
Hab hier Llama 4 Scout 109b, und Qwen3 53b laufen lassen mit llama.ccp's Befehlen. Mit jeweils 5 t/s und 12 t/s.
Die GPU Layers sind auf 64gig RAM/32gig Vram hin eingestellt.
llama-server -m "F:\Openai_gpt-oss-120b-NEO-Imatrix-GGUF\OpenAI-120B-NEO-MXFP4_MOE-00001-of-00004.gguf" --n-cpu-moe 29 --n-gpu-layers 999 -c 0 -fa --jinja --reasoning-format none --no-warmup --host 127.0.0.1 --port 8080 --api-key "dummy"
llama-server -m "X:\LLM ORDNER\Llama-4-Scout-17B-16E-Instruct-Q4_K_S-00001-of-00002.gguf" --host 127.0.0.1 --port 8080 --api-key "dummy" -c 32768 -b 2048 --gpu-layers 20 --cache-type-k q8_0 --cache-type-v q8_0 --flash-attn
llama-server -m "X:\LLM ORDNER\mradermacher\Qwen3-53B-A3B-2507-THINKING-TOTAL-RECALL-v2-MASTER-CODER-i1-GGUF\Qwen3-53B-A3B-2507-THINKING-TOTAL-RECALL-v2-MASTER-CODER.i1-Q6_K.gguf" --host 127.0.0.1 --port 8080 --api-key "dummy" -c 32768 -b 2048 --gpu-layers 50 --cache-type-k q8_0 --cache-type-v q8_0 --flash-attn
Einzige Einstellung die halbwegs funktioniert
GPU Offload 12/24
CPU Thread-Pool 10/10
15,71 tok/s ;D
GPU-Offload 11/24, CPU-ThreadPool 7/10
17,82 tok/s
die Leute mit 16+ GB VRAM können mal Flash-Attention anschalten :)
Relex
2025-08-15, 09:23:25
Flash Attention hat bei mir null unterschied gemacht.
Flash Attention hat bei mir null unterschied gemacht.
ja macht bei mir auch nix - evtl. kaputt oder Speicher limitiert
sollte massiv speed up geben
https://github.com/Dao-AILab/flash-attention/raw/main/assets/flash3_fp16_fwd.png
Relex
2025-08-15, 09:58:27
Hängt sicher vom Model ab.
Hängt sicher vom Model ab.
Unwahrscheinlich - eher von der HW bzw. Speichertyp
AMD EPYC 74F3 24-Core / 1TB Memory (8-Channel)
28.13 tok/sec (CPU llama.cpp)
Edit: mit +Force Model Expert Weights onto CPU
34.18 tok/sec (CPU llama.cpp)
:freak:
GPU-Offload 11/24, CPU-ThreadPool 7/10
17,82 tok/s
Last try
GPU-Offload 24/24, CPU-ThreadPool 7/10
+Force Model Expert Weights onto CPU
21.96 tok/s
x-force
2025-08-15, 13:21:57
die Leute mit 16+ GB VRAM können mal Flash-Attention anschalten :)
die beschreibung suggeriert vorteile für <16gb.
bringt bei mir auch nichts.
Immortal
2025-08-15, 15:31:21
Speed: 5,69 tok/sec
CPU: AMD Ryzen 9 6900HX with Radeon Graphics
GPU: Radeon Graphics
RAM: Insgesamt 16 GB
Das Laden des Modells bringt den Rechner buchstäblich zum Stehen, da geht wenige Minuten gar nichts mehr... ist wohl doch etwas sehr am Anschlag.
GPU Offload 8/24, CPU Thread Pool Size 6
Relex
2025-08-15, 15:36:24
Da geht dir dann eindeutig der Speicher aus und es wird auf SSD geschrieben. Das Laden dauert hier vielleicht 10 Sekunden. Rechner ist währenddessen normal benutzbar.
Warum GPU offload nicht auf Maximum? Das war bei mir essenziell um die performance zu erhöhen. CPUs sind halt allgemein müll für solche Berechnungen.
Immortal
2025-08-15, 16:00:33
8/24 war der default, Maximum schafft er aber sowieso nicht, steigt mit einem Fehler aus. 12/24 funktioniert, immerhin 6,6 tok/sec... Und man muss schon sagen, wenigstens läuft es, trotz des knappen Speichers. Direkt brauchbar ist es allerdings auch nicht gerade, Zusammenfassungen der Harry-Potter Saga werde ich auch in Zukunft aus anderen Quellen beziehen.
Harry Potter – Held, Kind, Waisenjunge – entdeckt an seinem elften Geburtstag, dass er Zauberer ist (Erbe seiner getöteten Eltern). Er meldet sich an Hogwarts, wo er zusammen mit Ron Weasley & Hermine Granger lernt. Im Verlauf bekämpfen sie dunkle Mächte: Dementoren schützen Kinderhäuser; Lord Voldemort will Unsterblichkeit erlangen; Cedric Diggory stirbt in #4; Um den Propheten zu töten, reint in #7 (Final). Themes: Mut vs Furcht, Wahlfreiheit & Freundschaft. Wichtigste Wendepunkte: Tod des Propagnisten in Finale (Harry stirbt), Erbe & Tod alter Eltern (Tod!). Die Serie lehrt Mut & Hoffnung – Heldentum in Kindheit & Erwachsenwerden in Form epischer Propaganda.
Key points summarized concisely for quick reading.
BeetleatWar1977
2025-08-16, 10:37:53
GPU-Offload 24/24, CPU-ThreadPool 1/24
CPU: AMD Ryzen 9 5900X 128GB Ram
GPU: 5080 @ 3200/17600
163.76 Tok/Sek
x-force
2025-08-16, 13:39:22
GPU: 5080 @ 3200/17600
163.76 Tok/Sek
wow, ich hatte ~20%(also richtung 190 tok/s) abstand zur 5070ti erwartet
5090 anyone?
Backe
2025-08-16, 16:26:48
5090 / ~2,9Ghz / ~300W: 218.57 tok/sec
RoNsOn Xs
2025-08-17, 09:48:01
265k (stock):
~21 tok/s (läuft allerdings nur auf den 8 P-Cores, egal was man einstellt)
7900XTX (350w):
~140 tok/s
Immortal
2025-08-17, 10:23:05
CPU: AMD Ryzen 9 7900, 32 GB
GPU: NVIDIA GeForce RTX 3070, 8 GB
Default settings (GPU Offload 11/24):
Speed: 18,47 tok/sec
GPU Offload 24/24:
Speed: 15,56 tok/sec
GPU Offload 16/24:
Speed: 19,77 tok/sec
GPU Offload 0/24:
Speed: 16,26 tok/sec
Djudge
2025-08-17, 12:33:22
CPU: Eco 90 Watt AMD Ryzen 7 5800X, 32 GB
GPU: NVIDIA GeForce RTX 4070, 12 GB
28,58 tok/sec
Die, die mit der GPU benchen (mit mind. 10GB und mehr Speicher) und nur ~25token pro Sekunden haben stimmt gefühlt was nicht, das sieht alles stark nach CPU Fallback aus oder halt ne APU. Mal bitte Treiber aktualisieren! Bei nur 8GB Video Speicher ist das 20b Model vermutlich schon zu groß und es muss großzügig ausgelagert werden.
GPU: Offload 24/24, CPU-ThreadPool 1/24
CPU: AMD Ryzen 7 5800X3D 32GB
GPU: 5070Ti 16GB mit OC
164.30 tok/sec
Edit:
RTX 3080 10GB und RTX 3080 12GB würde mich mal interessieren.
Relex
2025-08-17, 13:59:44
Wollte ich auch gerade schreiben. Man muss das Model nach dem Ändern von Einstellungen auch entladen und neu laden. GGf auch mal die Anwendung komplett neu starten.
Immortal
2025-08-17, 14:24:17
Die, die mit der GPU benchen (mit mind. 10GB und mehr Speicher) und nur ~25token pro Sekunden haben stimmt gefühlt was nicht, das sieht alles stark nach CPU Fallback aus oder halt ne APU. Mal bitte Treiber aktualisieren! Bei nur 8GB Video Speicher ist das 20b Model vermutlich schon zu groß und es muss großzügig ausgelagert werden.
Ja, den Eindruck hatte ich auch, weil sich bei mir ja kaum was geändert hat mit den Einstellungen. Aber immerhin interessant, dass es somit auch auf einer CPU läuft.
Darkman.X
2025-08-17, 15:35:55
Die, die mit der GPU benchen (mit mind. 10GB und mehr Speicher) und nur ~25token pro Sekunden haben stimmt gefühlt was nicht, das sieht alles stark nach CPU Fallback aus oder halt ne APU. Mal bitte Treiber aktualisieren! Bei nur 8GB Video Speicher ist das 20b Model vermutlich schon zu groß und es muss großzügig ausgelagert werden.
Wollte ich auch gerade schreiben. Man muss das Model nach dem Ändern von Einstellungen auch entladen und neu laden. GGf auch mal die Anwendung komplett neu starten.
Ich kann nur von mir berichten. Ich war diesem Weg gefolgt:
Wenn ihr links auf "My Models" geht, könnt ihr u.a. auch über das Zahnrad neben dem Modell einstellen, ob die Last eher auf die CPU oder GPU gelegt werden soll, somit kann man unterschiedlich oder gemeinsam die Geschwindigkeit messen, je nach dem was man möchte.
https://s1.directupload.eu/images/250814/fosynpof.png
Ich hatte dort aber kein Übernehmen-Button oder ähnliches und ahnte schon, dass es damit nicht getan war.
Wenn man sich mit der Software nicht auskennt, dann weiß man nicht, wie man die geänderten Einstellungen anwendet.
Mir hatte der Screenshot von @Relex in #2 (https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13797582#post13797582) sehr geholfen. Das Model wird oben in der Leiste angezeigt und über das Zahnrad dort kann man die Einstellungen auch ändern. Und im Gegensatz zum Weg über "My Models" wird dort meistens ein Übernehmen-Button angezeigt. Aber auch nur "meistens", einmal wurde der bei mir nicht angezeigt.
Und in dieser Leiste kann man auch das Model auswerfen (der Eject-Button) und über das Drop-Down-Menü (wo der Model-Name steht) wieder laden, wenn ich mich richtig erinnere.....ich habe die Software bereits deinstalliert.
Gouvernator
2025-08-17, 22:19:00
Lenovo Legion GO mit 16Gb DDR5 Z1 Extreme 30W.
17 t/s.
https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=93920&stc=1&d=1755465809
9950x3D und 5090@Stock
Kann gar nicht so fix schauen, wie das Ding fertig ist.
403W als maximum in HWInfo.
216,15 Token pro Sekunde.
@2.8Ghz und +3000 RAM
223 Token pro Sekunde und 328W
Ergebnis schwankt, eigentlich müsste man das 5x hintereinander mit verschiedenen Phrasen füttern und dann nen Mittelwert errechnen^^
Gouvernator
2025-08-17, 23:28:05
108 t/s
eGPU RTX3090 Oculink/PCIe 4.0 x4
Zen3 5900HX 8-core
32Gb DDR4
hq-hq
2025-08-19, 01:59:20
5090 @ ~3250/17000MHz (es werden bis zu 448Watt gemessen, läuft so kurz und das polling ist nur 1x oder 0,5x pro sec)
9800x3d
https://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=93926&stc=1&d=1755561472
allerdings sinkt bei mehrmaliger Eingabe die toc/sec auf ca. 230, erst wenn man die Harry Potter Summary löscht gehts wieder nach oben...
Immortal
2025-08-19, 09:15:47
Wie sind eigentlich die Ergebnisse der HP-Zusammenfassung von gpt-oss bei euch? Ich hatte das ja oben mal kopiert, war bei mir ziemlich mies, kann der bei dem System zu knappe Speicher da eine Auswirkung haben? Wobei ich da nichts verstellt habe und angenommen hätte, daß das Modell sich nicht selbständig umstellt, also dass, solange der Speicher reicht, die Ergebnisse die gleichen sind, soweit das natürlich möglich ist.
War mir nur aufgefallen, weil auf dem gleichen System kleinere Modelle (irgendwelche quantisierte qwen und gemma 3), die komplett in den VRAM paßten, deutlich bessere Antworten lieferten.
x-force
2025-08-19, 16:34:50
War mir nur aufgefallen, weil auf dem gleichen System kleinere Modelle (irgendwelche quantisierte qwen und gemma 3), die komplett in den VRAM paßten, deutlich bessere Antworten lieferten.
du solltest deinen promt verfeinern, wenn du nicht zufrieden bist.
oss 20b ist der shit, da kommt zur zeit nichts anderes ran, was auf 16gb karten ähnlich schnell läuft.
Immortal
2025-08-20, 07:01:53
Ich bin zufrieden bzw. der Output ist mir relativ egal, war ja nur für den benchmark. Mich hatte nur gewundert, daß ich für den identischen prompt "Fasse mir Harry Potter zusammen" wie vom OP angegeben einen derartigen Müll bekomme, während das bei anderen Leuten mit dem gleichen Modell, oder bei mir mit anderen Modellen, deutlich besser aussah. (Und es war auch mir bei nicht jedes Mal so schlecht.)
Maorga
2025-08-20, 09:06:07
GPU-Offload 24/24, CPU-ThreadPool 1/8
CPU: AMD Ryzen 7 5800X3D 128GB Ram
GPU: RTX 4070Ti, begrenzt auf 228 W
137.52 Tok/Sek Leistungaufnahme von ~186 W
Ich bin zufrieden bzw. der Output ist mir relativ egal, war ja nur für den benchmark. Mich hatte nur gewundert, daß ich für den identischen prompt "Fasse mir Harry Potter zusammen" wie vom OP angegeben einen derartigen Müll bekomme, während das bei anderen Leuten mit dem gleichen Modell, oder bei mir mit anderen Modellen, deutlich besser aussah. (Und es war auch mir bei nicht jedes Mal so schlecht.)
Schau mal ob Unter "Mission Control" die Harmony-Lib einwandfrei installiert wurde. Die Parsed die Daten.
Man könnte auch einfach den Seed in den Modelleinstellungen festlegen. Dann wären die Ergebnisse besser reproduzierbar.
Immortal
2025-08-22, 07:52:01
Danke für den Hinweis, hab nachgeguckt, war aber die neueste Version. Wird wohl der Rechner überfordert gewesen sein.
Stimmt, für richtiges benchmarking wären definierte Ausgangsbedingungen hilfreich.
Loeschzwerg
2025-08-28, 17:01:53
Ich habe gpt-oss:20b via Ollama/OpenWebUI laufen lassen und auch mal mit Gemma3:12b verglichen.
Sys:
i5-11400 @ 4.2GHz allcore
2x 16GB DDR4-3200
RTX 4000 SFF Ada 20GB (70W)
Ubuntu Server 24.04.3 LTS
Gemma3:12B (belegt ~10GB VRAM) -> 28,81 token/s
gpt-oss:20b (belegt ~13GB VRAM) -> 55,34 token/s
CPU: AMD Ryzen 7 9800X3D 32GB Ram
GPU: RTX 4070Ti SUPER
GPU Bench
GPU-Offload 24/24, CPU-ThreadPool 1/8
139,67 Token/s, Peak 231W
CPU Bench
GPU-Offload 0/24, CPU-ThreadPool 8/8
13,58 Token/s
MSABK
2025-08-28, 20:42:53
Notebook: Honor Magicbook Art 14 Snapdragon
CPU: Snapdragon X Elite X1E-80
RAM: 32GB
CPU Thread pool size 9
23,01 tok/sec
Strommessgerät habe ich gerade nicht da.
urpils
2025-08-29, 17:57:01
MacStudio
M4 Max (CPU: 16c GPU: 40c)
48 GB RAM
Standard-Einstellungen: 83,53 tok/sec
Daredevil
2025-08-31, 11:13:04
(x) Rangliste geupdated, vielen dank fürs mitmachen! :)
Es ist ja spannend. Ich hatte bewusst ein "kleines" Modell als Beispiel genommen, damit tatsächlich ja jeder mitmachen kann. Hier sieht man aber in der Liste sehr gut, dass die Spanne riesig ist. Manche SoCs sind sehr langsam, so dass dieser Test hier recht gut gemessen werden kann, eine Kiste wie die 5090 sind hingegen extrem schnell, so das es hier zu Messungenauigkeiten kommen könnte. Man kann hier natürlich die Modellgröße explizit erhöhen, aber irgendwann wird ein größerer Speicher als 24GB benötigt, was wiederum quasi alles andere außer die Apple SoCs und die 5090 rauskugelt, was ja auch nicht Sinn der Sache ist.
PS: Nvidia ist Grün, AMD rot, Intel Blau, Apple weiß, welche Farbe hat denn Qualcomm? :D
MacStudio
M4 Max (CPU: 16c GPU: 40c)
48 GB RAM
Standard-Einstellungen: 83,53 tok/sec
Hast du ne Ahnung was der M4 Max so pi mal Daumen verbraucht dabei? Dann überreiche ich dir sehr gerne die Effizienzkrone. ^^
iStat Menus ist hier ganz gut zum tracken, das verhält sich ähnlich wie CPUz/GPUz
mich würde ehrlich gesagt auch cost per token interessieren :)
gerade bei den macs
urpils
2025-08-31, 21:35:08
(x) Rangliste geupdated, vielen dank fürs mitmachen! :)
Es ist ja spannend. Ich hatte bewusst ein "kleines" Modell als Beispiel genommen, damit tatsächlich ja jeder mitmachen kann. Hier sieht man aber in der Liste sehr gut, dass die Spanne riesig ist. Manche SoCs sind sehr langsam, so dass dieser Test hier recht gut gemessen werden kann, eine Kiste wie die 5090 sind hingegen extrem schnell, so das es hier zu Messungenauigkeiten kommen könnte. Man kann hier natürlich die Modellgröße explizit erhöhen, aber irgendwann wird ein größerer Speicher als 24GB benötigt, was wiederum quasi alles andere außer die Apple SoCs und die 5090 rauskugelt, was ja auch nicht Sinn der Sache ist.
PS: Nvidia ist Grün, AMD rot, Intel Blau, Apple weiß, welche Farbe hat denn Qualcomm? :D
Hast du ne Ahnung was der M4 Max so pi mal Daumen verbraucht dabei? Dann überreiche ich dir sehr gerne die Effizienzkrone. ^^
iStat Menus ist hier ganz gut zum tracken, das verhält sich ähnlich wie CPUz/GPUz
leider nicht.. aber ich könnte mal die USV anschließen, die ich hier liegen habe. vielleicht spuckt die es ja aus
Ich fände es sinnvoll den Seed auf zB. "42" festzulegen,
die Resultate schwanken auf der selben HW schon sehr stark
Darkearth27
2025-09-02, 12:16:24
CPU: 7800X3D
RAM: 48 GiB @ 6600 / 2200
GPU: 4090 @ Stock
170.60 toc/sec
Sonst nichts weiter eingestellt. Modell geladen und fertig.
Überwachung für die Leistungsaufnahme habe ich nicht aktiv gehabt, das gesamte System zeigte mir am "Lutsch-O-Meter" 448W peak an.
Mit GPU / VRAM OC steigen die Toc/sec auf 186.69
vBulletin®, Copyright ©2000-2025, Jelsoft Enterprises Ltd.