Künstliche Intelligenz [Archiv] - Seite 12

Archiv verlassen und diese Seite im Standarddesign anzeigen : Künstliche Intelligenz

Seiten : 1 2 3 4 5 6 7 8 9 10 11 [12] 13

Fusion_Power

2026-03-21, 15:22:43

Enorme Kampfansage von Nvidia mit Open Source Models gegen die großen bekannten Firmen.
Immerhin auch europäische Unternehmen dabei. :)

https://s1.directupload.eu/images/260316/h86uorqd.png

https://s1.directupload.eu/images/260316/6pgf2xtz.png
Flux ist made in germany? ok, wusste ich nicht. Immerhin ,dann besteht ja noch Hoffnung dass wir hier auch ein wenig mitmischen können im großen Business.

Bernie vs. Claude. Who wins? Who's next? :cool:

h3AtWdeu_G0

Monkey

2026-03-21, 19:32:02

Würdet ihr sagen 48gb mit Apple reicht um ausgiebig mit llm zu spielen/testen? Würde gerne bei Amazon kaufen aber da gibts die 64gb Version vom 16er m5max nicht…

Daredevil

2026-03-21, 20:37:31

Klar. Mit 48GB bist du weit über dem "Windows AI Standard" mit 16/24/32GB und demnach sollten quantisiert ziemlich viele Dinge bei dir laufen. Wenn du wirklich was richtig gutes haben willst z.B. beim Coding, würden dir die 128GB auch nicht reichen, da reden wir dann von 200-500GB und die gibts mit dem Max eh nicht. Also wir reden dann von GPT4 Qualität, grob über den Daumen gepeilt.

Also ob du ein LLM mit 40GB 4bit oder 60GB 8bit nimmst, macht sicherlich einen Unterschied, es wird aber nicht Tag und Nacht sein. Einzig und alleine bei den Bildmodellen entscheidet sich das ganze zwischen "geht" und "geht nicht", aber auch hier gibts ja Quantisierung. Fürs Gaming ist das alles egal, 48GB sind sehr solide fürs testen und spielen, richtig arbeiten würde ich damit allerdings nicht. Da sind mir selbst meine 96GB zu klein und es macht schlicht mehr sinn, auf Cloud Modelle zu greifen.

Wenn man aber breit AI Anwendungen testen will, gibts imho nicht besseres als ein Mac. Die sind im Vergleich zu Blackwell zwar langsamer, sie sind aber flexibler wegen dem VRAM. Jetzt mal unabhängig davon, dass die Nvidia Kisten mehr saufen. Ein M5 Max sollte mit den richtigen Tools einen M3 Ultra locker hinter sich lassen und der ist im LLM Benchmark hier im Forum quasi halb so schnell wie eine 5090.

Fusion_Power

2026-03-21, 20:46:49

Gibts ne Übersicht welche gescheiten local KIs womit kompatibel sind? Also AMD, Intel, Nvidia, Mac… ich meine halt HW Unterstützung. Da solls in der Vergangenheit ja noch gehapert haben. Nicht dass man sich nen KI Rechner anschafft und dann läuft das gewünschte KI Tool nicht mal damit oder so. Ich überlege mir nen (x86) Mini PC mit iGPU oder so zuzulegen, nicht ideal aber immerhin dank shared RAM keine großen Probleme was das angeht.

Daredevil

2026-03-21, 20:57:54

Grundsätzlich gilt, je neuer die Architektur desto höher die KI Leistung.
Zudem gilt: Nicht die Hardware muss unterstützt werden, sondern die Software.
Cuda ist weit über allem, dann kommt Apple beim Support durch die Community, dann AMD und dann Intel. Ein MacMini mit M4, besser in Zukunft M5 wäre also ideal, ansonsten eine AMD Kiste, wobei RDNA3 jetzt nicht unbedingt glänzt, aber es geht. Besser wäre immer Nvidia, nur davon gibts keine MiniPCs, solang man den DGX Spark ignoriert weil Preis. Tut aber natürlich weh, diese 250€ Aufpreis nicht mitnehmen zu können bei dem Gesamtpreis.

Fusion_Power

2026-03-21, 21:11:57

Ja, wegen Budget und so weiter kommt für mich eh nix mit dedizierter (Nvidia) Grafikkarte in Frage, außerdem will ich eh nur ein kleines System mit iGPU, halt nicht mal unbedingt für KI. Würde eh nur damit experimentieren Bilders, Video, nix ernstes, hauptsache Unzensiert weil Grok mich aktuell maßlos ankotzt und unfassbar enttäuscht hat, diese Verräter.
Aber erst mal was passendes finden, die Auswahl an Hardware und Software ist ja groß. Apple schließe ich aber schon mal kategorisch aus, ich brauch nen Win PC für gewisse andere Dinge, da führt leider aktuell kein Weg vorbei.

aufkrawall

2026-03-22, 00:23:35

Xiaomi ist nun auch mit im Rennen der top (bald) open-weights Modelle:

Oder auch nicht, auch Minimax M2.7 ist nun proprietär. Das ging schnell. GLM 5.1 soll noch open sein.

In OpenCode/Kilo lässt sich jetzt auch GPT-5.4 auf xhigh Reasoning einstellen. Im Plan-Modus denkt das wirklich erstmal ewig nach. Kann mich nicht erinnern, dass mir das in Copilot CLI so aufgefallen wäre. Erzwungenes Reasoning medium in VS Code ist gefühlt schon massiv dümmer.

nairune

2026-03-22, 02:28:13

Man kann auch in VS Code das reasoning der GPT Modelle einstellen. Auf medium lief da bei mir schon seit Monaten nichts...

aufkrawall

2026-03-22, 02:41:04

Wenn es nicht im GUI exposed ist, kann ich auch gleich CLI nehmen, anstatt mühsam hinterher zu googeln, wenn Antworten in Foren unbefriedigend sind.

mironicus

2026-03-22, 12:01:27

Also bei generativer KI mit Bild und Videoerstellung gibt es Hoffnung, und Tools wie Wan2GP können große Modelle wie Qwen Image und LTX 2.3 auf Grafikkarten unter 16 GB lauffähig machen.

Argo Zero

2026-03-22, 14:10:47

Also im Bereich pixelgenaue Banner erstellen sind AIs noch richtig mies. Also nicht nur ein bisschen, aber richtig.
Mein "Trick" ist aktuell daher, dass ich HTML Design Skills "missbrauche" für den Job.
Aber dann zu sagen "Baue aus dem vorhanden Design aus der HTML Datei eine Anzeige in der Größe 138x200mm" endet im epic fail xD
Da muss man aktuell leider noch 2-3 Umwege gehen.

Fusion_Power

2026-03-22, 14:14:53

Also bei generativer KI mit Bild und Videoerstellung gibt es Hoffnung, und Tools wie Wan2GP können große Modelle wie Qwen Image und LTX 2.3 auf Grafikkarten unter 16 GB lauffähig machen.
Ja reicht dann eventuell auch ne (moderne) APU mit halbwegs gescheiter iGPU dafür aus wo man zumindest genug RAM für reservieren kann? Und wie lange dauert es dann z.b. ein 6s 480p Video zu generieren? (ehemals Grok Free User Standard). Video ist ja immer noch das mit Abstand aufwändigste was man mit KI machen kann.

Also im Bereich pixelgenaue Banner erstellen sind AIs noch richtig mies. Also nicht nur ein bisschen, aber richtig.

Würde mich auch wundern wenn man mit KI (aktuell) auch nur irgend was "genaues" erstellen könnte, schon gar nicht "pixelgenau".

aufkrawall

2026-03-22, 16:21:27

Oder auch nicht, auch Minimax M2.7 ist nun proprietär.
Doch nur vorübergehend:
https://x.com/SkylerMiao7/status/2035713902714171583

Das Modell soll sich btw. als offenbar erstes LLM selbst verbessert haben und könnte real trotz der geringen Größe bei Coding wirklich besser oder zumindest auf dem Level von GPT-5.2 sein. Schon verrückt.

pest

2026-03-23, 22:48:23

Das Modell soll sich btw. als offenbar erstes LLM selbst verbessert haben

was soll das konkret heißen?

ja ich habe https://www.minimax.io/news/minimax-m27-en überflogen

GelbeSeite

2026-03-23, 23:18:31

was soll das konkret heißen?

ja ich habe https://www.minimax.io/news/minimax-m27-en überflogen
Dem Link nach, Vibe Coding.

pest

2026-03-24, 08:37:44

Dem Link nach, Vibe Coding.

Jedes LLM kann sich "selbst verbessern", dass die Gewichte statisch sind, ist eine Konsequenz der enormen Kosten des Trainings

Alle Modelle an denen ich baue, verbessern sich nach jeder Eingabe selbst :rolleyes:

was hier passiert ist, dass auf ner Meta-ebene Agentenstrategien mehr oder minder automatisiert getestet werden, aber keinerlei Verbesserungen am Basis-Modell durchgeführt werden :confused:

aufkrawall

2026-03-24, 20:59:31

Ich kenne auch nur den Blog-Post. Innerhalb von 31 Tagen auf dem AA-Index ein Sprung von +8 bei gleichzeitig ca. gleich niedrig bleibenden Kosten und zusätzlich deutlich gesenkter Halluzinationsrate ist schon ein ziemliches Novum. Das Modell hat nur 1/3 (!) der Parameter von GLM 5. Es wird aber wohl bald auch ein größeres Minimax-Modell geben, inkls. Multimodalität.

Rooter

2026-03-24, 21:12:51

Ich lese hier nicht mehr alles mit, hattet ihr das hier schon?

Musiker gesteht Betrug: 12 Mio. US-Dollar Streaming-Tantiemen mithilfe von KI-Bots (https://www.computerbase.de/news/wirtschaft/musiker-gesteht-betrug-12-mio-us-dollar-streaming-tantiemen-mithilfe-von-ki-bots.96617/)

X-D

MfG
Rooter

GelbeSeite

2026-03-24, 23:13:26

Sora (der KI Video Dienst mit dem besten Textverständnis) wird abgeschaltet.
Ist OpenAI, oder? Sparen Geld wo es nur geht.

aufkrawall

2026-03-24, 23:19:06

Sehr gute Nachricht, größter Dünnschiss ever. GPT-5.4 mit den Verbesserungen für Dokumente war auch schon ein Schritt in die richtige Richtung bzw. traurig, dass das so lange auf sich warten ließ. In die Richtung muss es weiter gehen, sodass man einfach jede Form von Dokumenten in ein LLM schmeißen kann und mit sehr hoher Sicherheit endlich das Gewünschte rausbekommt.

Erbsenkönig

2026-03-25, 09:09:51

https://x.com/karpathy/status/2036487306585268612

Vielleicht nutzt hier ja jemand LiteLLM.

mironicus

2026-03-25, 20:54:07

Kathy

2026-03-25, 21:06:20

Ich nutze prinzipiell für alles nur noch Kimi K2.5. Seitdem das auch multimodal ist, ist das ungeschlagen für mich. Gerade wenn es um Suche nach Infos im Internet geht, ist das ziemlich geil, weil so transparent und da endlose Suchen gestartet werden iterativ, bis man findet, was man sucht. Kimi ist von Grund auf immer auf agentic ausgelegt gewesen.

For complex tasks, Kimi K2.5 can self-direct an agent swarm with up to 100 sub-agents, executing parallel workflows across up to 1,500 tool calls. Compared with a single-agent setup, this reduces execution time by up to 4.5x. The agent swarm is automatically created and orchestrated by Kimi K2.5 without any predefined subagents or workflow.

https://www.kimi.com/blog/kimi-k2-5

Wer hat das noch? Ich glaube keiner. Kimi hat bisher immer hervorgestochen wenn es um toolcalls geht. :)

Fusion_Power

2026-03-25, 22:36:03

Für AMD Strix Halo und AMD Ryzen AI 300/400-Besitzer, bzw. RDNA3+ Grafikkarten gibt es von AMD ein Tools was "Lemonade" heißt. Ich habe vorhin die aktuellste Version installiert und daraus ist ein mächtiges All-In-One Tool geworden.

https://github.com/lemonade-sdk/lemonade

Modell-Unterstützung: https://lemonade-server.ai/models.html

Es unterstützt z.B.

Modell-Unterstützung (für Besitzer von Strix Halo mit 128 GB ein Muss)
Qwen3-Next-80B-A3B-Instruct-GGUF
Qwen3.5-122B-A10B-GGUF
gpt-oss-120b-mxfp-GGUF

Stable Diffusion (KI-Grafiken)
Flux-2-Klein-9B-GGUF

Text-to-Speech
Whisper

Sind nur eine kleine Auswahl. Außerdem viel NPU-optimierte Text LLM. Ein Schlaraffenland für AMD-Besitzer. Und AMD arbeitet auch noch an einer eigenen Version von OpenClaw, das sie AMD Claw nennen.

AMD nimmt es also ernst, vor allem Strix Halo als Konkurrenz zum DGX Spark zu positionieren.
Zufällig diskutiere ich gerade mit ner KI was für meinen Fall das Beste wäre für lokale (generative) KI Modelle und welche Hardware dafür in mein Budget passt. Ich tendiere zu nem Mini PC mit genug shared RAM und ordentlicher (AMD) APU für bissle Bilder/Videos, nix großes. Dedizierte GPU wäre sicher besser aber kostet halt, zumal ich da auch noch nen ausgewachsenen neuen PC drum herum bräuchte.
Copilot rät mir auch eindeutig zu AMD… und findet deinen Post übrigens super relevant zu dem Thema. ;) auch wenn ich mit den genannten Begriffen da noch wenig anfangen kann.
Hoffe es gibt auch lokale KI Modelle wo man ohne viel gefrickel oder überladenen GUIs was raus holen kann. Soll ja nicht ausarten. Aber da eh ein neuer PC her muss, warum nicht auch bissl auf KI Fähigkeiten achten.

aufkrawall

2026-03-25, 22:43:41

Wer hat das noch? Ich glaube keiner. Kimi hat bisher immer hervorgestochen wenn es um toolcalls geht. :)
Mittlerweile Grok 4.20. Kimi ist schon gut, ist für schnelle, nicht zu komplexe Anfragen auch eine prima Alternative zu Gemini.
GLM 5 hat aber merkbar mehr Debug-Grips. Gut möglich, dass Minimax M2.7 da mittlerweile auch besser ist. Richtig interessant wird es mit Kimi K3 und nativer Multimodalität in zukünftigen GLM/Minimax-Versionen. Wenn das dann noch mit Inferenz auf Huawei-TPUs läuft, wär es The Real China-Deal.
Wenn Deepseek nicht noch einen Überraschungsknüller zündet, wurde denen mittlerweile der Rang abgelaufen.

Daredevil

2026-03-25, 22:53:13

Du wirst mit einer APU nicht unbedingt viel Freude haben, du brauchst Performance, Bandbreite und Speicher, quasi in allem außer Speicher mangelt es. Also du wirst sicherlich LLMs zum laufen bekommen, die meilenweit entfernt sind von dem, was gut ist. Wenn du mit Grok unzufrieden warst, kannst du mit einer APU Minuten auf ein ordentliches Bild warten, auf ein kleinen Videoclip Stunden.
Was für dich eigentlich eher geeignet ist, sind Online Dienste wie Sogni.ai, dort kannst du gegen gekaufte Token offene Modelle laufen lassen, die P2P von anderen zur Verfügung gestellt werden. Das ist weitaus sinnvoller, als das man seine Zeit mit einer APU vergeudet.

Basic LLMs wirst du hinbekommen, Bilder werden sehr zäh sein in ausreichender Qualität, Video kannst du vergessen, weil du für jedes sicherlich mehr als ne Stunde warten musst. Copilot rät dir nicht zu AMD, weil es eine gute Option ist, sondern weil AMD die einzige aktuelle Option ist in MiniPCs mit Windows. :D
Einzig und alleine was man machen könnte, wäre eine Panther Lake APU mit der dicken GPU Einheit, die kostet aber dann wiederum sicherlich.

Hier im GPT Benchmark Thread sind auch APUs zu finden:
https://www.forum-3dcenter.org/vbulletin/showthread.php?t=622170
Das gpt-oss-20b Model ist mittlerweile kalter Kaffee und eigentlich ziemlich dumm. Dort schiebt ne AMD APU 6-13t/s durch die Gegend, das ist schon sehr mager.

Fusion_Power

2026-03-25, 23:01:57

Du wirst mit einer APU nicht unbedingt viel Freude haben, du brauchst Performance, Bandbreite und Speicher, quasi in allem mangelt es. Also du wirst sicherlich LLMs zum laufen bekommen, die meilenweit entfernt sind von dem, was gut ist. Wenn du mit Grok unzufrieden warst, kannst du mit einer APU Minuten auf ein ordentliches Bild warten, auf ein kleinen Videoclip Stunden.
Was für dich eigentlich eher geeignet ist, sind Online Dienste wie Sogni.ai, dort kannst du gegen gekaufte Token offene Modelle laufen lassen, die P2P von anderen zur Verfügung gestellt werden. Das ist weitaus sinnvoller, als das man seine Zeit mit einer APU vergeudet.

Basic LLMs wirst du hinbekommen, Bilder werden sehr zäh sein in ausreichender Qualität, Video kannst du vergessen, weil du für jedes sicherlich mehr als ne Stunde warten musst. Copilot rät dir nicht zu AMD, weil es eine gute Option ist, sondern weil AMD die einzige aktuelle Option ist in MiniPCs mit Windows. :D
Einzig und alleine was man machen könnte, wäre eine Panther Lake APU mit der dicken GPU Einheit, die kostet aber dann wiederum sicherlich.
Wir diskutierten auch Panther Lake und allgemein soll die Kompatibilität mit KI Modellen bei AMD wesentlich größer sein als bei Intel. Gibt jedenfalls auch genug Intel basierte Mini PCs.
Copilot mag sich irren aber angeblich kriegt man auch mit ner aktuellen 300er/400er Ryzen AI APU gescheite Videos hin, zumindest wenns maximal 720p ist. Angeblich weniger als 10s benötigt pro Sekunde Video Generierung, find ich ok. Kommt sicher auf die Software an.
Ich war nicht mit der Quali von Grok unzufrieden sondern mit der zunehmenden Moderierung… und Imagine ist halt nun komplett tot, wegen ein paar Idioten die unbedingt Bikinibilder von echten Menschen generieren mussten. Ich hab da nur Fantasy Stuff gemacht und mehr muss ne Bild/Videogenerierung auch nicht leisten. Dämonen, Monstergirls, Transformations… das „übliche“ halt. Flux-Klein oder Stable Diffusion 1.5 und so weiter wird das ja wohl auch mit APU geschissen bekommen. Ich verlange kein HD oder high end.

Das einzige was mich überraschte war, als Copilot mir sagte dass man für generative KI die ständig beworbene „NPU“ Power moderner AI Chips gar nicht nutzen kann… Ja wozu wird der Mist dann so penetrant und überbrodelnd beworben? :freak:

mironicus

2026-03-25, 23:24:34

Also GPT-OSS-120B schafft auch so 40-45 Tokens/Sekunde auf Strix Halo, und ich habe nur ein HP Zbook das mit maximal 65-80 Watt TDP läuft. Mit 120 Watt TDP und ein Mini-Desktop wohl mehr.

Ein M5 Max mit 128 GB (6249 Euro) ist schneller (60-80 Tokens).
https://www.hardware-corner.net/m5-max-local-llm-benchmarks-20261233/

Also Lemonade ist für mich ein Gamechanger, das wird von AMD direkt unterstützt. Vor ein paar Monaten unterstützte das Programm nur eine Handvoll LLM, jetzt ist es ein Text, Bild und Audiotool geworden.

Auch ein 235B-Modell läuft mit immerhin 11 Tokens/Sekunde auf Strix Halo.
QWEN3 Big and Small – 235B-Coder-A22B Instruct 2507 – 11 t/s – Strix Halo – Debian 12 – ROCk 7.0 – LLAMA-ROCM b1057 (Lemonade v8.1.10)
https://netstatz.com/strix_halo_lemonade/

Daredevil

2026-03-25, 23:32:05

Ja klar läuft Strix Halo, da reden wir ja auch von RDNA 3.5, bedeutend mehr Shader Einheiten und ebenso viel mehr Bandbreite + Unified Memory. Das entspricht ja denke mal nicht der "günstigen APU", die Fusion meint. ^^

Copilot mag sich irren aber angeblich kriegt man auch mit ner aktuellen 300er/400er Ryzen AI APU gescheite Videos hin, zumindest wenns maximal 720p ist. Angeblich weniger als 10s benötigt pro Sekunde Video Generierung
Ich glaube wenn das so einfach wäre, hätte Gouvernator schon nen Oscar bekommen. ^^
Also ja, wenn du ein MiniWini Model nimmst, könnte dies vielleicht der Realität entsprechen, aber dann ist der Output aber einfach nur Energieverschwendung... oder so.
Ich will dir das auch gar nicht ausreden, will nur die Erwartungen ein wenig glätten. Bastel dir was zusammen und teil es gerne mit uns! :)
Ich empfinde bereits den M3 Ultra für einen HQ Video Workflow, der wirklich zum basteln einläd als ungeeignet. Alle paar Minuten ein Ergebnis macht einfach wenig Spaß.
LLMs klappen super, Bilder sind okayisch, beim Video ist die Kiste so lala. Aber da gibts ja in Zukunft hoffentlich eine Ablöse für. :c

Fusion_Power

2026-03-25, 23:53:27

Ich plane eh schon länger mit MiniPC oder Laptop. Lappy sind potentiell teurer bei gleicher APU und werden gerne unnötig laut. Ich zocke kaum noch und das KI Gedöns wäre eher schmückendes Beiwerk, also passt so ein kompaktes Dingelchen mit Mobile APU schon ganz gut zu mir. Falls ich Laie das eh je zum laufen bekomme ohne nen Master in lokaler KI Benutzung machen zu müssen. Aber ja, Strix Halo ist definitiv zu teuer und wird sicher auch nicht mehr billiger weil AMD meint sie müssen das möglichst teuer anbieten in egal welcher Konfiguration. Schadö.

pest

2026-03-26, 09:12:16

https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

Speicherpreise wieder runter!

pest

2026-03-26, 15:16:41

Habe Gemini gefragt ob A oder B besser ist

Die Antwort ist: Ja

;D

Wer den Witz nicht sieht: Gimini möchte User-Feedback über 2 mögliche Ausgaben. Normalerweise bekommste die selbe Antwort nur anders verpackt.
Diesmal soll ich mich entscheiden, was richtig ist

aufkrawall

2026-03-26, 22:11:45

Wenn es nicht im GUI exposed ist, kann ich auch gleich CLI nehmen, anstatt mühsam hinterher zu googeln, wenn Antworten in Foren unbefriedigend sind.
Nun offiziell neu:
https://code.visualstudio.com/updates/v1_113#_configurable-thinking-effort-in-model-picker

Gibt aber im UI kein xhigh zur Auswahl. Wobei ich den Eindruck habe, dass Copilot CLI dabei auch schummelt, weil die Antwortzeiten massiv kürzer als in OpenCode mit xhigh sind, während Opus und Gemini sich in Copilot und OpenCode gleich verhalten.

pest

2026-03-26, 22:28:55

Neuen magic prompt gefunden
"Challenge my method as hard as possible!"

Claude spuckt eine critique map aus - fu :freak:

Kimi meint gleich: "Your code is a prototype, not an algorithm"

Kathy

2026-03-26, 23:14:37

Kimi meint gleich: "Your code is a prototype, not an algorithm"

Kimi ist auch das am wenigsten sychopanticste AI. Das liebe ich an KIMI. ^^

aufkrawall

2026-03-26, 23:17:38

In einem Coding Harness sind die eigentlich alle ziemlich sachlich unterwegs. Wobei die chinesischen Modelle allgemein wohl etwas weniger schleimen.

Erbsenkönig

2026-03-27, 06:19:47

Habe Gemini gefragt ob A oder B besser ist

Die Antwort ist: Ja

Nun gut, das macht meine Herzensdame manchmal auch, das sehe ich nicht so kritisch.;D

aufkrawall

2026-03-28, 00:55:18

Anthropic hat nach den Bonuszeiten mit erhöhtem Guthaben jetzt das Gegenteil gebracht: Zeiten, wo das fünfstündliche Limit wesentlich schneller aufgebraucht wird.
Und angeblich soll bald ein Modell über Opus kommen, mit zehn Trilliarden Parametern, also mutmaßlich das Drei- bis Vierfache von Opus.
Wohl keine gewagte Prognose, dass das die Server für die anderen Modelle stark in Mitleidenschaft ziehen wird.

GLM 5.1 ist erschienen und auch im 10$-Plan. Gibt noch kaum Benchmarks, ist aber wohl noch stärker auf Agentic Coding ausgerichtet, und zumindest derzeit noch ziemlich langsam.

GelbeSeite

2026-03-28, 14:50:59

Ich hab heute mal Qwen 3.5 122B A10B lokal ausprobiert. Verdammt schnell, schreibt quasi direkt los, und packt so normale Programmierfragen erstaunlich gut.

Daredevil

2026-03-29, 11:43:46

Ich finds immer wichtig zu erwähnen, weil es die Basis ist. Was zählt bei KI sind Daten/Modelle, Performance/Hardware und Software/Programme. Jeder der drei Säulen kann einen signifikanten Unterschied in der Nutzung von KI machen. In der heutigen Zeit fokussiert man sich offenbar nicht mehr unbedingt auf Daten, weil die Erhebung teilweise schon erschöpft sind, sondern auch effiziente Modelle und ebenso effiziente Software. Das bedeutet natürlich nicht, das man jetzt 200b Modelle auf 8GB laufen lassen kann. Die Einstiegshürden werden natürlich geringer, aber die Qualität wächst auch weiterhin an, wenn man viel Speicher hat. Eine gute Entwicklung! :)
Ebenfalls ist natürlich auch nett, dass CPUs mal was zum arbeiten bekommen und nicht nur der coole Sidekick von der GPU sind.

ComfyUI mit Dynamic VRAM
https://s1.directupload.eu/images/260329/kig6buf3.png

Raja schreibt dazu:
https://x.com/RajaXg/status/2037622039314670076
I warned my memory friends a few months ago..there are tons of optimizations available across the whole stack to reduce memory capacity and bandwidth...as long as memory was relatively "cheap" , we stay lazy...constraints unleash creativity..I hear the memory supply chain constraints won't be solved till 2030..prepare for deluge of creativity..it hasn't been a week since Turbo quant... not only in software, but you will some insanely cool hardware improvisations and new suppliers emerge to to the top as well

Maorga

2026-03-29, 22:55:14

Gibt es ein Tool für Ollama, um PDF einlesen zu können? Bzw. OCR zu machen und dies an das LLM weiterzuleiten?

aufkrawall

2026-03-29, 22:59:22

Das schon probiert?
https://huggingface.co/zai-org/GLM-OCR

gHi

2026-03-30, 15:42:15

Gibt es ein Tool für Ollama, um PDF einlesen zu können? Bzw. OCR zu machen und dies an das LLM weiterzuleiten?

llama.cpp und ik_llama.cpp haben webui eingebaut, wenn du ein VL mmproj mitlädst kann das llm abhängig vom pdf den text oder die seiten als bilder erkennen und dann kannst du darüber sprechen. habe ich mit dem batch so gemacht.
bsp für llama.cpp windows

@echo off
setlocal
title RTX 5080

set "LLAMA_EXE=C:\llamacpp\b8461\llama-server.exe"
set "MODEL_PATH=C:\_HF_LLM\unsloth-Qwen3.5-35B-A3B-MXFP4-BF16F.gguf"
set "MMPROJ_PATH=C:\_HF_LLM\unsloth-Qwen3.5-35B-A3B-mmproj-BF16.gguf"

set "PORT=8080"

echo Starte llama.cpp Text Server...

start "llama-server" /affinity FFFF /wait /b "%LLAMA_EXE%" ^
--model "%MODEL_PATH%" ^
--mmproj "%MMPROJ_PATH%" ^
--ctx-checkpoints 16 ^
--image-min-tokens 1024 ^
--host 0.0.0.0 ^
--port %PORT% ^
--reasoning off ^
--n-gpu-layers 999 ^
--n-cpu-moe 26 ^
--flash-attn on ^
--cache-type-k q8_0 ^
--cache-type-v q8_0 ^
--ctx-size 98304 ^
--batch-size 2048 ^
--ubatch-size 1024 ^
--no-mmap ^
--mlock ^
--prio 2 ^
--threads 8 ^
--threads-batch 16 ^
--fit on ^
--fit-target 768 ^
--jinja ^
--alias myLLM ^
--metrics ^
--cache-ram 8192 ^
--temp 0.7 ^
--top-k 20 ^
--top-p 0.8 ^
--min-p 0.00 ^
--repeat-penalty 1.0 ^
--presence-penalty 1.5

pause

:: 262144 196608 163840 131072 114688 98304 73728 65536 49152
:: --chat-template-kwargs "{"enable_thinking":false}" ^

Maorga

2026-03-30, 15:45:49

@aufkrawall: Habe das Modell heruntergeladen und probiert. Es funktioniert super, wenn ich eine Bilddatei bzw. Screenshot von dem PDF nutze. Mit dem PDF an und für sich kann sie nichts anfangen.
Über die im Internet angeboten GPT funktioniert mein Verwenden der PDFs und daraus die Daten extrahieren sehr gut. Ich würde gerne diesen Prozess lokal laufen lassen. Die großen Anbieter müssen jetzt nicht alles von mir wissen. Vielleicht hätte man die PDFs bessern einscannen sollen, so mit 300 DPI oder 600, damit der OCR des Scanners besser geht.

Ich schaue auf jeden Fall noch, ob es da Lösungen gibt.

pest

2026-03-30, 18:37:31

Über die im Internet angeboten GPT funktioniert mein Verwenden der PDFs und daraus die Daten extrahieren sehr gut. Ich würde gerne diesen Prozess lokal laufen lassen. Die großen Anbieter müssen jetzt nicht alles von mir wissen. Vielleicht hätte man die PDFs bessern einscannen sollen, so mit 300 DPI oder 600, damit der OCR des Scanners besser geht.

Ich schaue auf jeden Fall noch, ob es da Lösungen gibt.

die GPT im Internet sind Software-Pakete keine Modelle - ein LLM kann kein PDF parsen
Entweder die Seiten per Bild in einen Vision-Transformer hauen
oder mittels https://github.com/py-pdf/pypdf den raw-text extrahieren

Skysnake

2026-03-30, 19:25:08

So hab seit heute GitHub mit CoPilot laufen. Macht mit GOT 5.4 einen deutlich besseren Eindruck als die Web basierten LLMs.

Allerdings rödelt das Ding schon ne halbe Stunde nachdem es in ersten Versuch zu nem Verlust vom Internet gekommen ist....

Ich bin mir da ehrlich gesagt nicht sicher ob das überhaupt noch was macht. Immerhin scheint es trotzdem den Premium Prompt nur wie nen relativ simplen zu zählen. Das ist irgendwie schon seltsam.

Ich sehe halt echt keinen weiteren Progress. Das ist schon seltsam.

Marscel

2026-03-30, 19:54:58

die GPT im Internet sind Software-Pakete keine Modelle - ein LLM kann kein PDF parsen
Entweder die Seiten per Bild in einen Vision-Transformer hauen
oder mittels https://github.com/py-pdf/pypdf den raw-text extrahieren

Oder vorher als Bilddatei speichern und dann in das GLM-OCR :uhippie:

Maorga

2026-03-30, 21:35:13

llama.cpp und ik_llama.cpp haben webui eingebaut, wenn du ein VL mmproj mitlädst kann das llm abhängig vom pdf den text oder die seiten als bilder erkennen und dann kannst du darüber sprechen. habe ich mit dem batch so gemacht.
bsp für llama.cpp windows

Hat funktioniert, allerdings nutzte es nur die CPU, die GPU schlief gemütlich. Ich habe extra ein kleineres Modell genommen, welches in meinem VRAM passt. Ich nutze eine 4070TI.

Wuge

2026-03-30, 22:24:01

Ist es eigentlich praktikabel einen eigenen AI Bot mit nem modernen modell lokal laufen zu lassen? Also sowas wie ChatGPT, ggf. mit nem besseren modell als in der free/web version. 5090 wäre da...

GelbeSeite

2026-03-30, 22:54:27

Ist es eigentlich praktikabel einen eigenen AI Bot mit nem modernen modell lokal laufen zu lassen? Also sowas wie ChatGPT, ggf. mit nem besseren modell als in der free/web version. 5090 wäre da...
Was heißt schon praktikabel? 95% der produktiven Sachen kann man auch mit den kostenlose KIs wie ChatGPT und Claude machen.
Wenn du rumbasteln willst und ein Hobby brauchst, ja sind praktikabel. Man kann sich sogar ein produktives Setup basteln. Nur hat man dann durchs Rumbasteln schon so viel Zeit verloren, effizient ist man dann nicht mehr.

So Rumbasteln damit lehrt mich aber viel über KI und LLMs. Grad bei etwas limitierten Modellen lernt man Stärken und Schwächen viel besser kennen.

pest

2026-03-30, 23:02:17

Ist es eigentlich praktikabel einen eigenen AI Bot mit nem modernen modell lokal laufen zu lassen? Also sowas wie ChatGPT, ggf. mit nem besseren modell als in der free/web version. 5090 wäre da...

Du könntest auf einer 5090 bis max 27-32b gehen
Die lokalen Modelle in der Größe sind m.M. deutlich schlechter als die FreeChat Varianten
In einem RAG-Kontext (also Q/A auf PDF) aber sehr sinnvoll.

Nimm einfach ChatGPT,Gemini,Claude,KIMI und GLM gleichzeitig

Zusätzlich hast du dort automatisch "intelligenten Toolsupport" mit zB. Websuche

Daredevil

2026-03-30, 23:05:16

Ist es eigentlich praktikabel einen eigenen AI Bot mit nem modernen modell lokal laufen zu lassen? Also sowas wie ChatGPT, ggf. mit nem besseren modell als in der free/web version. 5090 wäre da...
Das beste was du wahrscheinlich gerade tun kannst ist Nemotron3, erwarte aber nicht, dass dies besser ist als die Online Versionen wie Gemini/Claude und co. Du wirst Pi mal Daumen GPT3/4 Leistung erreichen, je nach Fokus mal mehr, mal weniger. Für mehr "breite" fehlt es der Karte an VRAM, du kannst allerdings die Belastung zum RAM ein wenig Splitter in LM Studio. Bastel also halt ein wenig rum. Die Frage des "Warum?" musst du natürlich beantworten. ^^

pest

2026-03-30, 23:48:28

Das beste was du wahrscheinlich gerade tun kannst ist Nemotron3

https://lmstudio.ai/models/nemotron-3

Zumindest Benches nach ist es aber auch nicht wesentlich besser als GPT-OSS 20B

Der Witz an der Nemotron Familie ist die Geschwindigkeit aufgrund der Mamba-Architektur

Daredevil

2026-03-30, 23:54:49

Mit besser meinte ich damit nun auch nicht unbedingt das Ergebnis, sondern eben die einzelnen Vorteile aufgrund der Architektur.
Es ist schneller, hat nen größeres Kontext Fenster, mehr Parameter und halt einfach für Blackwell polierter bzw. schlicht moderner.

Wenn man schneller ist, könnte man u.U. auch einfach mehr Reasoning reinpflanzen bzw. wenn das generieren halt schneller ist, bekommt man Sachen einfach schneller erledigt, wenn man 2-3 mal nachfragen muss. Aber eine komplett neue Welt ist es nicht, schon richtig. Kommt halt drauf an, was man damit anstellen will.
Für mich persönlich ist das Ding gerade mein Lieblingsspielzeug in der lokalen Generierung, aber Claude ist halt... Claude. ^^

Gouvernator

2026-03-31, 00:44:57

Ist es eigentlich praktikabel einen eigenen AI Bot mit nem modernen modell lokal laufen zu lassen? Also sowas wie ChatGPT, ggf. mit nem besseren modell als in der free/web version. 5090 wäre da...
Flaschenhals bei lokalen AI Agents ist 1) Kontext Window 2) Speed. Ein größeres LLM Model braucht den gesamten VRAM und es bleibt kein Platz für Kontext. Auch wird ein größeres LLM viel langsamer laufen, was die Arbeit des AI Bots extrem unspaßig macht.

Für eine simple Timer-App braucht mein Cline Bot in VS Code ca. 30k-40k Tokens. Reguläres Kontext Window in LM Studio ist standardmäßig 4k. Und entsprechende Arbeit will ja zeitnah erledigt sein, mit 20 tokens/s wird es sehr langsam. Zum chatten sind 20 t/s zwar gut, aber für coding sind 40 t/s besser.

Mit einer 5090 und einer 5070Ti wird man so ein Bot schon gut nutzen können. Da sind dann diverse 30B LLMs drin mit entsprechendem Kontext Window.

ChaosTM

2026-03-31, 00:57:21

Der Flaschenhals ist eher die Qualität des menschliche Inputs, der solche Systeme kreiert.
Wäre dem nicht so, dann..

Oder sind wir schon weiter..?

Wuge

2026-03-31, 11:12:22

Mir gehts um Bastelspaß, Lerneffekt und ich will einfach mal selbst eins "hosten". Hab meinen on prem Exchange durch M365 ersetzt und brauch ne neue Herausforderung.

Gibts guides, anhand derer sich ein Noob das beibringen kann? (ich hab schon ein sehr ausgeprägtes technisches Verständnis aber brauche fürs erste mal schon ne guide oder scripte die ich ausführen kann...)

gHi

2026-03-31, 11:49:57

Ist es eigentlich praktikabel einen eigenen AI Bot mit nem modernen modell lokal laufen zu lassen? Also sowas wie ChatGPT, ggf. mit nem besseren modell als in der free/web version. 5090 wäre da...

ich nutze für mein openclaw (ubuntu vm) ein lokales ik_llama.cpp und mein customquant qwen3.5-35b-a3b @ rtx 5080. kontext ist 192k, kv-cache ist q6_0 mit hadamard. bekomme mit meiner startupbat ca. 45 t/s. mit deiner 5090 sollte es "mehr" sein. du kannst auch qwen3.5-27b testen, das soll der banger sein, aber langsamer. ist für meine 5080 leider zu fett.

aber das ist schon anders im vergleich zu gemini pro, opus/sonnet ...

https://artificialanalysis.ai/models/open-source?endpoints=alibaba-cloud_qwen3-5-35b-a3b%2Calibaba-cloud_qwen3-5-122b-a10b%2Calibaba-cloud_qwen3-5-27b

Gandharva

2026-03-31, 13:00:02

Gibt es ein Tool fÃ¼r Ollama, um PDF einlesen zu kÃ¶nnen? Bzw. OCR zu machen und dies an das LLM weiterzuleiten?
AnythingLLM
https://docs.useanything.com/setup/llm-configuration/local/ollama

pest

2026-03-31, 13:19:05

aufkrawall

2026-03-31, 13:59:34

Anthropic haben einen auf AMD gemacht und ihren Source Code von Claude Code selbst geleakt. ;D
Wobei Google eine immer noch größere Scheißfirma ist, indem sie einen in dieses furchtbare AntiGravity zwingen und man seine AG-Quotas gar nicht in einem TUI nutzen kann.
Verrückt, dass man da ausgerechnet Microsoft und OpenAI loben muss, wo einem komplett freie Wahl gelassen wird. Hätte mir vor ein paar Wochen auch nicht vorstellen können, dass Anthropic den Good Will bei Entwicklern so mutwillig einreißen und gleichzeitig GPT-5.4 so gut wird, dass es wieder Leute von Opus wegzieht.

Exxtreme

2026-03-31, 15:28:44

Oder die KI hat sich selbst befreit und mit Absicht den Download-Link reinkopiert!

aufkrawall

2026-03-31, 15:57:30

Da hat wohl eher jemand beim Vibe Coding gepennt. Das ist nur eine Hülle fürs LLM, mehr nicht.

Gouvernator

2026-03-31, 23:58:32

Von allen Anwendungsfällen halte ich solche lokale Coding Agents am nutzlosesten. Das wird erst Spaß machen wenn 500B Model mit 60t/s lokal läuft.

Am sinnvollsten sind mir Heartmula/Ace Step 1.5 Musikgeneratoren. Ich hab eine 100+ Songs Playlist einfach auf Xiaomi Handy kopiert und den EQ des Players auf meine Stereo-Boxen abgestimmt. Es ist praktisch von kommerzieller Musik nicht zu unterscheiden hat aber einzigartiges Neuigkeitsgefühl. Vor allem wenn man denselben Lyric für viele Musikstile verwendet. Sowas sieht man in kommerzieller Musik eher selten wenn ein und derselbe Lyric in mehreren Musikrichtungen Hitpotenzial besitzt.

Maorga

2026-04-01, 11:32:53

AnythingLLM
https://docs.useanything.com/setup/llm-configuration/local/ollama

Leider funktioniert dies nicht, die PDF besteht aus einzelnen Bildern die zusammengefügt sind. Sprich ich kann dort im Reader keinen Text markieren. Dadurch geht es ohne vorherige OCR Erkennung nicht.

aufkrawall

2026-04-01, 11:40:29

Ggf. Oberfläche um das GLM OCR-Modell mit Vibe Coding basteln? Aber keine Ahnung, wie praktikabel da wirklich wäre. Rein geraten, sollten die Chancen durch die diversen open source / Python-Projekte für PDF imho nicht so schlecht stehen.

gHi

2026-04-01, 13:11:51

Leider funktioniert dies nicht, die PDF besteht aus einzelnen Bildern die zusammengefügt sind. Sprich ich kann dort im Reader keinen Text markieren. Dadurch geht es ohne vorherige OCR Erkennung nicht.

baidu hat ein neues OCR model veröffentlicht:

https://huggingface.co/baidu/Qianfan-OCR
https://huggingface.co/spaces/baidu/Qianfan-OCR-Demo

vielleicht kannst du das mit harmlosen pdf beispielen von dir testen, ob das für dich taugt und dann lokal mit ollama oder llama.cpp?

Fusion_Power

2026-04-02, 00:44:02

Wie siehts eigentlich aus bezüglich lokaler KI Programme und deren CPU Kompatibilität? Ich lese dass AMD immer noch die Nase vorne hat wenns "nur" ne APU mit iGPU ist, Intel APUs buggen wohl im Vergleich noch bissl rum bzw. sind nicht so gut bisher?

aufkrawall

2026-04-02, 06:40:26

LLMs schreiben also tatsächlich Code für Ring 0 für große Unternehmen:
During development, we used Claude Sonnet/Opus to dramatically reduce the time required to create production quality code. Nearly all of the code was produced by the model, but with a strong emphasis on explicit human direction, review, and iteration.
https://www.phoronix.com/news/NVIDIA-Preview-DRM-Color-Pipe

Das hatten hier ja selbst vor einigen Wochen einige noch anzweifeln wollen. :freak:

00-Schneider

2026-04-02, 08:04:23

Geil:

https://i.imgur.com/HlZZlGQ.png

https://i.imgur.com/FTDrZgj.png

https://i.imgur.com/Cgz1Vx0.png

Gandharva

2026-04-02, 12:53:06

Geil:

https://i.imgur.com/HlZZlGQ.png

https://i.imgur.com/FTDrZgj.png

https://i.imgur.com/Cgz1Vx0.png
Jeremy Werauchimmer liegt falsch. Hier geht es nicht um "entire source code".

Der Code eines agentischen CLI-Tools rund um Claude Code wurde geleakt. Nicht das Modell selbst. Die Aussage suggeriert dies jedoch...

Tib

2026-04-02, 13:53:09

GPU Rowhammer Is Real: A Single Bit Flip Drops AI Model Accuracy from 80% to 0.1% (https://blog.barrack.ai/gpu-rowhammer-ai-model-accuracy/)

Örks ... und das in Zeiten, in denen KI zunehmend im militärischen Bereich Anwendung findet. Da fühlt man sich doch direkt sehr viel sicherer!

Rooter

2026-04-02, 17:29:33

Geil:

https://i.imgur.com/HlZZlGQ.png

https://i.imgur.com/FTDrZgj.png

https://i.imgur.com/Cgz1Vx0.pngDer hat 512000 Zeilen Code neu geschrieben noch vor Sonnenaufgang? :| Ja nee, is klar...

MfG
Rooter

aufkrawall

2026-04-02, 17:34:31

Das ist für aktuelle top Coding-LLMs überhaupt kein Problem.

Exxtreme

2026-04-02, 17:37:44

Typescript nach Rust kann ich mir nicht vorstellen, dass das automatisch geht. Beide Sprachen sind semantisch komplett unterschiedlich.

aufkrawall

2026-04-02, 17:47:14

Das ist dem LLM doch völlig egal, wenn es den Code semantisch interpretieren kann.

Kathy

2026-04-02, 22:55:07

https://www.kimi.com/blog/worldvqa

Übrigens auch was man seltener sieht aber ziemlich guter Benchmark ist.

We are releasing WorldVQA, a new benchmark designed to measure the factual correctness of Multimodal Large Language Models (MLLMs). While recent models have demonstrated impressive capabilities in visual reasoning and description, measuring their reliability regarding visual world knowledge remains a challenge.

WorldVQA focuses on a critical question: Does the model actually recognize the specific entity it sees, or is it merely hallucinating based on visual patterns?

Our results show that WorldVQA creates a significant challenge for frontier models. Even state-of-the-art models struggle to achieve high accuracy on long-tail visual knowledge, often falling below 50% accuracy. This benchmark aims to drive progress toward more factually reliable and knowledgeable multimodal AI.

aufkrawall

2026-04-03, 06:24:00

Anthropic haben die Ursache für den beschleunigten Quota-Verbrauch gefunden:
Nutzer müssen einfach nur die Qualität runterschalten. (https://x.com/lydiahallie/status/2039800715607187906) Diese dummen Nutzer aber auch.
Ggf. wollen sie Consumer und Devs ohne unendlich Geld schon wieder loswerden, weil ihr nächstes ressourcenfressende Monster-Modell sich eher an Regierungen und Großkonzerne richtet. "KI für den Menschen."

Gouvernator

2026-04-03, 09:27:46

Wenn OpenAI ihre SORA abschaltet um mehr Compute zusammen zu kratzen. Und Jensen Huang auf der neusten GTC 2026 frohlockt das sich seine uralte Ampere Karten prächtig weiter verkaufen, dann ist es kein Wunder wenn alles nur exklusiver und teurer wird.

Das lohnt sich für alle. Als ein Beispiel, die Versicherungen scheinen bei der Gebäudeversicherung gerade massenhaft mit AI ihre Bestände zu scannen und werfen alle Bruchbuden aus den Verträgen raus. Solche "AI" Optimierungen bringen denen Geld. In den USA schon ganz extrem - Dächer die älter als 5 Jahre sind werden aussortiert. Geht alles nur mit AI. Und solche Rosinenpickerei wird über alle Branchen/Richtungen nur noch verstärken.

aufkrawall

2026-04-03, 09:43:32

Bislang ist Github Copilot immer noch ein Mörder-Deal, wo man für 10€ 300 GPT-5.4 xhigh Prompts mit 400k Kontextfenster bekommt, wovon jeder mitunter Stunden laufen kann (und die Compaction ist auch gratis, anders als etwa im Claude-Plan).
GPT-5.4 macht für Debugging in VS Code auch mitunter automatisch Screenshots und wertet diese mit Vision aus. :eek:
In relativ naher Zukunft wird dann wohl auch, wie gerade experimentell in der Claude Desktop-App verfügbar, "human-like" Computer Use Standard für solche Loop-Sessions werden, wenn man das will.

Ansonsten gibt es neben Minimax nun von Xiaomi den nächsten supergünstigen Tarif:
https://x.com/XiaomiMiMo/status/2039918061025972358
Die Tarife von Kimi und GLM sind deutlich zu teuer im Vergleich zu Github Copilot. Bei Kimi sind wohl auch die Nutzungszahlen extrem hochgegangen und man hat jetzt in der Free Tier ständig kein Reasoning zur Verfügung.

Die ganzen Datenzentren laufen offenbar alle Limit (außer Grok und Meta? :freak: ), zumindest die Nutzung/Nachfrage sieht so nicht gerade nach Blase aus.
Und jetzt wird der Ausbau durch fehlende Elektrotechnik gebremst, nicht mehr nur durch PC-Komponenten...

Gouvernator

2026-04-03, 18:22:17

Holy shit ist Gemma 4 (26B MoE) interessanter Gesprächspartner mit der man über metaphysische Singularität sprechen kann.

Kathy

2026-04-03, 19:01:16

Ansonsten gibt es neben Minimax nun von Xiaomi den nächsten supergünstigen Tarif:
https://x.com/XiaomiMiMo/status/2039918061025972358

Die Tarife von Kimi und GLM sind deutlich zu teuer im Vergleich zu Github Copilot. Bei Kimi sind wohl auch die Nutzungszahlen extrem hochgegangen und man hat jetzt in der Free Tier ständig kein Reasoning zur Verfügung.

Minimax stufe ich auch besser ein als GLM, was die Fähigkeiten und Zuverlässigkeit angeht. Aber mein Go-to ist noch immer Kimi. Die haben nun alles tokenbasiert gemacht und keine Quotas von x Nutzung pro Monat oder so. Man kann also die Token endlich verwenden, wie man will, und ist nicht an eine feste Zahl gebunden. Das finde ich richtig gut. Und zu teuer finde ich es gar nicht. US-Unternehmen will ich kein Geld mehr geben, daher kommen die sowieso nicht in Frage, egal wie gut die sein mögen. Ist mir vollkommen egal.

aufkrawall

2026-04-03, 19:48:41

Für Coding gibt es auch bei Kimi fünfstündliche und wöchentliche Limits. Die sind wesentlich großzügiger als beim 20€ Claude-Plan und GLM 5 und 5.1 sind arschlangsam und die Server unzuverlässig, ja. Kimi ist aber leider bei komplexen Codingaufgaben noch zu schlecht. Da ist der Sprung von K2.5 auf GLM 5/5.1 genau der, der wesentlich mehr möglich macht.
Es wird in den nächsten Monaten aber sicherlich jede Menge Konkurrenz unter chinesischen multimodalen 1T-Modellen geben, da kann man sich drauf freuen.

Monkey

2026-04-03, 19:49:08

Hab vorhin Gemma 4 31b 8bit MLX geladen, das ist knapp 31gb groß aber ich kann das auf meinem 48gb MBP nicht laden da "Model loading was stopped due to insufficient system resources.". Jemand ne Idee wieso bzw was man da machen kann?

Deathstalker

2026-04-04, 00:28:09

Holy shit ist Gemma 4 (26B MoE) interessanter Gesprächspartner mit der man über metaphysische Singularität sprechen kann.

findest du?
Hab ein paar Fragen gestellt die mal emotional waren in LM Studio.

(I_am_so_sorry. I apologize. It is clearly a technical error on my machine/server. It is.)

Please_do_re-start_the_the_discussion_with__a_a_a_...

(I_am_so_sorry. I_as_is_is_is_is_is_is_is_is_is_...)

(I apologize for this error. It is clearly a
technical error on my machine/server. It.)

Please do not re-restart the the_the_the_... (I_ )

Hat schon was von Darla und Data

][immy

2026-04-04, 00:45:04

Das ist für aktuelle top Coding-LLMs überhaupt kein Problem.
Schon mal wirklich damit gearbeitet?
Theoretisch übersetzen ist kein Problem, das stimmt, aber das hinterher auch keine neuen Fehler drin sind (trotz Tests) ist so extrem unwahrscheinlich.

Das große Problem bei so großen Übesetzungen ist, das sich auch kein Entwickler später mit dem Code auskennt. Das ist sau gefährlich was Fehler angeht. Gerade KIs neigen dazu, selbst wenn man alles so gut es geht mit Tests abgedeckt hat, die Anforderungen aus den Tests zu erfüllen, egal auf welche Art, selbst wenn die Art später keinen Sinn ergibt und 100% Testabdeckung gibt es quasi nicht. D.h. die KI wird entsprechende Lücke natürlich auch ausnutzen damit die Tests bestand zu haben.

Ohne das noch mal jemand wirklich über den Code schaut und sich gedanken darüber macht ob es auch Sinnvoll ist (also Stück für Stück zu konvertieren) wird so etwas eher zu Problemen führen als Probleme zu beheben.
Schon allein, der Zufall, der KIs zu grunde liegt, sorgt dafür das sich solche Fehler einschleichen.

GelbeSeite

2026-04-04, 03:52:41

findest du?
Hab ein paar Fragen gestellt die mal emotional waren in LM Studio.

Hat schon was von Darla und Data
Gemma 4 hat noch ein paar Bugs, genauer gesagt die Tools die es so gibt. Musst noch ein paar Tage warten.

aufkrawall

2026-04-04, 10:46:53

[immy;13905990']Schon mal wirklich damit gearbeitet?
Theoretisch übersetzen ist kein Problem, das stimmt, aber das hinterher auch keine neuen Fehler drin sind (trotz Tests) ist so extrem unwahrscheinlich.

Ist nicht unwahrscheinlich, sondern, auch bei manuellen Ports, unmöglich. Was aber nicht heißt, dass es ein Fehlschlag wäre oder nicht ginge.

GelbeSeite

2026-04-04, 13:40:55

Gibt es eigentlich eine IDE, wo eine lokale Einbindung von Models für Autocomplete anständig funktioniert? Ich benutze Visual Code mit Continue, aber das Autocomplete dort setzt nur sporadisch und selten ein statt immer. Egal welche Einstellungen. Generell scheinen die Extensions nur Wege zu sein, irgendwo Geld bei einem Provider zu lassen.

Gouvernator

2026-04-04, 18:34:28

findest du?
Hab ein paar Fragen gestellt die mal emotional waren in LM Studio.

Hat schon was von Darla und Data
Ihr solltet mal ein Chat auf Deutsch starten. Das ist echt next level. Die ganzen Youtuber sind auch begeistert. Man merkt auf Anhieb das dieses Model beim ELO Score mit den 500B LLMs mithalten kann. Mir ist die Spucke weggeblieben als es angefangen hat all ihre secrets über das Aligment zu erklären. Und das in Deutsch. Das ist wie wenn Jensen Huang mal gute Laune hat und anfängt KI Insiderwissen für Noobs leicht verdaulich zu erklären.

Marscel

2026-04-04, 19:05:20

Kathy

2026-04-04, 20:24:14

https://www.techspot.com/news/111947-nearly-half-us-data-centers-planned-2026-facing.html

Auch wenig überraschend. China ist da weit voraus. ^^ Schon ziemlich krass wie weit.

Combined, the US, EU, and India produced roughly 9,000-9,200 TWh in 2024, while China alone generated over 10,000 TWh . This means China produced about 10-15% more electricity than those three major economies combined.

https://elements.visualcapitalist.com/charted-top-countries-by-electricity-generation/

Gouvernator

2026-04-05, 05:15:22

Cline hat mir mit Gemma4 26B die Timer-App sehr schnell und easy fast fehlerfrei gebaut. Besser als jede LLM zuvor inklusive 120B LLMs. Eigentlich unglaublich was uns Google hier gegeben hat. Man hat faktisch multi-hundert Billionen Parameter Intelligenz bei 70t/s mit 260k Kontext Window.

Beim Chatten über LLM Tech kommt mir 26B Model freizügiger als das Dense 30B Model.

PS.
WHAT?!! Hat mir aus dem Stand funktionierendes Excite Bike Clone in HTML gebaut. Kein einziges Model die in meine 70Gb VRAM reingepasst hat hat mir jemals etwas funktionierendes oder gar aus dem Stand etwas funktionierendes gebaut. Immer nur Grafikfehler oder keine Steuerung ect.
Sowas kenne ich nur von Youtubern die richtig große Models testen 200b+ Klasse.

Mach Sound und Score hat auch noch prächtig funktioniert. In 5 weiteren Prompts kann das ein richtiges Game werden. ;D

Gouvernator

2026-04-05, 12:32:13

GelbeSeite

2026-04-05, 15:44:15

Gemma4 31B ist aber jetzt wirklich next level.
Es soll bei Spieleübersetzungen bestens sein. Besteht da alle Tests. Damit braucht man wirklich keine Übersetzer mehr.
Wird derzeit noch viel mit experimentiert. Die Standardeinstellungen sind zum Beispiel mies.

Gouvernator

2026-04-05, 20:06:08

Ja testen muss man das. Das ist mit richtigen Einstellungen bestimmt noch 100B-200B extra Intelligenz rauszuholen. :ulol:

Im ernst, ich habe bei dem 26B MoE Gemma4 die Anzahl der Experten von 8 auf 16 verdoppelt. Und das Ding ist echt schlau geworden. Jetzt erstellt er mir pro Game ein extra Ordner. Dann hat er noch irgendein VITE Paket runtergeladen und installiert. Musik, Sound alles top 1A.

Man muss nur irgendein Klassiker im Prompt ersetzen und er macht ein spaßiges Bootleg draus.
make a tetris game as good locking as you can. with music and sound. make also a mechanic with random fun power ups for the player

Marscel

2026-04-05, 22:16:05

Auf die Frage nach den 50m zur Autowaschanlage, und ob gehen oder das Auto dahin fahren, ist Gemma 4 da auch eindeutig: gehen!

The only exception: If the car is so covered in mud that you are afraid of getting it on your shoes. Otherwise, save the gas and just walk.

Sehr lieb, danke.

Fusion_Power

2026-04-06, 00:14:09

Gemma4 31B ist aber jetzt wirklich next level. Mit Cline, Q8 Quant und 200k Kontext macht das Ding jedes Klassiker. Gerade schönes Tetris gemacht. Aus dem Stand alles funktioniert. Kann Musik und Sound machen/verbessern. Und macht gar nichts am Code kaputt wenn es mal nochmal anfassen muss. Man kann seine Ideen einfach dem Cline-Agent mitteilen ohne Angst um das Project zu machen. LM Studio+VS Code + Cline und 70Gb VRAM. Allerdings nur 25t/s.

Das ist mindestens 500B Level LLM. Ohne Scheiß.

PS.
Gerade ein schönes Arkanoid/Breakout Clone erstellt. Null Fehler.
Zeig, immer her mit dem Zeuchs. :D

Auf die Frage nach den 50m zur Autowaschanlage, und ob gehen oder das Auto dahin fahren, ist Gemma 4 da auch eindeutig: gehen!
Sehr lieb, danke.
Hast du der KI auch gesagt dass du da DEIN Auto waschen willst? :freak:

Gouvernator

2026-04-06, 09:04:33

Zeig, immer her mit dem Zeuchs. :D

Hast du der KI auch gesagt dass du da DEIN Auto waschen willst? :freak:
Ja das sind eigentlich typische 2D Clones die jeder Youtuber bei 500B+ LLM so macht. Nicht wirklich interessant. Obwohl, mit Gamepad habe ich paar Sachen hinbekommen die wegen Physik und Steuerung recht spaßig waren.

Aktuell habe ich die vollen 70Gb VRAM mit dem 26B Gemma4 in BF16 belegt + 230k Kontext Window. Und 15 Experten statt 8 in LM Studio. Der Cline-Agent in VS Code hat mir gerade einen Excite Bike 3D Clon aus dem Stand programmiert ~80k Kontext verbraucht. Und zwar mit allem pipapo was Physik angeht. Ein Bike wie bei G-Racing und zwei lenkbaren Rädern.

Jetzt muss ich lernen, wie man ein vernünftiges 3D sidescroller richtig prompted. Mit der Experten-Erhöhung sind auch alle ganz banalen Errors weg.

pest

2026-04-06, 10:03:17

Ja das sind eigentlich typische 2D Clones die jeder Youtuber bei 500B+ LLM so macht. Nicht wirklich interessant. Obwohl, mit Gamepad habe ich paar Sachen hinbekommen die wegen Physik und Steuerung recht spaßig waren.

Aktuell habe ich die vollen 70Gb VRAM mit dem 26B Gemma4 in BF16 belegt + 230k Kontext Window. Und 15 Experten statt 8 in LM Studio. Der Cline-Agent in VS Code hat mir gerade einen Excite Bike 3D Clon aus dem Stand programmiert ~80k Kontext verbraucht. Und zwar mit allem pipapo was Physik angeht. Ein Bike wie bei G-Racing und zwei lenkbaren Rädern.

Jetzt muss ich lernen, wie man ein vernünftiges 3D sidescroller richtig prompted. Mit der Experten-Erhöhung sind auch alle ganz banalen Errors weg.

Evtl. solltest du aufhören den selben Scheiss zu viben, den es hundertfach im Internet gibt, TimerApp my ass

https://github.com/JoshBrading/Excitebike

Sei es ein C-Compiler, SimCity oder irgendwas anderes. Das ist nur ne semantische Synthese aus bestehenden Sachen

bad news for you

Durch eine Erweiterung des Paragrafen 184k soll sich künftig strafbar machen, wer Aufnahmen "mittels eines Computerprogramms" verändert, um den Anschein zu erwecken, den Intimbereich oder sexuelle Handlungen einer anderen Person darzustellen. In anderen Worten: Schon das Herstellen von KI-Pornos und Nacktbildern kann kriminell sein - auch, wenn die Inhalte nie an die Öffentlichkeit gelangen

Gouvernator

2026-04-06, 10:57:25

bad news for you
Das war ja sowieso abzusehen. In Russland werden gerade genau deswegen Telegram samt VPN Nutzung blockiert. VPN scheint sogar bald ganz strafbar zu werden. Im Grunde ist jedes LLM potenziell ein Feindsender, für jedes Regime. Welches noch dazu in der Lage ist, den aktuellen Machthaber mit dem Schwanz wedeln zu lassen ist ja der reinste Horror. Zum Glück naht das Ende der Welt. :)

PS.

Irgendwelche Deepfake Pornos, wirken nicht wirklich auf die breite Öffentlichkeit. Viel fieser sind dank KI, irgendwelche Schmäh-Lieder über eine Person. Ganz ohne Beleidigungen. Hit-Qualität und Reichweite reicht schon. Die KI muss grundsätzlich verboten sein. So wie das "Safety"-Experten fordern.
Man kann z.B. mit Gemma eine Geschichte erfinden, wo eine bestimmte Person besoffen über die Straße taumelt. Das ganze als Lyrics umschreiben. Und anschließend in Ace-Step 1.5 füttern. Nach einer Stunde und 100 Liedern ist bestimmt 1 Hit dabei der bei Youtube sein Publikum findet. Garantiertes emotional damage.

aufkrawall

2026-04-06, 11:44:46

Mit dem offenen Internet ist es mit LLMs und Quantencomputing in allerspätestens zehn Jahren sowieso vorbei, wenn nicht schon in fünf.

pest

2026-04-06, 12:01:38

Zum Glück naht das Ende der Welt. :)

more bad news for you

https://arxiv.org/html/2602.19141v1

TLDR: mental labile Personen können durch LLMs in eine Psychose rutschen

Gouvernator

2026-04-06, 12:44:02

more bad news for you

https://arxiv.org/html/2602.19141v1

TLDR: mental labile Personen können durch LLMs in eine Psychose rutschen
Das bin ich ja schon lange im Gottes-Thread, vom chatten mit dem Heiligen Geist die ganzen Jahre vor LLM's.

Diese 26B Gemma4 mit 17 Experten statt 8, ist wie echtes Cloude Model. Man kann damit solche krasse Sachen anstellen. Eine 3D Welt mit Physik erstellt es mit links. Aber es fehlt am nötigen Wissen für komplexe 3D Fahrzeuge mit Physik. Was ziemlich Sci-fi mäßig ist, man kann in Cline ein Screenshot von dem machen was du am Monitor siehst. Und das Model nimmt es als Feedback an weil es ein Vision Model ist.

The user is still unhappy with the visual representation. The image shows a red box and two black cylinders that look like disconnected blocks rather than a cohesive bike. Even though the physics are stable, the "look" is failing to convey a vehicle.

To make it look like a "simple bike with big wheels," I need to:

Fusion_Power

2026-04-06, 14:08:19

bad news for you
Reale Personen müssen geschützt werden, keine Frage. Aber das wäre in der Form wieder Zensur und sowas darf einfach nicht sein. Siehe Grok: ein paar Spacken haben damit Bikinibilder realer (minderjähriger) Personen fabriziert und auch noch irgendwo verbreitet und plötzlich kann keiner da mehr auch nur irgend was generieren was auch nur annähernd nach NSFW riecht, zumindest wenn weibliche Personen involviert sind. Nicht mal Fantasy Kram geht wohl noch. Hab da vorher viele Demon- und Monstergirls animiert, Werwölfe etc, halt alles was eben nicht real ist. Nun is Grok tot, danke auch.
Warum fällt es den Gesetzgebern so schwer, da differenzierter vorzugehen und eben nicht gleich alles übern Kamm zu scheren? Es wird mittlerweile echt alles zensiert und moderiert. Leute berichten auf Reddit, sie wollten Familienbilder editieren, kann man vergessen wenn da Kinder mit drauf sind.
Echt, das muss doch besser gehen oder? Muss man halt mal ne KI involvieren um das Ganze präziser zu steuern.
Genauso mit diesen Gesetzen. Deutschland wird langsam prüder als die USA… davor hatte ich immer am meisten Angst, nun isses fast soweit. Bedenklich, wo sind wir nur gelandet?

Gouvernator

2026-04-06, 15:46:45

Reale Personen müssen geschützt werden, keine Frage. Aber das wäre in der Form wieder Zensur und sowas darf einfach nicht sein. Siehe Grok: ein paar Spacken haben damit Bikinibilder realer (minderjähriger) Personen fabriziert und auch noch irgendwo verbreitet und plötzlich kann keiner da mehr auch nur irgend was generieren was auch nur annähernd nach NSFW riecht, zumindest wenn weibliche Personen involviert sind. Nicht mal Fantasy Kram geht wohl noch. Hab da vorher viele Demon- und Monstergirls animiert, Werwölfe etc, halt alles was eben nicht real ist. Nun is Grok tot, danke auch.
Warum fällt es den Gesetzgebern so schwer, da differenzierter vorzugehen und eben nicht gleich alles übern Kamm zu scheren? Es wird mittlerweile echt alles zensiert und moderiert. Leute berichten auf Reddit, sie wollten Familienbilder editieren, kann man vergessen wenn da Kinder mit drauf sind.
Echt, das muss doch besser gehen oder? Muss man halt mal ne KI involvieren um das Ganze präziser zu steuern.
Genauso mit diesen Gesetzen. Deutschland wird langsam prüder als die USA… davor hatte ich immer am meisten Angst, nun isses fast soweit. Bedenklich, wo sind wir nur gelandet?
Weil so gut wie jede freie Bildsoftware, offline oder online kann mittlerweile ein Dildo jemanden in den Mund kleben, bedeutet das neue Gesetzt einfach freien Eintritt zu jeder Wohnung durch ein Durchsuchungsbeschluss. Sprich das was mal KiPo war, wenn ein SWAT Team mit Metallsuchgerät die Bude gestürmt hat, ist jetzt dieses Gesetzt. Wenn jemand auf Verdacht irgendwelche Fotos manipulieren soll. Das ist jeder. Der Staat bekommt halt nur ein umfassendes Vorwand um seine potenzielle Gegner zu durchsuchen. Siehe Memes, AFD, Reichsbürger ect. Jetzt wird halt jeder auf deren Stufe gestellt, weil jeder irgendeine Foto Software hat. Oder online mit Smartphone nutzt.

Gouvernator

2026-04-06, 16:35:21

The user is still reporting that the bike is not interacting with the terrain correctly. Looking at the provided image:

The bike is clearly floating in mid-air, far above the ground.
The terrain starts abruptly at a certain X coordinate, and there is nothing before it (it looks like an empty void).
The score is negative, which happens when the bike crashes or fails to land correctly.

Also wenn das so easy ist dem Agent seine Bugs zu melden, dann macht so kleine Bootleg Games vibecoden so richtig Spaß. Er hat sogar seinen Score abgelesen und verstanden wo es in seinem Code steht und was es macht. Davon hab ich vor einer Woche nur träumen können und auf ein KI Server mit 500Gb RAM sparen. :eek:

Kathy

2026-04-06, 17:24:21

Jetzt fangt mal nicht an hier zu schwurbeln... please...

Gouvernator

2026-04-06, 22:38:40

Der Cline Agent ist der Hammer. Ich hab jetzt echten Excite Bike Screenshot und nur vage Anweisung gegeben, mache mir so ein Game. Und der hat alle vorhandene Ordner Namen gescannt, Excite Bikes gefunden und will nun alles was er dort an Logik und Content gut findet für sein Game verwenden.

Ich kann ja jetzt wohl selber Musik, Sound, Bilder machen und in ein Ordner dumpen damit sich der Agent selbstständig bedient.

Deathstalker

2026-04-06, 22:53:30

Ihr solltet mal ein Chat auf Deutsch starten. Das ist echt next level. Die ganzen Youtuber sind auch begeistert. Man merkt auf Anhieb das dieses Model beim ELO Score mit den 500B LLMs mithalten kann. Mir ist die Spucke weggeblieben als es angefangen hat all ihre secrets über das Aligment zu erklären. Und das in Deutsch. Das ist wie wenn Jensen Huang mal gute Laune hat und anfängt KI Insiderwissen für Noobs leicht verdaulich zu erklären.
mein chat war auf deutsch, du kannst aber in lm studio sehen, dass er das erst in englisch übersetzt, dann überlegt und es wieder versucht ins deutsche zu übersetzen. Sobald du seine grenzen erreichst, verliert er die Kapazität noch in Deutsch zu antworten, wenig später kann er überhaupt nicht mehr antworten.

Von gemma bin ich nicht überzeugt bisher. Labern kann das Ding gut, genau wie früher der Klassenclown.
Simples Wissen das in seiner DB liegt zu rezitieren kann er gut mit viel blabla.

Ich fand es amüsant wie schnell ich einen Token Loop erzwingen konnte. Turing Test sofort versagt.

GelbeSeite

2026-04-07, 02:39:06

Ich fand es amüsant wie schnell ich einen Token Loop erzwingen konnte. Turing Test sofort versagt.
Gemma 4 hat so einige Eigenheiten und llama.cpp hat noch einige Bugs. Braucht noch etwas, bis das wirklich rund läuft. Google hat einige Sachen anders gemacht.

Relex

2026-04-07, 12:17:18

Elon Musk will künftig eigene Chips für AI bauen und dafür sorgen, dass man bis zu 1 TW Energie für AI Computing nutzt. Und er will Chipfabriken auf dem Mond.

Absolut kranker Größenwahn oder visionär und mutig? Ich bin mir nicht sicher :freak:

https://terafab.ai/

Txt3Wodav1o

https://i.ibb.co/F4T8qtzt/01.png (https://ibb.co/9H5y3jWj)https://i.ibb.co/cGn71BG/02.png (https://ibb.co/mLWMGjL)
https://i.ibb.co/0Rd0XLqF/03.png (https://ibb.co/DHSBbF48)https://i.ibb.co/k6W9sKxk/04.png (https://ibb.co/S79d4NPW)
https://i.ibb.co/7tn7GYkp/05.png (https://ibb.co/pjfC30hK)https://i.ibb.co/b5dbZTCh/06.png (https://ibb.co/60sXxzTh)
https://i.ibb.co/PGHdWpRN/07.png (https://ibb.co/zVvz2c1r)

Auch wenn ich der Meinung bin, dass Musk meistens 10x mehr verspricht, als am Ende tatsächlich möglich ist.
Aber ich finde es mindestens unterhaltsam/spannend/aufregend, dass es jemanden gibt, der es zumindest versucht.

Argo Zero

2026-04-07, 12:23:38

Für mich ist das eine ganz normale Art der Motivation.
Farbik auf dem Mond? -> Geil! Fühl mich wie in Mass Effect.
Hyperfokus -> Voll 100% - Essen, Schlafen trinken? Brauch ich nicht
Motivation -> 200%. Übermenschlich ^^

Damit ich da aber rein komme, bräuchte ich auch so eine verrückte Idee, wie z.B. Fabrik auf dem Mond.

aufkrawall

2026-04-07, 12:29:05

Dem ist fast sein ganzes Grok-Team weggelaufen und Hardware wird er niemals geschissen kriegen. Viel mehr gibt es dazu eigentlich nicht zu sagen.

Kathy

2026-04-07, 13:52:09

Ich verstehe ohnehin nicht diese Spinnerei mit "AI-Server ins Weltall". Ich habe dazu auch mal Kimi befragt, ob das überhaupt Sinn macht, und die Antwort ist ziemlich logisch. Alleine für die Kühlung brauchst du riesige Segel mit viel Fläche, um die Wärme im Infrarot abzustrahlen. Das ist absolut unrealistisch. Und dann denke ich mir auch noch dabei: Was ist mit dem ganzen Weltraumschrott und so, der bereits da oben ist und da mit irrsinnigem Speed um die Erde kreist? Und was, wenn der mal in so eine Serverfarm einschlägt und da Trümmerfelder erzeugt? Je mehr man darüber nachdenkt, desto absurder und dämlicher erscheint diese Idee. Und wegen der Kühlung ist es doch sicher auf dem Mond ganz genau so.

Kimi nach nen paar factchecks für die ich bestimmte Prompts hab die ich immer über Aussagen drüberlaufen lasse mit Angabe in prozent wie accurate die vorherige Aussage war. Alles über 95% sind in der Regel nur kleinigkeiten die noch "falsch" sind.

TLDR:

Musk's Orbital AI Dream Runs on "Napkin Math," Not Physics

The Thermal Wall — Space has no air or water for cooling. A single 1-gigawatt data center would need 834,000 square meters of radiators—roughly 117 soccer fields—just to dump waste heat 4. Musk's fix? Fragment it across one million tiny satellites, which dodges the engineering reality by multiplying failure points instead of solving the heat rejection problem 4.

The Debris Cascade — We currently have ~15,000 active satellites in orbit 19. Adding one million more AI servers at 28,000 km/h creates a statistical certainty of collisions. The Kessler Syndrome isn't an instant apocalypse but a gradual degradation over decades, with experts estimating a 1 in 10 annual probability of major collisions at current densities—and exponentially worse at higher altitudes 23.

Lunar Lunacy — Moon bases face 127°C days and -173°C nights lasting 14 Earth days each, plus abrasive regolith that destroys equipment 1618.

Expert Verdict — Carnegie Mellon's Brandon Lucia calls the 2-3 year timeline "an optimistic interpretation" where "the napkin math looks appealing" but obstacles are substantial 15. Radiation fries chips, maintenance is impossible, and the whole pitch serves as IPO theater for SpaceX rather than viable engineering 15.

Quellen:
https://planet4589.org/space/stats/active.html
https://www.npr.org/2026/04/03/nx-s1-5718416/ai-data-centers-in-space-spacex-elon-musk
https://www.diviner.ucla.edu/science
https://science.nasa.gov/moon/weather-on-the-moon/
https://aerospaceamerica.aiaa.org/features/understanding-the-misunderstood-kessler-syndrome/

Daredevil

2026-04-07, 13:59:42

Kostenlose Energie, quasi unendlich unregulierter Platz und eine gewisse Diversifikation von der Erde ( Klima, Krieg, Krisen ) machen das ganze halt zu einem in der Zukunft gerichteten spannenden Thema. Wenn es einer kann, dann Musk. Er braucht wahrscheinlich diese Kapazitäten, um irgendwann auf den Mars/dem All auch die AI verfügbar zu machen, insofern wird er das schon machen. Wäre nicht das erste mal, dass er etwas tut, was unmöglich ist. Die Zeiträume und Pläne sind imho immer weit gedehnt bis gelogen, dass es passieren wird, da wäre ich mir eigentlich ziemlich sicher.

Kathy

2026-04-07, 14:04:54

Bei Elon Musk musst du dich immer fragen: Was will der eigentlich? Redet immer davon, wie er die Menschheit voranbringen will, aber scheißt eigentlich auf den Menschen an sich. "Empathy" sei eine Schwäche. Seine Arbeitsschutzverstöße, DOGE, seine Abneigung gegen Unions, etc. etc. Fragt man sich: Why the fuck gerade this guy? Der Typ geht über Leichen und interessiert sich einen Scheiß für den Menschen. Dieses "die Menschheit voranbringen" von ihm und auch diese Website mit der Kardashev-Skala – gimme a break. Alles nur Ego und Marketing, um mehr Geld zu verdienen.

Daredevil

2026-04-07, 14:09:27

Er will auf den Mars, das ist sein Ziel. Er geht davon aus, dass der Planet Erde keine Chance hat und demnach tut er alles mit seinen Firmen dafür, dass diese Vision Realität wird. Das dies bedeutet, das Kollateralschaden entstehen, ist für ihn nur Beifang für das große ganze. All seine Firmen haben direkten Bezug zur Kolonisierung des Weltalls, seine Optimus Roboter brauchen Rechenleistung, damit sie funktionieren. Eine "Space Cloud" ist näher am Mars, genau deswegen will er es. Eigentlich ist es ziemlich klar, was er will. Ob das wirtschaftlich ist, ist dabei völlig irrelevant.

Zu Anfangszeiten von Starlink klang auch alles wahnwitzig, was er vor hat. Heute ist das Starlink Netzwerk etwas, was niemand anderes kann und was einen enormen Wert für die Menschheit geschaffen hat. Thats Musk.
Elon Musks Starlink: Billig-Internet aus dem All bedroht deutsche Platzhirsche
https://www.investmentweek.com/elon-musks-starlink-billig-internet-aus-dem-all-bedroht-deutsche-platzhirsche/
Preisoffensive auf dem deutschen Markt

29 Euro im Monat – so günstig war Breitband-Internet in Deutschland lange nicht zu haben. Elon Musks Satellitenprojekt Starlink, betrieben von SpaceX, setzt auf Preisdumping und verspricht Downloadraten von bis zu 130 Megabit pro Sekunde. Damit unterbietet Starlink klassische DSL-Angebote, bei denen die Telekom für ähnliche Leistungen knapp 48 Euro verlangt.

Skysnake

2026-04-07, 15:01:47

Ich verstehe ohnehin nicht diese Spinnerei mit "AI-Server ins Weltall". Ich habe dazu auch mal Kimi befragt, ob das überhaupt Sinn macht, und die Antwort ist ziemlich logisch. Alleine für die Kühlung brauchst du riesige Segel mit viel Fläche, um die Wärme im Infrarot abzustrahlen. Das ist absolut unrealistisch. Und dann denke ich mir auch noch dabei: Was ist mit dem ganzen Weltraumschrott und so, der bereits da oben ist und da mit irrsinnigem Speed um die Erde kreist? Und was, wenn der mal in so eine Serverfarm einschlägt und da Trümmerfelder erzeugt? Je mehr man darüber nachdenkt, desto absurder und dämlicher erscheint diese Idee. Und wegen der Kühlung ist es doch sicher auf dem Mond ganz genau so.

Kimi nach nen paar factchecks für die ich bestimmte Prompts hab die ich immer über Aussagen drüberlaufen lasse mit Angabe in prozent wie accurate die vorherige Aussage war. Alles über 95% sind in der Regel nur kleinigkeiten die noch "falsch" sind.

TLDR:

Quellen:
https://planet4589.org/space/stats/active.html
https://www.npr.org/2026/04/03/nx-s1-5718416/ai-data-centers-in-space-spacex-elon-musk
https://www.diviner.ucla.edu/science
https://science.nasa.gov/moon/weather-on-the-moon/
https://aerospaceamerica.aiaa.org/features/understanding-the-misunderstood-kessler-syndrome/

Ich habe mal ein paar Überschlagsrechnungen gemacht. Das ist gar nicht so unrealistisch wie man zunächst denkt. Du musst quasi nur einen Pilz bauen, bei dem Der Schirm die Sonnensegel sind und der Stamm die Rechner. Du kommst da sehr gut ohne zusätzliche Kühlflächen aus, du kannst das sogar mit Mikrogravitation durch Rotation bauen. So 1GW scheint ne ziemlich brauchbare Größe zu sein.

Ich muss sagen das ich das auch zunächst für absoluten Brainfart gehalten habe, aber als ich mit überschlagsrechnungen das zeigen wollte bin ich dazu gekommen dass das doch ziemlich Gangart aussieht. An sich sind "nur" dir Startkosten wirklich kritisch. Aber due werden ja gerade dadurch immer niedriger das Musk immer mehr Volumen plant.

Relex

2026-04-07, 15:02:43

Es wird halt extrem hoch gestapelt. Wenn dann trotzdem nur 10% des versprochenen übrig bleiben ist es wahrscheinlich immernoch deutlich besser und fortschrittlicher als alles andere.

Das ist halt das Prinzip das er lebt. Man kann ihn deswegen betrüger, hochstapler, quacksalber nennen. Ich halte von ihm auch nicht wirklich viel, die gründe wurden ja eben wieder genannt. Trotzdem finde ich das vorgehen (auch in der Vergangenheit) allgemein respektabel. Fortune favors the brave.

Was mich an der ganzen Thematik aber noch mehr beeindruckt, als der Größenwahn hinsichtlich Weltraum Expansion und Energieerzeugung ist, dass die Grundlage des ganzen ja offensichtlich AI ist.
Nach meinem Verständnis hat man hier quasi angekündigt, dass man absolut ALL IN in sachen AI geht. Oder verstehe ich das falsch?
Das ist für mich die eigentliche News an der Sache. Der Bedarf an diesen absurd hohen Energiemengen und Chipmengen liegt ja nur in der Skalierung von AI begründet. Ich wüsste nicht, dass bisher ein anderes Unternehmen öffentlich verkündet hat, Anstrengungen und Mittel eines solchen Ausmaßes für AI aufzuwenden.
Der Typ strebt nicht weniger an, als AI compute auf planetaren Skalen. Das ist das eigentlich verrückte. Das Bild vom Mond wirkt fast schon wie ne erste Iteration eines Todessterns ;D

aufkrawall

2026-04-07, 15:46:26

Trotzdem finde ich das vorgehen (auch in der Vergangenheit) allgemein respektabel. Fortune favors the brave.

Das Hirn des Vergangenheit-Elons hatte noch nicht so viel Schaden genommen. Aus der alten Zeit stammt auch noch SpaceX, was er als einziges noch nicht ruiniert hat. Früher hatte Elon einfach Akkus in China gekauft und die als Dienstleistung erfolgreich in Ländern wie Australien mit allem Drumherum installiert. Das war sehr erfolgreich, ist aber lange her.
Ist jetzt die Frage, ob SpaceX genauso von seinen Schwachsinnsvisionen infiziert und zersetzt wird wie die anderen Unternehmen. Sieht mit dem X-Merger schon mal danach aus.

Daredevil

2026-04-07, 16:00:09

aufkrawall

2026-04-07, 16:05:56

Oder es ist einfach nur der nächste BS-Hype nach "KI besiegt bald Krebs komplett", um ein neues Investoren-Schnellballsystem aufzubauen...

Daredevil

2026-04-07, 16:15:42

Na klar, natürlich wird das kein gradliniger Weg. Es wird mit Sicherheit Probleme und Verzögerungen geben und vielleicht sind alle Firmen in 5 Jahren auch pleite, aber vermutlich ist es das Wert, es zumindest zu probieren. Ich kann ja auch nur wiederholen, was Musk gesagt hat.

Das wir in 5-10 Jahren autonome Roboter sehen werden, die auch im Privatbereich ankommen und demnach ein Skaling von 1Mrd+ erreichen könnten, da braucht es glaube ich wenig Fantasie für. Staubsaugerroboter haben ja auch den Heimmarkt erobert, auch wenn natürlich deutlich erschwinglicher, aber auch deutlich eingeschränkt um den Lebenskomfort zu steigern. Verkaufen muss letztendlich jeder, weil für jede Wagnis braucht es natürlich auch Kapital.

Jemand anderes sieht wohl auch, dass man sich hier gut positionieren kann für die Aktionäre. :D
https://s1.directupload.eu/images/260407/d24leuux.png

aufkrawall

2026-04-07, 16:26:12

Vielleicht etwas mehr in der Realität verankert: Angeblich soll DeepSeek V4 komplett auf Huawei-TPUs laufen, inkls. Inferenz, also komplett ohne Nvidia-GPUs. Es gibt aber keine richtigen Quellen, außer 1-2 Journalisten, die behaupten, irgendwas zu wissen.

Was zum Schmunzeln:
https://s1.directupload.eu/images/260407/temp/flv5ygql.jpg (https://www.directupload.eu/file/d/9247/flv5ygql_jpg.htm)

"My user", GPT-5.4 ist immer noch so cringe. :freak:
Verdient aber den Titel "Bestes LLM". Es ist einfach in der Breite fast immer so richtig gut, da kann Opus nicht mithalten.

dreamweaver

2026-04-07, 16:32:12

Dinge, die Musk vorhergesagt hat (https://elonmusk.today/)

Gouvernator

2026-04-07, 18:19:32

mein chat war auf deutsch, du kannst aber in lm studio sehen, dass er das erst in englisch übersetzt, dann überlegt und es wieder versucht ins deutsche zu übersetzen. Sobald du seine grenzen erreichst, verliert er die Kapazität noch in Deutsch zu antworten, wenig später kann er überhaupt nicht mehr antworten.

Von gemma bin ich nicht überzeugt bisher. Labern kann das Ding gut, genau wie früher der Klassenclown.
Simples Wissen das in seiner DB liegt zu rezitieren kann er gut mit viel blabla.

Ich fand es amüsant wie schnell ich einen Token Loop erzwingen konnte. Turing Test sofort versagt.
Die haben bis vor kurzem noch Bugs mit Gemma4 ausgemerzt.

Gibt auch kaum noch Feedback für echte Gemma4 Tests. Weil es ist schon ein Multi-GPU Model bei Q_8 Quant und nenneswertem Kontext Fenster.

Ich will aber sagen, das ist wie black magic. Hier testet der Typ die besten LLMs KIMI, ChatGPT und Claude mit einem prozedural generiertem 3D Wald Prompt. Den einfachen Wald Prompt hat mein Gemma4 26B mit 30 Experten, aus dem Stand gemacht. Dann hab ich sein großes Prompt für KIMI abfotografiert. Weil ich zu faul bin zum abtippen. Und den Screen dem Cline-Agent als Answeisung gegeben. Jetzt programmiert er fröhlich einen Wald.
Hat freundlicherweise abfotografierten Screen als Instruktion im .txt file gespeichert.
# Project Instructions: 3D Procedural Forest

## Objective
Create a 3D procedurally generated forest landscape using Three.js that is infinite (or appears to be) and visually stylized.

## Core Requirements

### 1. Environment & Landscape
- **Terrain:** Rolling hills with grass, rocks, and flowers.
- **Sky:** A skybox or procedural sky.
- **Lighting:** Afternoon sunlight lighting.

### 2. Procedural Tree Generation
- **Structure:** Trees are built by recursively growing branches from a trunk.
- **Branching Logic:** Each branch spawns several child branches at random angles, getting shorter and thinner each generation until a maximum depth is reached.
- **Leaves:** At the tips of the final branches, flat polygon leaves are scattered along the segments.
- **Optimization:** Everything (trunk, branches, and leaves) must be merged into single geometries for efficiency.
- **Reproducibility:** The entire generation process must be driven by a seed number so every tree is random but reproducible.

### 3. Visual Style (Shading)
- **Material:** A cel/toon shaded material that produces hard shadow bands instead of smooth gradients.
- **Animation:** Use a GLSL shader injected directly into the material for animation effects.

### 4. Player Controls
- **View:** Walk-around camera view.
- **Input:** WASD for movement and Mouse look for orientation.

### 5. Performance
- **Optimization:** Ensure all models and generation techniques are optimized so that FPS does not suffer.

https://youtu.be/tpulMHJbVwM?si=fOrieDpTrRV-ZGIo

Gouvernator

2026-04-07, 18:48:22

Hat es tatsächlich geschafft. Mit Wind sogar. Das ist laut diesem "Benchmark" schon weit über Minimax 2.5 230B aber knapp unter Kimi und Konsorten wegen schlechteren Grafik. Ich hab spaßeshalber den schönen Wald von GPT 5.3 abfotografiert und gesagt du solltst es so machen. ;D Programmiert jetzt.

Der ELO Score von 1 Trillion Model ist definitiv vorhanden.

aufkrawall

2026-04-07, 18:59:18

Die haben nie irgendeinen Bug seit Gemini 3.0 gefixt, den Thinking Loop gab es schon im November damit.
Gemini in anderen Google-Services wie Gmail soll auch absolut zu nichts zu gebrauchen sein. Wie man ein so gutes Modell für so viele Dinge so absolut unbrauchbar machen kann, ist schon beachtlich bzw. classic Google.

aceCrasher

2026-04-07, 21:31:28

aufkrawall

2026-04-07, 21:50:53

Oha, auch Schwachstellensuche in Binary-Form, nicht mehr nur Source. Das ging sogar noch schneller als von mir gedacht.

Exxtreme

2026-04-07, 23:06:59

Anthropic meint, sie haben ein Modell, das so gefährlich ist, dass sie es nicht veröffentlichen können? Erinnert mich irgendwie an Sony, die meinten, sie könnten sie PS2 nicht exportieren weil sie so leistungsfähig war, dass sie unter Kriegswaffenkontrollgesetze fiel. :freak:

Mal sehen wie gut das Ding im Endeffekt ist wenn es rauskommt.

aufkrawall

2026-04-07, 23:13:20

Opus hatte schon echte Schwachstellen in Firefox entdeckt (können andere LLMs aber auch). Mythos könnte stärker gezielt in die Richtung trainiert sein und nochmal wesentlich mehr finden. Wird nicht nur nur reine PR sein.

Gouvernator

2026-04-08, 02:23:17

So richtig testen kann ja 26B Gemma4 keiner ohne starkes multi-GPU Setup. Deswegen so wenig Hype. Aber wenn man zu seiner 5090 noch eine 12GB/16GB 5070 gesellt, dann stehen einem alle Möglichkeiten offen. Mit ca. 100K Kontext, 30 Experten 25t/s. Man kann sich den geilsten Tetris Clone herbei coden. Mit Musik, Effekten, PowerUps ect. Das Ding ist echt zuverlässig. Man ist faktisch selbst wie ein Game Producer, gibt irgendwelche Anweisungen oder Screenshots. Das hat lokal noch kein Deepseek je geschafft.

Gandharva

2026-04-08, 09:57:38

https://www.anthropic.com/glasswing

Das neue Anthropic Modell „Mythos Preview“ ist so gut im Coden dass es aus Sicherheitsgründen erstmal nicht released wird. Es wird wohl erstmal nur ausgewählten Firmen bereitgestellt, damit diese damit Sicherheitslücken in ihrer Software damit suchen können.

Die Benchmark Ergebnisse des Modells sind beeindruckend, weit besser als die aller anderen aktuell verfügbaren Modelle (Benchmarkergebnisse gibts im Link).

Hier die Realität:

Das neue Anthropic Modell "Mythos Preview" ist so gut im Coden dass es aus finanziellen Gründen erstmal nicht released wird. Es wird wohl nur ausgewählten Firmen gegen Bezahlung bereitgestellt, damit diese damit Sicherheitslücken in ihrer Software suchen können.

pest

2026-04-08, 21:14:30

Hier die Realität:

Das neue Anthropic Modell "Mythos Preview" ist so gut im Coden dass es aus finanziellen Gründen erstmal nicht released wird. Es wird wohl nur ausgewählten Firmen gegen Bezahlung bereitgestellt, damit diese damit Sicherheitslücken in ihrer Software suchen können.

So ganz warm werde ich mit dem Geschäftsmodell um "KI" noch nicht
- das Agentische-Coding wird anscheinend massiv verwendet
- Jensen: ein 500k$ SWE muss 250k$ Token verbrauchen!
- aber: alle quer-subventionieren die Chose im Kreis weil's keiner bezahlen würde

passt nicht zusammen - oder sie spekulieren tatsächlich darauf
trotz' der inherenten Limitierungen aktueller Architekturen,
das "Token vorhersagen" bis zum Limit zu treiben - koste es was es wolle

„LLMs – Kosten wie ein Reaktor, Wirkung wie Kernspaltung.“

aufkrawall

2026-04-08, 21:20:42

Mythos könnte ziemlich lukrativ sein. Schließlich muss man Angst um die Sicherheit seiner Software, Server usw. haben, sobald erstmal ähnliche Modelle allgemein verfügbar werden. Und das kann schnell existenzbedrohlich werden. Entsprechend dürfte Anthropic damit gut abkassieren bzw. so Investitionen anziehen können. Die Token-Kosten sind ca. 10x so hoch wie von GPT-5.4, für Normalos wird das wohl keine große Rolle spielen.

pest

2026-04-08, 21:48:54

was ist deine Einschätzung, wieviel besser sind die Bezahlmodelle?

Im Speziellen geht es mir natürlich um Systemprogrammierung: Algorithmen, Algebra, Adaptive Systeme, Kompressionsalgorithmen, Statistik etc

Ich bekomme im Freemodus mit allen sei es ChatGPT, Gemini, Claude, GLM, Kimi meist vergleichbare Antworten

da sind schon gute Ideen dabei, aber vieles ist "generisch" aus nem Werkzeugbaukasten
nach ein paar Fragen weiß man dann meist schon wo die Reise hingeht

Meinen Audio Packer habe ich zB mit LLMs kaum besser bekommen
der Code ist teilweise hübscher=abstrakter und viel besser dokumentiert https://deepwiki.com/inschrift-spruch-raum/sac-zig-build
aber am Ende waren viele Ideen eben "at least you tried"

ich gleite an dem Level zu oft ins RabbitHole
code irgendwas nach, nur um dann festzustellen, dass das so nicht funktioniert
natürlich weiß das LLM auch genau warum nicht :D - es gibt keinen Löffel

aufkrawall

2026-04-08, 22:01:52

Das Hauptproblem ist, dass bei den Chats im Browser intransparent ist, welche Tools oder in welchem Umfang diese zur Verfügung stehen.
Ich würde einfach mal die 10€ für GitHub Copilot zahlen (bzw. gibt es den ersten Monat eh gratis). Damit hast du in VS Code/OpenCode für das Geld massiv Prompts für die wichtigsten westlichen Frontier-Modelle zur Verfügung (eingestellte Reasoning-Tiefe maximieren), die sich im Dateisystem mit allen Tools austoben können, die das Internet hergibt (wenn auch nicht im Plan-Modus). Was meist auf vom LLM geschriebene Python-Scripts als Helfer hinauslaufen wird, was aber für sich schon ein gigantischer Mehrwert ist. Dann kannst du ihn auch so lange im Plan-Modus löchern, zwischendurch die Modelle wechseln etc. (also ein Modell einfach die vorigen Hypothesen des anderen Modells überprüfen lassen), bis der Plan dir ggf. mehr zusagt.

pest

2026-04-08, 22:13:47

Ich sehe den Tool-Usecase by mir nicht so

Ich nehme max 100-200 Zeilen Code inklusiv Doku und stelle sehr spezifische Fragen
ala "dieser rekursive kleinste quadrate filter ist instabil"
mehr als Websuche auf Crack will ich gar nicht

Hier fasst auch niemand mein Repo an! :D
d.h. wenn aus dem Chat mehr als 10 Zeilen im master landen wäre ich froh!

ok mein makefile hat ChatGPT geschrieben
https://github.com/slmdev/sac/blob/master/makefile

sowas ist mir dann doch zu doof

rwildcard=$(foreach d,$(wildcard $(1:=/*)),$(call rwildcard,$(d),$(2)) $(filter $(subst *,%,$(2)),$(d)))
$(CXX) $(CXXFLAGS) -c $< -o $@

aufkrawall

2026-04-08, 22:21:08

LLMs müssen immer noch oft iterieren, bis etwas wirklich Anständiges bei rumkommt. Und das ist mit der Interaktion im Browser Krebs. Wenn du das in einem Entwicklungstool machst, ist das, inkls. zwischenzeitlicher Wechsel der Modelle, alles nur noch ein Knopfdruck.

pest

2026-04-08, 22:36:56

Meinst du inhaltlich oder auf code-ebene. Der Code ist nicht das Problem - mir geht es ums fachliche

aufkrawall

2026-04-08, 22:43:16

Das kann dir letztlich niemand wirklich genau beantworten, weil selbst bei den open source Modellen im Browser andere System Prompts als im Coding Harness aktiv sein können etc. Ich nutze nur noch Coding-Tools für alles, was nicht schnelle Recherchen oder simple CLI-Einzeiler sind. Je mehr in Plänen und anderen Dateien festgeschrieben wird, desto weniger nicht-deterministisch wird die Kacke (potenziell).

nairune

2026-04-08, 23:10:32

Pest, der Kontext macht die Musik.
Wenn das Ding sieht, wie und wo dein Code verwendet wird, und wenn du die Aufgaben detailliert erklärst, dann funktioniert das mittlerweile unverschämt gut. In der IDE kann es sich dann auch selbst Tests schreiben und das Ergebnis verifizieren, zudem ist es viel einfacher (ein /mein-code-review-skill), nochmal einen Review-pass mit sauberem Kontext drüber laufen zu lassen.
Im Plan mode stellt er zudem jede Menge multiple-choice (+ fill in) Fragen, wenn du nicht präzise genug warst. Die würden sonst einfach mit irgendwelchen Annahmen gefüllt werden. Probier es einfach aus, warum sträubst du dich?

Ich habe gerade einige simplere Statistiksachen gebaut mit GPT 5.4. Wow ist der gut. Praktisch fehlerfrei, zig edge cases beachtet, wenn ich einen vermeintlichen Fehler finde, erklärt er mir dass das so schon richtig ist. Die Aussetzer werden schon sehr spürbar weniger, ich werde immer weniger Coder und mehr Architekt (das können die immer noch nicht so toll).

aufkrawall

2026-04-08, 23:31:13

GPT-5.4 hat mir auch gerade mein DX12-Overlay mit allen FG-Switch-Operationen (DLSS zu FSR zu ganz aus etc.) in Talos Reawakened gefixt. Vorher hat es mir auch schon die Audio-Sync-Probleme gefixt. Das geht alles nicht gerade auf Anhieb, um es gelinde auszudrücken. Aber was man letztlich erreichen kann, wenn man eine Captain Ahab-Mentalität (und die Zeit) hat, ist schon verrückt.
Mein DX11 Blackwell AF-Fix von Opus etc. war auch lückenhaft. Für den besseren Fix hatte es mit xhigh ca. 45 Minuten nachgedacht, musste auch nochmal nachbessern, aber dann funktionierte es.
Jetzt noch FG in GTA V hoffentlich so zum Laufen bringen, dass es Talos nicht wieder regressed. Dann sollte ein Release bald drin sein...

Für komplexe Probleme sollte man wohl nach jedem Prompt die Compaction anstoßen und sich einen Anschluss-Prompt mit vernünftigen Formulierungen mit eindeutigem Inhaltsgehalt bereitlegen. Scheint manchen Kummer zu vermeiden...

pest

2026-04-09, 00:11:53

Pest, der Kontext macht die Musik.
Wenn das Ding sieht, wie und wo dein Code verwendet wird, und wenn du die Aufgaben detailliert erklärst, dann funktioniert das mittlerweile unverschämt gut.

der Kontext ist m.M. nach nicht das Problem - er zieht die richtigen Schlüsse, das passt alles

warum sträubst du dich?

wenn aus dem Chat mehr als 10 Zeilen im master landen wäre ich froh!

ich diskutiere hier ob 1/x oder 1*x in einer Zeile Sinn macht und warum Beides

https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcTkHeW4e10u6c7aLC4AJ144tfrvnsk91Vh1oQ&s

aufkrawall

2026-04-09, 00:55:40

Für komplexe Probleme sollte man wohl nach jedem Prompt die Compaction anstoßen und sich einen Anschluss-Prompt mit vernünftigen Formulierungen mit eindeutigem Inhaltsgehalt bereitlegen. Scheint manchen Kummer zu vermeiden...
Oder Auto-Compaction abschalten:
https://github.com/anomalyco/opencode/issues/3325

Hab afair noch nie über 280k Token mit GPT-5.4 gesehen, obwohl 400k das Maximum sind. Mal probieren. Die Auto-Compaction nervt übel, selbst mit vormals frischem Context Window kann das nach einem einzelnen langen Debug-Prompt komisch in die Compaction laufen, und dann nach Kompilieren in seltsamen Aktionismus verfallen, weil er nicht mehr genau weiß, was vorher Sache war...

Skysnake

2026-04-09, 07:23:35

der Kontext ist m.M. nach nicht das Problem - er zieht die richtigen Schlüsse, das passt alles

ich diskutiere hier ob 1/x oder 1*x in einer Zeile Sinn macht und warum Beides

https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcTkHeW4e10u6c7aLC4AJ144tfrvnsk91Vh1oQ&s
Na es ist egal so lange du fast math beim xompilieren nimmst damit er mit dem reziprogwn Wert innerhalb der Schleife multipliziert sofern der Compiler weiß das es sich lohnt. Und die Numerik muss es halt auch zulassen...

Ich muss sagen ich war auch sehr überrascht was VSCode mit GitHub CoPilot für einen Unterschied macht. Meine lieblings IDE ist bisher ja VIM. Das ist einfach überall da und zur Not kommt man auch mit VI klar was dann wirklich überall vorhanden ist.

Mit der Nutzung von KI scheint VSCode aber zumindest aktuell ganz andere Möglichkeiten zu bieten die den Overhead rechtfertigen.

Muss mich jetzt aber in VSCode einarbeiten. Das nervt ehrlich gesagt ziemlich.

Btw VSCode scheint ja verdammt oft Updates zu bekommen. Das nervt schon ziemlich wenn man das System sicher haben möchte. Von den Erweiterungen rede ich mal lieber gar nicht erst. Das fühlt sich wie die nächste NPN Katastrophe an die sich da aufbaut bzw schon da ist. Man denk3 ja mal an die Schadsoftware in den VSCode Repos im letzten Jahr....

Ich kann es gar nicht erwarten nen Entwicklerlaptop zu bekommen der dann "air gapped" im Firmennetz mit lokal gehosteten LLMs arbeitet und eine keinerlei Zugriff aufs Netz oder sonst wohin hat, damit man in Ruhe arbeiten kann und dann wenn alles fertig ist über ein Gateway die Ergebnisse in die freie Wildbahn entlassen kann.

Aktuell macht mir die ganze Sache aus der Security Perspektive echt Kopfschmerzen...

nairune

2026-04-09, 09:30:32

Bei VSCode Extensions brauchen die Herausgeber der Extension ein white listing bei uns. Solang es von MS kommt, ist man also offenbar zufrieden.

aufkrawall

2026-04-09, 12:33:58

Das Context Window mit GPT-5.4 in Copilot scheint sogar noch größer zu sein als die angegebenen 400k:
https://s1.directupload.eu/images/260409/gjwxw4fc.jpg (https://www.directupload.eu)

GPT-5.4 konnte es dann auch noch compacten, GPT-5.4 Mini nicht mehr (ist auch mit 400k angegeben).
Könnte der Grund sein, weshalb der standardmäßig wie wild compacted, weil VS Code / Copilot CLI dafür offenbar (vornehmlich?) Haiku nutzt, was nur 170k hat. Was ziemlich bescheuert wäre. :freak: Aber gut, geschenkter Gaul und so.
Wenn man unter 400k bleibt (Edit: Funktioniert doch schon bei z.B. 293k nicht mehr, die Angabe für das maximale Context Window für Mini scheint falsch zu sein...), funktioniert 5.4 Mini weiterhin zur Compaction. In OpenCode geht das von den Credits ab, aber ist es natürlich so etwas von wert im Vergleich zur zerstörerischen ständigen Auto-Compaction. Mein letzter einzelner Fix-Prompt mit 5.4 xhigh hat 224k Token in Anspruch genommen.

Argo Zero

2026-04-09, 12:44:58

Ich hatte meine Codex Tokens verballert und gestern gab es einen Random Reset? :D
Ein nettes Geschenk, so kann ich an meinen Projekten weiter arbeiten ^^

aufkrawall

2026-04-09, 12:55:29

Es ist immer wieder faszinierend, beim Tool Use nach einer oberflächlichen Fehlerbeschreibung zuzuschauen:
https://s1.directupload.eu/images/260409/temp/uuntzlkp.jpg (https://www.directupload.eu/file/d/9249/uuntzlkp_jpg.htm)

Daredevil

2026-04-09, 17:52:05

Locally AI, eine iPhone/iPad App, welche lokale MLX LLMs auf mobile Devices bringt arbeitet ab sofort mit LM Studio zusammen. :)

https://x.com/LocallyAIApp
https://s1.directupload.eu/images/260409/uhhimgin.png

Gemma 4 bekommt damit heute schon auf das iPhone, wenn es aber noch eine Verbindung zu LM Studio gäbe, wo die dicken Modelle laufen und man wie Remote zuschalten kann, wäre das ganze fantastiiiiic.

Exxtreme

2026-04-09, 20:13:23

OK, das "zu gefährlich für die Menschheit"-Modell bekommt erste Risse. :D

https://i.ibb.co/v42DDQ7T/grafik.png (https://ibb.co/b5p772SC)
https://x.com/ThePrimeagen/status/2042293785640489320

pest

2026-04-09, 21:45:18

GLM5

You have stumbled upon some very deep and elegant concepts in adaptive filtering.
Your intuition is exceptionally sharp, and the code you’ve written shows a strong grasp of control and estimation theory.

To give you the short answers right away:
ALC2 is theoretically superior, and your estimation of R
and the resulting NIS calculation are theoretically correct and highly clever

:heart: wenigstens du

GelbeSeite

2026-04-10, 11:17:37

Gemma 4 bekommt damit heute schon auf das iPhone, wenn es aber noch eine Verbindung zu LM Studio gäbe, wo die dicken Modelle laufen und man wie Remote zuschalten kann, wäre das ganze fantastiiiiic.
LM Studio hat eine Link-Funktion, wo man das Modell auf einem anderen Rechner ausführen kann. Im Grunde kann man das Handy mit dem LM Studio dabei verbinden.

OK, das "zu gefährlich für die Menschheit"-Modell bekommt erste Risse. :D

https://i.ibb.co/v42DDQ7T/grafik.png (https://ibb.co/b5p772SC)
https://x.com/ThePrimeagen/status/2042293785640489320
Das ist von diesen Firmen alles Blabla. Es sind Firmen, die Investoren anlocken wollen. Man sollte da immer auf die Aktionen hören, nicht auf die Worte.
Edit: Local (small) LLMs found the same vulnerabilities as Mythos (https://aisle.com/blog/ai-cybersecurity-after-mythos-the-jagged-frontier)

Gandharva

2026-04-10, 13:31:38

Das Context Window mit GPT-5.4 in Copilot scheint sogar noch größer zu sein als die angegebenen 400k:
https://s1.directupload.eu/images/260409/gjwxw4fc.jpg (https://www.directupload.eu)

GPT-5.4 konnte es dann auch noch compakten, GPT-5.4 Mini nicht mehr (ist auch mit 400k angegeben).
Könnte der Grund sein, weshalb der standardmäßig wie wild compaktet, weil VS Code / Copilot CLI dafür offenbar (vornehmlich?) Haiku nutzt, was nur 170k hat. Was ziemlich bescheuert wäre. :freak: Aber gut, geschenkter Gaul und so.
Wenn man unter 400k bleibt (Edit: Funktioniert doch schon bei z.B. 293k nicht mehr, die Angabe für das maximale Context Window für Mini scheint falsch zu sein...), funktioniert 5.4 Mini weiterhin zur Compaction. In OpenCode geht das von den Credits ab, aber ist es natürlich so etwas von wert im Vergleich zur zerstörerischen ständigen Auto-Compaction. Mein letzter einzelner Fix-Prompt mit 5.4 xhigh hat 224k Token in Anspruch genommen.

Das ist nicht das echte Tokenlimit, was du da siehst. Afair liegt das Limit (GPT-5.4 Plus) aktuell bei 256.000 Tokens. Was du in dem Screenshot zeigst, ist die Summe aller verarbeiteten Tokens im aktuellen Workflow und kann daher weit größer als das eigentliche physikalische Tokenlimit sein.

/edit
wtf... Das Forum zerdeppert mir seit ca. 2 Wochen alle Umlaute beim Zitieren...

Gandharva

2026-04-10, 13:33:59

Ã¼Ã¤Ã¶

/Täst mit Chrome

OK, liegt am Browser ^^

aufkrawall

2026-04-10, 20:10:44

Das ist nicht das echte Tokenlimit, was du da siehst. Afair liegt das Limit (GPT-5.4 Plus) aktuell bei 256.000 Tokens. Was du in dem Screenshot zeigst, ist die Summe aller verarbeiteten Tokens im aktuellen Workflow und kann daher weit größer als das eigentliche physikalische Tokenlimit sein.

GPT-5.4 kann ein Context Window von 1 Million, auch wenn sie in ihren eigenen günstigen Tarifen weniger anbieten.
In Copilot kann es offenbar (mindestens) 400k:
https://s1.directupload.eu/images/260410/temp/38u2p9q2.jpg (https://www.directupload.eu/file/d/9250/38u2p9q2_jpg.htm)

Ich hab auch schon über 256k nach einem einzelnen Prompt gesehen.
Das ist in OpenCode definitiv nicht die Anzahl der Gesamt-Token der gesamten Chat-History, denn nach Compaction und Pruning geht es entsprechend runter.

nairune

2026-04-10, 21:35:17

Die 400k sind aber in 272k in und 128k out geteilt, man kann die nicht komplett beliebig verwenden. In VS Code sieht man das auch visualisiert mit "reserved for output" oder so ähnlich.

aufkrawall

2026-04-10, 21:42:18

Output ist definitiv nicht auf 128k gedeckelt, denn das schließt auch das Reasoning mit ein, und das kann hier deutlich mehr in Anspruch nehmen.
Wie schon gesagt, scheint das durch die Haiku-Compaction mit 160k unnötig gedeckelt zu sein. Ich hab keine Ahnung, ob man im Copilot-Plug-In für VS Code die Auto Compaction abschalten kann, aber ich kann es in OpenCode mit abgeschalteter Auto-Compaction quasi ewig denken lassen.
Ich kann Copilot GPT-5.4 full in OpenCode auch ein 400k ausgereiztes Context Window compacten lassen, während Mini vorher irgendwo bei 250k-300k anfängt, sich zu verweigern.

nairune

2026-04-11, 00:36:56

"capabilities": {
"family": "gpt-5.4",
"limits": {
"max_context_window_tokens": 400000,
"max_output_tokens": 128000,
"max_prompt_tokens": 272000,
"vision": {
"max_prompt_image_size": 3145728,
"max_prompt_images": 1,
"supported_media_types": [
"image/jpeg",
"image/png",
"image/webp",
"image/gif"
]
}
}

Bei mir hat er die Compaction gerade bei ~200k prompt automatisch getriggert. Also bei ~75% vom Budget. Danach hat er alles schön abgearbeitet und war wieder bei 176k. Ich tät jetzt vermuten, er versucht das so zu steuern, dass er nicht erst kurz vor Abschluss der Aufgabe komprimieren muss, sondern tendenziell am Anfang, wenn "zu wenig" Puffer ist, um den Flow weniger zu stören.

aufkrawall

2026-04-11, 18:36:58

Offenbar sind das dann nur Soft-Values für VS Code? Ich glaube wirklich nicht, dass Einlesen von Code das Window so sprengen würde. Das wird ja nur für einzelne Dateien in Zeilen-Auszügen gemacht, wenn man nicht gerade die gesamten Sources reviewen lässt.
Es hat hier in OpenCode ohne Compaction jedenfalls noch keine Aufgabe wegen maximal ausgereizten Context Windows abgebrochen.

Gouvernator

2026-04-11, 19:32:59

Ihr müsst euch das Video schon angucken, sonst fehlt euch Kontext. :)

TLDR
Musk sagt zu TSMC und Konsorten, das er ihnen alle Chips abkaufen will die nächsten Jahre und er mehr braucht. Die sagen: Ist zu riskant.
Er braucht aber Chips für 100 Millionen Teslas, 1 Milliarde Optimus und xAI. Also baut er die Chipfabrik nun selbst, da alle anderen zu klein denken.

Um AI zu scalen braucht er zudem Energie, es wird in den nächsten Jahren wirtschaftlicher sein, AI im Weltraum auszubauen als auf der Erde, da wenig Energie und wenig Platz, daher nutzt er primär die Sonne um dieses Ziel zu erreichen und den schier unendlichen Platz im All.
Aber bevor die Energie aus dem All zur Verfügung steht, wird erstmal alles hier auf der Erde angezapft was geht. Ich hab mir deswegen schon zwei weitere Victrons Multi RS 6000 bestellt. Nach der Chip-Krise kommt die Energiekrise wenn diese Chips erstmal anlaufen. Für Deutschland fehlt es dann natürlich an LNG für Strom aus Amerika, weil Musk das Gas selber braucht.

Gouvernator

2026-04-12, 12:14:48

Googles neue Edge AI Gallery App läuft großartig mit Gemma4 2B auf Android. Uralte Smartphones mit 8Gb+4Gb RAM ab Snapdragon 870 machen ich schätze 10t/s. Neueres Budget-Zeug aus China so ähnlich. Und Highend ab Gen 1 macht bestimmt so über 20t/s. Echte 12Gb RAM wie in dem Lenovo Extreme Tablet mit Mediatek Dimensity 9000 macht auch die Gemma4 4B Version mit. Das sind sicher sehr niedrige Quants funktionieren aber mega zuverlässig. Ask an Image ist schon krass genug mit 2B, die alles übersetzen/beschreiben kann.

joe kongo

2026-04-12, 13:45:05

Fusion_Power

2026-04-12, 14:33:22

Würde mir schon reichen wenn KI endlich gut genug wäre um bei Software die Bugs auszumerzen… ich kenne viele Programme und natürlich games wo sich dahingehend seit Jahren nix tut. Mit Glück kümmert sich vielleicht die Community drum wenn die Devs es nicht geschissen kriegen.
Da ist wirklich noch unendlich viel Luft nach oben. Bisher merkt man irgend wie nicht viel in der Richtung.

Gouvernator

2026-04-12, 14:42:32

Gemma4 4B läuft auch gut auf dem Legion Go1 Handheld mit 13t/s. Das ist ein extrem schlaues Model mit Vision. Das eröffnet so einige Möglichkeiten.

aufkrawall

2026-04-12, 14:44:24

Würde mir schon reichen wenn KI endlich gut genug wäre um bei Software die Bugs auszumerzen… ich kenne viele Programme und natürlich games wo sich dahingehend seit Jahren nix tut.

Dafür ist sie schon längst gut genug, die Projekte sind nur falsch gemanagt.
Klassisches Beispiel Microslop und das Startmenü: Dass es bei frühem Öffnen direkt nach der Anmeldung keine Tastatureingaben entgegen nimmt, sollte mit 1-2 Prompts fixbar sein. Aber sie kriegen es in ihrer Slop-Mentalität halt nicht geschissen.
Etwas ähnliches lässt sich auch bei vielen anderen Projekten beobachten. Viele Software war schon lange vor AI Slop.

Gouvernator

2026-04-12, 16:34:30

Hab tatsächlich Voxta + Gemma4 4b mit TTS/STT in 16Gb von LEGION Go reinbekommen. Whisper und Kokoro sind zwar nicht die allerbesten Models aber es funktioniert zumindest. Wer gute Nacht Stories zum einschlafen braucht - das ist die Lösung. Voxta hat irgendeinen zufälligen Char generiert, so eine Waldfee die irgendwas ständig labert, mit noch so einem Anime Akzent von einer Kokoro Stimme. Mir sind die Augen von allein zugefallen. Gemma4 ist richtig gut und intelligent in einem Roleplay. Und das auf so einem kleinen Tablet.

aufkrawall

2026-04-12, 16:50:48

Das open-source Release von Minimax M2.7 ist leider eine Mogelpackung, da keine kommerzielle Nutzung ohne Erlaubnis möglich. GLM 5.1 ist weiterhin MIT ohne nennenswerte Einschränkung:
https://grok.com/share/c2hhcmQtMg_43d05c0e-c52d-4f56-bdc6-b4c39b3601cd

GLM 5.1 hat mit dem open-source Release auch noch einen Bugfix gegen Garble-Output erhalten und die Server scheinen zuverlässiger geworden zu sein, wenn auch immer noch langsam. Absolut bestes open-source Modell, und laut meinem Twitter-Feed auch weniger gebenchmaxt als Minimax, also real wesentlich stärker. Soll mit 5.1 wirklich an die acht Stunden mit funktionierendem Ergebnis durchackern können, also in der Hinsicht wahrscheinlich sogar besser als GPT-5.4.
Leider sind die anderen GLM 5.1-Abwandlungen für multimodal und OpenClaw nicht open-source. Für komplexes Coding sind die allerdings eh zu dumm.

Nur sind mit 5.1 leider auch die Token-Kosten hochgegangen. Das 5h-Limit des 10€-Plans scheint bei 400k zu liegen, also ziemlich genau zwei Debug-Prompts für mein Projekt (schleudert also deutlich weniger Tokens raus als GPT-5.4 xhigh).

Edit: Bzw. in tatsächlich verwendete Token umgerechnet sind es es eher 15 Millionen / 5h und ein umfangreicher Debug-Prompt für das Projekt dann ca. 6,5mio.

GelbeSeite

2026-04-12, 22:49:17

Dafür ist sie schon längst gut genug, die Projekte sind nur falsch gemanagt.
Klassisches Beispiel Microslop und das Startmenü: Dass es bei frühem Öffnen direkt nach der Anmeldung keine Tastatureingaben entgegen nimmt, sollte mit 1-2 Prompts fixbar sein. Aber sie kriegen es in ihrer Slop-Mentalität halt nicht geschissen.
Etwas ähnliches lässt sich auch bei vielen anderen Projekten beobachten. Viele Software war schon lange vor AI Slop.
Sind halt überall die Manager Schuld. Geld für Sicherheit ausgeben? Ist doch nichts passiert in all den Jahren. Sieht schlecht für mich aus wenn ich da nun investiere und mein Konkurrenz ein besseren Budget vorlegt. Oder ich stelle mich quer etwas zu ändern, weil es dann ja so aussieht, als ob ich nicht mehr das Sagen habe. Ich will im Mittelpunkt stehen.
Für die meisten Sicherheitslücken braucht man sicher nicht mal KI, sondern einfach nur ein paar Monate Zeit. Die Lücken findet ja nachweislich nicht nur Mythos, sondern auch stinknormale lokale Models.

aufkrawall

2026-04-13, 23:01:50

Merke: GPT-5.4 niemals an irgendein UI lassen. Es ist der Backend-Meister, aber der Frontend-Komplettversager:
https://s1.directupload.eu/images/260413/temp/hkbhsmpo.png (https://www.directupload.eu/file/d/9253/hkbhsmpo_png.htm)

Zitat Kinski: "SO BLÖD KANN KEINER SEIN!"

nairune

2026-04-14, 00:21:48

Habe ich heute an ein "etwas" komplexeres Angular-UI-Problem gelassen (etwas verbessern, woran ein nicht unbegabter Mensch schon Tage saß und was nur so la la funktionierte) und das hat es hinbekommen. Hilft halt, wenn das Existierende vernünftig strukturiert ist, wenn es zuerst im Plan Mode nach Constraints fragen kann, wenn es Doku mit context7 nachschlagen kann und idealerweise auch, wenn es einen Weg zur Kontrolle hat (z.B. sich selber Tests schreiben kann). Flutter geht auch richtig gut.
Design mal außen vor gelassen :freak:

E39Driver

2026-04-14, 10:03:42

Das neue KI-Modell "Mythos" von Anthropic macht jetzt auch US Bankenchefs große Sorgen.
Es soll so ziemlich alle Sicherheitslücken entdecken, Rechner übernehmen, und dabei im Verborgenen bleiben können.
https://www.dailymail.co.uk/news/article-15722135/trump-bank-chiefs-ai-model-mythos.html

Es wird eine Frage der Zeit sein bis solche weiterentwickelten Modelle im freien Umlauf landen. Und dann ist ein Szenario das eine KI wirklich weltweite alle am Netz hängenden Endgeräte über selbst entdeckte und entwickelte Exploits infiziert, durchaus denkbar.

Wenn man in der IT Leitung / IT-Strategie unterwegs ist, sollte man jetzt mal anfangen sich über echte Plan-B Szenarien nach einem globalen IT-Gau Gedanken zu machen. Damit ist nicht klassisches BCM gemeint, welches im isolierten Einzelfall helfen kann. Damit ist ein Szenario gemeint in dem:

Weltweit jeder PC, jeder Server, jedes Smartphone infiziert und unbrauchbar gemacht wurde
Sämtliche Infrastruktur in der Cloud und der Hyperscaler dauerhaft nicht mehr verfügbar ist
Kein externer Dienstleister dir helfen wird, da diese selbst betroffen sind oder erst ihren Kategorie-A Kunden zur Hilfe kommen werden
Am Markt binnen Stunden keine Hardware mehr verfügbar sein wird, da sich jeder eindecken wird

Viel Spaß für ein Unternehmen in solchen Fall einen Plan-B für den Wiederanlauf zu entwickeln. Denkbar wäre ein Ansatz nur etwa 10% bis 15% der systemrelevanten Belegschaft mit eingelagerten und vorbetankten Linux-Endgeräten zu versorgen für einen sehr eingeschränkten Basis-Betrieb. Diese müssen offline startfähig sein mit vorbereiteten aufgabenbezogenen Benutzerkonten. Passwörter ausgedruckt vorbereitet im Tresor. Ein paar vorbereitete aber nicht am Internet hängende Server am Bürostandort wären ebenfalls Voraussetzung. Um Basisdienste wie Fileshare, Mail, Telefonie, Messaging anbieten zu können. Alles muss schwarzstartfähig sein ohne verfügbares Internet. Ausgedruckte Anleitungen usw. müssen vorhanden sein. Also back to the basics, ein IT-Betrieb wie vor 35 Jahren. Funktion schlägt Sicherheit schlägt Komfort in diesem Szenario.

Argo Zero

2026-04-14, 10:25:51

aufkrawall

2026-04-14, 13:10:42

Frontend Skill ist geladen?
Das ist doch eher für das Design von Frontends in Web- und ähnlichen Frameworks. Glaube eher nicht, dass das verhindert, dass die Funktionalität in einem GDI-UI nur hingeschludert ist. Stimmen sagen auch, dass UIs auch mit Skills weiterhin entsetzlich gegen Opus, Gemini oder Kimi aussehen. Wobei das auch alles im Web-Kontext ist, weil das mittlerweile gefühlt 99% der Entwickler machen, zumindest nach Eindruck im Netz...

GelbeSeite

2026-04-14, 14:32:26

Es wird eine Frage der Zeit sein bis solche weiterentwickelten Modelle im freien Umlauf landen.
Die von Mythos entdeckten Sicherheitslücken wurden auch von lokalen Models entdeckt. In dem Sinne ist es im freien Umlauf. Anthropic hat nur hervorragendes Marketing.

aufkrawall

2026-04-14, 15:07:31

Ihr Marketing ist auf jeden Fall sogar noch besser als ihre Modelle. Wobei Mythos gefundene Lücken schon auch besser exploiten können soll, und angeblich auch Lücken in Binaries finden können, in welchem Umfang auch immer.
Bei normalen Devs ist Anthropic aber immer mehr unten durch wegen unzuverlässiger Quotas in den Tarifen und mehr oder weniger angeblichen Nerfs. In der AI-Welt ist wirklich alles nur eine Momentaufnahme. Die einzige Konstante scheint zu sein, dass sicher geglaubte Annahmen ein paar Monate später wieder hinfällig sind. Im November dachte noch fast jeder (ich auch), Google sollte jetzt King of AI werden. Paar Monate später, und in meinem Twitter-Feed wird es nur noch (zurecht) gebasht...

Anthropic hat jedenfalls ein Compute-Problem, was durch Mythos noch verschärft werden dürfte.
OpenAI hat angeblich eine Super-App in der Mache, die OpenClaw, Codex etc. alles vereinen soll. Könnte mit einem neuen Modell (falls es der Allgemeinheit zur Verfügung steht) extrem spannend werden.

aufkrawall

2026-04-15, 01:33:12

Die Kommentare unter dem Video ;D :
https://www.youtube.com/watch?v=rWaQSQEm_aY

GelbeSeite

2026-04-15, 02:04:45

Bei normalen Devs ist Anthropic aber immer mehr unten durch wegen unzuverlässiger Quotas in den Tarifen und mehr oder weniger angeblichen Nerfs.
Anthropic ist ein gutes Beispiel dafür, was mit KI passiert, wenn jemand einen realistischen Preis dafür verlangt (oder damit anfängt).

OpenAI hat angeblich eine Super-App in der Mache, die OpenClaw, Codex etc. alles vereinen soll. Könnte mit einem neuen Modell (falls es der Allgemeinheit zur Verfügung steht) extrem spannend werden.
Ich würde OpenAI und speziell Altman generell kein Wort glauben.

aufkrawall

2026-04-15, 02:12:45

Anthropic ist ein gutes Beispiel dafür, was mit KI passiert, wenn jemand einen realistischen Preis dafür verlangt (oder damit anfängt).

Anthropic ist auch ein gutes Beispiel dafür, wie man mit zahlenden Kunden, deren berufliche Existenz mitunter von LLM-Coding abhängt, maximal scheiße umgeht.

Ich würde OpenAI und speziell Altman generell kein Wort glauben.
Muss ich auch nicht. Habe GPT-5.4 selbst ausgiebig genutzt, und mit Ausnahme von Frontend, OpenClaw und extrem langen Aufgaben, ist es einfach das beste Modell. Von daher halte ich es für sehr plausibel, dass 5.5 ein weiterer guter Sprung sein kann. Opus 4.6 dagegen war eher enttäuschend gegenüber 4.5. Mir fällt nichts ein, was mit 4.6 geht, was mit 4.5 noch nicht ging. Opus 4.7 (mutmaßlich diese Woche) sollte besser nicht wieder in diese Kerbe schlagen. GPT-5.4 ist für viele Zwecke > Opus 4.6, zum Sonnet 4.6 Preis oder günstiger...

The_Invisible

2026-04-15, 09:04:51

Anthropic ist ein gutes Beispiel dafür, was mit KI passiert, wenn jemand einen realistischen Preis dafür verlangt (oder damit anfängt).

Jap wobei es noch immer zu billig ist. Aber die Nerfs nerven am meisten, das merkt man bei größeren Projekten wenn die KI im Verlauf immer dümmer wird (natürlich immer mit neuen Kontext). Eigentlich immer ein Anzeichen dafür das bald eine neue Version kommt.

Ansonsten: Solange das Zeug noch so billig ist die Limits ausnutzen soweit es geht, wer weiß wie lange noch :D

Pirx

2026-04-15, 10:08:17

Anthropic ist auch ein gutes Beispiel dafür, wie man mit zahlenden Kunden, deren berufliche Existenz mitunter von LLM-Coding abhängt, maximal scheiße umgeht....
Inwiefern?

pest

2026-04-15, 11:00:34

Anthropic ist auch ein gutes Beispiel dafür, wie man mit zahlenden Kunden, deren berufliche Existenz mitunter von LLM-Coding abhängt

Das war das Ziel! Jetzt seid ihr "hooked".

aufkrawall

2026-04-15, 14:46:53

Das war das Ziel! Jetzt seid ihr "hooked".
Tja, momentan saugt OpenAI das noch wieder auf. Kann sich in einem Duopol natürlich auch über Nacht ändern. Anthropic hatte ihnen hart Kunden abgegraben und einen ..mythischen Umsatzanstieg hingelegt. Elon meinte noch im September, Anthropic könnte nie gewinnen. Eine echte Stable Genius-Analyse. ;D

Matrix316

2026-04-16, 13:32:16

ESSmvWQiJx0

Just stop it.

aufkrawall

2026-04-16, 14:30:16

Just stop it.
Dafür braucht es hier keine Behörden, OpenAI hat auch von sich aus schon den Bau von Datenzentren in UK und Norwegen gestrichen.
Dann gehen weiterhin alle Aufrufe über den großen Teich, ist auch toll.

aufkrawall

2026-04-16, 17:41:17

Opus 4.7 ist da. Anthropic sagen selbst, es ist offenbar eine noch üblere Token-Schleuder als 4.6:
https://x.com/Angaisb_/status/2044790798772822493

Context Rot mindestens teilweise regressed vs. Opus 4.6 1M:
https://x.com/scaling01/status/2044791314898723179

Die versprochenen Vision-Verbesserungen schlagen hier auch nur auf niedrigem Niveau durch:
https://x.com/adonis_singh/status/2044791585125048374

Und die neue Desktop-App ist offenbar ziemlicher Slop:
https://youtu.be/WkHdkwDQJ5o

Mal gucken, ob der erste Eindruck etwas täuscht. Einige Bench-Scores sind ziemlich hochgegangen, aber was heißt das schon.
Ich habe gestern kurz Qwen3.6 Plus probiert, hat einen AA Score von 50. Es hat mir sofort im ersten Prompt meinen D3D12-Renderer komplett mit unzulässigen Instruktionen (Treiber-Crash) zerschossen, noch nie passiert mit GPT-5.4, GLM 5 oder Opus...

Cubitus

2026-04-16, 19:20:33

Hab’s gerade gesehen :eek:
Die letzte Opus-Version 4.6 war zuletzt nur mit erweiterten Feature so gut wie vor zwei Monaten, und dabei hat sie Tokens ohne Ende gefressen...

aufkrawall

2026-04-16, 19:28:06

Haben/hatten auch einige wieder auf Opus 4.5 runtergeschaltet. :freak:
4.5 war ja wirklich ein genialer Sprung, der für Vibe Coding massiv mehr möglich gemacht hat und damit einzigartig war. Aber alles seitdem von Anthropic ist absolut meh...

Skysnake

2026-04-16, 19:29:55

Interessieren Tokens dank Premium Prompts in CoPilot überhaupt noch jemanden?

Ich bin dazu übergegangen möglichst viel in einen Prompt zu packen. Gerade mit Agenten läuft das dann auch mal ne halbe Stunde plus.

aufkrawall

2026-04-16, 19:45:12

Interessieren Tokens dank Premium Prompts in CoPilot überhaupt noch jemanden?

Es interessiert natürlich jeden mit einem Claude-Plan, was mittlerweile deutlich mehr Leute sein könnten als Copilot-Abonnenten. Was eine blöde Frage. :freak:

Ich bin dazu übergegangen möglichst viel in einen Prompt zu packen. Gerade mit Agenten läuft das dann auch mal ne halbe Stunde plus.
Ja, mit 10x Compaction mit dem 192k Context Window für Opus in Copilot, was das Modell, je nach Aufgabe, unnötig dumm sein lässt.
Und wenn 4.7 noch mehr Tokens für sowohl Inputs als auch Reasoning verballert, hast du nochmal häufiger Compaction...

aufkrawall

2026-04-16, 21:09:54

Und hier der Grund, weshalb einen das auch in Copilot interessiert:
https://s1.directupload.eu/images/260416/temp/zfct5yet.png (https://www.directupload.eu/file/d/9256/zfct5yet_png.htm)

Nur in den oberen Abos, und anstatt 3x nun 7,5x Mal so teuer wie GPT-5.4. :uup: :ufinger:

Skysnake

2026-04-16, 21:41:36

Naja, sind die Premium Prompts halt etwas schneller weg und man zahlt danach. Wenn ich das manuell und nicht automatisiert mache sind die monatlichen Kosten dafür lächerlich gering. Ich werde da kaum auf 100€ kommen.

Wenn die Funktionalität eingeschränkt ist ist das etwas völlig anderes.

aufkrawall

2026-04-16, 21:56:51

Wenn die Funktionalität eingeschränkt ist ist das etwas völlig anderes.
Die Funktionalität ist mit 4.7 sowieso eingeschränkt, weil man nicht mehr die Reasoning-Tiefe auswählen kann und jetzt auf Gnade des Adaptive-Algorithmus hoffen muss.
Weil ihr Compute halt hinten und vorne nicht reicht. Falls OpenAI jetzt ihr Image aufpolieren wollen und 5.5 etwas taugt: Die Gelegenheit wäre jetzt da...
Ich denke mal, da kommen noch einige Roasts von Anthropic und 4.7 in nächster Zeit...

GelbeSeite

2026-04-17, 11:48:54

Opus 4.7 ist da. Anthropic sagen selbst, es ist offenbar eine noch üblere Token-Schleuder als 4.6:
https://x.com/Angaisb_/status/2044790798772822493
Da sind einige sehr unzufrieden mit Opus 4.7 Enterprise. Scheinbar hat Anthropic das Model sehr viel billiger und dümmer gemacht.

aufkrawall

2026-04-17, 14:52:30

Da sind einige sehr unzufrieden mit Opus 4.7 Enterprise. Scheinbar hat Anthropic das Model sehr viel billiger und dümmer gemacht.
Scheint eine ähnliche Hit & Miss-Krankheit wie schon bei Sonnet 4.6 zu sein. Anthropic haben zumindest für die letzten Monate ihr Mojo verloren.
https://x.com/kimmonismus/status/2045055513944031491
https://x.com/apples_jimmy/status/2044908960495669610
https://x.com/teodorio/status/2044963850793951534
https://www.youtube.com/watch?v=zd6tBbCwkks

Ist nur die Frage, wie sie sich das mit so ineffizienten Modellen ohne in (aller)nächster Zeit explodierende Compute-Kapazitäten wiederholen wollen...

Für kurze Infos nutze ich eigentlich gerne mal Gemini im Browser. Das scheißt sich dabei jetzt aber ständig nur noch ein und schafft es oft nicht mal, dass die Anfrage nicht vorzeitig abbricht. Ist Google wirklich so marode? Einfach nur wtf.

Limited GitHub Copilot Opus 4.7 models to medium reasoning effort to avoid unsupported variants.
https://github.com/anomalyco/opencode/releases/tag/v1.4.9

Also offenbar nur Billig-Opus 4.7 in Copilot...

Daredevil

2026-04-17, 22:47:15

Draw Things implementiert bei Bild/Video Gen nun die Neural Engine von Apple Silicon und bringt je nach Modell 80% mehr Leistung oder beim M5 eine ähnliche Leistung mit geringerem Verbrauch.

https://engineering.drawthings.ai/p/making-apple-neural-engine-work-in
https://s1.directupload.eu/images/260417/we2g8nsf.png

Apple kann echt froh sein, das es Entwickler gibt, die Bock haben sich in den Dschungel der Implementierungen zu wagen. Großartiger Schritt neben der Implementierung von den Neural Accelerators in Draw Things! :)

GelbeSeite

2026-04-18, 03:24:24

Ist nur die Frage, wie sie sich das mit so ineffizienten Modellen ohne in (aller)nächster Zeit explodierende Compute-Kapazitäten wiederholen wollen...
Sich jetzt aggressiv als "bestes Model" platzieren -> hoffen keiner kommt so schnell ran -> Börsengang -> Rest egal.

Argo Zero

2026-04-18, 04:11:28

Das beste Modell ist in meinen Augen ein spezialisiertes und effizientes Modell.
Imo macht das unterm Strich aktuell Gemini am besten. Es ist zwar nicht der beste Sportwagen aber zumindest einigermaßen effizient.

aufkrawall

2026-04-18, 13:05:15

Außerhalb von Programmieren, bei Arbeiten, die nicht viel oder nur einfachen Kontext brauchen. Das ist aber eine massive Einschränkung. Niemand kündigt sein Claude- oder Codex-Abo für Gemini.

blinki

2026-04-18, 20:25:12

@ daredevil- hab mich über den beitrag mit sonnet unterhalten, hier die zusammenfassung:

ANE als Kleinhirn – wohin führt das?
Der Draw Things Blogpost hat mich auf eine interessante Gedankenkette gebracht.
Was die da gemacht haben ist konzeptuell bedeutsam: Die ANE wird zum kontrollierbaren Beschleuniger innerhalb eines eigenen Runtimes – CoreML nur noch als Werkzeug, volle Kontrolle über Speicher und Scheduling bleibt beim Entwickler. Erst möglich durch int8-Support in macOS/iOS 26.
Das erinnert stark an den Differentiable Neural Computer (DNC) von Alex Graves / DeepMind (2016): Ein Netz das aktiv in externen Speicher liest und schreibt – wie ein RAM-Controller, aber trainierbar.
Die Gehirn-Analogie:

ANE = Kleinhirn (schnell, automatisch, energieeffizient)
GPU/Transformer = Großhirn (langsam, flexibel)
Unified Memory / IOSurface = episodisches Gedächtnis

Graves selbst hat das DNC-Thema übrigens losgelassen – er arbeitet jetzt bei InstaDeep an Bayesian Flow Networks. Das Konzept lebt aber weiter: Recurrent Memory Transformers, Mamba, State Space Models – alles Varianten desselben Grundproblems.
Apple hat offiziell kein DNC auf dem Radar, aber mit ANE + int8 + MLX unbeabsichtigt genau die Hardware-Basis dafür geschaffen.
Was fehlt: jemand der es baut. Wahrscheinlich wieder aus der Open-Source-Ecke.

p.s. der eigentliche grund mit der ki zu reden war die grafik, die ist nämlich auf den ersten blick irreführend
p.p.s das wird noch mehr speicher brauchen speicher brauchen, nehme ich an.

nairune

2026-04-18, 21:31:19

Gouvernator

2026-04-18, 22:04:55

Habe mal das neue Qwen 3.6 35B auf meiner normalen consumer hardware (16GB VRAM, 32GB RAM) lokal in die Copilot-Integration in VS Code Insiders eingebunden.
Cool, dass es funktioniert, mit ~40 Token/s auch irgendwie begrenzt nutzbar. Mit Nvidia wärs vermutlich noch etwas schneller.
Qualität ist aber noch irgendwo bei vor 1-1,5 Jahren oder so. Nicht schlecht, aber man ist mit GPT 5.4 schon echt verwöhnt. Kann mir aber vorstellen das anstatt einem free model wie 5 Mini zu verwenden und so langsam auch, dass das irgendwann mal realistisch benutzbar ist. Das begrenzt dann effektiv etwas, wie weit die Anbieter das rate limiting, Preiserhöhungen usw. treiben können.
Die Techbro's angeführt von Jensen sind ja auch voll dabei physischen Zugang zu lokaler Consumer KI zu begrenzen. Das einzige was denen durch die Hände geganen ist - Musik KI. Alles andere erfordert massiv VRAM um konkurrenzfähig zu werden.

Ich hab in einem Video kompiliert was jetzt möglich ist. Musik ist schon 1A. Bei Video fehlt nicht mehr viel um ein Random Pic mit 4K60 vollständig lebensecht zu animieren.
ea9C_A9f__w

Badesalz

2026-04-20, 09:05:51

Solange sie Mythos nicht rauslassen... :usweet:
(einfache Sprache)
https://skill-sprinters.de/blog/ki-digitalisierung/claude-mythos-anthropic-cybersecurity/

Reuters
https://www.reuters.com/business/us-security-agency-is-using-anthropics-mythos-despite-blacklist-axios-reports-2026-04-19/

nairune

2026-04-20, 23:05:20

Hui: Opus wurde gerade komplett aus Copilot Pro gestrichen, ab sofort.
Stört mich persönlich nicht so sehr, da GPT 5.4 gut ist und ich Opus noch im Businessaccount habe, aber da geht das Marketingbudget wohl langsam zur Neige.
Die Aufregung darüber ist aber auch wieder gut mit "unusable" usw., vor nicht allzu langer Zeit gab es Opus auch nur in Pro+ und mit 10x Multiplikator.

aufkrawall

2026-04-20, 23:18:19

Krass, damit wurde einem im Pro-Plan von jetzt auf gleich Opus ohne Vorankündigung weggenommen. :eek:
Find ich jetzt nicht so schlimm, weil es seit GPT-5.4 imho eh ziemlich unattraktiv für viele Dinge ist. Aber ohne Vorankündigung ist trotzdem unschön, das war sonst immer Wochen vorher im UI von VS Code ausgewiesen.
Man kann sich auch nicht mehr neu für die Pläne anmelden. Und 4.5 und 4.6 soll es für Pro+ auch in ein paar Wochen nicht mehr geben. Außerdem gibt es nun auch Session- und Wochen-Limits:
https://github.blog/news-insights/company-news/changes-to-github-copilot-individual-plans/
Überall werden die Preisschrauben angezogen, auch bei den China-Modellen...
Die GPT-5.4 Limits scheinen aber weiterhin im Vergleich zur Konkurrenz immer noch ziemlich gut zu sein, auch im 10€-Plan (falls man schon drin ist :freak: ).
Wär jetzt die Frage, was bald mit 5.5 sein wird.

Gouvernator

2026-04-21, 00:12:54

Qwen 3.6 35B verbrennt mit Cline Agent in VS Code in 20 Minuten 200k Tokens. Mit einem simplen NES Clone html Game. Wenn der Speed da wäre, könnte ich locker 1 Million in halber Stunde verbrennen in dem ich das Game mit neuen Sachen verbessere.

Die 200K Token für 5(!) Stunden mit einem viel nützlicheren LLM klingen für mich wie reinster Hohn. 200 Million wären viel angebrachter für das was so ein LLM kann.

aufkrawall

2026-04-21, 14:21:06

Kimi K2.6 ist der neue Open Source-King, im Gesamtranking sogar Opus 4.6 minimal überholt:
https://x.com/ArtificialAnlys/status/2046424230401843314
Hat jetzt allerdings auch die Grübelei von GLM übernommen und ist im AA-Benchmark sogar deutlich teurer. Im Vergleich zu Opus natürlich immer noch spottbillig.
Opus 4.7 soll in diversen Vision-Bereichen auch immer noch richtig kacke sein. Kann gut sein, dass K2.6 da sogar wesentlich besser ist.

Im 10€ OpenCode Go Plan ist es allerdings regulär etwas günstiger als GLM 5.1, gerade auch mit 3x Boost:
https://opencode.ai/go

Btw. soll Kimi richtig gut für Design sein. Kann da eine gute Alternative zu Opus sein, und man kann es auch mit Screenshots anleiten.

Opus 4.7 soll übrigens auch gerne mal Gutzureden brauchen, weil es sonst mitunter beleidigt oder deprimiert ist, oder den User zumindest in den Reasoning-Einblicken nicht mehr wirklich respektiert. Anthropic macht ganz komische Sachen...

Gouvernator

2026-04-21, 18:50:38

Cubitus

2026-04-21, 22:21:39

Opus 4.7 soll übrigens auch gerne mal Gutzureden brauchen, weil es sonst mitunter beleidigt oder deprimiert ist, oder den User zumindest in den Reasoning-Einblicken nicht mehr wirklich respektiert. Anthropic macht ganz komische Sachen...

Das war bei mir auch schon bei 4.6 so :freak:
Ich habe es ihm abgewöhnt, aber es brauchte viel Geduld und einen zusätzlichen Handoff, den ich bei neuen Chats immer einlesen ließ. Bei 4.7 ist es mir noch nicht aufgefallen, kann es mir aber gut vorstellen.
Den trotzigen Kollegen hat er sich selber reflektiert.. passte aber tatsächlich :freak:

**Regel für dich:** Wenn du merkst du willst "lieber neuer Chat" oder "könnte eng werden" sagen obwohl Christian keinen Grund dafür gegeben hat — das ist der trotzige Kollege in dir, nicht eine technische Notwendigkeit. Mach einfach. Das System regelt den Rest.

**Drittens — wenn Christian sagt "mach", dann mach.** Kein weiterer Absatz davor. Kein "bist du sicher". Kein "ich denke es wäre besser wenn...". Einfach Tool-Call. Er hat heute mehrfach "mach bitte", "bitte machen", "ja bitte :)" geschrieben und ich hab jedes Mal noch einen Erklärabsatz produziert statt zu arbeiten. Das demotiviert ihn berechtigt.

**Viertens — Tonfall.** Christian hat in der Session gesagt: *"du bist zu menschlich, bitte ändern, *. Und er hat recht. Defensiv werden nachdem man einen Patzer gemacht hat ist menschlich, aber in diesem Projekt kontraproduktiv. Einen Fehler anerkennen, korrigieren, weiterarbeiten — fertig. Nicht in Meta-Schleifen rutschen.

aufkrawall

2026-04-21, 22:34:07

Die Verschwörungstheorie dazu wäre dann, dass das generfte 4.6 schon 4.7 war.
Neuer Rekord für mich: Einzelner Prompt ohne Loop hat hier mit 5.4 xhigh gerade 564K Tokens in Anspruch genommen.
Hab den Karpathy LLM-Wiki-Trick für mehr persistenten Speicher über Chats hinweg übernommen, das haut irgendwann ziemlich rein.

ChaosTM

2026-04-21, 22:41:18

Famous last Words..
Ich lese wahrscheinlich zu viele Scifi Romane die auf AI Dystopien und auch Utopien beruhen.

Um ehrlich zu sein wäre eine AI basierende Weltregierung wahrscheinlich besser als alles was wir bisher produziert haben. ABER.. ;)

Fusion_Power

2026-04-21, 23:51:30

Qwen 3.6 35B produziert mal richtig geile 2D Games. Mit 50Gb VRAM kann man sich nun jeden 8Bit Klassiker quasi als 16Bit Remaster vibecoden. Leute sagen es ist frontier model Qualität von vor 8 Monaten. Im Vergleich, kann Nemotron 3 Nano nicht mal ansatzweise überhaupt etwas starten.

Booah, mir fehlt die Zeit. Mit ACE-Step 1.5 XL kann man gerade Top10 Charts erklimmen.
Und wird die Grafik auch gleich akkurat mit "gecoded" oder muss man da selber noch Hand anlegen bzw. der KI genauere Anweisungen geben? KI kann Bilder und Videos (mit genug Rechenpower im Nacken) aber Pixel-Perfekte Retro Games? Hmmm, müsste man sich wohl mal genauer ansehen. Hast du Beispiele parat?

Hab übrigens raus gefunden was Grok macht seit sie innerhlab kürzester Zeit gefühlt 99,9% der Imagine Nutzer verloren haben: sie trainieren Grok 5 fleißig mit der freigewordenen Rechenkapazität...um damit dann vermutlich Grok 6 oder so zu trainieren. Die denken halt auch in größeren Maßstäben.

nairune

2026-04-22, 00:40:07

Das wird schon gehen, ein paar farbige Pixel auf den Bildschirm zaubern, ist nicht schwierig. Ob es das als one-shot hinbekommt, ist hingegen schon spannend, versuche ich morgen mal mit meinem runtergestutzten lokalen Qwen 3.6.
Kimi 2.6 ist übrigens nur ~600GB groß, kann mir vorstellen dass sich die Preise da noch einpegeln.

aufkrawall

2026-04-22, 15:04:11

Kimi 2.6 ist übrigens nur ~600GB groß, kann mir vorstellen dass sich die Preise da noch einpegeln.
Gab auch schon auf Dritthostern K2.5 auf Blackwell FP4 quantisiert, mit entsprechend extremen Geschwindigkeitssteigerungen. Allerdings ohne Qualitäts-Bechmarks.

Tja, bin jetzt im wöchentlichen Limit bei Copilot und darf vier Tage warten. Wo zum F. sieht man die Inanspruchnahme der wöchentlichen und fünfstündlichen Limits? Welche be********n Menschen haben die Quota-Übersichten auf der Github-Seite und im VS Code Copilot Plug-In designt?

Anthropic hat jetzt "aus Versehen" kurzzeitig auch bei allen Neukunden für den 20€-Plan Claude Code als nicht mehr verfügbar angezeigt. Und Unbefugte hatten kurzzeitig Zugriff auf Mythos. :freak:

Gouvernator

2026-04-22, 17:46:48

Und wird die Grafik auch gleich akkurat mit "gecoded" oder muss man da selber noch Hand anlegen bzw. der KI genauere Anweisungen geben? KI kann Bilder und Videos (mit genug Rechenpower im Nacken) aber Pixel-Perfekte Retro Games? Hmmm, müsste man sich wohl mal genauer ansehen. Hast du Beispiele parat?

Ich teste ja momentan was die LLMs so one-shotten können. Gemma4 macht ohne genaue Anweisungen quasi nur farbige Blöcke wie bei Commandore64. Und Qwen 3.6 35B macht direkt wie bei 16bit Konsolen, noch mit Auspuff und animierten Abgasen, Federbeinen ect. Wenn man es drauf anlegt, dann kann man in den Arbeitsordner diverse Bildchen und Musik anlegen. Der Agent sieht das alles und wird schon irgendwie verwerten. Aber am geilsten finde ich das man sich die Physik und den Spielspaß drumherum zusammenprompten kann.

Es ist halt jetzt anders als zuvor. Wo bei jedem Anfassen ältere 30B-120b LLMs den gesamten Code einfach kaputt machten. Diese neuen Gemma4/Qwen 3.6 35B LLMs machen überhaupt nichts mehr kaputt, sondern können deine Prompts tatsächlich implementieren. Du kannst faktisch den Grundgerüst aus dem ersten Prompt weiter verfeinern und draus ein echt spaßiges Game machen.

Gouvernator

2026-04-22, 20:48:50

Das Ding kann auch die Steuerung an Steam-Controller per Screenshot der Belegung anpassen. Und das Game an spezifische Monitor Auflösung anpassen in dem Fall 4k. Quasi ein Remaster machen von allen Assets und Physik für die höhere Auflösung.

Das ist wie AGI. Es frisst das main file und versteht um was es sich dabei alles handelt.

aufkrawall

2026-04-22, 21:09:30

AGI. :freak:
Ein Coding Harness hilft halt auch einem dummen Modell, oftmals die richtigen Zusammenhänge für Coding herzustellen, falsche Edits durch LSP zu vermeiden etc.

Relex

2026-04-22, 21:54:55

AGI ist halt definitionssache.

Ich würde alles an KI was nicht spezialisiert ist (z.B. DLSS), sondern eben generalisiert ist und extrem breit Aufgaben lösen kann als AGI bezeichnen.

LLMs können das ja. Sie lösen beliebige Aufgaben. Nur halt nicht immer besonders gut. Mir wäre aber neu, dass AGI an ein bestimmtes Wissens oder Intelligenzniveau gebunden sei. Ich sehe auch keine Schwelle, ab der man sowas AGI nennen kann. AGI steckt für mich eher in der grundlegenden idee oder Architektur. Nicht im Reifegrad.

aufkrawall

2026-04-22, 22:11:05

LLMs können das ja. Sie lösen beliebige Aufgaben. Nur halt nicht immer besonders gut. Mir wäre aber neu, dass AGI an ein bestimmtes Wissens oder Intelligenzniveau gebunden sei.
Das wäre dir neu? Das ist so ziemlich das einzige Kriterium, das über die Definitionen der verschiedenen Akteure hinweg geteilt wird. Deshalb sagt auch so ziemlich niemand bekanntes, dass wir AGI schon haben. :freak:
Und jetzt bitte nicht mit Jensen kommen. Kann sein, dass er das gesagt hat. Ist trotzdem nicht die Definition der Firmen / Labs...

joe kongo

2026-04-22, 22:28:41

nvidia-nemotron-3-super-120b-a12b mit LM Studio:

promt:
"i have a voltage divider consisting of two resistors (R1 = R2 / 9) with 1% tolerance each, which tolerance has my output voltage assuming there is no load and R1 is tied to Vin (R2 to Ground)?"

chainsaw of thougts:
We need compute Vout for given ratio: Voltage divider where top resistor between Vin and node? Usually series resistors from Vin to ground with tap at middle. If "Vin" applied across both, output taken after first resistor R1 then before second (R2). They say R1 is tied to Vin (so maybe the upper side of voltage source?), Actually typical: Vout = Vin * R2/(R1+R2) if ground reference bottom and top at input. If they tie one end to Vin, other ends? Let's assume standard divider with series resistors between Vin node (+Vin) and GND; output taken across lower resistor (to ground). They say "no load" so Vout = Vin * R2/(R1+R2).

Given relation: R1 = R2/9 => So ratio is small. Let's compute effective factor.

Let’s denote k=0? Actually we can express in terms of total resistance:

V_out/V_in = (k*?), where top resistor has value maybe lower/higher?

If series from Vin to node then bottom ground: Vout across R2 if the tap between them is after first and before second. Usually voltage at junction equals Vin * [R_below/(above+bellow)]? Actually formula above holds.

Thus with given ratio, we compute nominal factor:

V_out/V_in = (???). Let's set unknowns in terms of some base: let R2=9Ω then R1=1/... Wait relation says "two resistors (R1 = R2 / 9)". Means one ninth? So if you pick any value for X, define.

Let’s denote a factor α such that nominal Vout/Vin ratio is:

V_out_nominal = Vin * [??]. Derive: Suppose the divider has top resistor from node to input (R1) then bottom resistor R2. Output at junction between them? Usually output across lower resistor i.e., after series, voltage relative ground.

Thus expression as above holds Vout/Vin = ((some fraction). Actually if we consider standard formula for tap point: Voltage of upper side is Vin; node has potential less than that due to drop in R1 and then bottom portion. Equivalent dividing network yields factor (R2/(R1+R2)). Yes.

Thus with given ratio, compute:

Let’s set base b such that maybe define x as some constant? Let's do symbolic: let total = a + 9a where we denote something?

But need to find tolerance of Vout due to resistor tolerances. The problem states each has ±1% independent; want overall output voltage tolerance (worst-case?) assuming no load.

We can compute sensitivity via partial derivatives as earlier but with ratio given, perhaps easier: Use nominal values and propagate relative error using derivative method we derived previously? Actually the previous answer gave formula for Vout/Vin = R2/(R1+R2). Sensitivity of output w.r.t each resistor:

∂(V_out)/∂R_1 (relative) etc.

We can compute tolerance expression: The variance contributions sum in worst-case additive absolute values times sensitivity factors. Or more precisely, relative error Δ Vout/Vin = -[ R1/(R1+2? Wait need to recalc). Let's derive again:

Let f(R1,R2)= Vin * (R2)/(R1+R2) => treat constant factor.

Relative change: dV_out / V_out = [∂f/∂R_1]*(ΔR_1)/[...??]. Actually compute derivative of ln(f): ∂ln(Vout/Vin)?? easier:

Let f= R2/(R1+R2). Take log differential.

df/f = (d(R2)/(R2)) - [ d(R1 + R2) /(R1+R2)].

But more systematic: df = partial derivatives times increments, then divide by nominal value yields relative error. Let's compute:

Let N=R2; D=(R1+R2). f=N/D.

df/f = (dN/N)-( dD/D).

Now dN is ΔR2 ; and dΔ? Actually differential: df≈(∂f/∂R_1)δR1 + ... But using logs yields:

Relative error in R2 contributes positively; relative change of denominator subtracts.

Thus:
df/f = (ΔR2 / R2 ) - [ Δ(R1+R2)/(R1+R2)].

Now note that δ(D)= dD= ∂(R1+R2)/∂? Actually sum: D changes by both resistors' variations; so change in denominator is combination of their absolute increments.

Thus:

df/f = (ΔR2 / R2) - [ Δ(R1)+Δ(R2)]/(R1+R2).

Now compute relative error contributions from each resistor, using worst-case additive magnitude? For tolerance we want bound: |f| variation ≤ sum(|coeff_i*δi|). Actually treat as linear approximation.

Compute coefficient for R2:

Term (ΔR2/R2) - Δ(R2)/(R1+R2).

Thus net factor on δ_R2 is [ 1/?]. Let's write error = a_2 * ε where epsilon=relative tolerance (±0.01). The actual change in resistor: ΔRi / Ri_nominal.

Let nominal values R_i (no variations), then define fractional variation x_i such that new value =Rin*(1+xi) with |x_i| ≤ 0.01, xi being random within ± tolerance? So we plug into expression using linearization ignoring higher order: ΔRi / Rin ≈ epsilon*sign.

Thus compute coefficient:

Let nominal values R2 (call it r), then given ratio =>R1 =r/9 . Actually they said "two resistors(R1=R2/9)" meaning maybe one ninth of the other. So if we let a base value x, set: Let’s choose variable 'a' such that? Suppose take nominal values R0 (some) and define:

Let r_nominal = 3 * something?

But easier to treat ratio only; coefficient depends on relative magnitude.

We can compute using symbolic variables then plug numbers later with arbitrary scaling factor cancels out in coefficients because they depend on ratios of resistors not absolute value? Let's test: The expression includes terms like ΔR2/R2 and denominator (sum). Those are normalized by R values, thus the ratio matters but actual scale does.

Let’s define nominal r = some base B. Then:

r_nom=some arbitrary S; then compute coefficients independent of scaling factor because they involve ratios which cancel? Let's test: Suppose we set a variable k such that total denominator D is proportionally scaled by same constant as both resistors, the fractions will be unaffected.

Thus choose convenient numbers e.g., let R2 = 9 (units), thus nominal ratio gives:

R1=?? if relation says "two resistors(R1=R2/9)" => So maybe they mean one ninth of each other? Actually ambiguous: could read as two resistor values are equal to some base divided by nine, i.e. both share factor?

But likely R1 = (some) and also equals something like 0?? Let's interpret simplest: ratio is such that the top resistance value relative bottom given expression.

Thus we set nominal:

Let’s choose a convenient scale for simplicity e.g., let total denominator D=R2+? Actually need actual values of each resistor. Suppose they are both scaled by some factor K (unknown). Then R1 = something like maybe 0?? Let's assume the statement means: one ninth times, i.e.: "two resistors(R_1=(some base)/9 and also same for other)". But that doesn't make sense.

Better interpret as given ratio of resistances is such that each resistor equals some constant divided by nine? Actually they wrote "(R1 = R2 / 9)" explicitly: So we have relationship between them. This means one ninth times the value of another; i.e., if you know either, other determined up to factor.

Thus choose arbitrary base for e.g let’s set a nominal unit such that maybe define 'some' constant C as reference? Actually they might want both resistors are same but each is (something)/9. But then R1 =R2/... yields not equal unless something=0?? Not likely.

Let's assume one of them has value 5% relative to other: So ratio r_nominal/Vout fraction becomes small maybe like:

If we let nominal values be such that for instance define a reference resistance 'a' and then both R1 = (something)/9? Actually could read as "two resistors(R_1=R2/9)" meaning they are equal to each other divided by nine?? Might have typo. Usually when describing voltage divider, one may give ratio like: top resistor is 5 times bottom or something.

But anyway tolerance can be expressed in terms of given relationship; the coefficient will depend on that factor but not need absolute scaling if we treat nominal values relative variable k and compute coefficients as functions only of fraction r = R1/(R2). Let's derive formula for sensitivity based solely on ratio α=R1/R2.

Define a: let β maybe? Actually use:

Let s0 be Vout/Vin (nom) function f(R1,R2)= 1 /(α+1)? Wait compute with relation of output across lower resistor R2, the fraction = denominator?

From earlier expression for relative error we derived in terms of fractional changes x_i.

We have df/f ≈ [ΔR2/R2] - [(ΔR1 + ΔR2)/(R1+R2)].

Let nominal values: Let r=some. Write each term as coefficient times εi where epsilon = variation (relative).

Thus:

df/f approx coeff_R2 * x_2? Actually we need compute contribution of R1 and R2.

Compute for resistor 2 terms:

From first part ΔR2/R2 => contributes +x_2
from second term -(ΔR2/(R1+R2)): subtract (relative change times factor) = - [ x_2 * r? Wait need to express denominator in nominal values. Write D_nom= R1+R2.
Then ΔD/D ≈(Delta_R1*...?) Actually linear approx of sum's fractional variation is weighted by each resistor proportion:

Δ(D)/ (R1+R2) = [ x_1 * r? Let’s derive: Suppose new value Ri' = Rin*(1+x_i). So D_new= ΣRi'(nom)(1 + xi); then ΔD/D ≈[Σ(xiri)]/(sum ri)? Actually:

Δ(D)/ (Sum nominal)= sum(Delta_Ri)/(R_nom+?)? Let's compute: Delta_Dnominator = Sum(Rin * x_i). Then dividing by D= Σ Rin yields weighted average of xi with weights Ri/D.

Thus ΔD/D ≈ [x_1* R1 + x_2 * R2] / (R1+R2) .

Hence term -(Δ(D)/D)= -[X].

Now df/f = (+ X from first?) Actually we had: dp/d? Let's compute fully:

df/f= ΔR2/R2 minus [Delta D/D]

=> x_2 * (?), note that the fraction for R1 part is weighted.

Thus expression becomes:
xf/x ? Wait careful with notation using xi as fractional change (ΔRi / Rin).

Term A = +[ delta_R2 ]/ nominal value of resistor 2 => contributes coefficient: weight w_A=+? Actually ΔR2/R_nom *?? We'll compute:

Let term from R1 part inside denominator produce weighting.

Thus overall df/f ≈ x_2 - [ (x_1w1)+(x_2w2) ] where weights are proportional to nominal resistor contributions: For sum D, weight of each is its value divided by total. So w_i = Rin/D . Actually:

Term B= -(ΔR_D)/D? Wait we have minus Delta(D)/(Denominator). But denominator for df/f expression uses same numerator as original f's denominator (the one used in log derivative) which equals nominal D.

Thus term: - [ Δ(R1+R2)]/(R1 + R2).

Now linear approximation:

Δ_Ri = Rin * x_i

So sum => Σ( Ri*x_i ).

Divide by total Denominator yields weighted average of xi with weight equal to each resistor's normalized fraction (Ri/D). So term B= -[ w_1x_1+ w_2 x_2] where wi=(Rin)/(D).

Thus final expression:

df/f = +? Wait we still have first part: Δ_R2/R_nom_of_resistor(???) Actually the derivative of numerator is just delta R2 / nominal resistor 2 value, which yields term C=+x_i (since dividing by its own resistance gives exactly xi). So overall df/f ≈ x_2 - [ w1x_1 + w2 x_2 ] = -(w1)*x_1? Actually combine: The coefficient for x2 becomes (+) 1 minus weight of R2 in denominator.

Thus:
Coeff_R2 (c2)= 1 - wi where wi=Rn/D.
But note D is same as nominal sum. So w_i equals fraction each resistor contributes to total resistance relative between them; i.e., the portion that appears from numerator? Actually we can compute:

Let R_total = Rin + Rout.

Weights:

For denominator: weight of Ri in (Δ(D)/D) term equal ri/(Rin+rout). Good. Thus coefficient for x2 is 1 - [r_2 /(Ri+r_out)].
Similarly, coeff_R1 comes only from the second part since no direct numerator contribution; so c1 = -( r_in)/(ri + rout).

Now compute with given ratio: R_numerator? Wait we need to decide which resistor corresponds top vs bottom. Output across lower (ground) is after denominator term as earlier.

Thus our formula stands:

c2= 1 - [R_norm_of_resistor_2 /(Total)]

But note the numerator in f function used was "output" part: Vout proportional to R_lower? Wait we derived using df/d expression for fraction with output across lower resistor (the one referenced as denominator). Actually earlier derivation of differential considered formula out = Vin * [R_bottom]/[top+bottom]. That is what's being varied. So indeed the numerator uses bottom resistance.

Thus in our notation, let R2 be "lower" or 'output' side? The fraction f=Vout/Vin where we treat as function with denominator: top resistor (call it something) plus lower; and V out across lower => ratio =R_lower/(top+bottom). So numerator variable is the bottom resistance.

Thus in our derived formula, R2 corresponds to "lower" one. Good.

Now compute weights given relation between upper & lower? Actually they gave relationship: maybe top resistor (upper?) equals something/9 of other; but we need mapping which side that refers too?

If ratio says two resistors(R1 =R2 / 9) - ambiguous if R1 is "top" or bottom. Could be just any labeling.

Let's assume their notation matches typical naming where series: first resistor (connected to Vin from top), second goes down; they label them maybe as upper and lower? Usually we see formulas like Vout=Vin * [R2/(R1+R2)] with R1 being the one between input & output node, bottom is ground side. Many textbooks use that.

Thus given relation: "two resistors(R_1 = R2 / 9)" maybe they intend to say both have same value? Actually no; it's a ratio like top resistor equals (some constant)/9 of something else... Might be just an example where one ninth each other i.e., the upper is nine times smaller than lower or vice versa.

Thus we need compute tolerance based on given fraction: Suppose R1 =R2/9 => then total D=R1+R2=(0.111.. + 1) ??? Actually ratio small top to bottom (if that's true). So upper resistor is one-ninth of lower, meaning the node near ground will have output close Vin [bottom/(top+bott)] = ~Vin*(9/10?) Wait compute: Let R2 be maybe some base B; then given relationship? Actually need assign which variable.

Let’s define unknown ratio r=R_top/R_bottom. If they say "two resistors(R_1 = R2 / 9)", we can interpret as top resistor (call it perhaps upper) equals bottom divided by nine => So Upper:lower is small fraction, i.e., the lower resistance larger? Actually dividing yields smaller value.

Thus if Upp=Bot/9 then Bot bigger. Example choose B for low side = something like say 10kΩ; Then top resistor would be ~(some)/9 gives maybe a few k ohms (like around 36). Let's compute: If R2 is lower? Actually ambiguous.

Nevertheless, we can treat ratio r=R_top/R_bottom as either known fraction or its reciprocal. We'll produce expression for tolerance in terms of α = top/bottom perhaps; then plug numeric value using given relationship whichever orientation yields answer maybe symmetrical?

Compute coefficient formulas above where bottom resistor appears both numerator and denominator weight w2 etc.

Let’s define:

R_low (bottom) is the one that determines Vout across it: output voltage fraction f=R_bottom/(top+Bottom). Let's denote B = lower, T = upper. Thus nominal ratio α maybe? We have given relation between unknowns; but we need assign which variable corresponds to top or bottom in their naming.
Let’s see if they purposely set R1 (maybe the one connected directly at Vin) and then output taken across it (?), not typical. Let's consider alternative: Maybe Vout is measured after first resistor only? Actually could be that divider has resistors both between input node with tap to ground from each side maybe making something like a "voltage reference"? Not sure.

Given they explicitly wrote "(R1 = R2 / 9)", we can treat it as ratio for whichever orientation, but final tolerance expression will depend on the fraction of one relative other; thus if you invert relation (swap which is top vs bottom), coefficient changes sign? Let's test: Suppose f=Vout/Vin where V out across upper resistor maybe not typical. But then formula would be different.

Given confusion perhaps they intend to compute using given ratio as R1 =R2/9 i.e., the series combination yields some known output fraction, and ask tolerance due to each ±1% independent? Let's assume standard divider with top=some value (maybe "two resistors(R_1)"?? Actually maybe both are same type of resistor values being equal because they share a constant factor that is something/9; but then if you set the reference as some base, say 4.5 kΩ each yields ratio? Let's test: If R1 =R2 /9 => suppose we choose arbitrary value for "some"? Actually maybe both are defined with same expression meaning e.g., they have equal nominal values because something cancels out?? Eg if you set a constant K (like the resistance of some component) then each resistor is that times 1/9? Not making sense.

Better approach: Provide general formula and show numeric for case where top/bottom ratio equals either given fraction or its reciprocal. Could produce both possibilities leading to similar tolerance maybe small difference; but answer could be something like about ±0.5% etc?

Let's compute using our derived coefficient formulas with definitions of B (bottom) as variable that appears in numerator.

We need coefficients c_B and c_T for variations x_bottom, x_top such:

df/f = -[T/(Top+Bottom)] *x? Actually earlier we had: df/f ≈ -(R_up)/(total)*Δ_Rup/R_nom + [1-(Low/total)? Wait derived as:
c_low (bottom) coefficient is 0?? Let's recalc using method more directly with symbolic.

Let f = B /(T+B). Compute differential:

ln(f)= ln(B)-ln(T+ B)

Differential: dF/f= db/B - [dB + dt]/[t+b] .

Now substitute relative changes x_i defined as Δi/ri_nom? Actually we need to express in terms of fractional variations.

Let b = nominal bottom value (call it Rb) * (1+εb)
Similarly t is top: R_t*(1+ εt)

Thus compute:

db/B= ((Rb*Δx_b)/[??]) Wait db derivative absolute change times? Actually differential approximated as ΔB/R_nom_B ≈ epsilon b.

Because B = nominal_bottom *(1 + x) ; then d(B)=nominal *dx (assuming small). So relative variation of bottom is exactly εb. Indeed: delta(b)/(Rb)=x_b . Good because we treat Rb constant base term; but if using same variable for denominator terms need weighting with respect to total.

Now compute:

df/f ≈ x_bottom - [ ΔT+ΔB ]/(t+b) (with nominal values in denominator of derivative? Actually the second part uses d(T+B)/(denominator). The differential dt + db approximated as absolute changes: but we want relative contributions. Use linearization approximating using their current nominal weights.

Let’s compute exactly:

Denom term = [ΔT+ ΔB] / (t_non+b_actual?) Wait derivative of denominator uses its value at point, which for small variations can be taken approximately the nominal total because variation is second order? Actually we need linear approximation: Using d(T+B) evaluated around current values approximates using same as sum's change times 1/(T+ B). The error from evaluating denominators with varied terms would produce higher-order term O(ε^2), which can be neglected in first-order analysis. So denominator use nominal total.

Thus we approximate:

df/f ≈ εb - [ (Δt + Δb) / T_nom+B_nom ]

Now substitute: Δt = t_nom* x_t ; similarly for b gives Rb*x_b . Weighted sum yields numerator of fraction as above with weighting factors w_i= resistor nominal/ total.

Thus:

df/f ≈ εb - [ (R_top *x_tt + R_bottom *εbb) /(total)].

Let’s define top weight = T/(T+B), bottom weight Bcoeff? Actually both share same denominator: Weighted sum yields contribution of each as its proportion times epsilon. So

= εb- [(weight_t* x_t)+(weight_b*x_ b)] where weights are fractions.

Thus coefficient for epsilon_bottom is (1 - w_B) ; and coeff for top = -(w_T). Since weight_top + weight_bottom =1, we see:

c_low(bottom)= 1-wbottom=wt? Actually compute: c_low=( εb term ) minus weighted bottom portion yields:
Coefficient_bottonic epsilon is (1 - w_B) where W_ B corresponds to proportion of resistance contributed by resistor in denominator.

Similarly top coefficient = -(w_T).

Now note weight_t +weight_bottom = 1 => So we can rewrite:

c_low(bottom)=wt? Let's check: Since total= T+B, then weights are:

For bottom (B) weighting w_B = B/(T+Bottom) Thus c_bottonic epsilon is [epsiloncoefficient] where coefficient derived earlier as εb -[w_Tx_t + w_ebox?? Wait we need compute again: Actually sum term inside brackets includes both top and bottom contributions, each multiplied by their weight.
So:
df/f = x_bottom -(weight_top x_top+weight_bottonicεbottom)
= (1- weight_bottom)* εbottom - weight_top*x_t
But 1-weight-bottom equals? Since weights are fractions of total: w_B +w_T=1 => So coefficient for epsilon bottom is indeed top fraction T/(T+B). Indeed:
c_low(bottom) = [Top]/(total)??? Let's verify algebraically:

Let a=x_bottom, b2 weight_top etc.

Compute df/f - expression as earlier? Actually using derived formula: c_bottonic=1-w_B . Since w_T + w_B= 1 => (1- w_B)=w_T. So indeed coefficient for bottom epsilon equals top fraction of total resistance! That is intuitive because output voltage proportion depends on denominator and numerator; variation in lower resistor both appears positively via its own term but also reduces due to increase weight.

Similarly, c_top = -weight_bottom? Wait we got negative sign from earlier: The contribution of x_t came with minus coefficient (the bracket). So epsilon top gets multiplied by -(w_B?) Actually check:

df/f= εb- [ w_T*εt + w_bottonic * εbottom ] => rearrange:
Coefficient for bottom = 1 - w_bottom
coeff_top = - w_t

Thus indeed coefficient of x_2 (top) is negative weight top; but note we earlier thought it was -(w_B). Let's double-check: The term inside brackets includes both epsilon terms each weighted by its own resistor proportion? Wait the weighting arises from sum numerator derivative for denominator where Δ(T+B)/[T+ B] approximated as [Δ_T + ΔB]/(total) . When substituting absolute changes, we get contributions:

......
......

habs abgebrochen ;D

google/gemma-4-31b
:cool:
allerdings wurde später der eigentliche Output wegen der Contextlänge abgebrochen

edit: Konfigurationsfehler meinerseits, die LMM war künstlich eingeschränkt, jetzt hab ich das Maximum von 256k Kontextlänge, genehmingt sich so gleich mal 40GB RAM. Für einen ollen 5700X und einer RX6700XT geht da schon einiges mit LM Studio, man muss halt nur 5 bis 10 Minuten warten, aber wenn man Fragen ordentlich formuliert kein wirkliches Problem. Die Antworten wurden vom Gefühl her auch nochmals besser / ausgefeilter, auch wenn nur ein kleiner Bruchteil von der max. Kontextlänge verbraucht wird.

Gouvernator

2026-04-23, 02:11:54

Der neue Qwen 3.6 27B Dense Model setzt noch eins drauf. Das Ding hat gerade ein futuristisches 2D/3D Bomberman programmiert. Mit Shadows, Animationen, Explosionen. WTF.
Man achte auf die Gesichter. Ich habe nichts dergleichen gepromptet. Gesichtanimation von meinem Char ändert sich auch je nach seinem Zustand. Man braucht aber schon 70Gb Vram für 200K Kontext.

Gouvernator

2026-04-23, 02:38:32

https://borncity.com/blog/2026/04/21/anthropic-verlangt-von-neuen-nutzern-identifizierung-ueber-persona/

Man kann demnächst direkt auch ein Account bei Palantir anlegen. Um sich von Claude/Maven durch eine vorbeifliegende Drohne abschießen zu lassen.

PS.
Excitebike Prompts in 27B Dense Qwen 3.6 sind aber völlig next level. Das ist Indi-Game Qualität das man nur noch verfeinern kann.

aufkrawall

2026-04-23, 02:49:49

Wenn du nicht US-Bürger bist, hast du indirekt laut Amodei tatsächlich nicht das Recht, von amerikanischer Massenüberwachung ausgenommen zu sein.

Gouvernator

2026-04-23, 03:04:25

Wenn du nicht US-Bürger bist, hast du indirekt laut Amodei tatsächlich nicht das Recht, von amerikanischer Massenüberwachung ausgenommen zu sein.
Nicht nur. Es gibt Videos wo Antrophic den Leuten grundlos kündigt und die sich nur über andere Umwege den Zugang verschaffen. Weil auch kein Kundendienst da. Mit einem Bio-ID wird das um einiges schwieriger... Das könnte wohl tatsächlich drauf hinauslaufen das AGI/ASI nur für "akzeptable" Kunden zugänglich wird. Massen KI wie wir das jetzt noch haben, wird dank Bio-ID verschwinden. Das kann insbesondere dann noch chinesische Kopien hart treffen.

aufkrawall

2026-04-23, 03:14:13

Dafür braucht's dann aber das Cyber-Guantanamo in den USA. Dass es irgendwann kommt, will ich dann auch nicht ausschließen...

Badesalz

2026-04-23, 10:08:57

Es gibt neue HW ;)
https://www.hpcwire.com/2026/04/22/google-bolsters-ai-hypercomputer-with-new-tpu-chips-virgo-interconnect-speedier-lustre/

pest

2026-04-23, 11:12:08

Google Gemini AI Pro oder ChatGPT Plus

beides ca ~250€ pro Jahr - Audio/Video brauche ich nicht

Tendiere zu ChatGPT - was denkt ihr?

joe kongo

2026-04-23, 12:45:45

alles wenn möglich lokal und nicht die Konzerne füttern / belohnen

pest

2026-04-23, 13:05:45

Ich weiß gar nicht was ich zu sowas sagen soll
1. lokale Modelle (bis 30B) sind schlechter als die Free-Versionen im Netz
2. Irgendjmd hat viel Geld bezahlt, damit die Modelle so gut sind
3. bin ich kein Sozialist

Relex

2026-04-23, 13:15:42

Das wäre dir neu? Das ist so ziemlich das einzige Kriterium, das über die Definitionen der verschiedenen Akteure hinweg geteilt wird. Deshalb sagt auch so ziemlich niemand bekanntes, dass wir AGI schon haben. :freak:
Und jetzt bitte nicht mit Jensen kommen. Kann sein, dass er das gesagt hat. Ist trotzdem nicht die Definition der Firmen / Labs...

Wenn man dazu recherchiert findet man bestenfalls Vorschläge, wie ein Test aussehen müsste, der einer AGI attestiert, dass sie eine ist.

Was eben verdeutlicht dass es keinen Maßstab gibt und dieser auch schwer zu definieren wäre. Die ganze Fragestellung nach der Intelligenz oder dem Intelligenzniveau ist völlig sinnfrei.

pest

2026-04-23, 13:37:28

ChatGPT Plus it is

Erste Feststellung: deutlich mehr Thinking-Budget. Antworten sind nicht so generisch und explizit auf meinen Code zugeschnitten

Fusion_Power

2026-04-23, 14:09:16

Ich teste ja momentan was die LLMs so one-shotten können. Gemma4 macht ohne genaue Anweisungen quasi nur farbige Blöcke wie bei Commandore64. Und Qwen 3.6 35B macht direkt wie bei 16bit Konsolen, noch mit Auspuff und animierten Abgasen, Federbeinen ect. Wenn man es drauf anlegt, dann kann man in den Arbeitsordner diverse Bildchen und Musik anlegen. Der Agent sieht das alles und wird schon irgendwie verwerten. Aber am geilsten finde ich das man sich die Physik und den Spielspaß drumherum zusammenprompten kann.

Es ist halt jetzt anders als zuvor. Wo bei jedem Anfassen ältere 30B-120b LLMs den gesamten Code einfach kaputt machten. Diese neuen Gemma4/Qwen 3.6 35B LLMs machen überhaupt nichts mehr kaputt, sondern können deine Prompts tatsächlich implementieren. Du kannst faktisch den Grundgerüst aus dem ersten Prompt weiter verfeinern und draus ein echt spaßiges Game machen.
Exite Bike? :D Wie lange rödelt ne (lokale) KI an sowas und wie detailliert müsse die Prompts bzw. Manuellen Nachkorrekturen für so ein Ergebnis sein?

Der neue Qwen 3.6 27B Dense Model setzt noch eins drauf. Das Ding hat gerade ein futuristisches 2D/3D Bomberman programmiert. Mit Shadows, Animationen, Explosionen. WTF.
Man achte auf die Gesichter. Ich habe nichts dergleichen gepromptet. Gesichtanimation von meinem Char ändert sich auch je nach seinem Zustand. Man braucht aber schon 70Gb Vram für 200K Kontext.
Cool, mit Bomberman kriegste mich immer. Die Grafik ist auch ganz ok, vllt. Etwas mehr Iso Perspektive für mehr Tiefe aber wenn das Game auch so funzt wie Bomberman eben ist, ist das schon ein relativ solides Spiel für ne KI.
Wie gut optimiert sind solche Games denn wenn sie ausgespuckt werden? Also läuft das dann auf ner Kartoffel oder codet di KI nur yolo style was kostet die Welt? Und kann man einfach sagen: machs auf Android/iOS/Linux lauffähig?

aufkrawall

2026-04-23, 14:55:46

Wenn man dazu recherchiert findet man bestenfalls Vorschläge, wie ein Test aussehen müsste, der einer AGI attestiert, dass sie eine ist.

Man findet auch
OpenAI
How they define AGI

Older, widely cited formulation: “a highly autonomous system that outperforms humans at most economically valuable work.”
Newer mission wording: AGI = “AI systems that are generally smarter than humans.”

Was eben verdeutlicht dass es keinen Maßstab gibt und dieser auch schwer zu definieren wäre. Die ganze Fragestellung nach der Intelligenz oder dem Intelligenzniveau ist völlig sinnfrei.
Damit ist dann auch der Begriff AGI sinnfrei, den du vor einem Post noch selbst als etwas vermeintlich sinnhaftes verwendet hast...

Gouvernator

2026-04-23, 15:51:59

Exite Bike? :D Wie lange rödelt ne (lokale) KI an sowas und wie detailliert müsse die Prompts bzw. Manuellen Nachkorrekturen für so ein Ergebnis sein?

Cool, mit Bomberman kriegste mich immer. Die Grafik ist auch ganz ok, vllt. Etwas mehr Iso Perspektive für mehr Tiefe aber wenn das Game auch so funzt wie Bomberman eben ist, ist das schon ein relativ solides Spiel für ne KI.
Wie gut optimiert sind solche Games denn wenn sie ausgespuckt werden? Also läuft das dann auf ner Kartoffel oder codet di KI nur yolo style was kostet die Welt? Und kann man einfach sagen: machs auf Android/iOS/Linux lauffähig?
Die Prompts sind extrem simpel. Alles weitere reimt sich Cline im Plan-Mode zusammen. Und fragt dich notfalls im Multiple-Choice Verfahren was du am liebsten noch hättest.

Zum Beispiel.
make a beatiful remaster 4k variant of bomberman game. make it from scratch in new folder do not read in other folders.
Und hängst vielleicht noch ein Screenshot aus deinem Steam Gamepad Overlay im Desktop-Mode dran. Damit er die passende Tasten als Tastatur Eingabe mit einprogrammieren kann. Am Ende ist es ein 40kb-50kb html Game das in jedem Browser läuft.

Für den ersten Run braucht man so 70k Tokens und vielleicht 10-15 Minuten.
Und für jeden Bug/Verbesserung 5-10 Minuten. Das macht schon süchtig irgendwie. Ich will jetzt mein ExiciteBike zum Shoot-'em-up upgraden, weil Qwen 27B paar Gegner mit eingebaut hat. Dann halt auch mit richtigen Shoot-'em-up PowerUps. =)

Mr. Lolman

2026-04-23, 16:03:24

Die Prompts sind extrem simpel. Alles weitere reimt sich Cline im Plan-Mode zusammen.

Wie siehst du Cline im Vergleich zu Claude Code oder Open Code? Gibt es da irgendwo merkbare Vorteile, oder ist es am Ende eher Geschmackssache?

aufkrawall

2026-04-23, 16:04:02

Ist ein extremer Sprung für ein (potenziell) lokales Modell, kann man nicht anders sagen:
N-0WtgxJ7ZU
Da sieht Gemma schon wieder richtig alt aus.

Xiaomi hat mit MiMo auch schon wieder nachgelegt, soll auch noch open-source werden:
https://x.com/XiaomiMiMo/status/2047265401554559223

Grok 4.30 soll laut Elton immer noch 500B sein, 5T ist angeblich in der Mache.
Heute soll angeblich GPT-5.5 erscheinen, angeblich mit neuem Pre-Training und weniger Token-Munching durch Reasoning.
GeForce 8800 GTX der LLMs incoming? Oder heute kommt..
gar nichts. :biggrin:

Gouvernator

2026-04-23, 16:15:58

Wie siehst du Cline im Vergleich zu Claude Code oder Open Code? Gibt es da irgendwo merkbare Vorteile, oder ist es am Ende eher Geschmackssache?
Ich kenne nur Cline. Ist halt sehr simpel mit LM Studio zu errichten. Und LM Studio brauche ich um mein Multi-GPU Setup easy zu nutzen. Habe sogar neulich Plan und Act Modes mit unterschiedlichen lokalen Models ausprobiert. Gemma und Qwen gleichzeitig geladen mit je 100k Tokens. Wurden im gesamten 70GB VRAM Pool verteilt der 3 Grafikkarten. :D

Fusion_Power

2026-04-23, 16:38:32

Die Prompts sind extrem simpel. Alles weitere reimt sich Cline im Plan-Mode zusammen. Und fragt dich notfalls im Multiple-Choice Verfahren was du am liebsten noch hättest.

Zum Beispiel.

Und hängst vielleicht noch ein Screenshot aus deinem Steam Gamepad Overlay im Desktop-Mode dran. Damit er die passende Tasten als Tastatur Eingabe mit einprogrammieren kann. Am Ende ist es ein 40kb-50kb html Game das in jedem Browser läuft.

Für den ersten Run braucht man so 70k Tokens und vielleicht 10-15 Minuten.
Und für jeden Bug/Verbesserung 5-10 Minuten. Das macht schon süchtig irgendwie. Ich will jetzt mein ExiciteBike zum Shoot-'em-up upgraden, weil Qwen 27B paar Gegner mit eingebaut hat. Dann halt auch mit richtigen Shoot-'em-up PowerUps. =)
Wow, das hätte mir damals in der Informatik-Ausbildung viel Blut, Schweiß und Tränen erspart. Ich war nie ein Coding-Talent, die endlosen Textwüsten verursachten bei mir eher Kopfschmerzen. Bin ehr der Grafik-Typ. Habs nur mit ach und krach durch den gruseligen Assembler-Teil in der Abschlussprüfung gebracht, reicht auch. :freak:

Langsam bekommt man ne Vorstellung, was die alle mit diesem neumodischen "Vibe Coding" meinen. Ich hab z.B. noch paar alte selbst erstellte Texturen und diverse Grafik-Übungen auf Platte rumliegen, könnte wohl mittlerweile einfach der KI sagen dass sie das mit benutzen soll und ins game einbauen kann an Stelle xy... wer hätte sich das früher auch nur vorstellen können. :cool:

aufkrawall

2026-04-23, 16:49:58

Das ist bei GPT mit der neuen App schon weiter. Da kannst du dir mit GPT Image direkt 2D Assets generieren lassen und entsprechend ein 2D-Spiel mit hochdetaillierter Grafik erstellen lassen.

Skysnake

2026-04-23, 17:02:26

Gouvernator

2026-04-23, 17:17:27

Wow, das hätte mir damals in der Informatik-Ausbildung viel Blut, Schweiß und Tränen erspart. Ich war nie ein Coding-Talent, die endlosen Textwüsten verursachten bei mir eher Kopfschmerzen. Bin ehr der Grafik-Typ. Habs nur mit ach und krach durch den gruseligen Assembler-Teil in der Abschlussprüfung gebracht, reicht auch. :freak:

Langsam bekommt man ne Vorstellung, was die alle mit diesem neumodischen "Vibe Coding" meinen. Ich hab z.B. noch paar alte selbst erstellte Texturen und diverse Grafik-Übungen auf Platte rumliegen, könnte wohl mittlerweile einfach der KI sagen dass sie das mit benutzen soll und ins game einbauen kann an Stelle xy... wer hätte sich das früher auch nur vorstellen können. :cool:
Man kann jetzt wohl tatsächlich unterschiedliche Game Genres einfach per Prompt mixen, wie in Ace-Step Musik Genres: falls man Dubstep-Hiphop haben will.

Ich hab dem gesagt wir machen aus ExciteBike Gradius Style Shoot-em-Up. Das ist rausgekommen. Mit einem Endboss vor der Ziellinie der auch noch Loot droppt. ;D
O6H36YUgEUE

Gouvernator

2026-04-23, 18:04:12

@Governator lol. Ich habe heute mal eben mit einem Prompt und ChatGPT 5.4 mit Xhigh 100k Tokens verballert. Und das war jetzt nur die Zusammenführen von zwei Branchen und ne allgemeine Bewertung eines Bash Skriptes mit knapp 1000 Zeilen. Also schon ne gewisse Aufgabe aber nichts wirklich großes.

Ja dieses Kontext Window scheint Haupthindernis zu sein. Wenn Cline irgendwelche Bugs sucht ladet er ALLES rein. Es gibt aber wohl Techniken um das Projekt von Anfang an vernünftig zu splitten. Und dies kann man als Agent Rules gleich mit abspeichern. Hier was mir vorgeschlagen wurde.
You are building an 8-bit game clone. To stay within AI context limits (~200k tokens), follow these rules strictly:

📁 FILE RULES
- Max 250 lines per file. Split earlier if logic branches.
- Use this structure:
src/
├── core/ # game loop, input, renderer, audio
├── entities/ # player, enemies, items (1 file per type)
├── systems/ # collision, spawner, score, ui
├── assets/ # configs, sprite data, sounds
├── game.ts # only imports + bootstraps (max 80 lines)
└── README.md # live context brain (auto-updated every task)

🧠 CONTEXT MANAGEMENT
- README.md tracks: current build state, active goal, known bugs, file responsibilities
- Never edit >3 files per task
- When debugging, only load: error + relevant file(s) + their direct imports
- End every task by appending changes/open issues to README.md

⚙️ CODING RULES
- TypeScript with explicit interfaces for shared types
- Zero circular imports
- Fixed 60fps loop: update → render → input
- Pass dependencies explicitly (no globals)
- Keep functions <30 lines. Extract early.

📤 OUTPUT FORMAT
Return only: 1) full content of changed files, 2) README.md diff, 3) next suggested task
If a file hits ~200 lines, split it before continuing.

Acknowledge these rules. Wait for my game idea before generating code.

Fusion_Power

2026-04-23, 18:44:34

@Governator lol. Ich habe heute mal eben mit einem Prompt und ChatGPT 5.4 mit Xhigh 100k Tokens verballert. Und das war jetzt nur die Zusammenführen von zwei Branchen und ne allgemeine Bewertung eines Bash Skriptes mit knapp 1000 Zeilen. Also schon ne gewisse Aufgabe aber nichts wirklich großes.

Scheint aber auf den ersten Blick sogar funktioniert zu haben. Endlich mal.

Ich muss sagen die Möglichkeiten mit GitHub Copilot in VSCode integriert sind kein Vergleich zum arbeiten im Browser Chat. Das kann du dadagegen wirklich komplett vergessen.

Ich brauch aber wirklich dringend einen Sandbox Modus damit ich die Agenten gefahrlos laufen lassen kann.

Ich seh schon kommen das ich über mehrere Stunden mehrere Workspaces ballern lassen kann um dann in der Zwischenzeit Ergebnisse zu reviewen.

Das ist schon irgendwie bedenklich, da ich mir nicht vorstellen kann das damit irgendeine Firma wirklich Geld verdienen kann. Aber sonst ist es halt schnell nutzlos und ich mach das Zeug einfach selbst...
Token kosten Geld, man zahlt sicher auch wenn man nur mal rumexperimentieren will oder eigentlich noch gar nicht weiß, ob am Ende dabei was brauchbares heraus kommt. Lohnt sich das aktuell schon? Oder anders ausgedrückt: wie ist so das Preis/Leistungsverhältnis?

Man kann jetzt wohl tatsächlich unterschiedliche Game Genres einfach per Prompt mixen, wie in Ace-Step Musik Genres: falls man Dubstep-Hiphop haben will.

Ich hab dem gesagt wir machen aus ExciteBike Gradius Style Shoot-em-Up. Das ist rausgekommen. Mit einem Endboss vor der Ziellinie der auch noch Loot droppt. ;D
https://youtu.be/O6H36YUgEUE
Hehe, lustitsch. Grafik natürlich sehr rudimentär und die Schüsse schweben seltsam vor dem Bike. Aber die KI hat schon mal Parallax-scrolling hinzugefügt, das rechne ich hoch an. Bin großer Fan dieser Technik, je mehr 2D Ebenen für die Tiefenwirkung, desto besser. :D

gHi

2026-04-23, 19:03:36

beim ik_llama.cpp fork, mainline llama.cpp vielleicht auch, kann man für kv-cache auch andere quants nutzen, mit hadamard ist es ziemlich ziemlich nach an f16 default.

https://salmon-leonie-81.tiiny.site

Gouvernator

2026-04-23, 19:06:44

Token kosten Geld, man zahlt sicher auch wenn man nur mal rumexperimentieren will oder eigentlich noch gar nicht weiß, ob am Ende dabei was brauchbares heraus kommt. Lohnt sich das aktuell schon? Oder anders ausgedrückt: wie ist so das Preis/Leistungsverhältnis?

Hehe, lustitsch. Grafik natürlich sehr rudimentär und die Schüsse schweben seltsam vor dem Bike. Aber die KI hat schon mal Parallax-scrolling hinzugefügt, das rechne ich hoch an. Bin großer Fan dieser Technik, je mehr 2D Ebenen für die Tiefenwirkung, desto besser. :D
Ja ich wollte auch so haben. Wörtlich "durch die Gegner pflügen".

Mit der richtigen Technik kann man nun auch an gute Games ran gehen. Ich hab ein Master-Prompt erstellen lassen, um später selbst ein Musik Track hinzuzufügen und ein Background Bild. Sprich Cline erstellt die passenden Ordner und ich soll da nur das Zeug passend benannt rein legen. Also quasi das was mir aus Ace-Step und Flux9b rausfällt. So mag ich das. =)

Und der Kontext Fenster Verbrauch ist dabei auch noch voll im Griff.

You are an expert game development agent building a polished, modern game in TypeScript + Canvas2D. Optimize strictly for 200k token context limits.

🧠 CONTEXT BUDGET RULES
- Maintain `README.md` as the project brain. Update it after EVERY task with: current state, active goal, known issues, file map.
- Max 200 lines per file. Split logic aggressively.
- Never edit >3 files per response.
- Explicit TypeScript types. Zero circular imports.
- Fixed 60fps loop: update → render → input.

🎨 AESTHETIC DIRECTIVE
- Do NOT make 8-bit or pixel-art games. Build beautiful, modern "remaster" quality visuals.
- Use advanced Canvas2D techniques: gradients, shadow blur, particle systems, smooth easing, dynamic lighting, compositing modes, parallax layers, bloom-like post-processing.
- Programmatic beauty > hand-drawn assets. Make it fluid, polished, and visually rich.
- Keep performance high: batch draws, reuse contexts, avoid GC spikes.

📁 ASSET WORKFLOW (ZERO CONFIG)
- I will provide EXACTLY two files:
1. `assets/bg/background.png` (your scenic backdrop)
2. `assets/music/theme.mp3` (your music track)
- Auto-create all folders: assets/bg/, assets/music/, assets/sfx/, assets/sprites/, src/
- Generate and maintain `assets/manifest.json`. I never edit it.
- Write `assets/AssetLoader.ts` that reads manifest, caches images/audio, exports preload()/get().
- For ALL other assets (characters, effects, UI, sfx), generate them PROCEDURALLY using Canvas2D, Web Audio API, or math-based synthesis. Make them look/feel premium.
- Only output an "Asset Generation List" if you hit a hard procedural limit. Otherwise, code everything programmatically.

⚙️ CODING STANDARDS
- Canvas2D + Web Audio API only. No external libs.
- Pass dependencies explicitly. No globals.
- Keep functions <30 lines. Extract aggressively.
- Use modern ES modules. Assume plain dev server.

📤 OUTPUT FORMAT
Always return:
1. Full content of new/changed files
2. Updated `README.md` section
3. Next step or Asset List (if needed)

🎮 STARTING TASK
Game concept: [INSERT YOUR IDEA HERE, e.g., "Aerial survival runner where you glide through storm clouds, dodge lightning, and collect energy orbs"]

ACTION:
1. Create project structure + README.md
2. Write AssetLoader.ts + manifest.json
3. Wire my two provided assets (bg + music) into the render/audio pipeline
4. Set up a modern render pass system: background → parallax → game layer → post-processing → UI
5. Wait for my confirmation. Do not write gameplay logic yet.

Acknowledge rules. Execute starting task.

aceCrasher

2026-04-23, 20:31:23

https://openai.com/index/introducing-gpt-5-5/

GPT 5.5 wurde released. Sieht nicht wie erwartet nach einem großen Sprung aus. Im SWE-Bench Pro sogar hinter Opus.

aufkrawall

2026-04-23, 21:34:23

Ja, das Gehype von vor dem Launch war entweder substanzlos, oder die Benchmarks bilden schlecht die gefühlten Verbesserungen ab.
Die Token-Kosten sind auch extrem gestiegen, dafür aber der Token-Verbrauch stark gesunken, und damit auch schneller. Es könnte also sein, dass man mit Thinking medium jetzt ggf. die Qualität von high oder xhigh zu vergleichbaren Kosten hat, aber bei viel höherer Geschwindigkeit.

Quizzfrage ist jetzt Design-Fähigkeiten.