Diskussion zu: Ein Beispiel zu den Limits von KI [Archiv]

Leonidas

2025-08-03, 10:48:49

Link zum Blog-Eintrag:
https://www.3dcenter.org/blog/leonidas/ein-beispiel-zu-den-limits-von-ki

PS: Weiteres Beispiel zu den Limits von KI:
https://www.scinexx.de/news/technik/was-sudoku-ueber-kuenstliche-intelligenz-verraet/

PS2: Noch eines:
https://www.golem.de/news/kuenstliche-inkompetenz-warum-llms-fuer-spielmechaniken-voellig-durchfallen-2508-197788.html

BUG

2025-08-03, 11:02:06

Danke für den Versuch und Beurteilung. :up:

Mal versucht eine eigene selbst gehostete KI damit zu befragen? Einige Modelle lassen sich ja auch "offline" via GPU ausführen.

LM Studio
MSTY
OLLAMA
...es gibt auch noch weitere Suiten

Leonidas

2025-08-03, 11:41:43

Mir erschien Grok für diesen Test ganz passend, weil jene KI ansonsten durch gute Antworten mit breiten Begründungen aufgefallen ist. Aber natürlich könnte jede KI ganz anders reagieren. Um dies zu ermessen, müsste man allerdings auch eine Vielzahl durchprobieren, was angesichts des für diesen Tests draufgegangenen Zeit keine schöne Aussicht ist.

BUG

2025-08-03, 11:48:52

Habe persönlich keine Erfahrung mit Grok, aber es gibt da ja verschiedene Abo Modelle und Grok3 und 4. Welche Version ist zum Einsatz gekommen?

Oder habe ich das übersehen?

blackbox

2025-08-03, 11:53:53

Es werden immer noch zu viele Hoffnungen und Erwartungen in die KI hinein projiziert.

Die KI ist in einigen wenigen Bereichen gut und sinnvoll, aber alltagstauglich ist sie noch lange nicht.

Das größte Problem sind die falschen Ergebnisse. Eine KI, die mir was vorgaukelt, statt zu sagen, dass sie es nicht kann oder weiß, hilft nicht weiter.

Ich verstehe auch nicht, warum die Entwickler dieser KIs das nicht unterbinden. Wahrscheinlich ist, dass man nicht möchte, dass offensichtliche Defizite seiner KI bekannt werden. Das ist ein ganz großes Problem dieser Branche. Denn niemand gibt gerne zu, dass die eigene KI Unsinn verzapft. So findet ein Wettkampf in eine Richtung statt, die völlig banane ist. Welche KI man am Ende nimmt, ist dann auch egal. Keinen von denen kann man trauen.

Es wird noch einige Zeit vergehen, bis hier ein Umdenken stattfindet.

Leonidas

2025-08-03, 11:57:23

Habe persönlich keine Erfahrung mit Grok, aber es gibt da ja verschiedene Abo Modelle und Grok3 und 4. Welche Version ist zum Einsatz gekommen?

Die Version, die frei auf Twitter verfügbar ist. Welche Version dies ist, weiss ich nicht. Sie ist aber auf 18 Antworten pro 2h limitiert.

PS: Laut Eigenauskunft Grok3.

Daredevil

2025-08-03, 12:02:23

Kannst du den Spaß vielleicht nochmal mit Claude machen?
Claude ist solchen "Fakten" und Aufarbeitung von Daten imho deutlich überlegen, geht auch als free Version.

Sowas knallt Claude dir z.B. raus basierend von den AVG Fps Daten bei TPU und den Rohdaten zum Start. Habe jetzt nur rudimentär Daten eingefügt, den Rest, z.B. den preis der 6900XT hat er sich vermutlich falsch ergoogelt. Je mehr Daten, desto weniger muss er vermutlich selber suchen.
Erstelle daraus eine performance analyse mit balkendiagramm und eine bessere Ablesung, indem du die Performance der schnellsten Karte bei 100% setzt und zeige mir den Preis Leistungs sieger
#1 https://s1.directupload.eu/images/250803/letvl5qe.png (https://www.directupload.eu)
#2 https://s1.directupload.eu/images/250803/6tnwsy23.png (https://www.directupload.eu)
#3 https://s1.directupload.eu/images/250803/hol4st26.png (https://www.directupload.eu)
#4 https://s1.directupload.eu/images/250803/5cnp4k2k.png (https://www.directupload.eu)
#5 https://s1.directupload.eu/images/250803/fv4bw5xf.png (https://www.directupload.eu)

Leonidas

2025-08-03, 12:05:54

Wenn Du mir das so schmackhaft macht, werde ich den Versuch wagen.

Update: Claude kann keine Diagramme (in Bild-Form) analysieren, scheidet somit vorzeitig aus.

Daredevil

2025-08-03, 12:30:16

Ist das hier nicht genau das, was du wolltest? Rohdaten aus Bilder extrahieren und dann ggf. berechnen?

Basis:
https://s1.directupload.eu/images/250803/25skij74.png

Ergebnis:
https://s1.directupload.eu/images/250803/d6c5j9yz.png

Exxtreme

2025-08-03, 12:35:00

Die derzeitige KI ist nichts anderes als ein Papagei, der irgendwas nachplappert. Und das Training dient dazu den Wortschatz dieses Papageis zu erweitern. Was der Papagei aber nachplappert, das weiss er weiterhin nicht, egal wie riesig die Modelle sind.

Leonidas

2025-08-03, 12:47:53

Ist das hier nicht genau das, was du wolltest? Rohdaten aus Bilder extrahieren und dann ggf. berechnen?

Danke! Claude4 kann es augenscheinlich. Die von mir genutzte Online-Version (vermutlich Claude3) hingegen nicht.

Frage: Kommt man da a) kostenlos *oder* b) rein für einen kurzen Test heran? Oder eine Alternative?

PS: Probiere mal mehrere Diagramme. Grok hat 1 Diagramm auch richtig gemacht. Das Problem waren mehrere Diagramme.

Daredevil

2025-08-03, 12:53:31

Ahhh okay, ich habe einfach nur die Claude App benutzt und da ist immer Sonnet 4 aktiv. Dafür habe ich noch nie Geld gezahlt, man kann also auch Free reinschnuppern mit täglichen Limits.

Mit Daten kann Claude aber aktuell neben dem Coden imho am besten umgehen, die Free Versionen von Grok3 und GPT sind meines Eindrucks ein wenig "dümmer" geworden. Deswegen vertraue ich da eher Claude für das Aufbereiten der trockenen Finanzberichte, vor 2 Tagen z.B. sowas hier:
https://s1.directupload.eu/images/250803/onj8fs56.png

Edit: Hier habe ich mal drei Tabellen eingefügt, jeweils FHD/WQHD/UHD und habe eingegeben:
Erstelle mir aus diesen drei Tabellen jeweils ein ordentlichen Vergleich in Form einer Tabelle. Die 9060XT soll jeweils bei 100% liegen, die anderen drüber oder drunter. Man soll es gut in 16:9 lesen können.
https://s1.directupload.eu/images/250803/t3gn8w6q.png

Edit2:
Habe mal die kostenpflichtige Version von GPT o3 nach Rechenfehlern suchen lassen, es wurden 3 "Rundungsdifferenzen" in dem Bild von Claude gefunden.
Ich habe jede Zeile komplett nachgerechnet.
Ergebnis — alle Prozentwerte stimmen exakt (bzw. weichen nur durch das erwartete Abrunden auf eine Nachkommastelle um ≤ 0,1 Pp ab).

Leonidas

2025-08-03, 13:29:57

Ich danke Dir wirklich ... denn, das sieht alles richtig gut aus! Der Teufel könnte noch im Detail stecken, aber es ist einen extra Test wert.

Daredevil

2025-08-03, 19:12:33

Liebend gerne wenns hilft. :)
Ich bin kein Fan davon, überall KI drauf zu werfen, wenn es aber Lebenszeit bei "0815" Tasks spart und mehr Zeit für Kreativität oder menschliche Dinge ermöglicht, bin ich großer Fan davon. Das hier fühlt sich erstmal nur, wie du schon geschrieben hast, nach "Fleißaufgaben" an.

Sweepi

2025-08-05, 10:50:03

@Daredevil

Magst du die Claude/ChatGPT "chats" teilen?
Mein letztes Experiment mit Tabellen erstellen etc lief eher maessig, würde gerne sehen, wie du vorgegangen bist.

Leonidas

2025-08-05, 13:26:59

Der Teufel könnte noch im Detail stecken, aber es ist einen extra Test wert.

... der Teufel steckt schon im Detail, das Claude derzeit keine Neuanmeldungen zuläßt.

Sweepi

2025-08-05, 15:24:58

Vorschlag: https://t3.chat/ ?
Weiß leider gerade nicht, welche LLMs im kostenlosen Tier (Googleaccount) dabei sind, ansonsten wären es $8/Monat.

Wenn du interessiert bist, kann ich dir auch die Zugangsdaten zu meinem Account geben, fürchte aber, du wirst zumindest eine nervige Zeit in Anti-Accountsharing massnahmen festhängen....

Leonidas

2025-08-06, 04:18:25

Das riskieren wir lieber nicht. Es wird sich schon sicherlich mal eine Gelegenheit mit Claude ergeben.

PS: Weiteres Beispiel zu den Limits von KI:
https://www.scinexx.de/news/technik/was-sudoku-ueber-kuenstliche-intelligenz-verraet/

PS2: Noch eines:
https://www.golem.de/news/kuenstliche-inkompetenz-warum-llms-fuer-spielmechaniken-voellig-durchfallen-2508-197788.html

Sweepi

2025-08-06, 11:48:13

Ok.

Nachtrag: Im kostenlosen Account auf t3.chat sind gerade die neuen OpenAi opensource LLMs gpt-oss-20b und gpt-oss-120b verfügbar.

Gast

2025-08-06, 17:46:20

Leonidas

2025-08-07, 12:30:42

Vorschlag: https://t3.chat/ ?

Klappt leider nicht, weil ich dort kostenlos nichts hochladen kann. Interessant, dass die Betreiber nicht die Logik erkennen, dass wenn man keine Anwendungsbeispiele auf Erfolg prüfen kann, natürlich auch kein Bedarf an der kostenpflichtigen Variante erzeugbar ist.

Sweepi

2025-08-07, 12:45:04

oh schade, wusste nicht, dass man mit free account keine Attachments hochladen kann.
(generell bei Internet-Services so ein Problem, mit einem premium account nachzuvollziehen, was die free limits aktuell sind, zumal die sich häufig ändern.)

Leonidas

2025-08-07, 12:57:17

Ich werde das mal mit lokaler KI probieren.

ChaosTM

2025-08-07, 19:52:25

MmFLDvOFLW0

Sweepi

2025-08-08, 10:50:29

Klappt leider nicht, weil ich dort kostenlos nichts hochladen kann.

Hab mich mal beschwert, dass das zumindest dokumentiert sein sollte. Mal sehen.

Random GPT-5 Videos habe ich auch :P

NiURKoONLVY
SJVCfPGsy30

https://www.youtube.com/watch?v=NiURKoONLVY
https://www.youtube.com/watch?v=SJVCfPGsy30

Leonidas

2025-08-13, 16:36:57

Update zu meinen Versuchen mit lokaler KI:
DeepSeek wollte mir helfen, im Rahmen von LM Studio kann ich diesem Modell aber keine Bilder zukommen lassen. Leider scheitert es in letzter Zeit häufig an derart kleinen Unzulänglichkeiten. Normalanwender-tauglich ist das ganze noch lange nicht.

PS: GPT-OSS das gleiche Problem. Liegt wohl an LM Studio, welches mir damit eine weitere Mauer zieht. Alternativen?

Daredevil

2025-08-13, 18:00:48

Ich hege große Zweifel darin, das lokale KIs schon auf dem Level sind, das sie dies problemlos erledigen können. Allerdings bin ich gespannt, was bei deinem nächsten Test raus kommt. :)

Zu LM Studio: Du brauchst für den Zweck schon ein Modell mit "Vision" Fähigkeit, also das es tatsächlich auch solche Dinge wie mit Fotos umgehen kann.
Da gäbe z.B. LLama 3.2 Vision, Google Gemma 3 oder als europäische Alternative aus Frankreich Mistral Small 3.2. Aber wie gesagt, kein Plan wie die abschneiden gegen "richtig gute" Software von Claude.

Leonidas

2025-08-13, 18:02:18

Ich habe eigentlich die guten Models mit Resoning genommen: DeepSeek und GPT-OSS. Das Problem ist hier LM Studio, welches keinen Upload von Bildern zuläßt. Riesen Aufwand für nix.

Daredevil

2025-08-13, 19:32:10

Wie gesagt, du brauchst kein Reasoning Modell sondern eines, welches Vision Fähigkeiten hat, also darauf trainiert wurde Bilder zu erkennen und zu analysieren.

Bei der Mac Version von LMStudio erkennst du diese Modelle an dem gelben Auge:
https://s1.directupload.eu/images/250813/x8ox3x72.png

Und da kommt dann am Ende sowas raus:
https://s1.directupload.eu/images/250813/eik6yvm6.png

Sieht zwar schön aus mit Gemma 3, der Inhalt stimmt aber schlicht nicht. :F
Lokal AI ist noch nicht so weit, wenn alles perfekt sein muss. Ansonsten braucht man echt riesige Modelle und sehr sehr viel Performance und mal nicht eben nebenbei mal eine Modell mit 100% Präzision. Und in deiner Arbeit sind korrekte Daten ja durchaus wichtig, deswegen ist Lokal AI aufgrund der Zeit, die man in Korrektur und Prüfung stecken muss, immens hoch.

Leonidas

2025-08-14, 04:56:51

Danke für den Hinweis. Ich werde es dementsprechend ausprobieren. Ich hab einen längeren Text formuliert, der klarer ist und der KI hoffentlich weiterhilft ;)

Leonidas

2025-08-14, 18:21:50

Meine Erfahrungen mit LM Studio und Gema3-12B im Nachtrag zum Blog-Eintrag:
https://www.3dcenter.org/blog/leonidas/ein-beispiel-zu-den-limits-von-ki

Leider wieder kein Erfolg. Sah auf den ersten Blick gut aus, vergleichsweise wenige erfundene Werte. Aber ohne das die ausgelesen Werte perfekt sind, geht es an dieser Stelle nicht weiter.

BUG

2025-08-14, 19:41:04

Top, danke fürs testen! :up:

Kann ab jetzt nur besser werden. :smile:

Aktuell ist ja Grok4 für jederman auf X verfügbar (auch ohne Abo), vielleicht auch einen Vergleich/Nach-Test wert.

*dropdown Feld oben links im Chat

Badesalz

2025-08-14, 19:58:22

Inwiefern macht das Sinn extra für KIs den Ausdruck "korrekt" gegen "perfekt" zu tauschen? Um beim Gegensatz den Ausdruck "nicht korrekt" zu vermeiden?

Ist das etwas psychologisches? :|

Relex

2025-08-14, 20:12:53

Lokale KIs sind stark beschränkt, wenn man nicht unbezahlbar teure Hardware nutzt.

Alleine wenn man beim gpt oss model die context länge auf ein vernünftiges Niveau bringen möchte, damit es nicht vergisst, was du vor drei Anfragen geschrieben hast, dann sprengt es dir sofort jegliche Speicherbudgets.

GPT5 im Abo hingegen hat eine extrem lange context. Da kannst du dir ein halbes Buch schreiben lassen, bis das Model anfängt Inhalte zu vergessen.

Soll nur ein Beispiel sein, aber lokale LLMs sind momentan bestenfalls spielerei.
Die Ansprüche und Erwartungen kollidieren da noch viel stärker mit den tatsächlichen Möglichkeiten, als es ja eh schon mit den Online Varianten der Fall ist.

Immortal

2025-08-27, 11:08:11

Hast du mal das öffentlich verfügbare Gemini mit der Research Option probiert? Die hatte letztens mal brauchbare Ergebnisse geliefert, als ich sie zu einer technischen Fragestellung habe recherchieren lassen. (Zu einem anderen Thema aber dann auch wieder nicht, also die Erwartungen entsprechend anpassen...)

Die lokalen Modelle auf Consumer-Hardware werden da natürlich nochmal schlechter sein, aber ich hatte auch schon mit vollwertigen lokalen Instanzen (GPT, Deepseek etc.) in der Arbeit Probleme, Daten aus Dokumenten auszuwerten. Das scheint für die Teile noch ein Problem zu sein, vielleicht nicht unbedingt das Erkennen, aber die erkannten Zahlenwerte in die richtige Beziehung zu setzen... wobei selbst eine Auswertung auf Basis von CSV hat noch zu Halluzinationen und erfundenen Ergebnissen geführt hat.

Leonidas

2025-08-27, 11:32:38

Fusion_Power

2025-08-27, 11:53:36

Lokale KIs sind stark beschränkt, wenn man nicht unbezahlbar teure Hardware nutzt.

Wozu ist dann die ganze neumodische „KI-Hardware“ eigentlich zu gebrauchen? Ich meine wenn man schon ne COU und ne GPU mit KI-Einheiten hat, dann muss das ja zumindest für irgend was gut sein. Braucht ja nicht gleich das Giga-KI-Modell drauf zu laufen aber nette Dinge wie z.B. gescheite KI in Spielen und hier und da ne Unterstützung wird ja wohl langsam drin sein. Halt solche Dinge wie einst „PhysX“ etc… zur Unterstützung und Entlastung der CPU/GPU.
Aber ich hab bisher eigentlich nix groß gehört in der Richtung, ehr dass die wenigsten Programme die KI nutzen überhaupt irgend ne gescheite Hardwareunterstützung haben. Also zumindest wenns AMD Hardware ist.

Immortal

2025-08-29, 08:44:05

Bis jetzt habe ich keine weiteren Tests unternommen. Frage: Würde es was bringen, meinen Frage-Text für die KI samt der 4 Bilder hier reinzustellen als ZIP. Damit könnte jeder selber diesen Test durchführen. Das Ergebnis liegt ja vor, der Test soll feststellen, ob die KI ebenfalls auf die korrekten Ergebnisse kommt.
Mich würde es prinzipiell interessieren, ich kann aber nicht versprechen, dass ich mich damit tiefgehend beschäftige. Vielleicht auch den link zu der Seite teilen, wo die Daten her sind? Dann könnte man das auch mit der Gemini Research Option testen.

Xergon

2025-08-30, 09:14:56

Bis jetzt habe ich keine weiteren Tests unternommen. Frage: Würde es was bringen, meinen Frage-Text für die KI samt der 4 Bilder hier reinzustellen als ZIP. Damit könnte jeder selber diesen Test durchführen. Das Ergebnis liegt ja vor, der Test soll feststellen, ob die KI ebenfalls auf die korrekten Ergebnisse kommt.

a) kostenlos = nicht volle Leistung trotz gleichem Namen
b) beste Vision Leistung: Gemini 2.5 Pro
c) Hack: Gemini 2.5 Pro via aistudio.google.com - volle Leistung for free
d) lokal = dumm im Vergleich zu Frontier-Models

Leonidas

2025-08-30, 13:50:52

Immortal

2025-08-31, 09:18:13

Anbei ist mein Datenset für diejenigen, die es selber probieren wollen. Enthalten sind die Links zum Original, aber auch die vier Grafiken für KIs, die nicht ins Internet dürfen. Enthalten ist auch ein Prompt-Text für die KI (im angehängten Text-File), den darf man natürlich umformulieren bzw. verbessern. Der vorhandene Prompt hat aber bislang ausgereicht, dass KI die Aufgabe begriffen hat, es scheiterte dann an anderen Dingen. Wäre erfreut, positive Antworten zu erfolgreichen Versuchen zu lesen!
Positive Antworten habe ich leider noch nicht... gemma-3-12b-it-qat war zwar nicht übel darin, die Daten aus den Diagrammen zu ziehen, aber ließ sich nicht davon abhalten, jeweils nur die 1% Low Werte zu berücksichtigen. Gemini 2.5 Pro hat zum Großteil die korrekten Werteherausgezogen, aber behauptet, dass die RTX 4070 12 GB keinen Wert für F1 24 hat, und der Mittelwert war auch bei korrekt erkannten Einzelwerten abweichend von dem originalen Wert von eteknix.