Archiv verlassen und diese Seite im Standarddesign anzeigen : Diskussion zu: Ein Beispiel zu den Limits von KI
Leonidas
2025-08-03, 10:48:49
Link zum Blog-Eintrag:
https://www.3dcenter.org/blog/leonidas/ein-beispiel-zu-den-limits-von-ki
PS: Weiteres Beispiel zu den Limits von KI:
https://www.scinexx.de/news/technik/was-sudoku-ueber-kuenstliche-intelligenz-verraet/
PS2: Noch eines:
https://www.golem.de/news/kuenstliche-inkompetenz-warum-llms-fuer-spielmechaniken-voellig-durchfallen-2508-197788.html
Danke für den Versuch und Beurteilung. :up:
Mal versucht eine eigene selbst gehostete KI damit zu befragen? Einige Modelle lassen sich ja auch "offline" via GPU ausführen.
LM Studio
MSTY
OLLAMA
...es gibt auch noch weitere Suiten
Leonidas
2025-08-03, 11:41:43
Mir erschien Grok für diesen Test ganz passend, weil jene KI ansonsten durch gute Antworten mit breiten Begründungen aufgefallen ist. Aber natürlich könnte jede KI ganz anders reagieren. Um dies zu ermessen, müsste man allerdings auch eine Vielzahl durchprobieren, was angesichts des für diesen Tests draufgegangenen Zeit keine schöne Aussicht ist.
Habe persönlich keine Erfahrung mit Grok, aber es gibt da ja verschiedene Abo Modelle und Grok3 und 4. Welche Version ist zum Einsatz gekommen?
Oder habe ich das übersehen?
blackbox
2025-08-03, 11:53:53
Es werden immer noch zu viele Hoffnungen und Erwartungen in die KI hinein projiziert.
Die KI ist in einigen wenigen Bereichen gut und sinnvoll, aber alltagstauglich ist sie noch lange nicht.
Das größte Problem sind die falschen Ergebnisse. Eine KI, die mir was vorgaukelt, statt zu sagen, dass sie es nicht kann oder weiß, hilft nicht weiter.
Ich verstehe auch nicht, warum die Entwickler dieser KIs das nicht unterbinden. Wahrscheinlich ist, dass man nicht möchte, dass offensichtliche Defizite seiner KI bekannt werden. Das ist ein ganz großes Problem dieser Branche. Denn niemand gibt gerne zu, dass die eigene KI Unsinn verzapft. So findet ein Wettkampf in eine Richtung statt, die völlig banane ist. Welche KI man am Ende nimmt, ist dann auch egal. Keinen von denen kann man trauen.
Es wird noch einige Zeit vergehen, bis hier ein Umdenken stattfindet.
Leonidas
2025-08-03, 11:57:23
Habe persönlich keine Erfahrung mit Grok, aber es gibt da ja verschiedene Abo Modelle und Grok3 und 4. Welche Version ist zum Einsatz gekommen?
Die Version, die frei auf Twitter verfügbar ist. Welche Version dies ist, weiss ich nicht. Sie ist aber auf 18 Antworten pro 2h limitiert.
PS: Laut Eigenauskunft Grok3.
Daredevil
2025-08-03, 12:02:23
Kannst du den Spaß vielleicht nochmal mit Claude machen?
Claude ist solchen "Fakten" und Aufarbeitung von Daten imho deutlich überlegen, geht auch als free Version.
Sowas knallt Claude dir z.B. raus basierend von den AVG Fps Daten bei TPU und den Rohdaten zum Start. Habe jetzt nur rudimentär Daten eingefügt, den Rest, z.B. den preis der 6900XT hat er sich vermutlich falsch ergoogelt. Je mehr Daten, desto weniger muss er vermutlich selber suchen.
Erstelle daraus eine performance analyse mit balkendiagramm und eine bessere Ablesung, indem du die Performance der schnellsten Karte bei 100% setzt und zeige mir den Preis Leistungs sieger
#1 https://s1.directupload.eu/images/250803/letvl5qe.png (https://www.directupload.eu)
#2 https://s1.directupload.eu/images/250803/6tnwsy23.png (https://www.directupload.eu)
#3 https://s1.directupload.eu/images/250803/hol4st26.png (https://www.directupload.eu)
#4 https://s1.directupload.eu/images/250803/5cnp4k2k.png (https://www.directupload.eu)
#5 https://s1.directupload.eu/images/250803/fv4bw5xf.png (https://www.directupload.eu)
Leonidas
2025-08-03, 12:05:54
Wenn Du mir das so schmackhaft macht, werde ich den Versuch wagen.
Update: Claude kann keine Diagramme (in Bild-Form) analysieren, scheidet somit vorzeitig aus.
Daredevil
2025-08-03, 12:30:16
Ist das hier nicht genau das, was du wolltest? Rohdaten aus Bilder extrahieren und dann ggf. berechnen?
Basis:
https://s1.directupload.eu/images/250803/25skij74.png
Ergebnis:
https://s1.directupload.eu/images/250803/d6c5j9yz.png
Exxtreme
2025-08-03, 12:35:00
Die derzeitige KI ist nichts anderes als ein Papagei, der irgendwas nachplappert. Und das Training dient dazu den Wortschatz dieses Papageis zu erweitern. Was der Papagei aber nachplappert, das weiss er weiterhin nicht, egal wie riesig die Modelle sind.
Leonidas
2025-08-03, 12:47:53
Ist das hier nicht genau das, was du wolltest? Rohdaten aus Bilder extrahieren und dann ggf. berechnen?
Danke! Claude4 kann es augenscheinlich. Die von mir genutzte Online-Version (vermutlich Claude3) hingegen nicht.
Frage: Kommt man da a) kostenlos *oder* b) rein für einen kurzen Test heran? Oder eine Alternative?
PS: Probiere mal mehrere Diagramme. Grok hat 1 Diagramm auch richtig gemacht. Das Problem waren mehrere Diagramme.
Daredevil
2025-08-03, 12:53:31
Ahhh okay, ich habe einfach nur die Claude App benutzt und da ist immer Sonnet 4 aktiv. Dafür habe ich noch nie Geld gezahlt, man kann also auch Free reinschnuppern mit täglichen Limits.
Mit Daten kann Claude aber aktuell neben dem Coden imho am besten umgehen, die Free Versionen von Grok3 und GPT sind meines Eindrucks ein wenig "dümmer" geworden. Deswegen vertraue ich da eher Claude für das Aufbereiten der trockenen Finanzberichte, vor 2 Tagen z.B. sowas hier:
https://s1.directupload.eu/images/250803/onj8fs56.png
Edit: Hier habe ich mal drei Tabellen eingefügt, jeweils FHD/WQHD/UHD und habe eingegeben:
Erstelle mir aus diesen drei Tabellen jeweils ein ordentlichen Vergleich in Form einer Tabelle. Die 9060XT soll jeweils bei 100% liegen, die anderen drüber oder drunter. Man soll es gut in 16:9 lesen können.
https://s1.directupload.eu/images/250803/t3gn8w6q.png
Edit2:
Habe mal die kostenpflichtige Version von GPT o3 nach Rechenfehlern suchen lassen, es wurden 3 "Rundungsdifferenzen" in dem Bild von Claude gefunden.
Ich habe jede Zeile komplett nachgerechnet.
Ergebnis — alle Prozentwerte stimmen exakt (bzw. weichen nur durch das erwartete Abrunden auf eine Nachkommastelle um ≤ 0,1 Pp ab).
Leonidas
2025-08-03, 13:29:57
Ich danke Dir wirklich ... denn, das sieht alles richtig gut aus! Der Teufel könnte noch im Detail stecken, aber es ist einen extra Test wert.
Daredevil
2025-08-03, 19:12:33
Liebend gerne wenns hilft. :)
Ich bin kein Fan davon, überall KI drauf zu werfen, wenn es aber Lebenszeit bei "0815" Tasks spart und mehr Zeit für Kreativität oder menschliche Dinge ermöglicht, bin ich großer Fan davon. Das hier fühlt sich erstmal nur, wie du schon geschrieben hast, nach "Fleißaufgaben" an.
Sweepi
2025-08-05, 10:50:03
@Daredevil
Magst du die Claude/ChatGPT "chats" teilen?
Mein letztes Experiment mit Tabellen erstellen etc lief eher maessig, würde gerne sehen, wie du vorgegangen bist.
Leonidas
2025-08-05, 13:26:59
Der Teufel könnte noch im Detail stecken, aber es ist einen extra Test wert.
... der Teufel steckt schon im Detail, das Claude derzeit keine Neuanmeldungen zuläßt.
Sweepi
2025-08-05, 15:24:58
Vorschlag: https://t3.chat/ ?
Weiß leider gerade nicht, welche LLMs im kostenlosen Tier (Googleaccount) dabei sind, ansonsten wären es $8/Monat.
Wenn du interessiert bist, kann ich dir auch die Zugangsdaten zu meinem Account geben, fürchte aber, du wirst zumindest eine nervige Zeit in Anti-Accountsharing massnahmen festhängen....
Leonidas
2025-08-06, 04:18:25
Das riskieren wir lieber nicht. Es wird sich schon sicherlich mal eine Gelegenheit mit Claude ergeben.
PS: Weiteres Beispiel zu den Limits von KI:
https://www.scinexx.de/news/technik/was-sudoku-ueber-kuenstliche-intelligenz-verraet/
PS2: Noch eines:
https://www.golem.de/news/kuenstliche-inkompetenz-warum-llms-fuer-spielmechaniken-voellig-durchfallen-2508-197788.html
Sweepi
2025-08-06, 11:48:13
Ok.
Nachtrag: Im kostenlosen Account auf t3.chat sind gerade die neuen OpenAi opensource LLMs gpt-oss-20b und gpt-oss-120b verfügbar.
Die derzeitige KI ist nichts anderes als ein Papagei, der irgendwas nachplappert. Und das Training dient dazu den Wortschatz dieses Papageis zu erweitern. Was der Papagei aber nachplappert, das weiss er weiterhin nicht, egal wie riesig die Modelle sind.
Ist bei den meisten Menschen, die sie im Beruf ersetzen soll/kann, ja auch nicht anders.
Leonidas
2025-08-07, 12:30:42
Vorschlag: https://t3.chat/ ?
Klappt leider nicht, weil ich dort kostenlos nichts hochladen kann. Interessant, dass die Betreiber nicht die Logik erkennen, dass wenn man keine Anwendungsbeispiele auf Erfolg prüfen kann, natürlich auch kein Bedarf an der kostenpflichtigen Variante erzeugbar ist.
Sweepi
2025-08-07, 12:45:04
oh schade, wusste nicht, dass man mit free account keine Attachments hochladen kann.
(generell bei Internet-Services so ein Problem, mit einem premium account nachzuvollziehen, was die free limits aktuell sind, zumal die sich häufig ändern.)
Leonidas
2025-08-07, 12:57:17
Ich werde das mal mit lokaler KI probieren.
ChaosTM
2025-08-07, 19:52:25
MmFLDvOFLW0
Sweepi
2025-08-08, 10:50:29
Klappt leider nicht, weil ich dort kostenlos nichts hochladen kann.
Hab mich mal beschwert, dass das zumindest dokumentiert sein sollte. Mal sehen.
Random GPT-5 Videos habe ich auch :P
NiURKoONLVY
SJVCfPGsy30
https://www.youtube.com/watch?v=NiURKoONLVY
https://www.youtube.com/watch?v=SJVCfPGsy30
Leonidas
2025-08-13, 16:36:57
Update zu meinen Versuchen mit lokaler KI:
DeepSeek wollte mir helfen, im Rahmen von LM Studio kann ich diesem Modell aber keine Bilder zukommen lassen. Leider scheitert es in letzter Zeit häufig an derart kleinen Unzulänglichkeiten. Normalanwender-tauglich ist das ganze noch lange nicht.
PS: GPT-OSS das gleiche Problem. Liegt wohl an LM Studio, welches mir damit eine weitere Mauer zieht. Alternativen?
Daredevil
2025-08-13, 18:00:48
Ich hege große Zweifel darin, das lokale KIs schon auf dem Level sind, das sie dies problemlos erledigen können. Allerdings bin ich gespannt, was bei deinem nächsten Test raus kommt. :)
Zu LM Studio: Du brauchst für den Zweck schon ein Modell mit "Vision" Fähigkeit, also das es tatsächlich auch solche Dinge wie mit Fotos umgehen kann.
Da gäbe z.B. LLama 3.2 Vision, Google Gemma 3 oder als europäische Alternative aus Frankreich Mistral Small 3.2. Aber wie gesagt, kein Plan wie die abschneiden gegen "richtig gute" Software von Claude.
Leonidas
2025-08-13, 18:02:18
Ich habe eigentlich die guten Models mit Resoning genommen: DeepSeek und GPT-OSS. Das Problem ist hier LM Studio, welches keinen Upload von Bildern zuläßt. Riesen Aufwand für nix.
Daredevil
2025-08-13, 19:32:10
Wie gesagt, du brauchst kein Reasoning Modell sondern eines, welches Vision Fähigkeiten hat, also darauf trainiert wurde Bilder zu erkennen und zu analysieren.
Bei der Mac Version von LMStudio erkennst du diese Modelle an dem gelben Auge:
https://s1.directupload.eu/images/250813/x8ox3x72.png
Und da kommt dann am Ende sowas raus:
https://s1.directupload.eu/images/250813/eik6yvm6.png
Sieht zwar schön aus mit Gemma 3, der Inhalt stimmt aber schlicht nicht. :F
Lokal AI ist noch nicht so weit, wenn alles perfekt sein muss. Ansonsten braucht man echt riesige Modelle und sehr sehr viel Performance und mal nicht eben nebenbei mal eine Modell mit 100% Präzision. Und in deiner Arbeit sind korrekte Daten ja durchaus wichtig, deswegen ist Lokal AI aufgrund der Zeit, die man in Korrektur und Prüfung stecken muss, immens hoch.
Leonidas
2025-08-14, 04:56:51
Danke für den Hinweis. Ich werde es dementsprechend ausprobieren. Ich hab einen längeren Text formuliert, der klarer ist und der KI hoffentlich weiterhilft ;)
Leonidas
2025-08-14, 18:21:50
Meine Erfahrungen mit LM Studio und Gema3-12B im Nachtrag zum Blog-Eintrag:
https://www.3dcenter.org/blog/leonidas/ein-beispiel-zu-den-limits-von-ki
Leider wieder kein Erfolg. Sah auf den ersten Blick gut aus, vergleichsweise wenige erfundene Werte. Aber ohne das die ausgelesen Werte perfekt sind, geht es an dieser Stelle nicht weiter.
Top, danke fürs testen! :up:
Kann ab jetzt nur besser werden. :smile:
Aktuell ist ja Grok4 für jederman auf X verfügbar (auch ohne Abo), vielleicht auch einen Vergleich/Nach-Test wert.
*dropdown Feld oben links im Chat
Badesalz
2025-08-14, 19:58:22
Inwiefern macht das Sinn extra für KIs den Ausdruck "korrekt" gegen "perfekt" zu tauschen? Um beim Gegensatz den Ausdruck "nicht korrekt" zu vermeiden?
Ist das etwas psychologisches? :|
Relex
2025-08-14, 20:12:53
Lokale KIs sind stark beschränkt, wenn man nicht unbezahlbar teure Hardware nutzt.
Alleine wenn man beim gpt oss model die context länge auf ein vernünftiges Niveau bringen möchte, damit es nicht vergisst, was du vor drei Anfragen geschrieben hast, dann sprengt es dir sofort jegliche Speicherbudgets.
GPT5 im Abo hingegen hat eine extrem lange context. Da kannst du dir ein halbes Buch schreiben lassen, bis das Model anfängt Inhalte zu vergessen.
Soll nur ein Beispiel sein, aber lokale LLMs sind momentan bestenfalls spielerei.
Die Ansprüche und Erwartungen kollidieren da noch viel stärker mit den tatsächlichen Möglichkeiten, als es ja eh schon mit den Online Varianten der Fall ist.
vBulletin®, Copyright ©2000-2025, Jelsoft Enterprises Ltd.