Diskussion zu: News des 30./31. März 2026 [Archiv]

Archiv verlassen und diese Seite im Standarddesign anzeigen : Diskussion zu: News des 30./31. März 2026

Leonidas

2026-04-01, 06:58:07

Link zur News:
https://www.3dcenter.org/news/news-des-3031-maerz-2026

Perdakles

2026-04-01, 08:35:54

Paul von RedGamingTech ist ein Clown. Sein Gelaber sollte man echt nicht mal mehr erwähnen.
Lag der mit seinen Leaks eigentlich schon einmal richtig? Und wenn ja, mit welchem zeitlichen Vorsprung vor anderen "Leakern"? Mir kommt es immer nur so vor, dass er hektisch Kram nachplappert, den andere kurz vor ihm geleakt haben.
Und wenn er doch mal etwas "selbst recherchiert" haben will, dann so unausgegorenen Kram wie den hier genannten der überhaupt keinen Sinn macht.

Leonidas

2026-04-01, 08:46:32

Lag der mit seinen Leaks eigentlich schon einmal richtig?

Ist in der Tat schon vorgekommen.

Gast Ritis

2026-04-01, 09:00:28

Da wirft jemand TurboQuant in die Diskussion aber so richtiv verstanden hat das von den RAM-Händlern bestimmt noch niemand.

Ich meine wir waren schon bei 4bit Sparcity für KI-Matritzen, je nach Hardware und Anwendungsfall verwendbar oder auch nicht. Was ist jetzt bei TurboQuant mit 3bit die grosse Revolution und wird das von jetzt auf gleich in allen KI-Beschleunigern genutzt werden können?
Was bedeutet hier 6-fach weniger Speicherbedarf wirklich, basierend auf welcher Ausgangsbasis?

Fragen über Fragen...

Leonidas

2026-04-01, 10:40:31

Was ist jetzt bei TurboQuant mit 3bit die grosse Revolution.

Eigentlich nicht. Aber einen Markteffekt hatte es schon einmal, zumindest kurzfristig.

Gast

2026-04-01, 11:59:48

Was bedeutet hier 6-fach weniger Speicherbedarf wirklich, basierend auf welcher Ausgangsbasis?

1/6 Speicherverbrauch bezieht sich auf den KV-Cache.

MiamiNice

2026-04-01, 12:10:01

Guter Artikel.
Ggf. noch erwähnen das die Ram Einsparung bei KI nicht beim Training gilt. Es ist also nicht davon auszugehen, dass deswegen, der Preis fällt.

Gast

2026-04-01, 12:47:52

Guter Artikel.
Ggf. noch erwähnen das die Ram Einsparung bei KI nicht beim Training gilt. Es ist also nicht davon auszugehen, dass deswegen, der Preis fällt.

Aber beim Inferencing, was mittel bis langfristig den größten Teil der Ressourcen benötigen sollte.

Redirion

2026-04-01, 12:57:53

wir konzentrieren uns, was die abgekündigten RTX-50-Super sowie die erwarteten RTX-60er zu viel auf den Consumer-Bereich.

Warum sollte Nvidia nur Rubin-Datacenter rausbringen? Bestimmt kommt noch Rubin-Business bzw. RTX-PRO.

Nvidia hat es bei Blackwell doch auch so gemacht: erst kamen im April 2025 die NVIDIA RTX PRO 4000 Blackwell (GB203 mit 24GB). Und seitdem gibt es dann auch die Gerüchte, dass der Desktop GB203 als Super Refresh aka 5080 SUPER 24GB schon im Herbst 2025 oder spätestens CES 2026 angekündigt werden könnte.

Also warum sollten nicht auch schon deutlich früher, beispielsweise April 2027 die RTX PRO Rubin Karten kommen?

Leonidas

2026-04-01, 13:34:15

Ich denke nicht, dass sich allein die professionellen Lösungen lohnen. Die machen momentan gut Kohle, aber da fehlt ein wenig die Masse des Gaming-Geschäfts. Immer bedenken: Selbe Chip-Basis. Profi+Gaming zusammen ergeben einen guten Anlaß, um die Chips aufzulegen. Nur eines davon dürfte NV zu wenig sein.

Und nebenbei: Wenn NV die RTX60-Serie verschiebt, gibt es auch keine Profi-Varianten früher. Denn dafür müsste man die Chips früher auflegen und das würde sich für nur ein Segment nicht lohnen.

Gast Ritis

2026-04-01, 14:39:15

1/6 Speicherverbrauch bezieht sich auf den KV-Cache.

Und wie gross ist der Key Value Cache beim Inferencing im Vergleich zum restlichen Speicherbadarf?

Bei nem Prompt der nur wenige Sekunden läuft würde ich nicht von grossem Cache ausgehen.
Nicht dass wir da am Ende nur von Megabyte statt Gigabyte sprechen....

greeny

2026-04-01, 16:40:30

Solareruption stört Funk auf der Erde – Auswirkungen auf Mondmission befürchtet []
[Heise]

Bismarx

2026-04-01, 17:16:06

Aber beim Inferencing, was mittel bis langfristig den größten Teil der Ressourcen benötigen sollte.

... hm, üblicherweise werden technische Effizienzvorteile schnell wieder durch dann mehr abgerufene Leistung kompensiert. In diesem Fall werden die Modelle dann eben größer, die auf gegebener Hardware laufen.

Erst wenn der Grenznutzen von "mehr Hardware" erreicht wird, wäre wohl weniger Ressourcennutzung zu erwarten. Das ist aber im Fall von KI noch nicht absehbar? Mehr ist hier zur Zeit immer noch signifikant besser?

Vor diesem Hintergrund wäre ich skeptisch was einen verringerten Hardwarebedarf aufgrund von Softwareoptimierungen angeht. So lange die viel beschworene "KI-Blase" nicht platzt, wird sich an den RAM-Preisen wohl nichts ändern.

Anders wäre es ggf. nur dann, wenn Einsparungen beim RAM-Bedarf den Flaschenhals wieder zu einem anderen Punkt verschieben würde - GPU/CPU/Boards etc.

Leonidas

2026-04-01, 18:16:31

[Heise]

Gefixt & Danke.

Gast

2026-04-02, 14:46:49

Und wie gross ist der Key Value Cache beim Inferencing im Vergleich zum restlichen Speicherbadarf?

Wie immer es kommt darauf an was für ein Modell und mit welchen Kontextlängen gearbeitet wird..

Bei kleinen Kontextlängen mit Single User ist er vernachlässigbar klein.

Bei Kontextlänglängen >100k dominiert der KV-Cache den Speicherverbrauch und wenn Multiuser dazukommt kann man schon fast das LLM vernachlässigen und der Gesamtverbrauch wird fast nur durch den KV-Cache bestimmt. Jede Anfrage bekommt ihren eigenen KV-Cache, aber das LLM braucht man nur 1x im Speicher.

Gast

2026-04-02, 14:52:48

... hm, üblicherweise werden technische Effizienzvorteile schnell wieder durch dann mehr abgerufene Leistung kompensiert. In diesem Fall werden die Modelle dann eben größer, die auf gegebener Hardware laufen.

Ich weiß jetzt nicht worauf du hinauswillst. Die hier besprochene Maßnahme macht das inferencing effizienter, und nicht das Training.

Generell ist es so, dass kleinere Modelle immer besser werden, deshalb gibt es zwischen den großen AI-Firmen auch schon länger keine Schwanzlängenvergleiche wer nun das größere LLM hat, ganz einfach weil ein großer Teil der Fortschritte mittlerweile nicht einfach nur mehr Parameter sind.

Generell ist es so, dass ein LLM 1x trainiert wird, und danach Millionen und Milliardenfach verwendet wird. Allein durch die schiere Anzahl bringen deshalb Effizienzsteigerungen beim inferencing langfristig wesentlich mehr als jene beim Training.