Archiv verlassen und diese Seite im Standarddesign anzeigen : Multi-GPU für AI
Shink
2025-11-03, 15:23:30
Hallo!
Als jemand, der das Thema nicht am Schirm hatte und jetzt beeindruckt ist, wie einfach man sich das so einfach am Heim-PC einrichten kann (Alpaca ML mit unzensiertem LLM, Krita AI Diffusion - Plugin), frag ich mich natürlich, wie weit es noch "einfach" geht und wann der Spaß aufhört.
Kann ich einfach ein altes SLI-Board nutzen, 2-4 moderne Grafikkarten reinstecken und das läuft? Multi-GPU scheint ja unterstützt zu werden bei.... "dem Krempel" aber was macht der da dann? Einfach RAM gemeinsam nutzen oder wirklich parallel rechnen?
Wenn ich hier falsch bin, bitte verschieben.
Es muss kein "SLI" Board sein. Es kann ein beliebiges Board sein, welches dann mehrere PCIe Slots hat, in welche die Grafik-Karten (mechanisch + elektrisch) passen (oder via PCIe Riser passend gemacht). Ein SLI Board würde sich aber dafür auch eignen, meist ist die verfügbare PCIe Bandbreite auch etwas höher da in der Regel die PCIe-lanes gleichmäßig(er) aufgeteilt werden.
Beispiel: https://geizhals.de/gigabyte-b550-eagle-a3396351.html
LLMs können gut paralelisiert werden, aber im Prinzip verdeoppelt man damit nur den Speicher für größere Modelle welche nicht mehr auf eine Karte passen. Es wird dadurch nicht wirklich schneller, die langsamste Karte im System bestimmt in etwa die Geschwindigkeit + etwas Overhead. Wie gut das Aufteilen auf mehrere GPUs funktioniert, ist auch etwas von LLM abhängig. 2 - 4 GPUs ist aber meist unproblematisch, jede GPU rechnet auf ihrem eigenen VRAM. Die GPU wird nicht versuchen auf den Speicher einer anderen GPU zuzugreifen, das ist eher ein Szenario fürs training.
mironicus
2025-11-03, 15:49:53
Ich dachte darüber nach, eine externe oder zwei externe GPUs für so etwas zu nutzen über USB 4.0-Schnittstellen (Aufteilung von Workloads). Bei KI-Workloads gibt es nicht so viel Transfers zwischen Hauptspeicher und GPU die sie ausbremsen könnten (bin da aber nicht 100% sicher). Dann kann man das auch mit einem Laptop machen.
Würde sicher gehen, das laden des Modells in den VRAM der GPU würde dann halt etwas länger dauern (limitiert halt durche diese USB4.0/Thunterbold Schnitstelle). Gibt es externe GPU-Docks mit 2 PCIe x16 Slots (sollte dann auch DualSlot sein für zwei potente GPUs), kenne das eigentlich nur für eine GPU und das ist meist auch schon recht teuer.
Dicker Igel
2025-11-03, 16:06:27
Hallo!
Als jemand, der das Thema nicht am Schirm hatte und jetzt beeindruckt ist, wie einfach man sich das so einfach am Heim-PC einrichten kann (Alpaca ML mit unzensiertem LLM, Krita AI Diffusion - Plugin), frag ich mich natürlich, wie weit es noch "einfach" geht und wann der Spaß aufhört.
Klingt spannend und da ich das auch schon lange mal auschecken wollte ... sollte ja mit 'ner 5060TI 16 zum rumprobieren passen.
Shink
2025-11-03, 16:08:41
Gibt es externe GPU-Docks mit 2 PCIe x16 Slots
Ähm da geht doch unmöglich so viel drüber, oder?
Ich würde da in Richtung X399 Board denken weil warum nicht. Die Zen 1 Prozessoren gehen quasi gratis weg dank Windows 11.
Shink
2025-11-03, 16:10:41
Klingt spannend und da ich das auch schon lange mal auschecken wollte ... sollte ja mit 'ner 5060TI 16 zum rumprobieren passen.
Ja, im Prinzip ist da nix zu tun (unter Linux halt). Anwendung im "Appstore" installieren und das Modell in der Liste auswählen zum runterladen. Und das läuft auf einer RX6700 so flott, dass sich keiner denkt "omg, dann doch lieber online nutzen".
Ähm da geht doch unmöglich so viel drüber, oder?Naja das LLM muss halt einmal in den VRAM der GPU(s) geladen werden, für den Rest also beim Inference wird dann nur noch sehr wenig PCIe Bandbreite beötigt. Bei einem 30B-Q6 oder Q8 Modell reden wir über knapp ~30GB. Mit zweimal RTX5090-32GB kann man auch 60GB große Modelle laden, aber ich denke da spielt Geld dann auch eine eher untergeordnete Rolle und man hat die entsprechende Hardware, dass muss dann auch nicht ins GPU Dock oder man kauft sich halt gleich ein DGX Spark mit GB10 oder Ryzen AI / Strix Halo Platform.
Edit: Eine eher günstige Lösung könnte auch aus drei oder vier RTX3060-12GB oder zwei RTX3090 bestehen, oder zwei AMD Instinct MI50-32GB oder vier MI50-16GB (je nach Preisgefüge), gibt sicher auch noch weitere Alternativen.
Aber ich würde statt 2 oder 3 RTX3060-12GB wohl lieber eine (gebrauchte) MI50-32GB nehmen, ist aber natürlich auch etwas vom LM-Workload abhängig / CUDA -> JA/NEIN.
Wer bereits eine potente Karte hat, kann aber denke ich recht sorglos einfach eine weiteres Model mit im Idealfall identischer VRAM Größe dazu stecken. Also z.B. wer eine RTX5070Ti/5080 mit 16GB hat, kann Problemlos eine RTX5060TI-16GB dazu stecken oder ggf auch seine alte RTX3060/RTX4070. Mit einer 8GB Karte würde ich aber nicht paaren!
Daredevil
2025-11-03, 20:29:01
Mit USB Kann man einiges zum laufen bekommen, ist halt echt wichtig wie Bandbreiten intensiv das ganze ist. ^^
Mit UV haben die Kisten zusammen "nur" 800-1000w verbraucht und es gab halt 6x1TB/s HBM2, das war schon ein kleiner Supercomputer. :D
Intel Dual Core + Mining Mainboard + 6x Radeon VII via PCIe 1x auf USB3 > PCIe 16x - Good old 2020
https://s1.directupload.eu/images/251103/cd6wy7ti.jpg
ChaosTM
2025-11-03, 20:35:35
Wir sind also wieder im Mining Zeitalter.
Damals konnte man noch Geld verdienen aber warum tut man das jetzt?
Kann man sich mittlerweile die persönliche AGI backen?
und ja, es ist sehr verlockend ;)
Dicker Igel
2025-11-03, 21:11:39
Ja, im Prinzip ist da nix zu tun (unter Linux halt). Anwendung im "Appstore" installieren und das Modell in der Liste auswählen zum runterladen. Und das läuft auf einer RX6700 so flott, dass sich keiner denkt "omg, dann doch lieber online nutzen".
Nice (y)
Sweepi
2025-11-04, 09:44:19
In diesem Zusammenhang eine esoterische Frage: Gibt es Blackwall-Karten, welche 1 GiB / 8 Gb VRAM Chips nutzen?
Bg Info: 3 GiB / 24 Gb Chips kosten ~ $10 auf Alibaba: https://www.techpowerup.com/337853/samsung-3-gb-gddr7-chips-sold-in-chinese-retail-attracts-memory-modders
D.h. falls es Karten gäbe, die auf 1 GiB / 8 Gb VRAM Chips setzten, könnte man bei diesen den VRAM verdreifachen.
Leider scheinen alle Karten 2 GiB / 16Gb zu nutzen, selbst die 8 GiB Varianten - die haben dann nur 4 VRAM Chips, suess :D
Stand jetzt wären also nur folgende Upgrades möglich (insofern die Karten mitspielen etc):
5060 (Ti) 8 -> 12 GiB
5070 12 -> 18 GiB
5060 Ti / 5070 Ti / 5080 16 -> 24 GiB
5090 32 -> 48 GiB
Gäbe es z.B. eine 5060 Ti 16 GiB, welche auf 16x1 GiB anstatt 8x2 GiB setzten würde, könnte man diese
5060 Ti 16 -> 48 GiB
upgraden. Diese 2x - 4x ins System und man hat so viel VRAM (für KI) wie 1-2x 6000 Blackwell (https://www.techpowerup.com/gpu-specs/rtx-pro-6000-blackwell.c4272) ;D
Colin MacLaren
2025-11-04, 10:18:56
Wahrscheinlich kommt ihr am einfachsten mit sowas (https://de.aliexpress.com/item/1005004694129330.html?spm=a2g0o.productlist.main.3.244fL3PQL3PQf7&algo_pvid=dcd2cce0-1260-4a9c-b200-b394e41f52fc&algo_exp_id=dcd2cce0-1260-4a9c-b200-b394e41f52fc-2&pdp_ext_f=%7B"order"%3A"173"%2C"eval"%3A"1"%2C"fromPage"%3A"search"%7D&pdp_npi=6%40dis%21EUR%21217.00%21123.69%21%21%21243.96%21139.06%21%4021038469176 22478276793226efd31%2112000037460961708%21sea%21DE%21899165109%21X%211%210%21n_t ag%3A-29919%3Bd%3Ad322fa78%3Bm03_new_user%3A-29895&curPageLogUid=BTTqDv1aP2Vq&utparam-url=scene%3Asearch%7Cquery_from%3A%7Cx_object_id%3A1005004694129330%7C_p_origin_ prod%3A) hin, wenn ihr eine zweite GPU zu einem bestehnden System nachrüsten wollt. Ich hatte damit auch mal ein Weilchen experimentiert: https://egpu.io/forums/builds/2023-8-lenovo-legion-go-780m-r78cu-rtx-4090-64gbps-usb4v1-adt-link-ut3g-win11-23h2-first-non-canary-win11-64gbps-usb4v1-build-achieved-with-modified-nvidia-error43-fixer-encased-in
Das klappte schon ganz gut.
Gouvernator
2025-11-04, 17:47:07
Hallo!
Als jemand, der das Thema nicht am Schirm hatte und jetzt beeindruckt ist, wie einfach man sich das so einfach am Heim-PC einrichten kann (Alpaca ML mit unzensiertem LLM, Krita AI Diffusion - Plugin), frag ich mich natürlich, wie weit es noch "einfach" geht und wann der Spaß aufhört.
Kann ich einfach ein altes SLI-Board nutzen, 2-4 moderne Grafikkarten reinstecken und das läuft? Multi-GPU scheint ja unterstützt zu werden bei.... "dem Krempel" aber was macht der da dann? Einfach RAM gemeinsam nutzen oder wirklich parallel rechnen?
Wenn ich hier falsch bin, bitte verschieben.
Nicht nur SLI Boards. Man kann alle CUDA GPUs mixen - Laptop GPU+USB4+Oculink. Wenn kein Oculink und USB4, dann einfach in den Ssd Port reinsägen. Wann wird eigentlich RAFF bei der PCGH auf AI umgeschult? :D
konkretor
2025-11-04, 21:23:25
Also das billigste wird sein 2x Mac Mini mit M4 Max zu kaufen.
Dann mit Thunderbolt 40G zusammen verknüpfen und MLX nutzen
https://naumanahmad86.medium.com/is-the-mac-mini-m4-cluster-the-ultimate-machine-for-running-large-ai-models-0b6c6a2d9a18
Oder das Nvidia Tisch Gerät, das leider etwas unter unstabilem verhalten aufgefallen ist und gegenüber einen Mac nur die Rücklichter sieht.
https://www.computerbase.de/news/pc-systeme/mini-ai-supercomputer-nvidia-und-partner-liefern-dgx-spark-mit-gb10-endlich-aus.94659/
das geht auch zu zweit entsprechendes dac Kabel sollte vorhanden sein.
Ansonsten gibt es noch das Projekt hier
https://github.com/exo-explore/exo
Das ist leider etwas eingeschlafen, noch in Enwicklung. Einfach ausführen es findet die anderen Nodes im Netzwerk egal ob auf dem Ipad oder Iphone, MAC, PC es legt einfach los. Verteilt das LLM auf alle gefunden Geräte. Fire and forget, so wie es sein sollte.
Bei allen brauchst du schnelles Netzwerk, Nein 10G sind nicht schnell genug. 40 oder gleich 100.
Oder vllm nutzen https://docs.vllm.ai/en/v0.8.1/serving/distributed_serving.html da geht auch verteilte interference Geschichten.
Nicht nur SLI Boards. Man kann alle CUDA GPUs mixen - Laptop GPU+USB4+Oculink. Wenn kein Oculink und USB4, dann einfach in den Ssd Port reinsägen. Wann wird eigentlich RAFF bei der PCGH auf AI umgeschult? :D
Die Umstellung auf "PCAI" oder doch "AIGH" wird erst passieren, wenn das eintritt, was Intel letztens andeutete: Rasterisierung ist beendet, stattdessen werden Strahlen verschossen und KI erledigt den Rest inkl. Modellierung. ;)
MfG
Raff
Gouvernator
2025-11-05, 00:25:07
Die Umstellung auf "PCAI" oder doch "AIGH" wird erst passieren, wenn das eintritt, was Intel letztens andeutete: Rasterisierung ist beendet, stattdessen werden Strahlen verschossen und KI erledigt den Rest inkl. Modellierung. ;)
MfG
Raff
Ich finde ein AI-Standbein passt zu dem bestehendem Konzept auch. Man kann im Gegensatz zu Mining wirklich sinnvolle Sachen aus der Hardware basteln. Ich überlege gerade wie es am kostengünstigsten ist einen lokalen AI-Assistenten für halb-blinde, halb-demente Rentnerin zu realisieren. Wenn sie im Krankenhaus ist und sich informieren muss. Dann kann sie zu Hause den AI-Hans anrufen und mit dem quatschen, was im Hintergrund als TTS/STT mit Medgemma läuft. Riesige Marktlücke. Um sich nörgelnde Großeltern vom Hals zu halten. =)
mironicus
2025-11-05, 07:56:32
Sobald KI dafür sorgt, das sich die Alten nicht mehr einsam und mehr wohlgeschätzt fühlen, vererben sie am Ende noch ihr Vermögen an Techkonzerne. Triumphierend und mit einem breiten Grinsen segnen sie das Zeitliche, während die eigenen Kinder leer ausgehen.
Shink
2025-11-05, 08:15:29
Triumphierend und mit einem breiten Grinsen segnen sie das Zeitliche, während die eigenen Kinder leer ausgehen.
Warte mal, das ist doch jetzt schon so.
Gouvernator
2025-11-09, 06:12:19
Da ein NV Super-Refresh nun auf unabsehbare Zeit verschoben ist, habe ich eine 2-Slot 5070Ti als Drittkarte angeschafft. Ein 1600W Netzteil aus Quad-SLI Zeit ist immer wieder nützlich im Haushalt... Auch ein alter Z370 Asrock Extreme "3-Way-Crossfire" Mainboard hat es fast tadellos geschafft. Von oben nach unten ist 3090 mit 2.5-3 Slot, 5070ti 2 Slot und die 5090 mit 3+ Slot. Durch die Backplates konnte ich die 5090 nicht mehr in den obersten Slot rein stecken, dann haben ihre Lüfter schon an der 5070ti geschliffen.
Und ich musste die Power-Button + Reset Button Pins samt Stecker fast komplett umknicken, damit die lange fette 5090 noch in den PCIe reingeht.
Ansonsten hat es sich für "nur" 800€ ziemlich gelohnt. Jetzt läuft GPT-OSS 120B mit 30K Context bei 80T/s. GLM Air 4.5 als MXFP4 MoE auch mit 60T/s. So ein 100B LLM mit solchem Speed ist schon wirklich was feines. Damit kann man wenigstens die LLM/Hardware Entwicklungen bequem aussitzen. Und als Bonus kann ich jetzt schon ein ziemlich gutes Prompt LLM an der Seite laufen lassen, wenn ich Inspiration für Stable Diffusion brauche. Prompt-Engineering macht so richtig Fun, wenn du die Prompts einfach hin und her zwischen Bildgenerierung und dem anderen LLM kopieren musst.
Ich glaube ich kann das auf eine Stufe höher heben, wenn Karte 1 Generierung macht, Karte 2 die Prompts und Karte 3 läuft mit einem Voxta STT/TTS Assistenten.
Gouvernator
2025-11-09, 17:49:54
Oh ja! Das läuft. In ComfyUI CUDA-GPU 0 bis 3 kann man mit Multi-GPU Nodes für Compute und VRAM Donor auswählen: 5090= compute, 3090= donor. In Voxta kann man Koboldccp für Chatbot nehmen und dem die 5070Ti mit ca. 10Gb Modell zuweisen. Wieder in Voxta Orpheus für TTS ebenfalls 5070Ti zuweisen ~5Gb Vram. Und die restlichen 2Gb nimmt sich das Programm automatisch von der 5090 für STT mit Vosk.
Man kann während man Videos rendert völlig sci-fi mäßig mit dem Chatbot labern und Prompts erfinden. Ich habe noch ein Vision LLM genommen, dem man direkt die gerenderte Bildchen in den Prompt füttern kann, für weitere Begutachtung...
Das ist absolut phänomenal.
Fusion_Power
2025-11-09, 18:38:07
Also das billigste wird sein 2x Mac Mini mit M4 Max zu kaufen.
Dann mit Thunderbolt 40G zusammen verknüpfen und MLX nutzen
https://naumanahmad86.medium.com/is-the-mac-mini-m4-cluster-the-ultimate-machine-for-running-large-ai-models-0b6c6a2d9a18
Ist sowas billiger (und schneller) als z.B. dieser Framework Desktop (https://frame.work/de/de/desktop) mit dem vielen RAM? Bin bin bei den Apple Preisen nicht aufm Laufenden.
Für bissl Bilder generieren oder mal ne Frage der KI stellen reicht mir persönlich das Angebot im Netz locker aus. Hab eh keine Maschine auf der auch nur ansatzweise ein KI Modell laufen würde. Lohnt sich sowas überhaupt privat oder was machen die alle konkret mit ihren lokalen KI Rechnern was die Onlineangebote nicht können?
DeadMeat
2025-11-09, 18:51:59
4200€ gegen 2300€ bei 128gb RAM, aber keine Ahnung ob sich das auch in der Geschwindigkeit irgendwie zeigt. Gibt auch AI MAX Geräte für weniger, neulich war einer für 1600€ mit 128gb verlinkt im Forum. Wirklich günstig ist das aktuell so oder so nicht.
Fusion_Power
2025-11-09, 19:43:58
4200€ gegen 2300€ bei 128gb RAM, aber keine Ahnung ob sich das auch in der Geschwindigkeit irgendwie zeigt. Gibt auch AI MAX Geräte für weniger, neulich war einer für 1600€ mit 128gb verlinkt im Forum. Wirklich günstig ist das aktuell so oder so nicht.
Ja, das meinte ich ja, ganz besonders in Bezug auf vergleichbare RAM Größen, die sind bei Apple nie günstig zu bekommen. Dagegen wäre der Framework Desktop schon fast ein Schnäppchen, natürlich auch nur relativ gesehen. Muss man halt wissen ob einem KI Spielereien aktuell das Geld wert sind. Ne wirklich praktischen Nutzen, sich nur für KI so eine Monstermaschine anzuschaffen sehe ich aktuell nicht. Aber das kann sich natürlich zukünftig ändern, wer weiß welche Anforderungen es irgend wann an nen Homeoffice Arbeitsplatz gibt. ^^
mironicus
2025-11-09, 19:48:04
Hier wird eine Konfiguration gezeigt wie zwei Strix Halo-Systeme nur mit LAN-Kabel verbunden gemeinsam große Text-LLM ausführen können. Getestet an den Modellen MiniMax-M2 & GLM 4.6 mit dezenter Ausgabe-Geschwindigkeit (18 Tokens/Sekunde bei MiniMax)
Das günstigste Strix Halo-System überhaupt von Bosgame mit 128 GB RAM gibt es noch für knapp 1600 Euro lieferbar. Bestellungen nach Europa werden von deutschen Lager aus versandt (zollfrei).
https://www.bosgamepc.com/products/bosgame-m5-ai-mini-desktop-ryzen-ai-max-395
0cIcth224hk
Gouvernator
2025-11-10, 03:17:55
Ja, das meinte ich ja, ganz besonders in Bezug auf vergleichbare RAM Größen, die sind bei Apple nie günstig zu bekommen. Dagegen wäre der Framework Desktop schon fast ein Schnäppchen, natürlich auch nur relativ gesehen. Muss man halt wissen ob einem KI Spielereien aktuell das Geld wert sind. Ne wirklich praktischen Nutzen, sich nur für KI so eine Monstermaschine anzuschaffen sehe ich aktuell nicht. Aber das kann sich natürlich zukünftig ändern, wer weiß welche Anforderungen es irgend wann an nen Homeoffice Arbeitsplatz gibt. ^^
Genau meine Rede. Man kauft sich damit nur irgendwas zum Coden. Aber was will man denn coden, wenn die Zeit kaum reicht um überhaupt neue LLMs zu downloaden und zu testen.
Der richtige fun liegt bei der Bild Generierung, aber dafür sind diese APUs völlig ungeeignet.
PS.
Ich hab einen unerwünschten Nebeneffekt mit meiner neuer 5070Ti entdeckt, die ja jetzt mit Qwen3-8b-VL für mich die Prompts erfinden soll. Je nach "schärfe" des Prompts , kommt die Orpheus TTS Stimme echt sexy rüber... spätestens nach 5 solcher Prompts kommt man sich wie bei Telefon-Sex-Hotline vor. ;D Der Chatbot hat den Prompt mit gut über 200T/s instant geschrieben und dann fängt die Stimme es langsam und genüsslich vorzulesen.
Shink
2025-11-10, 08:28:47
Der richtige fun liegt bei der Bild Generierung, aber dafür sind diese APUs völlig ungeeignet.
Oha! Inwiefern? Ich dachte irgendwie, erste Prio ist Speicher, zweite ist eine API (was mit ROCM ja durchaus geht). Dritte natürlich auch Speed. Deine Einsatzzwecke klingen interessant, aber auch so abgefahren, dass ich keine Ahnung hab, wie ich das in Sachen Performance einordnen soll.
Mir ist schon klar, dass eine 5090 schneller ist als eine 8060S mit 128GB RAM aber dafür ist die 8060S halt billiger und hat mehr RAM.
Daredevil
2025-11-10, 08:54:28
Bei GenAI mit Bild und Video kannst du dich grob an Gaming Performance orientieren, da reißen die SoCs allesamt keinen Baum aus, da regelt Blackwell/Nvidia alles weg mit ihrer Peak Performance.
Perf/W ist was anderes, es macht aber halt keinen Spaß 2 Stunden auf einen 8 Sek 720p Videoclip zu warten. ( M3 Ultra )
Einen ordentlicher Brecher wird hier wahrscheinlich der M5 Ultra sein, den gibts aber noch nicht. :D ( Der kann dann wahrscheinlich beides ganz gut )
Innos
2025-11-10, 14:23:14
Da ein NV Super-Refresh nun auf unabsehbare Zeit verschoben ist, habe ich eine 2-Slot 5070Ti als Drittkarte angeschafft. Ein 1600W Netzteil aus Quad-SLI Zeit ist immer wieder nützlich im Haushalt... Auch ein alter Z370 Asrock Extreme "3-Way-Crossfire" Mainboard hat es fast tadellos geschafft. Von oben nach unten ist 3090 mit 2.5-3 Slot, 5070ti 2 Slot und die 5090 mit 3+ Slot. Durch die Backplates konnte ich die 5090 nicht mehr in den obersten Slot rein stecken, dann haben ihre Lüfter schon an der 5070ti geschliffen.
Und ich musste die Power-Button + Reset Button Pins samt Stecker fast komplett umknicken, damit die lange fette 5090 noch in den PCIe reingeht.
Ansonsten hat es sich für "nur" 800€ ziemlich gelohnt. Jetzt läuft GPT-OSS 120B mit 30K Context bei 80T/s. GLM Air 4.5 als MXFP4 MoE auch mit 60T/s. So ein 100B LLM mit solchem Speed ist schon wirklich was feines. Damit kann man wenigstens die LLM/Hardware Entwicklungen bequem aussitzen. Und als Bonus kann ich jetzt schon ein ziemlich gutes Prompt LLM an der Seite laufen lassen, wenn ich Inspiration für Stable Diffusion brauche. Prompt-Engineering macht so richtig Fun, wenn du die Prompts einfach hin und her zwischen Bildgenerierung und dem anderen LLM kopieren musst.
Ich glaube ich kann das auf eine Stufe höher heben, wenn Karte 1 Generierung macht, Karte 2 die Prompts und Karte 3 läuft mit einem Voxta STT/TTS Assistenten.
Wir sind also wieder im Mining Zeitalter.
Damals konnte man noch Geld verdienen aber warum tut man das jetzt?
Kann man sich mittlerweile die persönliche AGI backen?
und ja, es ist sehr verlockend ;)
Diese Frage stellt sich mir auch, kann das bitte jemand beantworten? Soll kein Angriff sein, nur...der Sinn erschließt sich bisher nicht.
Sweepi
2025-11-10, 14:49:13
Welchen Teil verstehst du nicht?
- Leute wollen LLMs nutzten
- Fuer manche Anwendungsfälle ist es unangenehm/illegal/teuer ein fremdgehostetes LLM zu nehmen, weil die alle Anfragen im Klartext gesendet und für Training/andere Zwecke wiederverwendet / gespeichert wird.
- Lösung: LLM auf eigener Hardware selber hosten
Manche sind auch HW-Enthusiasten und wollen es machen, weil es geht, aber die Begründung kann man natürlich immer ziehen.
Innos
2025-11-10, 15:03:25
Deinen zweiten Punkt bzgl. der Anwendungsfälle verstehe ich nicht so ganz. Welche gibt es da im privaten Kontext? Das Internet mit semilustigen faken Katzenvideos fluten (Ist mir die Tage auf YouTube ins Auge gestochen) oder sonstige künstlerische Fertigkeiten nachahmen?
Shink
2025-11-10, 15:39:00
Ein "Faceapp" offline ohne Rechteweitergabe, ChatGPT ohne Stock im Arsch (unzensierte Modelle), ein Finanzberater der meine Finanzen keinem bekanntgibt. Unlimitierte Anzahl von Aufrufen "gratis" für Softwareentwicklung oder "Zielwertsuchen" von was auch immer. Trainingsplan, Ernährungsplan, Geschäftsplan, Softwareentwicklung etc mit endlosem Nachbohren deinerseits ohne dass irgendwann ein Limit erreicht oder Geld einzuwerfen wäre.
Wie immer geht es auch um Pornographie. Und um irgendwas, was ich nicht weiß.
Braucht man das? Nein. Aber wenn man schon diese Grafikkarte mit VRAM drin hat, kann man sich ja bisserl spielen.
Mit was davon man Geld machen kann, kann ich dir nicht sagen. So einfach wie damals beim Mining natürlich nicht.
Daredevil
2025-11-10, 19:32:29
Deinen zweiten Punkt bzgl. der Anwendungsfälle verstehe ich nicht so ganz. Welche gibt es da im privaten Kontext? Das Internet mit semilustigen faken Katzenvideos fluten (Ist mir die Tage auf YouTube ins Auge gestochen) oder sonstige künstlerische Fertigkeiten nachahmen?
Was ich heute u.a. mit meinem iPhone dank lokaler KI tun kann, was ich vor 2 Jahren noch nicht konnte:
• Schreibtools: Ermöglichen das Umformulieren, Korrigieren, Zusammenfassen und Generieren von Texten in Apps wie Mail, Nachrichten und Notizen durch natürliche Spracheingabe.
• Intelligente Antworten: Schlagen passende Repliken in E-Mails und Nachrichten vor, basierend auf Kontext.
• Mitteilungen zusammenfassen: Fassen Stapel von Benachrichtigungen oder E-Mails in einer knappen Übersicht zusammen.
• Image Playground: Erstellt Bilder aus Textbeschreibungen oder Skizzen in Stilen wie Animation, Illustration oder Skizze.
• Genmoji: Generiert personalisierte Emojis aus Beschreibungen, die als Sticker oder Reaktionen verwendet werden können.
• Bereinigen in Fotos: Entfernt unerwünschte Objekte aus Bildern und füllt den Hintergrund nahtlos aus.
• Natürliche Sprachsuche in Fotos: Findet Fotos und Videos durch Beschreibungen wie „mein Hund spielt im Park“.
• Rückblickfilme: Erstellt automatisch personalisierte Videostorys aus Fotos und Videos mit KI-generierten Titeln und Kapiteln.
• Siri mit besserem Verständnis: Verarbeitet Anfragen natürlicher, korrigiert sich selbst und wechselt zwischen Sprache und Tippen.
• Produktkenntnis von Siri: Bietet detaillierte Infos zu Apple-Produkten und unterstützt komplexe Anfragen.
• Siri-Aktionen: Führt Aufgaben über Apps hinweg aus, z. B. Objekte in E-Mails hinzufügen oder Kalendereinträge erstellen.
• ChatGPT-Integration mit Siri: Leitet unklare Anfragen an ChatGPT weiter für erweiterte Hilfe, mit Datenschutzoptionen.
• Live Übersetzung: Übersetzt Gespräche in Echtzeit in Apps wie Nachrichten, FaceTime und Telefon, inklusive Untertitel.
• Visuelle Intelligenz: Analysiert Bildschirm oder Kameraeinsatz, um Objekte zu identifizieren, zu suchen oder Fragen zu beantworten.
• Umfragen in Nachrichten: Schlägt und erstellt Umfragen für Gruppenentscheidungen direkt in Chats.
• Priorisierte Mitteilungen: Markiert wichtige Nachrichten mit Prioritäts-Emoji und fasst Gruppenchats zusammen.
• Unterbrechungen reduzieren: Filtert Benachrichtigungen im Fokusmodus auf Relevanz basierend auf Kontext.
• Personalisierte Hintergründe: Erstellt Gruppen-Chat-Hintergründe mit Image Playground.
• Erinnerungen aus E-Mails: Extrahiert automatisch Daten wie Flüge oder Bestellungen und erstellt Erinnerungen.
• Audio-Transkription in Notizen: Transkribiert und fasst Aufnahmen in Echtzeit zusammen, suchbar und editierbar.
• Intelligente Aktionen in Kurzbefehlen: Baut Workflows mit Apple Intelligence-Modellen für Transkriptionen oder PDF-Extraktion.
• Sendungsverfolgung in Wallet: Fasst Lieferdetails aus E-Mails zusammen und zeigt Status in Echtzeit an.
• Zusammenfassungen in Nachrichten: Fasst lange Threads oder Transkripte in Notizen und Mail zusammen.
Ähnliche Fälle gibt es natürlich auch im PC Desktop Segment. Lokale Bildbearbeitung z.B., automatischer Videoschnitt, Rauschunterstrückung oder KI Freistellung.
Da gibts tausende Antworten, wer jedoch produktiver werden möchte, muss natürlich auch Produktivarbeit leisten. Wenn man keine Mails schreibt, ist eine Rechtschreibkorrektur oder sowas dann auch egal.
Innos
2025-11-10, 20:05:51
Danke für eure Ausführungen, auf Programmierebene scheint das alles sehr interessant zu sein. Aber die Sinnfrage stellt sich mir jetzt noch mehr, ist wohl eher philosophischer Natur und hier im Forum falsch.
Shink
2025-11-11, 08:21:07
Aber die Sinnfrage stellt sich mir jetzt noch mehr, ist wohl eher philosophischer Natur und hier im Forum falsch.
Naja so viel weniger Sinn als PC-Games macht es auch nicht.:freak:
Ich würde auf philosophischer Ebene argumentieren, dass es konstruktiver ist als Mining. Da hat man quasi selber aus CO2 Devisen gemacht. Mit einer unzensierten lokalen KI kann man endlose Gespräche darüber führen, wie man den Weltfrieden herbeiführt, Krebs heilen kann oder den perfekten Song/das perfekte Gemälde machen. Vermutlich funktioniert das natürlich nicht und man erfährt einfach ein bisschen was wo man nicht weiß, ob es stimmt. So ähnlich wie wenn man mit jemandem saufen geht, nur ohne körperliche Schäden danach.
Daredevil
2025-11-11, 10:31:06
Aber die Sinnfrage stellt sich mir jetzt noch mehr, ist wohl eher philosophischer Natur und hier im Forum falsch.
Es ist die Demokratisierung von Werkzeugen, Wissen und angelernten Skills.
Ein Beispiel:
Früher musste man noch Grafikdesign studieren um per Hand ein Objekt aus einem Foto zu entfernen, heute kann das selbst Oma Erna besser, indem sie nur mit dem Finger über das Objekt streicht.
Das gleiche gilt für viele andere Berufe und Bereiche, die bestimmte Skills erfordern, die nicht jeder hat. Das kann man jetzt bewerten, aber Fakt ist: Mehr Menschen haben Zugang zu Wissen und Werkzeugen, die sonst vorher anderen vorbehalten worden sind. Selbst die kleinste Kreative Ader kann mit Begeisterung heute einen Song machen, ohne eine Sekunde dafür Noten lernen zu müssen. Wie gesagt, ohne Bewertung der Arbeit oder des Songs. Aber das wichtigste es, es geht.
Diese Demokratisierung wird philosophisch ziemlich viel umwerfen, das ist klar. Das haben die SB Bäckereien in den Discounter z.B. aber auch. Meine Filiale hat in den 2015ern zwei Bäckereien im Ort das Leben gekostet, weil wir eben Brötchen für 9c angeboten haben. Dadurch ist enorme Vielfalt verloren gegangen im Bäckerhandwerk und das kann man völlig zurecht kritisieren, aber der Kunde hat sich für das Produkt entschieden, womit er zufrieden ist und das war leider nicht das Handwerk.
Das hat aber auch zu Folge, das mit BakeOff heute jemand ein Bäcker sein kann, ohne Bäcker zu sein. Die Demokratisierung, wie gesagt.
Hochzeit2
2025-11-11, 13:42:46
Nvidia bietet für den Privatuser keinerlei SLI / Multi- (KI)Möglichkeit an.
Als jemand, der mittlerweile in das Konzernthema IT-Securitiy abgerutscht ist, würde ich folgende generelle Aussage treffen:
JEDE APP die dir das verspricht ist Verarschung.
Und jeder der etwaige Apps nutzt ist selber Schuld. Zu 100%!
Shink
2025-11-11, 14:11:56
Und jeder der etwaige Apps nutzt ist selber Schuld. Zu 100%!
Aber sowas von. Gilt eigentlich immer und für jede App.
Ne, im Ernst: Was willst du uns damit sagen? Was meinst du mit "App"? Natürlich braucht man kein SLI für AI - die Grafikkarten bekommen halt verschiedene Aufgaben.
Gouvernator
2025-11-11, 16:57:31
Nvidia bietet für den Privatuser keinerlei SLI / Multi- (KI)Möglichkeit an.
Als jemand, der mittlerweile in das Konzernthema IT-Securitiy abgerutscht ist, würde ich folgende generelle Aussage treffen:
JEDE APP die dir das verspricht ist Verarschung.
Und jeder der etwaige Apps nutzt ist selber Schuld. Zu 100%!
Das hat mit Nvidia nichts mehr zu tun. Die genutzte App kann dir einfach die Auswahl anbieten was du auf welcher CUDA GPU ausführen willst. Ich muss gerade wie ein Clown mit den verfügbaren 72Gb Vram jonglieren.
Um z.b. gpt-oss 120b mit TTS gleichzeitig zu nutzen oder SDXL, muss man diese kleinen Modelle zuerst starten. Damit später das große LLM gleichmäßig über alle GPUs verteilt wird. Macht man das nicht, dann bleiben bei jeder GPU vielleicht 2Gb frei insgesamt also 6Gb - aber das nützt einem nichts mehr, weil ein einizes 6Gb Checkpoint als Ganzes rein muss.
Und noch was zum Compute vs VRAM. Meine Tokenrate bricht um die Hälfte ein wenn ich gpt-oss 120b gemeinsam mit TTS nutze. Das ist bei 80t/s -->40t/s noch verkraftbar. Aber so ein APU wäre dann unbenutzbar. Es sei denn man steckt sich noch eine eGPU extra dafür.
Gouvernator
2025-11-18, 03:09:58
Habe jetzt noch ein Pcie 16x/Oculink Adapter angeschafft , um die 5070Ti eGPU direkt mit Case+Netzteil zwischen Laptop und Desktop hin und her zu wechseln. Memo an mich --> künftig nur noch auf PCIe Lanes achten was Mainboard-Upgrade angeht. Wenn man diesen Oculink-Adapter Weg geht, dann braucht man auch keine überteuerte 3000W Netzteile. Sprich, man kann pro GPU normales 800W-1000W Netzteil nehmen und die dann jeweils nochmal auf ein anderes Stromkreis legen, damit bei 4000W die Sicherung nicht fliegt.
Gouvernator
2025-11-22, 17:34:04
Meine Oculink PCIe x1 Karte ist gekommen. Man reißt damit keine Bäume aus, aber theoretisch habe ich auf solche Weise Platz für 5 weitere GPUs. Alle freie Slots und M.2 Ports können belegt werden. Die 16x PCIe Karte kann sogar doppelt belegt werden mit einem 8611 8i auf 2x 8611 4i Oculink Kabel. Und wenn das Mainboard auf diesem einen Slot bifurcation unterstützt, dann kann die Karte - vier(eGPUs) ansteuern, mit ihren 2x 8611 8i Ports.
Man braucht also erfreulicherweise keinen zertifizierten Nvidia Server samt teuren Netzteilen und Starkstrom. Einfach 5x eGPU Stand/Oculink-Adapter und Billignetzteil ~ 150€ pro GPU. Und man kann theoretisch bis zum 500Gb Modell weiter aufrüsten.
Ich bin mit 72Gb VRAM zumindest in der Lage niedrige 3_KS 110b Quants zu fahren mit akzeptablen Kontext Window 8k+ je nach Modell auch deutlich mehr. Das ist wenigstens mal eine brauchbare KI die ihren Namen verdient. Der nächste Sprung ist auf 220b Modelle, für die man 5x 18Gb Grafikkarten braucht. Es klingt gerade utopisch, aber ich hoffe auf den Super-Refresh wo der beste Deal bei 18-24Gb im 500€ Bereich liegen würde. Oder NV bringt eine 96Gb Gaming Karte...
PS.
Dense-Modell Commander-A 110b läuft auf den 3 GPUs mit 11t/s. MoE Models 40-50t/s.
Daredevil
2025-11-22, 17:57:19
Mit Thunderbolt 5 kannst du maximal 4x M3 Ultra zusammenschalten ( MacOS 26.2 ) und kommst auf 2TB VRAM. Und wenn du Bock auf basteln hast, kannste an die Macs auch noch ne AMD/Nvidia Karte anstöpseln per USB. ( https://x.com/__tinygrad__/status/1991927844562522311 )
Gilt das als MutliGPU? :D
Gouvernator
2025-11-22, 20:48:19
Mit Thunderbolt 5 kannst du maximal 4x M3 Ultra zusammenschalten ( MacOS 26.2 ) und kommst auf 2TB VRAM. Und wenn du Bock auf basteln hast, kannste an die Macs auch noch ne AMD/Nvidia Karte anstöpseln per USB. ( https://x.com/__tinygrad__/status/1991927844562522311 )
Gilt das als MutliGPU? :D
Ja natürlich gilt das als multiGPU. Man muss eigentlich die Macs immer im Auge behalten. Aber das ist auch nicht günstig... Wenn ich bei Idealo auf 96Gb Ram klicke , dann sind es effektiv wie meine 72Gb Vram mit 3 Karten. Für etwa den gleichen Preis. 128Gb sind schon mal deutlich günstiger und 256Gb,512Gb sind quasi Schnäppchen... :uup:
Ne, in meinem Fall nutze ich AI als Resteverwertung. Quasi jede neue Grafikkarte ist künftige neue AI Karte. Ich kaufe "KI" nur noch in Teilstückchen dazu, falls es für irgendwas signifikant nützliches reichen soll.
Wie gerade jetzt mit 800€ 2-Slot 5070Ti. Für 60Gb LLMs. Wenn man eine recht frische 100B LLM per Systemprompt jailbreaken kann, ohne sie gleichzeitig dümmer zu machen, dann kommt man an erstaunliches Wissen heran. Um mal das Gegenwert für diese teure multi-gpu Spielerei zu verdeutlichen.
PS.
Für Vibe-Coding reichen lokale Rechenkapazitäten eh nicht aus. Wie ich feststellte, brauche ich für meine Verhältnisse 200B+ Modell mit minimum 70t/s, besser 150t/s...
vBulletin®, Copyright ©2000-2025, Jelsoft Enterprises Ltd.