PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Allround-Grafikkarte gesucht


Simon Moon
2024-08-02, 18:57:32
Hi

Irgendwie reichten mir die letzten Jahre meist die integrierten Grafikloesungen aus, wohl vor allem, weil ich kaum game und wenn dann eher alte Strategiespiele. Es gibt aber immer mal wieder Situationen, in denen es praktisch waere so einen parallelen Rechenbeschleuniger zu haben. Etwa um Videos zu bearbeiten oder dergleichen. Aktuell nun waere der Hauptzweck aber eigene LLMs zu betreiben und da ist viel RAM wohl ein wichtiges Kriterium.

Momentan tendiere ich entweder zu einer Radeon 7600 XT mit 16GB oder einer Geforce GTX 3060 mit 12GB. Die Geforce scheint zumindest bei kleinen LLMs mehr Performance zu bieten, wenn die in den Speicher passen. Andererseits wird man diesen Vorteil wohl verlieren, wenn man in den normalen RAM auslagern muss. Beider Geforce scheint es aber moeglich zu sein, spaeter noch eine zweite zu Nutzen, aber braucht man da auch eine entsprechend schnelle PCIE Verbindung, damit die Performance bleibt? Wie sieht die Chance aus, dass Hersteller Modelle mit mehr RAM bauen koennten?

Ausfuehrliche Benchmarks mit LLMs hab ich leider keine gefunden. Das einzige was ich da fand war Toms Hardware die ein Stable Diffusion Modell benchten, das aber bewusst wenig RAM nutzte. Intels ARC 770 16GB schnitt dabei sogar ziemlich gut ab. Aber mich wuerden da halt ausfuehrlichere Tests interessieren. Also z.b. wie hoch die Einbussen sind, wenn man den normalen Arbeitsspeicher nutzen muss oder wie effizient Multi GPU ist.

Plausible
2024-08-02, 21:07:58
Nutzt du denn Anwendungen, welche auf CUDA angewiesen sind? Gerade ältere Software ist da noch etwas festgefahren.
Das wäre für mich in Bezug auf Anwendungen die erste Frage, die ich mir stellen würde.

Simon Moon
2024-08-02, 21:28:41
Nutzt du denn Anwendungen, welche auf CUDA angewiesen sind? Gerade ältere Software ist da noch etwas festgefahren.
Das wäre für mich in Bezug auf Anwendungen die erste Frage, die ich mir stellen würde.

Gratuliere zum Glueckskind :biggrin:

Zur Frage eher weniger, ich denke ich werde die Modelle im gguf Format von Hugging Face inferieren und das sollte eigentlich mit allen Karten problemlos gehen. Fuers Training kann ich mir dann auch mal so ein paar Stunden eine oder mehrere A100 oder so mieten, denn dafuer wird der RAM lokal sowieso knapp.

Plausible
2024-08-03, 12:27:51
Danke dir!

Im Stable-Diffusion Benchmark von Toms Hardware ist die Tendenz aber ja klar: nVidia > AMD.

Die RTX3060 bietet halt schon deutlich weniger Leistung für das Geld, verglichen zur 7600XT.
https://www.tomshardware.com/reviews/gpu-hierarchy,4388.html

Daher wäre die 7600XT wohl meine Wahl, wenn du dir wirklich sicher bist, dass du die Beschleunigung mit der Karte auch nutzen kannst. Leider kenne ich das von dir genannte Modell nicht, so dass ich hier wenig weiterhelfen kann.

Meine Alternative wäre wohl eine 4060 Ti (https://geizhals.de/inno3d-geforce-rtx-4060-ti-twin-x2-a2951753.html?hloc=at&hloc=de) 16gb für derzeit ca. 410 Euro.

Schnitzl
2024-08-04, 21:05:42
also wenn ne 7600XT, dann die Sapphire Pulse (https://geizhals.de/sapphire-pulse-radeon-rx-7600-xt-oc-11339-04-20g-a3110115.html?hloc=de)

Bei der 4060Ti 16GB würde ich die Zotac Amp (https://geizhals.de/zotac-geforce-rtx-4060-ti-amp-zt-d40620f-10m-a3050859.html?hloc=at&hloc=de) nehmen,
ggf. mit Spiderman Spiel (https://geizhals.de/zotac-geforce-rtx-4060-ti-amp-spider-man-across-the-spider-verse-bundle-zt-d40620f-10smp-a2987822.html?hloc=at&hloc=de) ;)

Simon Moon
2024-08-05, 23:21:06
Im Stable-Diffusion Benchmark von Toms Hardware ist die Tendenz aber ja klar: nVidia > AMD.


Jo, aber das ist im Endeffekt ja auch nur ein einzelnes Modell mit zwei Einstellungen. Bei LLMs kann man dabei ja meist neben dem Modell auch noch die Quantisierung einstellen, also ob da z.b. FP16, FP8 oder INT4 genutzt wird. Aber ich hab bisher nicht viel Daten gefunden, wie die verschiedenen Grafikkarten mit diesen Formaten umgehen koennen. Da waeren eben ein paar ausfuehrliche Benchmarks mit verschiedenen Einstellungen, Grafikkarten und Modellen schon sehr hilfreich um eine Entscheidung zu treffen.

Im Endeffekt geht es mir auch weniger darum 70b+ Modelle zu inferieren. Es geht eher in die Richtung so Dinge wie LibreTranslate (https://libretranslate.com/), Perplexica (https://github.com/ItzCrazyKns/Perplexica) oder Whisper (https://github.com/openai/whisper) laufen zu lassen.

Mittlerweile scheinen auch kleine Modelle wie Gemma2 2b ziemlich interessant. Die Tendenz wird denke ich dahin gehen, dass man auch mit kleinen Modellen (<30b) immer brauchbarere Loesungen finden wird. Da wird es dann aber interessant, wenn deren Context Window groesser wird und man ganze Projekte reinladen kann.

also wenn ne 7600XT, dann die Sapphire Pulse (https://geizhals.de/sapphire-pulse-radeon-rx-7600-xt-oc-11339-04-20g-a3110115.html?hloc=de)

Bei der 4060Ti 16GB würde ich die Zotac Amp (https://geizhals.de/zotac-geforce-rtx-4060-ti-amp-zt-d40620f-10m-a3050859.html?hloc=at&hloc=de) nehmen,
ggf. mit Spiderman Spiel (https://geizhals.de/zotac-geforce-rtx-4060-ti-amp-spider-man-across-the-spider-verse-bundle-zt-d40620f-10smp-a2987822.html?hloc=at&hloc=de) ;)

Jo, aber eine 3060 mit 12GB gibts in der Schweiz ab 260.-, das waeren dann fuer 33% mehr RAM 50% Aufpreis. Andererseits seh ich gerade auf wikipedia "Fourth-generation Tensor Cores with FP8, FP16, bfloat16, TensorFloat-32 (TF32) and sparsity acceleration", waehrend FP8 bei der 30er Series nicht erwaehnt wird. Da waere jetzt interessant, was das genau bedeutet? I.e. sind bei der RTX 3060 FP8 Operationen einfach abgerundete FP16 und bei der 4060 koennen z.b. zwei FP8 seperat in einer FP16 Pipeline gerechnet werden?

Edit: https://www.tomshardware.com/news/nvidia-announces-rtx-4060-and-4060-ti sagt bei den 40er Modellen eine doppelte FP8 Geschwindigkeit, waehrend bei den 30er nur "Sparsity" steht. Ich vermute mal letzteres bedeutet einfach, dass nur die halbe Einheit genutzt wird?

Aber ein AV1 Encoder ist auf jeden Fall auch interessant. Wobei, brauchts den wirklich oder laesst sich das bei der Radeon / 3060 ueber die Shader realisieren? Klar, das waer natuerlich nicht so energiesparsam, aber sooo haeufig braeuchte ich das nun auch nicht.

Bei Spielen waere die Frage ob Steam streaming auch Headless funktioniert, die Grafikkarte ist jedenfalls fuer einen PC ohne Monitor :freak: Am Ende muesst ich dann noch ne VM aufsetzen, die einen Monitor simuliert? ;D

Shink
2024-08-06, 11:45:53
Ich denke, bei LLMs könnten die 16GiB VRAM schon praktisch sein.

Bei Spielen waere die Frage ob Steam streaming auch Headless funktioniert, die Grafikkarte ist jedenfalls fuer einen PC ohne Monitor :freak:
Großartige Frage, hätte ich aber aus dem Anfangspost nicht rausgelesen.;D

Alles was ich dazu beitragen kann: Mit AMD unter Linux kannst du so etwas machen wie "Monitor nur am Mainboard anstecken, Grafik von dedizerter Grafikkarte" oder eben ein 100% Headless System und die Ausgabe wohinstreamen. Immerhin unterstützt der selbe Treiber auch die quasi baugleichen FirePro-Modelle. Keine Ahung, wie das bei NVidia ist. Eventuell auch kein Problem - ist ja heutzutage durchaus ein gängiger Einsatzzweck.

Badesalz
2024-08-06, 12:06:25
Danke dir!

Im Stable-Diffusion Benchmark von Toms Hardware ist die Tendenz aber ja klar: nVidia > AMD.
Schon öfters selbst gehört. Aber das Zeichen passt nicht zum Text. Das ist noch kein Pfeil. Das ist ein Pfeil -> ;)

> würde bedeuten, mehr NV als AMD. Was nicht dein Gedanke war richtig?

Was MIR grad bei stable diffusion aufgefallen ist: Auf AMD hat man hinterher irgendwie spürbar weniger FEHLER :|
Ne ganze Weile darüber gegrübelt und dann auch was von Wendell darüber gefunden...
https://www.youtube.com/watch?v=IhlL1_z8mCE

Hmm...
https://www.youtube.com/watch?v=t4J_KYp0NGM

Simon Moon
2024-08-06, 16:57:34
Ich denke, bei LLMs könnten die 16GiB VRAM schon praktisch sein.


Großartige Frage, hätte ich aber aus dem Anfangspost nicht rausgelesen.;D

Alles was ich dazu beitragen kann: Mit AMD unter Linux kannst du so etwas machen wie "Monitor nur am Mainboard anstecken, Grafik von dedizerter Grafikkarte" oder eben ein 100% Headless System und die Ausgabe wohinstreamen. Immerhin unterstützt der selbe Treiber auch die quasi baugleichen FirePro-Modelle. Keine Ahung, wie das bei NVidia ist. Eventuell auch kein Problem - ist ja heutzutage durchaus ein gängiger Einsatzzweck.

Jo, Treiber schon - aber ROCm, das quasi Aequalant zu CUDA scheint bei der 7600XT nicht offiziell unterstuetzt zu werden und macht offenbar gerade mit aelteren Prozessoren gerne Probleme. Da die CPU schon aelter ist und das Board nur PCIE3.0 beherrscht, hab ich mich jetzt doch fuer eine RTX 3060 entschieden - die hat immerhin eine PCIE 16x Anbindung, die 4060 Ti nur noch eine 8x und das macht sich dann wohl bemerkbar, wenn ich Teile eines Modells in den RAM auslagern will. Im Endeffekt auch die Investition mit dem geringsten Risiko und was uebrig bleibt lege ich lieber fuer eine neue Plattform zurueck. skylake ist halt wirklich nicht mehr taufrisch ;D

Shink
2024-08-06, 18:16:33
Na dann, viel Spaß mit der 3060.