AMD/ATI - Elcomsofts Passwortknacker - Radeon HD 5970 besiegt Tesla /GTX 480 Update [Archiv]

Schlammsau

2010-03-16, 19:12:37

http://www.golem.de/1003/73862.html
ATIs 5000er-Serie-Grafikkarten überholen laut Elcomsoft die konkurrierenden Nvidia-Grafikkarten bei den Berechnungen der beiden Tools. Auch im Vergleich mit Nvidias reinen CUDA-Lösungen Tesla C1060 und S1070 soll mit der eher an Gamer gerichteten Radeon HD 5970 noch eine bis zu doppelt so hohe Rechenleistung beim Passwortknacken erzielt werden. Dabei kosten Nvidias Unternehmenslösungen mehrere tausend Euro mehr als die HD 5970, so Elcomsoft.

http://scr3.golem.de/screenshots/1003/elcomsoft-ewsa-cuda-vs-stream-benchmark/thumb480/ewsa-benchmark.png

LovesuckZ

2010-03-16, 19:17:33

Und besiegt die 5970 auch Geforce Karten? :confused:

dildo4u

2010-03-16, 19:19:14

Noch keine Fermi Tesla dabei.Ich denke mal die wird alles zerstören die alte Tesla steht relativ gut da.

_DrillSarge]I[

2010-03-16, 19:21:04

Und besiegt die 5970 auch Geforce Karten? :confused:
guckst du bildchen (link klicken!) :rolleyes:

kurz: ja (gtx295&285; um ein vielfaches)

Gast

2010-03-16, 19:35:47

Tesla S1070 sind im übrigen 4 GPUs. Da zeigt sich halt wieder mal die erheblich überlegene Rechenleistung der AMD-Karten. Wenig überraschend.

Raff

2010-03-16, 19:48:08

Das ist wenigstens mal ein sinnvoller Einsatzzweck für eine sonst mikroruckelnde, laggende HD 5970. :naughty: Allerdings ist's ja bekannt, dass Ati in Anwendungen, die lange Berechnungen erfordern, vorn ist. Aber viel mehr bezweifle ich, dass Schlammi diesen Thread beim gegenteiligen Ausgang erstellt hätte. ;)

MfG,
Raff

Gast

2010-03-16, 19:48:16

Tesla S1070 sind im übrigen 4 GPUs. Da zeigt sich halt wieder mal die erheblich überlegene Rechenleistung der AMD-Karten. Wenig überraschend.

Das schon.
Trotzdem ist der Abstand zwischen 4870 und 5970 trotzdem wesentlich größer als der Rechenleistungsunterschied.

Gast

2010-03-16, 19:55:13

Aber viel mehr bezweifle ich, dass Schlammi diesen Thread beim gegenteiligen Ausgang erstellt hätte. ;)

Kann man persönliche Sticheleien nicht einmal beiseite lassen? Danke.

Sorkalm

2010-03-16, 19:56:09

Aber viel mehr bezweifle ich, dass Schlammi diesen Thread beim gegenteiligen Ausgang erstellt hätte. ;)

Macht dann halt jemand anders. Ist doch auch völlig egal, wer und aus welchen Motiven etwas eröffnet, solange es stimmt.

deekey777

2010-03-16, 20:00:14

Noch keine Fermi Tesla dabei.Ich denke mal die wird alles zerstören die alte Tesla steht relativ gut da.
Aber klar. So wie der GF100 der einzige echte DX11-Chip ist. Das ist doch immernoch 3DCenter, oder?

Meine Prognose: Ein einzelner GF100 mit vollem Ausbau wird gegen eine HD5870 in solchen Tests schon seine Probleme haben, gegen die HD5970.

MR2

2010-03-16, 20:10:11

wenn man bedenkt, Tesla S1070 ist ein Rack mit 4 Stück GT200 für über 5500 Eus ...
fermi wird immerhin 256 Berechnungen mit doppelter Genauigkeit pro Takt ausführen, der GT200 nur 30. Da wird das wohl anders aussehen. Wäre interessant zu sehen was am Ende hinten rauskommt:-)

Spasstiger

2010-03-16, 21:47:35

Das schon.
Trotzdem ist der Abstand zwischen 4870 und 5970 trotzdem wesentlich größer als der Rechenleistungsunterschied.
Evtl. bringen die Neuerungen für DX11 wie der Local Data Share auch Vorteile bei Computing.

LovesuckZ

2010-03-16, 21:49:38

Evtl. bringen die Neuerungen für DX11 wie der Local Data Share auch Vorteile bei Computing.

Sollte es. Bei F@H ist eine GT200 auch wegen LDS deutlich schneller als ein rv770.

Gast

2010-03-16, 21:54:17

Sollte es. Bei F@H ist eine GT200 auch wegen LDS deutlich schneller als ein rv770.

Nein, F@H ist einfach schlecht optimiert auf ATi. Auch bei HD5000. Und LDS hat ein RV770 AFAIK auch.

Triskaine

2010-03-16, 21:58:32

Bei F@H ist eine GT200 auch wegen LDS deutlich schneller als ein rv770.

RV770 besitzt ebenso einen LDS, nur wird der in der momentan nicht genutzt. Allgemein ist die derzeitige F@H-ATi-GPU-Client Implementierung ziemlich suboptimal. Mit dem neuen Client, der noch dieses jahr erscheinen sollte, wird die Geschwindigkeit um den Faktor 3-4 zunehmen.

deekey777

2010-03-16, 22:05:12

Nein, F@H ist einfach schlecht optimiert auf ATi. Auch bei HD5000. Und LDS hat ein RV770 AFAIK auch.
Das LDS des RV770 ist nur "Überall lesen, privat schreiben".

Dass der GPU2-Client für Nvidia-Grafikkarten deutlich schneller ist, liegt an mehreren Faktoren. Die Radeons müssen wegen der fehlenden Shared-Memory-Nutzung sowie fehlender Synchronisation viele Berechnungen zweimal durchführen. Das eigentliche Problem ist, dass der Client bzw. der Core für R600 gemacht wurde, also für 320 SPs, so dass beim RV770 und aufwärts bei manchen Aufgaben nur wenige SIMDs beschäftigt werden und der Rest nichts tut. Und so weiter.

Pinoccio

2010-03-16, 22:12:40

Eine Elcomsoft-PR-Meldung, um sich wieder mal ins Gedächnis zu rufen. Nun fang doch nicht an, über den Inhalt zu streiten.
Schlimm genug, daß golem das eine Meldung wert ist.

mfg

Spasstiger

2010-03-16, 22:26:01

Auf der Homepage wird übrigens ganz fett mit dem CUDA-Logo geworben und von ATI ist gar kein Logo platziert. Und in den publizierten Benchmarks schlagen dann auf einmal die ATI-Lösungen deutlich teurere NV-Lösungen. :freak:

http://www.elcomsoft.de/ewsa.html

Interessant sind vielleicht noch die geknackten Passwörter pro Sekunde pro max. GFlops:
(Werte in Passwörter pro Sekunde pro GFlops)
Radeon HD 5970: 22,2
Radeon HD 4870: 13,1
Tesla S1070: 12,7-14,0 (je nach Takt)
GTX 295: 12,3
GTX 285: 11,8
Core i7-920: 94,0 :biggrin:

P.S.: Ich hab nach diesen Zahlen irgendwie den Verdacht, dass man zwei HD 5970 im Verbund getestet hat.

deekey777

2010-03-16, 22:30:27

Und dabei kommt es doch gar nicht auf die FLOPS an, oder?

davidzo

2010-03-16, 23:07:19

doch, eigentlich müsste es nur auf die flops ankommen.
wenn ein rv770 13 passwörter pro flop knackt dürfte ein rv870 knapp dadrunter liegen. das höhere ergebnis des doppelten rv870 sollte also nur von der erhöhung der flops kommen, scheinbar gibt es aber noch anderweitig einen gewaltigen speedup. Es erscheint mir allerdings sehr unwahrscheinlich dass DX11 spezifische Änderungen einen speedup von nahezu 2fach gegenüber rv770 bringen und das trotz einem geringeren bandbreitenverhältnis und geringerer effizienz der rv870 einheiten. Sieht doch eher nach 2x 5970 aus.

Pinoccio

2010-03-16, 23:21:26

doch, eigentlich müsste es nur auf die flops ankommen.Nein: (Gigantisch viele) FLoating Point Operationen sind zum Passwortknacken eher nicht nötig.
Wiviel eine GPU (oder CPU) schafft, ist relativ egal, weshalb auch der i7 so gut dasteht in Spasstigers Liste.

mfg

Coda

2010-03-17, 02:33:31

Bei RV870 ist der Integer-Durchsatz gleich wie der Float-Durchsatz, wenn ich mich nicht irre.

Dann ist es egal ob es FLOPS oder IOPS sind.

Pakko

2010-03-17, 09:33:38

Hast du dafür eine Qulle? Würde mich nämlich durchaus interessieren.

deekey777

2010-03-17, 10:53:40

http://sa09.idav.ucdavis.edu/docs/SA09_AMD_IHV.pdf
Ist sehr hilfreich (Seite 10)

AnarchX

2010-03-28, 00:10:27

http://img684.imageshack.us/img684/1475/nvdagtx480elcom26751.jpg
http://www.brightsideofnews.com/news/2010/3/26/nvidia-geforce-gtx-480--gtx-480-sli-review.aspx

Spasstiger

2010-03-28, 00:12:21

Und die werben in großem Stil mit CUDA. Tja, Marketing alleine reicht nicht, um schnell zu sein.

deekey777

2010-03-28, 00:14:46

Und die werben in großem Stil mit CUDA. Tja, Marketing alleine reicht nicht, um schnell zu sein.
Ich will Erster sein:
"Das ist doch Unsinn, und du weißt das! Mit Cuda 3.0 und Fermis Caches wird alles mindestens 1000mal schneller."

Gast

2010-03-28, 10:35:34

Woher kommt eigentlich diese brachiale Rechenleistung der ATIs? Beim oben verlinkten Test wäre eine 5770 ja etwa auf dem Niveau der 4800GTX -bei einem Viertes (oder gar 1/5) des Stromverbrauchs.

Gast

2010-03-28, 10:41:54

Woher kommt eigentlich diese brachiale Rechenleistung der ATIs? Beim oben verlinkten Test wäre eine 5770 ja etwa auf dem Niveau der 4800GTX -bei einem Viertes (oder gar 1/5) des Stromverbrauchs.

Mithilfe einer effizienten VLIW-Architektur und keinem brute-fore "hot-clock" mit viel zu teuren skalaren ALUs. Eine 5870 hat 2.72TFLOPs, das schlägt bei GPGPU natürlich voll durch.

Spasstiger

2010-03-28, 10:44:09

Die Radeons haben einfach eine extreme parallele Rechenleistung mit ihren bis zu 320 VEC5-ALUs. Solange ein Code stark parallelisierbar ist und einfache mathematische Instruktionen verwendet werden, ist die ATI-Architektur das Maß der Dinge. Bei serieller Abarbeitung von Befehlen zieht dagegen Fermi davon: http://www.pcinlife.com/article/graphics/2010-03-26/1269573687d844_4.html.

dildo4u

2010-03-28, 10:57:13

Das ist halt extrem simpler Code kein Wunder.

GPU-Rendering mit Power Director 8

Das H.264-AVCHD-Format berechnet die GTX 480 mit 93 Sekunden mehr als doppelt so schnell wie die GTX 285 (194 Sekunden), die HD 5870 erreicht 148 Sekunden.

http://www.pcgameshardware.de/aid,743333/Geforce-GTX-470-und-GTX-480-Test-von-Nvidias-GF100-Generation/Grafikkarte/Test/?page=18

Die Radeon lief zwar whol nicht mit Vollspeed aber der Abstand zur GTX 285 ist beachtlich.

Mr. Lolman

2010-03-28, 10:59:43

Das ist halt extrem simpler Code kein Wunder.

GPU-Rendering mit Power Director 8

http://www.pcgameshardware.de/aid,743333/Geforce-GTX-470-und-GTX-480-Test-von-Nvidias-GF100-Generation/Grafikkarte/Test/?page=18
Hm:

Die Radeon blieb während der HW-Decode-Einstellung auf den UVD-Taktraten von 400/1.800 MHz

EDIT: Zu langsam...

deekey777

2010-03-28, 11:00:59

Das ist halt extrem simpler Code kein Wunder.

GPU-Rendering mit Power Director 8

http://www.pcgameshardware.de/aid,743333/Geforce-GTX-470-und-GTX-480-Test-von-Nvidias-GF100-Generation/Grafikkarte/Test/?page=18
Was soll das jetzt? Was willst du mit diesem Link zeigen? Gar nichts.
Das sind zwei verschiedene Encoder, die zum Einsatz kommen. Da ist null Vergleich. Und da es auch keinen visuellen Vergleich gibt, sind diese Werte für den Popo.

AnarchX

2010-03-28, 11:00:59

Bei GPU-Encoding hätte ich auch die Befürchtung, dass man nicht die gleichen Ergebnisse produziert, immerhin implementiert man wohl nur die fertigen Encoder von NV und AMD.

dildo4u

2010-03-28, 11:02:30

Was soll das jetzt? Was willst du mit diesem Link zeigen? Gar nichts.
Das sind zwei verschiedene Encoder, die zum Einsatz kommen. Da ist null Vergleich. Und da es auch keinen visuellen Vergleich gibt, sind diese Werte für den Popo.
Der Vergleich zur GTX285 geht aber die Radeon müssten wenn's nach Flops geht schon mit 400mhz schneller als die 480 sein

deekey777

2010-03-28, 11:04:31

Bei GPU-Encoding hätte ich auch die Befürchtung, dass man nicht die gleichen Ergebnisse produziert, immerhin implementiert man wohl nur die fertigen Encoder von NV und AMD.
So ist es. Hinzu kommt, dass Cuda-Encoder von sowas von überlegen ist.

Daher geben wir zwei Zeitwerte an: Der erste ist mit HW-Decode gemessen und die GPU muss zwischen den Kernels hin- und herschalten, beim zweiten musste die CPU diese Aufgabe stemmen - kein Problem für unser 4-GHz-Core-i7-System.
Das ist ja interessant. Die Dekodierung läuft auf den Videoprozessoren und nicht auf den Shader-ALUs, nutzt eine eigene/andere API (wohl DXVA), aber die GPU muss hin und her rumschalten?

deekey777

2010-03-28, 11:05:55

Der Vergleich zur GTX285 geht aber die Radeon müssten wenn's nach Flops geht schon mit 400mhz schneller als die 480 sein
Was ist daran so schwer zu verstehen, dass es zwei miteinander nichts zu tun habende Encoder sind?
Was ist daran so schwer zu verstehen, dass es beim Videoencoding auf die Integer-Performance ankommt?

Gast

2010-03-28, 11:06:07

Der Vergleich zur GTX285 geht aber die Radeon müssten wenn's nach Flops geht schon mit 400mhz schneller als die 480 sein

Das geht nicht über die Recheneinheiten sondern über den Video-Decoder. Was verstehst du daran nicht?

dildo4u

2010-03-28, 11:07:33

So ist es. Hinzu kommt, dass Cuda-Encoder von sowas von überlegen ist.

Ich dachte Cuda ist nur Marketing. :rolleyes:Das ist genau das was NV ständig zu recht betet ohne vernünftige Software bringt die Rechenleistung nix.Ausnahme ebend extrem simpler Code.

deekey777

2010-03-28, 11:10:25

Ich dachte Cuda ist nur Marketing. :rolleyes:Das ist genau das was NV ständig zu recht betet ohne vernünftige Software bringt die Rechenleistung nix.Ausnahme ebend extrem simpler Code.
Ok, da es du nicht anders haben willst:
Der Cuda-Encoder ist im Vergleich zu x264 nicht nur schlechter, aber auch langsamer.

dildo4u

2010-03-28, 11:15:24

Ok, da es du nicht anders haben willst:
Der Cuda-Encoder ist im Vergleich zu x264 nicht nur schlechter, aber auch langsamer.
Kommt auf deine CPU an und nicht jeder braucht die maximale Qualität mir geht's um den Vergleich der GPU Lösungen für's Encoding von NV und ATI.
Also mher um ein Beispiel wer wie seine GPGPU Leistung auf die Straße bringt.Die GPU Endcoder werden mit der Zeit schon besser werden,imo ist die Anwendung für den Durchschnitt's User interresanter als ein Password Cracker.

deekey777

2010-03-28, 11:24:07

Kommt auf deine CPU an und nicht jeder braucht die maximale Qualität mir geht's um den Vergleich der GPU Lösungen für Encoding von NV und ATI.
Also mher um ein Beispiel wer wie seine GPGPU Leistung auf die Straße bringt.Die GPU Endcoder werden mit der Zeit schon besser werden,imo ist die Anwendung für den Durchschnitt's User interresanter als ein Password Cracker.
= du hast dich noch nie mit Videoencoding beschäftigt. Nicht einmal fürs iPhone.
Geh mal ins Doom9- oder Doom10-Forum.

Gast

2010-03-28, 12:40:00

Das ist ja interessant. Die Dekodierung läuft auf den Videoprozessoren und nicht auf den Shader-ALUs, nutzt eine eigene/andere API (wohl DXVA), aber die GPU muss hin und her rumschalten?
Ja, interessant, oder? Die Videoprozessoren übernehmen nicht die komplette Arbeit, sondern nur die Teile, auf die sie ausgelegt sind. Wieso sollten sich die GPUs denn sonst hochtakten müssen, um die Arbeit zu schaffen? Wenn ich einen Idle-Modus programmiere und einen festen VP habe, dann lege ich den so aus, dass er entweder einen komplett eigenen Takt bekommt oder dass er seine Arbeit auch ohne hochtakten des gesamten Chips schafft.

Was die API mit den Kernels, die auf dem Chip laufen, zu tun hat, müsstest du mir auch nochmal erklären.

Gast

2010-03-28, 12:48:18

Das ist halt extrem simpler Code kein Wunder.

Wie jetzt "kein Wunder"?

Noch keine Fermi Tesla dabei.Ich denke mal die wird alles zerstören die alte Tesla steht relativ gut da.

dildo4u

2010-03-28, 12:57:23

Ich hab doch Fermi Tesla geschrieben.4X30000 sind 120000 schneller als die 5970.

http://www.amax.com/CS_GPUserverDetail.asp?cs_id=TS2050

deekey777

2010-03-28, 12:58:05

Ja, interessant, oder? Die Videoprozessoren übernehmen nicht die komplette Arbeit, sondern nur die Teile, auf die sie ausgelegt sind. Wieso sollten sich die GPUs denn sonst hochtakten müssen, um die Arbeit zu schaffen? Wenn ich einen Idle-Modus programmiere und einen festen VP habe, dann lege ich den so aus, dass er entweder einen komplett eigenen Takt bekommt oder dass er seine Arbeit auch ohne hochtakten des gesamten Chips schafft.

Was die API mit den Kernels, die auf dem Chip laufen, zu tun hat, müsstest du mir auch nochmal erklären.

Welche Decoding-Aufgaben müssen die Shader-ALUs übernehmen, die sie nicht beim Encoding übernehmen?
Wieso soll da überhaupt überhaupt zwischen den Kernels umgeschaltet werden?

Spasstiger

2010-03-28, 17:57:47

Ich hab doch Fermi Tesla geschrieben.4X30000 sind 120000 schneller als die 5970.

http://www.amax.com/CS_GPUserverDetail.asp?cs_id=TS2050
Die Tesla S2070 wird nicht genau viermal so schnell wie die GTX 480. 2,5 TFlops bei DP entsprechen 5 TFlops bei SP. Die GTX 480 hat 1,344 TFlops. Ergo müsste Fermi-Tesla auf ca. 110.000 Passwörter pro Sekunde kommen. Die Radeon HD 5970 schafft 100.000 Passwörter pro Sekunde. Zerstören sieht anders aus.
Zudem: Tesla S2070 -> 900 Watt typical (NV-Angabe), Radeon HD 5970 -> 294 Watt TDP.

/EDIT: Hier eine Zusammenfassung:

http://www.abload.de/img/elcommsoftx7k7.png

_DrillSarge]I[

2010-03-29, 20:09:48

ich dachte gf100 wird DER überflieger in sachen rechenleistung?
(afaik kommts doch bei dieser anwendung von elcomsoft größtenteils auf integer-performance an, oder?)
also (hier) grob: 4xfermi = 2xcypress. macht ja ein übles perf/watt und p/l verhältnis. oO

Sorkalm

2010-03-29, 21:52:33

I[;7936930']ich dachte gf100 wird DER überflieger in sachen rechenleistung?
(afaik kommts doch bei dieser anwendung von elcomsoft größtenteils auf integer-performance an, oder?)

Wenn du den Sprung von einer GTX 280 auf eine 480 anguckst, konnte man das bei Nvidia vielleicht vermuten, wenn es hies das AMD halt die Einheiten verdoppelt und nen bisschen "DX 11" dranschmiert. Wenn man aber mal die Steigerung von einer HD 4870 auf eine HD 5870 sieht, dürfte da wohl etwas mehr passiert sein.

deekey777

2010-03-29, 21:57:08

I[;7936930']ich dachte gf100 wird DER überflieger in sachen rechenleistung?
. oO
Schaue dir das mal an:
http://forum.beyond3d.com/showthread.php?p=1414824#post1414824 (ab hier weitere Bildchen anschauen)

AnarchX

2010-03-29, 22:04:17

Das hat aber doch wohl weniger mit der Rechenleistung, als mit den Caches zu tun.
Aber da hätte NV eine weit werbewirksamere Zahl, als die 3,5-4x GT200 für Raytracing, im Whitepaper angeben können. :D

dildo4u

2010-03-29, 22:34:10

I[;7936930']ich dachte gf100 wird DER überflieger in sachen rechenleistung?
(afaik kommts doch bei dieser anwendung von elcomsoft größtenteils auf integer-performance an, oder?)
also (hier) grob: 4xfermi = 2xcypress. macht ja ein übles perf/watt und p/l verhältnis. oO
Hier gibt's noch ein paar GPGPU Benches.

http://www.anandtech.com/video/showdoc.aspx?i=3783&p=6