PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : bandwidthTest aus dem CUDA SDK


Spasstiger
2009-10-12, 18:14:47
Im CUDA SDK gibt es einen Bandbreitentest, mit der man die Bandbreite der Grafikkartenanbindung (PCIe/AGP/PCI) und des Grafikspeichers testen kann. Ich hab den Test sowohl in der 32-Bit- als auch in der 64-Bit-Version aus dem SDK rausgenommen und mit den notwendigen DLLs zu einem Archiv geschnürt:
- Download: bandwidthTest.zip (http://extreme.pcgameshardware.de/attachments/148950d1255351957-gtx260-nur-pcix-4x-bandwidthtest.zip)

Wer möchte, kann auch das CUDA SDK und das CUDA Toolkit komplett runterladen:
- http://www.nvidia.com/object/cuda_get.html

Da die Ergebnisse zumindest bei meinen Versuchen recht stark schwankten, bitte ich darum, den Tests mehrfach auszuführen und nur das Resultat vom besten Durchlauf zu posten. Ob ihr die 32-Bit- oder die 64-Bit-Version oder beide verwendet, bleibt euch überlassen, aber ihr solltet die Version in eurem Posting kenntlich machen.
Ich habe denselben Thread auch bei Hardwareluxx und PCGHX erstellt:
- http://extreme.pcgameshardware.de/benchmarks/72887-bandwidthtest-aus-dem-cuda-sdk.html
- http://www.hardwareluxx.de/community/showthread.php?t=652157

---

Testsystem:
Phenom II X3 720 @ 3,4 GHz
Asus M4A78T-E (AMD 790GX)
2*2 GiB DDR3-1333 CL9-9-9-27
Palit Sonic GeForce GTX 260-216
Windows Vista Business x64

32 Bit, 16 PCIe-2.0-Lanes
Host to device: 2834,0 MB/s
Device to host: 2302,5 MB/s
Device to device: 100975,9 MB/s

64 Bit, 16 PCIe-2.0-Lanes
Host to device: 2815,7 MB/s
Device to host: 2123,0 MB/s
Device to device: 100986,6 MB/s

32 Bit, 4 PCIe-2.0-Lanes
Host to device: 1251,9 MB/s
Device to host: 1483,2 MB/s
Device to device: 100928,0 MB/s

64 Bit, 4 PCIe-2.0-Lanes
Host to device: 1232,4 MB/s
Device to host: 1501,6 MB/s
Device to device: 101030,0 MB/s

http://www.abload.de/thumb/gtx260_pciex16n6ay.png (http://www.abload.de/image.php?img=gtx260_pciex16n6ay.png) http://www.abload.de/thumb/bandwidthtest32_pciex1h6th.png (http://www.abload.de/image.php?img=bandwidthtest32_pciex1h6th.png) http://www.abload.de/thumb/bandwidthtest64_pciex13696.png (http://www.abload.de/image.php?img=bandwidthtest64_pciex13696.png) http://www.abload.de/thumb/gtx260_pciex4m6w2.png (http://www.abload.de/image.php?img=gtx260_pciex4m6w2.png) http://www.abload.de/thumb/bandwidthtest32_pciex4s639.png (http://www.abload.de/image.php?img=bandwidthtest32_pciex4s639.png) http://www.abload.de/thumb/bandwidthtest64_pciex4a67k.png (http://www.abload.de/image.php?img=bandwidthtest64_pciex4a67k.png)

A.Wesker
2009-10-12, 18:37:17
Testsystem:
Core i5 750 @ 4.42 GHz
Intel DP55KG
2x2GB RipJaws DDR3 @ 841 MHz @ 7-7-7-24
Colorful 8800 GTS 512MB @ 901/2219/1250
Windows Vista Premium 32Bit

32 Bit, 16 PCIe-2.0-Lanes
Host to device: 4934,3 MB/s
Device to host: 4062,7 MB/s
Device to device: 64587,2 MB/s

http://www.abload.de/thumb/cudagake.jpg (http://www.abload.de/image.php?img=cudagake.jpg)

Spasstiger
2009-10-12, 18:42:49
Ui, der PCIe-Controller im Intel Lynnfield scheint ja deutlich schneller zu sein, als der Controller im AMD-790GX-Chipsatz.

The_Invisible
2009-10-12, 19:24:28
system siehe sig

32 Bit, 16 PCIe-1.0-Lanes
Host to device: 1896,4 MB/s
Device to host: 1636,0 MB/s
Device to device: 134588,6 MB/s

64 Bit, 16 PCIe-1.0-Lanes
Host to device: 1845,9 MB/s
Device to host: 1622,5 MB/s
Device to device: 134674,7 MB/s

mfg

RoNsOn Xs
2009-10-12, 20:52:06
32 Bit, 16 PCIe-1.0-Lanes
Host to device: 2010,6 MB/s
Device to host: 1802,7 MB/s
Device to device: 46673,0 MB/s

88gt @900mhz mem
Gigabyte P35

Klingone mit Klampfe
2009-10-12, 20:52:07
32-Bit-Version

http://www.abload.de/img/clipboard01lcng.png

Gigabyte GA-M52L-S3P | AMD Athlon64 X2 6400+
2x1024 MB Kingston DDR800 | MSI GTS250 1024 MB
Hercules Muse Pocket LT | Samson Media One 4A
Coolermaster eXtreme Power 460W | BenQ Q2200W
360 Pad Wireless | Microsoft Windows XP (32 Bit)

Dimon
2009-10-12, 21:33:19
http://img96.imageshack.us/img96/8161/neuebitmapa.jpg

System siehe sig.

Gruß

mapel110
2009-10-12, 21:44:46
GTX260², Vista64, Asus P5K-E

32bit
Host to device: 1824 MB/s
Device to host: 1514 MB/s
Device to device: 100782 MB/s


64bit
Host to device: 1769 MB/s
Device to host: 1517 MB/s
Device to device: 100903 MB/s

Thunder99
2009-10-12, 22:15:23
X2 5000+ @ 3,1Ghz @ 222Mhz Ref.Takt
Palit GTX 260-216 Sonic 625/1348/1100
DDR2/1066 @ 444Mhz 5/5/5/20
M3A78-T (790GX)

64bit Test PCI 2.0 @ x16
Running on......
device 0:GeForce GTX 260
Quick Mode
Host to Device Bandwidth for Pageable memory
.
Transfer Size (Bytes) Bandwidth(MB/s)
33554432 1940.2

Quick Mode
Device to Host Bandwidth for Pageable memory
.
Transfer Size (Bytes) Bandwidth(MB/s)
33554432 1917.9

Quick Mode
Device to Device Bandwidth
.
Transfer Size (Bytes) Bandwidth(MB/s)
33554432 100822.2

&&&& Test PASSED

Press ENTER to exit...
Die 790GX Chipsätze oder Anbindungen an den Port sind auch unterschiedlich :confused: , hab weniger Bandbreite als du Spasstiger

Edit:
32bit noch:
Running on......
device 0:GeForce GTX 260
Quick Mode
Host to Device Bandwidth for Pageable memory
.
Transfer Size (Bytes) Bandwidth(MB/s)
33554432 1915.0

Quick Mode
Device to Host Bandwidth for Pageable memory
.
Transfer Size (Bytes) Bandwidth(MB/s)
33554432 1717.0

Quick Mode
Device to Device Bandwidth
.
Transfer Size (Bytes) Bandwidth(MB/s)
33554432 100719.6

&&&& Test PASSED

Press ENTER to exit...

Spasstiger
2009-10-12, 22:20:52
Evtl. spielt der Prozessor und der Arbeitsspeicher auch eine Rolle. Der Phenom II hat einen schnelleren Hypertransport als dein Athlon 64 X2. Mit "host" ist in dem Benchmark ja wahrscheinlich die CPU gemeint.

Dimon
2009-10-13, 00:01:36
Dann scheint ein Intel P965 schneller zu sein wie ein P35? :confused:

Irgendwie ist mir das ganze ein wenig schleierhaft...

Gruß

blackbox
2009-10-13, 00:15:40
32 Bit
Host to device: 2216 MB/s
Device to host: 1695 MB/s
Device to device: 47719 MB/s

8800GT, Asus P5B-E, Rest siehe Profil

reunion
2009-10-13, 09:18:15
Ui, der PCIe-Controller im Intel Lynnfield scheint ja deutlich schneller zu sein, als der Controller im AMD-790GX-Chipsatz.

Der PCIe Controller sitzt beim Lynnfield ja direkt in der CPU.

Der HeinZ
2009-10-13, 09:41:04
Der PCIe Controller sitzt beim Lynnfield ja direkt in der CPU.
Aber sollte das nicht nur eine Auswirkung auf die Latenzen, nicht aber die Bandbreite über PCI-E haben? Wäre doch dann eine mogelpackung bei Chipsätzen... Wobei mich mal interessieren würde: geht das ganze auch in Sli?


Edit: @Spasstiger: Hättest du mal Lust den HT zu erhöhen oder zu senken? dann dürfte obiges mit der Direkt-Anbindung ja feststellbar sein.

Edit 2: Ich lehn mich jetzt mal aus dem Fenster und behaupte ein 940er oder 955er dürfte auch auf etwa 3500 bis 3800 (Host to Device) kommen. Bin ja mal gespannt ob sich das bestätigt. Kann leider nicht testen, bin ein ATI´ler!

Grüße
Matthias

Spasstiger
2009-10-14, 17:22:16
Edit: @Spasstiger: Hättest du mal Lust den HT zu erhöhen oder zu senken? dann dürfte obiges mit der Direkt-Anbindung ja feststellbar sein.
Hab ich gemacht und es hat sich auch gelohnt. Hab nun mit 1000 MHz HT-Takt (wie bei einem Athlon 64 X2) und mit 2000 MHz HT-Takt (default eines Phenom II) getestet. Die Ergebnisse unterscheiden sich tatsächlich stark.

Testsystem:
Phenom II X3 720 @ 3,4 GHz
Asus M4A78T-E (AMD 790GX) @ 1000 MHz und 2000 MHz HT-Takt
2*2 GiB DDR3-1333 CL9-9-9-27
Palit Sonic GeForce GTX 260-216 @ 16 PCIe-2.0-Lanes
Windows Vista Business x64

http://www.abload.de/thumb/phenom2x3_1000mhzht96ks.png (http://www.abload.de/image.php?img=phenom2x3_1000mhzht96ks.png) http://www.abload.de/thumb/phenom2x3_2000mhzht16ax.png (http://www.abload.de/image.php?img=phenom2x3_2000mhzht16ax.png) http://www.abload.de/thumb/gtx260_pciex160649.png (http://www.abload.de/image.php?img=gtx260_pciex160649.png)

32 Bit, 16 PCIe-2.0-Lanes, 1000 MHz vs. 2000 MHz HT-Takt
Host to device: 2097,2 MB/s vs. 2846,4 MB/s
Device to host: 2239,9 MB/s vs. 2541,0 MB/s
Device to device: 100891,4 MB/s vs. 100942,3 MB/s

http://www.abload.de/thumb/bandwidthtest32_1000mhl6k4.png (http://www.abload.de/image.php?img=bandwidthtest32_1000mhl6k4.png) http://www.abload.de/thumb/bandwidthtest32_2000mhj6rq.png (http://www.abload.de/image.php?img=bandwidthtest32_2000mhj6rq.png)

64 Bit, 16 PCIe-2.0-Lanes, 1000 MHz vs. 2000 MHz HT-Takt
Host to device: 2274,4 MB/s vs. 2725,7 MB/s
Device to host: 2149,1 MB/s vs. 2400,2 MB/s
Device to device: 100973,4 MB/s vs. 101052,5 MB/s

http://www.abload.de/thumb/bandwidthtest64_1000mh96mr.png (http://www.abload.de/image.php?img=bandwidthtest64_1000mh96mr.png) http://www.abload.de/thumb/bandwidthtest64_2000mhm649.png (http://www.abload.de/image.php?img=bandwidthtest64_2000mhm649.png)

Der HeinZ
2009-10-15, 12:19:33
Aha.. Danke dir erstmal... hab ichs mir gedacht, der dritte Wert bestimmt den Speicherdurchsatz der Graka (netto)

Das sieht man erstmal daran, das sich dieser Wert bei Spasstiger nicht ändert wenn er am HT spielt als auch daran das alle Leutz, welche hier eine 260² haben den gleichen wert dort stehen haben.

Um es noch deutlicher zu machen rechnen wir mal schnell das ergebniss von RoNsOn Xs zusammen und übertragen es mal:
46673,0 bei 900 Mhz MEM und einem 256 bit Speicherinterface = 46673/900/256=~0,202
dann A. Wesker:
64587,2 bei 1250 Mhz MEM und einem 256 Bit Speicherinterface = 64587,2/1250/256=~0,202
dann Spasstiger
100719,61 MB/s bei 1100 Mhz Mem und einem 448 Bit Speicherinface:
100719,61/448/1100 = ~0,2043
dimon:
80358,1 bei 1000 Mhz MEM und einem 384 Bit Speicherinterface:
80358,1/1000/384 = ~0,209
und the_invisible
134647,7/1242/512= ~0,211

Das passt also, schätze die ganz leichten Schwankungen kommen von den nicht 100 %ig einstellbaren Taktraten.
Bitte mal SLI oder 295 testen, die Ergebnisse wären sicher ganz interessant.

So die beiden anderen Werte sind abhänig von 1. CPU und 2. HT/FSB ersten Wert denke ich,
Da der Phenom von Spasstiger zwar Bandbreite verliert wenn man von HT 2000 auf HT 1000 umschaltet, aber der Wert sich nicht halbiert.
Daher denke ich, falls das dingen multithreaded agiert sollte ein gleich getakteter Phenom X4 noch ja ca 20 % draufhauen können.
Ansonsten müßten Sie gleich bleiben.
Jetzt würd mich nurmal interessieren was die "Host"-Werte oben exakt beschreiben.
Wie man sehen kann spielt die eingestzte Grafikarte eine untergeordnete Rolle bei diesen Werten.
Hmm mal Nvidia anschreiben!

RoNsOn Xs
2009-10-15, 12:38:11
cool also ist meins doch gar nicht so wenig :D

dildo4u
2009-10-15, 12:43:21
Intel X58 wäre noch interresant.

Der HeinZ
2009-10-15, 12:57:52
Ich glaube in der Tat wird hier wird alles gemessen, nurnicht der PCI-E durchsatz :-)))
weil PCI X16 und PCI 2.0 X16 macht hier kaum/garkeinen Unterschied.
Eine AGP karte der 8800er oder 8600 reihe wäre noch interessant! Gibts aber glaub ich keine :-)

PHuV
2009-10-15, 22:04:22
XFX 790i, E8600, 2 x GTX 280 SLI


64 Bit
Running on......
device 0:GeForce GTX 280

Host to Device 33554432 2396.8
Device to Host 33554432 1803.5
Device to Device 33554432 114611.2

RoNsOn Xs
2009-10-15, 22:54:00
Ich glaube in der Tat wird hier wird alles gemessen, nurnicht der PCI-E durchsatz :-)))
weil PCI X16 und PCI 2.0 X16 macht hier kaum/garkeinen Unterschied.
Eine AGP karte der 8800er oder 8600 reihe wäre noch interessant! Gibts aber glaub ich keine :-)
also auf meiner agp 6800 läuft der test nicht :rolleyes::(

Der HeinZ
2009-10-16, 09:05:30
also auf meiner agp 6800 läuft der test nicht :rolleyes::(

Jepp, daher meinte ich die 8800er reihe. die 7er und 6er reihe unterstützt ja leider kein Cuda... eigentlich schade.

Der HeinZ
2009-10-16, 09:18:48
XFX 790i, E8600, 2 x GTX 280 SLI


64 Bit
Running on......
device 0:GeForce GTX 280

Host to Device 33554432 2396.8
Device to Host 33554432 1803.5
Device to Device 33554432 114611.2


Hmmm.... Sieht aus als würde SLI hier nichts bringen. Oder muss man dafür eventuell ein Profil haben? ;D

Spasstiger
2009-10-16, 12:33:12
Der Test spricht nur eine Grafikkarte an ("device 0:GeForce GTX 280"). Macht ja auch Sinn, denn die Kommunikation mit den GPUs läuft ja durchaus getrennt.

-=Popeye=-
2009-10-16, 13:25:26
Asus P5Q-Pro (P45)
Q6600@3,2GHz (400x8)
2x2GB DDR2 1000@500 CL5-5-5-15
GTX285@702/1512/1296 191.56 Quadro (HQ)
Vista64 SP2

32 bit
http://www.abload.de/thumb/bandwidthtest32bitysa9.jpg (http://www.abload.de/image.php?img=bandwidthtest32bitysa9.jpg)

64 bit
http://www.abload.de/thumb/bandwidthtest64bit1t1t.jpg (http://www.abload.de/image.php?img=bandwidthtest64bit1t1t.jpg)

Der HeinZ
2009-10-16, 14:29:46
Der Test spricht nur eine Grafikkarte an ("device 0:GeForce GTX 280"). Macht ja auch Sinn, denn die Kommunikation mit den GPUs läuft ja durchaus getrennt.

Okay sli haben wir dann schonmal aussen vor!
Wäre es denn nicht sinnvoller zwei identische Devices zu einem zusammen zu fassen? Rechnen ja zusammen beide wie ein Device, da die berechnungen des einen vom anderen beim computing abhänig sind.. oder? ( Ist nicht ganz meine Materie, vielleicht kann mich ja jemand aufklären)

Was würde denn dann bei einer 295er passieren, sind ja praktisch auch 2 Dies, allerdings haben sie glaub ich nur eine device ID?


Hmmm... inwiefern mögen diese Werte wohl in die Praxis übertragbar sein? Hat nun eine Cpu, welche über einen schnellen Link wie QPI oder HT verfügt einen gewissen vorteil gegenüber einem FSB, weil er die Grafikarte schneller mit daten versorgen kann?
Fragen über Fragen...

Saugbär
2009-10-22, 11:36:54
32Bit Winxp SP3
MSI P6N SLI Platinum

North Bridge NVIDIA nForce 650i SLI SPP Revision A2
South Bridge NVIDIA nForce 650i SLI MCP Revision A2

CPU Intel(R) Core(TM)2 Quad CPU Q6700 @ 3.2GHz

Running on......
device 0:GeForce GTX 260
Quick Mode
Host to Device Bandwidth for Pageable memory
.
Transfer Size (Bytes) Bandwidth(MB/s)
33554432 1602.2

Quick Mode
Device to Host Bandwidth for Pageable memory
.
Transfer Size (Bytes) Bandwidth(MB/s)
33554432 1627.9

Quick Mode
Device to Device Bandwidth
.
Transfer Size (Bytes) Bandwidth(MB/s)
33554432 111978.3

&&&& Test PASSED

Press ENTER to exit...

Der HeinZ
2010-03-03, 09:28:52
Möchte mal jemand seinen FSB rauf und runtertakten? zum vergleich für die 2 oberen Werte und den HT vergleich von Spasstiger?
Grüße Matthias

Schrotti
2010-03-03, 11:37:26
Intel Core i3 540@4,7GHz (geile kleine CPU :))
Asus P7P55D Deluxe

64bit Windows 7 / GTX 280@700/1500/1200 / Forceware 196.75


64 Bit
Running on......
device 0:GeForce GTX 280

Host to Device 33554432 3216.1
Device to Host 33554432 3688.8
Device to Device 33554432 125050.0



http://www.abload.de/img/bandwidthtest_64bitcvat.png (http://www.abload.de/image.php?img=bandwidthtest_64bitcvat.png)

Raff
2011-10-24, 19:41:03
32 Bit:
http://666kb.com/i/by2pe37zk988psmog.png

64 Bit:
http://666kb.com/i/by2pemfbeus7qqjf4.png

Phenom II X6 (Thuban) @ 255x11 = 2.805 MHz, GeForce GTX 580/1,5G @ 900/1.800/2.400 MHz, AMD 790FX, NB @ 2.805 MHz, 2x 4.096 MiB DDR3 @ 850 MHz bei 9-9-9-24-1T, 123 MHz PCIe-Takt (x16 2.0), GeForce 285.38, W7ndows x64 SP1

Eines ist klar: Nicht nur der PCIe hat hier Einfluss, auch der GPU-Takt ... und mit Gewissheit auch der Prozessor und Chipsatz. Also alles. ;D

MfG,
Raff

Spasstiger
2011-10-24, 20:08:21
Dein ganzes Tweaking ist hier fürn Po, weil die AMD-Plattformen einfach Krücken bei PCIe sind. Mit einer Sandy-Bitch könntest du wahrscheinlich doppelt so hohe Transferraten erreichen.

Raff
2011-10-24, 20:40:42
;(

Nun, ohne die Tweaks wäre es noch schlimmer. :biggrin: Im Vergleich zu den alten Vergleichswerten sieht's, abgesehen von den Lynnfields, ja gar nicht so übel aus. Bitchige Ergebnisse wären in der Tat superinteressant.

MfG,
Raff

Scorpius
2011-10-24, 21:19:43
Running on......
device 0:GeForce GTX 460
Quick Mode
Host to Device Bandwidth for Pageable memory
.
Transfer Size (Bytes) Bandwidth(MB/s)
33554432 4481.1

Quick Mode
Device to Host Bandwidth for Pageable memory
.
Transfer Size (Bytes) Bandwidth(MB/s)
33554432 4416.2

Quick Mode
Device to Device Bandwidth
.
Transfer Size (Bytes) Bandwidth(MB/s)
33554432 92169.3


i7-2600k @ 4400 MHz
P8P67 Pro
GTX460 781/1804 MHz

Cubitus
2011-10-24, 21:19:50
Intel W3520@4Ghz, X58, 16xPCIE

http://www.bilderdepot.eu/images/1319245728.jpg (http://www.bilderdepot.eu/)

Man From Atlantis
2011-10-25, 00:25:11
266.58
http://h2.abload.de/img/desktop_2011_03_15_16_7y4e.jpg
285.62
http://www.abload.de/img/desktop_2011_10_25_01_yk9k.jpg

http://www.abload.de/img/untitled9q4f.jpg

Nighthawk13
2011-12-02, 14:40:31
http://www.abload.de/img/untitled9q4f.jpg
Erstaunlich das die Device->Device Kopiergeschwindigkeit (etwas) steigt, wenn man nur den Chip übertaktet, und den Ramtakt gleich lässt.

Sollte doch eigentlich komplett memory-bound sein?

Schrotti
2011-12-02, 15:18:30
i7 2600k @4,2
Asus P8Z68V-Pro
GTX 480@800/1600/1848

Hübie
2012-08-25, 19:34:40
Bitchige Ergebnisse wären in der Tat superinteressant.

MfG,
Raff

Bitte sehr:

Bandwidthtest.exe 32 bit

Host to Device: 4394.4 MB/s
Device to Host: 4366.2 MB/s
Device to Device: 173028.3 MB/s

http://www.abload.de/img/pcie_bandbreite_cuda_zqqmc.png (http://www.abload.de/image.php?img=pcie_bandbreite_cuda_zqqmc.png)

Bandwidthtest.exe 64 bit

Host to Device: 4250.4 MB/s
Device to Host: 4427.0 MB/s
Device to Device: 173070.3 MB/s

http://www.abload.de/img/pcie_bandbreite_cuda_o2rdi.png (http://www.abload.de/image.php?img=pcie_bandbreite_cuda_o2rdi.png)

SandyBridge @4.3GHz, DDR3-1600, GTX 580 @774MHz

@Nighthawk13: Wieso ist das so erstaunlich :confused: Die GPU kommuniziert ja mit dem Bus. Wie wir alle wissen ist es heutzutage fast wurscht wie schnell dein DRAM ist. SB, IB, SB-E und konsorten machens ja nun mittlerweile deutlich besser als C2D und die 1st Gen i5.

LG Hübie

Edit: Keiner mit IB&PCIE-Gen3 Graka??