Diskussion zu: News des 18. November 2009 [Archiv]

Archiv verlassen und diese Seite im Standarddesign anzeigen : Diskussion zu: News des 18. November 2009

Leonidas

2009-11-19, 10:05:44

Link zur News:
http://www.3dcenter.org/news/2009-11-18

S940

2009-11-19, 10:48:06

Auf B3D gibts nen Thread mit einem neuen Berechnungs-Algo, der ~900 GFLOPs SGEMM auf einer 4870 schafft:
http://forum.beyond3d.com/showthread.php?t=54842

Mit den aktuellen Zypressen hält der Programmierer 2 TFLOPs für erreichbar ...

Gipsel

2009-11-19, 10:59:43

Auf B3D gibts nen Thread mit einem neuen Berechnungs-Algo, der ~900 GFLOPs SGEMM auf einer 4870 schafft:
http://forum.beyond3d.com/showthread.php?t=54842
Gleich im Eingangspost steht nicht nur, was eine GTX280 (bis auf schnelleren Speicher identisch zur Tesla C1060) erreicht (375 GFlop/s). Sondern auch, was man mit AMDs ACML-Bibliothek auf einer HD4870 (zumindest damals) geschafft hat (540GFlop/s). Das ist beides schon weit über 25% Effizienz.

Die schnellste Version (http://forum.beyond3d.com/showthread.php?p=1325769#post1325769) erreicht übrigens 980 GFlop/s auf einer HD4870@stock, ab 770MHz werden die 1TFlop/s für Matrizen der Größe 4096x4096 geknackt. Sprich, es ist sehr effizient (~82%). Mit den GT200-GPUs hat es übrigens bisher noch keiner geschafft, bei Matrix-Multiplikationen so nah an die theoretische Peakleistung zu kommen.

Soviel Spekulation wäre bei dieser News gar nicht nötig gewesen ;)

Leonidas

2009-11-19, 14:53:23

Haha, danke für die Info, kann ich gleich ausschlachten.

Gipsel

2009-11-19, 15:40:17

Haha, danke für die Info, kann ich gleich ausschlachten.
Bei der Gelegenheit kannst Du ja auch mal mit dem Durcheinander mit den MADDs und FMAs aufräumen. Dazu hatte ich ja schon letztens kurz was angemerkt (http://www.forum-3dcenter.org/vbulletin/showthread.php?p=7665531#post7665531).

Fermi hat 16 SMs mit je 32 Einheiten, die alle genau 1 FMA können, also pro Einheit genau 1 FMA in single precision (nicht 2). Das macht dann 512 FMAs pro Takt = 1024 Flops pro Takt für Fermi in single precision.

Cypress kann auf jeden Fall auch FMAs und nicht mehr nur MADDs (wie frühere GPUs). Allerdings können das nur 4 der ALUs in jeder VLIW-Einheit, die fünfte ALU (für die special functions) kann nur MADD. Ein Cypress kann also 20 * 16 * (4 FMA + 1 MADD) = 1280 FMA + 320 MADD pro Takt.

Wenn also Fermi 512 Einheiten mit der Fähigkeit eines FMAs besitzt, hat Cypress 320 Einheiten mit der Fähigkeit von 4 FMAs + 1 MADD.

Für Fermi würde ich übrigens eine recht hohe SGEMM Effizienz erwarten, da GT200 da durch das Cachesystem und den unflexiblen Speichercontroller im Vergleich zu den ATIs etwas ausgebremst wurde. Außerdem kamen da nicht die extra "missing" MULs zum Tragen und die MADD-Leistung einer GTX280 (oder Tesla C1060) beträgt ja nur 622 GFlop/s. Davon hat eine GTX280 (mit schnellerem Speicher im Vergleich zur Tesla) ja auch schon 375GFlop/s geschafft (60%). Das sollte bei Fermi (relativ gesehen) schon noch besser werden, ich würde auf jeden Fall 70%+ erwarten.