Die AMD-Story: Rohleistung ohne Ende... aber nie richtig auf die Straße gebracht. [Archiv]

PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Die AMD-Story: Rohleistung ohne Ende... aber nie richtig auf die Straße gebracht.

Cpl. Dwayne Hicks

2012-01-14, 10:35:03

Moin allerseits

(Das soll jetzt kein Flamethread werden!)

So ist nun vor Kurzem die Southern Islands generatiion auf den Markt gekommen.

AMD GPUs hatten ja bis jetzt immer abartige ALU Leistung, und seit der HD5xxx auch sehr viel Textur-power.
Aber irgendwie hinkten die GPU immer um die 20% hinterher, oder sind wie im Fall HD7970 grade mal 20-30% voraus, obwohl die ALU/TMU Leistung teilweise mehr als doppelt so hoch ist als beim GF110. Ich weiss dass ALU und TMU nicht Alles ist... aber trotzdem stimmt da doch etwas nicht.... :confused:

Bis zur HD6xx haette man das ja noch so erklaeren koennen dass wegen der VLIW Architektur so Einiges and Rohleistung verloren geht. Aber diese "Ausrede" greift ja nun beim GCN nicht mehr.

Anyway... mich interessiert einfach mal was ihr meint woran das liegen koennte.

Cubitus

2012-01-14, 10:58:57

An den Treibern.

An der fehlenden Unterstützung seitens der Devs.
Im Schnitt sind mehr Spiele auf Nvidia Karten optimiert.

Knuddelbearli

2012-01-14, 11:16:54

und sie schaffen das mehr an Rohleistung bei teils deutlich kleineren chips da muss dann halt wo anders gespart werden.

Ailuros

2012-01-16, 01:09:25

Moin allerseits

(Das soll jetzt kein Flamethread werden!)

Ist aber auch nicht unbedingt dem Technologie-Forum wuerdig als Thema. Ich ueberlass es den Mod-Kollegen ob jemand den Thread woanders verschieben will.

So ist nun vor Kurzem die Southern Islands generatiion auf den Markt gekommen.

AMD GPUs hatten ja bis jetzt immer abartige ALU Leistung, und seit der HD5xxx auch sehr viel Textur-power.
Aber irgendwie hinkten die GPU immer um die 20% hinterher, oder sind wie im Fall HD7970 grade mal 20-30% voraus, obwohl die ALU/TMU Leistung teilweise mehr als doppelt so hoch ist als beim GF110. Ich weiss dass ALU und TMU nicht Alles ist... aber trotzdem stimmt da doch etwas nicht.... :confused:

Southern Islands wird mir Kepler direkt in absehbarer Zeit konkurrieren. Was passiert jetzt wenn Kepler einen kleineren GFLOP Unterschied zu Southern island GPUs haben sollte ueberhaupt im Vergleich zu Fermi vs. Cayman als Beispiel.

Bis zur HD6xx haette man das ja noch so erklaeren koennen dass wegen der VLIW Architektur so Einiges and Rohleistung verloren geht. Aber diese "Ausrede" greift ja nun beim GCN nicht mehr.

Was passiert wenn NV bei Kepler die hotclocks losgeworden ist?

Anyway... mich interessiert einfach mal was ihr meint woran das liegen koennte.

Vielleicht hilft es zu bedenken dass die Anzahl der Einheiten oder sterile Papierfranzen tatsaechlich nichts ueber die eigentliche Effizienz einer jeglichen Architektur aussagen koennen? Uebrigens ist der Tahiti chip glaub ich irgendwie um die 370mm2 gross. Nimm einen Fermi und steck ihm N% mehr Einheiten dazu mit gering hoeherer Frequenz unter 28nm und ich bezweifle dass das Resultat irgendwo besser anliegen wuerde als eine 7970. Genau deshalb fehlt auch jeglicher Kepler Vergleich der wohl am wahrscheinlichsten auch eine ziemliche "Falle" fuer eine solche Thematik sein wird; und schon drehen wir uns im Kreis ;)

airbag

2012-01-16, 01:44:52

Im Schnitt sind mehr Spiele auf Nvidia Karten optimiert.

Naja eventuell beruht diese "AMD Story" ja auch auf diesem Gerücht. Man sollte sagen, dass stärkere Paralellisierung, vermute ich mal, den AMD Karten zu gute kommen würde. Gleichzeitig bedeutet es aber für den Entwickler selbst auch einen deutlich höheren Aufwand.

Aquaschaf

2012-01-16, 08:44:32

AMD GPUs hatten ja bis jetzt immer abartige ALU Leistung, und seit der HD5xxx auch sehr viel Textur-power.

Peak-FLOPS ist ein ungeeignetes Maß. Um die Effizienz einer GPU zu bewerten sind Performance/DIE-Fläche und Performance/Watt interessant.

Skysnake

2012-01-16, 08:51:16

Naja eventuell beruht diese "AMD Story" ja auch auf diesem Gerücht. Man sollte sagen, dass stärkere Paralellisierung, vermute ich mal, den AMD Karten zu gute kommen würde. Gleichzeitig bedeutet es aber für den Entwickler selbst auch einen deutlich höheren Aufwand.
Ob die Story wahr ist oder nicht spielt gar keine Rolle.

Es sind einfach zwei unterschiedliche Konzepte, die am Ende in vielen Bereichen zu den gleichen Ergebnissen führen, sich in anderen Bereichen aber fundamental unterscheiden.

Bei Bitcoin etc. kann die VLIW Architektur VOLL ihre Vorteile ausspielen, bei Anwendungen mit mehr Kommunikation bricht Sie dafür ein und nVidias Architektur kann ihre Vorteile ausspielen.

Stells dir einfach so vor. Das eine ist der Kleintransporter und das andere die Mittelklasse Limusine. Beide sind zum Brötchen holen etwa gleich gut geeignet.

Wenns drum geht von Hamburg nach München zu düsen ist die Mittelklasse Limusine besser und wenn du von Hamburg nach München 100 Kästen Bier bringen musst, ist der Kleintransporter besser.

Es gibt nicht DAS perfekte Auto, und so gibt es auch nicht DIE perfekte Architektur. Alles hat immer Vor- und Nachteile, und damit muss man einfach leben.

Gipsel

2012-01-16, 10:04:23

Es gibt nicht DAS perfekte Auto, und so gibt es auch nicht DIE perfekte Architektur. Alles hat immer Vor- und Nachteile, und damit muss man einfach leben.
Eigentlich eine perfekte Zusammenfassung.

Skysnake

2012-01-16, 11:22:13

Danke für die Blumen :biggrin:

seaFs

2012-01-16, 12:39:39

Aber es ging jetzt doch darum, wodurch dieser Abstand kommt?
Die Caymans sprachen ja eher wenig auf Speicherbandbreitenerhöhung an, und wenn ich mich recht erinnere, war die Skalierung mit dem Kerntakt auch eher mäßig. (Kann jetzt keine Quelle nennen, meine aber, es hier im Forum gelesen zu haben)

Wo hängt es denn also? Einfach nur daran, dass nV big fat dies baut? Und woher kommt dann meistens der Vorsprung die Annäherung der Caymans in abartigen, praxisfernen Auflösungen gegenüber an Fermi?

Gipsel

2012-01-16, 13:44:30

Aber es ging jetzt doch darum, wodurch dieser Abstand kommt?
Steht doch im Prinzip schon hier im Thread und wurde auch immer mal wieder bei den Architektur-Diskussionen erwähnt. AMDs Konzept setzt auf einen recht ausgeklügelten (im Sinne von aufeinander abgestimmt, verschiedene Sachen greifen da synchronisiert ineinander) Aufbau bzw. Funktionsweise der SIMD-Engines/CUs, wodurch sie bestimmte Probleme beim Scheduling umgehen. Weiterhin haben sie noch Teile des Schedulings in Software/den Compiler verlagert. Darüber hinaus ist die "work distribution" (also im Prinzip die Verteilung der Arbeit auf die einzelnen SIMD-Engines) sowie die Kommunikation und deren Latenz wohl etwas optimistisch ausgelegt, sprich oft nicht optimal (wie die Work-Distribution genau funktioniert, sagt AMD nicht; die benutzten Heuristiken liefern aber wohl längst nicht immer gute Ergebnisse; ein bedeutender Anteil der Optimierung auf neue Spiele feilt hier dran, nicht an den Shadern oder dem Compiler dafür) und wohl auch etwas langsam.
Insgesamt führt dies zu einer an Verwaltungsoverhead sehr schlanken GPU, die dafür im Vergleich mit sehr viel mehr Flops daherkommt. NVidia macht es eben ein wenig anders. Recht aufwendiges Scheduling und Work-Distribution, die dann eben weniger Platz für Funktionseinheiten lassen. Je nach genauer Aufgabe und benutzter Metrik ist mal das eine, mal das andere besser.

Im Übrigen ist es auch einfacher, Arbeit auf weniger Einheiten zu verteilen. Ein Steigerung der Einheitenzahl führt allgemein zu einer Verschlechterung der Verteilung oder zu einem überproportionalem Anstieg des Verwaltungsoverheads. Hier wird es interessant zu sehen, was passiert, wenn nVidia die Hotclocks wirklich aufgeben sollte.
Die Caymans sprachen ja eher wenig auf Speicherbandbreitenerhöhung an, und wenn ich mich recht erinnere, war die Skalierung mit dem Kerntakt auch eher mäßig. (Kann jetzt keine Quelle nennen, meine aber, es hier im Forum gelesen zu haben)
Beides zusammen ist schlicht unmöglich. Cayman skalierte oft nicht besonders gut mit der Einheitenzahl, sprich eine 6950 mit 22 SIMDs auf HD6970-Takt war häufig fast genau so schnell wie eine 6970 mit 24 SIMDs. Dies zeigt also genau die Probleme mit der dann doch ineffizient werden Arbeitsverteilung auf die recht vielen SIMDs auf. Ein ähnlicher Grund spielte auch bei Barts vs. Cypress mit rein. Trotz nur 14 vs 20 SIMDs hat der etwas höhere Takt den eigentlich beträchtlichen Rohleistungsunterschied (2,02 vs. 2,72 TFlop/s) fast wieder ausgeglichen. AMD GPUs haben sehr selten wirklich an der Shaderleistung gehangen, davon hatten die eigentlich immer genug. Deren Leistung wurde durch die anderen erwähnten Faktoren bestimmt (und die skalieren linear mit dem Takt oft unabhängig von der Einheitenzahl).
Wo hängt es denn also? Einfach nur daran, dass nV big fat dies baut? Und woher kommt dann meistens der Vorsprung die Annäherung der Caymans in abartigen, praxisfernen Auflösungen gegenüber an Fermi?
Bei hohen Auflösungen steigt die Größe der auf die SIMDs zu verteilenden "Aufgaben-Packages". Das ist einfacher, da kann Fermi also weniger Vorteil aus der besseren Verwaltung dort ziehen. Weiterhin gibt es üblicherweise mehr Pixel pro Dreieck. Auch das kommt AMDs VLIW-Architektur zugute (zwei Rasterizer mit je maximal 16 Pixel/Takt von einem Dreieck vs. vier Rasterizer mit je maximal 8 Pixel/Takt von einem Dreieck, kleine Dreiecke rastert Fermi also schneller/effizienter [die kleinere Vektorgröße spielt hier auch noch etwas mit rein], bei größeren ist es Gleichstand mit maximal 32 Pixel/Takt).

seaFs

2012-01-16, 14:32:04

Man dankt für die Erklärung.

Lawmachine79

2012-01-21, 23:22:32

Ich beschäftige mich ja schon lange nicht mehr damit - aber wenn ich zwei Grafikkarten/Architekturen miteinander vergleiche bestimmen die Schwächen und nicht die Stärken, wer den Vergleich für sich entscheidet. Es gewinnt der, dessen Bottlenecks weniger bremsen. Und wenn ich mich recht erinnere waren AMD-Grafikkarten nicht GERADE in der Rechenleistung besonders stark sondern NUR in der Rechenleistung. Soweit ich mich erinnern kann, hatten in den anderen leistungsbestimmenden Parametern die NV-Karten i.d.R. die Nase vorn, während sie bei der Rechenleistung (das ist das was der TS offenbar mit "Rohleistung" meint) stärker waren. Die Rechenleistung der NV-Karten war aber nicht schwach genug, um die Leistung der Karten soweit zu drücken, wie die Texturleistung/Bandbreite/Rop-Leistung die ATI-Karten drücken konnte.

Skysnake

2012-01-22, 09:33:51

Wat ein Nonsens....

Was du sagst ist nur: Ich entscheide wer besser ist, und sonst niemand :ugly:

AMD ist in der Regel mit nVidia auch in allen Bereichen mehr oder weniger auf Augenhöhe. Bei einigen weniger, bei anderen dafür mehr (über nVidia).

Der Einzige Punkt, der sich bei AMD/nVidia (bis jetzt mit GCN) unterschieden hat, ist die durchschnittlich erreichte Rechenleistung (FLop/s) relativ zur theoretischen Rechenleistung. Da hat nVidia immer SEHR viel besser abgeschnitten, das liegt aber rien daran, wie schon mehrfach jetzt hier gesagt, dass das eine halt VLIW und das andere halt SIMD ist.....

Ist das Gleiche, als wenn man ARM mit x86 vergleichen will. Der Vergleich ist in manchen Punkten einfach fürn Arsch, weil man es nicht direkt vergleichen kann...

Cpl. Dwayne Hicks

2012-01-27, 10:09:16

Yupp seit der HD5800 serie meistens gleichauf oder ueberlegen in TMU und ALU Leistung.

Und die VLIW Ausrede greift ja bei GCN auch nicht mehr

Wenn nVidia jetzt eine GPU mit 2048 1D ALU und 128 TMUs bauen wuerde und alle anderen specs auch ca. gleichauf mit der HD7970... waere die dann auch nur ca. 30% schneller als eine GTX580?

Coda

2012-01-27, 10:12:16

Der vergleich hinkt, weil AMD keine Hotclock hat.

Dural

2012-01-27, 10:51:13

verstehe die Frage nicht so ganz, NV kann ihre (geringere) Rohleistung einfach deutlich besser Ausnützen als es AMD mit ihrer Rohleistung tut.

Die sehr gute Effizient holt NV halt auch mit einer grösseren Die Fläche heraus. Und am meisten dafür verantwortlich dürften die Hot Clocks und der Uncore Bereich sein.
Und gerade die Hot Clocks sind sicher massgeblich daran beteiligt das die Fermi Architektur so gut mit ihrer Rohleistung umgehen kann, ohne Hot Clocks müsse man doppelt so viele Einheiten Verbauen um auf dieselbe "Rohleistung" zu kommen, wir wissen aber genau das mehr Einheiten aber meistens auch ganz klar weniger Effizients bedeuten (umso mehr Einheiten umso schwieriger ist es alle davon gut auszulasten und zu versorgen, eigentlich auch logisch) Das sieht man bei AMD immer wider deutlich, die hauen doppelt so viele Einheiten in den Chip bringen am ende aber nur 50% mehr Leistung auf die Strasse, wenn NV ihre Architektur verdoppelt hatten sie bis jetzt immer um die 80% mehr Leistung auf der Strasse!

Ich finde es umso erstaunlicher das zwei völlig verschiedene Architekturen mit unterschiedlichen Aspekten am Ende was Leistung / Verbrauch betrifft quasi gleich auf sind (+/- 20%)

Cpl. Dwayne Hicks

2012-01-27, 10:53:57

Der vergleich hinkt, weil AMD keine Hotclock hat.

lol hate ich total vergessen...

aber trotzdem verstehe ich es nicht ganz, die zahlen hauen einfach nicht hin.

Spasstiger

2012-01-27, 11:49:01

Ich finde es umso erstaunlicher das zwei völlig verschiedene Architekturen mit unterschiedlichen Aspekten am Ende was Leistung / Verbrauch betrifft quasi gleich auf sind (+/- 20%)
Naja, die Spezifikationen werden der Konkurrenz angepasst. Aber es kommt doch immer wieder vor, dass der eine oder andere IVH mal viele Monate hinweg der Konkurrenz deutlich voraus ist (NV mit dem G80, AMD mit dem Cypress, ATI mit dem R300).

Am Ende würde ich weder den NV-Ansatz noch den AMD-Ansatz als den besseren darstellen. AMD scheint aber schneller auf neue Prozesse adaptieren zu können.