Fermi, Speichercontroller und co. [Archiv]

Archiv verlassen und diese Seite im Standarddesign anzeigen : Fermi, Speichercontroller und co.

Dawn on Titan

2014-07-24, 11:37:57

Das ist halt die Frage, war der MC auf GF10X kaputt oder hat man eine zu niedrige Frequenz angepeilt.

Ailuros

2014-07-24, 11:43:54

Das ist halt die Frage, war der MC auf GF10X kaputt oder hat man eine zu niedrige Frequenz angepeilt.

Ich poste es schon zum zweiten Mal hier:

http://forum.beyond3d.com/showthread.php?p=1629336#post1629336

It's not going to change the opinion of the gullible, but 3 years after the fact, it's probably time to settle this once and for all: the issue in GF100-A01 was in a back-end bus that fed the memory controllers. It was not even in the general xbar that interconnects the usual agents. There was a custom designed cell that with a timing violation that was not picked up during characterization.

The net result was a broken MC system (no transactions to external memory at all), but not a bricked chip: major parts could be verified by rendering to PC memory over PCIe. A02 fixed all known bugs, but not those that were hiding behind MC specific paths, so A03 was needed.

GF100-A01 had no issues at all with distributing geometry across GPCs. Distributed geometry never comes up in discussions about power. I don't think it should surprise anyone with a bit of a brain that SMs+TEX are where the power is.

Also: don't fret so much about crossbars in general. It's under control.

(Crawling back into my bear cave...)

Du kannst Gift drauf nehmen da der Herr in der engineering Abteilung arbeitet.

Nakai

2014-07-24, 11:50:23

Das ist halt die Frage, war der MC auf GF10X kaputt oder hat man eine zu niedrige Frequenz angepeilt.

Also AMD war zuerst mit GDDR5 da und hat damals auch kaum höhere Taktraten erreicht als NV mit ihrer Geforce 400-Serie. Der Sprung von Geforce 400 auf Geforce 500-Serie reinher vom Speichetakt ist schon interessant, wobei es sich praktisch um die gleichen Chips gehandelt hat. Es sieht sehr stark nach "kaputt" aus, kann aber auch daran liegen, dass die Hersteller erst "Erfahrung" mit GDDR5 sammeln wollten. Vorallem NV ist lange noch bei GDDR3 geblieben, womöglich aus fundierten Gründen.;)

Dawn on Titan

2014-07-24, 11:59:45

Gut, das kann man als defekt betrachten.

Dural

2014-07-24, 12:16:30

Defekt war wohl GF100, aber beim GF110 kann man wohl kaum von Defekt sprechen.

Der SI war offensichtlich einfach nicht für hohe Takte gemacht, Punkt. Man hatte ja auch einen Vorteil von 384Bit zu 256Bit bei AMD.

Sonst müsste man jetzt ja auch sagen das der Hawaii kaputt ist :rolleyes: und das ist er sicher nicht!

Nakai

2014-07-24, 12:40:54

Ich glaube kaum, dass ein Refresh so auf die schnelle alles "richten" kann.
AMD hatte deutlich höhere Taktraten bei ihrem SI, sogar schon über einem Jahr davor.

Dural

2014-07-24, 16:45:38

Was ist das für eine Begründung?

Noch mal, wenn es so sein soll, dann muss Hawaii auch Defekt sein. Den zuvor hatte man bei AMD Karten mehr Takt auf dem SI (und es war mit OC auch mehr möglich)

Man stellt sich immer eine Zielvorgabe die man erreichen will, und ich denke nicht das NV beim GF100/110 deutlich mehr Takt als die 1GHz zum Ziel hatte, man hatte ja immerhin 384Bit + GDDR5, geschweige den AMD mit Hawaii und seinen 512Bit.

Und wie so ihr immer von einen Defekt redet ist mir so wie so schleierhaft, man könnte höchstens von zu wenig Takt sprechen, sprich das Designe zu wenig her gab oder für zu wenig ausgelegt war. Wie so und warum kann hier keiner beurteilen.

Und übrigens, für alle die behaupten es wäre das erste GDDR5 SI beim GF100 für NV gewesen, haben wohl einen Chip vergessen! und wenn ich mich noch richtig daran erinnern kann liefen die Karten mit OC auf 1GHz.

Thunder99

2014-07-24, 18:06:21

GT240 in der GDDR5 Edition :D

Beim GF war der MC defekt was sich aber nicht so extrem ausgewirkt hat auf die Performance. Daher ist es eine Design Entscheidung ob dickes SI und langsamen Takt oder umgekehrt oder beides Fett. Es baut doch niemand Serienmäßig ein Ferrari Motor in einen Kleinwagen ein

Ailuros

2014-07-25, 09:22:42

Was ist das für eine Begründung?

Noch mal, wenn es so sein soll, dann muss Hawaii auch Defekt sein. Den zuvor hatte man bei AMD Karten mehr Takt auf dem SI (und es war mit OC auch mehr möglich)

Spart Euch den idiotischen Vergleich mit Hawaii. Das eine hat nichts mit dem anderen zu tun denn zum allerletzten Mal AMD hat ein existierendes SI (+womoeglich back end?) effektiv verdoppelt und kam so zum 512bit SI.

Es gab einen hw bug auf GF100 zumindest mit absoluter Sicherheit und dafuer gibt es keine aber. Punkt.

Man stellt sich immer eine Zielvorgabe die man erreichen will, und ich denke nicht das NV beim GF100/110 deutlich mehr Takt als die 1GHz zum Ziel hatte, man hatte ja immerhin 384Bit + GDDR5, geschweige den AMD mit Hawaii und seinen 512Bit.

Siehe oben. Wenn ein NV hw engineer es auch in aller Oeffentlichkeit zugesteht dann gibt es keine Zweifel und ja ich weiss wer er ist.

Und wie so ihr immer von einen Defekt redet ist mir so wie so schleierhaft, man könnte höchstens von zu wenig Takt sprechen, sprich das Designe zu wenig her gab oder für zu wenig ausgelegt war. Wie so und warum kann hier keiner beurteilen.

Und übrigens, für alle die behaupten es wäre das erste GDDR5 SI beim GF100 für NV gewesen, haben wohl einen Chip vergessen! und wenn ich mich noch richtig daran erinnern kann liefen die Karten mit OC auf 1GHz.

Bitte Du wuerdest den gleichen Mist zusammenreimen selbst wenn Dir in Echtzeit ein NV engineer Dir es bestaetigen wuerde. Manchmal koenntest Du Dir wirklich sparen Dich staendig so zu blamieren. Es werden die Dinger kaum noch verkauft wobei die Frage ist wieso man den Mist noch verteidigen muss. Es kommt vor bei allen IHVs und es kann muss aber nicht sein dass GF1x0 auch noch etwas betroffen wahr, interessiert aber auch wirklich kein Schwein mehr nach 3 Jahren.

Tatsache ist dass seit Kepler extravagante Speicherfrequenzen nicht mehr taboo sind ohne dass dadurch der Stromverbrauch durch die Decke haut.

GT240 in der GDDR5 Edition :D

Beim GF war der MC defekt was sich aber nicht so extrem ausgewirkt hat auf die Performance. Daher ist es eine Design Entscheidung ob dickes SI und langsamen Takt oder umgekehrt oder beides Fett. Es baut doch niemand Serienmäßig ein Ferrari Motor in einen Kleinwagen ein

Das Problem mit GF100 war nur der Stromverbrauch; wenn man vorsichtig durchliesst wo das Problem genau lag (B3D post quote oben) macht es auch Sinn.

robbitop

2014-07-25, 09:56:44

Ailuros

2014-07-25, 10:04:36

Mir ist der Vergleich zu Hawaii auch unklar. Es stand doch damals IIRC in den Reviews, dass AMD 512 bit wählte, um Energieeffizienz aus dem Ding zu pressen und man den MC entsprechend für niedrige Taktraten ausgelegt hat. Das sparte Kernfläche und Energie. War also by design. Das kann man also schlecht mit GF100 vergleichen.

http://www.forum-3dcenter.org/vbulletin/showpost.php?p=10291312&postcount=3624

Jensen sagte nach dem GF110 launch irgendwann in einem interview dass es angeblich ein Problem mit dem interconnect war welches wir auch damals natuerlich glaubten. Das wahre Problem lag aber wohl doch woanders wie man deutlich vom obrigen sehen kann.

Wenn NV's CEO in aller Oeffentlichkeit einen hw bug eingestanden hat, dann gab es erstmal einen hw bug im GF100. Dass an etwas anderem lag als Jensen selber behauptete beindruckt mich wenig; die Gewohnheit einen Haufen Mist zusammenzureimen wenn der Tag lang ist ist bei Jensen wirklich nichts Neues.

Dawn on Titan

2014-07-25, 10:15:14

Es ging ja auch nur darum, das niedriger Takt alleine kein Beweis für einen defekten MC sein darf. So gesehen ist imho GF11X halt immer noch fraglich, ob der Fehler noch griff oder ob der MC einfach für höhere Taktraten nicht ausgelegt war, was imho durch das gewählte breitere SI durchaus Sinn macht. Und wenn man ehrlich ist profitierte ein GF110 @ Stock kaum von Mem-OC.

Hübie

2014-07-25, 10:31:08

Vielleicht war auch einfach der DRAM nicht in der Lage? :rolleyes:

Dawn on Titan

2014-07-25, 10:51:14

Eigentlich ist es auch egal. Das berührt Maxwell so gar nicht.

Hübie

2014-07-25, 11:16:49

Es fällt mir schwer zu glauben dass wir bei GM204 mehr als 256 Bit Datenbusbreite sehen werden. Bin sogar erstaunt wieviel man mit "so wenig" noch erreichen kann.
Dennoch merkt man hier und da dass es Zeit wird GDDR5 in Rente zu schicken.

Raff

2014-07-25, 12:33:34

Und wenn man ehrlich ist profitierte ein GF110 @ Stock kaum von Mem-OC.

Stimmt, sofern man die GPU mit Standardfrequenzen betreibt. Starkes Overclocking, d.h. 900 MHz und mehr, führt aber zu einem leichten Bottleneck Richtung Speicher. Ähnlich ist's bei GK110-Karten: Die sind mit ihren 3.004 MHz eigentlich bestens versorgt, skalieren um 1.200 MHz Kerntakt dann aber doch ordentlich mit höherer Speichertransferrate. Innerhalb einer Grafikeinheit muss stets das Gefüge stimmen, sonst wird's unausgeglichen (wie überraschend). Wobei man hier mit dem passenden Workload gegensteuern kann – mit dickem Supersampling oder weiterem Shader-Gedöns anstelle von MSAA kommt kaum eine GPU auf die Idee, nach mehr Bandbreite zu gieren. ;)

Vielleicht war auch einfach der DRAM nicht in der Lage? :rolleyes:

Das ist nicht so einfach zu klären. Fermi-Karten tragen idR 5-Gbps-GDDR5, beispielsweise ist Samsungs HC04 (0,4 ns Zugriffszeit) sehr oft anzutreffen, aber auch Hynix-RAM mit gleicher Spezifikation. Der Speicher läuft ab Werk nur mit 2.004 MHz, bei ein paar OC-Versionen mit 2.050 bis 2.100 MHz, obwohl er theoretisch 2.500 MHz könnte. Wie gesagt, die besten mir bekannten (GF110-)Karten schaffen ~2.400 MHz rockstable und etwas mehr mit Grafikfehlern.

Es gibt mehrere denkbare Ursachen: Der Speicher wird, ebenso wie der GPU-interne Speichercontroller, unterversorgt (Spannung), um die Leistungsaufnahme zu drücken. Oder weil er der IMC "noisy" bzw. kaputt ist. Oder der Speicher wird mit schärferen Timings betrieben als bei 2.500 MHz vorgesehen.

Bei den Hawaii-Karten ist's gerade ähnlich: Dort sitzt 6-Gbps-GDDR5, gerüstet für 3.000 MHz, läuft aber nur mit 2.500 MHz (einige OC-Versionen laufen aber schon mit 2.750 bis 2.820 MHz!). Die bekannte Ursache dafür ist, dass AMD taktlahme Speichercontroller einsetzt, um eine dicke Schnittstelle platzsparend zu integrieren. Die Erfahrung lehrt, dass er Hawaii-IMC tatsächlich recht zickig ist, viele Karten mögen Speicher-Overclocking gar nicht, vor allem nicht in Kombination mit GPU-Undervolting. Faktisch lässt sich der Speicher effektiv durch GPU-Overvolting stabilieren, wenn nicht vorher die Kühlung aussteigt. Ebenfalls hilfreich sind OC-Designs wie MSIs Lightning, welche die Signale besser trennen und voneinander abschirmen, um Störeffekte zu reduzieren.

Tatsache ist dass seit Kepler extravagante Speicherfrequenzen nicht mehr taboo sind ohne dass dadurch der Stromverbrauch durch die Decke haut.

Yop, Kepler kann diesbezüglich deutlich mehr als Fermi. Es gibt sowohl GK110B- als auch GF104-Karten, die 4.000 MHz rockstable packen. Das habe ich noch bei keiner AMD-GPU gesehen, hier war spätestens bei 3.800 MHz Schluss (Tahiti, nicht Hawaii ;)).

MfG,
Raff

Hübie

2014-07-25, 12:52:33

@Raff: GDDR5 hat glaub ich 3 oder 4 verschiedene Strukturgrößen über die Jahre gesehen. Das GF110(b) nicht mehr konnte ist also wahrscheinlich weniger IMC-Sache sondern einfach physikalische Begrenzung der verbauten DRAM-Chips.
Obwohl man auch sagen muss dass beides aufeinander abgestimmt werden muss. GDDR5 trainiert sich selber beim initialisieren also muss der Controller auch in der Lage sein das Training korrekt auszuführen was wiederum bedingt dass nur eine bestimmte Sorte eingesetzt werden kann. Glaube kaum dass man moderne 7 Gbps-BGAs auf ein Fermi-Board löten könnte und es liefe auf Anhieb. Wissen tue ich das jedoch nicht ;)

robbitop

2014-07-25, 18:26:27

Wenn Speicherchips auf eine bestimmte Frequenz spezifiziert sind, kann man auch davon ausgehen, dass diese damit laufen. Egal welcher Prozessnode.

Außerdem hat AMD es ja offiziell auch so gesagt. Warum diese seltsamen Zweifel?

Hübie

2014-07-25, 18:59:03

Die Chips schon. Aber der IMC vom GF110 wird da sicher vorher aussteigen. Da zu GF110-Zeiten aber keine so schnellen DDR5-Chips am Markt waren kann man diese auch nicht so weit übertakten. Das ist also zweischneidig. Der IMC ist nicht für so hohe Frequenzen designed und es gab eh keine schnelleren Chips.

Bei Hawaii solls wie gesagt mit HSA zu tun haben warum man ein niedriger getaktetes aber dafür breiteres Interface verbaut hat. Das Pad dürfte so ziemlich zweimal dem von Pitcairn entsprechen.

Skysnake

2014-07-26, 10:35:52

Es gibt mehrere denkbare Ursachen: Der Speicher wird, ebenso wie der GPU-interne Speichercontroller, unterversorgt (Spannung), um die Leistungsaufnahme zu drücken. Oder weil er der IMC "noisy" bzw. kaputt ist. Oder der Speicher wird mit schärferen Timings betrieben als bei 2.500 MHz vorgesehen.

mit mehr Spannung sorgt man halt in der Regel für mehr Strom, und damit steigert man in der Regel die Steilheit der Signalflanken, also quetscht noch etwas mehr Bandbreite aus den Treibern, so lange diese eben nicht in Velosity seturation sind. Da hilft mehr Strom dann nämlich nichts mehr. ;)

Je nachdem, wie die Schaltungen ausgelegt sind, kann man statt VDD zu erhöhen auch "einfach" gnd mit ner negativen Spannung versorgen ;D

Wenn man die Pinbelegung der Strom/Spannungsversorgung genau kennt, und auch weiß, wo und wie die Netze auch WIRKLICH! komplett getrennt sind, kann man da viel rumspielen.

Das Speicherinterface sollte an sich an anderen VDD und auch gnd hängen als der Logikteil des Chips, um sich weniger noise/rippel auf der Power einzufangen.

Bei den Hawaii-Karten ist's gerade ähnlich: Dort sitzt 6-Gbps-GDDR5, gerüstet für 3.000 MHz, läuft aber nur mit 2.500 MHz (einige OC-Versionen laufen aber schon mit 2.750 bis 2.820 MHz!). Die bekannte Ursache dafür ist, dass AMD taktlahme Speichercontroller einsetzt, um eine dicke Schnittstelle platzsparend zu integrieren. Die Erfahrung lehrt, dass er Hawaii-IMC tatsächlich recht zickig ist, viele Karten mögen Speicher-Overclocking gar nicht, vor allem nicht in Kombination mit GPU-Undervolting.

Ab nem gewissen Punkt, muss man halt in jeder Technologie anfangen, die Schaltungen richtig heftig zu treten, um mehr Bandbreite aus der Schaltung zu bekommen. Ich musste in den letzten Monaten auch sehr schmerzhaft diese Erfahrung machen, als ich einen Multi-GHz CML-buffer/OpAMP (fully differential) designen musste. Je nachdem wo man sich auf der Kurve befindet, kann schon eine kleine Reduzierung des Taktes ziemlich heftig weniger Energieverbrauch bedeuten.

Faktisch lässt sich der Speicher effektiv durch GPU-Overvolting stabilieren, wenn nicht vorher die Kühlung aussteigt.

Mit mehr Spannung auf der GPU erhöht man halt wieder die Flankensteilheit, was bedeutet, das man z.B. weniger Zeit im Spannungsfenster verbringt, in dem nen Latch einen undefinierten Zustand annehmen kann. Das funktioniert aber halt auch nur in gewissen Rahmen.

Ebenfalls hilfreich sind OC-Designs wie MSIs Lightning, welche die Signale besser trennen und voneinander abschirmen, um Störeffekte zu reduzieren.

Es sollte klar sein, warum das so ist. Das Auge des Übertragungskanals ist halt durch ein besseres Shielding einfach besser, und damit hat man auch eine größere Marge für den jitter usw. Shielding allein muss es aber nicht mal sein. Auch eine genauere Impedanzanpassung der Kanäle kann hier schon sehr sehr sehr viel bewirken.