nVidia - Takt - Fermis Stärke und Schwäche? [Archiv]

Archiv verlassen und diese Seite im Standarddesign anzeigen : nVidia - Takt - Fermis Stärke und Schwäche?

G80

2010-10-02, 08:40:51

Fakten:

1.Wir alle Wissen die Fermis sind schluckspechte - zumindest unter last.

2. Die Karten gehen idR sehr viel höher als das Referenzdesign.

Blick zu ATI ( kein direkter Vergleich! denn die Architekturen sind Unterschiedlich und seit 2900xt baut Ati keine Singlechip Schlachtschiffe mehr; es geht eher um den Trend) zeigt eher eine stetige lansame Aufwärtsentwicklung: 748 Chip bei der 2900 XT und 850 bei 4890 und 5870. Die letzteren beiden machen auch so beider etwas vor 1 Ghz zu. Natürlich auch sonnst verbeserungen wie DX level, AA Performance und natürlich (viel) mehr Shader.

Ich wundere mich warum die 40g Karten eigentlich so hoch gehen. Ich meine der G 80 ging von 575 auf IdR irgendwas bei 648. Ultras und mods villeicht auf 700+. Selbst ich kriege bei meinen 2 A2 GTXen die Shader mühelos auf 1620.

Der G92 kam überhaupt am Ende mit 738 Chip und 1838 Shadetakt daher, ohne OC.

Irgendwie scheinen die GT 200 Karten da eine rießen Loch in die Aufwärtsstrebende Kurver gerissen zu haben, die erst jetzt überwunden wird.

Nur der GF überwindet das Loch nicht, er springt gradezu drüber.
Ich frage mich obs eine Verbindung gibt zwischen dem Stromverbrauch, der Übertaktbarkeit und Fermis ursprünglichen Problemen mit der "Verdrahtung" (Sry kann mir darunter zuwenig vorstellen warum die damals das Design verhaut haben) gibt. Hat NV diese Probleme vielleicht mit der (Strom-)Keule lösen müssen und nebenbei ein starkes OC als Nebenprodukt geschaffen?

Ich findes insgesamt begrüßenwert, das das Taktraten wieder etwas anziehen. Nicht weil Takt *hechel* *hechel*, sondern weil die 1 D Shader ordentlichen Takt brauchen; und Shaderleistung hängen die NVs eh eher dran als ATI die ihre Rohleistung nicht auf die Straße bringen. GT 200 und extreme Resteverwertung wie GTX 465 haben imho einfach ein aus der Balance geratenes Shaderanzahl-Taktverhältnis.

Als Nachtrag noch: Ich verstehe in diesem Zusammenhang einfach die GTS 450 nicht: Takt, Shader und trotzdem Müll. Bandbreite ist bissl niedrieg und TMUS sind auch nichtmehr überreich vorhanden aber die Karte ist Müll und leistet viel weniger als man eigentlich erwarten sollte ....

Gast

2010-10-02, 12:47:03

Laienhafte Vermutung, aber G100 ist doch noch teildeaktiviert, oder (480 statt 512 Shader)? Könnte die Taktfreudigkeit daher kommen?

Spasstiger

2010-10-02, 13:23:53

Als Nachtrag noch: Ich verstehe in diesem Zusammenhang einfach die GTS 450 nicht: Takt, Shader und trotzdem Müll. Bandbreite ist bissl niedrieg und TMUS sind auch nichtmehr überreich vorhanden aber die Karte ist Müll und leistet viel weniger als man eigentlich erwarten sollte ....
Der GF106 (GTS 450) hat nur 4 Multiprozessoren, der G92 dagegen 16 (organisiert in 8 TPCs). Zwar sind die Multiprozessoren des GF106 gegenüber dem G92 deutlich breiter geworden (48 MADD vs. 8 MADD + 8 MUL), aber zumindest auf dem Papier ist die Peak-Rechenleistung einer GTS 450 geringer als die einer GTS 250. Der GF106 kann auch nur 8 Pixel pro Takt rastern, der G92 dagegen 16.
Der GF106 hat zudem nur 32 TMUs, der G92 dagegen 64. Und die GTS 450 hat eine geringere Speicherbandbreite als die meisten G92-Karten.
Die Geometrieleistung des G106 ist auch nur bedingt durch den höheren Takt höher als beim G92.
Auf dem Papier wird die GTS 450 von der GTS 250 recht deutlich geschlagen. In der Praxis kann die GTS 450 aber mithalten oder die GTS 250 sogar überflügeln.

Die Leistung des G106 ist imo den technischen Daten entsprechend. Man darf halt nicht nur stumpf über die Anzahl an "CUDA Cores" und den Takt vergleichen.
Zudem besteht noch die Möglichkeit, dass eine Karte mit vollem GF106, also 192-Bit-Speicherinterface erscheint. So eine Karte sollte mit ordentlichen Taktraten gegenüber einer GTX 260 bestehen können und sämtliche G92-Karten spielend im Griff haben.

P.S.: Wenn voneinander abhängige Thread parallel berechnet werden sollen, kann der GF106 im Worst-Case-Fall nur 128 seiner 192 "CUDA-Cores" ansprechen. Details dazu: http://www.anandtech.com/show/3809/nvidias-geforce-gtx-460-the-200-king/2.

G80

2010-10-02, 13:39:04

Laienhaft? Ok aber wirklichen Grund gibts du nicht an:

1. 8 % Der Shader fehlen. Ich denke nicht da sich da so viel mehrtakt rausquetschen läßt.

2. Würde es bei gleicher analogie bedeuten das 88 GTS 640/320 VIEL höher gehen müssten als ihre GTX verwandten. Den lt. deinem Modell ist hier die Summendiskrepanz noch viel höher 96<->128 - Immerhin 1/4. Ich hatte auch eine solche A 3 GTS: Ich kann mich errinern das die idR höher als A 2 GTXen gingen aber nichmehr als A3 Ultras schafften. (Speicher zählt nicht denn das war ein dandrer). Der Grund war aber schlichtweg A2 vs A3 ......

Generell verstehe ich natürlich was du meinst - weniger Shader mehr raum durch Stromverbrauch/Hitze etc. Aber nein 32 v. 512 Shader? Da glaub ich nicht dran.

Nebenbei zieht sich dieses Taktpotential durch alle Karten; es müsste aber bei den kleinsten am stärksten und den großen am schwächsten ausgeprägt sein. (Ist auch bissl so weil man bei den GF 100 ja den Stromhunger und damit die Hitze unter Kontrolle behalten muss. Aber Lüfter auf 100 %, Ohrenschützer an und OC ahoi! - von CustomKü oder Wakü nichtmal zu reden)

Tatsächlich gibt es immer irgendwo eine Grenze die mit humanen Mittel erreicht werden kann. Bei aktuellen Ati Karten liegt die doch etwas unter 1 Ghz und bei NV .... muss man noch bissl warten aber derzeit wohl so bei 800-900 Mhz.

@ Spaßtieger: Danke! Danke für die Aufschlüsselung sowas hab ich schon lange gesucht. Nur wem ggü wem? :D ;)

Spasstiger

2010-10-02, 13:46:42

Nur wem ggü wem? :D ;)
Ist schon gefixt.

aths

2010-10-02, 13:48:09

Gasti

2010-10-02, 13:52:43

2. Würde es bei gleicher analogie bedeuten das 88 GTS 640/320 VIEL höher gehen müssten als ihre GTX verwandten. Den lt. deinem Modell ist hier die Summendiskrepanz noch viel höher 96<->128 - Immerhin 1/4. Ich hatte auch eine solche A 3 GTS: Ich kann mich errinern das die idR höher als A 2 GTXen gingen aber nichmehr als A3 Ultras schafften. (Speicher zählt nicht denn das war ein dandrer). Der Grund war aber schlichtweg A2 vs A3 ......

Nein da es der gleiche Chip ist.
Ob da jetzt ein Teil deaktiviert ist spielt für restlichen Teile keine Rolle(die sind immer noch gleich dicht gepackt, sind gleich aufgebaut etc...)

Gast

2010-10-02, 14:24:44

Nein da es der gleiche Chip ist.
Ob da jetzt ein Teil deaktiviert ist spielt für restlichen Teile keine Rolle(die sind immer noch gleich dicht gepackt, sind gleich aufgebaut etc...)

Ich stimme dir zu. Diese Frage hab ich an den Gast Post 2 gestellt, da er meinte:

Laienhafte Vermutung, aber G100 ist doch noch teildeaktiviert, oder (480 statt 512 Shader)? Könnte die Taktfreudigkeit daher kommen?

Darum bleibe ich dabei das dieser SM das Kraut nicht fett macht ...

Gast

2010-10-02, 16:52:41

Mit LN2 packt Fermi GF100 fast 3GHz Shader-Domain: http://www.xtremesystems.org/forums/showthread.php?t=259190
... und dass bei ~ 3 Mrd. Transistoren.

Das Potential ist seit G80 doch beachtlich gestiegen, leider ist die Umsetzung unter Normalbedingungen nicht so einfach, da 65 und 45nm (+ Halfnodes) wohl etwas hinter Erwartungen der Ingenieure geblieben sind.

davidzo

2010-10-09, 16:51:14

Laienhafte Vermutung, aber G100 ist doch noch teildeaktiviert, oder (480 statt 512 Shader)? Könnte die Taktfreudigkeit daher kommen?

Das ist ziemlich naheliegend und imo auch richtig. Selbst wenn der 16te SM noch funktioniert wird bei GF100 definitiv der am schwächsten taktende SM bzw. der mit den größten leckströmen abgeschaltet.

2. Würde es bei gleicher analogie bedeuten das 88 GTS 640/320 VIEL höher gehen müssten als ihre GTX verwandten. Den lt. deinem Modell ist hier die Summendiskrepanz noch viel höher 96<->128 - Immerhin 1/4. Ich hatte auch eine solche A 3 GTS: Ich kann mich errinern das die idR höher als A 2 GTXen gingen aber nichmehr als A3 Ultras schafften. (Speicher zählt nicht denn das war ein dandrer). Der Grund war aber schlichtweg A2 vs A3 ......

Ich wäre mir nicht so sicher dass diese Praxis der Taktbarkeit und Leckstromsortierung der Shadercluster bei der G80 GTS damals schon (quasi "ohne not") in diesem maße angewendet wurde wie das jetzt bei GF100 der Fall ist, oder ob es nicht eher eine reine Taktfrage war.
Kurze Zeit später verkaufte man ja sowieso nurnoch G80 mit vollen 128sp, weil die GTS512 den job der teildeaktivierten chips übernommen hatte, GTX und Ultra aber noch eine Weile bestand hatten.
Es kann also sein dass man bei der G80 GTS sich das testen der einzelnen SMs gespart hat und einfach zufällig deaktiviert hat. Was das stepping angeht sind die (vom takt) besseren A3chips eben auf die Ultra gewandert und die schlechtesten auf die GTS, zudem mit einer anderen Spannung. Also alles logisch bis dahin.

Nebenbei zieht sich dieses Taktpotential durch alle Karten; es müsste aber bei den kleinsten am stärksten und den großen am schwächsten ausgeprägt sein.

Nein, bei den kleineren karten ist nämlich nichts deaktiviert. Der Vorteil der geringeren Streuung durch geringere Anzahl von SPs wird hier dadurch aufgefressen dass man ja eben gar keinen Teil deaktivert. Vermutlich würde auch das austesten der Chips und das deaktivieren der am wenigsten taktfreudigen Bereiche zu teuer für diesen Preisbereich sein, wobei ich auch nicht wüsste ob Gf10x überhaupt so flexibel ist dass dies wirtschaftlich sinn machen würde (3 von 4sm sind einfach viel weniger als 15 von 16). Richtig gut selektieren tut man nur im Highend, dadrunter wird einfach verbaut und dann passt das schon.

Tatsächlich gibt es immer irgendwo eine Grenze die mit humanen Mittel erreicht werden kann. Bei aktuellen Ati Karten liegt die doch etwas unter 1 Ghz und bei NV .... muss man noch bissl warten aber derzeit wohl so bei 800-900 Mhz.

850@1000 - 15%
700@850 - 17%
Der Unterschied ist, wenn überhaupt statistisch feststellbar, kaum vorhanden. Zudem scheint mir die Dispersion bei NV bedeutend größer zu sein als bei ATI, wo die Karten alle relativ zuverlässig auf den Median von 1Ghz hinauslaufen. Hier angesichts von lediglich 2% von einem Vorteil zu sprechen halte ich für stark übertrieben.
Bei den mainstream und lowcostchips siehts nämlich genau umgekehrt aus, was zum einen an ATIs konservativer Taktpolitik im unteren bereich und an dem ausbleiben von teildeaktivierungen und den hohen standardtakten der nvkarten liegt.

Wieso? Die Karte ist von der Architekturbreite her eine halbe GTX 460 /1GB. Sie leistet aber mindestens so viel mehr wie der Taktvorteil 783 zu 675 MHz erwarten lässt, oft sogar noch etwas mehr (bedingt durch teilweise CPU-Limitierung.)
Die GTS450 ist deutlich mehr als eine halbe GTX460 1GB! 7 vs 4 SP und 192 vs 336 sp lassen grüßen!

Dass viele Karten ordentlich OC-Potenzial haben, liegt an der Serienstreuung.
Insgesamt ist das OC-Potenzial gut, die öffentliche Wahrnehmung ist aber dass sogut wie alle GPUs ordentlich OC-Spielraum haben. Das stimmt nun auch wieder nicht.
FULLACK!

Serienstreuung. Wenn man Sortiert kommt da eben schon einiges bei raus, aber im mainstream sortiert man eben nicht so aufwändig wie im highend.

Nein da es der gleiche Chip ist.
Ob da jetzt ein Teil deaktiviert ist spielt für restlichen Teile keine Rolle(die sind immer noch gleich dicht gepackt, sind gleich aufgebaut etc...)

Doch, denn Waferspins sind immernoch eine verdammt analoge Sache. Da gibt es eben ein gewisses Rauschen was durchaus zu einer hohen Streuung innerhalb eines Chips kommen kann. Dass die Architektur gleich ist spielt keine Rolle für die Taktbarkeit eines einzelnen SPs. Die Taktbarkeit und die Leckströme können wirklich von SP zu SP sehr unterschiedlich sein.

Mit LN2 packt Fermi GF100 fast 3GHz Shader-Domain: http://www.xtremesystems.org/forums/showthread.php?t=259190
... und dass bei ~ 3 Mrd. Transistoren.
Naja, wir wollen mal nicht eine spezielle OCkarte mit genaustens selektierten chips unter ln² mit dem Seriendurchschnitt vergleichen, das verfälscht das Bild und nimmt ein bisschen die Diskussionsgrundlage.
Eine 5870 lightning taktet unter ln² auch bis 1485mhz, was nur 8% weniger zuwachs ist als bei der von dir verlinkten Karte. Und zur Erinnerung: bei Cypress muss nichts deaktiviert werden um diesen Zuwachs zu erreichen.
Mit solchen Werten lassen sich lediglich Aussagen über die Serienstreuung machen, die anscheinend bei Nvidia höher ist als bei ATI. Serienstreuung bedeutet wohlgemerkt nach oben und unten, was dann die bekannten Auswirkungen auf den Retailtakt bei den Volumenprodukten hat bei denen nicht so stark selektiert wird.(GTS450+GT430)

Tesseract

2010-10-09, 17:25:18

das problem an fermi (zumindest am GF100) ist, dass die leiterbahnen, die die cores verbinden eine fehlkonstruktion sind und das ganze layout ausbremsen. die cores würden wohl durch die bank deutlich höhere taktraten (gleichzeitig bei geringerer spannung) schaffen wenn dieser designfehler nicht wäre.
daran liegt es vor allem auch, dass es keine 512er fermis gibt.

nvidia muss wohl übertrieben konservativ volten und taken damit das ganze auch unter ungünstigen bedingungen läuft. daher haben viele fermis so großes übertaktungpotenzial.

man kann davon ausgehen, dass der refresh dieses problem nichtmehr haben wird.

davidzo

2010-10-09, 17:27:58

ich dachte das hätte man mit einem metalspin gefixt? Wie ich Jensens worte deute war das eher ein Problem von A0, also der Grund für die Fermi verspätung. Es klang nicht so als wenn die ausgelieferten chips davon noch in irgendeiner weise betroffen waren, im gegenteil er hat ja von redesign und so gesprochen. Es sollte mich wundern, wenn man bei dem redesign bzw den späteren spins nicht in dieem bereich heftig geklotzt hat (bzw. eben nur in diesem bereich, weil die shader ja schon vorher prima funktional waren). Fermis Taktproblem - sollte es denn eines sein - ist nicht unbedingt auf dieselbe Ursache zurückzuführen, wie die Fermi Verspätung.
Das sind zwei verschiedene GF100 Attribute deren Ursachen nicht vermischt gehören und auch zwei völlig andere Steppings und ein Unterschied von gut einem jahr.