AMD/ATI - "Southern Islands" GPUs (wohl 40 nm, 2010) - Northern Islands [Archiv] - Seite 2

S940

2010-07-19, 19:37:18

Ok, also dann SI = 40nm NI ?
Würde auch Sinn machen. Das "hybrid" gerücht bezöge sich dann halt einfach auf den Evergreen Prozess und die NI Architektur.

Der Chip wäre damit vermutlich um einiges größer als in letzter Zeit von Ati gewohnt, aber nachdem 32nm gestrichen wurde und 28nm noch nicht verfügbar war/ist, würde das Anwenden der alten nVidia Dickschiff DIE Strategie ausnahmsweise auch bei ATi Sinn machen.

allerdings existieren zwei "Scheduling Models" (was immer das konkret bedeutet), eins mit dem Namen R600 (was wohl für R700 und Evergreen ebenfalls gilt), das andere mit dem Namen R900.
Naja, was kanns Großes sein .. vermutlich der VLIW JIT compiler. Für ne neue Architektur braucht man logischerweise einen anderen.

ciao

Alex

Gast

2010-07-19, 19:56:19

ATI's next generation GPUs to come in October
http://www.fudzilla.com/graphics/graphics/atis-next-generation-to-come-in-october
It doesn’t look like ATI is planning any dramatic price cuts of its chips in the short term. Partners and retailers can cut their profit margins in order to get more competitive but the really significant price cuts should come in October.

We just received confirmation on something that we have been reporting all year long, next generation ATI cards are coming in the latter part of this year, most likely in October. This will simply be one year after the introduction of Radeon 5000 series and we can also add that the new generation is still 40nm.

Our further investigation also led us to find two codenames Turks and Caicos as these two cards should replace Radeon HD 5670 and Radeon 5550 and 5400.

Cayman (Southern Islands should be a group codename for Radeon 6000 series) should be the codename for the product that replaces Radeon HD 5800 series, but as far as we know this chip might actually not make it to market this year, but it also might launch together with the other ones in October. The company also plans a dual-chip high performance card.

Radeon HD 6000 is a minor improvement: Tweaked HD 5000 series
http://www.fudzilla.com/graphics/graphics/radeon-hd-6000-is-a-minor-improvement
ATI’s next generation Southern Islands cores are not promising anything spectacular. It looks like these cores are going to be just a tweak of ATI's existing Radeon HD 5000 series architecture.

This is mainly due the fact that this generation remains developed for 40nm and ATI still doesn’t have any new amazing architecture until 28nm and we have already reported that 28nm cores are coming sometime in 2011.

The release of the first cores based on the new improved generation is planned for October time, but ATI might introduce them in last days of September just to pull wool over investors’ eyes, as if it launches in late September it can still claim that launch took place in Q3 2010. They have already played this trump card with the Radeon HD 5000 series.

ATI wins DirectX 11 GPU market fight in 1H 2010
http://www.fudzilla.com/graphics/graphics/ati-wins-gpu-dx11-market-fight-in-1h-2010
This means that they have shipped 16 million DirectX 11 parts and that Nvidia probably managed only a few hundred thousand. So judging by number cards sold, ATI has won this round by a mile.

OgrEGT

2010-07-19, 20:07:08

Ok, also dann SI = 40nm NI ?
Würde auch Sinn machen. Das "hybrid" gerücht bezöge sich dann halt einfach auf den Evergreen Prozess und die NI Architektur.

Der Chip wäre damit vermutlich um einiges größer als in letzter Zeit von Ati gewohnt, aber nachdem 32nm gestrichen wurde und 28nm noch nicht verfügbar war/ist, würde das Anwenden der alten nVidia Dickschiff DIE Strategie ausnahmsweise auch bei ATi Sinn machen.

War nicht irgendwo mal die Rede davon, dass erst mal Midrange SI erscheinen wird? Vielleicht ist das dann eher Midrange NI@40nm a la HD6770...

Edit ... und die HD6870 kommt dann später Q1-Q2 2011 in 28nm.

Gipsel

2010-07-19, 20:09:42

Übrigens habe ich mir die verschiedenen Treiberversionen mal im Vergleich angesehen, insbesondere die Teile, aus denen ich im September/Oktober letzten Jahres die Schlüsse gezogen habe, daß die t-Einheit abgespeckt wird. Und da muß ich jetzt sagen, daß ich ziemlich sicher bin, daß die t-Einheit komplett gestrichen wird, es also wirklich nur noch 4er VLIWs gibt.

Im Prinzip kann ich mir ganz schön vor die Stirn schlagen, da ich das mit ein wenig mehr Aufmerksamkeit auch schon locker letztes Jahr hätte sehen können. Das stand immerhin schon im Cat 9.8 im Klartext in einer Fehlermeldung des Shadercompilers: "An ALU instruction was issued to the scalar slot. This feature is scheduled for removal in Northern Islands!" (wahrscheinlich habe ich in Gedanken die special functions nicht als ALU Instruktionen gezählt, weswegen SFUs à la nvidia rauskamen).
Diese Fehlermeldung wurde jetzt mehr oder weniger in verschiedene gesplittet:
"Error: opcode %d must be issued to x, y, z, w slots"
"Error: opcode %d must be issued to x, y, z slots" (es gibt also welche, die w nicht kann!)
"Error: HW doesn't support trans unit slot" (das ist doch wohl eindeutig)

Sieht also ganz so aus, als wäre w das neue t.

OgrEGT

2010-07-19, 20:12:55

Übrigens habe ich mir mal die verschiedenen Treiberversionen mal im Vergleich angesehen, insbesondere die Teile, aus denen ich im September/Oktober letzten Jahres die Schlüsse gezogen habe, daß die t-Einheit abgespeckt wird. Und da muß ich jetzt sagen, daß ich ziemlich sicher bin, daß die t-Einheit komplett gestrichen wird, es also wirklich nur noch 4er VLIWs gibt.

Im Prinzip kann ich mir ganz schön vor die Stirn schlagen, da ich das mit ein wenig mehr Aufmerksamkeit auch schon locker letztes Jahr hätte sehen können. Das stand immerhin schon im Cat 9.8 im Klartext in einer Fehlermeldung des Shadercompilers: "An ALU instruction was issued to the scalar slot. This feature is scheduled for removal in Northern Islands!".
Diese Fehlermeldung wurde jetzt mehr oder weniger in verschiedene gesplittet:
"Error: opcode %d must be issued to x, y, z, w slots"
"Error: opcode %d must be issued to x, y, z slots" (es gibt also welche, die w nicht kann!)
"Error: HW doesn't support trans unit slot"

Sieht also ganz so aus, als wäre w das neue t.

Hört sich für mich als Laien sinnvoll an, um die bestehenden ALUs effizienter ausnutzen zu können. Vielleicht liegt das Optimum irgendwo zwischen "Vec1" und "Vec5" also "Vec3+t"...

Gast

2010-07-19, 20:18:03

Zum Front-End gibt es keine Hinweise? :D
Aber, wenn es wirklich die 1920SPs @ 4D werden, dann steht uns da wohl eine erhebliche Leistungssteigerung bevor.

Ein 960SPs-Chip sollte wohl sich dann entsprechend gut gegen GF104 stellen können.

Gipsel

2010-07-19, 20:18:05

Hört sich für mich als Laien sinnvoll an, um die bestehenden ALUs effizienter ausnutzen zu können. Vielleicht liegt das Optimum irgendwo zwischen "Vec1" und "Vec5" also "Vec3+t"...
Und da ATIs Einheiten keine VecX sondern VLIW-Einheiten sind, dürfte das schon mit im Mittel recht guter Auslastung laufen (von den 5 Slots werden von heutigen Spiele-Shadern im Mittel so etwa 3,5 belegt).

Gast

2010-07-19, 20:18:29

Hört sich für mich als Laien sinnvoll an, um die bestehenden ALUs effizienter ausnutzen zu können. Vielleicht liegt das Optimum irgendwo zwischen "Vec1" und "Vec5" also "Vec3+t"...

Wieso "Vec3+t"? Ich denke w ist das neue t :ugly:
Ich versteh nur Bahnhof.

Gast

2010-07-19, 20:25:44

Wieso "Vec3+t"? Ich denke w ist das neue t :ugly:
Ich versteh nur Bahnhof.

Nein t fällt weg und der 4 slot wird zum w.

Gipsel

2010-07-19, 20:25:54

Zum Front-End gibt es keine Hinweise? :D
Aber, wenn es wirklich die 1920SPs @ 4D werden, dann steht uns da wohl eine erhebliche Leistungssteigerung bevor.

Ein 960SPs-Chip sollte wohl sich dann entsprechend gut gegen GF104 stellen können.
Kommt auch auf den Rest drauf an, aber da 960 SP (240 VLIWs) genau zwischen Juniper und Cypress liegt (die haben 160 bzw. 320 VLIWs, HD5850 hat 288 aktiv, HD5830 hat 224 und noch die Hälfte der ROPs deaktiviert), könnte das mit genügend Takt dem GF104 schon verdammt nah auf die Pelle rücken.

Zum Frontend habe ich nicht viel, höchstens daß es wohl ein paar Änderungen beim Caching gibt, allerdings ist das was ich gefunden habe vielleicht eher erstmal für GPGPU interessant (Schreib-Lese-Caches, aber was Genaues weiß ich da auch nicht).

Gipsel

2010-07-19, 20:27:29

Nein t fällt weg und der 4 slot wird zum w.
Der vierte Slot war schon immer w :rolleyes:
bisher: x y z w t
NI: x y z w(t), sprich, der w-Slot übernimmt wohl einen Großteil der t-Aufgaben

Und hört endlich mal mit dem ganzen Vec-Kram oder 4D/5D auf. Das funktioniert nicht wie SIMD, sondern superskalar (ATI GPUs sind eigentlich "supervektoriell", da die SIMDs praktisch parallele Vektorpipelines darstellen) und nutzt den ILP aus (was mit vec-Einheiten nicht gehen würde).

Gast

2010-07-19, 20:29:33

Zum Front-End gibt es keine Hinweise? :D
Aber, wenn es wirklich die 1920SPs @ 4D werden, dann steht uns da wohl eine erhebliche Leistungssteigerung bevor.

Ein 960SPs-Chip sollte wohl sich dann entsprechend gut gegen GF104 stellen können.

Vorsicht, er spricht ausdrücklich von Northern Islands. Also 28nm irgendwann 2011.

Gast

2010-07-19, 20:40:28

Vorsicht, er spricht ausdrücklich von Northern Islands. Also 28nm irgendwann 2011.

Sicher nicht.
Nur 50% mehr Recheneinheiten währen für 28nm viel zu wenig.

Gast

2010-07-19, 20:47:32

Sicher nicht.
Nur 50% mehr Recheneinheiten währen für 28nm viel zu wenig.

Stimmt. Die 1920 kommen woher?

Der_Korken

2010-07-19, 21:00:06

Sicher nicht.
Nur 50% mehr Recheneinheiten währen für 28nm viel zu wenig.

Wieso? Man muss ja nicht von Beginn an den neuen Prozess voll ausreizen. Wie man beim GF100 gesehen hat, kann der Schuss auch schnell nach hinten losgehen.

aylano

2010-07-19, 21:27:53

Und da ATIs Einheiten keine VecX sondern VLIW-Einheiten sind, dürfte das schon mit im Mittel recht guter Auslastung laufen (von den 5 Slots werden von heutigen Spiele-Shadern im Mittel so etwa 3,5 belegt).
Mittel hört sich nett an, aber wie sieht es dann genauer aus.
Wie oft werden alle 5 besetzt. Gibts da Schätzungen?

Übrigens habe ich mir die verschiedenen Treiberversionen mal im Vergleich angesehen, insbesondere die Teile, aus denen ich im September/Oktober letzten Jahres die Schlüsse gezogen habe, daß die t-Einheit abgespeckt wird. Und da muß ich jetzt sagen, daß ich ziemlich sicher bin, daß die t-Einheit komplett gestrichen wird, es also wirklich nur noch 4er VLIWs gibt.
Wenn es vom 5 auf 4-VLIWs runtergeht, und sagen wir mal der Rest gleich bleibt, hat dann NI realtiv im vergleich zu den Shadern mehr TMU-Performance oder weniger???.

Na ja, wenn sie so realitiv gesehen mehr TMU-Performance bekommen, können die diese Performance ja in bessere Grafik-Qualität investieren.
Oder wird das SIMD auch erheblich verändert.
SIMD-NI ... 32-Shader statt 16 Shader???

Fetter Fettsack

2010-07-19, 22:01:37

Zitat von svenw

Warum nicht? IMHO gibt es keinen technischen Grund warum man die LowLevel Chips ersetzen sollte. Die Vorteile die SI bringt wird man in dem Segment kaum nutzen können und für die Sachen wofür diese Chips hauptsächlich gekauft werden sind sie eh mehr als schnell genug. Mehr Leistung könnte ATI ohne neue Fertigungstechnik nur durch einen größeren Chip generieren und da kommt dann die Frage ob man mit einem größeren Chip noch Gewinn machen kann, denn die Margen sind in dem Bereich minimal.

Generell gesehen werden eh die kleinen Chips relativ zu den "großen Eisen" größer werden, denn die Tesselation Engine kommt hinzu und deren Leistung wird schlecht skalieren, womit eine 50€ Karte fast soviel Tesselation-Power braucht wie eine für 500€.

Widerspriuchst du mir im ersten Absatz oder stimmst du mir zu? :)

Bzgl. des zweiten Absatzes: ich halte es für unwahrscheinlich, dass man Karten in der Leistungsklasse 5450 bis 5550 mit SI auf einmal Tesselationseinheiten verpasst. Schließlich wird dies Feature nur für Spiele gebraucht (mWn), wodurch es bei diesen Karten schlichtweg sinnlos wäre, ein bisschen Tesselationspower reinzudotieren. Die werden wohl bleiben wie sie sind.

Wobei ich mir auch vorstellen könnte, dass SI vorrangig ab 5670 greifen soll.
Würde insofern Sinn machen, da die Karten unter der 5670 eigentlich eh schon alles können, was sie müssen. Wie man es im Highest End machen wird in Anbetracht des wohl steigenden Strombedarfs, weiß ich nicht, aber die Gamersektion wird wohl aufgemotzt werden. Kann ich mir zumindest gut vorstellen.

EDIT: Hmmm: http://www.tweakpc.de/news/19035/radeon-hd-6000-schon-im-oktober/

Gipsel

2010-07-19, 22:07:12

Mittel hört sich nett an, aber wie sieht es dann genauer aus.
Wie oft werden alle 5 besetzt. Gibts da Schätzungen?
Die würden nicht viel helfen. Völlig aus der Luft gegriffen z.B:

15%: 5 Slots voll
30%: 4 Slots
30%: 3 Slots
10%: 2 Slots
15%: 1 Slot

Im Mittel 3,2 Slots gefüllt. Was sagt das über den Füllgrad bei nur 4 vorhandenen Slots aus? Man kann jetzt nicht einfach die 15% der 5 Slots kappen, oder einfach auf die 4 Slots draufschlagen. Da benötigt man schon eine etwas umfassendere Simulation mit einer Vielzahl an verschiedenen Shadern, um da zu einem aussagekräftigen Ergebnis zu kommen. Aber natürlich gibt es dann wahrscheinlich mehr Instruktionen mit ganz vollen Slots, die Anteile mit nur wenig gefüllten Slots werden tendenziell abnehmen (weil z.B. eine unabhängige Operation in die nächste, noch nicht volle Instruktion wandern kann). Allerdings gibt es da ziemlich viele Wechselwirkungen durch Abhängigkeiten, daß da nur eine ausgefeilte Modellierung was ergibt. So über den Daumen würde ich da nicht so viel peilen. Die relative Auslastung wird zwar höher liegen, die absolute aber mit einiger Wahrscheinlichkeit etwas niedriger, also in unserem Fall z.B. bei 3,0 Slots pro Anweisung bei nur noch 4 Slots (75%), statt 3,2 mit 5 Slots (64%). Aber wie gesagt sind solche Aussagen nicht so einfach zu treffen.

Wenn es vom 5 auf 4-VLIWs runtergeht, und sagen wir mal der Rest gleich bleibt, hat dann NI realtiv im vergleich zu den Shadern mehr TMU-Performance oder weniger???.

Na ja, wenn sie so realitiv gesehen mehr TMU-Performance bekommen, können die diese Performance ja in bessere Grafik-Qualität investieren.
Oder wird das SIMD auch erheblich verändert.
SIMD-NI ... 32-Shader statt 16 Shader???
Tendenziell ergibt das mehr Textur-Performance, wenn der Rest unverändert bleibt. Allerdings bin ich der Meinung, daß für die Filter-Performance der Evergreens nicht unbedingt die Anzahl der TMUs entscheidend ist, sondern die Bandbreite zu ihnen. ATI hängt in Texturing-Tests immer exakt am Bandbreitenlimit der L1-Caches. Die müßten aufgebohrt werden, dann wären auch ein paar mehr Samples kein Problem.

And 32 VLIW-Einheiten pro SIMD glaube ich jetzt noch nicht (oder die bekommen einen doppelten Scheduler), da dann ohne Vergrößerung der Wavefronts (die sind jetzt schon recht groß) das Scheduling entweder erheblich komplizierter oder ineffizienter werden würde. Momentan profitiert ATI enorm davon, daß sie ein im Detail ausgeklügeltes aber eigentlich total simples System benutzen, was von der Hardware sehr einfach zu verwalten ist.

deekey777

2010-07-19, 22:53:24

Der vierte Slot war schon immer w :rolleyes:
bisher: x y z w t
NI: x y z w(t), sprich, der w-Slot übernimmt wohl einen Großteil der t-Aufgaben

Und hört endlich mal mit dem ganzen Vec-Kram oder 4D/5D auf. Das funktioniert nicht wie SIMD, sondern superskalar (ATI GPUs sind eigentlich "supervektoriell", da die SIMDs praktisch parallele Vektorpipelines darstellen) und nutzt den ILP aus (was mit vec-Einheiten nicht gehen würde).
Irgendwie wiederholt sich die Geschichte:
http://www.forum-3dcenter.org/vbulletin/showthread.php?p=7955401#post7955401

Gast

2010-07-20, 07:21:32

Und da ATIs Einheiten keine VecX sondern VLIW-Einheiten sind, dürfte das schon mit im Mittel recht guter Auslastung laufen (von den 5 Slots werden von heutigen Spiele-Shadern im Mittel so etwa 3,5 belegt).

nur mal so zum Spaß:

[1920 x (3,5/4)] / [1600 x (3,5/5)] = 1,5 !!

Gipsel

2010-07-20, 10:41:23

nur mal so zum Spaß:

[1920 x (3,5/4)] / [1600 x (3,5/5)] = 1,5 !!
Und?
Die 3,5 kannste übrigens komplett rauslassen, dann hast Du das Verhältnis der neuen 4er VLIWs zu alten 5er VLIWs ausgerechnet
1920/4=480 : 1600/5=320 => 1,5 : 1
Und was sagt uns das? Noch nicht viel. Ich habe gerade 2 Posts über Dienem versucht lang und breit zu erklären, warum die Rechnung so nicht funktioniert. Bei einigen speziellen Sachen mag es so rauskommen (aber es gibt auch spezielle Sachen da ist eine HD4870 12 mal so schnell wie eine HD3870 :rolleyes:). Aber dann nochmal:

Die relative Auslastung der Einheiten wird ziemlich sicher steigen, aber die absolute Anzahl der belegten Slots pro Instruktion wird im Mittel ziemlich sicher sinken (z.B. auf aus Luft gegriffene 3,1 Slots, das wird im Moment nur AMD nach einer Vielzahl an Simulationen wissen). Nur die Kenntnis dieser Größe macht Deine Rechnung oben sinnvoll. Mit z.B. 3,1/4 Slots im Mittel (das ist wahrscheinlich schon ziemlich gut), kommt man nur noch auf ~33% Vorteil im Mittel, trotz 50% mehr VLIW-Einheiten.

Man kann übrigens auch argumentieren, daß in bisherigen Worst-Case-Situationen der Vorteil bei eher 50% liegt, und bei bisherigen Best-Case-Situationen (wo eine HD5870 im Vergleich zu einer GTX480 bei der arithmetischen Leistung geradezu in einer anderen Liga spielt [Faktor 2!]) dann nur noch bei 20% (bei 50% mehr VLIW-Einheiten und 20% mehr nominellen SPs). Oder auf die gleiche Anzahl SPs heruntergebrochen ergibt sich ein Vorteil irgendwo zwischen 0% und 25%, wobei aber 25% mehr VLIW-Einheiten/SIMDs verwaltet werden müssen, was dann bei der mittleren Performance/Transistor auch sehr schnell ein Nullsummenspiel werden kann. Daß man sich aber trotzdem für die Änderung entschieden hat, kann man z.B. damit begründen, daß vor allem die bisherigen Worst-Cases einer (überproportionalen) Verbesserung bedürfen.

Coda

2010-07-20, 11:53:55

Die absolute Auslastung mit kleineren VLIWs müsste doch eher im besser werden. Der Extremfall ist eine Instruction (wie bei NVIDIA) und da ist man nunmal immer bei 100%.

Gipsel

2010-07-20, 13:14:46

Die absolute Auslastung mit kleineren VLIWs müsste doch eher im besser werden. Der Extremfall ist eine Instruction (wie bei NVIDIA) und da ist man nunmal immer bei 100%.
Ja, 100%, was eine relative Angabe ist. Absolut liegt sie bei nvida bei maximal 1/Takt, was absolut weniger als bei jedem ATI-Design ist ;)

Coda

2010-07-20, 13:16:42

Es geht darum wie gut die Einheiten ausgelastet werden. Das ist nicht relativ.

Wenn Cypress beispielsweise im Durchschnitt 70% (3,5 Slots) Belegung hat, dann wird das bei NI mit Sicherheit eher in Richtung 80-90% gehen.

Gipsel

2010-07-20, 14:10:51

Es geht darum wie gut die Einheiten ausgelastet werden. Das ist nicht relativ.
Prozentangaben sind immer relativ ;)
Wenn Cypress beispielsweise im Durchschnitt 70% (3,5 Slots) Belegung hat, dann wird das bei NI mit Sicherheit eher in Richtung 80-90% gehen.Mein Tipp wären eher knapp 80%, also wie im obigen Beispiel dann 3,1/4 oder so was in der Größenordnung. Ist aber eher eine gefühlsmäßige Aussage als das ich das jetzt simuliert hätte. Aber meistens bin ich bei solchen Tipps ins Blaue nicht so schlecht ;)

Aber wie gesagt ist eventuell die mittlere Auslastung gar nicht das entscheidende Argument (ATI hat ja sowieso deutlich mehr arithmetische Leistung), sondern daß das in bisherigen worst-Case-Situationen proportional mehr bringt und damit die Lücke zu nv dort schließt. Wenn der Shadercompiler dann auch mal endlich anfängt, die schon bei Cypress bestehende Möglichkeit zu nutzen, auch abhängige Operationen (geht auf jeden Fall mit mul, add und madd, nicht mit fma und auch nicht mit double precision) in eine VLIW-Anweisung zu stecken, kommen wir am Ende dann vielleicht wirklich bei deutlich über 80% auch im Mittel an und die worst case Leistung würde sich effektiv zur momentanen Situation pro VLIW sogar verdoppeln.

Im Prinzip wurde es höchste Zeit, daß nv seinen Shadern wie bei GF104 zumindest im Ansatz einen ähnliche Möglichkeit verpaßt, wenn sie auf dem Gebiet der arithmetischen Leistung nicht weiter abgehängt werden wollen. ATI schafft es im Vergleich zu nv momentan einfach, aus der gleichen Fläche des Shadercores grob die doppelte Menge arithmetische Leistung rauszuquetschen, schon jetzt ohne in worst cases entscheidend zurückfallen zu müssen. Diese worst cases erfahren mit NI dann noch einen zusätzlichen Schub. Und da ATI mit NI wohl auch die momentanen Schwächen am Frontend beheben wird, muß sich nv einfach was einfallen lassen. GF104 nur zu skalieren könnte mittelfristig zu wenig sein. Eine zusätzliche Unsicherheit stellen dann aber natürlich auch die Unterschiede bei Verfügbarkeit und Qualität von 28nm TSMC vs. GF dar. Es bleibt also spannend :)

aylano

2010-07-20, 19:29:04

Die relative Auslastung wird zwar höher liegen, die absolute aber mit einiger Wahrscheinlichkeit etwas niedriger, also in unserem Fall z.B. bei 3,0 Slots pro Anweisung bei nur noch 4 Slots (75%), statt 3,2 mit 5 Slots (64%). Aber wie gesagt sind solche Aussagen nicht so einfach zu treffen.

Wenn die Shader von 5 auf 4 sinken, wird der SIMD-Core dann auch so auf um 20% (=1/5) bis 15% sinken? bzw. ist der Shader-Anteil im SIMD-Core recht groß?
Oder werden gleichzeigt die Shader fetter durch neue GPGPU-Fähigkeiten gemacht?

Dann wäre es auch interesant, ob es beim Stromverbrauch Effizienzsteigerungen von 5-10% gibt, oder von 15 bis 20%(=1/5)?

Hast du da schon Vorstellungen, wo sich die 5-->4-Umstellung in Sachen Performance-pro-Watt bzw. Performance-pro-mm² bzw. Stromverbrauch bzw. Diegröße eigentlich am stärksten und so wo eher weniger positiv auswirkt????

Gipsel

2010-07-20, 19:49:55

Wenn die Shader von 5 auf 4 sinken, wird der SIMD-Core dann auch so auf um 20% (=1/5) bis 15% sinken? bzw. ist der Shader-Anteil im SIMD-Core recht groß?
Oder werden gleichzeigt die Shader fetter durch neue GPGPU-Fähigkeiten gemacht?
Nun, wie Du richtig bemerkst, wird die Funktionalität eher ausgebaut. Der 5. Slot (t) war ja bisher der größte, macht er doch alle special functions. Diese Funktionalität bleibt natürlich erhalten, wandert wahrscheinlich lediglich in die 4. ALU (eventuell kann man einige Funktionen auch durch Zusammenarbeit der 4 ALUs hinbekommen, ähnlich wie DP). Auch werden weder die Registerfiles kleiner werden noch die Anzahl der Ports sinken (bisher auch schon 12 Readports und 4 Writeports, das paßt exakt zu 4 ALUs und Befehle mit 3 Quelloperanden). Da kann man also nichts sparen. Insgesamt wäre ich überrascht, wenn eine VLIW-Einheit mehr als 10% Transistoren im Vergleich zu Cypress verliert.

Dann wäre es auch interesant, ob es beim Stromverbrauch Effizienzsteigerungen von 5-10% gibt, oder von 15 bis 20%(=1/5)?

Hast du da schon Vorstellungen, wo sich die 5-->4-Umstellung in Sachen Performance-pro-Watt bzw. Performance-pro-mm² bzw. Stromverbrauch bzw. Diegröße eigentlich am stärksten und so wo eher weniger positiv auswirkt????
Die Performance/Watt dürfte sich bei gleichem Prozeß im Mittel nicht wesentlich ändern. Das hängt stärker von der Umsetzung des Design/Stromsparmaßnahmen und dem Prozeß ab, als von der Frage 5 Slots oder 4 Slots.
Was man aber auf jeden Fall sagen kann, ist daß die Peak-Performance/Transistor sehr sicher etwas abnehmen wird. Die Frage ist nur, ob die gesteigerte Effizienz bei normalen Workloads das kompensieren kann, so daß man im Mittel mehr Performance pro Transistor erhält. Selbst das wird meiner Meinung nach knapp, aber dafür werden die bisherigen worst cases einen ordentlichen Schub erfahren (auch pro Transistor), also da, wo man es wahrscheinlich am dringendsten benötigt.

Coda

2010-07-20, 19:56:29

Könnte es nicht sein, dass sie auf vier Slots gehen um dann jeweils zwei für DP zu kombinieren? Dann wäre es auch möglich, dass ab NI sowohl y als auch w die t-Aufgaben übernehmen können.

Das ganze wäre dann auch schön symmetrisch.

Gipsel

2010-07-20, 20:26:45

Könnte es nicht sein, dass sie auf vier Slots gehen um dann jeweils zwei für DP zu kombinieren? Dann wäre es auch möglich, dass ab NI sowohl y als auch w die t-Aufgaben übernehmen können.

Das ganze wäre dann auch schön symmetrisch.
Das wäre dann das, was Fuad neulich schrieb (2 thin and 2 fast ALUs), oder? Ehrlich gesagt glaube ich das nicht so recht, da ein ALU:SFU-Verhältnis von 2:1 wohl etwas übertrieben und reine Transistorverschwendung wäre. Ich sehe übrigens auch keine Notwendigkeit, daß ATI bei double precision auf 2:1 wie nvidia beim GF100 geht. Da ATI in SP grob die doppelte Peakleistung (auf weniger als 2/3 der Fläche übrigens) vorzuweisen hat, verliert man durch 4:1 statt 2:1 überhaupt nichts (Cypress hat ja momentan sogar eine mehr oder weniger deutlich höhere DP-Leistung als die Teslas). Außerdem gilt ATIs 4:1 (bzw. bisher auch 5:1, je nachdem wie man zählt) sowieso "nur" für MUL/MADD/FMA. Additionen, Konversionen und so ein Zeug wie LDEXP oder FREXP gehen jetzt auch schon mit 2:1.

So eine Änderung wäre in meinen Augen eher eine Maßnahme, um den Chip unnötig aufzublasen, da man davon bei der Hauptkundschaft, nämlich bei den Gamerkarten, gar nichts gewinnt. Und es es jetzt ja nun wahrlich nicht so, daß ATI bei SFU- oder DP-Instruktionen irgendwie hinter nvidia zurückliegen würde, eher im Gegenteil. Deswegen kann die Aufgabe eigentlich nur lauten, an den eigenen Schwachpunkten zu feilen, das sollte am meisten bringen.

Coda

2010-07-20, 21:29:49

Das war auch zunächst auch meine Überlegung. Aber du musst bedenken, dass ATI auch AMD ist, und denen könnte etwas daran liegen wirklich brachiale DP-Performance für Supercomputing zu haben.

Ein Zwischenschritt wäre 2+2 DP und nur Z+W können zusammen eine transzendente DP-Op ausführen.

Gipsel

2010-07-20, 22:03:35

Das war auch zunächst auch meine Überlegung. Aber du musst bedenken, dass ATI auch AMD ist, und denen könnte etwas daran liegen wirklich brachiale DP-Performance für Supercomputing zu haben.Hmm. Der Markt für Consumerkarten ist momentan viel viel wichtiger.
Ein Zwischenschritt wäre 2+2 DP und nur Z+W können zusammen eine transzendente DP-Op ausführen.
Transzendente DP-Ops führen alle GPUs (sinnvollerweise) über Instruktionssequenzen aus. Übrigens wie andere Architekturen auch, die FMA können. X86 bzw. x87 ist da vielleicht nicht der richtige Maßstab. ;)

Coda

2010-07-20, 22:12:07

Hmm. Der Markt für Consumerkarten ist momentan viel viel wichtiger.
Weil sie keine Wahl haben. NVIDIA macht mit den Teslas glaube ich ziemlich viel Kohle.

Vielleicht tut sich ja endlich mal was beim Entwickler-Support. Ich dachte ja mit AMD ändert sich da was, aber bisher ist es immer noch der gleiche Sauladen wie zu ATI-Zeiten.

Transzendente DP-Ops führen alle GPUs (sinnvollerweise) über Instruktionssequenzen aus. Übrigens wie andere Architekturen auch, die FMA können. X86 bzw. x87 ist da vielleicht nicht der richtige Maßstab. ;)
Jaja, ist mir schon klar. Trotzdem muss man dafür etwas Hardware reinstecken und die hat halt nur T.

Gast

2010-07-20, 23:27:43

ATI hat früher immer ihre Karten mit Intel systeme präsentiert, einfach nur Peinlich für AMD.

AMD hätte früher bischen warten sollen und nvidia kaufen müssen, dann wäre das ansehen für AMD viel leichter als wie jetzt mit ATI.

V2.0

2010-07-21, 07:12:31

llWenn der Shadercompiler dann auch mal endlich anfängt, die schon bei Cypress bestehende Möglichkeit zu nutzen, auch abhängige Operationen (geht auf jeden Fall mit mul, add und madd, nicht mit fma und auch nicht mit double precision) in eine VLIW-Anweisung zu stecken, kommen wir am Ende dann vielleicht wirklich bei deutlich über 80% auch im Mittel an und die worst case Leistung würde sich effektiv zur momentanen Situation pro VLIW sogar verdoppeln.

Naja, ich denke nicht, dass man beides gemacht hat.

Gast

2010-07-21, 07:20:20

Weil sie keine Wahl haben. NVIDIA macht mit den Teslas glaube ich ziemlich viel Kohle.

Man braucht sich nur die Quartalszahlen anschauen, die Teslas bringen zwischen 20-30mio $ Umsatz. Das ist kaum der Rede Wert bei einer Milliarde Umsatz insgesamt. Im übrigen steht AMD bei den Supercomputern nicht schlecht da. Wundert mich auch nicht, das Kriterium dort ist Leistung/Watt, und dort ist AMD nicht gerade geringfügig vorne.

Gipsel

2010-07-21, 09:56:45

Naja, ich denke nicht, dass man beides gemacht hat.
Was beides?
Schon Cypress-Hardware kann das definitiv (und es gibt keine Anzeichen, daß NI diese Fähigkeit wieder verliert), es wird nur noch nicht ordentlich vom Shadercompiler genutzt. Das kann ATI also mit einem Treiberupdate "freischalten".

john carmack

2010-07-22, 14:47:08

http://www.kitguru.net/components/graphic-cards/faith/amd-radeon-hd-6870-benchmark-performance/

V2.0

2010-07-22, 14:58:59

Was beides?
Schon Cypress-Hardware kann das definitiv (und es gibt keine Anzeichen, daß NI diese Fähigkeit wieder verliert), es wird nur noch nicht ordentlich vom Shadercompiler genutzt. Das kann ATI also mit einem Treiberupdate "freischalten".

Ich denke man nutzt es nicht, weil es einen Nachteil haben muss bzw. unnötig ist. Die grundsätzliche Fähigkeit muss ja nicht der performanteste Weg sein.

Undertaker

2010-07-22, 15:01:38

Man braucht sich nur die Quartalszahlen anschauen, die Teslas bringen zwischen 20-30mio $ Umsatz.

20-30M? Kann ich mir kaum vorstellen, allein im bekanntesten System (Nebulae) stecken 65.000 Tesla C2050 zu je 2500$/Stück. Das wären allein mit diesem Supercomputer 162M $ Umsatz.

Aquaschaf

2010-07-22, 15:02:06

Ich denke man nutzt es nicht, weil es einen Nachteil haben muss bzw. unnötig ist. Die grundsätzliche Fähigkeit muss ja nicht der performanteste Weg sein.

Diese Fähigkeit hat nichts anderes zur Folge als die Rechenwerke besser auszulasten. Es kann nicht von Nachteil sein das zu benutzen.

Gipsel

2010-07-22, 15:11:43

20-30M? Kann ich mir kaum vorstellen, allein im bekanntesten System (Nebulae) stecken 65.000 Tesla C2050 zu je 2500$/Stück. Das wären allein mit diesem Supercomputer 162M $ Umsatz.
Ein wenig mehr als 30 Millionen werden es schon sein, allerdings solltest Du auch nicht denken, daß die Nebula-Leute Listenpreise gezahlt haben ;)

V2.0

2010-07-22, 15:15:10

Diese Fähigkeit hat nichts anderes zur Folge als die Rechenwerke besser auszulasten. Es kann nicht von Nachteil sein das zu benutzen.

Nicht unbedingt, wenn es den Scheduler bremst oder den Cache stärker belastet.

Coda

2010-07-22, 15:16:07

Tut es aber nicht.

Man braucht sich nur die Quartalszahlen anschauen, die Teslas bringen zwischen 20-30mio $ Umsatz. Das ist kaum der Rede Wert bei einer Milliarde Umsatz insgesamt. Im übrigen steht AMD bei den Supercomputern nicht schlecht da. Wundert mich auch nicht, das Kriterium dort ist Leistung/Watt, und dort ist AMD nicht gerade geringfügig vorne.
Mal abgesehen davon, dass die Zahl wohl nicht stimmt gibt es schon noch einige sehr wichtige Punkte neben Leistung/Watt. Beispielsweise Tools und Features. Und da hat NVIDIA derzeit die Nase nunmal sehr weit vorne.

Ich zähle zwei Rechner mit Fermi-Chips in der Top-100-Liste, einen mit GT200 und einen mit RV770. Nirgends Cypress-Chips.

deekey777

2010-07-22, 15:24:10

Ein wenig mehr als 30 Millionen werden es schon sein, allerdings solltest Du auch nicht denken, daß die Nebula-Leute Listenpreise gezahlt haben ;)
Ich würde mich nicht wundern, wenn Nvidia bei so einem Projekt sehr großzügig war.

Gast

2010-07-22, 15:27:29

http://www.kitguru.net/components/graphic-cards/faith/amd-radeon-hd-6870-benchmark-performance/

hmm 30% schneller als gtx480 hört sich auf jeden Fall mal nicht total unrealisitsch an. Wären wohl ca. 50% gegenüber Cypress.
Wobei das bei gleichem Prozess auch sehr viel ist.
Aber wer weiß, was man am Cypress noch alles optimieren kann.

Palpatin

2010-07-22, 16:08:10

Die 30% beziehen sich doch aufs Vantage, im Vantage liegen GTX480 und 5870 gleichauf. Da sind 30% schon realistisch.

Gast

2010-07-22, 16:40:33

Kit-Guru sollte man noch weniger ernst nehmen als Charlie oder Fudo.

john carmack

2010-07-22, 17:02:17

hmm 30% schneller als gtx480 hört sich auf jeden Fall mal nicht total unrealisitsch an. Wären wohl ca. 50% gegenüber Cypress.
Wobei das bei gleichem Prozess auch sehr viel ist.
Aber wer weiß, was man am Cypress noch alles optimieren kann.

Die HD3XXX und die HD4XXX wurden auch im gleichen Prozess gefertigt (55nm) und die 4K Serie ist auch um 70% oder sogar mehr schneller als die 3K...

LovesuckZ

2010-07-22, 17:09:18

Die HD3XXX und die HD4XXX wurden auch im gleichen Prozess gefertigt (55nm) und die 4K Serie ist auch um 70% oder sogar mehr schneller als die 3K...

Und Cypress ist 60% schneller bei mehr als doppelt sovielen Transistoren und 28% größer als der rv770. Jetzt soll also ein Chip ca. 50% schneller sein als Cypress, aber nur leicht größer? Klar. :rolleyes:

Gast

2010-07-22, 17:13:51

Und Cypress ist 60% schneller bei mehr als doppelt sovielen Transistoren und 28% größer als der rv770. Jetzt soll also ein Chip ca. 50% schneller sein als Cypress, aber nur leicht größer? Klar. :rolleyes:

Das geht ganz einfach wenn man die doppelte Rohleistung von Cypress gegenüber Juniper auch ausspielen kann.

Coda

2010-07-22, 17:14:44

Das halte ich durchaus für im Rahmen des Möglichen. Sie brauchen dazu nichtmal mehr Ausführungsresourcen.

Ein Chip mit Fermis Rasterizer-Architektur und AMDs Recheneinheiten würde derzeit bei gleicher Größe mit allem den Boden wischen. Wenn AMD nur etwas näher an NVIDIAs Effizienz rückt, damit ihre Rechenleistung mehr durchschlägt dann haben sie gewonnen.

davidzo

2010-07-22, 17:28:44

Und Cypress ist 60% schneller bei mehr als doppelt sovielen Transistoren und 28% größer als der rv770. Jetzt soll also ein Chip ca. 50% schneller sein als Cypress, aber nur leicht größer? Klar. :rolleyes:

Lol, manchmal frage ich wirklich was in deinem kopf schief geht wenn du sowas schreibst. Du nennst ja schon selber sogar den Grund dafür wieso AMD bei SI die Leistung massiv steigern könnte ohne mehr Ausführungseinheiten zu benötigen. Wenn man die fehlenden 40% wiederfindet, bzw. effizienzsteigernde maßnahmen ansetzt um in sachen geometrie- und tesselationsleistung mit fermi gleichzuziehen ist man eindeutig schneller - mit weniger transistoren.

Gast

2010-07-22, 17:45:39

Ein Chip mit Fermis Rasterizer-Architektur und AMDs Recheneinheiten würde derzeit bei gleicher Größe mit allem den Boden wischen. Wenn AMD nur etwas näher an NVIDIAs Effizienz rückt, damit ihre Rechenleistung mehr durchschlägt dann haben sie gewonnen.
Wenn man im gleichen Schritt noch die TMUs auf das Niveau (Geschwindigkeit und Filterqualität) von NV bringt, sieht es für Nvidia doch ziemlich düster aus.

Da muss man für GF11x/GF2xx eine deutlich höhere Leistung pro Fläche in der Hinterhand haben.
Die Shaderdomain bzw. deren Ausprägung mit >=2x Base-Clock wird wohl hier schon länger zur Diskussion stehen.

Coda

2010-07-22, 17:53:26

Wenn man im gleichen Schritt noch die TMUs auf das Niveau (Geschwindigkeit und Filterqualität) von NV bringt, sieht es für Nvidia doch ziemlich düster aus.
Es ist halt ein großes "Wenn" dabei. Kurz einbauen tut man das alles nicht. Wenn dann muss es von langer Hand geplant gewesen sein.

john carmack

2010-07-22, 18:06:07

Das halte ich durchaus für im Rahmen des Möglichen. Sie brauchen dazu nichtmal mehr Ausführungsresourcen.

Ein Chip mit Fermis Rasterizer-Architektur und AMDs Recheneinheiten würde derzeit bei gleicher Größe mit allem den Boden wischen. Wenn AMD nur etwas näher an NVIDIAs Effizienz rückt, damit ihre Rechenleistung mehr durchschlägt dann haben sie gewonnen.

Weiß zwar nicht mehr wo, aber genau das sagten ATI.
Sie wollen jetzt stark an der Effizienz arbeiten.

Coda

2010-07-22, 18:13:16

Die Frage ist wo "jetzt" zeitlich angefangen hat. Großartige Veränderungen an Chips sind mindestens schon zwei Jahre in der Pipeline.

Den Leuten bei AMD traue ich das ohne weiteres zu - die Frage ist nur ob sie auch so viel Geld in R&D gesteckt haben wie NVIDIA in diesem Punkt.

Wenn ich tippen müsste, dann würde ich ja sagen, dass das größtenteils erst mit NI kommt und SI sich auf die Verbesserung der Effizienz der Ausführungs-Blöcke beschränkt. Gerade bei der TMU-Effizienz müssen sie was tun - dann könnten sie endlich auch sauber filtern.

Aquaschaf

2010-07-22, 20:03:50

Nicht unbedingt, wenn es den Scheduler bremst oder den Cache stärker belastet.

Wie soll das den Scheduler bremsen? Und was meinst du mit "Cache stärker belasten"? Ich schätze die Leute die am Compiler arbeiten haben zur Zeit einfach noch andere Verbesserungen mit höherer Priorität die sie abarbeiten müssen.

Nakai

2010-07-22, 21:57:34

Wenn man im gleichen Schritt noch die TMUs auf das Niveau (Geschwindigkeit und Filterqualität) von NV bringt, sieht es für Nvidia doch ziemlich düster aus.

Ich würde es wirklich toll finden, wenn endlich einige Standards bzgl der Qualität in den DX und OGL-Specs festgelegt werden würden. Es gab ja schon eine gute Steigerung beim RV8xx im allgemeinen, was der BQ angeht. Leider ist NV da immer noch meilenweit vorraus.

- die Frage ist nur ob sie auch so viel Geld in R&D gesteckt haben wie NVIDIA in diesem Punkt.

Was ATI mit dem niedrigem R&D gemacht hat, war schon sehr gut. Sie sollten endlich auch mal bzgl der Perfektion einiger Dinge arbeiten. Treiber und Texturen...

Und Cypress ist 60% schneller bei mehr als doppelt sovielen Transistoren und 28% größer als der rv770.

Neues Techlevel. Da könnte noch einiges an Optimierungspotential drin sein...natürlich auch bei NV. GF104 könnte NVs richtig großes Ding sein. Vor allem wenn NV andere Chips auf dessen Basis baut.

mfg

Gast

2010-07-23, 00:32:34

Neues Techlevel. Da könnte noch einiges an Optimierungspotential drin sein...natürlich auch bei NV. GF104 könnte NVs richtig großes Ding sein. Vor allem wenn NV andere Chips auf dessen Basis baut.

mfg

http://www.hardware-infos.com/news.php?news=3628

Hiernach ist der DIE sogar größer als der von Cypress und der GF104 hat schon keinen Cache mehr und 48 statt 36 "Cuda-Cores" in einem Cluster (ging wohl ohne Probleme halbwegs Spontan weil Nvidia in jedes Cluster noch einen Sheduler mehr gepackt hat).... bei gleicher Tesselation Leistung pro Cluster. Also so viel kann man da nicht mehr optimieren.

Es ist einfach so, dass Nvidias Fermi (auch GF104) Atis Evergreen Generation in Sachen Performance pro DIE-Size und Leistungsaufnahme deutlich unterlegen ist und wen interessiert da schon die die Effizienz bezogen auf die theoretische Rechenleistung??.

Das Verringern der 5er auf 4er Ausführungseinheiten bei SI hat Ati sicherlich getan, um pro Chip mm² und pro Watt noch mehr Performance zu erzielen.

Ich hoffe auch sehr, dass Ati die Anzahl der Shader pro Cluster erhöht und dafür weniger Cluster verbaut.
Schon bei Cypress kam es mir so vor , als wären die zwei 10er Cluster ein teils schwerer zu verwalten als noch die 10 Cluster vom RV770, aber ich weiß technisch nicht wie großen einfluss sowas hat

Coda

2010-07-23, 00:39:51

GF104 hat 512 KiB Cache. GF100 hat 768 KiB.

Ich hoffe auch sehr, dass Ati die Anzahl der Shader pro Cluster erhöht und dafür weniger Cluster verbaut.
Schon bei Cypress kam es mir so vor , als wären die zwei 10er Cluster ein teils schwerer zu verwalten als noch die 10 Cluster vom RV770, aber ich weiß technisch nicht wie großen einfluss sowas hat
Das wäre sehr kontraproduktiv was die Effizienz angeht. Es geht nicht um "schwere Verwaltung", sondern darum, dass sie nicht genügend Arbeit vom Rest des Chips für die ganze Rechenpower haben.

Odal

2010-07-23, 10:23:04

GF104 hat 512 KiB Cache. GF104 hat 768 KiB.

also hat die GF104 1280KiB Cache? :tongue:

Bucklew

2010-07-23, 10:25:23

http://www.kitguru.net/components/graphic-cards/faith/amd-radeon-hd-6870-benchmark-performance/
That means AMD’s engineers will have had more than a year to work on the new design. They would have also had several months to analyse and counter any Fermi advantages in the big games that will launch in Q4.
Aja, wers glaubt....

kunibätt

2010-07-23, 13:43:10

Was ist daran denn so unrealistisch? Ein Crytek Mitarbeiter aus diesem Forum (?) meinte mal, dass sie schon Mitte 2009 Samples von Cypress hatten. Wenn SI demnächst sein Tapeout hat, passt doch alles wunderbar.

Bucklew

2010-07-23, 13:49:02

Was ist daran denn so unrealistisch? Ein Crytek Mitarbeiter aus diesem Forum (?) meinte mal, dass sie schon Mitte 2009 Samples von Cypress hatten. Wenn SI demnächst sein Tapeout hat, passt doch alles wunderbar.
Es geht darum, dass man wohl kaum 9 Monate vor Launch mit Erscheinen von Fermi großartig was an der Chiparchitektur ändern konnte, ganz einfach.

Coda

2010-07-23, 13:50:31

Ja, das ist definitiv vollständiger Käse.

Das einzige was man in diesem Stadium machen kann ist Binning und evtl. die Anzahl der Einheiten skalieren, aber nicht deren Grundaufbau.

Gast

2010-07-23, 14:00:32

Wenn AMD ähnlich "gut" informiert war, wie Charlie, über die Rasterizer- und Tessellationsfähigkeiten von GF10x, dann kann man wohl auf Verbesserungen in diesem Bereich noch einige Zeit warten. ;)

Im Bezug auf die Tessellation wäre es wohl schon ein vernünftiger Schritt, wenn man den Tessellator auf den normalen Dreiecksdurchsatz bringt, was dann etwa der dreifachen Leistung entsprechen würde:
http://www.hardware.fr/articles/795-5/dossier-nvidia-geforce-gtx-460.html

Gast

2010-07-23, 14:08:17

Wenn AMD ähnlich "gut" informiert war, wie Charlie, über die Rasterizer- und Tessellationsfähigkeiten von GF10x, dann kann man wohl auf Verbesserungen in diesem Bereich noch einige Zeit warten. ;)

Im Bezug auf die Tessellation wäre es wohl schon ein vernünftiger Schritt, wenn man den Tessellator auf den normalen Dreiecksdurchsatz bringt, was dann etwa der dreifachen Leistung entsprechen würde:
http://www.hardware.fr/articles/795-5/dossier-nvidia-geforce-gtx-460.html

AMD weiß zumindest schon ewig das ihr eigenen Chip, nämlich Cypress am Frontend hängt. Die Skalierung von Juniper auf den doppelt so breiten Cypress ist bescheiden. Eine HD5850 ist bei gleichem Takt praktisch genau so schnell wie eine HD5870 trotz deaktivierter Einheiten. Nichts liegt näher als hier anzusetzen.

Gast

2010-07-23, 14:11:14

Wenn AMD ähnlich "gut" informiert war, wie Charlie, über die Rasterizer- und Tessellationsfähigkeiten von GF10x, dann kann man wohl auf Verbesserungen in diesem Bereich noch einige Zeit warten. ;)

Im Bezug auf die Tessellation wäre es wohl schon ein vernünftiger Schritt, wenn man den Tessellator auf den normalen Dreiecksdurchsatz bringt, was dann etwa der dreifachen Leistung entsprechen würde:
http://www.hardware.fr/articles/795-5/dossier-nvidia-geforce-gtx-460.html

Man braucht wohl kaum einen GF100 um zu wissen das Cypress am Tesslator hängt.

Nakai

2010-07-23, 14:15:18

Was ist daran denn so unrealistisch? Ein Crytek Mitarbeiter aus diesem Forum (?) meinte mal, dass sie schon Mitte 2009 Samples von Cypress hatten. Wenn SI demnächst sein Tapeout hat, passt doch alles wunderbar.

Wirklich Cypress?
Eher Juniper.

Das einzige was man in diesem Stadium machen kann ist Binning und evtl. die Anzahl der Einheiten skalieren, aber nicht deren Grundaufbau.

AMD hat schon ungefähr gewusst, dass der 28nm-Prozess sich verspätet. Da hat man schon ziemlich früh anfangen können den Chip zu planen. Anfang 2009 in etwa.

Eher wird SI mehr Rasterizer, mehr Tesselatoren und bisschen mehr Recheneinheiten haben.

4 Rasterizer, 4 Tesselatoren und 1920SPs wäre mein Tipp.

Man wird auch eher nur 2 oder 3 Chips mit dieser Hardwarebasis bringen.

Einen Cypressersatz und ein Juniperersatz. Die anderen muss man nicht ersetzen, da sie trotzdem noch sehr gut aufgestellt sind.

Juniperersatz mit 960SPs und höherer Tesselationsleistung wäre sehr nett. Da wird man versuchen an die GTX465 ranzukommen und die HD5830 zu ersetzen.

mfg

Gast

2010-07-23, 14:17:12

Wenn AMD auch an das Märchen der langsamen Software-Tessellation von GF10x glaubte, dann dachte man bis 2009 vielleicht, dass man die deutlich überlegene Tessellations-Lösung hat. :D
Und ob die Leute bei AMD in der Lage sind, ein ähnliches Raterizing-Konzept wie bei GF10x auf die Beine zu stellen, muss sich erst zeigen. Alternativ setzt man hier vielleicht auch weiterhin auf einen Rohleistungsoverkill, den man sich durch die bessere Leistung pro Fläche erlauben kann, mit den 4D-ALUs optimiert man diese noch weiter.

Coda

2010-07-23, 14:43:53

Eher wird SI mehr Rasterizer, mehr Tesselatoren und bisschen mehr Recheneinheiten haben.

4 Rasterizer, 4 Tesselatoren und 1920SPs wäre mein Tipp.
Dir ist schon klar, dass man Rasterizer nicht einfach so skalieren kann? Vier Rasterizer würden bei AMDs derzeitiger Frontend-Architektur rein gar nichts bringen.

NVIDIA hat da ziemliche Klimmzüge veranstaltet um das wirklich skalierbar zu machen. Der Chip verteilt die Dreiecke nach dem Tri-Setup zunächst an Rasterizer-Bins, die dann erstmal wieder in die richtige Reihenfolge sortiert werden um die API-Specs nicht zu verletzen. AMD fällt sofort auf einen Rasterizer zurück wenn es außerhalb eines solchen Bins liegt.

Nakai

2010-07-23, 14:58:20

Dir ist schon klar, dass man Rasterizer nicht einfach so skalieren kann? Vier Rasterizer würden bei AMDs derzeitiger Frontend-Architektur rein gar nichts bringen.

Mhh, nein das wusste ich nicht...ich weiß sowieso eigentlich gar nix. Wie könnte man es denn sonst machen?

Um mal richtig auf unterstem Niveau zu spekulieren. Ist der/das Rasterizer/FrontEnd von der RV8xx-Serie dem Rasterizer der RV7xx-Serie sehr ähnlich(natürlich gibts krasse Unterschiede)?

Es ist ja bekannt, dass ATI Einiges am Cypress gespart um ihn klein zu halten. Möglichweise wurde das FrontEnd krass beschnitten, welches jetzt wieder eingeführt wird.

Und wieso wird SI als Zwischenschritt zum NI gesehen? Evtl war RV8xx eher der Rückschritt vom SI, welcher jetzt wieder gemacht wird.

Gipsel

2010-07-23, 15:24:51

Dir ist schon klar, dass man Rasterizer nicht einfach so skalieren kann? Vier Rasterizer würden bei AMDs derzeitiger Frontend-Architektur rein gar nichts bringen.

NVIDIA hat da ziemliche Klimmzüge veranstaltet um das wirklich skalierbar zu machen. Der Chip verteilt die Dreiecke nach dem Tri-Setup zunächst an Rasterizer-Bins, die dann erstmal wieder in die richtige Reihenfolge sortiert werden um die API-Specs nicht zu verletzen. AMD fällt sofort auf einen Rasterizer zurück wenn es außerhalb eines solchen Bins liegt.
Bist Du sicher, daß das so schwierig wäre? Immerhin arbeiten die beiden Rasterizer (einige nennen es ja lieber Scan Line Converter, obwohl es eigentlich synonym ist) bei Cypress schon schön getrennt nach Screen Space Tiles (wahrscheinlich 8x8 Pixel groß). Ein Rasterizer bekommt genau dann ein Dreieck, wenn es (zum Teil) in einem der Tiles liegt, die diesem Rasterizer zugeordnet sind. Die Dreiecke, die komplett in verschiedenen Tiles liegen, sind doch sowieso unabhängig, da spielt irgendein Ordering keine Rolle mehr. Die Zeichenreihenfolge muß nur innerhalb eines Tiles eingehalten werden, was aber eigentlich trivial ist, solange das Setup die Dreiecke in Order ausspuckt.

Im Prinzip müßte AMD nur das Setup so aufbohren, daß es zwei Dreiecke gleichzeitig ausspucken kann und noch so eine "coarse rasterization" macht, sprich feststellt, ob ein Dreieck komplett in einem Tile liegt oder mehrere überdeckt (Dave Baumann hat mal auf B3D angedeutet, daß die Cypress Setup-Engine das bereits macht, aber eben nur für ein tri/clock). Im ersten Fall geht beide Dreiecke eben an den zuständigen Rasterizer und fertig ist die Sauce. Im zweiten Fall (Dreieck liegt in mehreren Tiles), wird das Dreieck eben an beide Rasterizer geschickt. Das ist auch kein Problem, da nur bei sehr kleinen Dreiecken die Setup-Rate zum Flaschenhals wird und dann die vielen kleinen Dreiecke mehrheitlich sowieso in genau einem Tile liegen.

Damit diese simple Erweiterung klappt, muß man dann noch zwei genügend große FIFOs vor beide Rasterizer packen. Die Größe sollte so gewählt sein, daß es unwahrscheinlich ist, daß man einen komplett voll bekommt, weil so viele aufeinanderfolgende Dreiecke im gleichen Tile liegen. Bei 64 Pixeln Tilegröße und einem angenommenen worst case von 0,2 Pixeln pro Dreieck wäre also eine FIFO-Größe von 160 Einträgen angebracht. Will man auch noch im Schnitt 0,1 Pixel große Dreiecke ohne Einbrüche absolvieren, dann eben 320 Einträge.

deekey777

2010-07-23, 15:44:20

AMDs neue Grafikchips kommen Ende Oktober (http://www.heise.de/newsticker/meldung/AMDs-neue-Grafikchips-kommen-Ende-Oktober-1044422.html)

Coda

2010-07-23, 15:46:09

Bist Du sicher, daß das so schwierig wäre?
Ja.

Immerhin arbeiten die beiden Rasterizer (einige nennen es ja lieber Scan Line Converter, obwohl es eigentlich synonym ist) bei Cypress schon schön getrennt nach Screen Space Tiles (wahrscheinlich 8x8 Pixel groß). Ein Rasterizer bekommt genau dann ein Dreieck, wenn es (zum Teil) in einem der Tiles liegt, die diesem Rasterizer zugeordnet sind. Die Dreiecke, die komplett in verschiedenen Tiles liegen, sind doch sowieso unabhängig, da spielt irgendein Ordering keine Rolle mehr.
Und was passiert, wenn der eine Rasterizer ein Dreieck zuerst schreibt obwohl eines im anderen Rasterizer das größer ist eigentlich davor geschrieben werden müsste? Das ganze ist nicht trivial.

Schau dir diese Präsentation und das Paper mal an, dann erspar ich mir Schreibarbeit:
http://www.highperformancegraphics.org/media/Hot3D/HPG2010_Hot3D_NVIDIA.pdf
http://graphics.stanford.edu/papers/pomegranate/

davidzo

2010-07-23, 15:48:45

4 Rasterizer, 4 Tesselatoren und 1920SPs wäre mein Tipp.

Nein, AMD ist Fan von runden zahlen, man wird nicht über nacht mit diesen krummen zahlen anfangen, weder im speicherinterface noch in den ausfürhungseinheiten. 2000sp ist da imo realistischer und sollte anhand der bisher geschätzten diegrößen auch machbar sein.

Einen Cypressersatz und ein Juniperersatz. Die anderen muss man nicht ersetzen, da sie trotzdem noch sehr gut aufgestellt sind.

Da AMD Ende dieses jahrs verstärkt den immer wichtigeren mobilbereich angreifen will (und auch langsam mal sollte, denn da sind die margen gut und mittlerweile auch mehr kunden als im desktop) spricht eher einiges dafür die unteren Chips zu ersetzen. Derzeit hat man zwar eine gute Leistung pro Watt, aber nvidias Optimus nichts entgegen zu setzen, dass muss man dringend verbessern. Man wird also auch den unteren Bereich und die OEMs mit neuen chips bedienen. eher spricht einiges dafür dass man Juniper so belässt wie er ist, denn er ist einer der effizientesten evergreen chips und hat mit nur 166mm² diegröße und 12bit SI die womöglich höchste marge.

Cedar ist außerdem deutlich underpowered, da macht Intel ja schon mit der GMA HD der Core I5s zumindest im 3Dmark einigermaßen Konkurrenz. 80sp, das war schon vor zwei Jahren einstieg und ist mit der Vorstellung von Ontario und spätestens Llano für einen diskreten chip inaktzeptabel. Hier ist ein 200sp chip gleicher verlustleistungsklasse zu erwarten der wieder einen 2x Vorteil gegenüber der Sandybridge IGP und der in kürze erscheinenden OntarioAPU herstellt.

RV820 bzw. RV910 halte ich also in diesem Jahr für sehr wahrscheinlich- Ebenso wahrscheinlich ist allerdings auch Bewegung im oberen Highend, weil Cypress ja anscheinend weder den Prozess noch sonstige Grenzen die wir bei Gf100 so schön sehen können, ausreizt.

Coda

2010-07-23, 15:50:27

Nein, AMD ist Fan von runden zahlen, man wird nicht über nacht mit diesen krummen zahlen anfangen, weder im speicherinterface noch in den ausfürhungseinheiten. 2000sp ist da imo realistischer und sollte anhand der bisher geschätzten diegrößen auch machbar sein.
2000 ist aber nicht durch 16 * 4 teilbar.

Gast

2010-07-23, 15:53:04

Nein, AMD ist Fan von runden zahlen, man wird nicht über nacht mit diesen krummen zahlen anfangen, weder im speicherinterface noch in den ausfürhungseinheiten. 2000sp ist da imo realistischer und sollte anhand der bisher geschätzten diegrößen auch machbar sein.

2000 SPs sind nur schlecht möglich mit 4D ALUs. ;)
3x 10 SIMDs macht einen durchaus logischen Eindruck.

LovesuckZ

2010-07-23, 15:56:41

Damit diese simple Erweiterung klappt[...]

Wäre es so simple, hätte sie es schon bei Cypress erledigt. :rolleyes:

Aquaschaf

2010-07-23, 16:44:14

Wäre es so simple, hätte sie es schon bei Cypress erledigt. :rolleyes:

Bei Cypress kann man sagen dass das Frontend gerade so noch ausreicht.

Gast

2010-07-23, 16:44:32

Wäre es so simple, hätte sie es schon bei Cypress erledigt. :rolleyes:
Das muss nicht so sein.
Im Nachhinein ist Vieles einfach(er), da man Erfahrungswerte hat.

Sorkalm

2010-07-23, 16:52:10

Um den Veröffentlichungstermin gab es im Internet in den letzten Wochen teils heftige Spekulationen, oft sprach man dabei vom Monat Oktober. Intern war AMD aber wohl gerade erst dabei, Pläne für den Marktstart zu schmieden.

Wie heise online heute aus verlässlicher, unternehmensinterner Quelle erfuhr, steht der Termin erst seit kurzem fest. Tatsächlich will AMD die Southern-Islands-Chips wohl zwischen dem 15. und 29. Oktober vorstellen.

Auf Heise Online:
AMDs neue Grafikchips kommen Ende Oktober (http://www.heise.de/newsticker/meldung/AMDs-neue-Grafikchips-kommen-Ende-Oktober-1044422.html)

Bucklew

2010-07-23, 17:03:21

"Bis erste Grafikkarten dann tatsächlich in ausreichenden Stückzahlen verfügbar sind, dürfte es aber noch etwas dauern."

Das wäre dann allerdings ziemlich peinlich...

deekey777

2010-07-23, 17:10:38

"Bis erste Grafikkarten dann tatsächlich in ausreichenden Stückzahlen verfügbar sind, dürfte es aber noch etwas dauern."

Das wäre dann allerdings ziemlich peinlich...
Klar, das ist ja ein Zeichen der Schwäche. Nvidia ist so stark, dass sie nach der Veröffentlichung der Evergreen-Generation erst gar keine DX11-Geforces liefern wollten.

Gast

2010-07-23, 17:13:10

"Bis erste Grafikkarten dann tatsächlich in ausreichenden Stückzahlen verfügbar sind, dürfte es aber noch etwas dauern."

Das wäre dann allerdings ziemlich peinlich...
Schlimmer als ein >6-monatiger Rückstand im D3D11-Portfolio, wie ihn NV aktuell hat, kann es wohl nicht werden. :D
Das Weihnachtsgeschäft dürfte man mit einem solchen Launch wohl aber gut abdecken.

LovesuckZ

2010-07-23, 17:26:14

Das muss nicht so sein.
Im Nachhinein ist Vieles einfach(er), da man Erfahrungswerte hat.

Dave Baumann betont doch dauernd im Beyond3d.com Forum, wie toll AMD ist, da sie Tessellation ja schon seit Jahren unterstützen würden. Ich würde es befremdlich finden, wenn sie nicht schon bei der Konzeptierung von Cypress wussten, dass ihre Implementierung für DX11-Tessellation von der Leistung einfach ungeeignet ist. Viel schlimmer ist daher, dass sie keine Anstalten verwendet haben, um dagegen vorzugehen. nVidia schaffte es im Stehgreif von 0-100 und hat eine 8x so gute Tessellation-Leistung.

Bei Cypress kann man sagen dass das Frontend gerade so noch ausreicht.

Da das Front-End einen erherblichen Teil zu der erbärmlichen Tessellationleistung beifügt, sehe ich nicht, wie es noch "ausreichend" für eine High-End DX11 Karte sein könnte.

Gast

2010-07-23, 17:32:26

Da das Front-End einen erherblichen Teil zu der erbärmlichen Tessellationleistung beifügt, sehe ich nicht, wie es noch "ausreichend" für eine High-End DX11 Karte sein könnte.
Wäre es bei GF100 bei einem 1 Rasterizer-Setup mit Software-Tessellation geblieben, wäre wohl Cypress' Setup mit fast 300 Mio. Dreiecken bei Tessellation alles andere als erbärmlich.

LovesuckZ

2010-07-23, 17:38:03

Wäre es bei GF100 bei einem 1 Rasterizer-Setup mit Software-Tessellation geblieben, wäre wohl Cypress' Setup mit fast 300 Mio. Dreiecken bei Tessellation alles andere als erbärmlich.

Die Ironie ist doch eher, dass es nie Aussagen von irgendeiner Seite gab, dass nVidia bei einer Setup-Engine bleiben würde. ;)
Coda hat doch auch schon im Jahr 2009 spekuliert, dass nVidia sich diesem Flaschenhals annehmen werde.

Gast

2010-07-23, 17:39:59

Da das Front-End einen erherblichen Teil zu der erbärmlichen Tessellationleistung beifügt, sehe ich nicht, wie es noch "ausreichend" für eine High-End DX11 Karte sein könnte.
Die Tesselationsleistung nennst du erbärmlich?
Das ist jawohl ein Witz.
Die Leistung ist vielleicht nicht überragend, aber locker ausreichend.
Wenn die Cypressen auf ein Fünftel der Tesselations-Leistung des GF100 kämen, dann wäre es erbärmlich.
Ich habe noch kein Spiel gesehen, wo der GF100 dem Cypress bei der Tessleistung deutlich überlegen ist.
Die Tessleistung des Cypress reicht locker.
Da werden sicherlich ganz andere Sachen limitieren, aber nicht die Tessleistung.
Wenn du anderer Meinung bist, da hau mal ein paar Beispiele raus, die dein Geschreibsel belegen.
Sonst ist es nur heiße Luft, die von dir kommt. :P

LovesuckZ

2010-07-23, 17:48:42

Die Leistung ist vielleicht nicht überragend, aber locker ausreichend.
Wenn die Cypressen auf ein Fünftel der Tesselations-Leistung des GF100 kämen, dann wäre es erbärmlich.

Es ist und bleibt 1/8 bei 5/8 der Größe und 4/8 des Stromverbrauches.
Und das Spieleargument ist so erbärmlich, da kann man nur den Kopf schütteln. Aber zum Glück kann man dann ja wieder an anderer Stelle das DX11 Argument bei den Verkaufszahlen anführen. :rolleyes:

Gast

2010-07-23, 17:53:09

Und das Spieleargument ist so erbärmlich, da kann man nur den Kopf schütteln.
Wenn du das ernst meinst, dann bist hier nur DU erbärmlich.
Es zählt immer, was hinten rauskommt.
Was habe ich als Gamer von einer höheren theoretischen Leistung, wenn ich davon in Games nichts merke?
Richtig, garnichts.
Wir sprechen doch hier über Gamerkarten, oder? :rolleyes:

LovesuckZ

2010-07-23, 17:56:55

Wir sprechen doch hier über Gamerkarten, oder? :rolleyes:

Ich sprach von der Geometrie- und Tessellationleistung, die bei Cypress auch aufgrund des Front-Ends miserabel ist und das es jedenfalls nicht so "simple" wäre, es einfach mal so zu verbessern.
Würde ich deiner verdrehten Logik folgen, gäbe es ja keinen Grund, an der Leistung irgendwas zu ändern, weil es sich heute garnicht auswirken würde.

Bucklew

2010-07-23, 17:59:09

Schlimmer als ein >6-monatiger Rückstand im D3D11-Portfolio, wie ihn NV aktuell hat, kann es wohl nicht werden. :D
Ist im Grunde geschenkt, wo ATI jetzt die Verbesserung erst mal nachholen muss, die Nvidia bereits hat einfließen lassen in Fermi. Relativiert natürlich den "Vorsprung" von ATI mit Cypress.

Das Weihnachtsgeschäft dürfte man mit einem solchen Launch wohl aber gut abdecken.
Hat ja bei der 5000er Reihe wunderbar funktioniert ;D

Gipsel

2010-07-23, 18:01:16

Und was passiert, wenn der eine Rasterizer ein Dreieck zuerst schreibt obwohl eines im anderen Rasterizer das größer ist eigentlich davor geschrieben werden müsste? Das ganze ist nicht trivial.
Wie gesagt arbeiten schon jetzt die beiden Rasterizer von Cypress auf unterschiedlichen Screen Space Tiles. Insofern muß die Reihenfolge zwischen Dreiecken in verschiedenen Tiles (also verschiedenen Rasterizern) nicht eingehalten werden. Nur innerhalb eines Tiles muß das geschehen, was die aber jetzt auch schon machen, also ist diese Anforderung bereits erfüllt und keine Änderungen erforderlich. Nur das Setup mußt Du verbreitern und vielleicht die FIFOs vor den Rasterizern wie beschrieben etwas vergrößern. Dann bist Du fertig.
Schau dir diese Präsentation und das Paper mal an, dann erspar ich mir Schreibarbeit:
http://www.highperformancegraphics.org/media/Hot3D/HPG2010_Hot3D_NVIDIA.pdf
http://graphics.stanford.edu/papers/pomegranate/
Wie gesagt, die Rasterizer bei Cypress teilen sich den Bildschirm schon genau wie bei Fermi in Tiles untereinander auf, so daß dort keine weitere Beachtung der Reihenfolge nötig ist (steht so auch im nv pdf). Dann wird da noch erwähnt, daß beim Setup die Ordnung eingehalten werden muß (bei Pomegranate übrigens nicht!). Nvidia splittet das in zwei Teile (OWDX, SWDX), wozwischen noch eine Crossbar sitzt. OWDX macht genau das, was ich "coarse rasterization" genannt habe (ist im Prinzip das Binning in die Tiles), und was Cypress eben auch schon integriert hat. Das einzige, was dann noch übrig bleibt, ist der SWDX genannte Teil, der die API-Ordnung wiederherstellt. Den benötigt man aber meiner Meinung auch nicht unbedingt (bzw. wird der ziemlich einfach), wenn man nicht auf ein wirklich paralleles Frontend setzt (bei nv gibt es praktisch 4 unabhängige). Bei nvidia kann die eine Engine der anderen vollkommen weglaufen, wodurch eben die Ordnung durcheinander kommt. Nvidia tagged doch wahrscheinlich die Primitives auch nur, und sammelt die vor den Rasterengines in einem Puffer, bis die richtige Reihenfolge wieder steht. Insofern ist das auch bei nvidia wohl nur ein spezialisierter Puffer, also nichts wirklich Weltbewegendes. Diesen Puffer gibt es bei ATI mit einiger Wahrscheinlichkeit in irgendeiner Form auch bereits (nur wahrscheinlich für den Zweck bisher zu klein), da sonst schon bisher die GS-, Vertex-Shader usw. auch kaum ordentlich laufen würden.

Der "Nachteil" des Ganzen wäre, daß man sich immer noch Arbeit für die Zukunft gelassen hat. Denn eine weitere Skalierung der Einheitenzahlen erfordert irgendwann dann wirklich paralleles Frontend á la Pomegranate. Cypress mit einem verdoppelten Setup wäre nach der Klassifikation in dem Pomegranate-Paper übrigens so eine Art sort-middle-Architektur. Übrigens geht auch der Fermi nicht den vollen Weg zur überall parallelen Architektur. Ansonsten wäre den Rasterizern nicht wie bei Cypress feste Screen Space Tiles zugeordnet. Also nach nvidias pdf haben sie auch nur eine sort-middle-Architektur (aber mit "paralleleren" Geometrieengines als ATI) in Hardware gegossen und kein Pomegranate-Äquivalent. Eventuell sollten die ihre Leistung also nicht ganz so hoch hängen ;)

PS:
Gerade mal bis zum Ende des Papers gekommen, wo die die Skalierbarkeit der verschiedenen Architekturen vergleichen. Wenn man mal von den anderen Tile-Größen absieht, ist Cypress ist im Prinzip eine Sort-Middle-Interleaved-Architektur (Tris gehen an alle Rasterizer, sprich, man limitiert den Durchsatz auf z.B. 1 Tri/clock). Wie geschildert kann man ihn aber recht einfach in eine Sort-Middle-Tiled (Tris gehen nur an den zuständigen Rasterizer)-Architektur umbauen, die in bestimmten Situationen schon erheblich besser skaliert. Aber insgesamt sind die Simulationen da nicht 1:1 auf heutige Architekturen übertragbar (Pomegranate stammt ja aus 2001), da die Auslegung heutiger GPUs sich doch deutlich von den dort konzipierten und simulierten Sachen unterscheidet. Eine Annahme dort ist z.B., daß auf eine Geometrie-Pipeline immer ein Rasterizer und auch jeweils eine Pixel-Pipeline kommt. Dieses ist aber natürlich überhaupt nicht erfüllt. Während die Anzahl der Shadereinheiten fröhlich skaliert wurde (was bisher ohne gravierende Skalierungsprobleme möglich war), ist bekanntermaßen die Anzahl der Setup/Rasterengines sehr lange bei genau 1 geblieben. GPUs in naher Zukunft werden ebenfalls eine große Menge von Geometrie- und Pixelleistung mit einer deutlich geringeren Anzahl von Rasterengines kombinieren. In diesem Licht sind auch die Grafiken zur Skalierung in dem Paper zu lesen. Schlußendlich skaliert sort-middle-tiled bis zu einer Anzahl von 8 Rasterengines praktisch exakt wie das volle Pomegranate-Design in den drei untersuchten Szenarien. Erst oberhalb dessen werden deutliche Unterschiede sichtbar. Also wahrscheinlich benötigt man zur Zeit noch gar nicht eine voll parallelisierte Architektur (Fermi ist ja auch noch keine).

Gast

2010-07-23, 18:01:52

Würde ich deiner verdrehten Logik folgen, gäbe es ja keinen Grund, an der Leistung irgendwas zu ändern, weil es sich heute garnicht auswirken würde.
Ich sehe auch ehrlich gesagt nicht unbedingt die Notwendigkeit etwas ändern zu müssen.
Die Evergreens gehören zu den besten Serien, die AMD/ATI je gebracht hat.
Gut, der R300 war zeitbezogen noch besser, aber auch nur, weil Nvidia mit der FX so verkackt hat.

Coda

2010-07-23, 18:03:18

Wie gesagt arbeiten schon jetzt die beiden Rasterizer von Cypress auf unterschiedlichen Screen Space Tiles. Insofern muß die Reihenfolge zwischen Dreiecken in verschiedenen Tiles (also verschiedenen Rasterizern) nicht eingehalten werden. Nur innerhalb eines Tiles muß das geschehen, was die aber jetzt auch schon machen, also ist diese Anforderung bereits erfüllt und keine Änderungen erforderlich. Nur das Setup mußt Du verbreitern und vielleicht die FIFOs vor den Rasterizern wie beschrieben etwas vergrößern. Dann bist Du fertig.
Sorry, aber so einfach ist es nicht. Ich hab derzeit aber keine Zeit viel dazu zu schreiben.

Cypress hat ein serielles Bottleneck, weil es die Ordnung nach dem Trisetup einhalten muss. Das ist bei Fermi nicht der Fall. Die einzelnen Trisetups von Fermi können nach dem Vertex-Shader unabhängig voneinander Dreiecke über die Crossbar an die Rasterizer geben.

Fetter Fettsack

2010-07-23, 18:04:02

Zitat von LovesuckZ

Ich würde es befremdlich finden, wenn sie nicht schon bei der Konzeptierung von Cypress wussten, dass ihre Implementierung für DX11-Tessellation von der Leistung einfach ungeeignet ist. Viel schlimmer ist daher, dass sie keine Anstalten verwendet haben, um dagegen vorzugehen. nVidia schaffte es im Stehgreif von 0-100 und hat eine 8x so gute Tessellation-Leistung.

Vielleicht sollte man sich da auch fragen, ob es eventuell eher am Wollen denn am Können scheiterte.

Gipsel

2010-07-23, 18:06:51

Wäre es so simple, hätte sie es schon bei Cypress erledigt. :rolleyes:
Auch simple Sachen kosten Diesize ;)
Nur weil man weiß, wie etwas geht, und es im Prinzip kein größeres Problem wäre es einzubauen, kann man trotzdem die Entscheidung treffen, es nicht zu tun.
Insgesamt sieht Cypress schon so aus, als wenn ein verdoppeltes Setup im Prinzip schon vorgesehen ist. Ob das jetzt im Zuge der Überarbeitung an irgendeiner Stelle rausgeflogen ist, entzieht sich allerdings unser aller Kenntnis.

Coda

2010-07-23, 18:08:58

Es ist definitiv nicht damit getan einen Fifo zu vergrößern Gipsel. Ganz sicher nicht.

Gipsel

2010-07-23, 18:11:18

Sorry, aber so einfach ist es nicht. Ich hab derzeit aber keine Zeit viel dazu zu schreiben.

Cypress hat ein serielles Bottleneck, weil es die Ordnung nach dem Trisetup einhalten muss. Das ist bei Fermi nicht der Fall. Die einzelnen Trisetups von Fermi können nach dem Vertex-Shader unabhängig voneinander Dreiecke über die Crossbar an die Rasterizer geben.
Hmm, laut dem von Dir verlinkten pdf von nv stellt auch Fermi die API-Ordnung vor dem Setup wieder her ;), steht direkt so auf Seite 19. Nur eben getrennt für jedes Screen-Tile (der "work distribution crossbar", den die zwischen OWDX und SWDX malen, macht einfach nur das Verteilen der Dreiecke an den richtigen Rasterizer entsprechend den Screen Tiles). Ich habe ja nicht umsonst gesagt, daß Fermi auch nur eine sort-middle-tiled Architektur in der Notation des Pomegranate-Papers ist. Diese Wiederherstellung der API-Ordnung könnte auch schon komplett vor dem Screen-Tile-Binning erfolgen, man benötigt dann nur einen einzelnen größeren Puffer (der im Prinzip bei ATI jetzt schon existieren muß) mit mehr Ports, was ziemlich sicher aufwendiger umzusetzen ist, als 4 kleine (für jede Rasterengine einen). Aber ein prinzipieller Unterschied ist das in meinen Augen nicht.

LovesuckZ

2010-07-23, 18:12:55

Auch simple Sachen kosten Diesize ;)
Nur weil man weiß, wie etwas geht, und es im Prinzip kein größeres Problem wäre es einzubauen, kann man trotzdem die Entscheidung treffen, es nicht zu tun.

Nein, in keinster Weise. nVidia hat gegenüber PCGH.de behauptet, dass die Überarbeitung im Front-End Bereich ca. 10% mehr Die-Size benötigt habe. Wenn man dafür aber die Tessellationleistung um Faktor 2,3 oder 4. erhöhen kann, nimmt jeder dies mit.

Insgesamt sieht Cypress schon so aus, als wenn ein verdoppeltes Setup im Prinzip schon vorgesehen ist. Ob das jetzt im Zuge der Überarbeitung an irgendeiner Stelle rausgeflogen ist, entzieht sich allerdings unser aller Kenntnis.

Als Laie sage ich klar nein. Cypress sieht imm Front-End Bereich fast genauso aus wie ein rv770.

Gast

2010-07-23, 18:14:32

"Und das Spieleargument ist so erbärmlich, da kann man nur den Kopf schütteln"
An was du denn sonst die aktuelle Leistung fest? Stonegiant und Unigine, aber bitte nichts anderes , oder was. Ich wette, dass man zu Lebzeiten der Karte nie irgendwelchen Nutzen als Gamer aus der Tessleistung ziehen wird, aber bald die magere Shaderleistung und Texleistung zu spüren bekommen wird. Fakt: Für nahezu die selbe Leistung in Games braucht NV aktuell 48,5% mehr Transistoren als Ati. Der Stromverbrauch liegt dann noch mal 60% darüber. Und als stock Version undervoltet werden muss, damit der Chip nicht verbrennt, wenn man keine 5 Gehäuselüfter hat.
Und dann schaffen sie es sogar noch tatsächlich in einer Disziplin schneller zu sein; leider wird diese in den nächsten 5 Jahren kein KO-Kriterium sein. Großes Kino... Wenn Ati auch nur ein annährend ähnlich großen Chip zum Ende des Jahres vorstellt, kann sich NV mal so richtig warm anziehen. Wort drauf.

Coda

2010-07-23, 18:15:15

Hmm, laut dem von Dir verlinkten pdf von nv stellt auch Fermi die API-Ordnung vor dem Setup wieder her ;).
Ich meinte bei "Setup" natürlich die Viewport-Transformation. Das Edge-Setup zähle ich zum Rasterizer.

Cypress hat das Problem, dass wenn viele Dreiecke des Tesselators in eine Rasterizer-Bin fallen er sofort stallt. Das passiert bei Fermi nicht, denn es kann unabhängig davon weitergearbeitet werden.

Das kann auch nicht durch einen größeren FIFO vor den Rasterizern gelöst werden. Man braucht dazu eine Out-Of-Order-Verarbeitung von den Dreiecken in irgendeiner Weise, sonst hat man immer diesen seriellen Bottleneck bei einem Rasterizer.

Gipsel

2010-07-23, 18:23:07

Als Laie sage ich klar nein. Cypress sieht imm Front-End Bereich fast genauso aus wie ein rv770.
Hmm, Du meinst bis auf die zwei (statt einem wie bei RV770) Rasterizer die genau wie die Rasterizer bei Fermi die Arbeit nach Screen Space Tiles untereinander aufteilen und den zwei Hierachical-Z-Units (statt einer bei RV770)?

Gast

2010-07-23, 18:23:29

Nein, in keinster Weise. nVidia hat gegenüber PCGH.de behauptet, dass die Überarbeitung im Front-End Bereich ca. 10% mehr Die-Size benötigt habe. Wenn man dafür aber die Tessellationleistung um Faktor 2,3 oder 4. erhöhen kann, nimmt jeder dies mit.

Als Laie sage ich klar nein. Cypress sieht imm Front-End Bereich fast genauso aus wie ein rv770.

Gibt es da auch einen Laie link zu?

Coda

2010-07-23, 18:25:02

Hmm, Du meinst bis auf die zwei (statt einem wie bei RV770) Rasterizer die genau wie die Rasterizer bei Fermi die Arbeit nach Screen Space Tiles untereinander aufteilen und den zwei Hierachical-Z-Units (statt einer bei RV770)?
Es sind zwei Rasterizer, aber davor ist wohl alles gleich. Eine serielle Queue die von einem, oder zwei Screenspace/Tri-Setups abgearbeitet wird.

Verstehst du wirklich nicht das Problem an diesem Punkt?

Coda

2010-07-23, 18:33:06

Mal ein Beispiel. Wir haben vier Dreiecke die sehr hoch tesseliert werden (sagen wir zu jeweils 100 Dreiecken) und vier Rasterizer die die Screenspace-Blöcke A, B, C und D verarbeiten.

Die vier Dreiecke liegen zufällig hauptsächlich jeweils auf einem dieser Blöcke, überschneiden aber auch die anderen.

Was passiert jetzt bei Cypress? Er fängt an ein Dreieck zu tesselieren und gibt die resultierenden Dreiecke in die Queue, woraufhin in fast allen Fällen nur ein Rasterizer beschäftigt werden kann. Da hilft auch keine lange Queue, und auch mehr Rasterizer würden nicht helfen.

Fermi: Alle vier Dreiecke kommen gleichzeitig in die Geometrie-Pipeline, die resultierenden Dreiecke werden über die Crossbar auf die vier Rasterizer verteilt und SWDX sorgt dafür, dass dabei auch ja nichts durcheinander kommt. Vor allem den letzen Punkt finde ich nach wie vor beeindruckend - ich wüsste nicht wie man das skalierbar implementiert.

Black-Scorpion

2010-07-23, 18:41:02

Ist im Grunde geschenkt, wo ATI jetzt die Verbesserung erst mal nachholen muss, die Nvidia bereits hat einfließen lassen in Fermi. Relativiert natürlich den "Vorsprung" von ATI mit Cypress.

Hat ja bei der 5000er Reihe wunderbar funktioniert ;D
Dir ist auch echt nichts zu schade um Nvidia gut dastehen zu lassen.

Gast

2010-07-23, 18:43:29

Dir ist auch echt nichts zu schade um Nvidia gut dastehen zu lassen.

Der Hammer ist ja das diese Verbesserungen auch bei jedem zweiten Spiel greifen. :ugly:

LovesuckZ

2010-07-23, 18:47:38

Hmm, Du meinst bis auf die zwei (statt einem wie bei RV770) Rasterizer die genau wie die Rasterizer bei Fermi die Arbeit nach Screen Space Tiles untereinander aufteilen und den zwei Hierachical-Z-Units (statt einer bei RV770)?

Ich sehe nach dem was nVidia über Fermi sagte und dem Schaubild von AMD nur eine Geometriepipeline vor den Rasterizer. Sie sind bei einer seriellen Abarbeitung der Geometrieberechnungen bis zur Zusammensetzung der Dreiecke geblieben. nVidia machte soviel Aufregung darum, was für ein Erfolg die parrallelarbeitenden Geometrieeinheiten seien, da finde ich es absurd von "simple" zu sprechen, es mit Cypress gleichzutun. Vorallem, weil AMD es auch umgesetzt hätte, wenn es so "simple" gewesen wäre.

Gipsel

2010-07-23, 18:47:41

Ich meinte bei "Setup" natürlich die Viewport-Transformation.
Die eigentliche Transformation kannst Du auch voll parallel in den Shadern machen (und dann eine Einheitsmatrix für die Viewmatrix setzen), das ist überhaupt kein Problem. Und was am Clippen und Cullen nun so schwierig zu parallelisieren sein soll, müßtest Du mir mal erklären.

Cypress hat das Problem, dass wenn viele Dreiecke des Tesselators in eine Rasterizer-Bin fallen er sofort stallt. Das passiert bei Fermi nicht, denn es kann unabhängig davon weitergearbeitet werden.
Nach dem Tesselator kommen ja erst mal noch Domain- und Geometrieshader, die natürlich bei beiden parallel laufen. Erst danach kommen die Rasterizer Bins ins Spiel. Und ich habe jetzt schon mehrfach betont, daß die Rasterizer-Bins bei Cypress und Fermi prinzipiell genau gleich gebildet werden, nämlich ist für jeden kleinen Flecken auf dem Bildschirm genau ein Rasterizer zuständig. Da unterscheiden sich Fermi und Cypress genau gar nicht. Auch Fermi bekommst Du natürlich zum Stallen, wenn der/die Tesselator extrem viele Dreiecke in einem einzigen Screen-Tile erzeugt (oder auch in verschiedenen, die auf den gleichen Rasterizer gemappt sind). Das wird nämlich (anders als bei Pomegranate!) nicht auf einen beliebigen Rasterizer verteilt. Das ist in dem nv-pdf übrigens auch auf Seite 17 und 19 erwähnt.

Also kurz gesagt, nein, wenn einer der Puffer vor den Rasterizern voll ist, dann stallt auch Fermi.

Das kann auch nicht durch einen größeren FIFO vor den Rasterizern gelöst werden. Man braucht dazu eine Out-Of-Order-Verarbeitung von den Dreiecken in irgendeiner Weise, sonst hat man immer diesen seriellen Bottleneck bei einem Rasterizer.
Wie schon gesagt, der einzelne Puffer vor dem Setup (der die Reihenfolge wieder gemäß dem ganz am Anfang erfolgten Tagging wiederherstellt) kann funktionsgleich in jeweils einen vor jedem Rasterizer überführt werden (4 Puffer der Größe x mit n Ports sind billiger zu implementieren als ein Puffer der Größe 4x und mit 4n Ports, an der Funktion ändert sich aber so ziemlich nichts). Der übernimmt dann auch gleich die Aufgabe des FIFOs (wäre ja bescheuert einen Puffer für's Reordering zu haben und noch einen FIFO dahinterzuklemmen).

Gast

2010-07-23, 18:53:09

Auch simple Sachen kosten Diesize

Hmm, Du meinst bis auf die zwei (statt einem wie bei RV770) Rasterizer die genau wie die Rasterizer bei Fermi die Arbeit nach Screen Space Tiles untereinander aufteilen und den zwei Hierachical-Z-Units (statt einer bei RV770)?

Interessant. Sieht für mich so aus, als ob man bei Cypress nen doppelten RV770 FrontEnd drangeklatscht hat und den alten Kostenintensiven entfernt hat um Größe zu sparen.

Mein Tipp. Neues altes Frontend und ähnliche Anzahl an Einheiten.

Coda

2010-07-23, 18:59:56

Die eigentliche Transformation kannst Du auch voll parallel in den Shadern machen (und dann eine Einheitsmatrix für die Viewmatrix setzen), das ist überhaupt kein Problem. Und was am Clippen und Cullen nun so schwierig zu parallelisieren sein soll, müßtest Du mir mal erklären.
Das ist mir schon klar. Es ist nicht schwer zu parallelisieren. Was schwer ist das ganze dann von Out-Of-Order wieder In-Order zu rastern.

Nach dem rasterizer kommen ja erst mal noch Domain- und Geometrieshader, die natürlich bei beiden parallel laufen.
Nein davor natürlich. Was redest du da? Das war ein Versehen, oder?

Und ich habe jetzt schon mehrfach betont, daß die Rasterizer-Bins bei Cypress und Fermi prinzipiell genau gleich gebildet werden, nämlich ist für jeden kleinen Flecken auf dem Bildschirm genau ein Rasterizer zuständig.
Auch das ist mir bekannt. Nur leider hilft das ATI nichts, wenn sie die Bins nicht auslasten können.

Wie schon gesagt, der einzelne Puffer vor dem Setup (der die Reihenfolge wieder gemäß dem ganz am Anfang erfolgten Tagging wiederherstellt) kann funktionsgleich in jeweils einen vor jedem Rasterizer überführt werden (4 Puffer der Größe x mit n Ports sind billiger zu implementieren als ein Puffer der Größe 4x und mit 4n Ports, an der Funktion ändert sich aber so ziemlich nichts). Der übernimmt dann auch gleich die Aufgabe des FIFOs (wäre ja bescheuert einen Puffer für's Reordering zu haben und noch einen FIFO dahinterzuklemmen).
Das kann man sicher so machen, ja. Nur bisher gibt es weder eine Crossbar, noch einen Reorder-Buffer bei ATI.

Gipsel

2010-07-23, 19:03:20

Mal ein Beispiel. Wir haben vier Dreiecke die sehr hoch tesseliert werden (sagen wir zu jeweils 100 Dreiecken) und vier Rasterizer die die Screenspace-Blöcke A, B, C und D verarbeiten.

Die vier Dreiecke liegen zufällig hauptsächlich jeweils auf einem dieser Blöcke, überschneiden aber auch die anderen.

Was passiert jetzt bei Cypress? Er fängt an ein Dreieck zu tesselieren und gibt die resultierenden Dreiecke in die Queue, woraufhin in fast allen Fällen nur ein Rasterizer beschäftigt werden kann. Da hilft auch keine lange Queue, und auch mehr Rasterizer würden nicht helfen.

Fermi: Alle vier Dreiecke kommen gleichzeitig in die Geometrie-Pipeline, die resultierenden Dreiecke werden über die Crossbar auf die vier Rasterizer verteilt und SWDX sorgt dafür, dass dabei auch ja nichts durcheinander kommt. Vor allem den letzen Punkt finde ich nach wie vor beeindruckend - ich wüsste nicht wie man das skalierbar implementiert.Problem daran ist, den letzten Punkt macht Fermi gar nicht ;)
SWDX sitzt wie gesagt vor den Rasterizern. Da wird gar nichts auf die Rasterizer verteilt, sondern nur noch umgeordnet (in die richtige Reihenfolge gebracht). Auch bei Fermi ist genau wie bei Cypress der Rasterizer, der ein Dreieck bearbeitet eindeutig durch die Screenspace-Koordinaten definiert. Wie gesagt, schau Dir mal seite 17 und 19 von dem von Dir verlinkten nvidia-pdf mal genau an!

Coda

2010-07-23, 19:04:55

Problem daran ist, den letzten Punkt macht Fermi gar nicht ;)
Na sicher macht er das. Die Dreiecke von mehreren Tesselations-Pipelines können schließlich in einen Bin fallen und dabei darf sich die Draw-Order nicht ändern.

Gipsel

2010-07-23, 19:06:02

Nein davor natürlich. Was redest du da? Das war ein Versehen, oder?Ich meinte natürlich Tesselator. Ergibt sich hoffentlich aus dem Kontext mit dem Zitat vorher. Editier ich gleich mal oben.

Coda

2010-07-23, 19:06:42

Ich meinte natürlich Tesselator. Ergibt sich hoffentlich aus dem Kontext mit dem Zitat vorher. Editier ich gleich mal oben.
Spielt auch keine Rolle. Mir ist bewusst, dass sich bisher alles wunderbar parallelisieren lässt außer der Rasterisierung. Darum geht's ja schließlich.

Gipsel

2010-07-23, 19:14:33

Das kann man sicher so machen, ja. Nur bisher gibt es weder eine Crossbar, noch einen Reorder-Buffer bei ATI.
Nun, das einzelne Setup muß jetzt die Dreiecke ja auch schon an zwei Rasterizer verteilen. Wenn da zwei Dreiecke/Takt rauskommen würden, hättest Du Deine Crossbar ;)

Und so einen Reorder-Puffer gibt es ziemlich sicher auch schon bei Cypress. Irgendwie muß ja der GS- und DS-Output sortiert werden, der laut AMD jetzt auch schon über zwei Geometry-Assembler komplett auf beiden SIMD-Blöcke verteilt generiert wird. Ich vermute, daß der momentan bloß einfach zu klein ist bzw. zu wenig Bandbreite hat, was auch ein Grund der schlechten Domain-Shader-Performance bei ATI sein könnte.

Coda

2010-07-23, 19:16:31

Cypress hat nur einen Tesselator, wozu sollte man da irgendwas neu ordnen müssen?

Die Dreiecke werden genau in der Reihenfolge gerastert wie sie aus dem Domain-Shader hinten rausfallen.

Gipsel

2010-07-23, 19:17:12

Na sicher macht er das. Die Dreiecke von mehreren Tesselations-Pipelines können schließlich in einen Bin fallen und dabei darf sich die Draw-Order nicht ändern.
Ändert aber nichts daran, daß wenn viele Dreiecke in ein Raster-Bin (Ein Screen Tile) fallen, Fermi genauso stallt wie Cypress, denn das war doch der Punkt, Fermi betreibt kein Load-Balancing über die Screen-Tiles.

Coda

2010-07-23, 19:20:56

Ändert aber nichts daran, daß wenn viele Dreiecke in ein Raster-Bin (Ein Screen Tile) fallen, Fermi genauso stallt wie Cypress, denn das war doch der Punkt, Fermi betreibt kein Load-Balancing über die Screen-Tiles.
Mit dem klitzekleinen Unterschied, dass bei Fermi dann nur eine der Geometrie-Pipelines stallt von vier.

Denn das alle vier gerade an einem Dreieck arbeiten bzw. dieses tesselieren und sämtliche dabei entstehenden Dreiecke in die Bins von einem Rasterizer fallen ist sehr unwahrscheinlich.

Tarkin

2010-07-23, 19:31:09

AMDs neue Grafikchips kommen Ende Oktober (http://www.heise.de/newsticker/meldung/AMDs-neue-Grafikchips-kommen-Ende-Oktober-1044422.html)

Wie heise online heute aus verlässlicher, unternehmensinterner Quelle erfuhr, steht der Termin erst seit kurzem fest. Tatsächlich will AMD die Southern-Islands-Chips wohl zwischen dem 15. und 29. Oktober vorstellen. Die Presse könnte bereits Anfang des Monats eingeweiht werden. Bis erste Grafikkarten dann tatsächlich in ausreichenden Stückzahlen verfügbar sind, dürfte es aber noch etwas dauern.

boxleitnerb

2010-07-23, 19:50:12

Also wieder so eine Art Paperlaunch? Wieso kann man nicht die Karten vorstellen und sie am selben Tag in Massen verkaufen?

Coda

2010-07-23, 19:53:55

Ich denke eher man stellt die Chips nicht alle am gleichen Tag vor.

HarryHirsch

2010-07-23, 19:58:57

Ne nee, das wird nen Paperlaunch...
Ich bestelle die Karten zum ende des NDA und hab sie 3 Tage später.

Gast

2010-07-23, 20:11:54

Interessant. Sieht für mich so aus, als ob man bei Cypress nen doppelten RV770 FrontEnd drangeklatscht hat und den alten Kostenintensiven entfernt hat um Größe zu sparen.

Ob mal ein anderer mit womöglich höherer Tesselationleistung geplant war, können uns nur firmeninterne Unterlagen von Ati sagen. Vielleicht wurde hier wirklich schon etwas für NI vorbereited und man ging davon aus, dass die Tesselationleistung mit den 2 Rasterizern ausreicht für Spiele der näheren Zukunft, was ja auch stimmt.

Die große Arbeit wurde bei der Entwicklung des RV770 getan. Dort hat man die Shader-Cluster stark überarbeitet ( neuer Sheduler usw. )

Der RV770 wurde dann auf DX11 hin optimiert und zum RV840.
2*RV840 ergint dann RV870 mal so ganz einfach gesagt.

Weiß einer, ob es Sinn amchen würde bei SI pro Shaderblock einfach z.B.
3 statt einen Rasterizer einzubauen, und diese die Instructionen vom Tesselator dann auch geeignet parallelisieren könnten?

svenw

2010-07-23, 21:01:44

Vorstellung im Oktober, das könnte mit dem Weihnachtsgeschäft knapp passen, abhängig davon wieviel Papier bei dem Launch enthalten ist.

Respekt vor ATIs Leistung Sachen geheim zu halten, denn wenn dann der Launch ist müßte der Tape-Out irgendwann um den Launch Termin des GF100 gewesen sein. Infos zu so einem Tape-Out gab es nicht und Infos über SI existieren auch noch keine. Da fragt man sich wirklich ob ATI dann den Chip launcht oder es wie NV mit dem GF100 macht und nur die Daten des Chips nennt.

MR2

2010-07-23, 23:04:02

@svenw

"Wie die englischsprachige Seite SemiAccurate berichtet, soll ATI gerade den Tape-Out seiner nächsten GPU-Generation namens Southern Islands hinter sich gebracht haben. Dabei handelt es sich um eine Hybridentwicklung aus der aktuellen Evergreen-Familie (HD5XXX) und den komplett neu entwickelten Northern Island Chips. "

22. April 2010
http://www.tomshardware.de/Southern-Islands-Tape-Out,news-244216.html

Gipsel

2010-07-24, 08:47:37

Cypress hat nur einen Tesselator, wozu sollte man da irgendwas neu ordnen müssen?

Die Dreiecke werden genau in der Reihenfolge gerastert wie sie aus dem Domain-Shader hinten rausfallen.
Und woher weiß man, daß die in der richtigen Reihenfolge fertig werden? ATI verteilt ja den Output des Tesselators komplett über die beiden SIMD-Blöcke. Insbesondere wenn auch noch Last durch andere gerade laufende Shader anliegt, dürfte es sehr gut möglich sein, daß später generierte Dreiecke früher mit den Domain-Shadern fertig werden. Cypress muß also notgedrungen vor dem Rasterizer irgendwie wieder die Ordnung garantieren, das ist nicht implizit erledigt. Wie gesagt, meine Vermutung ist, daß auch dieses Sortieren bei Cypress für die relativ schlechte Domainshader-Performance verantwortlich ist (weil nur irgend eine Minimalversion implementiert ist bzw. Puffer zu klein ist, zu wenig Bandbreite hat oder das gar irgendwie off-chip im RAM gemacht wird, um Transistoren zu sparen, was eine ziemliche Krücke wäre).

Gipsel

2010-07-24, 09:37:39

20-30M? Kann ich mir kaum vorstellen, allein im bekanntesten System (Nebulae) stecken 65.000 Tesla C2050 zu je 2500$/Stück. Das wären allein mit diesem Supercomputer 162M $ Umsatz.
Noch mal zurück zu dem Thema. Ich hatte gar nicht auf die Zahlen geschaut, aber in Nebulae stecken nur genau 4640 Tesla C2050, und keine 65.000. Also selbst zum Listenpreis wären das gerade mal 11,6 Millionen. Was da manchmal als GPU-Kerne angegeben wird, ist die Anzahl der SMs (14 pro Karte) :rolleyes:

Kann jeder selbst nachrechnen, die theoretische Peakleistung beträgt ~2984 TFlop/s und jeder der 9280 6-core Nehalems mit 2.66 GHz macht auch noch 64 GFlop/s, also die CPUs alleine ~594 TFlop/s. Das sind einfach 4640 Dual-CPU-Knoten mit jeweils einer Tesla.

Gast

2010-07-24, 09:51:03

Mal abgesehen davon, dass die Zahl wohl nicht stimmt gibt es schon noch einige sehr wichtige Punkte neben Leistung/Watt. Beispielsweise Tools und Features. Und da hat NVIDIA derzeit die Nase nunmal sehr weit vorne.

Seid ihr wirklich alle nicht fähig euch die Quartalsergebnisse anzusehen?

Ich zähle zwei Rechner mit Fermi-Chips in der Top-100-Liste, einen mit GT200 und einen mit RV770. Nirgends Cypress-Chips.

Ja, Peanuts. Die Firestream-GPUs auf Cypress Basis wurden aus für mich unverständlichen Gründen auch erst vor wenigen Tagen vorgestellt. Jedenfalls ist es sicher nicht so das sich damit aktuell irgend jemand eine goldenen Nase verdient. Die Kohle macht NV mit den Quadros.

svenw

2010-07-24, 11:57:27

@svenw

"Wie die englischsprachige Seite SemiAccurate berichtet, soll ATI gerade den Tape-Out seiner nächsten GPU-Generation namens Southern Islands hinter sich gebracht haben. Dabei handelt es sich um eine Hybridentwicklung aus der aktuellen Evergreen-Familie (HD5XXX) und den komplett neu entwickelten Northern Island Chips. "

22. April 2010
http://www.tomshardware.de/Southern-Islands-Tape-Out,news-244216.html
Ups, das war mir entgangen.

Gast

2010-07-26, 12:10:35

Irgednwas neues zu vermelden?

Gast

2010-07-26, 23:41:07

GPUs

Fermi 2 28nm - Faktor 1,9-2,0

Northern Islands 28nm - Faktor 1,6-1,7

CPUs

Nehalem > Sandy Bridge 30% Speedup

K10 > Bulldozer 100% Speedup+ für ein Modul vs K10 Dual Core

AVX Code bei AMD ist schlechter als Intel.

2012 kommen weitere veränderungen durch Intel, AMD wird bei Bulldozer2 SSE6 einführen und AVX streichen.

davidzo

2010-07-27, 00:07:12

haben wir hier fröhliche ratestunde oder was?
selten so einen bullshit gelesen wie der gast da schreibt...

Der_Korken

2010-07-27, 00:09:39

War auch ne blöde Frage von dem Gast darüber. Wenn es etwas neues gibt, kann man sicher sein, dass es hier auftauchen wird. Daher erübrigt sich die Frage nach Neuigkeiten.

john carmack

2010-07-27, 13:49:53

ist bestimmt ein und der gleiche :-)

Gast

2010-07-27, 14:48:33

nein

john carmack

2010-07-27, 15:04:29

http://www.hardwareluxx.de/index.php/news/hardware/grafikkarten/15664-nvidia-geforce-gtx-485-neues-flaggschiff-bald-mit-512-shadereinheiten.html

"Zudem kann man davon ausgehen, dass der kommende 3D-Beschleuniger mit den vollen 512 Shadereinheiten ausgestattet sein sollte, schließlich hat NVIDIA ein solches Modell in den letzten Tagen schon bestätigt. Außerdem dürften die 20 MHz mehr auf der GPU mit Sicherheit nicht ausreichen, um gegen "Southern Island", dem Nachfolger der ATI-Radeon-HD-5000-Familie, antreten zu können."

SI wird wohl schon so 40-50% mehr Leistung bringen, wenn nicht sogar mehr!

Bucklew

2010-07-27, 15:18:28

SI wird wohl schon so 40-50% mehr Leistung bringen, wenn nicht sogar mehr!
Quatsch, 200%, wenn nicht sogar 300!!!111elf :rolleyes:

john carmack

2010-07-27, 15:21:41

mal so kurz zwischendurch:

kann mir bitte mal jemand sagen mit welcher aktuellen Karte man die X1950Pro 512MB (AGP 8x) vergleichen kann?

Gast

2010-07-27, 15:22:22

mal so kurz zwischendurch:

kann mir bitte mal jemand sagen mit welcher aktuellen Karte man die X1950Pro 512MB (AGP 8x) vergleichen kann?
5570 würde ich sagen, solange diese echtes ram hat.

Gast

2010-07-27, 15:24:32

Quatsch, 200%, wenn nicht sogar 300!!!111elf :rolleyes:

He, woher weist du das die Tesselation-Leistung 3x schneller wird als bisher. Ich dachte das wäre noch NDA!

john carmack

2010-07-27, 15:27:55

was bitte ist an 40-50% sooooo unrealistisch?

mapel110

2010-07-27, 15:40:11

was bitte ist an 40-50% sooooo unrealistisch?
Weil ATI jetzt erstmal Transistoren für Tessellation verbraten muss. Da bleibt nicht viel über für eine breitere Architektur.

Black-Scorpion

2010-07-27, 15:50:50

Warum reagiert ihr auf die Marketingdrohne überhaupt?

Bucklew

2010-07-27, 16:50:02

was bitte ist an 40-50% sooooo unrealistisch?
Wo soll sie herkommen?

Bei Tessellation vielleicht, sobald aber die DX9/DX10-Spiele wieder kommen, werden wir von 40-50% weit entfernt sein. Dasselbe Schicksal wie es Fermi hat.

Gast

2010-07-27, 16:57:26

Napoleon von Chiphell behauptet seit ein paar Tagen, dass Northern Islands HD6xxx und HD7xxx Southern Islands sein soll. Neliz von B3d behauptet ähnliches.

Wäre es denn möglich, dass Ati im Oktober seine neue Architektur einführt und der Chip über den hier im Moment diskutiert wird, der ursprüngliche gestrichene Evergreen war.

Nakai

2010-07-27, 17:20:07

Weil ATI jetzt erstmal Transistoren für Tessellation verbraten muss. Da bleibt nicht viel über für eine breitere Architektur.

Man braucht auch nur höhere Tesselationsleistung. Rohleistung hat man genug. Wenn man nun noch etwas an der Effizienz schraubt...Es ist sowieso belanglos, darüber zu diskutieren.

Bringt SI ein verbessertes FrontEnd? Ich bezweifle das.
Wenn SI ein 40nm NI ist, dann gibts nicht viele Möglichkeiten, das wird sehr groß. Dann wird es auch mal Schluss sein, mit den geraden Zahlen.

Bisschen Rumspielerei:

4D-Einheiten. Aufbau in Modulen(ähnlich NV). Bessere Effizienz.

Sind es 32erSIMD-Einheiten oder 16er SIMD-Einheiten? 64SPs zu 4 TMUs gegen 128SPs zu 4(8) TMUs. Oder sogar 24er SIMDs?
Ergo 4 bzw 8 SIMDs pro Modul sind da sinnvoll, was bei 512 SPs 32 TMUs macht. Dann wäre eine HD68xx aus 4 Modulen aufgebaut, was 2048SPs und 128 TMUs bringt. Das wäre imo viel zu viel unter 40nm.

Nächste Idee, welche ich viel Interessanter finde. Der typische Refresh mit leicht höheren Taktraten, etwas mehr Recheneinheiten und hier stärkere Tesselationsleistung. 4 Rasterizer und Tesselatoren(ergo ein allgemein besseres FrontEnd) und 1920/2000SPs, also RV8xx done right.
Je nach Lage sind 20 bis 50% höhere Performance drin. Das sollte relativ gut in 40nm noch umsetzbar sein. Ebenso wäre es der perfekte Konkurrent gegen GF100b. Größere Änderungen wird es erst zu NI geben.

Bei Tessellation vielleicht, sobald aber die DX9/DX10-Spiele wieder kommen, werden wir von 40-50% weit entfernt sein. Dasselbe Schicksal wie es Fermi hat.

Cypress' Rohleistung kommt ja nicht mal richtig zu tragen.

Gipsel

2010-07-27, 19:24:12

Bisschen Rumspielerei:

4D-Einheiten. Aufbau in Modulen(ähnlich NV). Bessere Effizienz.

Sind es 32erSIMD-Einheiten oder 16er SIMD-Einheiten? 64SPs zu 4 TMUs gegen 128SPs zu 4(8) TMUs. Oder sogar 24er SIMDs?
Ergo 4 bzw 8 SIMDs pro Modul sind da sinnvoll, was bei 512 SPs 32 TMUs macht. Dann wäre eine HD68xx aus 4 Modulen aufgebaut, was 2048SPs und 128 TMUs bringt. Das wäre imo viel zu viel unter 40nm.
Na dann spinne ich auch mal:

Die Wavefrontgröße wird ziemlich sicher eine Zweierpotenz bleiben, höchstwahrscheinlich bei den bekannten 64 verbleiben, also gehen sowieso nur 16 oder allerhöchstens 32 Einheiten pro SIMD (8 wären wahrscheinlich zu ineffizient von der Verwaltung her, an die 128 Threads in einer Wavefront glaube ich aber auch nicht).
Aber warum soll ein hypothetisches NI-Update in 40nm im Oktober unbedingt so groß werden? Cypress hat 10 SIMDs pro Modul, wahrscheinlich würden mit ein wenig Tuning 12 aber auch noch gehen. 12*16*4 = 768 ALUs pro Modul, 1536 insgesamt bei zwei Modulen mit den bekannten 2 Rasterizern aber dafür aufgebohrtem Frontend mit 2 Tesselatoren (die aber durch Beseitigung der Flaschenhälse volle Leistung schaffen, nicht mehr nur ein Drittel wie bisher) und auch entsprechend zwei (oder einer verdoppelten) Setup-Engine. Tesselationsleistung würde sich theoretisch versechsfachen. Es bleiben 32 ROPs an einem 256 Bit Interface, allerdings bei GDDR5 mit 1400-1500 MHz. Bei einem Takt ab 885MHz bietet man theoretisch mehr arithmetische Leistung als Cypress (also dürfte 900 MHz Zieltakt sein), was immerhin als Checkboxfeature wichtig ist. Durch die gesteigerte Effizienz der 4er VLIWs dürfte der Vorteil in der Praxis bestimmt 15% betragen, wobei Cypress ja schon jetzt nicht wirklich an der arithmetischen Leistung krankt.
Durch die Umstellung der Einheiten hätte man auch eine höhere Texturleistung (96 TMUs), der Vorteil beträgt zusammen mit dem höheren Takt etwa 27%. Damit würde sich selbst ohne Verdopplung der Texturcachebandbreite (wie bei Fermi, daran hängt es wohl bei den ATIs im Moment) eventuell genügend Spielraum ergeben, um auch tri/AF korrekt zu filtern.

Alles zusammen würde sich bei nominell gesunkener Einheitenzahl also ein Chip ergeben, der praktisch immer mindestens 10-15% schneller als Cypress ist, in speziellen Situationen (Tesselation dann fast auf GF100 Niveau) allerdings deutlichst performanter wäre. Dazu würde das wohl in unter 400 mm² passen.

Nächste Idee, welche ich viel Interessanter finde. Der typische Refresh mit leicht höheren Taktraten, etwas mehr Recheneinheiten und hier stärkere Tesselationsleistung. 4 Rasterizer und Tesselatoren(ergo ein allgemein besseres FrontEnd) und 1920/2000SPs, also RV8xx done right.
Je nach Lage sind 20 bis 50% höhere Performance drin. Das sollte relativ gut in 40nm noch umsetzbar sein. Ebenso wäre es der perfekte Konkurrent gegen GF100b. Größere Änderungen wird es erst zu NI geben.
Genau das habe ich auch schon vor einiger Zeit vorgeschlagen. 4 Cypress-Style SIMD-Blöcke mit je 6 SIMDs (1920 SPs), dazu massiv aufgebohrtes Frontened mit 4 Rasterizern + 4fach Setup würde (wenn richtig umgesetzt) durch den höheren Takt auch den GF100 in allen Tesselationszenarien schlagen. Allerdings wäre das in meinen Augen Overkill und damit Verschwendung, da man auch mit zwei Blöcken schon ziemlich gut gegen Fermi anstinken könnte (abseits von ausschließlich tesselationslimitierten Szenarien mit mehr als 2 Dreiecken pro Takt, die aber praktisch außerhalb von Unigine auf Extreme nicht vorkommen).
Dies wäre die vom Entwicklungsaufwand kleinere Variante, die aber von der Diegröße wahrscheinlich keinerlei Vorteile (eher Nachteile) gegenüber der obigen hätte. Wenn also die NI-Shader fertig sind, spricht nicht soo viel gegen die erste Variante, die dann in einigen Szenarien durch die bereits oft angesprochene Effizienzerhöhung sogar Vorteile gegenüber "Cypress done right" hätte.

Ach übrigens tauchten Cypress-Hinweise im Treiber etwa ein Jahr vor der Veröffentlichung auf (Ende 2008). Zum Cypress-Launch September 2009 gab es allerdings schon NI-Hinweise im Treiber ;)
SI wurde da übrigens noch nie gesichtet, was bedeuten kann, daß es keine bedeutenden Architekturänderungen gibt oder daß es noch (mindestens) ein Jahr hin ist.

Fetter Fettsack

2010-07-27, 19:50:33

Ach übrigens tauchten Cypress-Hinweise im Treiber etwa ein Jahr vor der Veröffentlichung auf (Ende 2008). Zum Cypress-Launch September 2009 gab es allerdings schon NI-Hinweise im Treiber
SI wurde da übrigens noch nie gesichtet, was bedeuten kann, daß es keine bedeutenden Architekturänderungen gibt oder daß es noch (mindestens) ein Jahr hin ist.

Ist es zwingend, dass die Treiber schon so früh Hinweise auf die nächste Generation haben? Ich bin einmal so blauäugig und vermute, dass man das doch auch zu einem späteren Zeitpunkt implementieren könnte.

Gipsel

2010-07-27, 20:05:53

Ist es zwingend, dass die Treiber schon so früh Hinweise auf die nächste Generation haben? Ich bin einmal so blauäugig und vermute, dass man das doch auch zu einem späteren Zeitpunkt implementieren könnte.
Zwingend ist es natürlich nicht. Aber man spart sich die getrennte Entwicklung bzw. den Portierungsaufwand für die Treiber. Denn allgemeine Änderungen in den Release-Treibern sollten auch neueren GPUs zur Verfügung stehen.

Und ein Jahr vor dem Release sind im Prinzip alle Hardware-Details festgeklopft, da geht es nur noch um die letzte Politur vor dem Tapeout. Und man will ja mit der Treiberentwicklung logischerweise schon anfangen, bevor die Chips auch physisch vorhanden sind.

Fetter Fettsack

2010-07-27, 20:17:27

Gut, das ist ein Argument. Wenn einen das dadurch bedingte Preisgeben der "Next-Gen-Daten" nicht stört, ist das wohl durchaus sinnig.
Danke für die Erläuterung. :)

Nakai

2010-07-27, 20:25:52

Die Wavefrontgröße wird ziemlich sicher eine Zweierpotenz bleiben, höchstwahrscheinlich bei den bekannten 64 verbleiben, also gehen sowieso nur 16 oder allerhöchstens 32 Einheiten pro SIMD (8 wären wahrscheinlich zu ineffizient von der Verwaltung her, an die 128 Threads in einer Wavefront glaube ich aber auch nicht).
Aber warum soll ein hypothetisches NI-Update in 40nm im Oktober unbedingt so groß werden? Cypress hat 10 SIMDs pro Modul, wahrscheinlich würden mit ein wenig Tuning 12 aber auch noch gehen. 12*16*4 = 768 ALUs pro Modul, 1536 insgesamt bei zwei Modulen mit den bekannten 2 Rasterizern aber dafür aufgebohrtem Frontend mit 2 Tesselatoren (die aber durch Beseitigung der Flaschenhälse volle Leistung schaffen, nicht mehr nur ein Drittel wie bisher) und auch entsprechend zwei (oder einer verdoppelten) Setup-Engine. Tesselationsleistung würde sich theoretisch versechsfachen. Es bleiben 32 ROPs an einem 256 Bit Interface, allerdings bei GDDR5 mit 1400-1500 MHz. Bei einem Takt ab 885MHz bietet man theoretisch mehr arithmetische Leistung als Cypress (also dürfte 900 MHz Zieltakt sein), was immerhin als Checkboxfeature wichtig ist. Durch die gesteigerte Effizienz der 4er VLIWs dürfte der Vorteil in der Praxis bestimmt 15% betragen, wobei Cypress ja schon jetzt nicht wirklich an der arithmetischen Leistung krankt.
Durch die Umstellung der Einheiten hätte man auch eine höhere Texturleistung (96 TMUs), der Vorteil beträgt zusammen mit dem höheren Takt etwa 27%. Damit würde sich selbst ohne Verdopplung der Texturcachebandbreite (wie bei Fermi, daran hängt es wohl bei den ATIs im Moment) eventuell genügend Spielraum ergeben, um auch tri/AF korrekt zu filtern.

=)
Interessant, aber ich denke die Einheitenzahl wird schon etwas hochgehen.

Wobei...imo kommt es eher drauf an wie fortgeschritten NI zu dem Zeitpunkt war, als man erkannt hat, dass sich der 28nm-Prozess verspäten würde.
Ich geh mal davon aus, dass er schon sehr weit fortgeschritten war.
28nm bringt etwa 50 bis 60% Platzeinsparung mit sich.
Ein hypothetischer Midrange-Chip der bei ~240mm² liegen könnte würde in 40nm etwa 380mm² Platz beanspruchen.

AMD blieb auch seit RV670 der Linie treu frühere "Highendchips" fast identisch als Midrangechips späterer Generationen zu übernehmen. Siehe RV670 gegen RV730 oder RV770 zu RV840. Natürlich hat sich schon genug dazwischen geändert, aber es zeigt auf, dass man sich immer an früheren Generationen orientiert. Man zeigte sich auch recht konservativ bezüglich dem Chipaufbau in letzter Zeit. 4 TMUs fallen immer auf 16erSIMD. Nur bei RV630/635 hatte man 12erSIMD, beim RV610 sogar nur 8erSIMD. Seit RV7xx sind es nur noch 16erSIMDs, denke da wird man nichts mehr ändern.

Wenn Cypress 2 Module hatte, dann wird man sich wohl bei der Modulgröße wieder an Cypress orientieren.

AMD ist so konservativ.
Also 10 SIMDs pro Modul, ergo 640SPs und 40 TMUs. Ich geh mal von 3 Modulen aus, also wieder die 1920SPs. RV1070 könnte dann sogar 5 Module haben, also 3200SPs.^^

Aber nun is gud mit dem rumgerate.;D

Gipsel

2010-07-27, 21:07:24

28nm bringt etwa 50 bis 60% Platzeinsparung mit sich.
Ein hypothetischer Midrange-Chip der bei ~240mm² liegen könnte würde in 40nm etwa 380mm² Platz beanspruchen.
Wenn Du Speicher- und PCI-Expressinterface rausrechnest, dürfte 28nm ziemlich genau die Hälfte der Fläche von 40nm belegen. GF behauptet, mit ihrem Prozeß ließen sich die Transistoren noch mal 10% dichter packen als mit TSMCs Version. Allerdings kommt es da auch immer auf die angestrebten Taktraten und das individuelle Design an.
Man zeigte sich auch recht konservativ bezüglich dem Chipaufbau in letzter Zeit. 4 TMUs fallen immer auf 16erSIMD. Nur bei RV630/635 hatte man 12erSIMD, beim RV610 sogar nur 8erSIMD. Seit RV7xx sind es nur noch 16erSIMDs, denke da wird man nichts mehr ändern.
Vor der RV7xx-Generation waren die SIMDs anders aufgebaut, die TMUs gehörten einfach nicht dazu sondern waren separat. Übrigens hatte RV630/RV635 drei 8er SIMDs. RV730 hatte ebenfalls 8er SIMDs (acht Stück). Bei diesen GPUs beträgt die Wavefrontgröße also nur 32 Threads anstelle von 64 Threads wie bei den Modellen mit 16er SIMDs.
Wenn Cypress 2 Module hatte, dann wird man sich wohl bei der Modulgröße wieder an Cypress orientieren.

AMD ist so konservativ.
Also 10 SIMDs pro Modul, ergo 640SPs und 40 TMUs. Ich geh mal von 3 Modulen aus, also wieder die 1920SPs. RV1070 könnte dann sogar 5 Module haben, also 3200SPs.
3 und 5 Module können layouttechnisch Probleme machen. Ansonsten wären wohl 3 Module mit je 8 SIMDs von der Effizienz her ziemlich gut. Allerdings wäre dann auch die Wahrscheinlichkeit von 48 ROPs und eines 384bit Speicherinterfaces recht hoch, so daß man dann auch gleich wieder auf 10 SIMDs pro Modul gehen könnte, da dann wohl der Die sowieso deutlich über 400mm² groß werden würde. Aber daran glaube ich noch nicht.

AMD hat übrigens in der Vergangenheit bewiesen, daß sie auch andere Anzahlen von SIMDs bauen (z.B. fünf bei Redwood, acht bei RV730 und RV740). Da würde ich mich also nicht auf 10 SIMDs pro Modul verlassen.

Coda

2010-07-27, 22:29:35

Vor der RV7xx-Generation waren die SIMDs anders aufgebaut, die TMUs gehörten einfach nicht dazu sondern waren separat. Übrigens hatte RV630/RV635 drei 8er SIMDs. RV730 hatte ebenfalls 8er SIMDs (acht Stück). Bei diesen GPUs beträgt die Wavefrontgröße also nur 32 Threads anstelle von 64 Threads wie bei den Modellen mit 16er SIMDs.
Es gab wenn ich mich richtig erinnern kann auch 12er, also 48er Wavefronts. Inzwischen scheint aber alles 64 zu sein.

deekey777

2010-07-27, 23:04:09

Es gab wenn ich mich richtig erinnern kann auch 12er, also 48er Wavefronts. Inzwischen scheint aber alles 64 zu sein.
Das war diese Unbekannte bei der HD2900GT, wie die SIMDs genau aufgebaut sind.

Coda

2010-07-27, 23:14:39

Da gibt's keine Unbekannte. Die HD2900GT hat einen R600, also 16er SIMDs.

deekey777

2010-07-27, 23:16:29

Da gibt's keine Unbekannte. Die HD2900GT hat einen R600, also 16er SIMDs.
Das war die Pro. Hier die GT: http://www.heise.de/preisvergleich/a289811.html

Coda

2010-07-27, 23:23:29

Die GT ist auch R600. Nur mit 3 statt 4 Clustern. 3 * 16 * 5 ALUs.

Da ist auch mal wieder der Eintrag auf Wikipedia falsch. Die schreiben 8 Cluster für R600, was def. nicht stimmt. Mal ändern...

RV630 hat zwei 12er Cluster. 2 * 12 * 5 = 120.

deekey777

2010-07-27, 23:30:18

Der RV630 ist 3 mal 8, die Wavefront-Größe ist 32.
Die GT dagegen ist 4 mal 12, beim R(V)600 sind die SIMDs vertikal und nicht horizontal wie beim RV770, wenn man den Papers glauben darf.

Coda

2010-07-27, 23:31:44

Der RV630 ist 3 mal 8, die Wavefront-Größe ist 32.
Nein. Es sind 8 TMUs. Es sind zwei Cluster.

Die GT dagegen ist 4 mal 12
Sicher nicht. Man deaktiviert nicht Teile eines SIMD.

deekey777

2010-07-27, 23:33:51

Nein. Es sind 8 TMUs. Es sind zwei Cluster.
http://www.computerbase.de/artikel/grafikkarten/2007/test_ati_radeon_hd_2400_xt_hd_2600_xt/3/

Es sind drei. Auch die SDK-Docs sagen, dass die Wavefront-Größe 32 ist.

http://www.abload.de/img/beweiss59a.png

Coda

2010-07-27, 23:36:08

Dann hat gar kein Chip 24er ALUs. Bei R600 GT ist def. ein ganzer Cluster deaktiviert worden. Ich vermute mal, dass dann RV610 öfter loopt und auch 64er Wavefronts hat.

john carmack

2010-07-28, 09:15:12

@ Gipsel
@ Nakai

? hmmm ?

"Sind es 32erSIMD-Einheiten oder 16er SIMD-Einheiten? 64SPs zu 4 TMUs gegen 128SPs zu 4(8) TMUs. Oder sogar 24er SIMDs?
Ergo 4 bzw 8 SIMDs pro Modul sind da sinnvoll, was bei 512 SPs 32 TMUs macht. Dann wäre eine HD68xx aus 4 Modulen aufgebaut, was 2048SPs und 128 TMUs bringt. Das wäre imo viel zu viel unter 40nm."

"4 Cypress-Style SIMD-Blöcke mit je 6 SIMDs (1920 SPs), dazu massiv aufgebohrtes Frontened mit 4 Rasterizern + 4fach Setup würde (wenn richtig umgesetzt) durch den höheren Takt auch den GF100 in allen Tesselationszenarien schlagen."

:-)
Kann mir das mal jemand in einfachen Worten erklären?
Gibts dazu irgendwie Bilder oder so?
Kann mir das grad gar net so vorstellen, vor allem weil ich nicht soo tief drinne bin wie ihr beiden.

Danke

Gipsel

2010-07-28, 09:39:22

Nein. Es sind 8 TMUs. Es sind zwei Cluster.

Dazu hatte ich doch oben schon was geschrieben:
Vor der RV7xx-Generation waren die SIMDs anders aufgebaut, die TMUs gehörten einfach nicht dazu sondern waren separat. Übrigens hatte RV630/RV635 drei 8er SIMDs. RV730 hatte ebenfalls 8er SIMDs (acht Stück). Bei diesen GPUs beträgt die Wavefrontgröße also nur 32 Threads anstelle von 64 Threads wie bei den Modellen mit 16er SIMDs.
Vor RV7x0 konnte AMD die Anzahl der TMUs unabhängig von den SIMDs skalieren, da die TMUs einfach nicht dazu gehörten sondern separat waren. Und RV630/635 hatte definitiv 3 Cluster mit 8 VLIWs (3 x 40 ALUs), da gibt es sogar Blockdiagramme und entsprechende Beschreibungen aus den Präsentationen damals. Da liegt Wikipedia einfach daneben.
Dann hat gar kein Chip 24er ALUs.
Genau. Und das wird es in Zukunft wohl auch nicht geben, genausowenig wie 24er SIMDs.

Coda

2010-07-28, 13:32:25

Ich meinte sowieso 24er SIMDs, aber das spielt jetzt auch keine Rolle mehr.

AwesomeSauce

2010-07-29, 16:06:55

Habe ich etwas verpasst?
According to nApoleon:
HD6K=Northern Islands
HD7K=Southern Islands
http://forum.beyond3d.com/showpost.php?p=1454811&postcount=1128
Hecatoncheires might be even further out. I think I already said after Computex that S.I. comes after N.I.

One is a shrink
One is a hybrid
One is a new architecture
http://forum.beyond3d.com/showpost.php?p=1454997&postcount=1133

Ich hatte bis jetzt damit gerechnet, dass SI (Hybrid Cypress/NI) als HD6000 vor NI kommt. Könnte sich natürlich nur um eine geänderte Nomenklatur handeln...

Nakai

2010-07-29, 16:42:21

One is a shrink
One is a hybrid
One is a new architecture

Ist die Reihenfolge richtig? ;)

Sorkalm

2010-07-29, 16:44:52

Ich hatte bis jetzt damit gerechnet, dass SI (Hybrid Cypress/NI) als HD6000 vor NI kommt. Könnte sich natürlich nur um eine geänderte Nomenklatur handeln...

Nunja, wenn ich Gipsel richtig interpretiere, gabs auch schon länger Northern Islands Angaben ind en Treibern versteckt...

Eventuell hat AMD mal wieder bewusst "gefälschte" Unterlagen herausgegeben, das machen die ja gerne. Und sowas wird schnell auch ein selbstläufer.

Gipsel

2010-07-29, 20:04:30

Ist die Reihenfolge richtig? ;)
Eventuell nicht. Vielleicht sieht es ja so aus:

"hybrid" = NI = HD6000, 40nm TSMC
"shrink" = SI, 28nm
"new architecture" = Hecatoncheires

So richtig viel Neues bringt uns NI ja nun nicht, die Shader-Einheiten sind VLIW, gut, 4er-Gruppen statt 5er, vielleicht ein (mild) aufgepepptes Frontend (daß mit Tesselation die Setup-Rate sich auf ein Drittel verringert ist in meinen Augen momentan ein größeres Problem als die Setup-Rate an sich). Das war's doch wohl schon so ziemlich. Alles in allem finde ich das noch überschaubar. Kann man zwar neue Architektur nennen, aber die Gene lassen sich doch noch sehr deutlich erkennen. Könnte also im Prinzip auch als Hybrid durchgehen. Vielleicht sind die "Hundertarmigen" ja dann wirklich was komplett anderes?
Nunja, wenn ich Gipsel richtig interpretiere, gabs auch schon länger Northern Islands Angaben ind en Treibern versteckt...

Eventuell hat AMD mal wieder bewusst "gefälschte" Unterlagen herausgegeben, das machen die ja gerne. Und sowas wird schnell auch ein selbstläufer.
Meist werden die sehr spärlichen Informationen nur falsch interpretiert oder Vermutungen machen sich selbständig und werden als Fakt präsentiert.

Wie gesagt kann ich zu SI nur so viel sagen, daß es nichts zu sagen gibt. Entweder dauert das noch mindestens ein Jahr (wenn ATI seine Treiberentwicklung nicht umgestellt hat), oder es gibt keine tiefgreifenden Änderungen (entweder zu Cypress oder zu NI, je nach Reihenfolge), die entsprechende Anpassungen des Treibers nötig machen. Zu NI sind die Informationen im letzten Jahr beständig gewachsen. Man kann z.B. jetzt schon sagen, welche neuen Instruktionen NI beherrschen wird (sind nicht so viele), die hat ATI netterweise alle mit dem Suffix _NI gekennzeichnet ;)

Nakai

2010-07-30, 14:11:30

Meist werden die sehr spärlichen Informationen nur falsch interpretiert oder Vermutungen machen sich selbständig und werden als Fakt präsentiert.

Wie gesagt kann ich zu SI nur so viel sagen, daß es nichts zu sagen gibt. Entweder dauert das noch mindestens ein Jahr (wenn ATI seine Treiberentwicklung nicht umgestellt hat), oder es gibt keine tiefgreifenden Änderungen (entweder zu Cypress oder zu NI, je nach Reihenfolge), die entsprechende Anpassungen des Treibers nötig machen. Zu NI sind die Informationen im letzten Jahr beständig gewachsen. Man kann z.B. jetzt schon sagen, welche neuen Instruktionen NI beherrschen wird (sind nicht so viele), die hat ATI netterweise alle mit dem Suffix _NI gekennzeichnet ;)

Eigentlich wird das erst wirklich sicher sein, wenn was von SI im Treiber erscheint.

Eventuell nicht. Vielleicht sieht es ja so aus:

"hybrid" = NI = HD6000, 40nm TSMC
"shrink" = SI, 28nm
"new architecture" = Hecatoncheires

So richtig viel Neues bringt uns NI ja nun nicht, die Shader-Einheiten sind VLIW, gut, 4er-Gruppen statt 5er, vielleicht ein (mild) aufgepepptes Frontend (daß mit Tesselation die Setup-Rate sich auf ein Drittel verringert ist in meinen Augen momentan ein größeres Problem als die Setup-Rate an sich). Das war's doch wohl schon so ziemlich. Alles in allem finde ich das noch überschaubar. Kann man zwar neue Architektur nennen, aber die Gene lassen sich doch noch sehr deutlich erkennen. Könnte also im Prinzip auch als Hybrid durchgehen. Vielleicht sind die "Hundertarmigen" ja dann wirklich was komplett anderes?

Sind 4D sicher? Ebenso wie Hecantoncheires(nicht nur ein Hirngespinnst von ein paar Leuten)?

mfg

Gipsel

2010-07-30, 14:21:34

Sind 4D sicher?
4D-Einheiten werden es sicher nicht, dafür aber VLIW-Einheiten mit 4 Slots ;)
Ebenso wie Hecantoncheires(nicht nur ein Hirngespinnst von ein paar Leuten)?
Das wissen nur ganz wenige sicher, die allermeisten davon dürften bei AMD angestellt sein.

OgrEGT

2010-08-09, 08:55:16

Hier nochmal die Aussage von AMD (Godfrey Cheng), dass ein komplettes GPU Lineup für "later this year" releast werden wird.
Na wenn das nicht die SI's sind...

Besides the technical reasons why discrete GPUs will not disappear anytime soon, AMD likes the taste of success. To stay the market leader in discrete graphics solutions, AMD plans to continue to develop better and better discrete GPU products. And to make the point, we’ve scheduled a whole new generation of discrete GPUs for release later this year. Beware ye of little faith.

http://blogs.amd.com/play/2010/08/06/amd-discrete-graphics-gpus-fusion-apu/

Iruwen

2010-08-09, 10:53:47

So realistisch wie GF100 2009 :tongue:

Gast

2010-08-09, 10:58:17

So realistisch wie GF100 2009 :tongue:

Wenn sie das jetzt noch sagen kannst du davon ausgehen das die Chips längst in Massenproduktion sind. ;)

Black-Scorpion

2010-08-09, 11:03:49

So realistisch wie GF100 2009 :tongue:
Der kleine Unterschied ist nur das Nvidia keine Wahl hatte als diese Angaben zu streuen.
ATI hatte seine DX11 Karten schon draußen.
Jetzt sieht es anders aus. Was würde es bringen die Leute mit falschen Angaben zu füttern? Beide haben ihre aktuellen Karten draußen und man würde nur die Kunden verärgern.
Wie man beim GF100 gesehen hat.

svenw

2010-08-09, 11:23:22

Tape Out war ja schon im April, also sollten die Chips schon von den TSMC Fließbändern laufen.... wenn alles glatt läuft. Mit Glück könnten wir die Karten schon in der Weihnachtszeit in den Händen halten, was ein extrem gutes Timing von ATI wäre.

Was mich allerdings wundert: Die Info-Lage ist extrem dünn. Wenn im Oktober die Karten rauskommen müßten die Board-Partner schon alle Infos haben und fleißig am entwickeln sein.
Einige Leute hier hören doch sonst die Flöhe auf dem Hund vom Chefentwickler husten und was da kommt ist nahe Null. Andererseits hab ich das Gefühl das Gipsel sich jedesmal kringelt wenn er diesen Thread und unser Gestocher im Dunkeln liest.

Iruwen

2010-08-09, 12:09:03

falschen Angaben

Müssen ja nicht bewusst falsch sein, kann auch einfach unerwartete Probleme geben. Aber wird man ja bald sehen.

Gast

2010-08-09, 12:18:38

So realistisch wie GF100 2009 :tongue:

Wenn die Angaben nicht stimmen, dann verklage AMD doch deswegen! Das ganze wurde während einer offiziellen Analysten-Telekonferenz gesagt. Wenn es nicht stimmen sollte, dann....

svenw; die Infolage war beim RV870 selbst Anfang September 2009 noch sehr dünn. Und dann sind die Karten doch noch im gleichen Monat vorgestellt worden. Im August 2009 hatte man (soweit ich mich erinnere) noch keine zuverlässigen Angaben zu den RV870. Gerüchte ja, wirklich gute Infos nein. Die ersten Infos zu den neuen GPUs wirst du also erst Mitte/Ende Spetember bekommen. Vorher gibt es höchstens wieder Gerüchte von Semiaccurate und Konsorten.

Gipsel

2010-08-09, 13:00:17

Einige Leute hier hören doch sonst die Flöhe auf dem Hund vom Chefentwickler husten und was da kommt ist nahe Null. Andererseits hab ich das Gefühl das Gipsel sich jedesmal kringelt wenn er diesen Thread und unser Gestocher im Dunkeln liest.
Die Verwunderung über fehlende wirklich handfeste Informationen habe ich auch schon zum Ausdruck gebracht. Im Übrigen stochere ich auch nur im Dunkeln. Das ist nur vielleicht ein sehr dunkles Grau statt pechschwarz ;)

Gast

2010-08-11, 21:26:44

:-)

http://www.google.de/imgres?imgurl=http://farm3.static.flickr.com/2802/4152443468_286df7db79.jpg&imgrefurl=http://itbbs.pconline.com.cn/diy/11243377.html&h=221&w=500&sz=106&tbnid=YbdfpEyoxw60tM:&tbnh=57&tbnw=130&prev=/images%3Fq%3Dhd6870&usg=__WmSX91IsnJcD4VIv0W8PXNgKdvs=&sa=X&ei=-_hiTL6bNt3T4wbJu9iTCg&ved=0CDQQ9QEwAw

:-)

john carmack

2010-08-11, 21:32:07

Was könnte davon wahr sein?

http://www.hardwareboard.eu/threads/17455-Rumour-Angebliche-techn.-Daten-der-Radeon-HD-6870.-UPDATE-2-Bench-und-Vorschau

LuXon

2010-08-11, 21:32:24

Ist das nicht die Bitch'n'fast? xD

Gast

2010-08-11, 21:59:11

:-)

http://www.google.de/imgres?imgurl=http://farm3.static.flickr.com/2802/4152443468_286df7db79.jpg&imgrefurl=http://itbbs.pconline.com.cn/diy/11243377.html&h=221&w=500&sz=106&tbnid=YbdfpEyoxw60tM:&tbnh=57&tbnw=130&prev=/images%3Fq%3Dhd6870&usg=__WmSX91IsnJcD4VIv0W8PXNgKdvs=&sa=X&ei=-_hiTL6bNt3T4wbJu9iTCg&ved=0CDQQ9QEwAw

:-)
R600-X2-Photoshop...

Was könnte davon wahr sein?

http://www.hardwareboard.eu/threads/17455-Rumour-Angebliche-techn.-Daten-der-Radeon-HD-6870.-UPDATE-2-Bench-und-Vorschau
Die 480 4D-Shader kommen vom verlässlichen Chiphell-Forum.
Der Benchmark von Kit Guru, kann man wie die restlichen Infos von dieser Seite (GTX 465 ohne CUDA ;D) getrost ignorieren.

Tarkin

2010-08-12, 11:50:40

http://www.digitimes.com/news/a20100811PD223.html

Graphics card vendors are expected to start selling AMD's next-generation GPU (Southern Islands) in November with AMD to officially announce the series in October, according to sources from graphics card players.

To defend its market share, AMD plans to cut prices for its ATI Radeon HD 5000-series GPUs in the near future. The action also serves as preparation for the upcoming Southern Islands GPUs, the sources noted.

AMD originally planned to have its next-generation GPUs using 32nm process and codenamed the chips Northern Islands, but Taiwan Semiconductor Manufacturing Company (TSMC) skipped its 32nm R&D for GPUs and advanced directly to 28nm R&D. In response AMD adjusted its plans and decided to continue adopting a 40nm process, while changing the product's codename to Southern Islands, the sources explained.

Nakai

2010-08-12, 12:20:23

Die 480 4D-Shader kommen vom verlässlichen Chiphell-Forum.

AMD wird versuchen die Anzahl der Shader als Marketingzahlen ordentlich zu pushen. Es müssen also unweigerlich 1600SPs aufwärts sein.
Bei 480 4D-Shader sind es schon 1920SPs.
Das ist eine sehr realistische Zahl.

Wenn alles ungefähr gleichbleibt, dann wurde die Zahl der SIMDs um 50% erhöht, also von 20 auf 30 SIMDs. Dabei wären auch 120 TMUs.;)

Da stellt sich doch die Frage wie AMD/ATI die modulare Aufteilung macht.
6 SIMDs in einem Modul? 5 SIMDs in einem Modul? Oder gar 10 SIMDs in einem Modul(ähnlich bei Cypress)?

:-)

http://www.google.de/imgres?imgurl=h...ed=0CDQQ9QEwAw

:-)

Lass niemanden an Photoshop der nicht zählen kann.:facepalm:

Aber mal was ganz anders.

Eventuell nicht. Vielleicht sieht es ja so aus:

"hybrid" = NI = HD6000, 40nm TSMC
"shrink" = SI, 28nm
"new architecture" = Hecatoncheires

Laut dieser sogenannten spekulativen Liste, sind SI und NI eine gleiche Architektur. SI ist der Shrink auf 28nm.
Wann wusste man, dass sich 32nm und 28nm bei TSMC verzögern würde?
Wenn SI(eigentlich wohl NI) ursprünglich für 28nm geplant war, wie lange würde es dauern ein Midrange-Design in 28nm auf 40nm zu bringen?
Es muss klar sein, dass ein Design im Performancesegment in 40nm viel zu groß wäre.

AMD muss es auch früh genug gewusst haben um diesen Schritt zu gehen. Ich denke man hat es Anfang-Mitte 2009 gewusst. Das sollte eigentlich genug sein um schon ein fast fertiges Design auf 40nm zu bringen(also zu dem Zeitpunkt sollten die Spezifikationen dieses Design schon bekannt gewesen sein, jedenfalls intern).

Wenn man noch bedenkt, dass AMD pro Generation etwa eine Verdopplung der Leistung erzielen will, dann würde RV1070(ehemalig RV970) zwischen 2560SPs und 3200SPs auf Basis von 4D-VLIW-Einheiten liegen(2 bis 2,5fache Anzahl der SIMDs).
AMD muss auch versuchen die Module relativ klein zu halten um eine einfache Skalierung zu ermöglichen.

Naja wayne...

MR2

2010-08-12, 12:26:28

...
Laut dieser sogenannten spekulativen Liste, sind SI und NI eine gleiche Architektur. SI ist der Shrink auf 28nm....

Die Gerüchte sprechen eigentlich schon länger davon...Wäre ja möglich.
Angenommen es wäre so, hätte nvidia wohl ein Problem! Dann wirds vielleicht doch so wie ich dachte. Die HD5870 schlägt sich mit der GTX460 1GB:-)

Ich bin auf denen ihre Zahlen heute gespannt.

aylano

2010-08-12, 12:51:48

Wann wusste man, dass sich 32nm und 28nm bei TSMC verzögern würde?
Ich schätze Ende 2009, wo es AFAIK die ersten Gerüchte über 32/28nm-Probleme gab.
Die 40nm-Verzögerung bekamen wir auch recht schnell mit.

Wenn SI(eigentlich wohl NI) ursprünglich für 28nm geplant war, wie lange würde es dauern ein Midrange-Design in 28nm auf 40nm zu bringen?

2-3 Monate?
Das Umdesignen/Verkleinern von der RV8x0-Serie hatte 6-8 Wochen gedauert. Aber da mussten sie nicht in eine andere Fertigung wechseln.

Es muss klar sein, dass ein Design im Performancesegment in 40nm viel zu groß wäre.

Oder das Design hatte in 32nm doppelt so viel Einheiten und in 40nm nur mehr +50%. Und mit eventuellen Flächenoptimierungen könnte der Zuwachs vielleicht dann doch nicht so groß ausfallen.

Die Frage ist, ob der Wechsel von "5-D" auf "4-D" nur einen Performance-pro-Watt erhöhung brachte oder auch eine Die-Flächen-Ersparnis.

Und ob die RV970 vs. RV940 wieder um so viel größer ist wie der RV870 vs. RV840

OgrEGT

2010-08-12, 13:02:08

Was könnte davon wahr sein?

http://www.hardwareboard.eu/threads/17455-Rumour-Angebliche-techn.-Daten-der-Radeon-HD-6870.-UPDATE-2-Bench-und-Vorschau

Die 1920 ALUs schwirren ja schon seit eingier Zeit umher.
Somit könnte ein hypothetischer RV970 so aussehen:

1920 ALUs zu 2 Modulen a 15 SIMDs zu je 16 SMs mit 4 VLIW ALUs
Das würde bei gleichem TMU/SM Verhltnis von Cypress 120 TMUs bedeuten.
Speicherinterface entweder 256bit an 32 ROPs oder 384bit an 48ROPs.

Gispel hatte mal ein paar Seiten vorher geschrieben, dass man mit etwas Optimierungsarbeit auf gleicher Chipfläche im Vergleich zu RV870 12SMs pro SIMD unterbringen könnte. Bei 15 SMs müsste wohl die Fläche leicht zunehmen, die Frage ist wieviel genau?

Was würden das überarbeitete Setup und die zusätzlichen TMUs an Diefläche zusätzlich benötigen?

In welcher Größenregion würde man sich insgesamt bewegen?

Nakai

2010-08-12, 13:12:33

Die Frage ist, ob der Wechsel von "5-D" auf "4-D" nur einen Performance-pro-Watt erhöhung brachte oder auch eine Die-Flächen-Ersparnis.

Und ob die RV970 vs. RV940 wieder um so viel größer ist wie der RV870 vs. RV840

Also ein Die-Flächen-Ersparnis eher nicht. Vor allem wenn andere Bereiche vergrößert wurden. Das Design könnte auch so noch optimiert worden sein.

Zum Letzeren. Darauf wollte ich hinaus. Der Unterschied zwischen RV870 und RV840 ist so groß, dass es sich evtl sogar lohnen würde einen neuen Chip dafür zu bringen, als es derzeit der Fall ist. Wenn 28nm nur ein Shrink sein sollte(davon sollte man natürlich nicht ganz ausgehen), dann würde sich ein RV970 als ein guter RV1040 benutzen lassen.

2-3 Monate?
Das Umdesignen/Verkleinern von der RV8x0-Serie hatte 6-8 Wochen gedauert. Aber da mussten sie nicht in eine andere Fertigung wechseln.

GPUs sind mittlerweile eher aus dem Baukasten-Prinzip geformt. Das Entfernen von optionalen Funktionseinheiten und Recheneinheiten ist doch mittlerweile kein Problem mehr. Außerdem ist der Chip damals noch nicht gefertigt gewesen, das Design war noch nicht fertig.

Ich schätze Ende 2009, wo es AFAIK die ersten Gerüchte über 32/28nm-Probleme gab.
Die 40nm-Verzögerung bekamen wir auch recht schnell mit.

Ja, das mit Gerüchten wusste ich schon. Mir ging es eher, wann AMD davon schon Wind bekommen hat.

mfg

Jake Dunn

2010-08-12, 13:55:37

Die Frage ist, ob der Wechsel von "5-D" auf "4-D" nur einen Performance-pro-Watt erhöhung brachte oder auch eine Die-Flächen-Ersparnis.

Sind die "4-D" sicher?

Gast

2010-08-12, 14:12:44

http://www.digitimes.com/news/a20100811PD223.html

Graphics card vendors are expected to start selling AMD's next-generation GPU (Southern Islands) in November with AMD to officially announce the series in October, according to sources from graphics card players.

To defend its market share, AMD plans to cut prices for its ATI Radeon HD 5000-series GPUs in the near future. The action also serves as preparation for the upcoming Southern Islands GPUs, the sources noted.

Ouch! Damit hatte ich nicht gerechnet, das AMD jetzt schon mit dem Abverkauf der HD5xxxx startet. Das spricht wohl dafür das Heise mal wieder die richtigen Infos hatte als sie von einer Vorstellung der gesamten neuen Palette zw. 19. und 25. Okt. gesprochen haben.

Gast

2010-08-12, 14:16:45

Ouch! Damit hatte ich nicht gerechnet, das AMD jetzt schon mit dem Abverkauf der HD5xxxx startet. Das spricht wohl dafür das Heise mal wieder die richtigen Infos hatte als sie von einer Vorstellung der gesamten neuen Palette zw. 19. und 25. Okt. gesprochen haben.

falsch...zw. 15. und 29. Oktober (tja so einen Streich kann einen das Gedächtnis spielen). ;)

http://www.heise.de/newsticker/meldung/AMDs-neue-Grafikchips-kommen-Ende-Oktober-1044422.html

Nakai

2010-08-12, 14:59:38

Sind die "4-D" sicher?

Laut Gipsel schon. Eigentlich werden es eher 4D-VLIW + 1 SFU. Die t-Einheit war eh in den meisten Fällen kaum zu gebrauchen, eher findet sie nun ihren eigentlichen Sinn.;)

mfg

horn 12

2010-08-12, 15:34:48

Nun, dass wäre ja äussert lohnenswert.
Gesamt Palette und wieder gute Preise hoffe ich zumindest.

Somit sollte eine "HD6870" gute 30 bis max. 40% schneller sein wie das Vorgängermodell HD5870 .... und ca. 30% schneller als die Konkurenzkarte GTX 480.

w0mbat

2010-08-12, 15:40:20

naja, wären dann eher 20% schneller als gtx480.

deekey777

2010-08-12, 15:45:31

480 "4D"-SPs sind irgendwie Unsinn. Warum? Weil das 30 SIMDs wären. Also 120 TMUs. Mit den ganzen Caches, RFs, sonstiger Logik wäre so eine GPU einfach riesig.
1920 SPs sind wohl wie vorher VLIW-ALUs mit 5 Slots, wo die letzte einfach abgemagerte T-ALUs ist (nur SFU). 1920/5/16 und alles wird gut.

Gipsel

2010-08-12, 15:45:59

Laut Gipsel schon. Eigentlich werden es eher 4D-VLIW + 1 SFU. Die t-Einheit war eh in den meisten Fällen kaum zu gebrauchen, eher findet sie nun ihren eigentlichen Sinn.;)
Eher 4 Slot VLIW-Einheiten, wobei die SFU-Funktionen wie bisher in den Slots enthalten sind, also nicht außerhalb der VLIWs bestehen.

Entweder ist w das neue t (kann aber im Gegensatz zu der heutigen t-ALU auch FMAs, diese Variante wäre gut für die arithmetische Leistung), oder für SFU-Funktionen arbeiten die 2 bis 4 ALUs zusammen (gut für die pro forma anliegende Auslastung auch wenn die reale Leistung etwas sinkt, spart ein paar Transistoren). Ich persönlich würde die erste Variante besser finden.

Gipsel

2010-08-12, 15:55:31

480 "4D"-SPs sind irgendwie Unsinn. Warum? Weil das 30 SIMDs wären. Also 120 TMUs. Mit den ganzen Caches, RFs, sonstiger Logik wäre so eine GPU einfach riesig.
1920 SPs sind wohl wie vorher VLIW-ALUs mit 5 Slots, wo die letzte einfach abgemagerte T-ALUs ist (nur SFU). 1920/5/16 und alles wird gut.
ATIs Shadercores sind erstaunlich dicht gepackt. So nehmen die ALUs mitsamt den 2,5MB Registerfiles auf RV770 nur 28% der Die-Fläche ein, mitsamt TMUs+Texture-L1 waren es auch nur irgendwas bei 42% (auf die letztere Zahl bitte nicht festnageln, müßte ich nochmal genau nachschauen).
Also auch wenn das mit Cypress etwas mehr geworden ist (da das Speicherinterface bei 256Bit geblieben ist), hat man da sicherlich noch etwas Platz, insbesondere wenn man wirklich auf ein 384Bit Interface und 3 SIMD-Blöcke mit je 10 SIMDs gehen würde (was dann vielleicht 450mm² bedeuten würde).

Die 120 TMUs würden dann eventuell auch genügend Leistung haben, um ohne eine Verdopplung der Texture-Cache-Bandbreite (was nv bei Fermi gemacht hat und natürlich auch Transistoren und Die-Fläche kostet) eine qualitativ bessere Filterung oberhalb bi/trilinear anzubieten.

Gipsel

2010-08-12, 16:01:43

Gispel hatte mal ein paar Seiten vorher geschrieben, dass man mit etwas Optimierungsarbeit auf gleicher Chipfläche im Vergleich zu RV870 12SMs pro SIMD unterbringen könnte.
Vielleicht nicht auf der gleichen Fläche, aber bei nur leicht steigender Größe.Was würden das überarbeitete Setup und die zusätzlichen TMUs an Diefläche zusätzlich benötigen?

In welcher Größenregion würde man sich insgesamt bewegen?
Setup wahrscheinlich gar nicht soo viel (<20mm²) und die TMUs bleiben erstmal genau so groß wie heute, wenn ATI nicht was an der Cachegröße oder -bandbreite dreht.

2x12 SIMDs mit etwas überarbeitetem Setup und 256Bit-Controller wäre meiner Meinung nach etwa GF104-Region, d.h. um 370mm², oder wenn AMD etwas mehr macht vielleicht knapp 400mm².

Nakai

2010-08-12, 16:08:13

Eher 4 Slot VLIW-Einheiten, wobei die SFU-Funktionen wie bisher in den Slots enthalten sind, also nicht außerhalb der VLIWs bestehen.

Achso, also eher dass die SFs über die bestehenden Einheiten nachgebildet werden oder dass sie richtig integriert wird?

Entweder ist w das neue t (kann aber im Gegensatz zu der heutigen t-ALU auch FMAs, diese Variante wäre gut für die arithmetische Leistung), oder für SFU-Funktionen arbeiten die 2 bis 4 ALUs zusammen (gut für die pro forma anliegende Auslastung auch wenn die reale Leistung etwas sinkt, spart ein paar Transistoren). Ich persönlich würde die erste Variante besser finden.

Eigentlich sollte es weniger wichtig sein. Special Functions sind zwar nicht unwichtig, aber jegliche Implementierung sollte dahingehend genug Leistung zur Verfügung stellen. Ich denke man wird eher versuchen Transistoren und Platz zu sparen.

480 "4D"-SPs sind irgendwie Unsinn. Warum? Weil das 30 SIMDs wären. Also 120 TMUs. Mit den ganzen Caches, RFs, sonstiger Logik wäre so eine GPU einfach riesig.
1920 SPs sind wohl wie vorher VLIW-ALUs mit 5 Slots, wo die letzte einfach abgemagerte T-ALUs ist (nur SFU). 1920/5/16 und alles wird gut.

Ja, das hab ich mir auch mal gedacht. Man wird eher eine ähnliche Anzahl an Rechenknechten haben, dafür ne höhere Effizienz bringen. Evtl höherer Takt um die Rohleistung zu pushen und deutlich höhere Geometrieleistung.
Sollte im Schnitt 20 bis 50% je nach Fall mit sich bringen.

2x12 SIMDs mit etwas überarbeitetem Setup und 256Bit-Controller wäre meiner Meinung nach etwa GF104-Region, d.h. um 370mm², oder wenn AMD etwas mehr macht vielleicht knapp 400mm².

Das muss doch skalierbar sein? Ein Modul mit 12 SIMDs ist imo für diese Aufgabe viel zu groß. Natürlich würde es wohl wenig Umstrukturierung bedeuten.

Fetza

2010-08-13, 21:45:51

Das muss doch skalierbar sein? Ein Modul mit 12 SIMDs ist imo für diese Aufgabe viel zu groß. Natürlich würde es wohl wenig Umstrukturierung bedeuten.

Meinst du nicht, die ati-techniker werden das am besten wissen?

HarryHirsch

2010-08-13, 22:47:30

Meinst du nicht, die ati-techniker werden das am besten wissen?

Die Techniker wissen 100 pro was sie machen.
Mal gucken was Softwareabteilung sagt, scheinen ja nur Praktikanten zu sein.

john carmack

2010-08-15, 13:20:59

Wieviel % Leistung müsste man den auf die 5870 drauflegen um die 480 mit einem kleinen abstand zu schlagen?

Schlammsau

2010-08-15, 13:24:27

Da die 480 im Schnitt "nur" 15-20% schneller als eine 5870 ist, dürfte ein Sprung von 30% ausreichend sein um eine 480 zu schlagen.

dildo4u

2010-08-15, 13:25:47

Wieviel % Leistung müsste man den auf die 5870 drauflegen um die 480 mit einem kleinen abstand zu schlagen?
30% dann hätte man ca 15% Vorsprung Mess aber nicht spürbar.So ab 50% wird's interresant,was aber wohl wieder nur mit na Dualchip Lösung möglich wäre.

john carmack

2010-08-15, 13:26:43

Die Techniker wissen 100 pro was sie machen.
Mal gucken was Softwareabteilung sagt, scheinen ja nur Praktikanten zu sein.

sind alles nur Menschen... die machen auch fehler!

5800Ultra... 2900XT... Netburst-Architektur...

john carmack

2010-08-15, 13:29:05

30% dann hätte man ca 15% Vorsprung Mess aber nicht spürbar.So ab 50% wird's interresant,was aber wohl wieder nur mit na Dualchip Lösung möglich wäre.

na das sollte doch klappen... vermutet werden ja eine leistungssteigerrung zur 5870 um etwa 25% - 35%. 50% könnten eng werden - schön wäre es aber!

Fetza

2010-08-15, 20:43:09

na das sollte doch klappen... vermutet werden ja eine leistungssteigerrung zur 5870 um etwa 25% - 35%. 50% könnten eng werden - schön wäre es aber!

Ich hoffe auf deutlich mehr leistung, 10% mehr frames zur gtx 480 fände ich eher entäuschend, 30% wären ok.

Undertaker2

2010-08-15, 20:48:08

durch Taktupdates erreicht man schon 10-15%, also sind es min. 30%

Gast

2010-08-15, 20:51:51

Ich hoffe auf deutlich mehr leistung, 10% mehr frames zur gtx 480 fände ich eher entäuschend, 30% wären ok.
Wenn man das mit deutlich weniger Transistoren und Die-Fläche schafft und mit einem billigeren PCB (256-Bit 0,33ns) wäre das nicht so verkehrt.

Fetza

2010-08-15, 21:00:51

Wenn man das mit deutlich weniger Transistoren und Die-Fläche schafft und mit einem billigeren PCB (256-Bit 0,33ns) wäre das nicht so verkehrt.

Jo, stimmt schon.

john carmack

2010-08-17, 21:08:17

wer weiß, vielleicht packt ATI den Hammer aus und packt mal so eben 80% mehr Leistung drauf...
:D :D :D :D :D

derguru

2010-08-17, 21:12:46

tessleistung sollte sogar mehr sein.in benchmarks wie stone giant muss sie so oder so die leistung min. verdoppeln um konkurrieren zu können.

Gast

2010-08-17, 22:23:26

Ich hab ma vor paar Monaten gelesen, dass Ati selbst meinte, SI (Cayman?) würde deutlich mehr Strom verbrauchen als Cypress.

Ich denke Cayman wird ca. 40% Mehrleistung bei 25-30% mehr Stromverbrauch haben (nur Spekulation)

20% wären trotz viel besserer Tesselationleistung zu wenig für eine Karte, die offenbar bis ins Q3 2011 am Markt sein muss, auch wenn Nvidia bis zum 28nm Prozess nichts viel leistungsfähigeres rausbringen kann, ohne eine Leistungsaufnahme, die völlig jenseits von gut und böse ist.

Was Northern Islands betrifft; hier sprechen alle immer von der neuen Architektur; Northern Islands ist aber wahrscheinlich auch nur Southern Islands in 28nm.

Ich denke Ati hat von Anfang an Northern und Southern Islands entwickelt, als Hybrid zwischen Evergreen und Hecatoncheires, um dann je nach Fertigungsvortschritt einen der beiden Chips zu bringen.

Übrigens dauert es 3-5 Jahre eine neue Architektur zu entwickeln und mit mal eben was am Frontend umdesignen ist da nichts.

Gast

2010-08-17, 22:26:35

AMD hat es wohl tatsächlich geschafft alle zu verwirren. Tatsächlich kommt Ende des Jahres Northern Island. Southern Island ist der Shrink in 28nm und Hecatoncheire eine neue Architektur.

Gast

2010-08-17, 23:43:13

AMD hat es wohl tatsächlich geschafft alle zu verwirren. Tatsächlich kommt Ende des Jahres Northern Island. Southern Island ist der Shrink in 28nm und Hecatoncheire eine neue Architektur.

Weißt du das sicher? Weil ich habe das nur vermutet und das zuerst NI und dann NI kommt wusste ich auch nicht. Hast du eine Quelle dafür?

Gast

2010-08-17, 23:44:01

Weißt du das sicher? Weil ich habe das nur vermutet und das zuerst NI und dann NI kommt wusste ich auch nicht. Hast du eine Quelle dafür?

Meinte zuerst NI und dann SI^^

svenw

2010-08-18, 08:45:15

Ich denke Ati hat von Anfang an Northern und Southern Islands entwickelt, als Hybrid zwischen Evergreen und Hecatoncheires, um dann je nach Fertigungsvortschritt einen der beiden Chips zu bringen.

Übrigens dauert es 3-5 Jahre eine neue Architektur zu entwickeln und mit mal eben was am Frontend umdesignen ist da nichts.Logisch, nur ist die aktuelle Architektur von ATI auch nicht gerade taufrisch. In SI/NI werden wir wohl die Früchte dieser jahrelangen Arbeit betrachten können. NV hat den Schritt mit der GF100 Architektur schon getan nun muß ATI nachziehen.

Gast

2010-08-18, 09:03:55

Weißt du das sicher? Weil ich habe das nur vermutet und das zuerst NI und dann NI kommt wusste ich auch nicht. Hast du eine Quelle dafür?

Es kommt definitiv zuerst Northern Island, darüber gab es schon ein Briefing. Über Southern Island wollte sich niemand von AMD äußern. Tenor: Das dauert noch lange.

horn 12

2010-08-18, 09:06:28

Könnte stimmer, N vor S
Somit könnte die Karte echt 40-50% schneller als HD5870 werden...
Tesselation +100-150% wäre auch drinnen ...

GENIAL !!

Gast

2010-08-18, 09:11:14

Könnte stimmer, N vor S
Somit könnte die Karte echt 40-50% schneller als HD5870 werden...
Tesselation +100-150% wäre auch drinnen ...

GENIAL !!

Nur weil es jetzt ev. ein anderer Codename ist heißt das aber nicht das die Karte schneller ist. ;)

john carmack

2010-08-18, 09:18:16

Was Northern Islands betrifft; hier sprechen alle immer von der neuen Architektur; Northern Islands ist aber wahrscheinlich auch nur Southern Islands in 28nm.

Ich denke Ati hat von Anfang an Northern und Southern Islands entwickelt, als Hybrid zwischen Evergreen und Hecatoncheires, um dann je nach Fertigungsvortschritt einen der beiden Chips zu bringen.

Übrigens dauert es 3-5 Jahre eine neue Architektur zu entwickeln und mit mal eben was am Frontend umdesignen ist da nichts.

Du meinst also das Hecatoncheires (Die HundertArmige - Griechische Mythologie) ATI´s neue Architektur wird und nicht NI?

Hecatoncheires wird dann Praktisch der "RV1170" oder wie es ATI vor einiger Zeit sagte der Radeon100 Chip. Oder wie meinst du das?

Ailuros

2010-08-18, 09:53:33

Interne Codenamen sind so wurscht wie sie sein koennen fuer jeglichen Beobachter. Was jetzt die Leistungsteigerung fuer SI unter 40G/TSCM betrifft, ihr koennt von mir aus wild tolle Prozentuale in die Luft werden aber am Ende wird es nichts anderes werden als ein leicht besserer Refresh als 4890 zu 4870 war und das auch nicht in allen Stellen.

Was jetzt NV betrifft, kommt drauf an was sie genau vorhaben. Falls sie ausschliesslich auf ein hypothetisches GF104 mGPU Gespann setzen sollten, wird wohl die SI single chip Loesung es nicht so leicht schlagen koennen, aber das mGPU Gespann garantiert. Fuer einen single chip high end refresh kann NV nur auf Frequenz-steigerungen hoffen so wie es aussieht und wenn sie nicht ihr Stromverbrauchs-Problem loesen sieht es nicht nach irgend etwas sehenswertem aus.

Kurz AMD hat so oder so die beste Moeglichkeit die heutige Situation zu wiederholen.

w0mbat

2010-08-18, 11:50:14

jedes mal, wenn ich Hecatoncheires höre, muss ich lachen. aber egal...

wann versteht ihr dass es diesen codenamen nicht gibt?

john carmack

2010-08-18, 11:58:57

jedes mal, wenn ich Hecatoncheires höre, muss ich lachen. aber egal...

wann versteht ihr dass es diesen codenamen nicht gibt?

Warum gibt es den nicht? Hatte ich sooo oft gelesen, glaube sogar schon offiziel von ATI...

Ailuros

2010-08-18, 12:07:51

jedes mal, wenn ich Hecatoncheires höre, muss ich lachen. aber egal...

wann versteht ihr dass es diesen codenamen nicht gibt?

Evergreen 40G/TSMC
Southern Islands 40G/TSMC
Northern Islands 28nm/GloFo

john carmack

2010-08-18, 12:33:06

Ist ja auch egal... Jetzt bin ich auch verwirrt :D :D :D

w0mbat

2010-08-18, 12:40:51

Warum gibt es den nicht? Hatte ich sooo oft gelesen, glaube sogar schon offiziel von ATI...

bestimmt nicht von amd. und glaub mir, es gibt diese codenamen bei amd/ati nicht.

Evergreen 40G/TSMC
Southern Islands 40G/TSMC
Northern Islands 28nm/GloFo

jenau

Gast

2010-08-18, 16:40:37

Du meinst also das Hecatoncheires (Die HundertArmige - Griechische Mythologie) ATI´s neue Architektur wird und nicht NI?

Hecatoncheires wird dann Praktisch der "RV1170" oder wie es ATI vor einiger Zeit sagte der Radeon100 Chip. Oder wie meinst du das?

Ja so etwa.
Ich meinte eigl. nur das ich entgegen der meisten gerüchte nicht vermute, dass Suthern Islands ein Hybrid und Northern Islands dann eine völlig neue Architektur ist.

Ich denke, sowohl NI als auch SI sind Hybride zwischen Evergreen und Hecatoncheires mit wahrscheinlich unterschiedlich vielen 4Slot shadern und einer neuen Rasterizerorganisation.

Mit Hecatoncheires (vlt R1000, wenn NI und SI R900) wird es dann komplett neue Shader geben und nicht nur solche, wo eben ma die t-Unit rausfliegt.

Die Roadmap sähe dann so etwa aus:

10-11/2010: Northern Islands
Sommer 2011: Southern Islands (Shrink 28nm + vlt mehr Shader)
Q2 2012: Hecatoncheires (28nm)

Fetza

2010-08-19, 04:43:07

Ja so etwa.
Ich meinte eigl. nur das ich entgegen der meisten gerüchte nicht vermute, dass Suthern Islands ein Hybrid und Northern Islands dann eine völlig neue Architektur ist.

Ich denke, sowohl NI als auch SI sind Hybride zwischen Evergreen und Hecatoncheires mit wahrscheinlich unterschiedlich vielen 4Slot shadern und einer neuen Rasterizerorganisation.

Mit Hecatoncheires (vlt R1000, wenn NI und SI R900) wird es dann komplett neue Shader geben und nicht nur solche, wo eben ma die t-Unit rausfliegt.

Die Roadmap sähe dann so etwa aus:

10-11/2010: Northern Islands
Sommer 2011: Southern Islands (Shrink 28nm + vlt mehr Shader)
Q2 2012: Hecatoncheires (28nm)

Laut wombat gibts aber diesen hecatondingsbums garnicht. ;)

john carmack

2010-08-19, 09:54:17

Denkt Ihr das es die HD6XXX zum start auch mit 2GB geben wird?

Kommt natürlich ganz auf Speicher Interface an... Kann ja sein das ATI auch ein 384Bit oder gleich auf ein 512Bit Speicher Interface setzt.

mapel110

2010-08-19, 09:57:46

Wenn Ailuros mit der relativ kleinen Performance-Steigerung recht hat, wirds wohl weiterhin ein 256bit Interface sein. Kann mir gut vorstellen, dass es 1GB und 2GB-Versionen geben wird, wie bei der 5870 auch schon.

Gast

2010-08-19, 10:00:10

0,33ns Speicher soll laut Samsung in Massenproduktion sein, damit sind fast 20% mehr Bandbreite möglich. Zumal Cypress eh nicht so stark an der Bandbreite hing.

Gast

2010-08-19, 10:09:33

Wenn Ailuros mit der relativ kleinen Performance-Steigerung recht hat, wirds wohl weiterhin ein 256bit Interface sein. Kann mir gut vorstellen, dass es 1GB und 2GB-Versionen geben wird, wie bei der 5870 auch schon.

Ailuros weiß doch auch von nichts wenn er sagt er erwartet etwas mehr als einen normalen Refresh. Das einzige was glaubwürdig ist sind die Chinesen, die Lagen bei jedem Chip in der Vergangenheit richtig. Und die sprechen von 480 4D Shader. Das würde bedeuten 50% mehr TMUs, 20% mehr ALUs (plus deutliche Effizienzsteigerung). 4Gamer, die ersten mit den Codenamen erwähnen auch explizit ein 384-bit SI und das würde bei den Leistungssteigerungen auch Sinn machen:

http://img27.imageshack.us/img27/9729/002jg.jpg

john carmack

2010-08-19, 10:12:06

Wenn Ailuros mit der relativ kleinen Performance-Steigerung recht hat, wirds wohl weiterhin ein 256bit Interface sein. Kann mir gut vorstellen, dass es 1GB und 2GB-Versionen geben wird, wie bei der 5870 auch schon.

2GB Versionen wird es in jedem Fall geben. Aber kommen die auch schon zum Start oder erst 3-4 Monate später?

john carmack

2010-08-19, 10:13:54

Ailuros weiß doch auch von nichts wenn er sagt er erwartet etwas mehr als einen normalen Refresh. Das einzige was glaubwürdig ist sind die Chinesen, die Lagen bei jedem Chip in der Vergangenheit richtig. Und die sprechen von 480 4D Shader. Das würde bedeuten 50% mehr TMUs, 20% mehr ALUs (plus deutliche Effizienzsteigerung). 4Gamer, die ersten mit den Codenamen erwähnen auch explizit ein 384-bit SI und das würde bei den Leistungssteigerungen auch Sinn machen:

http://img27.imageshack.us/img27/9729/002jg.jpg

wo hast du das bild her? bzw wo gibts das in GROß ?

john carmack

2010-08-19, 10:16:08

Und was bedeutet "UVD3" ?

DrumDub

2010-08-19, 10:23:26

Und was bedeutet "UVD3" ? neue version hiervon (http://de.wikipedia.org/wiki/Unified_Video_Decoder).

Gast

2010-08-19, 10:24:48

wo hast du das bild her? bzw wo gibts das in GROß ?

http://img638.imageshack.us/img638/8134/southernislandsroadmap.jpg

Und was bedeutet "UVD3" ?

UVD3 ist der neue Videopreozessor. Bringt Blu-Ray 3D Support, DisplayPort 1.2 und HDMI 1.4 Support.

Ailuros

2010-08-19, 10:59:52

384bits und GDDR5? :rolleyes:

V2.0

2010-08-19, 11:02:44

Wieso, man nehme an ATI baut nen GF100.

Gast

2010-08-19, 11:08:13

384bits und GDDR5? :rolleyes:

HAT NV ja auch??????

Nakai

2010-08-19, 11:22:28

384bit pro Chip wäre für eine Dualkarte noch knapp möglich. Aber so einfach kann man da Speicherinterface nicht so schön skalierbar machen, wie NV. Da muss ATI einiges am Chip rumfrickeln.

Das wären nun 6*64 Bit. Okay, Cypress hatte schon fast zuviel Die-Space für ein 256Bit SI. Genug Platz sollte verfügbar sein.
Btw, ich find die Zahl 6 nicht mal unpassend.;)

Achja die Roadmap ist nett, aber ziemlich ungenau. Wenn die Blasen die Markteinführung eines Produkts markieren, dann sind alle RV8xx-Produkte schonmal halb falsch angegeben.

mfg

Ailuros

2010-08-19, 11:43:55

HAT NV ja auch??????

Ja und? Bei den Unterschieden zwischen den beiden Architekturen sollte es nicht heissen dass was auf einer Seite macht auch auf der anderen auch Sinn machen muss. Alles was AMD IMHO braucht ist schnellerer Speicher um die Bandbreite zu erhoehen.

Fuer NV waren 384bit eine Einbahnstrasse u.a. aus zwei wichtigen Gruenden:

1. Zu hohe Speicherfrequenzen sind auf GF100 wohl doch problematisch, sonst waere die 480 nicht nur mit 930MHz angetanzt.

2. Waren rein zufaellig die 48 ROPs die ihnen der 384bit Bus indirekt bietet ziemlich praktisch da bei 32 pixels/clock rasterizing die zusaetzlichen 16 ROPs bei 8xMSAA um einiges helfen.

Fuer (1) vergleiche die Speicherfrequenzen zwischen einer 5870 und einer 480 und fuer (2) siehe Leistungsverlust auf einer 5870 mit 8xMSAA trotz "nur" 32 ROPs und 2 raster units die jeweils 16 pixels/clock bearbeiten.

Gast

2010-08-20, 01:10:57

Vlt waren die 384Bit auch für den 28nm chip (ka ob der jetzt Ni oder SI wird) vorgesehen und wurden, da für eine Designänderung nicht mehr genug Zeit war, in den provisorischen 40nm Chip übernommen.

Wirtschaftlicher wären jedoch 256 Bit und schnellerer GDR5 Speicher; so 6000Mhz sollten für Cayman reichen.

merfu

2010-08-20, 13:21:38

Laut Gerüchten wird GF wird 28nm Chips für ATI fertigen. Ist das schon bekannt?
http://www.digitimes.com/news/a20100820PB200.html

MfG
Merfu

Gast

2010-08-20, 13:29:48

Als Gerücht auf jeden Fall.

deekey777

2010-08-20, 14:16:54

Laut Gerüchten wird GF wird 28nm Chips für ATI fertigen. Ist das schon bekannt?
http://www.digitimes.com/news/a20100820PB200.html

MfG
Merfu
Die eigentliche Frage ist: Wird AMD die Chips gleich bei GF fertigen lassen oder vorher bei TSMC?
Besser gesagt: Wer wird die Fertigung in 28 nm eher starten lassen: GF oder TSMC?
Und warum unterhalten wir uns über 28nm-GPUs in diesem Thread?