PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : AMD/ATI - R700 im Q1 2008, multicore und 55 nm?


Seiten : 1 2 [3] 4 5

Coda
2007-12-18, 15:45:24
Wie auch immer die Shader-ALUs von G80 entstanden sind. Sie sind ein sehr beeindruckendes Stück Technik. Full-Custom-Logik ist unglaublich zeitaufwändig.

Nakai
2007-12-18, 16:22:46
Naja NV hatte 4 Jahre Zeit, das Ding zum Laufen zu bringen.

Nach meiner Meinung hat NV schon relativ früh in der Entwicklung des G80 gesehen, dass mit der Anzahl der Shadereinheiten und bei dem Takt, die Shaderleistung einfach zu niedrig gewesen wäre. Man wich dann auf Custom Transistoren aus, was man schon bei G70 ausprobierte um es auszutesten.

Ich hätte Leistung auf Höhe der GTS für Anfang 2006 durchaus erwartet,

Anfang 2006 sicherlich nicht, der 90Nm-Bereich wurde damals gerade für den G70 zugänglich gemacht, welcher weniger als die Hälfte schwer war.


mfg Nakai

robbitop
2007-12-18, 16:30:26
Im CPU Bereich ist Full Custom Logik sogar Alltag. Dort geht man sogar einen Schritt weiter und macht den Prozess extra für das Design und das Design für den Prozess.
G80 ist ein großer Schritt in diese Richtung.

reunion
2007-12-18, 16:38:15
Kyle von [H] sieht das ähnlich wie FUAD:

Sometimes people are just full of BS. AMD is right on track with R700. What AMD is doing now that some “journalists” don’t understand is that AMD is holding their cards a bit closer to the vest than is normally the case. Don’t assume since AMD is not commenting on future products that they do not even exist.

If you don’t see R700 this next year, I will paint the wheels on my truck pink, drive around Texas wearing a tutu, and take pictures for all of you to see.

http://www.hardocp.com/news.html?news=Mjk3MTcsLCxoZW50aHVzaWFzdCwsLDE=

AnarchX
2007-12-18, 16:52:32
Na dann:
If you don’t see R700 this next year, I will paint the wheels on my truck pink, drive around Texas wearing a tutu, and take pictures for all of you to see.:D

Jedenfalls sprechen die AMD-Infos vom Investorenmetting und auch die Specs vom R700 eher für einen späten 2008er Release, der eben auch ganz schnell in 2009 rutschen kann. Aber lassen wir uns überraschen.

Ailuros
2007-12-19, 06:36:58
Nunja wenn man bedenkt, dass die ALUs erst später ein custom design bekamen, die den hohen Takt ermöglichen, was auch wichtig für den Erfolg des G80 war, nicht mehr all zu sehr. Man hatte dafür angeblich eine ganze Weile Zeit.
Ein sehr sehr gutes Design. Aber dennoch hat es viele Bodenständige Elemente. Allerdings ist G80 partiell nur so schnell, weil ATI R6xx ziemlich daneben war.

Selbst wenn die AA-Leistung auf R600 gestimmt haette, hat G80 immer noch brauchbare Vorteile gegenueber der Konkurrenz; die eigentlichen Vorteile von R600 sind entweder zu vorzeitig (sprich Tesselation) oder custom filter die mit gemischten Gefuehlen von den Verbrauchern empfangen wurden.

Verdammt vereinfacht setzt ATI seit einigen Generationen auf weniger quads bzw. cluster und hoeherer Taktrate; NVIDIA hat eben mehr cluster und holt sich die fehlende Arithmetik durch die hohen ALU clock domains wieder rein. "Mathe-Einheiten" haben ja auch kein besonderes Problem mit hohen Frequenzen.

Jemand koennte jetzt einfach sagen dass auch ATI durch die Jahre mehr quads bzw. clusters haette benutzen koennen; nur wuerde dieses wohl vorraussetzen dass man viel zu wenig von den vorigen Architekturen erbt. R600 ist genauso wie G80 eine logische Folge fuer beide IHVs zu ihren Vorgaengern.

Ailuros
2007-12-19, 06:42:39
Kyle von [H] sieht das ähnlich wie FUAD:



http://www.hardocp.com/news.html?news=Mjk3MTcsLCxoZW50aHVzaWFzdCwsLDE=

Es ist fuer mich zweiffelos ein Vorteil und fuer alle andere wenn R7x0 noch in 2008 antanzt; das heisst aber nicht dass ich liebend gerne das video von Kyle mit all dem Firlefanz sehen wuerde.

Ob er jetzt zu jeglichem Zeitpunkt mal den einen oder anderen IHV bevorzugt (je nach wie Ihre Majestaet von diesen behandelt wird), gibt es ueberhaupt noch jemand in der Industrie der den Kerl ernst nimmt?

reunion
2007-12-19, 17:29:16
AMD to focus on multi-GPU cards for the high-end market:

The Radeon HD 3870 X2 uses a PCI Express bridge chip, the PEX6347, to let the two GPUs work together on the card. Although the cost of this solution is higher than just producing a single GPU card, AMD will be able to save on research and development costs while reducing its time to market for new high-end products.

Although AMD saves time and money from this design, its partners are expected to suffer since not will their production costs increase, power consumption and size of the cards will also go up, noted the sources.

AMD is currently planning to integrate the PCI Express bridge chip into its future GPUs so that it does not need to adopt third-party's chips. This design is expected to appear in AMD's next generation R700 series, the sources added.

http://www.digitimes.com/mobos/a20071219PD206.html

robbitop
2007-12-19, 18:46:40
Uah ... also kein richtiges Multi GPU Konzept im R700 ... war mir aber eh fast klar.
AMD muss, was mich nicht überrascht, sparen und spart sich zukünftig anscheinend einen High End Chip und substituiert diesen mit ner X2. Klar verkauft man das erstmal positiv. Die Nachteile mit diesem Konzept sind jedoch nicht zu unterschätzen. Ob das lange gut geht...?

laser114
2007-12-19, 18:50:26
Hat vielleicht den Vorteil, dass wir eher interessante Performance-GPUs sehen werden; irgendwie muss man ja auch die X2s zusammenschustern. Im High-End dürfte es dadurch aber nicht einfacher werden.

Gast
2007-12-19, 18:51:29
Hatte AiL nicht mal was anderes behauptet?

reunion
2007-12-19, 19:04:35
Uah ... also kein richtiges Multi GPU Konzept im R700 ... war mir aber eh fast klar.
AMD muss, was mich nicht überrascht, sparen und spart sich zukünftig anscheinend einen High End Chip und substituiert diesen mit ner X2. Klar verkauft man das erstmal positiv. Die Nachteile mit diesem Konzept sind jedoch nicht zu unterschätzen. Ob das lange gut geht...?

Eine PCIe-Bridge braucht man sowieso, wenn man mehr als einen Chip an einen Bus anbinden will, was liegt also näher als diesen gleich zu integrieren? So kann man den Bus direkt auf dem Träger verbinden. Das schließt aber noch lange keinen shared VRAM mittels Chip übergreifenden Ringbus und andere Dinge aus. Siehe ZB:

http://img255.imageshack.us/img255/9049/abe3936b59c24fbe880f118ge8.jpg

Wenn du jede Meldung die von einem "richtigen" Multi-GPU-Konzept gesprochen hat auch so ernst genommen hättest...

GeneralHanno
2007-12-19, 19:25:58
für marketing sind X2 lösungen nicht schlecht. erstmal nimmt mal alle werte mal 2 (insbesondere die speichermenge^^), und dann präsentiert man einen 3d-murks wert mit optimiertem treiber und crysis (hauptsache fps , von mikrorücklern hat der DAU sowieso keine ahnung).

der angearschte ist natürlich der kunde (mit ahnung)

und verbaut wird das ganze dann in alienware PCs mit coooolen 4 grafikkarten

Gast
2007-12-19, 19:49:26
Ob das lange gut geht...?

Da habe ich so meine Zweifel, 3dfx hat das ja auch versucht und ist gescheitert.

James Ryan
2007-12-19, 19:53:12
G80 sollte Anfang 2006 kommen. Da wurde G71 eingeschoben. Mitte 2006 bis November wäre ja jetzt nicht mehr so die Differenz geworden. Was für Deltas da geplant waren, weiß ich nicht.

Anfang 2006 war der 90nm Prozess aber noch relativ jung und riskant, gerade für einen riesigen G80. Das Risiko ist NVIDIA nicht eingegangen, man "übte" quasi mit dem G71.

MfG :cool:

Hvoralek
2007-12-19, 20:19:10
Jemand koennte jetzt einfach sagen dass auch ATI durch die Jahre mehr quads bzw. clusters haette benutzen koennen [...].Bei der Größe, die die einzelnen Cluster in R5xx und v.a. R6xx haben müssen, wären die Chips dann doch riesig geworden?

laser114
2007-12-19, 20:22:54
für marketing sind X2 lösungen nicht schlecht. erstmal nimmt mal alle werte mal 2 (insbesondere die speichermenge^^), und dann präsentiert man einen 3d-murks wert mit optimiertem treiber und crysis (hauptsache fps , von mikrorücklern hat der DAU sowieso keine ahnung).

Fürs Profi-Segment dürften die Karten auch passen, doppelte Präzession sollte sich damit ja ganz sinnvoll umsetzen lassen ohne das wirklich Performance verloren geht; wenn die GPUs einfach parallel rechnen.

robbitop
2007-12-19, 20:36:15
@Reunion

mit einem anständigen MultiGPU Konzept brauchts keinen PEG Switch mehr. Der Treiber sieht nur noch eine große GPU und spricht auch nur eine an. Diese arbeitet dann als Dispatcher und verteilt dann die Quadbatches. Beide GPUs würden dann bsw über den Ringbus kommunizieren.

PEG Switch impliziert keinerlei solche transparente Lösung.

reunion
2007-12-19, 20:48:18
@Reunion

mit einem anständigen MultiGPU Konzept brauchts keinen PEG Switch mehr. Der Treiber sieht nur noch eine große GPU und spricht auch nur eine an. Diese arbeitet dann als Dispatcher und verteilt dann die Quadbatches. Beide GPUs würden dann bsw über den Ringbus kommunizieren.

PEG Switch impliziert keinerlei solche transparente Lösung.

Natürlich, und doch war dies nur eine Meldung unter duzenden über R700. Deine Gewissheit hat mich doch etwas irritiert. Auch würde das wie schon gesagt ja noch lange keinen shared VRAM und andere Späße ausschließen. Außerdem stellt sich die Frage was man mit einem integrierten PCIe-Switch will, immerhin braucht man davon ja nur einen insgesamt, und nicht einen pro Chip. Theoretisch könnte man den Switch auch als direkte Verbindung der Dice untereinander nutzen, was dann wieder eine "transparente Lösung" ergeben würde. PCIe 2.0 taktet immerhin mit 5Ghz und bei entsprechend vielen Lanes könnte man da eine ganz nette Bandbreite erreichen. Aber momentan ist da einfach noch viel zu wenig bekannt, das einzige was sicher sein dürfte, ist, dass R700 kein Singel-Core sein wird.

robbitop
2007-12-19, 20:59:48
Natürlich, und doch war dies nur eine Meldung unter duzenden über R700. Deine Gewissheit hat mich doch etwas irritiert. Auch würde das wie schon gesagt ja noch lange keinen shared VRAM und andere Späße ausschließen. Außerdem stellt sich die Frage was man mit einem integrierten PCIe-Switch will, immerhin braucht man davon ja nur einen insgesamt, und nicht einen pro Chip. Theoretisch könnte man den Switch auch als direkte Verbindung der Dice untereinander nutzen, was dann wieder eine "transparente Lösung" ergeben würde. PCIe 2.0 taktet immerhin mit 5Ghz und bei entsprechend vielen Lanes könnte man da eine ganz nette Bandbreite erreichen. Aber momentan ist da einfach noch viel zu wenig bekannt, das einzige was sicher sein dürfte, ist, dass R700 kein Singel-Core sein wird.
Man integriert wohl einen PEG Switch in jeden Chip, damit man nicht 2 verschiedene Tapeouts braucht. Kosten tuts eh kaum was.

Deine unerschütterliche Hoffnung möcht ich haben. ;)

mapel110
2007-12-19, 21:03:30
Wie will denn ATI mit zwei Midrange-Chips im CF-Verbund gegen zwei High End Chips im SLI-Verbund anstinken? Dann hätten sie quasi kein High End mehr. So sehe ich das jedenfalls.
Und der Nachteil wäre wohl enorm, wenn nvidia überall doppelt so lange Balken bieten könnte.

reunion
2007-12-19, 21:07:48
Deine unerschütterliche Hoffnung möcht ich haben. ;)

Deine Skepsis in Ehren, aber nach duzenden Meldungen, die dem R7xx ein "echtes" Multi-Chip-Konzept bescheinigen jetzt nach der ersten anders lautenden Meldung gleich die Segel zu streichen ist doch etwas voreingenommen. Aber ich weiß schon das du nicht an so etwas glaubst.

laser114
2007-12-19, 21:15:32
Wie will denn ATI mit zwei Midrange-Chips im CF-Verbund gegen zwei High End Chips im SLI-Verbund anstinken? Dann hätten sie quasi kein High End mehr. So sehe ich das jedenfalls.

Nein, daher kommt ja nun Crossfire X. Auch die X2-Karten sollen mit einander noch gut skalieren, so wünscht sich das wohl jedenfalls AMD.

robbitop
2007-12-19, 22:00:16
Deine Skepsis in Ehren, aber nach duzenden Meldungen, die dem R7xx ein "echtes" Multi-Chip-Konzept bescheinigen jetzt nach der ersten anders lautenden Meldung gleich die Segel zu streichen ist doch etwas voreingenommen. Aber ich weiß schon das du nicht an so etwas glaubst.
Wenn das mit dem PEG Switch stimmen sollte, spricht das gegen ein solches Konzept. Was ich glaube ist, dass ATI sich erst mit der Zeit an ein echte Multi GPU Konzept herantasten wird. Mich würde es doch sehr wundern, wenn Von heute auf morgen ein solches Design aufkommen würde. Unmöglich ist jedoch nichts. ;)

Hvoralek
2007-12-19, 22:05:39
Wenn das mit dem PEG Switch stimmen sollte, spricht das gegen ein solches Konzept. Was ich glaube ist, dass ATI sich erst mit der Zeit an ein echte Multi GPU Konzept herantasten wird. Mich würde es doch sehr wundern, wenn Von heute auf morgen ein solches Design aufkommen würde. Unmöglich ist jedoch nichts. ;)Um R700 ranken sich schon seit längerem Mutli- GPU- Gerüchte. "Von heute auf morgen" hat wohl niemand erwartet.

robbitop
2007-12-19, 22:11:53
Um R700 ranken sich schon seit längerem Mutli- GPU- Gerüchte. "Von heute auf morgen" hat wohl niemand erwartet.
Hinter einem richtigen Multi-GPU Konzept (welches hier und an anderen Stellen besprochen wurde) steckt eine enorme Menge an Infrastruktur, Design, Layout, Know How ect. Hinzu kommt, dass das für Massen bezahlbar sein muss. Es sind einfach verdammt viele Variablen, die so noch nie durchgeführt worden sind. Besonders nicht von ATI/AMD. Wenn R700 mit mehreren GPUs auf einem Träger mit Interconnects mit mind 100 GiB/s und Richtung kommen sollte, wäre das äußerst beeindruckend und überraschend. Ich vermute, wenn man sowas überhaupt erreicht, (zukünftige Generationen bräuchten gleich deutlich mehr Bandbreite) ist ein Prozess des Herantastens nur all zu logisch.

mapel110
2007-12-19, 23:14:33
Nein, daher kommt ja nun Crossfire X. Auch die X2-Karten sollen mit einander noch gut skalieren, so wünscht sich das wohl jedenfalls AMD.
Na auf die Skalierung bin ich gespannt. Das kann schon mal nicht so gut sein wie bei 2 Chips.
Hinter einem richtigen Multi-GPU Konzept....
Sehe ich auch so. Entwicklung des Chips dauert schon Jahre und wenn man bedenkt, wie lange ATI nvidias SLI hinterhergehechelt ist, kann ich mir auch nicht denken, dass sie da so aus dem Stand daran vorbei ziehen.

robbitop
2007-12-19, 23:24:16
Zumal SLI/CF sogar noch äußerst primitive Konzepte sind. (Stepsisters gabs schon vor 10 Jahren)

Hvoralek
2007-12-20, 00:30:52
Na auf die Skalierung bin ich gespannt. Das kann schon mal nicht so gut sein wie bei 2 Chips.Unter D3D10 mit 4- way- AFR sollten ordentliche Zuwächse erreichbar sein. Natürlich mit zusätzlichen Latenzen. Und wie die Frameverteilung aussieht, wird man auch abwarten müssen.

Allerdings sehe ich auch nicht, wie man im High- End- Bereich mit vier Mittelklassechips gegen drei High- End- Einzelkarten ankommen soll.

puntarenas
2007-12-20, 02:12:35
Allerdings sehe ich auch nicht, wie man im High- End- Bereich mit vier Mittelklassechips gegen drei High- End- Einzelkarten ankommen soll.
Das geht nur über den Preis. Den wird die Leistung bestimmen und zwar was beim Kunden ankommt, nicht wieviel Aufwand man dafür unter der Haube betreiben muss. Gewinne will man sicher trotzdem machen, das wird spannend.

Ailuros
2007-12-20, 06:19:11
Hatte AiL nicht mal was anderes behauptet?

Ich stellte vor sehr langer Zeit die Frage ob es multi-core oder multi-chip heissen sollte. Mit dem Verlauf der Dinge und den mehr Einzelheiten die auftauchen, lass ich Dich entscheiden wie Du es nennen willst.

Ailuros
2007-12-20, 06:21:56
Unter D3D10 mit 4- way- AFR sollten ordentliche Zuwächse erreichbar sein. Natürlich mit zusätzlichen Latenzen. Und wie die Frameverteilung aussieht, wird man auch abwarten müssen.

Allerdings sehe ich auch nicht, wie man im High- End- Bereich mit vier Mittelklassechips gegen drei High- End- Einzelkarten ankommen soll.

Mir ist das Ganze zwar noch zu weit in die Zukunft gegriffen, aber mich wuerde es kein bisschen wundern wenn beide IHVs in der weniger absehbaren Zukunft sich in die multi-core Richtung bewegen wuerden. So etwas kommt dann sowieso Schritt fuer Schritt und ich wuerde eher dann darauf tippen dass nicht alle cores zu 100% identisch sind ***edit: mehrere cores aber ein Paket.

AnarchX
2007-12-20, 14:38:41
Last week I received word that ATI has taped out their R700 core... That means they are just a few weeks away from having running R700's in the lab. A little insider FYI for you as no one else reported this!
http://forums.legitreviews.com/about12820.html

Würde wieder für einen 2008-Release sprechen, wenn glaubwürdig und nichts anderes dazwischen kommt...

reunion
2007-12-20, 15:26:30
http://forums.legitreviews.com/about12820.html

Würde wieder für einen 2008-Release sprechen, wenn glaubwürdig und nichts anderes dazwischen kommt...

Wenn das erste Tapeout wirklich noch 2007 stattgefunden hat, dann ergibt die AMD-Präsentation aber wenig Sinn. Selbst mit ev. entstehenden Problemen dauert es nie über ein Jahr, bis man eine solchen Chip in den Handel bringt. Noch dazu wo man jetzt dank Multi-Core nicht mehr so hoch komplexe Chips fertigen dürfte. Üblicherweise geht man bei einem neuen Design von sechs Monaten aus, vom ersten Tapeout bis zur Massenproduktion.

Gast
2007-12-20, 16:25:42
Da dürfte es sich eher um einen RV670 Refresh handeln. Bis Ende 08/Anfang 09 reicht der nämlich nicht ;)

Hvoralek
2007-12-20, 18:03:05
Mir ist das Ganze zwar noch zu weit in die Zukunft gegriffen, aber mich wuerde es kein bisschen wundern wenn beide IHVs in der weniger absehbaren Zukunft sich in die multi-core Richtung bewegen wuerden. So etwas kommt dann sowieso Schritt fuer Schritt und ich wuerde eher dann darauf tippen dass nicht alle cores zu 100% identisch sind ***edit: mehrere cores aber ein Paket.Ich habe kein Problem mit Multi- Die- Bauweise, sondern mit AFR. Wenn man einen vernünftigen anderen Modus hinbekommt (inkl. ggf. entsprechender Verbindungen zwischen den Chips), gerne.

Bestanden nicht die ersten 3dfx- Karten aus seperaten Pixel- und Texelchips?

robbitop
2007-12-20, 18:10:44
Ja allerdings hatten die Texelchips einen eigenen VRAM und eine eigene VRAM Anbindung.
Je Pixel und Texelchip wars ein 64 bit SI. Die Speicherverschwendung ist zwar nicht so schlimm wie mit AFR, aber immer noch inakzeptabel.
Hast du dich nie gewundert, warum die ersten Voodoos mit so "viel" VRAM nie eine hohe Auflösung darstellen konnten? ;)

Gast
2007-12-20, 18:54:37
Neue GPUs bekommen eben mehrere Shader Cores, die unabhängig von den TMU Cores dann arbeiten. Also einen G80 einfach nehmen und aufdrösseln *g
Einfach wird es nicht aber man hat doch schon mit Quads gesehen wohin der Hase läuft. Vergleicht mal einen 1Quad Core wie den NV30 vs den G80 der aus etlichen Quads besteht. Und es hängt nicht mehr alles an einer Pipleline, wir haben 8? Parallel arbeitende Hauptpfade.

Ailuros
2007-12-21, 06:15:22
Ich habe kein Problem mit Multi- Die- Bauweise, sondern mit AFR. Wenn man einen vernünftigen anderen Modus hinbekommt (inkl. ggf. entsprechender Verbindungen zwischen den Chips), gerne.

Bestanden nicht die ersten 3dfx- Karten aus seperaten Pixel- und Texelchips?

Du hast mich falsch verstanden; mehrere cores auf einem die, wobei die diversen cores nicht die gleichen Funktionalitaeten haben wuerden. Jegliche Applikation sieht dann nur einen chip; wofuer brauchst Du dann noch AFR?

AnarchX
2007-12-21, 08:08:45
Du hast mich falsch verstanden; mehrere cores auf einem die,

Und welche Vorteile würde das gegenüber einer breit-skalierten GPU bringen?

palace
2007-12-21, 21:40:41
Und welche Vorteile würde das gegenüber einer breit-skalierten GPU bringen?
Geringere Herstellungskosten, sowie höhere Ausbeute wegen z.B. "einfacherem" Chipdesign

sowie
Lowend: 1 Core,
Midrange: 2 Cores
High End: 4 Cores
Enthusiast: 2 x 4 Cores

AnarchX
2007-12-21, 21:52:24
Geringere Herstellungskosten, sowie höhere Ausbeute wegen z.B. "einfacherem" Chipdesign

Ob das wirklich so "einfach" ist? ;)
Ich sehe da ehrlich keinen wirklich Sinn, wäre an sich eher ein Schritt zurück gegenüber skalierbaren Designs.

palace
2007-12-21, 22:15:01
Ob das wirklich so "einfach" ist? ;)
Ich sehe da ehrlich keinen wirklich Sinn, wäre an sich eher ein Schritt zurück gegenüber skalierbaren Designs.
Naja, betrachte es mal als Weg zu einer in 1-2 Generationen transparent, also nicht per Treiber skalierenden multi Core GPU(?)...

AnarchX
2007-12-21, 22:18:30
Und was unterscheidet diese schliesslich wieder von einem aktuellen Design auf einem Die, was ebenso skalierbar ist? (Meine Ausgangsfrage)

Ailuros sprach ja auch von unterschiedlichen Cores, wo ein auseinanderlasern und weiterbenutzen bei Teildefekten auch nicht gehen würde.

Hvoralek
2007-12-22, 00:28:45
Du hast mich falsch verstanden; mehrere cores auf einem die, wobei die diversen cores nicht die gleichen Funktionalitaeten haben wuerden. Jegliche Applikation sieht dann nur einen chip; wofuer brauchst Du dann noch AFR?Inwiefern würde sich das dann von dem unterscheiden, was wir imM haben? Ich sehe da mit TMU-, ROP- oder Shaderblöcken auch schon etliche - unterschiedliche - "Kerne" auf einem Chip.

Ailuros
2007-12-23, 18:37:50
Inwiefern würde sich das dann von dem unterscheiden, was wir imM haben? Ich sehe da mit TMU-, ROP- oder Shaderblöcken auch schon etliche - unterschiedliche - "Kerne" auf einem Chip.

Ja aber mit "handangepassten" ALUs fuer extrem hohe Frequenzen. Es kann durchaus sein dass ich total auf dem falschen Pfad liege, aber eine CPU hat nicht das gleiche Problem wie GPUs mit hohen Frequenzen; trennt man jetzt die Mathe-einheiten hat man eigentlich eine CPU.

AnarchX
2007-12-23, 18:40:03
Das wäre ja dann Larrabee.:D

Ailuros
2007-12-23, 18:45:17
Und was unterscheidet diese schliesslich wieder von einem aktuellen Design auf einem Die, was ebenso skalierbar ist? (Meine Ausgangsfrage)

Ailuros sprach ja auch von unterschiedlichen Cores, wo ein auseinanderlasern und weiterbenutzen bei Teildefekten auch nicht gehen würde.

Das Zeug mit den unterschiedlichen cores hat ja auch nichts mit R7x0 zu tun. R7x0 ist lediglich ein Refresh von "R680", wobei erstmal versucht wird das Speicherproblem zwischen den beiden chips zu loesen. Jegliche These die ueber mehr als 2 chips spricht halte ich momentan genauso zuverlaessig wie "G100" in Maerz 2008 und dazu noch mit eDRAM.

Ailuros
2007-12-23, 18:46:47
Das wäre ja dann Larrabee.:D

Intel ein unbezweifeltetes Talent gute Mathe-Einheiten zu entwickeln; nur reicht eine gute Mathe-Einheit eben nicht fuer eine gute GPU aus.

AnarchX
2007-12-23, 18:51:02
Das Zeug mit den unterschiedlichen cores hat ja auch nichts mit R7x0 zu tun. R7x0 ist lediglich ein Refresh von "R680", wobei erstmal versucht wird das Speicherproblem zwischen den beiden chips zu loesen. Jegliche These die ueber mehr als 2 chips spricht halte ich momentan genauso zuverlaessig wie "G100" in Maerz 2008 und dazu noch mit eDRAM.
Was aber dann entsprechende große "Refresh-GPUs" braucht um die anvisierte Leistung zu erreichen, die für einen Release gegen Ende 2008 gar nicht mal so abwegig ist.
Aber natürlich macht im Bezug auf schnelle Package-ICs mehr als zwei GPUs nicht viel Sinn.

Intel ein unbezweifeltetes Talent gute Mathe-Einheiten zu entwickeln; nur reicht eine gute Mathe-Einheit eben nicht fuer eine gute GPU aus.
Darum gibt es ja mittlerweile die VCG mit wohl entsprechend fähigen Leuten.

Ailuros
2007-12-23, 18:59:35
Darum gibt es ja mittlerweile die VCG mit wohl entsprechend fähigen Leuten.

Es gehoert zwar in einen anderen Thread, aber es gibt eine gesunde Menge von gut informierten Leuten in der Industrie die aus gutem Grund mehr als nur eine Vorbehaltung fuer die ganze Affaere haben.

AnarchX
2007-12-26, 17:38:46
Auf der CeBIT soll wohl der R700 (als Sample?) gezeigt werden.

GeneralHanno
2007-12-26, 17:41:27
Wann genau ist die Cebit? was bedeutet das für den launch (etwa...) ?

immer hin würde das bedeuten, dass es ein bootbares tapeout gibt (mindestens!)

Gast
2007-12-26, 18:53:13
Sagt gar nix aus, wenn der Chip nicht funktioniert. Der R600 hatte auch seinen 1. Tapeout über 6 Monate vor seinem Release...

nomadhunter
2007-12-26, 22:04:31
Würde passen, der R700-Release ist ja nach den aktuellen Roadmaps auch erst Ende 08 geplant. Die Cebit ist Anfang März.

Hvoralek
2007-12-26, 22:47:13
Auf der CeBIT soll wohl der R700 (als Sample?) gezeigt werden.Wem soll er gezeigt werden? :D

GeneralHanno
2007-12-26, 22:50:12
Vermutlich einer erlesenen Zahl von Fachbesuchern ;)

Gmax
2007-12-27, 00:51:58
Sagt gar nix aus, wenn der Chip nicht funktioniert. Der R600 hatte auch seinen 1. Tapeout über 6 Monate vor seinem Release...

Und was, wenn er bei der Cebit gezeigt wird und tatsächlich funktioniert?

Ruiz sagen ja auf dem Analyst Day u.a. auch dass das primäre Ziel von AMD nun sei Design-Risiken zu minimieren und Produkte rechtzeitig anzubieten.

Das wäre dann der Sommer 08, alles andere wäre nicht rechtzeitig. :)

If you don’t see R700 this next year, I will paint the wheels on my truck pink, drive around Texas wearing a tutu, and take pictures for all of you to see.

http://www1.picfront.org/picture/cXhrZEGbUmY/img/pink.jpg (http://www.picfront.org/d/cXhrZEGbUmY/pink.jpg)

So in etwa? Hoffentlich bleibt ihm das erspart. :rolleyes:

Ailuros
2007-12-27, 18:49:24
Zeit zur Selbstkorrigierung: streicht jegliches MCM relevantes Zeug und man sollte das was kommt eher "R690" als alles anderes nennen.

GeneralHanno
2007-12-27, 18:52:53
die namensgebung der 3800 lässt ja auch noch platz für eine 3900 ;)

Ailuros
2007-12-27, 18:57:15
die namensgebung der 3800 lässt ja auch noch platz für eine 3900 ;)

Och AMD wird das Ding schon als "r700" oder weiss der Geier was auch immer verscherpeln; erst nach dem release wird klar werden dass das Resultat die "7" nicht im geringsten wert ist.

AnarchX
2007-12-27, 18:57:35
Zeit zur Selbstkorrigierung: streicht jegliches MCM relevantes Zeug und man sollte das was kommt eher "R690" als alles anderes nennen.

Soetwas?:

ATI's flagship forecast: HD3970 still use GDDR4, the specific date has yet to be released
Chip maker AMD / ATI
256 bit interface chip
0.55-micron manufacturing process
Core code-named R680 +
Core parameters ROP / TMU 24-processor 480 [96 x5]
ATI AMD K10 hearsay from the regulation to be inspired, will join a group of other independent of the core of the high-speed flow processor
(16X5, 64) SHG X3, speed will reach 2400 Mhz, AA will be used to enhance performance
Graphics core frequency of 800 Mhz frequency
Clocked 3000 Mhz
GDDR4 memory specifications memory type
Memory capacity (MB), 768MB (64MB X12)
384 bit memory interface
Description memory Samsung GDDR4 BC06 memory
Memory speed (ns) 0.60NS (up to 3200 Mhz)
The maximum resolution 2560 * 1600
Thermal cooling card cooling fans
Graphics interface bus interface 16X PCI-E 2.0
Display Interface 2 DISPLAY PORT (DL) + 1 HDMI
3D API DirectX 10.1

The entire card largest power: 160W
Estimated price: Gaobugao to 999, should not be lower than 399 low

RV670 chips for the basic reference, to be expanded several amendments after-market performance BUG
R700 is the flagship game before the main confrontation NV
http://bbs.chiphell.com/viewthread.php?tid=14262&extra=page%3D1

:D

Aber warum soll MCM plötzlich tot sein? Hat AMD ein Machtwort gesprochen?

reunion
2007-12-27, 18:58:19
Zeit zur Selbstkorrigierung: streicht jegliches MCM relevantes Zeug und man sollte das was kommt eher "R690" als alles anderes nennen.

Wer weiß, vielleicht stimmt R690 sogar. R700 wurde ja bei den AMD-Roadmaps auf 2009 verschoben, trotzdem gibt es Infos über einen neuen High-End-Chip der noch 2008 kommt und schon sein Tape-Out hinter sich hatte. Dachte mir schon öfter, dass das womöglich kein R7xx ist.

Och AMD wird das Ding schon als "r700" oder weiss der Geier was auch immer verscherpeln; erst nach dem release wird klar werden dass das Resultat die "7" nicht im geringsten wert ist.

Etwas mehr Infos wären nicht schlecht. :D

Ailuros
2007-12-27, 19:10:23
Wer weiß, vielleicht stimmt R690 sogar. R700 wurde ja bei den AMD-Roadmaps auf 2009 verschoben, trotzdem gibt es Infos über einen neuen High-End-Chip der noch 2008 kommt und schon sein Tape-Out hinter sich hatte. Dachte mir schon öfter, dass das womöglich kein R7xx ist.

Etwas mehr Infos wären nicht schlecht. :D

Wann war es das letzte Mal dass Du ueber "man-hours" fuer die Entwicklung gehoert hast? R700 wurde storniert.

Ailuros
2007-12-27, 19:12:18
Soetwas?:

http://bbs.chiphell.com/viewthread.php?tid=14262&extra=page%3D1

:D

Aber warum soll MCM plötzlich tot sein? Hat AMD ein Machtwort gesprochen?

Der Herstellungsprozess stimmt mal als Anfang; der Rest ist fuer die Tonne.

Zur zweiten Frage ist die Antwort schlicht und einfach ja, da R7x0 nicht mehr auf 55nm moeglich war.

Gmax
2007-12-27, 22:02:53
Zeit zur Selbstkorrigierung: streicht jegliches MCM relevantes Zeug und man sollte das was kommt eher "R690" als alles anderes nennen.

Könnte es sein, daß es sich dabei um den totgesagten R680 handelt?

Auch egal, hauptsache er kommt bald :smile:

][immy
2007-12-27, 23:06:03
Uah ... also kein richtiges Multi GPU Konzept im R700 ... war mir aber eh fast klar.
AMD muss, was mich nicht überrascht, sparen und spart sich zukünftig anscheinend einen High End Chip und substituiert diesen mit ner X2. Klar verkauft man das erstmal positiv. Die Nachteile mit diesem Konzept sind jedoch nicht zu unterschätzen. Ob das lange gut geht...?

ansich ist das ein richtiger schritt. schließlich wird nicht direkt mit high-end chips verdient. die high-end chips sind ja eigentlich nur aus marketing sicht wichtig. nur leider werden die meisten OEMs auch auf den hersteller setzen der die schnellsten karten anbietet.

was ich aber nicht verstehe ist, warum ati immernoch nicht die anzahl textureinheiten erhöht hat. auch wenn shader immer wichtiger werden, so sollten gerade derzeit noch die textureinheiten doch nochmal einen ordentlichen geschwindigkeitsschub geben. das sah man ja z.B. auch herrlich beim vergleich nv40 vs g70

LovesuckZ
2007-12-28, 00:44:25
Die Margen im High-End sind wesentlich höher. Irgendwie logisch, wenn man einen Chip auch für 250$ statt für 150$ verkaufen kann.

robbitop
2007-12-28, 02:45:14
Wenn das Teil wirklich hochgetakte ALUs hat, wäre das für mich kein R690 mehr. Aber das hebt man sich wohl für 'ne neue Arch auf. Vieleicht wirds endlich mal ein höher skalierter RV670. Doppelt skaliert. Das wäre so schlecht nicht. Wenns noch bessere ROPs dazu gibt natürlich.

Cpl. Dwayne Hicks
2007-12-28, 07:48:41
Was genau ist eigentlich das Problem mit den R(V)6xx ROPS?

Rein mit Anti Aliasing skaliet der R600 doch ziemlich gut, und die mangelhafte AF Leistung ist doch auf die niedrige Textur Füllrate zurück zu führen?

Wäre jemand so gut und würde mir das schnell erläutern?

Ailuros
2007-12-28, 08:55:34
[immy;6143923']
was ich aber nicht verstehe ist, warum ati immernoch nicht die anzahl textureinheiten erhöht hat. auch wenn shader immer wichtiger werden, so sollten gerade derzeit noch die textureinheiten doch nochmal einen ordentlichen geschwindigkeitsschub geben. das sah man ja z.B. auch herrlich beim vergleich nv40 vs g70

Weil bei R600/670 je cluster ein 4 TMU array in einer quasi SIMD Logik angebunden ist (vereinfacht). So einfach ein paar beliebige Einheiten dazustecken ist es nun auch wieder nicht; hier koennte sie denke die Anzahl der clusters erhoehen, damit es aber den jeweiligen projezierten Transistoren-budget nicht sprengt muessten sie sowohl Aenderungen fuer die ROP partitions durchfuehren als auch die Anzahl an ALUs pro cluster reduzieren.

Ob sie jetzt wirklich Zeit hatten fuer solche Aenderungen, oder ob sie einfach X cluster dazugeschoben haben und den chip um Y unter 55nm vergroessert haben steht noch in den Sternen.

Die ganze Angelegenheit mit den 320 vs. 128 SPs ist natuerlich so irrefuehrend dass man auf ersten Blick schlecht versteht um was es sich handelt. Ich betonte schon vor der G80-Vorstellung dass NV den grossen Vorteil hat mit 8 cluster anzukommen vs. 4 bei R600.

Ailuros
2007-12-28, 09:14:40
Was genau ist eigentlich das Problem mit den R(V)6xx ROPS?

Es schwirren etliche Thesen darueber herum und dabei ist es ziemlich scheissegal was hier nicht richtig funktioniert, denn so lange diese verkauft werden wird es auch keiner zugestehen was wirklich los ist. Ein Problem dass man erwaehnen kann ist dass die Dinger auf single cycle 2xAA begrenzt sind. Hingegen ist G8x/9x ueber single cycle 4xAA faehig.

Rein mit Anti Aliasing skaliet der R600 doch ziemlich gut, und die mangelhafte AF Leistung ist doch auf die niedrige Textur Füllrate zurück zu führen?

Mit 8xMSAA und obwohl 4 cycli dafuer vorgenommen werden, spielt hier ATI hoechstwahrscheinlich mit Komprimierungen um bessere Raten zu erreichen; hier schert sich wohl NV kein bisschen darueber da sie hauptsaechlich auf coverage sampling investiert haben.

Fablemark ist ein alter synthetischer Test von PowerVR der rein stencil-Fuellrate limitiert ist und die Doom3 engine damals nachmachen wollte. So gesehen ist sehr intensives stenciling fuer heutige Spiele nicht mehr so relevant, aber wenn Du Dir die Werte unten genau ansiehst:

http://www.computerbase.de/artikel/hardware/grafikkarten/2007/test_ati_radeon_hd_3870_rv670/10/#abschnitt_theoretische_benchmarks

...ist es leicht zu sehen dass hier eine der Schwaechen sichtbar wird. Es ist schon ein Unterschied wenn man von 1x auf 4xAA in dem Test anstatt die Haelfte gleich 2/3 der Leistung verliert.

Praxis-naher waere dann STALKER dank seiner MRTs:

http://www.computerbase.de/artikel/hardware/grafikkarten/2007/test_ati_radeon_hd_3870_rv670/21/#abschnitt_stalker

Mit AF wird der Unterschied natuerlich um einiges groesser.

Irgend ein oder mehrere engineers bei ATI duerften erschossen werden, weil sie offensichtlich keine Ahnung hatten wie wichtig FP16 Filterung wirklich ist; dank dem Scheiss gelang es zu einem nutzlos ueberdimensionierten 512bit bus auf R600.

Cpl. Dwayne Hicks
2007-12-28, 09:49:09
Ich dachte immer FP16 wäre zusammen mit HDR wichtig.... und das es im Kommen ist.

Ailuros
2007-12-28, 09:53:25
Ich dachte immer FP16 wäre zusammen mit HDR wichtig.... und das es im Kommen ist.

Welche game-engine wird es fuer die Lebenszeit von R600 und co. benutzen?

reunion
2007-12-28, 09:58:27
Wenn das Teil wirklich hochgetakte ALUs hat, wäre das für mich kein R690 mehr. Aber das hebt man sich wohl für 'ne neue Arch auf. Vieleicht wirds endlich mal ein höher skalierter RV670. Doppelt skaliert. Das wäre so schlecht nicht. Wenns noch bessere ROPs dazu gibt natürlich.

Wenn schon dann muss das mindestens ein 3x-4x RV670 werden. Ein doppelter RV670 ist ja schon "R680" mehr oder weniger.

deekey777
2007-12-28, 11:38:21
...

http://www.computerbase.de/artikel/hardware/grafikkarten/2007/test_ati_radeon_hd_3870_rv670/10/#abschnitt_theoretische_benchmarks

Und wenn man nach oben scrollt, wird man etwas stutzig, warum die Z-Fillrate bei der 8800GT "extrem" einbricht.

...
Praxis-naher waere dann STALKER dank seiner MRTs:

http://www.computerbase.de/artikel/hardware/grafikkarten/2007/test_ati_radeon_hd_3870_rv670/21/#abschnitt_stalker

Mit AF wird der Unterschied natuerlich um einiges groesser.

Irgend ein oder mehrere engineers bei ATI duerften erschossen werden, weil sie offensichtlich keine Ahnung hatten wie wichtig FP16 Filterung wirklich ist; dank dem Scheiss gelang es zu einem nutzlos ueberdimensionierten 512bit bus auf R600.
Warum die gesamte Radeon-Serie ggü. Geforce in STALKER deutlich langsamer ist, ist mir ein Rätsel. Vielleicht ist es nur ein Hirngespinst: Du sagst die ganze Zeit, es liegt an der fehlenden Z-Fillrate. In STALKER gibt es einen Konsolenbefehl r2_zfill, der standardmäßig deaktiviert ist (=off; meine eine ist eine X1950GT). Wird r2_zfill auf on gestellt, steigen die FPS minimalst an (wobei eine generelle Aussage unmöglich ist), aber es gibt derbe Grafikfehler wie flackernde Texturen.

Ich dachte immer FP16 wäre zusammen mit HDR wichtig.... und das es im Kommen ist.
STALKERs Xray-Engine ist ein Deferred Renderer, der G-Buffer besteht aus drei FP16-Texturen (RGBA), dazu kommt der "L-Buffer" im gleichen Format. Das, was CB mit "hochwertigem HDRR" meint, ist beinahe eine nette Nebensache in STALKER. Auf FP16-Filterung kommt es in STALKER eigentlich nicht an.

Ailuros
2007-12-28, 12:15:18
Und wenn man nach oben scrollt, wird man etwas stutzig, warum die Z-Fillrate bei der 8800GT "extrem" einbricht.

http://www.hardware.fr/articles/671-4/ati-radeon-hd-2900-xt.html

Z-Fuellraten mit und ohne AA. Nach dem meisten Fuellraten-Messungen scheint sich G8x/9x wie jegliche andere single-cycle 2xAA GPU zu verhalten, nur ist eben die Ausgangs-Fuellrate so enorm hoch, dass 4xAA selten wenn ueberhaupt ein Problem ist, ausser es treten andere Flaschenhaelse auf. Taktnormalisiert ist eine R580 fuer AA besser ausgestattet als jegliche R6x0/RV6x0.

Von dem abgesehen ich hab mich im ersten Fall auf stencil + MSAA Kombinationen bezogen. Ich kann bei bestem Willen nicht verstehen was Du mir jetzt sagen willst.

Warum die gesamte Radeon-Serie ggü. Geforce in STALKER deutlich langsamer ist, ist mir ein Rätsel. Vielleicht ist es nur ein Hirngespinst: Du sagst die ganze Zeit, es liegt an der fehlenden Z-Fillrate. In STALKER gibt es einen Konsolenbefehl r2_zfill, der standardmäßig deaktiviert ist (=off; meine eine ist eine X1950GT). Wird r2_zfill auf on gestellt, steigen die FPS minimalst an (wobei eine generelle Aussage unmöglich ist), aber es gibt derbe Grafikfehler wie flackernde Texturen.

Vielleicht weil G8x/9x viel mehr in ihren ROPs bearbeiten koennen mit oder ohne AA am Ende? Zeig mir einen Z Fuellraten Test oder sogar irgend eine offizielle AMD Angabe die den jeglichen Resultaten wiederspricht. Eric Demers bestaetigte selber in Echtzeit dass R600 nur auf 32z pro Takt begrenzt ist. Was fuer eine Weissheit erwartest Du genau ausser dass all die R6x0 viel zu schwach fuer diesen Bereich ausgestattet sind?

deekey777
2007-12-28, 13:52:12
Ailuros, manchmal wunderst du mich wirklich. Na gut, dann machen wir es langsamer.
Du hast IIRC zweimal geschrieben, dass den Radeons in STALKER Stencil- bzw- Z-Fillrate fehlt, ohne diese Aussage zu begründen oder in irgendeiner Weise zu belegen.
STALKERs DX9-Renderer ist ein Deferred Renderer (weiß ja jeder). Zuerst wird der sog. G-Buffer erstellt. Dieser besteht in STALKER aus drei RGBA-Texturen mit fp16 pro Kanal (Exkurs: bei 1280*1024 belegt allein der G-Buffer 30 MiB des Grafikkartenspeichers).
Das sie "Deferred Shading" benutzen haben sie nun ja schon länger angekündigt.

Die Idee dabei ist einfach die Beleuchtung so lange zu verzögern bis feststeht was beleuchtet werden muss. Dafür müssen aber alle Informationen die man dafür dann braucht in einem Zwischenbuffer gespeichert werden.

Die Überlegung dabei ist das man die Aufwendigen Lichtberechnungen nur noch für die Pixel durchführt die man am Ende auch zu gesicht bekommt. Da desweiteren die Objekt texturen im gefilterten Zustand in dem Speicher geschrieben werden entfällt das Filtern für jede neue Lichtquelle. Da man bei Füllen der Zwischenspeicher auch den Z-Buffer füllt, braucht man Z-Pass, den man normalerweise für die Stencilschatten, benötigt nicht....
Die Erstellung des G-Buffers ist alles andere als ein limitierender Faktor, die Hauptlast liegt am "Licht-Pass", sprich bei der Erstellung des "L-Buffers". Bei einem Forward-Renderer kann man zwischen VS- und PS-Last balancieren, das ist bei einem Deferred Renderer nicht möglich, die Rechenlast liegt somit auf den Pixelshadern (Vorteil für die US-Architektur).
Analysing NVIDIA G8x Performance in Modern Games (http://www.digit-life.com/articles2/video/g80_units2-page3.html): S.T.A.L.K.E.R.: Shadow of Chernobyl (1280x1024 + sechzehnfache AF).
... Game performance depends mostly on a CPU and shader/texture units of a GPU.


There were quite many D3D draw calls: average 2000 calls, maximum 3500 calls. The amount of geometry processed per frame is average for these days, but input assembler is loaded more than usual. It may indicate that other units of a GPU fetch much data from memory. Intensive load of the input assembler in the G80 versus the G84 can be explained with more input data because of a higher frame rate.

Interestingly, the game actively uses both texture and shader units, but the effect of the latter on the overall render speed is higher, they have more work. Even though the Direct3D 9 engine of the game does not allow to use multisampling, the ROP load is above average, which speaks of active post processing and several render buffers.

Die hohe Anzahl an DIPs kann man sehr einfach erklären: Es sind die Schatten. Deaktiviert man diese, so fällt die Anzahl der DIPs auf ein Viertel und weniger. Diese doch überdurchschnittlich hohe Anzahl an DIPs kostet in erster Linie CPU-Leistung (schaut mal auf die Frames im Outdoor, wenn ihr die Sonne mit r2_sun off ausschaltet).

STALKER nutzt Shadowmapping und nebenbei auch Vendor-spezifische Features wie fetch4 und DF24 (ATi).

Und ich hoffe wirklich, dass du erklärst, inwieweit die deutlich niedrigere Z-Fillrate der HD-Serie ein Hemmschuh in STALKER ist. :)

sklave_gottes
2007-12-28, 13:53:00
http://www.hardware.fr/articles/671-4/ati-radeon-hd-2900-xt.html

Z-Fuellraten mit und ohne AA. Nach dem meisten Fuellraten-Messungen scheint sich G8x/9x wie jegliche andere single-cycle 2xAA GPU zu verhalten, nur ist eben die Ausgangs-Fuellrate so enorm hoch, dass 4xAA selten wenn ueberhaupt ein Problem ist, ausser es treten andere Flaschenhaelse auf. Taktnormalisiert ist eine R580 fuer AA besser ausgestattet als jegliche R6x0/RV6x0.

Von dem abgesehen ich hab mich im ersten Fall auf stencil + MSAA Kombinationen bezogen. Ich kann bei bestem Willen nicht verstehen was Du mir jetzt sagen willst.



Vielleicht weil G8x/9x viel mehr in ihren ROPs bearbeiten koennen mit oder ohne AA am Ende? Zeig mir einen Z Fuellraten Test oder sogar irgend eine offizielle AMD Angabe die den jeglichen Resultaten wiederspricht. Eric Demers bestaetigte selber in Echtzeit dass R600 nur auf 32z pro Takt begrenzt ist. Was fuer eine Weissheit erwartest Du genau ausser dass all die R6x0 viel zu schwach fuer diesen Bereich ausgestattet sind?

Also ich finde das r600 und r580 bei 4aa auf etwa der selben höhe liegen. g80GTX hat gegenüber g80GTS taktnormalisiert auch etwas weniger leistung.

Ich glaube das eher was an den TMUs beschnitten wurde beim r600 gegenüber r580. Das würde auch die grösseren einbrüche bei af erklären.
seht euch mal das genauer an:

http://www.computerbase.de/artikel/hardware/grafikkarten/2007/test_ati_radeon_hd_2900_xt/11/#abschnitt_theoretische_benchmarks

Die PureFillrate und die SingelTexture.
r600 bricht zwischen 1aa/1af und 4aa/16af auf fast 1/3 seiner Leistung ein.
r580 nur auf 2/3 bis 1/2 und zieht somit trotz kleinerem Takt locker am r600 vorbei....

Ich sehe hier eher grössere nachteile beim r600

Coda
2007-12-28, 14:00:46
Irgend ein oder mehrere engineers bei ATI duerften erschossen werden, weil sie offensichtlich keine Ahnung hatten wie wichtig FP16 Filterung wirklich ist; dank dem Scheiss gelang es zu einem nutzlos ueberdimensionierten 512bit bus auf R600.
Filterung oder Blending? Filterung halte ich selbst zu Lebzeiten von D3D10 nicht für arg relevant. Vor allem auch weil es dafür keine Texturkompression gibt.

reunion
2007-12-28, 14:04:29
Ich glaube das eher was an den TMUs beschnitten wurde beim r600 gegenüber r580. Das würde auch die grösseren einbrüche bei af erklären.


Die TMUs wurde sicher nicht beschnitten ggü. R580, ganz im Gegenteil. Nur durch die höhere Grundleistung bricht ein R6xx stärker mit AF ein.


seht euch mal das genauer an:

http://www.computerbase.de/artikel/hardware/grafikkarten/2007/test_ati_radeon_hd_2900_xt/11/#abschnitt_theoretische_benchmarks

Die PureFillrate und die SingelTexture.
r600 bricht zwischen 1aa/1af und 4aa/16af auf fast 1/3 seiner Leistung ein.
r580 nur auf 2/3 bis 1/2 und zieht somit trotz kleinerem Takt locker am r600 vorbei....

Ich sehe hier eher grössere nachteile beim r600

Ja, seltsam.

Hvoralek
2007-12-28, 17:15:39
http://www.hardware.fr/articles/671-4/ati-radeon-hd-2900-xt.html

Z-Fuellraten mit und ohne AA. Nach dem meisten Fuellraten-Messungen scheint sich G8x/9x wie jegliche andere single-cycle 2xAA GPU zu verhalten [...]Dort liefert nur R580 mit 2x MSAA dieslbe Füllrate wie ohne AA. G80 und R600 brechen beide mit 2x bzw. 4x MSAA auf 1/2 bzw. 1/4 ein.

Interesant auch, dass G80 beim Wechsel von 4x MSAA auf 8x um 70 - 80% einbricht. Was ist denn da los?

reunion
2007-12-28, 17:49:48
Interesant auch, dass G80 beim Wechsel von 4x MSAA auf 8x um 70 - 80% einbricht. Was ist denn da los?

Bestätigt die Probleme der G8x-Chips mit 8xMSAA. Das Ding geht ja völlig in die Knie, gerade halt das der G80 mit 192 ZPixel/Takt noch vor dem R600 mit lächerlichen 32 ZPixel/Takt bleibt.

Hvoralek
2007-12-28, 18:00:45
Bestätigt die Probleme der G8x-Chips mit 8xMSAA. Das Ding geht ja völlig in die Knie, gerade halt das der G80 mit 192 ZPixel/Takt noch vor dem R600 mit lächerlichen 32 ZPixel/Takt bleibt.R600 verliert proportional zum MSAA- Grad Leistung, G80 bei 8x MSAA aber deutlich mehr. Das erklärt auch das schlechte Abschneiden von G8x bei 8x/16x- Benchmarks. Aber woran liegt das?

reunion
2007-12-28, 18:04:23
R600 verliert proportional zum MSAA- Grad Leistung, G80 bei 8x MSAA aber deutlich mehr. Das erklärt auch das schlechte Abschneiden von G8x bei 8x/16x- Benchmarks. Aber woran liegt das?

Gute Frage. Vielleicht brauchen die ROPs für 8xMSAA mehr als zwei Takte? Bis 4AA reicht ja ein Takt, vielleicht gibt es Probleme beim loopen?

Hvoralek
2007-12-28, 18:15:30
Gute Frage. Vielleicht brauchen die ROPs für 8xMSAA mehr als zwei Takte? Bis 4AA reicht ja ein Takt, vielleicht gibt es Probleme beim loopen?Wo siehst Du bei G80 4x MSAA in einem Takt? Die Verluste sehen eher so aus, als bräuchte das Ding schon für 2x MSAA zwei Takte und für 4x dann vier.

Warum sollten aber für 8x MSAA mehr als doppelt so viele Takte benötigt werden wie für 4x? :|

GeneralHanno
2007-12-28, 18:25:08
vll limitiert ja auch der speicher/bandbreite (scheinen die Nvidia karten sowieso mehr zu brauchen als die ATi) ...

reunion
2007-12-28, 18:31:25
Wo siehst Du bei G80 4x MSAA in einem Takt? Die Verluste sehen eher so aus, als bräuchte das Ding schon für 2x MSAA zwei Takte und für 4x dann vier.

Warum sollten aber für 8x MSAA mehr als doppelt so viele Takte benötigt werden wie für 4x? :|

Ich habe mir neulich nur die 8xMSAA Werte angesehen. So sollte es zumindest sein. Aber du hast natürlich recht, das Ding halbiert schon bei 2xMSAA die Füllrate. Warum er dann bei 8xMSAA nochmal stark überproportional einbricht, dürfte wohl schwer zu sagen sein.

Hvoralek
2007-12-28, 18:40:18
vll limitiert ja auch der speicher/bandbreite (scheinen die Nvidia karten sowieso mehr zu brauchen als die ATi) ...Der Bandbreitenbedarf wird bei 4x --> 8x auch nicht mehr als verdoppelt. Am Speicher kann es eigentlich nicht liegen. So groß ist ein Framebuffer nicht. Wenn es hier daran klemmen sollte, könnte man den Benchmark für Karten mit 256 MiB Speicher ja völlig vergessen.

Ailuros
2007-12-28, 19:50:07
Dort liefert nur R580 mit 2x MSAA dieslbe Füllrate wie ohne AA. G80 und R600 brechen beide mit 2x bzw. 4x MSAA auf 1/2 bzw. 1/4 ein.

Interesant auch, dass G80 beim Wechsel von 4x MSAA auf 8x um 70 - 80% einbricht. Was ist denn da los?

Es ist gar nichts los; es schert sich lediglich kein Schwein ueber 8xMSAA Leistung bei NV und ja ich weiss wie es klingt.

MDolenc nochmal auf einer 8800GTX mit folgenden settings:

Fillrate Tester
--------------------------
Display adapter: NVIDIA GeForce 8800 GTX
Driver version: 6.14.11.6901
Display mode: 2048x1536 A8R8G8B8 70Hz
Z-Buffer format: D24S8

1xAA=
FFP - Z pixel rate - 61188.746094M pixels/sec
4xAA=
FFP - Z pixel rate - 15896.280273M pixels/sec
8xQ =
FFP - Z pixel rate - 5966.367188M pixels/sec
16xCSAA=
FFP - Z pixel rate - 8067.989258M pixels/sec

...und ich bin jetzt zu faul alle Resultate anzuhaeufen, aber es gibt auch keine absolute Garantie dass die Applikation auch nicht leicht veraltet ist, denn mit 16xCSAA bekomm ich auch:

FFP - Quad texture - 7445.067383M pixels/sec

...wobei 1xAA eher so aussieht:

FFP - Quad texture - 4447.071777M pixels/sec

Zurueck zum obrigen: wieso halbiert hier die Z-Fuellrate bei 16xCSAA im Vergleich zu 4xMSAA, wenn der Leistungs-Unterschied in Echtzeit nur minimal ist?

Ailuros
2007-12-28, 19:58:54
Ich habe mir neulich nur die 8xMSAA Werte angesehen. So sollte es zumindest sein. Aber du hast natürlich recht, das Ding halbiert schon bei 2xMSAA die Füllrate. Warum er dann bei 8xMSAA nochmal stark überproportional einbricht, dürfte wohl schwer zu sagen sein.

Siehe oben was die gemessenen Fuellraten betrifft; generell bricht G80 um einiges weniger ein mit 4xAA als G7x und das ist und sollte der eigentliche Vergleich sein.

Und ich bitte Euch meine Herren, erstens ist es verdammt OT in diesem Thread und zweitens kannst Du Dir lange erhoffen dass an G8x/9x in dem Bereich irgend etwas "kaputt" oder verbuggt ist. Die einfache Erklaerung ist wir haben die coverage modi und aus damit; stets off the record.

reunion
2007-12-28, 20:21:16
Es ist gar nichts los; es schert sich lediglich kein Schwein ueber 8xMSAA Leistung bei NV und ja ich weiss wie es klingt.


Da sollte es auch nicht viel geben, um das man sich scheren muss. Immerhin bedarf es dazu nur eines weiteren loopes.

Siehe oben was die gemessenen Fuellraten betrifft; generell bricht G80 um einiges weniger ein mit 4xAA als G7x und das ist und sollte der eigentliche Vergleich sein.


Moment mal, es hieß G8x beherrscht single-cycle 4xMSAA, doch hier zeigt sich das sich die Füllrate schon bei 2xMSAA halbiert. Das die Leistung trotzdem deutlich über G7x liegt, ist klar, doch darum ging es nicht.

AnarchX
2007-12-28, 20:33:33
Moment mal, es hieß G8x beherrscht single-cycle 4xMSAA, doch hier zeigt sich das sich die Füllrate schon bei 2xMSAA halbiert.
Natürlich muss sie dass, R580 verliert nur nichts, da seine Z-Fill mit AA/AA-Fill bei 20GPix liegt. ;)

robbitop
2007-12-28, 20:34:21
Bei STALKER scheinen es ja verdammt viele Drawcalls zu sein. Ob das jeder GPU und jedem Treiber so schmeckt? Weiterhin liegt ja aufgrund der intensiven MRT Nutzung eine sehr hohe Last auf den ROPs. Das schmeckt der R6xx auch nicht soo toll.
Was die Z Füllraten angeht: die vielen Z-Tester bei NV erlauben bis 4xAA, dass die theoretisch maximale Farbwertrate pro Takt nicht limitiert wird. Ohne MSAA kann das Ding aber mehr Z schreiben als Color. Natürlich bricht die Z Füllrate in synthetischen Tests dann auch ein. Aber sie sollte bis 4xMSAA nicht unter die grenze der Colorrate sinken (und nur das ist ja wichtig). Das handhabt NV ja schon seit NV30 so.
ATI hingegen scheint die Philosophie zu betrieben, dass die maximale Z Rate nur so hoch ist wie die maximale Colorrate. Dafür bricht die Z Rate mit MSAA dann aber bis 2x nicht ein. Das ist am Ende des Tages doch relativ egal, ob nun das eine oder das ander (wobei NVs Lösung ohne MSAA dann eben Vorteile hat). Einen rein relativen Vergleich (Einbrüche der Z Leistung) sollte man also nicht machen, sondern eher einen halb relativ/absoluten.
Ausserdem hat die G80 so viel Z und Blend einheiten, dass die Bandbreite limitiert. Das erklärt die Einbrüche zusätzlich.

Geforces bis zur G70 waren für 2xAA ohne maximalen Einbruch konzipiert und ab G80 eben bis 4x und zusätzlich noch CSAA. 8xMS hingegen ist wohl einfach noch zu teuer (Bandbreite und andere Optimierungen)

Ailuros
2007-12-29, 06:50:29
Da sollte es auch nicht viel geben, um das man sich scheren muss. Immerhin bedarf es dazu nur eines weiteren loopes.

Haemmer es mal bitte in Deinen Schaedel ein, dass NV den ganzen Trubel rund um CSAA optimiert hat. Und ja in Echtzeit ist mir ein 16xCSAA Leistungs-/Qualitaets-Kompromiss um einiges lieber als sehr wenig brauchbares 8xMSAA. Es wird wohl keiner sagen dass 16xCS rundum besser ist als 8xQ, aber es ist definitiv besser als 4xMSAA.

Moment mal, es hieß G8x beherrscht single-cycle 4xMSAA, doch hier zeigt sich das sich die Füllrate schon bei 2xMSAA halbiert. Das die Leistung trotzdem deutlich über G7x liegt, ist klar, doch darum ging es nicht.

Und das ist es auch, egal ob die Fuellraten-Dingsbumse nur bei der Z-Fuellrate irrefuehren. Wenn Du in anderen Faellen MSAA mit anderem Unfug wie z.B. stenciling kombinierst, oder ohne MSAA shadow-maps behandelst, bleibt eine Unmenge an Z-fill auf G8x/9x uebrig.

Wieso geht es nicht um den Vergleich mit G7x? Wenn in kritischen Faellen G8x gegen G7x um einiges weniger mit 4xAA verliert, dann ist diese schon eine wertvolle Anzeige. Denn die ROPs wurden zwar auf G8x aufgepumpt, aber so fundamentale Aenderungen in den Grundsaetzen der ROPs wurde auch nicht veraendert.

Gast
2007-12-29, 23:07:21
Hi;

was mich bei den theoretischen Tests bei computerbase auch noch gewundert hat sind die Villagemark-Ergebnisse des R600.

Erstens ist der R600 im Vergleich ziemlich schlecht wenn es um das "wegwerfen" von Overdraw geht (nur ca. 1/2 so schnell wie die GTX) und zusätzlich bricht der R600 dann auch noch stärker ein als die GTS/GTX-Konkurrenz (R600 ca. 55% ; GTX ~70%) wenn AF/AA eingeschaltet wird. Der R600 ist hier fast nicht schneller wie ein R580.

Vielleicht liegt ja auch darin einer der Vorteile der G80-Architektur?

grüsse

Manfred

Gast
2007-12-30, 01:42:13
ich weiß passt hier nicht ganz rein....und ich will mit folgendem ganz sicher nicht flamen oder sonst was... hab selber ein 3870 und bin zufrieden.

Ich habe mir mal die Benchmarks von Computerbase angeschaut...und die 3870 mit der x1950xtx, also der Highend der lettzen Gen. vergliechen... fällt euch was auf? Mir schon: die 3870 ist nur ca. 20% in mittelhohen bis hohen Settings schneller. Schon mal die Taktraten dieser zwei GPUs vergliechen?
650 Mhz zu 775 Mhz. Ups wieder 20%...... das stellt sich mir schon die Frage was Ati da überhaupt gemacht hat?...
Mir kommt es grad so vor, als hätten sie mal eben d3d10 dazugeklatscht+ein paar andere Gimmicks, was Transistoren ohne Ende gekostet haben muss?! Ein bisschen umdesignt um unified Shader zu haben... und anschließend den Takt erhöht um eine bessere Leistung zu erzielen.... und einen enormen Stromverbrauch.
Was ist da also schiffgelaufen, frag ich mich immer wieder....
Warum nicht einfach einen sehr guten r580 "verbreitert"
Um auf's Thema zurückzukommen: Ich sehe eine Sackgasse, wenn der r700 auf dem r600 aufbaut. Scheint meiner Meinung nach besser zu sein entweder ein völlig neues Design zu bringen( deswegen die spekulierte Verspätung bis ins Jahr 2009?), oder auf einer alten Generation aufzubauen. (doch eher unwahrscheinlich.

sklave_gottes
2007-12-30, 02:19:40
ich weiß passt hier nicht ganz rein....und ich will mit folgendem ganz sicher nicht flamen oder sonst was... hab selber ein 3870 und bin zufrieden.

Ich habe mir mal die Benchmarks von Computerbase angeschaut...und die 3870 mit der x1950xtx, also der Highend der lettzen Gen. vergliechen... fällt euch was auf? Mir schon: die 3870 ist nur ca. 20% in mittelhohen bis hohen Settings schneller. Schon mal die Taktraten dieser zwei GPUs vergliechen?
650 Mhz zu 775 Mhz. Ups wieder 20%...... das stellt sich mir schon die Frage was Ati da überhaupt gemacht hat?...
Mir kommt es grad so vor, als hätten sie mal eben d3d10 dazugeklatscht+ein paar andere Gimmicks, was Transistoren ohne Ende gekostet haben muss?! Ein bisschen umdesignt um unified Shader zu haben... und anschließend den Takt erhöht um eine bessere Leistung zu erzielen.... und einen enormen Stromverbrauch.
Was ist da also schiffgelaufen, frag ich mich immer wieder....
Warum nicht einfach einen sehr guten r580 "verbreitert"
Um auf's Thema zurückzukommen: Ich sehe eine Sackgasse, wenn der r700 auf dem r600 aufbaut. Scheint meiner Meinung nach besser zu sein entweder ein völlig neues Design zu bringen( deswegen die spekulierte Verspätung bis ins Jahr 2009?), oder auf einer alten Generation aufzubauen. (doch eher unwahrscheinlich.

Das sehe ich ganz ähnlich.(vergleiche auch mit HD3850) Wobei man das bissel differenzieren sollte. Die Alus sind aufjedenfall deutlich stärker. Nur sind die ROPs und TMUs sehr schwach. Meiner Meinung nach sogar Teilweise laut syn. Test schwächer...

http://www.computerbase.de/artikel/hardware/grafikkarten/2007/test_ati_radeon_hd_2900_xt/11/#abschnitt_theoretische_benchmarks

mfg martin

Hvoralek
2007-12-30, 02:43:30
ich weiß passt hier nicht ganz rein....und ich will mit folgendem ganz sicher nicht flamen oder sonst was... hab selber ein 3870 und bin zufrieden.

Ich habe mir mal die Benchmarks von Computerbase angeschaut...und die 3870 mit der x1950xtx, also der Highend der lettzen Gen. vergliechen... fällt euch was auf? Mir schon: die 3870 ist nur ca. 20% in mittelhohen bis hohen Settings schneller. Schon mal die Taktraten dieser zwei GPUs vergliechen?
650 Mhz zu 775 Mhz. Ups wieder 20%...... das stellt sich mir schon die Frage was Ati da überhaupt gemacht hat?...Nur mit AA/ AF. Gerade bei AF fehlt R6xx schlicht Filterleistung, und die ist halt nur im Rahmen des Taktes höher. Ohne AA/AF liegt die 3870 schon 50% vorne, da schlagen wohl v.a. die Umbauten in den ALUs durch.


Mir kommt es grad so vor, als hätten sie mal eben d3d10 dazugeklatscht+ein paar andere Gimmicks, was Transistoren ohne Ende gekostet haben muss?! Ein bisschen umdesignt um unified Shader zu haben... und anschließend den Takt erhöht um eine bessere Leistung zu erzielen.... und einen enormen Stromverbrauch.
Was ist da also schiffgelaufen, frag ich mich immer wieder....
Warum nicht einfach einen sehr guten r580 "verbreitert"Ob ein R580 + D3D10 besser gewesen wäre, ist eine gute Frage. R580 ist nur halb so groß wie R600. Wie aufwändig es gewesn wäre, da entsprechend mehr ALUs reinzufrickeln, die auf D3D10 zu erweitern und die Fähigkeiten der TMUs (FP- Filerung) sowie ROPs (FP32- Blending, 8x MSAA) auszubauen und ob das Ergbnis dann wirklich schneller gewesen wäre als der jetzige R600, wissen wohl höchstens die Ingeneure bei ATI. Die werden sich aber nicht ohne Grund für einen R400- Ableger entschieden haben.

Ailuros
2007-12-30, 07:25:18
Ob ein R580 + D3D10 besser gewesen wäre, ist eine gute Frage. R580 ist nur halb so groß wie R600. Wie aufwändig es gewesn wäre, da entsprechend mehr ALUs reinzufrickeln, die auf D3D10 zu erweitern und die Fähigkeiten der TMUs (FP- Filerung) sowie ROPs (FP32- Blending, 8x MSAA) auszubauen und ob das Ergbnis dann wirklich schneller gewesen wäre als der jetzige R600, wissen wohl höchstens die Ingeneure bei ATI. Die werden sich aber nicht ohne Grund für einen R400- Ableger entschieden haben.

Das haette aber einen non-USC gegeben. In Sachen Geometrie wuerde es wie ein Zwerg aussehen verglichen zu G80 und sie haetten eine Unmenge an Transistoren verschwendet um das load-balancing zwischen shader calls halbwegs richtig hinzukriegen. R580 hatte uebrigens auch 4 quads ebenso wie 4 cluster auf R600; das grundsaetzliche Problem der zu wenigen TMU/ROPs wegen der begrenzten Anzahl an ALU Einheits-Gruppen hat sich nicht geaendert.

Sonst wurden die TMU/ROPs tatsaechlich fuer D3D10 umgewandelt. Besonders stark waren die ROPs bei ATI ja sowieso nie; wenn man jetzt im Gegensatz die ROP Entwicklung ueber die Generationen bei NV verfolgt, ist es leicht zu sehen dass manche Ansaetze ziemlich alt sind.

reunion
2007-12-30, 10:21:24
Ob ein R580 + D3D10 besser gewesen wäre, ist eine gute Frage. R580 ist nur halb so groß wie R600. Wie aufwändig es gewesn wäre, da entsprechend mehr ALUs reinzufrickeln, die auf D3D10 zu erweitern und die Fähigkeiten der TMUs (FP- Filerung) sowie ROPs (FP32- Blending, 8x MSAA) auszubauen und ob das Ergbnis dann wirklich schneller gewesen wäre als der jetzige R600, wissen wohl höchstens die Ingeneure bei ATI. Die werden sich aber nicht ohne Grund für einen R400- Ableger entschieden haben.

R580 benötigt in 90nm bereits 352mm², das ist verdammt viel für die Leistung und das Featureset. Ein R600 benötigt in 80nm 420mm², und der ist nicht nur deutlich schneller, sondern hat mal eben ein hochmodernes Featureset. Die Transistorenanzahl zu vergleichen bringt wenig, da man die R6xx-Chips durch den höheren Cacheanteil deutlich dichter packen kann, und letztendlich zählt ja nur die Die-Size. Das R5xx-Design wäre eine Sackgasse für D3D10 gewesen, schon für SM3 musste AMD sehr viel investieren. Außerdem hätte man dann keinen USC, mit allen damit verbundenen Nachteilen.

Zudem sehe ich nicht wo die R6xx-Architektur übermäßig schlecht sein sollte was die Effizienz betrifft. Ein RV670 hat zurzeit das modernste Featureset der Industrie: D3D10.1, die TMUs können selbst FP16 ohne Leistungsverlust filtern, und FP32 in zwei Takten. Die ROPs erlauben sämtliche Formate mit MSAA zu kombinieren. Er hat den besten Videoprozessor, Sound über den HDMI, und das Trianglesetup schafft 1Tri/Takt unter allen Umständen. Er hat eine Tesslationseinheit, die angeblich schon D3D11 kompatibel ist. Die Redundanz dürfte generell sehr groß sein, denn bis auf die 2900GT, die es auch nur ganz kurz in sehr geringen Mengen gab, gibt es bis heute keinen R6xx-Chip bei dem ein Cluster deaktiviert werden musste. Das alles in 192mm² in 55nm und bei einer Leistung die so schlecht nicht ist. Ich will erstmal einen G9x-Chip sehen, der bei gleichen Features und gleicher Die-Fläche in 55nm erheblich schneller ist. Klar, ein G92 ist schneller, nur würde der Chip selbst in 55nm deutlich mehr Die-Fläche benötigen, zudem fehlen Features.

Gast
2007-12-30, 11:45:55
Ob ein R580 + D3D10 besser gewesen wäre, ist eine gute Frage. R580 ist nur halb so groß wie R600. Wie aufwändig es gewesn wäre, da entsprechend mehr ALUs reinzufrickeln, die auf D3D10 zu erweitern und die Fähigkeiten der TMUs (FP- Filerung) sowie ROPs (FP32- Blending, 8x MSAA) auszubauen und ob das Ergbnis dann wirklich schneller gewesen wäre als der jetzige R600, wissen wohl höchstens die Ingeneure bei ATI. Die werden sich aber nicht ohne Grund für einen R400- Ableger entschieden haben.


Der R600 ist ein auf DX10 aufgebohrter R580. Man hat einfach die Vertexeinheiten weggeworfen, die PS-Einheiten von 48 auf 64 erweitert und sie fähig für Vertexoperationen gemacht.

reunion
2007-12-30, 11:55:46
Der R600 ist ein auf DX10 aufgebohrter R580. Man hat einfach die Vertexeinheiten weggeworfen, die PS-Einheiten von 48 auf 64 erweitert und sie fähig für Vertexoperationen gemacht.

Sicher nicht. R600 baut ganz klar auf der R400/Xenos Linie auf. Das sieht man schon an gewissen Eigenheiten wie zB der Tessaltionseinheit, die bei all diesen Chips vorhanden war/ist.

Gast
2007-12-30, 12:21:49
Aber ganz sicher ja. Die ALus des R600 sind direkt aus den ALUs des R5xx abgeleitet.

reunion
2007-12-30, 12:34:38
Aber ganz sicher ja. Die ALus des R600 sind direkt aus den ALUs des R5xx abgeleitet.

Sind sie nicht. R6xx hat vec5-ALUs, R5xx vec4-ALUs. Und oh, welch' Zufall, Xenos hat natürlich auch vec5-ALUs. Da gibt es gar nichts zu diskutieren.

deekey777
2007-12-30, 12:47:48
Aber ganz sicher ja. Die ALus des R600 sind direkt aus den ALUs des R5xx abgeleitet.
Sind sie nicht. R6xx hat vec5-ALUs, R5xx vec4-ALUs. Und oh, welch' Zufall, Xenos hat natürlich auch vec5-ALUs. Da gibt es gar nichts zu diskutieren.

Die PS-einheiten der R300-Generation sind Vec4-ALUs (3+1), die VS waren Vec5-ALUs (4+1).

Hvoralek
2007-12-30, 13:37:24
R580 benötigt in 90nm bereits 352mm², das ist verdammt viel für die Leistung und das Featureset. Ein R600 benötigt in 80nm 420mm², und der ist nicht nur deutlich schneller, sondern hat mal eben ein hochmodernes Featureset. Die Transistorenanzahl zu vergleichen bringt wenig, da man die R6xx-Chips durch den höheren Cacheanteil deutlich dichter packen kann, und letztendlich zählt ja nur die Die-Size. Das R5xx-Design wäre eine Sackgasse für D3D10 gewesen, schon für SM3 musste AMD sehr viel investieren. Außerdem hätte man dann keinen USC, mit allen damit verbundenen Nachteilen.R580 hätte in 80nm wohl 280 - 285 mm² gemessen. Ob es möglich gewesen wäre, mit dem zusätzlichen Platz die Features des R600 zu implementieren und einen ähnlichen (ohnehin nicht so gewaltigen) Leistungszuwachs zu erreichen, kann ich nicht beurteilen. Wie gesagt werden sich die Ingenieure schon etwas dabei gedacht haben.

Sind sie nicht. R6xx hat vec5-ALUs, R5xx vec4-ALUs. Und oh, welch' Zufall, Xenos hat natürlich auch vec5-ALUs. Da gibt es gar nichts zu diskutieren.Die Xenos- ALUs liefen ein Vec4- MADD und ein skalares ADD.

Die PS-einheiten der R300-Generation sind Vec4-ALUs (3+1), die VS waren Vec5-ALUs (4+1).Die PS außerdem MADD + ADD. Mit denen haben die auf R6xx wirklich nichts gemein. Eine so freie Splitbarkeit gab es vorher m.W. auch nie.

reunion
2007-12-30, 13:51:11
Die PS-einheiten der R300-Generation sind Vec4-ALUs (3+1), die VS waren Vec5-ALUs (4+1).

Natürlich, trotzdem nicht mit R6xx vergleichbar.

Die Xenos- ALUs liefen ein Vec4- MADD und ein skalares ADD.


Das wäre mir neu. Woher hast du das? Soweit ich weiß sind es vec4+1 MADDs.

sklave_gottes
2007-12-30, 20:46:57
R580 benötigt in 90nm bereits 352mm², das ist verdammt viel für die Leistung und das Featureset. Ein R600 benötigt in 80nm 420mm², und der ist nicht nur deutlich schneller, sondern hat mal eben ein hochmodernes Featureset. Die Transistorenanzahl zu vergleichen bringt wenig, da man die R6xx-Chips durch den höheren Cacheanteil deutlich dichter packen kann, und letztendlich zählt ja nur die Die-Size. Das R5xx-Design wäre eine Sackgasse für D3D10 gewesen, schon für SM3 musste AMD sehr viel investieren. Außerdem hätte man dann keinen USC, mit allen damit verbundenen Nachteilen.

Zudem sehe ich nicht wo die R6xx-Architektur übermäßig schlecht sein sollte was die Effizienz betrifft. Ein RV670 hat zurzeit das modernste Featureset der Industrie: D3D10.1, die TMUs können selbst FP16 ohne Leistungsverlust filtern, und FP32 in zwei Takten. Die ROPs erlauben sämtliche Formate mit MSAA zu kombinieren. Er hat den besten Videoprozessor, Sound über den HDMI, und das Trianglesetup schafft 1Tri/Takt unter allen Umständen. Er hat eine Tesslationseinheit, die angeblich schon D3D11 kompatibel ist. Die Redundanz dürfte generell sehr groß sein, denn bis auf die 2900GT, die es auch nur ganz kurz in sehr geringen Mengen gab, gibt es bis heute keinen R6xx-Chip bei dem ein Cluster deaktiviert werden musste. Das alles in 192mm² in 55nm und bei einer Leistung die so schlecht nicht ist. Ich will erstmal einen G9x-Chip sehen, der bei gleichen Features und gleicher Die-Fläche in 55nm erheblich schneller ist. Klar, ein G92 ist schneller, nur würde der Chip selbst in 55nm deutlich mehr Die-Fläche benötigen, zudem fehlen Features.


Das Hört sich ja alles sehr gut an nur sind da 2 sachen drin dir mir nicht so gefallen.
1. Ist r600 eher kaum schneller als r580 laut CB mit aa/af in 1280x1024 17% und in 1600x1200 12% macht im schnitt bei aa/af 15%.
2. Sind die TMUs und die ROPs höstens auf dem Papier schneller. Alle Synt. Test die ich bischer gesehen habe zeigen eher r580 im Vorteil, gerade was die TMUs betrift.
Entweder da ist was schiefgelaufen oder die sind doch irgendwie beschnitten.

In den Spiele tests sieht es auch nicht viel besser aus. Unter 1600x1200 4xAA/16xAF gerade mal 12% schneller trotz 14% mehr Takt 66% mehr Speicherbandbreite und Nachweislich besserer ALU Leistung pro Takt.
Da kann doch nur noch was an den ROPs und TMUs kaput oder beschnitten sein oder nicht ?

Ach und noch etwas an alle die G80 als kleines wunder ansehen.
unter 1600x1200 4xAA/16xAF ist die 8800Ultra 50% schneller wie eine HD3870
aber die X1950XTX ist 75% schneller wie eine 7900GTX.

entweder sind die CB daten Kurupt oder der r580 ist der richtige
gewinner :wink:

mfg martin

LovesuckZ
2007-12-30, 20:55:02
Ach und noch etwas an alle die G80 als kleines wunder ansehen.
unter 1600x1200 4xAA/16xAF ist die 8800Ultra 50% schneller wie eine HD3870
aber die X1950XTX ist 75% schneller wie eine 7900GTX.


Bei der richtigen Spieleauswahl kommt man auf 100%. Siehe Jericho.

Gast
2007-12-30, 20:59:32
Bei der richtigen Spieleauswahl kommt man auf 100%. Siehe Jericho.

Wenn interessieren einzelne Spiele?

Gast
2007-12-30, 21:06:07
b.z.w schaue dir mal Unreal Tournament 3 an. 2560x1600 – 1xAA/16xAF:

97% ist die x1950xtx schneller als eine 7900 gtx..... also komm nicht mit einzelnen Spielen,...

Hvoralek
2007-12-30, 22:20:15
Das wäre mir neu. Woher hast du das? Soweit ich weiß sind es vec4+1 MADDs.Das ist afair im B3D- Forum infolge von Baumanns Xenosartikel hochgekommen. Auf die Schnelle kann ich zumindest das hier anbieten: http://forum.beyond3d.com/showpost.php?p=842193&postcount=517 The Xenos ALU pipeline is Vec4 MAD + Scalar special-function (rcp, rsq etc.). It's problematic because I think the scalar unit is not MAD capable, so you can't simplify FLOPs-counting by saying it's 10 FLOPs per clock. You can't call it 8 FLOPs (Vec4 MAD) either, because the scalar unit can still do at least an ADD. The more complex scalar functions are arguably not 1 FLOP, either.

But for the time being, say Xenos is 9 FLOPs.

Nakai
2007-12-31, 09:58:38
entweder sind die CB daten Kurupt oder der r580 ist der richtige gewinner

Naja, dass der R580 schneller als jeder G71 ist, war vorherein schon klar.
Das wundert niemand mehr, leider liegt das eher an den modernen Spielen, da bricht der G71 derbe ein. Der R580 bleibt noch weiter auf einem Niveau.
Irgendwie kann man bei der Karte irgendwie von pseudo-zukunftgeeignet sprechen, wobei das keine Hardware ist.

But for the time being, say Xenos is 9 FLOPs.

Toll, das Problem ist nur, dass keine andere Hardwareseite von 9 Flops sondern von 10 Flops schreibt.
Ich weiß selber, dass es 9 Flops sind, jedoch verblassen solche Angaben meistens bei Konsolen.


mfg Nakai

Gast
2007-12-31, 11:14:40
Die X1950XTX kam auch lange nach der 7900 GTX, die 8800GTX aber kam lange vor der HD3870

Diese sinnlosen vergleiche haben überhaupt keine Aussauge außer:
Nvidia ist tollerere
bzw
ATi ist eigentlich besser.

All das ist außerdem OT

sklave_gottes
2007-12-31, 11:27:19
Die X1950XTX kam auch lange nach der 7900 GTX, die 8800GTX aber kam lange vor der HD3870

Diese sinnlosen vergleiche haben überhaupt keine Aussauge außer:
Nvidia ist tollerere
bzw
ATi ist eigentlich besser.

All das ist außerdem OT

Das weis ich, eine X1900XTX gib es in dem Vergleich nicht mehr und die Karte Gab es vor der 7900GTX. Und verdreh bitte nichts ich rede von der 8800Ultra die kam nur bischen vor der HD2900XT dann nimm die. Was bleibt ist immer noch ein vorteil für r580....
Und Vergeich mal den Preis 7900GTX vs X1900XTX c.a. gleich 8800Ultra vs HD2900XT 599 zu 349 €

Hast recht ich hör jetzt auf damit.....

Wieso sagt denn niemmand was zu den Synt. Test wegen der TMU und ROP leistung ?

mfg martin

Ailuros
2007-12-31, 14:43:55
R580 benötigt in 90nm bereits 352mm², das ist verdammt viel für die Leistung und das Featureset. Ein R600 benötigt in 80nm 420mm², und der ist nicht nur deutlich schneller, sondern hat mal eben ein hochmodernes Featureset. Die Transistorenanzahl zu vergleichen bringt wenig, da man die R6xx-Chips durch den höheren Cacheanteil deutlich dichter packen kann, und letztendlich zählt ja nur die Die-Size. Das R5xx-Design wäre eine Sackgasse für D3D10 gewesen, schon für SM3 musste AMD sehr viel investieren. Außerdem hätte man dann keinen USC, mit allen damit verbundenen Nachteilen.

Die Sackgasse in die ATI selber trat IMHLO ist dass sie zu viel Resourcen verplemperten zu viele und zu verschiedene Designs gleichzeitig zu veroeffentlichen.

R400 war zu langsam; man geraet in Panik storniert und entwickelt innerhalb von kuerzter Zeit R420, weil man bitteschoen auch so naiv war und glaubte dass NV SM3.0 nie und nimmer fuer NV40 schafft; gleich danach dachte man "scheisse wir brauchen das Zeug so schnell wie moeglich, aber mit dem R400/Xenos Zeug koennen wir auch nichts anstaendiges anrichten". Man entwickelt R520, die ROPs knallen ins Gesicht und man haengt jeglichen Grund der Verspaetung an jeglichen anderen bloeden Grund als die eigenen Entwicklungs-fehler.

NV feilt sich in der Zwischenzeit die Fingernaegel, da sie zwar fuer PS3 eine ziemlichen miesen chip gegenueber Xenos lieferten, es hat sie aber auch fast nichts gekostet. Weder was die Zeit betrifft noch die R&D Unkosten da es sich ja auch um IP handelte. Noch schlimmer ATI ist bis fast ein Jahr vor der G80 Veroeffentlichung immer noch ueberzeugt dass sie fuer die D3D10 den absoluten Ass im Aermel durch USC haben.

Zudem sehe ich nicht wo die R6xx-Architektur übermäßig schlecht sein sollte was die Effizienz betrifft. Ein RV670 hat zurzeit das modernste Featureset der Industrie: D3D10.1, die TMUs können selbst FP16 ohne Leistungsverlust filtern, und FP32 in zwei Takten.

R600 != RV670

Du kannst Dich drehen und wenden wie Du willst, aber R600 war original als High end GPU geplant und nicht fuer den reduzierten Preis fuer den er am Ende verkauft wurde. Dass ein spaeterer Performance - Refresh mit entfernter Redundanz, nur der halben Busbreite und sogar noch das etwas 10.1 dazu sich groesstenteils schneller und effizienter als R600 aufweisst, zeigt eben genau in grossen Blockbustaben was fuer eine Banane die 2900XT genau war. Zur Leistung pro Watt gehe ich schon gar nicht ein, sonst wirds ja noch grauer.

NVIDIA's Pech ist eben dass RV670 so frueh und einwandfrei vom Labor zurueckkam und ja selbst ATI war damit positiv ueberrascht. Es mag zwar laecherlich klingen aber die 8800GT haette sich urspruenglich mit der 2900PRO schlagen sollten und fuer die direkte RV670 kommt NV's Antwort erst Februar 2008. Erzaehl mir jetzt mal bitte wie "effizient" die 2900PRO im Vergleich zur 8800GT genau ist selbst wenn man beim letzteren nur noch 6 cluster aktiv laesst.


Die ROPs erlauben sämtliche Formate mit MSAA zu kombinieren. Er hat den besten Videoprozessor, Sound über den HDMI, und das Trianglesetup schafft 1Tri/Takt unter allen Umständen.

Welches Format kann eine G8x/9x nicht mit MSAA kombinieren? Welchen genauen Vorsprung hat der VP im Vergleich zum Dingsbums in G92 und das Tri-setup nutzt den Dingern ueberhaupt was genau?


Er hat eine Tesslationseinheit, die angeblich schon D3D11 kompatibel ist.

Ich bin mir sicher dass diese nichts mehr fuer D3D11 brauchen wird von einer unabhaengigen Quelle; und was macht man damit genau?

Die Redundanz dürfte generell sehr groß sein, denn bis auf die 2900GT, die es auch nur ganz kurz in sehr geringen Mengen gab, gibt es bis heute keinen R6xx-Chip bei dem ein Cluster deaktiviert werden musste.

Wie wuerde denn die Leistung aussehen mit weniger als 320SPs auf jeglicher solchen GPU?

Das alles in 192mm² in 55nm und bei einer Leistung die so schlecht nicht ist. Ich will erstmal einen G9x-Chip sehen, der bei gleichen Features und gleicher Die-Fläche in 55nm erheblich schneller ist. Klar, ein G92 ist schneller, nur würde der Chip selbst in 55nm deutlich mehr Die-Fläche benötigen, zudem fehlen Features.

Wie sieht denn D9P Deiner Meinung nach genau aus?

Und um es mal auf eine realistische Laufbahn zu bringen: es ist war dass die Verkaufszahlen von 90:10 sich auf 70:30 zu Gunsten ATI gebogen haben, dank RV670.

RV670 war original fuer Januar 2008 projeziert und D9P fuer Februar 2008.

Haette ATI nicht von Anfang an Mist gebaut waere die heutigen Verkaufszahlen vielleicht sogar 50:50 und man koennte sich ueber die Vor- und Nachteile zwischen A & B streiten. So wie die Lage momentan aussieht, hat es AMD mit einer angenehmen frueheren RV670 Vorstellung geschafft den R600 FLOP zu vermindern und weniger rote Zahlen abzuschreiben. Ausser Du willst mir einreden dass das vorigen 90:10 Verhaeltnis nur imaginaer ist und nicht verdaechtig an NV30/R300 Zeiten errinnert.

Ailuros
2007-12-31, 14:56:12
Ach und noch etwas an alle die G80 als kleines wunder ansehen.
unter 1600x1200 4xAA/16xAF ist die 8800Ultra 50% schneller wie eine HD3870
aber die X1950XTX ist 75% schneller wie eine 7900GTX.

entweder sind die CB daten Kurupt oder der r580 ist der richtige
gewinner :wink:

mfg martin

Oder Du liest ein paar Einzelheiten nicht ausfuehrlich genug durch:

Treibereinstellungen: Nvidia-Grafikkarten (G7x)

* Systemleistung: Hohe Qualität

Treibereinstellungen: Nvidia-Grafikkarten (G8x, G9x)

* Texturfilterung: Qualität

Treibereinstellungen: ATi-Grafikkarten (R(V)5x0)

* Catalyst A.I.: Standard

Treibereinstellungen: ATi-Grafikkarten (R(V)6x0)

* Catalyst A.I.: Standard

....und jetzt geht die Debatte natuerlich wieder um etliche Seiten welche hier und da mieser und wieso filtert usw. G8x/9x waeren die einzigen GPUs die unter "alle Optimierungen aus" am wenigsten leiden wuerde.

Die Loesung waere einfach gewesen: man schreibt zu G7x Zeiten einen so ausfuehrlich wie moeglich IQ Artikel, testet diese zwar in Zukunft mit default Einstellungen, verweisst aber stets zum vorerwaehnten Artikel.

LovesuckZ
2007-12-31, 15:15:00
Ich will erstmal einen G9x-Chip sehen, der bei gleichen Features und gleicher Die-Fläche in 55nm erheblich schneller ist. Klar, ein G92 ist schneller, nur würde der Chip selbst in 55nm deutlich mehr Die-Fläche benötigen, zudem fehlen Features.

Der G92 ist ein Chip, der wohl eher als Notlösung gedacht war. Er ist daher kaum als Ausgangspunkt für die neuen Chips zu gebrauchen.
Je nachdem wie hoch nVidia die Recheneinheiten takten kann, wäre ein 4 Cluster-Chip locker in der Lage mit der 3870 mitzuhalten und dabei kaum größer zu sein.

GeneralHanno
2007-12-31, 15:19:05
Zudem stellt sich die Frage, ob zum featureset auch eine bessere IPC leistung gehört ;)

Nakai
2007-12-31, 15:23:02
Der G92 ist ein Chip, der wohl eher als Notlösung gedacht war. Er ist daher kaum als Ausgangspunkt für die neuen Chips zu gebrauchen.
Je nachdem wie hoch nVidia die Recheneinheiten takten kann, wäre ein 4 Cluster-Chip locker in der Lage mit der 3870 mitzuhalten und dabei kaum größer zu sein.

Das bezweifle ich doch sehr. Mit 6 Cluster wäre man mit etwas höheren Taktraten noch sehr gut dabei gewesen.
Mit 4 Cluster jedoch nicht.

Der G92 ist also nach Ail wirklich nur eine Zwischenlösung gewesen, die gar nicht für den RV670 gedacht war.
Erklärt auch einiges.


mfg Nakai

AnarchX
2007-12-31, 15:28:11
Das bezweifle ich doch sehr. Mit 6 Cluster wäre man mit etwas höheren Taktraten noch sehr gut dabei gewesen.
Mit 4 Cluster jedoch nicht.


Tex-Fill haben selbst 4 Cluster noch genug, nur an der arithmetischen Leistung würde es wohl teilweise etwas happern.
Aber wohlmöglich greift NV hier gerade an.
Dass z.B. MADD+MADD übermässig Transistoren kosten sollte bezweifele ich, wenn man anschaut dass bei R520 -> R580 die 32 zusätzliche ALUs gerade mal ~60M gekostet haben, zwar wäre es nicht so effizient wie 128 SPs MADD, aber Leistung würde es wohl sicherlich bringen ohne großartig mehr Kontrolllogik zu kosten.

LovesuckZ
2007-12-31, 15:30:27
Das bezweifle ich doch sehr. Mit 6 Cluster wäre man mit etwas höheren Taktraten noch sehr gut dabei gewesen.
Mit 4 Cluster jedoch nicht.

Der limitierende Faktor wären die Recheneinheiten. Bei 4 Cluster benötigte man 2700MHz für die Rechenleistung einer 8800GTX. Damit wäre man locker konkurrenzfähig.
Bei 5 Cluster reichten schon 2170Mhz aus. Da der Chip wesentlich kleiner als der G92 wäre, könnte man wohl entsprechende Taktraten der Rechenleistung mit 1,2 bis 1,3V erreichen.

Der G92 ist also nach Ail wirklich nur eine Zwischenlösung gewesen, die gar nicht für den RV670 gedacht war.
Erklärt auch einiges.


Der Chip sieht aus wie schnell zusammengekleistert - vollkommen ohne Transistorenoptimierung. Er hat ca. 10% mehr Transistoren. Soviel dürften der VP2 und PCI-Express2 nicht annährend kosten...

Nakai
2007-12-31, 16:08:23
Der limitierende Faktor wären die Recheneinheiten. Bei 4 Cluster benötigte man 2700MHz für die Rechenleistung einer 8800GTX. Damit wäre man locker konkurrenzfähig.
Bei 5 Cluster reichten schon 2170Mhz aus. Da der Chip wesentlich kleiner als der G92 wäre, könnte man wohl entsprechende Taktraten der Rechenleistung mit 1,2 bis 1,3V erreichen.

Ja, aber wir kennen doch NV. Die lassen ihre Chips nicht oft am Limit laufen.
Außerdem wissen wir nicht, ob alle Chips solche Taktraten gut bestehen könnten.

Dass z.B. MADD+MADD übermässig Transistoren kosten sollte bezweifele ich, wenn man anschaut dass bei R520 -> R580 die 32 zusätzliche ALUs gerade mal ~60M gekostet haben, zwar wäre es nicht so effizient wie 128 SPs MADD, aber Leistung würde es wohl sicherlich bringen ohne großartig mehr Kontrolllogik zu kosten.

Bei R580 hat man kaum was geändert, sondern nur die ALUs reingekloppt. Bei G80 würde soetwas nicht so gut klappen, da die Shader CustomTransistoren sind. Ich glaube nicht, dass man sich da noch extra Mühe machen will, wenn es auch anders geht.


mfg Nakai

reunion
2007-12-31, 16:50:09
Zudem stellt sich die Frage, ob zum featureset auch eine bessere IPC leistung gehört ;)

Das ist kein Argument. Eine IPC-Leistung wie bei CPUs gibt es bei GPUs nicht, da man die Chips beliebig skalieren kann. Umso breiter der Chip, umso mehr Instruktionen können pro Takt ausgeführt werden. Zählen tut die Effizienz, also die Leistung/Watt oder Leistung/Die-Fläche.

GeneralHanno
2007-12-31, 17:03:19
Das ist kein Argument. Eine IPC-Leistung wie bei CPUs gibt es bei GPUs nicht, da man die Chips beliebig skalieren kann. Umso breiter der Chip, umso mehr Instruktionen können pro Takt ausgeführt werden. Zählen tut die Effizienz, also die Leistung/Watt oder Leistung/Die-Fläche.

jain ;)
bei CPUs ist IPC wesentlich wichtiger, da man OOO nicht in die breite skalieren kann (mehr kerne funktionieren nur bei softwareseitigem multithreading). bei GPUs gibt es aber auch soetwas wie auslastung oder effizienz (z.B. die granularität oder unausgelastete vectorprozessoren beim R600 ...). Oder bei Nvidia halt die semioptimale MUL ;)

reunion
2007-12-31, 17:03:44
Der limitierende Faktor wären die Recheneinheiten. Bei 4 Cluster benötigte man 2700MHz für die Rechenleistung einer 8800GTX. Damit wäre man locker konkurrenzfähig.
Bei 5 Cluster reichten schon 2170Mhz aus. Da der Chip wesentlich kleiner als der G92 wäre, könnte man wohl entsprechende Taktraten der Rechenleistung mit 1,2 bis 1,3V erreichen.


Auch ein G92 in 65nm erreicht keinen ALU-Takt von über 1.625Ghz. Hier mal eben fast das doppelte zu fordern ist doch etwas weit hergeholt. IMHO wird nV die ALUs aufbohren.


Der Chip sieht aus wie schnell zusammengekleistert - vollkommen ohne Transistorenoptimierung. Er hat ca. 10% mehr Transistoren. Soviel dürften der VP2 und PCI-Express2 nicht annährend kosten...

Vergiss nicht den NVIO, und die zusätzlichen TAs. Andererseits wurden zwei ROP-Cluster entfernt. Vielleicht wurden auch Massetransistoren hinzugefügt oder die Redundanz erhöht. Zu verschenken hat man jedenfalls sicher nichts.

Der G92 ist also nach Ail wirklich nur eine Zwischenlösung gewesen, die gar nicht für den RV670 gedacht war.
Erklärt auch einiges.


Das war ja auch mehr als offensichtlich. nV stellt sicher nicht mit Absicht einen solchen Chip gegen einen RV670.

reunion
2007-12-31, 17:13:03
jain ;)
bei CPUs ist IPC wesentlich wichtiger, da man OOO nicht in die breite skalieren kann (mehr kerne funktionieren nur bei softwareseitigem multithreading). bei GPUs gibt es aber auch soetwas wie auslastung oder effizienz (z.B. die granularität oder unausgelastete vectorprozessoren beim R600 ...)

Und was hat das mit dem anderen Beitrag zu tun? Natürlich gibt es "soetwas wie auslastung oder effizienz", wie ich oben schon geschrieben habe, das hat aber nichts mit IPC in dem Sinn zu tun. Aus der Auslastung der ALU resultiert bsw. natürlich direkt die Effizienz.

Du kannst aber nicht ernsthaft soetwas schreiben: "Zudem stellt sich die Frage, ob zum featureset auch eine bessere IPC leistung gehört". Natürlich schafft ein High-End-Chip mehr Instructions/cycle als ein Lowend Chip, nur hat das nicht das geringste mit dem Featureset zu tun.

sklave_gottes
2007-12-31, 17:19:20
jain ;)
bei CPUs ist IPC wesentlich wichtiger, da man OOO nicht in die breite skalieren kann (mehr kerne funktionieren nur bei softwareseitigem multithreading). bei GPUs gibt es aber auch soetwas wie auslastung oder effizienz (z.B. die granularität oder unausgelastete vectorprozessoren beim R600 ...). Oder bei Nvidia halt die semioptimale MUL ;)

Und vorallem ist es am ende total egal wie die Leistung zu stande kommt. Ob durch mehr takt oder durch mehr Einheiten. Was zählt ist die Leistung b.z.w. der Verbrauch für den User. Und noch die Die-Fläche für den Chipentwickler.

mfg martin

GeneralHanno
2007-12-31, 17:22:08
mir geht es darum:
wenn der D9P nur 4 cluster hat, wie kriegt man dann die leistung zusammen, um mit dem RV670 konkurieren zu können.
eine erhöhung der taktrate alleine wird nicht reichen.

Irgendwie wird das OT ...
Diskutieren wir lieber über den R700

Gast
2007-12-31, 20:18:05
Auch ein G92 in 65nm erreicht keinen ALU-Takt von über 1.625Ghz. Hier mal eben fast das doppelte zu fordern ist doch etwas weit hergeholt. IMHO wird nV die ALUs aufbohren.



Mit Vmod sind wir aber schon bei 2,8Ghz

Also 2Ghz sind sicherlich locker drin.

Gast
2007-12-31, 20:20:07
Mit Vmod sind wir aber schon bei 2,8Ghz

Also 2Ghz sind sicherlich locker drin.

Es geht aber garnicht um Ghz, ausschlaggebend ist wieviel RAM die Karte hat. Wenns mehr als 2GB sind ist gut, ansonsten seh ich da keine grosse Zukunft mehr für Matrox.

Gast
2007-12-31, 20:58:36
Quatsch...
Es geht um RV670 (Mainstream) und da wird wieder das gewohnte Kärtchenspiel mit 256/512MB RAM aufkreuzen. Wieviele Transistoren die SPs bei der G80 Architektur einnehmen weiß man ja gar nicht. Die ROPs und TMUs werden sicher nicht gratis dazugekommen sein (vorallem bei der massiven Anzahl).

Für Highend R700 aka 2xRV670 (Frechheit dafür nen eigenen Codenamen zu nehmen) weiß man doch nur, dass wie bei nV der ehemalige D3D11 Chip weiter nach hinten verlegt wurde (wohl R800 nun) und der echte R700 ein Zwischenschieber wird (Q3-4 2008 oder early 2009). Vieleicht kürzt man ja mal die Tesselation Einheit raus fürs erste, die brauch man ja nicht, und bastelt mal ein runderes Packet.

Gmax
2007-12-31, 22:02:43
Für Highend R700 aka 2xRV670 (Frechheit dafür nen eigenen Codenamen zu nehmen)

Wer hat dir diesen Unsinn erzählt?

Ailuros
2007-12-31, 22:28:20
Auch ein G92 in 65nm erreicht keinen ALU-Takt von über 1.625Ghz. Hier mal eben fast das doppelte zu fordern ist doch etwas weit hergeholt. IMHO wird nV die ALUs aufbohren.

Die Schlussfolgerung ist mir zu vorzeitig.

Vergiss nicht den NVIO, und die zusätzlichen TAs. Andererseits wurden zwei ROP-Cluster entfernt. Vielleicht wurden auch Massetransistoren hinzugefügt oder die Redundanz erhöht. Zu verschenken hat man jedenfalls sicher nichts.

NVIO braucht nicht mehr als eine einstellige Millionen Transistoren-Anzahl. Er hat hier schon recht; G92 ist ein sehr "ungeschickter" shrink der so schnell wie moeglich zur Tuer herausgequetscht wurde.

Ailuros
2007-12-31, 22:30:27
Wer hat dir diesen Unsinn erzählt?

Es wird auf jeden Fall keinen Schimmer mehr von R7x0 dieses Jahr noch geben; es heisst eher auf 45nm warten.

Gast
2007-12-31, 22:34:21
Es wird auf jeden Fall keinen Schimmer mehr von R7x0 dieses Jahr noch geben; es heisst eher auf 45nm warten.
Das wird auch sehr knapp - für dieses Jahr.
Also doch R720 bzw. Loki #2?

Gmax
2007-12-31, 23:52:13
Es wird auf jeden Fall keinen Schimmer mehr von R7x0 dieses Jahr noch geben; es heisst eher auf 45nm warten.

Ich dachte es gäbe noch etwas alá R690, oder war diese Info BS?

Hvoralek
2008-01-01, 00:04:47
Vergiss nicht den NVIO, und die zusätzlichen TAs. Andererseits wurden zwei ROP-Cluster entfernt. Vielleicht wurden auch Massetransistoren hinzugefügt oder die Redundanz erhöht. Zu verschenken hat man jedenfalls sicher nichts.Wieso sollte man für D8P mehr Massetransistoren benötigen als für den deutlich größeren G80?

NToll, das Problem ist nur, dass keine andere Hardwareseite von 9 Flops sondern von 10 Flops schreibt.
Ich weiß selber, dass es 9 Flops sind, jedoch verblassen solche Angaben meistens bei Konsolen.Dass viele die 10 FLOPs/ Takt abschreiben, macht sie auch nicht richtiger.

reunion
2008-01-01, 09:53:54
Wieso sollte man für D8P mehr Massetransistoren benötigen als für den deutlich größeren G80?


Es wurde ja gesagt, dass der NVIO deshalb extern ist um Interferenzen bei 2D-Signal zu vermeiden. Vielleicht erfordert der integrierte 2D-Teil mehr Massetransistoren, um ein sauberes 2D-Signal zu ermöglichen? Jedenfalls ist auch schon ein G84 verdammt groß für die zwei Cluster. Außerdem sehe ich nicht den geringsten Sinn darin, wieso nV Die-Fläche herschenken sollte. Wenn man bei der Designoptimierung spart kommt das letztendlich garantiert tausend mal teurer, als wenn man vorher richtig optimiert.

reunion
2008-01-01, 09:56:05
Schön Ailuros, dass du auch mal wieder ein paar Infos rausrückst. :)

Ich bin mir sicher dass diese nichts mehr fuer D3D11 brauchen wird von einer unabhaengigen Quelle; und was macht man damit genau?


Da die Tesslationseinheit aus D3D10 gestrichen wurde leider nicht viel. Nur zeigt eben auch das, dass das R6xx-Design nicht so ineffizient ist wie hier oft getan wird.


BTW:
R700 has taped out: Weeks ago actually

A FEW WEEKS ago, a bunch of people suggested that the ATI R700 would be delayed because it won't appear on official platforms until much later. This was the worst case of roadmap misreading I have seen in a long time, made so much more laughable by the fact that it had already taped out.

http://www.theinquirer.net/gb/inquirer/news/2007/12/31/r700-taped

Hvoralek
2008-01-01, 14:17:36
Es wurde ja gesagt, dass der NVIO deshalb extern ist um Interferenzen bei 2D-Signal zu vermeiden. Vielleicht erfordert der integrierte 2D-Teil mehr Massetransistoren, um ein sauberes 2D-Signal zu ermöglichen? Jedenfalls ist auch schon ein G84 verdammt groß für die zwei Cluster.Das wäre möglich. Soweit ich mich erinnere, waren aber weniger die ALU- Frequenzen bei G80 das Problem, sondern eher die Größe. >300 mm² gab es schon früher ohne Probleme.

Außerdem sehe ich nicht den geringsten Sinn darin, wieso nV Die-Fläche herschenken sollte. Wenn man bei der Designoptimierung spart kommt das letztendlich garantiert tausend mal teurer, als wenn man vorher richtig optimiert.Entweder haben sie D8P wirklich unoptimiert zusammengeflantscht oder da werden Transistoren für etwas anderes genutzt. Ich könnte z.B. wetten, dass das Ding FP64 beherrscht.

R700 has taped out: Weeks ago actually

http://www.theinquirer.net/gb/inquirer/news/2007/12/31/r700-tapedWenn der Inquirer meldet, bei R700 laufe alles nach Plan, und das gesamte restliche Netz anderer Meinung ist, fällt mir die Entscheidung, was ich für glaubwürdiger halten soll, nicht wirklich schwer.

reunion
2008-01-01, 14:47:03
Wenn der Inquirer meldet, bei R700 laufe alles nach Plan, und das gesamte restliche Netz anderer Meinung ist, fällt mir die Entscheidung, was ich für glaubwürdiger halten soll, nicht wirklich schwer.

Moment, hier gilt es zu differenzieren: Der ursprünglich geplante R7x0 (Multi-Core) wurde auf irgendwann 2009 oder noch später verschoben, da man auf 45nm warten muss. Doch das was jetzt noch 2008 als R700 kommt, könnte durchaus schon sein Tapeout gehabt haben. Hierzu gibt es ja auch bereits mehrere Meldungen, die auf jeden Fall für ein 2008 Release sprechen.

Siehe zB:
http://www.forum-3dcenter.org/vbulletin/showpost.php?p=6126641&postcount=533
http://www.forum-3dcenter.org/vbulletin/showpost.php?p=6121504&postcount=504
http://www.forum-3dcenter.org/vbulletin/showpost.php?p=6117807&postcount=476

][immy
2008-01-01, 14:59:48
Wenn der Inquirer meldet, bei R700 laufe alles nach Plan, und das gesamte restliche Netz anderer Meinung ist, fällt mir die Entscheidung, was ich für glaubwürdiger halten soll, nicht wirklich schwer.

auch wenn man meldungen von the inquirer nicht immer all zu ernst nehmen sollte, solchen angaben haben bisher größtenteils als wahr herausgestellt.

aber wie reunion schon schrieb. der R700 muss ja nicht der ursprünglich geplante r700 sein ;)

LovesuckZ
2008-01-01, 18:25:00
Jedenfalls ist auch schon ein G84 verdammt groß für die zwei Cluster.

169mm² mit 289 Millionen Transistoren finde ich nicht "verdammt groß".

reunion
2008-01-01, 18:31:07
169mm² mit 289 Millionen Transistoren finde ich nicht "verdammt groß".

"Verdammt groß" natürlich nur im Verhältnis zu dem was drin steckt. Und ich halte 289mio Transistoren bei zwei Shader-Clustern und zwei ROP-Clustern schon für übermäßig viel, wenn G80 mit acht Shader-Cluster und sechs ROP-Cluster 681mio Transistoren benötigt. Das hat mich damals schon gewundert. Klar gab es da noch kleinere Verbesserungen und klar das man die Chips nicht optimal skalieren kann, aber trotzdem.

LovesuckZ
2008-01-01, 19:20:51
Gewisse Dinge müssen ja als Grundvorraussetzung vorhanden sein: 2D Logik, Logik bei den Recheneinheiten etc. Das bedeutet jedoch auch, dass ein doppelter G84 wohl unter 500 Millionen Transistoren bleiben würde. Und man eventuell sogar bei 5 Cluster in 65nm eine etwas kleinere bis leicht größere Fläche wie der r670 erreichen könnte. Leistungsmäßig bräuchte man bei 80SP nur ungefährt einen Shadertakt von 1897Mhz um eine vergleichbare Rechenleistung zur 3850 zu haben.

Hvoralek
2008-01-01, 19:50:43
Moment, hier gilt es zu differenzieren: Der ursprünglich geplante R7x0 (Multi-Core) wurde auf irgendwann 2009 oder noch später verschoben, da man auf 45nm warten muss. Doch das was jetzt noch 2008 als R700 kommt, könnte durchaus schon sein Tapeout gehabt haben. Hierzu gibt es ja auch bereits mehrere Meldungen, die auf jeden Fall für ein 2008 Release sprechen.War es nicht umgekehrt, dass man den ursprünglich geplanten R700 verschoben oder gestrichen hat und stattdessen nun mehrere R7xx kommen sollen?

reunion
2008-01-01, 20:01:34
Gewisse Dinge müssen ja als Grundvorraussetzung vorhanden sein: 2D Logik, Logik bei den Recheneinheiten etc.


Das ist schon klar, habe ich ja oben auch erwähnt, als ich auf die natürlich nicht optimale Skalierung hinwies.


Das bedeutet jedoch auch, dass ein doppelter G84 wohl unter 500 Millionen Transistoren bleiben würde. Und man eventuell sogar bei 5 Cluster in 65nm eine etwas kleinere bis leicht größere Fläche wie der r670 erreichen könnte.


Wenn es nV schaffen sollte eine ähnliche Packdichte wie AMD zu erreichen und wenn die zusätzlichen Features nicht zu viel kosten, dann ja.


Leistungsmäßig bräuchte man bei 80SP nur ungefährt einen Shadertakt von 1897Mhz um eine vergleichbare Rechenleistung zur 3850 zu haben.

Wenn schon dann sollte das Ding bei vergleichbarer Die-Fläche und späteren Markteintritt mindestens mit der 3870 mithalten. Oder was ist mit den Margen, wo doch AMD laut dir schon mit dem RV670 "den Markt zerstört"?

War es nicht umgekehrt, dass man den ursprünglich geplanten R700 verschoben oder gestrichen hat und stattdessen nun mehrere R7xx kommen sollen?

Laut Ailuros wurde MCM gestrichen bei dem was jetzt als R700 kommt, da der ursprüngliche R7x0 auf 45nm angewiesen war und das zu lange gedauert hätte. Jetzt kommt wohl irgend ein R6xx-"Refresh", bis 45nm bereit ist für den wohl dann überarbeiteten, ursprünglich geplanten R7x0.

LovesuckZ
2008-01-01, 20:21:49
Wenn schon dann sollte das Ding bei vergleichbarer Die-Fläche und späteren Markteintritt mindestens mit der 3870 mithalten. Oder was ist mit den Margen, wo doch AMD laut dir schon mit dem RV670 "den Markt zerstört"?

Und wo sollen die Margen herkommen, wenn zur Zeit 192mm² mit 256bit Speicherinterface für 140€ verkauft werden? Die Margen werden zwangsläufig geringer ausfallen. AMD kann garnicht mehr die Preise senken, da die weiteren neuen Produkte überflüssig werden. 192mm² Standard <100€? Mittelfristig wird dadurch der Markt richtig kaputt werden - vergleichbar mit der 1950pro und 2600XT/8600GTS.
Ansonsten muss nVidia nicht auf das extreme mit der Rechenleistung mithalten, da nur ein geringer Teil der Spiele der AMD Architektur besser liegt.

Hvoralek
2008-01-01, 23:33:29
Laut Ailuros wurde MCM gestrichen bei dem was jetzt als R700 kommt, da der ursprüngliche R7x0 auf 45nm angewiesen war und das zu lange gedauert hätte. Jetzt kommt wohl irgend ein R6xx-"Refresh", bis 45nm bereit ist für den wohl dann überarbeiteten, ursprünglich geplanten R7x0.Verstehst Du unter R700 jetzt diesen "R6xx-'Refresh'"? Der Inq bezog sich recht eindeutig auf den R700, dessen Verschiebung auf 2009 angenommen wurde.

reunion
2008-01-01, 23:38:11
Verstehst Du unter R700 jetzt diesen "R6xx-'Refresh'"? Der Inq bezog sich recht eindeutig auf den R700, dessen Verschiebung auf 2009 angenommen wurde.

Diese R6xx-Refresh wird R700 heißen, und der kommt wohl ziemlich sicher vor 2009.

Hvoralek
2008-01-01, 23:44:51
Diese R6xx-Refresh wird R700 heißen, und der kommt wohl ziemlich sicher vor 2009.Der Inq bezog sich aber wohl auf das, was vorher R700 hätte heißen sollen. Zumindest habe ich nie von einer angeblichen Verschiebung dieser R700- Ersatz- Zwischenschiebers auf R600- Basis auf 2009 gehört.

reunion
2008-01-01, 23:45:43
Und wo sollen die Margen herkommen, wenn zur Zeit 192mm² mit 256bit Speicherinterface für 140€ verkauft werden?

Wo ist das Problem? Zumal die Margen immer hauptsächlich mit dem Topmodell des jeweiligen Chips gemacht werden. Also in diesem Falle die 3870 um immer noch über 200€.

Doch du erwartest von nV einen ähnlich großen Chip der nur mit der 3850 gleichzieht, also um max. 140€, das könnte dann in der Tat knapp werden mit den Margen.


AMD kann garnicht mehr die Preise senken, da die weiteren neuen Produkte überflüssig werden.


Die 3670 kommt für 99$, alles andere darunter, wenn die bisherigen Meldungen stimmen. Da ist schon noch ein wenig Luft zu den 179$ der 3850.


192mm² Standard <100€? Mittelfristig wird dadurch der Markt richtig kaputt werden - vergleichbar mit der 1950pro und 2600XT/8600GTS.

Blödsinn. Warum sollte das der Fall sein? Die Fertigung entwickelt sich auch weiter, besonders stark sieht man das bei den High-End-Chips. Was früher noch als unmöglich und viel zu teuer erschien ist heute Realität. Letztendlich stört es dich doch nur das auch mal AMD in einem Teilbereich die Nase vorne hat, bei nV würdest du das nie behaupten.


Ansonsten muss nVidia nicht auf das extreme mit der Rechenleistung mithalten, da nur ein geringer Teil der Spiele der AMD Architektur besser liegt.

Was allerdings mit fortlaufender Zeit immer mehr zum Nachteil werden würde.

reunion
2008-01-01, 23:49:56
Der Inq bezog sich aber wohl auf das, was vorher R700 hätte heißen sollen. Zumindest habe ich nie von einer angeblichen Verschiebung dieser R700- Ersatz- Zwischenschiebers auf R600- Basis auf 2009 gehört.

Mag sein das INQ das nicht mitbekommen hat, ist aber auch belanglos. R700 kommt noch dieses Jahr, das es immer mal wieder zu Designänderungen kommt ist sicher nicht ungewöhnlich. In diesem Fall ist es halt wieder mal an die Öffentlichkeit gedrungen.

Hvoralek
2008-01-02, 00:39:07
Blödsinn. Warum sollte das der Fall sein? Die Fertigung entwickelt sich auch weiter, besonders stark sieht man das bei den High-End-Chips. Was früher noch als unmöglich und viel zu teuer erschien ist heute Realität. Letztendlich stört es dich doch nur das auch mal AMD in einem Teilbereich die Nase vorne hat, bei nV würdest du das nie behaupten.Es geht nicht um Transistoren, sondern um Chipfläche. Fertigungsprozesse spielen da keine Rolle, sondern Kosten für Waferplatz.

Mag sein das INQ das nicht mitbekommen hat, ist aber auch belanglos. R700 kommt noch dieses Jahr, das es immer mal wieder zu Designänderungen kommt ist sicher nicht ungewöhnlich. In diesem Fall ist es halt wieder mal an die Öffentlichkeit gedrungen.Es ist nicht belanglos. Ob dieses Jahr noch etwas namens R700, R7xx, R6xx oder sonstwas erscheint, interessiert mich viel weniger als die Frage, was da kommt. Und ich bin mir ziemlich sicher, dass der Inq keinen R600- Refresh meinte, sondern den alten R700.

LovesuckZ
2008-01-02, 01:11:16
Wo ist das Problem? Zumal die Margen immer hauptsächlich mit dem Topmodell des jeweiligen Chips gemacht werden. Also in diesem Falle die 3870 um immer noch über 200€.

Das Problem liegt im Preisverfall der Hardware und die Folgen sollten ersichtlich sein: Die technischen Möglichkeiten zur Realisierung werden nicht so schnell vorannschreiten. Wie soll es denn in 45nm aussehen? Die Leute wollen mehr Leistung sehen, da bringt es nichts, wenn man die selbe Leistung billiger fertigen kann. Das ist doch mit der 1950pro ersichtlich geworden.
Und mit dem Top-Modell kann nur eine bessere Marge einfahren, wenn dieses öfters gekauft werde. Da der Preisunterschied 3850 -> 3850 512 -> 3870 sehr erheblich ist und die Leistung dafür sich kaum unterscheidet, wird für viele die 3850 - egal in welcher Ausführung - das attraktiviere Produkt sein. Und schon sind die Margen geringer.


Doch du erwartest von nV einen ähnlich großen Chip der nur mit der 3850 gleichzieht, also um max. 140€, das könnte dann in der Tat knapp werden mit den Margen.

Ich weiß nicht, was nVidia machen wird. Aufgrund der 65nm Fertigung haben sie eben einen 15% Nachteil. Grundsätzlich sollten bei ca. 200mm² ca. 500 Millionen Transistoren vorhanden sein. Das wären 4 Cluster oder mit viel Glück sogar 5. Mehr schätze ich nicht.


Die 3670 kommt für 99$, alles andere darunter, wenn die bisherigen Meldungen stimmen. Da ist schon noch ein wenig Luft zu den 179$ der 3850.

Und da man mit der 2600XT schon mit den Preisen im Keller ist, muss man die Karte so billig anbieten. Das ironische ist, dass eine Erhöhung der Leistung nicht durch Erhöhung der Transistoren erreicht werden kann, da man dann den Kostenvorteil durch einen dickeren Chip wieder verliert.
Interessant wird es, ob nVidia den G84 als 9400 bringt. Mit ca. 114mm² wäre man wesentlich wirtschaftlicher als AMD mit der 3680, die wohl um die 130mm² lägen werde.


Blödsinn. Warum sollte das der Fall sein? Die Fertigung entwickelt sich auch weiter, besonders stark sieht man das bei den High-End-Chips. Was früher noch als unmöglich und viel zu teuer erschien ist heute Realität. Letztendlich stört es dich doch nur das auch mal AMD in einem Teilbereich die Nase vorne hat, bei nV würdest du das nie behaupten.

Im High-End geht man das Risiko ein, weil die Nachfrage wesentlich geringer und die Margen aufgrund von höhreren Preisen wesentlich besser sind. Je mehr Leistung man für den € erhält, umso unattraktiver wird das High-End. Und somit wird man keine wirtschaftlich riskanten Manöver mehr unternehmen. Gleichzeitig wird es auch im unteren Bereich zu längeren Perioden der Lebzeiten kommen, da die interessante Mehrleistung einen wesentlich höhreren Aufwand erfordert.

OBrian
2008-01-02, 01:20:56
Wenn der Inquirer meldet, bei R700 laufe alles nach Plan, und das gesamte restliche Netz anderer Meinung ist, fällt mir die Entscheidung, was ich für glaubwürdiger halten soll, nicht wirklich schwer.Ich bin nicht sicher, ob man sich auf so eine "Mehrheitsentscheidung" verlassen sollte. Denn "das restliche Internet" ist ja größtenteils noch schlechter informiert als der INQ (so wie Charlie das schreibt, hat er ja offenbar eine Quelle und saugt sich das nicht aus den Fingern, außerdem ist er nicht Fudo, der keine Ahnung hat was er schreibt), die meisten schreiben sowieso voneinander ab oder von irgendwelchen Spekulanten in Foren, die auch nicht wirklich mehr Einsicht in die Firma haben als ich.

Coda
2008-01-02, 02:57:13
Da die Tesslationseinheit aus D3D10 gestrichen wurde leider nicht viel. Nur zeigt eben auch das, dass das R6xx-Design nicht so ineffizient ist wie hier oft getan wird.
Ach nein? Wieso nicht?

Ich glaube kaum, dass das Ding sehr groß ist. Auf den Präsentation die ich kenne war der Funktionsumfang dann auch nicht so groß. Beliebige Geometrie kannst du damit nicht erzeugen falls du das im Kopf hast. Es ist viel eher Truform 2.0.

Ailuros
2008-01-02, 07:08:58
Da die Tesslationseinheit aus D3D10 gestrichen wurde leider nicht viel. Nur zeigt eben auch das, dass das R6xx-Design nicht so ineffizient ist wie hier oft getan wird.

Das Zeug ist auch auf Xenos vorhanden und rein "zufaelligerweise" auch auf SGX (high end); nur ist PVR hier etwas ehrlicher und ist wie stets wahrheitsgenauer mit ihrem Werbematerial. Der groesste bekannte SGX momentan der unter Entwicklung liegt soll 4 MPixels und 100M Polys/sec@ 200MHz erreichen, aber es wird notiert dass dieses unter <50% shader load passiert. Denk mal etwas schaerfer nach was dieses fuer R600 in diesem Zusammenhang heissen koennte.

Die Effizienz einer programmierbaren Tesselations-Einheit kann uebrigens wie genau ausgenutzt werden wenn sich keiner mit Tesselation in Applikationen beschaeftigt?


BTW:
R700 has taped out: Weeks ago actually

Taped out ja; nur ist es eben kein "R700". Mich wuerde es aber nicht beindrucken wenn sie das Ding am Ende als R7x0 verkaufen werden.

Ailuros
2008-01-02, 07:13:09
Ach nein? Wieso nicht?

Ich glaube kaum, dass das Ding sehr groß ist. Auf den Präsentation die ich kenne war der Funktionsumfang dann auch nicht so groß. Beliebige Geometrie kannst du damit nicht erzeugen falls du das im Kopf hast. Es ist viel eher Truform 2.0.

Lass Dich von den begrenzt aufgefuehrten Funktionen in whitepapers nicht irrefuehren.

PowerVR zu SGX:

Enables advanced geometry and pixel processing capabilities such as procedural geometry (e.g. HOS) and textures, advanced per pixel and vertex lighting effects (e.g., shadows, parallax bump mapping, etc.).

Gast
2008-01-02, 08:06:50
Ach nein? Wieso nicht?

Das habe ich weiter hinten ausgiebig ausgeführt. Ums kurz zu machen: Ich will erstmal einen NV-Chip sehen, der bei gleicher Die-Fläche und gleichen Features in 55nm erheblich schneller als ein RV670 ist.

reunion

HOT
2008-01-02, 11:40:26
Hmm mit dem R700 Tapeout wirds ja ein heißer Sommer für AMD :D.
2 neue DualCores, der R700, 45nm K10 - da gehts ab :D.

Gast
2008-01-02, 11:51:16
Es geht nicht um Transistoren, sondern um Chipfläche. Fertigungsprozesse spielen da keine Rolle, sondern Kosten für Waferplatz.


Natürlich geht es um die Die-Fläche, doch auch diese steigt kontinuierlich. R300 hatte noch eine Die-Fläche von 218mm². Auch die Wafer werden ja größer, ist noch nicht so lange her, da wurde noch auf 200mm Wafern gefertigt.

reunion

Gast
2008-01-02, 11:54:25
Es ist nicht belanglos. Ob dieses Jahr noch etwas namens R700, R7xx, R6xx oder sonstwas erscheint, interessiert mich viel weniger als die Frage, was da kommt. Und ich bin mir ziemlich sicher, dass der Inq keinen R600- Refresh meinte, sondern den alten R700.

Wenn dieser R600-Refresh die 4x Leistung einer RV670XT bringt, dann reicht mir das angesichts der mehr als ausreichenden Features eines RV670 durchaus.

reunion

GeneralHanno
2008-01-02, 12:03:29
Beziehst du dich auf die 2-tera-flop karte ? ;)

Gmax
2008-01-02, 14:27:03
R680, or two RV670 on the same PCB, should come out in late January, while the real next generation high end is scheduled for Q2 2008

http://fudzilla.com/index.php?option=com_content&task=view&id=4929&Itemid=34

http://fudzilla.com/index.php?option=com_content&task=view&id=4930&Itemid=34

reunion
2008-01-02, 16:32:43
Beziehst du dich auf die 2-tera-flop karte ? ;)

Nicht nur.

GeneralHanno
2008-01-02, 17:01:00
Nicht nur.

Darfst du uns sagen, worauf du dich noch beziehst ? die-size ? transistoren ? ist dir da näheres bekannt ???

AnarchX
2008-01-02, 17:30:56
4-fache Real-World-Leistung kann man eben nicht nur aus 2 TFLOPs ziehen(z.B. ein RV670 mit 640SPs(8 SIMDS)...), die anderen Rohleistungsdaten müssen auch steigen. Aber die Frage ist ob es sich hier um den 2009er-R7xx handelt oder um Loki-2.;)

Nakai
2008-01-02, 17:33:59
4-fache Real-World-Leistung kann man eben nicht nur aus 2 TFLOPs ziehen(z.B. ein RV670 mit 640SPs...), die anderen Rohleistungsdaten müssen auch steigen. Aber die Frage ist ob es sich hier um den 2009er-R7xx handelt oder um Loki-2.;)

ATI hat dazu gelernt. Die Texelleistung wird nun auch etwas ansteigen und hoffentlich nicht durch den Takt.
Rv670 mit 640SPs klingt ganz toll, aber ATI hat andere Probleme als ein großer Chip.
Man will das wirtschaftlich sehen.

mfg Nakai

GeneralHanno
2008-01-02, 17:47:16
ein RV670 mit 8 clustern (640SP) würde für 1 Tera-FLOP reichen. für 2 müsste man ein dual-GPU-board bauen ...

AnarchX
2008-01-02, 17:50:48
Gibt ja immernoch die Gerüchte um eine Shaderdomain:
640 * 2 FLOPs *1.5625GHz = 2 TFLOPs.;)

Nur sollte es dann eben nicht bei 4 TUs = 16 TMUs @ ~800MHz bleiben. X-D

Gast
2008-01-02, 17:53:33
ein RV670 mit 8 clustern (640SP) würde für 1 Tera-FLOP reichen. für 2 müsste man ein dual-GPU-board bauen ...
Würde man die aktuelle Skalierbarkeit übernehmen:
8 Cluster = 4 Tex-Sampler. Würde man die Anzahl der "SP-Quads" innerhalb eines Clusters erhöhen, dann muss auch zwangsläufig die Anzahl der Tex-Sampler erhöht werden.

AnarchX
2008-01-02, 17:59:28
In the middle of December slides from AMD presentation did not contain references about R7xx video card up to 2009, which forced many to think that the announcement of R700 (high end) will be delayed . Later AMD reported that they plan to release R700 in 2008.

Yesterday AMD begin the production of the first video chip models which will compose R700. it is considered that this product will be also two-chip just as the prepared for announcement at the end of January R680. Video card on base R700 will appear already during May this year.

In the past month , Apple company stated about the support of mysterious video chip RV770 at the drivers level .
http://xtreview.com/addcomment-id-4001-view-AMD-R700-announcement-date.html

Apple kennt tatsächlich einen RV770:
_PHM_TF_RV770_EnableL0s
_PHM_TF_RV770_EnableL1
_PHM_TF_RV770_EnablePLLSleepInL1
_PHM_TF_RV770_ProgramDisplayGap
_PHM_TF_RV770_RetrieveDisplayConfiguration
_PP_RV770_Thermal_Initialize
PhwRS780_UnInitialize
PhwRS780_Initialize
PhwRS780_SwitchMemClk
http://netkas.org/?p=45

Nakai
2008-01-02, 18:01:24
Gibt ja immernoch die Gerüchte um eine Shaderdomain:
640 * 2 FLOPs *1.5625GHz = 2 TFLOPs.;)

Nur sollte es dann eben nicht bei 4 TUs = 16 TMUs @ ~800MHz bleiben. X-D

Doppelter RV630 mit Shaderdomains und aufgemotzten TMUs.

240 * 2 FLOPs * 1.2 Ghz = 576 GFLOPs

Die TMUs bekommen dann noch ne zusätzliche TFU.

16Doppel-TMUs @800Mhz = 24000MTex/s



mfg Nakai

€:
Apple kennt tatsächlich eine RV770:

Lol, was das wohl ist. Das kann wirklich alles mögliche sein.

reunion
2008-01-02, 18:10:01
Schon im Mai? Das wäre ja sehr früh.

Aber die Frage ist ob es sich hier um den 2009er-R7xx handelt oder um Loki-2.;)

Wenn man sich ansieht von wann die Slides stammen dann kann man davon ausgehen, dass schon der "aktuelle" R700 gemeint ist. :)

Gast
2008-01-02, 18:12:57
Doppelter RV630 mit Shaderdomains und aufgemotzten TMUs.

240 * 2 FLOPs * 1.2 Ghz = 576 GFLOPs

Die TMUs bekommen dann noch ne zusätzliche TFU.

32 TMUs @800Mhz = 24000MTex/s

Aber R700 besteht aus 2 Chips.


mfg Nakai
...
Es wäre zwar eine gute Möglichkeit, die vorhandenen Tex-Sampler um eine Filtereinheit zu erweitern (G80-Style), aber wie kommst du auf 32 TMUs?

Nakai
2008-01-02, 18:16:47
Es wäre zwar eine gute Möglichkeit, die vorhandenen Tex-Sampler um eine Filtereinheit zu erweitern (G80-Style), aber wie kommst du auf 32 TMUs?

Joa, ich hätte 16 DoppelTMUs schreiben sollen.

Danke für den Hinweis.

mfg Nakai

Gast
2008-01-02, 19:11:58
http://fudzilla.com/index.php?option=com_content&task=view&id=4929&Itemid=34

http://fudzilla.com/index.php?option=com_content&task=view&id=4930&Itemid=34

2Q 2008 :(

laser114
2008-01-02, 19:19:13
Lol, was das wohl ist. Das kann wirklich alles mögliche sein.

RV770 = 1 Chip, R700 2 Chips? ;)

Könnte ich mir durchaus vorstellen.


Wenn das mit den Shaderdomainen stimmt, könnte ich mir vorstellen, das die 320 Streamprozessoren behalten werden und hier eben über den Takt gearbeitet wird. Auf die theoretischen 2 TFLOPs beim R700 (macht 1 TFLOP für den RV770) könnte man damit kommen (~ 1565 MHz sind nötig).

Die TMUs müsste man dann noch etwas aufpäppeln. An der doppelter RV630-Theorie stören mich die zu geringen ROPs.

w0mbat
2008-01-02, 19:37:40
Ein high-end R700 wird nicht so schnell kommen, erstmal wird der R680 erscheinen.

Nakai
2008-01-02, 19:42:26
Wenn das mit den Shaderdomainen stimmt, könnte ich mir vorstellen, das die 320 Streamprozessoren behalten werden und hier eben über den Takt gearbeitet wird. Auf die theoretischen 2 TFLOPs beim R700 (macht 1 TFLOP für den RV770) könnte man damit kommen (~ 1565 MHz sind nötig).

Shaderdomain wird, denk ich, nicht kommen.
ATI baut seit längerer Zeit auf Chips auf, bei fast den gleichen Takt hat.

Ein high-end R700 wird nicht so schnell kommen, erstmal wird der R680 erscheinen.

Naja, der R680 ist nicht soviel schneller wie eine 8800Ultra.
Ein Chip auf 8800GTX-Niveau wäre notwendig oder etwas drunter.


mfg Nakai

AnarchX
2008-01-02, 20:27:40
Linux-HDMI-Treiber für den RV770:
+ "{ATI, RV770},"

+ { 0x1002, 0xaa30, PCI_ANY_ID, PCI_ANY_ID, 0, 0,
AZX_DRIVER_ATIHDMI }, /* ATI RV770 HDMI */

http://mailman.alsa-project.org/pipermail/alsa-devel/2007-November/004215.html

:|

reunion
2008-01-02, 20:31:13
Vielleicht ist das irgendeine IPG-Grafik, abgeleitet von RS780?

Hvoralek
2008-01-02, 20:31:34
Schon im Mai? Das wäre ja sehr früh.Wenn "R700" jetzt wirklich irgendein R6xx- Gedöns im Sommer ist, könnte RV770 sonst etwas sein.

AnarchX
2008-01-02, 20:32:50
Vielleicht ist das irgendeine IPG-Grafik, abgeleitet von RS780?

Die Device-ID sieht aber nicht unbedingt nach einem IGP aus.

reunion
2008-01-02, 20:38:03
Wenn "R700" jetzt wirklich irgendein R6xx- Gedöns im Sommer ist, könnte RV770 sonst etwas sein.

R7xx wird zumindest ein überarbeiteter R6xx. Das es kein neues Design gibt war mir von Anfang an klar, schon bevor ich irgendwelche Infos dazu hatte. Schon RV670 geht über D3D10.1 hinaus, bietet eine voll D3D11 kompatible Tesslationseinheit, man erfindet das gleiche Rad nicht zweimal. Was der originale R700 wirklich war, will ich erstmal sehen.

Die Device-ID sieht aber nicht unbedingt nach einem IGP aus.

Woran machst du das fest?

AnarchX
2008-01-02, 21:03:58
Woran machst du das fest?
Alle dedizierte GPUs haben dort eine ID nach dem Schema: 0xaa"Zahl" , wie auch RV770. Die IGPs sind mit 0x"Zahl"("Kleinbuchstabe") bezeichnet.

Eigentlich würde ein RV770 im Mai passen, es hieß ja mal aller 6 Monate eine neue Performance-GPU, die dann im Doppelpack das neue HighEnd bildet.
Und im Mai ist RV670 6 Monate auf dem Markt.;)

Jedoch würde das wohl weiterhin 55nm bedeuten und wohl auch keine 4-fache Leistung gegenüber RV670XT, welche ich eh im 2009er-R700 sehen würde.

Hvoralek
2008-01-02, 21:18:56
R7xx wird zumindest ein überarbeiteter R6xx. Das es kein neues Design gibt war mir von Anfang an klar, schon bevor ich irgendwelche Infos dazu hatte. Schon RV670 geht über D3D10.1 hinaus, bietet eine voll D3D11 kompatible Tesslationseinheit, man erfindet das gleiche Rad nicht zweimal. Was der originale R700 wirklich war, will ich erstmal sehen.Warst Du nicht lange sehr optimistisch, was eine neue Multi- GPU- Technik mit R700 anging?

reunion
2008-01-02, 21:20:57
Warst Du nicht lange sehr optimistisch, was eine neue Multi- GPU- Technik mit R700 anging?

Ja, stimmt. Dazu bedarf es ja nicht zwingend einer neuen Architektur, sondern schnellen Verbindungen auf dem Träger. Wie schon gesagt, ich würde gerne mal wisse was der ursprüngliche R700 wirklich hätte sein sollen.

Hvoralek
2008-01-02, 21:24:41
Ja, stimmt. Dazu bedarf es ja nicht zwingend einer neuen Architektur.Das kommt darauf an, wie man "neue Architektur" definiert. Auch bei gleicher Technikstufe hätte das wohl erhebliche Umbauten in den Chips erfordert.

Wie schon gesagt, ich würde gerne mal wisse was der ursprüngliche R700 wirklich hätte sein sollen.Würde mich auch interessieren.

LovesuckZ
2008-01-02, 22:09:43
Das habe ich weiter hinten ausgiebig ausgeführt. Ums kurz zu machen: Ich will erstmal einen NV-Chip sehen, der bei gleicher Die-Fläche und gleichen Features in 55nm erheblich schneller als ein RV670 ist.
reunion

Bei gleicher Packdichte und 754 Millionen Transistoren wäre ein spekulativer Chip ca. 218mm² groß. Und von der Geschwindigkeit wäre man im Durchschnitt ca. 30% schneller - je nach Anwendung sogar auch doppelt so schnell.

Gast
2008-01-02, 22:17:37
Bei gleicher Packdichte und 754 Millionen Transistoren wäre ein spekulativer Chip ca. 218mm² groß. Und von der Geschwindigkeit wäre man im Durchschnitt ca. 30% schneller - je nach Anwendung sogar auch doppelt so schnell.
Die Intention war kein spekulativer Chip, sondern ein tatsächlich verfügbarer Chip, der dem RV670 ebenbürtig ist. :)

Nakai
2008-01-02, 22:24:45
Bei gleicher Packdichte und 754 Millionen Transistoren wäre ein spekulativer Chip ca. 218mm² groß. Und von der Geschwindigkeit wäre man im Durchschnitt ca. 30% schneller - je nach Anwendung sogar auch doppelt so schnell.

Der G92 liegt bei 320mm². Dann wären es 228mm² nach meiner Rechnung. Nun gut, darüber will ich mich nicht streiten.
Mir geht es eher, darum, dass ein perfekter Shrink niemals existieren wird.
Achja, der G92 war wirklich ein sehr mieser Die-Shrink. Wenn man diesen auf 90Nm hochrechnen müsste, dann wäre er bei etwa 600mm2.

mfg Nakai

reunion
2008-01-02, 22:27:05
Die Intention war kein spekulativer Chip, sondern ein tatsächlich verfügbarer Chip, der dem RV670 ebenbürtig ist. :)

Sehr richtig. Und wenn dann doch bitte zumindest auch mit D3D10.1. Die gleiche Packdichte wage ich bei den gut 315-330mm² des G92 in 65nm auch zu bezweifeln. Der Cacheanteil bei R6xx ist einfach höher. Zumal man einen idealen Shrink in der Praxis nicht hinbekommt.

Achja, der G92 war wirklich ein sehr mieser Die-Shrink. Wenn man diesen auf 90Nm hochrechnen müsste, dann wäre er bei etwa 600mm2.

mfg Nakai

Warum? G92 hat auch deutlich mehr Transistoren.

GeneralHanno
2008-01-02, 22:37:01
Eigentlich kann man ja die Packdichte ausrechnen und in relation zum Feritungsprozess² setzten ;D

Nakai
2008-01-02, 22:37:23
Warum? G92 hat auch deutlich mehr Transistoren.

Naja, NV hat den Chip richtig hingeklatscht. Der Chip sollte eher bei 270mm² liegen, als bei 320mm².
Kein Wunder das NV den Chip loswerden will.


mfg Nakai

LovesuckZ
2008-01-02, 23:30:01
Die Intention war kein spekulativer Chip, sondern ein tatsächlich verfügbarer Chip, der dem RV670 ebenbürtig ist. :)

Reunion verlangt gleiche Größe, gleiches Featureset und deutlich bessere Leistung. Das ist einfach unlogisch zu verlangen. Alleine das der jetzige G92 fast 100 Millionen Transistoren mehr hat, lässt sein Verlangen nach gleicher Größe bei deutlich besserer Leistung ad absurdum führen.

deekey777
2008-01-02, 23:51:17
Reunion verlangt gleiche Größe, gleiches Featureset und deutlich bessere Leistung. Das ist einfach unlogisch zu verlangen. Alleine das der jetzige G92 fast 100 Millionen Transistoren mehr hat, lässt sein Verlangen nach gleicher Größe bei deutlich besserer Leistung ad absurdum führen.
Du verdrehst die Aussage: Es geht um einen bei nVidia verfügbaren Chip (selbst wenn er erst seit 5 Minuten seinen Tapeout hatte*). Mit der Veröffentlichung des RV670 bzw. der darauf basierenden Grafikkarten hat AMD seinen Anteil des GPU-Kuchens extrem steigern können. Man kann zwar davon ausgehen, dass NV pro G92 mehr verdient als AMD pro RV670, aber wenn AMD deutlich mehr absetzen kann?
NV hat aktuell keinen Grafikchip, der dem RV670 in allen Belangen ebenbürtig ist.

*Na gut, vielleicht der für die 9600GT, aber bis er auf dem Markt ist, dauert es noch etwas.

LovesuckZ
2008-01-02, 23:59:21
Du verdrehst die Aussage: Es geht um einen bei nVidia verfügbaren Chip (selbst wenn er erst seit 5 Minuten seinen Tapeout hatte*). Mit der Veröffentlichung des RV670 bzw. der darauf basierenden Grafikkarten hat AMD seinen Anteil des GPU-Kuchens extrem steigern können.

In einem Monat? Bitte, die Welt dreht sich nicht so schnell.
Schlussendlich habe ich nur auf Reunion geantwortet, der dem r6xx Design effizient einreden will, wo es keine gibt.
Und Absatz ist nicht gleichbedeutend mit großem Gewinn, ansonsten müsste AMD ja zur Zeit in Geld schwimmen, so wie sie ihre CPUs verschenken.


NV hat aktuell keinen Grafikchip, der dem RV670 in allen Belangen ebenbürtig ist.


Und AMD hat keinen, der mit nVidia mithalten kann. Oder reden wir jetzt von "Features", die nicht eingesetzt werden können bzw. die zu Lebzeiten nie eingesetzt werden?

Ailuros
2008-01-03, 06:38:48
R7xx wird zumindest ein überarbeiteter R6xx. Das es kein neues Design gibt war mir von Anfang an klar, schon bevor ich irgendwelche Infos dazu hatte. Schon RV670 geht über D3D10.1 hinaus, bietet eine voll D3D11 kompatible Tesslationseinheit, man erfindet das gleiche Rad nicht zweimal. Was der originale R700 wirklich war, will ich erstmal sehen.

Der Trubel mit der Tesselation wird so langsam langweilig; erstens handelt es sich wohl nicht um eine getrennte Einheit sondern gibt es in den ALUs einfach ein paar mehr Faehigkeiten und zweitens ist D3D11 != (nur) Tesselation. Wenn ich mich nicht irre soll ins letztere auch order independent transparency kommen u.a. (wenn's nicht gestrichen wurde) und das Zeug ist sowieso ein ziemlicher Kopfschmerz auf IMRs.

Ganz nebenbei die paar Aenderungen fuer AA alleine die 10.1 im Vergleich zu dem was G8x hat sind laecherlich klein im Vergleich zur Logik die NV fuer coverage AA investiert hat. AMD koennte zwar weiterhin auf nur custom filter setzen, nur braucht man dafuer keine zusaetzliche Logik mehr und schon gar nicht auf G8x/9x. Nebenbei wieso ist edge detect eigentlich so langsam auf R6x0/RV6x0? Damit AMD richtig auf custom filter AA in der Zukunft setzen kann, brauchen sie um einiges mehr; ein guter Anfang waeren effizientere ROPs....ach Moment die kosten am Ende auch doch etwas mehr wenn man nicht auf laecherlichen 32z/clock hocken bleiben will. Es handelt sich dann eher mehr um die Leistung von Kombinationen mit MSAA als MSAA nur fuer sich. Glaubst Du nicht auch dass D3D11 einen gesunden Batzen mehr in Logik vorraussetzen koennte was AA generell betrifft, ueberhaupt wenn jetzt doch noch order independent transparency dazukommt?

Alleine die Tatsache dass der wahre R7x0 ein MCM package hatte ist schon ein fundamentaler Unterschied der die Speicherunterteilung zwischen zwei chips um einiges besser behandeln kann. Wenn man nicht mehr auf "monolithische" Einzelchips setzen will, ist so etwas schon ein notwendiger Schritt (was aber nicht nur Vorteile mit sich bringt).

Gast
2008-01-03, 09:02:55
Reunion verlangt gleiche Größe, gleiches Featureset und deutlich bessere Leistung. Das ist einfach unlogisch zu verlangen. Alleine das der jetzige G92 fast 100 Millionen Transistoren mehr hat, lässt sein Verlangen nach gleicher Größe bei deutlich besserer Leistung ad absurdum führen.

Verlangen tue ich im Prinzip gar nichts. Warum auch? Es sollte nur meine Argumentation unterstreichen. Die ursprüngliche Intention meiner Aussage war, dass hier so getan wurde, als ob das R6xx-Design extrem ineffizient mit den Ressourcen umgehen würde. Es wurde sogar überlegt, ob nicht ein aufgebohrter R5xx besser gewesen wäre. Und ich habe nicht mehr gemacht als eine quervergleich zu nV gezogen, denn wenn das R6xx-Design ja so ineffizient ist, dann sollte es doch ein leichtes sein für nV das deutlich zu übertreffen.

reunion

robbitop
2008-01-03, 12:02:22
Edge Detect ist so langsam, weil man einen haufen Vergleichsanweisungen und "ifs" braucht. Bei nem "if" tauchen dann auch relativ häufig dynamische Sprünge ein (wenn ich mich jetzt nicht ver-dacht habe). Da läuft dann erstmal die Pipeline leer. Je nach dem wie tief die ist, kostet das.

up¦²
2008-01-03, 12:52:23
http://xtreview.com/addcomment-id-4001-view-AMD-R700-announcement-date.html

Apple kennt tatsächlich einen RV770:

http://netkas.org/?p=45

wird hier bestätigt:
http://mailman.alsa-project.org/pipermail/alsa-devel/2007-November/004215.html

AnarchX
2008-01-03, 12:54:44
wird hier bestätigt:
http://mailman.alsa-project.org/pipermail/alsa-devel/2007-November/004215.html

Ist es denn so schwierig mal die SuFu anzuwerfen, denn diesen Link, der nun im Netz herumgeistert, habe ich gestern via Google ausgegraben:
http://www.forum-3dcenter.org/vbulletin/showthread.php?p=6157901#post6157901
... eine Seite zurück.

LovesuckZ
2008-01-03, 15:45:17
Verlangen tue ich im Prinzip gar nichts. Warum auch? Es sollte nur meine Argumentation unterstreichen. Die ursprüngliche Intention meiner Aussage war, dass hier so getan wurde, als ob das R6xx-Design extrem ineffizient mit den Ressourcen umgehen würde. Es wurde sogar überlegt, ob nicht ein aufgebohrter R5xx besser gewesen wäre. Und ich habe nicht mehr gemacht als eine quervergleich zu nV gezogen, denn wenn das R6xx-Design ja so ineffizient ist, dann sollte es doch ein leichtes sein für nV das deutlich zu übertreffen.
reunion

AMD's Vorteil ist alleinig der kleinere Fertigungsprozeß. Die 9600GT wird zeigen, dass sie mit deutlich weniger Transistoren auf dem Niveau einer 3850 liegen werden.

reunion
2008-01-03, 16:29:03
AMD's Vorteil ist alleinig der kleinere Fertigungsprozeß. Die 9600GT wird zeigen, dass sie mit deutlich weniger Transistoren auf dem Niveau einer 3850 liegen werden.

Auch AMD kann einen Chip mit der aktuellen Architektur designen, der mit weniger Transistoren als ein RV670 auf dem Niveau der 3850 liegt. Und der 9600GT werden wie es aussieht immer noch Features fehlen. Im übrigen zählt nicht die Transistorenanzahl sondern wieviele Transistoren/mm². Ich sehe hier keinen erheblichen Effizienzvorteil bei nV, mehr will ich nicht sagen.

robbitop
2008-01-03, 16:32:20
AMDs Vorteil beim RV670 ist nicht nur der Prozess sondern auch dass sie im Kern aufgeräumt haben. Sie haben Redundanzen entfernt, die Packdichten getunt. Aus einem riesen R600 in so kurzer Zeit einen 195 mm^2 Chip zu machen, ist schon nicht schlecht. In den neusten Spielen fällt die Füllratenschwäche anscheinend auch nicht so ins Gewicht, wie bei etwas älteren Spielen. sonst sähe die Karte natürlich sehr alt aus.
Ich weiß nicht, was es daran zu zanken gibt. Ökonomisch ist der RV670. Als Kunden interessiert doch aber nur das P/L Verhältnis oder die reine Leistung. G92 ist IMO die bessere Wahl fürs Geld. Das sieht allerdings jeder aufgrund unterschiedlicher Bedürfnisse anders.

Ich will flimmerfreies AF und lege auch Wert auf die Hybridmodi und brachiale Füllraten, um diese Modi auch in "älteren" Spielen nutzen zu können. Andere hingegen finden Leistungsaufnahme und Videobeschleunigung wichtiger.

LovesuckZ
2008-01-03, 17:03:16
Auch AMD kann einen Chip mit der aktuellen Architektur designen, der mit weniger Transistoren als ein RV670 auf dem Niveau der 3850 liegt.

Dessen TMUs und ROPs mit 500MHz getaktet sein wird? :rolleyes:


Im übrigen zählt nicht die Transistorenanzahl sondern wieviele Transistoren/mm². Ich sehe hier keinen erheblichen Effizienzvorteil bei nV, mehr will ich nicht sagen.

Das spielt bei der Ermittlung der Effizienz der Architektur überhaupt keine Rolle. Er ist nur ein wirtschaftlicher Faktor. Erst bei gleicher Transistorzahl und Fertigung könnte man Transistor/mm² heranziehen.

AMDs Vorteil beim RV670 ist nicht nur der Prozess...

Doch ist er. Alles andere wird auch nVidia bei einem vernünftigen Shrink machen.

reunion
2008-01-03, 17:30:07
Dessen TMUs und ROPs mit 500MHz getaktet sein wird? :rolleyes:


Warum sollten sie? Zeig mir einen konkurrenzfähigen nV-Chip, dessen ALUs mit 668Mhz takten.


Das spielt bei der Ermittlung der Effizienz der Architektur überhaupt keine Rolle. Er ist nur ein wirtschaftlicher Faktor. Erst bei gleicher Transistorzahl und Fertigung könnte man Transistor/mm² heranziehen.


Natürlich spielt das bei der Ermittlung der Effizienz einer Architektur eine Rolle. Genau genommen ist nur das relevant, da sich unterschiedliche Schaltungen eben unterschiedlich eng packen lassen. Bei unterschiedlicher Strukturbreite ist das allerdings in der Tat schwer zu vergleichen, deshalb ist die Transistorenanzahl als Näherung durchaus verwendbar.

Doch ist er. Alles andere wird auch nVidia bei einem vernünftigen Shrink machen.

Schön wenn du das so sieht, wo ist der 55nm Chip von nV? Bei 3dfx hat dieses Argument auch nie gegolten. Was zählt ist auf dem Platz.

Ailuros
2008-01-03, 17:35:19
Edge Detect ist so langsam, weil man einen haufen Vergleichsanweisungen und "ifs" braucht. Bei nem "if" tauchen dann auch relativ häufig dynamische Sprünge ein (wenn ich mich jetzt nicht ver-dacht habe). Da läuft dann erstmal die Pipeline leer. Je nach dem wie tief die ist, kostet das.

Wenigstens ein Strich an dementsprechender HW Logik wuerde auch ausnahmsweise helfen; eigentlich beruht das Zeug auf aehnlichen Fundamenten wie das angebliche "temporal AA".

Ailuros
2008-01-03, 17:53:01
AMDs Vorteil beim RV670 ist nicht nur der Prozess sondern auch dass sie im Kern aufgeräumt haben. Sie haben Redundanzen entfernt, die Packdichten getunt. Aus einem riesen R600 in so kurzer Zeit einen 195 mm^2 Chip zu machen, ist schon nicht schlecht. In den neusten Spielen fällt die Füllratenschwäche anscheinend auch nicht so ins Gewicht, wie bei etwas älteren Spielen. sonst sähe die Karte natürlich sehr alt aus.
Ich weiß nicht, was es daran zu zanken gibt. Ökonomisch ist der RV670. Als Kunden interessiert doch aber nur das P/L Verhältnis oder die reine Leistung.

Zweifellos. Sie zanken sich auch nur ueber die angebliche "Effizienz" von A ueber B.

G92 ist IMO die bessere Wahl fürs Geld. Das sieht allerdings jeder aufgrund unterschiedlicher Bedürfnisse anders.

Fuer diejenigen die auf eine <250 Euro D3D10 Loesung gewartet haben (mit mehr als anstaendiger Leistung) kann es schon zum Dilemma kommen zwischen den beiden und ich werde auch zugeben dass diejenigen die RV670 gewaehlt haben ueberhaupt nicht im Nachteil stehen.

Was hier aber einige verpassen ist wie sich bei manchen gewisse Sachen im Hinterkopf einpraegen. Eine gesunder Anteil der 8800GT Verkaufszahlen beruht u.a. auch auf dem gutem Ruf den die letztere vom G80 geerbt hat. Es gab wohl einige die seit 2006 eine 8800GTX oder GTS haben wollten, sich aber diese bei den originalen Preisen nicht leisten konnten.

RV670 ist tatsaechlich das was Du beschreibst; es bleibt aber auch lediglich ein Pflaster fuer die miserablen Verkaufszahlen seitens AMD, bis natuerlich NVIDIA wieder zuschlagen kann. Bis zum Punkt wo AMD es schafft Monate frueher wie NV mit einer neuen Generation anzutanzen und diese dann nicht seitens NV ueberholt werden kann, gibt es keinen Grund zum jubeln. Es heisst weiterhin rote Zahlen fuer AMD denen es sowieso nicht besonders gut geht finanziell und darunter wird als erstes nicht ihr Hauptgeschaeft (CPUs) leiden. Fuer 2008 brockte man sich schon eine bescheidenere Suppe ein und die Zukunft fuer wahre high end GPUs ist momentan aeusserst ungewiss.

Ich will flimmerfreies AF und lege auch Wert auf die Hybridmodi und brachiale Füllraten, um diese Modi auch in "älteren" Spielen nutzen zu können. Andere hingegen finden Leistungsaufnahme und Videobeschleunigung wichtiger.

OT: gehen die hybriden modi ueberhaupt in neuesten Treibern?

Ailuros
2008-01-03, 17:57:11
Schön wenn du das so sieht, wo ist der 55nm Chip von nV? Bei 3dfx hat dieses Argument auch nie gegolten. Was zählt ist auf dem Platz.

Was willst Du wetten dass 55nm NV noch groessere Erfolge in 2008 als in 2007 goennen koennte und hingegen ATI's groesstes Problem sein wird?

reunion
2008-01-03, 18:03:30
Was willst Du wetten dass 55nm NV noch groessere Erfolge in 2008 als in 2007 goennen koennte und hingegen ATI's groesstes Problem sein wird?

Das glaube ich dir gerne, du hast mir ja schon gesagt, wie groß das Ding wird. Und von AMD kommt ja jetzt mit R700 wieder nur eine CF-Lösung im High-End. Nur hat das nichts mit meinem Beitrag zu tun.

Ailuros
2008-01-03, 18:25:45
Das glaube ich dir gerne, du hast mir ja schon gesagt, wie groß das Ding wird. Und von AMD kommt ja jetzt mit R700 wieder nur eine CF-Lösung im High-End. Nur hat das nichts mit meinem Beitrag zu tun.

Es hat alles mit Deinem Beitrag zu tun, denn IHVs verdienen oder verlieren Geld auf jaehrlicher Basis und wenn es zu chip-Generationen kommt pro Herstellungsprozess. RV670 bzw. 55nm wird fuer ATI nur fuer ein paar Monate als "Eulogy" gelten; bis zum Punkt wo 55nm fuer die letztere zur Sackgasse wird weil sie nicht mehr viel daraus melken koennen und NVIDIA nach zahllosen Testrennen auf dem selben Herstellungsprozess mit mathematischer Genauigkeit zu neuen Erfolgen reitet. Das Lied fuer 2007 ist abgesungen und wir sind schon in 2008. Wieviel kann denn fuer das gesamte fiscal year 2008 RV670/55nm und eine handvoll Varianten dieser wirklich den Tag retten?

robbitop
2008-01-03, 19:57:46
Klar gehen die Hybridmodi. Wirf mal einen Blick in den nhancer. Das sind mittlerweile sehr viele Modi mit SS Anteil.

w0mbat
2008-01-05, 22:44:35
Der original R700 war als "massive multi core GPU" geplant, wurde aber wegen diverser "Probleme" weit nach hinten verschoben. Der neue R700 ist ein R7x0, also alles nach altem Schema.

Mal sehen ob´s was mit 45nm wird. Ich hoffe das TSMC schon soweit sein wird.

laser114
2008-01-05, 22:47:24
Ins 2H 2008 plant AMD sicher nicht mit 45 nm. Die 55 nm beim RV670 waren ein Glücksfall.

w0mbat
2008-01-05, 22:52:19
Der RV670 war auch ein 65nm Chip. Ok, es ist einfacher von 65nm auf 55nm zu gehen, aber sobald 45nm bereit sein wird wird AMD ihn nutzen.

Gmax
2008-01-05, 23:02:05
Mal sehen ob´s was mit 45nm wird. Ich hoffe das TSMC schon soweit sein wird.

Also das kann ich mir nicht vorstellen, da das nur wieder Verzögerungen bedeuten würde. 55nm wäre doch klüger, oder?

laser114
2008-01-05, 23:03:26
Der RV670 war auch ein 65nm Chip.

Quelle?

Sobald 45 nm bereit stehen, wird AMD die nutzen ja. Aber die Planungen dazu sollten doch realistisch erfolgen, also nicht vor 2009 mit entsprechenden Grafikchips zu rechnen. Wenn es dann noch schneller geht, ist das durchaus positiv (siehe RV670). Wenn man zu früh mit Fertigungsprozessen rechnet, geht das meist nach hinten los (siehe R520).

Ailuros
2008-01-06, 09:36:43
Der RV670 war auch ein 65nm Chip. Ok, es ist einfacher von 65nm auf 55nm zu gehen, aber sobald 45nm bereit sein wird wird AMD ihn nutzen.

Woher kommt jetzt der Unsinn? Unter 6 Monaten schafft es kein IHV von einem auf den anderen Prozess zu steigen und das sogar unter optimalen Bedingungen. RV670 kam sogar 2 Monate frueher an als original geplant.

4 Vitamins
2008-01-06, 20:32:48
Schon gesehen? wenn ja löschen oder verschieben.

http://www.pcpop.com/doc/App/261181/000689701.html
http://www.pcpop.com/doc/App/261181/000689724.html

laser114
2008-01-06, 20:40:01
Wenn man jetzt noch wüsste, welche Spiele im zweiten Link stehen könnte man das Ergebnis besser einschätzen. :P

Insgesamt sieht die Optimierung auf diese entsprechenden Spiele aber ganz ordentlich aus.

Edit: Hmpf, falscher Thread. Ich poste es im anderen noch mal; kann hier gelöscht werden.

[dzp]Viper
2008-01-06, 22:50:49
Wenn man jetzt noch wüsste, welche Spiele im zweiten Link stehen könnte man das Ergebnis besser einschätzen. :P

Das mit der 3 und der 4 wird wohl einmal quake3 und einmal quake4 sein

darkvader
2008-01-07, 00:09:32
da die schriftzeichen bei den beiden Titeln total uterschiedlich sind eher unwahrscheinlich

AnarchX
2008-01-08, 13:32:17
Da war doch etwas an den RV770-Treibereinträgen dran, hier ist nun dazu das passende RV770-Sample:

http://img177.imageshack.us/img177/8656/20080108a828732bfda38deri4.jpg (http://imageshack.us)
http://64.233.179.104/translate_c?hl=de&langpair=zh%7Cen&u=http://bbs.chiphell.com/viewthread.php%3Ftid%3D14737%26extra%3Dpage%253D1

edit: Da wurde wohl nun die Zugriffsbeschränkung verändert. ;)

Gast
2008-01-08, 13:37:10
Was zum Geier ist das ?:D

w0mbat
2008-01-08, 13:57:29
Die-Size?

GeneralHanno
2008-01-08, 13:59:13
Dann dürfte der R700 tatsächlich nicht mehr all zu weit entfernt sein (vll früher H2/08)

AnarchX
2008-01-08, 14:01:44
Auf den ersten Blick nicht wirklich größer als RV670, vielleicht findet jemand ein geeignetes Bild zum vergleichen.

Wohl mehr Optimierungen, als einfaches Einheitenerhöhen.

w0mbat
2008-01-08, 14:07:16
Könnte er sogar kleiner als der RV670 sein?

GeneralHanno
2008-01-08, 14:10:04
"nur" ein 6 pin stromanschluss verbaut ...

Die_Allianz
2008-01-08, 14:14:02
hmm...
da fehlt doch die GPU, oder?

Moralelastix
2008-01-08, 14:15:26
Hä?

wo ist das Package auf dem das Die sitzt? Fake?

[dzp]Viper
2008-01-08, 14:18:09
hmm...
da fehlt doch die GPU, oder?

is komisch - scheint direkt verlötet zu sein?! :|

Ne kann net sein

Is wohl nur ein Platzhalter damit der Kühler nicht wackelt. Das wird also ein PCB-Prototyp sein!

Gmax
2008-01-08, 14:22:47
Haben nicht alle High-End Karten ausschließlich Solid Capacitors verbaut?

w0mbat
2008-01-08, 14:30:49
HD3850?

GeneralHanno
2008-01-08, 14:37:36
so sieht eine 3850 aus:
http://www.computerbase.de/bild/article/733/11/

die RV770 sieht anders aus!

laser114
2008-01-08, 14:44:41
die RV770 sieht anders aus!

Joa, sieht man am deutlichsten bei der Speicherbestückung. Eine gewisse "Ähnlichkeit" besitzen die Karten aber doch schon.

Gast
2008-01-08, 14:46:31
Die Unterschiede im Aussehen sind nicht der Rede wert, es könnte sich also um ein RV670 PCB handeln.

GeneralHanno
2008-01-08, 14:49:57
Der RV770 wird ja auch am ehestens ein aufgebohrter RV670 sein ...
Der Multi-"Core" R700 wird wohl eher als R800 in 2009 kommen ...

BlackBirdSR
2008-01-08, 14:52:36
Wie schon gesagt, kann es kein GPU-Chip auf dem PCB sein. Aufgrund der geringen Größe wären die Anschlüsse für die nötigen Pins nicht unterzubringen. Wie man sieht, sind die vorhandenen Anschlüsse auch nicht genutzt.
Ein Testchip oder Abstandhalter scheint logisch zu sein.

Gast
2008-01-08, 15:31:44
Ein PCB-Prototyp...
Könnte aber sehr wohl das PCB für den RV770 sein.

StefanV
2008-01-08, 18:25:51
Ein Testchip oder Abstandhalter scheint logisch zu sein.
Testchip??

Schaut irgendwie nur wie 'nen Aufkleber aus...

However:
Kommts nur mir so vor, oder ist dieses PCB dem der HD3850 sehr sehr ähnlich?? :|

BlackBirdSR
2008-01-08, 18:52:14
Testchip??

Schaut irgendwie nur wie 'nen Aufkleber aus...

However:
Kommts nur mir so vor, oder ist dieses PCB dem der HD3850 sehr sehr ähnlich?? :|

Wenn das eine Midrange-Karte für den Massenmarkt wird, warum auch nicht? Speicher, Anbindung und Anzhal der Pins wären ähnlich.
Für das High-End-Modell mit angeblich mehreren Kernen wird ein ganz anderes PCB fällig. Mehr Pins, mehr Leitungen und mehr Strom :)

laser114
2008-01-08, 19:07:12
R700 wird wohl maximal zwei Kerne besitzen. Und die auch eher auf zwei Dice als auf einem. ;)

GeneralHanno
2008-01-09, 15:14:29
Passt zwar nicht 100% hier rein, aber:

Kein 45nm Grafikkarten in 2008 ! (http://www.fudzilla.com/index.php?option=com_content&task=view&id=5033&Itemid=1)

laser114
2008-01-09, 15:26:05
We just wanted to share with you that in 2007 you won’t see any 45nm chips.

Da hat jemand Silvester verpasst. :biggrin:

Ist aber anzunehmen, 55nm in 2007 war ja auch eher eine Ausnahme.