PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : AMD/ATI - R700 im Q2 2008, multicore und 55 nm? Teil 2


Seiten : [1] 2 3 4 5 6 7 8 9 10

Gast
2008-03-05, 10:37:13
1. Teil

Ja eben. Es ergibt so keinen Sinn.


Es ergibt sehrwohl einen Sinn wenn man weiß wovon man spricht. Inzwischen sollte es allgemein bekannt sein das die Rohleistungdaten eben nicht mehr als Rohleistungdaten sind. Deshalb muss man ja nicht jedesmal ausführlich darauf eingehen.

Den Floh hab ich ihm in den Ohr gesetzt. Das dürfen wir uns jetzt 5 Jahre anhören.

Blödsinn, das steht selbst in den offiziellen Specs zu jeden R6xx-Chip drinen. Ich wusste nur bisher nicht das das bei Nv nicht der Fall ist - das kam von dir, ja. Und anhören musst du dir schonmal gar nichts, ich bestehe nicht darauf das meine Ergüsse jeder lesen muss.


Weißt du es denn?

Ich weiß was ein voll-assoziativer Cache ist ja.

reunion

Gast
2008-03-05, 17:00:25
nun raus mit der Sprache: was bringt dieser voll-assoziative Cache?

reunion
2008-03-05, 17:19:34
nun raus mit der Sprache: was bringt dieser voll-assoziative Cache?

Richtig Interpretieren bitte. Ich habe geschrieben ich weiß was ein voll-assoziativer Cache. Was bzw. ob es in der Praxis was bringt ist wohl stark vom Szenario abhängig und wird dir wohl kaum jemand seriös beantworten können.

Gast
2008-03-05, 18:23:07
aber Coda oder sonst wer weiss es doch...

oda Coda?

Ailuros
2008-03-06, 06:10:59
Uebrigens ein paar sehr interessante Aspekte zum Thema kann man in dieser Debatte finden:

http://forum.beyond3d.com/showthread.php?p=1135572&posted=1#post1135572

AnarchX
2008-03-06, 13:31:36
Allerdings gab es bei den Partnern Spekulationen zur Einführung. Während einer der Boardpartner sich dazu äußerte, dass man R700 wohl zur Computex sehen würde, sicherte ein anderer heute zu, dass es so lange nicht mehr dauern dürfte. Die Planung läge bei August / September. Mehr wollte man uns aber auch wieder nicht verraten.
http://www.ht4u.net/news/1470_cebit_noch_einmal_zu_amds_kommender_r700

Hvoralek
2008-03-06, 13:43:13
Während einer der Boardpartner sich dazu äußerte, dass man R700 wohl zur Computex sehen würde, sicherte ein anderer heute zu, dass es so lange nicht mehr dauern dürfte. Die Planung läge bei August / September.August/ September wäre doch nach der Computex? :|

Mich würde eher interessieren, wann die RV770- Einzelkarten vorgestellt werden.

w0mbat
2008-03-06, 13:49:00
Q3 laut AMD.

Hvoralek
2008-03-06, 14:03:59
Q3 laut AMD."R700" oder RV770? Für letzteren war doch bisher eher Mai gehandelt worden :confused:

w0mbat
2008-03-06, 14:33:48
"ATI Radeon R700 Generation scheduled for Q3 2008". Natürlich könnte RV770 auch Ende Q2 kommen, aber ich würde nicht drauf setzten.

Unwissender
2008-03-06, 20:55:03
kann bitte mal Jemand erklären, was das mit dem voll-assoziativen Cache soll und was das überhaupt ist?

GeneralHanno
2008-03-06, 20:55:36
auf der startseite steht:



Die VR-Zone berichtet mit Verweis auf eine leider nicht mehr erreichbare Quelle über ATIs RV770-Chip. Dieser soll über keine neuen Architektur verfügen, sondern schlicht "weiterentwickelt" sein - was allerdings auch wieder alles mögliche bedeuten kann. Konkreter ist da die Nennung der Taktfrequenzen: Der Chiptakt soll bei über 1 GHz liegen, als Speicher soll GDDR5 zum Einsatz kommen, was auf einen entsprechend hohen Speichertakt von weit über 1 GHz hindeutet. Allein die Anzahl der Hardware-Einheiten ist noch nicht bekannt, wird aber aller Vermutung nach klar über dem Niveau des RV670-Chips liegen. Die VR-Zone spricht zudem von einem Launch des RV770-Chips im Mai, was unerwartet früh wäre, allerdings - sofern es sich wie gesagt um keine neue Architektur handelt - sogar durchaus realisierbar erscheint. Hard Tecs 4U vermelden im übrigen für den R700-Chip, welcher möglicherweise schlicht aus zwei RV770-Chips besteht, Termine zwischen Juni und September.

Aquaschaf
2008-03-09, 13:15:21
kann bitte mal Jemand erklären, was das mit dem voll-assoziativen Cache soll und was das überhaupt ist?

Ganz grob: voll-assoziativ bedeutet das der vorhandene Cache-Speicher besser ausgenutzt wird. Wenn ein Cache nicht voll-assoziativ ist kann es passieren das zwar Cache-Speicher frei ist aber trotzdem Daten darin durch etwas das neu dazukommt hinausgeworfen werden. Voll-assoziativ braucht dafür mehr Logik; also mehr Transistoren die man sonst eventuell einfach für mehr Cache-Speicher verwenden könnte. Was mehr Sinn macht ist nicht einfach zu beantworten. Man kann sich aber merken dass die alleinige Angabe der Größe eines Caches nicht viel aussagt und das auch Größe und Assoziativität zusammen nicht das Ende der Geschichte snd.

Siehe Wikipedia für mehr: http://de.wikipedia.org/wiki/Cache

AnarchX
2008-03-11, 11:17:15
Taktraten etwas über RV670 und ca. 40% mehr Leistung (http://www.nordichardware.com/news,7470.html)@NCHW

und

RV770 wird am Ende des 2. Quartals gezeigt (http://www.digitimes.com/mobos/a20080311PD210.html)@Digitimes

Gast
2008-03-11, 12:04:15
Wundert mich nicht,über ein ghz war von vornerein unrealistisch.
Bin gespannt obse überhaupt über 900 kommen oder es nur 875mhz werden.
Mit der leistung kann die karte auch maximal 300$ kosten und das auch nur solange der gt200 noch nicht raus ist,danach wirdse wohl in richtung 250$ gehen.
Alles nicht so der hammer, jetzt sinds nur noch 40% mehrleistung gegenüber rv670, die x2 dürfe sogar gegen nen abgespeckten gt200 probleme haben,wenn der gt200 so gut wird wie er werden soll

Gast
2008-03-11, 12:10:01
Man darf ja noch hoffen, dass R700 (2xRV770), wie ursprünglich geplant, nicht auf Crossfire zurückgreifen wird.

Gast
2008-03-11, 12:44:38
Nein, das würde ich nicht hoffen, weil die Wahrscheinlichkeit dafür bei etwa Null liegt.

Der_Korken
2008-03-11, 14:56:28
40% wird viel zu wenig sein. Da wird es ja gegen die 8800 Ultra schon wieder ein knappes Ding ... mann oh mann, was ist da los mit ATI?

w0mbat
2008-03-11, 15:34:31
Der RV770 ist ein Valuepart und kein high-end, er hat also gar keinen Anspruch schneller als eine 8800Ultra zu sein.

laser114
2008-03-11, 15:36:04
Der RV770 ist ein Valuepart und kein high-end, er hat also gar keinen Anspruch schneller als eine 8800Ultra zu sein.

Sollte er aber trotzdem, damit er als Performancechip sinnvoll antreten kann (gegen G92 auch im Bereich Performance gewinnt). Und als R700 wird er ja auch eingesetzt.

LovesuckZ
2008-03-11, 15:37:01
Na gut, dann doch wenigsten schneller als eine 8800GTS-512. Denn die ist nämlich ohne AA auf dem Niveau der 8800Ultra.

AnarchX
2008-03-11, 15:39:50
Der RV770 ist ein Valuepart und kein high-end, er hat also gar keinen Anspruch schneller als eine 8800Ultra zu sein.
Naja, von dem höchsten Value-Chip der im H2 2008 erscheint und auf aktuelle Technologien wie 55nm oder GDDR5 Zugriff hat, könnte man doch schon erwarten, dass er dass kleine Taktupgrade einer High-End-Karte von Ende 2006 schlägt, die noch in 90nm daherkommt und auf GDDR3 setzt und mit weniger Transistoren daherkommt. ;)

NV schaffte es ja mit dem NV43 (vs R300/350/360) auch...:D

GeneralHanno
2008-03-11, 15:46:24
hmm 40% schneller, dann ist er tktbereinigt vll 30% schneller. also definitiv kein RV670 mit 6 clusern! dafür sind 250mm² auch zu wenig.

Gosh
2008-03-11, 15:55:32
40% schneller in was ?
Dass sagt doch garnichts aus.

Der_Korken
2008-03-11, 16:35:08
Der RV770 ist ein Valuepart und kein high-end, er hat also gar keinen Anspruch schneller als eine 8800Ultra zu sein.

Ich frage mich nur, was dann als Highend-Lösung kommt. Ein RV770 X2 wäre imho ein Witz, wenn es sich wieder um gewöhnliches Crossfire handelt. Lässt man die Nachteile von AFR mal außen vor, wäre der High-End-Chip dann ~80% schneller. Das wird möglicherweise nicht mal reichen um gegen eine GT200GTS anzutreten.

GeneralHanno
2008-03-11, 16:54:23
so wirds aber sein ;)

RV770 für den performence markt und als "high-end" eben RV770-X2 (auch als R700 bezeichnet). und als "ultra-high-end" dann quad-CF ;)

laser114
2008-03-11, 16:59:33
AMD has recently notified its partners that the company expects its share in the discrete graphics card market to rise after its next generation RV770 GPU shows up in the end of the second quarter, growing from the current 35% to reach 50% by the end of this year, according to sources at graphics card makers.

http://www.digitimes.com/mobos/a20080311PD210.html

Der Satz ist IMHO am interessantesten von der Meldung.

reunion
2008-03-11, 17:01:37
Naja, von dem höchsten Value-Chip der im H2 2008 erscheint und auf aktuelle Technologien wie 55nm oder GDDR5 Zugriff hat, könnte man doch schon erwarten, dass er dass kleine Taktupgrade einer High-End-Karte von Ende 2006 schlägt, die noch in 90nm daherkommt und auf GDDR3 setzt und mit weniger Transistoren daherkommt. ;)

Wird er auch, und das deutlich. Diese "Info" ist doch keinen Cent wert, das ist bestenfalls Halbwissen gepaart mit Sensationsgeilheit.


NV schaffte es ja mit dem NV43 (vs R300/350/360) auch...:D

Dank einer Filterleistung die bis heute glücklicherweise nie mehr unterboten wurde.

http://www.digitimes.com/mobos/a20080311PD210.html

Der Satz ist IMHO am interessantesten von der Meldung.

Wollte ich auch gerade posten. Das kommt wohl nicht von ungefähr.

Henroldus
2008-03-11, 17:01:49
http://www.digitimes.com/mobos/a20080311PD210.html

Der Satz ist IMHO am interessantesten von der Meldung.
Hier gehts doch um den Marktanteil und nicht um die Leistung! :confused:
Hast Du da was verwechselt?

laser114
2008-03-11, 17:05:24
Hier gehts doch um den Marktanteil und nicht um die Leistung! :confused:
Hast Du da was verwechselt?

Nö. Aber wie kommt man auf höheren Marktanteil?
Entweder in dem man eine Masse Geld in Werbung schüttet (das hat AMD aber nicht), oder in dem man ein ziemlich gut positioniertes Angebot hat (bei dem man hoffentlich auch etwas mitverdient). ;)

Gast
2008-03-11, 17:06:31
Nö. Aber wie kommt man auf höheren Marktanteil?
Entweder in dem man eine Masse Geld in Werbung schüttet (das hat AMD aber nicht), oder in dem man ein ziemlich gut positioniertes Angebot hat (bei dem man hoffentlich auch etwas mitverdient). ;)Ja ja aber solche eine Marktentwicklung wäre schon eine Leistung ;)

LovesuckZ
2008-03-11, 17:45:40
http://www.digitimes.com/mobos/a20080311PD210.html

Der Satz ist IMHO am interessantesten von der Meldung.

Was, eine vorhersage von AMD für Ende des Jahres? :confused:
Warten doch wirklich ab, ob ihr Einfluss wächst. Steam sagt bis heute etwas anderes.

Gast
2008-03-11, 19:59:17
http://www.digitimes.com/mobos/a20080311PD210.html

Der Satz ist IMHO am interessantesten von der Meldung.

IMO ist das die lächerlichste Aussage der Meldung. Oder sie haben sich verhört und es waren 15 statt 50. :D

Winter[Raven]
2008-03-11, 21:55:31
Was, eine vorhersage von AMD für Ende des Jahres? :confused:
Warten doch wirklich ab, ob ihr Einfluss wächst. Steam sagt bis heute etwas anderes.

Wäre nicht die erste Meldung von AMD in den letzten Jahren...

Ich glaube AMD nichts mehr, bis ich es handfest habe.

Gmax
2008-03-11, 22:17:03
Der Satz suggeriert doch, daß die was richtig gutes in der Mache haben :biggrin:

Thunder99
2008-03-12, 00:29:44
;6347170']Wäre nicht die erste Meldung von AMD in den letzten Jahren...

Ich glaube AMD nichts mehr, bis ich es handfest habe.
Irgendwie müssen sie ja "gute Neuigkeiten" verbreiten, damit sie mehr Kunden locken und die Konkurenz einschüchtern. PR halt ;)

Ailuros
2008-03-12, 05:30:17
Taktraten etwas über RV670 und ca. 40% mehr Leistung (http://www.nordichardware.com/news,7470.html)@NCHW

Wer will jetzt nochmal auf die angeblichen =/>1GHz bestehen und welcher Depp murmelte irgendwas rund um die ~900MHz?


RV770 wird am Ende des 2. Quartals gezeigt (http://www.digitimes.com/mobos/a20080311PD210.html)@Digitimes

Gezeigt ja. Desktop kommt hoechstwahrscheinlich gleichzeitig mit G92b, wobei ich den geschaetzten zeitigen Vorsprung im Schlepptop nicht ausschliessen wuerde.

AMD has recently notified its partners that the company expects its share in the discrete graphics card market to rise after its next generation RV770 GPU shows up in the end of the second quarter, growing from the current 35% to reach 50% by the end of this year, according to sources at graphics card makers.

Schlecht ausgedrueckt; das Prozentual ist nicht fuers gesamte 2008 sondern nur eine gewisse Zeitspanne. Je laenger die letztere, desto groesser der Einfluss auf das jaehrliche durchschnittliche Prozentual des diskreten Markts.

AnarchX
2008-03-12, 10:53:46
Gezeigt ja. Desktop kommt hoechstwahrscheinlich gleichzeitig mit G92b, wobei ich den geschaetzten zeitigen Vorsprung im Schlepptop nicht ausschliessen wuerde.

Der Desktop RV770 scheint wohl wirklich erst im Q3 zu erscheinen oder warum soetwas:
http://www.forum-3dcenter.org/vbulletin/showpost.php?p=6348074&postcount=552
?

Ailuros
2008-03-12, 11:04:00
Der Desktop RV770 scheint wohl wirklich erst im Q3 zu erscheinen oder warum soetwas:
http://www.forum-3dcenter.org/vbulletin/showpost.php?p=6348074&postcount=552
?

Ich hab das Gefuehl dass ich genau das in meinem vorigen Post angedeutet habe.

GeneralHanno
2008-03-12, 13:39:09
ein teil der leistungssteigerung um 40% geht sicher auch auf die gesteigerte bandbreite (GDDR5) zurück. das heißt von den 40% bleiben takt- und speicherbereinigt vll noch 25% übrig ;)

also mehr ein RV670-evolution

puntarenas
2008-03-12, 13:40:45
Wie schnell taktet denn der langsamste GDDR5-RAM?

AnarchX
2008-03-12, 13:46:26
Wohl mit 1.6GHz:
http://img528.imageshack.us/img528/4716/gddr5pu0.png
von Hynx

Was dann aber auch ~1.5GHz bedeuten könnte für die spezielle SKU, wenn man etwas Luft nach oben lässt.

LovesuckZ
2008-03-12, 15:20:10
Gezeigt ja. Desktop kommt hoechstwahrscheinlich gleichzeitig mit G92b, wobei ich den geschaetzten zeitigen Vorsprung im Schlepptop nicht ausschliessen wuerde.


Na, sie müssen erstmal zeigen, ob sie auch die 8800GTX-M bezwingen können.
8800GTS-640 Leistung bei maximal 50 Watt Aufnahme.

Gast
2008-03-12, 15:33:52
Na, sie müssen erstmal zeigen, ob sie auch die 8800GTX-M bezwingen können.
8800GTS-640 Leistung bei maximal 50 Watt Aufnahme.

Dank entsprechender Selektion im Notebookmarkt ist das doch kein Problem. Zumal ein RV770 deutlich mehr als 8800GTS-640 Leistung bieten dürfte.

LovesuckZ
2008-03-12, 15:40:46
Na, wo sind dann AMD's 38xx Designs?

GeneralHanno
2008-03-12, 15:59:50
angeblich wartet ATi noch auf den RV670A12 im mobilen bereich ...

Ailuros
2008-03-12, 23:53:47
ein teil der leistungssteigerung um 40% geht sicher auch auf die gesteigerte bandbreite (GDDR5) zurück. das heißt von den 40% bleiben takt- und speicherbereinigt vll noch 25% übrig ;)

also mehr ein RV670-evolution

Zwar stimmt der letzte Satz, aber ich spiel mal mit den angeblichen geleakten Specs:

RV670

64*10*0.775 = 496GFLOPs
16*775 = 12.4 GTexels/s
16*775*2 = 24.8 Z sample
72.0 GB/s

RV770

96(?)*10*~0.9 = 864GFLOPs (+74%)
24(?)*900 = 21.6 GTexels/s (+74%)
16*900*4(?) = 57.6 Z sample (+132%)
(min) 102.4 GB/s (+42%)

Falls das Ding mehr Bandbreite brauchen sollte, benutzen sie eben dann schnelleren GDDR5 Speicher. Die Bandbreite skaliert Leistung stets um einen Bruchteil im Vergleich zur Taktrate; bleibt nur abzusehen woher Deine nur 25% mehr genau her kommen.

Raff
2008-03-13, 00:00:05
Sofern Ati dem Teil echt 50 Prozent mehr TMUs verpasst, können wir wenigstens auf besseres AF hoffen. Das bedeutet, dass entweder die Standardeinstellungen besser aussehen und/oder A.I. Off auch wieder Off ist. Schön wär's ja.

MfG,
Raff

Gast
2008-03-13, 00:09:35
aber wenn man sich die daten von Ailuros anguckt und mit der leistungsprojektion von 40-50% mehr leistung vergleicht, kann das doch nicht passen.
Entweder das Ding hat doch deutlich mehr leistung als angenommen oder die daten sind übertrieben.

Ailuros
2008-03-13, 00:42:41
aber wenn man sich die daten von Ailuros anguckt und mit der leistungsprojektion von 40-50% mehr leistung vergleicht, kann das doch nicht passen.
Entweder das Ding hat doch deutlich mehr leistung als angenommen oder die daten sind übertrieben.


Die Werte die seit einiger Zeit herumfliessen sind noch hoeher als das Zeug dass ich oben zu logischeren Werten angepasst habe.

Wenn sie nur stur zwei weitere cluster "dazugeklebt" haben, heisst es garantiert nicht dass man ploetzlich auch z.B. 70% mehr Leistung erwarten darf.

Das bedeutet, dass entweder die Standardeinstellungen besser aussehen und/oder A.I. Off auch wieder Off ist. Schön wär's ja.

Also die Geruechte deuten eher auf bessere Optimierungen.

Raff
2008-03-13, 00:44:51
Inwiefern "besser"? Noch "optimierter" und wieder etwas dezenter?

MfG,
Raff

Ailuros
2008-03-13, 00:51:23
Inwiefern "besser"? Noch "optimierter" und wieder etwas dezenter?

MfG,
Raff

Hoehere Effizienz bei angeblich gleicher BQ. Das erste kann ich glauben, das zweite erst wenn ich es sehe.

Gast
2008-03-13, 08:47:27
RV770 is 160SP (32*5) per array and there are a total of 5 arrays = 800SPs
http://bbs.chiphell.com/viewthread.php?tid=17917&extra=page%3D1

Gast
2008-03-13, 09:38:22
Sofern Ati dem Teil echt 50 Prozent mehr TMUs verpasst, können wir wenigstens auf besseres AF hoffen. Das bedeutet, dass entweder die Standardeinstellungen besser aussehen und/oder A.I. Off auch wieder Off ist. Schön wär's ja.

MfG,
Raff

Das glaubst du aber nicht im Ernst?
Das einzige was man erwarten kann sind 50% mehr fps bei gleich miesem AF, denn irgendwie muss man den Leuten ja vorgaukeln, man könne mit Nvidia mithalten.

Gast
2008-03-13, 09:59:17
Das Ding bekommt hoffentlich mindestens 32TMUs, dann kann man auch mit besserer Bildqualität rechnen.

GeneralHanno
2008-03-13, 12:41:03
RV770

96(?)*10*~0.9 = 864GFLOPs (+74%)
24(?)*900 = 21.6 GTexels/s (+74%)
16*900*4(?) = 57.6 Z sample (+132%)
(min) 102.4 GB/s (+42%)

dass diese daten von hartware.net falsch sind, hat w0mbat schon gesagt.

eine 5 array lösung könnte ich mir gut vorstellen, aber sicher keine 800SP ! wohl eher 800SP für den R700, also RV770=400SP

das würde dann bedeuten, dass man den RV670 einfach um ein array erweitert hätte...

AnarchX
2008-03-13, 12:48:46
RV770 = RV670 + 1 ALU-SIMD(80ALUs) + 1 Textur-SIMD(4 TUs = 16TF/32TA)?

In Anbetracht der genannten 250mm², wenn dann noch einige andere Optimierungen, wie bei den ROPs hinzukommen, wohl durchaus denkbar.

Wäre zwar deutlich mehr Tex pro ALU-Leistung gegenüber RV670, aber trotzdem noch weniger als bei G8x/G9x und somit doch noch etwas zukunftsorientiert.
Aber vielleicht schafft es ATI, doch noch eine einfache ALU-Domain mit zu integrieren.

GeneralHanno
2008-03-13, 15:10:43
wenn ich mir DIESE (http://www.computerbase.de/bild/article/648/1/) präsentation angucke, dann kann ATI (sofern sie am grundaufbau der architaktur nix ändern) folgende parameter unabhängig voneinander und frei skalieren:
- die anzahl der ALU-SIMDs
- die anzahl der Vec5 Prozessoren pro ALU-SIMD
- die anzahl der TU-SIMDs (ABER: jedes TU-SIMD besteht ist "innen" nicht skalierbar)
frage: könnte ATi auch mehr TU-SIMDs als ALU-SIMDs verbauen, oder gilt:
Anzahl(TU-SIMD) kleiner-gleich Anzahl(ALU-SIMD) ?

AnarchX
2008-03-13, 18:32:50
Nvidia’s back is against the wall
March 13, 2008 · 1 Comment

AMD, according to reliable sources, is preparing some shock treatment for Nvidia on the graphics front later this year.

But the same sources reckon that it will be earlier rather than later, pushing Nvidia to the limits. We’d say that Nvidia is a little like Intel in that it performs better when it’s under pressure rather than AMD, which always seems to start misfiring when things don’t go exactly right.

The word is the AMD strategy is something to do with codename Thunder. But don’t be surprised if Nvidia has something up its corporate sleevies too. Because we suspect it has. ♣

http://madmikemagee.wordpress.com/2008/03/13/nvidias-back-is-against-the-wall/

;D

Nakai
2008-03-13, 18:38:03
Ach, wie ich Marketing liebe.;D


mfg Nakai

Argoth
2008-03-13, 20:32:25
Ach, wie ich Marketing liebe.;D


mfg Nakai

genau!

Vorallem weil's sich so gut liest! ;D

dildo4u
2008-03-13, 22:13:34
Gibts kein Mobile GPU Speku Thread? Egal ein 7XX Abkömmling in Aktion der G780.

Video
World Exclusive* unreleased AMD Puma-based MSI notebook -v- Intel Penryn G35 - AMD Puma 3x quicker than Intel integrated?

http://www.hexus.tv/show/2008/03/EXCLUSIVE_CONTENT_AMD_Puma_3x_quicker_than_Intel_integrated/

Sorkalm
2008-03-13, 22:20:37
Das ist ein RS780, der ist schon auf dem Markt. (RV615/620 als Basis)

Ailuros
2008-03-14, 05:44:47
dass diese daten von hartware.net falsch sind, hat w0mbat schon gesagt.

Ich sagte doch dass ich diese nur als Beispiel zur Hand nehme.

eine 5 array lösung könnte ich mir gut vorstellen, aber sicher keine 800SP ! wohl eher 800SP für den R700, also RV770=400SP

das würde dann bedeuten, dass man den RV670 einfach um ein array erweitert hätte...

Ach und wie sieht denn die GFLOP Leistung im Vergleich zu RV670 in diesem Fall aus? Konzentrier Dich mal auf die Prozente meiner Antwort und denk scharf nach ob Deine angeblichen 25% auf die ich geantwortet habe immer noch irgendwelchen Sinn machen.

***edit:

es sind keine 800SPs...

R6x0/RV6x0=

4 cluster * 16 ALUs = 64 ALUs * 5 = 320 SPs ie. 80SPs/cluster

Jetzt rechnet nochmal von vorne los *grins*

deekey777
2008-03-14, 12:47:59
Dass es keine 800 SPs sind, ist klar. Zumindest nicht beim RV770.
Was ich mich seit einiger Zeit frage, ist, wieviel beim R600/RV670 ein Shader-Cluster kostet. Beim Übergang vom R520 zum R580 kosteten die zusätzlichen 32 ALUs (und weiteres Zeug) etwa 60 Mio Transistoren.
Ein "Draufhängen" eines weiteren Clusters/SIMDs/Arrays (haben wir noch weitere Begriffe, die das gleiche meinen?) wäre - anders als bei R520->R580 - mit den größeren Änderungen an der Verwaltung verbunden. Auch wäre so ein Draufhängen ohne Ausgleich der Tex-Leistung fatal, wenn die Cluster auf die Daten von dem überforderten TMU-Cluster warten müssen: Ein weiterer Shader-Cluster ist somit mit Erhöhung der Tex-Leistung verbunden.

Grundsätzlich gilt das Gleiche, wenn die Shader-Cluster an sich erweitert werden. Beim Übergang von R520 zum R580 hat die Erweiterung der ALUs innerhalb der Arrays zur Verdreifachung der Thread-Größe geführt. Je größer die Threads, um so größer kann der "Ausschuss" werden.

Ailuros
2008-03-14, 13:07:19
Was ich mich seit einiger Zeit frage, ist, wieviel beim R600/RV670 ein Shader-Cluster kostet. Beim Übergang vom R520 zum R580 kosteten die zusätzlichen 32 ALUs (und weiteres Zeug) etwa 60 Mio Transistoren.

Eine aehnliche Debatte gab es schon auf B3D. Es gibt keinen anstaendigen Vergleich zwischen einer PS3.0 und einer SM4.1 ALU.

Ein "Draufhängen" eines weiteren Clusters/SIMDs/Arrays (haben wir noch weitere Begriffe, die das gleiche meinen?) wäre - anders als bei R520->R580 - mit den größeren Änderungen an der Verwaltung verbunden. Auch wäre so ein Draufhängen ohne Ausgleich der Tex-Leistung fatal, wenn die Cluster auf die Daten von dem überforderten TMU-Cluster warten müssen: Ein weiterer Shader-Cluster ist somit mit Erhöhung der Tex-Leistung verbunden.

Gleiche Frage wie auch auf B3D: wieso "muessen" es mehr als 4 clusters sein?

Nakai
2008-03-14, 13:22:45
Gleiche Frage wie auch auf B3D: wieso "muessen" es mehr als 4 clusters sein?

Dann einfach größere Cluster.

Ich geh davon aus, dass man die Shadercluster von der Größe etwas aufgepumpt hat.

Ich denke man nimmt das Tex:Ratio vom RV635 und projeziert es auf den RV670 rüber.
Bei 120SPs pro Cluster, wären das 480SPs und 32 TMUs, wenn man den RV635 vervierfacht.
Womöglich wird man die TMUs einfach so erweitern, dass sie nun 32TAs und TFs haben.

Naja ka...


mfg Nakai

deekey777
2008-03-14, 15:54:07
Eine aehnliche Debatte gab es schon auf B3D. Es gibt keinen anstaendigen Vergleich zwischen einer PS3.0 und einer SM4.1 ALU.

Es geht eher um die Frage, welche Einheiten am meisten kosten. Wenn die ~250 mm² Die-Fläche stimmen, dann wären es bei meiner Milchmädchenrechnung etwa 855 Mio Transistoren. Es wären etwas unter 200 Mio Unterschied zum RV670. Die Shader-ALUs sind im Vergleich zu den TMUs und ROPs eher die "günstigsten" Einheiten, aber der Nachfolger des RV670 braucht in erster Linie mehr Tex-Leistung, am besten in Form eines eigenständigen Clusters, die RBEs müssen "nur" aufgebohrt werden.


Gleiche Frage wie auch auf B3D: wieso "muessen" es mehr als 4 clusters sein?

Die zweite Frage ist: Können es überhaupt mehr als 4 Cluster sein?
Größere Shader-Cluster können auf zwei Wegen realisiert werden: horizontal und vertikal.
Vertikal bringt mit sich zwei zwingende Effekte mit. Einmal muss die Anzahl der TMU-Quads an die Anzahl der ALU-Quads angepasst werden, was zwar nett ist (höhere Tex-Leistung ist immer willkommen), aber zweite Effekt wäre, dass die Threadgröße steigen kann, was Nachteile hat.
Werden die Cluster nach dem R580-Prinzip erweitert, könnte die Threadgröße auch steigen, aber man könnte locker einen weiteren TMU-Cluster "dranhängen".
Noch verrückter wäre die Idee, wenn man die Shader-Cluster zwar erweitert, aber innerhalb dieser Cluster zwei Threads nebeneinander und unabhängig voneinander ausgeführt werden können. Nehmen wir an, die Zahl 24 ist eigentlich 12x2 und nicht 1x24. Sprich: Der RV770 besteht aus 5 Clustern, 4 Shader-Cluster mit je 2x12 ALUs und einem TMU-Cluster mit 2x12 TMUs.

Gast
2008-03-14, 17:53:39
was ist davon zu halten ?

http://www.theinquirer.de/2008/03/13/gerucht_amd_hat_was_im_armel.html

Snoopy1978
2008-03-14, 18:04:07
Wohl so was ähnliches wie die Aktion im vergangenen September,wo AMD die Black-Edition des Athlon64 vorgestellt hat.Auf jeden Fall hauen die Gerüchteköche ganz schön auf den Schlamm.

horn 12
2008-03-14, 18:08:06
Meiner Meinung nach kommt endweder der RV770 nun extrem schnell (April) daher,-
oder
es wird eine aufgebohrte HD3870 X2 A12 Revison mit GGDR4 Speicher und 900 Mhz GPU, ebenso PLX 2.01 Chipsatz, an den Start gehen mit weiter optimierten Treibern (GDDR4) und soll so die 9800GX2 schlagen....
TIPPE aber auf letzeres!
Diese dürfte dann ca. 30-40% schneller als die HD-3870X2 sein!

Ailuros
2008-03-14, 18:41:58
Noch verrückter wäre die Idee, wenn man die Shader-Cluster zwar erweitert, aber innerhalb dieser Cluster zwei Threads nebeneinander und unabhängig voneinander ausgeführt werden können. Nehmen wir an, die Zahl 24 ist eigentlich 12x2 und nicht 1x24. Sprich: Der RV770 besteht aus 5 Clustern, 4 Shader-Cluster mit je 2x12 ALUs und einem TMU-Cluster mit 2x12 TMUs.

Das letztere kannst Du gleich vergessen bei dem relativ kleinen R&D Aufwand. R6x0/RV670= 16 ALUs/cluster <-SIMD-> 16 TMUs; RV770 wird wohl eher 32<->32 sein.

Meiner Meinung nach kommt endweder der RV770 nun extrem schnell (April) daher,-
oder
es wird eine aufgebohrte HD3870 X2 A12 Revison mit GGDR4 Speicher und 900 Mhz GPU, ebenso PLX 2.01 Chipsatz, an den Start gehen mit weiter optimierten Treibern (GDDR4) und soll so die 9800GX2 schlagen....
TIPPE aber auf letzeres!
Diese dürfte dann ca. 30-40% schneller als die HD-3870X2 sein!


Wie schoen; der eine Verzweiflungsakt schlaegt den anderen. Es wird so langsam Zeit dass beide IHVs mit dem Mist aufhoeren und Transistoren sinnvoller anwenden.

deekey777
2008-03-14, 19:10:30
Das letztere kannst Du gleich vergessen bei dem relativ kleinen R&D Aufwand. R6x0/RV670= 16 ALUs/cluster <-SIMD-> 16 TMUs; RV770 wird wohl eher 32<->32 sein.

So lange die Threadgröße gleich bleibt (oder noch besser sie sinkt), sind solche Cluster kein Problem. Aber wenn die Threadgröße steigt, ist das ein Problem, so gar ein ganz übles.

Hvoralek
2008-03-14, 19:16:51
es wird eine aufgebohrte HD3870 X2 A12 Revison mit GGDR4 Speicher und 900 Mhz GPU, ebenso PLX 2.01 Chipsatz, an den Start gehen mit weiter optimierten Treibern (GDDR4) und soll so die 9800GX2 schlagen....
TIPPE aber auf letzeres!
Diese dürfte dann ca. 30-40% schneller als die HD-3870X2 sein!900 MHz, nachdem man schon an 825 so zu knabbern hatte? Mit was für einer Spannung/ Stromverbrauch soll das bitte gehen?

Und der Treiber, der bei 9% höherem Kerntakt zu insgesamt 30- 40% mehr Leistung führt, wäre auch erstaunlich. Das Treiberteam hat ja auch noch nicht lange genug an der CF- Effizienz gearbietet :|

Der Tatsache, dass der Inquirergründer etwas vor sich hinmurmelt, kann ich beim besten Willen keine ernsthafte Bedeutung beimessen, v.a., wenn es dermaßen vage bleibt.

Nakai
2008-03-14, 19:24:07
Die Frage ist doch eher um was für ein Produkt der Inquirer genau spricht.
Im LowCost-Bereich also Chipsätze wäre das ganz gut möglich.


mfg Nakai

Gast
2008-03-14, 20:33:47
ATI wird mit dem R700 das wiederholen, was sie damals mit der Radeon 9700pro geschafft haben.

Nakai
2008-03-14, 20:41:10
ATI wird mit dem R700 das wiederholen, was sie damals mit der Radeon 9700pro geschafft haben.

Wenn der RV770 nicht mindestens 60% schneller wird als der RV670 bezweifle ich das sehr. ;)


mfg Nakai

w0mbat
2008-03-14, 20:41:28
Bestimmt -.-

Gast
2008-03-14, 20:50:29
The RV770 has 800 Stream Processors, while the High End Part R700 has 1600 with over 2 TFlops of computing power.

w0mbat
2008-03-14, 21:05:42
Mit 2x800SP bräuchte der "high-end" R700 nur 625MHz für 2 TFLOPs. Bei 900MHz (75MHz höher als R680) wären es schon über 2,8 TFLOPs. Du glaubst doch selbst nicht das der R700 so niedrig taktet, oder?

Gast
2008-03-14, 21:09:28
Wenn der RV770 nicht mindestens 60% schneller wird als der RV670 bezweifle ich das sehr. ;)


mfg Nakai


Was willst du mit 60% mehr, das ist dann gerade mal 8800Ultra Niveau.

Captain Future
2008-03-14, 21:17:04
The RV770 has 800 Stream Processors, while the High End Part R700 has 1600 with over 2 TFlops of computing power.
Hoffentlich auch reparierte ROPs.

Nakai
2008-03-14, 21:22:49
Hoffentlich auch reparierte ROPs.

Die waren niemals Defekt.

ATI hat sich da einfach sehr verkalkuliert...


mfg Nakai

€: Was willst du mit 60% mehr, das ist dann gerade mal 8800Ultra Niveau.

Eigentlich locker darüber.

deekey777
2008-03-14, 21:31:40
Die ROPs waren wohl doch defekt. Nicht weil die AA-Leistung so mies war, sondern weil diese eigentlich für 4xMSAA pro Loop gemacht sein sollten.

Näher dazu: http://www.forum-3dcenter.org/vbulletin/showthread.php?t=382321
Der Grund war, dass AMD/ATi es nicht hingekriegt hat, dass die ROPs beim Zieltakt im vollen Umfang laufen konnten, also wurde einen Gang zurückgeschaltet.

Beim RV770 reicht es eigentlich diesen "Defekt" zu fixen, um die Leistung der ROPs zu verdoppeln.

Nakai
2008-03-14, 21:42:21
Die ROPs waren wohl doch defekt. Nicht weil die AA-Leistung so mies war, sondern weil diese eigentlich für 4xMSAA pro Loop gemacht sein sollten.

Näher dazu: http://www.forum-3dcenter.org/vbulletin/showthread.php?t=382321
Der Grund war, dass AMD/ATi es nicht hingekriegt hat, dass die ROPs beim Zieltakt im vollen Umfang laufen konnten, also wurde einen Gang zurückgeschaltet.

Beim RV770 reicht es eigentlich diesen "Defekt" zu fixen, um die Leistung der ROPs zu verdoppeln.

Achso und ich dachte, dass man beim RV670 die ROP-Leistung durch nen höheren Shadertakt verbessert hat.


mfg Nakai

Gast
2008-03-14, 21:44:13
Die ROPs waren wohl doch defekt. Nicht weil die AA-Leistung so mies war, sondern weil diese eigentlich für 4xMSAA pro Loop gemacht sein sollten.

Näher dazu: http://www.forum-3dcenter.org/vbulletin/showthread.php?t=382321
Der Grund war, dass AMD/ATi es nicht hingekriegt hat, dass die ROPs beim Zieltakt im vollen Umfang laufen konnten, also wurde einen Gang zurückgeschaltet.

Beim RV770 reicht es eigentlich diesen "Defekt" zu fixen, um die Leistung der ROPs zu verdoppeln.

Wieviel % wäre dann eine HD 3870 bei 1920x1200 4xAA 16AF schneller ohne diesen "Defekt"?

Captain Future
2008-03-14, 21:45:39
ATI hat sich da einfach sehr verkalkuliert...

So strunzdumm ist man bei Ati/AMD nicht - auch wenn du das vielleicht glaubst.

deekey777
2008-03-14, 21:52:31
Wieviel % wäre dann eine HD 3870 bei 1920x1200 4xAA 16AF schneller ohne diesen "Defekt"?
Auf die mangelnde Texelfüllrate hat dieser Defekt null Auswirkung. Wenn der RV770 weiterhin nur 16 TMUs hat, sind die verbesserten ROPs irrelevant.
Keine Ahnung, ob das stimmt, aber verbunden mit dem Shader-Resolve könnte der zuständige Shader-Cluster doppelt so lange auf die ROPs warten.

Hvoralek
2008-03-14, 21:57:31
Achso und ich dachte, dass man beim RV670 die ROP-Leistung durch nen höheren Shadertakt verbessert hat.Was für Auswirkungen sollte ein höherer Shadertakt auf die Leistung der ROPs haben?

sklave_gottes
2008-03-14, 21:57:41
Wenn ich mir so die tests ansehe finde ich überhaupt nicht das der r600/rv670 soviel mit aa verliert. Er verliert eher mit af. Das aa ist garnicht so teuer, und schon garnicht 8aa im vergleich.

Das finde ich viel interesanter, vergleich r600 mit r580 :
http://www.computerbase.de/artikel/hardware/grafikkarten/2007/test_ati_radeon_hd_2900_xt/11/#abschnitt_theoretische_benchmarks

fillrate tester mi aa/af

der r600 bricht im vergleich zum r580 total ein....

deekey777
2008-03-14, 21:59:48
Dieser Artikel ist aussagekräftiger: http://www.computerbase.de/artikel/hardware/grafikkarten/2007/test_ati_radeon_hd_3870_rv670/5/#abschnitt_aa%20_und_af%20skalierung

Nakai
2008-03-14, 22:00:01
Was für Auswirkungen sollte ein höherer Shadertakt auf die Leistung der ROPs haben?

Man hat das Shader-Resolve verbessert indem man den Takt in diesem Bereich erhöht hat, soviel hab ich gehört.
Natürlich bin ich nur ein Leie.


mfg Nakai

sklave_gottes
2008-03-14, 22:12:25
Dieser Artikel ist aussagekräftiger: http://www.computerbase.de/artikel/hardware/grafikkarten/2007/test_ati_radeon_hd_3870_rv670/5/#abschnitt_aa%20_und_af%20skalierung


Ja den kenne ich auch, hier sieht man desweiteren wieder, wieso ich glaube das rv670/r600 kein problem mit aa haben sondern eher mit af.

Nicht die ROPs sind zu schwach, sondern die TMUs!
Meiner meinung nach müssen die TMUs defekt sein. Den laut teoretischen daten sollen die TMUs im vergleich zum r580 ja verbessert sein.(FP32 ohne verlust, doppelt soviele Adressierer) + mehr takt vergleich r600 mit r580. Und wie kann es sein das der r580 mit 16af teilweise fast doppelt so hohe fillraten hat wie r600? --> defekt

Und nur so nebenbei laut dem hier:
http://www.hardware.fr/articles/671-4/ati-radeon-hd-2900-xt.html

Ist beim r600 nicht mal 2aa für die ROPs 4free.....

Captain Future
2008-03-14, 22:18:27
Meiner meinung nach müssen die TMUs defekt sein. Den laut teoretischen daten sollen die TMUs im vergleich zum r580 ja verbessert sein.(FP32 ohne verlust, doppelt soviele Adressierer)
Und das hilft beim aniso-Filtern von herkömmlichen INT8-Texturen modernder SPiele genau wieviel?

Captain Future
2008-03-14, 22:21:30
Und nur so nebenbei laut dem hier:
http://www.hardware.fr/articles/671-4/ati-radeon-hd-2900-xt.html

Ist beim r600 nicht mal 2aa für die ROPs 4free.....
Es ist nicht "for Free", es kostet immer noch Z-Leistung. Und genau das sieht man dort.

Hvoralek
2008-03-14, 22:22:42
JDen laut teoretischen daten sollen die TMUs im vergleich zum r580 ja verbessert sein.(FP32 ohne verlust, doppelt soviele Adressierer) Schaffen die nicht "nur" FP16 ohne Verlust und FP32 in zwei Takten?

sklave_gottes
2008-03-14, 22:24:29
Schaffen die nicht "nur" FP16 ohne Verlust und FP32 in zwei Takten?


Ja hst recht, r580 braucht zwei fuer FP16

Hvoralek
2008-03-14, 22:27:24
Ja hst recht, r580 braucht zwei fuer FP16R5xx kann überhaupt keine FP- Werte filtern.

sklave_gottes
2008-03-15, 00:53:44
Und das hilft beim aniso-Filtern von herkömmlichen INT8-Texturen modernder SPiele genau wieviel?

Dann bleiben immer noch die doppelten TAUs + 90mhz mehr Takt.
Erklärt aber immer noch nicht wieso r580 bei 16AF teilweise fast doppelt soviel Fill hat. Was vieleicht unter anderem auch den starken einbruch vom r600 im vergleich zum r580 erklärt.

Es ist nicht "for Free", es kostet immer noch Z-Leistung. Und genau das sieht man dort.

Ja aber es soll doch von 1aa nach 2aa eben keine Z-Leistung kosten oder nicht ? Und das ist eben der fall. Wie beim r580, da kostet es nichs.

R5xx kann überhaupt keine FP- Werte filtern.

Braucht man das nicht für HDR + aa ?

Ailuros
2008-03-15, 07:29:24
So lange die Threadgröße gleich bleibt (oder noch besser sie sinkt), sind solche Cluster kein Problem. Aber wenn die Threadgröße steigt, ist das ein Problem, so gar ein ganz übles.

Ich meinte lediglich dass es tatsaechlich 32 TMUs sein muessen.

Es ist nicht "for Free", es kostet immer noch Z-Leistung. Und genau das sieht man dort.

Unter der Logik ist es auch nicht umsonst auf G8x. Wuerde ein solcher synthetischer Test aber shadow maps oder stenciling mit AA kombinieren, wird es offensichtlicher an was es hapert. Aus den Z Resultaten bei hardware.fr kann man uebrigens auch sehr schoen sehen dass NV sich nicht besonders darum geschehrt hat 8xMSAA besser zu optimieren.

16xCSAA verbratet uebrigens auch eine gesunde Menge mehr an Z-fill im Vergleich zu 4xMSAA, obwohl der Leistungsunterschied zwischen den beiden in Echtzeit um einiges kleiner ist.

Mein Verdacht bleibt dass NV hauptsaechlich R&D bzw. Logik fuer CSAA investiert hat; 4xRGMS gab es schon seit NV4x und das sparse 8xMSAA sieht eher nach einen teuren Anpassung an. Dafuer ist die Sample-positionierung um ein klein bisschen besser als auf R6x0/RV6x0. Es gibt fuer mich keine logische Erklaerung warum die Z-fill Rate bei 8xMSAA nicht irgendwo in der ~7000 Region liegt.

ATI's Problem ist hier nicht nur die theoretische Verdoppelung von Z samples generell, sondern auch die jeglichen moeglichen Kombinationen mit oder ohne AA.

HOT
2008-03-15, 10:18:39
Man liest in letzter Zeit interessantes über ein gewisses "Thunder" Projekt. Gibts es da vielleicht noch was abseits der RV770, das bisher ein gehütetes Geheimnis ist? :).

HarryHirsch
2008-03-15, 10:27:57
könnte wieder son Black Edition dings sein

Gosh
2008-03-15, 10:44:25
ATI brauch mal wieder den R300 Effekt.

deekey777
2008-03-15, 11:43:57
Ich meinte lediglich dass es tatsaechlich 32 TMUs sein muessen.
...
Wie stellst du dir das vor?
Wenn man das aktuelle Design als Grundlage nimmt, dann kann das auf zwei Wegen gemacht werden: ein weiterer TMU-Block (was richtig genial wäre) oder weitere 16 TMUs im vorhandenen TMU-Block.
Beim R600 sieht es nunmal so aus: TMU-Quad A füttert ALU-Quad A usw. Und genau das ist, was mir das Philosophieren über 32 TMUs und 4 Shader-Cluster so schwierig macht. Ich gehe davon aus, dass auch die Shader-Cluster aufgebohrt werden, da die Rechenleistung steigen muss. Wenn ich bei R600-Design bleibe, so wären es ein TMU-Block mit 32 TMUs und entsprechend 4 Shader-Blöcke mit je 32 ALUs (1280 FLOP/Takt). Das sieht nur so lange toll aus, wenn die Threadgröße gleich bleibt (oder sinkt). Nur steigt bei ATi die Threadgröße in letzter Zeit: 16 -> 48 -> 64.

Hvoralek
2008-03-15, 16:25:11
Braucht man das nicht für HDR + aa ?Man muss für einen FP16- Framebuffer keine FP16- Texturen verwenden, und wenn man es tut, kann man die auch per Shader filtern (ist allerdings teuer). Mit AA hat das ganze gar nichts zu tun.

Ailuros
2008-03-15, 17:01:46
Wie stellst du dir das vor?
Wenn man das aktuelle Design als Grundlage nimmt, dann kann das auf zwei Wegen gemacht werden: ein weiterer TMU-Block (was richtig genial wäre) oder weitere 16 TMUs im vorhandenen TMU-Block.
Beim R600 sieht es nunmal so aus: TMU-Quad A füttert ALU-Quad A usw. Und genau das ist, was mir das Philosophieren über 32 TMUs und 4 Shader-Cluster so schwierig macht. Ich gehe davon aus, dass auch die Shader-Cluster aufgebohrt werden, da die Rechenleistung steigen muss. Wenn ich bei R600-Design bleibe, so wären es ein TMU-Block mit 32 TMUs und entsprechend 4 Shader-Blöcke mit je 32 ALUs (1280 FLOP/Takt). Das sieht nur so lange toll aus, wenn die Threadgröße gleich bleibt (oder sinkt). Nur steigt bei ATi die Threadgröße in letzter Zeit: 16 -> 48 -> 64.


Einer von uns beiden hat die ALU-TMU Verbindung nicht richtig verstanden. AFAIK sind es nicht 4 TMUs pro cluster bei der quasi SIMD Anbindung sondern zu jeder ALU steht eine TMU zu. Wenn Du die ALUs jetzt mit "A/B/C/D" bezeichnest und diese mit 1 zu 16 aufzaehlst und analog die TMUs mit "T" (T1 - T16"), dann verdammt vereinfacht:

A1 (oder B1, C1, D1)<->T1
A2<->T2
.....
A16<->T16

http://forum.beyond3d.com/showpost.php?p=1138262&postcount=830

deekey777
2008-03-15, 17:58:27
http://www.beyond3d.com/content/reviews/16/8
In terms of memory access from the sampler hardware, sampler units aren't tied to certain clusters as such, rather certain positions inside the cluster. If you visualise the 16 shader units in a cluster as being four quads of units, each of the four samplers in R600 is tied to one of those quads, and then across the whole shader core
Jetzt weiß nicht nicht, inwieweit sich das, was ich geschrieben habe, von dem, was du geschrieben hast, unterscheidet.

sklave_gottes
2008-03-17, 01:14:06
Man muss für einen FP16- Framebuffer keine FP16- Texturen verwenden, und wenn man es tut, kann man die auch per Shader filtern (ist allerdings teuer). Mit AA hat das ganze gar nichts zu tun.


Danke für die Erklärung.



Ich denke nicht das ATI das Tex/Alu verhältnis grossartig ändern wird mit dem rv770. Tex leistung hatte der rv670 zu wenig. Das heist aber noch lange nicht das die Alu leistung zu hoch war.

Ailuros
2008-03-17, 07:37:47
http://www.beyond3d.com/content/reviews/16/8

Jetzt weiß nicht nicht, inwieweit sich das, was ich geschrieben habe, von dem, was du geschrieben hast, unterscheidet.

So wie ich es verstehe "bestimmt" die Anzahl der clusters nicht die Anzahl der TMUs, sondern die Anzahl der ALUs per cluster. In diesem Fall sind es nicht bei 6 clusters-16 ALUs/cluster = 6*4= 24 TMUs sondern immer noch 16TMUs; sind es aber als Gegenbeispiel 4 clusters-32ALUs/cluster dann sind es auch 32TMUs.

Es kann durchaus sein dass ich mich verlesen habe, und Du genau das selbe gemeint hast, aber den Fehler oben machen viel zu viele.

Ich denke nicht das ATI das Tex/Alu verhältnis grossartig ändern wird mit dem rv770. Tex leistung hatte der rv670 zu wenig. Das heist aber noch lange nicht das die Alu leistung zu hoch war.

Falls sie bei 4 clusters insgesamt geblieben sind (nur eben doppelt so breit), dann ist das ALU:TEX Verhaeltnis genau auf 4:1 wie auf RV670. Sind es jetzt doch 5 clusters (32 ALUs/cluster-32 TMUs insgesamt) koennte es auf ein 5:1 Verhaeltnis deuten, aber nur unter der Vorraussetzung dass jegliche RV770 ALU ==RV670 ALU.

deekey777
2008-03-17, 11:09:39
So wie ich es verstehe "bestimmt" die Anzahl der clusters nicht die Anzahl der TMUs, sondern die Anzahl der ALUs per cluster. In diesem Fall sind es nicht bei 6 clusters-16 ALUs/cluster = 6*4= 24 TMUs sondern immer noch 16TMUs; sind es aber als Gegenbeispiel 4 clusters-32ALUs/cluster dann sind es auch 32TMUs.

Es kann durchaus sein dass ich mich verlesen habe, und Du genau das selbe gemeint hast, aber den Fehler oben machen viel zu viele.
...
Genau das meine ich. =)

GeneralHanno
2008-03-17, 11:22:11
exakt. um die texturleistung zu maximieren, müsste man die ALU-cluster zahl minimieren und die ALU-cluster breite/länge (also vec-5shader pro alu-cluster) maximieren.
vorteil: man kann mehr textur-cluster verbauen, man spart transistoren für das ALU-setup
nachteil: schlechte effizienz der ALUs / threadlänge

Ailuros
2008-03-17, 12:28:04
Neben den imposanten GFLOP und SP Anzahl marketing-Zahlen, wird es rundum schon ausreichen dass sich der RV770 um ein sehenswertes Prozentual insgesamt vom RV670 abhebt. Da es sich beim ersten wieder um eine Performance-SKU handelt, wird es wohl keine Beschwerden geben was das Preis-/Leistungsverhaeltnis betrifft.

Gmax
2008-03-25, 13:40:02
40nm Chips im Frühling möglich (http://www.hartware.de/news_44409.html)

AnarchX
2008-03-25, 13:43:27
Denn Text hast du wohl nicht gelesen? Sonst würdest du das hier nicht im RV770 Thread posten.
40nm wird es wohl eher bei R800 geben...

Gmax
2008-03-25, 13:49:13
Die Hersteller z.B. von Grafikchips lassen sich mit der Nutzung ganz neuer Fertigungslinien erfahrungsgemäß etliche Monate Zeit.

Frühling + ein paar Monate= Herbst? Und da sollte doch der ursprüngliche R7oo rauskommen.

AnarchX
2008-03-25, 14:00:16
Frühling + ein paar Monate= Herbst? Und da sollte doch der ursprüngliche R7oo rauskommen.
Viel zu optimistisch gedacht, nur weil es bei RV670 gut ging, muss es nicht immer so sein.
55nm war im Q1 2007 verfügbar, aber AMD plante erst die Veröffentlichung von GPUs im Q1 2008 auf diesem Prozess.

Macht also als realistische Schätzung für 40nm Q2 2009 und 45nm wird man wohl auch nicht vor Anfang 2009 sehen.

AnarchX
2008-03-25, 17:26:58
RV740:
- 55nm
- 128-Bit
- GDDR5
http://bbs.chiphell.com/viewthread.php?tid=18694&extra=page%3D1

Mit denen durch GDDR5 möglichen Bandbreiten eine durchaus sinnvolle Entscheidung.

Captain Future
2008-03-25, 19:58:56
RV740:
- 55nm
- 128-Bit
- GDDR5
http://bbs.chiphell.com/viewthread.php?tid=18694&extra=page%3D1

Mit denen durch GDDR5 möglichen Bandbreiten eine durchaus sinnvolle Entscheidung.
Hoffentlich. Denn das wichtigste - die Eckdaten der GPU selbst - fehlt ja noch. Rein nach diesen Specs hat ja auch die 2600XT/GDDR4 gut geklungen:
- 65nm
- 128 Bit
- GDDR4

;)

w0mbat
2008-03-25, 20:42:31
Aber HD2600 XT = RV630 & RV740 > RV730
(wenn es die Chips wirklich alle so geben wird)

Gmax
2008-03-26, 23:13:06
R700 is still scheduled for 2008
I repeat, no delays (http://www.fudzilla.com/index.php?option=com_content&task=view&id=6467&Itemid=1)

Der_Korken
2008-03-26, 23:17:51
R700 is still scheduled for 2008
I repeat, no delays (http://www.fudzilla.com/index.php?option=com_content&task=view&id=6467&Itemid=1)

Welcher R700 ist da jetzt gemeint? Der Chip, der ursprünglich als R700 vorgesehen war, oder ein eventueller RV770X2? Ich blick da mit den Codenamen so langsam nicht mehr durch.

Sorkalm
2008-03-26, 23:19:50
Sicherlich der neue R700. Der alte - bzw. einige Ideen des alten, in seiner kompletten Form wird er wohl nicht existieren, kommt anscheinend im R800.

Hvoralek
2008-03-26, 23:33:38
Welcher R700 ist da jetzt gemeint? Der Chip, der ursprünglich als R700 vorgesehen war, oder ein eventueller RV770X2? Ich blick da mit den Codenamen so langsam nicht mehr durch.Er nennt ausdrücklich RV770 als "base R700 model". Es geht also offensichtlich um den neuen R700.

Ailuros
2008-03-27, 05:45:43
Er nennt ausdrücklich RV770 als "base R700 model". Es geht also offensichtlich um den neuen R700.

Stimmt so.

seahawk
2008-03-27, 07:17:40
Also R700 = 2 x RV770 auf einer Karte ?

[fu]121Ah
2008-03-27, 08:11:11
jo. ati kann dem GT200 nix entgegen setzen ausser Crossfire... evnt halt optimierter mit Ringbus etc, was aber eher bei der nachfolgegeneration kommt. die spekulationen gehen ja von mehr TMUs + ROPs über ALU optimierungen usw.

rv740 wird als rv670 ablösung kommen, wobei dies meiner meinung nach eher sekundär ist, der rv670 lässt sich noch lange verkaufen.

Ailuros
2008-03-27, 09:15:21
Also R700 = 2 x RV770 auf einer Karte ?

Was soll daran neu sein? Seit RV670 bzw. R680 wird das high end Segment in jeglicher roadmap mit zwei chips pro PCB bedient.

Gast
2008-03-27, 15:11:45
121Ah;6385463']jo. ati kann dem GT200 nix entgegen setzen ausser Crossfire...


mauahahahahaa hier wissen also alle schon was der GT 200 kann '?

Was ist wenn ich sage der GT200 sind 2x G100 Chips aufeinander wie die GX2?

Galubt ihr nicht?

na ihr werdet schon sehen............

seahawk
2008-03-27, 18:27:56
Was soll daran neu sein? Seit RV670 bzw. R680 wird das high end Segment in jeglicher roadmap mit zwei chips pro PCB bedient.

Ich hoffte man hört mit der dummen Namensgebung irgendwann mal auf.

[fu]121Ah
2008-03-28, 09:06:55
mauahahahahaa hier wissen also alle schon was der GT 200 kann '?

Was ist wenn ich sage der GT200 sind 2x G100 Chips aufeinander wie die GX2?

Galubt ihr nicht?

na ihr werdet schon sehen............
lol, da du dich selbst disqualifiziert hast mit der aussage dass der GT200 2x G100 Chips trägt, spare ich mir sonstige antworten... ausser, JUNGCHEN, der G100 kommt NACHT dem GT200 lol

Gast
2008-03-28, 09:14:16
RV770 final specs revealed:

55nm TSMC process
480 SP (4D+1D) - 1D consists of 96 SP
32 TMU
800-900MHz core clock
PCB design similar to RV670
Replace current RV670 price point

http://resources.vr-zone.com/newzhunter/RV770/gpu.jpg

http://resources.vr-zone.com/newzhunter/RV770/1.gif

http://resources.vr-zone.com/newzhunter/RV770/2.gif

http://resources.vr-zone.com/newzhunter/RV770/3.gif

http://forums.vr-zone.com/showthread.php?t=255294

AnarchX
2008-03-28, 09:16:19
Chiphell mit den finalen RV770 Specs?
RV770 final specifications

480SP (RV670 320)
Framework used R600, 4D +1 D and D for every 96 (RV670 every 64 D)
32TMU (RV670 than doubled)
Frequency of 800 to 900 MHz, depending on the final outcome of TSMC volume production scheduled
Listed price (RV670 reference listed prices)
Finally tell you that the version of RV770-how do not think it is RV670 twins, the future price trend can also RV670 reference to the current series.
http://bbs.chiphell.com/viewthread.php?tid=18857&extra=page%3D1

edit:
Die gefakten Hartware-Specs und der RV670-Die, welcher auf das RV770-Prototyp-PCB via PS gebastelt wurde, passen hier eher nicht dazu. ;)

Gast
2008-03-28, 09:21:29
Wie passen 480 SPs in das Design der R6x - hoch und quer?

AnarchX
2008-03-28, 09:23:56
Wie passen 480 SPs in das Design der R6x - hoch und quer?

6 ALU SIMDs mit je 80SPs und zwei Textur-SIMDs mit je 4 TUs
oder
6 ALU SIMDs mit je 80SPs und einer Textur-SIMD mit je 4 TUs mit je einer Octa-TMU
oder
3 ALU SIMDs mit je 160SPs und dazu eine Textur-SIMD mit 8 TUs.

Gast
2008-03-28, 09:47:24
glaubst du wirklich, die haben das Design so weit umgekrempelt?

AnarchX
2008-03-28, 09:49:49
Wieso umkrempeln? Das ist die Skalierbarkeit, die das Design erlaubt, siehe RV610 und RV630 im Vergleich zu RV670.

OBrian
2008-03-28, 09:55:00
edit:
Die gefakten Hartware-Specs [...] passen hier eher nicht dazu. ;)Warum? Die Daten von hartware.net scheinen doch genau zu dieser neuen Meldung zu passen: 480 Shader, verdoppelte Textureinheiten, mehr Takt, entspricht doch genau dem "4850". Auf einige Details wie genauer Takt o.ä. wird sich nicht mal AMD selber festlegen können.

Gast
2008-03-28, 10:00:52
Wieso umkrempeln? Das ist die Skalierbarkeit, die das Design erlaubt, siehe RV610 und RV630 im Vergleich zu RV670.
An TMUs und ROPs habe ich bisher noch keine Skalierbarkeit (nach oben) gesehen. Sowie ich das sehe können AMD entweder horizontal oder vertikal etwas hinzufügen - wohl auch beides.

Dann würde aber ein Chip mit 500 SPs, 20 ROPs und 20 TMUs rauskommen. Halte ich auch für am wahrscheinlichsten, weil sonst können die nicht einen mit 50% mehr ALUs zum gleichen Preis wie RV670 verkloppen - bei gleichem Prozess.

GeneralHanno
2008-03-28, 10:07:31
die specs lesen sich ja fast so, als hätte man die Textur-cluster aufgebohrter und INTERN im cluster die filter anzahl verdoppelt ....

Gast
2008-03-28, 10:10:44
glaubst du wirklich, die haben das Design so weit umgekrempelt?

Ein RV630/635 hat 120SPs, 8 TMUs und 4ROPs. Ein RV770 mit 480SPs, 32TMUs und 16ROPs wäre also exakt 4 x RV630/635. Wie scheon bei RV530/R580.

GeneralHanno
2008-03-28, 10:29:39
der RV770 wird sicherlich KEIN 4 facher RV630/5. warum?

wenn er tatsächlich 8 TMUs hätte (nach R600 prinzip), dann MÜSSTE er bei 480SP 3 ALU SIMDs haben (vgl: R600/RV670 = 4 ALU SIMD a 80SP, RV630/5 = 3 ALU SIMD a 40SP) mit 160SP je SIMD. das wäre viel zu lang und unflexibel.

daher vermute ich, dass ATi sich die mühe gemacht hat die textur cluster aufzubohren und die zahl der filter zu verdoppeln.

"mein" RV670 sähe dann so aus:
6 ALU SIMD a 80 SP (quasi ein verbreiterter R600 ...)
4 aufgebohrte textur SIMD a 8 TAU/TAU

sklave_gottes
2008-03-28, 10:58:41
Ich halte 480 SP (4D+1D) generell für zu wenig. Es sollten schon bissel mehr sein.

Eine 9800gtx wird warscheinlich ~ 650 GFLOPs haben. + 43200 MTex/sec

Der rv770 würde bei 800mhz und den zahlen auf 768 GFLOPs kommen und 25600 MTex/sec.

Damit würde bei sonnst keinen veränderungen die 9800gtx nicht zu schlagen sein. b.z.w. mann würde nichtmal ganz das nivau von der erreichen.
Der rv770 braucht entweder mehr takt(c.a.900mhz) mehr SPs (640?) oder mehr effiz./+add. Ich denke es wird auf mehr SPs hinauslaufen.

mfg martin

AnarchX
2008-03-28, 11:03:36
Unsinn, was RV6xx fehlt ist Texturleistung, arithmetisch sind sie trotz Vektor-Architektur sehr gut aufgestellt, wie es manches Game zeigt.

Und 32TMUs und 480ALUs, wohl noch unterstützt durch GDDR5 sollte doch locker ausreichen um die relativ schwache 9800GTX angreifen zu können, Filtertricks wird ATi wohl auch beibehalten, sodass sie aus ihren 25GTex einiges herausholen können.

deekey777
2008-03-28, 11:17:39
Unsinn, was RV6xx fehlt ist Texturleistung, arithmetisch sind sie trotz Vektor-Architektur sehr gut aufgestellt, wie es manches Game zeigt.

Und 32TMUs und 480ALUs, wohl noch unterstützt durch GDDR5 sollte doch locker ausreichen um die relativ schwache 9800GTX angreifen zu können, Filtertricks wird ATi wohl auch beibehalten, sodass sie aus ihren 25GTex einiges herausholen können.
Es ist keine Vektor-Architektur.:)

Gast
2008-03-28, 11:21:42
Es ist keine Vektor-Architektur.:)
Weswegen sie auch so gut mit abhängigen Skalaren arbeitet....

Gast
2008-03-28, 11:24:55
Wann ist den die Markteinführung???????


Ich finde 4Xrv630 liest sich gut wenn man das Verbrauchstechnisch hin bekommt, bzw ist rein Wirtschaftlich gesehen Sinnvoll, sollte immerhin dann am G80 vorbei kommen............

deekey777
2008-03-28, 11:25:03
Weswegen sie auch so gut mit abhängigen Skalaren arbeitet....
Blahblah...

Sonst nichst.

GeneralHanno
2008-03-28, 11:30:24
sehe ich genau so wie anarchX. wobei man bedenken muss, dass Nvidia noch den GT200 im kasten hat ;)
dennoch: der RV670 soll eine performence-GPU im preisbereich 100-300€ werden. daher muss die leistung auch nicht übergalaktisch sein ;) hauptsache das PLV stimmt. für den rest gibt es dann unsinniges Quadfire ;D

hier mal ein theoretischer datenvergleich:

3870 : 397 GFLOPs, 12400 MTex/s, 72000 MB/s
9800GTX : 432 GFLOPs, 43200MTex/s, 70000MB/s
RV770@900MHz+GDDR5@1,6GHz : 691GFLOPs, 28800MTex/s, 102400MB/s

anmerkung: es wurde die "reale" MADD leistung berechnet, also bei ATi Vec4@2FLOP und bei Nvidia Vec1@2FLOP

deekey777
2008-03-28, 11:42:54
Ich wiederhole mich gern: Der R600 ist keine Vektor-Architektur (eigentlich schon*). Vektor bedeutet, dass man eine Rechenoperation für mehrere Komponenten ausführt, sprich, eine Instruction für RGBA. Der R600 bzw. seine fünf "superskalaren" ALUs können fünf unabhängige Instructions für fünf Komponenten berechnen. Dass er Probleme mit abhängigen Rechenoperationen hat, ist ein Nachteil dieser Architektur, aber es bedeutet nicht, dass diese Abhängigkeit nicht umgangen werden kann.


* G80: Vec16-ALUs
R600: Vec16-ALUs

Gast
2008-03-28, 11:43:20
Ich halte 480 SP (4D+1D) generell für zu wenig. Es sollten schon bissel mehr sein.

Eine 9800gtx wird warscheinlich ~ 650 GFLOPs haben. + 43200 MTex/sec

Der rv770 würde bei 800mhz und den zahlen auf 768 GFLOPs kommen und 25600 MTex/sec.

Damit würde bei sonnst keinen veränderungen die 9800gtx nicht zu schlagen sein. b.z.w. mann würde nichtmal ganz das nivau von der erreichen.
Der rv770 braucht entweder mehr takt(c.a.900mhz) mehr SPs (640?) oder mehr effiz./+add. Ich denke es wird auf mehr SPs hinauslaufen.

mfg martin

Würde mich wundern wenn AMD die ALUs nicht zumindest leicht höher taktet, selbst S3 schafft das. 480SPs reichen bei Taktraten >1Ghz immerhin für über 1TFLOP. Dazu doppelt so viele TMUs und der deutlich höher getaktete GDDR5 und schon sollte doppelter RV670-Leistung nichts mehr im Wege stehen. Das reicht dann locker für eine 9800GTX.

w0mbat
2008-03-28, 11:46:38
Das sind doch exakt die Daten von Hartware, oder?!

Nakai
2008-03-28, 12:46:26
Und 32TMUs und 480ALUs, wohl noch unterstützt durch GDDR5 sollte doch locker ausreichen um die relativ schwache 9800GTX angreifen zu können, Filtertricks wird ATi wohl auch beibehalten, sodass sie aus ihren 25GTex einiges herausholen können.

Angreifen?
Der RV770 würde mit diesen Daten den RV670 nach den Rohleistungen ziemlich oft um das Doppelte schlagen.
Von der Shaderleistung liegt man schon etwa 70% höher und von der Texturperformance sogar über 100%.
Ich sehe keinen Grund warum der RV770 nicht weniger als 60%+ als der RV670 performen sollte.
Natürlich kann man nicht alle Rohdaten immer für voll nehmen, falls diese aber stimmen, wird man eine Geforce 9800GX2 attackieren können.


mfg Nakai

Gast
2008-03-28, 13:15:24
Blahblah...
Sonst nichst.
Sagt der richtige

deekey777
2008-03-28, 13:42:37
Sagt der richtige
Machst du diesen Schwachsinn noch lange, oder schreibst du etwas sinnvolles?

Hvoralek
2008-03-28, 15:01:20
Dann würde aber ein Chip mit 500 SPs, 20 ROPs und 20 TMUs rauskommen. Halte ich auch für am wahrscheinlichsten, weil sonst können die nicht einen mit 50% mehr ALUs zum gleichen Preis wie RV670 verkloppen - bei gleichem Prozess.Ich glaube kaum, dass ein vollausgebauter RV770 zum Start zum Preis einer 3870 zu haben sein wird.

GeneralHanno
2008-03-28, 15:05:15
vermutlich zum startpreis der 3870, also 250€.

zudem passt ATi (in den letzten jahren immer!) seine preise so an, dass sie etwas günstiger sind, als ein vergleichbares nvidia produkt! bei der preisgestaltung ist nvidia konservativ und ATi flexibel :D

LovesuckZ
2008-03-28, 15:57:11
Ich wiederhole mich gern: Der R600 ist keine Vektor-Architektur (eigentlich schon*). Vektor bedeutet, dass man eine Rechenoperation für mehrere Komponenten ausführt, sprich, eine Instruction für RGBA. Der R600 bzw. seine fünf "superskalaren" ALUs können fünf unabhängige Instructions für fünf Komponenten berechnen. Dass er Probleme mit abhängigen Rechenoperationen hat, ist ein Nachteil dieser Architektur, aber es bedeutet nicht, dass diese Abhängigkeit nicht umgangen werden kann.


* G80: Vec16-ALUs
R600: Vec16-ALUs

Wie umgeht man den abhängige Anweisungen? :confused:

Gaestle
2008-03-28, 16:08:01
hier mal ein theoretischer datenvergleich:

3870 : ... 12400 MTex/s,
9800GTX : ... 43200MTex/s,
RV770@900MHz+GDDR5@1,6GHz : ... 28800MTex/s,



... was RV6xx fehlt ist Texturleistung, ...

Und 32TMUs ... sollte doch locker ausreichen um die relativ schwache 9800GTX angreifen zu können, ...

Also, wenn Hanno sich nicht verrechnet hat, liegt die GTX bei der Tex-Leistung immer noch deutlich vorn. Oder liege ich falsch?

deekey777
2008-03-28, 16:09:43
Wie umgeht man den abhängige Anweisungen? :confused:
Indem man sie umstellt.

z=x+y
Doof nur, dass x=a+b und y=c+d.
Also ist z=(a+b)+(c+d).
Oder auch: http://ati.amd.com/developer/SDK/AMD_SDK_Samples_May2007/Documentations/ATI_Radeon_HD_2000_programming_guide.pdf

Write parallel code
For previous generations the recommendation was to vectorize the code. For this generation the recommendation is to write parallel code. Vectorized code is still good, because it’s also parallel; however, you may write code that’s not vectorized but still very parallel. Forcing operations into vectors may turn out counterproductive on a scalar architecture though. On the other hand, there’s no need to break code that’s naturally vectorized into scalars. In general it’s recommended that you keep operations in their natural domain.
It’s important to not assume that because there are 5 independent scalar units you will always be able to crunch through the math at 5 scalar operations at a time. Depending on what the shader does you may at worst not be able to execute more than one scalar in parallel. Consider this simple code:
float x = a + b + c;
Even though this is just two scalar operations it will still require two instruction slots because the first addition has to be completed before the second can take place. Thus the code is sequential and in practice is executed as follows:
float t = a + b;
float x = t + c
One thing to consider is that HLSL evaluates expressions left to right, just like C/C++. For some expressions this could matter. Take for example the following code:
float x = a + b + c + d;
Left to right evaluation makes this code sequential and equivalent to this:
float t = a + b;
float u = t + c;
float x = u + d;
We can introduce explicit parallelism to the code simply by using parentheses.
float x = (a + b) + (c + d);
Now the a + b and c + d additions can be performed in parallel on different scalar units, which reduces this expression from 3 slots to 2. Shader optimizers may be able to do this automatically for you in some cases, but doing this explicitly improves the shader compiler’s ability to issue parallel instructions. To see what code is actually generated for a shader you can use the AMD GPU ShaderAnalyzer tool.
When mixing scalars and vectors the order of operations can matter even more. It is recommended that you do as much of the scalar work first before expanding the math to vectors. Consider this for example:
float4 a;
float b, c;
...
float4 x = a * b * c;
This code would be equivalent to this:
float4 t = a * b;
float4 x = t * c;
This amounts to 8 scalar multiplications. This can be improved by adding parentheses:
float4 x = a * (b * c);
That is equivalent to this:
float t = b * c;
float4 x = a * t;
This amounts to only 5 scalar multiplications. Optimizations like this are not always obvious, but the performance improvement could be very substantial. On previous generation hardware you would probably not see nearly as big improvement, even though it could help there too in some cases. Always keep in mind what types your variables are and try to keep as many operations as possible as scalars before expanding to vectors. Out of old habit it is easy to think of vector operations as not being any more expensive than scalars just because they are a single instruction from the D3D runtime point of view, but that is not true. In fact, many “single instructions” in D3D10 are actually expanded to multiple hardware instructions under the hood, like for instance a vector division could add up to five instruction slots, while in other cases up to five instructions may be packed into a single instruction slot.

GeneralHanno
2008-03-28, 17:30:15
wir sollten nicht vergessen, dass ATi dank intelligenter algoritmen MASSIV textelfüllrate einsparen kann. daher wären für ati-verhältnisse 32TMU@900MHz ausreichend.
*duck&weg-vor-den-BQ-heinis*

reunion
2008-03-28, 17:42:16
wir sollten nicht vergessen, dass ATi dank intelligenter algoritmen MASSIV textelfüllrate einsparen kann. daher wären für ati-verhältnisse 32TMU@900MHz ausreichend.
*duck&weg-vor-den-BQ-heinis*

32TMUs mit 900Mhz sollten auch für ordentliche Filterung reichen. Immerhin steigt die ALU-Last weiterhin wesentlich stärker an. Und wir reden hier nach wie vor von einem Mainstreamchip.

sklave_gottes
2008-03-28, 19:02:11
Unsinn, was RV6xx fehlt ist Texturleistung, arithmetisch sind sie trotz Vektor-Architektur sehr gut aufgestellt, wie es manches Game zeigt.

Und 32TMUs und 480ALUs, wohl noch unterstützt durch GDDR5 sollte doch locker ausreichen um die relativ schwache 9800GTX angreifen zu können, Filtertricks wird ATi wohl auch beibehalten, sodass sie aus ihren 25GTex einiges herausholen können.

Es fehlt rv6xx auch am meisten an Texturleistung, trotzdem sind sie was arithmetische Leistung angeht nicht ganz auf 8800GTX nivau.

Wenn man schon so einen Zukunfsschritt machen wollte mit dem Alu/Texel verhältnis. Finde ich es jetzt nicht sonderlich gut wenn sie das wieder rückgängig machen. 640Sps zu 32(TMUs/TAUs) und der chip könnte bei etwas über 1milliarden Transistoren liegen. Was durchaus vernünftig ist.

mfg martin

Sorkalm
2008-03-28, 19:09:16
Es fehlt rv6xx auch am meisten an Texturleistung, trotzdem sind sie was arithmetische Leistung angeht nicht ganz auf 8800GTX nivau.

Aber G8x/G9x kann nicht in einem Rutsch pro fünftem Shadercore (genauer gesagt in dem letzten D) transzendente Funktionen ausführen. Das addiert sich zwar nicht in FLOP-Leistung, ist aber doch relevant.

LovesuckZ
2008-03-28, 19:12:24
Das war bis jetzt kein Nachteil. Eher scheint es ein Problem von AMD zu sein, da man so weniger Slots(?!) zur Verfügung hat - 4 statt 5.

Sorkalm
2008-03-28, 19:14:43
Das war bis jetzt kein Nachteil. Eher scheint es ein Problem von AMD zu sein, da man so weniger Slots(?!) zur Verfügung hat - 4 statt 5.

MADD können alle, der fünfte kann wahlweise MADD oder transzendente Funktionen ausführen, jenachdem was gebraucht wird.

Nakai
2008-03-28, 19:15:20
Es fehlt rv6xx auch am meisten an Texturleistung, trotzdem sind sie was arithmetische Leistung angeht nicht ganz auf 8800GTX nivau.

64*10*0,775 = 496 GFLOPs
128*2*1,35 = 345,6 GFLOPs

Rein von der theoretischen Rohleistung ist der RV670 schneller.
Und du meinst wirklich, dass die 8800GTX 43% mehr Performance durch bessere Auslastung der Einheiten erreichen kann?
Ich bezweifle das...


mfg Nakai

deekey777
2008-03-28, 19:21:28
Momentmal.
Die von AMD favorisierte MADD-Leistung ist 10 FLOP pro Takt pro 5 Einheiten. Mit 775 MHz sind es 496 GFLOPs. Eine 8800GTS mit einem Shadertakt von 1625 MHz bringt's auf 416 GFLOPs.
Nebenbei kann jeder SP der 8800GTS alle vier Takte an einer SF werkeln. Wenn wir so wahnsinnig sind, dann kommen noch (1625 MHz * 1 * 128)/4 zu der MAD-Leistung dazu. Auch kann jeder SP der 8800GTS pro Takt ein MUL* ausführen, was noch ein FLOP per Takt bedeutet. Rein theoretisch liegt die PR-mäßige arithmetische Leistung der 8800GTS bei 728 GFLOPs.


*Solange kein SF berechnet wird?

LovesuckZ
2008-03-28, 19:24:08
MADD können alle, der fünfte kann wahlweise MADD oder transzendente Funktionen ausführen, jenachdem was gebraucht wird.

Richtig. Man muss erstmal alle fünf Slots zur Arbeit bringen und dann die Anweisungen so hinbekommen, dass eine SF nicht die fünfte Einheit blockiert.
Bei nVidia geschieht dies nur alle vier Takte und scheint vollkommen auszureichen.

deekey777
2008-03-28, 19:25:22
Richtig. Man muss erstmal alle fünf Slots zur Arbeit bringen und dann die Anweisungen so hinbekommen, dass eine SF nicht die fünfte Einheit blockiert.
Bei nVidia geschieht dies nur alle vier Takte und scheint vollkommen auszureichen.
Sie wird nicht "blockiert"

sklave_gottes
2008-03-28, 19:30:17
64*10*0,775 = 496 GFLOPs
128*2*1,35 = 345,6 GFLOPs

Rein von der theoretischen Rohleistung ist der RV670 schneller.
Und du meinst wirklich, dass die 8800GTX 43% mehr Performance durch bessere Auslastung der Einheiten erreichen kann?
Ich bezweifle das...


mfg Nakai


Du darfs auch nicht vergessen das beim rv670 die 496GFOPs noch andere aufgaben haben, wärend beim g80 die mul den 345,6GFOPs den rücken frei hält. Ich finde man kann theoretisch eher: rv670 madd VS g80 Madd+mul vergleichen. Das kommt der Praxis viel näher.

mfg martin

LovesuckZ
2008-03-28, 19:30:41
Sie wird nicht "blockiert"

Sie kann gleichzeitig MADD und SF ausführen? :confused:

reunion
2008-03-28, 19:34:29
Bei nVidia geschieht dies nur alle vier Takte und scheint vollkommen auszureichen.

Es muss mehr als ausreichen sonst hat man einen potentiellen Flaschenhals. Der Vorteil von AMD ist das die fünfte ALU bei Bedarf auch SP ausführt, was immerhin bis zu 100 GFLOPs Rechenleistung nur für SF bedeutet (falls benötigt), sonst kann man damit auch normale Funktionen ausführen. Bei Nv liegen die SFUs brach wenn sie nicht benötigt werden.

LovesuckZ
2008-03-28, 19:39:47
Bei Nv liegen die SFUs brach wenn sie nicht benötigt werden.

Die SFU Beeinträchtigen nicht die MADD Leistung wie bei AMD. Dadurch ergibt es hier keinen Nachteil.

GeneralHanno
2008-03-28, 19:54:07
also ich mach es immer so:
berechnet einfach die "reine MADD-leistung", bei AMD 8 FLOPs je Shader und bei Nvidia 2 FLOPs je Shader.

deekey777
2008-03-28, 19:57:16
Sie kann gleichzeitig MADD und SF ausführen? :confused:
Nein. Entweder MADD oder SF. Blockiert wird sie dabei nicht, denn sie rechnet.
Reine MADD-Leistung:
RV670 mit 775 MHz: 496 GLOPS
Die 8800GTS: 416 GFLOPs

MADD+SF:
RV670: 396,8 + 49,6 = 446,4
8800GTS: 416 + 52 = 468

LovesuckZ
2008-03-28, 20:01:09
Nein. Entweder MADD oder SF. Blockiert wird sie dabei nicht, denn sie rechnet.


Das "blockiert" bezug sich auf die MADD-Leistung.

Nakai
2008-03-28, 20:30:32
Du darfs auch nicht vergessen das beim rv670 die 496GFOPs noch andere aufgaben haben, wärend beim g80 die mul den 345,6GFOPs den rücken frei hält. Ich finde man kann theoretisch eher: rv670 madd VS g80 Madd+mul vergleichen. Das kommt der Praxis viel näher.

mfg martin

Die MUL wird für viel anderes gebraucht. Es wird nur MADD-Leistung gezählt.


mfg Nakai

sklave_gottes
2008-03-28, 23:20:57
Die MUL wird für viel anderes gebraucht. Es wird nur MADD-Leistung gezählt.


mfg Nakai

Und die arbeit die die MUL beim g80 macht, wer macht die beim rv670 ?

Man kann nicht einfach die MUL beim g80 weglassen.

GeneralHanno
2008-03-28, 23:34:16
das macht bei AMD der "5. shader" ;)
wie ich schon sagte, am besten rechnet man bei nvidia je shader 2 FLOP und bei AMD je Vec4+1 shader eben 8 FLOP ...
dann hat man eine möglichste faire vergleichbarkeit ...

deekey777
2008-03-28, 23:46:34
das macht bei AMD der "5. shader" ;)
wie ich schon sagte, am besten rechnet man bei nvidia je shader 2 FLOP und bei AMD je Vec4+1 shader eben 8 FLOP ...
dann hat man eine möglichste faire vergleichbarkeit ...
Nochmal: Es ist kein "Vec4+1"-Shader.
Nenn's XYZWT-Shader. :biggrin:
Das "blockiert" bezug sich auf die MADD-Leistung.
Sie berechnet aber SIN, COS, etc. Die MADD-Leistung sinkt dabei auf 4/5.
Keine Ahnunng, ob das zu blauäugig ist.
Es gibt viermal MADD und einmal SF zu berechnen und zwar für 64 RGBA-Pixel.
Der G80 teilt das ganze auf zwei Threads mit je 32 Pixeln, die beiden Threads werden von je einer Vec16-ALU ausgeführt. Jeder Thread braucht 2 "RGBA"-Durchgänge mit je 16 Pixeln, also insgesamt 8 Takte (zweimal für Rot, zweimal für Grün etc), alle vier Takte spuckt jede Vec16-ALU die entsprechende SF.
Der R600 bringt diese 64 Pixel zu einem Thread. Pro Takt werden für 16 alle fünf Komponenten berechnet, insgesamt werden vier Takte gebraucht. Da aber die Vec16-ALUs des G80 doppelt so hoch getaktet sind, ist das Ergebnis 1:1.
Und jetzt nehmen wir an, es sind weiterhin 64 Pixel, aber diesmal müssen nur drei MADDs und eine SF berechnet werden, da mann den Alpha-Kanal nicht braucht.
Der R600 braucht weiterhin seine vier Takte, dabei wird eine der XYZW-ALUs frei, die eine zusätzliche unabhängige Instruction ausführen kann. Beim G80 muss aber einen Takt gewartet werden, da für die SF vier Takte gebraucht werden, hier wird was blockiert.


Was aber keineswegs nicht unerwähnt werden darf: Der G86 kann eine SF pro Takt ausführen. Vielleicht gilt das auch für den Nachfolger des G92.

Nakai
2008-03-29, 11:51:18
Und die arbeit die die MUL beim g80 macht, wer macht die beim rv670 ?

Man kann nicht einfach die MUL beim g80 weglassen.

Und was ist, wenn es zu vielen ADDs kommt?

Dann kannst du die MUL wegschmeißen. Sich auf spezifische Operationen zu verlassen, ist dumm.
Bei IHVs haben frühers mit Simulationen begründet, dass ADD oder MULs wichtiger sind. NV war MUL-lastig und ATI eher ADD-lastig.

Die MUL beim G80 ist eh für Shaderberechnungen kaum zuständig. Die muss Perspektivenkorrekturen vornehmen. Wenn sie mal frei ist, kann sie nur was rechnen, wenn es zu MULs kommt.
Würde man nur die MADDs zählen würde man viel eher an die maximale theoretische Rechenleistung kommen.

Aber mir ist es egal...wie wir es sehen. Ich bin nur für die MADD-Leistung.

Und die arbeit die die MUL beim g80 macht, wer macht die beim rv670 ?

Gute Frage...




mfg Nakai

Ailuros
2008-03-29, 15:46:37
Obwohl ich selber darauf reagiert habe:

I think all the marketing Nvidia needed was 20+% more performance with 80% of the resources. In most cases, esp shader bound cases G92 is roughly 50% more efficient than RV670.

Which basically points out that AMD really really needs to rethink the way they schedule/organize the SIMD ALUs. They are wasting a lot of resources doing nothing currently.

The big insight in the G80/G92 design is that by serializing the execution on a per component basis the scheduling problem becomes much simpler and utilization becomes much higher. Basically each fragment ends up running 4x as long which both hides latency and reduces the scheduling required by 3/4s. Also it likely reduces register pressure as well.

Without an architectural change and assuming Nvidia does a roughly 2x design for their next high end chip, ATI is going to need roughly a 750-850 ALU design to break even.

Aaron Spink
speaking for myself inc.

http://forum.beyond3d.com/showpost.php?p=1140035&postcount=874

And he was specifically talking about shader bound cases, not average cases.

http://forum.beyond3d.com/showpost.php?p=1140125&postcount=880

Jemand wie Wavey wuerde anders reagieren wenn aaron nicht irgendwo Recht haben wuerde. Diese endlosen Debatten wo es bei den R6x0/RV6x0 Designs hapert koennte so langsam ein Ende nehmen. Man kann es drehen oder wenden wie man will die Dinger sind insgesamt nicht effizienter als G8x/9x fuer die heutigen Spiele. Deshalb sind sie auch stets um einen Tick billiger was ihnen dann ein ausgezeichnetes Preis-/Leistungsverhaeltnis gibt und ueberhaupt einen groesseren Vorteil insgesamt gibt fuer das 3870X2 Dingsbums. Bei dessen Preis braucht sich AMD hier keine besondere Sorgen um die 9800GX2 machen.

Den ganzen Bloedsinn zur Seite: was beide IHVs fuer den naechsten Schub angestellt haben ist wichtiger. Wenn beide nur die existierenden Architekturen fuer mehr Leistung erweitert haben auf Kosten der Effizienz, sind die obrigen Debatten noch sinnloser.

Sorkalm
2008-03-29, 16:39:35
Laut dieser Quelle (http://www.ati-forum.de/allgemein/news/p1589-rv770-geht-in-massenproduktion-rv770-goes-in-mass-production/#post1589) ist der RV770 seit wenigen Tagen in die Massenproduktion gegangen.

GeneralHanno
2008-03-29, 16:48:12
ka obs stimmt, aber mein gefühl sagt mir, dass es nicht mehr ewig dauern wird ...

was mich etwas stört ist, dass es noch kein ES o.ä. zu sehen gab ...

Sorkalm
2008-03-29, 16:49:56
was mich etwas stört ist, dass es noch kein ES o.ä. zu sehen gab ...

Anscheinend hat AMD die Schotten schon etwas mehr verschließen können. ;)

Wenn jetzt aber die Massenproduktion startet dürften wieder mehr Leute Kenntnis von den Modellen erhalten, so dass es neue Infos geben dürfte.

Hvoralek
2008-03-29, 16:50:28
Zwischen Massenproduktion und Marktstart dürften etwa zwei Monate liegen, oder? Wenn die Meldung stimmt, wäre das dann doch früher als zuletzt erwartet. Kennt jemand die Quelle?

Sorkalm
2008-03-29, 16:54:36
Kennt jemand die Quelle?

Auf der Seite steht "Subsite of Chiphell in Europe"...

w0mbat
2008-03-29, 17:10:25
Und deshalb will AMD die aktuellen RV670er noch schnell raushauen (HD3850 X2). Wobei ich denke das der RV670 Rev.12 noch eine Weile mit dem RV770 co-existieren wird (bis der RV740 kommt).

Ich hoffe die Meldung stimmt :)

Captain Future
2008-03-29, 17:22:14
Der R600 bringt diese 64 Pixel zu einem Thread.
Ein Thread bleibt immer in einem SIMD.

Sorkalm
2008-03-29, 18:46:20
Bei XtremeSystems bestätigt NH|Delph1 ("Andreas") (kennt den jemand?):
http://www.xtremesystems.org/forums/showpost.php?p=2878038&postcount=72

w0mbat
2008-03-29, 18:49:54
Der ist von Nordich Hardware.
Könnte es aber nicht sein das da manche RV670 Rev12 & RV770 verwechseln?

deekey777
2008-03-29, 19:02:47
Ein Thread bleibt immer in einem SIMD.
Darum steht ja, dass der R600 seine vier Takte braucht. Ist undeutlich geschrieben. :)
Obwohl ich selber darauf reagiert habe:


...

Jemand wie Wavey wuerde anders reagieren wenn aaron nicht irgendwo Recht haben wuerde. Diese endlosen Debatten wo es bei den R6x0/RV6x0 Designs hapert koennte so langsam ein Ende nehmen. Man kann es drehen oder wenden wie man will die Dinger sind insgesamt nicht effizienter als G8x/9x fuer die heutigen Spiele. Deshalb sind sie auch stets um einen Tick billiger was ihnen dann ein ausgezeichnetes Preis-/Leistungsverhaeltnis gibt und ueberhaupt einen groesseren Vorteil insgesamt gibt fuer das 3870X2 Dingsbums. Bei dessen Preis braucht sich AMD hier keine besondere Sorgen um die 9800GX2 machen.

Den ganzen Bloedsinn zur Seite: was beide IHVs fuer den naechsten Schub angestellt haben ist wichtiger. Wenn beide nur die existierenden Architekturen fuer mehr Leistung erweitert haben auf Kosten der Effizienz, sind die obrigen Debatten noch sinnloser.

Die Theorie und Praxis sind zwei verschiedene paar Schuhe. Ich bin mir nichteinmal sicher, ob mein Zeug die Theorie überhaupt berührt. Aber die Idee mit 3 MADDs+SF ist nicht schlecht? :biggrin:

Auf der anderen Seite ist zu lesen, dass auch die Recheneinheiten des G80 nicht vollständig ausgelastet werden.

Sorkalm
2008-03-29, 19:07:08
Könnte es aber nicht sein das da manche RV670 Rev12 & RV770 verwechseln?

RV670 Rev12 - gibts die überhaupt? Ich meinte mal Dementi gelesen zu haben, was aber scheinbar niemanden interessiert hat. Könnte sein, dass das wieder mal eine von AMDs Enten ist...

Captain Future
2008-03-29, 19:08:50
Darum steht ja, dass der R600 seine vier Takte braucht. Ist undeutlich geschrieben. :)
Wenn es in einem Thread ist, läuft es in einem SIMD und braucht entsprechend länger, weil drei SIMDs nichts mchen


Es gibt viermal MADD und einmal SF zu berechnen und zwar für 64 RGBA-Pixel.
Also 64 Pixel mal vier Kanäle mit je 4 MAD und einer SF (was für eine SF? Atomisch oder Makro - und was bei welchem Chip?). Insgesamt 1.024 skalare MADs und 256 SFUs. Sind die Anweisungen für ein Pixel voneinander abhängig oder parallelisierbar?

Der G80 teilt das ganze auf zwei Threads mit je 32 Pixeln, die beiden Threads werden von je einer Vec16-ALU ausgeführt.
Warum nutzt er nur zwei von acht SIMDs?
Vorher verstehe ich den Rest deines Postings nicht.

Sorkalm
2008-03-29, 21:44:38
http://www.vr-zone.com/articles/AMD_%26_Nvidia_New_Graphics_Cards_Line-Up_For_Q2/5679.html

Sammlung über Grafiklineups in Q2. RV770 steht zumindest als Codename drinne (der Rest sind direkte Grafikkartennamen)

We have not include the RV770 series yet as we are in the midst of collecting more information on this new architecture but they are on target to appear in late May.

Captain Future
2008-03-30, 10:29:20
z=a+b+c+d
Write parallel code
z = (a + b) + (c + d);
Für dieses Beispiel würde G80 8 RGBA-Pixel/clk schaffen (vier Skalare mit vier ADD pro Pixel, 16 serielle Skalare, 128 SPs/16=8), und früher damit beginnen können, da der Treibercompiler die Anweisungen nicht erst umstellen muss, aber das aussen vor.
Pro Sekunde (was eben zählt), wären das für eine Ultra ~12,1 GPix.

Mit dem parallelisierten Code wären es nur noch 12 Skalar-Ops (10,6 Pixel/Takt), da eine Addition wegfällt, also 16,1 GPix/sek.
--
RV670XT würde rechnerisch einen Takt für die erste Addition (a+b) brauchen, dabei 80 Pixel schaffen (320 skalar/4= 80 RGBA-Pixel). Ein zweiter Takt fällt für die zweite Addition an (c+d) und ein dritter für die Addition der beiden Temps. Das sind (wiederum rechnerisch) drei Takte für 80 Pixel, also ~26,7 Pixel pro Takt.
Pro Sekunde wären das dann 20,7 GPix.
--
In einer heilen Welt!

Der G80 erreicht diese Rate auch (Temp-Register usw. mal aussen vor, es sei denn, jemand kennt da verläßliche Zahlen für beide Architekturen), da er sowohl RGBA-Kanäle als auch ADD serialisiert und eben nach zwölf Takten (4 pro Pixel, je drei pro ADD, 3x4=12) fertig ist.

Der RV670 muss erstmal über vier SIMDs parallelisieren, Pixel bleiben dabei AFAIK 'ganz' innerhalb eine SIMDs. Es sind also in der ersten Addition nur 64 statt 80 Pixel (4x16). Ebenso in der zweiten und dritten. Das sind dann 'nur' noch 21,3 Pixel pro Takt, die hintenrauskommen. Oder eben 16,5 GPix/s.

Und das bei einem sehr gut parallelisierbaren Problem - dem Nahe-Idealfall.


Oder wo täusche ich mich in meinem Laienwissen?

Ailuros
2008-03-30, 11:21:56
Die Theorie und Praxis sind zwei verschiedene paar Schuhe. Ich bin mir nichteinmal sicher, ob mein Zeug die Theorie überhaupt berührt. Aber die Idee mit 3 MADDs+SF ist nicht schlecht? :biggrin:

Auf der anderen Seite ist zu lesen, dass auch die Recheneinheiten des G80 nicht vollständig ausgelastet werden.

Deshalb sage ich ja auch dass es mir momentan wichtiger ist herauszufinden was beide fuer den naechsten Schub angestellt haben. Beide haben anscheinend die Anzahl der Prozessoren erhoeht fuer RV770/GT200; jetzt bleibt die wichtige Frage ob zur gleichen Zeit auch zusaetzliche Logik dazukam dass auch die Effizienz analog erhoeht wurde.

Weder R6x0/RV6x0 noch G8x/9x haben im strengen (CPU) Sinn echte skalare Einheiten; echte skalare bzw. MIMD Einheiten hat SGX z.B., obwohl das Zeug kein Anwendungsgebiet ausserhalb dem Kleinkram Markt hat.

Ich hab zwar keine Ahnung was NV beim GT200 genau angestellt hat, aber fuer die D3D11 Generation bin ich mir fast sicher dass sie in eine aehnliche Richtung wie oben ruecken werden und etwas anderes erwarte ich von AMD auch nicht. Auch hier werden dann die Einheiten nicht stets vollstaendig ausgelastet, aber um einiges mehr als heutzutage.

w0mbat
2008-03-30, 17:04:43
Ich würde mir ATI´s kommende Produktreihe (inkl. RV670 Rev12) so vorstellen:

Q2 2008:
enthusiast: RV770 (XT & Pro)
performance: RV670 Rev12
mainstream: RV635
value: RV620

Q4 2008:
enthusiast: RV770x2
performance: RV770 (XT & Pro)
mainstream: RV740
mainstream: RV730 (?)
value: RV710

Gast
2008-03-30, 18:48:15
Ich würde mir ATI´s kommende Produktreihe (inkl. RV670 Rev12) so vorstellen:

Q2 2008:
enthusiast: RV770 (XT & Pro)
performance: RV670 Rev12
mainstream: RV635
value: RV620

Q4 2008:
enthusiast: RV770x2
performance: RV770 (XT & Pro)
mainstream: RV740
mainstream: RV730 (?)
value: RV710


4870/50 wird von Anfang an Performance sein, die 9800GTX ist ja auch in diesem Berreich und da muss man erstmal hin kommen. Gegen eine 9800GX hätte man nix und das ist Werbetechnisch sehr schlecht. Eine 3870 ist im übrigen heute schon Mainstream.

ATI passt seine Produkte bzw. Preise an die von Nvidia an( fps pro€ ist1:1) und umgekehrt.

w0mbat
2008-03-30, 18:49:11
Meine Tabelle ist aber nicht an nV angepasst, sonder ATI intern gesehen.

Gast
2008-03-30, 18:51:17
wenn das stimmt
Q4 2008:
enthusiast: RV770x2
performance: RV770 (XT & Pro)
mainstream: RV740
mainstream: RV730 (?)
value: RV710
gibt es wieder keinen G200

Sorkalm
2008-03-30, 19:34:55
Meine Tabelle ist aber nicht an nV angepasst, sonder ATI intern gesehen.

Sofern das stimmt, dann liegt das einfach daran, dass AMD den Begriff Performance anders versteht als wir. ;)

Juerg
2008-03-30, 20:03:02
gibt es wieder keinen G200aaargllhh.. nicht schon wieder. Es gab einen G200 (den hatte ich auch mal, vertraute, dass Matrox schon einen OGL Treiber raushaut :mad:). Dieser hier HEISST GT200 :|

deekey777
2008-03-30, 20:31:45
Die Bezeichnung GT200 hat sich ein berühmtberüchtigter Redakteur ausgedacht, vor ihm nannte die ganze Welt den Chip G200 (wenn überhaupt).

Psychopat
2008-03-30, 22:59:09
Auf Hartware steht, der RV770 soll im Juni kommen klick (http://www.hartware.de/news_44454.html).
Kommt ja hin, wenn jetzt die Massenproduktion anläuft.

GeneralHanno
2008-03-30, 23:05:12
letzlich berufen sie sich alle auf eine einzige quelle (zum RV770 in 2 monaten) ...

da würde ich lieber noch 1-2 voneinander unabhängige bestätigungen abwarten :)

Gast
2008-03-30, 23:18:00
HD 4870 480 1024MB GDDR5 256bit 1050/2200 150W
darauf bin ich gespannt.

GeneralHanno
2008-03-31, 10:28:52
die taktraten sollte man nicht für voll nehmen ! die werden etwa 10-15% niedriger ausfallen.

w0mbat
2008-03-31, 15:39:06
@GeneralHanno: AMD hat beim RV670 (damals noch HD2950) auch 825MHz angegeben, welche beim RV670x2 (R680) auch erreicht wurden. Ich denke das wenn die Angaben stimmen man auch diese Taktraten sehen wird.

Sorkalm
2008-03-31, 16:06:41
Die Daten kamen damals aber von Chiphell. Die geben diemal nun 800-900 MHz an.

Und denen traue ich mehr als der alten News von Hartware.

aylano
2008-03-31, 16:15:07
@w0nbat
Wie soll ATI die 825-->1050 Mhz Steigerung schaffen???
(Fast 30%-Taktsteigerung könnten normalerweise ca. 50% Mehr an Stromverbauch bedeuten a la Volterhöhung wird wahrscheinlich nötig sein.)

Beim R600 --> RV670 war die Steigerung nur ca. 11 % und das mit einer Struktur-Verkleinerung a l 80 --> 55nm

Beim RV670 --> RV770 gibts nicht einmal eine Strukturverkleinerung.

LovesuckZ
2008-03-31, 16:18:36
Nicht zu vergessen, dass man eine Verbreitung der Architektur angeblich vorgenommen hätte.
Man hätte also breiter und höher. Und das schläge sich doch mehr als deutlich in der Stromaufnahme wieder.

[fu]121Ah
2008-03-31, 16:27:01
jop, mit 150w expected würde ich auf max. 900MHz bei den besten, sprich prestigeträchtigsten karten tippen. evnt. 950 wenn der prozess sich eingelaufen hat und leckströme nicht mehr das problem sind.

aylano
2008-03-31, 16:35:14
Nicht zu vergessen, dass man eine Verbreitung der Architektur angeblich vorgenommen hätte.

Natürlich, die angeblilchen 50%-Erweiterung (320-480) habe ich vergessen zu erwähnen.
Und dann noch die Textur-Filtererhöhung (Relative Steigerung um 33 oder 50% oder so), was ja auch noch paar Transistor braucht.

Die zweite Welle an RV670 (in HD 3870 X2 im Jänner) brauchten paar Watt weniger Strom und das bei ca. 6,5% mehr Mhz, als die erste Welle an RV670 im November.
Also, eine Watt-Bereinigt um ca. 10-15% schneller.

So ähnlich könnte ich mir das auch beim RV770 Vorstellen.
Wenn er tatsächlich 480 SP hat, dann wären ca. 5-10% für Taktsteigerungen (=bis 900Mhz) möglich, da die Arichitektur-Verbesserungen a la Textur-Power ja auch noch erhöht wird.

In den letzten Jahren war es eh oft so, dass vor der Präsentation mit viel zu hohen Takten spekuliert wurde und dann kam sehr oft die Ernüchterung.

GeneralHanno
2008-03-31, 16:43:49
zudem muss man die taktrate ja so wählen, dass die ausbeute wirtschaftlich ist ...
eine selektierte-wakü version, mag 1GHz toppen, aber das massenprodukt mit lukü ...

LovesuckZ
2008-03-31, 17:02:13
Grundsätzlich scheinen weder 65nm noch 55nm für mehr als 850MHz als massentaugliche Taktraten ausgelegt zu sein. AMD benötigt für 825MHz schon fast 1,3V und nVidia dümpelt bei 675Mhz herum - egal ob mit 1,1 oder 1,20V.

AnarchX
2008-03-31, 17:03:02
Die zweite Welle an RV670 (in HD 3870 X2 im Jänner) brauchten paar Watt weniger Strom und das bei ca. 6,5% mehr Mhz, als die erste Welle an RV670 im November.
Also, eine Watt-Bereinigt um ca. 10-15% schneller.

Quelle?
Wenn man sich die Reviews zur X2 anschaut, dann verbraucht diese entsprechend zu ihrem Takt gegenüber den alten RV670-Karten.

Ailuros
2008-03-31, 17:09:20
@GeneralHanno: AMD hat beim RV670 (damals noch HD2950) auch 825MHz angegeben, welche beim RV670x2 (R680) auch erreicht wurden. Ich denke das wenn die Angaben stimmen man auch diese Taktraten sehen wird.

Diese Tabelle entstand zu einem Zeitpunkt wo man zu weit entfernt war um eine klare Vorstellung von der echten finalen Frequenz eines chips haben kann. Analog wurde in der Vergangenheit mit aehnlicher Zeitspanne vor dem Launch dem RV670 um einiges mehr als "nur" 825MHz zugesprochen. Es geht hier offensichtlich um die Frequenz eines chips bei seiner Vorstellung und nicht zich Revisionen spaeter und in diesem Fall sind es nie und nimmer >1GHz. Sie koennen froh sein wenn sie mit allen Sicherheitsmassnahmen selbst 900MHz erreichen.

Ailuros
2008-03-31, 17:10:44
Grundsätzlich scheinen weder 65nm noch 55nm für mehr als 850MHz als massentaugliche Taktraten ausgelegt zu sein. AMD benötigt für 825MHz schon fast 1,3V und nVidia dümpelt bei 675Mhz herum - egal ob mit 1,1 oder 1,20V.

Nein zu der Generalisierung; welchen 65nm bzw. 55nm Herstellungsprozess haben denn beide IHVs genau benutzt?

Nakai
2008-03-31, 17:17:46
Die Tabelle sind nur Ziele, die man angepeilt hat. Der tatsächliche Takt liegt natürlich weit drunter, so ist es nämlich üblich.

Wenn der RV770 wirklich 32 TMUs und 480 SPUs hat, (ich geh mal von 850Mhz aus) dann folgt:

RV670: 12400 MTex/s, 496 GFLOPs

RV770: 27200 MTex/s(+119%), 816 GFLOPs (+65%)

Wenn man dann noch die TMUs und die ROPs etwas verbessert, dann sollte man meistens wirklich über 8800Ultra-Niveau liegen.

Aber ich glaub den Specs nicht wirklich, das wär mir zuviel zusätzliche Performance.


mfg Nakai

Gast
2008-03-31, 17:20:44
Natürlich, die angeblilchen 50%-Erweiterung (320-480) habe ich vergessen zu erwähnen.
Und dann noch die Textur-Filtererhöhung (Relative Steigerung um 33 oder 50% oder so), was ja auch noch paar Transistor braucht.

Die zweite Welle an RV670 (in HD 3870 X2 im Jänner) brauchten paar Watt weniger Strom und das bei ca. 6,5% mehr Mhz, als die erste Welle an RV670 im November.
Also, eine Watt-Bereinigt um ca. 10-15% schneller.

So ähnlich könnte ich mir das auch beim RV770 Vorstellen.
Wenn er tatsächlich 480 SP hat, dann wären ca. 5-10% für Taktsteigerungen (=bis 900Mhz) möglich, da die Arichitektur-Verbesserungen a la Textur-Power ja auch noch erhöht wird.

In den letzten Jahren war es eh oft so, dass vor der Präsentation mit viel zu hohen Takten spekuliert wurde und dann kam sehr oft die Ernüchterung.



Mit dem R600 hat man viel Negative Punkte hinnehmen müssen, mit dem RV670 hat man das etwas ausgebügelt und der verkauft sich doch derzeit recht gut im gegensatz zu R600.

Wenn man natürlich die möglichkeit hat wieder die Leistungskrone zu erringen dann wird man sicher wieder über 150Watt verbrauch gehen. ATI hat eine Prestige Karte extrem nötig. Ein RV670 mit 50% mehr Leistung Pro Takt und 800mHz währe sicher ein großer Pluspunkt.

Ailuros
2008-03-31, 17:22:44
Aber ich glaub den Specs nicht wirklich, das wär mir zuviel zusätzliche Performance.

Tja so und so viel mehr Einheiten bzw. tolle Nummern auf Papier kommen leider nicht immer Hand in Hand mit einer analogen Leistungsteigerung wenn man an den Fundamenten der Architektur nichts geaendert hat.

Nakai
2008-03-31, 17:49:34
Tja so und so viel mehr Einheiten bzw. tolle Nummern auf Papier kommen leider nicht immer Hand in Hand mit einer analogen Leistungsteigerung wenn man an den Fundamenten der Architektur nichts geaendert hat.

Ich glaub er an 24 TMUs und 480 Shader.


mfg Nakai

HOT
2008-03-31, 18:04:48
Wenn ich das so recht überlege - du liegst da falsch. Mehr Zahlen bringen immer mehr Leistung. Natürlich ändert sich nix am Featureset, ein RV770 hat immernoch schlechteres AF und ein Gefroce9900 hat immernoch nur SM4.0 (es zeichnet sich ja ab, dass das was da im Sommer kommt wieder ein neuer G80 wird, diesmal in 55nm), aber mehr Parallelität bringt natürlich auch mehr Leistung. Einem R600 Derivat mit 33% mehr Shaderleistung und vor allem 50% mehr Texturleistung wird schon ordentlich reinhauen.
Ich bin auch der Überzeugung, dass ATI verhältnismässig mehr TMUs verbauen wird. Das merzt sicherlich eine ordentliche Schwachstelle aus.

aylano
2008-03-31, 19:07:29
Quelle?
Wenn man sich die Reviews zur X2 anschaut, dann verbraucht diese entsprechend zu ihrem Takt gegenüber den alten RV670-Karten.
Ich habs bisher anderst mitbekommen.

So wie ich es mitbekommen habe, soll die HD 3870 ca. 105 Watt und die HD 3870 X2 ca. 190 Watt verbrauchen.

So wie hier z.b. angeschrieben
http://www.hardwareschotte.de/hardware/preise/proid_9142430/preis_ATI+Radeon+HD3870
http://www.hardwareschotte.de/hardware/preise/proid_9213984/preis_ATI+Radeon+HD3870+X2

http://www.computerbase.de/artikel/hardware/grafikkarten/2008/test_ati_radeon_hd_3870_x2/28/#abschnitt_leistungsaufnahme
Und z.B. auf Computerbase wiederspiegel sich doch diese Watt-Zahlen (inkl. Netzteil-Wirkungsgrand von ??%) ziehmlich gut.

Nicht vergessen darf man, dass die HD 3870 X2 zusätzlich noch den PCIe-Bridge (oder sowas ähnliches) hat, sowie den DDR3-Speicher, der AFAIK mehr Strom verbraucht als GDDR4 vom HD 3870.

Captain Future
2008-03-31, 19:17:13
Ich glaub er an 24 TMUs und 480 Shader.
mfg Nakai
Ich glaub an 500 ALU, 20 TMU und 20 ROPs.


Nicht vergessen darf man, dass die HD 3870 X2 zusätzlich noch den PCIe-Bridge (oder sowas ähnliches) hat, sowie den DDR3-Speicher, der AFAIK mehr Strom verbraucht als GDDR4 vom HD 3870.
GDDR4 verbraucht nur (unwesentlich) weniger als GDDR3 bei gleichem Takt.

Gast
2008-03-31, 19:25:32
Ich glaub an 500 ALU, 20 TMU und 20 ROPs.


GDDR4 verbraucht nur (unwesentlich) weniger als GDDR3 bei gleichem Takt.
meinst du nicht 400?

Captain Future
2008-03-31, 19:47:59
meinst du nicht 400?
Nein :)

Nakai
2008-03-31, 19:55:44
Nö, man kann das Design sehr gut skalieren.

Die Anzahl der TUs entscheidet über die Anzahl der SPs in einer SIMD.
(5 SPs pro ALU pro TU pro SIMD)

Der RV610 hat eine TU mit 4 TMUs und 2 SIMDs.

--> Pro SIMD können nun 20 SPs reingehauen werden.

Der RV630 hat 2 TUs mit je 4 TMUs und 3 SIMDs.

--> Pro SIMD sind es nun 40 SPs, was bei 3 SIMDs 120 SPs ergibt

Der RV670 hat 4 TUs mit 4 TMUs und 4 SIMDs.

--> Pro SIMD sind es nun 80SPs, was bei 4 SIMDs 320 SPs ergibt.

Captain Future:
RV770 hat 5 TUs mit je 4 TMUs und 5 SIMDs.

--> Pro SIMD sind es nun 100 SPs, was bei 5 SIMDs 500 SPs ergibt


Beim RV770 was derzeit rumschwirrt:

RV770 hat 8 TUs mit je 4 TMUs und 3 SIMDs.

--> Pro SIMD sind es nun 160 SPs, was bei 3 SIMDs 480 ergibt.

Oder:

RV770 hat 4 TUs mit je 8 TMUs und 6 SIMDs.

--> Pro SIMD sind es nur 80 SPs, bei 6 SIMDs sind das 480 SPs.


Wurde aber alles schonmal gesagt.



mfg Nakai

Der_Korken
2008-03-31, 20:18:59
500 SPs und 20 TMUs sind aber eine schlecht ausbalancierte Mischung. Man darf bei der Rechenleistung natürlich nicht stehen bleiben, aber mehr TMUs wären deutlich angebrachter. 480SPs + 32 TMUs hört sich wesentlich besser an imho.

Captain Future
2008-03-31, 20:40:36
Captain Future:
RV770 hat 5 TUs mit je 4 TMUs und 5 SIMDs.

--> Pro SIMD sind es nun 100 SPs, was bei 5 SIMDs 500 SPs ergibt
Ja, statt 4*4 nun 5*5.

500 SPs und 20 TMUs sind aber eine schlecht ausbalancierte Mischung. Man darf bei der Rechenleistung natürlich nicht stehen bleiben, aber mehr TMUs wären deutlich angebrachter. 480SPs + 32 TMUs hört sich wesentlich besser an imho.
There's no free Lunch. Es wird nicht bei jeder Generation eine Leistungsverdopplung geben - nichtmal beim R600 war das der Fall und der war als Enthusiast-GPU ausgelegt, nicht als "halbe Enthusiast-GPU" wie RV770 (RV770x2 = Enthusiast).

Allerdings müssen die Einheiten ja nicht bei den Fähigkeiten stehen bleiben, die sie jetzt haben.

aylano
2008-03-31, 21:38:08
GDDR4 verbraucht nur (unwesentlich) weniger als GDDR3 bei gleichem Takt.
Blöde Frage, aber meinst du den Speicher-Takt?
Der ist beim GDDR3 aber mit 900Mhz höher als beim GDDR4 mit 563Mhz.
Na ja, falls ich das richtig verstanden habe.

BvB123
2008-03-31, 21:59:07
Er geht von den effektiven werten aus.

Gruß

Captain Future
2008-03-31, 22:14:01
Ich meine den Takt der IO-Buffer, nicht der Speicherzellen. Also das, was man gemeinhin unter Speichertakt versteht (nein, nicht die Deppenverdoppelung).

BvB123
2008-03-31, 23:17:34
läuft aufs selbe hinaus ;)

Ailuros
2008-04-01, 05:54:37
Wenn ich das so recht überlege - du liegst da falsch. Mehr Zahlen bringen immer mehr Leistung.

Kein Zweifel fuer's obrige, nur hast Du mir nicht erzaehlt wieviel mehr Leistung. Obwohl es mit diesem Fall nicht genau vergleichbar ist auch G7x ging im Vergleich zu NV4x von MADD+MUL auf MADD+MADD, aber der eigentliche Leistungsanstieg kam von der Tatsache dass es 6 gegen 4 quads waren. Es ging wirklich gigantisch bergauf als man unter anderem zu skalaren Einheiten griff und ALU von TEX ops entkoppelte ab G8x. Wenn Du in sterilen FLOP Zahlen zaehlen wuerdest dann hat die 8800GTX eigentlich nur 38% mehr MADD FLOPs als die 7900GTX.

Natürlich ändert sich nix am Featureset, ein RV770 hat immernoch schlechteres AF und ein Gefroce9900 hat immernoch nur SM4.0 (es zeichnet sich ja ab, dass das was da im Sommer kommt wieder ein neuer G80 wird, diesmal in 55nm), aber mehr Parallelität bringt natürlich auch mehr Leistung.

Ja aber nochmal wieviel Leistung?

Einem R600 Derivat mit 33% mehr Shaderleistung und vor allem 50% mehr Texturleistung wird schon ordentlich reinhauen.

Die Unterschiede sind hoeher.

Ich bin auch der Überzeugung, dass ATI verhältnismässig mehr TMUs verbauen wird. Das merzt sicherlich eine ordentliche Schwachstelle aus.

"Eine" schon wie Du sagst.

-------------------------------------------------------------

Allerdings müssen die Einheiten ja nicht bei den Fähigkeiten stehen bleiben, die sie jetzt haben.

Ausser der Moeglichkeit von mehr Z/clock fuer die ROPs ist mir nichts bekannt.

Vor Monaten fragte mich jemand privat ob eine Liste von angeblichen Zahlen stimmen wuerde. Die einzige Zahl die dabei Sinn machte war 57600.

Es gibt natuerlich noch ein paar Thesen die Aenderungen in den "Dimensionen" betreffen, aber da diese eher auf Xenos deuten, hoert sich das Ganze eher nach Bloedsinn an.

So oder so IMHLO kommt RV770 mit knapp unter 1 TFLOP an.

AnarchX
2008-04-01, 09:09:21
HD 3900X4 to take on 9900GT (http://my.ocworkbench.com/bbs/showthread.php?p=429146#post429146)
:D

Gast
2008-04-01, 09:40:42
HD 3900X4 to take on 9900GT (http://my.ocworkbench.com/bbs/showthread.php?p=429146#post429146)
:D

April, April!

Gast
2008-04-01, 12:04:25
Find ich überhaupt nicht witzig, vor allem wenn mans so offensichtlich macht..

w0mbat
2008-04-01, 16:30:37
http://www.rage3d.com/board/showpost.php?p=1335408172&postcount=92

ganz interessant...

Ailuros
2008-04-01, 17:05:14
http://www.rage3d.com/board/showpost.php?p=1335408172&postcount=92

ganz interessant...

Kombi weiss schon warum er den Kopf schuettelt ;)

GeneralHanno
2008-04-01, 17:05:16
das ist in der tat ein interessanter artikel.

was deutet ihr daraus, wie der RV770 ganz konkret aufbaut sein soll?

€dit: nur weil sie die rop anzahl nicht erhöhen, heißt es ja nicht, dass sie die rops nicht intern überarbeitet haben ;)

Gast
2008-04-01, 17:10:25
könnte man die shader überarbeiten damit diese einen teil der AA last übernehmen? oder scheitert das simpel an der bandbreite?

w0mbat
2008-04-01, 17:10:26
Jetzt müssen wir nur noch klären ob das eine verneinendes oder einen trauriges Kopfschüttel ist :D

AnarchX
2008-04-01, 17:47:06
Da man bei RV770 wohl 4 Z-Tests pro Takt erwarten kann, wie kürzlich wieder angedeutet, und wohl möglich wieder HW-Resolve an Board ist, dürfte die AA-Leistung, erst recht wenn GDDR5 zum Einsatz kommt doch um einiges gegenüber RV670 steigen.;)

[fu]121Ah
2008-04-01, 18:27:44
Da man bei RV770 wohl 4 Z-Tests pro Takt erwarten kann, wie kürzlich wieder angedeutet, und wohl möglich wieder HW-Resolve an Board ist, dürfte die AA-Leistung, erst recht wenn GDDR5 zum Einsatz kommt doch um einiges gegenüber RV670 steigen.;)
ich stell die frage bezüglich shader nochmal konkret:

limitiert nicht die immernoch zu tiefe füllrate? könnte man nicht die shader einspannen? und nein, ich rede nicht von shader-AA direkt.

Captain Future
2008-04-01, 19:28:47
Da man bei RV770 wohl 4 Z-Tests pro Takt erwarten kann, wie kürzlich wieder angedeutet, und wohl möglich wieder HW-Resolve an Board ist, dürfte die AA-Leistung, erst recht wenn GDDR5 zum Einsatz kommt doch um einiges gegenüber RV670 steigen.;)
Ich dachte, Shader-Resolve sei die Zukunft weil es viel flexibler einsetzbar ist, wie AMD schon bei Call of Juarez im Flyby-Benchmark bewiesen hat.

deekey777
2008-04-01, 19:35:13
könnte man die shader überarbeiten damit diese einen teil der AA last übernehmen? oder scheitert das simpel an der bandbreite?
Die Shader übernehmen seit dem R600 das Resolve, mit dem RV630 soll es verbessert werden. Der Nachteil: Es dauert etwas und blockiert die Shader. Wenn der RV770 mehr Cluster/Einheiten bekommt, wäre Abkehr von Shader-Resolve ein Rückschritt.

AnarchX
2008-04-01, 20:19:09
Ich dachte, Shader-Resolve sei die Zukunft weil es viel flexibler einsetzbar ist, wie AMD schon bei Call of Juarez im Flyby-Benchmark bewiesen hat.
Naja, was nützt eine flexible Lösung, wenn man die Performance vergessen kann, wie es die CoJ-Benches der Full zeigen, wo NV auf HW-Resolve zurückgreifen kann:
http://www.computerbase.de/artikel/hardware/grafikkarten/2008/test_nvidia_geforce_9800_gtx_sli/16/#abschnitt_call_of_juarez

Die Shader übernehmen seit dem R600 das Resolve, mit dem RV630 soll es verbessert werden. Der Nachteil: Es dauert etwas und blockiert die Shader. Wenn der RV770 mehr Cluster/Einheiten bekommt, wäre Abkehr von Shader-Resolve ein Rückschritt.
War es nicht so, dass das Shader-Resolve eins der Bug-Fixes für die R6xx-ROP-Probleme war? Wenn man sich z.B. anschaut, das R600 in Ozones extrem shaderlastigen Furmark mit aktivem um 50% einbricht, während G80 und R580 deutlich geringer an Performance verlieren, stellt sich doch die Frage, wie sinnvoll dieser Schritt sein soll, wenn er gewollt wäre und ob die benötigten ALUs wirklich günstiger sind, als die für FF-Logik benötigten Transistoren.

deekey777
2008-04-01, 20:51:01
...

War es nicht so, dass das Shader-Resolve eins der Bug-Fixes für die R6xx-ROP-Probleme war? Wenn man sich z.B. anschaut, das R600 in Ozones extrem shaderlastigen Furmark mit aktivem um 50% einbricht, während G80 und R580 deutlich geringer an Performance verlieren, stellt sich doch die Frage, wie sinnvoll dieser Schritt sein soll, wenn er gewollt wäre und ob die benötigten ALUs wirklich günstiger sind, als die für FF-Logik benötigten Transistoren.
Wie Ailuros schonmal schrieb: Es ist egal, was der Beweggrund war. Bestimmte Einheiten werden bleiben (Z-Tester, Blender), aber die ROPs spätestens mit dem Aufkommen der USA die Teile der Renderpipeline, die am wenigsten ausgelastet werden.