AMD/ATI - Southern Islands - 28nm - Q3 11 - Q2 12 [Archiv] - Seite 6

davidzo

2011-12-10, 12:59:15

Hier mein nicht optimal perspektivisch entzerrtes Bild und das Originalbild mit Hilfslinien:

http://www.abload.de/img/hd7970_entzerrtiwpag.jpg
http://www.abload.de/thumb/hd7970_mithilfslinienyaj7e.jpg (http://www.abload.de/image.php?img=hd7970_mithilfslinienyaj7e.jpg)

Die Hilfslinien stehen im Idealfall alle exakt im 90°-Winkel oder parallel zueinander. Die Seitenverhältnisse sind noch verzerrt, aber ich vergleiche eh über Flächen, da spielen die Seitenverhältnisse keine Rolle.
Ich kann aus meiner entzerrten Grafik durch Markieren der Flächen - Paint.net zeigt die Pixelzahl einer markierten Flächen an - grob ermitteln, dass das GPU-Die ca. die 2-fache bis 2,5-fache Grundfläche eines GDDR5-Package einnimmt. Und ein FBGA-170-Ball-Package wie es Samsung und Hynix verwenden misst 12 mm * 14 mm = 168 mm².
Das heißt also, dass das Tahiti-Die irgendwo zwischen 2*168 mm² = 336 mm² und 2,5*168 mm² = 420 mm² liegt. In der gleichen Größenordnung wie Cayman.

Tja, was photoshop nicht schafft, kann GIMP dafür (sorry, hatte textfsaa ausgeschaltet ;)):
http://www.abload.de/img/7970diesize48lps.jpg (http://www.abload.de/image.php?img=7970diesize48lps.jpg)

Das Bild hatte neben der perspektivischen Verzerrung auch eine starke objektivkrümmung, vermutlich ne schlechte handykamera.

Laut meinen Messungen liegst du aber mit der Diesize also absolut im richtigen Bereich. Die Packagegröße war imo bisher ~42mm, ist also kräftig gestiegen.

Auf dem Foto liegt der höhere Dieshim natürlich durch die perspektive etwas versetzt zu den Abmessungen auf dem PCB, mein Rechteck orientiert sich aber an letzterem.

Tahiti hat also ~380mm² - wenn AMD optimistisch bei der Diesize ist und die Ränder nicht mitzählt wird man der Presse irgendwas um 350mm² erzählen...

aylano

2011-12-10, 13:06:09

Und ein FBGA-170-Ball-Package wie es Samsung und Hynix verwenden misst 12 mm * 14 mm = 168 mm².
Das heißt also, dass das Tahiti-Die irgendwo zwischen 2*168 mm² = 336 mm² und 2,5*168 mm² = 420 mm² liegt. In der gleichen Größenordnung wie Cayman.
Ich finde, dass man es relativ genau über die Lange des Speicher und Diagionale der GPU rechnen/raten kann, da es dabei fast keine Verzerrungen gibt, weil diese fast in der selben Achse liegen

Und die Diagionale ist 1,8 fach mal so groß wie die Speicherlänge

Annahme Speicherlänge = 14mm
Messung Diagionale = 1,8 fach.

(14mm*(1,8/2)/cos(45))^2 = 318mm²

davidzo

2011-12-10, 13:16:43

man scheint übrigens wieder einen Volterra VT1556LF oder ähnlich zu verwenden, das Layout erinnert stark an die 5870.

Sieht nach 5+2Phasen aus, wobei das am slotblech auch keine sein muss, vielleicht nur 5+1.
5870 war 6+2 (kann das jemand bestätigen ?)

Spasstiger

2011-12-10, 13:24:56

Ich finde, dass man es relativ genau über die Lange des Speicher und Diagionale der GPU rechnen/raten kann, da es dabei fast keine Verzerrungen gibt, weil diese fast in der selben Achse liegen
In der verzerrten Ansicht hat jeder Speicherchip andere Abmessungen, gemessen in Pixeln. Deshalb kann man in der verzerrten Ansicht nicht sinnvoll abschätzen.

davidzo stützt ja auch meine These.

@davidzo: Ich hab nur Paint.net verwendet, das erlaubt über die Funktion Rotationszoom perspektivische Ver- und Entzerrungen. Allerdings ist die Funktion nicht optimal, da fehlt imo ein Freiheitsgrad.
Hatte mir schon überlegt, selbst was in Matlab zu proggen, aber mit Gimp gehts ja offenbar auch gut.

AnarchX

2011-12-10, 13:39:26

Bei B3D misst man 432mm²: http://forum.beyond3d.com/showpost.php?p=1605031&postcount=1202

Spasstiger

2011-12-10, 13:47:22

Bischen gewagt, eine Zahl mit Nachkommastelle und ohne Toleranzbereich anzugeben. Drei von vier unabhängigen Messungen ergeben jetzt aber definitiv eine Diesize über der von Cypress.

/EDIT: Bei der Messung von Beyond3D wäre der Speicherchip in Verlängerung der rechten Bohrlöcher 16,4 mm lang. Tatsächlich misst das Package aber nur 14 mm, wenn es sich um Hynix- oder Samsung-GDDR5-Packages handelt. Entweder stimmen die Bohrloch-Abstände nicht oder die Verzerrung durch das Kameraobjektiv ist zu stark, um im Ausgangsbild auf Basis einer virtuellen Ebene auf dem PCB sinnvoll messen zu können.

Nakai

2011-12-10, 14:01:52

Perspektiveverzerrung ist nicht das Problem, eher die Linsenkrümmung.

Egal, die Diesize wird sich wohl zwischen 350 bis 400mm² einpendeln.

Mich interessiert eher die HD78xx-Serie.

davidzo

2011-12-10, 14:11:28

Bei B3D misst man 432mm²: http://forum.beyond3d.com/showpost.php?p=1605031&postcount=1202

Die Messung ist Falsch!

fellix geht irrigerweise von einem Lochabstand von 58.6mm aus, weiß nicht wo er das her hat. Der Lochabstand Mitte zu Mitte ist höchstwahrscheinlich wie bisher 53mm, genau wie immer bei ATI schon immer seit der x1900 serie und bei nvidia G92 basierten Karten und nonreferenz gtx460/560 (palit/gainward).

btw, die GTX580 verwendet 58mm wie damals beim G80, die gtx280 sogar 61mm.
Wenn ATI einen größeren Lochabstand wählen würde, dann einen der standardisierten (ergo 58mm), aber dann wäre das PCB viel zu breit wenn oben und unten noch GDDR5 module liegen. Das Slotblech impliziert auch, dass die Karte kaum höher ist als eine 6970.

Offensichtlich hat man die Aussparung oben nach dem biosschalter weggelassen wo bei der 6970 rev1 noch die Lüfterblende war (~ca 2mm). Die PCBkante wird also wieder auf ganzer Breite sichtbar sein.

mboeller

2011-12-10, 14:22:50

/EDIT: Bei der Messung von Beyond3D wäre der Speicherchip in Verlängerung der rechten Bohrlöcher 16,4 mm lang. Tatsächlich misst das Package aber nur 14 mm, wenn es sich um Hynix- oder Samsung-GDDR5-Packages handelt. Entweder stimmen die Bohrloch-Abstände nicht oder die Verzerrung durch das Kameraobjektiv ist zu stark, um im Ausgangsbild auf Basis einer virtuellen Ebene auf dem PCB sinnvoll messen zu können.

bei dem HD6970-Bild das du oben gepostet hast, beträgt der Lochabstand (Mitte zu Mitte) ~50mm. Gemessen mit Irfanview incl. 12mm breiten Speicherchip.

Beim neuen 7970 bin ich selbst auf 52-54mm gekommen. Durch die Verzerrungen ist die Genauigkeit aber geringer. Die 53mm von Davidzo sollten also stimmen.

mboeller

2011-12-10, 14:24:13

Die Messung ist Falsch!

fellix geht irrigerweise von einem Lochabstand von 58.6mm aus, weiß nicht wo er das her hat. Der Lochabstand Mitte zu Mitte ist höchstwahrscheinlich wie bisher 53mm, genau wie immer bei ATI schon immer seit der x1900 serie und bei nvidia G92 basierten Karten und nonreferenz gtx460/560 (palit/gainward).

Echt? Ich bin bei dem Bild von Spasstiger auf 50mm gekommen (für die alte 6970)...da hab ich mich wohl vermessen.

Spasstiger

2011-12-10, 14:25:32

bei dem HD6970-Bild das du oben gepostet hast, beträgt der Lochabstand (Mitte zu Mitte) ~50mm. Gemessen mit Irfanview incl. 12mm breiten Speicherchip.
Achtung, in meinem Bild darfst du nur entlang derselben Achse oder über Flächen vergleichen. Ich hab die Seitenverhältnisse nicht auf die realen Verhältnisse entzerrt.

davidzo

2011-12-10, 14:32:38

Echt? Ich bin bei dem Bild von Spasstiger auf 50mm gekommen (für die alte 6970)...da hab ich mich wohl vermessen.
50mm in der schräge gemessen ist doch schon nah dran, durch die linsenkrümmung ist da kaum eine achse messbar gewesen...

mein post bezog sich auf die messungen von fellix im B3D, der wohl von 58.6mm ausging, zumindest wenn es sich bei den zahlen in seinem bild tatsächlich um milimeter handelt. Könnte sein dass er das mit den Lochabständen der GTX580 verwechselt hat.

Daher ist seine Schätzung zu hoch, es sind unter 400mm²!

je kleiner die Referenz, desto höher fällt der Fehler aus. Der RAM als Anhaltspunkt ist also denkbar schlecht zumal die packages je nach hersteller gerne mal um +- 0.5mm abweichen (trotz identischer pinouts, die sind ja kleiner als das package). Der Fehler vergrößert sich um den Faktor den das Die größer ist als die Referenz, ist das DIE aber kleiner als die Referenz, verkleinert sich in dem Moment auch der Fehler. Ich denke die mounting holes sind daher der größte komplett einsehbare bezug, die Genauigkeit sollte da am Ende natürlich am größten sein.

Natürlich nicht so genau wie die Maßangaben meines CAD Programms die automatisch in hundertstel milimetern münden, aber ich denke das ist selbstredend dass eine solche Genauigkeit anhand der Bildinformationen nicht möglich ist. Da ein Fehler von +-1mm bei den mountingholes in nichtmal 0.5mm Abweichung beim DIE münden würde, kann man getrost von einem Fehler weniger als +- 0.5mm ausgehen.

Also zwischen 18*20mm (360mm²) und 19*21mm (399mm²) - bis auf weiteres rechne ich jetzt mit 380mm².

Cypress kommt auf 6.4 mio Transistoren pro mm² (first gen 40nm)
Cayman kommt auf 6.8 mio Transistoren pro mm² (second gen 40nm)

Geht man von einer perfekten Skalierung von 2,04x bei 40nm auf 28nm aus, wären das 5,193 Milliarden Transistoren (bei 380mm²).
bei einer Skalierung von 1,7 (Cayman 40nm ->Tahiti 28nm) immer noch beachtliche 4.328 Milliarden.*

*Der letzte Fullnode shrink (RV770 55nm auf rv870 40nm) war immerhin Faktor 1.71.

aylano

2011-12-10, 14:36:15

In der verzerrten Ansicht hat jeder Speicherchip andere Abmessungen, gemessen in Pixeln. Deshalb kann man in der verzerrten Ansicht nicht sinnvoll abschätzen.

Hatte die ungleiche Seitenlänge des Oberen Speicherstücks vergessen zu berücksichtigen.

Müsste also so 350-400 wobei es ehr bei 400mm² sein dürfte.

Skysnake

2011-12-10, 15:12:24

Mhh, ich hab selbst Messungen durchgeführt und kam auf ein gegenteiliges Ergebnis. Ich habe den Die im Verhältnis zum Package gemessen. Dabei kam ich drauf, dass Tahiti etwa 0,2 mal so groß ist wie sein Package, Cayman dagegen sogar etwa 0,25 mal so groß wie sein Package.

Falls die Packages gleich groß sind, ist Tahiti nur 80% so groß wie sein Vorgänger. Genauere Angaben konnte ich bisweilen nicht machen.

Ich schätze Tahiti eher leicht über 300mm² ein. Aber wie gesagt, das hängt von der Größe des Packages und der Verzerrung des Bildes ab. Ergo keine genaue Aussage.
Das Package ist aber nicht gleich groß...

davidzo

2011-12-10, 15:25:41

Das Package ist aber nicht gleich groß...

Richtig, das Package ist um gut 30% von 40*40mm auf 46*46mm gewachsen.

EDIT: sogar nur 40mm Kantenlänge bei cypress
http://www.abload.de/img/tahiticypress4ypip.jpg (http://www.abload.de/image.php?img=tahiticypress4ypip.jpg)

Der DIE dagegen kaum (hier gegenüber cypress). Da AMDs cypressangaben überaus beschönigend sind (334mm² Angabe - gemessen eher 350mm²), könnte Tahiti sogar noch kleiner sein als die geschätzten 380mm²

OgrEGT

2011-12-10, 16:13:00

Probiert doch mal die Länge des PCIe (Quatsch) Crossfire-Anschlüsse als Basis für die Berechnung herzunehmen. Was kommt dann raus?

davidzo

2011-12-10, 17:22:08

der ist leider soweit außerhalb dass er total verzerrt + geblurrt ist. da verursacht die kamera so starke distortions und dann hat der Urbeher dort noch mit seinem pinsel herumgepfuscht dass ich da lieber drauf verzichtet habe.

Ailuros

2011-12-10, 17:54:53

Die Anzahl der SPs war korrekt und auch die Anzahl der TMUs im fake product line up, die core Frequenz etwas niedriger als in diesem. TDP= 560Ti 448.

Ein Schnitt unter 4 TFLOPs SP, aber es wurde wohl nichts mit 2:1 ausser es ist mit Absicht fuer desktop begrenzt. 10.01.2012.

AnarchX

2011-12-10, 18:00:09

Ailuros

2011-12-10, 18:16:06

4:1 desktop ja. HPC keine Ahnung; koennte aber durchaus 2:1 sein.

Hugo78

2011-12-10, 18:45:53

Raff

2011-12-10, 19:09:39

10.01.2012.

Ach ja?

MfG,
Raff

AffenJack

2011-12-10, 19:20:59

Ach ja?

MfG,
Raff

Dein NDA läuft an nem andern tag aus?;)

Gipsel

2011-12-10, 20:19:26

Ein Schnitt unter 4 TFLOPs SP, aber es wurde wohl nichts mit 2:1 ausser es ist mit Absicht fuer desktop begrenzt. 10.01.2012.
32CUs mit 128 TMUs bei unter einem GHz (also im Prinzip nicht viel höher als Barts oder Cayman) sind schon ziemlich lange mein Tipp gewesen.

Botcruscher

2011-12-10, 20:36:50

Warum gibt man schon einen Monat vorher Informationen raus? Bei einem Start am 10.01.2012 hätte es auch 5 Tage vorher samt Hardware für die Tester gereicht.

Raff

2011-12-10, 20:38:47

Jeder, der schon mal so einen (gescheiten) Test gemacht hat, weiß, dass 5 Tage vorher verdammt wenig ist. 1x 3D Mark und alle Whitepaper-Seiten in einer Galerie ist kein Test. ;)

MfG,
Raff

boxleitnerb

2011-12-10, 20:38:54

Raff

2011-12-10, 20:40:43

Wo ist der Like-Button? :biggrin:

MfG,
Raff

Botcruscher

2011-12-10, 20:50:21

Der ist wie alle Stasiverschnitte geblockt.;) 5 Tage reichen aus Sicht von AMD locker um die wichtigen Punkte abzudecken und den Werbeaspekt rüber zu bringen. Als ob die Tester als Bittsteller mehr Wert wären. Das wäre ja so, als ob sich die Spielemags über die Entwickler beschweren. Die Abhängigkeit zwischen Hersteller und Werbeblättchen ist da doch klar geklärt. Ihr tut ja so als hätte je ein Reviewartikel die Qualität eine Architekturbetrachtung gehabt. So was gab es mal von Beyond 3D für ein paar Architekturen. Der typische Artikel kommt eh nicht weiter als das Werbeblatt verrät. Lautstärke, Verbrauch, Kenndaten, Penisbalken, BQ, Preis und der typische Leser ist eh durch.

AnarchX

2011-12-10, 20:59:54

32CUs mit 128 TMUs bei unter einem GHz (also im Prinzip nicht viel höher als Barts oder Cayman) sind schon ziemlich lange mein Tipp gewesen.
Da wäre aber GCN nicht sonderlich effektiv, wenn die Leistung wirklich nur um das Niveau 6990/590 liegen sollte. Immerhin bietet man ja wohl locker die doppelte Rohleistung einer GTX 580 auf. Und selbst unter maximaler Bandbreitenlimitierung sollte man gute 35% vor einer GTX 580 liegen.
Oder ist ein PowerTune-Limit von ~210W hier vielleicht schon eine stärkere Drossel?

HD-Ronny

2011-12-10, 22:01:28

5 Tage? Wie oft soll AMD die Tester denn noch verärgern? Neue Architektur, evtl. neue Features...so einen 30 Seiten Artikel schüttelt man nicht in 5 Tagen aus dem Ärmel, mit Benchmarks erst recht nicht.

Einmal drüberrutschen über die Karte wie es manche Reviewer machen, da geht das vielleicht. Aber das ist weder ordentlich noch vollständig.

Wenn sie die Karten viel früher rausgeben brauchen sie auch kein NDA, für die wichtigsten Benches reichen 5 Tage völlig. Ein detailliertes Review welches die architektur durchleuchtet kann man immer noch nachschieben.

boxleitnerb

2011-12-10, 22:06:48

Wenn sie die Karten früher rausgeben, haben die Reviewer auch mehr Zeit. Und warum sollte man dann kein NDA brauchen? Jede Redaktion, die Testhardware kriegt, unterschreibt ein NDA.

HD-Ronny

2011-12-10, 22:13:59

Wenn sie die Karten früher rausgeben, haben die Reviewer auch mehr Zeit. Und warum sollte man dann kein NDA brauchen? Jede Redaktion, die Testhardware kriegt, unterschreibt ein NDA.

Um so länger die Karten in den Redaktionen rumliegen desto schneller gibt es
Leaks vor Ende NDA da kannst du drauf wetten.

mboeller

2011-12-10, 23:09:00

Wenn man es auf 4:1 begrenzt, wäre das für Hobby-Entwickler oder akademische Forschung immer noch attraktiv im Vergleich zu NVs Drossel.
Unter 1 TFLOPs/5 GFLOPs/Watt wäre aber nicht sonderlich attraktiv für den Profimarkt.

Warum? 5 GFlops/Watt entspricht doch fast genau dem, was Nvidia für Kepler geplant hat. Bei einem 1:2-Verhältnis wären es ja sogar ~10 GFlops/Watt.

mboeller

2011-12-10, 23:09:41

10.01.2012.

CES 2012?

Gipsel

2011-12-11, 00:43:05

Da wäre aber GCN nicht sonderlich effektiv, wenn die Leistung wirklich nur um das Niveau 6990/590 liegen sollte. Immerhin bietet man ja wohl locker die doppelte Rohleistung einer GTX 580 auf. Und selbst unter maximaler Bandbreitenlimitierung sollte man gute 35% vor einer GTX 580 liegen.Aber schon bei Cypress und Cayman hängt es nicht an der Rohleistung der Shader. ;)

Falls die arithmetische Peakleistung um 40% steigt (wären dann immerhin ~3,8TFlops, also 925MHz bei 32 CUs, bei 875MHz wären es halt ~3,6TFlops und +33%), dürfte mit den ganzen restlichen Änderungen allerdings mehr als diese 40% rumkommen. Wie viel mehr, hängt wie gesagt nicht an der Peakleistung.

Und wie effektiv das dann ist oder auch nicht, sieht man spätestens am Vergleich mit Kepler, daran muß sich das messen lassen.

uweskw

2011-12-11, 02:57:17

Wenn AMD mit neuer Technologie wirklich etwas spannendes im Köcher hätte, wäre das Marketing ne Ecke aggresiver.

G 80

2011-12-11, 03:29:53

Wenn AMD mit neuer Technologie wirklich etwas spannendes im Köcher hätte, wäre das Marketing ne Ecke aggresiver.

Och ne, noch so ein Video mit Team Scorpius (?) verkrafte ich nicht .... vor allem wenn nach dem R600 der CPUs auch noch der Bulldozer der Grafikkarten kommt. :eek:;D:wink:

OgrEGT

2011-12-11, 08:27:40

Sunrise

2011-12-11, 08:57:05

...Ein detailliertes Review welches die architektur durchleuchtet kann man immer noch nachschieben.
Neiiiiiiiin, ich will alles sofort, inkl. Architektur-Drüberwisch und aussagekräftigem Vergleich mit GF110. Zahle auch Zweifuchzisch. :D

Apropos, 875MHz bei der Pro und ebenso mit 384bit Interface bei effektiven 5,0GHz wenn ein gewisser Herr (nein, nicht Ailuros) mir keinen Quatsch erzählt hat. Das wäre seit R300 mal wieder eine Überraschung und 'ne ziemliche Hausnummer bei dem angepeilten MSRP.

Als Grund wurde übrigens angegeben, dass AMD die Daten von Kepler natürlich bereits kennt und hier gerne Preis-/Leistungstechnisch wieder Maßstäbe setzen möchte, da Kepler später erscheint und man so auch eine ganze Weile die Preise stabil halten kann.

Skysnake

2011-12-11, 09:25:18

Aber schon bei Cypress und Cayman hängt es nicht an der Rohleistung der Shader. ;)

Falls die arithmetische Peakleistung um 40% steigt (wären dann immerhin ~3,8TFlops, also 925MHz bei 32 CUs, bei 875MHz wären es halt ~3,6TFlops und +33%), dürfte mit den ganzen restlichen Änderungen allerdings mehr als diese 40% rumkommen. Wie viel mehr, hängt wie gesagt nicht an der Peakleistung.

Und wie effektiv das dann ist oder auch nicht, sieht man spätestens am Vergleich mit Kepler, daran muß sich das messen lassen.
Genau so siehts aus. Die AMD Karten haben insbesondere bei SP mehr als genug Leistung, man bekommt Sie aber praktisch nie abgerufen, außer bei irgendwelchen extremen Brut-Force Sachen.

Ok DP könnte es mehr sein, aber 500 GFLop/s sind auch alles andere als schlecht für ne 40nm Karte!

Was sich halt ändern muss ist die Effizienz, wie du schon gesagt hast. Es bringt doch absolut nichts, wenn man die Leistung um 100% steigert, aber man nur eine Effizienz von unter 50% hat.... Lieber die Effizienz massiv steigern und geringfügig die Peak-Leistung.

Damit werden die Karten nämlich für GPGPU auch wieder interessanter, weil man dann wahrscheinlich leichter einen gewissen Grad an Leistung abrufen kann. Das ist ja das Problem hier. Man muss schon wirklich sehr genau wissen, was man macht, um auch nur halbwegs vernünftigen Code für ne GPU zu schreiben.

"Mehr" Leistung auch im Hinblick auf die mögliche Auslastung aller Einheiten, die ja bedingt durch 1D Shader bis zu 100% betragen soll. An Rohleistung hat es den Vorgängern ja ie gemangelt, sondern immer nur an der Effizienz in einigen Applikationen.
Naja, das bis zu stimmt natürlich, konntest du aber vorher auch schon erreichen. Ein großes Problem der aktuellen GPUs ist, dass du nicht genug Daten für die ALUs bereit halten kannst. Die vertrocknen schlicht, weil nichts kommt, sobald die Datenlokalität mal etwas schlechter ist. Da helfen nur größere Caches um die Datenlokalität zu erhöhen und eben ein breiteres/schnelleres Speicherinterface. Also einfach mehr Datendurchsatz. Da SI aber wohl wirklich nur mit GDDR5 kommt, und dann auch nur mit einem 384Bit Interface, seh ich hier schwarz.... Das ist einfach zu wenig. Um die Situation zu verbessern dürfte SI die theoretische Leistungsfähigkeit um <50% steigern. Ich gehe aber nicht davon aus, dass das so sein wird. Ergo wird das Problem noch größer gemacht..... :(

Daher hat sich XDR2 auch recht gut angehört, weil man damit die Bandbreite durchaus um einen Faktor 4 oder 5 steigern hätte können. Das hätte wirklich eine Entlastung gebracht.

V2.0

2011-12-11, 10:10:49

Wenn AMD mit neuer Technologie wirklich etwas spannendes im Köcher hätte, wäre das Marketing ne Ecke aggresiver.

Ich denke man hat aus Bulldozer gelernt. Weniger Wind, mehr Taten. Und ein überlegenes Produkt braucht wenig Werbung, gerade wenn die Konkurrenz noch lange nicht am Markt ist.

M4xw0lf

2011-12-11, 10:33:08

Die Abwesenheit jeglichen Marketings zum Thema R1000 lässt mich nur das beste vermuten - statt wie Bulldozer über markige (und dämliche) Werbeslogans wird sich die HD7000-Serie dann eben doch durch technische Überzeugungskraft verkaufen :D

john carmack

2011-12-11, 10:34:45

Ist es eigentlich Absicht das alles Bilder so unscharf sind?

Ich denke JA! Dann stammen die Bilder aber auch direkt von AMD.

AnarchX

2011-12-11, 10:50:35

Wohl eher schnell gemachte Handy-Bilder.

OgrEGT

2011-12-11, 10:54:28

Naja, das bis zu stimmt natürlich, konntest du aber vorher auch schon erreichen. Ein großes Problem der aktuellen GPUs ist, dass du nicht genug Daten für die ALUs bereit halten kannst. Die vertrocknen schlicht, weil nichts kommt, sobald die Datenlokalität mal etwas schlechter ist. Da helfen nur größere Caches um die Datenlokalität zu erhöhen und eben ein breiteres/schnelleres Speicherinterface. Also einfach mehr Datendurchsatz. Da SI aber wohl wirklich nur mit GDDR5 kommt, und dann auch nur mit einem 384Bit Interface, seh ich hier schwarz.... Das ist einfach zu wenig. Um die Situation zu verbessern dürfte SI die theoretische Leistungsfähigkeit um <50% steigern. Ich gehe aber nicht davon aus, dass das so sein wird. Ergo wird das Problem noch größer gemacht..... :(

Daher hat sich XDR2 auch recht gut angehört, weil man damit die Bandbreite durchaus um einen Faktor 4 oder 5 steigern hätte können. Das hätte wirklich eine Entlastung gebracht.

Zu wenig?
Mit dem 384bit Interface unter Verwendung des gleichen GDDR5 Speichers der HD6970 wäre ein Peak-Durchsatz von 264Gb/s möglich:eek:

Edit:
Mag sein, dass Du GPGPU Anwendungen kennst, die 500Gb/s benötigen würden, in dem Fall glaube ich aber eher, dass Du eine andere Art von GPU benötigst, als derzeit verfügbar. Wie auch hier schon erwähnt wurde, müssen AMD als auch NV Kompromisse hinsichtlich der Auslegung der GPUs für sowohl 3D-Beschleunigung als auch GPGPU Computing eingehen, da der Aufwand 2 dezidierte GPUs zu entwickeln (derzeit) zu hoch ist.

Dural

2011-12-11, 10:59:57

Tahiti wird auch mehr mit GK104 konkurrieren, wie es jetzt schon mit Cayman und GF114 der fall ist (GTX 560 Ti / 6950)

Gegen GK100 hat AMD wohl nichts in der Hand, oder kommt später...

boxleitnerb

2011-12-11, 11:00:52

Wir wissen ja noch nichtmal, ob es einen GK100 gibt :)

Dural

2011-12-11, 11:05:17

wer weis...

ich habe aber so langsam das Gefühl das die ersten 28nm Karten allgemein nicht so der Hammer werden, da sind die Kunden halt wieder Beta tester.
"7970 etwas über GTX580" haha da ist meine 580er jetzt schon schneller ;)

man muss wohl wirklich bis ende 2012 warten, wenn ich da an 40nm denke, da liegen Welten zwischen den ersten und zweiten 40nm Chips...

john carmack

2011-12-11, 11:12:23

Wohl eher schnell gemachte Handy-Bilder.

Das glaube ich nicht!

Auch mit rinrm Handy kannst Bilder machen auf denen man was erkennt.

AnarchX

2011-12-11, 11:15:34

wer weis...

ich habe aber so langsam das Gefühl das die ersten 28nm Karten allgemein nicht so der Hammer werden, da sind die Kunden halt wieder Beta tester.
"7970 etwas über GTX580" haha da ist meine 580er jetzt schon schneller ;)

Wenn es wirklich 2048SPs/128TMUs@~900MHz und 384-Bit@5,5Gbps sind, da sollte doch schon um einiges mehr herauskommen, sofern GCN kein Fehlschlag ist.
Bei solchen Daten würde ich min. 50% Mehrleistung im Durchschnitt erwarten.

OgrEGT

2011-12-11, 11:15:56

"7970 etwas über GTX580" haha da ist meine 580er jetzt schon schneller ;)

Genau "wer weiß...".
Zumal auch ein Tahiti wiederum übertaktbar ist, und Deine GTX @950MHz wohl auch schon am Anschlag läuft.
Aber das ist eigentlich schon oft so gewesen, dass stark übertaktete Hardware der Vorgängergeneration schneller war, als die ein oder andere Stock Version der neuen Generation. Das Perf/Watt Verhältnis in diesem Fall sollte aber doch deutlich besser zugunsten der neuen Generation sein.

Dural

2011-12-11, 11:33:01

es verleidet mir langsam, ich hatte so ziemlich jede grafikkarte die es bis jetzt gab, darunter 3 Chips die in den letzten 10 jahren richtig spass gemacht haben:

R300 (hammer, hatte vier 9700Pro)
G80 (hammer, mehr muss man nicht sagen)
GF110 (eine wucht gerade im OC bereich, sind schon über 1650MHz Core / 3300MHz Shader Takt aufgetaucht!)

alles andere war müll und ich denke nicht das die ersten 28nm chips da mithalten können.

Raff

2011-12-11, 12:27:23

GF110 hat fettes Potenzial, ja. Da limitieren schlicht und ergreifend die Leistungsaufnahme und Kühlung. Deswegen ist Kepler unter anderem spannend: Wenn der Fertigungsvorteil 1:1 durchschlägt und Nvidia noch ein paar kritische Pfade abfeilt, könnte das Design (gerade die kleineren Versionen) brutal taktbar sein. Bei Tahiti glaube ich auch nicht so recht an ein OC-Wunder, aber 1 GHz wird wohl immer mindestens drinstecken. Das ist eine psychologisch hübsche Marke, die bislang nur wenige GPUs rockstable packen. ;)

MfG,
Raff

Ailuros

2011-12-11, 12:37:34

wer weis...

ich habe aber so langsam das Gefühl das die ersten 28nm Karten allgemein nicht so der Hammer werden, da sind die Kunden halt wieder Beta tester.
"7970 etwas über GTX580" haha da ist meine 580er jetzt schon schneller ;)

Ist wohl dann auch relativ was jeder unter "etwas" versteht. Unter Deiner Logik ist eine 6990 dann auch nur um "etwas" schneller als eine 580 ebenso wie eine GTX590.

---------------------------------------------------------------------------------------
Generell liegt fuer mich Tahiti mehr oder weniger auf dem erwarteten Leistungs-pegel. Persoenlich haette ich mir aber eine hoehere Effizienz aus GCN gewuenscht. Obwohl eine ziemlich verschiedene Architektur wie AMD's Vorgaenger sieht es nicht nach einer besonderen Revolution aus was die generelle Effizienz betrifft.

Das soll jetzt nicht heissen dass AMD irgend etwas daneben entwickelt hat; ganz im Gegenteil. Nur sieht das Bild eben generell langweilig aus weil es keine besondere Ueberraschungen von beiden Seiten geben wird.

GF110 hat fettes Potenzial, ja. Da limitieren schlicht und ergreifend die Leistungsaufnahme und Kühlung. Deswegen ist Kepler unter anderem spannend: Wenn der Fertigungsvorteil 1:1 durchschlägt und Nvidia noch ein paar kritische Pfade abfeilt, könnte das Design (gerade die kleineren Versionen) brutal taktbar sein. Bei Tahiti glaube ich auch nicht so recht an ein OC-Wunder, aber 1 GHz wird wohl immer mindestens drinstecken. Das ist eine psychologisch hübsche Marke, die bislang nur wenige GPUs rockstable packen. ;)

MfG,
Raff

Es wird immer bei der Leistungsaufnahme bzw. Kuehlung einer GPU stocken bei Uebertaktungsuebungen, mehr oder weniger je nach Fall. Gegen Tahiti wird GK104 antreten und nicht der grosse chip der so oder so offensichtlich in einer anderen Preis und Stromverbrauch-Kategorie liegen wird. Ihr werdet es mir auch verzeihen aber fuer mich macht erst ab 15% OC (core + Speicher) solch eine Uebung Sinn. Ueber dieser Marge muss man dann schon zu extravaganteren Kuehlungsloesungen greifen und dabei wird es dann schon fraglich ob man anstatt Zeit und Geld dafuer zu verschenden nicht gleich auf eine higher end Loesung bzw. mGPU gleich investieren sollte.

Der groesste threshold bei dieser Generation wird die Speicherfrequenz sein, denn IMHO ist GDDR5 so langsam an ihrer Grenze wo man bei noch hoeheren Raten nicht mehr das erwartete bekommt.

Gipsel

2011-12-11, 12:40:10

Generell liegt fuer mich Tahiti mehr oder weniger auf dem erwarteten Leistungs-pegel. Persoenlich haette ich mir aber eine hoehere Effizienz aus GCN gewuenscht. Obwohl eine ziemlich verschiedene Architektur wie AMD's Vorgaenger sieht es nicht nach einer besonderen Revolution aus was die generelle Effizienz betrifft.

Das soll jetzt nicht heissen dass AMD irgend etwas daneben entwickelt hat; ganz im Gegenteil. Nur sieht das Bild eben generell langweilig aus weil es keine besondere Ueberraschungen von beiden Seiten geben wird.Die kochen halt alle nur mit Wasser. :rolleyes:
Außer intel vielleicht.

M4xw0lf

2011-12-11, 12:44:43

Tahiti wird auch mehr mit GK104 konkurrieren, wie es jetzt schon mit Cayman und GF114 der fall ist (GTX 560 Ti / 6950)

Gegen GK100 hat AMD wohl nichts in der Hand, oder kommt später...

Äh ja. 6970 vs 570 anyone? Unter SSAA ist die 6970 auch oft mindestens so schnell wie die GTX 580.
Aber offenbar verrät dir deine Glaskugel schon alles...

Ailuros

2011-12-11, 12:46:13

Die kochen halt alle nur mit Wasser. :rolleyes:
Außer intel vielleicht.

Kein Einwand. Nur erwartet man rein psychologisch bei einer neuen Architektur meistens mehr. Ich hab so oder so langsam dass Gefuehl dass sich im Bereich ALUs nichts fundamentales in der absehbaren Zukunft aendern wird; Anzahl wird halt auf N level skaliert und alles was IHVs wirklich dringend brauchen ist X mehr Bandbreiten von vielleicht revolutionaren Loesungen.

Raff

2011-12-11, 12:53:47

Ueber dieser Marge muss man dann schon zu extravaganteren Kuehlungsloesungen greifen und dabei wird es dann schon fraglich ob man anstatt Zeit und Geld dafuer zu verschenden nicht gleich auf eine higher end Loesung bzw. mGPU gleich investieren sollte.

Eine GTX 580 @ 1 GHz (+30 %) kann es in Sachen gefühlter Framerate ganz locker flockig mit einer GTX 590 (ohne OC) aufnehmen. Dafür braucht's halt einen Mörder-Luftkühler oder besser eine WaKü. Zusammen mit 3 GiB Speicher leistet die Single-GPU im Ernstfall sogar mehr (und hängt dabei irgendwo zwischen 300 und 350 Watt).

MfG,
Raff

Ailuros

2011-12-11, 13:11:20

Eine GTX 580 @ 1 GHz (+30 %) kann es in Sachen gefühlter Framerate ganz locker flockig mit einer GTX 590 (ohne OC) aufnehmen. Dafür braucht's halt einen Mörder-Luftkühler oder besser eine WaKü. Zusammen mit 3 GiB Speicher leistet die Single-GPU im Ernstfall sogar mehr (und hängt dabei irgendwo zwischen 300 und 350 Watt).

MfG,
Raff

Ist doch genau das was ich sagte; Kosten und Umstand mitberechnet, gibt es Alternativen dafuer. Und da alle subjektiv denken es waere in meinem Fall noch umstaendlicher bei den sehr hohen Sommertemperaturen hier. Bei einer Hitzewelle laesst man lieber den PC gleich aus in solchen Faellen oder man kuehlt mit der aircon Stundenlang vor.

Am idealsten waere dass man einen PC 24/7 laufen laesst bei durgehend bei so stabilen Temperaturen wie moeglich. Alle meine GPUs verrecken durch die Jahre typisch Anfang Winter.

Skysnake

2011-12-11, 13:36:12

Kein Einwand. Nur erwartet man rein psychologisch bei einer neuen Architektur meistens mehr. Ich hab so oder so langsam dass Gefuehl dass sich im Bereich ALUs nichts fundamentales in der absehbaren Zukunft aendern wird; Anzahl wird halt auf N level skaliert und alles was IHVs wirklich dringend brauchen ist X mehr Bandbreiten von vielleicht revolutionaren Loesungen.
Was soll sich an den ALUs auch groß tun? Die sind halt auf Durchsatz optimiert, und wenn die Latenzen versteckt werden können, dann hat sichs eh gegessen. Wenn kommen da noch ein paar Befehlsatzerweiterungen etc. Wobei ich mir da bei GPUs eigentlich kaum noch was vorstellen kann, was man da noch direkt in Hardware bauen könnte außer einem rnd-Generator. DAS wäre richtig cool, aber das wars dann aber auch schon.

Der groesste threshold bei dieser Generation wird die Speicherfrequenz sein, denn IMHO ist GDDR5 so langsam an ihrer Grenze wo man bei noch hoeheren Raten nicht mehr das erwartete bekommt.
Jup, so siehts halt aus. Bereits bei der HD5k, HD6k, GTX400 und GTX500 Reihe hat das Speicherinterface in GPGPU-Sachen sehr oft limitiert, genau wie das PCI-E Interface, wobei hier halt einfach ein statischer Wert auf die Berechnungszeit oben drauf kommt. Begrenzt halt oft die Einsatzmöglichkeiten hin zu kleinen Problemen, bzw bei Problemen, wo einem dem VRAM aus geht.

Zu wenig?
Mit dem 384bit Interface unter Verwendung des gleichen GDDR5 Speichers der HD6970 wäre ein Peak-Durchsatz von 264Gb/s möglich:eek:

Edit:
Mag sein, dass Du GPGPU Anwendungen kennst, die 500Gb/s benötigen würden, in dem Fall glaube ich aber eher, dass Du eine andere Art von GPU benötigst, als derzeit verfügbar. Wie auch hier schon erwähnt wurde, müssen AMD als auch NV Kompromisse hinsichtlich der Auslegung der GPUs für sowohl 3D-Beschleunigung als auch GPGPU Computing eingehen, da der Aufwand 2 dezidierte GPUs zu entwickeln (derzeit) zu hoch ist.
Lies mal Ailuros Aussagen.
Es sind nicht nur irgendwelche exotischen GPGPU-Anwendungen, sondern der Großteil an Anwendungen, die du auf GPUs überhaupt sinnvoll zum laufen bringst. Dass du die ALUs zu 100% auslastest, passiert fast nie, einfach weil du die benötigten Daten nicht in ausreichender Menge (zu geringe Bandbreite) aus dem RAM der GPU bekommst.
Daher hat man ja auch so einen Pi-Mal-Daumen wert von 40-60% der Peak-Leistung, die man so in realen Anwendungen, die man dann erreicht. Das liegt halt komplett an der zu niedrigen Bandbreite, die man ja mit Caches versucht zu kaschieren, da diese sehr sehr sehr hohe Bandbreiten haben. Das funktioniert aber nur, wenn du die Daten im Cache oft genug neu verwendest. Ich habs mal für die 5870 ausgerechnet gehabt. Wenn ich mich recht erinnere, muss man JEDEN Wert im Cache durchschnittlich 40 mal lesen, bevor er durch einen neuen Wert aus dem RAM ersetzt werden darf, damit man 100% Auslastung der ALUs erreichen kann. Kann aber auch mehr gewesen sein.

Was ich damit nur sagen will ist, das man nur sehr schwer diese Werte erreicht, und daher durch das Speicherinterface limitiert ist. Wenn jetzt das Speicherinterface 50% mehr an Bandbreite liefert, dann kann man oft nahezu zu 100% in Mehrleistung umsetzen. Das bringt einem bzgl der Effizienz nichts, wenn die ALU-Leistung der GPU auch um 50% steigt, oder sogar noch mehr.

Die GPUs rennen halt in das gleiche Problem rein, wie die Vektorrechner schon vor vielen vielen Jahren. Sie haben eine kranke theoretische Rechenleistung, aber davon kommt oft nur ein Bruchteil an, weil das Speicherinterface einfach der Flaschenhals ist.

XDR2 RAM wäre da eine wirkliche Entlastung gewesen. Sehr sehr schade, dass das nicht kommt..... :(

In der nächsten Generation muss das dann aber kommen, oder sonst irgend etwas. Ansonsten können sich AMD und nVidia den GPGPU-Markt komplett von der Backe schmieren...

AnarchX

2011-12-11, 13:41:21

Wer sagt dass XDR2 nicht auf den Profikarten unterstützt wird? :D

Skysnake

2011-12-11, 13:47:52

Naja, ich halte es noch für möglich, würde es mir sogar wünschen, aber das ist doch eher unwahrscheinlich.

Du müsstest dann ja nur für die Profi-Karten RAM produzieren, ein extra PCB bauen etc. etc. etc. Das lohnt einfach nicht. Dafür sind die Stückzahlen schon noch zu klein, es sei denn die würden irgend einen Mega-Cluster mit 50k Karten oder so ausrüsten, dann aber auch nur dann könnte man so was eventuell unter Umständen vielleicht, wenn man ganz gut drauf ist, und sich ganz weit aus dem Fenster lehnen will möglicherweise machen. Ansonsten seh ich dafür aber echt gar keine Chance.

Man braucht einfach die hohen Stückzahlen aus dem Consumermarkt, um die Kosten niedrig zu halten. Die GPU auf dem Bild hat aber offenkundig ein 384Bit GDDR5 Speicherinterface. Ergo wird das nichts, es sei denn, das Bild von dem Sticker und dem vom Speicherinterface stammt nicht von der selben GPU :rolleyes:

Das ist aber schon eher unwahrscheinlich. Ein Hoffnungsschimmer war ja diese MEldung bzgl. Massenproduktion von stacked RAM oder so, was man mit XDR2 eventuell verwechselt haben könnte. Hab ich hier im Topic irgendwann mal was von geschrieben.

Naja kommt Zeit kommt Rat. Viel Hoffnung habe ich aber ganz ehrlich gesagt nicht mehr...

AnarchX

2011-12-11, 13:53:14

Der Profimarkt verwendet schon seit Ewigkeiten eigene PCBs. Und vielleicht erhöht sich die XDR2-Produktion mit den Next-Gen-Konsolen.
Einzig fraglich ist, ob man zwei Speicherarten mit >256-Bit auf einem ~400mm² Die unterstützen kann.

Si-Interposer und Memorycubes wären in der Tat für zukünftige Profilösungen eine nette Option mehr Bandbreite anzubieten.

Hugo78

2011-12-11, 14:28:02

Einzig fraglich ist, ob man zwei Speicherarten mit >256-Bit auf einem ~400mm² Die unterstützen kann.

Haben GDDR5 und XDR2 nicht auch völlig unterschiedliche Anbindungen?!
Rambus zeigt dazu auf ihrer Seite ja folgende Grafik.
- http://www.rambus.com/de/technology/solutions/xdr2/innovations.html
http://www.forum-3dcenter.org/vbulletin/attachment.php?attachmentid=41390&d=1323610020

Also müsste man dafür nicht auch am Chip selber was verändern?

OgrEGT

2011-12-11, 14:57:10

Lies mal Ailuros Aussagen.
Es sind nicht nur irgendwelche exotischen GPGPU-Anwendungen, sondern der Großteil an Anwendungen, die du auf GPUs überhaupt sinnvoll zum laufen bringst. Dass du die ALUs zu 100% auslastest, passiert fast nie, einfach weil du die benötigten Daten nicht in ausreichender Menge (zu geringe Bandbreite) aus dem RAM der GPU bekommst.
Daher hat man ja auch so einen Pi-Mal-Daumen wert von 40-60% der Peak-Leistung, die man so in realen Anwendungen, die man dann erreicht. Das liegt halt komplett an der zu niedrigen Bandbreite, die man ja mit Caches versucht zu kaschieren, da diese sehr sehr sehr hohe Bandbreiten haben. Das funktioniert aber nur, wenn du die Daten im Cache oft genug neu verwendest. Ich habs mal für die 5870 ausgerechnet gehabt. Wenn ich mich recht erinnere, muss man JEDEN Wert im Cache durchschnittlich 40 mal lesen, bevor er durch einen neuen Wert aus dem RAM ersetzt werden darf, damit man 100% Auslastung der ALUs erreichen kann. Kann aber auch mehr gewesen sein.

Was ich damit nur sagen will ist, das man nur sehr schwer diese Werte erreicht, und daher durch das Speicherinterface limitiert ist. Wenn jetzt das Speicherinterface 50% mehr an Bandbreite liefert, dann kann man oft nahezu zu 100% in Mehrleistung umsetzen. Das bringt einem bzgl der Effizienz nichts, wenn die ALU-Leistung der GPU auch um 50% steigt, oder sogar noch mehr.

Die GPUs rennen halt in das gleiche Problem rein, wie die Vektorrechner schon vor vielen vielen Jahren. Sie haben eine kranke theoretische Rechenleistung, aber davon kommt oft nur ein Bruchteil an, weil das Speicherinterface einfach der Flaschenhals ist.

XDR2 RAM wäre da eine wirkliche Entlastung gewesen. Sehr sehr schade, dass das nicht kommt..... :(

In der nächsten Generation muss das dann aber kommen, oder sonst irgend etwas. Ansonsten können sich AMD und nVidia den GPGPU-Markt komplett von der Backe schmieren...

Ich kann Deiner Argumentation durchaus folgen. Mir scheint es liegt ein Henne-Ei Problem vor. Die verfügbaren GPUs sind wie sie sind mit der derzeit verfügbaren (auch bezahlbaren?) Speichertechnologie verbunden. Wer mehr Leistung benötigt, als eine GPU liefern kann, muss auf n GPUs parallelisieren. Dann allerdings muss das auch wirtschaftlich umstzbar sein. Die Teslas laufen ja auch im Vergleich zu den Desktop Karten mit weniger GPU und RAM Takt, weil ein bestimmtes Budget an Leistungsaufnahme nicht überschritten werden soll (24/7 Betrieb, viele GPUs, Kühlaufwand).

Ich gebe Dir durchaus recht, dass wir lanmgsam aber sicher allein durch Verbreiterung der GPUs an andere Flaschenhälse stoßen wie Bandbreite des Speichersystems. Mehr Caches und mehr davon alleine reicht wahrscheinlich nicht aus, sondern muss kohärent bis hin zum VRAM verbreitert werden.

Lange ist es noch nicht her, dass man noch die komfortable Situation hatte zwischen RAM-Takt und Breite des Interfaces zu wählen (GT200 512bit@GDDR3 oder RV870 256bit@GDDR5). Die GPUS waren aber wohl damals noch nicht breit genug um auch von 512bit@GDDR5 zu profitieren. Heute sind sie vielleicht wohl schon zu breit dafür...

Vielleicht ist XDR2 für GPGPU Karten eine Lösung, wahrscheinlich behindert aber derzeit die Umsetztung der Umstand dass man es mit einem Monopolhersteller zu tun hat, und wartet auf andere Speichertechnologien.

Ailuros

2011-12-11, 15:28:43

Botcruscher

2011-12-11, 16:30:39

So teuer und problematisch kann ein 384Bit Interface samt PCB gar nicht sein um es als Notlösung bezeichnen zu müssen.

Duplex

2011-12-11, 18:24:08

Wenn AMD auf 512 Bit SI setzen würde, dann würde man auch kein GDDR5 mit hohen Takt mehr brauchen, dann könnte man auf den billigsten GDDR5 setzen, dank großen Speicherinterface sollte man genug Bandbreite haben.

Nvidia musste damals beim GT200 wegen DDR3 auch auf 512 Bit SI setzen und es gab keine Probleme bzgl. Preise.

AnarchX

2011-12-11, 18:29:28

Eine 448-Bit GTX 260 hat man bis fast runter zu 100€ verkauft. ;)

Wenn man sich die doch etwas seltsame Anordnung der Speichermodule, Modul auf PEG-Seite, bei Tahit anschaut, ist wohl 384-Bit bei einem <400mm² Die und mit den Anforderung von >5.5Gbps Datenrate, nicht ganz so unproblematisch.

512-Bit und die Verwendung von Green GDDR5 mit 1,35V wäre durchaus nett gewesen.

Duplex

2011-12-11, 18:32:26

Am Anfang wurde der GT200 für 450-500 & 300-350 € angeboten, erst nach dem RV770 Start hat Nvidia die Preise korrigiert, wenn Kepler mit 1024-1D Shader & 512 Bit SI kommt wird AMD auch die Preise etwas senken müssen, vorrausgesetzt Tahiti XT wird Anfangs für 450-500 € angeboten, bei +70% Tahiti XT vs. Cayman XT wird die 7970 auch mind. 450,- kosten.

Aber die <400mm² sind doch noch garnicht für Tahiti XT gesichert , <400mm² könnte auch ein Performance Chip für die 7870 werden.

fondness

2011-12-11, 18:38:46

Wenn man sich die doch etwas seltsame Anordnung der Speichermodule, Modul auf PEG-Seite, bei Tahit anschaut, ist wohl 384-Bit bei einem <400mm² Die und mit den Anforderung von >5.5Gbps Datenrate, nicht ganz so unproblematisch.

Woraus schließt du das? Da geht es doch nur um die Kosten, wenn man alle Module auf einer Seite unter bekommt erlaubt das ein deutlich einfacheres PCB.

AnarchX

2011-12-11, 18:39:06

Aber die <400mm² sind doch noch garnicht für Tahiti XT gesichert , <400mm² könnte auch ein Performance Chip für die 7870 werden.
Eine 7870 mit 384-Bit SI?
Laut aktuellen Schätzung wird Tahiti nicht deutlich über 400mm² liegen, also unter anderen 384-Bit GPUs wie G80 mit 484mm² und GF110/GF100 mit ~520mm².

Woraus schließt du das? Da geht es doch nur um die Kosten, wenn man alle Module auf einer Seite unter bekommt erlaubt das ein deutlich einfacheres PCB.
Das hat NV bei GT200b und GF100/110 auch geschafft. Aber das Modul in der Nähe des PEGs wird wohl entsprechend zusätzliche Layer zur Isolation erfordern.

Duplex

2011-12-11, 18:43:53

Eine 7870 mit 384-Bit SI?
Laut aktuellen Schätzung wird Tahiti nicht deutlich über 400mm² liegen, also unter anderen 384-Bit GPUs wie G80 mit 484mm² und GF110/GF100 mit ~520mm².
Vielleicht 7870 mit 256 Bit & 300-330mm² mit GTX460 TDP, ähnlich wie Cypress?
Sind die 384 Bit überhaupt schon gesichert?
Warum soll Tahiti so klein ausfallen?

AnarchX

2011-12-11, 18:49:27

Vielleicht 7870 mit 256 Bit & 300-330mm² mit GTX460 TDP, ähnlich wie Cypress?
Die Schätzungen des Dies liegen eher in Richtung 400mm², anstatt 300mm².

Sind die 384 Bit überhaupt schon gesichert?
Warum sollte man sonst 12 Speicherchips auf eine PCB-Seite so aufwendig verteilen? Zudem ist das PCB bis 375W-fähig, was klar gegen eine Performance-Karte spricht.

Warum soll Tahiti so klein ausfallen?
~380mm² @ 28nm sind alles andere als "klein".

edit: Jetzt verlinkt VR-Zone schon auf unseren Thread zurück: http://vr-zone.com/articles/rumour-amd-tahiti-hd-7900-specifications--details/14199.html ;D

Duplex

2011-12-11, 19:00:51

Warum sollte man sonst 12 Speicherchips auf eine PCB-Seite so aufwendig verteilen? Zudem ist das PCB bis 375W-fähig, was klar gegen eine Performance-Karte spricht.
Und sicher das es sich um ein Radeon Modell auf Basis von GCN handelt?
Vielleicht handelt es sich bei den Bilder um alte Prototypen von gecancelte 32nm Projekte?
Kann ja sein das man absichtlich falsche Informationen verbreiten möchte?

~380mm² @ 28nm sind alles andere als "klein".
Im vergleich zu Kepler @1024 Shader & 512 Bit wäre das DIE von AMD dann aber möglicherweise 40% kleiner.

AnarchX

2011-12-11, 19:06:14

Im vergleich zu Kepler @1024 Shader & 512 Bit wäre das DIE von AMD dann aber möglicherweise 40% kleiner.
Kepler >600mm². :ulol: Zumal man momentan darüber spekuliert, dass GK110/100 vielleicht etwas später kommt, als GK104, der gegen Tahiti antreten könnte.

Duplex

2011-12-11, 19:09:47

Also wenn Tahitis Fläche wie Cayman & Kepler etwa wie GF110 ausfällt, dann haben wir 380 vs. 530mm² = 40% Unterschied.

Wenn Nvidia die Shader von Fermi > Kepler verdoppelt wird die Fläche durch 28nm wohl kaum kleiner als GF110 @520mm² ausfallen

Ailuros

2011-12-11, 19:19:54

So teuer und problematisch kann ein 384Bit Interface samt PCB gar nicht sein um es als Notlösung bezeichnen zu müssen.

Notloesung im Sinn dass 256bit + GDDR5 nicht genug Bandbreite bei logischem Stromverbrauch geliefert haette. Bei >6 Gbps soll GDDR5 auch leistungsmaessig schlecht skalieren. Anders wenn man schnellen genug Speicher haette, haette es keinen Grund fuer >256bit Busbreite gegeben.

Also wenn Tahitis Fläche wie Cayman & Kepler etwa wie GF110 ausfällt, dann haben wir 380 vs. 530mm² = 40% Unterschied.

Wenn Nvidia die Shader von Fermi > Kepler verdoppelt wird die Fläche durch 28nm wohl kaum kleiner als GF110 @520mm² ausfallen

Kommt drauf an was man mit "verdoppelung" genau meint bei Kepler; denn alleine GK104 der Performance Kepler soll weit ueber 2 TFLOPs liegen.

Sonst ja: wenn eine Performance GPU wie Tahiti irgendwo <400mm2 liegt, kommt ein high end chip wohl schwer mit <500mm2 davon.

AnarchX

2011-12-11, 19:38:05

Also wenn Tahitis Fläche wie Cayman & Kepler etwa wie GF110 ausfällt, dann haben wir 380 vs. 530mm² = 40% Unterschied.

Zwischen 40% größer und 40% kleiner ist ein gewisser Unterschied.

Notloesung im Sinn dass 256bit + GDDR5 nicht genug Bandbreite bei logischem Stromverbrauch geliefert haette. Bei >6 Gbps soll GDDR5 auch leistungsmaessig schlecht skalieren. Anders wenn man schnellen genug Speicher haette, haette es keinen Grund fuer >256bit Busbreite gegeben.

Hat denn überhaupt ein Hersteller 7Gbps GDDR5 produktionsreif im Angebot?

davidzo

2011-12-11, 19:56:59

edit: Jetzt verlinkt VR-Zone schon auf unseren Thread zurück: http://vr-zone.com/articles/rumour-amd-tahiti-hd-7900-specifications--details/14199.html ;D

ich bin absolut beleidigt, nicht weil sie nicht gefragt haben sondern weil sie behaupten ich hätte das mit Photoshop gemacht.

Das ding heißt THE GIMP! und es hat verdient genannt zu werden!

arghh das regt mich mal wieder auf, wie sollen denn die daus lernen dass es tolle FOSS gibt wenn solche larifari journalisten die hegemonie so leichtgläubig unterstützen.

Könnte da mal jemand im Sinne des 3D-center intervenieren?

Ailuros

2011-12-11, 23:04:56

Hat denn überhaupt ein Hersteller 7Gbps GDDR5 produktionsreif im Angebot?

http://forum.beyond3d.com/showpost.php?p=1603040&postcount=1051

I don't think the difference in power consumption will be much more than a linear scale up. If so, it'd be a simple choice between power and performance. One that many would be willing to make.

A bigger argument against the 7Mbps is that the performance increase doesn't scale as expected. There is a threshold (5.5Mbps?) above which addition restrictions are imposed wrt bank access patterns, which can result in performance hit. It was mentioned in an Anandtech article, but I can't find it right now. The result would be that, e.g. 6Mbps will be a net negative and you have to go higher to recoup that loss.

Ich weiss zwar nicht wo silentguy arbeitet, aber er ist afaik ein engineer.

Skysnake

2011-12-12, 00:43:52

Skysnake,

Fuer diese Generation und eine GPU wie Tahiti reichen 264GB/s an Bandbreite durchaus aus. Das einzige Problem ist dass >6Gbps GDDR5 zu viel Strom verbraucht und kontraproduktiv wird. Ergo waren 384bit wohl eine Notloesung fuer AMD um die extra 50% Bandbreite zu liefern zu der GDDR5 nicht faehig war.

Wenn nicht ab Maxwell dann definitiv bei Echelon brauchen IHVs effektivere Loesungen als die bisherigen.

Wo sollen die denn bitte locker reichen, wenn heute schon das Speicherinterface im GPGPU-Bereich eigentlich immer limitiert. Wenn hat man meistens einen Flaschenhals beim RAM. Es gibt zwar auch Situationen, in denen die ALUs limitieren, das ist aber eher der geringere Anteil an Anwendungen, soweit ich das abschätzen kann.

Wenn also die ALU-Rechenleistung>50% steigt, und die RAM-Bandbreite um genau 50%, wie soll dass dann bitte locker reichen, wenn es jetzt schon nicht reicht...

Das Problem wird dadurch nur noch größer....

Die Speicherbandbreite sollte für GPGPU schon stärker steigen, als die Rechenleistung.

So und nun noch was zu dem direkt über mir:
Kann höchstens an schlechten Timings oder whot ever liegen, wobei ich das nicht so recht glauben kann.:confused:

Hört sich sehr seltsam an.

Ailuros

2011-12-12, 01:00:50

Wo sollen die denn bitte locker reichen, wenn heute schon das Speicherinterface im GPGPU-Bereich eigentlich immer limitiert. Wenn hat man meistens einen Flaschenhals beim RAM. Es gibt zwar auch Situationen, in denen die ALUs limitieren, das ist aber eher der geringere Anteil an Anwendungen, soweit ich das abschätzen kann.

Das einzige worueber ich mir beim schnellen "abschreiben" nicht sicher bin sind die Anzahl der ROPs bei Tahiti; angenommen 64 welches mehr als nur wahrscheinlich ist hat das Ding fuer ~110% mehr Pixel-fuellrate "nur" ~83% mehr Bandbreite im Vergleich zu Cayman.

Die Welt fuer AMD's GDP dreht sich nicht nur rund um ALUs (wie bei jeglicher GPU sonst kann man gleich CPUs bauen) und schon gar nicht nicht nur um HPC.

Insgesamt ist der Zusatz in Fuellraten generell um einiges hoeher als in sterilen GFLOPs, ergo bleibt erstmal abzusehn warum AMD sich fuehlte dass sie ploetzlich so viel zusaetzliche Pixelfuellrate brauchten als Anfang.

Wenn also die ALU-Rechenleistung>50% steigt, und die RAM-Bandbreite um genau 50%, wie soll dass dann bitte locker reichen, wenn es jetzt schon nicht reicht...

Nur 44% in sterilen GFLOPs im Vergleich zu Cayman.

Das Problem wird dadurch nur noch größer....

Die Speicherbandbreite sollte für GPGPU schon stärker steigen, als die Rechenleistung.

So und nun noch was zu dem direkt über mir:
Kann höchstens an schlechten Timings oder whot ever liegen, wobei ich das nicht so recht glauben kann.:confused:

Hört sich sehr seltsam an.

Ich will nicht stets das gleiche Zeug wiederkauen. Der Preis einer Tahiti ist ohnehin schon pfiffig genug und kein Verbraucher wuerde um einiges mehr dafuer bezahlen fuer extreme Zahlen-cruncherei. Tahiti liefert nur einen Schnitt unter 1 TFLOP DP welches nicht allzu weit unter dem 64 core Intel Monster unter 22nm liegt. Das bei einem groesseren Herstellungsprozess, weniger effektiver Bandbreite und um einiges weniger die area mit sehr hoher 3D Effizienz.

Skysnake

2011-12-12, 01:31:29

Na wenn die Rechenleistung nur um 44% steigt, dann ist das ein Schritt in die richtige Richtung.

Von welcher Bandbreite sprichst du gerade bei den 83%?

Wenn dass die Gesamtbandbreite ist, also von den Caches an gezählt, dann wäre das natürlich sogar ein sehr großer Schritt in die richtige Richtung. Dann müssten die Caches wohl deutlich größer werden als bei Cayman, was ja auch durchaus zu erwarten war.

Kurz um 83% mehr Bandbreite bei 44% mehr Rechenleistung würde ziemlich gut aussehen für GPGPU. Die Anwendungen die dann noch immer nicht gut performen, haben dann halt pech gehabt, man sollte aber deutlich öfters die Peak-Leistung erreichen können. Gerade wenn ich an Sachen wie DGEMM etc. denke, dann sollte das mehr oder weniger sich dann ausgehen, bzw. man sollte über 70% Auslastung kommen.

Seis jetzt auch drum. Lange wirds GDDR5 Ram eh nicht mehr machen. Wenn der Umstieg auf XDR2 oder sonst was ähnliches kommt, dann gehts ab. Die Consumerkarten bekommen ein popel Interface, und die ProfiKarten ein relativ "fettes", und alle sind glücklich.

Bzgl. MIC bs. Tahiti
Naja, wenn Sie dicht dran sind, ist das nicht schlecht, man wird aber schauen müssen, wie einfach wirklich MIC zu effizient zu programmieren ist, und was die Jungs von Intel für so ne Karte verlangen.

Wenn das Ding 4k€ kostet, wird sich der Absatz in Grenzen halten, so lange es nicht abartige Unterschiede in der Programmierbarkeit gibt. Das ist halt in meinen Augen die große Unbekannte.

Jeder kann sequenziellen Code schreiben.
Viele können effizienten sequenziellen Code schreiben.
Eine ganze Reihe von Leuten können effizienten parallelen Code schreiben.
Aber nur ganz wenige Leute können wirklich effizienten Code für GPUs schreiben.

Wenn man sich mit der Programmierbarkeit bei der vorletzten Gruppe einsortiert, dann ist das für MIC ein echter Vorteil, den man nicht unterschätzen sollte.

Ich hab die letzten Wochen erst gemerkt, wie leicht es einem eigentlich mit der Zeit fällt parallelen Code für CPUs zu schreiben, aber was für Probleme einen das verkackte debuggen eines OpenCL/Cuda Codes macht.... Da bekomm ich teils echt nen Hals, weils einfach kacke zum debuggen ist....

Ailuros

2011-12-12, 01:44:40

AffenJack

2011-12-12, 10:16:26

Tahiti hat um 83% mehr Bandbreite als Cayman. <1 TFLOP DP bei Tahiti ist sowieso nur fuer desktop. Afaik kann die SP<->DP Relation zwischen 2:1 und 16:1 eingestellt werden. 8:1 wie auf GF1xx ist erstmal nicht.

83%? Wie kommst du auf die 83%?
Eben waren wir noch bei 50%? 83% wären ja nur mit 7gb/s Speicher möglich.

Dural

2011-12-12, 10:19:50

wie so geht ihr alle noch von 2048SP aus?
ORB hat ja gesagt das es weniger sind...

Raff

2011-12-12, 10:24:03

OBR ist aber nicht Gott.

Das einzige worueber ich mir beim schnellen "abschreiben" nicht sicher bin sind die Anzahl der ROPs bei Tahiti; angenommen 64 welches mehr als nur wahrscheinlich ist hat das Ding fuer ~110% mehr Pixel-fuellrate "nur" ~83% mehr Bandbreite im Vergleich zu Cayman.

Wo limitieren die ROPs denn bei "üblichen" Workloads (gemeint sind Spiele)? Soweit ich weiß nie.

MfG,
Raff

Skysnake

2011-12-12, 10:26:59

Die Vorteile von Knights corner sind mir durchaus klar, aber ebenso auch die Nachteile. Intel kann ausser HPC nichts mit dem Zeug anfangen momentan. Als Intel es vorzeigte vor kurzem lief es auf 1GHz und finale hw koennte vielleicht bei ca. 1.2GHz liegen. Anders ein Spezialfall mit nur sehr begrenzter Anwendung. Unter 28nm brauechten sie ungefaehr <3 Tahiti dies um Knights corner reinzuquetschen und dabei mit nur knapp ueber 2 TFLOPs SP und es fehlt dann auch noch einiges fuer eine wirkliche GPU.

Tahiti hat um 83% mehr Bandbreite als Cayman. <1 TFLOP DP bei Tahiti ist sowieso nur fuer desktop. Afaik kann die SP<->DP Relation zwischen 2:1 und 16:1 eingestellt werden. 8:1 wie auf GF1xx ist erstmal nicht.

Das sich die DP:SP Ratio einstellen lässt ist ja seit längerem bekannt. Ich hoffe aber noch immer, dass sie die Karten im High-End-Desktop nicht bei der DP-Leistung beschneiden.

Naja, und das MIC nur für HPC eignet ist zwar blöd, aber die Entwicklungskosten sind eh angefallen, und Intel wird einen gesalzenen Preis verlangen. Für die ist jeder verkaufte MIC eine nicht verkaufte Tesla/FirePro.

Aber jetzt spekuliere ich mal ;D

Du meinst, die <1TFlop DP wären nur beim Desktop-Modell gegeben. Da die Profikarten normal niedriger Takten, spricht das für eine 1:2 Ratio bei den Profikarten und 1:4 für die Desktop-Karten. Das würde dann bedeuten Tahiti hätte zwischen 1,5 und 2 TFLop/s DP und zwischen 3 und 4 TFlop/s SP. Das wäre schon nicht schlecht, und Tahiti könnte damit eventuell sogar an MIC heran kommen, wenn man die gleiche Effizienz wie bisher beibehält, oder vielleicht sogar leicht steigert, wovon aus zu gehen ist.

Am Ende wirds aber eh der Preis in Verbindung mit Features, Energieverbrauch und Programmierbarkeit regeln. Intel wird aber sicherlich ziemlich viel Kohle in den Compiler stecken.

Aber sehen wir es mal so, Konkurrenz belebt das Geschäft :biggrin:

y33H@

2011-12-12, 10:30:28

ORB hat ja gesagt das es weniger sind ...Nein. OBR hat nicht gesagt ob HD 7970 oder HD 7950 ;)

Spasstiger

2011-12-12, 10:31:46

Intel wird MIC sicherlich auch mit einem Xeon und einem Xeon-Board im Bundle verkaufen, so dass man nicht nur NV Marktanteile nimmt, sondern auch x86-Konkurrent AMD.
Teslas werden ganz gerne zusammen mit AMD Opterons eingesetzt, siehe Cray.

AMD sollte sich mit GCN auf jeden Fall wieder stärker im HPC-Segment engagieren, sonst laufen sie Gefahr, in diesem Segment in der Bedeutungslosigkeit zu verschwinden.

MadManniMan

2011-12-12, 10:33:29

tl;

Kann ma einer den aktuellen Wissens-/Gerüchtestand für Manni zusammenfassen? ;( Bitte?

S940

2011-12-12, 10:34:45

wie so geht ihr alle noch von 2048SP aus?
ORB hat ja gesagt das es weniger sind...
OBR sagt, viel. Obs richtig ist, oder er einen verarscht, weiß man nie. Seine Glaubwürdigkeit ist nach den ganzen Spielereien = Null.

Der Informationsstand hier ist dagegen deutlich besser, hier versucht jeder nach bestem Wissen und Gewissen Schlüsse zu folgern. Den Wissenstands der Teilnehmer stufe ich eher als hoch++ ein, ergo sollten die Schlüsse nicht weit weg vom Schuss sein ;-)

tl;

Kann ma einer den aktuellen Wissens-/Gerüchtestand für Manni zusammenfassen? Bitte?

Guckst Du da:
http://www.3dcenter.org/news/2011-12-11

Dural

2011-12-12, 10:46:32

hmmm also auch ich finde 2048SP Skaler Einheiten für eine 350mm2 Die schon als sehr viel, OK ohne Hot-Takt :rolleyes:

NV dürfte bei der selben Die grösse wohl nicht mal 1024SP unter bringen.

MadManniMan

2011-12-12, 10:47:10

Ah OK, ich nahm an, Leo wäre immer so einen halben bis einen Tag hinterher - und die neue Woche hatte ja schon angefangen. Danke ;)

Gipsel

2011-12-12, 10:48:46

Intel wird MIC sicherlich auch mit einem Xeon und einem Xeon-Board im Bundle verkaufen, so dass man nicht nur NV Marktanteile nimmt, sondern auch x86-Konkurrent AMD.
Teslas werden ganz gerne zusammen mit AMD Opterons eingesetzt, siehe Cray.Ein großer Vorteil von MIC dürfte sein, daß Intel dafür einen ordentlichen bis richtig guten Compiler zimmern wird (bzw. schon hat), womit sich das mit minimalem Aufwand in bestehenden Anwendungen nutzen läßt (Neucompilierung plus mit ein paar Direktiven im Code ergänzt).
NVidia hängt sich nicht umsonst wie wild bei Cray mit rein, daß die dort ein vergleichbares Ökosystem mit den Compilern und Bibliotheken auf die Beine stellen.

Skysnake

2011-12-12, 10:59:18

Jup, dem würde ich auch mal zustimmen.

AnarchX

2011-12-12, 11:10:59

wie so geht ihr alle noch von 2048SP aus?
ORB hat ja gesagt das es weniger sind...
Er hat gezeigt, dass eine 79xx weniger als 2048SPs hat. Was wohl die 7950 sein könnte.

Dural

2011-12-12, 11:25:50

Na da kann ich dazu nur sagen: die pfeifen bei NV sollen mal ihre Einheiten kleiner machen :freak:

Aber am Ende entscheidet halt immer die Effizient :wink:

ndrs

2011-12-12, 11:34:13

Gipsel

2011-12-12, 12:05:06

Wie hoch war denn eigentlich die Auslastung der ALUs bei VLIW4/5? Ist die Zahl 3,5/5 die ich im Gedächtnis hab korrekt? Ich würde gern mal die prognostizierten 2048 ALUs bei praktischer Anwendung ins Verhältnis setzen.
Als Durchschnitt über viele Spiele ist das korrekt. Im Einzelfall bzw. in anderen Anwendungen schwankt das allerdings sehr stark (gibt auch Spiele, wo es über 4/5 liegt).

Coda

2011-12-12, 12:24:23

Man muss auch bedenken, dass die 3,5/5 als Durchschnitt verzerrt sind, weil die Spiele-Entwickler natürlich AMD-Karten nicht einfach ignorieren können.

Bei Straight-Forward-Code würde das evtl. nochmal anders aussehen.

Spasstiger

2011-12-12, 12:48:32

Bei VLIW4 wurde die durchschnittliche Peak-Auslastung angeblich schon auf 3,2/4 erhöht.

Gipsel

2011-12-12, 13:16:24

Bei VLIW4 wurde die durchschnittliche Peak-Auslastung angeblich schon auf 3,2/4 erhöht.
Die Zahl kommt nicht von AMD, sondern von mir. :D
Die ist also etwas mit Vorsicht zu genießen, auch weil z.B. transzendente Funktionen oder 32Bit Integer-Multiplikationen jetzt mehr Slots belegen als vorher.

ndrs

2011-12-12, 13:31:45

Gipsel

2011-12-12, 14:03:32

Kann ich dann also SEHR GROB betrachtet überschlagen, dass die 1600 VLIW5-Einheiten einer 5870 die praktische Rechenleistung von (1600/5*3,5) 1120 1D-SPs hätten? Ich will nur mal für mich einen kleinen Milchmädchenvergleich haben.
Für eine Milchmädchenrechnung kann man das so machen, allerdings eben nur für den durchschnittlichen Spieleshader, da kann es im Einzelfall erhebliche Abweichungen geben (zudem die Shaderleistung nur in wenigen Szenarien ein hart limitierende Größe darstellt, also häufig nicht wirklich entscheidend für die Spieleperformance ist).

ndrs

2011-12-12, 14:18:37

Gipsel

2011-12-12, 14:28:07

Mehr als diese grobe Zahl wollte ich auch nicht wissen. Mir gings nur darum, ob vllt die neuen Shader architekturbedingt noch an einer anderen Stelle mehr pro Takt können, als die alten. Danke für die Klarstellung
Wenn es nicht nur um die reine Rechenleistung geht, kann man auch noch solche Dinge wie Kontrollfluß (if then else) anführen, wo GCN bei engen Konstrukten (also wenig Code in den einzelnen Zweigen) auch 3 bis 4 mal so schnell sein kann im Vergleich zu einer VLIW-GPU mit der gleichen Anzahl an Einheiten. Ähnliches gilt für Lese-Schreib-Zugriffe auf den globalen Speicher (Vektor-L1 und L2 sind bei GCN Lese-/Schreibcaches). Aber sowas würde ich schon bald der oben erwähnten Einzelfallbetrachtung überantworten (und es ist bei Spielen auch nicht so wichtig).

Ailuros

2011-12-12, 15:26:33

Arrghh wenn man beim arbeiten noch schnell in fora reintippt schleicht so mancher Fehler rein. Nichts mit der brutalen Pixel-Fuellraten Steigerung auf Tahiti; es sind genauso viel ROPs wie auf Cayman.

Ergo muss ich anstandshalber einen Rueckzieher machen und mich bei Skysnake entschuldigen, denn der brutale Bandbreiten-Zuwachs kann nur ALU orientiert sein.

Sonst sollte man entweder aehnliche oder schlimmere Lieferungs-probleme zu Cypress erwarten fuer die ersten 2 wenn nicht 3 Monate und dieses koennte auch mein Preis-raetsel beantworten.

Gipsel

2011-12-12, 15:39:27

32 ROPs und 384 bit Speicherinterface? :|
The Return of Ringbus!

Coda

2011-12-12, 15:54:53

Wieso keine Crossbar?

Ailuros

2011-12-12, 15:56:24

32 ROPs und 384 bit Speicherinterface? :|
The Return of Ringbus!

Nein. Ich wurde doch hier im Forum belehrt dass die ROPs entkoppelt sind. Daher ist es wohl auch wurscht ob es 32,48 oder sogar 64 waeren auf einem 384bit bus.

Coda

2011-12-12, 15:58:02

Waren die bei AMD nicht sowieso schon immer entkoppelt?

Ailuros

2011-12-12, 16:08:00

Waren die bei AMD nicht sowieso schon immer entkoppelt?

Ja nur passte eben bisher komischerweise die Anzahl der ROPs den hypothetischen ROP partitions die man im Gegenfall haette. Cayman hat 32 ROPs welches eben sich durch 4 (*64bit) teilen laesst. Deshalb ist es wohl auch ziemlich verwirrend wenn man ploetzlich 32 auf 384bit hat.

Gipsel

2011-12-12, 16:08:35

Wieso keine Crossbar?
Noch eine?
Waren die bei AMD nicht sowieso schon immer entkoppelt?
Wohl nur beim R600 mit seinem Ringbus.

Momentan gibt es eine Crossbar, die zwischen den CUs und den ROP-/Speichercontroller-Partitionen sitzt. Je nach Lage eines Pixels im Rendertarget und somit der Zuordnung zu einem Screen-Tile gibt es genau eine zuständige ROP-Partition (erhöht die Lokalität der "Tilecaches" in den ROPs). Jede ROP-Partition hängt aber bisher fest an einem Speichercontroller. Also entweder hängt man da noch eine Crossbar dazwischen (was ziemlich sinnlos aussieht), oder jede CU (bzw. Gruppe von CUs) bekommt ihre eigene ROP-Partition und es gibt dann eine Crossbar zu den Speichercontrollern. Im letzteren Fall müßte man sich wohl allerdings eine andere Funktionsweise für die Caches in den ROPs überlegen (oder man akzeptiert, daß die Effizienz sinkt :rolleyes:).

Edit:
Wenn man sich aber die Präsentationen vom AFDS in Erinnerung ruft, wurde da auch sehr unscharf erwähnt, daß man sowohl die Rastereinheiten als auch die ROPs skalieren könnte. Also vielleicht wirklich eine andere Organisation mit Rasterizer sowie ROPs zu CU-Gruppen zugeordnet und die Crossbar hinter den ROPs zu den Speichercontrollern.

Coda

2011-12-12, 16:10:52

Noch eine?
Ja. Und?

Ich sehe bei einem solchen Link nich unbedigt die notwendigkeit eines Ringbusses. Aber ausschließen kann ich es nicht.

Gipsel

2011-12-12, 16:16:37

Ja. Und?
Irgendwann werden die ganzen Crossbars redundant und führen nicht mehr zu einem besseren Load-Balancing sondern komplizieren nur noch das Design, zumal Crossbars nicht linear mit der Anzahl der Clients skalieren, sondern schlechter (also stärker, was der Grund war, warum AMD beim R600 einen Ringbus eingesetzt hat, das geht nämlich nur linear mit der Anzahl der Clients).

Aber das ist eben einer der Punkte, mit denen SI steht oder fällt. Wie haben die die Work-Distribution auf den verschiedenen Ebenen gelöst. Anders als bei den VLIW-Architekturen ja in jedem Fall. Die Frage ist, ob sie alles umgekrempelt haben (was eventuell die unabhängige Skalierung von ROPs zu Speicherinterface ermöglicht) oder nur den Teil vor den CUs.

Dural

2011-12-12, 16:20:30

bedeutet jetzt 32 oder 64ROPs?

32 wären ja sehr mager :rolleyes:

Ailuros

2011-12-12, 16:25:06

32 wären ja sehr mager :rolleyes:

GK104 hat genauso viel.

Gipsel

2011-12-12, 16:29:17

bedeutet jetzt 32 oder 64ROPs?

32 wären ja sehr mager :rolleyes:
Da die Wavefronts bei 64 Elementen bleiben, würde ich auch fast tippen, daß die Rasterizer bei 16 Pixel/Takt bleiben (was bei kleinen Dreiecken eine geringere Effizienz bietet als nVidias Lösung mit 8 Pixel/Takt). Nimmt man an, daß sie grob auf GF100-Niveau (bei kleinen Dreiecken) zielen, müßten sie schon 4 davon verbauen (GF100 kann 4x8 Pixel). Das wären dann maximal 64 Pixel/Takt für die Rasterizer (was erstmal nichts Zwingendes für die ROPs bedeutet). Unter der weiteren Annahme, daß sie soviele ROPs verbauen werden, wie die Rasterizer maximal schaffen, würde man bei 64 ROPs landen. Aber da sind eben ziemlich viele Annahmen und "falls" dabei. Kurz, ich habe keine Ahnung, würde im Zweifelsfall aber natürlich 64 den 32 vorziehen. Oder es sind doch 48. :wink:

Ailuros

2011-12-12, 16:31:25

Edit:
Wenn man sich aber die Präsentationen vom AFDS in Erinnerung ruft, wurde da auch sehr unscharf erwähnt, daß man sowohl die Rastereinheiten als auch die ROPs skalieren könnte. Also vielleicht wirklich eine andere Organisation mit Rasterizer sowie ROPs zu CU-Gruppen zugeordnet und die Crossbar hinter den ROPs zu den Speichercontrollern.

Schoen; aber es machte mir nirgends Sinn dass Tahiti ploetzlich mit 64 ROPs ankommt. Weder Cypress noch Cayman haben mit ihren 32 ROPs irgend ein offensichtliches Problem gehabt selbst mit 8xMSAA sich gegen die 48 ROPs eines GF100 bzw. GF110 zu stellen.

Zugegeben AMD haette vielleicht auch auf hypothetische 48 ROPs gehen koennen um eine bessere Pixel-Fuellrate-Steigerung zu erreichen, aber irgendwo muss man mit dem ganzen feature-creep auch Halt machen ueberhaupt wenn man mit 32 ROPs schon ziemlich nahe an 400mm2 liegt.

Natuerlich koennen sie spaeter die Anzahl der ROPs skalieren, aber dafuer muss es dann aber ziemlich deutliche Indizien geben dass die Pixel-Fuellrate limitiert, dass die Konkurrenz bei NxMSAA bessere Effizienz aufweist oder beides.

Gipsel

2011-12-12, 16:54:30

Weder Cypress noch Cayman haben mit ihren 32 ROPs irgend ein offensichtliches Problem gehabt selbst mit 8xMSAA sich gegen die 48 ROPs eines GF100 bzw. GF110 zu stellen.
[..]
Zugegeben AMD haette vielleicht auch auf hypothetische 48 ROPs gehen koennen um eine bessere Pixel-Fuellrate-Steigerung zu erreichen, aber irgendwo muss man mit dem ganzen feature-creep auch Halt machen ueberhaupt wenn man mit 32 ROPs schon ziemlich nahe an 400mm2 liegt.

Natuerlich koennen sie spaeter die Anzahl der ROPs skalieren, aber dafuer muss es dann aber ziemlich deutliche Indizien geben dass die Pixel-Fuellrate limitiert, dass die Konkurrenz bei NxMSAA bessere Effizienz aufweist oder beides.
Nun, die 48 ROPs bei GF100/110 waren ja auch praktisch umsonst. Das waren nur 48, weil man die nicht unabhängig vom Speicherinterface skalieren konnte und 24 dann doch zu wenig gewesen wären. Vor einem ähnlichen Problem könnte auch AMD stehen, will man nicht die bisher erprobte Strategie der Unterteilung des Rendertargets in Tiles, die dann auf die Rasterizer und die ROPs verteilt werden (aus Load-Balancing Gründen ist die Zuordnung so, daß es möglichst kein Aliasing zwischen Rasterizern und ROPs gibt), aufgeben. Zumal sind 48 ROPs bei einem Performance-Target oberhalb der GTX580 doch schon eher zu rechtfertigen, oder? Vielleicht verbaut AMD ja dann auch sozusagen passend drei 16-Pixel/Takt Rasterizer. Macht das Frontend etwas einfacher und sollte heute und morgen noch locker reichen (falls das dann mal effizienter als noch bei Cayman mit Tess funktioniert, sprich mit >2 GTri/s).

Ronny145

2011-12-12, 17:02:25

http://www.donanimhaber.com/ekran-karti/haberleri/Resmi-AMD-Radeon-HD-7900-serisinin-lansman-tarihi-kesinlesti.htm

Launch 9. Januar.

Nakai

2011-12-12, 17:09:40

Um mal wieder zu Spekulieren:
Ich gehe davon aus, dass man bei AMD diesmal ziemlich konservativ an die Sache rangeht. Vor allem weil man sich an einer neuen Archiektur ranwagt. Es wurde eh schon gemunkelt das GCN nicht soviel effizienter in der reinen 3D-Leistung sein wird. Ich erwarte eh nur eine Effizienzsteigerung von 20 bis 30%.
Und woher kommen eigentlich die ominösen 2048SPs und die 128 TMUs?
IMO passt das nicht zu einem 384Bit SI.

AMD wird versuchen eine HD7950 gegen eine GTX580 zu positionieren. Eine HD7970 wird dann nochmal 20 bis 30% darüberliegen. Das ist aus meiner Sicht vernünftig. Natürlich besteht die Gefahr danach von NV mit Kepler ordentlich aufs Maul zu kriegen, aber da wird man einen Refresh im H2 2012 in der Hinterhand haben.
IMO wird man erst versuchen dem Mainstream mehr Aufmerksamheit zu widmen.

Gipsel

2011-12-12, 17:14:10

Und woher kommen eigentlich die ominösen 2048SPs und die 128 TMUs?
IMO passt das nicht zu einem 384Bit SI.Das paßt genau so wie Fermis 512 SPs und 64 TMUs zu einem 384Bit Speicherinterface. :rolleyes:

Ailuros

2011-12-12, 17:19:48

Um mal wieder zu Spekulieren:
Ich gehe davon aus, dass man bei AMD diesmal ziemlich konservativ an die Sache rangeht. Vor allem weil man sich an einer neuen Archiektur ranwagt. Es wurde eh schon gemunkelt das GCN nicht soviel effizienter in der reinen 3D-Leistung sein wird. Ich erwarte eh nur eine Effizienzsteigerung von 20 bis 30%.

Haut doch in etwa hin wenn Du die rohen Leistungsdaten und die Effizienzsteiterung mitrechnest.

Und woher kommen eigentlich die ominösen 2048SPs und die 128 TMUs?
IMO passt das nicht zu einem 384Bit SI.

Wieso nicht? Immerhin um zich Male logischer als XDR2.

AMD wird versuchen eine HD7950 gegen eine GTX580 zu positionieren. Eine HD7970 wird dann nochmal 20 bis 30% darüberliegen. Das ist aus meiner Sicht vernünftig. Natürlich besteht die Gefahr danach von NV mit Kepler ordentlich aufs Maul zu kriegen, aber da wird man einen Refresh im H2 2012 in der Hinterhand haben.
IMO wird man erst versuchen dem Mainstream mehr Aufmerksamheit zu widmen.

Die 7950 duerfte ein gutes Stueck vor der GTX580 liegen und die 7970 nur einen Schnitt unter der 6990.

Nakai

2011-12-12, 17:31:52

Wieso nicht? Immerhin um zich Male logischer als XDR2.

Ich habe keine Ahnung von den Ausmaßen der Effizienzsteigerungen von GCN.
Umso mehr SPs das End-Design haben wird, umso ineffizienter sollte GCN sein. Natürlich wird man nicht ineffizienter als die VLIW4-Architektur werden.
Ebenso sind 380mm² für die DieSize angepeilt, enorme Leistungsteigerungen werden wir eher nicht sehen.
Man wird natürlich versuchen gegen jegliche GTX580 und GTX570 vorzugehen und gegen die eigene HD6990 gut dazustehen. Ergo eine HD5870 wie vor 2 Jahren.

Gegen NV befürchte ich eher einen RV670-Vergleich.

Die 7950 duerfte ein gutes Stueck vor der GTX580 liegen und die 7970 nur einen Schnitt unter der 6990.

Dann müsst GCN eine deutliche Effizienzsteigerung mit sich bringen, aber davon habe ich keine Ahnung.

Gipsel

2011-12-12, 17:41:42

Ich habe keine Ahnung von den Ausmaßen der Effizienzsteigerungen von GCN.
Umso mehr SPs das End-Design haben wird, umso ineffizienter sollte GCN sein. Natürlich wird man nicht ineffizienter als die VLIW4-Architektur werden.
Ebenso sind 380mm² für die DieSize angepeilt, enorme Leistungsteigerungen werden wir eher nicht sehen.
Man wird natürlich versuchen gegen jegliche GTX580 und GTX570 vorzugehen und gegen die eigene HD6990 gut dazustehen. Ergo eine HD5870 wie vor 2 Jahren.

Gegen NV befürchte ich eher einen RV670-Vergleich.

Dann müsst GCN eine deutliche Effizienzsteigerung mit sich bringen, aber davon habe ich keine Ahnung.
Nun, eine 6970 liegt ja nicht meilenweit hinter einer GTX580, im Schnitt vielleicht 15%. Da eine 7950 wohl mehr Ausführungsresourcen als eine 6970 haben wird (vermutlich 16% mehr SPs und TMUs, 50% breiteres Speicherinterface, eventuell auch mehr ROPs und Rasterizer), müßten die da schon was verbockt haben, damit man nicht vor der GTX580 rauskommt. Denn eine gesunkene Effizienz erwartet ja wohl keiner von GCN im Vergleich zu Cayman, oder?

Ailuros

2011-12-12, 17:48:57

Dann müsst GCN eine deutliche Effizienzsteigerung mit sich bringen, aber davon habe ich keine Ahnung.

Ich nehme mal Deine eigene 20-30% eingeschaetzte Effiezienz-steigerung gegenueber Cayman zur Hand.

Spekulative Mathe
TahitiXT vs. CaymanXT

3789 GFLOPs vs. 2703 GFLOPs = +40%
118.4 GTexels vs. 84.5 GTexels = +40%
29.6 GPixels vs. 28.2 GPixels = +5%
264 GB vs. 144 GB 176 GB = +83% +50%

Der Durschnitt bei der Milchmaedchenrechnung liegt bei +42% 34% in rohen Daten. Was genau bekommt man wenn man darauf nochmal 20% oder noch besser 30% darauf addiert?

Nakai

2011-12-12, 17:53:17

Nun, eine 6970 liegt ja nicht meilenweit hinter einer GTX580, im Schnitt vielleicht 15%. Da eine 7950 wohl mehr Ausführungsresourcen als eine 6970 haben wird (vermutlich 16% mehr SPs und TMUs, 50% breiteres Speicherinterface, eventuell auch mehr ROPs und Rasterizer), müßten die da schon was verbockt haben, damit man nicht vor der GTX580 rauskommt. Denn eine gesunkene Effizienz erwartet ja wohl keiner von GCN im Vergleich zu Cayman, oder?

Mhh, wie wird denn eine HD7950 aussehen? ;)

Natürlich wird eine HD7950 wohl schneller als eine GTX590 werden. Ich gehe aber wohl eher davon aus, dass man die HD7950 direkt gegen die GTX590 stellen wird. Natürlich wird man ein "gutes"( ;) ) psychologisches Stück drüber liegen.
Die Fragen die ich mir dann stelle: Wie liegen HD7970 und HD7950 zueinander?
Wie wird NV dagegen angehen?

Zwischen einer HD6990 und einer GTX590 liegen etwa 40%...vll Platz genug für mehr als nur 2 SKUs?

...Ich spekulier wieder zuviel...ich mach Feierabend^^

€:
Der Durschnitt bei der Milchmaedchenrechnung liegt bei +42% in rohen Daten. Was genau bekommt man wenn man darauf nochmal 20% oder noch besser 30% darauf addiert?

Ja, ihr habt ja recht.^^

|MatMan|

2011-12-12, 17:55:26

Wäre denn ne Crossbar von der Die-Fläche her kleiner als 16 ROPs? Energieeffizienter wäre eine Crossbar sicherlich nicht (jedenfalls nicht die dynamische Leisungsaufnahme)...

Der_Korken

2011-12-12, 17:56:41

...
264 GB vs. 144 GB = +83%
...

Sorry für die Zwischenfrage: Wo kommen die 144GB/s für CaymanXT her? Es müssten doch eigentlich 176GB/s (5,5Ghz*256bit) sein? Dann sind es auch nur noch +50%.

Ailuros

2011-12-12, 18:00:39

Sorry für die Zwischenfrage: Wo kommen die 144GB/s für CaymanXT her? Es müssten doch eigentlich 176GB/s (5,5Ghz*256bit) sein? Dann sind es auch nur noch +50%.

Jupp Du hast recht.

Gipsel

2011-12-12, 18:12:35

Mhh, wie wird denn eine HD7950 aussehen? ;)Also wenn eine HD7970 32 CUs mit 128 TMUs bei sagen wir mal etwas über 900MHz hat, dann wird eine HD7950 vermutlich 28 CUs mit 112 TMUs und einem Takt unter 900 MHz haben. Den genauen Takt brütet AMD wohl gerade anhand der Production Ramp Dies aus, die im Moment anfangen vom Band zu fallen (bisher hat man erheblich weniger Samples von ein paar Pilot-Wafern zum Testen).

Spasstiger

2011-12-12, 18:36:20

Dann muss AMD aber schnell brüten, wenn am 9. Januar der Release ist. Betrifft Weihnachten und Silvester eigentlich die Fertigung oder produzieren die in Fernost während den Feiertagen dieselben Stückzahlen wie sonst auch?
Den Weihnachtsurlaub von Reviewern sollte AMD auch berücksichtigen, Viele werden wohl erst wieder am 9. Januar arbeiten. Und wenn die Hardware bzw. das HD-7950-Bios erst Anfang Januar eintrudelt, werden wohl ein paar Redakteure ihren Urlaub verschieben müssen.

Raff

2011-12-12, 18:39:14

Dann muss man eben schon am 2. Januar wieder loslegen. ;)

MfG,
Raff

uweskw

2011-12-12, 18:44:49

.....
Zwischen einer HD6990 und einer GTX590 liegen etwa 40%...vll Platz genug für mehr als nur 2 SKUs?
.....

Seit wann liegen da 40%

.....

Natürlich wird eine HD7950 wohl schneller als eine GTX590 werden
.....

Hab ich was verpasst?

Superheld

2011-12-12, 18:47:16

http://www.donanimhaber.com/ekran-karti/haberleri/Resmi-AMD-Radeon-HD-7900-serisinin-lansman-tarihi-kesinlesti.htm

Launch 9. Januar.

..am 9 schon:O

Ailuros

2011-12-12, 18:47:51

Screemer

2011-12-12, 18:53:53

Seit wann liegen da 40%

Hab ich was verpasst?
die 9 soll wohl ne 8 sein.

Botcruscher

2011-12-12, 18:57:23

Sonst sollte man entweder aehnliche oder schlimmere Lieferungs-probleme zu Cypress erwarten fuer die ersten 2 wenn nicht 3 Monate und dieses koennte auch mein Preis-raetsel beantworten.

Schlechter als nicht Lieferbar kann es wohl nicht werden und ich erspare mir jetzt den Griff in die Mottenkiste mit den Jubelmeldungen zur 28nm Fertigung.

Ailuros

2011-12-12, 18:59:16

Schlechter als nicht Lieferbar kann es wohl nicht werden und ich erspare mir jetzt den Griff in die Mottenkiste mit den Jubelmeldungen zur 28nm Fertigung.

Fuer's letzte hab ich meinen Hintern schon vor geraumer Zeit gesichert :D

Captain Future

2011-12-12, 19:09:16

Denn eine gesunkene Effizienz erwartet ja wohl keiner von GCN im Vergleich zu Cayman, oder?
Hat von Bulldozer ggü. Phenom II auch keiner erwartet.

Gipsel

2011-12-12, 19:23:09

Hat von Bulldozer ggü. Phenom II auch keiner erwartet.
Doch. Okay, ich persönlich nicht, ich hatte auf im Mittel minimal gestiegene IPC mit deutlich höherem Takt spekuliert. Andere aber schon.

Skysnake

2011-12-12, 21:55:09

gipsel wäre ein Benes-Netzwerk, also ein großes keine Alternative für die crossbars?

Oder bring ich da Grad was durcheinander und ein banes-Netzwerk ist in crossbar?

gedi

2011-12-12, 23:04:20

Crossbar fungiert variabler

Gipsel

2011-12-12, 23:22:23

gipsel wäre ein Benes-Netzwerk, also ein großes keine Alternative für die crossbars?

Oder bring ich da Grad was durcheinander und ein banes-Netzwerk ist in crossbar?
Müßtest Du das nicht wissen? Ich dachte Du studierst irgend so etwas!
Aber nein, ein Benes-Netzwerk ist eine mehrstufige Topologie (die Kombination zweier Banyan-Netzwerke, welches wiederum nicht aus Crossbars, sondern aus 2x2 shuffle-Elementen besteht). Eine Crossbar ist ein einstufiges Netzwerk (deren Komplexität mit O(n²) mit der Anzahl n der verbundenen Clients skaliert bzw. n*m wenn n die Anzahl der Eingänge und m die Anzahl der Ausgäng ist). Die mehrstufigen skalieren besser (grob O(n*logn)), aber eben mit dem Nachteil der mehreren Ebenen und das sie nicht blockierungsfrei arbeiten (oder man packt zusätzliche Ebenen dazu und benutzt 2x2 Crossbars statt Shuffles als Grundelemente, dann hat man ein sogenanntes CLOS-Netzwerk.

PS:
Diese Antwort hat mich 5 Minuten googlen gekostet, da ich überhaupt nicht wußte, was Benes-Verbindungsnetzwerke sind.

Leonidas

2011-12-13, 05:20:18

Ah OK, ich nahm an, Leo wäre immer so einen halben bis einen Tag hinterher - und die neue Woche hatte ja schon angefangen. Danke ;)

Bin ich auch, trotz daß ich hier nun dauernd mitlese. Aber so schnell wie das Forum kann wirklich keiner sein.

Raff

2011-12-13, 11:24:22

MadManniMan

2011-12-13, 11:28:04

Bin ich auch, trotz daß ich hier nun dauernd mitlese. Aber so schnell wie das Forum kann wirklich keiner sein.

Deswegen bin ich auch direkt von Deiner Zusammenfassung in diesen Fred gerannt und hab nach News geschrien - aber leider tut sich grad gar nix :(

Dural

2011-12-13, 12:46:30

AnarchX

2011-12-13, 12:48:02

32 ROPs sagt nicht viel aus, wenn man nicht weiß wie schnell die entsprechenden Formate abgearbeitet werden und wie viele Z-Tester je ROP verbaut sind.

Und ebenfalls TMUs != TMUs. Beim realen Durchsatz unter 16x Tri-AF und FP16 sind NVs TMUs momentan deutlich besser: http://techreport.com/articles.x/20126/6
GCN sollte hier auch nachlegen können.

Dural

2011-12-13, 12:52:11

ist schon so, aber man kann die ROPs auch nicht ins unendliche "verbreitern", ab einem Punkt ist es klüger einfach die Anzahl zu erhöhen.

übrigens wurden die ROPs nicht schon mit Cayman "General überholt" ?

Thunder99

2011-12-13, 12:55:56

AMD Radeon HD 7900 im PCGH-Test: Was interessiert euch? (Mehrfachauswahl!) (http://extreme.pcgameshardware.de/quickpolls/191839-amd-radeon-hd-7900-im-pcgh-test-interessiert-euch-mehrfachauswahl.html)

Na wenn das kein Zeichen für einen Launch in naher Zukunft ist. ;) Tut euch kund!

MfG,
Raff
:eek:

Zur Effizienz des GNC:

Bei 25% mehr Shader Einheiten und den hier prognostizierten Performance Plus sollte eine Effizienzsteigerung sehr wahrscheinlich sein.
Nur auf GTX580 Niveau können sie sich nicht erlauben. Und sie werden auch nicht die Shader-Power haben von nvidia (bald kann man die ja vergleichen durch 1D Architektur? )

Gipsel

2011-12-13, 13:52:36

übrigens wurden die ROPs nicht schon mit Cayman "General überholt" ?
Ja, die Cayman-ROPs verbessern vor allem das Handling von 1x32Bit Texturen. Cayman hängt in Füllratentests mit Blending für ausnahmslos alle Datenformate und ohne Blending für alle Datenformate außer den 32Bit pro Pixel komplett im Bandbreitenlimit des Speicherinterface. Dort würden also mehr ROPs überhaupt nichts bringen, mehr Bandbreite aber schon ;). In vielen Fällen sind die 32 Cayman-ROPs übrigens (deutlich) schneller als die 48 Fermi-ROPs.
Die Cayman-ROPs können im Prinzip single-cycle (wahrscheinlich sogar Blending) mit 4xFP16-Framebuffer-Formaten, also 32 Pixel/Takt davon. Fermi kann nur 16/CoreClock (also nicht Hotclock, dann wären es nur 8) davon aus den den SMs exportieren, pro ROP gerechnet ist das nur 1/3 der Geschwindigkeit der Cayman-Exports.

AnarchX

2011-12-13, 13:56:11

8 Z-Tester pro ROP wären wohl nicht so verkehrt für GCN.
Kann man eigentlich etwas in den ROPs anpassen, was die neuerdings beliebten Postfilter-AAs (FXAA, SMAA,..) beschleunigt?

Skysnake

2011-12-13, 13:56:17

Müßtest Du das nicht wissen? Ich dachte Du studierst irgend so etwas!
Aber nein, ein Benes-Netzwerk ist eine mehrstufige Topologie (die Kombination zweier Banyan-Netzwerke, welches wiederum nicht aus Crossbars, sondern aus 2x2 shuffle-Elementen besteht). Eine Crossbar ist ein einstufiges Netzwerk (deren Komplexität mit O(n²) mit der Anzahl n der verbundenen Clients skaliert bzw. n*m wenn n die Anzahl der Eingänge und m die Anzahl der Ausgäng ist). Die mehrstufigen skalieren besser (grob O(n*logn)), aber eben mit dem Nachteil der mehreren Ebenen und das sie nicht blockierungsfrei arbeiten (oder man packt zusätzliche Ebenen dazu und benutzt 2x2 Crossbars statt Shuffles als Grundelemente, dann hat man ein sogenanntes CLOS-Netzwerk.

PS:
Diese Antwort hat mich 5 Minuten googlen gekostet, da ich überhaupt nicht wußte, was Benes-Verbindungsnetzwerke sind.

Dass das Benes-Netzwerk eine mehrstufige Topologie ist, ist mir auch klar. Das Benes-Netzwerk sollte allerdings schon blockierungsfrei sein, wenn ich mich recht erinnere. Daher hab ich es auch genannt und nicht das Banyan-Netzwerk, welches blockierend ist.
Ich hab jetzt nochmals genauer nachgeschaut und da steht auch, dass das Benes-Netzwerk blockierungsfrei sei. Dann frag ich mich aber, was jetzt der Vorteil des CLOS nochmal war.. hm..

Was ich mit meiner Frage bzgl Benes und Crossbar meinte ist, ob ein Benes-Netzwerk nicht wie ein Crossbar fungiert. Und nachdem ich jetzt nachgeschaut hab, würde ich sagen ja, es fungiert wie ein Crossbar.

Ergo sieht man als User nicht, ob man einen echten Crossbar vor sich hat, oder ein Benes/CLOS-Netzwerk. Die sollten sich bis auf die Schaltgeschwindigkeiten gleich verhalten.

Es war auch eher als Denkanstoß gemeint, das man nicht nur Crossbars verwenden kann. An CLOS hab ich mich jetzt nicht mehr erinnert. Das wäre aber wohl der perfekte Ersatz und wird für große Crossbars wohl auch eingesetzt.

Also bitte nicht gleich drauf hauen, wenn ich nach der Arbeit noch kurz was schreib als reine Anregung ;)

Gipsel

2011-12-13, 14:25:21

Kann man eigentlich etwas in den ROPs anpassen, was die neuerdings beliebten Postfilter-AAs (FXAA, SMAA,..) beschleunigt?Da fällt mir spontan nichts ein. Im Prinzip stellen die Schreibzugriffe dabei nur ein sequentielles Streaming dar (je nachdem, wie der Framebuffer im Speicher angeordnet ist und in welcher Reihenfolge geschrieben wird, aber bei einem Postprocessing-Pixelshader stimmt es), da gibt es nicht viele Optimierungsmöglichkeiten.
Das Benes-Netzwerk sollte allerdings schon blockierungsfrei sein, wenn ich mich recht erinnere. Daher hab ich es auch genannt und nicht das Banyan-Netzwerk, welches blockierend ist.
Ich hab jetzt nochmals genauer nachgeschaut und da steht auch, dass das Benes-Netzwerk blockierungsfrei sei. Dann frag ich mich aber, was jetzt der Vorteil des CLOS nochmal war.. hm..Ja. Der Vorteil bei CLOS ist, daß man mit weniger Stufen auskommt (ist also schneller), aber eben dafür 2x2 Crossbars statt Shuffles benutzen muß.
Also bitte nicht gleich drauf hauen, wenn ich nach der Arbeit noch kurz was schreib als reine Anregung ;)
Hatte wohl den Smiley vergessen. :wink:

Skysnake

2011-12-13, 15:17:25

Ja. Der Vorteil bei CLOS ist, daß man mit weniger Stufen auskommt (ist also schneller), aber eben dafür 2x2 Crossbars statt Shuffles benutzen muß.

Stimmt, so wars. Man kommt einfach nur mit deutlich weniger Stufen aus beim CLOS. (Sich solche Unterschied fällt mir manchmal echt nicht einfach, wenn ich nicht dauern mit arbeite :freak:)

Ist halt nur die Frage, wie jetzt alles genau aufgeteilt wird, und welche Zugriffsmuster es überhaupt geben kann etc. etc. etc. Je nachdem macht CLOS/Benes Sinn oder eben nicht.

Hatte wohl den Smiley vergessen. :wink:
Jaja, erst druff hauen, und so tun als ob ich kein Plan hab, und dann wieder auf freundlich tun :nono:

Ne Spaß!!! ;D Ist doch kein Ding, und eigentlich könnts mir auch egal sein, ob jetzt jemand denkt, ich wärn Vollpfosten, ders eigentlich wissen sollte oder nicht. Wer sich so ungeschickt/dumm, wie ich oft, ausdrückt, weil er nur nebenher hier schreibt, die ganze Zeit in Hetze ist etc., der darf sich auch nicht beschweren, wenn er mal falsch verstanden wird :rolleyes:

Also von daher ruhig reinkrätschen, wenn ich vermeindlich bullshit erzähle. ;) Das hält die Sachen schon frischer im Hinterkopf

Ailuros

2011-12-13, 15:58:36

also 32ROPs bei 384Bit wären schon sehr mager, da frag ich mich ob es für den Gamer Markt nicht auch ein 256Bit SI gereicht hätte.
Vielleicht wurde 384Bit auch nur wegen dem Verbrauch gewält weil es güstiger kommt als ein 256Bit @ High Takt.

Und in anbetracht der 128TMUs wäre ein plus von 50% im schnitt vor der 6970 schon viel.

Wie oft muss man noch sagen dass eine sterile Anzahl von Einheiten total bedeutungslos ist wenn man nicht weiss ueber was jegliche Einheit faehig ist, wie effizient sie ist und wie effizient die surrounding logic innerhalb der insgesamten Architektur ist?

GT200 hatte 128 80 und GF110 "nur" 64 TMUs; willst Du auch heute noch schreien dass es einer GF110 an Texel-fuellrate fehlt? Halloechen die TMUs in Fermi sitzen diesmal in den SMs und sind verdammt effizienter als zuvor.

AnarchX

2011-12-13, 16:39:54

GT200 hatte 80 TMUs.

@ Topic:

http://www.donanimhaber.com/ekran-karti/haberleri/DH-Ozel-AMD-Radeon-HD-7970in-fiyati-sekilleniyor.htm

Preis über 500€ für die 7970 und Eyefinity 3D als neues Feature.

derguru

2011-12-13, 17:35:53

das sind ja mal feature die die welt braucht,Eyefinity 3D X-D.durch den preis erweckt es den anschein das es ein monster wird bezüglich der performance,kann ich endlich mal multigpu ad acta legen.:biggrin:

Gipsel

2011-12-13, 17:52:27

Dafür ist Tahiti dann aber doch zu klein und an Wunder glaube ich nicht.

Schnitzl

2011-12-13, 17:57:57

boxleitnerb

2011-12-13, 17:59:00

Nana, neue Features sind erstmal gut. Wenn es nachher blöd ist, kann man immer noch meckern. Denkt mal ein bissl weiter voraus: Holodeck und so :)

Schnitzl

2011-12-13, 18:03:09

Nana, neue Features sind erstmal gut. Wenn es nachher blöd ist, kann man immer noch meckern. Denkt mal ein bissl weiter voraus: Holodeck und so :)
ja aber Holodeck ist noch weit entfernt.
Jetzt brauchts erstmal mehr Bildqualität, hint: Supersampling in DX10/11 oder Downsampling

boxleitnerb

2011-12-13, 18:15:19

ja aber Holodeck ist noch weit entfernt.
Jetzt brauchts erstmal mehr Bildqualität, hint: Supersampling in DX10/11 oder Downsampling

Das will ich doch auch. Ich glaube nicht daran, dass AMD das möglich machen wird. Vielleicht wird man ja überrascht. Für die Anspruchsvollen gibts ja wie immer Nvidia.

HarryHirsch

2011-12-13, 18:30:42

Adam D.

2011-12-13, 18:34:16

dann fällt der 9. ja schon mal flach. oder?
Könnte ja auch einfach vom 12.12. bis 12.1 gehen ;)

AwesomeSauce

2011-12-13, 18:38:12

"Paperlaunch" mit frühem NDA-Fall für Reviews, kaufbare Hardware erst später?

gedi

2011-12-13, 18:54:40

Dafür ist Tahiti dann aber doch zu klein und an Wunder glaube ich nicht.

Bist du dir so sicher die Die Tahitis gesehen zu haben? Nur weil jemand sein Bildchen 7970 nennt, muss das noch nichts bedeuten, imo. Und wenn doch, dann fällt mir noch ein Liedchen ein: Wunder gibt es immer wieder...

Black-Scorpion

2011-12-13, 19:01:23

Was soll es sonst gewesen sein? Oder kennst du eine Karte die so aussieht?

Raff

2011-12-13, 19:04:55

Könnte ja auch einfach vom 12.12. bis 12.1 gehen ;)

Yep, PCGH macht idR 30-Tage-Umfragen.

MfG,
Raff

Gipsel

2011-12-13, 19:07:33

Bist du dir so sicher die Die Tahitis gesehen zu haben? Nur weil jemand sein Bildchen 7970 nennt, muss das noch nichts bedeuten, imo. Und wenn doch, dann fällt mir noch ein Liedchen ein: Wunder gibt es immer wieder...
Du meinst also Pitcairn hat bereits ein 384Bit-Interface, Tahiti wird größer und schneller, basiert aber auf dem gleichen PCB? Denn auf den Bildern der Rückseite der Karte kann man die Sticker mit "Tahiti Engineering Sample" entziffern. Das geht also nur, wenn wir die Rückseite von Tahiti-Karten (mit entsprechendem Sticker) zu sehen zu bekommen haben aber die Vorderseite (mit dem Die) eines kleineren Modells oder alternativ die Fotos bearbeitet wurden, um das so vorzutäuschen.

PS:
Wunder gibt es hier nur in der Kirche, nicht mit mir!

dildo4u

2011-12-13, 19:08:08

y33H@

2011-12-13, 19:10:33

"Paperlaunch" mit frühem NDA-Fall für Reviews, kaufbare Hardware erst später?Behauptet zumindest OBR. Karten für die Tester wird's fei geben, wenn das NDA tatsächlich am 9ten fällt - die Frage ist nur wann und wie es mit Retail aussieht. Sind wir mal optimistisch, dass AMD aus Barts und Cayman gelernt hat - die HD 5870 kam iirc (!) auch recht früh. Maybe same story mit Tahiti :biggrin:

PCGH hat keine anderen Infos als ihr, die haben Bulldozer auch erst ganz spät bekommen und waren lange im Dunkeln.Die CPU-Abteilung ist was anderes als die GraKa-Jungs bei AMD, bitte beachten.

Ronny145

2011-12-13, 19:13:46

PCGH hat keine anderen Infos als ihr,die haben Bulldozer auch erst ganz spät bekommen und waren lange im Dunkeln.Hat man daran gemerkt das sie durch die Bank von der miesen Performance enttäuscht waren.

Vorher gab es ein Presse Meeting. Marketingfolien ist das Mindeste und Infos über neue Features sicherlich auch.

Raff

2011-12-13, 19:13:48

Und es soll ja auch Leute geben, die schweigen können. :biggrin:

MfG,
Raff

y33H@

2011-12-13, 19:14:25

Halt die Klappe, Raff ;D *SCNR*

Gipsel

2011-12-13, 19:33:06

Behauptet zumindest OBR. Karten für die Tester wird's fei geben, wenn das NDA tatsächlich am 9ten fällt - die Frage ist nur wann und wie es mit Retail aussieht. Sind wir mal optimistisch, dass AMD aus Barts und Cayman gelernt hat - die HD 5870 kam iirc (!) auch recht früh. Maybe same story mit Tahiti :biggrin:

Die CPU-Abteilung ist was anderes als die GraKa-Jungs bei AMD, bitte beachten.
Nachdem bei AMD-Deutschland doch fast alles entlassen wurde, was als PR und Kontakt zu den Redaktionen gelten kann, stapeln sich dort wahrscheinlich schon die Tahiti-Karten und da gibt es nur keinen mehr, der weiß, an welche Redaktionen das geschickt werden soll. :freak:

y33H@

2011-12-13, 19:35:13

Hoffen wir, die kommen direkt aus US ;) Dennoch schade um die Jungs ...

dildo4u

2011-12-13, 19:37:09

Vorher gab es ein Presse Meeting. Marketingfolien ist das Mindeste und Infos über neue Features sicherlich auch.
Ich weiss war nen Versuch wert. ;)

Raff

2011-12-13, 19:39:32

AMD weiß, dass Deutschland ein wichtiger, wenn auch kritischer Markt ist. Initial-Kram kommt sowieso aus Kanada – da, wo die Ati-Wurzeln sitzen. ;)

MfG,
Raff

Langenscheiss

2011-12-13, 19:47:10

Bin ja mal gespannt, ob AMD endlich bei der BQ nachzieht. Cayman war diesbezüglich eher eine Enttäuschung und da es noch ein Weilchen dauert bis die nächsten Konsolen rauskommen und die HW-Anforderungen nicht so stark steigen, sollten die sich doch auch langsam mal überlegen, wofür der Kunde überhaupt noch eine Performance/High-End-Karte braucht.
Wenns nicht mindestens deutlich besseres AF und und vielleicht sogar eine (wenn auch durch die Hintertür) von der API unabhängige Möglichkeit für SSAA gibt, kommt ein Kauf für mich sowieso nicht in Frage.

uweskw

2011-12-13, 20:26:01

....
Wenns nicht mindestens deutlich besseres AF und und vielleicht sogar eine (wenn auch durch die Hintertür) von der API unabhängige Möglichkeit für SSAA gibt, kommt ein Kauf für mich sowieso nicht in Frage.

Wofür sonst braucht man mehr Leistung?
So bescheuert können die gar nicht sein. Da gibts sicher was neues in Sachen BQ!

HarryHirsch

2011-12-13, 21:05:14

Wofür sonst braucht man mehr Leistung?
So bescheuert können die gar nicht sein. Da gibts sicher was neues in Sachen BQ!

mit solchen aussagen wäre ich, gerade bei amd, sehr vorsichtig.
na immerhin scheint es ja schon jetzt offene profile zu geben.

boxleitnerb

2011-12-13, 21:17:51

Balken sind doch das Wichtigste :wink:

Na sie haben uns ja schonmal beim HD5000 überrascht. Mal sehen.

gedi

2011-12-13, 21:23:58

Du meinst also Pitcairn hat bereits ein 384Bit-Interface, Tahiti wird größer und schneller, basiert aber auf dem gleichen PCB? Denn auf den Bildern der Rückseite der Karte kann man die Sticker mit "Tahiti Engineering Sample" entziffern. Das geht also nur, wenn wir die Rückseite von Tahiti-Karten (mit entsprechendem Sticker) zu sehen zu bekommen haben aber die Vorderseite (mit dem Die) eines kleineren Modells oder alternativ die Fotos bearbeitet wurden, um das so vorzutäuschen.

PS:
Wunder gibt es hier nur in der Kirche, nicht mit mir!

Ab wieviel Prozent Performance-Plus gegenüber HD6970 respektive GTX580 würdest du von einem Wunder sprechen, bei einer Diesize von ~400mm² (ungeachtet der natürlich besseren IQ bez. des AFs)?

uweskw

2011-12-13, 21:28:30

Na die Leistung der 6970 ist doch wohl für 99% de Spieler mehr als ausreichend. Das weiss auch AMD. Also MÜSSEN die Jungs etwas anderes bieten damit mehr als nur ein paar Nerds auf die neue Generation umsteigen.
Da kein neues DirectX in Sichtweite bleibt denen nur die Bildqualität. Die wollen schliesslich unser Bestes, dafür müssen sie auch etwas bieten.

horn 12

2011-12-13, 22:39:47

Vorgeschmack auf die HD79x0 -er Serie morgen abend gegen 16 Uhr
und Hardlaunch am 09.01.2012

Wer kann dies erneut bestätigen?

Schnitzl

2011-12-13, 22:42:11

Wofür sonst braucht man mehr Leistung?
So bescheuert können die gar nicht sein. Da gibts sicher was neues in Sachen BQ!
Glaub mir die SIND so bescheuert.
Siehe eine Seite vorher Eyefinity 3D ... (Post 1412)

naja die Leute sind auch nicht besser. Kaufen immer von der Firma, die gerade die schnellste GPU/CPU anbietet. Und Dummheit gehört bestraft lol.

y33H@

2011-12-13, 23:02:14

Vorgeschmack auf die HD79x0 -er Serie morgen abend gegen 16 Uhr?16 Uhr? Abend? Vorgeschmack? WTF? Von was redest du? :confused:

uweskw

2011-12-13, 23:03:03

Glaub mir die SIND so bescheuert....
...

Sooo am Markt vorbei kann sich keiner leisten. Da sitzen schlaue und studierte Köpfe.

horn 12

2011-12-13, 23:10:55

Soll morgen nicht die Telefon Referenz abgehalten werden?
Zudem sollen wohl die Karten im weitesten Sinn noch dieses JAHR DER ÖFFENTLICHKEIT bekanntgemacht werden laut einem ital. Forum.

y33H@

2011-12-13, 23:16:12

Und laut dem südostjeminitischen Formum nahe Ugada erst 2012, sofern der Google-Übersetzer mich korrekt interpretieren lässt. Die Callferenz ist doch eh nur für die, die nicht auf dem Tech Preview waren, was [angeblich] letzte Woche stattfand. Und idR gibt's keine Details vor dem NDA-Fall, Nvidias Fermi mal außen vor - da gab's aber keine Benches oder Specs.

Langenscheiss

2011-12-14, 01:24:42

Sooo am Markt vorbei kann sich keiner leisten. Da sitzen schlaue und studierte Köpfe.

Das hab ich vor dem "AF-Fix" der 6000-Serie, der bei genauerer Betrachtung gar kein sauberer Fix war, auch gedacht. Man hatte zwangsläufig den Eindruck, dass die ihre Texturfilter an Standbildern getestet haben. Sonst hätten die wohl kaum den Tester von Coda für ihre Propaganda gebraucht.

Naja, und das mit den Application Profiles im CCC ist ja auch schon seit gefühlten Jahrtausenden überfällig bei AMD. Dass die das nicht schon kurz nach Nvidia ebenfalls eingeführt haben, lässt mich ehrlich gesagt daran zweifeln, dass die !entscheidenden! Leute bei AMD wirklich soviel Grips haben.

Blediator16

2011-12-14, 01:27:41

Es wurde doch gesagt, dass es sich um einen HW Bug handelt und es nicht gefixt werden konnte?

Raff

2011-12-14, 08:33:47

Es wurde doch gesagt, dass es sich um einen HW Bug handelt und es nicht gefixt werden konnte?

Das halte ich für ein Gerücht. ;) €dit: Ach, du meinst Barts/Cayman. Yep.

MfG,
Raff

Coda

2011-12-14, 12:55:21

https://www.forum-3dcenter.org/vbulletin/showthread.php?p=8714620&highlight=gefixt#post8714620

N0Thing

2011-12-14, 13:06:26

Glaub mir die SIND so bescheuert.
Siehe eine Seite vorher Eyefinity 3D ... (Post 1412)

naja die Leute sind auch nicht besser. Kaufen immer von der Firma, die gerade die schnellste GPU/CPU anbietet. Und Dummheit gehört bestraft lol.

Es gibt sicher Leute, für die Eyefinity 3D ein Mehrwert darstellt.
Und laut Coda sollte AMD mit der nächsten Generation auch keinen Grund mehr haben, einen schlechteren AF anzubieten als Nvidia.

Bei SSAA man muß ja auch bedenken, daß z.B. das SGSSAA von Nvidia nur per Zufall ans Licht der Welt gekommen ist. Wie einfach eine absichtliche Implementierung wäre, kann ich nicht beurteilen. Und wie man an der Liste der AA-Bis hier im Forum sehen kann, ist es auch nicht in jedem Spiel problemlos nutzbar, ohne selber Hand anzulegen. Und das geht der Mehrheit der Anwender eben auch schon wieder zu weit.

Im besten Fall kann man wohl auf eine inoffizielle SSAA-Lösung für DX10/11 bei AMD hoffen, wahrscheinlich erscheint mir dies aber nicht.

aylano

2011-12-14, 14:00:48

Nun, eine 6970 liegt ja nicht meilenweit hinter einer GTX580, im Schnitt vielleicht 15%. Da eine 7950 wohl mehr Ausführungsresourcen als eine 6970 haben wird (vermutlich 16% mehr SPs und TMUs, 50% breiteres Speicherinterface, eventuell auch mehr ROPs und Rasterizer), müßten die da schon was verbockt haben, damit man nicht vor der GTX580 rauskommt. Denn eine gesunkene Effizienz erwartet ja wohl keiner von GCN im Vergleich zu Cayman, oder?
Warum sollte man keine gesunkene Effizienz für Möglich halten?

Einerseits kommt C++ und mehr Tesselation-Performance als RV970.
Damit wird man wahrscheinlich kaum die aktuelle Game-Performance in die Höhe treiben, aber den Stromverbrauch eventuell schon, wodurch dann die Effizienz sinkt, weil man den Takt aufgrund der "TDP-Begrenzung" dann "senken muss".
Effizienz ist auch so eine Sache. Denn die Spiele (unter anderem wegen den Anforderungen) ändern sich ja auch mit der Zeit, sodass die Effizenz einer Architektur mit der Zeit besser oder schlechter wird.
D. h. damit in Zukunft GCN mit mehr Einheiten besser skaliert, müssen wie wahrscheinlich jetzt auch einige Transistoren investieren, die momentan nicht viel bringen.

Also, ich war nie sicher, dass die Effizienz sicher steigen wird.

Grundsätzlich wird es interessant, wie AMD & Nvidia in Zukunft ihr GPUs mit neuer Fertigung am Markt bringen.
So wie ich es schon angeschnitten hatte, "müssen" die GPU-&-Fertigungsverkleinerungs-Strategien in Zukunft aufgrund gleich bleibenden Stromverbrauch anders sein als früher, sodass man in Zukunft vielleicht jedes Jahr pünktliche halbe Sprünge sehen, anstatt alle 2 Jahren Megasprünge mit Mega-Verspätungen.

Gipsel

2011-12-14, 14:06:20

Warum sollte man keine gesunkene Effizienz für Möglich halten?

Einerseits kommt C++ und mehr Tesselation-Performance als RV970.
Damit wird man wahrscheinlich kaum die aktuelle Game-Performance in die Höhe treiben, aber den Stromverbrauch eventuell schon, wodurch dann die Effizienz sinkt, weil man den Takt aufgrund der "TDP-Begrenzung" dann "senken muss".
Effizienz ist auch so eine Sache. Denn die Spiele (unter anderem wegen den Anforderungen) ändern sich ja auch mit der Zeit, sodass die Effizenz einer Architektur mit der Zeit besser oder schlechter wird.
D. h. damit in Zukunft GCN mit mehr Einheiten besser skaliert, müssen wie wahrscheinlich jetzt auch einige Transistoren investieren, die momentan nicht viel bringen.

Also, ich war nie sicher, dass die Effizienz sicher steigen wird.

Grundsätzlich wird es interessant, wie AMD & Nvidia in Zukunft ihr GPUs mit neuer Fertigung am Markt bringen.
So wie ich es schon angeschnitten hatte, "müssen" die GPU-&-Fertigungsverkleinerungs-Strategien in Zukunft aufgrund gleich bleibenden Stromverbrauch anders sein als früher, sodass man in Zukunft vielleicht jedes Jahr pünktliche halbe Sprünge sehen, anstatt alle 2 Jahren Megasprünge mit Mega-Verspätungen.
Effizienz als Leistung pro verbautem SP/TMU/whatever war natürlich gemeint. Und wenn die mit GCN gegenüber den VLIW-Architekturen runtergehen sollte (was nicht passieren wird), dann hätte man sich den ganzen Spaß ja wohl auch klemmen können.

crux2005

2011-12-14, 15:34:30

Vorgeschmack auf die HD79x0 -er Serie morgen abend gegen 16 Uhr
und Hardlaunch am 09.01.2012

Wer kann dies erneut bestätigen?

CC sol ein Vorgeschmack sein? LOL
Naja, auf jeden Fall juckt es mich schon jetzt in den Fingern... :P

aufkrawall

2011-12-14, 17:01:36

Im besten Fall kann man wohl auf eine inoffizielle SSAA-Lösung für DX10/11 bei AMD hoffen, wahrscheinlich erscheint mir dies aber nicht.
Man sollte das SSAA bei DX10/11 nicht überbewerten.
Bei den meisten DX10+ Spielen ist das in-game MSAA weit entfernt vom DX9- Treiber-AA bei Nvidia mit den Bits.
Wenn es also kein treiberseitiges Erzwingen für das SSAA bei DX10+ gibt, ist es für die Mehrheit der Spiele relativ belanglos.
Wer will schon seine FPS halbieren und es sind trotzdem viele Kanten nicht bearbeitet? Oder es geht halt gar nicht.

AMD und Nvidia müssten die Vorgabe von Microsoft umgehen, AA bei DX10+ nicht erzwingen zu können. Das ist aber ein Software-Thema.
Bei Nvidia zumindest, bei AMD kann man ja nicht mal AAA bei DX10+ erweitern...

AnarchX

2011-12-14, 20:48:58

HD 7970 Spezifikationen von OBR:
http://4.bp.blogspot.com/-lmM_C5I4lQk/Tuj2x5x2ryI/AAAAAAAABh4/h0P2cr-FyU0/s1600/7970.png

Gaming performance is far behind expectations, but i told you so before ... enjoy this first REAL leak about Radeons HD 7900 ... by OBR
http://www.obr-hardware.com/2011/12/radeon-hd-7970-full-spec.html

Bei der Idle-Boardpower fehlt wohl eine 0?:eek:
Bei der Geometrie-Leistung hat sich wohl nichts gegenüber Cayman getan? :|

deekey777

2011-12-14, 20:56:32

Ok.
2*16*4*32*0,925 ergibt 3,788 TFLOPS. Oder übersehe ich da was?

Der_Korken

2011-12-14, 20:56:58

Die 3.5 TFlops passen nicht zur Anzahl der ALUs und dem Takt. Das müssten imho knapp 3,8 TFlops sein. Ansonsten ist es ja mehr oder weniger genau das, was hier schon spekuliert wurde oder bekannt war.

3W Idle Power wären aber echt sick ... für so einen Wert müsste man wahrscheinlich den Lüfter und den VRAM mit abschalten. Klingt irgendwie unrealistisch.

Edit: 26s zu spät ...

LovesuckZ

2011-12-14, 20:57:17

Die Dreiecksrate ohne Tessellation ist auch uninteressant, da reichen 2/s aus. Viel interessanter ist es, wie stark das Front-End bei Erzeugungslast einbricht.

/edit:
Beim nächsten aber gleich alles posten, so werden noch die interessanten Aussagen vergessen. :D

Gaming performance is far behind expectations, but i told you so before

AnarchX

2011-12-14, 20:59:58

Ok.
2*16*4*32*0,925 ergibt 3,788 TFLOPS. Oder übersehe ich da was?
Vielleicht einer der bewussten Fehler um die Slides einem Urpsrung zuzuordnen?

AffenJack

2011-12-14, 21:01:13

first real leak? lol
Das sind genau dei Daten die Ailuros schon geleakt hat, nur dass die TDP da noch nicht drin steht und hier zb Geometrie Rate drin ist.

HarryHirsch

2011-12-14, 21:01:18

Die Dreiecksrate ohne Tessellation ist auch uninteressant, da reichen 2/s aus. Viel interessanter ist es, wie stark das Front-End bei Erzeugungslast einbricht.

ich musste dieses wort jetzt echt googlen. hast du irgendwie (beruflich?) mit windrädern zu tun?

LovesuckZ

2011-12-14, 21:03:42

ich musste dieses wort jetzt echt googlen. hast du irgendwie (beruflich?) mit windrädern zu tun?

Stimmt. Das Wort gibt es nicht. :(

Ronny145

2011-12-14, 21:05:16

3 Watt Idle? Ist das der obligatorische AMD Fehler in Slides? Wäre ja sonst extrem wenig.

AwesomeSauce

2011-12-14, 21:07:59

Mit 3 Watt kriegst du nicht mal den Lüfter zum drehen;D

Skysnake

2011-12-14, 21:09:06

wäre schon extrem wenig, aber ziemlich geil. Da braucht's dann auch keine Umschaltung mit all ihren Problemen mehr.

die Flops passen aber halt nicht, daher sollte man wieder gewisse Zweifel an der Folie haben.

Wobei.... AMD und Folien....

fondness

2011-12-14, 21:09:50

Mit 3 Watt kriegst du nicht mal den Lüfter zum drehen;D

Bei 3 Watt muss sich der auch nicht mehr drehen. Trotzdem erscheint das schon fast zu niedrig.

Hugo78

2011-12-14, 21:11:34

3 Watt Idle? Ist das der obligatorische AMD Fehler in Slides? Wäre ja sonst extrem wenig.

Entweder AMD schaltet zb. die 3GB GDDR5 im Idle ab und der Chip nutzt dann nur noch RAM, aka Shared Memory,
dazu ein Chiptakt von 10Mhz oder aber OBR flunkert. :D

deekey777

2011-12-14, 21:13:44

Vielleicht einer der bewussten Fehler um die Slides einem Urpsrung zuzuordnen?
Oder jemand verarscht ORB. Aber da ORB sich für so cool hält, haben sie es nicht anders verdient.

AwesomeSauce

2011-12-14, 21:15:28

Entweder AMD schaltet zb. die 3GB GDDR5 im Idle ab und der Chip nutzt dann nur noch RAM, aka Shared Memory,
dazu ein Chiptakt von 10Mhz oder aber OBR flunkert. :D
Oder ein Fehler auf der Folie. Aber eben, viele der Daten schwirren jetzt schon längere Zeit herum. Eine Folie daraus zu basteln ist nun wirklich ein einfaches Unterfangen.

seaFs

2011-12-14, 21:15:56

Steht nicht normalerweise immer der Name der Karte auf dem Bild/Slide drauf?
Ich find da nirgends etwas von "HD7970".

fondness

2011-12-14, 21:16:41

first real leak? lol
Das sind genau dei Daten die Ailuros schon geleakt hat, nur dass die TDP da noch nicht drin steht und hier zb Geometrie Rate drin ist.

Laut Ailuros liegt die Leistung jedenfalls auch annähernd bei der 6990 und damit IMO nicht weit unter den Erwartungen wie von ORB behauptet.

Spasstiger

2011-12-14, 21:20:20

Bei der Geometrie-Leistung hat sich wohl nichts gegenüber Cayman getan? :|
Der Peak-Geometrie-Durchsatz war auch nicht das Problem von Cayman. Wenn keine Geometrie verworfen werden kann (0% culling), liegt sogar einer Radeon HD 6950 deutlich vor einer GeForce GTX 580:
http://www.abload.de/thumb/img00303654vjs8.gif (http://www.abload.de/image.php?img=img00303654vjs8.gif)
Man muss aber dazusagen, dass NV bei den Fermi-GeForces die Handbremsen gegenüber den Fermi-Quadros angezogen hat, was den Geometriedurchsatz angeht. Wenn es nötig wäre, könnte NV also ohne Hardwareänderungen nachlegen.

Das Problem ist der Durchsatz mit Tessellation, der gegenüber dem Peak-Durchsatz auf Cayman deutlich einbricht:
http://www.abload.de/thumb/img0030366xkkx8.gif (http://www.abload.de/image.php?img=img0030366xkkx8.gif)
Auf einmal hat die GTX 580 einen mehr als doppelt so hohen Durchsatz wie die Radeon HD 6950.

Quelle: http://www.hardware.fr/articles/813-7/tests-theoriques-geometrie.html

deekey777

2011-12-14, 21:25:45

...
Bei der Geometrie-Leistung hat sich wohl nichts gegenüber Cayman getan? :|
In der AFDS-Präsentation spricht AMD von Primitive Pipes (0,..., n). Es ist schon denkbar, dass schon Tahiti mehr als zwei solcher Pipes haben wird.

john carmack

2011-12-14, 21:28:48

was interessieren mich 3W idle? von mir aus sollen es 1W oder 100W sein... mir egal!

Was mir sorgen macht ist: "Gaming performance is far behind expectations, but i told you so before"

y33H@

2011-12-14, 21:34:52

Da steht "idle über 3 Watt" und "load unter 300W". Und nicht, dass die Karte 3W im idle verbraucht - was utopisch ist, solange das Teil läuft.

EDIT
Slide weg ;D

Raff

2011-12-14, 21:39:05

Was mir sorgen macht ist: "Gaming performance is far behind expectations, but i told you so before"

Der Spaten drückt sich so schwammig aus, dass wieder jemand "er hatte Recht" sagen wird – aber auch nur, weil es Leute gibt, die hofften, dass die HD 7970 an die HD 6990 heranreicht. Das wäre schön, aber realistisch ist mit den bekannten Spex etwas anderes.

MfG,
Raff

Spasstiger

2011-12-14, 21:43:04

Mal auf Basis dieser Folie gerechnet, ein Vergleich HD 7970 zu Radeon HD 6970:
Rechenleistung peak: 1,4x
Auslastung der ALUs: pessimistisch betrachtet 80% -> 90% => 1,125x
=> Rechenleistung inkl. Effizienzsteigerung: 1,575x
Texelfüllrate: 1,4x
Speicherbandbreite: 1,5x
Pixelfüllrate: 1,05x
Geometriedurchsatz: 1,05x

Das ergibt dann unter Umständen in Kombination nur 40% Performancesteigerung, womit die Radeon HD 7970 nur 20-25% schneller als die GTX 580 wäre und in Einzelfällen, wo die höhere Rechenleistung samt Effizienzsteigerung durchschlägt, auch mal 30-35%. Ähnlich der Situation bei der Radeon HD 5870.

Raff

2011-12-14, 21:48:46

Wenn das Ding mit nominell 33 Prozent mehr ALUs nebst 5 Prozent mehr Takt und 50 Prozent dickerer Transferrate nicht im Mittel 40 Prozent vor der HD 6970 liegt, ist etwas schief gelaufen. Wir reden hier natürlich von GPU-limitierten Tests, keinem Full-HD-MSAA-Kindergarten. ;)

MfG,
Raff

Ronny145

2011-12-14, 21:49:51

Da steht "idle über 3 Watt" und "load unter 300W". Und nicht, dass die Karte 3W im idle verbraucht - was utopisch ist, solange das Teil läuft.

Idle unter 3 Watt steht dort. OBR hat die Folie mittlerweile gelöscht, was auch immer das bedeuten soll.

boxleitnerb

2011-12-14, 21:51:52

Die Folie ist sicher Fake. Die 3W, die falsche TFlop-Angabe, "EmbaRgo" (R fehlt). Soviele Fehler sind unrealistisch.

deekey777

2011-12-14, 21:56:17

Idle unter 3 Watt steht dort. OBR hat die Folie mittlerweile gelöscht, was auch immer das bedeuten soll.
Er hat seine News jetzt aktualisiert: Nachdem überall auf die Unregelmäßigkeit hingewiesen wurde, was die FLOPS angeht, steht jetzt:
ATTENTION: It seems this slide is legit but little bit outdated, GPU clocks and Load TDP are lower! GPU clocks are 880 GHz and Load TDP +/- 200W.

Spasstiger

2011-12-14, 21:56:52

Könnte es eigentlich sein, dass bei Tahiti die mittlere Auslastung der Shader-ALUs gegenüber Cayman gar nicht steigt? Bei einem auf 2048 SPs aufgeblähtem Cayman würde die Auslastung ja wahrscheinlich sinken. GCN könnte nun der Weg sein, mit dem man die Anzahl an Recheneinheiten steigern kann, ohne deren Auslastung zu senken.
"Far behind expectations" wäre eine Performancesteigerung von 40-50% ja nicht gerade. Ich persönlich habe auf 60-70% gehofft und mit 40-70% gerechnet.

@deekey777: Hat er echt 880 GHz geschrieben? Dann meint er bestimmt auch 200 kW.

Mit 880 MHz und ohne Steigerung der Auslastung wären die Verhältnisse dann:
Rechenleistung: 1,33x
Texelfüllrate: 1,33x
Speicherbandbreite: 1,5x
Rest: 1x

Wenn man nun das geometrische Mittel bildet (hat sich in der Vergangenheit als gutes Maß erwiesen) und die gennanten Punkte gleich gewichtet, kommt man auf gerade mal 28% Performancesteigerung zur HD 6970. Also ein Niveau, was man bereits mit einer auf 850-900 MHz übertakteten GeForce GTX 580 erreicht.